このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240612となっている論文です。

PDF登録状況(公開日: 20240612)

TitleAuthorsAbstract論文公表日・翻訳日
# OT-VP:テスト時間適応のための最適輸送誘導ビジュアルプロンプト

OT-VP: Optimal Transport-guided Visual Prompting for Test-Time Adaptation ( http://arxiv.org/abs/2407.09498v1 )

ライセンス: Link先を確認
Yunbei Zhang, Akshay Mehra, Jihun Hamm, (参考訳) 視覚変換器(ViT)は、表現の学習において顕著な能力を示してきたが、その性能は目に見えない領域に適用すると損なわれる。 以前の手法では、トレーニングフェーズ中に迅速な学習を行うか、エントロピーの最小化を通じてテスト時にモデルパラメータを変更するかのいずれかであった。 前者はラベルなしのターゲットデータを見落としていることが多いが、後者はドメインシフトを完全に解決していない。 本研究では, 最適輸送誘導型テストタイムビジュアル・プロンプティング(OT-VP)を用いて, テスト時の迅速な学習を活用して, トレーニングプロセスにアクセスしたり, 事前学習したモデルパラメータを変更することなく, ターゲットドメインとソースドメインを整列させることにより, これらの問題に対処する。 この方法は、最適輸送距離を最適化することにより、対象領域の普遍的な視覚的プロンプトを学習することを含む。 4つのプロンプトトークンが学習されただけで、OT-VPは3つのベンチマークデータセット上のシングルソースおよびマルチソース設定の平均精度を5.0\%と1.5\%に向上させ、それぞれ1.2\times$と1.5\times$の最先端メソッドの改善を達成した。

While Vision Transformers (ViTs) have demonstrated remarkable capabilities in learning representations, their performance is compromised when applied to unseen domains. Previous methods either engage in prompt learning during the training phase or modify model parameters at test time through entropy minimization. The former often overlooks unlabeled target data, while the latter doesn't fully address domain shifts. In this work, our approach, Optimal Transport-guided Test-Time Visual Prompting (OT-VP), handles these problems by leveraging prompt learning at test time to align the target and source domains without accessing the training process or altering pre-trained model parameters. This method involves learning a universal visual prompt for the target domain by optimizing the Optimal Transport distance. With just four prompt tokens learned, OT-VP achieves a $5.0\%$ and $1.5\%$ increase in averaged accuracy across single-source and multi-source settings on three benchmark datasets, which is $1.2\times$ and $1.5\times$ the improvement of the state-of-the-art method, respectively.
翻訳日:2024-07-22 13:38:25 公開日:2024-06-12
# キュレートされたデータを用いた自己消費生成モデルによる人選好の最適化

Self-Consuming Generative Models with Curated Data Provably Optimize Human Preferences ( http://arxiv.org/abs/2407.09499v1 )

ライセンス: Link先を確認
Damien Ferbach, Quentin Bertrand, Avishek Joey Bose, Gauthier Gidel, (参考訳) 生成モデルの急速な進歩により、生成品質が飛躍的に向上し、合成データと実データの境界線が曖昧になった。 Webスケールのデータセットは、現在、合成データによる避けられない汚染の傾向にあり、将来生成されたモデルのトレーニングに直接影響を与えている。 既に、自己消費生成モデル(つまり反復的再学習)の理論的な結果が文献に現れており、モデル崩壊または安定性は、各再学習ステップで使用されるデータの割合に応じて可能であることを示している。 しかし、実際には、合成データは人からのフィードバックを受け、ユーザーが利用し、オンラインにアップロードする前にキュレーションされることが多い。 例えば、Stable DiffusionやMidjourneyのような一般的なテキストから画像への生成モデルの多くのインターフェースは、あるクエリに対するイメージのバリエーションを生成し、最終的にはユーザがキュレートする。 本稿では,データキュレーションが生成モデルの反復的再学習に与える影響を理論的に検討し,これを<emph{implicit preference optimization} とみなすことができることを示す。 しかし、標準的な選好最適化とは異なり、生成モデルは対比較に必要な報酬関数や負のサンプルにアクセスできない。 さらに,本研究では,サンプルのみに,密度関数へのアクセスは不要である。 報奨モデルに従ってデータをキュレートすると、反復的再訓練手順の期待報酬が最大になることを示す。 さらに,各ステップにおける実データの正の分数を用いた場合,再学習ループの安定性に関する理論的結果を提供する。 最後に、合成データセットおよびCIFAR10上で、そのような手順が報酬モデルのバイアスを増幅することを示す。

The rapid progress in generative models has resulted in impressive leaps in generation quality, blurring the lines between synthetic and real data. Web-scale datasets are now prone to the inevitable contamination by synthetic data, directly impacting the training of future generated models. Already, some theoretical results on self-consuming generative models (a.k.a., iterative retraining) have emerged in the literature, showcasing that either model collapse or stability could be possible depending on the fraction of generated data used at each retraining step. However, in practice, synthetic data is often subject to human feedback and curated by users before being used and uploaded online. For instance, many interfaces of popular text-to-image generative models, such as Stable Diffusion or Midjourney, produce several variations of an image for a given query which can eventually be curated by the users. In this paper, we theoretically study the impact of data curation on iterated retraining of generative models and show that it can be seen as an \emph{implicit preference optimization mechanism}. However, unlike standard preference optimization, the generative model does not have access to the reward function or negative samples needed for pairwise comparisons. Moreover, our study doesn't require access to the density function, only to samples. We prove that, if the data is curated according to a reward model, then the expected reward of the iterative retraining procedure is maximized. We further provide theoretical results on the stability of the retraining loop when using a positive fraction of real data at each step. Finally, we conduct illustrative experiments on both synthetic datasets and on CIFAR10 showing that such a procedure amplifies biases of the reward model.
翻訳日:2024-07-22 13:38:25 公開日:2024-06-12
# 6Gと将来ネットワークにおけるAI対応スペクトル管理の体系的文献レビュー

Systematic Literature Review of AI-enabled Spectrum Management in 6G and Future Networks ( http://arxiv.org/abs/2407.10981v1 )

ライセンス: Link先を確認
Bushra Sabir, Shuiqiao Yang, David Nguyen, Nan Wu, Alsharif Abuadbba, Hajime Suzuki, Shangqi Lai, Wei Ni, Ding Ming, Surya Nepal, (参考訳) 人工知能(AI)は、DeepMindの医療画像やTeslaの自動運転車など、医療、金融、サイバーセキュリティといった様々な分野で大きく進歩している。 5Gから6Gへの通信の移行に伴って、データ処理やネットワーク最適化、セキュリティといった複雑な要求に対して、AIの統合は不可欠である。 進行中の研究にもかかわらず、AISM(Spectrum Management)の強化にはギャップがある。 従来のスペクトル管理方法は、ダイナミックで複雑な要求のために6Gでは不十分であり、スペクトル最適化、セキュリティ、ネットワーク効率にAIが不可欠である。 本研究は, このギャップを次のように解決することを目的としている。 i)AISM方法論の体系的レビューを行い,学習モデル,データ処理技術,パフォーマンス指標に着目した。 (II)AISMコンテキスト内のAIおよび従来のネットワーク脅威に関連するセキュリティとプライバシの懸念を検討する。 体系的文献レビュー(SLR)手法を用いて,110の初等研究を慎重に分析した。 (a)スペクトル管理におけるAIの有用性を同定する。 b)AIアプローチの分類法を開発する。 (c) 使用されるデータセットとパフォーマンスメトリクスを分類する。 (d) セキュリティ及びプライバシーの脅威及び対策の詳細。 我々の研究結果は、重要なAISMシステムにおけるAIの使用不足、計算リソースの要求、透明性の問題、現実のデータセットの必要性、セキュリティとプライバシ研究の不均衡、テストベッド、ベンチマーク、セキュリティ分析ツールの欠如といった課題を明らかにした。 これらの課題に対処することは、AIが6G技術を進化させる可能性の最大化に不可欠である。

Artificial Intelligence (AI) has advanced significantly in various domains like healthcare, finance, and cybersecurity, with successes such as DeepMind's medical imaging and Tesla's autonomous vehicles. As telecommunications transition from 5G to 6G, integrating AI is crucial for complex demands like data processing, network optimization, and security. Despite ongoing research, there's a gap in consolidating AI-enabled Spectrum Management (AISM) advancements. Traditional spectrum management methods are inadequate for 6G due to its dynamic and complex demands, making AI essential for spectrum optimization, security, and network efficiency. This study aims to address this gap by: (i) Conducting a systematic review of AISM methodologies, focusing on learning models, data handling techniques, and performance metrics. (ii) Examining security and privacy concerns related to AI and traditional network threats within AISM contexts. Using the Systematic Literature Review (SLR) methodology, we meticulously analyzed 110 primary studies to: (a) Identify AI's utility in spectrum management. (b) Develop a taxonomy of AI approaches. (c) Classify datasets and performance metrics used. (d) Detail security and privacy threats and countermeasures. Our findings reveal challenges such as under-explored AI usage in critical AISM systems, computational resource demands, transparency issues, the need for real-world datasets, imbalances in security and privacy research, and the absence of testbeds, benchmarks, and security analysis tools. Addressing these challenges is vital for maximizing AI's potential in advancing 6G technology.
翻訳日:2024-07-22 12:49:16 公開日:2024-06-12
# 適応型ロボットアーム制御のための深部強化学習の最適化

Optimizing Deep Reinforcement Learning for Adaptive Robotic Arm Control ( http://arxiv.org/abs/2407.02503v1 )

ライセンス: Link先を確認
Jonaid Shianifar, Michael Schukat, Karl Mason, (参考訳) 本稿では,7自由度(DOF)を用いたロボットアーム制御の文脈において,木構造パーゼン推定器(TPE)を用いたソフトアクタクリティカル(SAC)アルゴリズムとPPOアルゴリズムのハイパーパラメータ最適化について検討する。 その結果,アルゴリズム性能が大幅に向上し,TPEはSACの成功率を10.48ポイント,PPOは34.28ポイント向上し,50Kエピソードのトレーニングモデルが得られた。 さらに、TPEは、PPOが最大報酬の95%以内の報酬に収束することを可能にする。 また、SACのこの改善はTPEを使わずに80%高速である。 本研究は,高度ハイパーパラメータ最適化が複雑なロボット作業における深部強化学習アルゴリズムの効率性と成功に及ぼす影響を明らかにするものである。

In this paper, we explore the optimization of hyperparameters for the Soft Actor-Critic (SAC) and Proximal Policy Optimization (PPO) algorithms using the Tree-structured Parzen Estimator (TPE) in the context of robotic arm control with seven Degrees of Freedom (DOF). Our results demonstrate a significant enhancement in algorithm performance, TPE improves the success rate of SAC by 10.48 percentage points and PPO by 34.28 percentage points, where models trained for 50K episodes. Furthermore, TPE enables PPO to converge to a reward within 95% of the maximum reward 76% faster than without TPE, which translates to about 40K fewer episodes of training required for optimal performance. Also, this improvement for SAC is 80% faster than without TPE. This study underscores the impact of advanced hyperparameter optimization on the efficiency and success of deep reinforcement learning algorithms in complex robotic tasks.
翻訳日:2024-07-07 13:24:39 公開日:2024-06-12
# トロイの木馬BERTモデルにおけるマルチヘッドアテンションの解析

Analyzing Multi-Head Attention on Trojan BERT Models ( http://arxiv.org/abs/2406.16925v1 )

ライセンス: Link先を確認
Jingwei Wang, (参考訳) 本稿では,トランスフォーマーモデルにおけるマルチヘッドアテンションの挙動について検討し,特に感情分析の文脈における良性モデルとトロイの木馬モデルの違いに着目した。 トロイの木馬攻撃はモデルが正常にクリーンな入力で動作させるが、事前に定義されたトリガーを含む入力が提示されたときに誤分類を示す。 本研究では,トロイの木馬とベニグニグニグニグニグニグナグニグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグナグ

This project investigates the behavior of multi-head attention in Transformer models, specifically focusing on the differences between benign and trojan models in the context of sentiment analysis. Trojan attacks cause models to perform normally on clean inputs but exhibit misclassifications when presented with inputs containing predefined triggers. We characterize attention head functions in trojan and benign models, identifying specific 'trojan' heads and analyzing their behavior.
翻訳日:2024-07-01 06:31:46 公開日:2024-06-12
# ファシック画像表現学習に基づくディープラーニングによるウェアラブル型リアルタイムグルコースモニタリングの強化

Enhancing Wearable based Real-Time Glucose Monitoring via Phasic Image Representation Learning based Deep Learning ( http://arxiv.org/abs/2406.16926v1 )

ライセンス: Link先を確認
Yidong Zhu, Nadia B Aimandi, Mohammad Arif Ul Alam, (参考訳) 米国では、成人の3分の1以上がプレ糖尿病であり、80%は彼らの状態に気づいていない。 これにより、2型糖尿病と関連する心臓疾患を予防するために、より良いグルコースモニタリングの必要性が弱まる。 既存のウェアラブルグルコースモニターは、小さなデータセットで訓練されたモデルの欠如によって制限されている。 本研究では, 限られたデータセットであっても, ウェアラブルデバイスデータからのグルコースレベルの予測精度を向上させるために, 周波数領域における修正繰り返しプロットを用いた新しい機械学習手法を提案する。 この技術は、高度な信号処理と機械学習を組み合わせて、より意味のある特徴を抽出する。 提案手法を過去のデータを用いて既存モデルと比較し, リアルタイム間質性グルコース濃度の予測において, 現在の87%の精度ベンチマークを超えていることを示した。

In the U.S., over a third of adults are pre-diabetic, with 80\% unaware of their status. This underlines the need for better glucose monitoring to prevent type 2 diabetes and related heart diseases. Existing wearable glucose monitors are limited by the lack of models trained on small datasets, as collecting extensive glucose data is often costly and impractical. Our study introduces a novel machine learning method using modified recurrence plots in the frequency domain to improve glucose level prediction accuracy from wearable device data, even with limited datasets. This technique combines advanced signal processing with machine learning to extract more meaningful features. We tested our method against existing models using historical data, showing that our approach surpasses the current 87\% accuracy benchmark in predicting real-time interstitial glucose levels.
翻訳日:2024-07-01 06:31:46 公開日:2024-06-12
# マルチラベルECG分類のための多解相互学習ネットワーク

A Multi-Resolution Mutual Learning Network for Multi-Label ECG Classification ( http://arxiv.org/abs/2406.16928v1 )

ライセンス: Link先を確認
Wei Huang, Ning Wang, Panpan Feng, Haiyan Wang, Zongmin Wang, Bing Zhou, (参考訳) 心臓の電気生理学的活動を記録する心電図(ECG)は、これらの疾患を診断するための重要なツールとなっている。 近年,深層学習技術の適用により,ECG信号の分類性能が大幅に向上している。 異なる時間スケールで情報をキャプチャして処理する多分解能特徴分析は、ECG信号の微妙な変化や全体的な傾向を抽出し、ユニークな利点を示す。 しかし、単純な特徴付加や連結に基づく一般的な多分解能解析手法は、低分解能特徴の無視を招き、モデル性能に影響を及ぼす可能性がある。 本稿では,Multi-Resolution Mutual Learning Network (MRM-Net)を提案する。 MRM-Netはデュアルレゾリューションアテンションアーキテクチャと機能補完機構を備えている。 二重分解能アテンションアーキテクチャは、高分解能および低分解能の特徴を並列に処理する。 注意機構を通じて、高解像度で低解像度の分岐は微妙な波形変化や全体のリズムパターンに焦点を合わせることができ、ECG信号における重要な特徴を捉える能力を高めることができる。 一方、特徴補完機構は、特徴抽出器の各層における相互特徴学習を導入する。 これにより、異なる解像度の機能が互いに強化され、情報損失が減少し、モデルの性能と堅牢性が向上する。 PTB-XLとCPSC2018データセットの実験により、MRM-NetはマルチラベルECG分類性能において既存の手法よりも大幅に優れていることが示された。 私たちのフレームワークのコードはhttps://github.com/wxhdf/MRM.orgで公開されます。

Electrocardiograms (ECG), which record the electrophysiological activity of the heart, have become a crucial tool for diagnosing these diseases. In recent years, the application of deep learning techniques has significantly improved the performance of ECG signal classification. Multi-resolution feature analysis, which captures and processes information at different time scales, can extract subtle changes and overall trends in ECG signals, showing unique advantages. However, common multi-resolution analysis methods based on simple feature addition or concatenation may lead to the neglect of low-resolution features, affecting model performance. To address this issue, this paper proposes the Multi-Resolution Mutual Learning Network (MRM-Net). MRM-Net includes a dual-resolution attention architecture and a feature complementary mechanism. The dual-resolution attention architecture processes high-resolution and low-resolution features in parallel. Through the attention mechanism, the high-resolution and low-resolution branches can focus on subtle waveform changes and overall rhythm patterns, enhancing the ability to capture critical features in ECG signals. Meanwhile, the feature complementary mechanism introduces mutual feature learning after each layer of the feature extractor. This allows features at different resolutions to reinforce each other, thereby reducing information loss and improving model performance and robustness. Experiments on the PTB-XL and CPSC2018 datasets demonstrate that MRM-Net significantly outperforms existing methods in multi-label ECG classification performance. The code for our framework will be publicly available at https://github.com/wxhdf/MRM.
翻訳日:2024-07-01 06:31:46 公開日:2024-06-12
# ドローン配送パッケージ問題における量子とシミュレーションアニールのテスト

Testing Quantum and Simulated Annealers on the Drone Delivery Packing Problem ( http://arxiv.org/abs/2406.08430v1 )

ライセンス: Link先を確認
Sara Tarquini, Daniele Dragoni, Matteo Vandelli, Francesco Tudisco, (参考訳) ドローンを使って人間関連のタスクを遂行することは、防衛、災害対応、農業、医療など、さまざまな分野で重要な役割を果たしている。 ドローン配送パッキング問題(DDPP)は、人的介入を減らす必要性に加えて、配送プロセスの需要の増加に対応するロジスティクスの文脈で発生する。 DDPPは通常、特定のバッテリ制約でドローンの使用を最小限に抑え、固定位置とエネルギー予算でタイムリーに一貫した配送を確保することを目的として、組合せ最適化問題として定式化されている。 本研究では,古典的および量子的アニール法 (QA) の性能をテストするために, DDPP を2次非制約二元最適化 (QUBO) 問題として2つの定式化を提案する。 我々は、この最適化問題に対する量子アニールの利点と限界を示す広範な実験を行い、シミュレーションアニール(SA)や古典的最先端のグローバル最適化ツールと比較した。

Using drones to perform human-related tasks can play a key role in various fields, such as defense, disaster response, agriculture, healthcare, and many others. The drone delivery packing problem (DDPP) arises in the context of logistics in response to an increasing demand in the delivery process along with the necessity of lowering human intervention. The DDPP is usually formulated as a combinatorial optimization problem, aiming to minimize drone usage with specific battery constraints while ensuring timely consistent deliveries with fixed locations and energy budget. In this work, we propose two alternative formulations of the DDPP as a quadratic unconstrained binary optimization (QUBO) problem, in order to test the performance of classical and quantum annealing (QA) approaches. We perform extensive experiments showing the advantages as well as the limitations of quantum annealers for this optimization problem, as compared to simulated annealing (SA) and classical state-of-the-art commercial tools for global optimization.
翻訳日:2024-06-23 13:45:35 公開日:2024-06-12
# パルス発振の位相同期検出のためのエントロピー統計的アプローチ:生体信号同期解析への応用

Entropy-statistical approach to phase-locking detection of pulse oscillations: application for the analysis of biosignal synchronization ( http://arxiv.org/abs/2406.12906v1 )

ライセンス: Link先を確認
Petr Boriskov, Vadim Putrolaynen, Andrei Velichko, Kristina Peltonen, (参考訳) 本研究では,2つのパルス発振器の回路のダイナミクスをモデル化した例を用いて,発振器系の同期解析法を提案する。 同期の動的特性はファジィエントロピー(ファジィエントロピー)であり、位相同期間隔におけるパルス周期(サブハーモニック比、SHR)の比率からなる時系列を計算した。 低エントロピー値は強い同期を示すが、高エントロピー値は2つの発振器間の弱い同期を示す。 同期状態のエントロピーマップを用いて、回路の同期モードを効果的に可視化する。 さらに、SHR 時系列の埋め込みベクトル長に対する FuzzyEn の依存性に基づいて同期状態の分類を提案する。 ラット海馬の局所野電位の位相-位相結合リズムの例を用いて、非相対性(非スパイク)型信号を解析するためのこの方法の拡張を図示した。 有理分数とパルス信号形式を用いたエントロピー統計的手法は,生体信号の同期解析と,そのアルゴリズムをモバイルデジタルプラットフォームに実装することを約束する。

In this study a new method for analyzing synchronization in oscillator systems is proposed using the example of modeling the dynamics of a circuit of two resistively coupled pulse oscillators. The dynamic characteristic of synchronization is fuzzy entropy (FuzzyEn) calculated a time series composed of the ratios of the number of pulse periods (subharmonic ratio, SHR) during phase-locking intervals. Low entropy values indicate strong synchronization, whereas high entropy values suggest weak synchronization between the two oscillators. This method effectively visualizes synchronized modes of the circuit using entropy maps of synchronization states. Additionally, a classification of synchronization states is proposed based on the dependencies of FuzzyEn on the length of embedding vectors of SHR time series. An extension of this method for analyzing non-relaxation (non-spike) type signals is illustrated using the example of phase-phase coupling rhythms of local field potential of rat hippocampus. The entropy-statistical approach using rational fractions and pulse signal forms makes this method promising for analyzing biosignal synchronization and implementing the algorithm in mobile digital platforms.
翻訳日:2024-06-23 13:15:04 公開日:2024-06-12
# カプランとチンチラスケーリング法の再検討

Reconciling Kaplan and Chinchilla Scaling Laws ( http://arxiv.org/abs/2406.12907v1 )

ライセンス: Link先を確認
Tim Pearce, Jinyeop Song, (参考訳) Kaplan et al [2020] (`Kaplan') と Hoffmann et al [2022] (`Chinchilla') は、次の言語予測に基づいてトレーニングされたトランスフォーマーのスケーリング挙動を研究した。 これらの研究は、パラメータ(N$)とトレーニングトークン(D$)の数を、与えられた計算予算(C$)の最小損失を達成するために設定する方法について、様々な見積もりを生み出した。 Kaplan: $N_\text{optimal} \propto C^{0.73}$, Chinchilla: $N_\text{optimal} \propto C^{0.50}$ このノートは、これらの不一致の多くは、総パラメータではなく非埋め込みを数えることと、その分析を小さなスケールで行うことによるものである。 これらの条件下でのチンチラの研究をシミュレーションすると、カプランに近い偏りのあるスケーリング係数が生成される。 したがって、このメモは、カプランの元々の過大評価の原因を説明することによって、チンチラのスケーリング係数を再確認する。

Kaplan et al. [2020] (`Kaplan') and Hoffmann et al. [2022] (`Chinchilla') studied the scaling behavior of transformers trained on next-token language prediction. These studies produced different estimates for how the number of parameters ($N$) and training tokens ($D$) should be set to achieve the lowest possible loss for a given compute budget ($C$). Kaplan: $N_\text{optimal} \propto C^{0.73}$, Chinchilla: $N_\text{optimal} \propto C^{0.50}$. This note finds that much of this discrepancy can be attributed to Kaplan counting non-embedding rather than total parameters, combined with their analysis being performed at small scale. Simulating the Chinchilla study under these conditions produces biased scaling coefficients close to Kaplan's. Hence, this note reaffirms Chinchilla's scaling coefficients, by explaining the cause of Kaplan's original overestimation.
翻訳日:2024-06-23 13:15:04 公開日:2024-06-12
# 因果レンズによるロバストネス評価のためのマルチモーダル時系列予測モデル(MM-TSFM)

Rating Multi-Modal Time-Series Forecasting Models (MM-TSFM) for Robustness Through a Causal Lens ( http://arxiv.org/abs/2406.12908v1 )

ライセンス: Link先を確認
Kausik Lakkaraju, Rachneet Kaur, Zhen Zeng, Parisa Zehtabi, Sunandita Patra, Biplav Srivastava, Marco Valtorta, (参考訳) AIシステムは、その脆弱さで悪名高い。マイナーな入力変更は、大きな出力スイングを引き起こす可能性がある。 このようなシステムが金融などの重要な分野に配備される場合、不確実な振る舞いの結果は深刻になる可能性がある。 本稿では、ノイズや不正なデータによる不正確さが誤った予測につながり、アナリスト、投資家、トレーダーなどの利害関係者に影響を与えるマルチモーダルな時系列予測に焦点を当てる。 近年、数値データ以外にも、高度な視覚モデルを用いてグラフィカル変換を用いてより良い性能を実現することが示されている。 本稿では,マルチモーダル時系列予測モデル(MM-TSFM)のロバスト性を評価するための評価手法を提案する。 本研究では, 各種数値・マルチモーダル予測モデル(制御・摂動の入力設定6種, データ分散10種, データ1年で6つの主要在庫からの時系列, 時系列予測5種)に新たな評価手法を適用し, 頑健な予測モデルと強みの文脈について考察する。 本研究の範囲内では,従来の数値予測よりも精度が高いマルチモーダル(数値+視覚)予測が,多様な環境でもより堅牢であることがわかった。 我々の研究は、時系列予測の利害関係者が信頼(損益)と精度の次元に沿ったモデルの振る舞いを理解するのに役立ち、評価手法を用いて予測する適切なモデルを選択することで、意思決定の改善につながります。

AI systems are notorious for their fragility; minor input changes can potentially cause major output swings. When such systems are deployed in critical areas like finance, the consequences of their uncertain behavior could be severe. In this paper, we focus on multi-modal time-series forecasting, where imprecision due to noisy or incorrect data can lead to erroneous predictions, impacting stakeholders such as analysts, investors, and traders. Recently, it has been shown that beyond numeric data, graphical transformations can be used with advanced visual models to achieve better performance. In this context, we introduce a rating methodology to assess the robustness of Multi-Modal Time-Series Forecasting Models (MM-TSFM) through causal analysis, which helps us understand and quantify the isolated impact of various attributes on the forecasting accuracy of MM-TSFM. We apply our novel rating method on a variety of numeric and multi-modal forecasting models in a large experimental setup (six input settings of control and perturbations, ten data distributions, time series from six leading stocks in three industries over a year of data, and five time-series forecasters) to draw insights on robust forecasting models and the context of their strengths. Within the scope of our study, our main result is that multi-modal (numeric + visual) forecasting, which was found to be more accurate than numeric forecasting in previous studies, can also be more robust in diverse settings. Our work will help different stakeholders of time-series forecasting understand the models` behaviors along trust (robustness) and accuracy dimensions to select an appropriate model for forecasting using our rating method, leading to improved decision-making.
翻訳日:2024-06-23 13:15:04 公開日:2024-06-12
# 原子性物質モデリングのためのグラフ基礎モデルのスケーラブルなトレーニング:HydraGNNを用いたケーススタディ

Scalable Training of Graph Foundation Models for Atomistic Materials Modeling: A Case Study with HydraGNN ( http://arxiv.org/abs/2406.12909v1 )

ライセンス: Link先を確認
Massimiliano Lupo Pasini, Jong Youl Choi, Kshitij Mehta, Pei Zhang, David Rogers, Jonghyun Bae, Khaled Z. Ibrahim, Ashwin M. Aji, Karl W. Schulz, Jorda Polo, Prasanna Balaprakash, (参考訳) 我々は,マルチヘッドグラフ畳み込みニューラルネットワークアーキテクチャであるHydraGNNを用いて,スケーラブルグラフ基盤モデル(GFM)の開発とトレーニングを行う。 HydraGNNは、トレーニングスケールとデータの多様性の両方において、グラフニューラルネットワーク(GNN)の境界を広げている。 メッセージパッシングアルゴリズムを抽象化し、GNNの畳み込みを定義するアルゴリズムの革新を再現および比較できる。 この研究は、何億ものグラフからなるデータセット上の何万ものGPUへのGFMトレーニングのスケールアップを可能にする一連の最適化について論じる。 GFMはマルチタスク学習(MTL)を用いて、全エネルギーや原子力などの原子構造のグラフレベルとノードレベルの特性を同時に学習する。 米国エネルギー省(US-DOE)の2つのスーパーコンピュータ(National Energy Research Scientific Computing CenterのPerlmutter petascale systemとOak Ridge National LaboratoryのFrontier exascale system)で学んだ教訓と合わせて、1億5000万以上の原子構造をトレーニングに利用した。 HydraGNNアーキテクチャにより、GFMは、Perlmutter上の2,000GPUとFrontier上の16,000GPUを使用して、ほぼ直線的な強力なスケーリングパフォーマンスを達成することができる。 ハイパーパラメータ最適化(HPO)はフロンティアの64,000以上のGPU上で実行され、高い精度でGFMアーキテクチャを選択した。 早期停止は各GFMアーキテクチャーに適用され、極端に大規模なタスクを行う際のエネルギー意識が得られた。 最高級のGFMアーキテクチャのアンサンブルの訓練は、アンサンブル学習を伴う不確実量化(UQ)能力を確立するために収束するまで続けられた。 我々の貢献は、AIが加速する材料発見と設計を可能にするために、大規模計算資源を使用して、GFMを迅速に開発、訓練、展開するための扉を開く。

We present our work on developing and training scalable graph foundation models (GFM) using HydraGNN, a multi-headed graph convolutional neural network architecture. HydraGNN expands the boundaries of graph neural network (GNN) in both training scale and data diversity. It abstracts over message passing algorithms, allowing both reproduction of and comparison across algorithmic innovations that define convolution in GNNs. This work discusses a series of optimizations that have allowed scaling up the GFM training to tens of thousands of GPUs on datasets that consist of hundreds of millions of graphs. Our GFMs use multi-task learning (MTL) to simultaneously learn graph-level and node-level properties of atomistic structures, such as the total energy and atomic forces. Using over 150 million atomistic structures for training, we illustrate the performance of our approach along with the lessons learned on two United States Department of Energy (US-DOE) supercomputers, namely the Perlmutter petascale system at the National Energy Research Scientific Computing Center and the Frontier exascale system at Oak Ridge National Laboratory. The HydraGNN architecture enables the GFM to achieve near-linear strong scaling performance using more than 2,000 GPUs on Perlmutter and 16,000 GPUs on Frontier. Hyperparameter optimization (HPO) was performed on over 64,000 GPUs on Frontier to select GFM architectures with high accuracy. Early stopping was applied on each GFM architecture for energy awareness in performing such an extreme-scale task. The training of an ensemble of highest-ranked GFM architectures continued until convergence to establish uncertainty quantification (UQ) capabilities with ensemble learning. Our contribution opens the door for rapidly developing, training, and deploying GFMs using large-scale computational resources to enable AI-accelerated materials discovery and design.
翻訳日:2024-06-23 13:15:04 公開日:2024-06-12
# 地球システム科学における説明可能な人工知能の応用

Applications of Explainable artificial intelligence in Earth system science ( http://arxiv.org/abs/2406.11882v1 )

ライセンス: Link先を確認
Feini Huang, Shijie Jiang, Lu Li, Yongkun Zhang, Ye Zhang, Ruqing Zhang, Qingliang Li, Danxi Li, Wei Shangguan, Yongjiu Dai, (参考訳) 近年,人工知能(AI)の影響が急速に加速し,適切に活用すれば,地球システム科学(ESS)の発展が促進されることが期待されている。 AIをESSに適用する場合、重要なハードルは、AIアルゴリズムの複雑さから生じるブラックボックスの本質的な問題である解釈可能性の問題にある。 これを解決するために、説明可能なAI(XAI)は、モデルをより透明にする強力なツールセットを提供する。 このレビューの目的は2つある: まず、ESS学者、特に新参者に対して、XAIの基本的な理解を提供すること、そして、将来の研究進歩を刺激するプライマーとして機能すること、そして2つ目は、ESS専門家がAIの利点を受け入れることを奨励することである。 まず、XAIの概念と典型的な方法の解明から始める。 次に、ESS文学におけるXAI応用のレビューを掘り下げ、XAIがAIモデル決定とのコミュニケーションを促進し、モデル診断を改善し、科学的洞察を明らかにする上で果たした重要な役割を強調します。 我々は、XAIがESS内で直面している4つの重要な課題を特定し、解決策を提案する。 さらに,多面的視点の包括的図示も提供する。 ESSのユニークな課題を考えると、AIとドメイン固有の知識をシームレスに統合する解釈可能なハイブリッドアプローチは、ESSにおけるAIの有用性を高めるための有望な方法であるようだ。 AIモデルは未知を探索し、XAIは説明を提供することでギャップを埋める。

In recent years, artificial intelligence (AI) rapidly accelerated its influence and is expected to promote the development of Earth system science (ESS) if properly harnessed. In application of AI to ESS, a significant hurdle lies in the interpretability conundrum, an inherent problem of black-box nature arising from the complexity of AI algorithms. To address this, explainable AI (XAI) offers a set of powerful tools that make the models more transparent. The purpose of this review is twofold: First, to provide ESS scholars, especially newcomers, with a foundational understanding of XAI, serving as a primer to inspire future research advances; second, to encourage ESS professionals to embrace the benefits of AI, free from preconceived biases due to its lack of interpretability. We begin with elucidating the concept of XAI, along with typical methods. We then delve into a review of XAI applications in the ESS literature, highlighting the important role that XAI has played in facilitating communication with AI model decisions, improving model diagnosis, and uncovering scientific insights. We identify four significant challenges that XAI faces within the ESS, and propose solutions. Furthermore, we provide a comprehensive illustration of multifaceted perspectives. Given the unique challenges in ESS, an interpretable hybrid approach that seamlessly integrates AI with domain-specific knowledge appears to be a promising way to enhance the utility of AI in ESS. A visionary outlook for ESS envisions a harmonious blend where process-based models govern the known, AI models explore the unknown, and XAI bridges the gap by providing explanations.
翻訳日:2024-06-20 00:55:56 公開日:2024-06-12
# Data Petri Nets meet Probabilistic Programming (Extended Version)

Data Petri Nets meet Probabilistic Programming (Extended version) ( http://arxiv.org/abs/2406.11883v1 )

ライセンス: Link先を確認
Martin Kuhn, Joscha Grüger, Christoph Matheja, Andrey Rivkin, (参考訳) 確率プログラミング(英: Probabilistic Programming、PP)は、通常のプログラムのような統計モデルを書き、それらのプログラムを実行してシミュレーションを行い、強力な推論エンジンを用いてそれらの統計挙動を分析し、精査するプログラミングパラダイムである。 本稿では,データ認識プロセスの推論にPPを活用するための一歩を踏み出した。 そこで本研究では,データペトリネット(DPN)をPP言語で記述されたモデルに体系的に翻訳し,その特徴をほとんどのPPシステムでサポートしている。 我々は,我々の翻訳が健全であることを示し,DPNをシミュレートするための統計的保証を提供する。 さらに,プロセスマイニング作業にPPをどのように利用できるか,翻訳のプロトタイプ実装について報告する。 また、提案した翻訳と利用可能なPPツールに基づいて、より容易にアプローチできる分析シナリオについても論じる。

Probabilistic programming (PP) is a programming paradigm that allows for writing statistical models like ordinary programs, performing simulations by running those programs, and analyzing and refining their statistical behavior using powerful inference engines. This paper takes a step towards leveraging PP for reasoning about data-aware processes. To this end, we present a systematic translation of Data Petri Nets (DPNs) into a model written in a PP language whose features are supported by most PP systems. We show that our translation is sound and provides statistical guarantees for simulating DPNs. Furthermore, we discuss how PP can be used for process mining tasks and report on a prototype implementation of our translation. We also discuss further analysis scenarios that could be easily approached based on the proposed translation and available PP tools.
翻訳日:2024-06-20 00:55:56 公開日:2024-06-12
# GenDistiller: 自己回帰生成モデルに基づく事前学習言語モデルの蒸留

GenDistiller: Distilling Pre-trained Language Models based on an Autoregressive Generative Model ( http://arxiv.org/abs/2406.09444v1 )

ライセンス: Link先を確認
Yingying Gao, Shilei Zhang, Chao Deng, Junlan Feng, (参考訳) HuBERTやWavLMのような事前訓練された音声言語モデルは、ラベルなしの音声データを自己教師付き学習に利用し、多くの下流タスクに強力な表現を提供する。 これらのモデルの成功にもかかわらず、メモリとコンピューティングリソースに対する高い要求は、リソース制限されたデバイス上のアプリケーションを妨げる。 そこで本稿では,より小規模な学生ネットワークによって,教師モデルの隠蔽表現を生成する新しい知識蒸留フレームワークであるGenDistillerを紹介する。 提案手法は,従来の隠蔽層を履歴として捉え,教師モデルの層間予測を自己回帰的に実施する。 SUPERBの実験では、自動回帰フレームワークを使わずに、GenDistillerをベースライン蒸留法よりも優れていることが判明した。 最終的に提案されたGenDistillerは、WavLMのサイズを82%削減する。

Pre-trained speech language models such as HuBERT and WavLM leverage unlabeled speech data for self-supervised learning and offer powerful representations for numerous downstream tasks. Despite the success of these models, their high requirements for memory and computing resource hinder their application on resource restricted devices. Therefore, this paper introduces GenDistiller, a novel knowledge distillation framework which generates the hidden representations of the pre-trained teacher model directly by a much smaller student network. The proposed method takes the previous hidden layer as history and implements a layer-by-layer prediction of the teacher model autoregressively. Experiments on SUPERB reveal the advantage of GenDistiller over the baseline distilling method without an autoregressive framework, with 33% fewer parameters, similar time consumption and better performance on most of the SUPERB tasks. Ultimately, the proposed GenDistiller reduces the size of WavLM by 82%.
翻訳日:2024-06-19 01:31:17 公開日:2024-06-12
# 言語に依存しない多対一音声翻訳のためのソフト言語同定

Soft Language Identification for Language-Agnostic Many-to-One End-to-End Speech Translation ( http://arxiv.org/abs/2406.10276v1 )

ライセンス: Link先を確認
Peidong Wang, Jian Xue, Jinyu Li, Junkun Chen, Aswin Shanmugam Subramanian, (参考訳) 言語に依存しない多対一の多対一音声翻訳モデルは、異なるソース言語からの音声信号をターゲット言語でテキストに変換することができる。 これらのモデルはソースコードの識別を必要としないため、ユーザーエクスペリエンスが向上する。 場合によっては、入力言語を付与または推定することができる。 私たちのゴールは、他の言語の品質を維持しながら、この追加の言語情報を使用することです。 我々は、単純で効果的な線形入力ネットワークを導入することで、これを実現する。 線形入力ネットワークはID行列として初期化され、モデルが元のモデルと同等かそれ以上に動作可能であることを保証する。 実験結果から,提案手法は多対一のSTモデルの言語非依存性を保ちながら,特定言語を効果的に拡張できることが示唆された。

Language-agnostic many-to-one end-to-end speech translation models can convert audio signals from different source languages into text in a target language. These models do not need source language identification, which improves user experience. In some cases, the input language can be given or estimated. Our goal is to use this additional language information while preserving the quality of the other languages. We accomplish this by introducing a simple and effective linear input network. The linear input network is initialized as an identity matrix, which ensures that the model can perform as well as, or better than, the original model. Experimental results show that the proposed method can successfully enhance the specified language, while keeping the language-agnostic ability of the many-to-one ST models.
翻訳日:2024-06-19 01:21:32 公開日:2024-06-12
# 複数制御型プロンプト長制御生成

Prompt-Based Length Controlled Generation with Multiple Control Types ( http://arxiv.org/abs/2406.10278v1 )

ライセンス: Link先を確認
Renlong Jie, Xiaojun Meng, Lifeng Shang, Xin Jiang, Qun Liu, (参考訳) 大規模言語モデル (LLM) は、幅広いNLPタスクにおいて強い性能を発揮したことから、大きな注目を集めている。 実際には、ユーザーは生成したテキストが特定の長さ範囲に収まることをしばしば期待しており、特にGPTスタイルのモデルにおいて、長さ制御された生成が重要なトピックとなっている。 既存の長さ制御法は主に、ターゲット長の"equal to"の単純な制御タイプに焦点を当てている。 そこで本研究では,異なる制御型で高精度な長さ制御生成を実現するためのプロンプトベース手法を提案する。 特に,ルールベース報酬モデルによって与えられる報酬信号を用いた強化学習(RL)とサンプルフィルタリングを採用し,特定の制御命令に従う出力を付与することで,モデルの長さ制御能力を向上する。 さらに、任意のユーザの入力を標準制御命令に解析するための標準プロンプト抽出器を導入する。 実験により,CNNDMやNYTなどの一般的な要約データセットにおいて,複数の制御型において,プロンプトベース長制御の精度を大幅に向上することが示された。 さらに、標準プロンプト抽出器とRL調整モデルの両方が、目に見えないプロンプトテンプレートに対して強力な一般化を示している。

Large language models (LLMs) have attracted great attention given their strong performance on a wide range of NLP tasks. In practice, users often expect generated texts to fall within a specific length range, making length controlled generation an important topic, especially for GPT-style models. Existing length control methods mostly focus on a simple control type of "equal to" a target length. Different from them, we propose a prompt-based method to achieve length controlled generation under different control types with high accuracy. In particular, we adopt reinforcement learning (RL) and sample filtering with the reward signal given by rule-based reward models, which enhances the length control ability of models by rewarding outputs that follow certain control instructions. In addition, we introduce a standard prompt extractor to parse arbitrary users' input into standard control instructions. Experiments show that our method significantly improves the accuracy of prompt-based length control on popular summarization datasets like CNNDM and NYT under multiple control types. Moreover, both the standard prompt extractor and RL-tuned model show strong generalization to unseen control prompt templates.
翻訳日:2024-06-19 01:21:32 公開日:2024-06-12
# LLMのコード生成によるパッケージ幻覚の包括的解析

We Have a Package for You! A Comprehensive Analysis of Package Hallucinations by Code Generating LLMs ( http://arxiv.org/abs/2406.10279v1 )

ライセンス: Link先を確認
Joseph Spracklen, Raveen Wijewickrama, A H M Nazmus Sakib, Anindya Maiti, Murtuza Jadliwala, (参考訳) PythonやJavaScriptのような人気のあるプログラミング言語が、中央集権的なパッケージリポジトリやオープンソースソフトウェアに依存していることと、コード生成の大規模言語モデル(LLM)の出現が組み合わさって、ソフトウェアサプライチェーンに対する新たなタイプの脅威、すなわちパッケージ幻覚を生み出した。 これらの幻覚は、LCMを使ってコードを生成する際に、事実に紛らわしいエラーから生じるもので、ソフトウェアサプライチェーンの整合性に重大な脅威をもたらす、新しい形のパッケージ混乱攻撃を表している。 本稿では,異なるプログラミング言語,設定,パラメータ間でパッケージの幻覚を厳密かつ包括的に評価し,LLMの異なる構成が誤ってパッケージのレコメンデーションを生成し,この現象の根本原因を特定する可能性について検討する。 2つのプログラミング言語と2つのユニークなプロンプトデータセットにまたがる16種類の人気コード生成モデルを使用して、576,000のコードサンプルを収集し、パッケージの幻覚を解析します。 その結果,全LSMで発生したパッケージの19.7%が幻覚的であり,205,474件の幻覚的パッケージ名の特異な例が報告されている。 また,RAG(Retrieval Augmented Generation)に基づく緩和戦略,自己検出フィードバック,教師付き微調整を実施・評価した。 これらの手法により、パッケージの幻覚は明らかに減少し、1モデルでの幻覚率は3%以下に低下した。 緩和努力は幻覚率の低減に有効であったが,本研究では,パッケージ幻覚は体系的かつ永続的な現象であり,LLMを生成する上で重要な課題であることを明らかにした。

The reliance of popular programming languages such as Python and JavaScript on centralized package repositories and open-source software, combined with the emergence of code-generating Large Language Models (LLMs), has created a new type of threat to the software supply chain: package hallucinations. These hallucinations, which arise from fact-conflicting errors when generating code using LLMs, represent a novel form of package confusion attack that poses a critical threat to the integrity of the software supply chain. This paper conducts a rigorous and comprehensive evaluation of package hallucinations across different programming languages, settings, and parameters, exploring how different configurations of LLMs affect the likelihood of generating erroneous package recommendations and identifying the root causes of this phenomena. Using 16 different popular code generation models, across two programming languages and two unique prompt datasets, we collect 576,000 code samples which we analyze for package hallucinations. Our findings reveal that 19.7% of generated packages across all the tested LLMs are hallucinated, including a staggering 205,474 unique examples of hallucinated package names, further underscoring the severity and pervasiveness of this threat. We also implemented and evaluated mitigation strategies based on Retrieval Augmented Generation (RAG), self-detected feedback, and supervised fine-tuning. These techniques demonstrably reduced package hallucinations, with hallucination rates for one model dropping below 3%. While the mitigation efforts were effective in reducing hallucination rates, our study reveals that package hallucinations are a systemic and persistent phenomenon that pose a significant challenge for code generating LLMs.
翻訳日:2024-06-19 01:21:32 公開日:2024-06-12
# Transferable Embedding Inversion Attack: モデルクエリなしのテキスト埋め込みにおけるプライバシリスクの発見

Transferable Embedding Inversion Attack: Uncovering Privacy Risks in Text Embeddings without Model Queries ( http://arxiv.org/abs/2406.10280v1 )

ライセンス: Link先を確認
Yu-Hsiang Huang, Yuche Tsai, Hsiang Hsiao, Hong-Yi Lin, Shou-De Lin, (参考訳) 本研究では,テキスト埋め込みに伴うプライバシーリスクについて検討し,攻撃者が元の埋め込みモデルにアクセスできないシナリオに着目した。 直接モデルアクセスを必要とする以前の研究とは対照的に、転送攻撃法を開発することにより、より現実的な脅威モデルを探究する。 このアプローチでは、サロゲートモデルを使用して被害者モデルの振る舞いを模倣し、攻撃者は直接アクセスすることなくテキスト埋め込みから機密情報を推測することができる。 様々な埋め込みモデルと臨床データセットを用いた実験により、当社の転送攻撃は従来の方法よりも大幅に優れており、埋め込み技術における潜在的なプライバシー上の脆弱性を明らかにし、セキュリティ対策の強化の必要性を強調している。

This study investigates the privacy risks associated with text embeddings, focusing on the scenario where attackers cannot access the original embedding model. Contrary to previous research requiring direct model access, we explore a more realistic threat model by developing a transfer attack method. This approach uses a surrogate model to mimic the victim model's behavior, allowing the attacker to infer sensitive information from text embeddings without direct access. Our experiments across various embedding models and a clinical dataset demonstrate that our transfer attack significantly outperforms traditional methods, revealing the potential privacy vulnerabilities in embedding technologies and emphasizing the need for enhanced security measures.
翻訳日:2024-06-19 01:21:32 公開日:2024-06-12
# 誤り訂正符号を用いた透かし言語モデル

Watermarking Language Models with Error Correcting Codes ( http://arxiv.org/abs/2406.10281v1 )

ライセンス: Link先を確認
Patrick Chao, Edgar Dobriban, Hamed Hassani, (参考訳) 大規模言語モデルの最近の進歩は、現実的な機械生成コンテンツの作成を可能にする。 ウォーターマーキング(Watermarking)は、人間のテキストと機械が生成したテキストを区別する、有望なアプローチである。 本稿では,エラー訂正コードを通じてこのような信号を符号化する透かしフレームワークを提案する。 提案手法は,ロバストなバイナリコード (RBC) 透かしと呼ばれ,元の確率分布に比較して歪みがなく,品質の劣化も生じない。 ベースモデルとインストラクションモデルに基づいて電子透かしを評価し、電子透かしが編集、削除、翻訳に堅牢であることを確認する。 我々は、透かしに関する情報理論的な視点、p値の検出と生成のための強力な統計テスト、理論的保証を提供する。 私たちの経験的発見は、私たちの透かしは速く、強力で、堅牢であり、最先端のものと好意的に比較していることを示唆しています。

Recent progress in large language models enables the creation of realistic machine-generated content. Watermarking is a promising approach to distinguish machine-generated text from human text, embedding statistical signals in the output that are ideally undetectable to humans. We propose a watermarking framework that encodes such signals through an error correcting code. Our method, termed robust binary code (RBC) watermark, introduces no distortion compared to the original probability distribution, and no noticeable degradation in quality. We evaluate our watermark on base and instruction fine-tuned models and find our watermark is robust to edits, deletions, and translations. We provide an information-theoretic perspective on watermarking, a powerful statistical test for detection and for generating p-values, and theoretical guarantees. Our empirical findings suggest our watermark is fast, powerful, and robust, comparing favorably to the state-of-the-art.
翻訳日:2024-06-19 01:21:32 公開日:2024-06-12
# RISC-Vアーキテクチャによるハードウェアスタックバッファオーバーフロー攻撃検出

Hardware-based stack buffer overflow attack detection on RISC-V architectures ( http://arxiv.org/abs/2406.10282v1 )

ライセンス: Link先を確認
Cristiano Pegoraro Chenet, Ziteng Zhang, Alessandro Savino, Stefano Di Carlo, (参考訳) この研究は、RISC-Vシステムにおけるスタックバッファオーバーフロー(SBO)攻撃をハードウェアベースのアプローチがいかにうまく検出するかを評価する。 PULPプラットフォーム上でシミュレーションを行い,半教師付き異常検出技術を用いてマイクロアーキテクチャイベントについて検討した。 その結果,検出性能の課題が示された。 したがって、潜在的な解決策は、ソフトウェアとハードウェアベースの検出器を同時に組み合わせ、ハードウェアを主要な防御手段とする。 ハードウェアベースのアプローチはRISC-Vベースのアーキテクチャを向上する強力なメリットを提供する。

This work evaluates how well hardware-based approaches detect stack buffer overflow (SBO) attacks in RISC-V systems. We conducted simulations on the PULP platform and examined micro-architecture events using semi-supervised anomaly detection techniques. The findings showed the challenge of detection performance. Thus, a potential solution combines software and hardware-based detectors concurrently, with hardware as the primary defense. The hardware-based approaches present compelling benefits that could enhance RISC-V-based architectures.
翻訳日:2024-06-19 01:21:32 公開日:2024-06-12
# アンチスプーフィング検出のための事前訓練音声モデルからの隠れ埋め込みの注意的マージ

Attentive Merging of Hidden Embeddings from Pre-trained Speech Model for Anti-spoofing Detection ( http://arxiv.org/abs/2406.10283v1 )

ライセンス: Link先を確認
Zihan Pan, Tianchi Liu, Hardik B. Sailor, Qiongqiong Wang, (参考訳) 大規模音声コーパスに基づいて訓練された自己教師付き学習(SSL)音声表現モデルは、複数のトランスフォーマー層を通して階層的な音声埋め込みを抽出する効果を実証している。 しかし、これらの埋め込みの挙動は未だ不明である。 本稿では, アンチ・スプーフィングにおけるWavLMモデルの多層挙動について検討し, 階層的な隠れ埋め込みを活用するための注意深いマージ法を提案する。 結果は、ASVspoof 2019LA、2021LA、2021DFの評価セットでそれぞれ0.65%、3.50%、および3.19%の誤差率(EER)を達成するための微調整WavLMの実現可能性を示している。 特に,WavLMの大モデルの初期隠れトランスフォーマー層は,部分的に事前学習したモデルを利用することで,計算効率を向上できることを示す。

Self-supervised learning (SSL) speech representation models, trained on large speech corpora, have demonstrated effectiveness in extracting hierarchical speech embeddings through multiple transformer layers. However, the behavior of these embeddings in specific tasks remains uncertain. This paper investigates the multi-layer behavior of the WavLM model in anti-spoofing and proposes an attentive merging method to leverage the hierarchical hidden embeddings. Results demonstrate the feasibility of fine-tuning WavLM to achieve the best equal error rate (EER) of 0.65%, 3.50%, and 3.19% on the ASVspoof 2019LA, 2021LA, and 2021DF evaluation sets, respectively. Notably, We find that the early hidden transformer layers of the WavLM large model contribute significantly to anti-spoofing task, enabling computational efficiency by utilizing a partial pre-trained model.
翻訳日:2024-06-19 01:21:32 公開日:2024-06-12
# 強化型子音による子音認識の改善

Improving child speech recognition with augmented child-like speech ( http://arxiv.org/abs/2406.10284v1 )

ライセンス: Link先を確認
Yuanyuan Zhang, Zhengjun Yue, Tanvina Patel, Odette Scharenborg, (参考訳) 最先端のASRは、子どものスピーチに最適なパフォーマンスを示す。 チャイルドスピーチの不足は、チャイルド音声認識(CSR)の発達を制限する。 そこで本研究では,既存の子話者の音声変換(VC)と,モノリンガルVCとクロスリンガルVC(Dutch-to-German)VCを併用した(新しい)子話者の追加について検討した。 その結果,言語横断型VCは子どものASR成績を有意に改善した。 FT-ConformerモデルとFT-Whisperモデルでは,WERの絶対値がベースラインに比べて約3%減少し,スクラッチからトレーニングしたモデルでは6倍に向上し,絶対値3.6%向上した。 さらに、少数の“高品質”なVC生成データを使用することで、最高のFTモデルと同じような結果が得られました。

State-of-the-art ASRs show suboptimal performance for child speech. The scarcity of child speech limits the development of child speech recognition (CSR). Therefore, we studied child-to-child voice conversion (VC) from existing child speakers in the dataset and additional (new) child speakers via monolingual and cross-lingual (Dutch-to-German) VC, respectively. The results showed that cross-lingual child-to-child VC significantly improved child ASR performance. Experiments on the impact of the quantity of child-to-child cross-lingual VC-generated data on fine-tuning (FT) ASR models gave the best results with two-fold augmentation for our FT-Conformer model and FT-Whisper model which reduced WERs with ~3% absolute compared to the baseline, and with six-fold augmentation for the model trained from scratch, which improved by an absolute 3.6% WER. Moreover, using a small amount of "high-quality" VC-generated data achieved similar results to those of our best-FT models.
翻訳日:2024-06-19 01:21:32 公開日:2024-06-12
# あなたを知らないけど、あなたをキャッチできる:オブジェクト検出器の対外敵パッチに対するリアルタイム防御

I Don't Know You, But I Can Catch You: Real-Time Defense against Diverse Adversarial Patches for Object Detectors ( http://arxiv.org/abs/2406.10285v1 )

ライセンス: Link先を確認
Zijin Lin, Yue Zhao, Kai Chen, Jinwen He, (参考訳) ディープニューラルネットワーク(DNN)は、オブジェクト検出のようなコンピュータビジョンの分野に革命をもたらした。 しかし、既存の研究では、DNNは敵の攻撃に弱いことが示されている。 物理的な世界では、敵は敵のパッチを悪用して、ターゲットのオブジェクトにパッチを当てて検出器から消えさせるHiding Attack (HA) と、検出器を騙して特定のオブジェクトと誤分類するAppearing Attack (AA) を実装した。 近年,敵パッチの潜在的な脅威を軽減するため,検出器の防御方法が多数提案されている。 しかし、そのような手法には、一般化、堅牢性、効率性に制限がある。 ほとんどの防御はHAに対して有効であり、検知器はAAに弱いままである。 本稿では,高一般化,ロバスト性,効率性を備えた逆パッチ検出の革新的なモデルである \textit{NutNet} を提案する。 デジタル領域と物理領域の両方において, YOLOv2-v4, SSD, Faster RCNN, DETRの6つの検出器を実験した結果, 提案手法はHAとAAの両方に対して有効に防御でき, クリーン性能は 0.4 % しか犠牲にならないことがわかった。 我々は,NutNetを検出器の4つのベースライン防御法と比較し,従来のHAとAAの4.7倍の防御性能を示す。 さらに、NutNetは、検出システムのリアルタイム要件を満たすことができる8\%の推論時間しか増加しない。 NutNetのデモは: \url{https://sites.google.com/view/nutnet}.comで公開されている。

Deep neural networks (DNNs) have revolutionized the field of computer vision like object detection with their unparalleled performance. However, existing research has shown that DNNs are vulnerable to adversarial attacks. In the physical world, an adversary could exploit adversarial patches to implement a Hiding Attack (HA) which patches the target object to make it disappear from the detector, and an Appearing Attack (AA) which fools the detector into misclassifying the patch as a specific object. Recently, many defense methods for detectors have been proposed to mitigate the potential threats of adversarial patches. However, such methods still have limitations in generalization, robustness and efficiency. Most defenses are only effective against the HA, leaving the detector vulnerable to the AA. In this paper, we propose \textit{NutNet}, an innovative model for detecting adversarial patches, with high generalization, robustness and efficiency. With experiments for six detectors including YOLOv2-v4, SSD, Faster RCNN and DETR on both digital and physical domains, the results show that our proposed method can effectively defend against both the HA and AA, with only 0.4\% sacrifice of the clean performance. We compare NutNet with four baseline defense methods for detectors, and our method exhibits an average defense performance that is over 2.4 times and 4.7 times higher than existing approaches for HA and AA, respectively. In addition, NutNet only increases the inference time by 8\%, which can meet the real-time requirements of the detection systems. Demos of NutNet are available at: \url{https://sites.google.com/view/nutnet}.
翻訳日:2024-06-19 01:11:41 公開日:2024-06-12
# 格子探索法による最適化Hist Gradient Boosting Classifierを用いた悪意URL検出

Malicious URL Detection using optimized Hist Gradient Boosting Classifier based on grid search method ( http://arxiv.org/abs/2406.10286v1 )

ライセンス: Link先を確認
Mohammad Maftoun, Nima Shadkam, Seyedeh Somayeh Salehi Komamardakhi, Zulkefli Mansor, Javad Hassannataj Joloudari, (参考訳) 悪意のあるウェブサイトが不正な理由で情報を収集する可能性があるため、オンラインプラットフォームで入力されたデータの正確さを信頼することは困難である。 各Webサイトを個別に分析することは、このような悪意のあるサイトの存在によって困難になり、すべてのUniform Resource Locators(URL)をブラックリストに効率的にリストアップすることが困難になる。 この継続的な課題は、潜在的な脅威や不正なデータ収集から保護するための強力なセキュリティ対策の必要性を強調している。 悪意のあるWebサイトが引き起こすリスクを検出するために,機械学習(ML)ベースの手法を用いることを提案する。 そこで我々は,Hist Gradient Boosting Classifier (HGBC), K-Nearest Neighbor (KNN), Logistic Regression (LR), Decision Tree (DT), Random Forest (RF), Multi-Layer Perceptron (MLP), Light Gradient Boosting Machine (LGBM), Support Vector Machine (SVM)などのML手法を,良質で悪意のあるWebサイトデータセットの検出に使用した。 使用されるデータセットには、悪意のあるウェブサイトデータの1781のレコードと13のフィーチャが含まれている。 まず,データセットの不足値計算について検討した。 そして、このデータを0と1の範囲にスケーリングすることで正規化した。 次に、SMOTE(Synthetic Minority Oversampling Technique)を用いて、データセットが不均衡であったため、トレーニングデータのバランスをとる。 その後、バランスの取れたトレーニングセットにMLアルゴリズムを適用した。 一方、全てのアルゴリズムはグリッドサーチに基づいて最適化された。 最後に、モデルの精度、精度、リコール、F1スコア、AUC(Area Under the Curve)メトリクスに基づいて評価した。 その結果, HGBC分類器は, 他の分類器と比較して, 上述の指標で最高の性能を示した。

Trusting the accuracy of data inputted on online platforms can be difficult due to the possibility of malicious websites gathering information for unlawful reasons. Analyzing each website individually becomes challenging with the presence of such malicious sites, making it hard to efficiently list all Uniform Resource Locators (URLs) on a blacklist. This ongoing challenge emphasizes the crucial need for strong security measures to safeguard against potential threats and unauthorized data collection. To detect the risk posed by malicious websites, it is proposed to utilize Machine Learning (ML)-based techniques. To this, we used several ML techniques such as Hist Gradient Boosting Classifier (HGBC), K-Nearest Neighbor (KNN), Logistic Regression (LR), Decision Tree (DT), Random Forest (RF), Multi-Layer Perceptron (MLP), Light Gradient Boosting Machine (LGBM), and Support Vector Machine (SVM) for detection of the benign and malicious website dataset. The dataset used contains 1781 records of malicious and benign website data with 13 features. First, we investigated missing value imputation on the dataset. Then, we normalized this data by scaling to a range of zero and one. Next, we utilized the Synthetic Minority Oversampling Technique (SMOTE) to balance the training data since the data set was unbalanced. After that, we applied ML algorithms to the balanced training set. Meanwhile, all algorithms were optimized based on grid search. Finally, the models were evaluated based on accuracy, precision, recall, F1 score, and the Area Under the Curve (AUC) metrics. The results demonstrated that the HGBC classifier has the best performance in terms of the mentioned metrics compared to the other classifiers.
翻訳日:2024-06-19 01:11:41 公開日:2024-06-12
# 脆弱性ノードを用いた臨界ノード問題の解法に基づくサイバー物理システムのセキュリティ決定

Security Decisions for Cyber-Physical Systems based on Solving Critical Node Problems with Vulnerable Nodes ( http://arxiv.org/abs/2406.10287v1 )

ライセンス: Link先を確認
Jens Otto, Niels Grüttemeier, Felix Specht, (参考訳) サイバー物理生産システムは、高度に専門化されたソフトウェアとハードウェアコンポーネントで構成されている。 ほとんどのコンポーネントや通信プロトコルはSecure by Designの原則に従って構築されていない。 そのため、サイバー攻撃に対する弾力性は限られている。 この制限は、セキュリティ監視ソリューションによって生成される一般的な運用イメージによって克服できる。 これらの写真は、攻撃されたデバイスと非攻撃されたデバイスの通信関係に関する情報を提供し、サイバー攻撃の際のセキュリティ担当者の意思決定基盤となる。 これらの決定の目的は、プロダクションシステム全体をシャットダウンするのではなく、限られた数のデバイスを分離することである。 本研究では,分離するデバイスを見つけるための概念を提案し,評価する。 我々のアプローチは、パンデミックの場合に脆弱な人々を孤立させることで、NPハードな計算問題であるCNP-V(Critical Node Cut Problem with Vulnerable Vertices)を解くことに基づいている。 我々の知る限りでは、サイバーセキュリティの文脈でCNP-Vを適用するための最初の取り組みである。

Cyber-physical production systems consist of highly specialized software and hardware components. Most components and communication protocols are not built according to the Secure by Design principle. Therefore, their resilience to cyberattacks is limited. This limitation can be overcome with common operational pictures generated by security monitoring solutions. These pictures provide information about communication relationships of both attacked and non-attacked devices, and serve as a decision-making basis for security officers in the event of cyberattacks. The objective of these decisions is to isolate a limited number of devices rather than shutting down the entire production system. In this work, we propose and evaluate a concept for finding the devices to isolate. Our approach is based on solving the Critical Node Cut Problem with Vulnerable Vertices (CNP-V) - an NP-hard computational problem originally motivated by isolating vulnerable people in case of a pandemic. To the best of our knowledge, this is the first work on applying CNP-V in context of cybersecurity.
翻訳日:2024-06-19 01:11:41 公開日:2024-06-12
# ユーザデータの模倣: 閉じた大言語モデルにおける微調整リスクの軽減について

Mimicking User Data: On Mitigating Fine-Tuning Risks in Closed Large Language Models ( http://arxiv.org/abs/2406.10288v1 )

ライセンス: Link先を確認
Francisco Eiras, Aleksandar Petrov, Phillip H. S. Torr, M. Pawan Kumar, Adel Bibi, (参考訳) 小型で高品質なデータセット上の微調整された大きな言語モデルは、特定の下流タスクのパフォーマンスを向上させることができる。 近年の研究では、良心的かつ命令追従的なデータの微調整が、必然的に安全アライメントプロセスを解き放ち、有害なクエリに対応するためのモデルの妥当性を高めることが示されている。 適切に定義されたタスクにおける安全性リスクの理解と軽減は、データの構造的な違いのため、命令追従のコンテキストとは相変わらず異なる。 私たちの研究は、さまざまなタスク固有のデータに対して、微調整されたクローズドモデル – プロセスでユーザデータをどのように利用するかをプロバイダが制御する — に関連するリスクを調査します。 悪質なアクターが、ほぼすべてのタスク固有のデータセットの構造を微妙に操作して、より危険なモデルの振る舞いを著しく促進し、不明瞭で合理的なダウンストリームタスクパフォーマンスを維持しながら、いかにして悪質なアクターが微妙に操作できるかを実証する。 この問題に対処するために,タスク形式を模倣した安全データとユーザデータのスタイルを混合した新たな緩和戦略を提案する。

Fine-tuning large language models on small, high-quality datasets can enhance their performance on specific downstream tasks. Recent research shows that fine-tuning on benign, instruction-following data can inadvertently undo the safety alignment process and increase a model's propensity to comply with harmful queries. Although critical, understanding and mitigating safety risks in well-defined tasks remains distinct from the instruction-following context due to structural differences in the data. Our work explores the risks associated with fine-tuning closed models - where providers control how user data is utilized in the process - across diverse task-specific data. We demonstrate how malicious actors can subtly manipulate the structure of almost any task-specific dataset to foster significantly more dangerous model behaviors, while maintaining an appearance of innocuity and reasonable downstream task performance. To address this issue, we propose a novel mitigation strategy that mixes in safety data which mimics the task format and prompting style of the user data, showing this is more effective than existing baselines at re-establishing safety alignment while maintaining similar task performance.
翻訳日:2024-06-19 01:11:41 公開日:2024-06-12
# VeraCT Scan: 適切な推論による検索機能強化された偽ニュースの検出

VeraCT Scan: Retrieval-Augmented Fake News Detection with Justifiable Reasoning ( http://arxiv.org/abs/2406.10289v1 )

ライセンス: Link先を確認
Cheng Niu, Yang Guan, Yuanhao Wu, Juno Zhu, Juntong Song, Randy Zhong, Kaihua Zhu, Siliang Xu, Shizhe Diao, Tong Zhang, (参考訳) フェイクニュースの拡散は、誤解を招く情報を広めるだけでなく、民主主義の基盤を損なうことによっても重大な脅威となる。 創造的人工知能の最近の進歩は、本物のニュースと作り話とを区別する難題をさらに悪化させた。 この課題に対して,偽ニュース検出のための新たな検索強化システムであるVeraCT Scanを導入する。 このシステムは、あるニュースから中核的な事実を抽出し、その後、相関や矛盾する報告を特定するために、インターネット全体の検索を行う。 そして、情報源の信頼性を利用して情報検証を行う。 ニュースの正確性を決定することに加えて、我々は、その結論を支持するための透明な証拠と推論を提供し、その結果の解釈可能性と信頼をもたらす。 GPT-4 Turboに加えて、Llama-2 13Bはニュースコンテンツ理解、情報検証、推論のために微調整されている。 どちらの実装も、偽ニュース検出の領域で最先端の精度を実証している。

The proliferation of fake news poses a significant threat not only by disseminating misleading information but also by undermining the very foundations of democracy. The recent advance of generative artificial intelligence has further exacerbated the challenge of distinguishing genuine news from fabricated stories. In response to this challenge, we introduce VeraCT Scan, a novel retrieval-augmented system for fake news detection. This system operates by extracting the core facts from a given piece of news and subsequently conducting an internet-wide search to identify corroborating or conflicting reports. Then sources' credibility is leveraged for information verification. Besides determining the veracity of news, we also provide transparent evidence and reasoning to support its conclusions, resulting in the interpretability and trust in the results. In addition to GPT-4 Turbo, Llama-2 13B is also fine-tuned for news content understanding, information verification, and reasoning. Both implementations have demonstrated state-of-the-art accuracy in the realm of fake news detection.
翻訳日:2024-06-19 01:11:41 公開日:2024-06-12
# MobileAIBench: オンデバイスユースケースのためのLLMとLMMのベンチマーク

MobileAIBench: Benchmarking LLMs and LMMs for On-Device Use Cases ( http://arxiv.org/abs/2406.10290v1 )

ライセンス: Link先を確認
Rithesh Murthy, Liangwei Yang, Juntao Tan, Tulika Manoj Awalgaonkar, Yilun Zhou, Shelby Heinecke, Sachin Desai, Jason Wu, Ran Xu, Sarah Tan, Jianguo Zhang, Zhiwei Liu, Shirley Kokane, Zuxin Liu, Ming Zhu, Huan Wang, Caiming Xiong, Silvio Savarese, (参考訳) モバイルデバイスへのLLM(Large Language Models)とLMM(Large Multimodal Models)の展開は、プライバシー、安定性、パーソナライゼーションの強化による大きな注目を集めている。 しかし、モバイルデバイスのハードウェア制約は、より少ないパラメータを持つモデルの使用と量子化のようなモデル圧縮技術を必要とする。 現在、LLMタスク、LMMタスク、そして批判的に、信頼と安全を含む様々なタスクパフォーマンスに対する量子化の影響について、限定的な理解がなされている。 モバイルデバイス上でこれらのモデルを体系的にテストするための適切なツールが不足している。 これらのギャップに対処するために,モバイル最適化LLMとLMMを評価するための総合的なベンチマークフレームワークであるMobileAIBenchを紹介する。 MobileAIBenchは、さまざまなサイズ、量子化レベル、タスクにわたるモデルを評価し、実際のデバイス上でのレイテンシとリソース消費を測定する。 私たちの2つのオープンソースフレームワークには、デスクトップで評価を実行するためのライブラリと、デバイス上のレイテンシとハードウェア利用の測定のためのiOSアプリが含まれています。 我々の徹底的な分析は、モバイルプラットフォームにLLMとLMMをデプロイすることのパフォーマンスと実現可能性に関する洞察を提供することで、モバイルAIの研究と展開を加速することを目的としています。

The deployment of Large Language Models (LLMs) and Large Multimodal Models (LMMs) on mobile devices has gained significant attention due to the benefits of enhanced privacy, stability, and personalization. However, the hardware constraints of mobile devices necessitate the use of models with fewer parameters and model compression techniques like quantization. Currently, there is limited understanding of quantization's impact on various task performances, including LLM tasks, LMM tasks, and, critically, trust and safety. There is a lack of adequate tools for systematically testing these models on mobile devices. To address these gaps, we introduce MobileAIBench, a comprehensive benchmarking framework for evaluating mobile-optimized LLMs and LMMs. MobileAIBench assesses models across different sizes, quantization levels, and tasks, measuring latency and resource consumption on real devices. Our two-part open-source framework includes a library for running evaluations on desktops and an iOS app for on-device latency and hardware utilization measurements. Our thorough analysis aims to accelerate mobile AI research and deployment by providing insights into the performance and feasibility of deploying LLMs and LMMs on mobile platforms.
翻訳日:2024-06-19 01:11:41 公開日:2024-06-12
# 逆操作戦術に対するオンライン公共広場の脆弱性の定量化

Quantifying the Vulnerabilities of the Online Public Square to Adversarial Manipulation Tactics ( http://arxiv.org/abs/1907.06130v5 )

ライセンス: Link先を確認
Bao Tran Truong, Xiaodan Lou, Alessandro Flammini, Filippo Menczer, (参考訳) 現代の公共広場と見なされるソーシャルメディアは、操作に弱い。 人間を偽装する不正なアカウントを制御することで、悪意のあるアクターは標的とするコミュニティ内の偽情報を増幅することができる。 こうした活動の結果は、データ収集や、オンラインコミュニティに影響を与える倫理的実験によってもたらされる課題から、評価が難しい。 ここでは、経験的ネットワークにおける情報拡散をシミュレートするソーシャルメディアモデルを用いて、コンテンツの品質に対する敵対的操作戦術の影響を定量化する。 ソーシャルメディアの目印である影響力のあるアカウントの存在は、操作するオンラインコミュニティの脆弱性を悪化させる。 悪役が採用できる探索的な戦術の中で、コミュニティに侵入することは、低品質コンテンツがバイラルに広まる可能性が高い。 このような害は、悪役が影響力のある個人や脆弱な個人など特定の標的に焦点を合わせると軽減されるが、低品質で魅力的なコンテンツでネットワークを浸水させることによってさらに複雑になる。 これらの知見は、プラットフォームがソーシャルメディアユーザーによる操作のレジリエンスを高めるために使われる可能性があることを示唆している。

Social media, seen by some as the modern public square, is vulnerable to manipulation. By controlling inauthentic accounts impersonating humans, malicious actors can amplify disinformation within target communities. The consequences of such operations are difficult to evaluate due to the challenges posed by collecting data and carrying out ethical experiments that would influence online communities. Here we use a social media model that simulates information diffusion in an empirical network to quantify the impacts of several adversarial manipulation tactics on the quality of content. We find that the presence of influential accounts, a hallmark of social media, exacerbates the vulnerabilities of online communities to manipulation. Among the explored tactics that bad actors can employ, infiltrating a community is the most likely to make low-quality content go viral. Such harm can be further compounded by inauthentic agents flooding the network with low-quality, yet appealing content, but is mitigated when bad actors focus on specific targets, such as influential or vulnerable individuals. These insights suggest countermeasures that platforms could employ to increase the resilience of social media users to manipulation.
翻訳日:2024-06-17 22:09:03 公開日:2024-06-12
# DAOにおけるオープン問題

Open Problems in DAOs ( http://arxiv.org/abs/2310.19201v2 )

ライセンス: Link先を確認
Joshua Tan, Tara Merk, Sarah Hubbard, Eliza R. Oak, Helena Rong, Joni Pirovich, Ellie Rennie, Rolf Hoefer, Michael Zargham, Jason Potts, Chris Berg, Reuben Youngblom, Primavera De Filippi, Seth Frey, Jeff Strnad, Morshed Mannan, Kelsie Nabben, Silke Noa Elrifai, Jake Hartnell, Benjamin Mako Hill, Tobin South, Ryan L. Thomas, Jonathan Dotan, Ariana Spring, Alexia Maddox, Woojin Lim, Kevin Owocki, Ari Juels, Dan Boneh, (参考訳) 分散自律型組織(DAOs)は、スマートコントラクトによって管理される、急速に成長する新しい組織のクラスである。 ここでは、DAOやその他のデジタル構成組織の新興科学に研究者が貢献する方法について述べる。 プライバシのプリミティブからメカニズム設計、モデル法に至るまで、DAOエコシステムでは、既存のギャップが新しいデータセットによって取り組まれるか、あるいは政治科学、コンピュータ科学、経済学、法学、組織科学といった既存の研究分野のツールやアイデアを適用することによって、大きな影響のある問題を特定する。 私たちのレコメンデーションには、エキサイティングな研究の質問だけでなく、有望なビジネスチャンスが含まれています。 我々は、次世代の組織を創造するグローバルな取り組みに参加するよう、より広い研究コミュニティに呼びかけます。

Decentralized autonomous organizations (DAOs) are a new, rapidly-growing class of organizations governed by smart contracts. Here we describe how researchers can contribute to the emerging science of DAOs and other digitally-constituted organizations. From granular privacy primitives to mechanism designs to model laws, we identify high-impact problems in the DAO ecosystem where existing gaps might be tackled through a new data set or by applying tools and ideas from existing research fields such as political science, computer science, economics, law, and organizational science. Our recommendations encompass exciting research questions as well as promising business opportunities. We call on the wider research community to join the global effort to invent the next generation of organizations.
翻訳日:2024-06-17 19:43:29 公開日:2024-06-12
# 部分評価による関数ネットワークのベイズ最適化

Bayesian Optimization of Function Networks with Partial Evaluations ( http://arxiv.org/abs/2311.02146v2 )

ライセンス: Link先を確認
Poompol Buathong, Jiayue Wan, Raul Astudillo, Samuel Daulton, Maximilian Balandat, Peter I. Frazier, (参考訳) ベイズ最適化は、評価に費用や時間を要する関数を最適化するための強力なフレームワークである。 最近の研究は、関数ネットワーク(BOFN)のベイズ最適化を検討しており、目的関数は関数のネットワークによって与えられる。 このネットワーク構造を活用すれば、大幅なパフォーマンス向上が期待できる。 汎用ネットワークのための既存のBOFNアルゴリズムは、各イテレーションで全ネットワークを評価する。 しかし、多くの現実世界のアプリケーションはノードを個別に評価することができる。 これを活用するために,各ステップでネットワークの一部のみを評価することで,どのノードと対応する入力をコストを意識して評価するかを選択する新しい知識勾配取得関数を提案する。 提案手法は,取得関数を最適化し,既存のBOFNメソッドや他のベンチマークを,いくつかの合成および実世界の問題で上回ることを示す。 我々の獲得関数は、幅広い種類の関数ネットワークの費用対効果を最適化する最初の方法である。

Bayesian optimization is a powerful framework for optimizing functions that are expensive or time-consuming to evaluate. Recent work has considered Bayesian optimization of function networks (BOFN), where the objective function is given by a network of functions, each taking as input the output of previous nodes in the network as well as additional parameters. Leveraging this network structure has been shown to yield significant performance improvements. Existing BOFN algorithms for general-purpose networks evaluate the full network at each iteration. However, many real-world applications allow for evaluating nodes individually. To exploit this, we propose a novel knowledge gradient acquisition function that chooses which node and corresponding inputs to evaluate in a cost-aware manner, thereby reducing query costs by evaluating only on a part of the network at each step. We provide an efficient approach to optimizing our acquisition function and show that it outperforms existing BOFN methods and other benchmarks across several synthetic and real-world problems. Our acquisition function is the first to enable cost-aware optimization of a broad class of function networks.
翻訳日:2024-06-17 19:43:29 公開日:2024-06-12
# コンパクトで費用対効果の高い蛍光寿命画像センサと機械学習を用いた挿入型グルコースセンサ

An insertable glucose sensor using a compact and cost-effective phosphorescence lifetime imager and machine learning ( http://arxiv.org/abs/2406.09442v1 )

ライセンス: Link先を確認
Artem Goncharov, Zoltan Gorocs, Ridhi Pradhan, Brian Ko, Ajmal Ajmal, Andres Rodriguez, David Baum, Marcell Veszpremi, Xilin Yang, Maxime Pindrys, Tianle Zheng, Oliver Wang, Jessica C. Ramella-Roman, Michael J. McShane, Aydogan Ozcan, (参考訳) 従来の電気化学CGMと比較して、低コストで耐久性が長いため、パーソナライズされたグルコース管理のために、光連続グルコースモニタリング(CGM)システムが登場している。 本稿では, 生体適合性蛍光吸収性バイオセンサと, カスタム設計の蛍光寿命イメージング装置(PLI)を統合した計算用CGMシステムについて報告する。 このコンパクトで費用対効果の高いPLIは、挿入可能なセンサーの蛍光寿命画像を皮膚を通して捉え、発光された蛍光信号の寿命をグルコースの局所濃度によって調節するように設計されている。 この蛍光信号は、組織自己蛍光や励起漏れの過程と比べて非常に長い寿命を持つため、励起光をオフにした後に数十マイクロ秒間にわたってセンサーの放射を測定することで、これらのノイズ源を完全にバイパスする。 皮膚から取得した寿命画像は、正常、低(高血糖)、高(高血糖)濃度の範囲を正確に示し、グルコースレベルの不整合耐性推論のためのニューラルネットワークベースのモデルによって処理される。 ヒト皮膚の光学特性を模倣した厚さ1mmの皮膚ファントムを用いて,グルコースを吸入した試料を用いてPLIのin vitro試験を行った。 さらに, PLIは, 5mm以上の側方不整形を正確に同定し, 再整形に対するユーザの介入を促した。 この小型で費用効率のよい蛍光寿命イメージング装置は、グルコースやその他のバイオマーカーをリアルタイムで追跡するウェアラブル診断ツールとして優れている。

Optical continuous glucose monitoring (CGM) systems are emerging for personalized glucose management owing to their lower cost and prolonged durability compared to conventional electrochemical CGMs. Here, we report a computational CGM system, which integrates a biocompatible phosphorescence-based insertable biosensor and a custom-designed phosphorescence lifetime imager (PLI). This compact and cost-effective PLI is designed to capture phosphorescence lifetime images of an insertable sensor through the skin, where the lifetime of the emitted phosphorescence signal is modulated by the local concentration of glucose. Because this phosphorescence signal has a very long lifetime compared to tissue autofluorescence or excitation leakage processes, it completely bypasses these noise sources by measuring the sensor emission over several tens of microseconds after the excitation light is turned off. The lifetime images acquired through the skin are processed by neural network-based models for misalignment-tolerant inference of glucose levels, accurately revealing normal, low (hypoglycemia) and high (hyperglycemia) concentration ranges. Using a 1-mm thick skin phantom mimicking the optical properties of human skin, we performed in vitro testing of the PLI using glucose-spiked samples, yielding 88.8% inference accuracy, also showing resilience to random and unknown misalignments within a lateral distance of ~4.7 mm with respect to the position of the insertable sensor underneath the skin phantom. Furthermore, the PLI accurately identified larger lateral misalignments beyond 5 mm, prompting user intervention for re-alignment. The misalignment-resilient glucose concentration inference capability of this compact and cost-effective phosphorescence lifetime imager makes it an appealing wearable diagnostics tool for real-time tracking of glucose and other biomarkers.
翻訳日:2024-06-17 17:54:01 公開日:2024-06-12
# 個人化音声活動検出システムの比較分析:実世界の有効性の評価

Comparative Analysis of Personalized Voice Activity Detection Systems: Assessing Real-World Effectiveness ( http://arxiv.org/abs/2406.09443v1 )

ライセンス: Link先を確認
Satyam Kumar, Sai Srujana Buddi, Utkarsh Oggy Sarawgi, Vineet Garg, Shivesh Ranjan, Ognjen, Rudovic, Ahmed Hussen Abdelaziz, Saurabh Adya, (参考訳) 音声活動検出(VAD)は、音声認識、音声強調、ハンズフリー通信システムなどの様々な応用において重要な要素である。 パーソナライズおよびコンテキスト認識技術への需要が高まり、効果的なパーソナライズされたVADシステムの必要性が最重要視されている。 本稿では,個人化音声活動検出(PVAD)システムの比較分析を行い,その実効性を評価する。 PVADシステムを評価するための包括的アプローチを導入し、フレームレベルや発話レベルのエラー率、検出遅延、精度などの様々なパフォーマンス指標をユーザレベルの分析とともに取り入れた。 広範な実験と評価を通じて、様々なPVAD変異体の強度と限界を徹底的に理解する。 本稿では,総合的なメトリクスセットを用いて,実用アプリケーションにおけるPVAD技術の有効性と実用性に関する洞察を提供することにより,PVAD技術の理解を深める。

Voice activity detection (VAD) is a critical component in various applications such as speech recognition, speech enhancement, and hands-free communication systems. With the increasing demand for personalized and context-aware technologies, the need for effective personalized VAD systems has become paramount. In this paper, we present a comparative analysis of Personalized Voice Activity Detection (PVAD) systems to assess their real-world effectiveness. We introduce a comprehensive approach to assess PVAD systems, incorporating various performance metrics such as frame-level and utterance-level error rates, detection latency and accuracy, alongside user-level analysis. Through extensive experimentation and evaluation, we provide a thorough understanding of the strengths and limitations of various PVAD variants. This paper advances the understanding of PVAD technology by offering insights into its efficacy and viability in practical applications using a comprehensive set of metrics.
翻訳日:2024-06-17 17:54:01 公開日:2024-06-12
# レシピ空間のトポロジカル解析

A topological analysis of the space of recipes ( http://arxiv.org/abs/2406.09445v1 )

ライセンス: Link先を確認
Emerson G. Escolar, Yuta Shimada, Masahiro Yuasa, (参考訳) 近年、データ駆動手法の使用は、料理レシピの背後にある基本的なパターンや原則に関する洞察を与えている。 本稿では,料理レシピの空間を研究するために,トポロジカルデータ解析,特に永続的ホモロジーの利用を紹介する。 特に、永続的ホモロジー分析は、既存のレシピの空間におけるマルチスケールの「穴」を取り巻く一連のレシピを提供する。 そこで我々は,このトポロジ情報に対する組合せ最適化を用いて,新しい成分の組み合わせを生成する手法を提案する。 新規成分の組み合わせを用いてビスケットを作製し, 感覚評価研究により十分な許容性が確認された。 以上の結果から, トポロジカルデータ分析は, 料理レシピ研究に新たなツールや洞察を提供する可能性があることが示唆された。

In recent years, the use of data-driven methods has provided insights into underlying patterns and principles behind culinary recipes. In this exploratory work, we introduce the use of topological data analysis, especially persistent homology, in order to study the space of culinary recipes. In particular, persistent homology analysis provides a set of recipes surrounding the multiscale "holes" in the space of existing recipes. We then propose a method to generate novel ingredient combinations using combinatorial optimization on this topological information. We made biscuits using the novel ingredient combinations, which were confirmed to be acceptable enough by a sensory evaluation study. Our findings indicate that topological data analysis has the potential for providing new tools and insights in the study of culinary recipes.
翻訳日:2024-06-17 17:54:01 公開日:2024-06-12
# 物質相互作用を持つ異方性ディックモデルにおける位相モードと振幅モード

Phase and amplitude modes in the anisotropic Dicke model with matter interactions ( http://arxiv.org/abs/2406.09446v1 )

ライセンス: Link先を確認
Ricardo Herrera Romero, Miguel Angel Bastarrachea-Magnani, (参考訳) 位相モードと振幅モードは、凝縮物質や粒子物理学から量子光学まで、様々な物理系にまたがる創発的な現象である。 ポラリトンモード(Polariton modes)とも呼ばれるこれらの挙動は、集合的な物質相互作用を含む異方性ディックモデル(Dicke model)で研究される。 本研究では,ホルシュタイン-プリマコフ変換による熱力学限界における低層スペクトルについて検討し,コヒーレント状態による半古典的エネルギー面との比較を行った。 また、系の位相の関数としてパラメータ空間におけるボソンとスピンの輪郭の幾何学的位相についても検討する。 異方性相互作用と物質相互作用の相互作用によって生じる特異な臨界特性により,我々は新たな現象を明らかにする。 我々は、現在の量子情報プラットフォームにおける位相モードと振幅モードの観測に役立つと期待している。

Phase and amplitude modes are emergent phenomena that manifest across diverse physical systems, from condensed matter and particle physics to quantum optics. Also called polariton modes, we study their behavior in an anisotropic Dicke model that includes collective matter interactions. We study the low-lying spectrum in the thermodynamic limit via the Holstein-Primakoff transformation and contrast the results with the semiclassical energy surface obtained via coherent states. We also explore the geometric phase for both boson and spin contours in the parameter space as a function of the phases in the system. We unveil novel phenomena due to the unique critical features provided by the interplay between the anisotropy and matter interactions. We expect our results to serve for the observation of phase and amplitude modes in current quantum information platforms.
翻訳日:2024-06-17 17:54:01 公開日:2024-06-12
# 生成的逆数ネットワークを用いた実効的ポストストロークリーチキネマティクスのシミュレーション

Simulating Realistic Post-Stroke Reaching Kinematics with Generative Adversarial Networks ( http://arxiv.org/abs/2406.09451v1 )

ライセンス: Link先を確認
Aaron J. Hadley, Christopher L. Pulliam, (参考訳) 脳卒中リハビリテーションにおけるウェアラブルモニタリングのための機械学習(ML)モデルの一般化可能性はしばしば、利用可能なデータの限られたスケールと不均一性によって制限される。 データ拡張は、トレーニングセットに表される変動性を強化するために、実際のデータに計算的に導出されたデータを追加することで、この課題に対処する。 回転、置換、タイムワープといった従来の拡張手法は、分類器のパフォーマンスを改善する上でいくつかの利点を示しているが、現実的なトレーニング例を作成できないことが多い。 本研究では, コンディショナル・ジェネレーション・アダクティブ・アダクショナル・ネットワーク(cGAN)を用いて, 公用データセットから合成キネマティック・データを生成する。 このアプローチは、脳卒中後の複雑な時間的ダイナミクスと一般的な動きパターンをキャプチャするだけでなく、トレーニングデータセットを大幅に強化する。 合成データと実験データの両方でディープラーニングモデルをトレーニングすることにより、タスク分類精度を大幅に向上させました。 これらの改善により、より正確なタスク分類が可能となり、臨床医は患者の進捗をより正確に監視し、より効果的にリハビリテーションの介入を調整できる。

The generalizability of machine learning (ML) models for wearable monitoring in stroke rehabilitation is often constrained by the limited scale and heterogeneity of available data. Data augmentation addresses this challenge by adding computationally derived data to real data to enrich the variability represented in the training set. Traditional augmentation methods, such as rotation, permutation, and time-warping, have shown some benefits in improving classifier performance, but often fail to produce realistic training examples. This study employs Conditional Generative Adversarial Networks (cGANs) to create synthetic kinematic data from a publicly available dataset, closely mimicking the experimentally measured reaching movements of stroke survivors. This approach not only captures the complex temporal dynamics and common movement patterns after stroke, but also significantly enhances the training dataset. By training deep learning models on both synthetic and experimental data, we achieved a substantial enhancement in task classification accuracy: models incorporating synthetic data attained an overall accuracy of 80.2%, significantly higher than the 63.1% seen in models trained solely with real data. These improvements allow for more precise task classification, offering clinicians the potential to monitor patient progress more accurately and tailor rehabilitation interventions more effectively.
翻訳日:2024-06-17 17:44:16 公開日:2024-06-12
# 量子個体の相対的性質について

On the Relative Nature of Quantum Individuals ( http://arxiv.org/abs/2406.09452v1 )

ライセンス: Link先を確認
Christian de Ronde, Raimundo Fernández Mouján, César Massri, (参考訳) この研究で我々は、1930年代にニールス・ボーアとポール・ディラックによって確立された量子力学(SQM)の「スタンダード」の説明を根拠にしているという解釈に反対する。 このオルソドックスの物語に続き、物理学者は、深い矛盾や問題によらず、我々のマクロ世界がテーブル、椅子、犬で構成されている基本粒子(電子、陽子、中性子など)で構成された微視的な領域を記述していると、独断的に宣言した。 現代(量子)物理学や哲学において現在も存在しているこの原子論のドグマに批判的に対処した後、我々は、同じ程度に全ての関係を考慮できる特定の複雑性の範囲内の最小の関係集合として定義される量子個人について、新しい理解を提示する。 この場合、量子的個性は絶対的な用語でではなく(代わりに)客観的に相対的な概念として、基底と分解の選択に依存するが、それでも同じ不変表現の一部のままである。

In this work we argue against the interpretation that underlies the "Standard" account of Quantum Mechanics (SQM) that was established during the 1930s by Niels Bohr and Paul Dirac. Ever since, following this orthodox narrative, physicists have dogmatically proclaimed -- quite regardless of the deep contradictions and problems -- that the the theory of quanta describes a microscopic realm composed of elementary particles (such as electrons, protons and neutrons) which underly our macroscopic world composed of tables, chairs and dogs. After critically addressing this atomist dogma still present today in contemporary (quantum) physics and philosophy, we present a new understanding of quantum individuals defined as the minimum set of relations within a specific degree of complexity capable to account for all relations within that same degree. In this case, quantum individuality is not conceived in absolute terms but -- instead -- as an objectively relative concept which even though depends of the choice of bases and factorizations remain nonetheless part of the same invariant representation.
翻訳日:2024-06-17 17:44:16 公開日:2024-06-12
# バイオメディシンにおける高分解能ビジョンランゲージモデルの改善

Advancing High Resolution Vision-Language Models in Biomedicine ( http://arxiv.org/abs/2406.09454v1 )

ライセンス: Link先を確認
Zekai Chen, Arda Pekis, Kevin Brown, (参考訳) マルチモーダル学習は、特に視覚言語モデリングにおいて、かなり先進的な生成AIを持っている。 GPT-4VやLLaVAのようなオープンソースプロジェクトのようなイノベーションは、ゼロショットタスク完了が可能な堅牢な会話エージェントを可能にしている。 しかし, バイオメディカル分野におけるこれらの技術の適用は, 独特な課題を呈している。 LLaVA-Medのような最近のイニシアチブは、PMC-15Mのような大規模なデータセットを使用して、バイオメディカルコンテキストに命令チューニングを適用し始めた。 私たちの研究は3つの重要な貢献をしている。 (i)Claude3-OpusとLLaMA370Bの医用画像とテキストのペアを融合した新しいインストラクトデータセットを提案する。 (II) 微細なバイオメディカル視覚理解を改善するために階層的表現を用いた新しい画像符号化戦略を提案する。 3) バイオメディカルビジュアル質問応答ベンチマークにおいて, 最先端のゼロショット性能を実現するLlama3-Medモデルを開発した。 これらの進歩は、医療専門家にとってより正確で信頼性の高いツールを提供し、現在のマルチモーダルな会話アシスタントのギャップを埋め、医療AIのさらなる革新を促進する。

Multi-modal learning has significantly advanced generative AI, especially in vision-language modeling. Innovations like GPT-4V and open-source projects such as LLaVA have enabled robust conversational agents capable of zero-shot task completions. However, applying these technologies in the biomedical field presents unique challenges. Recent initiatives like LLaVA-Med have started to adapt instruction-tuning for biomedical contexts using large datasets such as PMC-15M. Our research offers three key contributions: (i) we present a new instruct dataset enriched with medical image-text pairs from Claude3-Opus and LLaMA3 70B, (ii) we propose a novel image encoding strategy using hierarchical representations to improve fine-grained biomedical visual comprehension, and (iii) we develop the Llama3-Med model, which achieves state-of-the-art zero-shot performance on biomedical visual question answering benchmarks, with an average performance improvement of over 10% compared to previous methods. These advancements provide more accurate and reliable tools for medical professionals, bridging gaps in current multi-modal conversational assistants and promoting further innovations in medical AI.
翻訳日:2024-06-17 17:44:16 公開日:2024-06-12
# Pandora: 自然言語アクションとビデオステートを備えた一般世界モデルを目指す

Pandora: Towards General World Model with Natural Language Actions and Video States ( http://arxiv.org/abs/2406.09455v1 )

ライセンス: Link先を確認
Jiannan Xiang, Guangyi Liu, Yi Gu, Qiyue Gao, Yuting Ning, Yuheng Zha, Zeyu Feng, Tianhua Tao, Shibo Hao, Yemin Shi, Zhengzhong Liu, Eric P. Xing, Zhiting Hu, (参考訳) 世界モデルは、異なる行動に反応して世界の将来の状態をシミュレートする。 インタラクティブなコンテンツ作成を促進し、地上の長い推論の基礎を提供する。 大規模言語モデル(LLM)は、言語モダリティに依存し、物理的世界に対する理解が限られているのに対して、ビデオモデルは世界シミュレーションに対するインタラクティブなアクション制御を欠いている。 本稿では、ビデオを生成して世界状態をシミュレートし、自由テキストアクションによるリアルタイム制御を可能にするハイブリッド自己回帰拡散モデルであるPandoraを導入することにより、一般的な世界モデルを構築するための一歩を踏み出した。 Pandoraは、大規模な事前トレーニングと命令チューニングを通じて、ドメインの汎用性、ビデオの一貫性、制御性を実現する。 重要なことにPandoraは、事前訓練されたLLM (7B)と事前訓練されたビデオモデルを統合することで、スクラッチのトレーニングコストを回避し、追加の軽量な微調整しか必要としない。 Pandoraによるさまざまな領域(屋内/屋外、自然/都市、人間/ロボット、2D/3Dなど)にわたる広範なアウトプットについて説明する。 その結果、より大規模な訓練を施したより強力な一般世界モデルの構築の可能性が示唆された。

World models simulate future states of the world in response to different actions. They facilitate interactive content creation and provides a foundation for grounded, long-horizon reasoning. Current foundation models do not fully meet the capabilities of general world models: large language models (LLMs) are constrained by their reliance on language modality and their limited understanding of the physical world, while video models lack interactive action control over the world simulations. This paper makes a step towards building a general world model by introducing Pandora, a hybrid autoregressive-diffusion model that simulates world states by generating videos and allows real-time control with free-text actions. Pandora achieves domain generality, video consistency, and controllability through large-scale pretraining and instruction tuning. Crucially, Pandora bypasses the cost of training-from-scratch by integrating a pretrained LLM (7B) and a pretrained video model, requiring only additional lightweight finetuning. We illustrate extensive outputs by Pandora across diverse domains (indoor/outdoor, natural/urban, human/robot, 2D/3D, etc.). The results indicate great potential of building stronger general world models with larger-scale training.
翻訳日:2024-06-17 17:44:16 公開日:2024-06-12
# キャプション上の記述を優先するためのCLIPの更新

Updating CLIP to Prefer Descriptions Over Captions ( http://arxiv.org/abs/2406.09458v1 )

ライセンス: Link先を確認
Amir Zur, Elisa Kreiss, Karel D'Oosterlinck, Christopher Potts, Atticus Geiger, (参考訳) CLIPScoreは、テキストと画像の類似性をキャプチャする強力な汎用メトリックであるが、画像内の情報を補完するキャプションと、アクセシビリティのために画像を完全に置き換えるための説明とを区別することができない。 本稿では,CLIPモデルをConcadiaデータセットで更新し,パラメータ効率のよい微調整と因果解釈性に基づく損失目標を用いたキャプションよりも高いスコアを記述に割り当てることによって,この問題に対処する。 このモデルは,移動能力を維持しつつ,視覚障害者の判断と相関し,キャプションの区別に光を当てる解釈可能な構造を有する。

Although CLIPScore is a powerful generic metric that captures the similarity between a text and an image, it fails to distinguish between a caption that is meant to complement the information in an image and a description that is meant to replace an image entirely, e.g., for accessibility. We address this shortcoming by updating the CLIP model with the Concadia dataset to assign higher scores to descriptions than captions using parameter efficient fine-tuning and a loss objective derived from work on causal interpretability. This model correlates with the judgements of blind and low-vision people while preserving transfer capabilities and has interpretable structure that sheds light on the caption--description distinction.
翻訳日:2024-06-17 17:44:16 公開日:2024-06-12
# 検索再生によるLCMの広告入札

Ad Auctions for LLMs via Retrieval Augmented Generation ( http://arxiv.org/abs/2406.09459v1 )

ライセンス: Link先を確認
MohammadTaghi Hajiaghayi, Sébastien Lahaie, Keivan Rezaei, Suho Shin, (参考訳) 計算広告の分野では、大規模言語モデル(LLM)の出力への広告の統合は、コンテンツ整合性を損なうことなくこれらのサービスをサポートする機会を提供する。 本稿では,検索拡張生成(RAG)を活用し,LLMのテキスト出力における広告アロケーションと価格設定のための新しいオークション機構を提案する。 提案するセグメントオークションでは,各談話セグメント(パラグラフ,セクション,アウトプット全体)に対して,その入札および関連性に応じて,RAGフレームワークに従って広告を確率的に検索し,競合入札に応じて価格が設定される。 我々は,配分効率と公平性のバランスをとる福祉の新しい概念である対数社会福祉を最大化することを示し,関連するインセンティブに適合する価格設定を特徴付ける。 これらの結果はセグメント毎にマルチアドアロケーションに拡張される。 実証的な評価は,いくつかの広告オークションシナリオに対するアプローチの有効性と有効性を評価し,LCMがよりフレキシブルに広告を割り当てることを可能にするため,指標に固有のトレードオフを示す。

In the field of computational advertising, the integration of ads into the outputs of large language models (LLMs) presents an opportunity to support these services without compromising content integrity. This paper introduces novel auction mechanisms for ad allocation and pricing within the textual outputs of LLMs, leveraging retrieval-augmented generation (RAG). We propose a segment auction where an ad is probabilistically retrieved for each discourse segment (paragraph, section, or entire output) according to its bid and relevance, following the RAG framework, and priced according to competing bids. We show that our auction maximizes logarithmic social welfare, a new notion of welfare that balances allocation efficiency and fairness, and we characterize the associated incentive-compatible pricing rule. These results are extended to multi-ad allocation per segment. An empirical evaluation validates the feasibility and effectiveness of our approach over several ad auction scenarios, and exhibits inherent tradeoffs in metrics as we allow the LLM more flexibility to allocate ads.
翻訳日:2024-06-17 17:44:16 公開日:2024-06-12
# 階層的相関クラスタリングと木保存埋め込み

Hierarchical Correlation Clustering and Tree Preserving Embedding ( http://arxiv.org/abs/2002.07756v3 )

ライセンス: Link先を確認
Morteza Haghir Chehreghani, Mostafa Haghir Chehreghani, (参考訳) 本稿では,よく知られた相関クラスタリングを拡張した階層的相関クラスタリング手法を提案する。 次に,このような階層的相関クラスタリングを用いた教師なし表現学習について検討する。 そこで本研究ではまず,木組み保存や特徴抽出に使用する各階層の埋め込みについて検討する。 その後、別の表現学習パラダイムとして、相関クラスタリングへのミニマックス距離測定の拡張について検討する。 最後に,提案手法の性能をいくつかのデータセットで示す。

We propose a hierarchical correlation clustering method that extends the well-known correlation clustering to produce hierarchical clusters applicable to both positive and negative pairwise dissimilarities. Then, in the following, we study unsupervised representation learning with such hierarchical correlation clustering. For this purpose, we first investigate embedding the respective hierarchy to be used for tree preserving embedding and feature extraction. Thereafter, we study the extension of minimax distance measures to correlation clustering, as another representation learning paradigm. Finally, we demonstrate the performance of our methods on several datasets.
翻訳日:2024-06-16 18:08:02 公開日:2024-06-12
# 大変形ポロメカニクス問題に対する多構成ニューラルネットワーク

Multi-Constitutive Neural Network for Large Deformation Poromechanics Problem ( http://arxiv.org/abs/2010.15549v4 )

ライセンス: Link先を確認
Qi Zhang, Yilin Chen, Ziyi Yang, Eric Darve, (参考訳) 本稿では,深層ニューラルネットワーク(DNN)を用いたポロメカニクスにおける大ひずみ凝縮問題について検討する。 異なる材料特性と異なる負荷条件が与えられた場合、その目標は細孔圧力と沈降を予測することである。 本稿では,複数の構成法則を1つのモデルで解けるような,新しい構成型ニューラルネットワーク(MCNN)を提案する。 我々は,1ホット符号化ベクトルを付加入力ベクトルとして導入し,解きたい構成法則をラベル付けする。 次に、DNNを構築し、入力として$(\hat{X}, \hat{t})$を、構成法則ラベルとともに取り、対応する解を出力する。 我々の知る限りでは、1つのトレーニングプロセスだけで複数の構成法則を評価できるが、それでも良好な評価を得ることができるのは初めてである。 MCNNは複数のPDEの解法を訓練し、PDEで訓練した個々のニューラルネットワークの解法よりも優れていた。

In this paper, we study the problem of large-strain consolidation in poromechanics with deep neural networks (DNN). Given different material properties and different loading conditions, the goal is to predict pore pressure and settlement. We propose a novel method "multi-constitutive neural network" (MCNN) such that one model can solve several different constitutive laws. We introduce a one-hot encoding vector as an additional input vector, which is used to label the constitutive law we wish to solve. Then we build a DNN which takes $(\hat{X}, \hat{t})$ as input along with a constitutive law label and outputs the corresponding solution. It is the first time, to our knowledge, that we can evaluate multi-constitutive laws through only one training process while still obtaining good accuracies. We found that MCNN trained to solve multiple PDEs outperforms individual neural network solvers trained with PDE in some cases.
翻訳日:2024-06-15 02:48:35 公開日:2024-06-12
# 回答集合プログラムの逐次合成

Sequential composition of answer set programs ( http://arxiv.org/abs/2104.12156v6 )

ライセンス: Link先を確認
Christian Antić, (参考訳) 本稿では,解集合プログラムの逐次構成を導入,研究することにより,論理プログラミングの数学的基礎に寄与する。 セマンティック側では、プログラムの即時結果演算子は合成によって表現できることを示し、Hhornプログラムの最小モデルのセマンティックスを演算子への明示的な参照なしに計算することができる。 その結果、代数的に解集合を特徴づけることができ、さらに魅力のある強で均一な同値性の代数的特徴を与えることができる。 このことは、数学的に満足できる方法で解集合プログラムの構文と意味論の間の概念的ギャップを埋める。 いわゆる解集合プログラミングの代数化により、代数的概念を ASP-setting に変換し、その巡回性の代数的尺度として解集合プログラムの指数と周期を導入する。 論文の技術的な部分は、代数的にインスパイアされた非周期的解集合プログラムの新たなクラスを紹介する短いセクションで終わる。 より広い意味では、本論文は、解答集合プログラムの代数への第一歩であり、将来的には、この論文の手法をより広範なプログラムのクラス、特に高次かつ解答的プログラムとその拡張に引き上げる計画である。

This paper contributes to the mathematical foundations of logic programming by introducing and studying the sequential composition of answer set programs. On the semantic side, we show that the immediate consequence operator of a program can be represented via composition, which allows us to compute the least model semantics of Horn programs without any explicit reference to operators. As a result, we can characterize answer sets algebraically, which further provides an algebraic characterization of strong and uniform equivalence which is appealing. This bridges the conceptual gap between the syntax and semantics of an answer set program in a mathematically satisfactory way. The so-obtained algebraization of answer set programming allows us to transfer algebraic concepts into the ASP-setting which we demonstrate by introducing the index and period of an answer set program as an algebraic measure of its cyclicality. The technical part of the paper ends with a brief section introducing the algebraically inspired novel class of aperiodic answer set programs strictly containing the acyclic ones. In a broader sense, this paper is a first step towards an algebra of answer set programs and in the future we plan to lift the methods of this paper to wider classes of programs, most importantly to higher-order and disjunctive programs and extensions thereof.
翻訳日:2024-06-15 02:48:35 公開日:2024-06-12
# Ludii Game Description LanguageはUniversal

The Ludii Game Description Language is Universal ( http://arxiv.org/abs/2205.00451v3 )

ライセンス: Link先を確認
Dennis J. N. J. Soemers, Éric Piette, Matthew Stephenson, Cameron Browne, (参考訳) いくつかの異なるゲーム記述言語(GDL)があり、それらは汎用プログラミング言語よりも単一の高レベル言語で記述できる幅広い任意のゲーム(一般ゲーム)を意図している。 このような形式で記述されたゲームは、その後、自動化された汎用ゲームプレイエージェントの課題として提示され、そのような言語で記述された任意のゲームを、プレイすべきゲームに関する事前の知識なしでプレイできることが期待される。 ルディイ一般ゲームシステムで使用される言語は、任意の、有限で決定論的で完全に観察可能な広義のゲームに対して同等のゲームを表現することができることが以前は示されていた。 本稿では,これを有限個の非決定的かつ不完全情報ゲームに拡張することで,その普遍性を証明する。

There are several different game description languages (GDLs), each intended to allow wide ranges of arbitrary games (i.e., general games) to be described in a single higher-level language than general-purpose programming languages. Games described in such formats can subsequently be presented as challenges for automated general game playing agents, which are expected to be capable of playing any arbitrary game described in such a language without prior knowledge about the games to be played. The language used by the Ludii general game system was previously shown to be capable of representing equivalent games for any arbitrary, finite, deterministic, fully observable extensive-form game. In this paper, we prove its universality by extending this to include finite non-deterministic and imperfect-information games.
翻訳日:2024-06-15 02:48:35 公開日:2024-06-12
# ApproxED:学習したベストレスポンスによる近似的エクスプロイラビリティ降下

ApproxED: Approximate exploitability descent via learned best responses ( http://arxiv.org/abs/2301.08830v3 )

ライセンス: Link先を確認
Carlos Martin, Tuomas Sandholm, (参考訳) ゲーム理論平衡の発見にはかなりの進歩があった。 その研究のほとんどは、有限で離散的なアクション空間を持つゲームに焦点を当てている。 しかし、空間、時間、お金、その他の細かい量を含む多くのゲームは連続的なアクション空間を持つ(あるいはそのような空間を持つようにモデル化される)。 連続的なアクションセットを持つゲームの近似的ナッシュ均衡を求める問題について検討する。 ナッシュ均衡の密接度に関する標準的な尺度は、プレイヤーが一方的に戦略を変更することでどれだけの利益を得ることができるかを計測するエクスプロイラビリティである。 本稿では,戦略プロファイルに対するエクスプロイラビリティの近似を最小化する2つの新しい手法を提案する。 最初の方法は学習したベストレスポンス関数を使用し、現在の戦略プロファイルを入力として、各プレイヤーの候補ベストレスポンスを出力する。 戦略プロファイルとベストレスポンス関数は同時にトレーニングされ、前者はエクスプロイラビリティを最小化しようと試み、後者はそれを最大化しようとする。 第2の方法は、各プレイヤーに対する候補ベストレスポンスのアンサンブルを保持する。 各イテレーションでは、各アンサンブルの最高のパフォーマンス要素を使用して、現在の戦略プロファイルを更新します。 戦略プロファイルとアンサンブルは、それぞれ近似的利用可能性の最小化と最大化のために同時に訓練される。 各種連続ゲームやGANトレーニングにおいて,本手法が先行手法より優れていることを示す。

There has been substantial progress on finding game-theoretic equilibria. Most of that work has focused on games with finite, discrete action spaces. However, many games involving space, time, money, and other fine-grained quantities have continuous action spaces (or are best modeled as having such). We study the problem of finding an approximate Nash equilibrium of games with continuous action sets. The standard measure of closeness to Nash equilibrium is exploitability, which measures how much players can benefit from unilaterally changing their strategy. We propose two new methods that minimize an approximation of exploitability with respect to the strategy profile. The first method uses a learned best-response function, which takes the current strategy profile as input and outputs candidate best responses for each player. The strategy profile and best-response functions are trained simultaneously, with the former trying to minimize exploitability while the latter tries to maximize it. The second method maintains an ensemble of candidate best responses for each player. In each iteration, the best-performing elements of each ensemble are used to update the current strategy profile. The strategy profile and ensembles are simultaneously trained to minimize and maximize the approximate exploitability, respectively. We evaluate our methods on various continuous games and GAN training, showing that they outperform prior methods.
翻訳日:2024-06-15 02:48:35 公開日:2024-06-12
# 一般物理理論におけるワンショットと漸近的古典的能力

One-shot and asymptotic classical capacity in general physical theories ( http://arxiv.org/abs/2303.04138v3 )

ライセンス: Link先を確認
Shintaro Minagawa, Hayato Arai, (参考訳) 近年の量子情報理論の発展により、量子理論以外の情報理論を構築する試みがいくつか存在する。 ここでは、状態と測定が操作的に定義される一般的な物理理論において、仮説テストの相対エントロピーと1ショットの古典的キャパシティ、すなわち、特定の誤差確率の制約の下で単一チャネルを用いて伝達される古典的情報の最適速度について考察する。 そして、ワンとレンナーの法則を一般化してワンショット古典的容量の上限を得る [Phys. Rev. Lett, 200501 (2012)]。 また,ある誤り確率で古典情報を伝達できる優れた符号の存在を示すことにより,キャパシティの低い境界を導出する。 上記の2つの境界を適用して、任意の一般物理理論においても古典的キャパシティと仮説検定相対エントロピーの漸近同値性を証明する。

With the recent development of quantum information theory, some attempts exist to construct information theory beyond quantum theory. Here we consider hypothesis testing relative entropy and one-shot classical capacity, that is, the optimal rate of classical information transmitted by using a single channel under a constraint of a certain error probability, in general physical theories where states and measurements are operationally defined. Then we obtain the upper bound of one-shot classical capacity by generalizing the method given by Wang and Renner [Phys. Rev. Lett. 108, 200501 (2012)]. Also, we derive the lower bound of the capacity by showing the existence of a good code that can transmit classical information with a certain error probability. Applying the above two bounds, we prove the asymptotic equivalence between classical capacity and hypothesis testing relative entropy even in any general physical theory.
翻訳日:2024-06-15 02:38:50 公開日:2024-06-12
# n-best再分類による正確な知識蒸留

Accurate Knowledge Distillation with n-best Reranking ( http://arxiv.org/abs/2305.12057v4 )

ライセンス: Link先を確認
Hendra Setiawan, (参考訳) 我々は,n-bestリグレードを活用して,n-best仮説から学生モデルのトレーニングデータのための擬似ラベルを抽出し,様々な帰納的バイアス,目的関数,アーキテクチャなど,いくつかの公開可能な大規模言語モデルを含む多種多様なモデルの集合を利用して,高品質な仮説をラベルとして選択する,シーケンス・レベル知識蒸留(Kim and Rush, 2016)を強化する。 提案手法の有効性は、WMT'21ドイツ語と中国語の翻訳タスクの実験を通して検証される。 その結果,n-bestリランカが生成した擬似ラベルを用いることで,より正確な学生モデルが得られた。 実際、我々の最良の学生モデルは、470億のパラメータを持つ(Tran et al , 2021)大規模な翻訳モデルに匹敵する精度を達成します。

We propose utilizing n-best reranking to enhance Sequence-Level Knowledge Distillation (Kim and Rush, 2016) where we extract pseudo-labels for student model's training data from top n-best hypotheses and leverage a diverse set of models with different inductive biases, objective functions or architectures, including some publicly-available large language models, to pick the highest-quality hypotheses as labels. The effectiveness of our proposal is validated through experiments on the WMT'21 German-English and Chinese-English translation tasks. Our results demonstrate that utilizing pseudo-labels generated by our n-best reranker leads to a significantly more accurate student model. In fact, our best student model achieves comparable accuracy to a large translation model from (Tran et al., 2021) with 4.7 billion parameters, while having two orders of magnitude fewer parameters.
翻訳日:2024-06-15 02:38:50 公開日:2024-06-12
# 量子チ二乗トモグラフィと相互情報検査

Quantum chi-squared tomography and mutual information testing ( http://arxiv.org/abs/2305.18519v2 )

ライセンス: Link先を確認
Steven T. Flammia, Ryan O'Donnell, (参考訳) ランク-$r$次元-$d$状態の量子状態トモグラフィーでは、$\widetilde{O}(r^{.5}d^{1.5}/\epsilon) \leq \widetilde{O}(d^2/\epsilon)$ copy suffice for accuracy~$\epsilon$ about (Bures) $\chi^2$-divergence, and $\widetilde{O}(rd/\epsilon)$ copy suffice for accuracy~$\epsilon$ respect to quantum relative entropy。 これまでの上限は$\widetilde{O}(rd/\epsilon) \leq \widetilde{O}(d^2/\epsilon)$であった。 単一コピーの測定に必要となるアルゴリズムに対しては、相対エントロピーに対して$\widetilde{O}(r^{1.5} d^{1.5}/\epsilon) \leq \widetilde{O}(d^3/\epsilon)$ copy suffice for $\chi^2$-divergence, $\widetilde{O}(r^{2} d/\epsilon)$ suffice を示す。 このトモグラフィーアルゴリズムを用いて、$\widetilde{O}(d^{2.5}/\epsilon)$ $d\times d$-dimensional bipartite state suffice が量子相互情報—$0$または少なくとも$-$\epsilon$を持つかどうかをテストするのに十分であることを示す。 結論として、相互情報テストの \emph{classical} バージョンでは、最もよく知られたサンプルの複雑さを $\widetilde{O}(d/\epsilon)$ に改善する。

For quantum state tomography on rank-$r$ dimension-$d$ states, we show that $\widetilde{O}(r^{.5}d^{1.5}/\epsilon) \leq \widetilde{O}(d^2/\epsilon)$ copies suffice for accuracy~$\epsilon$ with respect to (Bures) $\chi^2$-divergence, and $\widetilde{O}(rd/\epsilon)$ copies suffice for accuracy~$\epsilon$ with respect to quantum relative entropy. The best previous bound was $\widetilde{O}(rd/\epsilon) \leq \widetilde{O}(d^2/\epsilon)$ with respect to infidelity; our results are an improvement since infidelity is bounded above by both the relative entropy and the $\chi^2$-divergence. For algorithms that are required to use single-copy measurements, we show that $\widetilde{O}(r^{1.5} d^{1.5}/\epsilon) \leq \widetilde{O}(d^3/\epsilon)$ copies suffice for $\chi^2$-divergence, and $\widetilde{O}(r^{2} d/\epsilon)$ suffice for relative entropy. Using this tomography algorithm, we show that $\widetilde{O}(d^{2.5}/\epsilon)$ copies of a $d\times d$-dimensional bipartite state suffice to test if it has quantum mutual information~$0$ or at least~$\epsilon$. As a corollary, we also improve the best known sample complexity for the \emph{classical} version of mutual information testing to $\widetilde{O}(d/\epsilon)$.
翻訳日:2024-06-15 02:29:06 公開日:2024-06-12
# 動的知識ネットワークとマルチモーダルデータ融合を用いたオンライン健康プラットフォームにおけるコンサルテーション成功予測

Predicting Consultation Success in Online Health Platforms Using Dynamic Knowledge Networks and Multimodal Data Fusion ( http://arxiv.org/abs/2306.03833v3 )

ライセンス: Link先を確認
Shuang Geng, Wenli Zhang, Jiaheng Xie, Gemin Liang, Ben Niu, Sudha Ram, (参考訳) バーチャルヘルスにおけるオンライン医療相談は、イノベーションと激しい競争を特徴とする新興産業である。 医療相談の成功の正確なタイムリーな予測は、オンラインプラットフォームが患者の懸念に積極的に対処し、保持率を向上させるのに役立つ。 しかし, 患者全体の医療ジャーニーにおける仮想相談の役割の一部と, オンラインと対人医療ITシステムとの切り離しにより, オンライン相談の成功を予測することは困難である。 オンライン相談における患者データは、しばしばスパースで不完全であり、重要な技術的課題と研究のギャップを提示する。 これらの課題に対処するために,オンライン医療相談の予測力を高める動的知識ネットワークとマルチモーダルデータフュージョン(DyKoNeM)フレームワークを提案する。 我々の研究は、特定の詳細なオンラインコミュニケーションプロセスがITデータベースに格納されている新しいビジネスモデルに重要な意味を持ち、同時に、ステークホルダーのデジタルトレースによって形成されたネットワークに予測力を持つ潜伏情報が埋め込まれている。 仮想またはハイブリッドモデル(例えば、オンラインおよびオフラインサービスの統合)が主流のトレンドとして現れている、さまざまな産業やドメインに拡張することができる。

Online healthcare consultation in virtual health is an emerging industry marked by innovation and fierce competition. Accurate and timely prediction of healthcare consultation success can proactively help online platforms address patient concerns and improve retention rates. However, predicting online consultation success is challenging due to the partial role of virtual consultations in patients' overall healthcare journey and the disconnect between online and in-person healthcare IT systems. Patient data in online consultations is often sparse and incomplete, presenting significant technical challenges and a research gap. To address these issues, we propose the Dynamic Knowledge Network and Multimodal Data Fusion (DyKoNeM) framework, which enhances the predictive power of online healthcare consultations. Our work has important implications for new business models where specific and detailed online communication processes are stored in the IT database, and at the same time, latent information with predictive power is embedded in the network formed by stakeholders' digital traces. It can be extended to diverse industries and domains, where the virtual or hybrid model (e.g., integration of online and offline services) is emerging as a prevailing trend.
翻訳日:2024-06-15 02:29:06 公開日:2024-06-12
# 動的システムに基づくメッセージパッシングを用いたグラフ幾何学とトポロジーの学習

Learning graph geometry and topology using dynamical systems based message-passing ( http://arxiv.org/abs/2309.09924v3 )

ライセンス: Link先を確認
Dhananjay Bhaskar, Yanlei Zhang, Charles Xu, Xingzhi Sun, Oluwadamilola Fasina, Guy Wolf, Maximilian Nickel, Michael Perlmutter, Smita Krishnaswamy, (参考訳) 本稿では,連続的マルチスケールグラフ力学の表現力に基づいて構築されたGNNのメッセージパッシングパラダイムであるDYMAGを紹介する。 標準的な離散時間メッセージパッシングアルゴリズムは、基本的なグラフトポロジ特性を捉える能力を制限する単純化されたグラフダイナミクスとアグリゲーションスキームを暗黙的に利用している。 対照的に、DYMAGは熱と波動方程式に基づく複雑なグラフ力学とカオス解を持つより複雑な方程式を利用する。 力学の連続的な性質を利用してマルチスケール(動的時間スナップショット)表現を生成し、それが様々なグラフトポロジやスペクトル特性と結びついていることが証明されている。 我々はDYMAGがErd\os-Renyiおよび確率的ブロックモデルランダムグラフの生成パラメータと、合成グラフと引用ネットワークの永続的ホモロジーを復元する際の優れた性能を実証した。 タンパク質や生体分子の挙動はグラフトポロジーに敏感であり, 複数スケールで重要な構造を示すことから, DYMAGは様々な生体分子の塩分特性を予測する他の手法よりも優れていることが判明した。

In this paper we introduce DYMAG: a message passing paradigm for GNNs built on the expressive power of continuous, multiscale graph-dynamics. Standard discrete-time message passing algorithms implicitly make use of simplistic graph dynamics and aggregation schemes which limit their ability to capture fundamental graph topological properties. By contrast, DYMAG makes use of complex graph dynamics based on the heat and wave equation as well as a more complex equation which admits chaotic solutions. The continuous nature of the dynamics are leveraged to generate multiscale (dynamic-time snapshot) representations which we prove are linked to various graph topological and spectral properties. We demonstrate experimentally that DYMAG achieves superior performance in recovering the generating parameters of Erd\"os-Renyi and stochastic block model random graphs and the persistent homology of synthetic graphs and citation network. Since the behavior of proteins and biomolecules is sensitive to graph topology and exhibits important structure at multiple scales, we find that DYMAG outperforms other methods at predicting salient features of various biomolecules.
翻訳日:2024-06-15 02:19:21 公開日:2024-06-12
# 物語を語る! 物語駆動型XAIと大規模言語モデル

Tell Me a Story! Narrative-Driven XAI with Large Language Models ( http://arxiv.org/abs/2309.17057v2 )

ライセンス: Link先を確認
David Martens, James Hinns, Camille Dams, Mark Vergouwen, Theodoros Evgeniou, (参考訳) 今日の多くのAIアプリケーションにおいて、ブラックボックス機械学習モデルの優位性は、通常より高精度であるため、説明可能なAI(XAI)の必要性を高めている。 既存のXAIアプローチ、例えば広く使われているSHAP値や反ファクトリアル(CF)説明は、ユーザーが理解し実行するのに技術的すぎることが多い。 AIの判断とユーザエクスペリエンスの理解を深めるため、大規模言語モデルを活用したXAIstoriesを導入し、AIの予測方法に関する物語を提供する: SHAPstoriesはSHAPの説明に基づいて、CFstoriesはCFの説明のために、。 提案手法がユーザ体験およびAI予測の理解に与える影響について検討する。 調査対象者の90%以上が、SHAPstoriesによる物語を説得力のあるものにしている。 データサイエンティストの83%は、この目的のためにSHAPstoriesを使用する可能性が高いことを示唆している。 イメージ分類設定では、CFstoriesは、ユーザの作り話として、75%以上の参加者で多かれ少なかれ説得力があると考えられている。 CFstoriesはさらに、物語作成において10倍のスピード向上をもたらす。 また、SHAPstoriesは、ユーザがAI決定をより正確に要約し、理解するのに役立ちます。 その結果、XAIstoriesはAI予測の説明と理解に大いに役立ち、最終的には様々なアプリケーションにおけるより良い意思決定を支援することが示唆された。

In many AI applications today, the predominance of black-box machine learning models, due to their typically higher accuracy, amplifies the need for Explainable AI (XAI). Existing XAI approaches, such as the widely used SHAP values or counterfactual (CF) explanations, are arguably often too technical for users to understand and act upon. To enhance comprehension of explanations of AI decisions and the overall user experience, we introduce XAIstories, which leverage Large Language Models to provide narratives about how AI predictions are made: SHAPstories do so based on SHAP explanations, while CFstories do so for CF explanations. We study the impact of our approach on users' experience and understanding of AI predictions. Our results are striking: over 90% of the surveyed general audience finds the narratives generated by SHAPstories convincing. Data scientists primarily see the value of SHAPstories in communicating explanations to a general audience, with 83% of data scientists indicating they are likely to use SHAPstories for this purpose. In an image classification setting, CFstories are considered more or equally convincing as the users' own crafted stories by more than 75% of the participants. CFstories additionally bring a tenfold speed gain in creating a narrative. We also find that SHAPstories help users to more accurately summarize and understand AI decisions, in a credit scoring setting we test, correctly answering comprehension questions significantly more often than they do when only SHAP values are provided. The results thereby suggest that XAIstories may significantly help explaining and understanding AI predictions, ultimately supporting better decision-making in various applications.
翻訳日:2024-06-15 02:19:21 公開日:2024-06-12
# セマンティック指標としての言語モデル

Language Models As Semantic Indexers ( http://arxiv.org/abs/2310.07815v3 )

ライセンス: Link先を確認
Bowen Jin, Hansi Zeng, Guoyin Wang, Xiusi Chen, Tianxin Wei, Ruirui Li, Zhengyang Wang, Zheng Li, Yang Li, Hanqing Lu, Suhang Wang, Jiawei Han, Xianfeng Tang, (参考訳) セマンティック識別子 (ID) は、情報検索において重要な概念であり、ID内の文書やアイテムなどのオブジェクトのセマンティクスを保存することを目的としている。 従来の研究では、2段階のパイプラインを使用してセマンティックIDを学習し、まず既製のテキストエンコーダを使用して埋め込みを取得し、次に埋め込みに基づいてIDを導出する。 しかし、各ステップは潜在的な情報損失を導入し、通常、テキストエンコーダが生成する潜伏空間における埋め込みの分布と、セマンティックインデックス作成に必要な予測分布との間には、固有のミスマッチがある。 セマンティックIDが離散的かつシーケンシャルな構造であり、セマンティックな管理が不十分であることを考えると、文書の意味表現とその階層構造を同時に学習できる手法を設計するのは簡単ではない。 本稿では,ジェネレーティブ言語モデルを用いてセマンティックIDを学習する自己教師型フレームワークLMIndexerを紹介する。 逐次離散IDの課題は、逐次学習とコントラスト学習を併用して、ニューラルネットワークの逐次離散表現を生成するセマンティックインデクサを導入することで解決される。 セマンティック・インテリジェンス・インテリジェンス・インテリジェンス(セマンティック・インテリジェンス・インテリジェンス・インテリジェンス・インテリジェンス)の欠如に対応して,自己管理型文書再構築を目標としたモデルの構築を提案する。 学習したIDの質の高さを示し、各ドメインの5つのデータセットの推薦、製品検索、文書検索を含む3つのタスクにおいて、その効果を実証する。 コードはhttps://github.com/PeterGriffinJin/LMIndexerで入手できる。

Semantic identifier (ID) is an important concept in information retrieval that aims to preserve the semantics of objects such as documents and items inside their IDs. Previous studies typically adopt a two-stage pipeline to learn semantic IDs by first procuring embeddings using off-the-shelf text encoders and then deriving IDs based on the embeddings. However, each step introduces potential information loss, and there is usually an inherent mismatch between the distribution of embeddings within the latent space produced by text encoders and the anticipated distribution required for semantic indexing. It is non-trivial to design a method that can learn the document's semantic representations and its hierarchical structure simultaneously, given that semantic IDs are discrete and sequentially structured, and the semantic supervision is deficient. In this paper, we introduce LMIndexer, a self-supervised framework to learn semantic IDs with a generative language model. We tackle the challenge of sequential discrete ID by introducing a semantic indexer capable of generating neural sequential discrete representations with progressive training and contrastive learning. In response to the semantic supervision deficiency, we propose to train the model with a self-supervised document reconstruction objective. We show the high quality of the learned IDs and demonstrate their effectiveness on three tasks including recommendation, product search, and document retrieval on five datasets from various domains. Code is available at https://github.com/PeterGriffinJin/LMIndexer.
翻訳日:2024-06-15 02:19:21 公開日:2024-06-12
# RedCoast:任意のGPU/TPU上でのLLMの分散トレーニングを自動化する軽量ツール

RedCoast: A Lightweight Tool to Automate Distributed Training of LLMs on Any GPU/TPUs ( http://arxiv.org/abs/2310.16355v3 )

ライセンス: Link先を確認
Bowen Tan, Yun Zhu, Lijuan Liu, Hongyi Wang, Yonghao Zhuang, Jindong Chen, Eric Xing, Zhiting Hu, (参考訳) 最近のAIの進歩は、主に大きな言語モデル(LLM)によるものである。 しかし、そのエスカレートするメモリ要件は、機械学習(ML)の研究者とエンジニアに課題をもたらす。 これに対処するためには、開発者は大きなモデルを分割して複数のGPUやTPUに分散する必要がある。 これはMegatron-LM、DeepSpeed、Alpaといった既存のモデル並列ツールによるコーディングと複雑な構成作業を必要とする。 これらのツールは、機械学習システム(MLSys)におけるユーザの専門知識を必要とし、特にMLSysのバックグラウンドを持たない開発者にとって、LLM開発におけるボトルネックを生み出します。 この作業では、軽量でユーザフレンドリなツールであるRedCoast(Redco)を紹介します。 Redcoの設計は2つの重要な側面を強調している。 まず、モデル並列化を自動化するために、任意のLLMに対してテンソル並列戦略を生成するための2つの簡単なルールを特定した。 これらのルールをRedcoに統合することで、余計な分散LLMトレーニングと推論が可能になり、追加のコーディングや複雑な設定を必要としない。 GPT-J, LLaMA, T5, OPT など一連の LLM アーキテクチャに Redco を適用することで, 最大 66B まで実効性を示す。 第2に,多ホスト関連処理のような冗長で定型的なコードを避けるために,単に3つの関数を定義することで,多様なMLパイプラインのカスタマイズを可能にする機構を提案する。 このメカニズムは、基礎言語モデリングからメタラーニングや強化学習のような複雑なアルゴリズムまで、MLアルゴリズムの範囲で適応可能であることを証明している。 その結果、Redcoの実装は公式実装に比べてコード行数が大幅に減った。

The recent progress of AI can be largely attributed to large language models (LLMs). However, their escalating memory requirements introduce challenges for machine learning (ML) researchers and engineers. Addressing this requires developers to partition a large model to distribute it across multiple GPUs or TPUs. This necessitates considerable coding and intricate configuration efforts with existing model parallel tools, such as Megatron-LM, DeepSpeed, and Alpa. These tools require users' expertise in machine learning systems (MLSys), creating a bottleneck in LLM development, particularly for developers without MLSys background. In this work, we present RedCoast (Redco), a lightweight and user-friendly tool crafted to automate distributed training and inference for LLMs, as well as to simplify ML pipeline development. The design of Redco emphasizes two key aspects. Firstly, to automate model parallelism, our study identifies two straightforward rules to generate tensor parallel strategies for any given LLM. Integrating these rules into Redco facilitates effortless distributed LLM training and inference, eliminating the need of additional coding or complex configurations. We demonstrate the effectiveness by applying Redco on a set of LLM architectures, such as GPT-J, LLaMA, T5, and OPT, up to the size of 66B. Secondly, we propose a mechanism that allows for the customization of diverse ML pipelines through the definition of merely three functions, avoiding redundant and formulaic code like multi-host related processing. This mechanism proves adaptable across a spectrum of ML algorithms, from foundational language modeling to complex algorithms like meta-learning and reinforcement learning. As a result, Redco implementations exhibit significantly fewer lines of code compared to their official counterparts.
翻訳日:2024-06-15 02:19:21 公開日:2024-06-12
# 一般化重粒子モーメントを用いたコミュニケーション効率の良い不均一フェデレーション学習

Communication-Efficient Heterogeneous Federated Learning with Generalized Heavy-Ball Momentum ( http://arxiv.org/abs/2311.18578v2 )

ライセンス: Link先を確認
Riccardo Zaccone, Carlo Masone, Marco Ciccone, (参考訳) Federated Learning(FL)は、プライバシ制約のあるシナリオにおける分散データから学ぶための最先端のアプローチとして登場した。 しかし、システムと統計的課題は、エッジデバイスからの効率的な学習と、不均一性に対する堅牢性を要求する現実世界の応用を妨げる。 大きな研究努力にもかかわらず、既存のアプローチ (i)十分に頑丈でない。 (二)大規模なシナリオではうまく機能せず、 (iii)通信効率は高くない。 本研究は,FLにおける統計的不均一性の効果に対抗するために,その原理を取り入れたGHBM(Generalized Heavy-Ball Momentum)を提案する。 そこで我々は,GHBMの適応的,通信効率の良い副設計インスタンスとしてFedHBMを提案する。 ビジョンと言語タスクに関する大規模な実験は、制御と現実の両方の大規模シナリオにおいて、最先端技術に対する実質的で一貫したパフォーマンス向上を示す説得力のある証拠となる。

Federated Learning (FL) has emerged as the state-of-the-art approach for learning from decentralized data in privacy-constrained scenarios. However, system and statistical challenges hinder real-world applications, which demand efficient learning from edge devices and robustness to heterogeneity. Despite significant research efforts, existing approaches (i) are not sufficiently robust, (ii) do not perform well in large-scale scenarios, and (iii) are not communication efficient. In this work, we propose a novel Generalized Heavy-Ball Momentum (GHBM), motivating its principled application to counteract the effects of statistical heterogeneity in FL. Then, we present FedHBM as an adaptive, communication-efficient by-design instance of GHBM. Extensive experimentation on vision and language tasks, in both controlled and realistic large-scale scenarios, provides compelling evidence of substantial and consistent performance gains over the state of the art.
翻訳日:2024-06-15 00:06:54 公開日:2024-06-12
# 半共共振器によるバンドシーケンスポスト価格設定

Bandit Sequential Posted Pricing via Half-Concavity ( http://arxiv.org/abs/2312.12794v2 )

ライセンス: Link先を確認
Sahil Singla, Yifan Wang, (参考訳) 列挙された価格オークションは、実践の単純さと理論のトラクタビリティによって人気がある。 彼らの研究における一般的な仮定は、バイエルンの購入者の事前分布は売り手に知られており、実際にはこれらの先行情報は歴史的データからのみアクセス可能であるということである。 この仮定を克服するために、バンディット学習モデルにおいて、売り手が$T$のラウンドで$n$の買い手と相互作用する連続的な価格について調査する: 各ラウンドでは、売り手は$n$の買い手に対して$n$の価格を投稿し、最初の買い手は、その商品を受け取った価格よりも高い価格で評価する。 販売者が各ラウンドで受け取る唯一のフィードバックは収益である。 本研究の主な成果は,帯域学習モデルにおける単一項目の逐次投稿価格に対して,ほぼ最適な後悔境界を求めることである。 特に、(マイソンの)正規分布を持つバイヤーに対して$\tilde{O}(\mathsf{poly}(n)\sqrt{T})$後悔し、一般分布を持つバイヤーに対して$\tilde{O}(\mathsf{poly}(n)T^{{2}/{3}})$後悔する。 正規分布に対する我々の結果は, 単一購入者設定においても知られておらず, 付加価値空間における収益関数の新たな半共共振特性に依存している。 シーケンシャルバイヤー$n$の場合、我々の技術は、すべてのバイヤーに対して一般化されたシングルバイヤーアルゴリズムを実行し、サフィックスバイヤーのサブ最適価格からの後悔を慎重に拘束することである。

Sequential posted pricing auctions are popular because of their simplicity in practice and their tractability in theory. A usual assumption in their study is that the Bayesian prior distributions of the buyers are known to the seller, while in reality these priors can only be accessed from historical data. To overcome this assumption, we study sequential posted pricing in the bandit learning model, where the seller interacts with $n$ buyers over $T$ rounds: In each round the seller posts $n$ prices for the $n$ buyers and the first buyer with a valuation higher than the price takes the item. The only feedback that the seller receives in each round is the revenue. Our main results obtain nearly-optimal regret bounds for single-item sequential posted pricing in the bandit learning model. In particular, we achieve an $\tilde{O}(\mathsf{poly}(n)\sqrt{T})$ regret for buyers with (Myerson's) regular distributions and an $\tilde{O}(\mathsf{poly}(n)T^{{2}/{3}})$ regret for buyers with general distributions, both of which are tight in the number of rounds $T$. Our result for regular distributions was previously not known even for the single-buyer setting and relies on a new half-concavity property of the revenue function in the value space. For $n$ sequential buyers, our technique is to run a generalized single-buyer algorithm for all the buyers and to carefully bound the regret from the sub-optimal pricing of the suffix buyers.
翻訳日:2024-06-15 00:06:54 公開日:2024-06-12
# ソフトウェアデブロ化ツールの幅広い比較評価

A Broad Comparative Evaluation of Software Debloating Tools ( http://arxiv.org/abs/2312.13274v3 )

ライセンス: Link先を確認
Michael D. Brown, Adam Meily, Brian Fairservice, Akshay Sood, Jonathan Dorn, Eric Kilmer, Ronald Eytchison, (参考訳) ソフトウェアデ肥大化ツールは、bloatと呼ばれる不要なコードを削除することで、プログラムのセキュリティとパフォーマンスを改善しようとしている。 多くのテクニックが提案されているが、採用への障壁がいくつか現れている。 すなわち、デ肥大化ツールは高度に専門化されており、採用者が自身のニーズに合ったタイプのツールを見つけることは困難である。 これは、確立されたメトリクスの欠如と、ツール間の比較評価によってさらに妨げられます。 この情報ギャップを埋めるため、我々は10年間にわたるデブロ化文学と、現在商業開発中のいくつかのツールを調査し、デブロ化エコシステムに関する知識を分類した。 次に, 相対的強度と弱さを判定するために, 10個の脱血ツールの広範囲な比較評価を行った。 評価は、20のベンチマークプログラム、12のパフォーマンス、セキュリティ、正当性の測定ツールに基づいて行われた。 筆者らの評価は, 脱血文学の主流である物語と矛盾するいくつかの知見を呈する。 まず、デ肥大化ツールには、現実のソフトウェアで使用するために必要な成熟度が欠けている。 第二に、デ肥大化ツールは健全で堅牢なプログラムを作成するのに苦労する。 新たなファジィファジィツールであるDIFFERを用いて、私たちのデ肥大化の試みの13%だけが、健全で堅牢なデ肥大化プログラムを生み出したことがわかった。 最後に,この結果から,デ肥大化ツールが一般的に,評価基準に従って,デ肥大化プログラムの性能やセキュリティの姿勢を著しく改善しないことが示唆された。 この論文における私たちのコントリビューションは、潜在的な採用者がツールの展望をよりよく理解し、より有能なデブロ化ツールの今後の研究と開発を動機付けるだろうと信じています。

Software debloating tools seek to improve program security and performance by removing unnecessary code, called bloat. While many techniques have been proposed, several barriers to their adoption have emerged. Namely, debloating tools are highly specialized, making it difficult for adopters to find the right type of tool for their needs. This is further hindered by a lack of established metrics and comparative evaluations between tools. To close this information gap, we surveyed 10 years of debloating literature and several tools currently under commercial development to taxonomize knowledge about the debloating ecosystem. We then conducted a broad comparative evaluation of 10 debloating tools to determine their relative strengths and weaknesses. Our evaluation, conducted on a diverse set of 20 benchmark programs, measures tools across 12 performance, security, and correctness metrics. Our evaluation surfaces several concerning findings that contradict the prevailing narrative in the debloating literature. First, debloating tools lack the maturity required to be used on real-world software, evidenced by a slim 22% overall success rate for creating passable debloated versions of medium- and high-complexity benchmarks. Second, debloating tools struggle to produce sound and robust programs. Using our novel differential fuzzing tool, DIFFER, we discovered that only 13% of our debloating attempts produced a sound and robust debloated program. Finally, our results indicate that debloating tools typically do not improve the performance or security posture of debloated programs by a significant degree according to our evaluation metrics. We believe that our contributions in this paper will help potential adopters better understand the landscape of tools and will motivate future research and development of more capable debloating tools.
翻訳日:2024-06-15 00:06:54 公開日:2024-06-12
# 磁気材料の機械学習モデル

Machine-learned models for magnetic materials ( http://arxiv.org/abs/2401.00072v2 )

ライセンス: Link先を確認
Paweł Leszczyński, Kamil Kutorasiński, Marcin Szewczyk, Jarosław Pawłowski, (参考訳) 本稿では,ディープニューラルネットワークを用いた強磁性材料特性のモデル化のための一般的な枠組みを提案する。 多次元特性(測定を模倣する)で表される磁性物質は、教師なしの方法で神経オートエンコーダモデルを訓練するために使用される。 エンコーダは理論モデルの物質パラメータを予測し、デコーダ部で使用される。 デコーダは予測パラメータを用いて入力特性を再構成する。 ニューラルネットワークは、幅広い物質挙動をカバーすることができる、合成的に生成された特性の集合を捉えるように訓練され、単一の測定のためにモデルパラメータを最適化するのではなく、基礎となる物理を一般化できるモデルへと導かれる。 モデルの設定後,周波数領域と電流領域(非線形領域)領域の磁性物質を同時にモデル化する複雑な問題において,その有用性を証明した。

We present a general framework for modeling power magnetic materials characteristics using deep neural networks. Magnetic materials represented by multidimensional characteristics (that mimic measurements) are used to train the neural autoencoder model in an unsupervised manner. The encoder is trying to predict the material parameters of a theoretical model, which is then used in a decoder part. The decoder, using the predicted parameters, reconstructs the input characteristics. The neural model is trained to capture a synthetically generated set of characteristics that can cover a broad range of material behaviors, leading to a model that can generalize on the underlying physics rather than just optimize the model parameters for a single measurement. After setting up the model, we prove its usefulness in the complex problem of modeling magnetic materials in the frequency and current (out-of-linear range) domains simultaneously, for which we use measured characteristics obtained for frequency up to $10$ MHz and H-field up to saturation.
翻訳日:2024-06-15 00:06:54 公開日:2024-06-12
# フロラ:低ランクのアダプターは秘かにグラディエント圧縮機

Flora: Low-Rank Adapters Are Secretly Gradient Compressors ( http://arxiv.org/abs/2402.03293v2 )

ライセンス: Link先を確認
Yongchang Hao, Yanshuai Cao, Lili Mou, (参考訳) 大きなニューラルネットワークは、異なるタスクを完了させる顕著な能力を示すが、トレーニングのための最適化状態を格納するためには、過剰なメモリ使用が必要である。 これを軽減するために、低ランク適応(LoRA)を提案し、少ないパラメータをトレーニングすることで最適化状態を削減する。 しかし、LoRAは全体の重量更新行列を低ランクに制限し、モデルの性能を制限している。 本研究では,LoRAの動力学を考察し,ランダムな投影によって近似できることを示す。 この観測に基づいて,最適化状態の線形空間の複雑さを享受しながら,投影行列を再サンプリングすることにより,高次更新を達成できるFloraを提案する。 さまざまなタスクやモデルアーキテクチャにまたがって実験を行い、アプローチの有効性を検証する。

Despite large neural networks demonstrating remarkable abilities to complete different tasks, they require excessive memory usage to store the optimization states for training. To alleviate this, the low-rank adaptation (LoRA) is proposed to reduce the optimization states by training fewer parameters. However, LoRA restricts overall weight update matrices to be low-rank, limiting the model performance. In this work, we investigate the dynamics of LoRA and identify that it can be approximated by a random projection. Based on this observation, we propose Flora, which is able to achieve high-rank updates by resampling the projection matrices while enjoying the sublinear space complexity of optimization states. We conduct experiments across different tasks and model architectures to verify the effectiveness of our approach.
翻訳日:2024-06-14 23:55:19 公開日:2024-06-12
# CREMA:マルチモーダルモジュール核融合による汎用的で効率的なビデオランゲージ推論

CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion ( http://arxiv.org/abs/2402.05889v2 )

ライセンス: Link先を確認
Shoubin Yu, Jaehong Yoon, Mohit Bansal, (参考訳) 近年のマルチモーダル推論アプローチの顕著な進歩にもかかわらず、これらのモデルは柔軟性と効率に制限されている。 本稿では、これらの重要な課題に取り組み、ビデオ推論を強化するために新しいモダリティを組み込んだ、一般化可能で高効率でモジュール化されたモダリティ融合フレームワークCREMAを提案する。 まず、センサや既存のトレーニング済みモデルを利用して、人間のアノテーションを使わずに、与えられたビデオから複数の情報モダリティ(光学フロー、3Dポイントクラウド、オーディオ、ヒートマップ、タッチマップなど)を拡大する。 次に、複数のパラメータ効率のモジュールが各アクセス可能なモダリティに関連付けられているクエリ変換器を提案する。 LLMトークンの埋め込みスペースに様々なモダリティ機能を提供しており、モデルが応答生成のために異なるデータタイプを統合することができる。 さらに,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支持される新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。 様々なアシストモードの情報を圧縮し、LLMの計算効率を維持しながら性能を向上させる。 我々は,従来のビデオQAやビデオAudio/3D/Touch/Thermal QAを含む7つのビデオ言語推論タスクについて検証し,トレーニング可能なパラメータを90%以上削減しつつ,OneLLM,BLIP-2,SeViLAを含む強力なマルチモーダルLCMに対して,より優れた/等価な性能を実現する。 本稿では,各モダリティが推論領域に与える影響,融合モジュールの設計,サンプル可視化など,CREMAの広範な分析を行う。

Despite impressive advancements in recent multimodal reasoning approaches, they are still limited in flexibility and efficiency, as these models typically process only a few fixed modality inputs and require updates to numerous parameters. This paper tackles these critical challenges and proposes CREMA, a generalizable, highly efficient, and modular modality-fusion framework that can incorporate any new modality to enhance video reasoning. We first augment multiple informative modalities (such as optical flow, 3D point cloud, audio, thermal heatmap, and touch map) from given videos without extra human annotation by leveraging sensors or existing pre-trained models. Next, we introduce a query transformer with multiple parameter-efficient modules associated with each accessible modality. It projects diverse modality features to the LLM token embedding space, allowing the model to integrate different data types for response generation. Furthermore, we propose a novel progressive multimodal fusion design supported by a lightweight fusion module and modality-sequential training strategy. It helps compress information across various assisting modalities, maintaining computational efficiency in the LLM while improving performance. We validate our method on 7 video-language reasoning tasks assisted by diverse modalities, including conventional VideoQA and Video-Audio/3D/Touch/Thermal QA, and achieve better/equivalent performance against strong multimodal LLMs, including OneLLM, BLIP-2, and SeViLA while reducing over 90% trainable parameters. We provide extensive analyses of CREMA, including the impact of each modality on reasoning domains, the design of the fusion module, and example visualizations.
翻訳日:2024-06-14 23:45:25 公開日:2024-06-12
# 依存学習理論におけるシャープレート:正方形損失に対するサンプルサイズデフレを回避する

Sharp Rates in Dependent Learning Theory: Avoiding Sample Size Deflation for the Square Loss ( http://arxiv.org/abs/2402.05928v3 )

ライセンス: Link先を確認
Ingvar Ziemann, Stephen Tu, George J. Pappas, Nikolai Matni, (参考訳) 本研究では、仮説クラス$\mathscr{F}\subset L_{\Psi_p}$において、従属する(\beta$-mixing)データと平方損失を持つ統計学習について研究する。そこで、$\Psi_p$はノルム$\|f\|_{\Psi_p} \triangleq \sup_{m\geq 1} m^{-1/p} \|f\|_{L^m} $ for some $p\in [2,\infty]$である。 本研究の動機は, 依存データを用いた学習において, シャープノイズ相互作用項, 分散プロキシを探索することにある。 任意の実現可能性の仮定を欠いて、典型的な非漸近的な結果は、基礎となる共変量過程の混合時間によって重畳される分散プロキシを示す。 L^2$ と $\Psi_p$ の位相が我々の仮説類 $\mathscr{F}$ -- つまり、$\mathscr{F}$ は弱準ガウス類であることを示す: $\|f\|_{\Psi_p} \lesssim \|f\|_{L^2}^\eta$ for some $\eta\in (0,1]$ -- 経験的リスク最小化は、その先行項におけるクラスと二階統計の複雑さにのみ依存する率を達成する。 混合への直接的な依存は加法的高次項に還元されるので、この問題は実現可能かどうかを判断し、これを 'emph{near mix-free rate} と呼ぶ。 我々は上記の弱準ガウス類の概念と混合テール一般連鎖を組み合わせることで結果に到達する。 この組み合わせにより、幅広い問題に対するシャープでインスタンス-最適率を計算することができます。 我々のフレームワークを満たす例としては、準ガウス線型回帰、より一般的なスムーズなパラメータ化関数クラス、有限仮説クラス、有界滑らか性クラスがある。

In this work, we study statistical learning with dependent ($\beta$-mixing) data and square loss in a hypothesis class $\mathscr{F}\subset L_{\Psi_p}$ where $\Psi_p$ is the norm $\|f\|_{\Psi_p} \triangleq \sup_{m\geq 1} m^{-1/p} \|f\|_{L^m} $ for some $p\in [2,\infty]$. Our inquiry is motivated by the search for a sharp noise interaction term, or variance proxy, in learning with dependent data. Absent any realizability assumption, typical non-asymptotic results exhibit variance proxies that are deflated multiplicatively by the mixing time of the underlying covariates process. We show that whenever the topologies of $L^2$ and $\Psi_p$ are comparable on our hypothesis class $\mathscr{F}$ -- that is, $\mathscr{F}$ is a weakly sub-Gaussian class: $\|f\|_{\Psi_p} \lesssim \|f\|_{L^2}^\eta$ for some $\eta\in (0,1]$ -- the empirical risk minimizer achieves a rate that only depends on the complexity of the class and second order statistics in its leading term. Our result holds whether the problem is realizable or not and we refer to this as a \emph{near mixing-free rate}, since direct dependence on mixing is relegated to an additive higher order term. We arrive at our result by combining the above notion of a weakly sub-Gaussian class with mixed tail generic chaining. This combination allows us to compute sharp, instance-optimal rates for a wide range of problems. Examples that satisfy our framework include sub-Gaussian linear regression, more general smoothly parameterized function classes, finite hypothesis classes, and bounded smoothness classes.
翻訳日:2024-06-14 23:45:25 公開日:2024-06-12
# 情報深層学習における不確実性定量化能力はミラージュか?

Are Uncertainty Quantification Capabilities of Evidential Deep Learning a Mirage? ( http://arxiv.org/abs/2402.06160v2 )

ライセンス: Link先を確認
Maohao Shen, J. Jon Ryu, Soumya Ghosh, Yuheng Bu, Prasanna Sattigeri, Subhro Das, Gregory W. Wornell, (参考訳) 本稿では,単一ニューラルネットワークモデルを用いて,特定の目的関数を最小化することにより,予測分布上のメタ分布を学習する,最新の予測不確実性定量化手法であるemph{evidential Deep Learning} (EDL)の有効性を疑問視する。 下流のタスクにおいて強い経験的性能が認められたにもかかわらず、ベングスらによる最近の一連の研究は、学習された疫学の不確実性を結論付ける既存の方法の限界を、無限のデータでさえも消滅しないという、信頼できないものとして特定している。 このような分析を構築、強化する、私たちは 1)多種多様な目的機能を統合することにより,多種多様なEDL手法の漸近行動の理解を深める。 2) エネルギーモデルに基づく分布外検出アルゴリズムとして,EDL法をよりよく解釈できることが明らかとなった。 3) 実世界のデータセットによる実験効果をよりよく評価するために, 広範囲にわたるアブレーション研究を実施している。 これらの分析を通じて、EDL法が下流タスクに実証的に有効であるとしても、不確実な定量化能力が劣っているにもかかわらず、これは発生すると結論づける。 本研究は,モデル不確実性を取り入れることで,EDL手法が不確実性を忠実に定量化し,さらに計算複雑性の増大を犠牲にしながら,下流タスクにおける性能を向上させることができることを示唆している。

This paper questions the effectiveness of a modern predictive uncertainty quantification approach, called \emph{evidential deep learning} (EDL), in which a single neural network model is trained to learn a meta distribution over the predictive distribution by minimizing a specific objective function. Despite their perceived strong empirical performance on downstream tasks, a line of recent studies by Bengs et al. identify limitations of the existing methods to conclude their learned epistemic uncertainties are unreliable, e.g., in that they are non-vanishing even with infinite data. Building on and sharpening such analysis, we 1) provide a sharper understanding of the asymptotic behavior of a wide class of EDL methods by unifying various objective functions; 2) reveal that the EDL methods can be better interpreted as an out-of-distribution detection algorithm based on energy-based-models; and 3) conduct extensive ablation studies to better assess their empirical effectiveness with real-world datasets. Through all these analyses, we conclude that even when EDL methods are empirically effective on downstream tasks, this occurs despite their poor uncertainty quantification capabilities. Our investigation suggests that incorporating model uncertainty can help EDL methods faithfully quantify uncertainties and further improve performance on representative downstream tasks, albeit at the cost of additional computational complexity.
翻訳日:2024-06-14 23:45:25 公開日:2024-06-12
# 選択的「選択予測」:視覚言語推論における不要な留意を減らす

Selective "Selective Prediction": Reducing Unnecessary Abstention in Vision-Language Reasoning ( http://arxiv.org/abs/2402.15610v2 )

ライセンス: Link先を確認
Tejas Srinivasan, Jack Hessel, Tanmay Gupta, Bill Yuchen Lin, Yejin Choi, Jesse Thomason, Khyathi Raghavi Chandu, (参考訳) 選択予測(Selective prediction)は、視覚言語モデル(VLM)からの誤った予測を最小化する。 しかし、不正確な予測に対する耐性が低い視覚言語システムを展開する場合、選択的予測は過度に注意され、多くの正しい予測に対しても頻繁に無視される可能性がある。 本稿では,システム予測の誤り率を増大させることなく,選択的な視覚言語システムの過剰保持を低減する推論時アルゴリズムReCoVERRを紹介する。 VLMが低信頼の予測を行う場合、ReCoVERRを控える代わりに、予測のための追加の証拠を提供する画像に関連した手がかりを見つけようとする。 ReCoVERR は LLM を用いて VLM に関連する質問を提起し、高信頼の証拠を収集し、もし十分な証拠があれば、システムが棄権する代わりに予測を行う。 ReCoVERRは3つのVLM(BLIP2、InstructBLIP、LLaVA-1.5)をシステム精度を低下させることなくVQAv2およびA-OKVQAタスクに対して最大20%の質問に答えることを可能にし、システム全体の信頼性を向上させる。 私たちのコードはhttps://github.com/tejas1995/ReCoVERR.comで公開されています。

Selective prediction minimizes incorrect predictions from vision-language models (VLMs) by allowing them to abstain from answering when uncertain. However, when deploying a vision-language system with low tolerance for inaccurate predictions, selective prediction may be over-cautious and abstain too frequently, even on many correct predictions. We introduce ReCoVERR, an inference-time algorithm to reduce the over-abstention of a selective vision-language system without increasing the error rate of the system's predictions. When the VLM makes a low-confidence prediction, instead of abstaining ReCoVERR tries to find relevant clues in the image that provide additional evidence for the prediction. ReCoVERR uses an LLM to pose related questions to the VLM, collects high-confidence evidences, and if enough evidence confirms the prediction the system makes a prediction instead of abstaining. ReCoVERR enables three VLMs (BLIP2, InstructBLIP, and LLaVA-1.5) to answer up to 20% more questions on the VQAv2 and A-OKVQA tasks without decreasing system accuracy, thus improving overall system reliability. Our code is available at https://github.com/tejas1995/ReCoVERR.
翻訳日:2024-06-14 23:45:25 公開日:2024-06-12
# 文書レベルイベントアーグメントデータ拡張のための大規模言語モデル

Large Language Models for Document-Level Event-Argument Data Augmentation for Challenging Role Types ( http://arxiv.org/abs/2403.03304v2 )

ライセンス: Link先を確認
Joseph Gatto, Parker Seegmiller, Omar Sharif, Sarah M. Preum, (参考訳) イベント引数抽出(EAE)は、非常に難しい情報抽出問題である。 FSCDモデリングの一般的な解決策はデータ拡張である。 残念ながら、既存の拡張方法は、様々な現実世界のEAEコンテキストに適していない。 一 長文(十以上の文)のモデル化の必要性 (ii)ゼロロールと少数ショットロール(トレーニング表現がほとんどないしないイベントロール)をモデル化する必要性。 本研究では,抽出文書レベルEAEサンプルをドメイン内学習データゼロで合成するための,LLMを利用した新しい2つのデータ拡張フレームワークを提案する。 提案手法は, ゼロショットロールタイプの抽出において, F1スコアが16倍に向上することを示す。 クロスドメインEAEの分析をより容易にするため,ソースドメインで観測される役割に関するセマンティックな外れ値であるターゲットドメインにおける役割を特定するために,統計的深度を用いた新しい指標であるRole-Depth F1(RDF1)を導入する。 実験の結果, LLMによる拡張により, ベースライン法と比較して最大11F1ポイントのRDF1性能が向上することが示された。

Event Argument Extraction (EAE) is an extremely difficult information extraction problem -- with significant limitations in few-shot cross-domain (FSCD) settings. A common solution to FSCD modeling is data augmentation. Unfortunately, existing augmentation methods are not well-suited to a variety of real-world EAE contexts including (i) The need to model long documents (10+ sentences) (ii) The need to model zero and few-shot roles (i.e. event roles with little to no training representation). In this work, we introduce two novel LLM-powered data augmentation frameworks for synthesizing extractive document-level EAE samples using zero in-domain training data. Our highest performing methods provide a 16-pt increase in F1 score on extraction of zero shot role types. To better facilitate analysis of cross-domain EAE, we additionally introduce a new metric, Role-Depth F1 (RDF1), which uses statistical depth to identify roles in the target domain which are semantic outliers with respect to roles observed in the source domain. Our experiments show that LLM-based augmentation can boost RDF1 performance by up to 11 F1 points compared to baseline methods.
翻訳日:2024-06-14 23:35:40 公開日:2024-06-12
# 法医学的3次元フィンガープリントにおける安全な情報埋め込みと抽出

Secure Information Embedding and Extraction in Forensic 3D Fingerprinting ( http://arxiv.org/abs/2403.04918v3 )

ライセンス: Link先を確認
Canran Wang, Jinwen Wang, Mi Zhou, Vinh Pham, Senyue Hao, Chao Zhou, Ning Zhang, Netanel Raviv, (参考訳) 3Dプリンティングの流行は、インターネットアクセスとコモディティプリンタが追跡不能な銃器、キー、偽造品などを製造できるため、公衆の安全に重大なリスクをもたらす。 政府当局がこれらの新たなセキュリティ脅威と戦うのを助けるために、情報を識別する3Dプリントのタグ付けにいくつかのアプローチが取られている。 指紋として知られるこの情報は、様々なビット埋め込み技術を用いてオブジェクトに書き込まれ、例えば、溶融熱可塑性層の高さの変化や、磁気特性の異なる金属粉末の堆積などである。 しかし、現実の法医学的な環境でのこれらの手法の実践性は、この問題の逆境性によって妨げられている。 つまり、3Dプリンティングのプロセスは、いかなる法執行機関にも及ばず、印刷のあらゆる側面を制御し、印刷物を保有する敵である。 これらの脅威に対処するため、法執行機関は指紋認証を強制する3Dプリンターの製造を規制し、法医学的な調査中に敵に改ざんされた遺物(例:壊れた3Dプリント銃の破片)を収集することができる。 そのため、敵が印刷を行っても指紋を抽出できるように指紋認証技術を考案することが重要である。 そこで我々は,3Dプリントにおける法医学的フィンガープリントの相反する性質に対処する指紋抽出フレームワークであるSIDE(Secure Information Embedding and extract)を,セキュアな情報埋め込みとセキュアな情報抽出の両方を提供して提案する。

The prevalence of 3D printing poses a significant risk to public safety, as any individual with internet access and a commodity printer is able to produce untraceable firearms, keys, counterfeit products, etc. To aid government authorities in combating these new security threats, several approaches have been taken to tag 3D-prints with identifying information. Known as fingerprints, this information is written into the object using various bit embedding techniques; examples include varying the height of the molten thermoplastic layers, and depositing metallic powder with different magnetic properties. Yet, the practicality of theses techniques in real-world forensic settings is hindered by the adversarial nature of this problem. That is, the 3D-printing process is out of reach of any law enforcement agencies; it is the adversary who controls all aspects of printing and possesses the printed object. To combat these threats, law enforcement agencies can regulate the manufacturing of 3D printers, on which they may enforce a fingerprinting scheme, and collect adversarially tampered remains (e.g., fragments of a broken 3D-printed firearm) during forensic investigation. Therefore, it is important to devise fingerprinting techniques so that the fingerprint could be extracted even if printing is carried out by the adversary. To this end, we present SIDE (Secure Information Embedding and Extraction), a fingerprinting framework that tackles the adversarial nature of forensic fingerprinting in 3D prints by offering both secure information embedding and secure information extraction.
翻訳日:2024-06-14 23:35:40 公開日:2024-06-12
# 高速かつ高精度な変分オートエンコーダのためのモデル非依存的後部近似に向けて

Towards Model-Agnostic Posterior Approximation for Fast and Accurate Variational Autoencoders ( http://arxiv.org/abs/2403.08941v2 )

ライセンス: Link先を確認
Yaniv Yacoby, Weiwei Pan, Finale Doshi-Velez, (参考訳) 変分オートエンコーダ(VAE)の推論は,(1)潜時空間上の単純な分布を観測データ上の分布に変換する生成モデル,(2)潜時符号の後部を近似する推論モデル,の2つのモデルから成り立っている。 2つのコンポーネントは、生成モデルのログ限界確率の低い境界を通して、共同で学習される。 ジョイントトレーニングの初期段階では、推論モデルは遅延符号後部を十分に近似する。 近年の研究では、この最適化が局所最適状態に留まり、学習された生成モデルに悪影響を及ぼすことが示されている。 このように、最近の研究は、反復的トレーニングによる高品質な推論モデルを保証することを示唆している。 残念なことに、反復訓練は非効率であり、反復訓練から高速な関節訓練に戻すためのヒューリスティックな基準を必要とする。 本稿では,生成モデルと推論モデルを独立に学習する推論手法を提案する。 これは真のモデル a の後部を近似し、この後部近似を固定し、生成モデルのみに対する下界を最大化する。 従来の知恵では、このアプローチは後部(未知)を近似するために真のモデルの真の事前と可能性に依存するべきである。 しかし,本モデルの後部近似 (MAPA) は決定論的, モデルに依存しない。 そこで,MAPAを用いて概念推論法を開発した。 我々は,(1)MAPAが真の後部傾向を捉えた低次元合成データに対する予備的な結果を示し,(2)MAPAに基づく推論は,ベースラインよりも少ない計算でより優れた密度推定を行う。 最後に,MAPAに基づく推論手法を高次元データに拡張するためのロードマップを提案する。

Inference for Variational Autoencoders (VAEs) consists of learning two models: (1) a generative model, which transforms a simple distribution over a latent space into the distribution over observed data, and (2) an inference model, which approximates the posterior of the latent codes given data. The two components are learned jointly via a lower bound to the generative model's log marginal likelihood. In early phases of joint training, the inference model poorly approximates the latent code posteriors. Recent work showed that this leads optimization to get stuck in local optima, negatively impacting the learned generative model. As such, recent work suggests ensuring a high-quality inference model via iterative training: maximizing the objective function relative to the inference model before every update to the generative model. Unfortunately, iterative training is inefficient, requiring heuristic criteria for reverting from iterative to joint training for speed. Here, we suggest an inference method that trains the generative and inference models independently. It approximates the posterior of the true model a priori; fixing this posterior approximation, we then maximize the lower bound relative to only the generative model. By conventional wisdom, this approach should rely on the true prior and likelihood of the true model to approximate its posterior (which are unknown). However, we show that we can compute a deterministic, model-agnostic posterior approximation (MAPA) of the true model's posterior. We then use MAPA to develop a proof-of-concept inference method. We present preliminary results on low-dimensional synthetic data that (1) MAPA captures the trend of the true posterior, and (2) our MAPA-based inference performs better density estimation with less computation than baselines. Lastly, we present a roadmap for scaling the MAPA-based inference method to high-dimensional data.
翻訳日:2024-06-14 23:25:56 公開日:2024-06-12
# 異方性及び独立性原子量子ノードから放出される単一光子の近距離不均一性

Near-unity indistinguishability of single photons emitted from dissimilar and independent atomic quantum nodes ( http://arxiv.org/abs/2404.01951v2 )

ライセンス: Link先を確認
Félix Hoffet, Jan Lowinski, Lukas Heller, Auxiliadora Padrón-Brito, Hugues de Riedmatten, (参考訳) 独立ノードから区別不可能な光子を生成することは、量子ネットワークを開発する上で重要な課題である。 本研究では、2つの異なる原子量子ノードから非常に区別できない単一光子を生成することを実証する。 1つのノードは、完全にブロックされたコールドRydbergアンサンブルに基づいており、オンデマンドの単一光子を生成する。 他方のノードは、DLCZ量子メモリに基づく量子リピータノードであり、2つのソースを同期するために使用される制御可能なメモリ時間の後、隠蔽された単一光子を出力する。 時間窓に${94.6 \pm 5.2 \%}$の光子を${90\%}$とする不明瞭性を実証する。 この進歩は、その効率を犠牲にすることなく、高忠実度ベル状態測定で量子リピータと処理ノードを相互接続する新たな可能性を開く。

Generating indistinguishable photons from independent nodes is an important challenge for the development of quantum networks. In this work, we demonstrate the generation of highly indistinguishable single photons from two dissimilar atomic quantum nodes. One node is based on a fully blockaded cold Rydberg ensemble and generates on-demand single photons. The other node is a quantum repeater node based on a DLCZ quantum memory and emits heralded single photons after a controllable memory time that is used to synchronize the two sources. We demonstrate an indistinguishability of ${94.6 \pm 5.2 \%}$ for a temporal window including ${90\%}$ of the photons. This advancement opens new possibilities for interconnecting quantum repeater and processing nodes with high fidelity Bell-state measurement without sacrificing its efficiency.
翻訳日:2024-06-14 23:25:56 公開日:2024-06-12
# 近代ホップフィールドモデルのための容量を大きくした均一メモリ検索

Uniform Memory Retrieval with Larger Capacity for Modern Hopfield Models ( http://arxiv.org/abs/2404.03827v2 )

ライセンス: Link先を確認
Dennis Wu, Jerry Yao-Chieh Hu, Teng-Yun Hsiao, Han Liu, (参考訳) 本稿では,最近のホップフィールドモデルに対して,メモリ容量を拡張した2段階のメモリ検索ダイナミックス($\mathtt{U\text{-}Hop}$)を提案する。 私たちの重要な貢献は、ホップフィールドエネルギー関数をカーネル空間に変換する学習可能な特徴写像$\Phi$である。 この変換により、エネルギーの局所最小値とカーネル空間内の検索力学の固定点との収束が保証される。 したがって、$\Phi$によって誘導されるカーネルノルムは、新しい類似度尺度として機能する。 記憶されたメモリパターンを学習データとして利用し、現代のホップフィールドモデル全体のメモリ容量を向上させる。 具体的には、カーネル空間に記憶されたメモリパターンを分離することにより、カーネル化されたエネルギーの局所的なミニマを分離する分離損失$\mathcal{L}_\Phi$を構築する。 方法論的には、$\mathtt{U\text{-}Hop}$ メモリ検索プロセスは: (Stage I) より均一なメモリ(ローカル最小限)分布の分離損失を最小限にし、次いで(Stage II) メモリ検索のための標準ホップフィールドエネルギー最小化を行う。 これによりホップフィールドエネルギー関数の準安定状態が大幅に減少し、メモリ混乱を防止してメモリ容量が増大する。 実世界のデータセットを用いて、$\mathtt{U\text{-}Hop}$は、既存のホップフィールドモデルと最先端の類似性尺度を全て上回り、連想記憶検索とディープラーニングタスクの両方で大幅に改善されていることを実証した。 コードはhttps://github.com/MAGICS-LAB/UHop で公開されている。

We propose a two-stage memory retrieval dynamics for modern Hopfield models, termed $\mathtt{U\text{-}Hop}$, with enhanced memory capacity. Our key contribution is a learnable feature map $\Phi$ which transforms the Hopfield energy function into kernel space. This transformation ensures convergence between the local minima of energy and the fixed points of retrieval dynamics within the kernel space. Consequently, the kernel norm induced by $\Phi$ serves as a novel similarity measure. It utilizes the stored memory patterns as learning data to enhance memory capacity across all modern Hopfield models. Specifically, we accomplish this by constructing a separation loss $\mathcal{L}_\Phi$ that separates the local minima of kernelized energy by separating stored memory patterns in kernel space. Methodologically, $\mathtt{U\text{-}Hop}$ memory retrieval process consists of: (Stage I) minimizing separation loss for a more uniform memory (local minimum) distribution, followed by (Stage II) standard Hopfield energy minimization for memory retrieval. This results in a significant reduction of possible metastable states in the Hopfield energy function, thus enhancing memory capacity by preventing memory confusion. Empirically, with real-world datasets, we demonstrate that $\mathtt{U\text{-}Hop}$ outperforms all existing modern Hopfield models and state-of-the-art similarity measures, achieving substantial improvements in both associative memory retrieval and deep learning tasks. Code is available at https://github.com/MAGICS-LAB/UHop ; future updates are on arXiv:2404.03827
翻訳日:2024-06-14 23:16:04 公開日:2024-06-12
# マルチモーダル設定における深部生成データ同化

Deep Generative Data Assimilation in Multimodal Setting ( http://arxiv.org/abs/2404.06665v3 )

ライセンス: Link先を確認
Yongquan Qu, Juan Nathaniel, Shuolin Li, Pierre Gentine, (参考訳) 物理知識とデータのロバストな統合は、地球系モデルのような計算シミュレーションを改善する鍵となる。 データ同化は、リモートセンシング画像や地上局計測を含む、不確実な定量化を含む、モデル出力を観測で校正するための体系的なフレームワークを提供するため、この目標を達成するために不可欠である。 カルマンフィルタや変分法を含む従来の手法は本質的に線形およびガウス的仮定の単純化に依存しており、計算コストがかかる。 それでも、計算科学の多くの分野でデータ駆動手法が急速に採用され、従来のデータ同化とディープラーニング、特に生成モデルがエミュレートされる可能性がある。 特に拡散に基づく確率的フレームワークは、データ同化原理と大きな重複があり、どちらもベイズ逆フレームワークを用いてサンプルの条件付き生成を可能にする。 これらのモデルは、テキスト条件付き画像生成や画像制御ビデオ合成において顕著な成功を収めている。 同様に、観測条件付き状態キャリブレーションとしてデータ同化をフレーム化することもできる。 本研究では,マルチモーダル・セッティングにおけるスコアベースラテント・アシミレーション(SLAMS)を提案する。 具体的には、気象観測所のデータと元衛星画像とを同化して、垂直温度分布を世界規模で校正する。 広範なアブレーションを通じて、SLAMSは低解像度、ノイズ、スパースなデータ設定でも堅牢であることを示す。 我々の知る限りでは、我々の研究は、実世界のデータセットを用いたマルチモーダルデータ同化に、初めて深層生成フレームワークを適用している。 私たちのコードは、https://github.com/yongquan-qu/SLAMSで利用可能です。

Robust integration of physical knowledge and data is key to improve computational simulations, such as Earth system models. Data assimilation is crucial for achieving this goal because it provides a systematic framework to calibrate model outputs with observations, which can include remote sensing imagery and ground station measurements, with uncertainty quantification. Conventional methods, including Kalman filters and variational approaches, inherently rely on simplifying linear and Gaussian assumptions, and can be computationally expensive. Nevertheless, with the rapid adoption of data-driven methods in many areas of computational sciences, we see the potential of emulating traditional data assimilation with deep learning, especially generative models. In particular, the diffusion-based probabilistic framework has large overlaps with data assimilation principles: both allows for conditional generation of samples with a Bayesian inverse framework. These models have shown remarkable success in text-conditioned image generation or image-controlled video synthesis. Likewise, one can frame data assimilation as observation-conditioned state calibration. In this work, we propose SLAMS: Score-based Latent Assimilation in Multimodal Setting. Specifically, we assimilate in-situ weather station data and ex-situ satellite imagery to calibrate the vertical temperature profiles, globally. Through extensive ablation, we demonstrate that SLAMS is robust even in low-resolution, noisy, and sparse data settings. To our knowledge, our work is the first to apply deep generative framework for multimodal data assimilation using real-world datasets; an important step for building robust computational simulators, including the next-generation Earth system models. Our code is available at: https://github.com/yongquan-qu/SLAMS
翻訳日:2024-06-14 23:16:04 公開日:2024-06-12
# ボソニック量子デバイスにおける化学シミュレーション

Simulating Chemistry on Bosonic Quantum Devices ( http://arxiv.org/abs/2404.10214v2 )

ライセンス: Link先を確認
Rishab Dutta, Delmar G. A. Cabral, Ningyi Lyu, Nam P. Vu, Yuchen Wang, Brandon Allen, Xiaohan Dan, Rodrigo G. Cortiñas, Pouya Khazaei, Max Schäfer, Alejandro C. C. d. Albornoz, Scott E. Smart, Scott Nie, Michel H. Devoret, David A. Mazziotti, Prineha Narang, Chen Wang, James D. Whitfield, Angela K. Wilson, Heidi P. Hendrickson, Daniel A. Lidar, Francisco Pérez-Bernal, Lea F. Santos, Sabre Kais, Eitan Geva, Victor S. Batista, (参考訳) ボソニック量子デバイスは量子計算を実現するための新しいアプローチを提供し、量子二レベル系(量子ビット)は量子シミュレータの基本構成ブロックとして量子(アン)調和振動子(量子モード)に置き換えられる。 化学構造と力学のシミュレーションは、ボソニック作用素の観点でハミルトニアン系を表現またはマッピングすることで達成できる。 本稿では, 分子ビブロニックスペクトルの計算, 気相, 気相, 気相および非気相のシミュレーション, 分子グラフ理論問題の効率的な解法, 電子構造の計算など, 幅広い化学問題にボソニック量子デバイスを応用した最近の進歩と将来の可能性について述べる。

Bosonic quantum devices offer a novel approach to realize quantum computations, where the quantum two-level system (qubit) is replaced with the quantum (an)harmonic oscillator (qumode) as the fundamental building block of the quantum simulator. The simulation of chemical structure and dynamics can then be achieved by representing or mapping the system Hamiltonians in terms of bosonic operators. In this perspective, we review recent progress and future potential of using bosonic quantum devices for addressing a wide range of challenging chemical problems, including the calculation of molecular vibronic spectra, the simulation of gas-phase and solution-phase adiabatic and nonadiabatic chemical dynamics, the efficient solution of molecular graph theory problems, and the calculations of electronic structure.
翻訳日:2024-06-14 23:16:04 公開日:2024-06-12
# 肺疾患におけるAI : 複数のCTスキャンデータセット間のベンチマーク検出と診断モデル

AI in Lung Health: Benchmarking Detection and Diagnostic Models Across Multiple CT Scan Datasets ( http://arxiv.org/abs/2405.04605v2 )

ライセンス: Link先を確認
Fakrul Islam Tushar, Avivah Wang, Lavsen Dahal, Michael R. Harowicz, Kyle J. Lafata, Tina D. Tailor, Joseph Y. Lo, (参考訳) 肺がんの死亡率の高さは早期発見によって緩和され、画像診断のAIにますます依存している。 しかし、AIモデルのパフォーマンスはトレーニングと検証データセットに依存する。 本研究は、結節検出と癌分類タスクの両方において、AIモデルを開発し、検証する。 検出にはデューク肺がんスクリーニングデータセット(DLCSD)を用いて2つのモデル(DLCSD-mDとLUNA16-mD)を開発した。 これらのモデルは, LUNA16 (601例, 1186ノジュール), NLST (969例, 1192ノジュール) を含む内部(DLCSD) および外部データセットを用いて, FROC分析およびAUC測定値を用いて評価した。 ランダムに初期化した3D ResNet50, Genesis, MedNet3D, Strategic Warm-Start++ (SWS++)を使用した拡張ResNet50, Foundation for Cancer Biomarkers (FMCB) の線形分類器解析機能である。 これらのモデルは良性結節と悪性結節を区別するために訓練され、内部(DLCSD)およびLUNA16(433例,677結節)およびNLSTを含む外部データセットのAUC解析を用いて評価された。 DLCSD-mDモデルは、内部のDLCSDデータセット上でAUC 0.93 (95% CI: 0.91-0.94)を達成した。 外部検証結果はLUNA16では0.97(95% CI: 0.96-0.98)、NLSTでは0.75(95% CI: 0.73-0.76)であった。 ResNet50-SWS++モデルでは、DLCSDでは0.71 (95% CI: 0.61-0.81)、LUNA16では0.90 (95% CI: 0.87-0.93)、NLSTでは0.81 (95% CI: 0.79-0.82)と記録されている。 他のモデルでは、データセット間でさまざまなパフォーマンスを示し、多様なモデルアプローチの重要性を強調した。 このベンチマークは、肺がんAI研究の信頼できるリソースとしてDLCSDを確立している。

Lung cancer's high mortality rate can be mitigated by early detection, increasingly reliant on AI for diagnostic imaging. However, AI model performance depends on training and validation datasets. This study develops and validates AI models for both nodule detection and cancer classification tasks. For detection, two models (DLCSD-mD and LUNA16-mD) were developed using the Duke Lung Cancer Screening Dataset (DLCSD), with over 2,000 CT scans from 1,613 patients and more than 3,000 annotations. These models were evaluated on internal (DLCSD) and external datasets, including LUNA16 (601 patients, 1186 nodules) and NLST (969 patients, 1192 nodules), using FROC analysis and AUC metrics. For classification, five models were developed and tested: a randomly initialized 3D ResNet50, Genesis, MedNet3D, an enhanced ResNet50 using Strategic Warm-Start++ (SWS++), and a linear classifier analyzing features from the Foundation Model for Cancer Biomarkers (FMCB). These models were trained to distinguish between benign and malignant nodules and evaluated using AUC analysis on internal (DLCSD) and external datasets, including LUNA16 (433 patients, 677 nodules) and NLST. The DLCSD-mD model achieved an AUC of 0.93 (95% CI: 0.91-0.94) on the internal DLCSD dataset. External validation results were 0.97 (95% CI: 0.96-0.98) on LUNA16 and 0.75 (95% CI: 0.73-0.76) on NLST. For classification, the ResNet50-SWS++ model recorded AUCs of 0.71 (95% CI: 0.61-0.81) on DLCSD, 0.90 (95% CI: 0.87-0.93) on LUNA16, and 0.81 (95% CI: 0.79-0.82) on NLST. Other models showed varying performance across datasets, underscoring the importance of diverse model approaches. This benchmarking establishes DLCSD as a reliable resource for lung cancer AI research.
翻訳日:2024-06-14 23:06:20 公開日:2024-06-12
# 意味空間におけるプログラムポリシーの探索

Searching for Programmatic Policies in Semantic Spaces ( http://arxiv.org/abs/2405.05431v2 )

ライセンス: Link先を確認
Rubens O. Moraes, Levi H. S. Lelis, (参考訳) 構文誘導合成は、一般的にポリシーを符号化するプログラムを生成するために用いられる。 このアプローチでは、ドメイン固有言語で記述可能なプログラムの集合が検索空間を定義し、強力なポリシーを符号化するプログラムをアルゴリズムが検索する。 本稿では,言語の意味空間の近似内を探索するプログラムポリシーを合成する代替手法を提案する。 セマンティック空間における探索は、構文に基づく空間に比べてよりサンプリング効率が高いと仮定した。 我々の理論的根拠は、アルゴリズムが空間を探索する際に異なるエージェントの振る舞いを評価すると、より効率的に検索できるということだ。 これは、プログラムの構文の小さな変更が、しばしば異なるエージェントの振る舞いをもたらしないためである。 我々は、異なるエージェントの振る舞いを示すプログラムのライブラリを学習することで意味空間を定義する。 次に、局所探索アルゴリズムの近傍関数を定義して意味空間を近似し、現在の候補プログラムの一部をライブラリのプログラムに置き換える。 我々はMicroRTSと呼ばれるリアルタイム戦略ゲームで仮説を評価した。 経験的結果は,構文に基づく空間の探索よりも意味空間の探索の方がサンプリング効率が高いという仮説を支持している。

Syntax-guided synthesis is commonly used to generate programs encoding policies. In this approach, the set of programs, that can be written in a domain-specific language defines the search space, and an algorithm searches within this space for programs that encode strong policies. In this paper, we propose an alternative method for synthesizing programmatic policies, where we search within an approximation of the language's semantic space. We hypothesized that searching in semantic spaces is more sample-efficient compared to syntax-based spaces. Our rationale is that the search is more efficient if the algorithm evaluates different agent behaviors as it searches through the space, a feature often missing in syntax-based spaces. This is because small changes in the syntax of a program often do not result in different agent behaviors. We define semantic spaces by learning a library of programs that present different agent behaviors. Then, we approximate the semantic space by defining a neighborhood function for local search algorithms, where we replace parts of the current candidate program with programs from the library. We evaluated our hypothesis in a real-time strategy game called MicroRTS. Empirical results support our hypothesis that searching in semantic spaces can be more sample-efficient than searching in syntax-based spaces.
翻訳日:2024-06-14 23:06:20 公開日:2024-06-12
# 神経科学とAIの橋渡し : フォワード・ナレッジ・トランスファーのモデルとしての環境豊かさ

Bridging Neuroscience and AI: Environmental Enrichment as a Model for Forward Knowledge Transfer ( http://arxiv.org/abs/2405.07295v2 )

ライセンス: Link先を確認
Rajat Saxena, Bruce L. McNaughton, (参考訳) 連続学習(きゅうがく、Continuous Learning, CL)とは、エージェントがデータの連続的ストリームから学習し、古い情報を忘れずに知識を伝達する能力である。 CLの重要な側面は、フォワード転送(フォワード転送)、すなわち、前の知識からの情報を活用することで、新しいタスクの改善と学習の高速化である。 この能力は自然界の脳にもたらされますが、人工知能(AI)には大きな課題があります。 ここでは,環境富化(EE)が,人間のようなAI開発を刺激する前向き移動の研究の生物学的モデルとして利用できることを示唆する。 EEは、認知、社会的、運動、感覚の刺激を高める動物研究であり、人間では「認知的予備」と呼ばれるモデルである。 豊かになった動物は、新しいタスクにおける学習速度と性能を著しく改善し、通常、前方移動を示す。 我々は、EE後の解剖学的、分子的、神経学的変化を探求し、人工知能ニューラルネットワーク(ANN)が、豊かな経験の後の神経計算の変化を予測するためにどのように使用できるかについて議論する。 最後に、我々は神経科学とAI研究を組み合わせたシナジスティックな方法を提供し、迅速かつ効率的な新しいタスク学習が可能なAI開発への道を歩む。

Continual learning (CL) refers to an agent's capability to learn from a continuous stream of data and transfer knowledge without forgetting old information. One crucial aspect of CL is forward transfer, i.e., improved and faster learning on a new task by leveraging information from prior knowledge. While this ability comes naturally to biological brains, it poses a significant challenge for artificial intelligence (AI). Here, we suggest that environmental enrichment (EE) can be used as a biological model for studying forward transfer, inspiring human-like AI development. EE refers to animal studies that enhance cognitive, social, motor, and sensory stimulation and is a model for what, in humans, is referred to as 'cognitive reserve'. Enriched animals show significant improvement in learning speed and performance on new tasks, typically exhibiting forward transfer. We explore anatomical, molecular, and neuronal changes post-EE and discuss how artificial neural networks (ANNs) can be used to predict neural computation changes after enriched experiences. Finally, we provide a synergistic way of combining neuroscience and AI research that paves the path toward developing AI capable of rapid and efficient new task learning.
翻訳日:2024-06-14 23:06:20 公開日:2024-06-12
# 多光子Jaynes-Cummings共鳴における量子ゆらぎ非対称性

Quantum-fluctuation asymmetry in multiphoton Jaynes-Cummings resonances ( http://arxiv.org/abs/2405.13597v2 )

ライセンス: Link先を確認
Th. K. Mavrogordatos, (参考訳) 我々は,コヒーレントに駆動されたJaynes-Cummings (JC) 発振器から発する光の統計的挙動について検討した。 我々は、量子光学相関関数と条件測定の関係に基づいて、前方散乱放射の粒子面と波面を同時に引き出す運用手法を採用する。 まず、2光子JC共鳴のピークにおける強度相関関数の解析式を導出し、詳細バランスの崩壊を実証した。 量子軌道論の量子回帰公式と平行な応用により、多光子共鳴が確立され読み出されるカスケード過程を特徴づける量子ゆらぎにおける時間的非対称性の様々な側面が明らかになった。 条件付きホモダイン検出におけるキャビティ場の異なる4次状態のモニタリングは、連続したフォトンカウンタ ‘Clicks'' の待ち時間に影響し、ホモダイン電流のサンプリングをトリガーする。 定常的なキャビティの占有は光子の順序であるにもかかわらず、2つのデコヒーレンスチャネルに沿って向き付けられた放出の比率にも影響する。

We explore the statistical behavior of the light emanating from a coherently driven Jaynes-Cummings (JC) oscillator operating in the regime of multiphoton blockade with two monitored output channels causing the loss of coherence at equal rates. We do so by adopting an operational approach which draws the particle and wave aspects of the forwards scattered radiation together, building upon the relationship between quantum optical correlation functions and conditional measurements. We first derive an analytical expression of the intensity cross-correlation function at the peak of the two-photon JC resonance to demonstrate the breakdown of detailed balance. The application of quantum trajectory theory in parallel with the quantum regression formula subsequently uncovers various aspects of temporal asymmetry in the quantum fluctuations characterizing the cascaded process through which a multiphoton resonance is established and read out. We find that monitoring different quadratures of the cavity field in conditional homodyne detection affects the times waited between successive photon counter ``clicks'', which in turn trigger the sampling of the homodyne current. Despite the fact that the steady-state cavity occupation is of the order of a photon, monitoring of the developing bimodality also impacts on the ratio between the emissions directed along the two decoherence channels.
翻訳日:2024-06-14 22:56:33 公開日:2024-06-12
# 複数のシークレットを保護する - データ共有のための統計プライバシの強化

Guarding Multiple Secrets: Enhanced Summary Statistic Privacy for Data Sharing ( http://arxiv.org/abs/2405.13804v3 )

ライセンス: Link先を確認
Shuaiqi Wang, Rongzhe Wei, Mohsen Ghassemi, Eleonora Kreacic, Vamsi K. Potluru, (参考訳) データ共有は、多くの研究領域やビジネスアプリケーションにおいて重要な進歩を可能にするが、機密性の高い要約統計(例えば、手段や量子化)の意図しない開示につながる可能性がある。 既存の文献は単一の機密量の保護にのみ焦点をあてるが、実際にはデータ共有には複数の機密統計が含まれる。 本稿では,データ共有における多極的サマリ統計量の定義,分析,保護を行う新しいフレームワークを提案する。 具体的には、攻撃者がサマリ統計シークレットの推測に成功した場合の最悪の確率で、任意のデータリリースメカニズムのプライバシーリスクを測定する。 攻撃者の目的が、サマリ統計シークレット全体の部分集合を推測することから、システマティックに設計し、適切なプライバシメトリクスを解析することまでである。 歪みを元のデータとリリースデータの間の最悪のケース距離として定義し、プライバシと歪みのトレードオフを分析する。 コントリビューションには、さまざまなデータ分散とシークレットタイプに適したデータリリースメカニズムの設計と分析も含まれています。 実世界のデータによる評価は, 実用化における我々のメカニズムの有効性を示すものである。

Data sharing enables critical advances in many research areas and business applications, but it may lead to inadvertent disclosure of sensitive summary statistics (e.g., means or quantiles). Existing literature only focuses on protecting a single confidential quantity, while in practice, data sharing involves multiple sensitive statistics. We propose a novel framework to define, analyze, and protect multi-secret summary statistics privacy in data sharing. Specifically, we measure the privacy risk of any data release mechanism by the worst-case probability of an attacker successfully inferring summary statistic secrets. Given an attacker's objective spanning from inferring a subset to the entirety of summary statistic secrets, we systematically design and analyze tailored privacy metrics. Defining the distortion as the worst-case distance between the original and released data distribution, we analyze the tradeoff between privacy and distortion. Our contribution also includes designing and analyzing data release mechanisms tailored for different data distributions and secret types. Evaluations on real-world data demonstrate the effectiveness of our mechanisms in practical applications.
翻訳日:2024-06-14 22:56:33 公開日:2024-06-12
# 一般化滑らか性下における多目的最適化の収束性について

On the Convergence of Multi-objective Optimization under Generalized Smoothness ( http://arxiv.org/abs/2405.19440v2 )

ライセンス: Link先を確認
Qi Zhang, Peiyao Xiao, Kaiyi Ji, Shaofeng Zou, (参考訳) 多目的最適化(MOO)はマルチタスク学習など様々な分野で注目を集めている。 最近の研究は、理論的な分析を伴う効果的なアルゴリズムを提供しているが、それらは標準の$L$-smoothや、リカレントニューラルネットワーク(RNN)やトランスフォーマーのようなニューラルネットワークには不満足な境界段階の仮定によって制限されている。 本稿では、より一般的で現実的な$\ell$-smooth損失関数の研究を行い、$\ell$は勾配ノルムの一般非減少関数である。 目的物間の最小改善を最大化する競合回避(CA)方向を近似した,$\ell$-smooth MOO問題,一般化されたSmooth Multi-objective Gradient descent (GSMGrad) とその確率的変種であるStochastic Generalized Smooth Multi-objective Gradient descent (SGSMGrad) の2つの新しいシングルループアルゴリズムを開発した。 両アルゴリズムの総合収束解析を行い, 平均CA距離を保証した$\epsilon$-accurate Pareto定常点(すなわち, 更新方向とCA方向のギャップ)に全反復で収束することを示し, 完全$\mathcal{O}(\epsilon^{-2})$と$\mathcal{O}(\epsilon^{-4})$サンプルは決定論的および確率的設定にそれぞれ必要である。 私たちのアルゴリズムは、より多くのサンプルを使用して、各イテレーションにおいてより厳密な$\epsilon$-level CA距離を保証することができます。 また,GSMGradと同等の性能保証を達成しつつ,一定の時間と空間のみを用いてGSMGrad-FAという実用的なGSMGradの変種を提案する。 提案手法の有効性を検証し,提案手法の有効性を検証した。

Multi-objective optimization (MOO) is receiving more attention in various fields such as multi-task learning. Recent works provide some effective algorithms with theoretical analysis but they are limited by the standard $L$-smooth or bounded-gradient assumptions, which are typically unsatisfactory for neural networks, such as recurrent neural networks (RNNs) and transformers. In this paper, we study a more general and realistic class of $\ell$-smooth loss functions, where $\ell$ is a general non-decreasing function of gradient norm. We develop two novel single-loop algorithms for $\ell$-smooth MOO problems, Generalized Smooth Multi-objective Gradient descent (GSMGrad) and its stochastic variant, Stochastic Generalized Smooth Multi-objective Gradient descent (SGSMGrad), which approximate the conflict-avoidant (CA) direction that maximizes the minimum improvement among objectives. We provide a comprehensive convergence analysis of both algorithms and show that they converge to an $\epsilon$-accurate Pareto stationary point with a guaranteed $\epsilon$-level average CA distance (i.e., the gap between the updating direction and the CA direction) over all iterations, where totally $\mathcal{O}(\epsilon^{-2})$ and $\mathcal{O}(\epsilon^{-4})$ samples are needed for deterministic and stochastic settings, respectively. Our algorithms can also guarantee a tighter $\epsilon$-level CA distance in each iteration using more samples. Moreover, we propose a practical variant of GSMGrad named GSMGrad-FA using only constant-level time and space, while achieving the same performance guarantee as GSMGrad. Our experiments validate our theory and demonstrate the effectiveness of the proposed methods.
翻訳日:2024-06-14 22:56:33 公開日:2024-06-12
# スケーリングによる適応性のある局所的手法

Local Methods with Adaptivity via Scaling ( http://arxiv.org/abs/2406.00846v2 )

ライセンス: Link先を確認
Savelii Chezhegov, Sergey Skorik, Nikolas Khachaturov, Danil Shalagin, Aram Avetisyan, Aleksandr Beznosikov, Martin Takáč, Yaroslav Kholodov, Alexander Gasnikov, (参考訳) 機械学習とディープラーニングの急速な開発により、対処しなければならない、ますます複雑な最適化課題がもたらされた。 実際、分散環境で複数の計算ノードを活用することなく、最新の高度なモデルをトレーニングすることは困難になっている。 分散最適化は、フェデレートラーニングのような新興分野にも不可欠である。 具体的には、コミュニケーションによって失われた時間を最小化するために、トレーニングプロセスの組織化が必要である。 コミュニケーションボトルネックを軽減するために広く使われ、広く研究されている技術は、コミュニケーションの前に局所的なトレーニングを実行することである。 このアプローチは私たちの論文の焦点です。 同時に、アダムが主導するスケーリングを取り入れた適応的手法も近年大きな人気を集めている。 そこで本研究では,局所学習手法と適応的アプローチを融合して,効率的な分散学習手法を開発することを目的とする。 従来のローカルSGD法について検討し,スケーリング機能により拡張する。 重要なのは、スケーリングが汎用的に記述され、Adam、RMSProp、OASISなど、さまざまなアプローチを統一的に分析できることです。 理論的解析に加えて,ニューラルネットワークのトレーニングにより,本手法の有効性を検証した。

The rapid development of machine learning and deep learning has introduced increasingly complex optimization challenges that must be addressed. Indeed, training modern, advanced models has become difficult to implement without leveraging multiple computing nodes in a distributed environment. Distributed optimization is also fundamental to emerging fields such as federated learning. Specifically, there is a need to organize the training process to minimize the time lost due to communication. A widely used and extensively researched technique to mitigate the communication bottleneck involves performing local training before communication. This approach is the focus of our paper. Concurrently, adaptive methods that incorporate scaling, notably led by Adam, have gained significant popularity in recent years. Therefore, this paper aims to merge the local training technique with the adaptive approach to develop efficient distributed learning methods. We consider the classical Local SGD method and enhance it with a scaling feature. A crucial aspect is that the scaling is described generically, allowing us to analyze various approaches, including Adam, RMSProp, and OASIS, in a unified manner. In addition to theoretical analysis, we validate the performance of our methods in practice by training a neural network.
翻訳日:2024-06-14 22:56:33 公開日:2024-06-12
# 基底状態中性ヘリウムに対するシュロディンガー方程式の解析的正確な解法

Analytically exact solution of the Schrodinger equation for neutral helium in the ground state ( http://arxiv.org/abs/2406.03020v2 )

ライセンス: Link先を確認
Frank Kowol, (参考訳) 本報告では, 基底状態中の中性ヘリウムあるいはヘリウム様原子に対するシュロディンガー方程式の解析解とその対応する波動関数について述べる。 s=0 と l=0 の2つの電子の状態関数とその境界条件を詳細に検討する。 さらに、クーロンと交換相互作用からなる一般的な電子ポテンシャルを記述する方法が導出され、結果として得られるポテンシャル関数がポテンシャル項としてシュロディンガー方程式に統合される。 さらに、真空分極効果による電子の電磁結合の変化について検討し、ラプラス変換を用いて、歴史的にパラヘリウムと呼ばれる中性1S0ヘリウムに対するシュロディンガー方程式を解く。 すると基底状態のエネルギーが決定され、電子が点状粒子であると仮定できるという事実から、文献値と一致することが示される。 これらの研究の文脈では、電子の空間次元の上限推定もまた、2つの電子間の安定結合状態の最小距離の存在であり、これは絡み合った状態と解釈できる。 ヘリウム原子の波動関数は、水素原子の既知の溶液と比較され、2つの重要な相違が解決される。

This report presents the analytical solution of the Schrodinger equation and its corresponding wave function for the neutral helium or helium-like atoms in the ground state. The state functions of the two electrons for s=0 and l=0 as well as their boundary conditions are examined in detail. Furthermore, a method for describing a generic electron potential consisting of Coulomb and exchange interactions is derived, and the resulting potential function is integrated into the Schrodinger equation as a potential term. In addition, the altered electromagnetic coupling of the electrons due to vacuum polarization effects is investigated and finally the Schrodinger equation for the neutral 1S0 Helium, historically known as Para-Helium, is solved using Laplace transformations. The energy in the ground state is then determined, and it can be shown that this agrees with the literature values given the fact that the electron can be assumed to be a point-like particle. In the context of these investigations, an upper limit estimation for the spatial dimension of the electron can also be given as well is the existence of a minimal distance of a stable bonding state between two electrons, which can be interpreted as an entangled state; in addition, the chemical inertness of helium with regard to chemical reactions - i.e. the principle of the "closed" electron shell - can be made plausible by the quantum mechanical electron configuration and its consequences with regard to binding energy. The wave function found for the helium atom is compared with the known solutions for the hydrogen atom, and essential differences between the two are worked out.
翻訳日:2024-06-14 22:46:45 公開日:2024-06-12
# デジタル・ソブリンティの技術的展望

Technological Perspective on Digital Sovereignty ( http://arxiv.org/abs/2406.03266v2 )

ライセンス: Link先を確認
Matthias Stuermer, (参考訳) 連邦外務省(FDFA)が注目するこの報告書は、ハイディ・ズグラッゲン枢密顧問官による22.4411 "Digital Sovereignty Strategy for Switzerland"(スイスのデジタル主権戦略)の文脈において科学的に貢献している。 この報告書は、技術的観点からのデジタル主権の意味と、スイスや海外で現在どのような活動が行われているかを示している。 また、将来の「Swiss Digital Sovereignty Strategy」のための戦略的方向性や具体的な勧告も提供する。

This report for the attention of the Federal Department of Foreign Affairs (FDFA) makes a scientific contribution in the context of postulate 22.4411 "Digital Sovereignty Strategy for Switzerland" by Councillor of States Heidi Z'graggen. The report shows what digital sovereignty means from a technological perspective and what activities are currently being carried out in this regard in Switzerland and abroad. It also provides strategic directions and specific recommendations for a future "Swiss Digital Sovereignty Strategy".
翻訳日:2024-06-14 22:46:45 公開日:2024-06-12
# ハイパーパラメトリック拡散モデルによるカスケード故障予測

Predicting Cascading Failures with a Hyperparametric Diffusion Model ( http://arxiv.org/abs/2406.08522v1 )

ライセンス: Link先を確認
Bin Xiang, Bogdan Cautis, Xiaokui Xiao, Olga Mula, Dusit Niyato, Laks V. S. Lakshmanan, (参考訳) 本稿では,情報拡散モデルのレンズを用いた電力網のカスケード故障について検討する。 ネット・ソーシャル・ネットワークにおける噂や影響力の拡散と同様に、電力網の故障(停電)はウイルスの拡散メカニズムによって相容れないことが観察されている。 確率拡散モデルを用いて、マルコフ的(メモリレス)かつ局所的(あるノードの活性化、すなわち伝送線路の活性化は、その隣り合うノードによってのみ引き起こされる)。 本モデルは,拡散重み(送電線間の感染確率)をハイパーパラメトリック情報カスケード(IC)モデルと相関させることで,ウイルス拡散原理を物理に基づく概念と統合する。 この拡散モデルはカスケード故障の痕跡から学習でき、正確なモデリングと故障伝播の予測を可能にする。 このアプローチは、よく理解され効率的なグラフ解析法とグラフ拡散シミュレーションを通じて実行可能な情報を促進する。 さらに、ハイパーパラメトリックモデルを利用することで、未確認のグリッド構成であっても、障害の拡散を予測し、カスケードのリスクを軽減することができる。 ベンチマークパワーグリッドとシミュレーションに基づく大規模な実験により,本手法は障害拡散現象を効果的に捉え,グリッドを強化するための決定を導出し,大規模なカスケード故障のリスクを低減できることを示した。 さらに、モデルのサンプルの複雑さを特徴付け、既存のバウンダリを改善します。

In this paper, we study cascading failures in power grids through the lens of information diffusion models. Similar to the spread of rumors or influence in an online social network, it has been observed that failures (outages) in a power grid can spread contagiously, driven by viral spread mechanisms. We employ a stochastic diffusion model that is Markovian (memoryless) and local (the activation of one node, i.e., transmission line, can only be caused by its neighbors). Our model integrates viral diffusion principles with physics-based concepts, by correlating the diffusion weights (contagion probabilities between transmission lines) with the hyperparametric Information Cascades (IC) model. We show that this diffusion model can be learned from traces of cascading failures, enabling accurate modeling and prediction of failure propagation. This approach facilitates actionable information through well-understood and efficient graph analysis methods and graph diffusion simulations. Furthermore, by leveraging the hyperparametric model, we can predict diffusion and mitigate the risks of cascading failures even in unseen grid configurations, whereas existing methods falter due to a lack of training data. Extensive experiments based on a benchmark power grid and simulations therein show that our approach effectively captures the failure diffusion phenomena and guides decisions to strengthen the grid, reducing the risk of large-scale cascading failures. Additionally, we characterize our model's sample complexity, improving upon the existing bound.
翻訳日:2024-06-14 22:37:00 公開日:2024-06-12
# 不均一グラフニューラルネットワークによるフェデレーション不完全なマルチビュークラスタリング

Federated Incomplete Multi-View Clustering with Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2406.08524v1 )

ライセンス: Link先を確認
Xueming Yan, Ziqi Wang, Yaochu Jin, (参考訳) フェデレートされたマルチビュークラスタリングは、複数のデバイスに分散したデータを使用したグローバルクラスタリングモデルを開発する可能性を提供する。 しかし,ラベル情報の欠如とデータプライバシの重要さにより,現在の手法では課題に直面している。 重要な問題は、補完的なクラスタリング情報の効果的なマイニングを複雑にするマルチビューデータ間の特徴の不均一性である。 さらに、分散環境でのマルチビューデータの固有の不完全性は、クラスタリングプロセスをさらに複雑にする可能性がある。 これらの課題に対処するために、異種グラフニューラルネットワーク(FIM-GNN)を用いたフェデレーション不完全なマルチビュークラスタリングフレームワークを導入する。 提案するFIM-GNNでは,異種グラフニューラルネットワークモデル上に構築されたオートエンコーダを用いて,各クライアントサイトにおけるマルチビューデータの特徴抽出を行う。 サーバレベルでは、各クライアントの重複するサンプルからの異種機能がグローバルな特徴表現に集約されます。 グローバルな擬似ラベルはサーバで生成され、不完全なビューデータの処理を強化する。 提案したFIM-GNNの性能を、最先端のアルゴリズムと比較して検証するために、公開ベンチマークデータセットで包括的な実験が行われた。

Federated multi-view clustering offers the potential to develop a global clustering model using data distributed across multiple devices. However, current methods face challenges due to the absence of label information and the paramount importance of data privacy. A significant issue is the feature heterogeneity across multi-view data, which complicates the effective mining of complementary clustering information. Additionally, the inherent incompleteness of multi-view data in a distributed setting can further complicate the clustering process. To address these challenges, we introduce a federated incomplete multi-view clustering framework with heterogeneous graph neural networks (FIM-GNNs). In the proposed FIM-GNNs, autoencoders built on heterogeneous graph neural network models are employed for feature extraction of multi-view data at each client site. At the server level, heterogeneous features from overlapping samples of each client are aggregated into a global feature representation. Global pseudo-labels are generated at the server to enhance the handling of incomplete view data, where these labels serve as a guide for integrating and refining the clustering process across different data views. Comprehensive experiments have been conducted on public benchmark datasets to verify the performance of the proposed FIM-GNNs in comparison with state-of-the-art algorithms.
翻訳日:2024-06-14 22:37:00 公開日:2024-06-12
# ニューラルネットワークにおける肯定条件の数学的証明と部分単調性および倫理的AIへの応用

A Mathematical Certification for Positivity Conditions in Neural Networks with Applications to Partial Monotonicity and Ethical AI ( http://arxiv.org/abs/2406.08525v1 )

ライセンス: Link先を確認
Alejandro Polo-Molina, David Alfaya, Jose Portela, (参考訳) ニューラルネットワーク(ANN)は、大規模データセットで複雑な関係をモデル化するための強力なツールとなっている。 しかし、ブラックボックスの性質は倫理的な問題を引き起こす。 ある状況では、倫理的予測を保証するには、特定の部分的単調な制約に従う必要がある。 しかし、すでに訓練済みのANNが部分的に単調であるかどうかを確認することは困難である。 したがって、ANNは、部分的な単調性を必要とする信用スコアなど、いくつかの重要なアプリケーションでは無視されることが多い。 この課題に対処するために,ANNのようなブラックボックスモデルが有限個の評価に基づいて正であるかどうかを証明した新しいアルゴリズム(LipVor)を提案する。 したがって、部分単調性は部分微分の正の条件として記述できるので、LipVor Algorithmは、既に訓練されたANNが部分的に単調であるかどうかを証明できる。 そのため、肯定的に評価されたすべての点に対して、ブラックボックスモデルのリプシッツ性は、関数が正である特定の近傍を構築するために用いられる。 次に、評価された点のボロノイ図に基づいて、その函数が領域において正であるかどうかを証明するのに十分な条件が記述される。 従来の手法と比較して,ANNが部分的に単調であるかどうかを数学的に証明できる。 したがって、LipVorはいくつかの臨界領域で制約のないANNを使用する可能性を開くことができる。 さらに、凸性のようなANNの他の性質は正の条件として表すことができ、したがってLipVorも適用できる。

Artificial Neural Networks (ANNs) have become a powerful tool for modeling complex relationships in large-scale datasets. However, their black-box nature poses ethical challenges. In certain situations, ensuring ethical predictions might require following specific partial monotonic constraints. However, certifying if an already-trained ANN is partially monotonic is challenging. Therefore, ANNs are often disregarded in some critical applications, such as credit scoring, where partial monotonicity is required. To address this challenge, this paper presents a novel algorithm (LipVor) that certifies if a black-box model, such as an ANN, is positive based on a finite number of evaluations. Therefore, as partial monotonicity can be stated as a positivity condition of the partial derivatives, the LipVor Algorithm can certify whether an already trained ANN is partially monotonic. To do so, for every positively evaluated point, the Lipschitzianity of the black-box model is used to construct a specific neighborhood where the function remains positive. Next, based on the Voronoi diagram of the evaluated points, a sufficient condition is stated to certify if the function is positive in the domain. Compared to prior methods, our approach is able to mathematically certify if an ANN is partially monotonic without needing constrained ANN's architectures or piece-wise linear activation functions. Therefore, LipVor could open up the possibility of using unconstrained ANN in some critical fields. Moreover, some other properties of an ANN, such as convexity, can be posed as positivity conditions, and therefore, LipVor could also be applied.
翻訳日:2024-06-14 22:37:00 公開日:2024-06-12
# IMFL-AIGC:人工知能生成コンテンツを活用したフェデレーション学習のためのインセンティブメカニズム設計

IMFL-AIGC: Incentive Mechanism Design for Federated Learning Empowered by Artificial Intelligence Generated Content ( http://arxiv.org/abs/2406.08526v1 )

ライセンス: Link先を確認
Guangjing Huang, Qiong Wu, Jingyi Li, Xu Chen, (参考訳) フェデレートラーニング(FL)は、クライアントがローカルデータをアップロードすることなく、共有グローバルモデルを協調的にトレーニングできる、有望なパラダイムとして登場した。 クライアント間での不均一なデータ品質を軽減するため、FLモデル性能向上のための新しいデータ合成技術として人工知能生成コンテンツ(AIGC)を利用することができる。 AIGCを内蔵したFL(例えば、局所モデル計算とデータ合成のコスト)によって生じる様々なコストのため、クライアントは通常、適切な経済的インセンティブなしでFLに参加することに消極的であり、AIGCを内蔵したFLを実現するための未調査の重大な問題を引き起こす。 このギャップを埋めるために、AIGCが生成したデータサンプルのデータ品質評価法を考案し、真・AI生成データサンプルを混合して訓練したFLモデルの収束性能を厳密に分析する。 次に、クライアントの参加を促すために、データ品質に配慮したインセンティブメカニズムを提案する。 クライアントのプライベートな多次元属性から得られる情報非対称性を考慮して,クライアントの行動パターンを調査し,完全かつ不完全な情報シナリオに対するモデル精度損失とインセンティブ支払いの両方の観点から,サーバのコストを最小化するためのサーバの最適インセンティブ戦略を導出する。 シミュレーションの結果,提案機構はトレーニング精度が高く,既存のベンチマーク機構と比較して,実世界のデータセットによるサーバコストの最大53.34%を削減できることがわかった。

Federated learning (FL) has emerged as a promising paradigm that enables clients to collaboratively train a shared global model without uploading their local data. To alleviate the heterogeneous data quality among clients, artificial intelligence-generated content (AIGC) can be leveraged as a novel data synthesis technique for FL model performance enhancement. Due to various costs incurred by AIGC-empowered FL (e.g., costs of local model computation and data synthesis), however, clients are usually reluctant to participate in FL without adequate economic incentives, which leads to an unexplored critical issue for enabling AIGC-empowered FL. To fill this gap, we first devise a data quality assessment method for data samples generated by AIGC and rigorously analyze the convergence performance of FL model trained using a blend of authentic and AI-generated data samples. We then propose a data quality-aware incentive mechanism to encourage clients' participation. In light of information asymmetry incurred by clients' private multi-dimensional attributes, we investigate clients' behavior patterns and derive the server's optimal incentive strategies to minimize server's cost in terms of both model accuracy loss and incentive payments for both complete and incomplete information scenarios. Numerical results demonstrate that our proposed mechanism exhibits highest training accuracy and reduces up to 53.34% of the server's cost with real-world datasets, compared with existing benchmark mechanisms.
翻訳日:2024-06-14 22:37:00 公開日:2024-06-12
# 決定木推論を用いたLLMによる語彙データの最適特徴生成

Optimized Feature Generation for Tabular Data via LLMs with Decision Tree Reasoning ( http://arxiv.org/abs/2406.08527v1 )

ライセンス: Link先を確認
Jaehyun Nam, Kyuyoung Kim, Seunghyuk Oh, Jihoon Tack, Jaehyung Kim, Jinwoo Shin, (参考訳) 生データから効果的な表現を学習することは、深層学習の成功に不可欠である。 しかし、表形式の領域では、従来の木に基づくアルゴリズムが競合するアプローチよりも優れているため、実践者は学習した表現を使うよりも生のコラムの特徴を増大させることを好むことが多い。 その結果,候補機能を自動的に生成する機能工学手法が広く用いられている。 これらのアプローチはしばしば有効であるが、候補となる特徴を探索する空間を定義することはあいまいである。 さらに、彼らはしばしば、優れた機能を選択するために検証スコアのみを頼りにしており、将来の実験計画に影響を及ぼすような過去の実験からの貴重なフィードバックを無視しています。 そこで我々は,大規模言語モデル (LLM) に基づく新しい表型学習フレームワークを提案し,決定木推論 (OCTree) を用いた最適化カラム特徴生成器を開発した。 我々のキーとなる考え方は、LLMの推論機能を活用して、手動で検索空間を指定せずに優れた特徴生成ルールを見つけ、過去の実験を強調した言語ベースの推論情報を反復的ルール改善のためのフィードバックとして提供することである。 ここでは、決定木を自然言語で解釈できるような推論として選択し、過去の実験(つまり、生成された特徴で訓練された予測モデル)の知識をLLMに効果的に伝達する。 実験の結果、この単純なフレームワークは、様々な表型ベンチマークで様々な予測モデルの性能を一貫して向上させ、競合する自動機能工学手法よりも優れています。

Learning effective representations from raw data is crucial for the success of deep learning methods. However, in the tabular domain, practitioners often prefer augmenting raw column features over using learned representations, as conventional tree-based algorithms frequently outperform competing approaches. As a result, feature engineering methods that automatically generate candidate features have been widely used. While these approaches are often effective, there remains ambiguity in defining the space over which to search for candidate features. Moreover, they often rely solely on validation scores to select good features, neglecting valuable feedback from past experiments that could inform the planning of future experiments. To address the shortcomings, we propose a new tabular learning framework based on large language models (LLMs), coined Optimizing Column feature generator with decision Tree reasoning (OCTree). Our key idea is to leverage LLMs' reasoning capabilities to find good feature generation rules without manually specifying the search space and provide language-based reasoning information highlighting past experiments as feedback for iterative rule improvements. Here, we choose a decision tree as reasoning as it can be interpreted in natural language, effectively conveying knowledge of past experiments (i.e., the prediction models trained with the generated features) to the LLM. Our empirical results demonstrate that this simple framework consistently enhances the performance of various prediction models across diverse tabular benchmarks, outperforming competing automatic feature engineering methods.
翻訳日:2024-06-14 22:37:00 公開日:2024-06-12
# 知識蒸留のための共有分類器を用いた適応型指導

Adaptive Teaching with a Shared Classifier for Knowledge Distillation ( http://arxiv.org/abs/2406.08528v1 )

ライセンス: Link先を確認
Jaeyeon Jang, Young-Ik Kim, Jisu Lim, Hyeonseong Lee, (参考訳) 知識蒸留 (KD) は、過度にパラメータ化された教師ネットワークから低パラメータの学生ネットワークへ知識を伝達する手法であり、結果として得られた性能損失を最小限に抑える。 KDメソッドはオフラインおよびオンラインのアプローチに分類される。 オンラインKDは教師ネットワークを動的に調整し、生徒ネットワークの学習効果を高める。 近年,教師ネットワークの分類器の共有は,ネットワークパラメータの最小限の増加に留まらず,学生ネットワークの性能を大幅に向上させることが判明した。 これらの知見に基づいて,共有分類器(ATSC)を用いた適応型教育を提案する。 ATSCでは、事前訓練された教師ネットワークは、その能力に基づいて学生ネットワークの学習ニーズに合わせた自己調整を行い、学生ネットワークは共有分類器の恩恵を受け、その性能を向上する。 さらに、ATSCを複数の教師による環境に拡張する。 提案手法の有効性を実証した広範囲な実験を行った。 提案手法は,CIFAR-100とImageNetのデータセットを単教師と複数教師の両方のシナリオで実現し,必要なモデルパラメータの数もわずかに増加している。 ソースコードはhttps://github.com/random2314235/ATSCで公開されている。

Knowledge distillation (KD) is a technique used to transfer knowledge from an overparameterized teacher network to a less-parameterized student network, thereby minimizing the incurred performance loss. KD methods can be categorized into offline and online approaches. Offline KD leverages a powerful pretrained teacher network, while online KD allows the teacher network to be adjusted dynamically to enhance the learning effectiveness of the student network. Recently, it has been discovered that sharing the classifier of the teacher network can significantly boost the performance of the student network with only a minimal increase in the number of network parameters. Building on these insights, we propose adaptive teaching with a shared classifier (ATSC). In ATSC, the pretrained teacher network self-adjusts to better align with the learning needs of the student network based on its capabilities, and the student network benefits from the shared classifier, enhancing its performance. Additionally, we extend ATSC to environments with multiple teachers. We conduct extensive experiments, demonstrating the effectiveness of the proposed KD method. Our approach achieves state-of-the-art results on the CIFAR-100 and ImageNet datasets in both single-teacher and multiteacher scenarios, with only a modest increase in the number of required model parameters. The source code is publicly available at https://github.com/random2314235/ATSC.
翻訳日:2024-06-14 22:37:00 公開日:2024-06-12
# 時間反転・空間反転対称性を持つフロケット位相とトポロジカル電荷の動的検出

Floquet topological phases with time-reversal and space inversion symmetries and dynamical detection of topological charges ( http://arxiv.org/abs/2406.08532v1 )

ライセンス: Link先を確認
Hong Wu, Yu-Chen Dong, Hui Liu, (参考訳) スピン1/2を持つスピンフル系では、P と T の不変な強位相と二階位相はそれぞれ 4 つのバンドと 8 つのバンド系に存在すると一般に信じられている。 ここでは, 周期駆動により, 強いトポロジカル絶縁体, 2階トポロジカル絶縁体, ハイブリッドなトポロジカル絶縁体を1つの4バンド系に持つことができる。 さらに、トポロジとダイナミクスの直接的な関係を確立した。 これらの位相のより便利な実験的検出法も提案されている。 本研究は,従来の状態を超えた交互境界状態を持つ新しいトポロジカル絶縁体の理論的基礎を提供する。

For spinful systems with spin 1/2, it is generally believed that P and T invariant strong and second-order topologies exist in four band and eight band system, respectively. Here, by using periodic driving, we find it is possible to have strong topological insulator, second-order topological insulator and hybrid-order topological insulator in a single four band system. Furthermore, we established a direct connection between topology and dynamics. More convenient experimental detection for these topological phases has also been proposed. This study provides the theoretical basis for novel topological insulator that possess hybrid-order boundary states beyond the conventional regimes.
翻訳日:2024-06-14 22:37:00 公開日:2024-06-12
# 量子におけるオブザーバ効果--分類の場合

The observer effect in quantum: the case of classification ( http://arxiv.org/abs/2406.08533v1 )

ライセンス: Link先を確認
Johan F. Hoorn, Johnny K. W. Ho, (参考訳) 量子物理学におけるオブザーバ効果は、観測が観測されるシステムに必然的に影響を及ぼすと述べている。 提案する疫学の枠組みは、観測者を絡み合った量子システムにおける感覚情報処理の不可欠な部分として扱い、観察と推論の主観的・確率的側面を強調している。 本研究では,ファジィ・インスタンス分類の階層モデルを導入し,センサ入力を観測者の既存の信念や関連する量子確率に基づく真理値と整合させる。 感覚データはリンドブラッドマスター方程式で説明されるように観測状態と相互作用して進化し、正の演算子評価測度(POVM)を用いて適応的に分類される。 我々のパラメトリゼーションは、知覚的関連や非対称的認知を促進すると同時に、類似度と相違度の尺度を用いています。 懐疑スペクトル上の観測者の位置は、ノイズ知覚のあいまいなマッチングを変調する。 感覚情報は観測状態と複雑に絡み合っており,様々な確率的分類結果が得られることを示す。 この枠組みは、観測者効果の量子確率に基づく理解の基礎を築き、認知過程における量子相関と特性のさらなる探索を奨励している。

The observer effect in quantum physics states that observation inevitably influences the system being observed. Our proposed epistemic framework treats the observer as an integral part of sensory information processing within entangled quantum systems, highlighting the subjective and probabilistic aspects of observation and inference. Our study introduces a hierarchical model for fuzzy instance classification, which aligns sensory input with an observer's pre-existing beliefs and associated quantum probability-based truth values. Sensory data evolves via interaction with observer states, as described by the Lindblad master equation, and is then classified adaptively using positive operator-valued measures (POVM). Our parametrization employs measures of concurrent similarity and dissimilarity, facilitating perceptual associations and asymmetric cognition. The observer's position on a skeptic-believer spectrum modulates ambiguous matching of noisy perceptions. We show that sensory information becomes intricately entangled with observer states, yielding a wide array of probabilistic classification results. This framework lays the groundwork for a quantum-probability-based understanding of the observer effect, encouraging further exploration of quantum correlations and properties in cognitive processes.
翻訳日:2024-06-14 22:37:00 公開日:2024-06-12
# ハイブリッド遺伝的アルゴリズムを用いたデュアルサイクルおよびドックヤードリハンドリダクションによるコンテナローディングとアンロードの最適化

Optimizing Container Loading and Unloading through Dual-Cycling and Dockyard Rehandle Reduction Using a Hybrid Genetic Algorithm ( http://arxiv.org/abs/2406.08534v1 )

ライセンス: Link先を確認
Md. Mahfuzur Rahman, Md Abrar Jahin, Md. Saiful Islam, M. F. Mridha, (参考訳) 本稿では,港湾におけるコンテナアンロードおよびローディング操作の最適化に対処し,クエーククレーン二重サイクルとヤードリハンドルの最小化を併用する。 クレーンによる船のコンテナの降ろしと積載の両操作を包含する統一モデルを提案する。 分離の1つの側面を最適化することは、相互依存による最適以下の結果につながると認識している。 具体的には、最小限の操作時間でアンローディングシーケンスを最適化することは、ロード中の造船所のハンドルを不注意に増加させ、その逆も可能である。 このNPハード問題に対処するために,1次元と2次元のGA成分からなるハイブリッド遺伝的アルゴリズム (GA) QCDC-DR-GAを提案する。 我々のモデルであるQCDC-DR-GAは、2サイクルの最大化と造船所再処理の最小化の4つの最先端手法を一貫して上回っている。 これらの方法と比較して、大型船舶の総運用時間の15-20%を短縮した。 2尾対t-testによる統計的検証により,QCDC-DR-GAの5%の有意差が認められた。 このアプローチは、QCDC最適化と造船所再処理の最小化を効果的に組み合わせ、総降ろし時間を最適化する。 結果は,QCDCと造船所の再処理を個別に最適化する非効率性を裏付けるものである。 2レベルGAとGA-ILSRS(Scenario 2)で最適化されたQCDCスケジューリングのようなフラグメンテッドアプローチは、QCDC-DR-GAと比較して改善が限られている。 GA-ILSRS(Scenario 1)と同様、二重サイクル最適化を無視するとQCDC-DR-GAよりも性能が劣る。 これは、最適な資源利用と全体の運用効率の両方を同時に考慮することの必要性を強調している。

This paper addresses the optimization of container unloading and loading operations at ports, integrating quay-crane dual-cycling with dockyard rehandle minimization. We present a unified model encompassing both operations: ship container unloading and loading by quay crane, and the other is reducing dockyard rehandles while loading the ship. We recognize that optimizing one aspect in isolation can lead to suboptimal outcomes due to interdependencies. Specifically, optimizing unloading sequences for minimal operation time may inadvertently increase dockyard rehandles during loading and vice versa. To address this NP-hard problem, we propose a hybrid genetic algorithm (GA) QCDC-DR-GA comprising one-dimensional and two-dimensional GA components. Our model, QCDC-DR-GA, consistently outperforms four state-of-the-art methods in maximizing dual cycles and minimizing dockyard rehandles. Compared to those methods, it reduced 15-20% of total operation time for large vessels. Statistical validation through a two-tailed paired t-test confirms the superiority of QCDC-DR-GA at a 5% significance level. The approach effectively combines QCDC optimization with dockyard rehandle minimization, optimizing the total unloading-loading time. Results underscore the inefficiency of separately optimizing QCDC and dockyard rehandles. Fragmented approaches, such as QCDC Scheduling Optimized by bi-level GA and GA-ILSRS (Scenario 2), show limited improvement compared to QCDC-DR-GA. As in GA-ILSRS (Scenario 1), neglecting dual-cycle optimization leads to inferior performance than QCDC-DR-GA. This emphasizes the necessity of simultaneously considering both aspects for optimal resource utilization and overall operational efficiency.
翻訳日:2024-06-14 22:37:00 公開日:2024-06-12
# 対称性を強制した最大混合状態における絡み合い

Symmetry enforced entanglement in maximally mixed states ( http://arxiv.org/abs/2406.08542v1 )

ライセンス: Link先を確認
Amin Moharramipour, Leonardo A. Lessa, Chong Wang, Timothy H. Hsieh, Subhayan Sahu, (参考訳) 量子多体系の絡み合いは通常、環境との相互作用に脆弱である。 例えば、ジェネリックユニタリ量子チャネルは最大混合状態であり、その特異な定常状態として絡み合っていない。 しかし、「強対称性」である単位量子チャネル、すなわち、大域的オンサイト対称性を保ち、ある対称性セクターにおける最大混合定常状態は高い絡み合いを持つことができる。 与えられた対称性について、不変セクター(MMIS)における最大混合状態の絡み合いと相関を解析し、生成と蒸留の絡み合いが正確に計算可能で任意の二分割に対して等しいことを示す。 すべてのアベリア対称性に対して、MMISは分離可能であり、全ての非アベリア対称性に対して、MMISは絡み合っている。 注目すべきは、コンパクト半単純リー群 (eg $SU(2)$) によって記述される非アベリア連続対称性に対して、MMIS の生成の二部的絡み合いは対数的に$\sim \log N$ で、クォーディットの数は$N$である。

Entanglement in quantum many-body systems is typically fragile to interactions with the environment. Generic unital quantum channels, for example, have the maximally mixed state with no entanglement as their unique steady state. However, we find that for a unital quantum channel that is `strongly symmetric', i.e. it preserves a global on-site symmetry, the maximally mixed steady state in certain symmetry sectors can be highly entangled. For a given symmetry, we analyze the entanglement and correlations of the maximally mixed state in the invariant sector (MMIS), and show that the entanglement of formation and distillation are exactly computable and equal for any bipartition. For all Abelian symmetries, the MMIS is separable, and for all non-Abelian symmetries, the MMIS is entangled. Remarkably, for non-Abelian continuous symmetries described by compact semisimple Lie groups (e.g. $SU(2)$), the bipartite entanglement of formation for the MMIS scales logarithmically $\sim \log N$ with the number of qudits $N$.
翻訳日:2024-06-14 22:27:16 公開日:2024-06-12
# 高次元QKDセットアップ解析のための実践的枠組み

A practical framework for analyzing high-dimensional QKD setups ( http://arxiv.org/abs/2406.08544v1 )

ライセンス: Link先を確認
Florian Kanitschar, Marcus Huber, (参考訳) 高次元(HD)絡み合いは、鍵レートの強化と現代の量子通信が直面する障害の克服の両方を約束する。 しかし、現代の凸最適化に基づくセキュリティ引数は計算の制約によって制限されており、アクセス可能な次元はHDフォトニクスの進歩によってはるかに超えられ、大きな符号化次元の鍵レートを計算する効率的な方法が必要となった。 この問題に対して、半定値プログラムと対角化演算子の双対によって促進されるフレキシブルな解析フレームワークを提案し、高次元システムにおける鍵レートの効率的な計算を可能にした。 後者を実現するために,時間・周波数結合光子のパラダイム的高次元システムにおいて,行列完備化手法を組み込むことにより,キーレートの効率よく向上し,計算可能なバウンダリが得られることを示す。

High-dimensional (HD) entanglement promises both enhanced key rates and overcoming obstacles faced by modern-day quantum communication. However, modern convex optimization-based security arguments are limited by computational constraints; thus, accessible dimensions are far exceeded by progress in HD photonics, bringing forth a need for efficient methods to compute key rates for large encoding dimensions. In response to this problem, we present a flexible analytic framework facilitated by the dual of a semi-definite program and diagonalizing operators inspired by entanglement-witness theory, enabling the efficient computation of key rates in high-dimensional systems. To facilitate the latter, we show how matrix completion techniques can be incorporated to effectively yield improved, computable bounds on the key rate in paradigmatic high-dimensional systems of time- or frequency-bin entangled photons and beyond.
翻訳日:2024-06-14 22:27:16 公開日:2024-06-12
# RVT-2:少数のデモから精密マニピュレーションを学ぶ

RVT-2: Learning Precise Manipulation from Few Demonstrations ( http://arxiv.org/abs/2406.08545v1 )

ライセンス: Link先を確認
Ankit Goyal, Valts Blukis, Jie Xu, Yijie Guo, Yu-Wei Chao, Dieter Fox, (参考訳) 本研究では,言語命令を与えられた複数の3D操作タスクを解くロボットシステムの構築方法について検討する。 産業ドメインや家庭ドメインで有用であるためには、このようなシステムは、デモを少なくして新しいタスクを学習し、それらを正確に解決できるべきである。 PerAct や RVT のような先行研究はこの問題を研究してきたが、高い精度を必要とするタスクに悩まされることが多い。 私たちはそれらをより効果的、正確、迅速にする方法を研究します。 アーキテクチャとシステムレベルの改善の組み合わせを用いて,従来のRVTよりも6倍高速で2倍高速なマルチタスク3D操作モデルであるRVT-2を提案する。 RVT-2はRLBenchの新たな最先端を実現し、成功率は65%から82%に向上した。 RVT-2は実世界でも有効であり、プラグの拾い上げや挿入といった高精度なタスクを10回のデモで学べる。 ビジュアル結果、コード、トレーニングされたモデルは以下の通りである。

In this work, we study how to build a robotic system that can solve multiple 3D manipulation tasks given language instructions. To be useful in industrial and household domains, such a system should be capable of learning new tasks with few demonstrations and solving them precisely. Prior works, like PerAct and RVT, have studied this problem, however, they often struggle with tasks requiring high precision. We study how to make them more effective, precise, and fast. Using a combination of architectural and system-level improvements, we propose RVT-2, a multitask 3D manipulation model that is 6X faster in training and 2X faster in inference than its predecessor RVT. RVT-2 achieves a new state-of-the-art on RLBench, improving the success rate from 65% to 82%. RVT-2 is also effective in the real world, where it can learn tasks requiring high precision, like picking up and inserting plugs, with just 10 demonstrations. Visual results, code, and trained model are provided at: https://robotic-view-transformer-2.github.io/.
翻訳日:2024-06-14 22:27:16 公開日:2024-06-12
# 合成Rydberg次元におけるトポロジカルThoulessポンプの実現

Realization of topological Thouless pumping in a synthetic Rydberg dimension ( http://arxiv.org/abs/2406.08551v1 )

ライセンス: Link先を確認
Martin Trautmann, Inti Sodemann Villadiego, Johannes Deiglmayr, (参考訳) 原子や分子の内部状態を操作した合成次元のシミュレーションは、より伝統的な量子多体プラットフォーム以外の状態を調べるための扉を開いた。 ハイエキサイティングなリドベルクの原子は、多くの対応可能な状態と、それらのカップリングを操作し、検出するために利用できる技術のために、このような合成次元でハミルトンを設計する上で特に有望なプラットフォームである。 本稿では,セシウム原子のリドベルク状態から1次元ライス・メレ鎖を工学的に構築し,その結合を周波数場を通して時間依存的に操作することで,合成次元におけるトポロジカル量子ポンピングの実現を実証する。 我々は, トポロジカルポンピングのためのThoulessプロトコルを実装し, 有効量子粒子を, 必ずしも断熱的ではない変化率を許容しつつ, ポンプングなどのパラメータの関数としてポンプする効率について検討する。 本研究では, 合成次元に沿った粒子のエネルギー分散から発生する波束拡散に伴ってポンプがトポロジカルThouless系で作動した場合に, 最大90%のポンプ効率が得られることを示した。

The simulation of synthetic dimensions by manipulating internal states of atoms and molecules has opened the door to investigate regimes outside those of more traditional quantum many-body platforms. Highly excited Rydberg states of atoms are a particularly promising platform to engineer Hamiltonians in such synthetic dimensions due to their large number of addressable states and the readily available technologies for manipulating their couplings and for detecting them. In this letter, we demonstrate the realization of topological quantum pumping in synthetic dimensions by engineering a one-dimensional Rice-Mele chain from the Rydberg states of cesium atoms, and manipulating their couplings in a time-dependent fashion through radio-frequency fields. We implement Thouless protocols for topological pumping and investigate the efficiency for pumping an effective quantum particle as a function of the period of pumping and other parameters while allowing for rates of change that are not necessarily adiabatic. We demonstrate that optimal pumping efficiencies of up to 90% can be achieved when the pump is operated in the topological Thouless regime, even when the pumping is accompanied by the wave-packet spread that arises from the energy dispersion of the particle along the synthetic dimension.
翻訳日:2024-06-14 22:27:16 公開日:2024-06-12
# DiTFastAttn:拡散変圧器モデルに対する注意圧縮

DiTFastAttn: Attention Compression for Diffusion Transformer Models ( http://arxiv.org/abs/2406.08552v1 )

ライセンス: Link先を確認
Zhihang Yuan, Pu Lu, Hanling Zhang, Xuefei Ning, Linfeng Zhang, Tianchen Zhao, Shengen Yan, Guohao Dai, Yu Wang, (参考訳) 拡散変換器(DiT)は画像およびビデオ生成において優れるが、自己注意の2次複雑さのために計算上の課題に直面している。 本稿では,DiTの計算ボトルネックを軽減するためのポストトレーニング圧縮手法であるDiTFastAttnを提案する。 DiT推論における注意計算における3つの重要な冗長性を特定する。 1. 地域情報に注目が集まる空間冗長性 2. 隣接するステップの注意出力と高い類似性を有する時間的冗長性 3.条件的冗長性。条件的推論と非条件的推論は極めて類似している。 このような冗長性に対処するために,我々は3つの手法を提案する。 1.空間冗長性を低減するための残留キャッシングによる窓の注意 2 ステップ間の類似性を利用するための時間的類似度低減 3.条件付き冗長性除去 -条件付き生成時の冗長計算を省略する。 DiTFastAttnの有効性を実証するために、画像生成タスクにDiT、PixArt-Sigma、ビデオ生成タスクにOpenSoraに適用する。 その結果,画像生成においてFLOPの最大88%を削減し,高分解能発生時の最大1.6倍の高速化を実現した。

Diffusion Transformers (DiT) excel at image and video generation but face computational challenges due to self-attention's quadratic complexity. We propose DiTFastAttn, a novel post-training compression method to alleviate DiT's computational bottleneck. We identify three key redundancies in the attention computation during DiT inference: 1. spatial redundancy, where many attention heads focus on local information; 2. temporal redundancy, with high similarity between neighboring steps' attention outputs; 3. conditional redundancy, where conditional and unconditional inferences exhibit significant similarity. To tackle these redundancies, we propose three techniques: 1. Window Attention with Residual Caching to reduce spatial redundancy; 2. Temporal Similarity Reduction to exploit the similarity between steps; 3. Conditional Redundancy Elimination to skip redundant computations during conditional generation. To demonstrate the effectiveness of DiTFastAttn, we apply it to DiT, PixArt-Sigma for image generation tasks, and OpenSora for video generation tasks. Evaluation results show that for image generation, our method reduces up to 88\% of the FLOPs and achieves up to 1.6x speedup at high resolution generation.
翻訳日:2024-06-14 22:27:16 公開日:2024-06-12
# 転移学習による量子ハードウェア実現分子動力学

Quantum Hardware-Enabled Molecular Dynamics via Transfer Learning ( http://arxiv.org/abs/2406.08554v1 )

ライセンス: Link先を確認
Abid Khan, Prateek Vaish, Yaoqi Pang, Nikhil Kowshik, Michael S. Chen, Clay H. Batton, Grant M. Rotskoff, J. Wayne Mullinax, Bryan K. Clark, Brenda M. Rubenstein, Norm M. Tubman, (参考訳) 量子コンピュータ上で計算されたポテンシャルエネルギーを用いてアブ初期分子動力学シミュレーションを実行する能力は、触媒学と生物物理学の分野に大きな影響を与える化学・生化学系のほとんど正確な力学を許容する。 しかし、ノイズの多いハードウェア、計算勾配のコスト、大規模システムのシミュレーションに必要な量子ビットの数などは、量子ハードウェアを用いた動的シミュレーションの可能性を実現する上で大きな課題である。 ここでは、機械学習の最近の進歩によって、これらの問題のいくつかを緩和できることを実証する。 移動学習と機械学習によるポテンシャルエネルギー表面構築技術を組み合わせることで,量子ハードウェア上での分子動力学シミュレーションの新しい手法を提案する。 転送学習を用いて、より大きく、より正確でない古典的データセット上でモデルをトレーニングし、より小さく、より正確な量子データセット上でそれらを精錬することで、量子ハードウェアを使用するエネルギー評価の数を削減します。 このアプローチは、機械学習モデルをトレーニングして、Behler-Parrinelloニューラルネットワークを用いて分子のポテンシャルエネルギーを予測することによって実証される。 トレーニングが成功すれば、量子ハードウェアから直接は得られない動的シミュレーションに必要なエネルギー勾配予測が可能になる。 必要な量子リソースを減らすために、モデルはまず密度汎関数理論のような低コストな手法から得られたデータで訓練され、その後、ユニタリ結合クラスタアンサッツの最適化から得られたより小さなデータセットで改良される。 提案手法は,量子化学シミュレーションに必要な高い精度を計測しながら,量子トレーニングデータセットのサイズを大幅に削減することを示す。

The ability to perform ab initio molecular dynamics simulations using potential energies calculated on quantum computers would allow virtually exact dynamics for chemical and biochemical systems, with substantial impacts on the fields of catalysis and biophysics. However, noisy hardware, the costs of computing gradients, and the number of qubits required to simulate large systems present major challenges to realizing the potential of dynamical simulations using quantum hardware. Here, we demonstrate that some of these issues can be mitigated by recent advances in machine learning. By combining transfer learning with techniques for building machine-learned potential energy surfaces, we propose a new path forward for molecular dynamics simulations on quantum hardware. We use transfer learning to reduce the number of energy evaluations that use quantum hardware by first training models on larger, less accurate classical datasets and then refining them on smaller, more accurate quantum datasets. We demonstrate this approach by training machine learning models to predict a molecule's potential energy using Behler-Parrinello neural networks. When successfully trained, the model enables energy gradient predictions necessary for dynamics simulations that cannot be readily obtained directly from quantum hardware. To reduce the quantum resources needed, the model is initially trained with data derived from low-cost techniques, such as Density Functional Theory, and subsequently refined with a smaller dataset obtained from the optimization of the Unitary Coupled Cluster ansatz. We show that this approach significantly reduces the size of the quantum training dataset while capturing the high accuracies needed for quantum chemistry simulations.
翻訳日:2024-06-14 22:27:16 公開日:2024-06-12
# 衛星量子鍵分布に対する並列信頼ノードアプローチ

Parallel trusted node approach for satellite quantum key distribution ( http://arxiv.org/abs/2406.08562v1 )

ライセンス: Link先を確認
Gianluca De Santis, Konstantin Kravtsov, Sana Amairi-Pyka, James A. Grieve, (参考訳) 衛星リンクによる量子鍵分布(QKD)は、世界規模で量子バックアップされたセキュアな通信を作成するための唯一のソリューションである。 利用可能な技術で大陸間を網羅するには、衛星プラットフォームを完全に信頼する"フライング信頼ノード"パラダイムを採用する必要がある。 ここでは、分散秘密共有の概念と、いくつかのQKD搭載衛星の差し迫った打ち上げに着想を得て、鍵分布を複数の衛星が並列に媒介する並列信頼ノードアプローチを提案する。 これは、信頼を分散し、単一障害点を取り除き、必要な仮定を減らす効果がある。 さらに、このようなプロトコルを実行するために光学地上局が提供すべき汎用性について論じ、一般に、マルチパーティのグローバル量子ネットワークに完全に統合される。

Quantum key distribution (QKD) via satellite links is the only currently viable solution to create quantum-backed secure communication at a global scale. To achieve intercontinental coverage with available technology one must adopt a "flying trusted node" paradigm, in which users fully trust the satellite platform. Here, inspired by the concept of distributed secret sharing and the imminent projected launch of several QKD-equipped satellites, we propose a parallel trusted node approach, in which key distribution is mediated by several satellites in parallel. This has the effect of distributing the trust, removing single points of failure and reducing the necessary assumptions. In addition, we discuss the versatility that an optical ground station should provide to execute such a protocol and, in general, to be fully integrated into a multi-party global quantum network.
翻訳日:2024-06-14 22:27:16 公開日:2024-06-12
# 2次元$d$-wave反磁性体における磁場感受性転位状態

Field-sensitive dislocation bound states in two-dimensional $d$-wave altermagnets ( http://arxiv.org/abs/2406.08563v1 )

ライセンス: Link先を確認
Di Zhu, Dongling Liu, Zheng-Yang Zhuang, Zhigang Wu, Zhongbo Yan, (参考訳) 2次元の$d$-waveの反磁性体が基板上に成長すると、交互磁性とラシュバスピン軌道結合から生じる運動量依存スピン分裂の相互作用は、$C_{4z}\mathcal{T}$対称性によって強制されるバンド縮退を伴うノルダルバンド構造をもたらす。 交換場によって$C_{4z}\mathcal{T}$対称性を破れば、バンドの退化は直ちに持ち上げられ、非自明な強かつ弱な位相指標によって特徴づけられる位相的バンド構造に繋がる。 注目すべきことに、強いトポロジカル指数と$Z_{2}$値の弱いトポロジカル指数は、交換場の方向に敏感に依存する。 バルク欠陥対応の結果、この系における交換場に対する弱位相指標の特異な依存は、格子配置における位相境界状態の存在または欠如も交換場の方向に敏感に依存していることが分かる。 基板が$s$の超伝導体である場合、交換場におけるバンドトポロジの類似した依存がマヨラナゼロモードの場依存性を生じさせる。 トポロジカルな転位境界状態は走査型トンネル顕微鏡で容易に検出できるため, 今後ますます増加する候補のうち, 反磁性物質の有望な実験的診断が示された。

When a two-dimensional $d$-wave altermagnet is grown on a substrate, the interplay of momentum-dependent spin splittings arising from altermagnetism and Rashba spin-orbit coupling gives rise to a nodal band structure with band degeneracies enforced by a $C_{4z}\mathcal{T}$ symmetry. If we break the $C_{4z}\mathcal{T}$ symmetry by an exchange field, the band degeneracies are found to be immediately lifted, leading to a topological band structure characterized by nontrivial strong and weak topological indices. Remarkably, both the strong topological index and the $Z_{2}$-valued weak topological indices depend sensitively on the direction of the exchange field. As a consequence of the bulk-defect correspondence, we find that the unique dependence of weak topological indices on the exchange field in this system dictates that the presence or absence of topological bound states at lattice dislocations also depends sensitively on the direction of the exchange field. When the substrate is an $s$-wave superconductor, we find that a similar dependence of band topology on the exchange field gives rise to field-sensitive dislocation Majorana zero modes. As topological dislocation bound states are easily detectable by scanning tunneling microscopy, our findings unveil a promising experimental diagnosis of altermagnetic materials among an ever growing list of candidates.
翻訳日:2024-06-14 22:27:16 公開日:2024-06-12
# 機械学習を用いたマルチメディアサービスにおける体験の質予測のための新しいアプローチ

A new approach for predicting the Quality of Experience in multimedia services using machine learning ( http://arxiv.org/abs/2406.08564v1 )

ライセンス: Link先を確認
Parsa Hassani Shariat Panahi, Amir Hossein Jalilvand, Abolfazl Diyanat, (参考訳) 今日の世界では、インターネットは人間の生活の本質の一つとして認識されており、コミュニケーション、ビジネス、ライフスタイルにおいて重要な役割を果たしている。 インターネットサービスの質は、個人や社会的レベルに広範なネガティブな影響を及ぼす可能性がある。 その結果、QoS(Quality of Service)は、優れたサービスを提供することを目的とした競争市場において、サービス提供者にとって基本的な必要性となっている。 これらのプロバイダの成功と生存は、高いサービス品質を維持し、満足度を確保する能力に依存するが、QoS以外にも、QoE(Quality of Experience)の概念はテレフォニーネットワークの発展とともに出現している。 QoEはサービスに対するユーザの満足度に注目し、運用担当者がユーザの期待に応えるためにサービスを調整するのを支援する。 近年の研究では、機械学習とディープラーニング技術を利用してQoEを予測する傾向が示されている。 研究者は、様々な実世界のシナリオを考慮して、ネットワークとユーザインタラクションから大量のデータを活用することによって、正確なモデルを開発することを目指している。 ネットワーク環境の複雑さにもかかわらず、本研究はQoEの改善と評価のための実践的なフレームワークを提供する。 本研究では、自動データ収集プロセスを含むITU-T P.1203標準に準拠し、機械学習アルゴリズムを用いて、鍵となるネットワークパラメータに基づいてユーザの満足度を予測する、マルチメディアサービスにおけるQoEを評価するための包括的なフレームワークを提案する。 異なるネットワーク条件とユーザから20,000以上のデータレコードを収集することで、ランダムフォレストモデルはユーザの満足度に対して95.8%の予測精度を達成した。 このアプローチにより、オペレータはネットワークリソースをリアルタイムで動的に割り当てることができ、最小限のコストで高いレベルの顧客満足度を維持することができる。

In today's world, the Internet is recognized as one of the essentials of human life, playing a significant role in communications, business, and lifestyle. The quality of internet services can have widespread negative impacts on individual and social levels. Consequently, Quality of Service (QoS) has become a fundamental necessity for service providers in a competitive market aiming to offer superior services. The success and survival of these providers depend on their ability to maintain high service quality and ensure satisfaction.Alongside QoS, the concept of Quality of Experience (QoE) has emerged with the development of telephony networks. QoE focuses on the user's satisfaction with the service, helping operators adjust their services to meet user expectations. Recent research shows a trend towards utilizing machine learning and deep learning techniques to predict QoE. Researchers aim to develop accurate models by leveraging large volumes of data from network and user interactions, considering various real-world scenarios. Despite the complexity of network environments, this research provides a practical framework for improving and evaluating QoE. This study presents a comprehensive framework for evaluating QoE in multimedia services, adhering to the ITU-T P.1203 standard which includes automated data collection processes and uses machine learning algorithms to predict user satisfaction based on key network parameters. By collecting over 20,000 data records from different network conditions and users, the Random Forest model achieved a prediction accuracy of 95.8% for user satisfaction. This approach allows operators to dynamically allocate network resources in real-time, maintaining high levels of customer satisfaction with minimal costs.
翻訳日:2024-06-14 22:27:16 公開日:2024-06-12
# 強対称性からの高絡み状態

Highly-entangled stationary states from strong symmetries ( http://arxiv.org/abs/2406.08567v1 )

ライセンス: Link先を確認
Yahui Li, Frank Pollmann, Nicholas Read, Pablo Sala, (参考訳) 強い非アベリア保存量の存在は、ユニタリ量子チャネルにおいても非常に絡み合った定常状態をもたらす。 我々は、二部対数否定性、R'enyi Negativities、および1つの対称部分空間に制限された定常状態に対する作用素空間絡みの正確な式を、自明な部分空間に焦点をあてて導出する。 これらは、すべての強保存量を特徴づける可換体がリー代数の普遍包絡代数またはリード=セール可換環に対応するような開量子進化に適用されることを証明している。 後者は、システムサイズが指数関数的に大きい量子断片化の例である。 より小さな鎖の分割上の可換体の次元の対数によって与えられるこれらの量に対する一般上界を求める。 アベリアの例として、強いU($1$)対称性と古典的な断片化が任意の対称部分空間において分離可能な定常状態をもたらすことを示す。 対照的に、非アベリアSU$(N)$対称性の場合、対数論とR\enyi Negativitiesはどちらもシステムサイズと対数論的にスケールする。 最後に、R\'enyi negativities with $n>2$ scale with system size, the logarithmic negativity ( as generalized R\'enyi negativities with $n<2$) は、Read-Saleur commutantsの体積法スケーリングを示す。 我々の導出は、無限大系の極限においてホップ代数構造を持つ可換性に依存し、したがって有限群や量子群にも適用される。

We find that the presence of strong non-Abelian conserved quantities can lead to highly entangled stationary states even for unital quantum channels. We derive exact expressions for the bipartite logarithmic negativity, R\'enyi negativities, and operator space entanglement for stationary states restricted to one symmetric subspace, with focus on the trivial subspace. We prove that these apply to open quantum evolutions whose commutants, characterizing all strongly conserved quantities, correspond to either the universal enveloping algebra of a Lie algebra or to the Read-Saleur commutants. The latter provides an example of quantum fragmentation, whose dimension is exponentially large in system size. We find a general upper bound for all these quantities given by the logarithm of the dimension of the commutant on the smaller bipartition of the chain. As Abelian examples, we show that strong U($1$) symmetries and classical fragmentation lead to separable stationary states in any symmetric subspace. In contrast, for non-Abelian SU$(N)$ symmetries, both logarithmic and R\'enyi negativities scale logarithmically with system size. Finally, we prove that while R\'enyi negativities with $n>2$ scale logarithmically with system size, the logarithmic negativity (as well as generalized R\'enyi negativities with $n<2$) exhibits a volume law scaling for the Read-Saleur commutants. Our derivations rely on the commutant possessing a Hopf algebra structure in the limit of infinitely large systems, and hence also apply to finite groups and quantum groups.
翻訳日:2024-06-14 22:27:16 公開日:2024-06-12
# メタラーニングによる雑音認識の個人的回帰

Noise-Aware Differentially Private Regression via Meta-Learning ( http://arxiv.org/abs/2406.08569v1 )

ライセンス: Link先を確認
Ossi Räisä, Stratis Markou, Matthew Ashman, Wessel P. Bruinsma, Marlon Tobaben, Antti Honkela, Richard E. Turner, (参考訳) 多くの高度なアプリケーションには、ユーザのプライバシ保護と、十分に校正された正確な予測を提供するマシンラーニングモデルが必要です。 差別化プライバシ(DP)はユーザのプライバシを保護するための金の標準だが、標準のDPメカニズムは一般的にパフォーマンスを著しく損なう。 この問題を緩和する1つのアプローチは、DPがプライベートデータで学習する前にシミュレーションデータ上でモデルを事前訓練することである。 本研究では、シミュレーションデータを用いて、畳み込み条件ニューラルネットワーク(ConvCNP)と、DPConvCNPを出力する Hall et al [2013] の機能 DP メカニズムを組み合わせたメタラーニングモデルをトレーニングする。 DPConvCNPは、シミュレーションデータから1つのフォワードパスでDP予測モデルにプライベートデータをマップする方法を学び、それから正確でよく校正された予測を提供する。 我々はDPConvCNPをDP Gaussian Process (GP)ベースラインと注意深く調整されたハイパーパラメータと比較する。 DPConvCNPはGPベースライン、特に非ガウスデータよりも優れていますが、テスト時にははるかに高速で、チューニングも少ないです。

Many high-stakes applications require machine learning models that protect user privacy and provide well-calibrated, accurate predictions. While Differential Privacy (DP) is the gold standard for protecting user privacy, standard DP mechanisms typically significantly impair performance. One approach to mitigating this issue is pre-training models on simulated data before DP learning on the private data. In this work we go a step further, using simulated data to train a meta-learning model that combines the Convolutional Conditional Neural Process (ConvCNP) with an improved functional DP mechanism of Hall et al. [2013] yielding the DPConvCNP. DPConvCNP learns from simulated data how to map private data to a DP predictive model in one forward pass, and then provides accurate, well-calibrated predictions. We compare DPConvCNP with a DP Gaussian Process (GP) baseline with carefully tuned hyperparameters. The DPConvCNP outperforms the GP baseline, especially on non-Gaussian data, yet is much faster at test time and requires less tuning.
翻訳日:2024-06-14 22:27:16 公開日:2024-06-12
# HDNet:Helmholtz分解に基づく流れ推定のための物理インスパイアされたニューラルネットワーク

HDNet: Physics-Inspired Neural Network for Flow Estimation based on Helmholtz Decomposition ( http://arxiv.org/abs/2406.08570v1 )

ライセンス: Link先を確認
Miao Qi, Ramzi Idoughi, Wolfgang Heidrich, (参考訳) フロー推定問題は、科学的イメージングにおいてユビキタスである。 例えば、多くの流体実験では非圧縮性(分散のない)フローが期待され、一方、不整流性(カールのない)フローは光歪みや波面センシングの分析で生じる。 本研究では,任意の流れ場のヘルムホルツ分解を行う物理インスピレーションニューラルネットワーク(PINN)を提案する。 HDNetは、ヘルムホルツ合成と呼ばれる逆ヘルムホルツ分解によって生成される合成データにのみ訓練することができる。 PINNとしてHDNetは完全に微分可能であり、任意のフロー推定問題に容易に統合できる。

Flow estimation problems are ubiquitous in scientific imaging. Often, the underlying flows are subject to physical constraints that can be exploited in the flow estimation; for example, incompressible (divergence-free) flows are expected for many fluid experiments, while irrotational (curl-free) flows arise in the analysis of optical distortions and wavefront sensing. In this work, we propose a Physics- Inspired Neural Network (PINN) named HDNet, which performs a Helmholtz decomposition of an arbitrary flow field, i.e., it decomposes the input flow into a divergence-only and a curl-only component. HDNet can be trained exclusively on synthetic data generated by reverse Helmholtz decomposition, which we call Helmholtz synthesis. As a PINN, HDNet is fully differentiable and can easily be integrated into arbitrary flow estimation problems.
翻訳日:2024-06-14 22:27:16 公開日:2024-06-12
# LLM支援概念発見 : ニューロン機能の自動同定と説明

LLM-assisted Concept Discovery: Automatically Identifying and Explaining Neuron Functions ( http://arxiv.org/abs/2406.08572v1 )

ライセンス: Link先を確認
Nhat Hoang-Xuan, Minh Vu, My T. Thai, (参考訳) ディープニューラルネットワーク(DNN)におけるニューロンのテキスト概念に基づく説明を提供することは、DNNモデルがどのように機能するかを理解する上で重要である。 以前の研究は、概念の例や事前に定義された概念のセットに基づいてニューロンに関連づけられた概念を持ち、特に新しい概念の発見において、ユーザーが何を期待しているかを説明することができる。 さらに、概念のセットを定義するには、直接指定するか、サンプルを収集することで、ユーザからの手作業が必要になる。 これらを克服するために,我々はマルチモーダルな大規模言語モデルを用いて,自動的かつオープンな概念発見を提案する。 我々は,事前定義された概念の限定的なセットがなければ,モデルの振る舞いに忠実な新しい解釈可能な概念が生まれることを示した。 これを定量的に評価するために、この新たな画像に対して、サンプルと反例を生成し、ニューロンの応答を評価することにより、各概念を検証した。 提案手法は,概念を発見し,同時に検証し,深層ニューラルネットワークを説明するための信頼性の高い自動化ツールを提供する。

Providing textual concept-based explanations for neurons in deep neural networks (DNNs) is of importance in understanding how a DNN model works. Prior works have associated concepts with neurons based on examples of concepts or a pre-defined set of concepts, thus limiting possible explanations to what the user expects, especially in discovering new concepts. Furthermore, defining the set of concepts requires manual work from the user, either by directly specifying them or collecting examples. To overcome these, we propose to leverage multimodal large language models for automatic and open-ended concept discovery. We show that, without a restricted set of pre-defined concepts, our method gives rise to novel interpretable concepts that are more faithful to the model's behavior. To quantify this, we validate each concept by generating examples and counterexamples and evaluating the neuron's response on this new set of images. Collectively, our method can discover concepts and simultaneously validate them, providing a credible automated tool to explain deep neural networks.
翻訳日:2024-06-14 22:27:16 公開日:2024-06-12
# ロシアドルモデルにおける精製環状再正規化群

Refined cyclic renormalization group in Russian Doll model ( http://arxiv.org/abs/2406.08573v1 )

ライセンス: Link先を確認
Vedant Motamarri, Ivan M. Khaymovich, Alexander Gorsky, (参考訳) 有限エネルギー準位に対する超伝導のロシアドルモデル(RDM)について論じる。 従来、RGとEfimovのスケーリングはRDMにおいて等距離スペクトルの一部で見られ、この観測をいくつかの方向で一般化した。 スペクトル全体を考慮すると、等距離状態が取り除かれたり、対角障害が加わったりすると、RGの周期性は持続するが、RGの周期はエネルギー依存となる。 解析解析は正確な対角化によって支持される。

We discuss the Russian Doll Model (RDM) of superconductivity for finite energy levels. Previously, cyclic renormalization group (RG) and Efimov scaling were found in RDM for part of the equidistant spectrum and we generalize this observation in a few directions. We find that when the whole spectrum is considered, equidistancy condition is removed or diagonal disorder is added, the cyclicity of RG survives but the period of RG becomes energy dependent. The analytic analysis is supported with exact diagonalization.
翻訳日:2024-06-14 22:27:16 公開日:2024-06-12
# MLモデルテストケース生成における品質属性シナリオの利用

Using Quality Attribute Scenarios for ML Model Test Case Generation ( http://arxiv.org/abs/2406.08575v1 )

ライセンス: Link先を確認
Rachel Brower-Sinning, Grace A. Lewis, Sebastían Echeverría, Ipek Ozkaya, (参考訳) 機械学習モデル(ML)のテストは、研究者や実践家によって特定される既知の課題である。 残念なことに、MLモデルテストの現在のプラクティスは、モデルのパフォーマンスを優先する一方で、モデルを統合するML対応システムの要件と制約を無視することが多い。 この限定的なテストの見方は、統合やデプロイメント、運用の失敗につながります。 本稿では、MLモデルのシステムおよびモデル関連テストケースを抽出し、定義するための品質属性(QA)シナリオに基づくアプローチを提案する。 本稿では,MLモデルテストと評価を支援するプロセスとツールであるMLTEにQAベースのアプローチを組み込んだ。 MLTEのユーザからのフィードバックは、モデルパフォーマンスを超えたテストの有効性を強調し、開発プロセスの初期段階で障害を特定する。

Testing of machine learning (ML) models is a known challenge identified by researchers and practitioners alike. Unfortunately, current practice for ML model testing prioritizes testing for model performance, while often neglecting the requirements and constraints of the ML-enabled system that integrates the model. This limited view of testing leads to failures during integration, deployment, and operations, contributing to the difficulties of moving models from development to production. This paper presents an approach based on quality attribute (QA) scenarios to elicit and define system- and model-relevant test cases for ML models. The QA-based approach described in this paper has been integrated into MLTE, a process and tool to support ML model test and evaluation. Feedback from users of MLTE highlights its effectiveness in testing beyond model performance and identifying failures early in the development process.
翻訳日:2024-06-14 22:27:16 公開日:2024-06-12
# QLoRAを用いたLCMのファクト記憶とスタイル模倣の探索:実験的検討と品質評価方法

Exploring Fact Memorization and Style Imitation in LLMs Using QLoRA: An Experimental Study and Quality Assessment Methods ( http://arxiv.org/abs/2406.08582v1 )

ライセンス: Link先を確認
Eugene Vyborov, Oleksiy Osypenko, Serge Sotnyk, (参考訳) LLMを異なる領域に適応させる方法は様々である。 最も一般的な方法は、プロンプト、微調整、RAGである。 本研究では,PEFT手法の1つであるQLoRAを用いてモデルを適用する可能性を検討する。 この実験は、インタビューに基づいて人間の反応をシミュレートすることを目的としている。 シミュレーション品質は、そのスタイルの質と生成された事実の質を比較して評価する。

There are various methods for adapting LLMs to different domains. The most common methods are prompting, finetuning, and RAG. In this work, we explore the possibility of adapting a model using one of the PEFT methods - QLoRA. The experiment aims to simulate human responses based on their interviews. The simulation quality is assessed by comparing the quality of the style and the quality of the generated facts.
翻訳日:2024-06-14 22:17:23 公開日:2024-06-12
# エッジシステムの高信頼環境における参照アーキテクチャの定義

Defining a Reference Architecture for Edge Systems in Highly-Uncertain Environments ( http://arxiv.org/abs/2406.08583v1 )

ライセンス: Link先を確認
Kevin Pitstick, Marc Novakouski, Grace A. Lewis, Ipek Ozkaya, (参考訳) ハードウェアと人工知能(AI)ソリューションの進歩率の増加は、さまざまなソフトウェアシステムをユーザの近くにデプロイ可能にすることによって、エッジソフトウェアシステムのパラダイムの適用が増加します。 エッジシステムは、データ生成と必要な場所に計算を配置するシナリオをサポートし、レイテンシの低減、帯域幅の最適化、レジリエンスと可用性の向上といったメリットを提供する。 第一応答者、法執行機関、兵士など、不確実でリソースに制約のある環境で運用するユーザは、タイミング決定を支援するためのエッジシステムから大きな恩恵を受けることができる。 残念なことに、エッジシステムに対する異なるアーキテクチャアプローチが優先品質の懸念にどのように影響するかを理解することは、産業や研究によって無視されている。 業界の多くはエッジシステムのハードウェアとネットワークに重点を置いており、エッジ機能を実現するソフトウェアにはほとんど注目していない。 本稿では,このギャップを埋める作業を行い,不確実な環境におけるエッジシステムの参照アーキテクチャを定義し,実際にどのように実装されているかを示す。

Increasing rate of progress in hardware and artificial intelligence (AI) solutions is enabling a range of software systems to be deployed closer to their users, increasing application of edge software system paradigms. Edge systems support scenarios in which computation is placed closer to where data is generated and needed, and provide benefits such as reduced latency, bandwidth optimization, and higher resiliency and availability. Users who operate in highly-uncertain and resource-constrained environments, such as first responders, law enforcement, and soldiers, can greatly benefit from edge systems to support timelier decision making. Unfortunately, understanding how different architecture approaches for edge systems impact priority quality concerns is largely neglected by industry and research, yet crucial for national and local safety, optimal resource utilization, and timely decision making. Much of industry is focused on the hardware and networking aspects of edge systems, with very little attention to the software that enables edge capabilities. This paper presents our work to fill this gap, defining a reference architecture for edge systems in highly-uncertain environments, and showing examples of how it has been implemented in practice.
翻訳日:2024-06-14 22:17:23 公開日:2024-06-12
# 完全正および微量保存ダイナミクスのためのエクササイズおよび不正確な量子速度限界のファミリー

Family of Exact and Inexact Quantum Speed Limits for Completely Positive and Trace-Preserving Dynamics ( http://arxiv.org/abs/2406.08584v1 )

ライセンス: Link先を確認
Abhay Srivastav, Vivek Pandey, Brij Mohan, Arun Kumar Pati, (参考訳) 密度行列空間で定式化された伝統的な量子速度制限は、一般には到達不可能であり、可能な限り高速な力学を特徴づけることができないため、ユニタリを超えての力学では不十分である。 この問題に対処するために、Louville空間における2つの異なる量子速度制限を導出する。 第1のバウンドは時間最適CPTPダイナミクスに対して飽和し、第2のバウンドはすべての状態と全てのCPTPダイナミクスに対して正確である。 我々の境界は、超作用素の不確かさとリウヴィル空間における量子進化の幾何学から生じる明らかな物理的および幾何学的解釈を持つ。 これらはマンデルスタム・タム境界の一般化と見なすことができ、開量子力学における時間、エネルギー、散逸の間の不確実性を与える。 さらに、我々の境界は、密度行列の重なりとリウビリアンの分散を計算または測定する必要があるため、推定し、実験的により容易である。 我々はまた、与えられた初期状態と最終状態に対して、時間最適(最も速い)CPTPダイナミクスを生成するLiouvillianの形式も取得した。 我々は境界の2つの重要な応用を与える。 まず、リウヴィル空間における進化の速度は、情報のスクランブルと量子カオスを研究する上で不可欠であるスペクトル形成因子とクリャロフ状態の複雑さの増大に結びついていることが示される。 第2に、我々の境界を用いて、非平衡開量子力学におけるMpemba効果を説明する。

Traditional quantum speed limits formulated in density matrix space perform poorly for dynamics beyond unitary, as they are generally unattainable and fail to characterize the fastest possible dynamics. To address this, we derive two distinct quantum speed limits in Liouville space for Completely Positive and Trace-Preserving (CPTP) dynamics that outperform previous bounds. The first bound saturates for time-optimal CPTP dynamics, while the second bound is exact for all states and all CPTP dynamics. Our bounds have a clear physical and geometric interpretation arising from the uncertainty of superoperators and the geometry of quantum evolution in Liouville space. They can be regarded as the generalization of the Mandelstam-Tamm bound, providing uncertainty relations between time, energy, and dissipation for open quantum dynamics. Additionally, our bounds are significantly simpler to estimate and experimentally more feasible as they require to compute or measure the overlap of density matrices and the variance of the Liouvillian. We have also obtained the form of the Liouvillian, which generates the time-optimal (fastest) CPTP dynamics for given initial and final states. We give two important applications of our bounds. First, we show that the speed of evolution in Liouville space bounds the growth of the spectral form factor and Krylov complexity of states, which are crucial for studying information scrambling and quantum chaos. Second, using our bounds, we explain the Mpemba effect in non-equilibrium open quantum dynamics.
翻訳日:2024-06-14 22:17:23 公開日:2024-06-12
# Schrödinger Unitary Cellular Automata

Schrödinger Unitary Cellular Automata ( http://arxiv.org/abs/2406.08586v1 )

ライセンス: Link先を確認
Kees van Berkel, Jan de Graaf, Kees van Hee, (参考訳) 自由粒子のハミルトニアンに対するセルオートマトン(英語版)のクラスを提案する。 これは離散時間と空間における2段階のユニタリ進化作用素に基づいている。 1次元セルオートマトンと2次元セルオートマトンを用いた様々な実験を用いて解析する 1)平面波の位相速度 2 波束の分散及び群速度 3)無限ポテンシャル井戸と高調波発振器のエネルギー準位 4)ダブルスリット回折からの干渉。 既知の(分析的な)結果と細胞-オートマタ近似の違いのいくつかは興味深い。

We propose a class of cellular automata for the Hamiltonian of a free particle. It is based on a two-step unitary evolution operator in discrete time and space. Various experiments with one and two-dimensional cellular automata are used to analyze 1) phase velocities of plane waves, 2) dispersion and group velocities of wavepackets, 3) energy levels of infinite potential wells and harmonic oscillators, and 4) interference from double-slit diffraction. Some of the differences between their known (analytical) results and the cellular-automata approximations are intriguing.
翻訳日:2024-06-14 22:17:23 公開日:2024-06-12
# CS-Bench:コンピュータサイエンスの習得に向けた大規模言語モデルの総合ベンチマーク

CS-Bench: A Comprehensive Benchmark for Large Language Models towards Computer Science Mastery ( http://arxiv.org/abs/2406.08587v1 )

ライセンス: Link先を確認
Xiaoshuai Song, Muxi Diao, Guanting Dong, Zhengyang Wang, Yujia Fu, Runqi Qiao, Zhexu Wang, Dayuan Fu, Huangxuan Wu, Bin Liang, Weihao Zeng, Yejie Wang, Zhuoma GongQue, Jianing Yu, Qiuna Tan, Weiran Xu, (参考訳) コンピュータサイエンス(CS)は、人工知能と現代社会の発展を大いに推進し、人間の知能の複雑さの証である。 しかし、現在の大規模言語モデル(LLM)のコミュニティは、コンピュータ科学分野の全体的評価を無視し、特定の基礎技術(例えば、数学やコード生成)を分析するためのベンチマークに過度に重点を置いている。 このギャップを埋めるために,コンピュータ科学におけるLLMの性能を評価するための最初のバイリンガル(中国語-英語)ベンチマークCS-Benchを紹介する。 CS-Benchは、コンピュータ科学の4つの重要な領域にまたがる26のサブフィールドをカバーし、様々なタスクフォームと知識と推論の分割を含んでいる。 CS-Benchを用いて30以上のLLMの総合評価を行い,CS性能とモデルスケールの関係を明らかにする。 また,既存のLCMの障害原因を定量的に分析し,知識補充やCS固有の推論を含む改善の方向性を明らかにする。 さらなるクロスキャパビリティ実験は、計算機科学におけるLLMの能力と、数学やコーディングにおけるそれらの能力との間に高い相関関係を示す。 さらに、数学とコーディングを専門とするLSMは、いくつかのCSサブフィールドで強い性能を示す。 今後、CS分野におけるLCM応用の基盤としてCS-Benchが期待され、LCMの多様な推論能力を評価するための新たな道が開かれた。 CS-Benchのデータと評価コードはhttps://github.com/csbench/csbench.comで公開されている。

Computer Science (CS) stands as a testament to the intricacies of human intelligence, profoundly advancing the development of artificial intelligence and modern society. However, the current community of large language models (LLMs) overly focuses on benchmarks for analyzing specific foundational skills (e.g. mathematics and code generation), neglecting an all-round evaluation of the computer science field. To bridge this gap, we introduce CS-Bench, the first bilingual (Chinese-English) benchmark dedicated to evaluating the performance of LLMs in computer science. CS-Bench comprises approximately 5K meticulously curated test samples, covering 26 subfields across 4 key areas of computer science, encompassing various task forms and divisions of knowledge and reasoning. Utilizing CS-Bench, we conduct a comprehensive evaluation of over 30 mainstream LLMs, revealing the relationship between CS performance and model scales. We also quantitatively analyze the reasons for failures in existing LLMs and highlight directions for improvements, including knowledge supplementation and CS-specific reasoning. Further cross-capability experiments show a high correlation between LLMs' capabilities in computer science and their abilities in mathematics and coding. Moreover, expert LLMs specialized in mathematics and coding also demonstrate strong performances in several CS subfields. Looking ahead, we envision CS-Bench serving as a cornerstone for LLM applications in the CS field and paving new avenues in assessing LLMs' diverse reasoning capabilities. The CS-Bench data and evaluation code are available at https://github.com/csbench/csbench.
翻訳日:2024-06-14 22:17:23 公開日:2024-06-12
# MEMO-QCD:量子回路設計のためのメメティック最適化による量子密度推定

MEMO-QCD: Quantum Density Estimation through Memetic Optimisation for Quantum Circuit Design ( http://arxiv.org/abs/2406.08591v1 )

ライセンス: Link先を確認
Juan E. Ardila-García, Vladimir Vargas-Calderón, Fabio A. González, Diego H. Useche, Herbert Vinck-Posada, (参考訳) 本稿では,密度推定のための効率的な量子回路設計手法を提案する。 この戦略は、密度推定のための量子インスパイアされたアルゴリズム(DMKDE)と、メメティックアルゴリズムに基づく回路最適化ルーチンに基づいている。 このモデルは、トレーニングデータセットを密度行列で表される量子状態に量子特徴写像を通してマッピングする。 このトレーニング状態は、対応する量子状態をトレーニング状態に投影することにより、新しいサンプルの密度を推定できるように、データセットの確率分布を量子状態に符号化する。 本稿では,量子特徴写像を実装した変分量子回路のアーキテクチャとパラメータを見つけるためのメメティックアルゴリズムと,トレーニング状態を作成するための変分学習戦略を提案する。 提案手法の実証は, 近距離量子ハードウェアにおけるアルゴリズムの実現可能性を示す浅量子回路によるガウス核密度推定法の正確な近似を示す。

This paper presents a strategy for efficient quantum circuit design for density estimation. The strategy is based on a quantum-inspired algorithm (DMKDE) for density estimation and a circuit optimisation routine based on memetic algorithms. The model maps a training dataset to a quantum state represented by a density matrix through a quantum feature map. This training state encodes the probability distribution of the dataset in a quantum state, such that the density of a new sample can be estimated by projecting its corresponding quantum state onto the training state. We propose the application of a memetic algorithm to find the architecture and parameters of a variational quantum circuit that implements the quantum feature map, along with a variational learning strategy to prepare the training state. Demonstrations of the proposed strategy show an accurate approximation of the Gaussian kernel density estimation method through shallow quantum circuits illustrating the feasibility of the algorithm for near-term quantum hardware.
翻訳日:2024-06-14 22:17:23 公開日:2024-06-12
# インテリジェントなマルチビューテスト時間拡張

Intelligent Multi-View Test Time Augmentation ( http://arxiv.org/abs/2406.08593v1 )

ライセンス: Link先を確認
Efe Ozturk, Mohit Prabhushankar, Ghassan AlRegib, (参考訳) 本研究では、視点変動に対する画像分類モデルの堅牢性と精度を高めるために、インテリジェントなテスト時間拡張(TTA)アルゴリズムを提案する。 従来のTTA法とは違って,予測的不確実性指標に基づいて最適な拡張をインテリジェントに選択する。 この選択は2段階のプロセスによって達成される:第1段階は不確実性レベルを評価することによって各クラスに対する最適な拡張を識別し、第2段階は不確実性しきい値を実装して、TTAの適用が有利になるかどうかを決定する。 この方法論の進歩は、拡張がデータセット全体にわたる一様アプリケーションよりも効果的に分類に寄与することを保証する。 いくつかのデータセットとニューラルネットワークアーキテクチャにわたる実験的な検証は、我々のアプローチを検証し、単一ビューイメージを使用するメソッドよりも平均1.73%の精度向上を実現した。 本研究は,画像分類のロバスト性向上における適応的,不確実性を考慮したTTAの可能性を強調し,知的増強戦略のさらなる探求の道を開くものである。

In this study, we introduce an intelligent Test Time Augmentation (TTA) algorithm designed to enhance the robustness and accuracy of image classification models against viewpoint variations. Unlike traditional TTA methods that indiscriminately apply augmentations, our approach intelligently selects optimal augmentations based on predictive uncertainty metrics. This selection is achieved via a two-stage process: the first stage identifies the optimal augmentation for each class by evaluating uncertainty levels, while the second stage implements an uncertainty threshold to determine when applying TTA would be advantageous. This methodological advancement ensures that augmentations contribute to classification more effectively than a uniform application across the dataset. Experimental validation across several datasets and neural network architectures validates our approach, yielding an average accuracy improvement of 1.73% over methods that use single-view images. This research underscores the potential of adaptive, uncertainty-aware TTA in improving the robustness of image classification in the presence of viewpoint variations, paving the way for further exploration into intelligent augmentation strategies.
翻訳日:2024-06-14 22:17:23 公開日:2024-06-12
# 言語モデル協議会:コンセンサスによる高主観的課題に関する基礎モデルのベンチマーク

Language Model Council: Benchmarking Foundation Models on Highly Subjective Tasks by Consensus ( http://arxiv.org/abs/2406.08598v1 )

ライセンス: Link先を確認
Justin Zhao, Flor Miriam Plaza-del-Arco, Amanda Cercas Curry, (参考訳) LLM(Large Language Models)の急速な進歩は、堅牢で困難なベンチマークを必要とする。 Chatbot Arenaのようなリーダーボードは、その反応が人間の好みとどのように一致しているかに基づいてLCMをランク付けする。 しかし、感情的な知性、創造的な文章、説得力にまつわる多くのタスクは、非常に主観的であり、しばしば主要な人的合意を欠いている。 裁判官は、より良い反応を構成するものについて、違和感のない意見の相違があるかもしれない。 高い主観的タスクにおいてLLMをランク付けすることの課題に対処するために,新しいベンチマークフレームワークであるLanguage Model Council(LMC)を提案する。 LMCは民主的なプロセスを通じて運営している。 1) 等参加による試験を定式化する。 2 評議員による試験の実施、及び 3) 集合審査員として回答を評価する。 我々は、対人ジレンマに反応するオープンな感情情報タスクに、20の新たなLSMの協議会を配置する。 以上の結果から,LCCは個々のLCM審査員よりも分離性,堅牢性,バイアスの少ないランキングを生成し,他のベンチマークと比較すると,人為的なリーダーボードとの整合性が高いことが示された。

The rapid advancement of Large Language Models (LLMs) necessitates robust and challenging benchmarks. Leaderboards like Chatbot Arena rank LLMs based on how well their responses align with human preferences. However, many tasks such as those related to emotional intelligence, creative writing, or persuasiveness, are highly subjective and often lack majoritarian human agreement. Judges may have irreconcilable disagreements about what constitutes a better response. To address the challenge of ranking LLMs on highly subjective tasks, we propose a novel benchmarking framework, the Language Model Council (LMC). The LMC operates through a democratic process to: 1) formulate a test set through equal participation, 2) administer the test among council members, and 3) evaluate responses as a collective jury. We deploy a council of 20 newest LLMs on an open-ended emotional intelligence task: responding to interpersonal dilemmas. Our results show that the LMC produces rankings that are more separable, robust, and less biased than those from any individual LLM judge, and is more consistent with a human-established leaderboard compared to other benchmarks.
翻訳日:2024-06-14 22:17:23 公開日:2024-06-12
# 保存則違反のないイオンの量子散乱における心的介入

Mental intervention in quantum scattering of ions without violating conservation laws ( http://arxiv.org/abs/2406.08601v1 )

ライセンス: Link先を確認
Johann Summhammer, (参考訳) 過去には、心は量子事象のランダム性を利用して物質に影響を与えるかもしれないという提案がいくつかあった。 ここでは、神経細胞の軸索丘におけるイオンの量子力学的散乱方向の精神的な選択が拡散にどのように影響し、作用電位を開始するかが示される。 数千個のイオンしか影響しない。 保存法則に違反することはないが、温度の一時的な局所的な低下は、量子力学的に可能であるが、非常に不可避な進化と一致して発生すべきである。 熱力学の第2法則の同時違反を推定する。 この仮定された精神的な介入がどのようにテストされるか、いくつかの考えが与えられている。

There have been several proposals in the past that mind might influence matter by exploiting the randomness of quantum events. Here, calculations are presented how mental selection of quantum mechanical scattering directions of ions in the axon hillock of neuronal cells could influence diffusion and initiate an action potential. Only a few thousand ions would need to be affected. No conservation laws are violated, but a momentary and very small local decrease of temperature should occur, consistent with a quantum mechanically possible but extremely improbable evolution. An estimate of the concurrent violation of the second law of thermodynamics is presented. Some thoughts are given to how this hypothesized mental intervention could be tested.
翻訳日:2024-06-14 22:17:23 公開日:2024-06-12
# Fake Inversion: 安定拡散の反転による未知のテキスト-画像モデルからの画像検出学習

FakeInversion: Learning to Detect Images from Unseen Text-to-Image Models by Inverting Stable Diffusion ( http://arxiv.org/abs/2406.08603v1 )

ライセンス: Link先を確認
George Cazenavette, Avneesh Sud, Thomas Leung, Ben Usman, (参考訳) GenAIシステムの悪用の可能性が高いことから,最近,合成画像の検出が研究コミュニティにとって大きな関心を集めている。 残念なことに、既存の画像空間検出器は、新しい高忠実なテキスト・画像モデルが目隠し速度で開発されるにつれて、急速に時代遅れになっている。 そこで本研究では,オープンソースのトレーニング済み安定拡散モデルを用いて得られた特徴を用いた新しい合成画像検出器を提案する。 これらの逆転法により, 安定拡散法により生成された低忠実度偽画像のみを用いて検出器を訓練しても, 高忠実度(例えば, DALL-E3)の未確認生成物に対して, 検出器の一般化が図れることを示す。 この検出器は、複数のトレーニングおよび評価設定にまたがる新しい最先端を実現する。 さらに, 逆画像探索を用いて, 検出器評価におけるスタイリスティック, テーマバイアスを緩和する新しい挑戦的評価プロトコルを提案する。 得られた評価スコアは,検出器の性能と良好に一致し,これらのデータセットを将来の研究のための公開ベンチマークとしてリリースする。

Due to the high potential for abuse of GenAI systems, the task of detecting synthetic images has recently become of great interest to the research community. Unfortunately, existing image-space detectors quickly become obsolete as new high-fidelity text-to-image models are developed at blinding speed. In this work, we propose a new synthetic image detector that uses features obtained by inverting an open-source pre-trained Stable Diffusion model. We show that these inversion features enable our detector to generalize well to unseen generators of high visual fidelity (e.g., DALL-E 3) even when the detector is trained only on lower fidelity fake images generated via Stable Diffusion. This detector achieves new state-of-the-art across multiple training and evaluation setups. Moreover, we introduce a new challenging evaluation protocol that uses reverse image search to mitigate stylistic and thematic biases in the detector evaluation. We show that the resulting evaluation scores align well with detectors' in-the-wild performance, and release these datasets as public benchmarks for future research.
翻訳日:2024-06-14 22:17:23 公開日:2024-06-12
# 乳腺病理組織像分割のためのGRU-Net

GRU-Net for breast histopathology image segmentation ( http://arxiv.org/abs/2406.08604v1 )

ライセンス: Link先を確認
Ayush Roy, Payel Pramanik, Sohom Ghosal, Daria Valenkova, Dmitrii Kaplun, Ram Sarkar, (参考訳) 乳がんは世界的な健康上の問題である。 病理学者は、時間と労働集約的な課題である病理画像から複雑な特徴を分析することの課題に直面している。 そのため,早期発見・治療計画には効率的なコンピュータ診断ツールが必要である。 本稿では,複数スケールの複雑な特徴を解析・セグメント化し,スキップ接続による効果的な特徴フローを確保するためのバックボーンとして選択された,病理組織像セグメンテーションのためのMultiResU-Netの修正版を提案する。 修正版では、ガウス分布に基づくアテンションモジュール (GdAM) も使用して、ガウス分布に病理学的に関連のあるテキスト情報を組み込む。 ガウス文字特徴誘導分布のサンプル特徴は、事前知識に基づいて特定の空間領域をハイライトする。 最後に、MultiResU-Netのスキップ接続において、制御されたDense Residual Block(CDRB)を用いて、抽出された空間的特徴から導出されるスケーリングパラメータを用いて、エンコーダ層からデコーダ層へ制御された方法で情報を転送する。 我々はTNBCとMonuSegの2種類の乳がん組織像データセットに対するアプローチを検証し,最先端の手法と比較して高いセグメンテーション性能を示した。 提案したモデルのコードはhttps://github.com/AyushRoy2001/GRU-Net.comで公開されている。

Breast cancer is a major global health concern. Pathologists face challenges in analyzing complex features from pathological images, which is a time-consuming and labor-intensive task. Therefore, efficient computer-based diagnostic tools are needed for early detection and treatment planning. This paper presents a modified version of MultiResU-Net for histopathology image segmentation, which is selected as the backbone for its ability to analyze and segment complex features at multiple scales and ensure effective feature flow via skip connections. The modified version also utilizes the Gaussian distribution-based Attention Module (GdAM) to incorporate histopathology-relevant text information in a Gaussian distribution. The sampled features from the Gaussian text feature-guided distribution highlight specific spatial regions based on prior knowledge. Finally, using the Controlled Dense Residual Block (CDRB) on skip connections of MultiResU-Net, the information is transferred from the encoder layers to the decoder layers in a controlled manner using a scaling parameter derived from the extracted spatial features. We validate our approach on two diverse breast cancer histopathology image datasets: TNBC and MonuSeg, demonstrating superior segmentation performance compared to state-of-the-art methods. The code for our proposed model is available on https://github.com/AyushRoy2001/GRU-Net.
翻訳日:2024-06-14 22:17:23 公開日:2024-06-12
# 現在のDAOガバナンスの危険性

Perils of current DAO governance ( http://arxiv.org/abs/2406.08605v1 )

ライセンス: Link先を確認
Aida Manzano Kharman, Ben Smyth, (参考訳) DAOガバナンスは現在壊れています。 我々は最先端を調査し、懸念する結論を見出す。 投票、投票、強制は簡単だ。 富裕な支配、分散化は神話である。 敵対的なテイクオーバーはインセンティブを得ている。 投票の秘密は、人間の権利であるにもかかわらず、存在しないか、短命である。 正当性はプライバシーを犠牲にして達成される。 これらのプライバシーに関する懸念は、Vocdoniのガバナンスプロトコルのケーススタディ分析で強調されている。 この研究は2つのコントリビューションを提示している。ひとつは現在のDAOガバナンスプロトコルのレビューであり、もうひとつは脆弱性の例であり、これらが関連するプライバシとセキュリティの脅威を示している。

DAO Governance is currently broken. We survey the state of the art and find worrying conclusions. Vote buying, vote selling and coercion are easy. The wealthy rule, decentralisation is a myth. Hostile take-overs are incentivised. Ballot secrecy is non-existent or short lived, despite being a human right. Verifiablity is achieved at the expense of privacy. These privacy concerns are highlighted with case study analyses of Vocdoni's governance protocol. This work presents two contributions: firstly a review of current DAO governance protocols, and secondly, an illustration of their vulnerabilities, showcasing the privacy and security threats these entail.
翻訳日:2024-06-14 22:17:23 公開日:2024-06-12
# 拡張自然言語生成としてのエンド・ツー・エンド引数マイニング

End-to-End Argument Mining as Augmented Natural Language Generation ( http://arxiv.org/abs/2406.08606v1 )

ライセンス: Link先を確認
Nilmadhab Das, Vishal Choudhary, V. Vijaya Saradhi, Ashish Anand, (参考訳) Argument Mining(AM)は、Argumentative Components(AC)とそれに対応するArgumentative Relations(AR)の識別と抽出を扱う、計算議論の重要な側面である。 多くの先行研究はこれらの問題を複数のサブタスクに分割することで解決した。 そして、利用可能なエンドツーエンドのセットアップは、おもに依存性解析のアプローチに基づいている。 本研究は,Augmented Natural Language (ANL) と呼ばれるラベル付きテキストに議論構造をフレーム化する生成パラダイムに基づく,統一的なエンドツーエンドフレームワークを提案する。 さらに、AMタスクの解決において、さまざまな種類のマーカーが果たす役割についても検討する。 マーカーに基づく微調整戦略を多用し、マーカー知識を生成モデルに組み込むことにより、広範囲にわたる研究を行う。 提案するフレームワークは,最先端(SoTA)モデルに対する競合的な結果を達成し,いくつかのベースラインを上回ります。

Argument Mining (AM) is a crucial aspect of computational argumentation, which deals with the identification and extraction of Argumentative Components (ACs) and their corresponding Argumentative Relations (ARs). Most prior works have solved these problems by dividing them into multiple subtasks. And the available end-to-end setups are mostly based on the dependency parsing approach. This work proposes a unified end-to-end framework based on a generative paradigm, in which the argumentative structures are framed into label-augmented text, called Augmented Natural Language (ANL). Additionally, we explore the role of different types of markers in solving AM tasks. Through different marker-based fine-tuning strategies, we present an extensive study by integrating marker knowledge into our generative model. The proposed framework achieves competitive results to the state-of-the-art (SoTA) model and outperforms several baselines.
翻訳日:2024-06-14 22:17:23 公開日:2024-06-12
# Forget-Retain Objectsの逆転:ロジット差分による効率的なLLMアンラーニングフレームワーク

Reversing the Forget-Retain Objectives: An Efficient LLM Unlearning Framework from Logit Difference ( http://arxiv.org/abs/2406.08607v1 )

ライセンス: Link先を確認
Jiabao Ji, Yujian Liu, Yang Zhang, Gaowen Liu, Ramana Rao Kompella, Sijia Liu, Shiyu Chang, (参考訳) 大規模言語モデル(LLM)がドキュメントから学習する広範な能力を示すにつれ、LLMアンラーニングは、プライバシや著作権などの観点からLLMの懸念に対処する上で、ますます重要な研究領域となっている。 従来のLLMアンラーニングタスクは,(1)対象のLLMが指定した忘れ文書の知識を忘れること,(2)LLMが保持する他の知識を保持すること,(2)少数の保持文書へのアクセスを前提とすること,の2つの目標を含む。 両目標を達成すべく,LLMアンラーニング手法の主流クラスでは,2つの目標が組み合わさった最適化フレームワークを導入している。 本稿では,未学習の目標とは逆の目標,すなわち忘れた文書の記憶と残余の知識の忘れを目標とするアシスタントLSMを導入する,Unlearning from Logit Difference (ULD) という新しい未学習フレームワークを提案する。 ULDは、ターゲットとアシスタントLLMのロジット差を計算することにより、未学習のLLMを導出する。 このような逆の目的は、上記の2つの課題を自然に解決し、トレーニング効率を著しく改善することを示します。 大規模実験により,LLMの全体的な能力を維持しつつ,意図した忘れを効果的に達成し,学習時間を3倍以上に短縮できることが示された。 特に,ToFUベンチマークではモデルユーティリティの0%が失われているのに対して,ベースラインメソッドは平均で17%のユーティリティを犠牲にして,同等の無視品質を実現している。 私たちのコードはhttps://github.com/UCSB-NLP-Chang/ULD.comで公開されます。

As Large Language Models (LLMs) demonstrate extensive capability in learning from documents, LLM unlearning becomes an increasingly important research area to address concerns of LLMs in terms of privacy, copyright, etc. A conventional LLM unlearning task typically involves two goals: (1) The target LLM should forget the knowledge in the specified forget documents, and (2) it should retain the other knowledge that the LLM possesses, for which we assume access to a small number of retain documents. To achieve both goals, a mainstream class of LLM unlearning methods introduces an optimization framework with a combination of two objectives - maximizing the prediction loss on the forget documents while minimizing that on the retain documents, which suffers from two challenges, degenerated output and catastrophic forgetting. In this paper, we propose a novel unlearning framework called Unlearning from Logit Difference (ULD), which introduces an assistant LLM that aims to achieve the opposite of the unlearning goals: remembering the forget documents and forgetting the retain knowledge. ULD then derives the unlearned LLM by computing the logit difference between the target and the assistant LLMs. We show that such reversed objectives would naturally resolve both aforementioned challenges while significantly improving the training efficiency. Extensive experiments demonstrate that our method efficiently achieves the intended forgetting while preserving the LLM's overall capabilities, reducing training time by more than threefold. Notably, our method loses 0% of model utility on the ToFU benchmark, whereas baseline methods may sacrifice 17% of utility on average to achieve comparable forget quality. Our code will be publicly available at https://github.com/UCSB-NLP-Chang/ULD.
翻訳日:2024-06-14 22:17:23 公開日:2024-06-12
# LayeredDoc: レイヤ分離アプローチによるドメイン適応型ドキュメント復元

LayeredDoc: Domain Adaptive Document Restoration with a Layer Separation Approach ( http://arxiv.org/abs/2406.08610v1 )

ライセンス: Link先を確認
Maria Pilligua, Nil Biescas, Javier Vazquez-Corral, Josep Lladós, Ernest Valveny, Sanket Biswas, (参考訳) インテリジェントなドキュメント処理システムの急速な進化は、広範囲な再トレーニングなしに多様なドメインに適応する堅牢なソリューションを要求する。 従来のメソッドは、しばしば変数のドキュメントタイプでフェールし、パフォーマンスが低下する。 このような制約を克服するため,文書画像復元(DIR)システムにおけるドメイン適応性を向上するテキスト・グラフィック・レイヤ分離手法を提案する。 本稿では,2つのレイヤ情報を利用するLayeredDocを提案する。第1のターゲットは粗粒のグラフィックコンポーネントであり,第2のレイヤは機械印刷されたテキストコンテンツを洗練する。 この階層的DIRフレームワークは、入力文書の特性を動的に調整し、効果的なドメイン適応を容易にする。 本研究では,本研究のために開発された新しい実世界のデータセットであるLayeredDocDBを用いて,定性的かつ定量的にアプローチを評価した。 我々のモデルは、当初、合成されたデータセットに基づいて訓練され、DIRタスクの強力な一般化能力を示し、実世界のデータにおける可変性を扱うための有望なソリューションを提供する。 私たちのコードはGitHubからアクセスできます。

The rapid evolution of intelligent document processing systems demands robust solutions that adapt to diverse domains without extensive retraining. Traditional methods often falter with variable document types, leading to poor performance. To overcome these limitations, this paper introduces a text-graphic layer separation approach that enhances domain adaptability in document image restoration (DIR) systems. We propose LayeredDoc, which utilizes two layers of information: the first targets coarse-grained graphic components, while the second refines machine-printed textual content. This hierarchical DIR framework dynamically adjusts to the characteristics of the input document, facilitating effective domain adaptation. We evaluated our approach both qualitatively and quantitatively using a new real-world dataset, LayeredDocDB, developed for this study. Initially trained on a synthetically generated dataset, our model demonstrates strong generalization capabilities for the DIR task, offering a promising solution for handling variability in real-world data. Our code is accessible on GitHub.
翻訳日:2024-06-14 22:17:23 公開日:2024-06-12
# 自己教師付き音声表現はセマンティックよりも音声的

Self-Supervised Speech Representations are More Phonetic than Semantic ( http://arxiv.org/abs/2406.08619v1 )

ライセンス: Link先を確認
Kwanghee Choi, Ankita Pasad, Tomohiko Nakamura, Satoru Fukayama, Karen Livescu, Shinji Watanabe, (参考訳) 自己教師付き音声モデル(S3Ms)は、音声応用の有効なバックボーンとなっている。 様々な分析から、S3Msは言語特性をコードしていることが示唆されている。 本研究では,S3Msで符号化された単語レベルの言語特性について,よりきめ細かい解析を行う。 具体的には、近いホモフォン(音韻的に類似)と同義語(音韻的に類似)の新たなデータセットをキュレートし、S3Mワード表現ペア間の類似度を測定する。 本研究により,S3M表現は意味的類似性よりも連続的かつ顕著に音声的類似性を示すことが明らかとなった。 さらに,Fluent Speech CommandsやSnips Smartlightsなどの広範に使用されている意図分類データセットが,意味的能力を測定するのに適切かどうかを問う。 私たちの単純なベースラインは、単語IDのみを使用して、S3Mベースのモデルを上回る。 このことは我々の発見を裏付けるものであり、これらのデータセットの高得点が必ずしも意味的コンテンツの存在を保証するとは限らないことを示唆している。

Self-supervised speech models (S3Ms) have become an effective backbone for speech applications. Various analyses suggest that S3Ms encode linguistic properties. In this work, we seek a more fine-grained analysis of the word-level linguistic properties encoded in S3Ms. Specifically, we curate a novel dataset of near homophone (phonetically similar) and synonym (semantically similar) word pairs and measure the similarities between S3M word representation pairs. Our study reveals that S3M representations consistently and significantly exhibit more phonetic than semantic similarity. Further, we question whether widely used intent classification datasets such as Fluent Speech Commands and Snips Smartlights are adequate for measuring semantic abilities. Our simple baseline, using only the word identity, surpasses S3M-based models. This corroborates our findings and suggests that high scores on these datasets do not necessarily guarantee the presence of semantic content.
翻訳日:2024-06-14 22:07:36 公開日:2024-06-12
# 音楽による感情操作 - 深層学習型ビジュアルアプローチ

Emotion Manipulation Through Music -- A Deep Learning Interactive Visual Approach ( http://arxiv.org/abs/2406.08623v1 )

ライセンス: Link先を確認
Adel N. Abdalla, Jared Osborne, Razvan Andonie, (参考訳) 音楽は多くの人の感情を喚起します。 我々は,AIツールを用いて歌の感情的内容を操作する新しい方法を提案する。 私たちのゴールは、元のメロディをできるだけそのままにして、望ましい感情を達成することです。 そこで我々は,入力歌をダイメトリックに対立する感情に変換し,この結果をRusselのCircumplexモデルで可視化する対話型パイプラインを構築した。 我々のアプローチは、既存の音楽の感情的内容を変更することを目的とした新しい分野であるセマンティック・マニピュレーション・オブ・ミュージック(Semantic Manipulation of Music)のコンセプト実証である。 我々は、キーやSoundFontのインスツルメンテーション、その他の音楽的特徴に対する修正の精度を評価することができるディープラーニングモデルを設計する。 我々のモデルの精度は、現在の4Q Emotionデータセットの最先端技術とインラインで一致している。 さらなる改良により、この研究は、オンデマンドのカスタム音楽生成、既存の作品の自動リミックス、感情的な進行のために調整された音楽プレイリストに寄与する可能性がある。

Music evokes emotion in many people. We introduce a novel way to manipulate the emotional content of a song using AI tools. Our goal is to achieve the desired emotion while leaving the original melody as intact as possible. For this, we create an interactive pipeline capable of shifting an input song into a diametrically opposed emotion and visualize this result through Russel's Circumplex model. Our approach is a proof-of-concept for Semantic Manipulation of Music, a novel field aimed at modifying the emotional content of existing music. We design a deep learning model able to assess the accuracy of our modifications to key, SoundFont instrumentation, and other musical features. The accuracy of our model is in-line with the current state of the art techniques on the 4Q Emotion dataset. With further refinement, this research may contribute to on-demand custom music generation, the automated remixing of existing work, and music playlists tuned for emotional progression.
翻訳日:2024-06-14 22:07:36 公開日:2024-06-12
# FSBI:周波数強調セルフブレンド画像によるディープフェイク検出

FSBI: Deepfakes Detection with Frequency Enhanced Self-Blended Images ( http://arxiv.org/abs/2406.08625v1 )

ライセンス: Link先を確認
Ahmed Abul Hasanaath, Hamzah Luqman, Raed Katib, Saeed Anwar, (参考訳) ディープフェイク研究の進歩は、人間の目とディープフェイク検出ツールによって検出できないほぼ完璧な操作を生み出した。 近年,映像や映像とディープフェイクを区別する手法がいくつか提案されている。 本稿では、ディープフェイク検出のための周波数拡張自己ブレンド画像(FSBI)アプローチを提案する。 提案手法では、離散ウェーブレット変換(DWT)を用いて、畳み込みネットワークアーキテクチャモデルのトレーニングに使用する自己組織化画像(SBI)から識別特徴を抽出する。 SBIは画像をブレンドする前に、画像のコピーにいくつかの偽のアーティファクトを導入することで、イメージをそれ自体とブレンドする。 これにより、より汎用的な表現を学ぶことで、分類器が特定のアーティファクトを過度に適合させるのを防ぐことができる。 これらのブレンド画像は、周波数特徴抽出器に入力され、時間領域内で容易に検出できないアーティファクトを検出する。 提案手法はFF++とCeleb-DFのデータセットで評価され, 得られた結果から, クロスデータセット評価プロトコルを用いた最先端技術よりも優れていた。

Advances in deepfake research have led to the creation of almost perfect manipulations undetectable by human eyes and some deepfakes detection tools. Recently, several techniques have been proposed to differentiate deepfakes from realistic images and videos. This paper introduces a Frequency Enhanced Self-Blended Images (FSBI) approach for deepfakes detection. This proposed approach utilizes Discrete Wavelet Transforms (DWT) to extract discriminative features from the self-blended images (SBI) to be used for training a convolutional network architecture model. The SBIs blend the image with itself by introducing several forgery artifacts in a copy of the image before blending it. This prevents the classifier from overfitting specific artifacts by learning more generic representations. These blended images are then fed into the frequency features extractor to detect artifacts that can not be detected easily in the time domain. The proposed approach has been evaluated on FF++ and Celeb-DF datasets and the obtained results outperformed the state-of-the-art techniques with the cross-dataset evaluation protocol.
翻訳日:2024-06-14 22:07:36 公開日:2024-06-12
# Time-MMD:時系列解析のための新しいマルチドメインマルチモーダルデータセット

Time-MMD: A New Multi-Domain Multimodal Dataset for Time Series Analysis ( http://arxiv.org/abs/2406.08627v1 )

ライセンス: Link先を確認
Haoxin Liu, Shangqing Xu, Zhiyuan Zhao, Lingkai Kong, Harshavardhan Kamarthi, Aditya B. Sasanur, Megha Sharma, Jiaming Cui, Qingsong Wen, Chao Zhang, B. Aditya Prakash, (参考訳) 時系列データは、広範囲の現実世界のドメインにまたがってユビキタスである。 実世界の時系列分析(TSA)では、人間の専門家が数値データとマルチモーダルなドメイン固有知識を統合する必要があるが、既存のTSAモデルは数値データにのみ依存しており、数値列を超えた情報の重要性を見越している。 この監視は、テキスト系列データの未使用の可能性と、包括的で高品質なマルチモーダルデータセットが欠如しているためである。 この障害を克服するために、9つの主要なデータ領域をカバーする最初のマルチドメインマルチモーダル時系列データセットであるTime-MMDを導入する。 Time-MMDは微粒なモダリティアライメントを確保し、データの汚染を排除し、高いユーザビリティを提供する。 さらに,TSFライブラリとして最初のマルチモーダル時系列予測ライブラリであるMM-TSFlibを開発した。 MM-TSFlib を用いた Time-MMD で行った大規模な実験では,マルチモーダル TSF をマルチモーダルに拡張し,平均2乗誤差を 15% 以上削減し,リッチテキストデータを持つ領域で最大40% の精度向上を実証した。 さらに重要なのは、私たちのデータセットとライブラリが、TSAを前進させるための広範なアプリケーション、影響、研究トピックに革命をもたらしています。 データセットとライブラリはhttps://github.com/AdityaLab/Time-MMDとhttps://github.com/AdityaLab/MM-TSFlibで入手できる。

Time series data are ubiquitous across a wide range of real-world domains. While real-world time series analysis (TSA) requires human experts to integrate numerical series data with multimodal domain-specific knowledge, most existing TSA models rely solely on numerical data, overlooking the significance of information beyond numerical series. This oversight is due to the untapped potential of textual series data and the absence of a comprehensive, high-quality multimodal dataset. To overcome this obstacle, we introduce Time-MMD, the first multi-domain, multimodal time series dataset covering 9 primary data domains. Time-MMD ensures fine-grained modality alignment, eliminates data contamination, and provides high usability. Additionally, we develop MM-TSFlib, the first multimodal time-series forecasting (TSF) library, seamlessly pipelining multimodal TSF evaluations based on Time-MMD for in-depth analyses. Extensive experiments conducted on Time-MMD through MM-TSFlib demonstrate significant performance enhancements by extending unimodal TSF to multimodality, evidenced by over 15% mean squared error reduction in general, and up to 40% in domains with rich textual data. More importantly, our datasets and library revolutionize broader applications, impacts, research topics to advance TSA. The dataset and library are available at https://github.com/AdityaLab/Time-MMD and https://github.com/AdityaLab/MM-TSFlib.
翻訳日:2024-06-14 22:07:36 公開日:2024-06-12
# 機械学習地球系モデルにおける結合海洋大気力学

Coupled Ocean-Atmosphere Dynamics in a Machine Learning Earth System Model ( http://arxiv.org/abs/2406.08632v1 )

ライセンス: Link先を確認
Chenggong Wang, Michael S. Pritchard, Noah Brenowitz, Yair Cohen, Boris Bonev, Thorsten Kurth, Dale Durran, Jaideep Pathak, (参考訳) 季節的な気候予測は、極端な気象イベントの影響を管理し、農業やエネルギーといった分野における計画を立てるために社会経済的に重要である。 季節的時間スケールの気候予測可能性は、海洋の大気に対する境界効果と海洋-大気系の相互作用に結びついている。 自動回帰型球状フーリエニューラルオペレーターアーキテクチャを用いて,海洋と大気の動態を個別にモデル化する,高分解能(0.25{\deg})人工知能/機械学習(AI/ML)結合土系モデルであるOla(Ola)モデルを提案する。 その結果,Olaは熱帯の海洋波を含む海洋と大気を結合した動特性を学習し,内部で生成したElNi\~no/Southern Oscillation (ENSO) が海混合層内の現実的な振幅,地理的構造,垂直構造を持つことがわかった。 本研究では,地球物理流体力学研究所のSPEARモデルと比較した。

Seasonal climate forecasts are socioeconomically important for managing the impacts of extreme weather events and for planning in sectors like agriculture and energy. Climate predictability on seasonal timescales is tied to boundary effects of the ocean on the atmosphere and coupled interactions in the ocean-atmosphere system. We present the Ocean-linked-atmosphere (Ola) model, a high-resolution (0.25{\deg}) Artificial Intelligence/ Machine Learning (AI/ML) coupled earth-system model which separately models the ocean and atmosphere dynamics using an autoregressive Spherical Fourier Neural Operator architecture, with a view towards enabling fast, accurate, large ensemble forecasts on the seasonal timescale. We find that Ola exhibits learned characteristics of ocean-atmosphere coupled dynamics including tropical oceanic waves with appropriate phase speeds, and an internally generated El Ni\~no/Southern Oscillation (ENSO) having realistic amplitude, geographic structure, and vertical structure within the ocean mixed layer. We present initial evidence of skill in forecasting the ENSO which compares favorably to the SPEAR model of the Geophysical Fluid Dynamics Laboratory.
翻訳日:2024-06-14 22:07:36 公開日:2024-06-12
# 移行談話におけるコードミキシングパターンの解明:Redditにおけるオンライン会話の自動検出と分析

Unraveling Code-Mixing Patterns in Migration Discourse: Automated Detection and Analysis of Online Conversations on Reddit ( http://arxiv.org/abs/2406.08633v1 )

ライセンス: Link先を確認
Fedor Vitiugin, Sunok Lee, Henna Paakki, Anastasiia Chizhikova, Nitin Sawhney, (参考訳) グローバルな移民パターンの急激な増加は、移民をホストコミュニティにシームレスに統合し、包括的で信頼できる公共サービスを必要とすることの衝動を浮き彫りにしている。 北欧諸国の堅牢な公共セクター基盤にもかかわらず、近年の移民はしばしばこれらのサービスへのアクセスの障壁に遭遇し、社会的格差を悪化させ、信頼を損なう。 この取り組みでは、デジタル不平等と言語的多様性に対処することが最重要である。 本稿では,Reddit などのソーシャルメディアプラットフォームにおける移動関連談話における多言語話者間のコミュニケーション戦略である Code-mixing の利用について検討する。 本稿では,移動に関する議論において,コードミキシングされたメッセージを自動的に検出する新しいアプローチであるELMICT(Ensemble Learning for Multilingual Identification of Code-mixed Texts)を提案する。 ELMICTは、複数のトークンの出力と事前訓練された言語モデルを組み合わせるためのアンサンブル学習技術を活用し、様々な言語や文脈、特に言語間のゼロショット条件(F1以上の0.70)におけるコードミキシングの識別において、高いパフォーマンス(F1が0.95以上)を示す。 さらに、EMMICTの利用は、Redditの他のテーマカテゴリと比較して、マイグレーション関連スレッドにおけるコードミキシングの頻度を分析し、移民コミュニティへの関心事に光を当てる助けとなる。 以上の結果から,ソーシャルメディアプラットフォーム上での移民のコミュニケーション戦略に関する知見が得られ,包括的デジタル公共サービスや会話システムの発展に寄与することが示唆された。 本研究は,移動談話における言語多様性の理解に寄与し,多文化社会における信頼構築のためのより効果的なツールの開発に寄与する。

The surge in global migration patterns underscores the imperative of integrating migrants seamlessly into host communities, necessitating inclusive and trustworthy public services. Despite the Nordic countries' robust public sector infrastructure, recent immigrants often encounter barriers to accessing these services, exacerbating social disparities and eroding trust. Addressing digital inequalities and linguistic diversity is paramount in this endeavor. This paper explores the utilization of code-mixing, a communication strategy prevalent among multilingual speakers, in migration-related discourse on social media platforms such as Reddit. We present Ensemble Learning for Multilingual Identification of Code-mixed Texts (ELMICT), a novel approach designed to automatically detect code-mixed messages in migration-related discussions. Leveraging ensemble learning techniques for combining multiple tokenizers' outputs and pre-trained language models, ELMICT demonstrates high performance (with F1 more than 0.95) in identifying code-mixing across various languages and contexts, particularly in cross-lingual zero-shot conditions (with avg. F1 more than 0.70). Moreover, the utilization of ELMICT helps to analyze the prevalence of code-mixing in migration-related threads compared to other thematic categories on Reddit, shedding light on the topics of concern to migrant communities. Our findings reveal insights into the communicative strategies employed by migrants on social media platforms, offering implications for the development of inclusive digital public services and conversational systems. By addressing the research questions posed in this study, we contribute to the understanding of linguistic diversity in migration discourse and pave the way for more effective tools for building trust in multicultural societies.
翻訳日:2024-06-14 22:07:36 公開日:2024-06-12
# 不完全不完全脳腫瘍切片の発見--自動エンコーダとダイバージェンス学習を応用して

Unveiling Incomplete Modality Brain Tumor Segmentation: Leveraging Masked Predicted Auto-Encoder and Divergence Learning ( http://arxiv.org/abs/2406.08634v1 )

ライセンス: Link先を確認
Zhongao Sun, Jiameng Li, Yuhan Wang, Jiarong Cheng, Qing Zhou, Chun Li, (参考訳) 脳腫瘍のセグメンテーションは、特にマルチモーダルMRI(multi-modal magnetic resonance imaging)の文脈では、臨床環境ではモダリティ画像の欠如が一般的であり、セグメンテーションの精度が低下する。 この問題に対処するために,未完成なモダリティデータから頑健な特徴学習を可能にする,マスク付き予測事前学習と呼ばれる新しい戦略を提案する。 さらに、微調整段階では、知識蒸留技術を用いて、完全なモダリティデータと欠落したモダリティデータの間に特徴を整列させ、同時にモデルロバスト性を向上する。 特に,KLDの代わりにホルダーの擬似発散を利用して蒸留損失を減らし,数学的解釈性と特性を向上させる。 BRATS2018とBRATS2020データセットの大規模な実験は、既存の最先端手法と比較して、大幅なパフォーマンス向上を示している。

Brain tumor segmentation remains a significant challenge, particularly in the context of multi-modal magnetic resonance imaging (MRI) where missing modality images are common in clinical settings, leading to reduced segmentation accuracy. To address this issue, we propose a novel strategy, which is called masked predicted pre-training, enabling robust feature learning from incomplete modality data. Additionally, in the fine-tuning phase, we utilize a knowledge distillation technique to align features between complete and missing modality data, simultaneously enhancing model robustness. Notably, we leverage the Holder pseudo-divergence instead of the KLD for distillation loss, offering improve mathematical interpretability and properties. Extensive experiments on the BRATS2018 and BRATS2020 datasets demonstrate significant performance enhancements compared to existing state-of-the-art methods.
翻訳日:2024-06-14 22:07:36 公開日:2024-06-12
# テストタイム予測への個人的知識の統合に向けて

Towards Integrating Personal Knowledge into Test-Time Predictions ( http://arxiv.org/abs/2406.08636v1 )

ライセンス: Link先を確認
Isaac Lage, Sonali Parbhoo, Finale Doshi-Velez, (参考訳) 機械学習(ML)モデルは、大量のデータに基づいて決定を下すことができるが、誰が予測されたかという人間の個人的知識を欠く可能性がある。 例えば、精神医学的な結果を予測するために訓練されたモデルは、患者の社会的サポートシステムについて何も知らないかもしれないし、異なる患者に対して社会的サポートが異なるように見えるかもしれない。 本研究では、ドメイン知識のないユーザからの重要な個人知識をML予測に組み込む方法として、ヒューマン機能統合の問題を紹介する。 我々は、この問題を、説明的なユーザストーリーと既存のアプローチとの比較を通じて特徴付け、この問題を将来の技術的解決の基盤となる方法で正式に記述し、半現実的な設定で、この問題に対するソリューションのシンプルなバージョンに関する概念実証研究を提供する。

Machine learning (ML) models can make decisions based on large amounts of data, but they can be missing personal knowledge available to human users about whom predictions are made. For example, a model trained to predict psychiatric outcomes may know nothing about a patient's social support system, and social support may look different for different patients. In this work, we introduce the problem of human feature integration, which provides a way to incorporate important personal-knowledge from users without domain expertise into ML predictions. We characterize this problem through illustrative user stories and comparisons to existing approaches; we formally describe this problem in a way that paves the ground for future technical solutions; and we provide a proof-of-concept study of a simple version of a solution to this problem in a semi-realistic setting.
翻訳日:2024-06-14 22:07:36 公開日:2024-06-12
# 単セルデータの共変量インフォーム表現を可能にする条件類似トリプレット

Conditional Similarity Triplets Enable Covariate-Informed Representations of Single-Cell Data ( http://arxiv.org/abs/2406.08638v1 )

ライセンス: Link先を確認
Chi-Jane Chen, Haidong Yi, Natalie Stanley, (参考訳) 単細胞技術は、細胞毎の複数の遺伝子またはタンパク質の測定を通じて、多様な免疫細胞型の包括的プロファイリングを可能にする。 免疫プロファイリングアッセイからのデータから強力な診断へと変換するために、機械学習のアプローチは、サンプルごとの免疫学的要約や、興味ある結果のモデルへの入力として使用できる成果化を計算するために用いられる。 現在、サンプルごとの表現を計算するための教師付き学習アプローチは、予測される結果変数のみに基づいて最適化されており、測定される可能性の高い臨床関連共変量を考慮していない。 ここでは、このような患者共変量を考慮した最適化問題を拡張し、学習したサンプルごとの表現を直接通知する。 これを実現するために,CytoCoSetというセットベースの符号化手法を導入し,類似した共変量を持つ三項項のペナル化サンプルをサンプルごとの表現に異なる埋め込み結果を持つことから,損失関数を定式化する。 全体として、臨床共変体を取り入れることで、臨床表現型の予測が改善される。

Single-cell technologies enable comprehensive profiling of diverse immune cell-types through the measurement of multiple genes or proteins per cell. In order to translate data from immune profiling assays into powerful diagnostics, machine learning approaches are used to compute per-sample immunological summaries, or featurizations that can be used as inputs to models for outcomes of interest. Current supervised learning approaches for computing per-sample representations are optimized based only on the outcome variable to be predicted and do not take into account clinically-relevant covariates that are likely to also be measured. Here we expand the optimization problem to also take into account such additional patient covariates to directly inform the learned per-sample representations. To do this, we introduce CytoCoSet, a set-based encoding method, which formulates a loss function with an additional triplet term penalizing samples with similar covariates from having disparate embedding results in per-sample representations. Overall, incorporating clinical covariates leads to improved prediction of clinical phenotypes.
翻訳日:2024-06-14 22:07:36 公開日:2024-06-12
# ML-SUPERB 2.0:制約、言語、データセットをモデル化する多言語音声モデルのベンチマーク

ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets ( http://arxiv.org/abs/2406.08641v1 )

ライセンス: Link先を確認
Jiatong Shi, Shih-Heng Wang, William Chen, Martijn Bartelds, Vanya Bannihatti Kumar, Jinchuan Tian, Xuankai Chang, Dan Jurafsky, Karen Livescu, Hung-yi Lee, Shinji Watanabe, (参考訳) ML-SUPERBは、言語識別と自動音声認識(ASR)のタスクにおいて、自己教師付き学習(SSL)モデルを評価する。 このベンチマークでは、モデルを特徴抽出器として扱い、1つの浅い下流モデルを使用し、下流タスクのために微調整することができる。 しかし、現実世界のユースケースは異なる構成を必要とするかもしれない。 本稿では、ダウンストリームモデル、微調整設定、効率的なモデル適応アプローチを含む、訓練済みSSLおよび教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB~2.0を提案する。 ML-SUPERBのセットアップよりも性能が向上した。 しかし、性能は下流モデル設計に依存します。 また,言語とデータセット間の性能差が大きく,多言語ASRの性能向上に向け,より標的としたアプローチの必要性が示唆された。

ML-SUPERB evaluates self-supervised learning (SSL) models on the tasks of language identification and automatic speech recognition (ASR). This benchmark treats the models as feature extractors and uses a single shallow downstream model, which can be fine-tuned for a downstream task. However, real-world use cases may require different configurations. This paper presents ML-SUPERB~2.0, which is a new benchmark for evaluating pre-trained SSL and supervised speech models across downstream models, fine-tuning setups, and efficient model adaptation approaches. We find performance improvements over the setup of ML-SUPERB. However, performance depends on the downstream model design. Also, we find large performance differences between languages and datasets, suggesting the need for more targeted approaches to improve multilingual ASR performance.
翻訳日:2024-06-14 22:07:36 公開日:2024-06-12
# 脳波信号の完全終端音声復号化に向けて

Toward Fully-End-to-End Listened Speech Decoding from EEG Signals ( http://arxiv.org/abs/2406.08644v1 )

ライセンス: Link先を確認
Jihwan Lee, Aditya Kommineni, Tiantian Feng, Kleanthis Avramidis, Xuan Shi, Sudarsana Kadiri, Shrikanth Narayanan, (参考訳) 脳波信号からの音声復号は、脳活動が音響刺激の健全な特性を推定するためにモデル化される難しい課題である。 脳波信号からの完全エンドツーエンド音声デコーディングのための新しいフレームワークであるFESDEを提案する。 提案手法は,脳波信号による聴取波形を直接再構成することを目的としており,中間音響特徴処理ステップは不要である。 提案手法は,脳波モジュールと音声モジュール,およびコネクタから構成される。 EEGモジュールはEEG信号をより良く表現することを学び、音声モジュールはモデル表現から音声波形を生成する。 コネクタは、脳波と音声の潜在空間の分布をブリッジすることを学ぶ。 提案するフレームワークは,単一ステップの推論を可能にすることで,シンプルかつ効率的であり,従来の客観的な指標よりも優れている。 音声符号化のモデル特性を明らかにするために, きめ細かい音素解析を行った。 ソースコードは、github.com/lee-jhwn/fesdeで入手できる。

Speech decoding from EEG signals is a challenging task, where brain activity is modeled to estimate salient characteristics of acoustic stimuli. We propose FESDE, a novel framework for Fully-End-to-end Speech Decoding from EEG signals. Our approach aims to directly reconstruct listened speech waveforms given EEG signals, where no intermediate acoustic feature processing step is required. The proposed method consists of an EEG module and a speech module along with a connector. The EEG module learns to better represent EEG signals, while the speech module generates speech waveforms from model representations. The connector learns to bridge the distributions of the latent spaces of EEG and speech. The proposed framework is both simple and efficient, by allowing single-step inference, and outperforms prior works on objective metrics. A fine-grained phoneme analysis is conducted to unveil model characteristics of speech decoding. The source code is available here: github.com/lee-jhwn/fesde.
翻訳日:2024-06-14 22:07:36 公開日:2024-06-12
# MOTI$\mathcal{VE}$:インダクティブリンク予測のためのドラッグ・ターゲット相互作用グラフ

MOTI$\mathcal{VE}$: A Drug-Target Interaction Graph For Inductive Link Prediction ( http://arxiv.org/abs/2406.08649v1 )

ライセンス: Link先を確認
John Arevalo, Ellen Su, Anne E Carpenter, Shantanu Singh, (参考訳) 薬物-標的相互作用(DTI)予測は、新しい治療法を特定し、行動のメカニズムを検出するために重要である。 構造に基づく手法は、薬物とタンパク質標的との物理的相互作用を正確にモデル化するが、細胞ペイントのような細胞に基づくアッセイは複雑なDTI相互作用をより正確に捉えることができる。 本稿では,MOTI$\mathcal{VE}$,Morphological cOmpound Target Interaction Graph データセットを紹介する。 我々は、現実的なユースケース下で厳密な評価を可能にするために、ランダム、コールドソース(新薬)、コールドターゲット(新遺伝子)データを分割する。 ベンチマークの結果,セルペイント機能を用いたグラフニューラルネットワークは,グラフ構造のみから学習した者,特徴ベースモデル,トポロジカルヒューリスティックスを一貫して上回っていることがわかった。 MOTI$\mathcal{VE}$は、より信頼性の高いDTI予測モデルの開発を促進することにより、グラフML研究と薬物発見の両方を加速する。 MOTI$\mathcal{VE}$ resourcesはhttps://github.com/carpenter-singh-lab/motive.comから入手できる。

Drug-target interaction (DTI) prediction is crucial for identifying new therapeutics and detecting mechanisms of action. While structure-based methods accurately model physical interactions between a drug and its protein target, cell-based assays such as Cell Painting can better capture complex DTI interactions. This paper introduces MOTI$\mathcal{VE}$, a Morphological cOmpound Target Interaction Graph dataset that comprises Cell Painting features for $11,000$ genes and $3,600$ compounds along with their relationships extracted from seven publicly available databases. We provide random, cold-source (new drugs), and cold-target (new genes) data splits to enable rigorous evaluation under realistic use cases. Our benchmark results show that graph neural networks that use Cell Painting features consistently outperform those that learn from graph structure alone, feature-based models, and topological heuristics. MOTI$\mathcal{VE}$ accelerates both graph ML research and drug discovery by promoting the development of more reliable DTI prediction models. MOTI$\mathcal{VE}$ resources are available at https://github.com/carpenter-singh-lab/motive.
翻訳日:2024-06-14 22:07:36 公開日:2024-06-12
# 認証写真からAI生成画像の識別方法

How to Distinguish AI-Generated Images from Authentic Photographs ( http://arxiv.org/abs/2406.08651v1 )

ライセンス: Link先を確認
Negar Kamali, Karyn Nakamura, Angelos Chatzimparmpas, Jessica Hullman, Matthew Groh, (参考訳) Midjourney、Stable Diffusion、Fireflyのような最先端の拡散モデルにおける高レベルのフォトリアリズムは、訓練されていない人間が実際の写真とAI生成画像とを区別することが困難になる。 この問題に対処するため、私たちは読者がAI生成画像にしばしば現れるアーティファクト、不整合、不確実性を特定するための、より批判的な視点の開発を支援するガイドを設計した。 このガイドは、解剖学、構造学、機能学、物理学の違反、社会文化の5つのカテゴリに分けられる。 本ガイドでは,拡散モデルを用いて128枚の画像を生成し,ソーシャルメディアから9枚の画像をキュレートし,42枚の実写写真をキュレートした。 これらの画像は、画像がAI生成される可能性への疑念を喚起する手がかりの類型を示しており、画像内のピクセルを超えてコンテキストなしで、画像の証明に関する結論を導き出すことがしばしば困難である理由を示している。 人間の知覚可能なアーティファクトは、必ずしもAI生成画像に存在しているわけではないが、このガイドは、しばしば現れるアーティファクトと不確実性を明らかにする。 この種のアーティファクトや不確実性に注意を向けることで、将来的には、AI生成画像と実際の写真とをより適切に区別することを目指している。

The high level of photorealism in state-of-the-art diffusion models like Midjourney, Stable Diffusion, and Firefly makes it difficult for untrained humans to distinguish between real photographs and AI-generated images. To address this problem, we designed a guide to help readers develop a more critical eye toward identifying artifacts, inconsistencies, and implausibilities that often appear in AI-generated images. The guide is organized into five categories of artifacts and implausibilities: anatomical, stylistic, functional, violations of physics, and sociocultural. For this guide, we generated 138 images with diffusion models, curated 9 images from social media, and curated 42 real photographs. These images showcase the kinds of cues that prompt suspicion towards the possibility an image is AI-generated and why it is often difficult to draw conclusions about an image's provenance without any context beyond the pixels in an image. Human-perceptible artifacts are not always present in AI-generated images, but this guide reveals artifacts and implausibilities that often emerge. By drawing attention to these kinds of artifacts and implausibilities, we aim to better equip people to distinguish AI-generated images from real photographs in the future.
翻訳日:2024-06-14 22:07:36 公開日:2024-06-12
# 2次元における大規模スピン軌道フォトニック回路

Large-scale spin-orbit photonic circuits in two dimensions ( http://arxiv.org/abs/2406.08652v1 )

ライセンス: Link先を確認
Maria Gorizia Ammendola, Francesco Di Colandrea, Lorenzo Marrucci, Filippo Cardano, (参考訳) 光回路は、特定の地図に従って入力モードと出力モードを接続する光学プラットフォームであり、光の古典状態と量子状態の両方に有効な光学プロセッサとして機能する。 光素子の数は一般に処理モードとスケールし、システムサイズ、回路の複雑さ、光学損失と直接相関する。 本稿では,大規模ユニタリマップを実装したフォトニック回路技術について述べる。 この地図は、複雑なパターンで人工的に構築された光学軸の局所的な配向を持つ3つの液体-結晶準曲面における光伝播を通じて実験的に実現された構造化光子の量子ウォークの結果に対応する。 理論的には、歩行長と接続モードの数は任意であり、光学的損失は一定である。 パターンは複数のユニタリマップを正確に再現するように設計することができる。 また、3つの光学素子の全体的な複屈折率と相対変位を調整することで、制限された再構成可能性についても論じる。 これらの結果は、主に真に量子状態の多光子状態を操作するために、より広いユニタリマップをターゲットとする低損失フォトニック回路の設計の基礎となる。

Photonic circuits, optical platforms that connect input and output modes according to a specific map, serve as effective optical processors for both classical and quantum states of light. The number of optical elements typically scales with that of processed modes, leading to a direct correlation between system size, circuit complexity, and optical losses. Here we present a photonic circuit technology implementing large-scale unitary maps, linking a single input to hundreds of output modes in a two-dimensional compact layout. The map corresponds to the outcome of a quantum walk of structured photons, realized experimentally through light propagation in three liquid-crystal metasurfaces, having the local orientation of optic axes artificially engineered in a complex pattern. Theoretically, the walk length and the number of connected modes can be arbitrary, keeping optical losses constant. The patterns can be designed to accurately replicate multiple unitary maps. We also discuss limited reconfigurability by adjusting the overall birefringence and the relative displacement of the three optical elements. These results lay the basis for the design of low-loss photonic circuits that target a broader range of unitary maps, primarily for manipulating multi-photon states in genuinely quantum regimes.
翻訳日:2024-06-14 22:07:36 公開日:2024-06-12
# 非均質な2層ネットワークのための大ステップグラディエントDescent:マージン改善と高速最適化

Large Stepsize Gradient Descent for Non-Homogeneous Two-Layer Networks: Margin Improvement and Fast Optimization ( http://arxiv.org/abs/2406.08654v1 )

ライセンス: Link先を確認
Yuhang Cai, Jingfeng Wu, Song Mei, Michael Lindsey, Peter L. Bartlett, (参考訳) ロジスティック損失下での大きな段差勾配降下(GD)を用いたニューラルネットワークの典型的な訓練は、2つの異なる位相を伴い、経験的リスクは第1フェーズで発振するが、第2フェーズでは単調に減少する。 ほぼ均一条件を満たす2層ネットワークにおけるこの現象について検討する。 第2フェーズは、経験的リスクが一定の閾値以下に落ちてから始まり、ステップサイズに依存することを示す。 さらに、正規化マージンは第2相においてほぼ単調に成長し、非均一予測器のトレーニングにおいてGDの暗黙の偏りを示す。 データセットが線形分離可能であり、活性化関数の微分がゼロから離れた場合、平均的な経験的リスクは減少し、第1フェーズは有限ステップで停止しなければならないことを示す。 最後に、この位相遷移を行うGDは、適度に大きなステップサイズを選択することで、GDよりも効率が良く、単調にリスクを減少させることを示した。 我々の分析は、よく知られたニューラルネットワークカーネルや平均場状態を超えて、あらゆる幅のネットワークに適用できる。

The typical training of neural networks using large stepsize gradient descent (GD) under the logistic loss often involves two distinct phases, where the empirical risk oscillates in the first phase but decreases monotonically in the second phase. We investigate this phenomenon in two-layer networks that satisfy a near-homogeneity condition. We show that the second phase begins once the empirical risk falls below a certain threshold, dependent on the stepsize. Additionally, we show that the normalized margin grows nearly monotonically in the second phase, demonstrating an implicit bias of GD in training non-homogeneous predictors. If the dataset is linearly separable and the derivative of the activation function is bounded away from zero, we show that the average empirical risk decreases, implying that the first phase must stop in finite steps. Finally, we demonstrate that by choosing a suitably large stepsize, GD that undergoes this phase transition is more efficient than GD that monotonically decreases the risk. Our analysis applies to networks of any width, beyond the well-known neural tangent kernel and mean-field regimes.
翻訳日:2024-06-14 22:07:36 公開日:2024-06-12
# TC-Bench: テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成における時間構成性のベンチマーク

TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation ( http://arxiv.org/abs/2406.08656v1 )

ライセンス: Link先を確認
Weixi Feng, Jiachen Li, Michael Saxon, Tsu-jui Fu, Wenhu Chen, William Yang Wang, (参考訳) ビデオ生成には、画像生成以上の多くのユニークな課題がある。 時間次元は、フレーム間の広範なバリエーションを導入し、その上で一貫性と連続性に反する可能性がある。 本研究では、単純な行動を評価することを超えて、生成したビデオは、時間経過とともに現実のビデオのように、新しい概念の出現とそれらの関係の遷移を取り入れるべきである、と論じる。 ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。 プロンプトはシーンの初期状態と最終状態を明確にし、フレーム開発における曖昧さを効果的に低減し、遷移完了の評価を簡素化する。 さらに,プロンプトに対応する実世界の映像を収集することにより,TC-Benchの適用性をテキスト条件モデルから生成フレーム補間が可能な画像条件モデルに拡張する。 また、生成ビデオにおけるコンポーネント遷移の完全性を測定するための新しい指標を開発し、既存の指標よりも人間の判断との相関が著しく高いことを示す。 総括的な実験結果から,ほとんどのビデオジェネレータは構成変化の20%未満を達成でき,将来的な改善のための膨大な空間を浮き彫りにしていることがわかった。 分析の結果、現在のビデオ生成モデルは、構成変化の記述を解釈し、異なる時間ステップで様々な成分を合成するのに苦労していることがわかった。

Video generation has many unique challenges beyond those of image generation. The temporal dimension introduces extensive possible variations across frames, over which consistency and continuity may be violated. In this study, we move beyond evaluating simple actions and argue that generated videos should incorporate the emergence of new concepts and their relation transitions like in real-world videos as time progresses. To assess the Temporal Compositionality of video generation models, we propose TC-Bench, a benchmark of meticulously crafted text prompts, corresponding ground truth videos, and robust evaluation metrics. The prompts articulate the initial and final states of scenes, effectively reducing ambiguities for frame development and simplifying the assessment of transition completion. In addition, by collecting aligned real-world videos corresponding to the prompts, we expand TC-Bench's applicability from text-conditional models to image-conditional ones that can perform generative frame interpolation. We also develop new metrics to measure the completeness of component transitions in generated videos, which demonstrate significantly higher correlations with human judgments than existing metrics. Our comprehensive experimental results reveal that most video generators achieve less than 20% of the compositional changes, highlighting enormous space for future improvement. Our analysis indicates that current video generation models struggle to interpret descriptions of compositional changes and synthesize various components across different time steps.
翻訳日:2024-06-14 21:57:45 公開日:2024-06-12
# Mistral-C2F:RLHFおよび実効化LDMにおける分析・推論強化のための微粒化アクターの粗大化

Mistral-C2F: Coarse to Fine Actor for Analytical and Reasoning Enhancement in RLHF and Effective-Merged LLMs ( http://arxiv.org/abs/2406.08657v1 )

ライセンス: Link先を確認
Chen Zheng, Ke Sun, Xun Zhou, (参考訳) LLM(Large Language Models)の進歩にもかかわらず、GPT-4やClaudeのようなモデルによって実証されているが、LlamaやMistralのような小規模のLLMは、深度と一貫性のある対話を生成するのにしばしば苦労している。 本稿では,LLMの会話的・分析的能力に固有の制約に対処する,2段階の2段階の粗悪なアクタモデルを提案する。 当社のアプローチはポリシベースの粗いアクタから始まり、"連続的な最大化"というテクニックを採用しています。 粗いアクターは、分析と推論において人間の好みのスタイルと整合し、知識に富んだ拡張されたプールを確立する。 RLHFプロセスを通じて、出力長制限を動的かつ適応的に拡張し、より詳細で分析的なコンテンツを生成する戦略であるContinuous Maximizationを採用している。 その後、ファインアクターはこの分析内容を洗練し、粗いアクターからの過度に冗長な情報の生成に対処する。 我々は、粗悪なアクターからのコンテンツを洗練し、既存のインストラクションモデルとマージして、品質、正確性、冗長性を向上する「知識残留マーガー」アプローチを導入する。 提案手法をMistral-C2Fモデルに適用し,11の言語タスクとMT-Benchダイアログタスクにおいて例外的な性能を示し,類似のスケールモデルや,13Bおよび30Bパラメータを持つ大規模モデルよりも優れていた。 本モデルでは,対話的推論能力と分析的推論能力を大幅に改善した。

Despite the advances in Large Language Models (LLMs), exemplified by models like GPT-4 and Claude, smaller-scale LLMs such as Llama and Mistral often struggle with generating in-depth and coherent dialogues. This paper presents a novel two-step Coarse-to-Fine Actor model to address the inherent limitations in conversational and analytical capabilities of small-sized LLMs. Our approach begins with the Policy-based Coarse Actor, employing a technique we term "Continuous Maximization". The Coarse Actor establishes an enhanced, knowledge-rich pool adept at aligning with human preference styles in analysis and reasoning. Through the RLHF process, it employs Continuous Maximization, a strategy that dynamically and adaptively extends the output length limit, enabling the generation of more detailed and analytical content. Subsequently, the Fine Actor refines this analytical content, addressing the generation of excessively redundant information from the Coarse Actor. We introduce a "Knowledge Residue Merger" approach, refining the content from the Coarse Actor and merging it with an existing Instruction model to improve quality, correctness, and reduce redundancies. We applied our methodology to the popular Mistral model, creating Mistral-C2F, which has demonstrated exceptional performance across 11 general language tasks and the MT-Bench Dialogue task, outperforming similar-scale models and even larger models with 13B and 30B parameters. Our model has significantly improved conversational and analytical reasoning abilities.
翻訳日:2024-06-14 21:57:45 公開日:2024-06-12
# 高次元空間におけるスパース特徴の学習にはプルーニングが最適である

Pruning is Optimal for Learning Sparse Features in High-Dimensions ( http://arxiv.org/abs/2406.08658v1 )

ライセンス: Link先を確認
Nuri Mert Vural, Murat A. Erdogdu, (参考訳) ネットワークを一定程度の間隔で切断することは特徴の質を向上させることができるが、この現象の理論的説明はいまだに解明されていない。 本研究では,高次元の勾配降下で訓練されたプルーニングニューラルネットワークを用いて,広範囲の統計モデルが最適に学習可能であることを示す。 i = \sigma^*(\boldsymbol{V}^{\top} \boldsymbol{x}) + \epsilon$, ここで、$\sigma^*$ は次数-$p$多項式であり、$\boldsymbol{V} \in \mathbbm{R}^{d \times r}$ は $r \ll d$ の行列である。 我々は、$\boldsymbol{V}$が行列に対してある$\ell_q$-sparsity条件を満たすことを仮定し、$\boldsymbol{V}$のスパーシリティレベルに比例するプルーニングニューラルネットワークが、未切断のネットワークと比較してサンプルの複雑さを改善することを示す。 さらに、この設定において相関統計クエリ(CSQ)の下位境界を定め、これは$\boldsymbol{V}$のスパーシリティレベルを考慮に入れている。 そこで, 勾配勾配勾配法により, $\boldsymbol{V}$ のスパーシリティレベルが一定の閾値を超えると, CSQ の下位境界によって提案されるサンプル複雑性が達成されることを示す。 しかし、同じシナリオでは、回転不変なランダムな重み付き初期化によって訓練された標準勾配勾配によるモデルのような基底非依存の手法は、最適なサンプルの複雑さしか達成できないことが示唆されている。

While it is commonly observed in practice that pruning networks to a certain level of sparsity can improve the quality of the features, a theoretical explanation of this phenomenon remains elusive. In this work, we investigate this by demonstrating that a broad class of statistical models can be optimally learned using pruned neural networks trained with gradient descent, in high-dimensions. We consider learning both single-index and multi-index models of the form $y = \sigma^*(\boldsymbol{V}^{\top} \boldsymbol{x}) + \epsilon$, where $\sigma^*$ is a degree-$p$ polynomial, and $\boldsymbol{V} \in \mathbbm{R}^{d \times r}$ with $r \ll d$, is the matrix containing relevant model directions. We assume that $\boldsymbol{V}$ satisfies a certain $\ell_q$-sparsity condition for matrices and show that pruning neural networks proportional to the sparsity level of $\boldsymbol{V}$ improves their sample complexity compared to unpruned networks. Furthermore, we establish Correlational Statistical Query (CSQ) lower bounds in this setting, which take the sparsity level of $\boldsymbol{V}$ into account. We show that if the sparsity level of $\boldsymbol{V}$ exceeds a certain threshold, training pruned networks with a gradient descent algorithm achieves the sample complexity suggested by the CSQ lower bound. In the same scenario, however, our results imply that basis-independent methods such as models trained via standard gradient descent initialized with rotationally invariant random weights can provably achieve only suboptimal sample complexity.
翻訳日:2024-06-14 21:57:44 公開日:2024-06-12
# Vivid-ZOO:拡散モデルによるマルチビュー映像生成

Vivid-ZOO: Multi-View Video Generation with Diffusion Model ( http://arxiv.org/abs/2406.08659v1 )

ライセンス: Link先を確認
Bing Li, Cheng Zheng, Wenxuan Zhu, Jinjie Mai, Biao Zhang, Peter Wonka, Bernard Ghanem, (参考訳) 拡散モデルは2次元画像/ビデオ生成において顕著な性能を示したが、拡散に基づくテキスト・ツー・マルチビュー・ビデオ(T2MVid)生成はいまだ探索されていない。 T2MVid生成による新たな課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布のモデル化の複雑さにある。 そこで本研究では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。 具体的には、T2MVid問題を視点空間と時間成分に分解する。 このような因子化により、先進的な事前学習されたマルチビュー画像と2次元ビデオ拡散モデルの層を組み合わせ再利用することで、生成したマルチビュービデオの時間的コヒーレンスを確保し、トレーニングコストを大幅に削減することができる。 さらに,事前学習したマルチビューと2次元ビデオ拡散モデルから,2次元データとマルチビューデータの領域ギャップから生じる再利用されたレイヤの不整合性に対処するアライメントモジュールを導入する。 これと今後の研究を支援するために、キャプション付きマルチビュービデオデータセットをさらに提供します。 実験により,様々なテキストプロンプトが与えられた場合,高画質なマルチビュービデオが生成され,鮮明な動き,時間的コヒーレンス,多視点一貫性が示された。

While diffusion models have shown impressive performance in 2D image/video generation, diffusion-based Text-to-Multi-view-Video (T2MVid) generation remains underexplored. The new challenges posed by T2MVid generation lie in the lack of massive captioned multi-view videos and the complexity of modeling such multi-dimensional distribution. To this end, we propose a novel diffusion-based pipeline that generates high-quality multi-view videos centered around a dynamic 3D object from text. Specifically, we factor the T2MVid problem into viewpoint-space and time components. Such factorization allows us to combine and reuse layers of advanced pre-trained multi-view image and 2D video diffusion models to ensure multi-view consistency as well as temporal coherence for the generated multi-view videos, largely reducing the training cost. We further introduce alignment modules to align the latent spaces of layers from the pre-trained multi-view and the 2D video diffusion models, addressing the reused layers' incompatibility that arises from the domain gap between 2D and multi-view data. In support of this and future research, we further contribute a captioned multi-view video dataset. Experimental results demonstrate that our method generates high-quality multi-view videos, exhibiting vivid motions, temporal coherence, and multi-view consistency, given a variety of text prompts.
翻訳日:2024-06-14 21:57:44 公開日:2024-06-12
# テキスト分類におけるゼロショット生成AIモデルよりも優れた微調整'スモール'LLM(スティル)

Fine-Tuned 'Small' LLMs (Still) Significantly Outperform Zero-Shot Generative AI Models in Text Classification ( http://arxiv.org/abs/2406.08660v1 )

ライセンス: Link先を確認
Martin Juan José Bucher, Marco Martini, (参考訳) Generative AIは、テキスト分類タスク用の小さなBERTスタイルのLLMを微調整する、シンプルでプロンプトベースの代替手段を提供する。 これにより、手動でラベル付けされたトレーニングデータやタスク固有のモデルトレーニングが不要になる。 しかし、ChatGPTのようなツールがこの約束を達成できるかどうかには疑問の余地がある。 本稿では,より小型で微調整のLLMが,テキスト分類において,より大きく,はるかに優れ,ゼロショットの誘導モデルよりも優れていることを示す。 我々は、ChatGPTとGPT-3.5/GPT-4とClaude Opusの3つの主要な生成AIモデルと、さまざまな分類タスク(感性、承認/不承認、感情、パーティーポジション)とテキストカテゴリ(ニュース、ツイート、スピーチ)の微調整LDMを比較した。 アプリケーション固有のトレーニングデータによる微調整は、すべてのケースにおいて優れたパフォーマンスを実現する。 このアプローチをより広く利用できるようにするため,本論文とともに使いやすいツールキットを提供する。 我々のツールキットは,非技術的ステップ・バイ・ステップのガイダンスを伴って,最小限の技術・計算労力で,BERTライクなLCMを任意の分類タスクに対して選択し,微調整することができる。

Generative AI offers a simple, prompt-based alternative to fine-tuning smaller BERT-style LLMs for text classification tasks. This promises to eliminate the need for manually labeled training data and task-specific model training. However, it remains an open question whether tools like ChatGPT can deliver on this promise. In this paper, we show that smaller, fine-tuned LLMs (still) consistently and significantly outperform larger, zero-shot prompted models in text classification. We compare three major generative AI models (ChatGPT with GPT-3.5/GPT-4 and Claude Opus) with several fine-tuned LLMs across a diverse set of classification tasks (sentiment, approval/disapproval, emotions, party positions) and text categories (news, tweets, speeches). We find that fine-tuning with application-specific training data achieves superior performance in all cases. To make this approach more accessible to a broader audience, we provide an easy-to-use toolkit alongside this paper. Our toolkit, accompanied by non-technical step-by-step guidance, enables users to select and fine-tune BERT-like LLMs for any classification task with minimal technical and computational effort.
翻訳日:2024-06-14 21:57:44 公開日:2024-06-12
# 準備・測定シナリオにおける量子状態と測定の最小自己検査に向けて

Towards minimal self-testing of qubit states and measurements in prepare-and-measure scenarios ( http://arxiv.org/abs/2406.08661v1 )

ライセンス: Link先を確認
Gábor Drótos, Károly F. Pál, Abdelmalek Taoutioui, Tamás Vértesi, (参考訳) 自己検査は、量子状態や測定を認証するための有望なアプローチである。 元々は、デバイス非依存(DI)設定に関わる測定結果の統計にのみ依存していた。 システムに関する余分な物理的仮定は、セットアップを半DIにする。 後者では, 中間粒子の寸法を2つと仮定する準備・測定シナリオを考察する。 対象物に加えて4つの(3)準備と3つの(2)投射的測定を含む設定において、線形証人を用いて4つの(3-)結果の極端正の演算子評価尺度を自己検査する方法を例示する。 我々の構成の1つは、対応するブロッホベクトルによって広がる空間の次元性と同じくらい多くの射影測度の助けを借りて、任意の数の状態の自己検定も達成する。 これらの構成は、必要な準備と測定の回数において最小限であると推測されている。 さらに、我々は、IBMおよびIonQ量子プロセッサにおける準備と測定の1つを実装し、これらの実験から得られたデータに基づいて、複素量子ビットヒルベルト空間の存在を証明した。

Self-testing is a promising approach to certifying quantum states or measurements. Originally, it relied solely on the outcome statistics of the measurements involved in a device-independent (DI) setup. Extra physical assumptions about the system make the setup semi-DI. In the latter approach, we consider a prepare-and-measure scenario in which the dimension of the mediating particle is assumed to be two. In a setup involving four (three) preparations and three (two) projective measurements in addition to the target, we exemplify how to self-test any four- (three-) outcome extremal positive operator-valued measure using a linear witness. One of our constructions also achieves self-testing of any number of states with the help of as many projective measurements as the dimensionality of the space spanned by the corresponding Bloch vectors. These constructions are conjectured to be minimal in terms of the number of preparations and measurements required. In addition, we implement one of our prepare-and-measure constructions on IBM and IonQ quantum processors and certify the existence of a complex qubit Hilbert space based on the data obtained from these experiments.
翻訳日:2024-06-14 21:57:44 公開日:2024-06-12
# ニューラルテスト生成のためのデータ拡張としてのファジングの探索

Exploring Fuzzing as Data Augmentation for Neural Test Generation ( http://arxiv.org/abs/2406.08665v1 )

ライセンス: Link先を確認
Yifeng He, Jicheng Wang, Yuyang Rong, Hao Chen, (参考訳) テストは、信頼性のあるプログラムを構築するための、現代のソフトウェアエンジニアリングの重要な部分です。 ソフトウェアのテストは重要だがコストがかかるため、自動テストケース生成手法がソフトウェア開発で人気を集めている。 ファジングのような従来の検索ベースのカバレッジガイド付きテスト生成とは異なり、大きな言語モデルによって支えられたニューラルテスト生成は意味論的に意味があり、他のメンテナによって理解されるテストを記述することができる。 しかしながら、通常のコードコーパスと比較して、データセットの単体テストは量と多様性に制限がある。 本稿では,ファジィ化と大規模言語モデルの利点を組み合わせた新しいデータ拡張手法**FuzzAug*を提案する。 FuzzAugは、拡張データに有効なプログラムセマンティクスを保持するだけでなく、テスト中の関数に対してより多様な入力を提供する。 FuzzAugの利点は、ニューラルテスト生成データセットで利用して、最先端のコード生成モデルをトレーニングすることで評価する。 トレーニングセットを拡大することにより、我々のモデルは、11.%の精度でテストケースを生成します。 FuzzAugでトレーニングされたモデルは、ブランチカバレッジが2倍の単体テスト関数を生成する。 FuzzAugは、さまざまなデータセットにまたがって高度なコード生成モデルをトレーニングし、自動ソフトウェアテストにおける有用性を向上するために使用することができる。 我々の研究は、神経テスト生成を促進するために動的解析結果を使用することの利点を示している。 コードとデータは公開されます。

Testing is an essential part of modern software engineering to build reliable programs. As testing the software is important but expensive, automatic test case generation methods have become popular in software development. Unlike traditional search-based coverage-guided test generation like fuzzing, neural test generation backed by large language models can write tests that are semantically meaningful and can be understood by other maintainers. However, compared to regular code corpus, unit tests in the datasets are limited in amount and diversity. In this paper, we present a novel data augmentation technique **FuzzAug**, that combines the advantages of fuzzing and large language models. FuzzAug not only keeps valid program semantics in the augmented data, but also provides more diverse inputs to the function under test, helping the model to associate correct inputs embedded with the function's dynamic behaviors with the function under test. We evaluate FuzzAug's benefits by using it on a neural test generation dataset to train state-of-the-art code generation models. By augmenting the training set, our model generates test cases with $11\%$ accuracy increases. Models trained with FuzzAug generate unit test functions with double the branch coverage compared to those without it. FuzzAug can be used across various datasets to train advanced code generation models, enhancing their utility in automated software testing. Our work shows the benefits of using dynamic analysis results to enhance neural test generation. Code and data will be publicly available.
翻訳日:2024-06-14 21:57:44 公開日:2024-06-12
# DAG混合系におけるインターベンショナル因果発見

Interventional Causal Discovery in a Mixture of DAGs ( http://arxiv.org/abs/2406.08666v1 )

ライセンス: Link先を確認
Burak Varıcı, Dmitriy Katz-Rogozhnikov, Dennis Wei, Prasanna Sattigeri, Ali Tajer, (参考訳) 変数群間の因果相互作用は、しばしば単一の因果グラフによってモデル化される。 しかし、いくつかの領域では、これらの相互作用は力学系やゲノミクスにおいて、複数の共存因果グラフ(例えば、)によって最もよく説明される。 本稿では,複数の因果系が支配する変数間の因果相互作用の学習における介入の役割について,それぞれが有向非巡回グラフ(DAG)によってモデル化されている。 混合物からの因果発見は、単一DAG因果発見よりも根本的に困難である。 2つの大きな困難は 一 混合物を構成する成分DAGの骨格に固有の不確実性 (II) これらの成分DAG間の環状関係の可能性。 本稿では、これらの課題に対処し、真縁と呼ばれる混合物の少なくとも1つの成分DAGに存在するエッジを特定することを目的とする。 まず、真のエッジを特定するのに必要な介入のサイズについて、必要な条件と十分な条件を確立する。 次に、必要な結果から導かれる適応アルゴリズムは、${\cal O}(n^2)$介入を用いて全ての真のエッジを学習する。 注目すべきは、介入のサイズが、基礎となる混合モデルがコンポーネント全体にわたるサイクルを含まない場合、最適であるということである。 より一般的には、アルゴリズムが使用する介入サイズと最適なサイズとのギャップを定量化する。 混合モデルの循環複雑性数によって有界であることが示され、これは、ノードの祖先のサイクル数によって上界される混合のサイクルを破ることができる最小の介入の大きさとして定義される。

Causal interactions among a group of variables are often modeled by a single causal graph. In some domains, however, these interactions are best described by multiple co-existing causal graphs, e.g., in dynamical systems or genomics. This paper addresses the hitherto unknown role of interventions in learning causal interactions among variables governed by a mixture of causal systems, each modeled by one directed acyclic graph (DAG). Causal discovery from mixtures is fundamentally more challenging than single-DAG causal discovery. Two major difficulties stem from (i) inherent uncertainty about the skeletons of the component DAGs that constitute the mixture and (ii) possibly cyclic relationships across these component DAGs. This paper addresses these challenges and aims to identify edges that exist in at least one component DAG of the mixture, referred to as true edges. First, it establishes matching necessary and sufficient conditions on the size of interventions required to identify the true edges. Next, guided by the necessity results, an adaptive algorithm is designed that learns all true edges using ${\cal O}(n^2)$ interventions, where $n$ is the number of nodes. Remarkably, the size of the interventions is optimal if the underlying mixture model does not contain cycles across its components. More generally, the gap between the intervention size used by the algorithm and the optimal size is quantified. It is shown to be bounded by the cyclic complexity number of the mixture model, defined as the size of the minimal intervention that can break the cycles in the mixture, which is upper bounded by the number of cycles among the ancestors of a node.
翻訳日:2024-06-14 21:57:44 公開日:2024-06-12
# HelpSteer2:トップパフォーマンス報酬モデルのトレーニングのためのオープンソースデータセット

HelpSteer2: Open-source dataset for training top-performing reward models ( http://arxiv.org/abs/2406.08673v1 )

ライセンス: Link先を確認
Zhilin Wang, Yi Dong, Olivier Delalleau, Jiaqi Zeng, Gerald Shen, Daniel Egert, Jimmy J. Zhang, Makesh Narsimhan Sreedhar, Oleksii Kuchaiev, (参考訳) 高品質な嗜好データセットは、人間の嗜好に沿った高品質な応答を生成するために、大きな言語モデル(LLM)を効果的に導くことができる報酬モデルのトレーニングに不可欠である。 LLMはより強力で整合性が高くなり、Open Assistant、HH-RLHF、HelpSteerといったパーミッシブにライセンスされた選好データセットは、報酬モデリングに有効であるように更新する必要がある。 GPT-4のようなプロプライエタリなLCMからの嗜好データを消し去る方法は、モデル提供者によって課される商業的利用を制限する。 生成された応答と属性ラベリングの品質を改善するため、パーミッシブライセンスの選好データセットであるHelpSteer2(CC-BY-4.0)をリリースする。 HelpSteer2でトレーニングされた強力な内部ベースモデルを使用して、2024年6月12日時点で、Reward-BenchのプライマリデータセットのSOTAスコア(92.0%)を達成でき、現在リストされているオープンおよびプロプライエタリモデルを上回るパフォーマンスを実現しています。 注目すべきなのは、HelpSteer2は1万のレスポンスペアで構成されており、既存の好みデータセット(例えばHH-RLHF)よりも桁違いに少ないため、報酬モデルのトレーニングに非常に効率的であることだ。 我々は,HelpSteer2を用いてトレーニングした報酬モデルがLLMの整列に有効であることを示す。 特に,報奨モデルによって予測される多属性スコアを効果的に活用できるモデルアライメント手法であるSteerLM 2.0を提案する。 HelpSteer2はhttps://huggingface.co/datasets/nvidia/HelpSteer2で、コードはhttps://github.com/NVIDIA/NeMo-Alignerで入手できる。

High-quality preference datasets are essential for training reward models that can effectively guide large language models (LLMs) in generating high-quality responses aligned with human preferences. As LLMs become stronger and better aligned, permissively licensed preference datasets, such as Open Assistant, HH-RLHF, and HelpSteer need to be updated to remain effective for reward modeling. Methods that distil preference data from proprietary LLMs such as GPT-4 have restrictions on commercial usage imposed by model providers. To improve upon both generated responses and attribute labeling quality, we release HelpSteer2, a permissively licensed preference dataset (CC-BY-4.0). Using a powerful internal base model trained on HelpSteer2, we are able to achieve the SOTA score (92.0%) on Reward-Bench's primary dataset, outperforming currently listed open and proprietary models, as of June 12th, 2024. Notably, HelpSteer2 consists of only ten thousand response pairs, an order of magnitude fewer than existing preference datasets (e.g., HH-RLHF), which makes it highly efficient for training reward models. Our extensive experiments demonstrate that reward models trained with HelpSteer2 are effective in aligning LLMs. In particular, we propose SteerLM 2.0, a model alignment approach that can effectively make use of the rich multi-attribute score predicted by our reward models. HelpSteer2 is available at https://huggingface.co/datasets/nvidia/HelpSteer2 and code is available at https://github.com/NVIDIA/NeMo-Aligner
翻訳日:2024-06-14 21:57:44 公開日:2024-06-12
# 量子ダイナミクスのためのマルチ参照量子ダビッドソンアルゴリズム

Multi-reference Quantum Davidson Algorithm for Quantum Dynamics ( http://arxiv.org/abs/2406.08675v1 )

ライセンス: Link先を確認
Noah Berthusen, Faisal Alam, Yu Zhang, (参考訳) 量子システムのシミュレーションは、量子コンピューティングが古典的コンピューティングを上回る可能性がある最も有望なタスクの1つである。 しかし、中~大規模システムの信頼性シミュレーションに必要な堅牢性は、既存の量子デバイスの範囲を超えている。 これを解決するために、Quantum Krylov Subspace (QKS) 法が開発され、ノイズの多い中間スケール量子コンピュータ上で加速シミュレーションを行う能力が向上した。 本研究では,多体系の基底状態と励起状態を決定する新しい手法であるQDavidsonアルゴリズムから導出した2つのQKS手法を導入・評価する。 実時間または虚時間進化を通じてクリロフ部分空間を前生成する他のQKS法とは異なり、QDavidsonはクリロフ部分空間に基底ベクトルを反復的に加える。 この反復過程は、より少ないイテレーションで高速な収束を可能にし、より浅い回路深さを必要とする。

Simulating quantum systems is one of the most promising tasks where quantum computing can potentially outperform classical computing. However, the robustness needed for reliable simulations of medium to large systems is beyond the reach of existing quantum devices. To address this, Quantum Krylov Subspace (QKS) methods have been developed, enhancing the ability to perform accelerated simulations on noisy intermediate-scale quantum computers. In this study, we introduce and evaluate two QKS methods derived from the QDavidson algorithm, a novel approach for determining the ground and excited states of many-body systems. Unlike other QKS methods that pre-generate the Krylov subspace through real- or imaginary-time evolution, QDavidson iteratively adds basis vectors into the Krylov subspace. This iterative process enables faster convergence with fewer iterations and necessitates shallower circuit depths, marking a significant advancement in the field of quantum simulation.
翻訳日:2024-06-14 21:57:44 公開日:2024-06-12
# 大学オープンソースプログラムオフィスによるソフトウェアエンジニアリング能力の構築

Building Software Engineering Capacity through a University Open Source Program Office ( http://arxiv.org/abs/2406.08679v1 )

ライセンス: Link先を確認
Ekaterina Holdener, Daniel Shown, (参考訳) この研究は、大学環境で次世代のソフトウェアエンジニアを訓練するための革新的なプログラムを導入し、従来のソフトウェア工学コースの限界に対処する。 プログラムの費用は、プログラムスタッフの給与と2年間の利益のために、直接支出として51,420ドルを計上した。 本稿では, 教育, 研究, 専門職, 社会的な利益をもたらすプログラムを継続するために, 全体的なコスト削減と持続可能な資金源の確立のための戦略を提案する。

This work introduces an innovative program for training the next generation of software engineers within university settings, addressing the limitations of traditional software engineering courses. Initial program costs were significant, totaling $551,420 in direct expenditures to pay for program staff salaries and benefits over two years. We present a strategy for reducing overall costs and establishing sustainable funding sources to perpetuate the program, which has yielded educational, research, professional, and societal benefits.
翻訳日:2024-06-14 21:57:44 公開日:2024-06-12
# 授業評定評価のための大規模言語モデルの解析

Analyzing Large Language Models for Classroom Discussion Assessment ( http://arxiv.org/abs/2406.08680v1 )

ライセンス: Link先を確認
Nhat Tran, Benjamin Pierce, Diane Litman, Richard Correnti, Lindsay Clare Matsumura, (参考訳) 大規模言語モデル(LLM)のような新しいNLPの進歩の助けを借りて、教室での議論の質を自動評価することがますます可能になっている。 本研究では,2つのLLMのアセスメント性能が,タスクの定式化,コンテキスト長,少数例の3つの要因とどのように相互作用するかを検討する。 また、2つのLLMの計算効率と予測整合性についても検討する。 その結果, 上記の3つの要因がLLMの性能に影響を与え, 一貫性と性能に相関があることが示唆された。 予測性能, 計算効率, 整合性の観点から, バランスのよいLCMベースの評価手法を推奨する。

Automatically assessing classroom discussion quality is becoming increasingly feasible with the help of new NLP advancements such as large language models (LLMs). In this work, we examine how the assessment performance of 2 LLMs interacts with 3 factors that may affect performance: task formulation, context length, and few-shot examples. We also explore the computational efficiency and predictive consistency of the 2 LLMs. Our results suggest that the 3 aforementioned factors do affect the performance of the tested LLMs and there is a relation between consistency and performance. We recommend a LLM-based assessment approach that has a good balance in terms of predictive performance, computational efficiency, and consistency.
翻訳日:2024-06-14 21:57:44 公開日:2024-06-12
# 深層学習手法の計算生物学への応用

Opportunities in deep learning methods development for computational biology ( http://arxiv.org/abs/2406.08686v1 )

ライセンス: Link先を確認
Alex Jihun Lee, Reza Abbasi-Asl, (参考訳) 分子技術の進歩は、生物学や生物医学に関連するデータセットのサイズを大きく拡大させる。 これらの進歩は、機械学習の深層学習サブフィールドにおけるそれと平行している。 ディープラーニングを可能にする、差別化可能なプログラミングツールボックスのコンポーネントは、フレキシブルで効果的なツールで、ますます多くの問題にコンピュータ科学者が対処できるようにする。 しかし、これらのツールの多くは、計算生物学やバイオインフォマティクスの分野で完全には普及していない。 この観点から,これらの進歩を概観し,新たな深層学習アーキテクチャツールと専門家の知識を融合する新たな機会に対する実践者の間での認識を高めることを目的として,バイオサイエンスにおけるそれらの活用の模範的な例を強調した。

Advances in molecular technologies underlie an enormous growth in the size of data sets pertaining to biology and biomedicine. These advances parallel those in the deep learning subfield of machine learning. Components in the differentiable programming toolbox that makes deep learning possible are allowing computer scientists to address an increasingly large array of problems with flexible and effective tools. However many of these tools have not fully proliferated into the computational biology and bioinformatics fields. In this perspective we survey some of these advances and highlight exemplary examples of their utilization in the biosciences, with the goal of increasing awareness among practitioners of emerging opportunities to blend expert knowledge with newly emerging deep learning architectural tools.
翻訳日:2024-06-14 21:57:44 公開日:2024-06-12
# AlphaZeroES: 直接スコア最大化は計画損失最小化を上回る

AlphaZeroES: Direct score maximization outperforms planning loss minimization ( http://arxiv.org/abs/2406.08687v1 )

ライセンス: Link先を確認
Carlos Martin, Tuomas Sandholm, (参考訳) 実行時の計画では、シングルエージェントとマルチエージェントの両方の設定でエージェントのパフォーマンスが劇的に向上することが示されている。 実行時に計画するアプローチとしては、AlphaZeroとその変種がよく知られている。これはMonte Carlo Tree Searchと、状態値とアクション確率を予測することによって検索をガイドするニューラルネットワークを併用するものだ。 AlphaZeroは、これらのネットワークを、エピソードの戻り値に一致する値予測を最小化する計画損失を最小化し、検索ツリーの根元にあるポリシー予測をフルツリー展開の出力にマッチさせることで訓練する。 AlphaZeroはシングルエージェント環境(ソコバンなど)とマルチエージェント環境(チェスや囲碁など)の両方に適用されており、大きな成功を収めている。 単エージェント環境では、MCTSアルゴリズムとニューラルアーキテクチャをそのまま残しながら、この計画損失を最小化するのではなく、エピソードスコアを直接最大化することで、AlphaZeroを上回りますか? エピソードスコアを直接最大化するために、ゼロ階ブラックボックス最適化のためのアルゴリズム群である進化戦略を用いる。 実験の結果,複数の環境において,エピソードスコアの最大化は計画損失の最小化よりも優れていた。

Planning at execution time has been shown to dramatically improve performance for agents in both single-agent and multi-agent settings. A well-known family of approaches to planning at execution time are AlphaZero and its variants, which use Monte Carlo Tree Search together with a neural network that guides the search by predicting state values and action probabilities. AlphaZero trains these networks by minimizing a planning loss that makes the value prediction match the episode return, and the policy prediction at the root of the search tree match the output of the full tree expansion. AlphaZero has been applied to both single-agent environments (such as Sokoban) and multi-agent environments (such as chess and Go) with great success. In this paper, we explore an intriguing question: In single-agent environments, can we outperform AlphaZero by directly maximizing the episode score instead of minimizing this planning loss, while leaving the MCTS algorithm and neural architecture unchanged? To directly maximize the episode score, we use evolution strategies, a family of algorithms for zeroth-order blackbox optimization. Our experiments indicate that, across multiple environments, directly maximizing the episode score outperforms minimizing the planning loss.
翻訳日:2024-06-14 21:57:44 公開日:2024-06-12
# ディープラーニングシステムにおけるセキュリティの弱さと脆弱性について

On Security Weaknesses and Vulnerabilities in Deep Learning Systems ( http://arxiv.org/abs/2406.08688v1 )

ライセンス: Link先を確認
Zhongzheng Lai, Huaming Chen, Ruoxi Sun, Yu Zhang, Minhui Xue, Dong Yuan, (参考訳) AI対応ソフトウェアシステムのセキュリティ保証(特にディープラーニング技術を機能コアとして使用する)は、ソフトウェア脆弱性を悪用する敵対的攻撃に対して重要である。 しかし、このようなシステムの脆弱性の体系的な調査にはほとんど注意が払われていない。 オープンソースソフトウェアコミュニティから学んだ一般的な状況は、ディープラーニングのエンジニアが、オフザシェルフあるいはオープンソースの学習フレームワークを自分たちのエコシステムに統合することが多いことです。 本研究では、特にディープラーニング(DL)フレームワークを調べ、CVE(Common Vulnerabilities and Exposures)およびTensorFlow、Caffe、OpenCV、Keras、PyTorchといったオープンソースのDLツールから特定された脆弱性を包括的に分析することで、DLシステムの脆弱性を初めて体系的に研究する。 各種データベースの脆弱性パターンを探索する2ストリームデータ分析フレームワークを提案する。 分散化と断片化のように見える独自のDLフレームワークとライブラリ開発エコシステムについて検討する。 従来のソフトウェア脆弱性関連プラクティスを提供するCommon Weakness Enumeration (CWE) Listを再考することによって、DLシステムライフサイクル全体を通じて脆弱性を検出し、修正することがより困難であることが分かりました。 さらに,脆弱性のパターンや修正の課題をよりよく理解するために,大規模に3,049個のDL脆弱性について検討した。 私たちはhttps://github.com/codelzz/Vulnerabilities4DLSystemで完全なレプリケーションパッケージをリリースしました。 我々は,セキュアなDLシステムの開発を進展させることが期待できる。

The security guarantee of AI-enabled software systems (particularly using deep learning techniques as a functional core) is pivotal against the adversarial attacks exploiting software vulnerabilities. However, little attention has been paid to a systematic investigation of vulnerabilities in such systems. A common situation learned from the open source software community is that deep learning engineers frequently integrate off-the-shelf or open-source learning frameworks into their ecosystems. In this work, we specifically look into deep learning (DL) framework and perform the first systematic study of vulnerabilities in DL systems through a comprehensive analysis of identified vulnerabilities from Common Vulnerabilities and Exposures (CVE) and open-source DL tools, including TensorFlow, Caffe, OpenCV, Keras, and PyTorch. We propose a two-stream data analysis framework to explore vulnerability patterns from various databases. We investigate the unique DL frameworks and libraries development ecosystems that appear to be decentralized and fragmented. By revisiting the Common Weakness Enumeration (CWE) List, which provides the traditional software vulnerability related practices, we observed that it is more challenging to detect and fix the vulnerabilities throughout the DL systems lifecycle. Moreover, we conducted a large-scale empirical study of 3,049 DL vulnerabilities to better understand the patterns of vulnerability and the challenges in fixing them. We have released the full replication package at https://github.com/codelzz/Vulnerabilities4DLSystem. We anticipate that our study can advance the development of secure DL systems.
翻訳日:2024-06-14 21:57:44 公開日:2024-06-12
# AIエージェントのセキュリティ

Security of AI Agents ( http://arxiv.org/abs/2406.08689v1 )

ライセンス: Link先を確認
Yifeng He, Ethan Wang, Yuyang Rong, Zifei Cheng, Hao Chen, (参考訳) AIエージェントの研究と開発は、大規模言語モデルによって促進されている。 AIエージェントはインテリジェントアシスタントとして機能し、ツールへのアクセスと環境内でコマンドを実行する機能によって、ユーザに代わってタスクを完了することができる。一般的なAIエージェントのワークフローを研究し、経験することで、セキュリティに関するいくつかの懸念を提起した。 これらの潜在的な脆弱性は、エージェントを構築するために使用されるフレームワークや、エージェントを改善するための研究によって対処されない。 本稿では,これらの脆弱性をシステムセキュリティの観点から詳細に識別し,その原因と重大な影響を強調する。 さらに,各脆弱性に対応する防御機構を巧妙な設計と実験により導入し,その生存性を評価する。 さらに、この論文は、AIエージェントの現在の開発におけるセキュリティ問題を文脈的に分析し、AIエージェントをより安全で信頼性の高いものにするための方法を規定する。

The study and development of AI agents have been boosted by large language models. AI agents can function as intelligent assistants and complete tasks on behalf of their users with access to tools and the ability to execute commands in their environments, Through studying and experiencing the workflow of typical AI agents, we have raised several concerns regarding their security. These potential vulnerabilities are not addressed by the frameworks used to build the agents, nor by research aimed at improving the agents. In this paper, we identify and describe these vulnerabilities in detail from a system security perspective, emphasizing their causes and severe effects. Furthermore, we introduce defense mechanisms corresponding to each vulnerability with meticulous design and experiments to evaluate their viability. Altogether, this paper contextualizes the security issues in the current development of AI agents and delineates methods to make AI agents safer and more reliable.
翻訳日:2024-06-14 21:47:58 公開日:2024-06-12
# UnO: 知覚と予測のための教師なしの業務分野

UnO: Unsupervised Occupancy Fields for Perception and Forecasting ( http://arxiv.org/abs/2406.08691v1 )

ライセンス: Link先を確認
Ben Agro, Quinlan Sykora, Sergio Casas, Thomas Gilles, Raquel Urtasun, (参考訳) 世界を理解し、将来の状態を予測することは、自動運転にとって重要な課題である。 監視されたアプローチは、注釈付きオブジェクトラベルを活用して世界のモデルを学ぶ -- 伝統的にオブジェクトの検出と軌道予測、あるいは時間鳥の目視(BEV)の占有フィールドで。 しかしながら、これらのアノテーションは高価で、一般的には、道路で遭遇する可能性のある全てをカバーしない、事前定義されたカテゴリのセットに限られます。 その代わり、LiDARデータから連続した4D(時空間)占有領域を自己監督することで知覚し、予測することを学ぶ。 この教師なしの世界モデルは、下流のタスクに簡単かつ効果的に転送できる。 Argoverse 2 nuScenes と KITTI では,軽量な学習用レンダラの追加によるポイントクラウド予測に取り組み,最先端のパフォーマンスを実現している。 さらにその伝達可能性を示すために,BEVセマンティック占有予測のモデルを微調整し,特にラベル付きデータが不足している場合に,完全に監督された最先端技術よりも優れていることを示す。 最後に、時空間的占有率予測に関する先行技術と比較すると、我々の4Dワールドモデルは、自動運転に関連するクラスからのオブジェクトのリコールをはるかに高い精度で達成する。

Perceiving the world and forecasting its future state is a critical task for self-driving. Supervised approaches leverage annotated object labels to learn a model of the world -- traditionally with object detections and trajectory predictions, or temporal bird's-eye-view (BEV) occupancy fields. However, these annotations are expensive and typically limited to a set of predefined categories that do not cover everything we might encounter on the road. Instead, we learn to perceive and forecast a continuous 4D (spatio-temporal) occupancy field with self-supervision from LiDAR data. This unsupervised world model can be easily and effectively transferred to downstream tasks. We tackle point cloud forecasting by adding a lightweight learned renderer and achieve state-of-the-art performance in Argoverse 2, nuScenes, and KITTI. To further showcase its transferability, we fine-tune our model for BEV semantic occupancy forecasting and show that it outperforms the fully supervised state-of-the-art, especially when labeled data is scarce. Finally, when compared to prior state-of-the-art on spatio-temporal geometric occupancy prediction, our 4D world model achieves a much higher recall of objects from classes relevant to self-driving.
翻訳日:2024-06-14 21:47:58 公開日:2024-06-12
# 医療におけるグローバルAIガバナンス - 司法機関間の規制分析

Global AI Governance in Healthcare: A Cross-Jurisdictional Regulatory Analysis ( http://arxiv.org/abs/2406.08695v1 )

ライセンス: Link先を確認
Attrayee Chakraborty, Mandar Karhade, (参考訳) 人工知能(AI)は世界中で採用されており、医療における新たな革命を約束している。 北米のAI対応医療機器は世界市場の42.3%を占めているが、他国でのAI対応医療機器の使用は依然として展開を待っている物語である。 私たちは、医療におけるAI利用に対するグローバルな規制アプローチを深く掘り下げることを目指しています。 これらのテーマを、世界保健機関(WHO)の医療応用におけるAIの倫理的利用に関する規制的考察と原則と比較する。 我々の研究は、世界のさまざまな地域(北米、南アメリカ、東南アジア、中東、アフリカ、オーストラリア、アジア太平洋)の代表国を含む14の司法管轄区域を分析して、AI政策のグローバルな視点を模索している。 私たちの最終的な目標は、医療におけるAIの倫理的利用と、それを導く規制に関するグローバルな会話を促進することです。 本研究は,AI規制の国際調和を促進するためのソリューションを提案し,中国とシンガポールを地域政策の好例として,生成AI規制の要件について検討する。

Artificial Intelligence (AI) is being adopted across the world and promises a new revolution in healthcare. While AI-enabled medical devices in North America dominate 42.3% of the global market, the use of AI-enabled medical devices in other countries is still a story waiting to be unfolded. We aim to delve deeper into global regulatory approaches towards AI use in healthcare, with a focus on how common themes are emerging globally. We compare these themes to the World Health Organization's (WHO) regulatory considerations and principles on ethical use of AI for healthcare applications. Our work seeks to take a global perspective on AI policy by analyzing 14 legal jurisdictions including countries representative of various regions in the world (North America, South America, South East Asia, Middle East, Africa, Australia, and the Asia-Pacific). Our eventual goal is to foster a global conversation on the ethical use of AI in healthcare and the regulations that will guide it. We propose solutions to promote international harmonization of AI regulations and examine the requirements for regulating generative AI, using China and Singapore as examples of countries with well-developed policies in this area.
翻訳日:2024-06-14 21:47:58 公開日:2024-06-12
# Q$関数の差分を直交的に推定する

Orthogonalized Estimation of Difference of $Q$-functions ( http://arxiv.org/abs/2406.08697v1 )

ライセンス: Link先を確認
Angela Zhou, (参考訳) オフライン強化学習は、利用可能な観測データを持つ多くの環境で重要であるが、安全性、コスト、その他の懸念から、オンラインで新しいポリシーを展開できない。 CATEのような因果的コントラスト関数の因果的推論と機械学習ターゲット推定の最近の進歩は、決定を最適化するのに十分であり、潜在的にスムーズな構造に適応できる。 我々は、Q^\pi$-functions, $Q^\pi(s,1)-Q^\pi(s,0)$の差を推定し最適化するために、R-ラーナー(Nie and Wager 2021, Lewis and Syrgkanis 2021)の動的一般化を開発する。 我々は直交推定を利用して、緩やかなニュアンス推定率の存在下での収束率を向上し、マージン条件下での政策最適化の整合性を証明する。 この方法は、より構造化された$Q$-functionコントラストを推定するために、$Q$-functionと振舞いポリシーのブラックボックスニュアンス推定器を利用することができる。

Offline reinforcement learning is important in many settings with available observational data but the inability to deploy new policies online due to safety, cost, and other concerns. Many recent advances in causal inference and machine learning target estimation of causal contrast functions such as CATE, which is sufficient for optimizing decisions and can adapt to potentially smoother structure. We develop a dynamic generalization of the R-learner (Nie and Wager 2021, Lewis and Syrgkanis 2021) for estimating and optimizing the difference of $Q^\pi$-functions, $Q^\pi(s,1)-Q^\pi(s,0)$ (which can be used to optimize multiple-valued actions). We leverage orthogonal estimation to improve convergence rates in the presence of slower nuisance estimation rates and prove consistency of policy optimization under a margin condition. The method can leverage black-box nuisance estimators of the $Q$-function and behavior policy to target estimation of a more structured $Q$-function contrast.
翻訳日:2024-06-14 21:47:58 公開日:2024-06-12
# DiffusionPID:部分情報分解による拡散の解釈

DiffusionPID: Interpreting Diffusion via Partial Information Decomposition ( http://arxiv.org/abs/2406.05191v2 )

ライセンス: Link先を確認
Shaurya Dewan, Rushikesh Zawar, Prakanshul Saxena, Yingshan Chang, Andrew Luo, Yonatan Bisk, (参考訳) テキストから画像への拡散モデルは、テキスト入力から自然な画像を生成する上で大きな進歩を遂げており、複雑な視覚・意味的関係を学習し表現する能力を示している。 これらの拡散モデルは目覚ましい成功を収めているが、その性能を駆動するメカニズムはまだ十分に説明されていない。 Diffusion partial Information Decomposition (DiffusionPID) は,入力テキストのプロンプトを基本成分に分解する情報理論の原理を応用し,個々のトークンとその相互作用が生成した画像をどのように形成するかを詳細に検証する手法である。 画像レベルと画素レベルの両方のデノナイジングモデルにPIDを適用し,その特異性,冗長性,シナジー項を解析するための形式的アプローチを提案する。 このアプローチにより、個々のトークンとその相互作用がモデル出力にどのように影響するかを特徴付けることができる。 まず、特定の概念を一意にローカライズするためにモデルが用いた特徴のきめ細かい分析を行い、バイアス分析に我々のアプローチを適用し、性別や民族性バイアスを回復できることを示す。 最後に,本手法を用いて,単語のあいまいさと類似性をモデルの観点から視覚的に特徴付けるとともに,迅速な介入のための手法の有効性を示す。 以上の結果から,PIDはテキスト・画像拡散モデルの評価と診断に有効なツールであることが示唆された。

Text-to-image diffusion models have made significant progress in generating naturalistic images from textual inputs, and demonstrate the capacity to learn and represent complex visual-semantic relationships. While these diffusion models have achieved remarkable success, the underlying mechanisms driving their performance are not yet fully accounted for, with many unanswered questions surrounding what they learn, how they represent visual-semantic relationships, and why they sometimes fail to generalize. Our work presents Diffusion Partial Information Decomposition (DiffusionPID), a novel technique that applies information-theoretic principles to decompose the input text prompt into its elementary components, enabling a detailed examination of how individual tokens and their interactions shape the generated image. We introduce a formal approach to analyze the uniqueness, redundancy, and synergy terms by applying PID to the denoising model at both the image and pixel level. This approach enables us to characterize how individual tokens and their interactions affect the model output. We first present a fine-grained analysis of characteristics utilized by the model to uniquely localize specific concepts, we then apply our approach in bias analysis and show it can recover gender and ethnicity biases. Finally, we use our method to visually characterize word ambiguity and similarity from the model's perspective and illustrate the efficacy of our method for prompt intervention. Our results show that PID is a potent tool for evaluating and diagnosing text-to-image diffusion models.
翻訳日:2024-06-14 11:39:29 公開日:2024-06-12
# DISCO:パーソナライズド・ディスカウント・アロケーションのためのエンド・ツー・エンド・エンド・バンド・フレームワーク

DISCO: An End-to-End Bandit Framework for Personalised Discount Allocation ( http://arxiv.org/abs/2406.06433v3 )

ライセンス: Link先を確認
Jason Shuo Zhang, Benjamin Howson, Panayiota Savva, Eleanor Loh, (参考訳) パーソナライズされた割引コードは、Eコマースにおける顧客関係と運用費用を管理するための強力なメカニズムを提供する。 帯域幅は、問題の部分的な情報の性質と変化するビジネス環境への適応の必要性から、この製品領域に適している。 本稿では,ASOSにおけるパーソナライズされたディスカウントコードアロケーションのための,エンド・ツー・エンドのコンテキスト・バンディット・フレームワークであるdisCOを紹介する。 DISCOは従来のトンプソンサンプリングアルゴリズムを整数プログラムに統合し、運用コストの制御を可能にする。 バンディット学習は高次元の動作で悪くなることが多いため、我々は低次元の動作と文脈表現の構築に焦点をあてた。 さらに、価格と販売の関係を保存し、価格の低下(「価格弾力性」)に応じて顧客が購入を増加させるモデルの構築も検討した。 これらの目的は、ニューラルネットワークから抽出されたコンテキスト埋め込みと組み合わせて、連続的な(無限武装の)アクション空間を表現するために放射基底関数を使用することによって達成された。 これらの特徴表現は、探究を容易にするためにトンプソンサンプリングフレームワーク内で使われ、さらに整数プログラムと統合されてASOSの顧客ベース全体で割引コードを割り当てた。 これらのモデル決定は、報酬モデルをもたらす。 (a)類似の行動にまたがるプール学習を可能にする。 (b)外挿を含む高精度で、かつ、 (c)期待される負の価格弾性を保存する。 オフライン解析により、グローバルな制約にもかかわらず、DisCOは探索を効果的に実行し、時間とともにその性能を向上させることができることを示す。 最後に,disCOを厳格なオンラインA/Bテストに適用し,従来のシステムと比較して,平均バスケット値が1%に向上したことを確認した。

Personalised discount codes provide a powerful mechanism for managing customer relationships and operational spend in e-commerce. Bandits are well suited for this product area, given the partial information nature of the problem, as well as the need for adaptation to the changing business environment. Here, we introduce DISCO, an end-to-end contextual bandit framework for personalised discount code allocation at ASOS. DISCO adapts the traditional Thompson Sampling algorithm by integrating it within an integer program, thereby allowing for operational cost control. Because bandit learning is often worse with high dimensional actions, we focused on building low dimensional action and context representations that were nonetheless capable of good accuracy. Additionally, we sought to build a model that preserved the relationship between price and sales, in which customers increasing their purchasing in response to lower prices ("negative price elasticity"). These aims were achieved by using radial basis functions to represent the continuous (i.e. infinite armed) action space, in combination with context embeddings extracted from a neural network. These feature representations were used within a Thompson Sampling framework to facilitate exploration, and further integrated with an integer program to allocate discount codes across ASOS's customer base. These modelling decisions result in a reward model that (a) enables pooled learning across similar actions, (b) is highly accurate, including in extrapolation, and (c) preserves the expected negative price elasticity. Through offline analysis, we show that DISCO is able to effectively enact exploration and improves its performance over time, despite the global constraint. Finally, we subjected DISCO to a rigorous online A/B test, and find that it achieves a significant improvement of >1% in average basket value, relative to the legacy systems.
翻訳日:2024-06-14 11:35:08 公開日:2024-06-12
# 古典的量子プログラミングのギャップを埋めるための翻訳フレームワークを目指す$Classi|Q\rangle$

$Classi|Q\rangle$ Towards a Translation Framework To Bridge The Classical-Quantum Programming Gap ( http://arxiv.org/abs/2406.06764v2 )

ライセンス: Link先を確認
Matteo Esposito, Maryam Tavassoli Sabzevari, Boshuai Ye, Davide Falessi, Arif Ali Khan, Davide Taibi, (参考訳) 量子コンピューティングは、ハードウェアとして、あるいはクラウド上でエミュレートできるが、複雑なプログラミングパラダイムや学習曲線に関しては、一般的には利用できない。 このビジョンペーパーでは、Classi|Q\rangle$という、古典的および量子コンピューティングを橋渡しするための翻訳フレームワークを紹介します。 私たちのアイデアペーパーは、量子ソフトウェア工学における継続的な取り組みの青写真として役立ち、研究者や実践者の多様なニーズを満たすために、さらなる$Classi|Q\rangle$開発のためのロードマップを提供する。 $Classi|Q\rangle$は、従来の量子経験のない研究者や実践者がハイブリッド量子計算の可能性を活用するために設計された。 また、将来の$Classi|Q\rangle$の強化、追加の量子言語のサポート、最適化戦略の改善、新しい量子コンピューティングプラットフォームとの統合などについても論じる。

Quantum computing, albeit readily available as hardware or emulated on the cloud, is still far from being available in general regarding complex programming paradigms and learning curves. This vision paper introduces $Classi|Q\rangle$, a translation framework idea to bridge Classical and Quantum Computing by translating high-level programming languages, e.g., Python or C++, into a low-level language, e.g., Quantum Assembly. Our idea paper serves as a blueprint for ongoing efforts in quantum software engineering, offering a roadmap for further $Classi|Q\rangle$ development to meet the diverse needs of researchers and practitioners. $Classi|Q\rangle$ is designed to empower researchers and practitioners with no prior quantum experience to harness the potential of hybrid quantum computation. We also discuss future enhancements to $Classi|Q\rangle$, including support for additional quantum languages, improved optimization strategies, and integration with emerging quantum computing platforms.
翻訳日:2024-06-14 11:35:08 公開日:2024-06-12
# 埋め込みには何が入っていますか。埋め込みの匂いは甘いでしょうか?

What's in an embedding? Would a rose by any embedding smell as sweet? ( http://arxiv.org/abs/2406.06870v2 )

ライセンス: Link先を確認
Venkat Venkatasubramanian, (参考訳) LLM(Large Language Models)はしばしば、真の「理解」が欠如しており、その知識を「理解する」能力が欠如しているとして批判されている。 私たちはこの視点が重要な洞察を欠いていると信じています。 我々はLSMが「幾何学的」のような経験的な「下地」を開発しており、NLP、コンピュータビジョン、コーディング支援など様々な応用に十分と思われることを示唆している。 しかし、この「幾何学的」理解は、不完全でノイズの多いデータから構築され、数十年前にヒューリスティックスベースのエキスパートシステムによって直面した課題と同様に、信頼できない、一般化が難しい、推論能力や説明が欠如している。 これらの制限を克服するために、私たちはLLMをエキスパートシステムで使用されるシンボリックAI要素を含む知識の「代数的」表現に統合すべきだと提案する。 この統合の目的は、第一原理に根ざした「深い」知識を持つだけでなく、人間専門家の能力を模倣し、説明し、説明する能力を持つ、大きな知識モデル(LKM)を作ることである。 生成AIの潜在能力を安全かつ効果的に活用するためには、LLMからより包括的なLKMへのパラダイムシフトが必要である。

Large Language Models (LLMs) are often criticized for lacking true "understanding" and an ability to "reason" with their knowledge, being seen merely as advanced autocomplete systems. We believe that this perspective might be missing an important insight. We suggest that LLMs do develop a kind of empirical "understanding" that is "geometry"-like, which seems quite sufficient for a range of applications in NLP, computer vision, coding assistance, etc. However, this "geometric" understanding, built from incomplete and noisy data, makes them unreliable, difficult to generalize, and lacking in inference capabilities and explanations, similar to the challenges faced by heuristics-based expert systems decades ago. To overcome these limitations, we suggest that LLMs should be integrated with an "algebraic" representation of knowledge that includes symbolic AI elements used in expert systems. This integration aims to create large knowledge models (LKMs) that not only possess "deep" knowledge grounded in first principles, but also have the ability to reason and explain, mimicking human expert capabilities. To harness the full potential of generative AI safely and effectively, a paradigm shift from LLMs to the more comprehensive LKMs is needed.
翻訳日:2024-06-14 11:35:08 公開日:2024-06-12
# 3次元高分解能医用画像のベンチマークと放射線診断レポートの作成

Benchmarking and Boosting Radiology Report Generation for 3D High-Resolution Medical Images ( http://arxiv.org/abs/2406.07146v2 )

ライセンス: Link先を確認
Che Liu, Zhongwei Wan, Yuqi Wang, Hui Shen, Haozhe Wang, Kangyu Zheng, Mi Zhang, Rossella Arcucci, (参考訳) 自動放射線学レポート生成は、放射線医によるレポート作成の労働集約的なプロセス、特にCTスキャンなどの3Dラジオグラフィーにおいて有益である。 既存の手法では、現在のGPUメモリの制限のため、スライスワイズやアグレッシブなダウンサンプリングによって3Dボリュームを処理することが多い。 これらの問題を解決するために,大規模言語モデル(LLM)に基づく高分解能(HR)3Dボリュームの放射線学レポートを効率的かつ効果的に生成する新しいフレームワークを提案する。 具体的には、低解像度(LR)視覚トークンをクエリとして利用してHRトークンから情報をマイニングし、詳細なHR情報を保存し、HR情報LR視覚クエリのみを処理することで計算コストを削減している。 さらに,5,328 HR 3Dボリュームとペアレポートを備えた新たなデータセットである BIMCV-RG をキュレートしてリリースし,3D HR 医療画像からレポート生成のための最初のベンチマークを確立した。 提案手法は,標準解像度,高解像度入力,ゼロショットドメイン転送という3つの異なる設定で,A100-80Gでトレーニング可能な計算コストで,このベンチマークの既存手法を常に上回っている。

Automatic radiology report generation can significantly benefit the labor-intensive process of report writing by radiologists, especially for 3D radiographs like CT scans, which are crucial for broad clinical diagnostics yet underexplored compared to 2D radiographs. Existing methods often handle 3D volumes either slice-wise or with aggressive downsampling due to current GPU memory limitations, which results in a loss of the inherent 3D nature and critical details. To overcome these issues, we introduce a novel framework that efficiently and effectively generates radiology reports for high-resolution (HR) 3D volumes, based on large language models (LLMs). Specifically, our framework utilizes low-resolution (LR) visual tokens as queries to mine information from HR tokens, preserving detailed HR information while reducing computational costs by only processing HR informed LR visual queries. Further benefiting the field, we curate and release BIMCV-RG, a new dataset with 5,328 HR 3D volumes and paired reports, establishing the first benchmarks for report generation from 3D HR medical images. Our method consistently surpasses existing methods on this benchmark across three different settings: normal-resolution, high-resolution inputs, and zero-shot domain transfer, all at an acceptable computational cost, trainable on a single A100-80G.
翻訳日:2024-06-14 11:35:08 公開日:2024-06-12
# 半有限計画法における変分量子アルゴリズム

Variational Quantum Algorithms for Semidefinite Programming ( http://arxiv.org/abs/2112.08859v3 )

ライセンス: Link先を確認
Dhrumil Patel, Patrick J. Coles, Mark M. Wilde, (参考訳) 半定値プログラム(SDP)は、操作研究、組合せ最適化、量子情報科学などにおける特定の凸最適化問題である。 本研究では,SDPを近似的に解くための変分量子アルゴリズムを提案する。 一種類のSDPに対して、それらの収束の厳密な解析を局所最適解に提供し、それらが弱制約(例えば$N\gg M$、$N$は入力行列の次元、$M$は制約の数)であると仮定する。 また、仮定の少ないより一般的なSDPのアルゴリズムも提供する。 最後に、MaxCutのような応用のための量子アルゴリズムを数値シミュレーションし、これらのシミュレーションの結果は、まだノイズの多い環境で収束が生じる証拠となる。

A semidefinite program (SDP) is a particular kind of convex optimization problem with applications in operations research, combinatorial optimization, quantum information science, and beyond. In this work, we propose variational quantum algorithms for approximately solving SDPs. For one class of SDPs, we provide a rigorous analysis of their convergence to approximate locally optimal solutions, under the assumption that they are weakly constrained (i.e., $N\gg M$, where $N$ is the dimension of the input matrices and $M$ is the number of constraints). We also provide algorithms for a more general class of SDPs that requires fewer assumptions. Finally, we numerically simulate our quantum algorithms for applications such as MaxCut, and the results of these simulations provide evidence that convergence still occurs in noisy settings.
翻訳日:2024-06-14 02:02:19 公開日:2024-06-12
# 線形二次ガウス系学習のためのレグレト下界

Regret Lower Bounds for Learning Linear Quadratic Gaussian Systems ( http://arxiv.org/abs/2201.01680v4 )

ライセンス: Link先を確認
Ingvar Ziemann, Henrik Sandberg, (参考訳) 2次コストで未知の線型ガウス系を適応的に制御するための後悔の低い境界を確立する。 実験設計、推定理論、ある情報行列の摂動境界のアイデアを組み合わせて、時間的地平線における等級$\sqrt{T}$のスケールを示す後悔の低い下界を導出する。 状態フィードバックシステムにインスタンス化されると、以前の作業の次元的依存性を回復するが、システムコストやグラミアンのようなシステム理論定数によるスケーリングが改善される。 さらに,実験結果を部分的に観測されたシステムに拡張し,可観測性に乏しいシステムでも制御が難しいことを示す。

TWe establish regret lower bounds for adaptively controlling an unknown linear Gaussian system with quadratic costs. We combine ideas from experiment design, estimation theory and a perturbation bound of certain information matrices to derive regret lower bounds exhibiting scaling on the order of magnitude $\sqrt{T}$ in the time horizon $T$. Our bounds accurately capture the role of control-theoretic parameters and we are able to show that systems that are hard to control are also hard to learn to control; when instantiated to state feedback systems we recover the dimensional dependency of earlier work but with improved scaling with system-theoretic constants such as system costs and Gramians. Furthermore, we extend our results to a class of partially observed systems and demonstrate that systems with poor observability structure also are hard to learn to control.
翻訳日:2024-06-14 02:02:19 公開日:2024-06-12
# GAME-ON: フェイクニュース検出のためのグラフ注意ネットワークに基づくマルチモーダルフュージョン

GAME-ON: Graph Attention Network based Multimodal Fusion for Fake News Detection ( http://arxiv.org/abs/2202.12478v3 )

ライセンス: Link先を確認
Mudit Dhawan, Shakshi Sharma, Aditya Kadam, Rajesh Sharma, Ponnurangam Kumaraguru, (参考訳) 現代のソーシャルメディアは影響力を増している。 これらのプラットフォームに広がるフェイクニュースは、私たちの生活に破壊的かつ有害な影響を与えます。 さらに、マルチメディアコンテンツはテキストデータよりも投稿の可視性を向上するので、しばしばマルチメディアが偽コンテンツの作成に利用されていることが観察されている。 過去のマルチモーダルベースの研究は、偽コンテンツを特定する際に不均一なモダリティをモデル化する問題に対処しようと試みてきた。 しかし,これらの研究は,(1)後段のモデルにおけるモダリティに対する単純な連結演算子の利用によるモーダル間関係の非効率な符号化,(2)小さいが複雑な実生活のマルチモーダルデータセット上でパラメータの不均等な数で非常に深いニューラルネットワークを訓練することにより,オーバーフィッティングの可能性が高くなる,という制限がある。 これらの制限に対処するため,グラフニューラルネットワークに基づくエンドツーエンドのトレーニング可能なフレームワークであるGAME-ONを提案する。 評価には、TwitterとWeiboという2つの偽ニュースデータセットを公開しています。 当社のモデルはTwitter上で平均11%向上し、Weiboでは2.6%のマージンで競争力を維持する一方で、最も優れた最先端ベースラインよりも65%少ないパラメータを使用する。

Social media in present times has a significant and growing influence. Fake news being spread on these platforms have a disruptive and damaging impact on our lives. Furthermore, as multimedia content improves the visibility of posts more than text data, it has been observed that often multimedia is being used for creating fake content. A plethora of previous multimodal-based work has tried to address the problem of modeling heterogeneous modalities in identifying fake content. However, these works have the following limitations: (1) inefficient encoding of inter-modal relations by utilizing a simple concatenation operator on the modalities at a later stage in a model, which might result in information loss; (2) training very deep neural networks with a disproportionate number of parameters on small but complex real-life multimodal datasets result in higher chances of overfitting. To address these limitations, we propose GAME-ON, a Graph Neural Network based end-to-end trainable framework that allows granular interactions within and across different modalities to learn more robust data representations for multimodal fake news detection. We use two publicly available fake news datasets, Twitter and Weibo, for evaluations. Our model outperforms on Twitter by an average of 11% and keeps competitive performance on Weibo, within a 2.6% margin, while using 65% fewer parameters than the best comparable state-of-the-art baseline.
翻訳日:2024-06-14 02:02:19 公開日:2024-06-12
# イベントトランス

Event Transformer ( http://arxiv.org/abs/2204.05172v2 )

ライセンス: Link先を確認
Bin Jiang, Zhihao Li, M. Salman Asif, Xun Cao, Zhan Ma, (参考訳) イベントカメラの消費電力が低く、マイクロ秒の明るさ変化を捉える能力は、様々なコンピュータビジョンタスクにとって魅力的である。 既存のイベント表現方法は通常、イベントをフレーム、ボクセルグリッド、ディープニューラルネットワーク(DNN)のスパイクに変換する。 しかし、これらのアプローチはしばしば時間的粒度を犠牲にするか、処理に特別な装置を必要とする。 この研究はトークンベースの新しいイベント表現を導入し、各イベントはイベントトークンと呼ばれる基本的な処理ユニットと見なされる。 このアプローチは、シーケンスの複雑な時空間特性をイベントレベルで保持する。 さらに,イベント変換器ブロック(ETB)において,イベント間の時間的・空間的相関を協調的に構築するための3方向アテンション機構を提案する。 提案するトークンベースのイベント表現を,オブジェクト分類や光フロー推定の一般的な方法と比較した。 実験結果は、標準的なデバイス上で最小限の計算リソースを必要とする一方で、その競争性能を示している。 私たちのコードは \url{https://github.com/NJUVISION/EventTransformer} で公開されています。

The event camera's low power consumption and ability to capture microsecond brightness changes make it attractive for various computer vision tasks. Existing event representation methods typically convert events into frames, voxel grids, or spikes for deep neural networks (DNNs). However, these approaches often sacrifice temporal granularity or require specialized devices for processing. This work introduces a novel token-based event representation, where each event is considered a fundamental processing unit termed an event-token. This approach preserves the sequence's intricate spatiotemporal attributes at the event level. Moreover, we propose a Three-way Attention mechanism in the Event Transformer Block (ETB) to collaboratively construct temporal and spatial correlations between events. We compare our proposed token-based event representation extensively with other prevalent methods for object classification and optical flow estimation. The experimental results showcase its competitive performance while demanding minimal computational resources on standard devices. Our code is publicly accessible at \url{https://github.com/NJUVISION/EventTransformer}.
翻訳日:2024-06-14 02:02:19 公開日:2024-06-12
# ポイント2NeRF:3次元点雲からのニューラル放射場の生成

Points2NeRF: Generating Neural Radiance Fields from 3D point cloud ( http://arxiv.org/abs/2206.01290v3 )

ライセンス: Link先を確認
Dominik Zimny, Joanna Waczyńska, Tomasz Trzciński, Przemysław Spurek, (参考訳) LIDARや様々な深度カメラなどの3D視覚情報のための現代の登録装置は、データを3Dポイントクラウドとしてキャプチャする。 代わりに、そのような雲はその大きさと複雑さのために処理されるのが困難である。 既存のメソッドは、メッシュをポイントクラウドに適合させ、代わりにレンダリングすることで、この問題に対処する。 しかし、このアプローチは結果の可視化の忠実度を低下させ、コンピュータグラフィックスアプリケーションに不可欠なオブジェクトの色情報を見逃してしまう。 本研究では,3次元物体をNeRF(Neural Radiance Fields)として表現することで,この課題を軽減することを提案する。 我々は、ハイパーネットワークのパラダイムを活用し、モデルをトレーニングし、関連するカラー値を持つ3Dポイント・クラウドを取り、入力された2D画像から3Dオブジェクトを再構成するNeRFネットワークの重みを返す。 提案手法は,3次元オブジェクトの効率的な表現を提供し,NeRFの条件付けや,学習対象以外の一般化の改善など,既存のアプローチに対していくつかの利点がある。 後者も経験的評価の結果で確認した。

Contemporary registration devices for 3D visual information, such as LIDARs and various depth cameras, capture data as 3D point clouds. In turn, such clouds are challenging to be processed due to their size and complexity. Existing methods address this problem by fitting a mesh to the point cloud and rendering it instead. This approach, however, leads to the reduced fidelity of the resulting visualization and misses color information of the objects crucial in computer graphics applications. In this work, we propose to mitigate this challenge by representing 3D objects as Neural Radiance Fields (NeRFs). We leverage a hypernetwork paradigm and train the model to take a 3D point cloud with the associated color values and return a NeRF network's weights that reconstruct 3D objects from input 2D images. Our method provides efficient 3D object representation and offers several advantages over the existing approaches, including the ability to condition NeRFs and improved generalization beyond objects seen in training. The latter we also confirmed in the results of our empirical evaluation.
翻訳日:2024-06-14 02:02:19 公開日:2024-06-12
# 学習ニューラルネットワークにおける極端数値感度と安定性のエッジのPDEに基づく説明

A PDE-based Explanation of Extreme Numerical Sensitivities and Edge of Stability in Training Neural Networks ( http://arxiv.org/abs/2206.02001v4 )

ライセンス: Link先を確認
Yuxin Sun, Dong Lao, Ganesh Sundaramoorthi, Anthony Yezzi, (参考訳) 確率勾配降下(SGD)を有するディープネットワークの現在の訓練実践における抑制された数値不安定性とその変種を明らかにする。 トレーニング深度ネットにおいて、浮動小数点ビットの順に数値誤差(最小の浮動小数点ビットの順で、浮動小数点演算から引き起こされる最も極端なあるいは制限的な数値摂動)を著しく増幅することができ、SGDの確率性によるテスト精度のばらつき(感度)に匹敵する有意なテスト精度のばらつき(感度)をもたらす。 重みテンソル空間の反復と領域上の局所化を抑えられる最適化力学の不安定性に、このことがいかにトレースされたかを示す。 本研究では、偏微分方程式(PDE)の数値解析を用いて理論的枠組みを提示し、畳み込みニューラルネットワーク(CNN)の勾配降下PDEを解析する。 学習速度と減量率の一定の条件下でしか安定しないことを示す。 条件が破られたときに爆発する代わりに、不安定さを抑えることができることを示す。 これはCNNの勾配降下に伴う非線形PDEの結果であり、その局所線形化は離散化のステップサイズを過度に運転すると変化し、安定化効果をもたらす。 抑制された不安定性は、古典理論によって予測される安定なステップサイズを超過し、損失を最適化し、なお収束し続けるという、最近発見された安定性のエッジ(EoS)現象とリンクする。 抑制された不安定性はEoSで起こるので、我々の理論はEoS、特に正規化の役割とネットワークの複雑さへの依存についての新しい洞察と予測を提供する。

We discover restrained numerical instabilities in current training practices of deep networks with stochastic gradient descent (SGD), and its variants. We show numerical error (on the order of the smallest floating point bit and thus the most extreme or limiting numerical perturbations induced from floating point arithmetic in training deep nets can be amplified significantly and result in significant test accuracy variance (sensitivities), comparable to the test accuracy variance due to stochasticity in SGD. We show how this is likely traced to instabilities of the optimization dynamics that are restrained, i.e., localized over iterations and regions of the weight tensor space. We do this by presenting a theoretical framework using numerical analysis of partial differential equations (PDE), and analyzing the gradient descent PDE of convolutional neural networks (CNNs). We show that it is stable only under certain conditions on the learning rate and weight decay. We show that rather than blowing up when the conditions are violated, the instability can be restrained. We show this is a consequence of the non-linear PDE associated with the gradient descent of the CNN, whose local linearization changes when over-driving the step size of the discretization, resulting in a stabilizing effect. We link restrained instabilities to the recently discovered Edge of Stability (EoS) phenomena, in which the stable step size predicted by classical theory is exceeded while continuing to optimize the loss and still converging. Because restrained instabilities occur at the EoS, our theory provides new insights and predictions about the EoS, in particular, the role of regularization and the dependence on the network complexity.
翻訳日:2024-06-14 02:02:19 公開日:2024-06-12
# 画像埋め込みと強化学習による効果的なプラットフォームに依存しないGUIテスト

Effective, Platform-Independent GUI Testing via Image Embedding and Reinforcement Learning ( http://arxiv.org/abs/2208.09116v2 )

ライセンス: Link先を確認
Shengcheng Yu, Chunrong Fang, Xin Li, Yuchen Ling, Zhenyu Chen, Zhendong Su, (参考訳) ソフトウェアアプリケーションは、社会の様々な側面において、ますます重要な役割を担っている。 特に、モバイルアプリとWebアプリは、すべてのアプリケーションの中で最も広く使われており、様々な産業や人々の日常生活で広く使われている。 モバイルおよびWebアプリの品質を保証するため、自動探索によるアプリGUIテストを改善するために、多くのアプローチが導入されている。 大規模な努力にもかかわらず、既存のアプローチは依然として、高いコードカバレッジ、高品質なモデルの構築、そして一般的に適用可能なものに制限されている。 強化学習ベースのアプローチは、効果的なアプリ状態抽象化や報酬関数設計など、困難な課題に直面しています。 さらに、それらは特定の実行プラットフォームに大きく依存しているため、一般化性が低く、異なるプラットフォームに適応できない。 アプリケーションテストに有効なプラットフォームに依存しないアプローチであるPIRLTestを提案する。 コンピュータビジョンと強化学習技術を利用して、新しいシナジスティックな方法で自動テストを行う。 GUIページからGUIウィジェットを抽出し、対応するGUIレイアウトを特徴付け、GUIページを状態として埋め込む。 アプリGUI状態は、マクロ的な視点と顕微鏡的な視点を組み合わせて、GUI画像から重要な意味情報を付加する。 これにより、PIRLTestはプラットフォームに依存しないものになる。 PIRLTestは好奇心駆動型戦略のガイダンスでアプリを探索する。Q-networkを使用して、特定の状態-作用ペアの値を推定し、プラットフォームに依存しない未発見ページの探索を促進する。 調査には、アプリケーションGUI状態と具体的なウィジェットの両方を考慮して設計されたすべてのアクションに対する報酬が割り当てられ、フレームワークがより発見されていないページを探索するのに役立つ。

Software applications have been playing an increasingly important role in various aspects of society. In particular, mobile apps and web apps are the most prevalent among all applications and are widely used in various industries as well as in people's daily lives. To help ensure mobile and web app quality, many approaches have been introduced to improve app GUI testing via automated exploration. Despite the extensive effort, existing approaches are still limited in reaching high code coverage, constructing high-quality models, and being generally applicable. Reinforcement learning-based approaches are faced with difficult challenges, including effective app state abstraction, reward function design, etc. Moreover, they heavily depend on the specific execution platforms, thus leading to poor generalizability and being unable to adapt to different platforms. We propose PIRLTest, an effective platform-independent approach for app testing. It utilizes computer vision and reinforcement learning techniques in a novel, synergistic manner for automated testing. It extracts the GUI widgets from GUI pages and characterizes the corresponding GUI layouts, embedding the GUI pages as states. The app GUI state combines the macroscopic perspective and the microscopic perspective, and attaches the critical semantic information from GUI images. This enables PIRLTest to be platform-independent and makes the testing approach generally applicable on different platforms. PIRLTest explores apps with the guidance of a curiosity-driven strategy, which uses a Q-network to estimate the values of specific state-action pairs to encourage more exploration in uncovered pages without platform dependency. The exploration will be assigned with rewards for all actions, which are designed considering both the app GUI states and the concrete widgets, to help the framework explore more uncovered pages.
翻訳日:2024-06-14 02:02:19 公開日:2024-06-12
# 多重線形回帰に対するフレキシブルな経験的ベイズアプローチとペナル化回帰との接続

A flexible empirical Bayes approach to multiple linear regression and connections with penalized regression ( http://arxiv.org/abs/2208.10910v3 )

ライセンス: Link先を確認
Youngseok Kim, Wei Wang, Peter Carbonetto, Matthew Stephens, (参考訳) 大規模多重回帰に対する新しい経験的ベイズ手法を提案する。 私たちのアプローチには2つの重要なアイデアが組み合わさっています。 (i)正規分布のスケール混合の非パラメトリック族を正規分布の有限混合で近似するフレキシブルな「適応収縮」前駆体の使用 (II) 偏差近似を用いて, 先行パラメータを効率的に推定し, 近似後方を計算する。 これら2つのアイデアを組み合わせると、ラッソのような高速なペナル化回帰法に匹敵する計算速度と、幅広いシナリオで競合予測精度を持つ高速で柔軟な手法が生まれる。 さらに,経験的ベイズ法と刑罰法との概念的関係を確立する新たな結果を提供する。 具体的には,最適化問題を直接解き,ペナルティ関数の形式を(クロスバリデーションによって調整されるのではなく)データから学習することにより,ペナルティ関数の形式をペナルティレグレッション問題の解き方を示す。 私たちのメソッドは、https://github.com/stephenslab/mr.ash.alphaから利用可能なRパッケージmr.ash.alphaで実装されています。

We introduce a new empirical Bayes approach for large-scale multiple linear regression. Our approach combines two key ideas: (i) the use of flexible "adaptive shrinkage" priors, which approximate the nonparametric family of scale mixture of normal distributions by a finite mixture of normal distributions; and (ii) the use of variational approximations to efficiently estimate prior hyperparameters and compute approximate posteriors. Combining these two ideas results in fast and flexible methods, with computational speed comparable to fast penalized regression methods such as the Lasso, and with competitive prediction accuracy across a wide range of scenarios. Further, we provide new results that establish conceptual connections between our empirical Bayes methods and penalized methods. Specifically, we show that the posterior mean from our method solves a penalized regression problem, with the form of the penalty function being learned from the data by directly solving an optimization problem (rather than being tuned by cross-validation). Our methods are implemented in an R package, mr.ash.alpha, available from https://github.com/stephenslab/mr.ash.alpha.
翻訳日:2024-06-14 02:02:19 公開日:2024-06-12
# 古典回路は量子面をシミュレートできる

Classical circuits can simulate quantum aspects ( http://arxiv.org/abs/2209.10402v3 )

ライセンス: Link先を確認
M. Caruso, (参考訳) 本研究では,電気ネットワークを用いた量子システムのシミュレーション手法を提案する。 提案手法では,異なるハミルトニアンを接続する一般化された類似性変換を活用し,古典回路を用いた量子システムシミュレーションのための明確に定義された経路を実現する。 相互作用ネットワークを合成することにより、2-$state から$n-$state まで、様々な複雑さの量子システムを正確にシミュレートする。 量子コンピュータとは異なり、古典的なアプローチは厳密な条件を必要としないため、実用的な実装ではよりアクセスしやすい。 電気回路シミュレーションの文脈におけるボルンの規則の再解釈は、量子現象の視点を与える。

This study introduces a method for simulating quantum systems using electrical networks. Our approach leverages a generalized similarity transformation, which connects different Hamiltonians, enabling well-defined paths for quantum system simulation using classical circuits. By synthesizing interaction networks, we accurately simulate quantum systems of varying complexity, from $2-$state to $n-$state systems. Unlike quantum computers, classical approaches do not require stringent conditions, making them more accessible for practical implementation. Our reinterpretation of Born's rule in the context of electrical circuit simulations offers a perspective on quantum phenomena.
翻訳日:2024-06-14 02:02:19 公開日:2024-06-12
# 文レベル脆弱性検出:情報理論とコントラスト学習による脆弱性パターンの学習

Statement-Level Vulnerability Detection: Learning Vulnerability Patterns Through Information Theory and Contrastive Learning ( http://arxiv.org/abs/2209.10414v2 )

ライセンス: Link先を確認
Van Nguyen, Trung Le, Chakkrit Tantithamthavorn, Michael Fu, John Grundy, Hung Nguyen, Seyit Camtepe, Paul Quirk, Dinh Phung, (参考訳) ソフトウェアの脆弱性は深刻で重要な問題です。 通常、数百から数千のソースコードステートメントからなるプログラムや関数では、対応する脆弱性を引き起こすステートメントはわずかである。 脆弱性ラベリングに対する現在のアプローチは、マシンラーニングツールの助けを借りて、専門家によって関数やプログラムレベルで実施されている。 このアプローチをコードステートメントレベルにまで拡張するのは、はるかにコストと時間を要するため、依然としてオープンな問題です。 本稿では,特定の関数の脆弱性関連コード文を特定するために,エンドツーエンドのディープラーニングに基づく新しいアプローチを提案する。 実世界の脆弱性コードに見られる特定の構造にインスパイアされ、まず相互情報を活用して、ソースコードステートメントと対応する関数の脆弱性との関連性を表す潜伏変数の集合を学習する。 そこで我々は,脆弱性関連コード文の表現学習とロバストな選択プロセスを改善するために,新しいクラスタ型空間コントラスト学習を提案する。 200k以上のC/C++関数の実世界のデータセットに対する実験結果から,我々の手法が他の最先端のベースラインよりも優れていることが示された。 VCP, VCA, Top-10 ACCでは, 教師なし環境で実世界のデータセット上で実行した場合, ベースラインを3%から14%上回る高い性能が得られた。 リリース済みのソースコードサンプルは、 \href{https://github.com/vannguyennd/livuitcl}{https://github.com/vannguyennd/livuitcl.comで公開されています。 ※

Software vulnerabilities are a serious and crucial concern. Typically, in a program or function consisting of hundreds or thousands of source code statements, there are only a few statements causing the corresponding vulnerabilities. Most current approaches to vulnerability labelling are done on a function or program level by experts with the assistance of machine learning tools. Extending this approach to the code statement level is much more costly and time-consuming and remains an open problem. In this paper, we propose a novel end-to-end deep learning-based approach to identify the vulnerability-relevant code statements of a specific function. Inspired by the specific structures observed in real-world vulnerable code, we first leverage mutual information for learning a set of latent variables representing the relevance of the source code statements to the corresponding function's vulnerability. We then propose novel clustered spatial contrastive learning in order to further improve the representation learning and the robust selection process of vulnerability-relevant code statements. Experimental results on real-world datasets of 200k+ C/C++ functions show the superiority of our method over other state-of-the-art baselines. In general, our method obtains a higher performance in VCP, VCA, and Top-10 ACC measures of between 3% to 14% over the baselines when running on real-world datasets in an unsupervised setting. Our released source code samples are publicly available at \href{https://github.com/vannguyennd/livuitcl}{https://github.com/vannguyennd/livuitcl.}
翻訳日:2024-06-14 02:02:19 公開日:2024-06-12
# IRJIT: ジャスト・イン・タイムのソフトウェア欠陥予測のためのシンプルでオンラインな情報検索アプローチ

IRJIT: A Simple, Online, Information Retrieval Approach for Just-In-Time Software Defect Prediction ( http://arxiv.org/abs/2210.02435v3 )

ライセンス: Link先を確認
Hareem Sahar, Abdul Ali Bangash, Abram Hindle, Denilson Barbosa, (参考訳) Just-in-Timeソフトウェア欠陥予測(JIT-SDP)は、コミットチェックイン時にそれらを特定することによって、ソフトウェアへの欠陥の導入を防止する。 現在のソフトウェア欠陥予測アプローチは、変更メトリクスなどの手作業による機能に依存しており、マシンラーニングやディープラーニングモデルのトレーニングにコストがかかる。 これらのモデルは通常、かなりの計算資源と時間を必要とするかもしれない広範囲なトレーニングプロセスを含む。 これらの特徴は、新しい例が利用可能になるにつれて、モデルをリアルタイムで更新しようとするときに課題を生じさせ、高速なオンライン欠陥予測に対する彼らの適合性に影響を与える可能性がある。 さらに、複雑な基盤となるモデルへの依存は、これらのアプローチを説明しにくくすることが多いため、開発者はモデルの予測の背後にある理由を理解できない。 説明できないアプローチは、開発者による結果への信頼の欠如のため、実際の開発環境では採用されない可能性がある。 これらの制約に対処するため、IRJITと呼ばれるアプローチを提案し、ソースコードから情報検索を行い、過去のバグやクリーンなコミットと類似性に基づいて、新しいコミットをバギーやクリーンとしてラベル付けする。 IRJITアプローチは、高価な再トレーニングなしに新しいデータから学ぶことができ、開発者は予測をサポートするドキュメントを見ることができ、追加のコンテキストを提供する。 プロジェクト設定内で10のオープンソースデータセットを評価することで、我々のアプローチが最先端のMLとDLアプローチの最大112倍高速であることを示し、コミットとラインレベルで説明可能性を提供し、最先端のものと同等のパフォーマンスを持つ。

Just-in-Time software defect prediction (JIT-SDP) prevents the introduction of defects into the software by identifying them at commit check-in time. Current software defect prediction approaches rely on manually crafted features such as change metrics and involve expensive to train machine learning or deep learning models. These models typically involve extensive training processes that may require significant computational resources and time. These characteristics can pose challenges when attempting to update the models in real-time as new examples become available, potentially impacting their suitability for fast online defect prediction. Furthermore, the reliance on a complex underlying model makes these approaches often less explainable, which means the developers cannot understand the reasons behind models' predictions. An approach that is not explainable might not be adopted in real-life development environments because of developers' lack of trust in its results. To address these limitations, we propose an approach called IRJIT that employs information retrieval on source code and labels new commits as buggy or clean based on their similarity to past buggy or clean commits. IRJIT approach is online and explainable as it can learn from new data without expensive retraining, and developers can see the documents that support a prediction, providing additional context. By evaluating 10 open-source datasets in a within project setting, we show that our approach is up to 112 times faster than the state-of-the-art ML and DL approaches, offers explainability at the commit and line level, and has comparable performance to the state-of-the-art.
翻訳日:2024-06-14 02:02:19 公開日:2024-06-12
# CoopHash: 画像ハッシュのための変分MCMC指導による多目的ディスクリプタとコントラストペアジェネレータの協調学習

CoopHash: Cooperative Learning of Multipurpose Descriptor and Contrastive Pair Generator via Variational MCMC Teaching for Supervised Image Hashing ( http://arxiv.org/abs/2210.04288v4 )

ライセンス: Link先を確認
Khoa D. Doan, Jianwen Xie, Yaxuan Zhu, Yang Zhao, Ping Li, (参考訳) 教師付き情報を活用することで、画像ハッシュ領域での検索性能が向上するが、十分なラベル付きデータなしで性能が著しく低下する。 パフォーマンスを向上する効果的な解決策の1つは、GAN(Generative Adversarial Networks)のような生成モデルを使用して、画像ハッシュモデルで合成データを生成することである。 しかし、GANに基づく手法は訓練が難しいため、ハッシュ手法が生成モデルとハッシュ関数を協調的に訓練するのを防ぐことができる。 この制限により、準最適検索性能が得られる。 この制限を克服するため,エネルギーをベースとした協調学習に基づく新たな協調ハッシュネットワークを提案する。 このフレームワークは、コントラスト画像を合成するトップダウンコントラスト対生成器と、確率密度、ハッシュコード、潜伏コード、カテゴリを含む複数の視点から画像を同時に表現するボトムアップ多目的記述器の2つのコンポーネントを介して、データの強力な生成表現と堅牢なハッシュ関数を共同で学習する。 2つのコンポーネントは、新しい可能性に基づく協調学習スキームを通じて共同で学習される。 提案手法は,複数の実世界のデータセットを用いて実験を行い,提案手法が競合するハッシュ法よりも優れた性能を示し,現在最先端のハッシュ法よりも最大10倍の相対的な改善を実現し,アウト・オブ・ディストリビューション検索における性能が著しく向上したことを示す。

Leveraging supervised information can lead to superior retrieval performance in the image hashing domain but the performance degrades significantly without enough labeled data. One effective solution to boost performance is to employ generative models, such as Generative Adversarial Networks (GANs), to generate synthetic data in an image hashing model. However, GAN-based methods are difficult to train, which prevents the hashing approaches from jointly training the generative models and the hash functions. This limitation results in sub-optimal retrieval performance. To overcome this limitation, we propose a novel framework, the generative cooperative hashing network, which is based on energy-based cooperative learning. This framework jointly learns a powerful generative representation of the data and a robust hash function via two components: a top-down contrastive pair generator that synthesizes contrastive images and a bottom-up multipurpose descriptor that simultaneously represents the images from multiple perspectives, including probability density, hash code, latent code, and category. The two components are jointly learned via a novel likelihood-based cooperative learning scheme. We conduct experiments on several real-world datasets and show that the proposed method outperforms the competing hashing supervised methods, achieving up to 10\% relative improvement over the current state-of-the-art supervised hashing methods, and exhibits a significantly better performance in out-of-distribution retrieval.
翻訳日:2024-06-14 01:52:33 公開日:2024-06-12
# アクター批判的」か「批判的」か : 2つのタイムスケールの物語

Actor-Critic or Critic-Actor? A Tale of Two Time Scales ( http://arxiv.org/abs/2210.04470v5 )

ライセンス: Link先を確認
Shalabh Bhatnagar, Vivek S. Borkar, Soumyajit Guin, (参考訳) 本稿では,より高速な時間スケールで計算し,より遅い時間スケールで計算する値関数を用いた2つの時間スケール確率近似として,表型アクタ・クリティックアルゴリズムの標準的な定式化を再考する。 これはポリシーの反復をエミュレートします。 時間スケールの逆転が実際に値反復をエミュレートし、正当性のあるアルゴリズムであることを観察する。 本稿では, 2つの関数近似を経験的に比較し, 線形関数近似と非線形関数近似の双方と比較し, 提案アルゴリズムが精度と計算労力の両面でアクタ・アクタに匹敵する性能を示すことを示す。

We revisit the standard formulation of tabular actor-critic algorithm as a two time-scale stochastic approximation with value function computed on a faster time-scale and policy computed on a slower time-scale. This emulates policy iteration. We observe that reversal of the time scales will in fact emulate value iteration and is a legitimate algorithm. We provide a proof of convergence and compare the two empirically with and without function approximation (with both linear and nonlinear function approximators) and observe that our proposed critic-actor algorithm performs on par with actor-critic in terms of both accuracy and computational effort.
翻訳日:2024-06-14 01:52:33 公開日:2024-06-12
# 格子原子干渉計における1分間スケールでのコヒーレンス限界

Coherence limits in lattice atom interferometry at the one-minute scale ( http://arxiv.org/abs/2210.07289v3 )

ライセンス: Link先を確認
Cristian D. Panda, Matthew Tao, James Egelhoff, Miguel Ceja, Victoria Xu, Holger Müller, (参考訳) 量子力学と量子シミュレーションでは、非古典的なコヒーレント状態は環境との不要な相互作用がデコヒーレンスを引き起こす前に操作されなければならない。 原子干渉法では、非古典状態は空間的重ね合わせであり、各原子は位相コヒーレント部分波束の集合として複数の位置で共存する。 これらの状態は、基礎物理学と慣性センシングの正確な測定を可能にする。 しかし、原子干渉計は通常、原子泉を使用し、10mの噴水で利用できる尋問時間は3秒程度に制限される。 ここでは,70秒間維持される空間重畳状態の原子干渉計を実現する。 我々は,原子アンサンブルの集合的嫌悪から生じるコヒーレンスに対する理論的および実験的限界を分析する。 これは、デコヒーレンス速度が数十秒を超える保持時間で著しく低下することを示している。 これらのコヒーレンスの利得は重力測定、第5の力の探索、重力の非古典的な性質の基本的なプローブを可能にする。

In quantum metrology and quantum simulation, a coherent non-classical state must be manipulated before unwanted interactions with the environment lead to decoherence. In atom interferometry, the non-classical state is a spatial superposition, where each atom coexists in multiple locations as a collection of phase-coherent partial wavepackets. These states enable precise measurements in fundamental physics and inertial sensing. However, atom interferometers usually use atomic fountains, where the available interrogation time is limited to around 3 seconds for a 10 m fountain. Here, we realise an atom interferometer with a spatial superposition state that is maintained for as long as 70 seconds. We analyse the theoretical and experimental limits to coherence arising from collective dephasing of the atomic ensemble. This reveals that the decoherence rate slows down markedly at hold times that exceed tens of seconds. These gains in coherence may enable gravimetry measurements, searches for fifth forces or fundamental probes into the non-classical nature of gravity.
翻訳日:2024-06-14 01:52:33 公開日:2024-06-12
# 多部ハイブリッド絡み合わせを用いた量子テレポーテーションにおける克服ノイズ

Overcoming noise in quantum teleportation with multipartite hybrid entanglement ( http://arxiv.org/abs/2210.14935v2 )

ライセンス: Link先を確認
Zhao-Di Liu, Olli Siltanen, Tom Kuusela, Rui-Heng Miao, Chen-Xi Ning, Chuan-Feng Li, Guang-Can Guo, Jyrki Piilo, (参考訳) 量子エンタングルメントとデコヒーレンスは多くの量子技術とプロトコルの2つのカウンターフォースである。 例えば、量子テレポーテーションは1対の最大絡み合った資源量子ビットによって燃やされるが、デコヒーレンスには弱い。 本稿では,純粋デコヒーレンスの存在下で,資源量子ビットがベル状態測定に入ることなく,効率的な量子テレポーテーションプロトコルを提案する。 代わりに、我々は補助量子ビットと、開量子系コンテキストにおけるその局所環境の間の多部ハイブリッドな絡み合わせを用いる。 興味深いことに、ハイブリッドに絡み合った初期状態では、高い忠実性を達成するためのデコヒーレンスである。 我々は全光学実験でプロトコルを実証した。

Quantum entanglement and decoherence are the two counterforces of many quantum technologies and protocols. For example, while quantum teleportation is fueled by a pair of maximally entangled resource qubits, it is vulnerable to decoherence. In this Article, we propose an efficient quantum teleportation protocol in the presence of pure decoherence and without entangled resource qubits entering the Bell-state measurement. Instead, we employ multipartite hybrid entanglement between the auxiliary qubits and their local environments within the open-quantum-system context. Interestingly, with a hybrid-entangled initial state, it is the decoherence that allows us to achieve high fidelities. We demonstrate our protocol in an all-optical experiment.
翻訳日:2024-06-14 01:52:33 公開日:2024-06-12
# 異なる種類の量子資源を用いた非協調ゲームにおける社会福祉の改善

Improving social welfare in non-cooperative games with different types of quantum resources ( http://arxiv.org/abs/2211.01687v3 )

ライセンス: Link先を確認
Alastair A. Abbott, Mehdi Mhalla, Pierre Pocreau, (参考訳) 我々は、異なる種類の量子資源が新しいナッシュ均衡にどのように寄与し、社会福祉を改善するか、すなわち均衡の質を測ることによって、マルチパーティ非協調ゲームにおいて量子上の利点が得られ得るかを検討する。 2つの異なる量子設定が分析される: 1つ目は、プレイヤーが絡み合った量子状態に直接アクセスする、もう1つは、ここで紹介する量子デバイスから得られる古典的なアドバイスのみを与える。 与えられたゲーム$G$に対して、これらの2つの設定は、それぞれ$Q_\textrm{corr}(G)$と$Q(G)$の平衡関係によって特徴づけられる異なる平衡をもたらす。 Q(G)\subseteq Q_\textrm{corr}(G)$ を示し、いくつかの相関関係の自己テスト特性を利用することで、いくつかのゲームにおいて包含性は厳密であることを示す。 我々は、SDP最適化技術を用いて、これらの量子資源が社会福祉を改善する方法を研究し、それぞれの設定で到達可能な社会福祉の上下限を得る。 対立する利害関係を含むいくつかのゲームにおいて、社会福祉がゲームのバイアスにどのように依存するかを調査し、疑似テレパシー解を用いて以前得られた分離を改善した。

We investigate what quantum advantages can be obtained in multipartite non-cooperative games by studying how different types of quantum resources can lead to new Nash equilibria and improve social welfare -- a measure of the quality of an equilibrium. Two different quantum settings are analysed: a first, in which players are given direct access to an entangled quantum state, and a second, which we introduce here, in which they are only given classical advice obtained from quantum devices. For a given game $G$, these two settings give rise to different equilibria characterised by the sets of equilibrium correlations $Q_\textrm{corr}(G)$ and $Q(G)$, respectively. We show that $Q(G)\subseteq Q_\textrm{corr}(G)$, and by exploiting the self-testing property of some correlations, that the inclusion is strict for some games $G$. We make use of SDP optimisation techniques to study how these quantum resources can improve social welfare, obtaining upper and lower bounds on the social welfare reachable in each setting. We investigate, for several games involving conflicting interests, how the social welfare depends on the bias of the game and improve upon a separation that was previously obtained using pseudo-telepathic solutions.
翻訳日:2024-06-14 01:52:33 公開日:2024-06-12
# ノイズトモグラフィーにおける情報スクランブルとエラーの増大 --カオスの量子的シグネチャ

Information scrambling and the growth of errors in noisy tomography -- a quantum signature of chaos ( http://arxiv.org/abs/2211.11221v4 )

ライセンス: Link先を確認
Abinash Sahu, Naga Dileep Varikuti, Vaibhav Madhok, (参考訳) 量子カオスは、動的に摂動を導入したとき、いかにして情報の急激なスクランブルやシステム全体のエラーを引き起こすのか? 量子シミュレーションと量子情報処理の信頼性はどうなるのか? 連続計測量子トモグラフィーをこれらの問題研究のパラダイムとして採用する。 測定記録は、量子キックトップのフロケマップの繰り返し適用の下で進化するエルミート観測可能な観測値の一連の期待値として生成される。 興味深いことに、リコンストラクションの忠実度は、カオスの度合いや力学の摂動の強さに関わらず、最初は増加する。 ランダム状態の場合、測定記録がランダムな初期観測値から得られた場合、得られた忠実度のその後の低下は、力学におけるカオスの度合いと逆相関する。 さらに重要なことは、量子トモグラフィーの性能に接続することで、演算子に対するLoschmidtエコーの操作的解釈を与えることである。 我々は,カオスのシグネチャとして機能し,エラーの拡散を定量化するために,乱れや乱れのないシステム力学の下での2つの演算子間の時間外相関器(OTOC)であるエラーのスクランブルを捉える量を定義した。 我々の結果は、OTOCsが捉えたように、Loschmidtエコーと誤差のスクランブルの基本的なリンクを示すだけでなく、そのようなリンクが量子情報処理に作用することを示す。

How does quantum chaos lead to rapid scrambling of information as well as errors across a system when one introduces perturbations in the dynamics? What are its consequences for the reliability of quantum simulations and quantum information processing? We employ continuous measurement quantum tomography as a paradigm to study these questions. The measurement record is generated as a sequence of expectation values of a Hermitian observable evolving under repeated application of the Floquet map of the quantum kicked top. Interestingly, we find that the reconstruction fidelity initially increases regardless of the degree of chaos or the strength of perturbations in the dynamics. For random states, when the measurement record is obtained from a random initial observable, the subsequent drop in the fidelity obtained is inversely correlated to the degree of chaos in the dynamics. More importantly, this also gives us an operational interpretation of Loschmidt echo for operators by connecting it to the performance of quantum tomography. We define a quantity to capture the scrambling of errors, an out-of-time-ordered correlator (OTOC) between two operators under perturbed and unperturbed system dynamics that serves as a signature of chaos and quantifies the spread of errors. Our results demonstrate not only a fundamental link between Loschmidt echo and scrambling of errors, as captured by OTOCs, but that such a link can have operational consequences in quantum information processing.
翻訳日:2024-06-14 01:52:33 公開日:2024-06-12
# 予算とROI制約を伴う自動車:効率性、レグレト、そしてパッシングダイナミクス

Autobidders with Budget and ROI Constraints: Efficiency, Regret, and Pacing Dynamics ( http://arxiv.org/abs/2301.13306v3 )

ライセンス: Link先を確認
Brendan Lucier, Sarath Pattathil, Aleksandrs Slivkins, Mengxiao Zhang, (参考訳) オンライン広告プラットフォームで競合するオートバイディングアルゴリズムのゲームについて検討する。 各オートバイダは、予算と投資の帰結の制約の下で、繰り返しのオークションの複数のラウンドで広告主の総価値を最大化する。 本稿では,全ての制約を満たすことを保証し,個人の後悔を解消する勾配に基づく学習アルゴリズムを提案する。 提案アルゴリズムは,帯域幅フィードバックのみを使用し,第1または第2価格のオークションや,任意の"中間"オークションフォーマットで使用することができる。 我々の主な成果は、これらの自走車同士が互いに対戦するとき、全てのラウンドで得られる液体の福祉は、任意のアロケーションによって達成される最適液体の福祉の少なくとも半分であるということである。 これは、入札力学が平衡に収束するか否かを保っている。

We study a game between autobidding algorithms that compete in an online advertising platform. Each autobidder is tasked with maximizing its advertiser's total value over multiple rounds of a repeated auction, subject to budget and return-on-investment constraints. We propose a gradient-based learning algorithm that is guaranteed to satisfy all constraints and achieves vanishing individual regret. Our algorithm uses only bandit feedback and can be used with the first- or second-price auction, as well as with any "intermediate" auction format. Our main result is that when these autobidders play against each other, the resulting expected liquid welfare over all rounds is at least half of the expected optimal liquid welfare achieved by any allocation. This holds whether or not the bidding dynamics converges to an equilibrium.
翻訳日:2024-06-14 01:52:33 公開日:2024-06-12
# Et Tu Certifications: Robustness Certificates yield Better Adversarial Examples

Et Tu Certifications: Robustness Certificates Yield Better Adversarial Examples ( http://arxiv.org/abs/2302.04379v4 )

ライセンス: Link先を確認
Andrew C. Cullen, Shijie Liu, Paul Montague, Sarah M. Erfani, Benjamin I. P. Rubinstein, (参考訳) インスタンスの近傍で敵の例がないことを保証するため、認証機構はニューラルネットの堅牢性を示す上で重要な役割を果たす。 この論文では、これらの認定が保護に役立つモデルに悪影響を及ぼすかどうかを問う。 我々の新しい 'emph{Certification Aware Attack} は、計算効率のよいノルム最小化の正反対例を、同等の攻撃よりも74 %$多く生成すると同時に、中央摂動規範を10 %以上削減する。 これらの攻撃は、認証境界の厳密性を評価するために使用できるが、認定のリリースは、パラドックス的にセキュリティを低下させる可能性があることも強調している。

In guaranteeing the absence of adversarial examples in an instance's neighbourhood, certification mechanisms play an important role in demonstrating neural net robustness. In this paper, we ask if these certifications can compromise the very models they help to protect? Our new \emph{Certification Aware Attack} exploits certifications to produce computationally efficient norm-minimising adversarial examples $74 \%$ more often than comparable attacks, while reducing the median perturbation norm by more than $10\%$. While these attacks can be used to assess the tightness of certification bounds, they also highlight that releasing certifications can paradoxically reduce security.
翻訳日:2024-06-14 01:52:33 公開日:2024-06-12
# 汎用言語モデルを用いたテキストからの材料データ抽出のためのフレキシブル・モデル非依存手法

Flexible, Model-Agnostic Method for Materials Data Extraction from Text Using General Purpose Language Models ( http://arxiv.org/abs/2302.04914v3 )

ライセンス: Link先を確認
Maciej P. Polak, Shrey Modi, Anna Latosinska, Jinming Zhang, Ching-Wen Wang, Shaonan Wang, Ayan Deep Hazra, Dane Morgan, (参考訳) 研究論文から抽出された正確な総合的な資料データベースは、材料科学と工学にとって不可欠であるが、その開発には多大な人的努力が必要である。 大きな言語モデル(LLM)が人間がテキストと対話する方法を変えることにより、LLMはデータ抽出に革命をもたらす機会を提供する。 本研究では,LLMの能力と人間の監督を併用したフルテキスト研究論文から資料データを簡易かつ効率的に抽出する方法を実証する。 このアプローチは特に中規模のデータベースに適しており、抽出されたプロパティに関するコーディングや事前の知識を最小限に必要とします。 結果のデータベースにおいて、高いリコールとほぼ完璧な精度を提供する。 この方法は、新しい言語モデルや優れた言語モデルに容易に適応でき、継続的な実用性を保証する。 本稿では,GPT-3およびGPT-3.5/4(ChatGPTの下位)およびBARTやDeBERTaV3などのフリー代替品の性能評価と比較を行った。 本研究では, バルク率データを含む文を抽出し, 96%のリコールで最大90%の精度を達成し, 人間の作業量に応じて詳細な解析を行った。 さらに, 従来のヒトキュレートデータベースの2倍以上の大きさの金属ガラスに対して, 臨界冷却率のデータベースを開発することにより, 提案手法の広範な効果を実証する。

Accurate and comprehensive material databases extracted from research papers are crucial for materials science and engineering, but their development requires significant human effort. With large language models (LLMs) transforming the way humans interact with text, LLMs provide an opportunity to revolutionize data extraction. In this study, we demonstrate a simple and efficient method for extracting materials data from full-text research papers leveraging the capabilities of LLMs combined with human supervision. This approach is particularly suitable for mid-sized databases and requires minimal to no coding or prior knowledge about the extracted property. It offers high recall and nearly perfect precision in the resulting database. The method is easily adaptable to new and superior language models, ensuring continued utility. We show this by evaluating and comparing its performance on GPT-3 and GPT-3.5/4 (which underlie ChatGPT), as well as free alternatives such as BART and DeBERTaV3. We provide a detailed analysis of the method's performance in extracting sentences containing bulk modulus data, achieving up to 90% precision at 96% recall, depending on the amount of human effort involved. We further demonstrate the method's broader effectiveness by developing a database of critical cooling rates for metallic glasses over twice the size of previous human curated databases.
翻訳日:2024-06-14 01:52:33 公開日:2024-06-12
# KGLiDS: データサイエンスのセマンティック抽象化、リンク、自動化のためのプラットフォーム

KGLiDS: A Platform for Semantic Abstraction, Linking, and Automation of Data Science ( http://arxiv.org/abs/2303.02204v4 )

ライセンス: Link先を確認
Mossad Helali, Niki Monjazeb, Shubham Vashisth, Philippe Carrier, Ahmed Helal, Antonio Cavalcante, Khaled Ammar, Katja Hose, Essam Mansour, (参考訳) 近年,大量のデータ分析にデータサイエンス技術を適用することへの学界や業界からの関心が高まっているのを目の当たりにしている。 このプロセスでは、無数のアーティファクト(データセット、パイプラインスクリプトなど)が生成される。 しかし、これらのアーティファクトに暗黙的に含まれているすべての知識や経験を体系的に収集・活用する試みは行われていない。 代わりに、データサイエンティストは同僚の情報や専門知識を回復するか、試行錯誤を通じて学習する。 そこで本稿では、機械学習と知識グラフ技術を用いて、データサイエンスアーティファクトのセマンティクスとその関連性を抽象化し、キャプチャするスケーラブルなプラットフォームKGLiDSを提案する。 この情報に基づいて、KGLiDSはデータディスカバリやパイプライン自動化など、さまざまなダウンストリームアプリケーションを可能にする。 包括的な評価では、データディスカバリ、データのクリーニング、変換、AutoMLのユースケースについて取り上げています。 KGLiDSは、最先端のシステムよりもメモリフットプリントが低く、同等またはより良い精度を実現していることを示す。

In recent years, we have witnessed the growing interest from academia and industry in applying data science technologies to analyze large amounts of data. In this process, a myriad of artifacts (datasets, pipeline scripts, etc.) are created. However, there has been no systematic attempt to holistically collect and exploit all the knowledge and experiences that are implicitly contained in those artifacts. Instead, data scientists recover information and expertise from colleagues or learn via trial and error. Hence, this paper presents a scalable platform, KGLiDS, that employs machine learning and knowledge graph technologies to abstract and capture the semantics of data science artifacts and their connections. Based on this information, KGLiDS enables various downstream applications, such as data discovery and pipeline automation. Our comprehensive evaluation covers use cases in data discovery, data cleaning, transformation, and AutoML. It shows that KGLiDS is significantly faster with a lower memory footprint than the state-of-the-art systems while achieving comparable or better accuracy.
翻訳日:2024-06-14 01:52:33 公開日:2024-06-12
# 情報容量と独立性に基づくフィルタプルーニング

Filter Pruning based on Information Capacity and Independence ( http://arxiv.org/abs/2303.03645v2 )

ライセンス: Link先を確認
Xiaolong Tang, Shuo Ye, Yufeng Shi, Tianheng Hu, Qinmu Peng, Xinge You, (参考訳) フィルタプルーニングは畳み込みニューラルネットワーク(CNN)の圧縮と高速化を目的として広く採用されている。 しかし, 従来の手法は, 偏りのあるフィルタ選択や計算コストの重いため, 実用化には程遠い。 本稿では,フィルタを解釈可能,マルチパースペクティブ,軽量な方法で選択する新しいフィルタプルーニング手法を提案する。 具体的には,個人的および全体的視点からフィルタの寄与を評価する。 各フィルタに含まれる情報量について,情報容量と呼ばれる新しい指標を提案する。 情報理論にヒントを得て,解釈可能なエントロピーを用いて情報容量を測定し,特徴誘導近似プロセスを開発する。 フィルタ間の相関について、情報独立と呼ばれる別の指標が設計されている。 上記のメトリクスは、単純だが効果的な方法で評価されるので、計算コストを抑えて、最も重要でないフィルタを識別およびプーンすることができる。 各種CNNアーキテクチャを用いたベンチマークデータセットの総合的な実験を行い,本手法の性能評価を行った。 例えば、ILSVRC-2012では、FLOPを77.4%削減し、ResNet-50ではパラメータを69.3%削減し、精度は2.64%に低下する。

Filter pruning has gained widespread adoption for the purpose of compressing and speeding up convolutional neural networks (CNNs). However, existing approaches are still far from practical applications due to biased filter selection and heavy computation cost. This paper introduces a new filter pruning method that selects filters in an interpretable, multi-perspective, and lightweight manner. Specifically, we evaluate the contributions of filters from both individual and overall perspectives. For the amount of information contained in each filter, a new metric called information capacity is proposed. Inspired by the information theory, we utilize the interpretable entropy to measure the information capacity, and develop a feature-guided approximation process. For correlations among filters, another metric called information independence is designed. Since the aforementioned metrics are evaluated in a simple but effective way, we can identify and prune the least important filters with less computation cost. We conduct comprehensive experiments on benchmark datasets employing various widely-used CNN architectures to evaluate the performance of our method. For instance, on ILSVRC-2012, our method outperforms state-of-the-art methods by reducing FLOPs by 77.4% and parameters by 69.3% for ResNet-50 with only a minor decrease in accuracy of 2.64%.
翻訳日:2024-06-14 01:52:33 公開日:2024-06-12
# 畳み込みニューラルネットワークを用いた不整脈検出のための心電図分類システム

ECG Classification System for Arrhythmia Detection Using Convolutional Neural Networks ( http://arxiv.org/abs/2303.03660v2 )

ライセンス: Link先を確認
Aryan Odugoudar, Jaskaran Singh Walia, (参考訳) 不整脈は、長年にわたって広く研究されてきた多くの心血管疾患の1つである。 マルチリード心電図データを用いて,心血管性不整脈を検出する畳み込みニューラルネットワーク(CNN)アルゴリズムに基づく深層学習(DL)パイプライン技術について述べる。 提案するモデルアーキテクチャは、入力層と出力層に加えて、残りのブロックを持つ隠蔽層を持つ。 本研究は,心電図信号を左二分枝ブロック(LBBB),右二分枝ブロック(RBBB),心房細心収縮(APC),心室細心収縮(PVC),正常拍動(N)の5つのグループに分類する。 MIT-BIH不整脈データセットを用いて提案手法の評価を行った。 提案手法は, 98.2%の精度で15,000例を分類した。

Arrhythmia is just one of the many cardiovascular illnesses that have been extensively studied throughout the years. Using multi-lead ECG data, this research describes a deep learning (DL) pipeline technique based on convolutional neural network (CNN) algorithms to detect cardiovascular lar arrhythmia in patients. The suggested model architecture has hidden layers with a residual block in addition to the input and output layers. In this study, the classification of the ECG signals into five main groups, namely: Left Bundle Branch Block (LBBB), Right Bundle Branch Block (RBBB), Atrial Premature Contraction (APC), Premature Ventricular Contraction (PVC), and Normal Beat (N), are performed. Using the MIT-BIH arrhythmia dataset, we assessed the suggested technique. The findings show that our suggested strategy classified 15,000 cases with a high accuracy of 98.2%
翻訳日:2024-06-14 01:52:33 公開日:2024-06-12
# ZX計算による耐故障性の統一化

Unifying flavors of fault tolerance with the ZX calculus ( http://arxiv.org/abs/2303.08829v3 )

ライセンス: Link先を確認
Hector Bombin, Daniel Litinski, Naomi Nickerson, Fernando Pastawski, Sam Roberts, (参考訳) 量子計算のいくつかのモデルがあり、共通の基本耐故障性を示す。 この記事では、ZX計算に基づく統一フレームワークでこれらの異なるモデルを提示することで、共通性を明示する。 我々は、最近導入されたフロケ符号のモデルと同様に、回路ベース、計測ベース、核融合ベースの量子計算を含むトポロジカルフォールトトレランス(特に表面コード)のモデルに焦点を当てる。 これらのモデルはすべて、基盤となる安定化器の耐故障構造の異なるフレーバーと見なすことができ、フレーバー間のマッピングが可能な局所同値変換によってこれを維持できる。 この統一的な視点は、安定したフォールトトレランスの異なる視点間で進捗を伝達する方法を開拓し、あるモデルに詳しい研究者が容易に他のモデルを理解するのに役立つことを期待する。

There are several models of quantum computation which exhibit shared fundamental fault-tolerance properties. This article makes commonalities explicit by presenting these different models in a unifying framework based on the ZX calculus. We focus on models of topological fault tolerance - specifically surface codes - including circuit-based, measurement-based and fusion-based quantum computation, as well as the recently introduced model of Floquet codes. We find that all of these models can be viewed as different flavors of the same underlying stabilizer fault-tolerance structure, and sustain this through a set of local equivalence transformations which allow mapping between flavors. We anticipate that this unifying perspective will pave the way to transferring progress among the different views of stabilizer fault-tolerance and help researchers familiar with one model easily understand others.
翻訳日:2024-06-14 01:52:33 公開日:2024-06-12
# 特権情報を用いた学習による教師なしドメイン適応

Unsupervised domain adaptation by learning using privileged information ( http://arxiv.org/abs/2303.09350v3 )

ライセンス: Link先を確認
Adam Breitholtz, Anton Matsson, Fredrik D. Johansson, (参考訳) 教師なしドメイン適応の成功は、共変量シフトや入力ドメイン間の重複といった強い仮定の下でのみ保証される。 後者は、画像分類のような高次元のアプリケーションではしばしば違反されるが、この制限にもかかわらず、アルゴリズム開発のためのインスピレーションとベンチマークとして機能し続けている。 本研究では,補助変数による側情報への訓練時間アクセスは,入力変数の制約を緩和し,よりリッチな変数集合を収集するコストで学習のサンプル効率を向上させることに役立つことを示す。 この情報は、訓練中のみ利用可能であり、デプロイ中ではないと仮定されるので、特権情報(DALUPI)を用いて学習することで、ドメイン適応を教師なしと呼ぶ。 そこで本研究では,対象領域における予測誤差の分析から着想を得た,単純な2段階学習アルゴリズムと,画像分類のための実用的エンドツーエンド変種を提案する。 本稿では,異なる種類の特権情報(バイナリ属性,単一領域,複数領域)を持つ医用画像における画像および異常領域のエンティティの分類に基づく3つの評価課題を提案する。 学習に特権情報を用いることで、ベースラインと比較してドメイン転送のエラーを減らし、ソースドメインの急激な相関に頑健になり、サンプル効率が向上することを示す。

Successful unsupervised domain adaptation is guaranteed only under strong assumptions such as covariate shift and overlap between input domains. The latter is often violated in high-dimensional applications like image classification which, despite this limitation, continues to serve as inspiration and benchmark for algorithm development. In this work, we show that training-time access to side information in the form of auxiliary variables can help relax restrictions on input variables and increase the sample efficiency of learning at the cost of collecting a richer variable set. As this information is assumed available only during training, not in deployment, we call this problem unsupervised domain adaptation by learning using privileged information (DALUPI). To solve this problem, we propose a simple two-stage learning algorithm, inspired by our analysis of the expected error in the target domain, and a practical end-to-end variant for image classification. We propose three evaluation tasks based on classification of entities in photos and anomalies in medical images with different types of available privileged information (binary attributes and single or multiple regions of interest). We demonstrate across these tasks that using privileged information in learning can reduce errors in domain transfer compared to baselines, be robust to spurious correlations in the source domain, and increase sample efficiency.
翻訳日:2024-06-14 01:52:33 公開日:2024-06-12
# 逆問題に対するVAEの混合モデルによるマニフォールド学習

Manifold Learning by Mixture Models of VAEs for Inverse Problems ( http://arxiv.org/abs/2303.15244v2 )

ライセンス: Link先を確認
Giovanni S. Alberti, Johannes Hertrich, Matteo Santacesaria, Silvia Sciutto, (参考訳) 生成モデルによる非常に高次元データの多様体を表現することは、実際は計算的に効率的であることが示されている。 しかし、これはデータ多様体が大域パラメータ化を持つ必要がある。 任意の位相の多様体を表現するために,変分オートエンコーダの混合モデルを学習することを提案する。 ここで、すべてのエンコーダ-デコーダ対は多様体の1つのチャートを表す。 モデル重みの最大推定のための損失関数を提案し、チャートとその逆数の解析式を提供するアーキテクチャを選択する。 多様体が学習されると、学習多様体に制限されたデータ忠実度項を最小化することにより、逆問題の解法に使用する。 最小化問題を解くために、学習多様体上のリーマン勾配降下アルゴリズムを提案する。 本手法の低次元玩具実例と,特定の画像多様体上での耐摩耗・電気インピーダンストモグラフィーの性能を実証する。

Representing a manifold of very high-dimensional data with generative models has been shown to be computationally efficient in practice. However, this requires that the data manifold admits a global parameterization. In order to represent manifolds of arbitrary topology, we propose to learn a mixture model of variational autoencoders. Here, every encoder-decoder pair represents one chart of a manifold. We propose a loss function for maximum likelihood estimation of the model weights and choose an architecture that provides us the analytical expression of the charts and of their inverses. Once the manifold is learned, we use it for solving inverse problems by minimizing a data fidelity term restricted to the learned manifold. To solve the arising minimization problem we propose a Riemannian gradient descent algorithm on the learned manifold. We demonstrate the performance of our method for low-dimensional toy examples as well as for deblurring and electrical impedance tomography on certain image manifolds.
翻訳日:2024-06-14 01:42:49 公開日:2024-06-12
# グラフ理論による私的学習可能性の一評価

A Unified Characterization of Private Learnability via Graph Theory ( http://arxiv.org/abs/2304.03996v4 )

ライセンス: Link先を確認
Noga Alon, Shay Moran, Hilla Schefler, Amir Yehudayoff, (参考訳) 純粋かつ近似微分プライベート(DP)学習性を特徴付ける統一的なフレームワークを提供する。 このフレームワークはグラフ理論の言語を使用する: 概念クラス $\mathcal{H}$ に対して、矛盾グラフ $G$ of $\mathcal{H}$ を定義する。 その頂点は実現可能なデータセットであり、2つのデータセット$S,S'$が互いに矛盾する場合、エッジによって接続される(すなわち、$S$と$S'$で異なるラベルが付けられた点$x$が存在する)。 我々の主な発見は、$G$の組合せ構造がDPの下での$\mathcal{H}$の学習と深く関連していることである。 純粋な DP の下で $\mathcal{H}$ を学ぶことは、分数clique の$G$ で表される。 DP で $\mathcal{H}$ を学ぶことは、clique number of $G$ で表される。 その結果,DP学習性を特徴付けるグラフ理論的次元,すなわち斜め次元と分数的斜め次元を同定した。 その過程で、独立な興味を持つかもしれない矛盾グラフの性質を明らかにする。 今後の研究には,いくつかのオープンな質問や方向性も提案する。

We provide a unified framework for characterizing pure and approximate differentially private (DP) learnability. The framework uses the language of graph theory: for a concept class $\mathcal{H}$, we define the contradiction graph $G$ of $\mathcal{H}$. Its vertices are realizable datasets, and two datasets $S,S'$ are connected by an edge if they contradict each other (i.e., there is a point $x$ that is labeled differently in $S$ and $S'$). Our main finding is that the combinatorial structure of $G$ is deeply related to learning $\mathcal{H}$ under DP. Learning $\mathcal{H}$ under pure DP is captured by the fractional clique number of $G$. Learning $\mathcal{H}$ under approximate DP is captured by the clique number of $G$. Consequently, we identify graph-theoretic dimensions that characterize DP learnability: the clique dimension and fractional clique dimension. Along the way, we reveal properties of the contradiction graph which may be of independent interest. We also suggest several open questions and directions for future research.
翻訳日:2024-06-14 01:42:49 公開日:2024-06-12
# パウリマニピュレーション検出符号と逆チャネル上の量子通信への応用

Pauli Manipulation Detection codes and Applications to Quantum Communication over Adversarial Channels ( http://arxiv.org/abs/2304.06269v2 )

ライセンス: Link先を確認
Thiago Bergamaschi, (参考訳) 我々は、高い確率で全てのパウリエラーを検出する「パウリマニピュレーション検出」コード(PMD)を作成した量子コードを導入し、明示的に構築する。 逆チャネル上での量子通信において,2つのタスクに対して,第1次準最適符号を構築する。 我々の主な応用は量子ビット上の近似量子コードであり、量子シングルトン境界に近づいた多くの(Worst-case)消去誤差から効率よく修正できる。 我々の構成は、消去からリストデコダブルな安定化符号を持つPMD符号の合成に基づいている。 第2のアプリケーションは、秘密鍵を必要としない「量子ワイド」チャネルの量子認証コードです。 注目すべきは、これは古典的に証明不可能な量子通信におけるタスクの例である。 我々の構成は、MD符号、安定化符号、古典的非可算符号(Dziembowski et al , 2009)の組み合わせに基づいており、「最小冗長性」(1-o(1)$)を達成する。

We introduce and explicitly construct a quantum code we coin a "Pauli Manipulation Detection" code (or PMD), which detects every Pauli error with high probability. We apply them to construct the first near-optimal codes for two tasks in quantum communication over adversarial channels. Our main application is an approximate quantum code over qubits which can efficiently correct from a number of (worst-case) erasure errors approaching the quantum Singleton bound. Our construction is based on the composition of a PMD code with a stabilizer code which is list-decodable from erasures. Our second application is a quantum authentication code for "qubit-wise" channels, which does not require a secret key. Remarkably, this gives an example of a task in quantum communication which is provably impossible classically. Our construction is based on a combination of PMD codes, stabilizer codes, and classical non-malleable codes (Dziembowski et al., 2009), and achieves "minimal redundancy" (rate $1-o(1)$).
翻訳日:2024-06-14 01:42:49 公開日:2024-06-12
# LASER: 弱スーパービジョンを用いた時空間シーングラフ学習のためのニューロシンボリックフレームワーク

LASER: A Neuro-Symbolic Framework for Learning Spatial-Temporal Scene Graphs with Weak Supervision ( http://arxiv.org/abs/2304.07647v4 )

ライセンス: Link先を確認
Jiani Huang, Ziyang Li, Mayur Naik, Ser-Nam Lim, (参考訳) 本稿では,高レベルな論理仕様を利用して,映像データの空間的・時間的特性を豊かに捉えた意味的ビデオ表現を学習するための,ニューラルシンボリックなアプローチであるLASERを提案する。 特に、生ビデオと時空間論理仕様の整合性の観点から問題を定式化する。 アライメントアルゴリズムは、微分可能な記号的推論と、コントラスト的、時間的、セマンティクス的損失の組み合わせを利用する。 低レベルの知覚モデルを効果的かつ効率的に訓練し、所望の高レベル仕様に準拠した時空間グラフの形できめ細かな映像表現を抽出する。 基礎となる真理ラベルを手作業で取得する作業を大幅に削減するため,汎用的なプロンプトテンプレートを備えた大規模言語モデルを用いて,キャプションから論理仕様を導出する。 そこで我々は,広範にアクセス可能なビデオキャプチャーデータを用いた時空間グラフの学習を弱く監督する新しい手法を探求する。 20BN-Something-Something, MUGEN, OpenPVSG。 提案手法は,既存のベースラインよりもきめ細かなビデオセマンティクスを学習できることを実証する。

We propose LASER, a neuro-symbolic approach to learn semantic video representations that capture rich spatial and temporal properties in video data by leveraging high-level logic specifications. In particular, we formulate the problem in terms of alignment between raw videos and spatio-temporal logic specifications. The alignment algorithm leverages a differentiable symbolic reasoner and a combination of contrastive, temporal, and semantics losses. It effectively and efficiently trains low-level perception models to extract a fine-grained video representation in the form of a spatio-temporal scene graph that conforms to the desired high-level specification. To practically reduce the manual effort of obtaining ground truth labels, we derive logic specifications from captions by employing a large language model with a generic prompting template. In doing so, we explore a novel methodology that weakly supervises the learning of spatio-temporal scene graphs with widely accessible video-caption data. We evaluate our method on three datasets with rich spatial and temporal specifications: 20BN-Something-Something, MUGEN, and OpenPVSG. We demonstrate that our method learns better fine-grained video semantics than existing baselines.
翻訳日:2024-06-14 01:42:49 公開日:2024-06-12
# BackCache: キャッシュラインの排除によるコンテントベースのキャッシュタイムアタックの軽減

BackCache: Mitigating Contention-Based Cache Timing Attacks by Hiding Cache Line Evictions ( http://arxiv.org/abs/2304.10268v5 )

ライセンス: Link先を確認
Quancheng Wang, Xige Zhang, Han Wang, Yuzhe Gu, Ming Tang, (参考訳) キャッシュはCPUとメモリ間の速度差を減らし、最新のプロセッサの性能を改善するために使われる。 しかし、攻撃者は競合ベースのキャッシュタイミング攻撃を使用して、慎重に設計されたキャッシュ消去セットを通じて被害者プロセスから機密情報を盗むことができる。 また、L1データキャッシュ攻撃は広く利用されており、プライバシーと機密性の重大な脅威となる。 既存のハードウェアベースの対策は、主にキャッシュパーティショニング、ランダム化、キャッシュラインのフラッシングに重点を置いている。 本稿では、キャッシュミスではなくキャッシュヒットを常に達成し、L1データキャッシュに対する競合ベースのキャッシュタイミング攻撃を緩和する、新しいハードウェア・ソフトウェアの共同設計であるBackCacheを提案する。 BackCacheは、解放されたキャッシュラインをL1データキャッシュから完全に連想的なバックアップキャッシュに配置して、排除を隠蔽する。 BackCacheのセキュリティを改善するために,ランダムに使用される代用ポリシー(RURP)と動的バックアップキャッシュリサイズ機構を導入する。 BackCacheの有効性を示すための理論的セキュリティ分析も提示する。 gem5シミュレータによる評価では,OSカーネル,シングルスレッド,マルチスレッドのベンチマークにおいて,BackCacheはパフォーマンスを2.61%,2.66%,3.36%で低下させることができる。

Caches are used to reduce the speed differential between the CPU and memory to improve the performance of modern processors. However, attackers can use contention-based cache timing attacks to steal sensitive information from victim processes through carefully designed cache eviction sets. And L1 data cache attacks are widely exploited and pose a significant privacy and confidentiality threat. Existing hardware-based countermeasures mainly focus on cache partitioning, randomization, and cache line flushing, which unfortunately either incur high overhead or can be circumvented by sophisticated attacks. In this paper, we propose a novel hardware-software co-design called BackCache with the idea of always achieving cache hits instead of cache misses to mitigate contention-based cache timing attacks on the L1 data cache. BackCache places the evicted cache lines from the L1 data cache into a fully-associative backup cache to hide the evictions. To improve the security of BackCache, we introduce a randomly used replacement policy (RURP) and a dynamic backup cache resizing mechanism. We also present a theoretical security analysis to demonstrate the effectiveness of BackCache. Our evaluation on the gem5 simulator shows that BackCache can degrade the performance by 2.61%, 2.66%, and 3.36% For OS kernel, single-thread, and multi-thread benchmarks.
翻訳日:2024-06-14 01:42:49 公開日:2024-06-12
# フライングクビットにおける貯留層フリーデコヒーレンス

Reservoir-Free Decoherence in Flying Qubits ( http://arxiv.org/abs/2305.02746v2 )

ライセンス: Link先を確認
Nicolò Piccione, Léa Bresque, Andrew N. Jordan, Robert S. Whitney, Alexia Auffèves, (参考訳) 効果的な時間依存ハミルトニアン(英語版)は、量子系を不均一ポテンシャルを飛行させ、例えば内部自由度上の量子ゲートを実現することで実現することができる。 しかし、飛行系は空間的な広がりを持ち、内部および空間的な自由度は総じて絡み合っており、外部の貯水池が存在しない場合でも内部状態のダイナミクスのデコヒーレンスを引き起こす。 我々は,小さな空間展開を持つ球状粒子の動的,忠実度,エントロピーの変化に対して常に有効な式を,$\Delta x$で定量化する。 この非マルコフ的デコヒーレンス(英語版)(非マルコフ的デコヒーレンス)は、ボール型フライングキュービット(英語版)($\Delta x^2$)に対して重要であるが、通常、移動ポテンシャル井戸($\Delta x^6$)によって運ばれるフライングキュービットに対してはそうではない。 また、後に測定された弾道量子ビットに対して、このデコヒーレンスを完全に抑制する方法についても論じる。

An effective time-dependent Hamiltonian can be implemented by making a quantum system fly through an inhomogeneous potential, realizing, for example, a quantum gate on its internal degrees of freedom. However, flying systems have a spatial spread that will generically entangle the internal and spatial degrees of freedom, leading to decoherence in the internal state dynamics, even in the absence of any external reservoir. We provide formulas valid at all times for the dynamics, fidelity, and change of entropy for ballistic particles with small spatial spreads, quantified by $\Delta x$. This non-Markovian decoherence can be significant for ballistic flying qubits (scaling as $\Delta x^2$) but usually not for flying qubits carried by a moving potential well (scaling as $\Delta x^6$). We also discuss a method to completely counteract this decoherence for a ballistic qubit later measured.
翻訳日:2024-06-14 01:42:49 公開日:2024-06-12
# DualCross: モノクローナルなBEV知覚のためのクロスモーダルクロスドメイン適応

DualCross: Cross-Modality Cross-Domain Adaptation for Monocular BEV Perception ( http://arxiv.org/abs/2305.03724v2 )

ライセンス: Link先を確認
Yunze Man, Liang-Yan Gui, Yu-Xiong Wang, (参考訳) トレーニングとデプロイメントの間のドメインギャップを閉鎖し、複数のセンサーモダリティを取り入れることは、自動運転にとって困難な2つのトピックである。 既存の作業は、上記のトピックの1つだけに焦点を当てており、現実のシナリオに広く存在する同時ドメインとモダリティシフトを見渡している。 ヨーロッパで収集されたマルチセンサーデータでトレーニングされたモデルは、入力センサーのサブセットを使用してアジアで実行する必要があるかもしれない。 本研究では,より堅牢な単眼鳥眼視(BEV)知覚モデルの学習を容易にするクロスモダリティ・クロスドメイン適応フレームワークであるDualCrossを提案する。 この研究は、クロスドメイン・クロスセンサーの認識と野生における単分子3Dタスクへの適応を初めてオープンに解析する結果となった。 ドメインシフトの幅の広い大規模データセットに対するアプローチをベンチマークし、さまざまなベースラインに対して最先端の結果を示す。

Closing the domain gap between training and deployment and incorporating multiple sensor modalities are two challenging yet critical topics for self-driving. Existing work only focuses on single one of the above topics, overlooking the simultaneous domain and modality shift which pervasively exists in real-world scenarios. A model trained with multi-sensor data collected in Europe may need to run in Asia with a subset of input sensors available. In this work, we propose DualCross, a cross-modality cross-domain adaptation framework to facilitate the learning of a more robust monocular bird's-eye-view (BEV) perception model, which transfers the point cloud knowledge from a LiDAR sensor in one domain during the training phase to the camera-only testing scenario in a different domain. This work results in the first open analysis of cross-domain cross-sensor perception and adaptation for monocular 3D tasks in the wild. We benchmark our approach on large-scale datasets under a wide range of domain shifts and show state-of-the-art results against various baselines.
翻訳日:2024-06-14 01:42:49 公開日:2024-06-12
# 事前学習拡散モデルによる一発半教師付きフェデレーション学習の探索

Exploring One-shot Semi-supervised Federated Learning with A Pre-trained Diffusion Model ( http://arxiv.org/abs/2305.04063v3 )

ライセンス: Link先を確認
Mingzhao Yang, Shangchao Su, Bin Li, Xiangyang Xue, (参考訳) 近年,サーバ上のラベル付きデータとクライアント上のラベルなしデータを用いた半教師付きフェデレーション学習(semi-FL)が提案されている。 しかし、既存の手法では、通信コスト、データ不均一性、クライアントデバイスに対するトレーニング圧力など、いくつかの課題に直面している。 これらの課題に対処するため,FedDISC(Federated Diffusion-Inspired Semi-supervised Co-training)を提案する。 具体的には、まずラベル付きサーバデータのプロトタイプを抽出し、これらのプロトタイプを使用してクライアントデータの擬似ラベルを予測する。 各カテゴリについて、クラスタセントロイドとドメイン固有の表現を計算し、それらの分布のセマンティックおよびスタイリスティックな情報を表す。 ノイズを追加した後、これらの表現はサーバに送信され、事前訓練されたDMを使用して、クライアントの分布に応じて合成データセットを生成し、その上でグローバルモデルをトレーニングする。 DM内の膨大な知識の助けを借りて、合成データセットはクライアントイメージに匹敵する品質と多様性を有し、その後、教師付き集中トレーニングの天井に匹敵するパフォーマンスを達成するグローバルモデルのトレーニングを可能にする。 FedDISCは1回の通信ラウンドで動作し、ローカルなトレーニングを必要としない。 3つの大規模データセットに対する大規模な実験により、FedDISCは非IIDクライアント上の半FL問題に効果的に対処し、比較したSOTA法より優れていることが示された。 十分な可視化実験は、FedDISCが生成した合成データセットが元のクライアントデータセットに匹敵する多様性と品質を示しており、クライアントのプライバシーに敏感な情報を漏洩する可能性があることも示している。

Recently, semi-supervised federated learning (semi-FL) has been proposed to handle the commonly seen real-world scenarios with labeled data on the server and unlabeled data on the clients. However, existing methods face several challenges such as communication costs, data heterogeneity, and training pressure on client devices. To address these challenges, we introduce the powerful diffusion models (DM) into semi-FL and propose FedDISC, a Federated Diffusion-Inspired Semi-supervised Co-training method. Specifically, we first extract prototypes of the labeled server data and use these prototypes to predict pseudo-labels of the client data. For each category, we compute the cluster centroids and domain-specific representations to signify the semantic and stylistic information of their distributions. After adding noise, these representations are sent back to the server, which uses the pre-trained DM to generate synthetic datasets complying with the client distributions and train a global model on it. With the assistance of vast knowledge within DM, the synthetic datasets have comparable quality and diversity to the client images, subsequently enabling the training of global models that achieve performance equivalent to or even surpassing the ceiling of supervised centralized training. FedDISC works within one communication round, does not require any local training, and involves very minimal information uploading, greatly enhancing its practicality. Extensive experiments on three large-scale datasets demonstrate that FedDISC effectively addresses the semi-FL problem on non-IID clients and outperforms the compared SOTA methods. Sufficient visualization experiments also illustrate that the synthetic dataset generated by FedDISC exhibits comparable diversity and quality to the original client dataset, with a neglectable possibility of leaking privacy-sensitive information of the clients.
翻訳日:2024-06-14 01:42:49 公開日:2024-06-12
# Logit Attribution Matching を用いた領域一般化のための一貫性規則化

Consistency Regularization for Domain Generalization with Logit Attribution Matching ( http://arxiv.org/abs/2305.07888v2 )

ライセンス: Link先を確認
Han Gao, Kaican Li, Weiyan Xie, Zhi Lin, Yongxiang Huang, Luning Wang, Caleb Chen Cao, Nevin L. Zhang, (参考訳) ドメイン一般化(Domain Generalization, DG)とは、ドメインシフトの下でよく一般化されるトレーニングモデルである。 DGに関するこれまでの研究は、主に単一ソースまたは複数ソース設定で行われてきた。 本稿では、トレーニングドメインに同じ意味情報を共有するサンプルのペアを組み込んだ第3の、あまり知られていない設定について考察する。 このようなセマンティック共有(SS)ペアは、データ拡張を通じて生成され、整合性正規化(CR)に使用される。 本稿では、CRがDGに誘導可能であることを示す理論を提案し、ロジット属性マッチング(LAM)と呼ばれる新しいCR法を提案する。 5つのDGベンチマークと4つの事前訓練されたモデルに対して,汎用的およびターゲット的データ拡張法で作成したSSペアを用いた実験を行った。 LAMは、SSペアを利用する単一/複数ソースのDGメソッドや様々なCRメソッドよりも優れています。 プロジェクトのコードとデータはhttps://github.com/Gaohan123/LAMで公開されている。

Domain generalization (DG) is about training models that generalize well under domain shift. Previous research on DG has been conducted mostly in single-source or multi-source settings. In this paper, we consider a third, lesser-known setting where a training domain is endowed with a collection of pairs of examples that share the same semantic information. Such semantic sharing (SS) pairs can be created via data augmentation and then utilized for consistency regularization (CR). We present a theory showing CR is conducive to DG and propose a novel CR method called Logit Attribution Matching (LAM). We conduct experiments on five DG benchmarks and four pretrained models with SS pairs created by both generic and targeted data augmentation methods. LAM outperforms representative single/multi-source DG methods and various CR methods that leverage SS pairs. The code and data of this project are available at https://github.com/Gaohan123/LAM
翻訳日:2024-06-14 01:42:49 公開日:2024-06-12
# DPIC:LLM生成テキスト検出のためのプロンプトと固有特性の分離

DPIC: Decoupling Prompt and Intrinsic Characteristics for LLM Generated Text Detection ( http://arxiv.org/abs/2305.12519v3 )

ライセンス: Link先を確認
Xiao Yu, Yuang Qi, Kejiang Chen, Guoqiang Chen, Xi Yang, Pengyuan Zhu, Xiuwei Shang, Weiming Zhang, Nenghai Yu, (参考訳) 大規模言語モデル(LLM)は、盗作、偽レビューをeコマースプラットフォームに植え込んだり、炎症的な偽ツイートを生んだり、誤用のリスクを引き起こすようなテキストを生成する可能性がある。 これにより、LLMによってテキストが生成されるかどうかを検出することがますます重要になっている。 既存の高品質な検出手法では、本質的な特徴を抽出するために、モデルの内部にアクセスする必要がある。 しかし,ブラックボックスモデルの内部にはアクセスできないため,検出品質に影響を及ぼすサロゲートモデルに頼らなければならない。 ブラックボックスモデルの高品質な検出を実現するため,ブラックボックスモデル生成テキストの本質的な深い特徴を抽出したい。 生成過程は生成モデルの素早い特性と本質的な特性の結合過程であると考えている。 そこで本研究では,LLM生成テキスト検出のためのDPIC(Properced and Intrinsic Characteristics)の分離を提案する。 具体的には、候補テキストが与えられた後、DPICは補助LLMを使用して候補テキストに対応するプロンプトを再構築し、そのプロンプトを使用して補助LLMによってテキストを再生し、候補テキストと再生されたテキストをそれぞれプロンプトと整合させる。 そして、候補テキストと再生テキストとの類似性を検出機能として使用することにより、検出プロセスにおけるプロンプトを排除し、検出者が生成モデルの本質的な特性に集中できるようにする。 ベースラインと比較して、DPICは、それぞれGPT4とClaude3によって生成された異なるドメインからのテキストの検出において平均6.76\%と2.91\%の改善を達成した。

Large language models (LLMs) have the potential to generate texts that pose risks of misuse, such as plagiarism, planting fake reviews on e-commerce platforms, or creating inflammatory false tweets. Consequently, detecting whether a text is generated by LLMs has become increasingly important. Existing high-quality detection methods usually require access to the interior of the model to extract the intrinsic characteristics. However, since we do not have access to the interior of the black-box model, we must resort to surrogate models, which impacts detection quality. In order to achieve high-quality detection of black-box models, we would like to extract deep intrinsic characteristics of the black-box model generated texts. We view the generation process as a coupled process of prompt and intrinsic characteristics of the generative model. Based on this insight, we propose to decouple prompt and intrinsic characteristics (DPIC) for LLM-generated text detection method. Specifically, given a candidate text, DPIC employs an auxiliary LLM to reconstruct the prompt corresponding to the candidate text, then uses the prompt to regenerate text by the auxiliary LLM, which makes the candidate text and the regenerated text align with their prompts, respectively. Then, the similarity between the candidate text and the regenerated text is used as a detection feature, thus eliminating the prompt in the detection process, which allows the detector to focus on the intrinsic characteristics of the generative model. Compared to the baselines, DPIC has achieved an average improvement of 6.76\% and 2.91\% in detecting texts from different domains generated by GPT4 and Claude3, respectively.
翻訳日:2024-06-14 01:42:49 公開日:2024-06-12
# ManiTweet: ソーシャルメディア上のニュースの操作を識別する新しいベンチマーク

ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media ( http://arxiv.org/abs/2305.14225v2 )

ライセンス: Link先を確認
Kung-Hsiang Huang, Hou Pong Chan, Kathleen McKeown, Heng Ji, (参考訳) 事実確認と忠実な要約の領域において、参照記事から得られる情報の誤表現に対処するために、重要な進歩がなされている。 しかし、未修正の側面が残っており、関連するニュース記事内の情報を操作するソーシャルメディア投稿の特定がされている。 この課題は、主にそのような役職における個人的な意見が広まることから、大きな課題となる。 ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。 この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。 我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。 さらに, ManiTweet データセット上で LLM を大幅に上回る,単純かつ効果的な基本モデルを開発した。 最後に、人書きツイートの探索分析を行い、操作とドメイン間の興味深いつながりとニュース記事の事実を明らかにするとともに、操作された文章がニュースメディアのメインストーリーや結果をカプセル化しやすいことを明らかにした。

Considerable advancements have been made to tackle the misrepresentation of information derived from reference articles in the domains of fact-checking and faithful summarization. However, an unaddressed aspect remains - the identification of social media posts that manipulate information within associated news articles. This task presents a significant challenge, primarily due to the prevalence of personal opinions in such posts. We present a novel task, identifying manipulation of news on social media, which aims to detect manipulation in social media posts and identify manipulated or inserted information. To study this task, we have proposed a data collection schema and curated a dataset called ManiTweet, consisting of 3.6K pairs of tweets and corresponding articles. Our analysis demonstrates that this task is highly challenging, with large language models (LLMs) yielding unsatisfactory performance. Additionally, we have developed a simple yet effective basic model that outperforms LLMs significantly on the ManiTweet dataset. Finally, we have conducted an exploratory analysis of human-written tweets, unveiling intriguing connections between manipulation and the domain and factuality of news articles, as well as revealing that manipulated sentences are more likely to encapsulate the main story or consequences of a news outlet.
翻訳日:2024-06-14 01:42:49 公開日:2024-06-12
# 古典的および量子的巡回冗長性チェックコード

Classical and quantum cyclic redundancy check codes ( http://arxiv.org/abs/2305.14883v2 )

ライセンス: Link先を確認
Simeon Ball, Ricard Vilar, (参考訳) 我々は,古典的誤り検出だけでなく,古典的誤り訂正にも,ある種の古典的周期的冗長性チェックコードを使用することを証明した。 古典的環状冗長チェック符号を量子環状冗長チェック符号に拡張する。 これにより、バースト長が量子レイガー境界に達した場合のバースト誤差を補正できる量子安定化器符号を構築することができる。 次に、高速線形時間復号アルゴリズムを示す量子環状冗長チェック符号の族を考える。

We prove that certain classical cyclic redundancy check codes can be used for classical error correction and not just classical error detection. We extend the idea of classical cyclic redundancy check codes to quantum cyclic redundancy check codes. This allows us to construct quantum stabiliser codes which can correct burst errors where the burst length attains the quantum Reiger bound. We then consider a certain family of quantum cyclic redundancy check codes for which we present a fast linear time decoding algorithm.
翻訳日:2024-06-14 01:42:49 公開日:2024-06-12
# 変圧器を用いた効率的な時系列予測のための訓練中の適応的スパーシリティレベル

Adaptive Sparsity Level during Training for Efficient Time Series Forecasting with Transformers ( http://arxiv.org/abs/2305.18382v2 )

ライセンス: Link先を確認
Zahra Atashgahi, Mykola Pechenizkiy, Raymond Veldhuis, Decebal Constantin Mocanu, (参考訳) リアルタイムアプリケーション、特にディープニューラルネットワーク(DNN)では、効率的な時系列予測が重要になっている。 DNNの効率性は、スパース接続とモデルサイズの削減によって達成できる。 しかし、データセット間のロススパーシティトレードオフの不均一性のため、トレーニング中に自動的にスパーシティレベルを見つけることは依然として困難である。 本稿では,所定間隔レベルを必要とせずに,損失と空間のバランスを自動的に求めるために,<enquote{\textbf{P}runing with \textbf{A}daptive \textbf{S}parsity \textbf{L}evel} (\textbf{PALS})を提案する。 PALSはスパーストレーニングとトレーニングの方法からインスピレーションを得ている。 スパースニューラルネットワークのトレーニングにおいて、新しい"拡張"メカニズムを導入し、モデルを動的に縮小、拡張、あるいは安定して適切なスパースレベルを見つけることを可能にする。 本稿では,優れた時系列予測性能と高い計算コストで知られている変圧器の効率性の実現に焦点をあてる。 それでも、PALSは任意のDNNに直接適用することができる。 本研究の目的は,DLinearモデルにおいても有効性を示すことである。 6つのベンチマークデータセットと5つのSOTA(State-of-the-art)トランスフォーマーによる実験結果から,PALSは高密度モデルに匹敵する性能を維持しながら,モデルサイズを大幅に削減することが示された。 さらに興味深いことに、PALS は密度モデルよりも優れており、MSE と MAE の損失でそれぞれ 30 のケースで \textcolor{blue}{12} と \textcolor{blue}{63\%} の FLOP を平均で減らし、それぞれ MSE と MAE の損失で 30 のケースで \textcolor{blue}{12} と \textcolor{blue}{14} のケースで FLOP を減らしている。 私たちのコードと補足資料はGithub\footnote{\tiny \url{https://github.com/zahraatashgahi/PALS}}で公開されています。

Efficient time series forecasting has become critical for real-world applications, particularly with deep neural networks (DNNs). Efficiency in DNNs can be achieved through sparse connectivity and reducing the model size. However, finding the sparsity level automatically during training remains challenging due to the heterogeneity in the loss-sparsity tradeoffs across the datasets. In this paper, we propose \enquote{\textbf{P}runing with \textbf{A}daptive \textbf{S}parsity \textbf{L}evel} (\textbf{PALS}), to automatically seek a decent balance between loss and sparsity, all without the need for a predefined sparsity level. PALS draws inspiration from sparse training and during-training methods. It introduces the novel "expand" mechanism in training sparse neural networks, allowing the model to dynamically shrink, expand, or remain stable to find a proper sparsity level. In this paper, we focus on achieving efficiency in transformers known for their excellent time series forecasting performance but high computational cost. Nevertheless, PALS can be applied directly to any DNN. To this aim, we demonstrate its effectiveness also on the DLinear model. Experimental results on six benchmark datasets and five state-of-the-art (SOTA) transformer variants show that PALS substantially reduces model size while maintaining comparable performance to the dense model. More interestingly, PALS even outperforms the dense model, in \textcolor{blue}{12} and \textcolor{blue}{14} cases out of 30 cases in terms of MSE and MAE loss, respectively, while reducing \textcolor{blue}{65\%} parameter count and \textcolor{blue}{63\%} FLOPs on average. Our code and supplementary material are available on Github\footnote{\tiny \url{https://github.com/zahraatashgahi/PALS}}.
翻訳日:2024-06-14 01:42:49 公開日:2024-06-12
# Babel-ImageNet:視覚・言語表現の多言語的評価

Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language Representations ( http://arxiv.org/abs/2306.08658v2 )

ライセンス: Link先を確認
Gregor Geigle, Radu Timofte, Goran Glavaš, (参考訳) モダリティごとに異なるエンコーダ(例えばCLIP)を持つビジョン・アンド・ランゲージ(VL)モデルは、ゼロショット画像分類と画像テキスト検索のためのゴートモデルとなっている。 しかし、多言語ベンチマークは可用性に制限があるため、主に英語で評価されている。 Babel-ImageNetは、100言語へのImageNetラベルの(部分的な)翻訳を提供する大規模なマルチ言語ベンチマークであり、機械翻訳や手動のアノテーションなしで構築されている。 その代わりに、WordNetシンセセットを共有することで、信頼性の高い翻訳をBabelNetにリンクすることで、自動的に取得します。 我々は,ゼロショット画像分類(ZS-IC)に基づく11の公開多言語CLIPモデルをベンチマークで評価し,高ソース言語(例えば,ドイツ語,中国語)と低ソース言語(例えば,シンハラ,ラオ)との差を顕著に示した。 重要な点として,本モデルにおけるZS-IC性能と画像テキスト検索の性能の相関が強く,ゴールド画像テキストデータを持たない言語の大部分を対象とした多言語モデルの評価にBabel-ImageNetを用いたことを検証する。 最後に,パラメータ効率のよい言語特化学習を行う低リソース言語に対して,多言語CLIPの性能を劇的に向上させることができることを示す。 コードとデータを公開します。 \url{https://github.com/gregor-ge/Babel-ImageNet}

Vision-and-language (VL) models with separate encoders for each modality (e.g., CLIP) have become the go-to models for zero-shot image classification and image-text retrieval. They are, however, mostly evaluated in English as multilingual benchmarks are limited in availability. We introduce Babel-ImageNet, a massively multilingual benchmark that offers (partial) translations of ImageNet labels to 100 languages, built without machine translation or manual annotation. We instead automatically obtain reliable translations by linking them -- via shared WordNet synsets -- to BabelNet, a massively multilingual lexico-semantic network. We evaluate 11 public multilingual CLIP models on zero-shot image classification (ZS-IC) on our benchmark, demonstrating a significant gap between English ImageNet performance and that of high-resource languages (e.g., German or Chinese), and an even bigger gap for low-resource languages (e.g., Sinhala or Lao). Crucially, we show that the models' ZS-IC performance highly correlates with their performance in image-text retrieval, validating the use of Babel-ImageNet to evaluate multilingual models for the vast majority of languages without gold image-text data. Finally, we show that the performance of multilingual CLIP can be drastically improved for low-resource languages with parameter-efficient language-specific training. We make our code and data publicly available: \url{https://github.com/gregor-ge/Babel-ImageNet}
翻訳日:2024-06-14 01:42:49 公開日:2024-06-12
# インフォームドPOMDP:モデルベースRLにおける追加情報を活用する

Informed POMDP: Leveraging Additional Information in Model-Based RL ( http://arxiv.org/abs/2306.11488v3 )

ライセンス: Link先を確認
Gaspard Lambrechts, Adrien Bolland, Damien Ernst, (参考訳) 本研究では,POMDPにおけるインタラクションによる学習の問題を,トレーニング時に利用できる付加的な情報を考慮することで一般化する。 まず,新しい学習パラダイムである情報PMDPを紹介し,学習時の情報と実行時の観察とを明確に区別する。 次に、この情報を利用して、最適制御のための履歴の十分な統計を学習する目的を提案する。 次に、この情報的目的に適応して、潜航軌道をサンプリングできる世界モデルを学ぶ。 最後に,Dreamerアルゴリズムにおいて,この情報付き世界モデルを用いて,複数の環境における学習速度の向上を実証的に示す。 これらの結果と,提案手法の単純さは,モデルベースRLを用いたPOMDP学習において,最終的な追加情報を体系的に検討することを提唱するものである。

In this work, we generalize the problem of learning through interaction in a POMDP by accounting for eventual additional information available at training time. First, we introduce the informed POMDP, a new learning paradigm offering a clear distinction between the information at training and the observation at execution. Next, we propose an objective that leverages this information for learning a sufficient statistic of the history for the optimal control. We then adapt this informed objective to learn a world model able to sample latent trajectories. Finally, we empirically show a learning speed improvement in several environments using this informed world model in the Dreamer algorithm. These results and the simplicity of the proposed adaptation advocate for a systematic consideration of eventual additional information when learning in a POMDP using model-based RL.
翻訳日:2024-06-13 23:42:48 公開日:2024-06-12
# 機械学習を用いた未知の乱れを動的システムに抑制する

Suppressing unknown disturbances to dynamical systems using machine learning ( http://arxiv.org/abs/2307.03690v4 )

ライセンス: Link先を確認
Juan G. Restrepo, Clayton P. Byers, Per Sebastian Skardal, (参考訳) 力学系に対する未知の障害を同定し、抑制することは、多くの異なる分野の応用において問題となる。 本稿では,未知のシステムに対する未知の障害を,既知の強制関数の影響下での以前の観測に基づいて同定し,抑制するモデルフリーな手法を提案する。 トレーニング関数の極めて穏やかな制限の下で,本手法は未知の乱れの大規模な分類と抑制を堅牢に行うことができる。 提案手法は, 決定的および確率的未知の乱れをアナログ電気カオス回路に同定し, ローレンツ系に対するカオス的乱れを同定し抑制する数値例で説明する。

Identifying and suppressing unknown disturbances to dynamical systems is a problem with applications in many different fields. Here we present a model-free method to identify and suppress an unknown disturbance to an unknown system based only on previous observations of the system under the influence of a known forcing function. We find that, under very mild restrictions on the training function, our method is able to robustly identify and suppress a large class of unknown disturbances. We illustrate our scheme with the identification of both deterministic and stochastic unknown disturbances to an analog electric chaotic circuit and with a numerical example where a chaotic disturbance to the Lorenz system is identified and suppressed.
翻訳日:2024-06-13 23:42:48 公開日:2024-06-12
# トップ・ドル・レコメンデーションのためのオフ・ポリティクス評価指標としての算術的利得の非正規化について

On (Normalised) Discounted Cumulative Gain as an Off-Policy Evaluation Metric for Top-$n$ Recommendation ( http://arxiv.org/abs/2307.15053v3 )

ライセンス: Link先を確認
Olivier Jeunen, Ivan Potapov, Aleksei Ustimenko, (参考訳) 推奨へのアプローチは、(1)(模擬)オンライン実験を通して、しばしばゴールドスタンダードと見なされるか、(2)オフライン評価手順を通して、オンライン実験の結果を近似することを目的として評価される。 いくつかのオフライン評価指標が文献で採用されており、インフォメーション検索の分野で広く使われているランキング指標にインスパイアされている。 (ノーマル化) 計算累積ゲイン(Discounted Cumulative Gain, NDCG)は、経験的研究に広く採用されている指標の一つであり、(n)DCG値の高い値は、何年もの間、n$の推薦で最先端の手法として新しい方法を提示するために用いられてきた。 我々の研究は、このアプローチを批判的に考察し、そのような指標がオンライン実験のゴールドスタンダードの成果の近似をいつ期待できるかを調査する。 我々は,DCGをオンライン報酬の偏りのない推定指標とみなすために必要な仮定を正式に提示し,この指標を第一原理から導出する。 重要なことは、計量の正規化は、DCGが非バイアスである場合でも、それらの正規化されたDCGによる競合メソッドのランク付けが相対的な順序を逆転できるという点において、矛盾することを示している。 大規模レコメンデーションプラットフォーム上で行ったオフライン実験とオンライン実験の相関分析により,我々の偏見のないDCG推定値とオンライン報酬との相関関係が,指標固有の仮定に違反した場合でも強く示された。 この文はもはや正規化された変種を定めておらず、nDCGの実用性は制限される可能性があることを示唆している。

Approaches to recommendation are typically evaluated in one of two ways: (1) via a (simulated) online experiment, often seen as the gold standard, or (2) via some offline evaluation procedure, where the goal is to approximate the outcome of an online experiment. Several offline evaluation metrics have been adopted in the literature, inspired by ranking metrics prevalent in the field of Information Retrieval. (Normalised) Discounted Cumulative Gain (nDCG) is one such metric that has seen widespread adoption in empirical studies, and higher (n)DCG values have been used to present new methods as the state-of-the-art in top-$n$ recommendation for many years. Our work takes a critical look at this approach, and investigates when we can expect such metrics to approximate the gold standard outcome of an online experiment. We formally present the assumptions that are necessary to consider DCG an unbiased estimator of online reward and provide a derivation for this metric from first principles, highlighting where we deviate from its traditional uses in IR. Importantly, we show that normalising the metric renders it inconsistent, in that even when DCG is unbiased, ranking competing methods by their normalised DCG can invert their relative order. Through a correlation analysis between off- and on-line experiments conducted on a large-scale recommendation platform, we show that our unbiased DCG estimates strongly correlate with online reward, even when some of the metric's inherent assumptions are violated. This statement no longer holds for its normalised variant, suggesting that nDCG's practical utility may be limited.
翻訳日:2024-06-13 23:42:48 公開日:2024-06-12
# 単一画像の高分解能化のための変圧器の周波数インスピレーションによる最適化の検討

Exploring Frequency-Inspired Optimization in Transformer for Efficient Single Image Super-Resolution ( http://arxiv.org/abs/2308.05022v3 )

ライセンス: Link先を確認
Ao Li, Le Zhang, Yun Liu, Ce Zhu, (参考訳) トランスフォーマーに基づく手法は、長距離依存関係を効果的に抽出することにより、単一画像超解像(SISR)において顕著なポテンシャルを示した。 しかし、この領域における現在の研究の多くは、高頻度プリエントを組み込むことの重要性を見越しながら、グローバル情報を取得するためにトランスフォーマーブロックの設計を優先している。 本研究では, 変圧器構造が低周波情報の取得に適しているが, 畳み込み処理と比較して高周波表現を構築できる能力に限界があることを, 一連の実験で明らかにした。 提案手法であるクロスリファインメント適応型特徴変調トランス (CRAFT) は, 畳み込み構造と変圧器構造の強度を統合する。 高周波情報を抽出する高周波拡張残差ブロック(HFERB)と、グローバル情報をキャプチャするシフト矩形ウィンドウアテンションブロック(SRWAB)と、グローバル表現を精製するハイブリッドフュージョンブロック(HFB)とからなる。 CRAFTの効率向上を目的とした周波数誘導後量子化(PTQ)手法を提案する。 これらの戦略は適応的な二重クリッピングと境界修正を含む。 提案手法の汎用性をさらに向上するため,変換器を用いたSISR手法の一般量子化手法として機能するPTQ戦略を拡張した。 実験結果から, CRAFTは, 完全精度と量子化のシナリオにおいて, 現在の最先端手法よりも優れていることが示された。 これらの結果はPTQ戦略の有効性と普遍性を裏付けるものである。

Transformer-based methods have exhibited remarkable potential in single image super-resolution (SISR) by effectively extracting long-range dependencies. However, most of the current research in this area has prioritized the design of transformer blocks to capture global information, while overlooking the importance of incorporating high-frequency priors, which we believe could be beneficial. In our study, we conducted a series of experiments and found that transformer structures are more adept at capturing low-frequency information, but have limited capacity in constructing high-frequency representations when compared to their convolutional counterparts. Our proposed solution, the cross-refinement adaptive feature modulation transformer (CRAFT), integrates the strengths of both convolutional and transformer structures. It comprises three key components: the high-frequency enhancement residual block (HFERB) for extracting high-frequency information, the shift rectangle window attention block (SRWAB) for capturing global information, and the hybrid fusion block (HFB) for refining the global representation. To tackle the inherent intricacies of transformer structures, we introduce a frequency-guided post-training quantization (PTQ) method aimed at enhancing CRAFT's efficiency. These strategies incorporate adaptive dual clipping and boundary refinement. To further amplify the versatility of our proposed approach, we extend our PTQ strategy to function as a general quantization method for transformer-based SISR techniques. Our experimental findings showcase CRAFT's superiority over current state-of-the-art methods, both in full-precision and quantization scenarios. These results underscore the efficacy and universality of our PTQ strategy.
翻訳日:2024-06-13 23:42:48 公開日:2024-06-12
# 量子ノイズ駆動生成拡散モデル

Quantum-Noise-Driven Generative Diffusion Models ( http://arxiv.org/abs/2308.12013v3 )

ライセンス: Link先を確認
Marco Parigi, Stefano Martina, Filippo Caruso, (参考訳) 機械学習技術で実現された生成モデルは、新しい合成データを生成するために、有限個のトレーニングサンプルから複雑な未知のデータ分布を推測する強力なツールである。 拡散モデルは、最近、合成テキストと高品質な画像を作成する際に、生成する敵ネットワークの性能を克服する新しいフレームワークである。 ここでは、拡散モデルの量子一般化、すなわち、実量子システムで実験的にテスト可能な3つの量子ノイズ駆動型生成拡散モデルを提案し、議論する。 この考え方は、特に、推論中に古典拡散モデルの主な計算負担を克服するために、現在利用可能なノイズ量子プロセッサが必然的に苦しむコヒーレンス、絡み合い、ノイズの間の非自明な相互作用を利用する。 したがって、量子ノイズを検出・解決すべき問題としてではなく、より複雑な確率分布を生成するために非常に有益な鍵成分として、古典的に表現することが困難、あるいは不可能であり、そこから量子プロセッサが古典的よりも効率的にサンプリングすることができることを提案する。 ハイブリッド古典量子生成拡散モデルの数値シミュレーションの例も含む。 そこで本研究は, 気候予測から神経科学, 交通フロー分析から財務予測まで, 広範囲にわたる実世界の応用によるデータ生成・予測として, より強力に古典的なタスクに対処する新しい量子インスパイアされた, あるいは量子ベース生成拡散アルゴリズムの道を開くことを期待している。

Generative models realized with machine learning techniques are powerful tools to infer complex and unknown data distributions from a finite number of training samples in order to produce new synthetic data. Diffusion models are an emerging framework that have recently overcome the performance of the generative adversarial networks in creating synthetic text and high-quality images. Here, we propose and discuss the quantum generalization of diffusion models, i.e., three quantum-noise-driven generative diffusion models that could be experimentally tested on real quantum systems. The idea is to harness unique quantum features, in particular the non-trivial interplay among coherence, entanglement and noise that the currently available noisy quantum processors do unavoidably suffer from, in order to overcome the main computational burdens of classical diffusion models during inference. Hence, we suggest to exploit quantum noise not as an issue to be detected and solved but instead as a very remarkably beneficial key ingredient to generate much more complex probability distributions that would be difficult or even impossible to express classically, and from which a quantum processor might sample more efficiently than a classical one. An example of numerical simulations for an hybrid classical-quantum generative diffusion model is also included. Therefore, our results are expected to pave the way for new quantum-inspired or quantum-based generative diffusion algorithms addressing more powerfully classical tasks as data generation/prediction with widespread real-world applications ranging from climate forecasting to neuroscience, from traffic flow analysis to financial forecasting.
翻訳日:2024-06-13 23:42:48 公開日:2024-06-12
# 電磁系のウィグナー関数特性

Wigner function properties for electromagnetic systems ( http://arxiv.org/abs/2308.12613v2 )

ライセンス: Link先を確認
E. E. Perepelkin, B. I. Sadovnikov, N. G. Inozemtseva, P. V. Afonin, (参考訳) Wigner-Vlasov形式を用いて、電磁場におけるスカラー粒子に対するシュリンガー方程式の正確な3次元解を構築する。 電場と磁場は一様ではない。 波動関数の正確な表現に基づき、2種類のウィグナー関数の探索を行う。 最初の函数は、修正運動量を持つ通常のウィグナー函数である。 第2のウィグナー函数は、論文 (Phys. A 35 2791 (1987)) または [Phys. B 99 014423 (2019)] におけるワイル・ストラトノビッチ変換に基づいて構成される。 第2の関数は、第1の関数とは異なり、ガウス分布を持つ波動関数に対して負の値の領域を持つことが判明した(ハドソンの定理)。 非ガウス波動関数によって記述された電磁量子系の例が、うまく発見されている。 第2のウィグナー函数は非ガウス波動関数の位相空間全体に対して正である。 この結果は、ゲージ不変ウィグナー函数に対するハドソン定理に類似している。 一方、ウィグナー函数を知ることで、平均運動量ベクトル場と量子系のエネルギースペクトルの分布を見つけることができる。 一方、Wigner-Vlasov形式主義の枠組みの中では、平均運動量分布とエネルギーの大きさが知られている。 したがって、ウィグナー関数に従って得られる平均運動量分布とエネルギー値は、正確な運動量分布とエネルギー値と比較することができる。 本稿では,この比較を行い,その相違について述べる。 平均加速度流のフラソフ・モヤル近似は、電磁場を持つ量子系の位相空間に構築されている。 得られた近似により、第2方程式でフラソフ鎖を切断し、ボルツマン H-函数の進化を分析することができる。

Using the Wigner-Vlasov formalism, an exact 3D solution of the Schr\"odinger equation for a scalar particle in an electromagnetic field is constructed. Electric and magnetic fields are non-uniform. According to the exact expression for the wave function, the search for two types of the Wigner functions is conducted. The first function is the usual Wigner function with a modified momentum. The second Wigner function is constructed on the basis of the Weyl-Stratonovich transform in papers [Phys. Rev. A 35 2791 (1987)] or [Phys. Rev. B 99 014423 (2019)]. It turns out that the second function, unlike the first one, has areas of negative values for wave functions with the Gaussian distribution (Hudson's theorem). An example of electromagnetic quantum system described by a non-Gaussian wave function has successfully been found. The second Wigner function is positive over the whole phase space for the non-Gaussian wave function. This result is analogous to the Hudson theorem for the gage-invariant Wigner function. On the one hand, knowing the Wigner functions allows one to find the distribution of the mean momentum vector field and the energy spectrum of the quantum system. On the other hand, within the framework of the Wigner-Vlasov formalism, the mean momentum distribution and the magnitude of the energy are initially known. Consequently, the mean momentum distributions and energy values obtained according to the Wigner functions can be compared with the exact momentum distribution and energy values. This paper presents this comparison and describes the differences. The Vlasov-Moyal approximation of average acceleration flow has been built in phase space for a quantum system with electromagnetic field. The obtained approximation makes it possible to cut the Vlasov chain off at the second equation and also to analyze the Boltzmann H-function evolution.
翻訳日:2024-06-13 23:42:48 公開日:2024-06-12
# オープンドメイン科学仮説発見のための大規模言語モデル

Large Language Models for Automated Open-domain Scientific Hypotheses Discovery ( http://arxiv.org/abs/2309.02726v3 )

ライセンス: Link先を確認
Zonglin Yang, Xinya Du, Junxian Li, Jie Zheng, Soujanya Poria, Erik Cambria, (参考訳) 仮説的帰納は、科学者が世界を観察し、それらの観察を説明する仮説を提案しようとするときに、主要な推論タイプとして認識される。 仮説的帰納に関する過去の研究は,(1)データセットの観察アノテーションは手作業による手作業による文章であり,(2)基礎的真理仮説は概ね常識的知識であり,課題を難しくする。 本研究は,社会科学の学術的仮説発見のための最初のデータセットを提案することによって,これらの課題に対処し,有効な,新規で有用な科学的仮説を自動生成するシステムを構築することを目的としている。 従来のデータセットとは異なり、新しいデータセットには、(1)オープンドメインデータ(RAW Webコーパス)を観察として使用すること、(2)人間性にさらに新しい仮説を提案することが必要である。 GPT-4に基づく評価と専門家による評価の両面で優れた性能を示す3つのフィードバック機構を含むマルチモジュールフレームワークが開発されている。 我々の知る限りでは、LLMが新しい(''文献に存在しない')科学仮説を生成できることを示す最初の研究である。

Hypothetical induction is recognized as the main reasoning type when scientists make observations about the world and try to propose hypotheses to explain those observations. Past research on hypothetical induction is under a constrained setting: (1) the observation annotations in the dataset are carefully manually handpicked sentences (resulting in a close-domain setting); and (2) the ground truth hypotheses are mostly commonsense knowledge, making the task less challenging. In this work, we tackle these problems by proposing the first dataset for social science academic hypotheses discovery, with the final goal to create systems that automatically generate valid, novel, and helpful scientific hypotheses, given only a pile of raw web corpus. Unlike previous settings, the new dataset requires (1) using open-domain data (raw web corpus) as observations; and (2) proposing hypotheses even new to humanity. A multi-module framework is developed for the task, including three different feedback mechanisms to boost performance, which exhibits superior performance in terms of both GPT-4 based and expert-based evaluation. To the best of our knowledge, this is the first work showing that LLMs are able to generate novel (''not existing in literature'') and valid (''reflecting reality'') scientific hypotheses.
翻訳日:2024-06-13 23:42:48 公開日:2024-06-12
# ダブルウェル及びアンハーモニック発振器におけるアンハーモニック性の影響を統一する

Unify the effect of anharmonicity in double-wells and anharmonic oscillators ( http://arxiv.org/abs/2309.09269v2 )

ライセンス: Link先を確認
Wei Fan, Huipen Zhang, Zhuoran Li, (参考訳) 数値ブートストラップ法を用いて, 基底と第1励起状態の間のエネルギーギャップを計算し, 量子無調波発振器における非調和性の影響について検討した。 結合状態制限の摂動公式に基づいて、すべての結合値間のエネルギーギャップの定性式を提案する。 数値パラメータの詳細な値以外は、最近arXiv:2308.11516で提案された2重井戸ポテンシャルの基底状態分割式と同じ機能を持つ。 これは、アンハーモニック振動子とダブルウェルポテンシャルの両方におけるアンハーモニック性の影響を統一するが、その基礎となる物理過程は全く異なる。 我々は、量子相転移の観点から、それらの非調和性のこの接続を説明する。 この接続は、数値ブートストラップにより、オクティックアンハーモニシティまで正当化される。

We study the effect of anharmonicity in quantum anharmonic oscillators, by computing the energy gap between the ground and the 1st excited state using the numerical bootstrap method. Based on perturbative formulae of limiting coupling regimes, we propose a qualitative formula of the energy gap across all coupling values. Except detailed numerical parameter values, the proposed formula has the same functional form as the formula of ground state level splitting of double-well potentials, proposed recently in arXiv:2308.11516. This unifies the effects of anharmonicity in both the anharmonic oscillators and the double-well potentials, although the underlying physical process of them are completely different. We give an explanation of this connection of their anharmonicity from the viewpoint of quantum phase transitions. This connection is justified up to the octic anharmonicities by the numerical bootstrap.
翻訳日:2024-06-13 23:42:48 公開日:2024-06-12
# ロバスト配向LDMによるアライメント・ブレーキング攻撃に対する防御

Defending Against Alignment-Breaking Attacks via Robustly Aligned LLM ( http://arxiv.org/abs/2309.14348v3 )

ライセンス: Link先を確認
Bochuan Cao, Yuanpu Cao, Lu Lin, Jinghui Chen, (参考訳) 近年、Large Language Models (LLM) は大きな進歩を遂げ、現在では様々な領域で広く使われている。 残念なことに、LSMが有害または悪意のあるコンテンツを生成するために誤用される可能性があるという懸念が高まっている。 LLMを人間の価値観と整合させ、それらが不適切なコンテンツを生み出すのを防ぐことに焦点を当てた研究のラインもあるが、そのようなアライメントは通常脆弱であり、逆向きに最適化されたり、手作りのジェイルブレイクプロンプトによってアライメントを破ることによってバイパスすることができる。 本研究では,アライメントを破る可能性のある攻撃に対して,ロバストにアライメントされたLLM(RA-LLM)を導入する。 RA-LLMは、従来のLLMの高価な再トレーニングや微調整を必要とすることなく、ロバストなアライメントチェック機能を備えた既存のLCM上に直接構築することができる。 さらに,RA-LLMのアライメント破壊攻撃に対する防御効果を検証するための理論的解析を行った。 オープンソースの大規模言語モデルに関する実世界の実験を通じて、RA-LLMは、攻撃成功率を100%から10%程度に減らして、最先端の敵対的プロンプトと、一般的な手作りのジェイルブレイクプロンプトの両方を防御できることを示した。

Recently, Large Language Models (LLMs) have made significant advancements and are now widely used across various domains. Unfortunately, there has been a rising concern that LLMs can be misused to generate harmful or malicious content. Though a line of research has focused on aligning LLMs with human values and preventing them from producing inappropriate content, such alignments are usually vulnerable and can be bypassed by alignment-breaking attacks via adversarially optimized or handcrafted jailbreaking prompts. In this work, we introduce a Robustly Aligned LLM (RA-LLM) to defend against potential alignment-breaking attacks. RA-LLM can be directly constructed upon an existing aligned LLM with a robust alignment checking function, without requiring any expensive retraining or fine-tuning process of the original LLM. Furthermore, we also provide a theoretical analysis for RA-LLM to verify its effectiveness in defending against alignment-breaking attacks. Through real-world experiments on open-source large language models, we demonstrate that RA-LLM can successfully defend against both state-of-the-art adversarial prompts and popular handcrafted jailbreaking prompts by reducing their attack success rates from nearly 100% to around 10% or less.
翻訳日:2024-06-13 23:42:48 公開日:2024-06-12
# ゆるやかに変動するオーバーハウザー場勾配の効率よい適応ベイズ推定

Efficient adaptive Bayesian estimation of a slowly fluctuating Overhauser field gradient ( http://arxiv.org/abs/2309.15014v3 )

ライセンス: Link先を確認
Jacob Benestad, Jan A. Krzywda, Evert van Nieuwenburg, Jeroen Danon, (参考訳) オーバーハウザー場の遅いゆらぎは、III-V半導体量子ドットにホストされるスピン量子ビットにおけるデコヒーレンスの重要な源である。 場勾配が二重ドット一重項四重項量子ビットに与える影響に着目して、一連の自由帰納的崩壊実験により勾配の大きさを推定する2つの適応ベイズスキームを提案する。 計算オーバーヘッドを削減することに集中し、リアルタイムなスキームの実装を念頭に置いている。 本研究では,従来の推定手法と比較して,推定精度を大幅に向上させることが可能であることを示す。 我々は,デファスティングの効果と勾配自体のドリフトの分析を含む。

Slow fluctuations of Overhauser fields are an important source for decoherence in spin qubits hosted in III-V semiconductor quantum dots. Focusing on the effect of the field gradient on double-dot singlet-triplet qubits, we present two adaptive Bayesian schemes to estimate the magnitude of the gradient by a series of free induction decay experiments. We concentrate on reducing the computational overhead, with a real-time implementation of the schemes in mind. We show how it is possible to achieve a significant improvement of estimation accuracy compared to more traditional estimation methods. We include an analysis of the effects of dephasing and the drift of the gradient itself.
翻訳日:2024-06-13 23:42:48 公開日:2024-06-12
# PPG-ECG信号変換による心房細動連続検出

PPG-to-ECG Signal Translation for Continuous Atrial Fibrillation Detection via Attention-based Deep State-Space Modeling ( http://arxiv.org/abs/2309.15375v4 )

ライセンス: Link先を確認
Khuong Vo, Mostafa El-Khamy, Yoojin Choi, (参考訳) 光胸腺撮影(英: Photoplethysmography、PPG)は、光学的手法を用いて心臓生理学を計測する費用効率の高い非侵襲的手法である。 PPGは、健康モニタリングでますます人気となり、様々な商用および臨床ウェアラブルデバイスで使用されている。 心電図 (ECG) と比較すると, PPGは両者の相関が強いにもかかわらず, 臨床診断に有意な価値を与えていない。 本稿では,PPG信号を対応するECG波形に変換するために,主観非依存の注目に基づく深部状態空間モデル(ADSSM)を提案する。 このモデルはノイズに対して堅牢であるだけでなく、確率論的事前知識を取り入れることでデータ効率も向上する。 提案手法を評価するために,MIMIC-IIIデータベースから55名の被験者のデータを元の形式で使用し,実世界のシナリオを模倣したノイズで修正した。 既存の心房細動検出器(AFib)に心電図信号を入力する際に, 0.986のPR-AUCが実現した。 ADSSMは、心血管疾患の早期診断のためのECGの広範な知識基盤とPSGの継続的な測定の統合を可能にする。

Photoplethysmography (PPG) is a cost-effective and non-invasive technique that utilizes optical methods to measure cardiac physiology. PPG has become increasingly popular in health monitoring and is used in various commercial and clinical wearable devices. Compared to electrocardiography (ECG), PPG does not provide substantial clinical diagnostic value, despite the strong correlation between the two. Here, we propose a subject-independent attention-based deep state-space model (ADSSM) to translate PPG signals to corresponding ECG waveforms. The model is not only robust to noise but also data-efficient by incorporating probabilistic prior knowledge. To evaluate our approach, 55 subjects' data from the MIMIC-III database were used in their original form, and then modified with noise, mimicking real-world scenarios. Our approach was proven effective as evidenced by the PR-AUC of 0.986 achieved when inputting the translated ECG signals into an existing atrial fibrillation (AFib) detector. ADSSM enables the integration of ECG's extensive knowledge base and PPG's continuous measurement for early diagnosis of cardiovascular disease.
翻訳日:2024-06-13 23:33:02 公開日:2024-06-12
# エルゴディックと混合量子チャネル:2量子ビットから多体量子系へ

Ergodic and mixing quantum channels: From two-qubit to many-body quantum systems ( http://arxiv.org/abs/2310.02740v3 )

ライセンス: Link先を確認
S. Aravinda, Shilpak Banerjee, Ranjan Modak, (参考訳) 古典的エルゴード理論の発展は数学、物理学、一般の応用科学の分野に大きな影響を与えた。 ハミルトン力学の量子エルゴード理論は、熱力学と統計力学を理解する動機を持っている。 完全に正のトレース保存写像である量子チャネルは、量子力学の最も一般的な表現であり、量子情報理論と量子計算の重要な側面である。 本研究では, 量子チャネルのエルゴード理論を, エンゴード階層の異なるレベルを積分可能から混合可能に特徴付けることによって研究する。 単一系上の量子チャネルは、二部状態に作用し環境をトレースするユニタリ演算子から構成される。 これらのユニタリ作用素の相互作用強度は、作用素の絡み合いによって測定され、チャネルが混合されるのに十分な条件を提供する。 ブロック対角ユニタリ演算子を用いて、非エルゴードチャネルの集合を構築する。 2量子ユニタリ作用素の正準形式を用いることで、インテグレータブルからミキシングまでの単一キュービット上のチャネルを解析的に構築する。 さらに、有名なSachdev-Ye-Kitaev(SYK)モデルを含む多体量子システム間の相互作用についても検討し、量子チャネルの枠組み内で混合を示すことを示す。

The development of classical ergodic theory has had a significant impact in the areas of mathematics, physics, and, in general, applied sciences. The quantum ergodic theory of Hamiltonian dynamics has its motivations to understand thermodynamics and statistical mechanics. Quantum channel, a completely positive trace-preserving map, represents a most general representation of quantum dynamics and is an essential aspect of quantum information theory and quantum computation. In this work, we study the ergodic theory of quantum channels by characterizing different levels of ergodic hierarchy from integrable to mixing. The quantum channels on single systems are constructed from the unitary operators acting on bipartite states and tracing out the environment. The interaction strength of these unitary operators measured in terms of operator entanglement provides sufficient conditions for the channel to be mixing. By using block diagonal unitary operators, we construct a set of non-ergodic channels. By using canonical form of two-qubit unitary operator, we analytically construct the channels on single qubit ranging from integrable to mixing. Moreover, we also study interacting many-body quantum systems that include the famous Sachdev-Ye-Kitaev (SYK) model and show that they display mixing within the framework of the quantum channel.
翻訳日:2024-06-13 23:33:02 公開日:2024-06-12
# 直交重みを持つ深層ネットワークにおける特徴学習と一般化

Feature Learning and Generalization in Deep Networks with Orthogonal Weights ( http://arxiv.org/abs/2310.07765v2 )

ライセンス: Link先を確認
Hannah Day, Yonatan Kahn, Daniel A. Roberts, (参考訳) 独立なガウス分布から初期化された重みを持つ完全連結のディープニューラルネットワークは、臨界度に調整することができ、ネットワークを介して伝播する信号の指数的な成長や崩壊を防ぐことができる。 しかし、これらのネットワークは、ネットワークの深さとともに線形に成長する変動を示しており、深さに匹敵する幅のネットワークのトレーニングを損なう可能性がある。 直交行列のアンサンブルから初期化したタン・アクティベーションと重みを持つ長方形ネットワークは、深さに依存しない事前活性化変動に対応し、逆幅の先頭方向であることを示す。 さらに, 初期化時には, ガウス初期化の場合のように成長せずに成長するのではなく, トレーニング中の可観測物の進化を制御し, 逆幅の順に, ニューラルタンジェントカーネル(NTK)とその子孫を含む全ての相関体が, 深さ$\sim 20$で飽和することを示した。 この構造は、有限幅の特徴学習を保ちながら、全体のノイズを低減し、幅に匹敵する深さの深層ネットワークにおける一般化とトレーニングの速度を改善できると推測する。 MNIST と CIFAR-10 の分類タスクに対して,MNIST と CIFAR-10 の完全な勾配勾配下で訓練した深部非線形直交ネットワークの性能について,NTK の実証的な測定結果と関連づけて実験的な正当性を示す。

Fully-connected deep neural networks with weights initialized from independent Gaussian distributions can be tuned to criticality, which prevents the exponential growth or decay of signals propagating through the network. However, such networks still exhibit fluctuations that grow linearly with the depth of the network, which may impair the training of networks with width comparable to depth. We show analytically that rectangular networks with tanh activations and weights initialized from the ensemble of orthogonal matrices have corresponding preactivation fluctuations which are independent of depth, to leading order in inverse width. Moreover, we demonstrate numerically that, at initialization, all correlators involving the neural tangent kernel (NTK) and its descendants at leading order in inverse width -- which govern the evolution of observables during training -- saturate at a depth of $\sim 20$, rather than growing without bound as in the case of Gaussian initializations. We speculate that this structure preserves finite-width feature learning while reducing overall noise, thus improving both generalization and training speed in deep networks with depth comparable to width. We provide some experimental justification by relating empirical measurements of the NTK to the superior performance of deep nonlinear orthogonal networks trained under full-batch gradient descent on the MNIST and CIFAR-10 classification tasks.
翻訳日:2024-06-13 23:33:02 公開日:2024-06-12
# ペネトティブAI:LLMを物理世界と整合させる

Penetrative AI: Making LLMs Comprehend the Physical World ( http://arxiv.org/abs/2310.09605v3 )

ライセンス: Link先を確認
Huatao Xu, Liying Han, Qirui Yang, Mo Li, Mani Srivastava, (参考訳) 近年のLLM(Large Language Models)は,様々なタスクにまたがってその顕著な能力を実証している。 しかし、LLMの性質と、現実世界に関する情報を含むタスクを実行する際に、常識的な人間の知識を統合する可能性については、疑問が残る。 本稿は,IoTセンサやアクチュエータを通じて,LLMをどのように拡張して物理世界と対話し,理屈を定めているか,という概念を,私たちが“ペネティビティブAI”と呼んでいる概念として探求することによって,これらの疑問を掘り下げるものである。 本稿では,知覚信号の処理によって物理世界へ浸透するLLMの2つのレベルにおける拡張について検討する。 我々の予備的な知見は、ChatGPTが我々の探索の代表的な例であるLCMは、IoTセンサデータの解釈と物理領域におけるタスクの推論に組込み世界の知識を活用するのに、相当かつユニークな習熟度を持っていることを示唆している。 これは、従来のテキストベースのタスクを超えて、LLMの新たなアプリケーションを開くだけでなく、サイバー物理システムに人間の知識を組み込む新しい方法を可能にします。

Recent developments in Large Language Models (LLMs) have demonstrated their remarkable capabilities across a range of tasks. Questions, however, persist about the nature of LLMs and their potential to integrate common-sense human knowledge when performing tasks involving information about the real physical world. This paper delves into these questions by exploring how LLMs can be extended to interact with and reason about the physical world through IoT sensors and actuators, a concept that we term "Penetrative AI". The paper explores such an extension at two levels of LLMs' ability to penetrate into the physical world via the processing of sensory signals. Our preliminary findings indicate that LLMs, with ChatGPT being the representative example in our exploration, have considerable and unique proficiency in employing the embedded world knowledge for interpreting IoT sensor data and reasoning over them about tasks in the physical realm. Not only this opens up new applications for LLMs beyond traditional text-based tasks, but also enables new ways of incorporating human knowledge in cyber-physical systems.
翻訳日:2024-06-13 23:33:02 公開日:2024-06-12
# 非デジタルテキストプロンプトによる音声編集

Audio Editing with Non-Rigid Text Prompts ( http://arxiv.org/abs/2310.12858v2 )

ライセンス: Link先を確認
Francesco Paissan, Luca Della Libera, Zhepei Wang, Mirco Ravanelli, Paris Smaragdis, Cem Subakan, (参考訳) 本稿では,非剛性テキスト編集による音声編集について検討する。 提案した編集パイプラインは,入力音声に忠実な音声編集を作成可能であることを示す。 追加、スタイル転送、インペイントを行うテキストプロンプトを探索する。 最近リリースされた音声生成モデルであるAudio-LDMより優れた結果が得られることを定量的に定性的に示す。 実験結果の質的検査により,提案手法による編集は,元の音声イベントのオンセットとオフセットを保持するという点で,入力音声に忠実であることが明らかとなった。

In this paper, we explore audio-editing with non-rigid text edits. We show that the proposed editing pipeline is able to create audio edits that remain faithful to the input audio. We explore text prompts that perform addition, style transfer, and in-painting. We quantitatively and qualitatively show that the edits are able to obtain results which outperform Audio-LDM, a recently released text-prompted audio generation model. Qualitative inspection of the results points out that the edits given by our approach remain more faithful to the input audio in terms of keeping the original onsets and offsets of the audio events.
翻訳日:2024-06-13 23:33:02 公開日:2024-06-12
# 医薬勧告のための知識誘導医療処方ネットワーク

Knowledge-Induced Medicine Prescribing Network for Medication Recommendation ( http://arxiv.org/abs/2310.14552v2 )

ライセンス: Link先を確認
Ahmad Wisnu Mulyadi, Heung-Il Suk, (参考訳) 電子健康記録(EHR)の広範囲な採用は、様々な下流臨床分析に利用するための機会を提供する。 この目的を達成するために、EHRコホートを外部知識(例えば、標準化された医学オントロジーとリッチセマンティクス)で豊かにすることで、医療コード間の情報的関係のスペクトルを通してより包括的な洞察を明らかにするのに役立つ。 それにもかかわらず、これらの有用な相互接続を活用することは、特に医薬品推奨タスクにおいて、ほとんど実行されなかった。 本研究では,EHRコホートに基づく無数の医療関連外部情報源から知識を誘導し,医療知識グラフ(KG)として相互接続された医療コードをレンダリングすることにより,医薬を推奨する新しい知識誘導医療処方ネットワーク(KindMed)を提案する。 このようなKGに対する適切な埋め込みを得るために,関係認識グラフ表現学習に加えて,階層的シーケンス学習を活用して,患者の歴史的入院を横断する臨床(診断と治療)と医療の流れの時間的ダイナミクスを発見し,融合させ,パーソナライズされたレコメンデーションを奨励する。 最終的には,3つの重要な患者表現,すなわち,共同医療記録の要約,臨床経過,および現在の臨床状態について記述する注意深い処方を用いている。 実世界のEHRコホートに対するKindMedの有効性を検証し,少数のグラフ駆動ベースラインに対する推奨性能の改善を実現した。

Extensive adoption of electronic health records (EHRs) offers opportunities for their use in various downstream clinical analyses. To accomplish this purpose, enriching an EHR cohort with external knowledge (e.g., standardized medical ontology and wealthy semantics) could help us reveal more comprehensive insights via a spectrum of informative relations among medical codes. Nevertheless, harnessing those beneficial interconnections was scarcely exercised, especially in the medication recommendation task. This study proposes a novel Knowledge-Induced Medicine Prescribing Network (KindMed) to recommend medicines by inducing knowledge from myriad medical-related external sources upon the EHR cohort and rendering interconnected medical codes as medical knowledge graphs (KGs). On top of relation-aware graph representation learning to obtain an adequate embedding over such KGs, we leverage hierarchical sequence learning to discover and fuse temporal dynamics of clinical (i.e., diagnosis and procedures) and medicine streams across patients' historical admissions to foster personalized recommendations. Eventually, we employ attentive prescribing that accounts for three essential patient representations, i.e., a summary of joint historical medical records, clinical progression, and the current clinical state of patients. We validated the effectiveness of our KindMed on the augmented real-world EHR cohorts, achieving improved recommendation performances against a handful of graph-driven baselines.
翻訳日:2024-06-13 23:33:02 公開日:2024-06-12
# ヘテロフォリーおよびラベルノイズのあるグラフに対するラベル伝搬の復活

Resurrecting Label Propagation for Graphs with Heterophily and Label Noise ( http://arxiv.org/abs/2310.16560v2 )

ライセンス: Link先を確認
Yao Cheng, Caihua Shan, Yifei Shen, Xiang Li, Siqiang Luo, Dongsheng Li, (参考訳) ラベルノイズは、ディープニューラルネットワークの一般化能力を著しく低下させるため、大規模なデータセットでは一般的な課題である。 しかし、グラフモデルにはノードの特徴とグラフトポロジの両方が入力として含まれており、メッセージパッシング機構を通じてラベルのノイズを受けやすいものになっている。 近年,グラフ上のラベルノイズに対処する研究がいくつか提案されている。 重要な制限の一つは、グラフがホモフィリーであり、ラベルが滑らかに分布しているという仮定の下で機能することである。 しかし、現実世界のグラフは様々な度の異方性を示すことができ、あるいは異方性によって支配されることもあるため、現在の方法が不十分である。 本稿では, 任意のヘテロフィリーの文脈におけるグラフラベルノイズについて検討し, ノイズラベルの修正とラベルの割り当てを未ラベルノードに割り当てることを目的とした。 まず、2つの経験的分析を行い、グラフのホモフィリーがグラフラベルノイズに与える影響を探索する。 観測の後,$R^{2}LP$と表記される効率的なアルゴリズムを提案する。 特に、$R^{2}LP$は3段階の反復アルゴリズムである: 1) グラフを再構成してホモフィリーな性質を復元し、(2) ラベルの伝搬を利用してノイズのあるラベルを修正し、(3) 次のイテレーションで保持する高信頼ラベルを選択する。 これらのステップを繰り返すことで、正しいラベルの集合が得られ、最終的にノード分類タスクにおいて高い精度を達成できる。 理論解析は、その顕著なデノナイジング効果を示すためにも提供される。 最後に、異なるレベルのグラフヘテロフィリーと様々な種類のノイズを持つ10のベンチマークデータセットで実験を行う。 これらの実験では、R^{2}LP$を10の典型的なベースライン法と比較した。 提案した$R^{2}LP$の優れた性能を示す。

Label noise is a common challenge in large datasets, as it can significantly degrade the generalization ability of deep neural networks. Most existing studies focus on noisy labels in computer vision; however, graph models encompass both node features and graph topology as input, and become more susceptible to label noise through message-passing mechanisms. Recently, only a few works have been proposed to tackle the label noise on graphs. One significant limitation is that they operate under the assumption that the graph exhibits homophily and that the labels are distributed smoothly. However, real-world graphs can exhibit varying degrees of heterophily, or even be dominated by heterophily, which results in the inadequacy of the current methods. In this paper, we study graph label noise in the context of arbitrary heterophily, with the aim of rectifying noisy labels and assigning labels to previously unlabeled nodes. We begin by conducting two empirical analyses to explore the impact of graph homophily on graph label noise. Following observations, we propose a efficient algorithm, denoted as $R^{2}LP$. Specifically, $R^{2}LP$ is an iterative algorithm with three steps: (1) reconstruct the graph to recover the homophily property, (2) utilize label propagation to rectify the noisy labels, (3) select high-confidence labels to retain for the next iteration. By iterating these steps, we obtain a set of correct labels, ultimately achieving high accuracy in the node classification task. The theoretical analysis is also provided to demonstrate its remarkable denoising effect. Finally, we perform experiments on ten benchmark datasets with different levels of graph heterophily and various types of noise. In these experiments, we compare the performance of $R^{2}LP$ against ten typical baseline methods. Our results illustrate the superior performance of the proposed $R^{2}LP$.
翻訳日:2024-06-13 23:33:02 公開日:2024-06-12
# スパースベイズ多次元項目応答理論

Sparse Bayesian Multidimensional Item Response Theory ( http://arxiv.org/abs/2310.17820v2 )

ライセンス: Link先を確認
Jiguang Li, Robert Gibbons, Veronika Rockova, (参考訳) 多変量反応理論 (MIRT) は, アンケートデータにおける応答パターンの解釈的(スパース)な説明を求める応用研究者によって広く研究されている。 しかし、実際にはこのようなスパーシティ発見ツールの需要は未解決である。 本稿では, 並列化可能な機能のために, 最小限のチューニングと大規模データセットのスケールを必要とする, バイナリおよび順序項目 MIRT のためのベイズプラットフォームを開発した。 MIRTモデルのベイズ的手法は伝統的にMCMCシミュレーションに頼ってきたが、これは実際は遅くはない。 本研究では,連続,二項,順序の混合反応からスパース係数の負荷を推定するスケーラブルなベイズEMアルゴリズムを開発した。 ベイズ的非パラメトリックによる因子数推定ツールを用いて、未知の潜在因子次元の予想不可能な問題に対処する。 パラメータ展開によるスパーシティへの回転は、識別可能性制約なしで収束と解釈性をさらに向上させる。 シミュレーション研究により,本手法は高次元合成データにおける因子次元と潜時構造の両方を,小サンプルにおいても確実に復元することを示した。 本稿では,教育評価データセット,QOLデータセット,バイオビヘイビアデータセットの3つのデータセットに対して,アプローチの実用的有用性を示す。 すべての実演では,本ツールが解釈可能な推定値を出力し,純粋に確認された因子分析条件の下では気づかないかもしれない興味深い発見を促進することが示されている。

Multivariate Item Response Theory (MIRT) is sought-after widely by applied researchers looking for interpretable (sparse) explanations underlying response patterns in questionnaire data. There is, however, an unmet demand for such sparsity discovery tools in practice. Our paper develops a Bayesian platform for binary and ordinal item MIRT which requires minimal tuning and scales well on large datasets due to its parallelizable features. Bayesian methodology for MIRT models has traditionally relied on MCMC simulation, which cannot only be slow in practice, but also often renders exact sparsity recovery impossible without additional thresholding. In this work, we develop a scalable Bayesian EM algorithm to estimate sparse factor loadings from mixed continuous, binary, and ordinal item responses. We address the seemingly insurmountable problem of unknown latent factor dimensionality with tools from Bayesian nonparametrics which enable estimating the number of factors. Rotations to sparsity through parameter expansion further enhance convergence and interpretability without identifiability constraints. In our simulation study, we show that our method reliably recovers both the factor dimensionality as well as the latent structure on high-dimensional synthetic data even for small samples. We demonstrate the practical usefulness of our approach on three datasets: an educational assessment dataset, a quality-of-life measurement dataset, and a bio-behavioral dataset. All demonstrations show that our tool yields interpretable estimates, facilitating interesting discoveries that might otherwise go unnoticed under a pure confirmatory factor analysis setting.
翻訳日:2024-06-13 23:33:02 公開日:2024-06-12
# MELEP: マルチラベル心電図診断におけるトランスファービリティの新しい予測指標

MELEP: A Novel Predictive Measure of Transferability in Multi-Label ECG Diagnosis ( http://arxiv.org/abs/2311.04224v2 )

ライセンス: Link先を確認
Cuong V. Nguyen, Hieu Minh Duong, Cuong D. Do, (参考訳) 実用的な心電図(ECG)の解釈では、注意深いデータの不足が一般的な課題である。 このような状況下では伝達学習技術は有用であるが,伝達可能性の評価は限られている。 この課題に対処するため,Mati-label expecteded Log of Empirical Predictionsの略であるMELEPを導入する。これは,事前学習モデルから下流マルチラベルECG診断タスクへの知識伝達の有効性を推定するための指標である。 MELEPは汎用的であり、異なるラベルセットで新しいターゲットデータを扱う。 私たちの知る限りでは、MELEPはマルチラベルECG分類問題に特化して設計された最初の転送可能性指標である。 実験により、MELEPは、小・不均衡のECGデータに基づいて、事前学習した畳み込みと繰り返しの深部ニューラルネットワークの性能を予測できることを示した。 具体的には、MELEPと微調整モデルの平均F1スコアとの間に強い相関係数(ほとんどの場合0.6を超える絶対値)を観測した。 我々の研究は、ECG診断タスクに適したトレーニング済みモデルの選定を迅速化し、これらのモデルの微調整に費やされる時間と労力を節約するMELEPの可能性を強調している。

In practical electrocardiography (ECG) interpretation, the scarcity of well-annotated data is a common challenge. Transfer learning techniques are valuable in such situations, yet the assessment of transferability has received limited attention. To tackle this issue, we introduce MELEP, which stands for Muti-label Expected Log of Empirical Predictions, a measure designed to estimate the effectiveness of knowledge transfer from a pre-trained model to a downstream multi-label ECG diagnosis task. MELEP is generic, working with new target data with different label sets, and computationally efficient, requiring only a single forward pass through the pre-trained model. To the best of our knowledge, MELEP is the first transferability metric specifically designed for multi-label ECG classification problems. Our experiments show that MELEP can predict the performance of pre-trained convolutional and recurrent deep neural networks, on small and imbalanced ECG data. Specifically, we observed strong correlation coefficients (with absolute values exceeding 0.6 in most cases) between MELEP and the actual average F1 scores of the fine-tuned models. Our work highlights the potential of MELEP to expedite the selection of suitable pre-trained models for ECG diagnosis tasks, saving time and effort that would otherwise be spent on fine-tuning these models.
翻訳日:2024-06-13 23:33:02 公開日:2024-06-12
# テキスト生成のためのモデルベース最小ベイズリスクデコード

Model-Based Minimum Bayes Risk Decoding for Text Generation ( http://arxiv.org/abs/2311.05263v2 )

ライセンス: Link先を確認
Yuu Jinnai, Tetsuro Morimura, Ukyo Honda, Kaito Ariu, Kenshi Abe, (参考訳) 最小ベイズリスク(MBR)デコーディングは、テキスト生成タスクにおけるビームサーチデコーディングの強力な代替手段であることが示されている。 MBR復号法は、与えられた効用関数に従って確率モデルの下で最小のリスクを持つ仮説のプールから仮説を選択する。 予想されるリスクを全ての仮説で正確に計算することは不可能であるため、MBRでは2つの近似が一般的に用いられる。 まず、全ての仮説ではなく、一組の仮説をまとめて統合する。 第二に、モンテカルロ推定器を用いて各仮説の確率を推定する。 第1の近似は計算可能となるために必要であるが、第2の近似は通常、推論時にモデル確率にアクセスするため、必須ではない。 MBR のモデルベース MBR (MBMBR) は,モデル確率自体をモンテカルロ推定の代わりに確率分布の推定値として用いる。 テキスト生成タスクにおけるモンテカルロ推定よりもモデルに基づく推定の方が有望であることを示す。 実験の結果,MBMBRはエンコーダデコーダモデルと大規模言語モデルの両方で,テキスト生成タスクにおいてMBRよりも優れていた。

Minimum Bayes Risk (MBR) decoding has been shown to be a powerful alternative to beam search decoding in a variety of text generation tasks. MBR decoding selects a hypothesis from a pool of hypotheses that has the least expected risk under a probability model according to a given utility function. Since it is impractical to compute the expected risk exactly over all possible hypotheses, two approximations are commonly used in MBR. First, it integrates over a sampled set of hypotheses rather than over all possible hypotheses. Second, it estimates the probability of each hypothesis using a Monte Carlo estimator. While the first approximation is necessary to make it computationally feasible, the second is not essential since we typically have access to the model probability at inference time. We propose Model-Based MBR (MBMBR), a variant of MBR that uses the model probability itself as the estimate of the probability distribution instead of the Monte Carlo estimate. We show analytically and empirically that the model-based estimate is more promising than the Monte Carlo estimate in text generation tasks. Our experiments show that MBMBR outperforms MBR in several text generation tasks, both with encoder-decoder models and with large language models.
翻訳日:2024-06-13 23:33:02 公開日:2024-06-12
# ポリノミアル・ワーク・イテレーションによる高次ニュートン法

Higher-Order Newton Methods with Polynomial Work per Iteration ( http://arxiv.org/abs/2311.06374v2 )

ライセンス: Link先を確認
Amir Ali Ahmadi, Abraar Chaudhry, Jeffrey Zhang, (参考訳) 任意の位数$d$の微分を組み込んだニュートン法を一般化するが、反復当たりのコストの次元に対する多項式依存は維持する。 それぞれのステップで、$d^{\text{th}}$-orderメソッドは半定値プログラミングを使用して、最小化したい関数の$d^{\text{th}}$-order Taylor拡張に対する平方凸近似の和を構築し、最小化する。 われわれの$d^{\text{th}}$-orderメソッドが$d$の局所収束を持つことを証明している。 この結果、古典的なニュートン法と比較すると、オラクルの複雑さは低い。 局所ミニマ周辺のアトラクションの盆地は$d$の増加とともに大きくなることを示す数値的な例を示す。 追加の仮定の下では、繰り返し毎に多項式コストで修正されたアルゴリズムを提示するが、これは全世界的に収束し、次数$d$の局所収束を持つ。

We present generalizations of Newton's method that incorporate derivatives of an arbitrary order $d$ but maintain a polynomial dependence on dimension in their cost per iteration. At each step, our $d^{\text{th}}$-order method uses semidefinite programming to construct and minimize a sum of squares-convex approximation to the $d^{\text{th}}$-order Taylor expansion of the function we wish to minimize. We prove that our $d^{\text{th}}$-order method has local convergence of order $d$. This results in lower oracle complexity compared to the classical Newton method. We show on numerical examples that basins of attraction around local minima can get larger as $d$ increases. Under additional assumptions, we present a modified algorithm, again with polynomial cost per iteration, which is globally convergent and has local convergence of order $d$.
翻訳日:2024-06-13 23:33:02 公開日:2024-06-12
# 多言語名詞依存木バンク:言語モデルが構文構造をどのように表現し処理するかを理解する

Multilingual Nonce Dependency Treebanks: Understanding how Language Models represent and process syntactic structure ( http://arxiv.org/abs/2311.07497v2 )

ライセンス: Link先を確認
David Arps, Laura Kallmeyer, Younes Samih, Hassan Sajjad, (参考訳) 我々はSPUD(Semantically Perturbed Universal Dependencies)を導入した。これは多言語ユニバーサル依存(UD)コーパスのためのナンスツリーバンクを作成するためのフレームワークである。 SPUDデータは構文的引数構造を満足し、構文的アノテーションを提供し、言語固有の規則を通じて文法性を保証する。 我々は、アラビア語、英語、フランス語、ドイツ語、ロシア語でナンスデータを作成し、SPUDツリーバンクの2つのユースケースを実証する。 まず,自動回帰(ALM)とマスキング言語モデル(MLM)のパープレキシティスコアを用いて,名詞データが単語共起統計に与える影響について検討した。 その結果, ALM スコアは MLM スコアよりも, ナンスデータの影響が大きいことがわかった。 第二に、ナンスデータが構文依存プローブの性能にどのように影響するかを示す。 実測データに基づくM\"uller-Eberstein et al (2022) の結果を再現し, MLMとALMの両方の性能低下を示す。 オリジナルのテストデータだ しかし、ほとんどのパフォーマンスは保たれており、プローブは意味論から独立して構文を学習していることを示唆している。

We introduce SPUD (Semantically Perturbed Universal Dependencies), a framework for creating nonce treebanks for the multilingual Universal Dependencies (UD) corpora. SPUD data satisfies syntactic argument structure, provides syntactic annotations, and ensures grammaticality via language-specific rules. We create nonce data in Arabic, English, French, German, and Russian, and demonstrate two use cases of SPUD treebanks. First, we investigate the effect of nonce data on word co-occurrence statistics, as measured by perplexity scores of autoregressive (ALM) and masked language models (MLM). We find that ALM scores are significantly more affected by nonce data than MLM scores. Second, we show how nonce data affects the performance of syntactic dependency probes. We replicate the findings of M\"uller-Eberstein et al. (2022) on nonce test data and show that the performance declines on both MLMs and ALMs wrt. original test data. However, a majority of the performance is kept, suggesting that the probe indeed learns syntax independently from semantics.
翻訳日:2024-06-13 23:33:02 公開日:2024-06-12
# 言語間アライメントを用いた多言語生成言語モデルの文脈内学習の改善

Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment ( http://arxiv.org/abs/2311.08089v2 )

ライセンス: Link先を確認
Chong Li, Shaonan Wang, Jiajun Zhang, Chengqing Zong, (参考訳) 多言語生成モデルは、大規模コーパスの事前学習を通じて、顕著な言語間対話型インコンテキスト学習能力を得る。 しかし、ハイリソース言語に対する性能バイアスを示し、多言語文表現の独立した分布を学習し、言語間の知識伝達を妨げる可能性がある。 このギャップを埋めるために,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。 多言語コントラスト学習により、異なる言語にまたがる内部文表現を整列し、対象言語における言語間命令に従うことによって出力を整列する。 実験結果から,事前学習トークンの0.1 {\textperthousand} 未満であっても,我々のアライメントフレームワークは生成言語モデルの言語間相互能力を大幅に向上させ,性能ギャップを緩和することが示された。 さらに解析した結果、多言語モデルのより優れた内部多言語表現分布が得られることが明らかになった。

Multilingual generative models obtain remarkable cross-lingual in-context learning capabilities through pre-training on large-scale corpora. However, they still exhibit a performance bias toward high-resource languages and learn isolated distributions of multilingual sentence representations, which may hinder knowledge transfer across languages. To bridge this gap, we propose a simple yet effective cross-lingual alignment framework exploiting pairs of translation sentences. It aligns the internal sentence representations across different languages via multilingual contrastive learning and aligns outputs by following cross-lingual instructions in the target language. Experimental results show that even with less than 0.1 {\textperthousand} of pre-training tokens, our alignment framework significantly boosts the cross-lingual abilities of generative language models and mitigates the performance gap. Further analyses reveal that it results in a better internal multilingual representation distribution of multilingual models.
翻訳日:2024-06-13 23:23:18 公開日:2024-06-12
# いかにプロンプトが重要か! LLM によるテキスト検出の指導におけるタスク指向の制約でさえ

How You Prompt Matters! Even Task-Oriented Constraints in Instructions Affect LLM-Generated Text Detection ( http://arxiv.org/abs/2311.08369v3 )

ライセンス: Link先を確認
Ryuto Koike, Masahiro Kaneko, Naoaki Okazaki, (参考訳) LLM(Large Language Models)の誤用に対処するため,最近の多くの研究でLLM生成テキスト検出器を有望な性能で提案している。 ユーザがLSMにテキストを生成するように指示すると、その命令はユーザーの要求に応じて異なる制約を含むことができる。 しかし、近年の研究では、LLM検出のためのデータセットを作成する際に、このような多様な命令パターンをカバーしていない。 本稿では,タスク指向の制約 – 命令に自然に含まれ,検出回避とは無関係な制約 – でさえ,既存の強力な検出器が検出性能に大きなばらつきをもたらすことを明らかにする。 我々は,学生エッセイの執筆を現実的なドメインとして重視し,エッセイ品質の要因に基づいたタスク指向の制約を手作業で作成する。 実験の結果,命令を複数回生成したり,命令を言い換えたりすることで,命令によって生成されたテキストの標準偏差(SD)が有意に大きい(SDは14.4F1スコアまで)ことがわかった。 また,LLM検出の制約が不要な場合よりも,LLM検出の難しさを増すという,全体的な傾向も観察する。 最後に,LLMの命令追従能力が高いことは,そのような制約が検出性能に大きな影響を与えることを示唆する。

To combat the misuse of Large Language Models (LLMs), many recent studies have presented LLM-generated-text detectors with promising performance. When users instruct LLMs to generate texts, the instruction can include different constraints depending on the user's need. However, most recent studies do not cover such diverse instruction patterns when creating datasets for LLM detection. In this paper, we reveal that even task-oriented constraints -- constraints that would naturally be included in an instruction and are not related to detection-evasion -- cause existing powerful detectors to have a large variance in detection performance. We focus on student essay writing as a realistic domain and manually create task-oriented constraints based on several factors for essay quality. Our experiments show that the standard deviation (SD) of current detector performance on texts generated by an instruction with such a constraint is significantly larger (up to an SD of 14.4 F1-score) than that by generating texts multiple times or paraphrasing the instruction. We also observe an overall trend where the constraints can make LLM detection more challenging than without them. Finally, our analysis indicates that the high instruction-following ability of LLMs fosters the large impact of such constraints on detection performance.
翻訳日:2024-06-13 23:23:18 公開日:2024-06-12
# ゴール優先化による脱獄攻撃に対する大規模言語モデルの構築

Defending Large Language Models Against Jailbreaking Attacks Through Goal Prioritization ( http://arxiv.org/abs/2311.09096v2 )

ライセンス: Link先を確認
Zhexin Zhang, Junxiao Yang, Pei Ke, Fei Mi, Hongning Wang, Minlie Huang, (参考訳) 脱獄攻撃を通じてLLMの弱点を悪用することには大きな注意が払われているが、これらの攻撃から守るための努力はいまだにあいまいである。 我々は、ジェイルブレイクの成功に寄与する重要な要因を指摘している。 そこで,本研究では,目標の優先順位付けをトレーニング段階と推論段階の両方で統合して対処することを提案する。 推論中のゴール優先化を実装することで、ChatGPTのアタック成功率(ASR)が66.4%から3.6%に大幅に低下する。 また、目標優先順位付けをモデルトレーニングに統合することで、Llama2-13BのASRを71.0%から6.6%に削減できる。 注目すべきは、トレーニング中にジェイルブレイクサンプルを含まないシナリオでも、我々のアプローチはASRを半分に削減します。 さらに, LLM の安全性が向上する一方で, 後続の指導能力の強化により, 攻撃に対する防御能力も向上していることが明らかとなった。 我々の研究は、脱獄攻撃と防衛の理解に寄与し、LLMの能力と安全性の関係に光を当てている。 我々のコードは \url{https://github.com/thu-coai/JailbreakDefense_GoalPriority} で利用可能です。

While significant attention has been dedicated to exploiting weaknesses in LLMs through jailbreaking attacks, there remains a paucity of effort in defending against these attacks. We point out a pivotal factor contributing to the success of jailbreaks: the intrinsic conflict between the goals of being helpful and ensuring safety. Accordingly, we propose to integrate goal prioritization at both training and inference stages to counteract. Implementing goal prioritization during inference substantially diminishes the Attack Success Rate (ASR) of jailbreaking from 66.4% to 3.6% for ChatGPT. And integrating goal prioritization into model training reduces the ASR from 71.0% to 6.6% for Llama2-13B. Remarkably, even in scenarios where no jailbreaking samples are included during training, our approach slashes the ASR by half. Additionally, our findings reveal that while stronger LLMs face greater safety risks, they also possess a greater capacity to be steered towards defending against such attacks, both because of their stronger ability in instruction following. Our work thus contributes to the comprehension of jailbreaking attacks and defenses, and sheds light on the relationship between LLMs' capability and safety. Our code is available at \url{https://github.com/thu-coai/JailbreakDefense_GoalPriority}.
翻訳日:2024-06-13 23:23:18 公開日:2024-06-12
# ML-Bench:リポジトリレベルのコードに基づく機械学習タスクのための大規模言語モデルとエージェントの評価

ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code ( http://arxiv.org/abs/2311.09835v3 )

ライセンス: Link先を確認
Xiangru Tang, Yuliang Liu, Zefan Cai, Yanjun Shao, Junjie Lu, Yichi Zhang, Zexuan Deng, Helan Hu, Kaikai An, Ruijun Huang, Shuzheng Si, Sheng Chen, Haozhe Zhao, Liang Chen, Yan Wang, Tianyu Liu, Zhiwei Jiang, Baobao Chang, Yin Fang, Yujia Qin, Wangchunshu Zhou, Yilun Zhao, Arman Cohan, Mark Gerstein, (参考訳) GPT-4のような大規模言語モデル(LLM)は、関数レベルのコード生成において印象的な結果をもたらすが、リポジトリスケールのコード理解(例えば、ルーチンを呼び出すための正しい引数を思いつく)に苦慮し、複雑なファイルインタラクションのより深い理解を必要としている。 また、最近では、レポジトリコード(例えば、コンパイルと実行の評価)と対話しようとするLLMエージェントも開発され、パフォーマンスを評価する必要性が高まっている。 ML-Benchは、既存のコードリポジトリを利用してタスクを実行する実世界のプログラミングアプリケーションに根ざしたベンチマークです。 LLMが長いコードコンテキストを解釈し、命令を正確に実行可能なスクリプトに変換する必要性に対処するため、ML-Benchは18のGitHubリポジトリに9,641の注釈付きサンプルを含んでいる。 LLMとAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。 以上の結果から, GPT-4oはPass@5を50%以上でリードするが, 幻覚出力やbashスクリプト生成の難しさなど, 改善の余地は大きいことが示唆された。 特に、より要求の高いML-Agent-Benchでは、GPT-4oは76.47%の成功率に達し、複雑なタスク解決における反復的なアクションとフィードバックの有効性を反映している。

Despite Large Language Models (LLMs) like GPT-4 achieving impressive results in function-level code generation, they struggle with repository-scale code understanding (e.g., coming up with the right arguments for calling routines), requiring a deeper comprehension of complex file interactions. Also, recently, people have developed LLM agents that attempt to interact with repository code (e.g., compiling and evaluating its execution), prompting the need to evaluate their performance. These gaps have motivated our development of ML-Bench, a benchmark rooted in real-world programming applications that leverage existing code repositories to perform tasks. Addressing the need for LLMs to interpret long code contexts and translate instructions into precise, executable scripts, ML-Bench encompasses annotated 9,641 examples across 18 GitHub repositories, challenging LLMs to accommodate user-specified arguments and documentation intricacies effectively. To evaluate both LLMs and AI agents, two setups are employed: ML-LLM-Bench for assessing LLMs' text-to-code conversion within a predefined deployment environment, and ML-Agent-Bench for testing autonomous agents in an end-to-end task execution within a Linux sandbox environment. Our findings indicate that while GPT-4o leads with a Pass@5 rate surpassing 50%, there remains significant scope for improvement, highlighted by issues such as hallucinated outputs and difficulties with bash script generation. Notably, in the more demanding ML-Agent-Bench, GPT-4o achieves a 76.47% success rate, reflecting the efficacy of iterative action and feedback in complex task resolution.
翻訳日:2024-06-13 23:23:18 公開日:2024-06-12
# 線形リー代数パラメタライゼーションを用いた量子メロロジー

Quantum metrology with linear Lie algebra parameterisations ( http://arxiv.org/abs/2311.12446v2 )

ライセンス: Link先を確認
Ruvi Lecamwasam, Tatiana Iakovleva, Jason Twamley, (参考訳) リー代数技術は量子光学における力学とメロロジーを研究するための強力で広く使われているツールである。 ハミルトニアンが有限次元のリー代数を生成するとき、ユニタリ進化はワイ・ノルマン展開を用いて指数関数の有限積として表すことができる。 この系はヒルベルト空間が無限であるとしても、スカラー微分方程式の有限集合によって正確に記述される。 しかし、Wei-Norman展開によって提供される微分方程式は非線形であり、しばしば解析的および数値的評価の両方を妨げる特異点を持つ。 我々は、線形微分方程式をもたらす量子フィッシャー情報に対する新しいリー代数展開を導出する。 既存のリー代数の技法と相まって、多くのメソロジー問題を完全にハイゼンベルク図形で解析することができる。 これにより、多くの気象問題に関わる計算が大幅に削減され、Wei-Norman拡張を用いて数値的に解決できない問題に対する解析解が提供される。 量子光学および非線形光学における問題に適用されたこれらの手法の詳細な例を示す。

Lie algebraic techniques are powerful and widely-used tools for studying dynamics and metrology in quantum optics. When the Hamiltonian generates a Lie algebra with finite dimension, the unitary evolution can be expressed as a finite product of exponentials using the Wei-Norman expansion. The system is then exactly described by a finite set of scalar differential equations, even if the Hilbert space is infinite. However, the differential equations provided by the Wei-Norman expansion are nonlinear and often have singularities that prevent both analytic and numerical evaluation. We derive a new Lie algebra expansion for the quantum Fisher information, which results in linear differential equations. Together with existing Lie algebra techniques this allows many metrology problems to be analysed entirely in the Heisenberg picture. This substantially reduces the calculations involved in many metrology problems, and provides analytical solutions for problems that cannot even be solved numerically using the Wei-Norman expansion. We provide detailed examples of these methods applied to problems in quantum optics and nonlinear optomechanics.
翻訳日:2024-06-13 23:23:18 公開日:2024-06-12
# littleCLAP: コンストラッシブ言語を蒸留する-Audio Pretrained Model

tinyCLAP: Distilling Constrastive Language-Audio Pretrained Models ( http://arxiv.org/abs/2311.14517v2 )

ライセンス: Link先を確認
Francesco Paissan, Elisabetta Farella, (参考訳) 音声処理や音声処理の分野では,CLAP(Contrastive Language-Audio Pretraining)が重要になった。 雇用範囲は、音声イベント検出からテキスト・トゥ・オーディオ・ジェネレーションまで様々である。 しかし、主な制限の1つは、トレーニングプロセスに必要な大量のデータと、推論中の全体的な計算複雑性である。 本稿では,コントラッシブ言語-オーディオ事前学習モデルの複雑さを減らし,極小CLAPと呼ばれる効率的なモデルを生成する方法について検討する。 第一原理から一元蒸留損失を導出し, 共用多モードラテント空間の次元性をプルーニングにより減少させる方法について検討する。 TinyCLAPはオリジナルのMicrosoft CLAPパラメータの6%しか使用せず、テスト対象の3つのサウンドイベント検出データセットのゼロショット分類性能は最小限(5%未満)である。

Contrastive Language-Audio Pretraining (CLAP) became of crucial importance in the field of audio and speech processing. Its employment ranges from sound event detection to text-to-audio generation. However, one of the main limitations is the considerable amount of data required in the training process and the overall computational complexity during inference. This paper investigates how we can reduce the complexity of contrastive language-audio pre-trained models, yielding an efficient model that we call tinyCLAP. We derive an unimodal distillation loss from first principles and explore how the dimensionality of the shared, multimodal latent space can be reduced via pruning. TinyCLAP uses only 6% of the original Microsoft CLAP parameters with a minimal reduction (less than 5%) in zero-shot classification performance across the three sound event detection datasets on which it was tested
翻訳日:2024-06-13 23:23:18 公開日:2024-06-12
# 複雑な量子ネットワーク - トピカルレビュー

Complex Quantum Networks: a Topical Review ( http://arxiv.org/abs/2311.16265v2 )

ライセンス: Link先を確認
Johannes Nokkala, Jyrki Piilo, Ginestra Bianconi, (参考訳) これは量子物理学にとってエキサイティングな時代であり、新しい量子技術はすぐに前例のないレベルでコンピューティングを変革すると予想されている。 同時にネットワーク科学は、大きな相互作用するシステムの複雑さを捉えるのに理想的な数学的および計算の枠組みを証明している。 ここでは、複雑な量子ネットワークの台頭する分野を包括的かつタイムリーにレビューする。 このテーマは、量子アルゴリズムと量子技術を強化し、拡張するための設計原則を提供するために、複雑なネットワークの可能性を活用するための鍵となる。 一方、この主題は、重要な複雑なネットワーク特性を推測する新しい世代の量子アルゴリズムを提供することができる。 この分野は、ハミルトニアンとその相図を形成するためのネットワークの設計、多体量子システムの複雑化とネットワーク理論、量子物理学と量子アルゴリズムが新しいネットワーク特性と相転移を予測する方法、および量子通信ネットワークにおけるアーキテクチャ、トポロジ、パフォーマンスの間の相互作用を研究すること、といった基本的な研究課題を特徴としている。 本稿では、ネットワーク量子物理学者と量子量子量子ネットワーク理論者の両方を対象とした自己完結型プレゼンテーションにおいて、これらの多面的側面について概説する。 我々は、ネットワーク一般化、量子応用、量子一般化、量子拡張の4つの研究線に沿って、量子複雑ネットワークの分野を統一するフレームワークを提供する。 量子物理学とネットワーク科学のインターフェースにおける新たな機会と新たな発見につながる可能性がある。

These are exciting times for quantum physics as new quantum technologies are expected to soon transform computing at an unprecedented level. Simultaneously network science is flourishing proving an ideal mathematical and computational framework to capture the complexity of large interacting systems. Here we provide a comprehensive and timely review of the rising field of complex quantum networks. On one side, this subject is key to harness the potential of complex networks in order to provide design principles to boost and enhance quantum algorithms and quantum technologies. On the other side this subject can provide a new generation of quantum algorithms to infer significant complex network properties. The field features fundamental research questions as diverse as designing networks to shape Hamiltonians and their corresponding phase diagram, taming the complexity of many-body quantum systems with network theory, revealing how quantum physics and quantum algorithms can predict novel network properties and phase transitions, and studying the interplay between architecture, topology and performance in quantum communication networks. Our review covers all of these multifaceted aspects in a self-contained presentation aimed both at network-curious quantum physicists and at quantum-curious network theorists. We provide a framework that unifies the field of quantum complex networks along four main research lines: network-generalized, quantum-applied, quantum-generalized and quantum-enhanced. Finally we draw attention to the connections between these research lines, which can lead to new opportunities and new discoveries at the interface between quantum physics and network science.
翻訳日:2024-06-13 23:23:18 公開日:2024-06-12
# MobileDiffusion: モバイルデバイス上でのインスタントテキスト・画像生成

MobileDiffusion: Instant Text-to-Image Generation on Mobile Devices ( http://arxiv.org/abs/2311.16567v2 )

ライセンス: Link先を確認
Yang Zhao, Yanwu Xu, Zhisheng Xiao, Haolin Jia, Tingbo Hou, (参考訳) モバイル機器への大規模テキスト・画像拡散モデルの展開は,その相当なモデルサイズと推論速度の遅さによって妨げられる。 本稿では,高効率なテキスト・画像拡散モデルである \textbf{MobileDiffusion} を提案する。 画像生成品質を保ちながら、冗長性を低減し、計算効率を向上し、モデルのパラメータ数を最小化するために、モデルアーキテクチャ設計を網羅的に検討する。 さらに, 蒸留法と拡散GANファインタニング法をMobileDiffusionに導入し, 8段階と1段階の推論を行った。 定量的および定性的に実施した実証研究は,提案手法の有効性を実証するものである。 MobileDiffusionは、モバイルデバイス上で512\times512$の画像を生成するために、注目すべき \textbf{sub-second}推論速度を実現し、新しい最先端技術を確立している。

The deployment of large-scale text-to-image diffusion models on mobile devices is impeded by their substantial model size and slow inference speed. In this paper, we propose \textbf{MobileDiffusion}, a highly efficient text-to-image diffusion model obtained through extensive optimizations in both architecture and sampling techniques. We conduct a comprehensive examination of model architecture design to reduce redundancy, enhance computational efficiency, and minimize model's parameter count, while preserving image generation quality. Additionally, we employ distillation and diffusion-GAN finetuning techniques on MobileDiffusion to achieve 8-step and 1-step inference respectively. Empirical studies, conducted both quantitatively and qualitatively, demonstrate the effectiveness of our proposed techniques. MobileDiffusion achieves a remarkable \textbf{sub-second} inference speed for generating a $512\times512$ image on mobile devices, establishing a new state of the art.
翻訳日:2024-06-13 23:23:18 公開日:2024-06-12
# 軸方向の物体追跡による簡易ビデオセグメンタ

A Simple Video Segmenter by Tracking Objects Along Axial Trajectories ( http://arxiv.org/abs/2311.18537v2 )

ライセンス: Link先を確認
Ju He, Qihang Yu, Inkyu Shin, Xueqing Deng, Alan Yuille, Xiaohui Shen, Liang-Chieh Chen, (参考訳) ビデオセグメンテーションは、時間とともにオブジェクトのセグメンテーションと追跡を必要とする。 入力サイズに二次的な依存があるため、高解像度の入力機能を備えたビデオセグメンテーションに直接自己アテンションを適用することは大きな課題となり、しばしばGPUメモリ容量が不足する。 その結果、現代のビデオセグメンタは、時間的注意を組み込まずに画像セグメンタを拡張したり、あるいは窓の時空間の注意を素直に頼ったりすることができる。 本研究では,物体を軸方向に沿って追従することで,映像セグメンタを強化する,汎用的でシンプルなフレームワークであるAxial-VSを提案する。 このフレームワークは,2つのサブタスク – 短期的イントラクリップセグメンテーションと長期的クロスクリップトラッキング – を通じて,ビデオセグメンテーションに取り組む。 第1のステップでは、Axial-VSは、提案した軸方向の注目により、オフザシェルフクリップレベルのビデオセグメンタを拡張し、クリップ内の高さおよび幅軌跡に沿ったオブジェクトを逐次追跡することにより、モーショントラジェクトリをキャプチャすることで、時間的一貫性を向上させる。 軸方向分解は、高密度な特徴に対する計算複雑性を著しく低減し、セグメンテーション品質においてウィンドウ時空間の注意力より優れる。 第2のステップでは、クリップレベルのセグメンタにおいて、オブジェクトクエリに軸トラジェクティブを付加し、オブジェクト情報を符号化し、異なるクリップをまたいでオブジェクト追跡を支援し、ビデオ全体を通して一貫したセグメンテーションを実現する。 Axial-VSは、ビデオセグメンテーションのベンチマークで最先端の結果を示し、現代のクリップレベルのビデオセグメンタの制限に対処する効果を強調している。 コードとモデルはhttps://github.com/TACJu/Axial-VS.comで入手できる。

Video segmentation requires consistently segmenting and tracking objects over time. Due to the quadratic dependency on input size, directly applying self-attention to video segmentation with high-resolution input features poses significant challenges, often leading to insufficient GPU memory capacity. Consequently, modern video segmenters either extend an image segmenter without incorporating any temporal attention or resort to window space-time attention in a naive manner. In this work, we present Axial-VS, a general and simple framework that enhances video segmenters by tracking objects along axial trajectories. The framework tackles video segmentation through two sub-tasks: short-term within-clip segmentation and long-term cross-clip tracking. In the first step, Axial-VS augments an off-the-shelf clip-level video segmenter with the proposed axial-trajectory attention, sequentially tracking objects along the height- and width-trajectories within a clip, thereby enhancing temporal consistency by capturing motion trajectories. The axial decomposition significantly reduces the computational complexity for dense features, and outperforms the window space-time attention in segmentation quality. In the second step, we further employ axial-trajectory attention to the object queries in clip-level segmenters, which are learned to encode object information, thereby aiding object tracking across different clips and achieving consistent segmentation throughout the video. Without bells and whistles, Axial-VS showcases state-of-the-art results on video segmentation benchmarks, emphasizing its effectiveness in addressing the limitations of modern clip-level video segmenters. Code and models are available at https://github.com/TACJu/Axial-VS.
翻訳日:2024-06-13 23:23:18 公開日:2024-06-12
# 量子速度制限による量子相転移の探索

Probing quantum phase transition via quantum speed limit ( http://arxiv.org/abs/2311.18579v2 )

ライセンス: Link先を確認
M Suman, S. Aravinda, Ranjan Modak, (参考訳) 量子速度制限(Quantum speed limit, QSL)は、ある状態が所定のハミルトン進化の下で所望の最終状態に進化するために必要な時間における下界である。 マンデルスタム・タム(MT)、マーゴラス・レヴィチン(ML)、二重ML(ML$^*$)の3つのよく知られたQSLが存在する。 準周期および線形ポテンシャルの存在下で非局在化-局在化遷移を行う一次元系を考える。 位相境界を越えて急激なクエンチを行うことで、正確な力学がQSLによって非常にうまく捉えられることが分かる。 MT境界は常に任意の任意の状態に対して短い時間制限で厳密であることを示し、直交時間(直交状態に到達するのに必要な時間)の最適境界は初期状態の選択に依存する。 さらに、極端なクエンチに対しては、MT境界が直交化の時点でより厳密であることが証明され、動的量子相転移(DQPT)に対する自由エネルギーの非解析性を質的に記述することができる。 最後に,他の診断ツールと比較して計算コストがはるかに低いQSLから,局所化-非局在化遷移点を正確に同定できることを実証した。

Quantum speed limit (QSL) is the lower bound on the time required for a state to evolve to a desired final state under a given Hamiltonian evolution. Three well-known QSLs exist Mandelstam-Tamm (MT), Margolus-Levitin (ML), and dual ML (ML$^*$) bounds. We consider one-dimensional systems that undergoes delocalization-localization transition in the presence of quasiperiodic and linear potential. By performing sudden quenches across the phase boundary, we find that the exact dynamics get captured very well by QSLs. We show that the MT bound is always tighter in the short time limit for any arbitrary state, while the optimal bound for the time of orthogonalization (time required to reach the orthogonal state) depends on the choice of the initial state. Further, for extreme quenches, we prove that the MT bound remains tighter for the time of orthogonalization, and it can qualitatively describe the non-analyticity in free energy for dynamical quantum phase transition (DQPT). Finally, we also demonstrate that the localization-delocalization transition point can be exactly identified from QSLs, whose computation cost is much less compared to many other diagnostic tools.
翻訳日:2024-06-13 23:23:18 公開日:2024-06-12
# マジックの背後にあるMERLIM:大規模画像言語モデルのマルチモーダル評価ベンチマーク

Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models ( http://arxiv.org/abs/2312.02219v2 )

ライセンス: Link先を確認
Andrés Villa, Juan Carlos León Alcázar, Alvaro Soto, Bernard Ghanem, (参考訳) 大きなビジョンと言語モデルは、完全に教師された、ゼロショットの視覚タスクにおいて、大幅な進歩を可能にした。 これらの大きなアーキテクチャは、現在のIT-LVLM(Instruction Tuning Large Vision and Language Model)のベースラインとなっている。 IT-LVLMは、自然言語命令と視覚データによって応答を変調する汎用マルチモーダルアシスタントである。 この汎用性にもかかわらず、基本的なコンピュータビジョン問題におけるIT-LVLMの有効性は、主に標準化された評価ベンチマークがないため、不明である。 本稿では,MERLIMと呼ばれるマルチモーダル評価ベンチマークについて紹介する。 MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。 この結果から,IT-LVMLの性能に関する重要な知見が得られ,細粒度視覚概念の特定,タスク間のオブジェクト幻覚,言語クエリへのバイアスなどが得られた。 また,これらのモデルには視覚的基盤が弱いことが示唆されるが,LLM成分に含まれる大域的視覚パターンや言語バイアスから,適切な推測が可能である。

Large Vision and Language Models have enabled significant advances in fully supervised and zero-shot visual tasks. These large architectures serve as the baseline to what is currently known as Instruction Tuning Large Vision and Language models (IT-LVLMs). IT-LVLMs are general-purpose multi-modal assistants whose responses are modulated by natural language instructions and visual data. Despite this versatility, IT-LVLM effectiveness in fundamental computer vision problems remains unclear, primarily due to the absence of a standardized evaluation benchmark. This paper introduces a Multi-modal Evaluation Benchmark named MERLIM, a scalable test-bed to assess the capabilities of IT-LVLMs on fundamental computer vision tasks. MERLIM contains over 300K image-question pairs and has a strong focus on detecting cross-modal "hallucination" events in IT-LVLMs. Our results bring important insights on the performance of state-of-the-art IT-LVMLs including limitations at identifying fine-grained visual concepts, object hallucinations across tasks, and biases towards the language query. Our findings also suggest that these models have weak visual grounding, but manage to make adequate guesses from global visual patterns or language biases contained in the LLM component.
翻訳日:2024-06-13 23:23:18 公開日:2024-06-12
# 低コスト高出力メンバーシップ推論攻撃

Low-Cost High-Power Membership Inference Attacks ( http://arxiv.org/abs/2312.03262v3 )

ライセンス: Link先を確認
Sajjad Zarifzadeh, Philippe Liu, Reza Shokri, (参考訳) メンバシップ推論攻撃は、特定のデータポイントがモデルのトレーニングに使用されたかどうかを検出することを目的としている。 我々は,計算オーバーヘッドの少ない,堅牢なメンバシップ推論攻撃(RMIA)を行うための新しい統計的試験を設計する。 本手法は, 確率比試験におけるヌル仮説のきめ細かいモデリングを行い, 参照モデルと参照集団データの両方を効果的に活用することによって実現した。 RMIAは、TPR-FPR曲線全体(極低FPRでも0。 計算制約の下では、事前訓練された参照モデルが限られた数しか利用できず、また、攻撃の他の要素(例えば、データ分布)が異なる場合、ランダムな推測にアプローチする以前の攻撃とは異なり、本手法は例外的にうまく機能する。 RMIAは、機械学習における実用的で正確なデータプライバシリスク評価の基礎を成している。

Membership inference attacks aim to detect if a particular data point was used in training a model. We design a novel statistical test to perform robust membership inference attacks (RMIA) with low computational overhead. We achieve this by a fine-grained modeling of the null hypothesis in our likelihood ratio tests, and effectively leveraging both reference models and reference population data samples. RMIA has superior test power compared with prior methods, throughout the TPR-FPR curve (even at extremely low FPR, as low as 0). Under computational constraints, where only a limited number of pre-trained reference models (as few as 1) are available, and also when we vary other elements of the attack (e.g., data distribution), our method performs exceptionally well, unlike prior attacks that approach random guessing. RMIA lays the groundwork for practical yet accurate data privacy risk assessment in machine learning.
翻訳日:2024-06-13 23:23:18 公開日:2024-06-12
# ディープベイズ因子

Deep Bayes Factors ( http://arxiv.org/abs/2312.05411v2 )

ライセンス: Link先を確認
Jungeum Kim, Veronika Rockova, (参考訳) ベイズ因子ほど広く使われているベイズ統計学の他のモデルや仮説検証ツールはない。 確率のない生成モデルに焦点をあて、従ってベイズ因子(正準確率比)の計算は明らかになっていない。 確率比法を用いて2つの競合モデルのシミュレーションデータに基づくベイズ係数の深層学習推定器を提案する。 この推定器は要約統計を欠き、ABCモデル選択の難しさのいくつかを排除している。 我々は,Deep Bayes Factor 推定器の整合性およびモデル選択ツールとしての整合性について十分な条件を確立する。 本研究は,推定値とモデル決定精度に関する幅広い品質指標を用いて,様々な事例を対象とした推定器の性能について検討する。 学習後,我々はベイズ因子推定器を,観測データであるY_0$だけでなく,いずれかの仮説モデルから到着した架空のデータに対して迅速に評価することが可能となる。 これにより、2つのモデルの下でベイズ因子の分布全体を検査し、これらの分布からベイズ因子の相対的な位置を$Y_0$で評価することができる。 ベイズ係数推定器が$Y_0$に調整された場合、そのような尾部評価は不可能である。 確率関数の知識を必要とする既存のMCMC技術と競合するDeep Bayes Factorsの性能を見出した。 また,後方および内在ベイズ因子推定のための変種についても検討する。 認知バイアスを決定するための比較的高次元実データ例に対して,本手法の有用性を実証する。

The is no other model or hypothesis verification tool in Bayesian statistics that is as widely used as the Bayes factor. We focus on generative models that are likelihood-free and, therefore, render the computation of Bayes factors (marginal likelihood ratios) far from obvious. We propose a deep learning estimator of the Bayes factor based on simulated data from two competing models using the likelihood ratio trick. This estimator is devoid of summary statistics and obviates some of the difficulties with ABC model choice. We establish sufficient conditions for consistency of our Deep Bayes Factor estimator as well as its consistency as a model selection tool. We investigate the performance of our estimator on various examples using a wide range of quality metrics related to estimation and model decision accuracy. After training, our deep learning approach enables rapid evaluations of the Bayes factor estimator at any fictional data arriving from either hypothesized model, not just the observed data $Y_0$. This allows us to inspect entire Bayes factor distributions under the two models and to quantify the relative location of the Bayes factor evaluated at $Y_0$ in light of these distributions. Such tail area evaluations are not possible for Bayes factor estimators tailored to $Y_0$. We find the performance of our Deep Bayes Factors competitive with existing MCMC techniques that require the knowledge of the likelihood function. We also consider variants for posterior or intrinsic Bayes factors estimation. We demonstrate the usefulness of our approach on a relatively high-dimensional real data example about determining cognitive biases.
翻訳日:2024-06-13 23:23:18 公開日:2024-06-12
# 人工上訴の真相: 語彙合成データの推論的有用性

The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data ( http://arxiv.org/abs/2312.07837v2 )

ライセンス: Link先を確認
Alexander Decruyenaere, Heidelinde Dehaene, Paloma Rabaey, Christiaan Polet, Johan Decruyenaere, Stijn Vansteelandt, Thomas Demeester, (参考訳) 生成モデルの最近の進歩は、プライバシに敏感なコンテキストの研究のために利用可能な合成データの作成を促進する。 しかし、合成データの解析は、ユニークな方法論上の課題を提起する。 そこで本研究では, 合成データからナイーブな推論を, 実際に観測されたかのように処理する実験的な証拠を提示する。 合成データを公開する前には、そのようなデータに対する統計的推論ツールを開発することが不可欠である。 シミュレーション実験により, 推定値が偏りのない場合でも, 偽陽性の発見率(タイプ1エラー)が許容不能に高いことを示す。 以前に提案された補正係数が使用されているにもかかわらず、この問題は深い生成モデルに留まり、部分的には推定器の収束が遅く、真の標準誤差の過小評価の結果である。 症例スタディを通じてさらに知見を実証する。

Recent advances in generative models facilitate the creation of synthetic data to be made available for research in privacy-sensitive contexts. However, the analysis of synthetic data raises a unique set of methodological challenges. In this work, we highlight the importance of inferential utility and provide empirical evidence against naive inference from synthetic data, whereby synthetic data are treated as if they were actually observed. Before publishing synthetic data, it is essential to develop statistical inference tools for such data. By means of a simulation study, we show that the rate of false-positive findings (type 1 error) will be unacceptably high, even when the estimates are unbiased. Despite the use of a previously proposed correction factor, this problem persists for deep generative models, in part due to slower convergence of estimators and resulting underestimation of the true standard error. We further demonstrate our findings through a case study.
翻訳日:2024-06-13 23:23:18 公開日:2024-06-12
# ブリュッセル効果から重力支援へ:中国におけるGDPRに触発された個人情報保護法の進化を理解する

From Brussels Effect to Gravity Assists: Understanding the Evolution of the GDPR-Inspired Personal Information Protection Law in China ( http://arxiv.org/abs/2312.08237v2 )

ライセンス: Link先を確認
Wenlong Li, Jiahong Chen, (参考訳) 本稿では,中国の個人情報保護法(PIPL)の進化を考察し,グローバルデータ保護開発の文脈に位置づける。 この説は「ブルッセル効果」の理論からインスピレーションを得ており、中国を主な例として、非西欧の管轄区域におけるその適用について批判的な説明をしている。 我々の目標は、中国の法的発展に関する比較注釈を提供するのではなく、中国法とEUのGDPRの間の複雑なダイナミクスを照らすことです。 我々は、中国の個人情報保護法の軌跡はブリュッセル効果の適用性に疑問を投げかけており、GDPRのPIPLへのインプリントは明らかであるが、より深い分析は、ブリュッセル効果の多くの前提と類似した理論から外れた、中国の曖昧で非線形な採用を明らかにしている。 GDPRにインスパイアされたPIPLの進化はブリュッセル効果の直接的な結果ではなく、外的影響と内的ダイナミクスの複雑な相互作用である。 本稿では、中国がGDPRを独自のデータ保護環境を形成するためのテンプレートとして戦略的な手段化を図った「重力支援」を補完する理論を紹介する。 我々の理論的枠組みは、中国が内部の考慮事項、国際標準、戦略的選択のパッチワークを通じてどのようにナビゲートするかを強調し、最終的にGDPRに類似した外観を持つデータ保護体制を彫刻するが、その政治的、文化的、法的背景と一致している。 PIPLの詳細な歴史・政策分析と今後の道筋についての合理的な憶測を合わせて,本分析は,中国における法的発展に対する実践的,文化的に整合したアプローチを示す。 これは、原則レベルでは潜在的に収束するが、実際は著しく分岐する可能性が高いという軌道を示唆している。

This paper explores the evolution of China's Personal Information Protection Law (PIPL) and situates it within the context of global data protection development. It draws inspiration from the theory of 'Brussels Effect' and provides a critical account of its application in non-Western jurisdictions, taking China as a prime example. Our objective is not to provide a comparative commentary on China's legal development but to illuminate the intricate dynamics between the Chinese law and the EU's GDPR. We argue that the trajectory of China's Personal Information Protection Law calls into question the applicability of the Brussels Effect: while the GDPR's imprint on the PIPL is evident, a deeper analysis unveils China's nuanced, non-linear adoption that diverges from many assumptions of the Brussels Effect and similar theories. The evolution of the GDPR-inspired PIPL is not as a straightforward outcome of the Brussels Effect but as a nuanced, intricate interplay of external influence and domestic dynamics. We introduce a complementary theory of 'gravity assist', which portrays China's strategic instrumentalisation of the GDPR as a template to shape its unique data protection landscape. Our theoretical framework highlights how China navigates through a patchwork of internal considerations, international standards, and strategic choices, ultimately sculpting a data protection regime that has a similar appearance to the GDPR but aligns with its distinct political, cultural and legal landscape. With a detailed historical and policy analysis of the PIPL, coupled with reasonable speculations on its future avenues, our analysis presents a pragmatic, culturally congruent approach to legal development in China. It signals a trajectory that, while potentially converging at a principled level, is likely to diverge significantly in practice [...]
翻訳日:2024-06-13 23:23:18 公開日:2024-06-12
# 群ベースクラスタ状態における非可逆対称性保護トポロジー次数

Non-invertible symmetry-protected topological order in a group-based cluster state ( http://arxiv.org/abs/2312.09272v2 )

ライセンス: Link先を確認
Christopher Fechisin, Nathanan Tantivasadakarn, Victor V. Albert, (参考訳) 量子凝縮物質系における超群対称性への関心は高まっているが、これらの対称性を明示的に実現している顕微鏡格子モデルは比較的少なく、多くの現象はまだ顕微鏡レベルで研究されていない。 基底状態が$G\times \text{Rep}(G)$-symmetric state: $G \textit{ cluster state}$ introduced in Brell, New Journal of Physics 17, 023029 (2015) [at http://doi.org/10.1088/1367-2630/17/2/023029]。 この状態は、$G\times \text{Rep}(G)$対称性によって保護される対称性保護位相(SPT)相にあり、双対性引数によって対称積状態と異なることを示す。 我々は,SPT順序のいくつかのシグネチャ,すなわち保護エッジモード,文字列順序パラメータ,トポロジカル応答を同定する。 我々は、$G$のクラスター状態が、測定に基づく量子計算の普遍的な資源としてどのように使われるかについて議論し、$G$がアーベル群の半直積である場合を明示的に解決する。

Despite growing interest in beyond-group symmetries in quantum condensed matter systems, there are relatively few microscopic lattice models explicitly realizing these symmetries, and many phenomena have yet to be studied at the microscopic level. We introduce a one-dimensional stabilizer Hamiltonian composed of group-based Pauli operators whose ground state is a $G\times \text{Rep}(G)$-symmetric state: the $G \textit{ cluster state}$ introduced in Brell, New Journal of Physics 17, 023029 (2015) [at http://doi.org/10.1088/1367-2630/17/2/023029]. We show that this state lies in a symmetry-protected topological (SPT) phase protected by $G\times \text{Rep}(G)$ symmetry, distinct from the symmetric product state by a duality argument. We identify several signatures of SPT order, namely protected edge modes, string order parameters, and topological response. We discuss how $G$ cluster states may be used as a universal resource for measurement-based quantum computation, explicitly working out the case where $G$ is a semidirect product of abelian groups.
翻訳日:2024-06-13 23:13:33 公開日:2024-06-12
# 多目的最適化のためのSMS-EMOAの実行時解析

Runtime Analysis of the SMS-EMOA for Many-Objective Optimization ( http://arxiv.org/abs/2312.10290v3 )

ライセンス: Link先を確認
Weijie Zheng, Benjamin Doerr, (参考訳) 古典的なNSGA-IIは、多目的最適化においてかなり困難であることが最近証明された。 本稿では,群集距離を第2選択基準としてではなく,超体積寄与を用いた定常NSGA-IIであるSMS-EMOAについて,多くの目的において,厳密なランタイム解析を行う。 そこで本研究では,まず,多目的型OJZJのmOJZJという,多目的型OJZJをランタイム解析のための最初の多目的型マルチモーダルベンチマークとして提案する。 SMS-EMOAは、このベンチマークの全Paretoフロントを$O(\mu M n^k)$ iterationsで計算し、$n$は問題サイズ(ビットストリング表現の長さ)、$k$はギャップサイズ(問題の難易度パラメータ)、$M=(2n/m-2k+3)^{m/2}はパレートフロントのサイズ、$\mu$は人口サイズ(少なくとも最大の非可算集合と同じサイズ)を表す。 この結果と元のNSGA-IIに対する既存の負の結果は、原則としてNSGA-IIの一般的なアプローチは多目的最適化に適しているが、タイブレーカとしての群集距離には欠点があることを示している。 SMS-EMOAについてさらに3つの知見を得た。 二目的OJZJベンチマークの最近の結果とは異なり、最近提案された確率的集団更新は、しばしばmOJZJにとって役に立たない。 つまり、$m>k$ のような $m$ に対して $\Theta(1)$ となる。 正の面では、目的数$m$によらず重み付き突然変異が、前述した双目的の場合と同じ優位性である$k^{0.5+k-\beta}/e^k$の順序の高速化をもたらすことを証明している。 最後に,従来の2目的のOneMinMaxとLOTZベンチマークを用いて,SMS-EMOAのランタイム解析を行い,GSEMOとNSGA-IIに匹敵する性能を示す。

The classic NSGA-II was recently proven to have considerable difficulties in many-objective optimization. This paper conducts the first rigorous runtime analysis in many objectives for the SMS-EMOA, a steady-state NSGA-II that uses the hypervolume contribution instead of the crowding distance as the second selection criterion. To this aim, we first propose a many-objective counterpart, the m-objective mOJZJ, of the bi-objective OJZJ, which is the first many-objective multimodal benchmark for runtime analysis. We prove that SMS-EMOA computes the full Pareto front of this benchmark in an expected number of $O(\mu M n^k)$ iterations, where $n$ denotes the problem size (length of the bit-string representation), $k$ the gap size (a difficulty parameter of the problem), $M=(2n/m-2k+3)^{m/2}$ the size of the Pareto front, and $\mu$ the population size (at least the same size as the largest incomparable set). This result together with the existing negative result for the original NSGA-II shows that, in principle, the general approach of the NSGA-II is suitable for many-objective optimization, but the crowding distance as tie-breaker has deficiencies. We obtain three additional insights on the SMS-EMOA. Different from a recent result for the bi-objective OJZJ benchmark, a recently proposed stochastic population update often does not help for mOJZJ. It at most results in a speed-up by a factor of order $2^{k} / \mu$, which is $\Theta(1)$ for large $m$, such as $m>k$. On the positive side, we prove that heavy-tailed mutation irrespective of the number $m$ of objectives results in a speed-up of order $k^{0.5+k-\beta}/e^k$, the same advantage as previously shown for the bi-objective case. Finally, we conduct the first runtime analyses of the SMS-EMOA on the classic bi-objective OneMinMax and LOTZ benchmarks and show that the SMS-EMOA has a performance comparable to the GSEMO and the NSGA-II.
翻訳日:2024-06-13 23:13:33 公開日:2024-06-12
# 人工知能(DRAGON-AI)を用いた動的検索オントロジー生成

Dynamic Retrieval Augmented Generation of Ontologies using Artificial Intelligence (DRAGON-AI) ( http://arxiv.org/abs/2312.10904v2 )

ライセンス: Link先を確認
Sabrina Toro, Anna V Anagnostopoulos, Sue Bello, Kai Blumberg, Rhiannon Cameron, Leigh Carmody, Alexander D Diehl, Damion Dooley, William Duncan, Petra Fey, Pascale Gaudet, Nomi L Harris, Marcin Joachimiak, Leila Kiani, Tiago Lubiana, Monica C Munoz-Torres, Shawn O'Neil, David Osumi-Sutherland, Aleix Puig, Justin P Reese, Leonore Reiser, Sofia Robb, Troy Ruemping, James Seager, Eric Sid, Ray Stefancsik, Magalie Weber, Valerie Wood, Melissa A Haendel, Christopher J Mungall, (参考訳) 背景:オントロジーは、バイオメディカル、環境、食品科学といった分野における情報基盤の基本的な構成要素であり、正確で計算可能な形でのコンセンサス知識を表している。 しかし、その建設と維持にはかなりの資源が必要であり、ドメインの専門家、キュレーター、オントロジーの専門家の間でかなりの協力を必要としている。 本稿では,Large Language Models (LLM) とRetrieval Augmented Generation (RAG) を用いたオントロジー生成手法であるAI (DRAGON-AI) を用いた動的検索用拡張オントロジー生成について述べる。 DRAGON-AIは、複数のオントロジーおよび非構造化テキストソースにおける既存の知識から、テキストおよび論理オントロジーコンポーネントを生成することができる。 結果:10のオントロジーにまたがるドノボ項構築におけるDRAGON-AIの有効性を評価し,広範囲な手作業による評価を行った。 本手法は関係生成の精度が高いが,論理に基づく推論よりも若干精度が低い。 また,本手法は,専門家評価者によって受け入れられていると考えられる定義を生成することができるが,人間による定義よりも評価が劣る。 特に、ドメインに最も信頼度の高い評価者は、AIが生成した定義の欠陥をよりよく識別することができた。 GitHubイシューの形で自然言語命令を組み込むDRAGON-AIの能力を実証した。 結論: DRAGON-AIが手動オントロジー構築プロセスに有効である可能性が示唆された。 しかし,本研究の結果は,専門家のキュレーターやオントロジーの編集者がオントロジー生成過程を推し進めることの重要性も浮き彫りにしている。

Background: Ontologies are fundamental components of informatics infrastructure in domains such as biomedical, environmental, and food sciences, representing consensus knowledge in an accurate and computable form. However, their construction and maintenance demand substantial resources and necessitate substantial collaboration between domain experts, curators, and ontology experts. We present Dynamic Retrieval Augmented Generation of Ontologies using AI (DRAGON-AI), an ontology generation method employing Large Language Models (LLMs) and Retrieval Augmented Generation (RAG). DRAGON-AI can generate textual and logical ontology components, drawing from existing knowledge in multiple ontologies and unstructured text sources. Results: We assessed performance of DRAGON-AI on de novo term construction across ten diverse ontologies, making use of extensive manual evaluation of results. Our method has high precision for relationship generation, but has slightly lower precision than from logic-based reasoning. Our method is also able to generate definitions deemed acceptable by expert evaluators, but these scored worse than human-authored definitions. Notably, evaluators with the highest level of confidence in a domain were better able to discern flaws in AI-generated definitions. We also demonstrated the ability of DRAGON-AI to incorporate natural language instructions in the form of GitHub issues. Conclusions: These findings suggest DRAGON-AI's potential to substantially aid the manual ontology construction process. However, our results also underscore the importance of having expert curators and ontology editors drive the ontology generation process.
翻訳日:2024-06-13 23:13:33 公開日:2024-06-12
# 騒音蒸留によるインテクスト強化学習の創発

Emergence of In-Context Reinforcement Learning from Noise Distillation ( http://arxiv.org/abs/2312.12275v3 )

ライセンス: Link先を確認
Ilya Zisman, Vladislav Kurenkov, Alexander Nikulin, Viacheslav Sinii, Sergey Kolesnikov, (参考訳) 近年,様々な環境やタスクに適応するトランスフォーマーの能力について,強化学習に関する広範な研究が進められている。 現在のコンテキスト内RLメソッドは、RLエージェントによって生成されるか、あるいは最適なポリシーからのアクションでラベル付けする必要があるデータに対する厳格な要求によって制限される。 本稿では,この問題に対処するために,雑音によるカリキュラムからテキスト内強化学習を可能にする新しいデータ取得手法AD$^\varepsilon$を提案する。 本研究では,学習履歴の収集を支援する合成ノイズ注入カリキュラムの構築が可能であることを示す。 さらに、テキスト内RLは学習データセットの最適部分ポリシーを2倍のマージンで上回り、最適ポリシーによる生成の必要性を軽減できることを実験的に実証した。

Recently, extensive studies in Reinforcement Learning have been carried out on the ability of transformers to adapt in-context to various environments and tasks. Current in-context RL methods are limited by their strict requirements for data, which needs to be generated by RL agents or labeled with actions from an optimal policy. In order to address this prevalent problem, we propose AD$^\varepsilon$, a new data acquisition approach that enables in-context Reinforcement Learning from noise-induced curriculum. We show that it is viable to construct a synthetic noise injection curriculum which helps to obtain learning histories. Moreover, we experimentally demonstrate that it is possible to alleviate the need for generation using optimal policies, with in-context RL still able to outperform the best suboptimal policy in a learning dataset by a 2x margin.
翻訳日:2024-06-13 23:13:33 公開日:2024-06-12
# 脳MRIにおけるSE(3)-equivariant and noise-invariant 3D Rigid Motion Tracking

SE(3)-Equivariant and Noise-Invariant 3D Rigid Motion Tracking in Brain MRI ( http://arxiv.org/abs/2312.13534v3 )

ライセンス: Link先を確認
Benjamin Billot, Neel Dey, Daniel Moyer, Malte Hoffmann, Esra Abaci Turk, Borjan Gagoski, Ellen Grant, Polina Golland, (参考訳) 剛体運動追跡は、運動を検出し、修正し、説明する必要がある多くの医療画像アプリケーションにおいて最重要である。 現代の戦略は畳み込みニューラルネットワーク(CNN)に依存しており、厳格な登録としてこの問題を提起している。 しかし、CNNはこのタスクにおいて自然な対称性を利用せず、翻訳(出力は入力とともに変化する)と同一であるが、回転には適用されない。 本稿では,動き追跡にSE(3)-equivariant CNN(E-CNN)を用いる最初の方法であるEquiTrackを提案する。 ステアブルなE-CNNは、さまざまなポーズで対応する特徴を抽出できるが、ノイズの多い医療画像でそれらをテストすると、ノイズ不変性を学ぶのに十分な学習能力がないことが分かる。 そこで,同変空間特徴の抽出から解剖学的に無関係な強度特徴の処理を分離するために,E-CNNとデノイザを結合するハイブリッドアーキテクチャを提案する。 剛体変換は閉形式で推定される。 EquiTrackは、成人脳MRIおよび胎児MRI時系列における運動追跡の最先端の学習および最適化方法より優れている。 私たちのコードはhttps://github.com/BBillot/EquiTrack.comから入手可能です。

Rigid motion tracking is paramount in many medical imaging applications where movements need to be detected, corrected, or accounted for. Modern strategies rely on convolutional neural networks (CNN) and pose this problem as rigid registration. Yet, CNNs do not exploit natural symmetries in this task, as they are equivariant to translations (their outputs shift with their inputs) but not to rotations. Here we propose EquiTrack, the first method that uses recent steerable SE(3)-equivariant CNNs (E-CNN) for motion tracking. While steerable E-CNNs can extract corresponding features across different poses, testing them on noisy medical images reveals that they do not have enough learning capacity to learn noise invariance. Thus, we introduce a hybrid architecture that pairs a denoiser with an E-CNN to decouple the processing of anatomically irrelevant intensity features from the extraction of equivariant spatial features. Rigid transforms are then estimated in closed-form. EquiTrack outperforms state-of-the-art learning and optimisation methods for motion tracking in adult brain MRI and fetal MRI time series. Our code is available at https://github.com/BBillot/EquiTrack.
翻訳日:2024-06-13 23:13:33 公開日:2024-06-12
# SSL-OTA: オブジェクト検出のための自己監視学習におけるバックドア脅威の解消

SSL-OTA: Unveiling Backdoor Threats in Self-Supervised Learning for Object Detection ( http://arxiv.org/abs/2401.00137v2 )

ライセンス: Link先を確認
Qiannan Wang, Changchun Yin, Lu Zhou, Liming Fang, (参考訳) 自己監視学習(SSL)が広く採用され、バックドア攻撃によるセキュリティ上の脅威が増大した。 既存の研究では主に画像分類におけるバックドア攻撃に焦点が当てられているが、対象検出に影響を及ぼすものは限られている。 オブジェクト検出は、自律運転のようなセキュリティに敏感なアプリケーションにおいて重要な役割を果たす。 本研究では、SSLシナリオにおけるオブジェクト検出タスク用に設計された最初のバックドアアタックを提案し、オブジェクト変換アタック(SSL-OTA)と呼ぶ。 SSL-OTAは、ターゲットオブジェクトの予測を望ましいカテゴリに変更できるトリガーを使用しており、Naive Attack(NA)とDual-Source Blending Attack(DSBA)の2つの攻撃を含んでいる。 NAはオブジェクト検出器の下流の微調整中にデータ中毒を起こし、DSBAは事前訓練されたエンコーダにバックドアを注入する。 適切なメトリクスを確立し、ベンチマークデータセット上で広範な実験を行い、提案した攻撃の有効性と潜在的な防御に対する抵抗性を実証する。 特に、NAとDSBAは高い攻撃成功率(ASR)を極端に低い毒性率(0.5%)で達成している。 その結果、SSLベースのオブジェクト検出において、バックドアの脅威を考慮することが重要であり、この分野に新たな視点をもたらすことの重要性を浮き彫りにした。

The extensive adoption of Self-supervised learning(SSL) has led to an increased security threat from backdoor attacks. While existing research has mainly focused on backdoor attacks in image classification, there has been limited exploration of their implications for object detection. Object detection plays a critical role in security-sensitive applications, such as autonomous driving, where backdoor attacks seriously threaten human life and property. In this work, we propose the first backdoor attack designed for object detection tasks in SSL scenarios, called Object Transform Attack (SSL-OTA). SSL-OTA employs a trigger capable of altering predictions of the target object to the desired category, encompassing two attacks: Naive Attack(NA) and Dual-Source Blending Attack (DSBA). NA conducts data poisoning during downstream fine-tuning of the object detector, while DSBA additionally injects backdoors into the pre-trained encoder. We establish appropriate metrics and conduct extensive experiments on benchmark datasets, demonstrating the effectiveness of our proposed attack and its resistance to potential defenses. Notably, both NA and DSBA achieve high attack success rates (ASR) at extremely low poisoning rates (0.5%). The results underscore the importance of considering backdoor threats in SSL-based object detection and contribute a novel perspective to the field.
翻訳日:2024-06-13 23:13:33 公開日:2024-06-12
# LEAP-VO:ビジュアルオドメトリーにおける長期有効点追跡

LEAP-VO: Long-term Effective Any Point Tracking for Visual Odometry ( http://arxiv.org/abs/2401.01887v2 )

ライセンス: Link先を確認
Weirong Chen, Le Chen, Rui Wang, Marc Pollefeys, (参考訳) 視覚オドメトリーは、視覚入力に基づいて動くカメラの動きを推定する。 既存の手法は、主に2視点の点追跡に重点を置いており、画像シーケンスのリッチな時間的文脈を無視して、大域的な動きパターンを見渡すことがあり、完全な軌道の信頼性を評価できない。 これらの欠点は、隠蔽、動的オブジェクト、低テクスチャ領域を持つシナリオのパフォーマンスを妨げます。 これらの課題に対処するため、Long-term Effective Any Point Tracking (LEAP) モジュールを提示する。 LEAPは、動的トラック推定のために、視覚的、トラック間、時間的キューと慎重に選択されたアンカーを革新的に組み合わせている。 さらに、LEAPの時間確率的定式化は、分布の更新を学習可能な反復修正モジュールに統合し、ポイントワイドの不確実性について推論する。 これらの特徴に基づき,強靭な視力計測システムLEAP-VOを開発した。 私たちのマインドフルな統合は、フロントエンドとして長期的なポイントトラッキングを採用することで、新しいプラクティスを示します。 大規模な実験により、提案されたパイプラインは、様々なビジュアルオドメトリーベンチマークで既存のベースラインを大幅に上回っていることが示された。

Visual odometry estimates the motion of a moving camera based on visual input. Existing methods, mostly focusing on two-view point tracking, often ignore the rich temporal context in the image sequence, thereby overlooking the global motion patterns and providing no assessment of the full trajectory reliability. These shortcomings hinder performance in scenarios with occlusion, dynamic objects, and low-texture areas. To address these challenges, we present the Long-term Effective Any Point Tracking (LEAP) module. LEAP innovatively combines visual, inter-track, and temporal cues with mindfully selected anchors for dynamic track estimation. Moreover, LEAP's temporal probabilistic formulation integrates distribution updates into a learnable iterative refinement module to reason about point-wise uncertainty. Based on these traits, we develop LEAP-VO, a robust visual odometry system adept at handling occlusions and dynamic scenes. Our mindful integration showcases a novel practice by employing long-term point tracking as the front-end. Extensive experiments demonstrate that the proposed pipeline significantly outperforms existing baselines across various visual odometry benchmarks.
翻訳日:2024-06-13 23:13:33 公開日:2024-06-12
# 高速最小ベイズリスク復号のためのハイパーパラメータフリーアプローチ

Hyperparameter-Free Approach for Faster Minimum Bayes Risk Decoding ( http://arxiv.org/abs/2401.02749v2 )

ライセンス: Link先を確認
Yuu Jinnai, Kaito Ariu, (参考訳) 最小ベイズリスクデコーディング(MBR)は、幅広いテキスト生成タスクに対するビームサーチデコーディングの強力な代替手段であることが示されている。 しかし、MBRはMBRの目的を計算するのに膨大な時間を要するため、応答時間が重要となる多くの状況において、この手法は実現不可能である。 CBP (Cheng and Vlachos, 2023) は近年, 機械翻訳作業における推論時間を削減するために提案されている。 計算量を大幅に削減することが示されているが、効率的な開発セットを使用するハイパーパラメータチューニングが必要である。 そこで本研究では,MBRデコードを実行するハイパーパラメータフリーな手法であるAMBRデコードを提案する。 AMBRはサンプルベースMBR目標の計算がメドイド識別問題であることから導かれる。 AMBRはCorrelated Sequential Halving (CSH)アルゴリズム(Baharav and Tse, 2019)を用いて、サンプルベースMBRの目的を計算する。 我々は,機械翻訳,テキスト要約,画像キャプションタスクにおけるAMBRの評価を行った。 その結果, AMBR は CBP と同等であり, CBP は計算予算ごとに Oracle を介してハイパーパラメータを選択する。

Minimum Bayes-Risk (MBR) decoding is shown to be a powerful alternative to beam search decoding for a wide range of text generation tasks. However, MBR requires a huge amount of time for inference to compute the MBR objective, which makes the method infeasible in many situations where response time is critical. Confidence-based pruning (CBP) (Cheng and Vlachos, 2023) has recently been proposed to reduce the inference time in machine translation tasks. Although it is shown to significantly reduce the amount of computation, it requires hyperparameter tuning using a development set to be effective. To this end, we propose Approximate Minimum Bayes-Risk (AMBR) decoding, a hyperparameter-free method to run MBR decoding approximately. AMBR is derived from the observation that the problem of computing the sample-based MBR objective is the medoid identification problem. AMBR uses the Correlated Sequential Halving (CSH) algorithm (Baharav and Tse, 2019), the best approximation algorithm to date for the medoid identification problem, to compute the sample-based MBR objective. We evaluate AMBR on machine translation, text summarization, and image captioning tasks. The results show that AMBR achieves on par with CBP, with CBP selecting hyperparameters through an Oracle for each given computation budget.
翻訳日:2024-06-13 23:13:33 公開日:2024-06-12
# ニーズを良く把握する:分析推論によるLLMによるマーケティング需要の構造的理解に向けて

Know Your Needs Better: Towards Structured Understanding of Marketer Demands with Analogical Reasoning Augmented LLMs ( http://arxiv.org/abs/2401.04319v3 )

ライセンス: Link先を確認
Junjie Wang, Dan Yang, Binbin Hu, Yue Shen, Wen Zhang, Jinjie Gu, (参考訳) 本稿では,自然言語形式の要求のみを前提として,非専門家のマーケターがターゲットユーザを選択できる,ユーザターゲティングの新しい手法を提案する。 この問題の鍵となるのは、自然言語を実際に構造化された論理言語、すなわちマーケターの要求に対する構造化された理解に変換する方法である。 実践的なシナリオでは、専門家でないマーケッターの要求はしばしば抽象的で多様である。 大規模言語モデル(LLM)の印象的な自然言語処理能力を考えると,LLMを活用してこの問題を解決する。 LLMの推論能力を刺激するためには、チェーン・オブ・シンクレット(CoT)プロンプト法が広く使用されているが、既存の手法では、(1)単純な"ステップ・バイ・ステップ"の呪文を使うか、あるいはプロンプトと具体的な質問の互換性を考慮せずにデモで固定例を提供するか、マーケターの要求が抽象的で多様である場合にLCMを非効率にする。 2) 従来手法は, 工業的シナリオには適さない, クローズドソースモデルや過大なモデルで実装されることが多い。 そこで本研究では,ARALLM (Analogical Reasoning Augmented Large Language Models) とPrompting (Analogical Reasoning based Prompting) とReasoning-Augmented Multi-Task Model Distillation の2つのモジュールを提案する。 データとコードの一部は、https://github.com/alipay/Analogic-Reasoning-Augmented-Language-Model.orgにある。

In this paper, we explore a new way for user targeting, where non-expert marketers could select their target users solely given demands in natural language form. The key to this issue is how to transform natural languages into practical structured logical languages, i.e., the structured understanding of marketer demands. In practical scenarios, the demands of non-expert marketers are often abstract and diverse. Considering the impressive natural language processing ability of large language models (LLMs), we try to leverage LLMs to solve this issue. To stimulate the LLMs' reasoning ability, the chain-of-thought (CoT) prompting method is widely used, but existing methods still have some limitations in our scenario: (1) Previous methods either use simple "Let's think step by step" spells or provide fixed examples in demonstrations without considering compatibility between prompts and concrete questions, making LLMs ineffective when the marketers' demands are abstract and diverse. (2) Previous methods are often implemented in closed-source models or excessively large models, which is not suitable in industrial practical scenarios. Based on these, we propose ARALLM (i.e., Analogical Reasoning Augmented Large Language Models) consisting of two modules: Analogical Reasoning based Prompting and Reasoning-Augmented Multi-Task Model Distillation. Part of our data and code can be found at https://github.com/alipay/Analogic-Reasoning-Augmented-Large-Language-Model.
翻訳日:2024-06-13 23:13:33 公開日:2024-06-12
# 最小ベイズリスク復号による多変量・高品質テキストの生成

Generating Diverse and High-Quality Texts by Minimum Bayes Risk Decoding ( http://arxiv.org/abs/2401.05054v2 )

ライセンス: Link先を確認
Yuu Jinnai, Ukyo Honda, Tetsuro Morimura, Peinan Zhang, (参考訳) テキスト生成システムにおける最も重要な課題の1つは、正しいだけでなく多様な出力を生成することである。 近年、最小ベイズリスク(MBR)復号法は、復号アルゴリズムの中で最高品質の文を生成することで注目されている。 しかし、多様な出力を生成するために提案されている既存のアルゴリズムは、主にビームサーチやランダムサンプリングに基づいており、それらの出力品質は、これらの基礎となる手法によって抑えられている。 本稿では,多様性目標をMBR復号化に適用することにより,多様性促進型復号化アルゴリズムの代替手法について検討する。 MBRの2つの変種であるDiverse MBR(DMBR)と$k$-medoids MBR(KMBR)を提案する。 我々は、エンコーダデコーダモデルとプロンプト付き大規模言語モデルを用いて、様々な有向テキスト生成タスクにおいてDMBRとKMBRを評価する。 実験の結果,提案手法は多様なビーム探索およびサンプリングアルゴリズムよりも優れたトレードオフを実現することがわかった。

One of the most important challenges in text generation systems is to produce outputs that are not only correct but also diverse. Recently, Minimum Bayes-Risk (MBR) decoding has gained prominence for generating sentences of the highest quality among the decoding algorithms. However, existing algorithms proposed for generating diverse outputs are predominantly based on beam search or random sampling, thus their output quality is capped by these underlying methods. In this paper, we investigate an alternative approach -- we develop diversity-promoting decoding algorithms by enforcing diversity objectives to MBR decoding. We propose two variants of MBR, Diverse MBR (DMBR) and $k$-medoids MBR (KMBR), methods to generate a set of sentences with high quality and diversity. We evaluate DMBR and KMBR on a variety of directed text generation tasks using encoder-decoder models and a large language model with prompting. The experimental results show that the proposed method achieves a better trade-off than the diverse beam search and sampling algorithms.
翻訳日:2024-06-13 23:13:33 公開日:2024-06-12
# NLG評価のための大規模言語モデルの活用 - 進歩と課題

Leveraging Large Language Models for NLG Evaluation: Advances and Challenges ( http://arxiv.org/abs/2401.07103v2 )

ライセンス: Link先を確認
Zhen Li, Xiaohan Xu, Tao Shen, Can Xu, Jia-Chen Gu, Yuxuan Lai, Chongyang Tao, Shuai Ma, (参考訳) 急速に発展している自然言語生成(NLG)評価分野において、Large Language Models(LLM)の導入は、生成されたコンテンツ品質、例えば、コヒーレンス、創造性、コンテキスト関連性を評価するための新たな道を開いた。 本論文は, 系統解析に欠ける新興地域であるNLG評価におけるLCMの活用について, 概観することを目的とする。 既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。 我々の詳細な調査には、様々なLCMベースの方法論を批判的に評価することや、NLG出力の評価におけるその強みと限界を比較することが含まれる。 本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。

In the rapidly evolving domain of Natural Language Generation (NLG) evaluation, introducing Large Language Models (LLMs) has opened new avenues for assessing generated content quality, e.g., coherence, creativity, and context relevance. This paper aims to provide a thorough overview of leveraging LLMs for NLG evaluation, a burgeoning area that lacks a systematic analysis. We propose a coherent taxonomy for organizing existing LLM-based evaluation metrics, offering a structured framework to understand and compare these methods. Our detailed exploration includes critically assessing various LLM-based methodologies, as well as comparing their strengths and limitations in evaluating NLG outputs. By discussing unresolved challenges, including bias, robustness, domain-specificity, and unified evaluation, this paper seeks to offer insights to researchers and advocate for fairer and more advanced NLG evaluation techniques.
翻訳日:2024-06-13 23:13:33 公開日:2024-06-12
# 科学と深層学習における信頼性と解釈可能性

Reliability and Interpretability in Science and Deep Learning ( http://arxiv.org/abs/2401.07359v3 )

ライセンス: Link先を確認
Luigi Scorzato, (参考訳) 近年,機械学習(ML)手法の信頼性に関する疑問が重要視され,関連する不確実性の分析が研究の動機となっている。 しかし、これらの研究の多くは、標準の誤り解析をMLモデル、特に標準の科学的モデリングからかなり離れたディープニューラルネットワーク(DNN)モデルに適用している。 したがって、標準誤差解析とDNNモデルと標準科学的モデリングの相違点と、これらの相違点が信頼性評価に与える影響について、より深い認識学的分析とを統合する必要がある。 この記事ではいくつかのコントリビューションを行います。 まず、理論自由科学の錯覚に対するモデル仮定(MLと従来の科学の両方)のユビキタスな役割を強調します。 第二に、モデル仮定は、言語に依存しないことが示される複雑さの観点から分析される。 DNNモデルの高い認識複雑性は、その信頼性と長期的進歩の予測を妨げていると論じられている。 今後の可能性も示唆されている。 第三に、本論文は、責任あるAIの文脈で紹介されるように、モデルの疫学的複雑性と解釈可能性との密接な関係を識別する。 モデル(ブラックボックスの問題)の理解の欠如は、個々のスキルとは無関係な方法で、その解釈可能性に影響を与える。 また、解釈可能性が、統計分析だけでは理解できないあらゆるモデルの信頼性を評価するための前提条件であることも明らかにした。 本稿では,従来の科学的モデルとDNNモデルの比較に焦点を当てる。 しかし、ランダムフォレストとロジスティック回帰モデルも簡潔に検討されている。

In recent years, the question of the reliability of Machine Learning (ML) methods has acquired significant importance, and the analysis of the associated uncertainties has motivated a growing amount of research. However, most of these studies have applied standard error analysis to ML models, and in particular Deep Neural Network (DNN) models, which represent a rather significant departure from standard scientific modelling. It is therefore necessary to integrate the standard error analysis with a deeper epistemological analysis of the possible differences between DNN models and standard scientific modelling and the possible implications of these differences in the assessment of reliability. This article offers several contributions. First, it emphasises the ubiquitous role of model assumptions (both in ML and traditional Science) against the illusion of theory-free science. Secondly, model assumptions are analysed from the point of view of their (epistemic) complexity, which is shown to be language-independent. It is argued that the high epistemic complexity of DNN models hinders the estimate of their reliability and also their prospect of long-term progress. Some potential ways forward are suggested. Thirdly, this article identifies the close relation between a model's epistemic complexity and its interpretability, as introduced in the context of responsible AI. This clarifies in which sense, and to what extent, the lack of understanding of a model (black-box problem) impacts its interpretability in a way that is independent of individual skills. It also clarifies how interpretability is a precondition for assessing the reliability of any model, which cannot be based on statistical analysis alone. This article focuses on the comparison between traditional scientific models and DNN models. But, Random Forest and Logistic Regression models are also briefly considered.
翻訳日:2024-06-13 23:03:49 公開日:2024-06-12
# スライシングとフーリエ変換による高次元カーネルの高速化

Fast Kernel Summation in High Dimensions via Slicing and Fourier Transforms ( http://arxiv.org/abs/2401.08260v2 )

ライセンス: Link先を確認
Johannes Hertrich, (参考訳) カーネルベースの手法は機械学習で多用されている。 しかし、考慮されたデータポイントの$O(N^2)$の複雑さに悩まされている。 本稿では,この複雑性を$O(N)$に縮める近似法を提案する。 私たちのアプローチは2つの考えに基づいている。 まず,解析基底関数を持つ任意のラジアルカーネルを,ある1次元カーネルのスライス版として表現し,その1次元カーネルの解析式を導出する。 1-次元核と$d$次元核の関係は、一般化されたリーマン・リウヴィル分数積分によって与えられる。 したがって、$d$-dimensional kernel summation を 1 次元の設定に還元することができる。 第二に、これらの一次元問題を効率的に解くために、非等間隔データ、ソートアルゴリズム、あるいは両者の組み合わせに高速なフーリエ和を適用する。 その実用的重要性のため、我々はガウス核に特別な注意を払っており、そこでは次元非依存の誤差境界を示し、閉形式フーリエ変換によってその1次元の逆を表現している。 高速なカーネル和のランタイム比較とエラー推定を行う。

Kernel-based methods are heavily used in machine learning. However, they suffer from $O(N^2)$ complexity in the number $N$ of considered data points. In this paper, we propose an approximation procedure, which reduces this complexity to $O(N)$. Our approach is based on two ideas. First, we prove that any radial kernel with analytic basis function can be represented as sliced version of some one-dimensional kernel and derive an analytic formula for the one-dimensional counterpart. It turns out that the relation between one- and $d$-dimensional kernels is given by a generalized Riemann-Liouville fractional integral. Hence, we can reduce the $d$-dimensional kernel summation to a one-dimensional setting. Second, for solving these one-dimensional problems efficiently, we apply fast Fourier summations on non-equispaced data, a sorting algorithm or a combination of both. Due to its practical importance we pay special attention to the Gaussian kernel, where we show a dimension-independent error bound and represent its one-dimensional counterpart via a closed-form Fourier transform. We provide a run time comparison and error estimate of our fast kernel summations.
翻訳日:2024-06-13 23:03:49 公開日:2024-06-12
# 大規模言語モデルのためのコードシミュレーションの課題

Code Simulation Challenges for Large Language Models ( http://arxiv.org/abs/2401.09074v4 )

ライセンス: Link先を確認
Emanuele La Malfa, Christoph Weinhuber, Orazio Torre, Fangru Lin, Samuele Marro, Anthony Cohn, Nigel Shadbolt, Michael Wooldridge, (参考訳) 多くの推論、計画、問題解決タスクは本質的なアルゴリズムの性質を共有している。 この研究は、Large Language Models (LLM) がいかにコーディングとアルゴリズムタスクをシミュレートし、そのようなアルゴリズム推論タスクにおける一般的な機能についての洞察を提供するかを研究する。 我々は、直線プログラムのベンチマーク、クリティカルパスを含むコード、近似命令および冗長命令を導入する。 さらに,アルゴリズムのソートとネストループによるLLMのシミュレーション能力を評価し,ルーチンの計算複雑性がLLMの実行をシミュレートする能力に直接影響を与えることを示す。 最も強力なLCMは比較的強力なシミュレーション能力を示すが、このプロセスは脆弱であり、パターン認識に大きく依存しており、記憶の影響を受けている。 本稿では,コンパイラの計算パターンを行/追従することによって,LLMにコード実行行をシミュレートするように指示する,既成の計算処理手法であるChain of Simulation(CoSm)を提案する。 CoSmは、シミュレーション性能を改善しながら、LLMの記憶と浅いパターン認識を効率的に行う。 コードシミュレーションにおけるCoSmの成功は、他の一般的なシミュレーション推論タスクにインスピレーションを与えるものだと考えている。

Many reasoning, planning, and problem-solving tasks share an intrinsic algorithmic nature: correctly simulating each step is a sufficient condition to solve them correctly. This work studies to what extent Large Language Models (LLMs) can simulate coding and algorithmic tasks to provide insights into general capabilities in such algorithmic reasoning tasks. We introduce benchmarks for straight-line programs, code that contains critical paths, and approximate and redundant instructions. We further assess the simulation capabilities of LLMs with sorting algorithms and nested loops and show that a routine's computational complexity directly affects an LLM's ability to simulate its execution. While the most powerful LLMs exhibit relatively strong simulation capabilities, the process is fragile, seems to rely heavily on pattern recognition, and is affected by memorisation. We propose a novel off-the-shelf prompting method, Chain of Simulation (CoSm), which instructs LLMs to simulate code execution line by line/follow the computation pattern of compilers. CoSm efficiently helps LLMs reduce memorisation and shallow pattern recognition while improving simulation performance. We consider the success of CoSm in code simulation to be inspirational for other general routine simulation reasoning tasks.
翻訳日:2024-06-13 23:03:49 公開日:2024-06-12
# 多軸測定の簡単な理論

Brief Theory of Multiqubit Measurement ( http://arxiv.org/abs/2401.13122v3 )

ライセンス: Link先を確認
Constantin Usenko, (参考訳) マルチキュービット測度の特異性は、主に有限次元ヒルベルト空間を持つ量子オブジェクトのクーディット測度の特異性に類似している。 測定概念の3つの異なる解釈が分析されている。 そのうちの1つは純粋に量子的であり、測定対象の特定の状態に対して収集されている。 他の2つは、測定に関与する物理物体の密度行列と密度行列との差を明らかにしている。 フォン・ノイマン・プロジェクターは、可能な純粋状態上のプロジェクターに対する数学的な期待の集合として、キューディット状態の位相像のアイデアを生成する。 位相像は、クディット可観測代数の恒等性のすべての分解に対する確率分布を含む。 キューディット対からなる複合系の位相像は、粒子の局所的および条件的位相像を生成する。 エンタングルメントは、条件相像の形状が、他の粒子の測定に使用される可観測物の特性に依存することにより表される。 多ビット量子ビットの条件相像の特性の解析は、多ビット分解法に強い制約が課される場合のみ、絡み合いの欠如が可能であることを示している。

Peculiarities of multiqubit measurement are for the most part similar to peculiarities of measurement for qudit -- quantum object with finite-dimensional Hilbert space. Three different interpretations of measurement concept are analysed. One of those is purely quantum and is in collection, for a given state of the object to be measured, of incompatible observable measurement results in amount enough for reconstruction of the state. Two others make evident the difference between the reduced density matrix and the density matrices of physical objects involved in the measurement. It is shown that the von Neumann projectors produce an idea of a phase portrait of qudit state as a set of mathematical expectations for projectors on the possible pure states. The phase portrait includes probability distributions for all the resolutions of identity of the qudit observable algebra. The phase portrait of a composite system comprised by a qudit pair generates local and conditional phase portraits of particles. The entanglement is represented by the dependence of the shape of conditional phase portrait on the properties of the observable used in the measurement for the other particle. Analysis of the properties of a conditional phase portrait of a multiqubit qubits shows that absence of the entanglement is possible only in the case of substantial restrictions imposed on the method of multiqubit decomposition into qubits.
翻訳日:2024-06-13 23:03:49 公開日:2024-06-12
# スピン鎖上のホーキング・ページ遷移

Hawking-Page transition on a spin chain ( http://arxiv.org/abs/2401.13963v2 )

ライセンス: Link先を確認
David Pérez-García, Leonardo Santilli, Miguel Tierz, (参考訳) 1dハイゼンベルクスピン鎖を介してAdS$_5$におけるホーキング・ページ転移のアクセシビリティが示される。 我々は、ロシミットエコーのランダム行列をスピン鎖の集合に使用し、強磁性スピン相互作用をランダム化する。 熱的ロシミットエコーは平均するとホーキング・ページ遷移のエントロピーの増加が予測される。 このことは、1dスピン鎖が4+1次元のブラックホール物理学の特徴を示すことを示唆している。 この手法は一般分散関係を持つ自由フェルミオン系にも等しく適用可能であることを示す。

The accessibility of the Hawking-Page transition in AdS$_5$ through a 1d Heisenberg spin chain is demonstrated. We use the random matrix formulation of the Loschmidt echo for a set of spin chains, and randomize the ferromagnetic spin interaction. It is shown that the thermal Loschmidt echo, when averaged, detects the predicted increase in entropy across the Hawking-Page transition. This suggests that a 1d spin chain exhibits characteristics of black hole physics in 4+1 dimensions. We show that this approach is equally applicable to free fermion systems with a general dispersion relation.
翻訳日:2024-06-13 23:03:49 公開日:2024-06-12
# 自分自身の宇宙をデザインする: グラフニューラルネットワークを実現する物理インフォームド・アグノスティックな方法

Design Your Own Universe: A Physics-Informed Agnostic Method for Enhancing Graph Neural Networks ( http://arxiv.org/abs/2401.14580v3 )

ライセンス: Link先を確認
Dai Shi, Andi Han, Lequan Lin, Yi Guo, Zhiyong Wang, Junbin Gao, (参考訳) 物理インフォームドグラフニューラルネットワークは、オーバースムーシング、オーバースキャッシング、ヘテロフィリー適応といった一般的なGNNの課題を緩和することで、グラフ構造化データを通じて学習において顕著なパフォーマンスを達成した。 これらの進歩にもかかわらず、これらの課題に対処するための従来の手法を適切に統合する、単純で効果的なパラダイムの開発はまだ進行中である。 本稿では,GNNと物理系における粒子系の伝播の類似を図り,モデルに依存しない拡張フレームワークを提案する。 このフレームワークは、追加ノードを導入し、ノードラベル情報によってガイドされる正と負の重みの両方で接続を切り替えることで、グラフ構造を豊かにする。 提案手法によって強化されたGNNが,過度にスムースな問題を効果的に回避し,過度なスキャッシングに対する堅牢性を示すことを理論的に検証する。 さらに、リワイヤグラフ上でスペクトル解析を行い、対応するGNNがホモ親和性グラフとヘテロ親和性グラフの両方に収まることを示す。 好中球グラフ,ヘテロ親和性グラフ,および長期グラフデータセットのベンチマークにおける実証的検証により,本手法により強化されたGNNが元のグラフよりも有意に優れていることが示された。

Physics-informed Graph Neural Networks have achieved remarkable performance in learning through graph-structured data by mitigating common GNN challenges such as over-smoothing, over-squashing, and heterophily adaption. Despite these advancements, the development of a simple yet effective paradigm that appropriately integrates previous methods for handling all these challenges is still underway. In this paper, we draw an analogy between the propagation of GNNs and particle systems in physics, proposing a model-agnostic enhancement framework. This framework enriches the graph structure by introducing additional nodes and rewiring connections with both positive and negative weights, guided by node labeling information. We theoretically verify that GNNs enhanced through our approach can effectively circumvent the over-smoothing issue and exhibit robustness against over-squashing. Moreover, we conduct a spectral analysis on the rewired graph to demonstrate that the corresponding GNNs can fit both homophilic and heterophilic graphs. Empirical validations on benchmarks for homophilic, heterophilic graphs, and long-term graph datasets show that GNNs enhanced by our method significantly outperform their original counterparts.
翻訳日:2024-06-13 23:03:49 公開日:2024-06-12
# 連続可変量子鍵分布におけるチャネルタンパ攻撃の軽減

Mitigation of Channel Tampering Attacks in Continuous-Variable Quantum Key Distribution ( http://arxiv.org/abs/2401.15898v2 )

ライセンス: Link先を確認
Sebastian P. Kish, Chandra Thapa, Mikhael Sayat, Hajime Suzuki, Josef Pieprzyk, Seyit Camtepe, (参考訳) 連続可変量子鍵分布(CV-QKD)の大幅な進歩にもかかわらず、実用的なCV-QKDシステムは様々な攻撃によって妥協される。 その結果,CV-QKD実装における新たな攻撃ベクトルの同定と対策は,CV-QKDの継続的な堅牢性にとって重要である。 特にCV-QKDはパブリックな量子チャネルに依存しているため、通信妨害に対する脆弱性はDoS(DoS)攻撃を利用する潜在的な敵から持続する。 本稿では,チャネル増幅(CA)攻撃と呼ばれるCV-QKDにおいて,Eveが増幅によって通信チャネルを操作する新たな脅威を紹介する。 具体的には、この攻撃をCV-QKD光ファイバーでモデル化する。 この脅威に対処するため,我々は検出・緩和戦略を提案する。 検出には、決定ツリー分類器に基づいた機械学習(ML)モデルが含まれ、CAやDoS攻撃など、さまざまなチャネルタンパ攻撃を分類する。 緩和のため、Bob氏は攻撃タイプと頻度を分類して二次データをポストセレクトする。 我々のMLモデルはこれらの攻撃を識別し分類する上で高い精度を示す。 秘密鍵レート (SKR) に対するCA攻撃の影響について, イヴの位置と局所発振器 (LO) の相対強度雑音について検討した。 提案した緩和戦略は、攻撃されたCA攻撃のSKRを改善し、場合によってはハイブリッドCA-DoS攻撃のSKRを改善する。 本研究は,ML分類とポストセレクションの両方をこの文脈で新たに適用したことを示す。 これらの知見はCV-QKDシステムのチャネル上の新たな脅威に対する堅牢性を高めるために重要である。

Despite significant advancements in continuous-variable quantum key distribution (CV-QKD), practical CV-QKD systems can be compromised by various attacks. Consequently, identifying new attack vectors and countermeasures for CV-QKD implementations is important for the continued robustness of CV-QKD. In particular, as CV-QKD relies on a public quantum channel, vulnerability to communication disruption persists from potential adversaries employing Denial-of-Service (DoS) attacks. Inspired by DoS attacks, this paper introduces a novel threat in CV-QKD called the Channel Amplification (CA) attack, wherein Eve manipulates the communication channel through amplification. We specifically model this attack in a CV-QKD optical fiber setup. To counter this threat, we propose a detection and mitigation strategy. Detection involves a machine learning (ML) model based on a decision tree classifier, classifying various channel tampering attacks, including CA and DoS attacks. For mitigation, Bob, post-selects quadrature data by classifying the attack type and frequency. Our ML model exhibits high accuracy in distinguishing and categorizing these attacks. The CA attack's impact on the secret key rate (SKR) is explored concerning Eve's location and the relative intensity noise of the local oscillator (LO). The proposed mitigation strategy improves the attacked SKR for CA attacks and, in some cases, for hybrid CA-DoS attacks. Our study marks a novel application of both ML classification and post-selection in this context. These findings are important for enhancing the robustness of CV-QKD systems against emerging threats on the channel.
翻訳日:2024-06-13 23:03:49 公開日:2024-06-12
# 階層型グループのための多群学習

Multi-group Learning for Hierarchical Groups ( http://arxiv.org/abs/2402.00258v3 )

ライセンス: Link先を確認
Samuel Deng, Daniel Hsu, (参考訳) マルチグループ学習モデルは、単一の予測器が複数の、おそらく重複するサブグループ上でうまく一般化しなければならない学習シナリオを定式化する。 我々は、多群学習の研究を、群が階層的に構造化される自然の場合にまで拡張する。 そこで我々は,ほぼ最適なサンプル量を持つ解釈可能かつ決定論的決定木予測器を出力するアルゴリズムを設計する。 次に,アルゴリズムの実証的な評価を行い,階層的なグループ構造を持つ実データセット上で,魅力的な一般化特性を実現する。

The multi-group learning model formalizes the learning scenario in which a single predictor must generalize well on multiple, possibly overlapping subgroups of interest. We extend the study of multi-group learning to the natural case where the groups are hierarchically structured. We design an algorithm for this setting that outputs an interpretable and deterministic decision tree predictor with near-optimal sample complexity. We then conduct an empirical evaluation of our algorithm and find that it achieves attractive generalization properties on real datasets with hierarchical group structure.
翻訳日:2024-06-13 23:03:49 公開日:2024-06-12
# LLMは計画できないが、LLM-Moduloフレームワークの計画を助ける

LLMs Can't Plan, But Can Help Planning in LLM-Modulo Frameworks ( http://arxiv.org/abs/2402.01817v3 )

ライセンス: Link先を確認
Subbarao Kambhampati, Karthik Valmeekam, Lin Guan, Mudit Verma, Kaya Stechly, Siddhant Bhambri, Lucas Saldyt, Anil Murthy, (参考訳) 計画と推論タスクにおけるLLM(Large Language Models)の役割には、かなりの混乱がある。 他方では、LLMは正しいプロンプトや自己検証戦略だけでこれらのタスクを実際に実行できるという過度な最適化的主張がある。 他方では、LLMが計画/推論タスクに適しているという主張は、単に1つの構文形式から別の構文形式への問題仕様のトランスレータであり、問題を外部のシンボリック・ソルバに出荷するだけだ、という過悲観的な主張がある。 本稿では,両極端が誤認されているという見解を定めている。 自己回帰的LLMは、それ自体では、計画や自己検証(結局のところ、推論の形で)を行うことができず、文学における誤解の理由についてある程度の光を当てている、と我々は主張する。 また、LCMは、単純なフロントエンド/バックエンドフォーマットトランスレータを超えて、計画/推論タスクにおいて、より意味のある役割を持つ、普遍的な近似知識ソースと見なされるべきである、と論じる。 本稿では, LLMの強度と外部モデルベース検証器の強度を, より厳密な双方向インタラクション方式で組み合わせた, {\displaystyle {\bf LLM-Modulo Frameworks} のビジョンを提案する。 外部検証器自体を駆動するモデルがLCMの助けを借りてどのように取得できるかを示す。 LLMとシンボリックコンポーネントを単純にパイプライン化するのではなく、このLLM-Modulo Frameworkは、LLMとシンボリックコンポーネントとの緊密な統合を提供する、より柔軟な知識、問題、嗜好仕様へのモデルベースの計画/推論体制の範囲を拡大する、より優れたニューロシンボリックアプローチを提供します。

There is considerable confusion about the role of Large Language Models (LLMs) in planning and reasoning tasks. On one side are over-optimistic claims that LLMs can indeed do these tasks with just the right prompting or self-verification strategies. On the other side are perhaps over-pessimistic claims that all that LLMs are good for in planning/reasoning tasks are as mere translators of the problem specification from one syntactic format to another, and ship the problem off to external symbolic solvers. In this position paper, we take the view that both these extremes are misguided. We argue that auto-regressive LLMs cannot, by themselves, do planning or self-verification (which is after all a form of reasoning), and shed some light on the reasons for misunderstandings in the literature. We will also argue that LLMs should be viewed as universal approximate knowledge sources that have much more meaningful roles to play in planning/reasoning tasks beyond simple front-end/back-end format translators. We present a vision of {\bf LLM-Modulo Frameworks} that combine the strengths of LLMs with external model-based verifiers in a tighter bi-directional interaction regime. We will show how the models driving the external verifiers themselves can be acquired with the help of LLMs. We will also argue that rather than simply pipelining LLMs and symbolic components, this LLM-Modulo Framework provides a better neuro-symbolic approach that offers tighter integration between LLMs and symbolic components, and allows extending the scope of model-based planning/reasoning regimes towards more flexible knowledge, problem and preference specifications.
翻訳日:2024-06-13 23:03:49 公開日:2024-06-12
# デコヒーレンス下における量子条件付き相互情報の非局所的成長

Nonlocal growth of quantum conditional mutual information under decoherence ( http://arxiv.org/abs/2402.03439v2 )

ライセンス: Link先を確認
Yifan Zhang, Sarang Gopalakrishnan, (参考訳) 局所的な測定は絡み合いを引き起こすことはできないが、量子テレポーテーションのように短距離の絡み合いを長距離の絡み合いに変換することができる。 この測定誘起エンタングルメント(MIE)現象は,近年,測定誘起エンタングルメント相転移と関連する現象について広く議論されている。 ここでは、長距離条件付き相互情報(CMI)のデコヒーレンス下での成長に関して、より広い文脈でMIEを定めている。 我々は、デコヒーレンスが長距離CMIを生成できる速度を上限とし、この境界を飽和させる状態の特性を導出する。 我々は、CMI上界を飽和させる状態の構造は、異なるデコヒーレント力学の下で非常に異なるものであり、明示的な例を示すことを指摘している。 さらに、回路深さの関数として、ランダム局所デコヒーレンスを受けるランダム量子回路におけるCMIのダイナミクスを探索する。 有限深度テレポーテーション遷移の普遍性クラスは、その低臨界次元と同様に、測定値よりも消去値に対して異なると論じる。

Local measurements cannot create entanglement, but they can convert short-range entanglement to long-range entanglement, as in quantum teleportation. This phenomenon of measurement-induced entanglement (MIE) has been widely discussed in recent work on measurement-induced entanglement phase transitions and related phenomena. Here, we situate MIE in a broader context of the growth of long-range conditional mutual information (CMI) under decoherence. We upper-bound the rate at which decoherence can generate long-range CMI, and derive a characterization of states that saturate this bound. We point out that the structure of states saturating the CMI upper bound can be very different under different decoherent dynamics and provide explicit examples. We additionally explore the dynamics of CMI in random quantum circuits subject to random local decoherence, as a function of circuit depth. We argue that the universality class of the finite-depth teleportation transition, as well as its lower critical dimension, are different for erasures than for measurements.
翻訳日:2024-06-13 23:03:49 公開日:2024-06-12
# IMUSE:IMUベースの表情キャプチャ

IMUSE: IMU-based Facial Expression Capture ( http://arxiv.org/abs/2402.03944v3 )

ライセンス: Link先を確認
Youjia Wang, Yiwen Wu, Hengan Zhou, Hongyang Lin, Xingyue Peng, Yingwenqi Jiang, Yingsheng Zhu, Guanpeng Long, Yatu Zhang, Jingya Wang, Lan Xu, Jingyi Yu, (参考訳) 顔の動きのキャプチャーと分析では、支配的なソリューションは一般的に、プライバシーを保護できず、閉塞に対して脆弱な視覚的手がかりに基づいている。 慣性測定ユニット (IMU) は救難の可能性を秘めているが、主にフルボディのモーションキャプチャーに採用されている。 本稿では,純IMU信号を用いた表情認識の新たな経路であるギャップを埋めるためのIMUSEを提案する。 我々はまず、解剖学的に駆動されるIMU配置スキームを伴って、顔の撮影に適したマイクロIMUを設計する。 そして、多様な表情とパフォーマンスのために、リッチなIMU/視覚信号を提供する新しいIMU-ARKitデータセットをコントリビュートする。 このようなユニークなマルチモダリティは、IMUベースの顔行動分析のような将来の方向性に大きな可能性をもたらします。 さらに、IMU-ARKitを用いて、純IMU信号から顔のブレンドシェープパラメータを正確に予測する強力なベースライン手法を提案する。 IMUSEフレームワークは、視覚的手法が乱れ、同時にユーザのプライバシを保護するシナリオにおいて、正確な顔のキャプチャを実行することができる。 IMUSE アプローチの有効性を検証するため,IMU の構成と技術コンポーネントについて広範な実験を行った。 特に、IMUSEは、オクルージョンに対する顔のキャプチャや動作中のパフォーマンスなど、様々な可能性や新しい応用を可能にしている。 私たちは、私たちのコミュニティで顔のキャプチャと分析の可能性をさらに強化するために、データセットと実装をリリースします。

For facial motion capture and analysis, the dominated solutions are generally based on visual cues, which cannot protect privacy and are vulnerable to occlusions. Inertial measurement units (IMUs) serve as potential rescues yet are mainly adopted for full-body motion capture. In this paper, we propose IMUSE to fill the gap, a novel path for facial expression capture using purely IMU signals, significantly distant from previous visual solutions.The key design in our IMUSE is a trilogy. We first design micro-IMUs to suit facial capture, companion with an anatomy-driven IMU placement scheme. Then, we contribute a novel IMU-ARKit dataset, which provides rich paired IMU/visual signals for diverse facial expressions and performances. Such unique multi-modality brings huge potential for future directions like IMU-based facial behavior analysis. Moreover, utilizing IMU-ARKit, we introduce a strong baseline approach to accurately predict facial blendshape parameters from purely IMU signals. The IMUSE framework empowers us to perform accurate facial capture in scenarios where visual methods falter and simultaneously safeguard user privacy. We conduct extensive experiments about both the IMU configuration and technical components to validate the effectiveness of our IMUSE approach. Notably, IMUSE enables various potential and novel applications, i.e., facial capture against occlusions or in a moving performance. We will release our dataset and implementations to enrich more possibilities of facial capture and analysis in our community.
翻訳日:2024-06-13 23:03:49 公開日:2024-06-12
# サブサンプリングは魔法ではない:大きなバッチサイズが個人の確率的最適化に働く理由

Subsampling is not Magic: Why Large Batch Sizes Work for Differentially Private Stochastic Optimisation ( http://arxiv.org/abs/2402.03990v2 )

ライセンス: Link先を確認
Ossi Räisä, Joonas Jälkö, Antti Honkela, (参考訳) 本研究では, バッチサイズがDP-SGDにおける全勾配変動に与える影響について検討し, 大規模バッチサイズの有用性に関する理論的説明を求める。 DP-SGDは現代のDP深層学習の基礎であり、その特性は広く研究されており、近年の研究では大規模なバッチサイズが有用であることが実証されている。 しかし、この利点の理論的な説明は、概してヒューリスティックである。 まず,DP-SGDの全勾配分散をサブサンプリングおよびノイズ誘導分散に分解できることを示す。 そして、無限個の反復の極限において、有効雑音誘起分散はバッチサイズに不変であることを示す。 残りのサブサンプリングにより引き起こされる分散は、より大きなバッチサイズで減少するので、大きなバッチは有効な全勾配分散を減少させる。 本研究では, バッチサイズが小さくない場合に, 漸近的傾向が実用的に関係していることを確認するとともに, 漸近的傾向の外側では, バッチサイズが大きくなるにつれて, 全体的な勾配のばらつきがさらに減少することを確認する。 また,DP-SGDの1回の繰り返しに対して,大きなバッチサイズが有効なDPノイズの分散を減少させることを示す十分な条件も見出す。

We study how the batch size affects the total gradient variance in differentially private stochastic gradient descent (DP-SGD), seeking a theoretical explanation for the usefulness of large batch sizes. As DP-SGD is the basis of modern DP deep learning, its properties have been widely studied, and recent works have empirically found large batch sizes to be beneficial. However, theoretical explanations of this benefit are currently heuristic at best. We first observe that the total gradient variance in DP-SGD can be decomposed into subsampling-induced and noise-induced variances. We then prove that in the limit of an infinite number of iterations, the effective noise-induced variance is invariant to the batch size. The remaining subsampling-induced variance decreases with larger batch sizes, so large batches reduce the effective total gradient variance. We confirm numerically that the asymptotic regime is relevant in practical settings when the batch size is not small, and find that outside the asymptotic regime, the total gradient variance decreases even more with large batch sizes. We also find a sufficient condition that implies that large batch sizes similarly reduce effective DP noise variance for one iteration of DP-SGD.
翻訳日:2024-06-13 23:03:49 公開日:2024-06-12
# 状況を考慮した交通ルール例外に対するインフォームド強化学習

Informed Reinforcement Learning for Situation-Aware Traffic Rule Exceptions ( http://arxiv.org/abs/2402.04168v2 )

ライセンス: Link先を確認
Daniel Bogdoll, Jing Qin, Moritz Nekolla, Ahmed Abouelazm, Tim Joseph, J. Marius Zöllner, (参考訳) 強化学習は、有望な進歩を伴う非常に活発な研究分野である。 しかし、自動運転の分野では、しばしば非常に単純なシナリオが検討されている。 一般的なアプローチでは、非解釈可能な制御コマンドをアクション空間として、構造を持たない非構造的な報酬設計として使用する。 本稿では,構造化ルールブックを知識源として統合するインフォームド強化学習を紹介する。 我々は、トラジェクトリを学び、それらを状況に応じた報酬設計で評価し、エージェントが制御された交通規則例外を必要とする状況を学ぶことができる動的な報酬をもたらす。 我々の方法は任意のRLモデルに適用できる。 近年のモデルベースエージェントを用いた複雑なシナリオの完成率の向上に成功している。

Reinforcement Learning is a highly active research field with promising advancements. In the field of autonomous driving, however, often very simple scenarios are being examined. Common approaches use non-interpretable control commands as the action space and unstructured reward designs which lack structure. In this work, we introduce Informed Reinforcement Learning, where a structured rulebook is integrated as a knowledge source. We learn trajectories and asses them with a situation-aware reward design, leading to a dynamic reward which allows the agent to learn situations which require controlled traffic rule exceptions. Our method is applicable to arbitrary RL models. We successfully demonstrate high completion rates of complex scenarios with recent model-based agents.
翻訳日:2024-06-13 22:53:54 公開日:2024-06-12
# 個別処理効果予測のためのコンフォーマルコンボリューションとモンテカルロメタラーナー

Conformal Convolution and Monte Carlo Meta-learners for Predictive Inference of Individual Treatment Effects ( http://arxiv.org/abs/2402.04906v4 )

ライセンス: Link先を確認
Jef Jonkers, Jarne Verhaeghe, Glenn Van Wallendael, Luc Duchateau, Sofie Van Hoecke, (参考訳) 治療効果として知られる介入の効果の知識は、意思決定において最重要である。 条件付き平均処理効果(CATE)メタラーナーを用いてこの処理効果を推定するためのアプローチは、多くの場合、この処理効果の点推定しか提供せず、さらに不確実な定量化が、意思決定の信頼性を高めるために望まれる。 これを解決するために、共形畳み込みTラーナー(CCT-learner)と共形モンテカルロメタラーナー(CMC)の2つの新しいアプローチを導入する。 これらの手法は、重み付き共形予測システム(WCPS)、モンテカルロサンプリング、CATEメタラーナーを利用して、個別化された意思決定を促進する個別処理効果(ITE)の予測分布を生成する。 結果の雑音分布の仮定が不確実性予測にどのように影響するかを示すが, 実験により, CCT-およびCMCメタラーナーは狭帯域幅を維持しながら, 高いカバレッジが得られることを示した。 また、確率論的に校正された予測分布を生成し、様々な合成および半合成データセットにわたる信頼できるITE範囲を提供する。 コード:https://github.com/predict-idlab/cct-cmc

Knowledge of the effect of interventions, known as the treatment effect, is paramount for decision-making. Approaches to estimating this treatment effect using conditional average treatment effect (CATE) meta-learners often provide only a point estimate of this treatment effect, while additional uncertainty quantification is frequently desired to enhance decision-making confidence. To address this, we introduce two novel approaches: the conformal convolution T-learner (CCT-learner) and conformal Monte Carlo (CMC) meta-learners. The approaches leverage weighted conformal predictive systems (WCPS), Monte Carlo sampling, and CATE meta-learners to generate predictive distributions of individual treatment effect (ITE) that could enhance individualized decision-making. Although we show how assumptions about the noise distribution of the outcome influence the uncertainty predictions, our experiments demonstrate that the CCT- and CMC meta-learners achieve strong coverage while maintaining narrow interval widths. They also generate probabilistically calibrated predictive distributions, providing reliable ranges of ITEs across various synthetic and semi-synthetic datasets. Code: https://github.com/predict-idlab/cct-cmc
翻訳日:2024-06-13 22:53:54 公開日:2024-06-12
# 知識グラフによる協調によるPrompt-based LLM推論手法の強化

An Enhanced Prompt-Based LLM Reasoning Scheme via Knowledge Graph-Integrated Collaboration ( http://arxiv.org/abs/2402.04978v2 )

ライセンス: Link先を確認
Yihao Li, Ru Zhang, Jianyi Liu, (参考訳) 大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクにおいて例外的なパフォーマンスを示すが、幻覚の問題、知識の更新の不十分、推論プロセスにおける透明性の制限など、実用上の課題に直面する。 これらの制約を克服するために,知識グラフ(KG)とLLMの緊密な連携を伴う協調学習自由推論手法を革新的に提案する。 このスキームは、まずLLMを用いてKGを反復的に探索し、推論をサポートするためにタスク関連知識サブグラフを選択的に検索する。 LLMはその後、意味のある暗黙の知識をサブグラフで推論し、推論過程を明示的に解明するためにガイドされる。 このような協調的な手法により、より信頼性の高い知識に基づく推論を実現し、推論結果の追跡を容易にする。 実験結果から,提案手法は複数のデータセットで大きく進歩し,特にQALD10データセットでは,最高のベースラインと細調整されたSOTA(State-of-the-art)作業と比較して10%以上の改善が達成された。 本研究は, この成功を踏まえ, KG と LLM の融合における今後の研究の参考として, 複雑な問題の解決における LLM の熟練度を高めることを目的としている。

While Large Language Models (LLMs) demonstrate exceptional performance in a multitude of Natural Language Processing (NLP) tasks, they encounter challenges in practical applications, including issues with hallucinations, inadequate knowledge updating, and limited transparency in the reasoning process. To overcome these limitations, this study innovatively proposes a collaborative training-free reasoning scheme involving tight cooperation between Knowledge Graph (KG) and LLMs. This scheme first involves using LLMs to iteratively explore KG, selectively retrieving a task-relevant knowledge subgraph to support reasoning. The LLMs are then guided to further combine inherent implicit knowledge to reason on the subgraph while explicitly elucidating the reasoning process. Through such a cooperative approach, our scheme achieves more reliable knowledge-based reasoning and facilitates the tracing of the reasoning results. Experimental results show that our scheme significantly progressed across multiple datasets, notably achieving over a 10% improvement on the QALD10 dataset compared to the best baseline and the fine-tuned state-of-the-art (SOTA) work. Building on this success, this study hopes to offer a valuable reference for future research in the fusion of KG and LLMs, thereby enhancing LLMs' proficiency in solving complex issues.
翻訳日:2024-06-13 22:53:54 公開日:2024-06-12
# 深層学習におけるデータセット特性が会員プライバシに及ぼす影響について

On the Impact of Dataset Properties on Membership Privacy of Deep Learning ( http://arxiv.org/abs/2402.06674v2 )

ライセンス: Link先を確認
Marlon Tobaben, Joonas Jälkö, Gauri Pradhan, Yuan He, Antti Honkela, (参考訳) 我々は,大規模画像分類モデルの実用的プライバシ脆弱性を系統的に検証するために,最先端のメンバシップ推論攻撃(MIA)を適用した。 我々は、メンバーシップ推論に弱いデータセットとサンプルの特性を理解することに重点を置いている。 データセット特性の面では、攻撃の正の真の正の率を低い偽陽性のレートで測定すると、データ中のクラス毎の例数とMIA脆弱性との間に強い電力法的依存がある。 線形モデルを用いて、データセットの特性に基づいて真の正の確率を予測し、未知のデータに対するMIA脆弱性をよく観察する。 この現象を理論的に解析するために,実験データと同様に振る舞う簡易なメンバーシップ推論モデルを用いて,結果を再現する。 このモデルでは、真と偽の正の比率の差の対数は、クラス毎のサンプル数の対数に依存することが証明され、個々のサンプルでは、勾配ノルムはその脆弱性を予測できる。

We apply a state-of-the-art membership inference attack (MIA) to systematically test the practical privacy vulnerability of fine-tuning large image classification models. We focus on understanding the properties of data sets and samples that make them vulnerable to membership inference. In terms of data set properties, we find a strong power law dependence between the number of examples per class in the data and the MIA vulnerability, as measured by true positive rate of the attack at a low false positive rate. We train a linear model to predict true positive rate based on data set properties and observe good fit for MIA vulnerability on unseen data. To analyse the phenomenon theoretically, we reproduce the result on a simplified model of membership inference that behaves similarly to our experimental data. We prove that in this model, the logarithm of the difference of true and false positive rates depends linearly on the logarithm of the number of examples per class.For an individual sample, the gradient norm is predictive of its vulnerability.
翻訳日:2024-06-13 22:53:54 公開日:2024-06-12
# 大規模言語モデルの歴史, 発展, 原理-序論調査

History, Development, and Principles of Large Language Models-An Introductory Survey ( http://arxiv.org/abs/2402.06853v2 )

ライセンス: Link先を確認
Zhibo Chu, Shiwen Ni, Zichong Wang, Xi Feng, Min Yang, Wenbin Zhang, (参考訳) 言語モデルは自然言語処理(NLP)の基盤として機能し、予測と生成のための言語法則と知識を一般化するための数学的手法を利用する。 数十年にわたって、言語モデリングは、初期統計言語モデル(SLM)から、大規模言語モデル(LLM)の現代的景観へと進歩してきた。 特に、LCMの急速な進化は、人間のレベルのテキストを処理、理解、生成する能力に到達した。 それでも、LLMが仕事と個人の生活の両方を改善する上で大きな利点を提供しているにもかかわらず、これらのモデルの背景と原則に関する一般の実践者の間では、その潜在能力を最大限に発揮している。 特に、LLMのレビューの多くは特定の側面に焦点をあて、専門的な言語を活用しており、実践者が関連する背景知識を欠いている場合の課題となっている。 これを踏まえて、この調査はLLMの概要を包括的に提示し、幅広い聴衆を支援することを目的としている。 言語モデルの歴史的背景を探索し、時間の経過とともにその進化を追跡することによって、包括的な理解を促進することを目指している。 この調査は、LLMの開発に影響を与える要因をさらに調査し、重要な貢献を強調した。 さらに、LLMの基本原理の解明に集中し、聴衆に本質的な理論的知識を与える。 調査ではまた、既存の作業の限界を強調し、将来有望な方向性を指摘している。

Language models serve as a cornerstone in natural language processing (NLP), utilizing mathematical methods to generalize language laws and knowledge for prediction and generation. Over extensive research spanning decades, language modeling has progressed from initial statistical language models (SLMs) to the contemporary landscape of large language models (LLMs). Notably, the swift evolution of LLMs has reached the ability to process, understand, and generate human-level text. Nevertheless, despite the significant advantages that LLMs offer in improving both work and personal lives, the limited understanding among general practitioners about the background and principles of these models hampers their full potential. Notably, most LLMs reviews focus on specific aspects and utilize specialized language, posing a challenge for practitioners lacking relevant background knowledge. In light of this, this survey aims to present a comprehensible overview of LLMs to assist a broader audience. It strives to facilitate a comprehensive understanding by exploring the historical background of language models and tracing their evolution over time. The survey further investigates the factors influencing the development of LLMs, emphasizing key contributions. Additionally, it concentrates on elucidating the underlying principles of LLMs, equipping audiences with essential theoretical knowledge. The survey also highlights the limitations of existing work and points out promising future directions.
翻訳日:2024-06-13 22:53:54 公開日:2024-06-12
# 経験的ベイズ平滑化による最適スコア推定

Optimal score estimation via empirical Bayes smoothing ( http://arxiv.org/abs/2402.07747v2 )

ライセンス: Link先を確認
Andre Wibisono, Yihong Wu, Kaylee Yingxi Yang, (参考訳) 未知確率分布$\rho^*$から$n$独立分布および$d$次元における同一分布観測値のスコア関数を推定する問題について検討する。 損失関数 $\|\hat s - s^*\|^2_{L^2(\rho^*)} の下のこの推定問題に対して、正確なスコア推定のためのサンプルの複雑さが$d$と指数関数的に増加するような次元の呪いを強調して、リプシッツ連続スコア関数 $s^*$ が亜ガウス的であり、リプシッツ連続スコア関数 $s^*$ を持つと仮定すると、損失関数 $\|\hat s - s^*\|^2_{L^2(\rho^*)} のこの推定問題に対して $\tilde \Theta(n^{-\frac{2}{d+4}})$ の最適レートを確立する。 経験的ベイズ理論における重要な洞察とヘリンガー距離における滑らかな経験的分布の新たな収束率を活用して、ガウス核に基づく正規化スコア推定器が、一致するミニマックス下界によって最適に示されるこの速度を達成することを示す。 また、$\beta$-H\"古い連続スコアを$\beta \leq 1$で推定する拡張や、スコアベース生成モデルのサンプル複雑性に関する理論の影響についても論じる。

We study the problem of estimating the score function of an unknown probability distribution $\rho^*$ from $n$ independent and identically distributed observations in $d$ dimensions. Assuming that $\rho^*$ is subgaussian and has a Lipschitz-continuous score function $s^*$, we establish the optimal rate of $\tilde \Theta(n^{-\frac{2}{d+4}})$ for this estimation problem under the loss function $\|\hat s - s^*\|^2_{L^2(\rho^*)}$ that is commonly used in the score matching literature, highlighting the curse of dimensionality where sample complexity for accurate score estimation grows exponentially with the dimension $d$. Leveraging key insights in empirical Bayes theory as well as a new convergence rate of smoothed empirical distribution in Hellinger distance, we show that a regularized score estimator based on a Gaussian kernel attains this rate, shown optimal by a matching minimax lower bound. We also discuss extensions to estimating $\beta$-H\"older continuous scores with $\beta \leq 1$, as well as the implication of our theory on the sample complexity of score-based generative models.
翻訳日:2024-06-13 22:53:54 公開日:2024-06-12
# SLEB: 冗長性検証によるLLMのストリーム化と変圧器ブロックの除去

SLEB: Streamlining LLMs through Redundancy Verification and Elimination of Transformer Blocks ( http://arxiv.org/abs/2402.09025v4 )

ライセンス: Link先を確認
Jiwon Song, Kyungseok Oh, Taesu Kim, Hyungjun Kim, Yulhwa Kim, Jae-Joon Kim, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて非常に効果的であることが証明されている。 しかし、それらの多数のパラメータは、実践的なデプロイに重大な課題を生じさせる。 LLMのサイズと複雑さを減らすことを目的とした技術であるPruningは、ネットワークから冗長なコンポーネントを取り除くことで潜在的なソリューションを提供する。 プルーニングの約束にもかかわらず、既存の手法は、かなりエンドツーエンドのLSM推論スピードアップを達成するのに苦労することが多い。 本稿では、冗長なトランスブロックを排除し、LCMを合理化するための新しいアプローチであるSLEBを紹介する。 LLMは隣接するブロックの出力間に高い類似性を有するブロックレベルの冗長性を示すため、我々は変圧器ブロックをプルーニングの基本単位として選択する。 この選択により、LLMの処理速度を効果的に向上できる。 実験結果から,SLEBはLLM推論を高速化し,高いパープレキシティと精度を維持しつつ,従来のLLMプルーニング法よりも優れており,SLEBはLLMの効率を高めるための有望な技術であることが示された。 コードは、https://github.com/jiwonsong-dev/SLEB.comで入手できる。

Large language models (LLMs) have proven to be highly effective across various natural language processing tasks. However, their large number of parameters poses significant challenges for practical deployment. Pruning, a technique aimed at reducing the size and complexity of LLMs, offers a potential solution by removing redundant components from the network. Despite the promise of pruning, existing methods often struggle to achieve substantial end-to-end LLM inference speedup. In this paper, we introduce SLEB, a novel approach designed to streamline LLMs by eliminating redundant transformer blocks. We choose the transformer block as the fundamental unit for pruning, because LLMs exhibit block-level redundancy with high similarity between the outputs of neighboring blocks. This choice allows us to effectively enhance the processing speed of LLMs. Our experimental results demonstrate that SLEB outperforms previous LLM pruning methods in accelerating LLM inference while also maintaining superior perplexity and accuracy, making SLEB as a promising technique for enhancing the efficiency of LLMs. The code is available at: https://github.com/jiwonsong-dev/SLEB.
翻訳日:2024-06-13 22:53:54 公開日:2024-06-12
# 中国メンタルバート : 中国のメンタルヘルステキスト分析のためのソーシャルメディアにおけるドメイン適応型事前学習

Chinese MentalBERT: Domain-Adaptive Pre-training on Social Media for Chinese Mental Health Text Analysis ( http://arxiv.org/abs/2402.09151v2 )

ライセンス: Link先を確認
Wei Zhai, Hongzhi Qi, Qing Zhao, Jianqiang Li, Ziqi Wang, Han Wang, Bing Xiang Yang, Guanghui Fu, (参考訳) 現在の環境では、心理学的な問題が広まっており、ソーシャルメディアは個人が感情を共有するための重要な手段となっている。 この結果、毎日大量のデータが生成され、負の感情が危機的状況を引き起こす可能性がある。 効率的な分析が可能なモデルの必要性は認識されている。 事前訓練された言語モデルは、その効果を広く証明しているが、心理学のような専門分野に適した事前訓練されたモデルには、顕著なギャップがある。 これを解決するために、中国のソーシャルメディアプラットフォームから巨大なデータセットを収集し、公開データセットを充実させて、336万のテキストエントリを含む包括的なデータベースを作成しました。 心理学的テキスト分析へのモデルの適用性を高めるため,プレトレーニングマスキング機構に心理的レキシコンを組み込んだ。 既存の中国語モデルに基づいて,心理学領域に特化したモデルを開発するための適応訓練を行った。 6つの公開データセットでモデルの性能を評価し,他の8つのモデルと比較して改善点を示した。 さらに,定性比較実験では,マスキング文から心理的に関連性のある予測が得られた。 データプライバシに関する懸念のため、データセットは公開されない。 https://github.com/zwzzzQAQ/ Chinese-MentalBERT.com/

In the current environment, psychological issues are prevalent and widespread, with social media serving as a key outlet for individuals to share their feelings. This results in the generation of vast quantities of data daily, where negative emotions have the potential to precipitate crisis situations. There is a recognized need for models capable of efficient analysis. While pre-trained language models have demonstrated their effectiveness broadly, there's a noticeable gap in pre-trained models tailored for specialized domains like psychology. To address this, we have collected a huge dataset from Chinese social media platforms and enriched it with publicly available datasets to create a comprehensive database encompassing 3.36 million text entries. To enhance the model's applicability to psychological text analysis, we integrated psychological lexicons into the pre-training masking mechanism. Building on an existing Chinese language model, we performed adaptive training to develop a model specialized for the psychological domain. We evaluated our model's performance across six public datasets, where it demonstrated improvements compared to eight other models. Additionally, in the qualitative comparison experiment, our model provided psychologically relevant predictions given the masked sentences. Due to concerns regarding data privacy, the dataset will not be made publicly available. However, we have made the pre-trained models and codes publicly accessible to the community via: https://github.com/zwzzzQAQ/Chinese-MentalBERT.
翻訳日:2024-06-13 22:53:54 公開日:2024-06-12
# LESSでさらなる情報を得る:効率的なLLM推論のためのKVキャッシュ圧縮による再帰の合成

Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference ( http://arxiv.org/abs/2402.09398v2 )

ライセンス: Link先を確認
Harry Dong, Xinyu Yang, Zhenyu Zhang, Zhangyang Wang, Yuejie Chi, Beidi Chen, (参考訳) 多くの計算要素は、大きな言語モデルのより広範な展開を制限する。 本稿では,鍵値キャッシュ(KV)によって引き起こされるメモリボトルネックに着目し,復号時に従来のKVペアを格納する必要がある計算ショートカットについて述べる。 既存のKVキャッシュメソッドは、キャッシュのメモリフットプリントを劇的に削減するために、比較的重要でないKVペアの大きなスワストを刈り取ったり、取り除いたりすることで、この問題にアプローチするが、以前のトークンの大部分を再コンパイルする必要のあるタスクでは、限られた成功しか得られない。 この問題を緩和するために、LESSを提案する。これは(ほぼ無料の)定数サイズのキャッシュとエビクションベースのキャッシュメソッドとの単純な統合であり、すべてのトークンを後続のデコードステップでクエリすることができる。 情報を保持する能力は、LESSが全てをキャッシュすることからパフォーマンスのギャップを減らし、時にはマッチすることまでも、効率的であることを実証する様々なタスクにおいてメリットを示します。 関連するコードはhttps://github.com/hdong920/LESSにある。

Many computational factors limit broader deployment of large language models. In this paper, we focus on a memory bottleneck imposed by the key-value (KV) cache, a computational shortcut that requires storing previous KV pairs during decoding. While existing KV cache methods approach this problem by pruning or evicting large swaths of relatively less important KV pairs to dramatically reduce the memory footprint of the cache, they can have limited success in tasks that require recollecting a majority of previous tokens. To alleviate this issue, we propose LESS, a simple integration of a (nearly free) constant sized cache with eviction-based cache methods, such that all tokens can be queried at later decoding steps. Its ability to retain information throughout time shows merit on a variety of tasks where we demonstrate LESS can help reduce the performance gap from caching everything, sometimes even matching it, all while being efficient. Relevant code can be found at https://github.com/hdong920/LESS.
翻訳日:2024-06-13 22:53:54 公開日:2024-06-12
# 絡み合いの誘導バイアスとしての交差注意拡散モデル

Diffusion Model with Cross Attention as an Inductive Bias for Disentanglement ( http://arxiv.org/abs/2402.09712v2 )

ライセンス: Link先を確認
Tao Yang, Cuiling Lan, Yan Lu, Nanning zheng, (参考訳) 遠方表現学習は、観測データ内の本質的要因を抽出する試みである。 これらの表現を教師なしの方法で分解することは特に困難であり、通常、調整された損失関数や特定の構造設計を必要とする。 本稿では,非交叉表現の学習を容易にするために,クロスアテンションを持つ拡散モデルが強力な帰納バイアスとなることを示す,新しい視点と枠組みを紹介する。 本稿では,概念トークンの集合に画像をエンコードし,それを画像再構成のための潜伏拡散条件として扱うことを提案する。 さらなる正規化がなければ、このフレームワークはベンチマークデータセット上で優れた不整合性能を達成し、複雑な設計で以前のすべてのメソッドを上回ります。 我々は,このモデルの機能について,包括的アブレーション研究と可視化解析を行い,光を遮蔽した。 これは、複雑な設計を必要とせず、クロスアテンションを持つ拡散モデルの強力な解離能力を明らかにする最初の研究である。 我々は、より洗練されたデータ分析と理解に向けて、不整合表現学習のための拡散を探究するためのさらなる調査を期待する。

Disentangled representation learning strives to extract the intrinsic factors within observed data. Factorizing these representations in an unsupervised manner is notably challenging and usually requires tailored loss functions or specific structural designs. In this paper, we introduce a new perspective and framework, demonstrating that diffusion models with cross-attention can serve as a powerful inductive bias to facilitate the learning of disentangled representations. We propose to encode an image to a set of concept tokens and treat them as the condition of the latent diffusion for image reconstruction, where cross-attention over the concept tokens is used to bridge the interaction between the encoder and diffusion. Without any additional regularization, this framework achieves superior disentanglement performance on the benchmark datasets, surpassing all previous methods with intricate designs. We have conducted comprehensive ablation studies and visualization analysis, shedding light on the functioning of this model. This is the first work to reveal the potent disentanglement capability of diffusion models with cross-attention, requiring no complex designs. We anticipate that our findings will inspire more investigation on exploring diffusion for disentangled representation learning towards more sophisticated data analysis and understanding.
翻訳日:2024-06-13 22:53:54 公開日:2024-06-12
# 外挿を考慮した非パラメトリック統計的推測

Extrapolation-Aware Nonparametric Statistical Inference ( http://arxiv.org/abs/2402.09758v2 )

ライセンス: Link先を確認
Niklas Pfister, Peter Bühlmann, (参考訳) 我々は,外挿を条件変数の支持の外部で評価された条件関数(例えば,条件期待値や条件量子化値)の統計的推測の種類として定義する。 この種の外挿は、多くのデータ分析アプリケーションで発生し、考慮しなければ結果の結論を無効にすることができる。 パラメトリックモデルでは外挿は単純であるが、非パラメトリックモデルでは困難になる。 本研究では、非パラメトリック統計モデルを拡張して、外挿を明示的に許容し、既存の推論手法と組み合わせて外挿を意識した結論を導出できるような、外挿仮定のクラスを導入する。 提案された外挿仮定のクラスは、条件関数が観測された支持範囲内において、各方向において、その最小かつ最大方向微分を達成することを規定している。 本稿では,このフレームワークが予測や不確実性定量化など,いくつかの統計的応用に適用する方法について述べる。 さらに,既存の非パラメトリック推定値の調整に使用可能な一貫した推定手法を提案する。 この手順はシミュレーションデータと実世界のデータの両方で実証的に評価される。

We define extrapolation as any type of statistical inference on a conditional function (e.g., a conditional expectation or conditional quantile) evaluated outside of the support of the conditioning variable. This type of extrapolation occurs in many data analysis applications and can invalidate the resulting conclusions if not taken into account. While extrapolating is straightforward in parametric models, it becomes challenging in nonparametric models. In this work, we extend the nonparametric statistical model to explicitly allow for extrapolation and introduce a class of extrapolation assumptions that can be combined with existing inference techniques to draw extrapolation-aware conclusions. The proposed class of extrapolation assumptions stipulate that the conditional function attains its minimal and maximal directional derivative, in each direction, within the observed support. We illustrate how the framework applies to several statistical applications including prediction and uncertainty quantification. We furthermore propose a consistent estimation procedure that can be used to adjust existing nonparametric estimates to account for extrapolation by providing lower and upper extrapolation bounds. The procedure is empirically evaluated on both simulated and real-world data.
翻訳日:2024-06-13 22:53:54 公開日:2024-06-12
# 未知目標に対する予測線形オンライントラッキング

Predictive Linear Online Tracking for Unknown Targets ( http://arxiv.org/abs/2402.10036v2 )

ライセンス: Link先を確認
Anastasios Tsiamis, Aren Karapetyan, Yueshan Li, Efe C. Balta, John Lygeros, (参考訳) 本稿では,リニア制御システムにおけるオンライントラッキングの問題について検討する。 古典的追跡制御とは異なり、ターゲットは非定常的であり、その状態は順次明らかにされ、オンラインの非確率的制御の枠組みに適合する。 本稿では,2次コストの場合を考慮し,予測線形オンライントラッキング(PLOT)と呼ばれる新しいアルゴリズムを提案する。 このアルゴリズムは、指数的忘れを伴う再帰最小二乗を用いて、ターゲットの時間変化動的モデルを学ぶ。 学習モデルは、後退水平制御の枠組みの下で最適な政策で使用される。 PLOTスケールの動的後悔を$\mathcal{O}(\sqrt{TV_T})$で示します。 これまでの研究とは違って、理論的な結果は非定常目標に当てはまる。 PLOTを実機に実装し,オープンソースソフトウェアを提供することにより,実機上でのオンライン制御手法の最初の成功例の1つを示す。

In this paper, we study the problem of online tracking in linear control systems, where the objective is to follow a moving target. Unlike classical tracking control, the target is unknown, non-stationary, and its state is revealed sequentially, thus, fitting the framework of online non-stochastic control. We consider the case of quadratic costs and propose a new algorithm, called predictive linear online tracking (PLOT). The algorithm uses recursive least squares with exponential forgetting to learn a time-varying dynamic model of the target. The learned model is used in the optimal policy under the framework of receding horizon control. We show the dynamic regret of PLOT scales with $\mathcal{O}(\sqrt{TV_T})$, where $V_T$ is the total variation of the target dynamics and $T$ is the time horizon. Unlike prior work, our theoretical results hold for non-stationary targets. We implement PLOT on a real quadrotor and provide open-source software, thus, showcasing one of the first successful applications of online control methods on real hardware.
翻訳日:2024-06-13 22:53:54 公開日:2024-06-12
# 両論とも、一般知能を損なうことなく、大規模言語モデルの感情知性を高めること

Both Matter: Enhancing the Emotional Intelligence of Large Language Models without Compromising the General Intelligence ( http://arxiv.org/abs/2402.10073v3 )

ライセンス: Link先を確認
Weixiang Zhao, Zhuojun Li, Shilong Wang, Yang Wang, Yulin Hu, Yanyan Zhao, Chen Wei, Bing Qin, (参考訳) 感情インテリジェンス(EI)は、感情知覚、感情認知、感情表現から構成され、現在の大言語モデル(LLM)ベースの会話型汎用AIアシスタントのユーザインタラクションエクスペリエンスを改善する上で重要な役割を担っている。 これまでの研究は主に、EI関連分類や回帰タスクの微調整による感情知覚能力の向上に重点を置いていた。 しかし、これはEIの不完全な拡張と一般知能(GI)の破滅的な忘れに繋がる。 この目的のために、まず、EIの3つの側面をすべてカバーするタスク命令を含むテキストからテキストまでのEI関連タスクの大規模コレクションである \textsc{EiBench} を紹介した。 そこで, Modular Parameter Expansion と Inter-inter modulation からなる新しい \underline{\textbf{Mo}}dular \underline{\textbf{E}}motional \underline{\textbf{I}}ntelligence enhancement method (\textbf{MoEI}) を提案し, GI を損なわずに LLM の EI を包括的に拡張する。 Flan-T5 と LLaMA-2-Chat の 2 つの LLM ベースアシスタントの広範囲な実験は、GI を維持しながら、EI を改善するための MoEI の有効性を実証している。

Emotional Intelligence (EI), consisting of emotion perception, emotion cognition and emotion expression, plays the critical roles in improving user interaction experience for the current large language model (LLM) based conversational general AI assistants. Previous works mainly focus on raising the emotion perception ability of them via naive fine-tuning on EI-related classification or regression tasks. However, this leads to the incomplete enhancement of EI and catastrophic forgetting of the general intelligence (GI). To this end, we first introduce \textsc{EiBench}, a large-scale collection of EI-related tasks in the text-to-text formation with task instructions that covers all three aspects of EI, which lays a solid foundation for the comprehensive EI enhancement of LLMs. Then a novel \underline{\textbf{Mo}}dular \underline{\textbf{E}}motional \underline{\textbf{I}}ntelligence enhancement method (\textbf{MoEI}), consisting of Modular Parameter Expansion and intra-inter modulation, is proposed to comprehensively enhance the EI of LLMs without compromise their GI. Extensive experiments on two representative LLM-based assistants, Flan-T5 and LLaMA-2-Chat, demonstrate the effectiveness of MoEI to improving EI while maintain GI.
翻訳日:2024-06-13 22:53:54 公開日:2024-06-12
# 分類拡散モデル:密度比推定の活性化

Classification Diffusion Models: Revitalizing Density Ratio Estimation ( http://arxiv.org/abs/2402.10095v2 )

ライセンス: Link先を確認
Shahar Yadin, Noam Elata, Tomer Michaeli, (参考訳) データ分散を学習する一流の手法は密度比推定(DRE)に依存し、モデルがデータサンプルと参照分布からのサンプルの間で$\textit{classify}$にトレーニングされる。 DREベースのモデルは任意の入力の確率を直接出力することができるが、これはほとんどの生成技術に欠けている非常に望ましい性質である。 しかし、これまでDRE法は画像のような複雑な高次元データの分布を正確に捉えるのに苦労し、長年にわたって研究の関心を減らしてきた。 本研究では,DREをベースとした拡散モデル (DDM) の定式化手法である$\textit{classification diffusion model}$ (CDMs) を,クリーン信号に付加される雑音のレベルを予測する分類器を用いて提示する。 提案手法は,白色ガウス雑音に対するMSE-最適デノイザと雑音レベルの予測のためのクロスエントロピー-最適分類器との間に生じる解析的接続に基づく。 我々の知る限りでは、この手法はDREベースの最初の画像生成技術である。 さらに、1つのフォワードパスで任意の入力の確率を出力し、この特性を持つメソッド間で最先端の負のログ可能性(NLL)を達成する。 コードはプロジェクトのWebページ(https://shaharYadin.github.io/CDM/)で公開されている。

A prominent family of methods for learning data distributions relies on density ratio estimation (DRE), where a model is trained to $\textit{classify}$ between data samples and samples from some reference distribution. DRE-based models can directly output the likelihood for any given input, a highly desired property that is lacking in most generative techniques. Nevertheless, to date, DRE methods have struggled to accurately capture the distributions of complex high-dimensional data like images, which led to reduced research attention over the years. In this work we present $\textit{classification diffusion models}$ (CDMs), a DRE-based generative method that adopts the formalism of denoising diffusion models (DDMs) while making use of a classifier that predicts the level of noise added to a clean signal. Our method is based on an analytical connection that we derive between an MSE-optimal denoiser for white Gaussian noise and a cross-entropy-optimal classifier for predicting the noise level. To the best of our knowledge, our method is the first DRE-based technique that can successfully generate images. Furthermore, it can output the likelihood of any input in a single forward pass, achieving state-of-the-art negative log likelihood (NLL) among methods with this property. Code is available on the project's webpage in https://shaharYadin.github.io/CDM/ .
翻訳日:2024-06-13 22:53:54 公開日:2024-06-12
# 一般化レート演算子量子ジャンプと実現依存変換

Generalized Rate Operator Quantum Jumps via Realization-Dependent Transformations ( http://arxiv.org/abs/2402.12445v2 )

ライセンス: Link先を確認
Federico Settimo, Kimmo Luoma, Dariusz Chruściński, Bassano Vacchini, Andrea Smirne, Jyrki Piilo, (参考訳) 開量子系の力学は、状態ベクトル現実化の平均が密度行列の進化を再現する確率的不退化によってしばしば解かれる。 我々は、レート演算子形式に基づく量子ジャンプ記述に焦点を当てる。 マスター方程式の異なる等価な記述方法の表示と活用に加えて、確率的純粋状態実現の枠組みの中で状態依存率演算子変換を導入し、これまで開発された形式主義の拡張と一般化を可能にした。 結果として、これは確率的実現の制御性を改善し、その後、開系力学を解くための最適なシミュレーションスキームを探す際に大きな利益をもたらす。 基本的なレベルでは、我々の結果は、対応する動的写像がP-可視性の性質を破り、強非マルコフ体制にあるとしても、逆量子ジャンプをせずに、補助次数の自由の使用を避けることができることを示す。

The dynamics of open quantum systems is often solved by stochastic unravellings where the average over the state vector realizations reproduces the density matrix evolution. We focus on quantum jump descriptions based on the rate operator formalism. In addition to displaying and exploiting different equivalent ways of writing the master equation, we introduce state-dependent rate operator transformations within the framework of stochastic pure state realizations, allowing us to extend and generalize the previously developed formalism. As a consequence, this improves the controllability of the stochastic realizations and subsequently greatly benefits when searching for optimal simulation schemes to solve open system dynamics. At a fundamental level, intriguingly, our results show that it is possible to have positive unravellings -- without reverse quantum jumps and avoiding the use of auxiliary degrees freedom -- in a number of example cases even when the corresponding dynamical map breaks the property of P-divisibility, thus being in the strongly non-Markovian regime.
翻訳日:2024-06-13 22:44:06 公開日:2024-06-12
# 事前訓練された言語モデルは意味的不特定を検知し、理解しているか? DUSTに聞く!

Do Pre-Trained Language Models Detect and Understand Semantic Underspecification? Ask the DUST! ( http://arxiv.org/abs/2402.12486v2 )

ライセンス: Link先を確認
Frank Wildenburg, Michael Hanna, Sandro Pezzelle, (参考訳) 日常言語では、話者は意味的に不特定な文をしばしば発声し、解釈する。 例えば、「あまり使うな」という未明の文を解釈するためには、追加の言語的文脈や外部知識が必要であることを暗黙的に残す。 本研究では,タイプ(DUST)によってグループ化された意味的不特定文のデータセットを提案し,それを用いて,事前学習された言語モデル(LM)が不特定文を正しく識別し,解釈するかどうかを検討する。 より新しいLMは、明示的に指示されたとき、不特定文を合理的に識別できることが判明した。 しかし、それらを正しく解釈することは、いかなるLMにとってもはるかに困難である。 実験の結果,不特定文の解釈においては,不特定文の理論的説明が予測する内容とは対照的に,不確実性はほとんど認められなかった。 本研究は,現在行われている文意味論の処理の限界を明らかにするとともに,LMの言語能力を評価する上で,自然主義的データとコミュニケーション的シナリオを使用することの重要性を明らかにする。

In everyday language use, speakers frequently utter and interpret sentences that are semantically underspecified, namely, whose content is insufficient to fully convey their message or interpret them univocally. For example, to interpret the underspecified sentence "Don't spend too much", which leaves implicit what (not) to spend, additional linguistic context or outside knowledge is needed. In this work, we propose a novel Dataset of semantically Underspecified Sentences grouped by Type (DUST) and use it to study whether pre-trained language models (LMs) correctly identify and interpret underspecified sentences. We find that newer LMs are reasonably able to identify underspecified sentences when explicitly prompted. However, interpreting them correctly is much harder for any LMs. Our experiments show that when interpreting underspecified sentences, LMs exhibit little uncertainty, contrary to what theoretical accounts of underspecification would predict. Overall, our study reveals limitations in current models' processing of sentence semantics and highlights the importance of using naturalistic data and communicative scenarios when evaluating LMs' language capabilities.
翻訳日:2024-06-13 22:44:06 公開日:2024-06-12
# フォーミュラ推論:フォーミュラベース数値推論のためのデータセット

FormulaReasoning: A Dataset for Formula-Based Numerical Reasoning ( http://arxiv.org/abs/2402.12692v3 )

ライセンス: Link先を確認
Xiao Li, Bolin Zhu, Sichen Liu, Yin Zhu, Yiwei Liu, Gong Cheng, (参考訳) 公式の適用は、数値推論問題に対処する際の人間の基本的な能力である。 しかし、既存の数値推論データセットは、推論のステップで使われる公式を明示的に示すことは滅多にない。 このギャップを埋めるために、フォーミュラ推論と呼ばれる公式に基づく数値推論のためのデータセットを構築し、これは5,420の推論に基づく質問からなる。 ゼロショット, 少数ショットチェーン・オブ・思想的手法を用いて, 7B から 100B 以上のパラメータを持つ LLM の評価を行い, さらに, このデータセットに付随する外部式データベースを備えた検索拡張 LLM を用いて検討する。 また,解析過程を公式生成,パラメータ抽出,数値計算に分割し,データ拡張を行う教師付き手法の実験を行った。 我々の経験的発見は、我々の複雑な式駆動型フォーミュラ推論に適用した場合、既存のモデルの改善の有意な可能性を裏付けるものである。

The application of formulas is a fundamental ability of humans when addressing numerical reasoning problems. However, existing numerical reasoning datasets seldom explicitly indicate the formulas employed during the reasoning steps. To bridge this gap, we construct a dataset for formula-based numerical reasoning called FormulaReasoning, which consists of 5,420 reasoning-based questions. We employ it to conduct evaluations of LLMs with size ranging from 7B to over 100B parameters utilizing zero-shot and few-shot chain-of-thought methods, and we further explore using retrieval-augmented LLMs provided with an external formula database associated with our dataset. We also experiment with supervised methods where we divide the reasoning process into formula generation, parameter extraction, and numerical calculation, and perform data augmentation. Our empirical findings underscore the significant potential for improvement in existing models when applied to our complex, formula-driven FormulaReasoning.
翻訳日:2024-06-13 22:44:06 公開日:2024-06-12
# バッチとマッチ:スコアに基づく発散を伴うブラックボックス変分推論

Batch and match: black-box variational inference with a score-based divergence ( http://arxiv.org/abs/2402.14758v2 )

ライセンス: Link先を確認
Diana Cai, Chirag Modi, Loucas Pillaud-Vivien, Charles C. Margossian, Robert M. Gower, David M. Blei, Lawrence K. Saul, (参考訳) ブラックボックス変分推論(BBVI)のほとんどの主要な実装は、確率的エビデンスローバウンド(ELBO)の最適化に基づいている。 しかし、BBVIへのそのようなアプローチは、勾配推定の高分散とハイパーパラメータに対する感度のために、しばしばゆっくりと収束する。 本研究では,スコアに基づく分散に基づくBBVIの代替手法であるバッチ・アンド・マッチ(BaM)を提案する。 特に、このスコアに基づく発散は、完全な共分散行列を持つガウス変分族に対する閉形式近位更新によって最適化することができる。 ターゲット分布がガウス分布であるときのBaMの収束を解析し、無限バッチサイズの極限において、変動パラメータの更新はターゲット平均と共分散に指数関数的に収束することを示した。 また,階層的および深部生成モデルにおける後方推論から生じるガウス的および非ガウス的対象分布に対するBaMの性能評価を行った。 これらの実験では、一般にBaMはELBOの最大化に基づくBBVIの先行実装よりも、より少ない(時には著しく少ない)勾配評価で収束する。

Most leading implementations of black-box variational inference (BBVI) are based on optimizing a stochastic evidence lower bound (ELBO). But such approaches to BBVI often converge slowly due to the high variance of their gradient estimates and their sensitivity to hyperparameters. In this work, we propose batch and match (BaM), an alternative approach to BBVI based on a score-based divergence. Notably, this score-based divergence can be optimized by a closed-form proximal update for Gaussian variational families with full covariance matrices. We analyze the convergence of BaM when the target distribution is Gaussian, and we prove that in the limit of infinite batch size the variational parameter updates converge exponentially quickly to the target mean and covariance. We also evaluate the performance of BaM on Gaussian and non-Gaussian target distributions that arise from posterior inference in hierarchical and deep generative models. In these experiments, we find that BaM typically converges in fewer (and sometimes significantly fewer) gradient evaluations than leading implementations of BBVI based on ELBO maximization.
翻訳日:2024-06-13 22:44:06 公開日:2024-06-12
# 大規模言語モデルの検索機能強化のための教師なし情報リファインメント訓練

Unsupervised Information Refinement Training of Large Language Models for Retrieval-Augmented Generation ( http://arxiv.org/abs/2402.18150v2 )

ライセンス: Link先を確認
Shicheng Xu, Liang Pang, Mo Yu, Fandong Meng, Huawei Shen, Xueqi Cheng, Jie Zhou, (参考訳) Retrieval-augmented Generation (RAG)は、検索から追加情報を取り入れることで、大規模言語モデル(LLM)を強化する。 しかし、研究によると、LLMは検索した情報を無視したり、誤解されたりしても、効果的に利用するための課題に直面している。 主な理由は、LLMのトレーニングによって、LLMが入力されたテキストを様々な品質で活用する方法を学ばせるわけではないからである。 本稿では,検索したテキストの正確性,完全性,有用性に関わらず,検索したテキストやモデルパラメータ内の知識を一貫して統合して,検索したテキストよりも簡潔で正確かつ完全であるテキストを生成する,新たな視点を提案する。 そこで本稿では,RAG のための LLM を教師なしで最適化する InFO-RAG という情報改善訓練手法を提案する。 InFO-RAGは低コストで、様々なタスクにまたがっている。 質問応答、スロットフィリング、言語モデリング、対話、コード生成など、さまざまなタスクにおける11のデータセットのゼロショット予測に関する広範な実験は、InFO-RAGがLLaMA2のパフォーマンスを平均9.39\%改善していることを示している。 InFO-RAGは、RAGの文脈内学習と堅牢性にも利点がある。

Retrieval-augmented generation (RAG) enhances large language models (LLMs) by incorporating additional information from retrieval. However, studies have shown that LLMs still face challenges in effectively using the retrieved information, even ignoring it or being misled by it. The key reason is that the training of LLMs does not clearly make LLMs learn how to utilize input retrieved texts with varied quality. In this paper, we propose a novel perspective that considers the role of LLMs in RAG as ``Information Refiner'', which means that regardless of correctness, completeness, or usefulness of retrieved texts, LLMs can consistently integrate knowledge within the retrieved texts and model parameters to generate the texts that are more concise, accurate, and complete than the retrieved texts. To this end, we propose an information refinement training method named InFO-RAG that optimizes LLMs for RAG in an unsupervised manner. InFO-RAG is low-cost and general across various tasks. Extensive experiments on zero-shot prediction of 11 datasets in diverse tasks including Question Answering, Slot-Filling, Language Modeling, Dialogue, and Code Generation show that InFO-RAG improves the performance of LLaMA2 by an average of 9.39\% relative points. InFO-RAG also shows advantages in in-context learning and robustness of RAG.
翻訳日:2024-06-13 22:44:06 公開日:2024-06-12
# キャビティQEDに基づく高純度単一光子生成

High-purity single-photon generation based on cavity QED ( http://arxiv.org/abs/2403.00072v2 )

ライセンス: Link先を確認
Seigo Kikura, Rui Asaoka, Masato Koashi, Yuuki Tokunaga, (参考訳) キャビティ量子電磁力学(QED)に基づいて高純度単一光子を生成する手法を提案する。 この方式では、2つの励起状態、2つの基底状態、2つの駆動レーザーを含む4レベル系を用いるが、この構造は原子崩壊による再励起過程の抑制を可能にする。 本分析により、励起状態間の駆動レーザのパワーを増加させる際に、光子発生確率を犠牲にすることなく、再励起確率が任意にゼロに近づくことを示した。 この利点は、現在の空洞QED技術を利用することで実現可能である。 提案手法は,分散量子計算や量子通信の高精度化に寄与することができる。

We propose a scheme for generating a high-purity single photon on the basis of cavity quantum electrodynamics (QED). This scheme employs a four-level system including two excited states, two ground states, and two driving lasers; this structure allows the suppression of the re-excitation process due to the atomic decay, which is known to significantly degrade the single-photon purity in state-of-the-art photon sources using a three-level system. Our analysis shows that the re-excitation probability arbitrarily approaches zero without sacrificing the photon generation probability when increasing the power of the driving laser between the excited states. This advantage is achievable by using current cavity-QED technologies. Our scheme can contribute to developing distributed quantum computation or quantum communication with high accuracy.
翻訳日:2024-06-13 22:44:06 公開日:2024-06-12
# 微分プライバシーのためのシフト補間

Shifted Interpolation for Differential Privacy ( http://arxiv.org/abs/2403.00278v2 )

ライセンス: Link先を確認
Jinho Bok, Weijie Su, Jason M. Altschuler, (参考訳) 雑音勾配勾配とその変種は、微分プライベート機械学習の主要なアルゴリズムである。 プライバシー漏洩の定量化は基本的な問題だが、凸損失の基本的な設定においても、厳密な特徴が残っている。 本稿では,プライバシ損失のすべての側面を厳密に把握し,差分プライバシの他の概念,例えば$(\varepsilon,\delta)$-DP,R\enyi DPといった,より厳密なプライバシ会計を示唆する,$f$差分プライバシの統一フレームワークにおいて,「反復によるプライバシ増幅」現象を確立(および精錬)することによって,従来の分析よりも改善する。 我々の重要な技術的洞察は、人気のあるシフト偏移の議論を解き放ち、DPの発散に基づく緩和を超えた一般化を可能にする、シフト補間プロセスの構築である。 これは、強力な凸最適化の基礎的な設定において、最初の正確なプライバシー分析につながる。 当社の手法は,凸/強凸,拘束/非拘束,完全/周期/確率バッチ,およびそれらの組み合わせなど,多くの設定に拡張されている。 即ち、Gopi et al (2022) における強い凸最適化のための指数関数的なメカニズムの$f$-DP特性を回復し、さらにこの結果をより一般的な設定にまで拡張する。

Noisy gradient descent and its variants are the predominant algorithms for differentially private machine learning. It is a fundamental question to quantify their privacy leakage, yet tight characterizations remain open even in the foundational setting of convex losses. This paper improves over previous analyses by establishing (and refining) the "privacy amplification by iteration" phenomenon in the unifying framework of $f$-differential privacy--which tightly captures all aspects of the privacy loss and immediately implies tighter privacy accounting in other notions of differential privacy, e.g., $(\varepsilon,\delta)$-DP and R\'enyi DP. Our key technical insight is the construction of shifted interpolated processes that unravel the popular shifted-divergences argument, enabling generalizations beyond divergence-based relaxations of DP. Notably, this leads to the first exact privacy analysis in the foundational setting of strongly convex optimization. Our techniques extend to many settings: convex/strongly convex, constrained/unconstrained, full/cyclic/stochastic batches, and all combinations thereof. As an immediate corollary, we recover the $f$-DP characterization of the exponential mechanism for strongly convex optimization in Gopi et al. (2022), and moreover extend this result to more general settings.
翻訳日:2024-06-13 22:44:06 公開日:2024-06-12
# RAGged Edges: 検索可能なチャットボットのダブルエッジソード

RAGged Edges: The Double-Edged Sword of Retrieval-Augmented Chatbots ( http://arxiv.org/abs/2403.01193v3 )

ライセンス: Link先を確認
Philip Feldman, James R. Foulds, Shimei Pan, (参考訳) ChatGPTのような大規模言語モデル(LLM)は、人工知能の顕著な進歩を示している。 しかし、幻覚の傾向 ― もっともらしいが偽の情報を生み出す ― は重要な課題である。 この問題は、ChatGPTの使用が存在しない法的判決の引用に繋がった最近の裁判で見られるように、批判的である。 本稿では、外部知識とプロンプトを統合することで、RAG(Retrieval-Augmented Generation)が幻覚に対してどのように対処できるかを考察する。 幻覚を誘発するプロンプトを用いて,標準LLMに対するRAGを実験的に評価した。 以上の結果から,RAGの精度は向上するが,事前学習されたモデル理解と直接矛盾する場合は,まだ誤解が残る可能性がある。 これらの知見は、幻覚の複雑な性質と、現実のアプリケーションにおいてLLMの信頼性を確保するためのより堅牢なソリューションの必要性を浮き彫りにしている。 我々は、RAGデプロイメントの実践的な推奨と、より信頼性の高いLCMの開発における影響について論じる。

Large language models (LLMs) like ChatGPT demonstrate the remarkable progress of artificial intelligence. However, their tendency to hallucinate -- generate plausible but false information -- poses a significant challenge. This issue is critical, as seen in recent court cases where ChatGPT's use led to citations of non-existent legal rulings. This paper explores how Retrieval-Augmented Generation (RAG) can counter hallucinations by integrating external knowledge with prompts. We empirically evaluate RAG against standard LLMs using prompts designed to induce hallucinations. Our results show that RAG increases accuracy in some cases, but can still be misled when prompts directly contradict the model's pre-trained understanding. These findings highlight the complex nature of hallucinations and the need for more robust solutions to ensure LLM reliability in real-world applications. We offer practical recommendations for RAG deployment and discuss implications for the development of more trustworthy LLMs.
翻訳日:2024-06-13 22:44:06 公開日:2024-06-12
# Sarathi-Serve を用いた LLM 推論におけるスループット-レイテンシトレードオフのモデル化

Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve ( http://arxiv.org/abs/2403.02310v2 )

ライセンス: Link先を確認
Amey Agrawal, Nitin Kedia, Ashish Panwar, Jayashree Mohan, Nipun Kwatra, Bhargav S. Gulavani, Alexey Tumanov, Ramachandran Ramjee, (参考訳) 各LSMサービス要求は2段階に分けて行われる。 第1のプリフィルは入力プロンプト全体を処理し、第1の出力トークンを生成し、第2のプリフィルは、残りの出力トークンを1対1で生成するデコードである。 Prefillイテレーションはレイテンシが高いが、入力プロンプトの並列処理によってGPU計算が飽和する。 対照的に、デコードイテレーションはレイテンシが低いが、要求毎に1つのトークンしか処理しないため、計算利用率が低い。 これにより、バッチ処理はデコードに非常に効果的になり、結果として全体的なスループットが向上する。 しかし、複数のリクエストをバッチ化すると、プリフィルとデコードがインターリーブされ、高いスループットと低レイテンシの両方を達成することが困難になる。 このスループットレイテンシのトレードオフに対処するために,効率的なLLM推論スケジューラであるSarathi-Serveを導入する。 Sarathi-Serve氏は、プレフィルリクエストをほぼ同じサイズのチャンクに分割するチャンクドプレフィルを導入し、ストールフリースケジュールを生成し、継続するデコードを変更することなく、バッチに新しいリクエストを追加する。 静的なスケジューリングは、バッチ処理がレイテンシに与える影響を最小限に抑えながら、大きなバッチサイズでスループットを改善する機会を解放する。 さらに、Sarathi-Serveの均一なバッチは、イテレーション間の不均衡を改善し、最小のパイプラインバブルをもたらす。 我々の手法は、テール遅延制約下でのモデルとハードウェア間での推論性能を大幅に改善する。 1つのA100 GPU上のMistral-7Bでは、vLLMと比較して2つのA100 GPU上のYi-34Bモデルの2.6倍のサービス容量と3.7倍のサービス容量を達成する。 ファルコン180Bでパイプライン並列性を使用する場合、サラタイサーベはエンドツーエンドの能力で最大5.6倍の利得を提供する。 Sarathi-Serveのソースコードはhttps://github.com/microsoft/sarathi-serve.comで入手できる。

Each LLM serving request goes through two phases. The first is prefill which processes the entire input prompt and produces the first output token and the second is decode which generates the rest of output tokens, one-at-a-time. Prefill iterations have high latency but saturate GPU compute due to parallel processing of the input prompt. In contrast, decode iterations have low latency but also low compute utilization because a decode iteration processes only a single token per request. This makes batching highly effective for decodes and consequently for overall throughput. However, batching multiple requests leads to an interleaving of prefill and decode iterations which makes it challenging to achieve both high throughput and low latency. We introduce an efficient LLM inference scheduler, Sarathi-Serve, to address this throughput-latency tradeoff. Sarathi-Serve introduces chunked-prefills which splits a prefill request into near equal sized chunks and creates stall-free schedules that adds new requests in a batch without pausing ongoing decodes. Stall-free scheduling unlocks the opportunity to improve throughput with large batch sizes while minimizing the effect of batching on latency. Furthermore, uniform batches in Sarathi-Serve ameliorate the imbalance between iterations resulting in minimal pipeline bubbles. Our techniques yield significant improvements in inference performance across models and hardware under tail latency constraints. For Mistral-7B on single A100 GPUs, we achieve 2.6x higher serving capacity and up to 3.7x higher serving capacity for the Yi-34B model on two A100 GPUs as compared to vLLM. When used with pipeline parallelism on Falcon-180B, Sarathi-Serve provides up to 5.6x gain in the end-to-end serving capacity. The source code for Sarathi-Serve is available at https://github.com/microsoft/sarathi-serve.
翻訳日:2024-06-13 22:44:06 公開日:2024-06-12
# コードによるLLMからのより良い多言語構造推論

Eliciting Better Multilingual Structured Reasoning from LLMs through Code ( http://arxiv.org/abs/2403.02567v2 )

ライセンス: Link先を確認
Bryan Li, Tamer Alkhouli, Daniele Bonadiman, Nikolaos Pappas, Saab Mansour, (参考訳) 大規模言語モデル(LLM)の開発は推論の進歩を示しているが、研究は英語か単純な推論のどちらかと考えられる。 そこで本研究では,6言語にまたがる4つのタスクをカバーする,xSTREETと呼ばれる多言語構造推論と説明データセットを提案する。 xSTREETは、英語と非英語の推論タスクの基本的なLLMパフォーマンスのギャップを露呈する。 次に、このギャップを緩和する2つの方法を提案し、コードでトレーニングされたLLMがより良い推論者である、という洞察に基づいています。 まず、トレーニング時に、プログラムコードをそのまま維持しながら、機械翻訳を使用して多言語コメントでコードデータセットを拡張する。 第二に、推論時に、ステップバイステップのコードプリミティブを組み込んだプロンプト構造を用いて、トレーニングと推論のギャップを埋めて、新たな事実を導き、解決策を見つけます。 提案手法はxSTREETにおける多言語的性能の向上を示し,特に科学的常識推論サブタスクにおいて顕著である。 さらに,本手法が汎用能力を維持していることを示すため,非推論タスクの回帰は示さない。

The development of large language models (LLM) has shown progress on reasoning, though studies have largely considered either English or simple reasoning tasks. To address this, we introduce a multilingual structured reasoning and explanation dataset, termed xSTREET, that covers four tasks across six languages. xSTREET exposes a gap in base LLM performance between English and non-English reasoning tasks. We then propose two methods to remedy this gap, building on the insight that LLMs trained on code are better reasoners. First, at training time, we augment a code dataset with multilingual comments using machine translation while keeping program code as-is. Second, at inference time, we bridge the gap between training and inference by employing a prompt structure that incorporates step-by-step code primitives to derive new facts and find a solution. Our methods show improved multilingual performance on xSTREET, most notably on the scientific commonsense reasoning subtask. Furthermore, the models show no regression on non-reasoning tasks, thus demonstrating our techniques maintain general-purpose abilities.
翻訳日:2024-06-13 22:44:06 公開日:2024-06-12
# WannaLaugh: 構成可能なランサムウェアエミュレータ

WannaLaugh: A Configurable Ransomware Emulator -- Learning to Mimic Malicious Storage Traces ( http://arxiv.org/abs/2403.07540v2 )

ライセンス: Link先を確認
Dionysios Diamantopoulos, Roman Pletka, Slavisa Sarafijanovic, A. L. Narasimha Reddy, Haris Pozidis, (参考訳) ランサムウェアは恐怖的で急速に進化するサイバーセキュリティの脅威であり、世界中の個人や組織に深刻な影響をもたらし続けている。 静的シグネチャとアプリケーション動作パターンに依存した従来の検出方法は、これらの脅威の動的性質によって問題視される。 本稿では,この課題に対処するための主な貢献を3つ紹介する。 まず,ランサムウェアエミュレータを紹介する。 このツールは、ランサムウェア攻撃を悪用したりマルウェアを拡散させることなく安全に模倣するように設計されており、ランサムウェアの動作を研究するためのユニークな解決策となっている。 次に、このエミュレータを使ってストレージI/Oトレースを作成する方法を示す。 これらのトレースは機械学習モデルのトレーニングに使用される。 これらのモデルがランサムウェアの検出に有効であることを示し,エミュレータのサイバーセキュリティツール開発における実用的応用を強調した。 第3に,我々のエミュレータが既存のランサムウェアのI/O動作を模倣し,安全なトレース収集を可能にする方法を示す。 エミュレータとその応用は、マシンラーニング駆動型サイバーセキュリティの時代におけるランサムウェア検出において、大きな進歩を示している。

Ransomware, a fearsome and rapidly evolving cybersecurity threat, continues to inflict severe consequences on individuals and organizations worldwide. Traditional detection methods, reliant on static signatures and application behavioral patterns, are challenged by the dynamic nature of these threats. This paper introduces three primary contributions to address this challenge. First, we introduce a ransomware emulator. This tool is designed to safely mimic ransomware attacks without causing actual harm or spreading malware, making it a unique solution for studying ransomware behavior. Second, we demonstrate how we use this emulator to create storage I/O traces. These traces are then utilized to train machine-learning models. Our results show that these models are effective in detecting ransomware, highlighting the practical application of our emulator in developing responsible cybersecurity tools. Third, we show how our emulator can be used to mimic the I/O behavior of existing ransomware thereby enabling safe trace collection. Both the emulator and its application represent significant steps forward in ransomware detection in the era of machine-learning-driven cybersecurity.
翻訳日:2024-06-13 22:44:06 公開日:2024-06-12
# 深層学習による屋内観光地におけるスマートフォンの地域画像化

Smartphone region-wise image indoor localization using deep learning for indoor tourist attraction ( http://arxiv.org/abs/2403.07621v2 )

ライセンス: Link先を確認
Gabriel Toshio Hirokawa Higa, Rodrigo Stuqui Monzani, Jorge Fernando da Silva Cecatto, Maria Fernanda Balestieri Mariano de Souza, Vanessa Aparecida de Moraes Weber, Hemerson Pistori, Edson Takashi Matsubara, (参考訳) スマートミュージアムや水族館のようなスマートな屋内観光地は、通常屋内のローカライゼーション装置に多大な投資を必要とする。 スマートフォンのGlobal Positional Systemsの使用は、コンクリートや金属ブロックのような密集した物質がGPS信号を弱めるシナリオには適さない。 深層学習により、スマートフォン画像を用いて、地域的屋内ローカライゼーションを行うことができる。 このアプローチはインフラへの投資を一切必要とせず、博物館や水族館をスマート博物館やスマート水族館に変えるコストと時間を削減している。 本稿では,屋内観光地におけるスマートフォンカメラ画像を用いた深層学習アルゴリズムによる位置の分類を提案する。 我々はブラジルの現実世界のシナリオで我々の提案を評価した。 10種類のスマートフォンから画像を収集し、パンタナル・バイオパーク内の生物膜をテーマとした魚槽を分類し、3654枚の画像のデータセットを作成しました。 私たちは7つの最先端ニューラルネットワークをテストし、3つはトランスフォーマーベースで、平均90%の精度でリコール、fスコアは平均89%の精度で達成しました。 この結果は、最も屋内の観光地における提案の良好な実現可能性を示している。

Smart indoor tourist attractions, such as smart museums and aquariums, usually require a significant investment in indoor localization devices. The smartphone Global Positional Systems use is unsuitable for scenarios where dense materials such as concrete and metal block weaken the GPS signals, which is the most common scenario in an indoor tourist attraction. Deep learning makes it possible to perform region-wise indoor localization using smartphone images. This approach does not require any investment in infrastructure, reducing the cost and time to turn museums and aquariums into smart museums or smart aquariums. This paper proposes using deep learning algorithms to classify locations using smartphone camera images for indoor tourism attractions. We evaluate our proposal in a real-world scenario in Brazil. We extensively collect images from ten different smartphones to classify biome-themed fish tanks inside the Pantanal Biopark, creating a new dataset of 3654 images. We tested seven state-of-the-art neural networks, three being transformer-based, achieving precision around 90% on average and recall and f-score around 89% on average. The results indicate good feasibility of the proposal in a most indoor tourist attractions.
翻訳日:2024-06-13 22:44:06 公開日:2024-06-12
# LLM支援光:複雑な都市環境における人体交通信号制御のための大規模言語モデルの活用

LLM-Assisted Light: Leveraging Large Language Model Capabilities for Human-Mimetic Traffic Signal Control in Complex Urban Environments ( http://arxiv.org/abs/2403.08337v2 )

ライセンス: Link先を確認
Maonan Wang, Aoyu Pang, Yuheng Kan, Man-On Pun, Chung Shue Chen, Bo Huang, (参考訳) 大都市圏の交通渋滞は、経済、環境、社会の混乱に苦慮している。 したがって、交通信号制御(TSC)システムがこの取り組みにおいて重要な役割を担っているため、効果的な渋滞管理が不可欠である。 ルールベースのアルゴリズムや強化学習(RL)に基づいて設計された従来のTSCシステムでは,不慣れなシナリオへの適応能力の制限により,都市交通流の複雑度や変動性を管理する上での欠陥がしばしば現れている。 これらの制限に応えて、この研究は大規模言語モデル(LLM)をTSCに統合する革新的なアプローチを導入し、彼らの高度な推論と意思決定能力を活用する。 具体的には、LLMを知覚と意思決定ツールのスイートで強化するハイブリッドフレームワークを提案し、静的および動的トラフィック情報の問合せを容易にする。 この設計では、LCMを意思決定プロセスの中心に配置し、外部トラフィックデータと確立されたTSC手法を組み合わせる。 さらに,提案フレームワークの有効性を裏付けるシミュレーションプラットフォームを開発した。 シミュレーションの結果から,追加のトレーニングを必要とせず,交通環境の多種性に適応するシステムの有効性が確認された。 特に、センサー障害(SO)の場合、我々のアプローチは従来のRLベースのシステムを超え、平均待ち時間を20.4 %$に減らした。 この研究は、TLC戦略の顕著な進歩を示し、LLMを現実の動的シナリオに統合する方法を舗装し、交通管理に革命をもたらす可能性を強調している。 関連コードはhttps://github.com/Traffic-Alpha/LLM-Assisted-Lightで公開されている。

Traffic congestion in metropolitan areas presents a formidable challenge with far-reaching economic, environmental, and societal ramifications. Therefore, effective congestion management is imperative, with traffic signal control (TSC) systems being pivotal in this endeavor. Conventional TSC systems, designed upon rule-based algorithms or reinforcement learning (RL), frequently exhibit deficiencies in managing the complexities and variabilities of urban traffic flows, constrained by their limited capacity for adaptation to unfamiliar scenarios. In response to these limitations, this work introduces an innovative approach that integrates Large Language Models (LLMs) into TSC, harnessing their advanced reasoning and decision-making faculties. Specifically, a hybrid framework that augments LLMs with a suite of perception and decision-making tools is proposed, facilitating the interrogation of both the static and dynamic traffic information. This design places the LLM at the center of the decision-making process, combining external traffic data with established TSC methods. Moreover, a simulation platform is developed to corroborate the efficacy of the proposed framework. The findings from our simulations attest to the system's adeptness in adjusting to a multiplicity of traffic environments without the need for additional training. Notably, in cases of Sensor Outage (SO), our approach surpasses conventional RL-based systems by reducing the average waiting time by $20.4\%$. This research signifies a notable advance in TSC strategies and paves the way for the integration of LLMs into real-world, dynamic scenarios, highlighting their potential to revolutionize traffic management. The related code is available at https://github.com/Traffic-Alpha/LLM-Assisted-Light.
翻訳日:2024-06-13 22:34:15 公開日:2024-06-12
# 不確かさの定量化によるPDEの教科外学習の特徴と改善

Using Uncertainty Quantification to Characterize and Improve Out-of-Domain Learning for PDEs ( http://arxiv.org/abs/2403.10642v2 )

ライセンス: Link先を確認
S. Chandra Mouli, Danielle C. Maddix, Shima Alizadeh, Gaurav Gupta, Andrew Stuart, Michael W. Mahoney, Yuyang Wang, (参考訳) 科学機械学習(SciML)における既存の研究は、解演算子のデータ駆動学習が古典的数値偏微分方程式(PDE)の解法に代わる高速な近似を与えることを示した。 これらのうち、Neural Operators(NO)は特に有望である。 我々は,NOに対する不確実性定量化(UQ)法が,ドメイン内タスクに対して,モデルが解をよく近似した場合でも,中等度にドメイン外(OOD)である試験入力に失敗するのを観察する。 この制限に対処するため、複数のNOをアンサンブルすることで、高いエラー領域を識別でき、予測誤差とよく相関した良好な不確実性推定が得られることを示す。 そこで我々は,最後のフィードフォワード層における複数の頭部からの多様な予測を奨励することにより,アンサンブルの特性を模倣するコスト効率の良い代替手段であるDiverseNOを提案する。 次に、ProbConservフレームワーク内でこれらのよく校正されたUQ推定を使ってモデルを更新するOperator-ProbConservを紹介します。 実験の結果,演算子-ProbConservは様々なPDE問題に対してOODモデルの性能を向上し,保存法則などの物理制約を満たすことを示した。

Existing work in scientific machine learning (SciML) has shown that data-driven learning of solution operators can provide a fast approximate alternative to classical numerical partial differential equation (PDE) solvers. Of these, Neural Operators (NOs) have emerged as particularly promising. We observe that several uncertainty quantification (UQ) methods for NOs fail for test inputs that are even moderately out-of-domain (OOD), even when the model approximates the solution well for in-domain tasks. To address this limitation, we show that ensembling several NOs can identify high-error regions and provide good uncertainty estimates that are well-correlated with prediction errors. Based on this, we propose a cost-effective alternative, DiverseNO, that mimics the properties of the ensemble by encouraging diverse predictions from its multiple heads in the last feed-forward layer. We then introduce Operator-ProbConserv, a method that uses these well-calibrated UQ estimates within the ProbConserv framework to update the model. Our empirical results show that Operator-ProbConserv enhances OOD model performance for a variety of challenging PDE problems and satisfies physical constraints such as conservation laws.
翻訳日:2024-06-13 22:34:15 公開日:2024-06-12
# 距離推定による音事象の検出と位置推定

Sound Event Detection and Localization with Distance Estimation ( http://arxiv.org/abs/2403.11827v2 )

ライセンス: Link先を確認
Daniel Aleksander Krause, Archontis Politis, Annamaria Mesaros, (参考訳) 音事象検出と局所化(SELD)は、音事象とその対応方向(DOA)を識別する複合タスクである。 この課題には多くの応用があり、近年広く研究されているが、音源位置に関する完全な情報の提供には失敗している。 本稿では,タスクを音事象検出,距離推定による局所化(3D SELD)に拡張することで,この問題を克服する。 本研究では,SELDコア内に距離推定を統合する2つの方法について検討する。これは,問題を個別のモデル出力で処理するマルチタスクアプローチと,マルチACCDOA法を距離情報を含むように拡張したシングルタスクアプローチである。 STARSS23: Sony-TAU Realistic Space Soundscapes 2023。 さらに,距離推定部に関連する損失関数について実験を行った。 以上の結果から,音事象検出やDOA推定における性能劣化を伴わずに3D SELDを行うことが可能であることが示唆された。

Sound Event Detection and Localization (SELD) is a combined task of identifying sound events and their corresponding direction-of-arrival (DOA). While this task has numerous applications and has been extensively researched in recent years, it fails to provide full information about the sound source position. In this paper, we overcome this problem by extending the task to Sound Event Detection, Localization with Distance Estimation (3D SELD). We study two ways of integrating distance estimation within the SELD core - a multi-task approach, in which the problem is tackled by a separate model output, and a single-task approach obtained by extending the multi-ACCDOA method to include distance information. We investigate both methods for the Ambisonic and binaural versions of STARSS23: Sony-TAU Realistic Spatial Soundscapes 2023. Moreover, our study involves experiments on the loss function related to the distance estimation part. Our results show that it is possible to perform 3D SELD without any degradation of performance in sound event detection and DOA estimation.
翻訳日:2024-06-13 22:34:15 公開日:2024-06-12
# ネットワークの堅牢な分類と解釈のための機械学習の活用

Leveraging advances in machine learning for the robust classification and interpretation of networks ( http://arxiv.org/abs/2403.13215v2 )

ライセンス: Link先を確認
Raima Carol Appaw, Nicholas Fountain-Jones, Michael A. Charleston, (参考訳) 経験的データに基づく現実的なネットワークをシミュレートする能力は、疫学からコンピュータ科学まで、科学分野において重要な課題である。 しばしばシミュレーション手法は、 Erd\"os-R'enyi や small-world のような適切なネットワーク生成モデルを選択することを含む。 しかし、特定の生成モデルが与えられたネットワーク構造や組織を捉えるのに適したかどうかを定量化するツールはほとんどない。 我々は、解釈可能な機械学習の進歩を利用して、主特徴と相互作用の両方を用いて、様々なネットワーク属性に基づいて、生成モデルによってシミュレーションされたネットワークを分類する。 本研究は, 生成モデルの識別, 複雑なネットワーク構造の理解, 実世界のネットワーク形成における, ネットワークの特徴とその相互作用の重要性を明らかにするものである。

The ability to simulate realistic networks based on empirical data is an important task across scientific disciplines, from epidemiology to computer science. Often simulation approaches involve selecting a suitable network generative model such as Erd\"os-R\'enyi or small-world. However, few tools are available to quantify if a particular generative model is suitable for capturing a given network structure or organization. We utilize advances in interpretable machine learning to classify simulated networks by our generative models based on various network attributes, using both primary features and their interactions. Our study underscores the significance of specific network features and their interactions in distinguishing generative models, comprehending complex network structures, and the formation of real-world networks.
翻訳日:2024-06-13 22:34:15 公開日:2024-06-12
# ChatGPTを用いたバイオインフォマティクスとバイオメディカルインフォマティクス

Bioinformatics and Biomedical Informatics with ChatGPT: Year One Review ( http://arxiv.org/abs/2403.15274v2 )

ライセンス: Link先を確認
Jinge Wang, Zien Cheng, Qiuming Yao, Li Liu, Dong Xu, Gangqing Hu, (参考訳) 2023年は、様々な分野にわたる大規模言語モデル(LLM)チャットボット、特にChatGPTの適用に関する調査において、大きな急上昇を見せた。 バイオインフォマティクスおよびバイオインフォマティクスにおけるChatGPTの適用状況を調査し,オミクス,遺伝学,バイオメディカルテキストマイニング,薬物発見,バイオメディカルイメージ理解,バイオインフォマティクスプログラミング,バイオインフォマティクス教育について調査した。 バイオインフォマティクスにおけるこのチャットボットの現在の強みと限界を概説し、今後の発展への道のりについて考察する。

The year 2023 marked a significant surge in the exploration of applying large language model (LLM) chatbots, notably ChatGPT, across various disciplines. We surveyed the applications of ChatGPT in bioinformatics and biomedical informatics throughout the year, covering omics, genetics, biomedical text mining, drug discovery, biomedical image understanding, bioinformatics programming, and bioinformatics education. Our survey delineates the current strengths and limitations of this chatbot in bioinformatics and offers insights into potential avenues for future developments.
翻訳日:2024-06-13 22:34:15 公開日:2024-06-12
# PE:高速テキスト階層生成のためのポインケア記述法

PE: A Poincare Explanation Method for Fast Text Hierarchy Generation ( http://arxiv.org/abs/2403.16554v2 )

ライセンス: Link先を確認
Qian Chen, Dongyang Li, Xiaofeng He, Hongzhao Li, Hongyu Yi, (参考訳) NLPにおけるディープラーニングモデルのブラックボックスの性質は、その広範な応用を妨げる。 研究の焦点は、特徴的相互作用をモデル化する能力のために階層的属性(HA)に移行した。 最近の研究は、エクリデアン空間における時間費用のかかる欲求探索と非連続的な組み合わせをモデル化し、特徴表現の根底にある言語情報を無視している。 本研究では,双曲空間との特徴的相互作用を時間的効率よくモデル化するための新しい手法であるPoincare Explanation(PE)を提案する。 具体的には、テキスト階層の構築を、双曲空間に散在する木を見つけるものとして捉えている。 まず、双曲空間への埋め込みを計画し、意味的構造と構文的階層構造を継承する。 そこで本研究では,シェープのスコアを計算するための簡易かつ効果的な戦略を提案する。 最後に、投影空間における構築過程を証明することによって階層を構築し、最小のスパンニングツリーの構築と見なすことができ、時間効率のよい構築アルゴリズムを導入することができる。 実験により,本手法の有効性が示された。

The black-box nature of deep learning models in NLP hinders their widespread application. The research focus has shifted to Hierarchical Attribution (HA) for its ability to model feature interactions. Recent works model non-contiguous combinations with a time-costly greedy search in Eculidean spaces, neglecting underlying linguistic information in feature representations. In this work, we introduce a novel method, namely Poincare Explanation (PE), for modeling feature interactions with hyperbolic spaces in a time efficient manner. Specifically, we take building text hierarchies as finding spanning trees in hyperbolic spaces. First we project the embeddings into hyperbolic spaces to elicit inherit semantic and syntax hierarchical structures. Then we propose a simple yet effective strategy to calculate Shapley score. Finally we build the the hierarchy with proving the constructing process in the projected space could be viewed as building a minimum spanning tree and introduce a time efficient building algorithm. Experimental results demonstrate the effectiveness of our approach.
翻訳日:2024-06-13 22:34:15 公開日:2024-06-12
# Rabi-Starkモデルにおけるスペクトル連続体

Spectral continuum in the Rabi-Stark model ( http://arxiv.org/abs/2403.16758v2 )

ライセンス: Link先を確認
Daniel Braak, Lei Cong, Hans-Peter Eckle, Henrik Johannesson, Elinor K. Twyeffort, (参考訳) ラービ・スタークモデル(英: Rabi-Stark model)は、量子ラビモデルの非線形一般化であり、キャビティQEDプラットフォーム上で量子シミュレーションによって実現可能な、動的スタークシフトをチューナブル項として含む。 スターク結合がモード周波数と等しくなると、スペクトルは劇的に変化するが、数値的な研究は無限に縮退した基底状態を示すため、遷移は通常「スペクトル崩壊」と呼ばれる。 スペクトルがしきい値から無限大まで連続的に広がることを示す。 一連の正規化可能な状態が連続体に埋め込まれ、原子のスターク効果と予期せぬ類似性を持つ。 境界状態と連続体は、バーグマン空間における関連する微分方程式の2つの等しく正当化されるが異なる共役過程を通して解析的に得ることができる。 さらに、これらの結果はスピン自由度を断熱的に除去する手法を用いて独立に得られ、大規模数値チェックにより相関する。

The Rabi-Stark model is a non-linear generalization of the quantum Rabi model including the dynamical Stark shift as a tunable term, which can be realized via quantum simulation on a cavity QED platform. When the Stark coupling becomes equal to the mode frequency, the spectrum changes drastically, a transition usually termed "spectral collapse" because numerical studies indicate an infinitely degenerate ground state. We show that the spectrum extends continuously from a threshold value up to infinity. A set of normalizable states are embedded in the continuum which furnishes an unexpected analogy to the atomic Stark effect. Bound states and continuum can be obtained analytically through two equally justified, but different confluence processes of the associated differential equation in Bargmann space. Moreover, these results are obtained independently using a method based on adiabatic elimination of the spin degree of freedom and corroborated through large-scale numerical checks.
翻訳日:2024-06-13 22:34:15 公開日:2024-06-12
# プラグ・アンド・プレイ画像再構成のためのロバストなスコアベース拡散後方サンプリング

Provably Robust Score-Based Diffusion Posterior Sampling for Plug-and-Play Image Reconstruction ( http://arxiv.org/abs/2403.17042v2 )

ライセンス: Link先を確認
Xingyu Xu, Yuejie Chi, (参考訳) 科学と工学における多くのタスクにおいて、ゴールは、特定のセンシングや画像のモダリティを記述する既知のフォワードモデルから収集された少数の測定結果から未知のイメージを推測することである。 リソース制約のため、このタスクは極端に不適切であり、ソリューション空間を規則化するために表現力のある事前情報を採用する必要がある。 スコアベースの拡散モデルは、その印象的な経験的成功により、画像再構成に先立って表現力に訴える候補として現れてきた。 多様なタスクを一度に扱えるようにするために、前方モデルの柔軟な選択と相まって、画像前の分布の無条件スコア関数を組み込んだ効率的で一貫した、堅牢なアルゴリズムを開発することが大きな関心事である。 本研究では、一般的な非線形逆問題に先立って、スコアベース拡散モデルを表現データとして利用するアルゴリズムフレームワークを開発する。 画像コミュニティのプラグ・アンド・プレイフレームワークに動機づけられた拡散プラグ・アンド・プレイ法(DPnP)を導入し、2つのサンプルを代わりに呼び出す。 鍵となる洞察は、ホワイトガウス雑音下での雑音化は、確率的(DDPM型)と決定論的(DDIM型)の両方で、無条件スコア関数を用いて厳密に解けることである。 我々は、DPnPの漸近的および非漸近的な性能保証を確立し、線形画像再構成と非線形画像再構成の両課題の解決におけるその可能性を示す数値実験を行う。 我々の知る限り、DPnPは非条件拡散前処理を用いた非線形逆問題に対する最初の実証可能な後方サンプリング法である。

In a great number of tasks in science and engineering, the goal is to infer an unknown image from a small number of measurements collected from a known forward model describing certain sensing or imaging modality. Due to resource constraints, this task is often extremely ill-posed, which necessitates the adoption of expressive prior information to regularize the solution space. Score-based diffusion models, due to its impressive empirical success, have emerged as an appealing candidate of an expressive prior in image reconstruction. In order to accommodate diverse tasks at once, it is of great interest to develop efficient, consistent and robust algorithms that incorporate unconditional score functions of an image prior distribution in conjunction with flexible choices of forward models. This work develops an algorithmic framework for employing score-based diffusion models as an expressive data prior in general nonlinear inverse problems. Motivated by the plug-and-play framework in the imaging community, we introduce a diffusion plug-and-play method (DPnP) that alternatively calls two samplers, a proximal consistency sampler based solely on the likelihood function of the forward model, and a denoising diffusion sampler based solely on the score functions of the image prior. The key insight is that denoising under white Gaussian noise can be solved rigorously via both stochastic (i.e., DDPM-type) and deterministic (i.e., DDIM-type) samplers using the unconditional score functions. We establish both asymptotic and non-asymptotic performance guarantees of DPnP, and provide numerical experiments to illustrate its promise in solving both linear and nonlinear image reconstruction tasks. To the best of our knowledge, DPnP is the first provably-robust posterior sampling method for nonlinear inverse problems using unconditional diffusion priors.
翻訳日:2024-06-13 22:34:15 公開日:2024-06-12
# UADA3D:Sparse LiDARとLarge Domain Gapsを用いた3次元物体検出のための教師なし逆数領域適応

UADA3D: Unsupervised Adversarial Domain Adaptation for 3D Object Detection with Sparse LiDAR and Large Domain Gaps ( http://arxiv.org/abs/2403.17633v3 )

ライセンス: Link先を確認
Maciej K Wozniak, Mattias Hansson, Marko Thiel, Patric Jensfelt, (参考訳) 本研究では,LiDARをベースとした3次元物体検出において,既存の教師なし領域適応手法のギャップに対処する。 道路上の車両だけでなく、歩道上の移動ロボットからも、環境条件やセンサーの設定がかなり異なります。 本稿では,3次元物体検出(UADA3D)のための非教師付き反転領域適応法を提案する。 UADA3Dは、事前訓練されたソースモデルや教師-学生アーキテクチャに依存しない。 代わりに、ドメイン不変の機能を直接学習するために、敵対的なアプローチを使う。 様々な適応シナリオにおいて有効性を示し、自動運転車と移動ロボットの両方の領域で顕著に改善されていることを示す。 私たちのコードはオープンソースで、まもなく利用可能になります。

In this study, we address a gap in existing unsupervised domain adaptation approaches on LiDAR-based 3D object detection, which have predominantly concentrated on adapting between established, high-density autonomous driving datasets. We focus on sparser point clouds, capturing scenarios from different perspectives: not just from vehicles on the road but also from mobile robots on sidewalks, which encounter significantly different environmental conditions and sensor configurations. We introduce Unsupervised Adversarial Domain Adaptation for 3D Object Detection (UADA3D). UADA3D does not depend on pre-trained source models or teacher-student architectures. Instead, it uses an adversarial approach to directly learn domain-invariant features. We demonstrate its efficacy in various adaptation scenarios, showing significant improvements in both self-driving car and mobile robot domains. Our code is open-source and will be available soon.
翻訳日:2024-06-13 22:34:15 公開日:2024-06-12
# コンバウンディングにおける決定政策の予測性能比較

Predictive Performance Comparison of Decision Policies Under Confounding ( http://arxiv.org/abs/2404.00848v2 )

ライセンス: Link先を確認
Luke Guerdan, Amanda Coston, Kenneth Holstein, Zhiwei Steven Wu, (参考訳) 予測モデルは、しばしば既存の意思決定ポリシーよりもパフォーマンスを向上させるという根拠の下で意思決定タスクに導入される。 しかし, 予測性能を, 未特定であり, 観測不可能な要因に依存している既存の意思決定方針と比較することは困難である。 これらの不確実性の源は、しばしばデータ生成機構について強い仮定をすることで、現実的に対処される。 本研究では, 因果推論と非政治評価文献(例えば, 器楽変数, 限界感度モデル, 近位変数)から, 多様な近代的識別手法による意思決定ポリシーの予測性能を比較する手法を提案する。 我々の手法の鍵は、政策比較において安全に無視できる不確実性領域が存在するという洞察である。 本研究では, 現状クオポリシーのパラメトリック形式を仮定せずに, 後悔区間の有限サンプル推定のための実践的アプローチを開発する。 理論的および合成データ実験により,我々の枠組みを検証した。 我々は、我々の枠組みを用いた実世界のアプリケーションを用いて、医療機関の入学方針への修正案の事前配備評価を支援する。

Predictive models are often introduced to decision-making tasks under the rationale that they improve performance over an existing decision-making policy. However, it is challenging to compare predictive performance against an existing decision-making policy that is generally under-specified and dependent on unobservable factors. These sources of uncertainty are often addressed in practice by making strong assumptions about the data-generating mechanism. In this work, we propose a method to compare the predictive performance of decision policies under a variety of modern identification approaches from the causal inference and off-policy evaluation literatures (e.g., instrumental variable, marginal sensitivity model, proximal variable). Key to our method is the insight that there are regions of uncertainty that we can safely ignore in the policy comparison. We develop a practical approach for finite-sample estimation of regret intervals under no assumptions on the parametric form of the status quo policy. We verify our framework theoretically and via synthetic data experiments. We conclude with a real-world application using our framework to support a pre-deployment evaluation of a proposed modification to a healthcare enrollment policy.
翻訳日:2024-06-13 22:34:15 公開日:2024-06-12
# M2SA:つぶやきの知覚分析のための多モーダルおよび多言語モデル

M2SA: Multimodal and Multilingual Model for Sentiment Analysis of Tweets ( http://arxiv.org/abs/2404.01753v3 )

ライセンス: Link先を確認
Gaurish Thakkar, Sherzod Hakimov, Marko Tadić, (参考訳) 近年,多様なデータ型から学習することを目的としたマルチモーダル自然言語処理が注目されている。 しかし、多言語コンテキストにおけるマルチモーダルタスクの分析に関しては、より明確にする必要がある。 ツイートの感情分析に関する先行研究は、主に英語に重点を置いているが、本稿では、既存のテキストTwitter感情データセットを、簡単なキュレーションプロセスを通じてマルチモーダルフォーマットに変換することで、このギャップに対処する。 本研究は,研究コミュニティにおける感情関連研究の新たな道を開くものである。 さらに、この拡張データセットを利用してベースライン実験を行い、その結果を報告する。 特に,非モーダル・マルチモーダル構成の比較において,テキストエンコーダとしての感情調整型大言語モデルを用いることで,優れた性能が得られた。

In recent years, multimodal natural language processing, aimed at learning from diverse data types, has garnered significant attention. However, there needs to be more clarity when it comes to analysing multimodal tasks in multi-lingual contexts. While prior studies on sentiment analysis of tweets have predominantly focused on the English language, this paper addresses this gap by transforming an existing textual Twitter sentiment dataset into a multimodal format through a straightforward curation process. Our work opens up new avenues for sentiment-related research within the research community. Additionally, we conduct baseline experiments utilising this augmented dataset and report the findings. Notably, our evaluations reveal that when comparing unimodal and multimodal configurations, using a sentiment-tuned large language model as a text encoder performs exceptionally well.
翻訳日:2024-06-13 22:34:15 公開日:2024-06-12
# 長文内学習を用いた長文LLMスラグル

Long-context LLMs Struggle with Long In-context Learning ( http://arxiv.org/abs/2404.02060v3 )

ライセンス: Link先を確認
Tianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen, (参考訳) 大規模言語モデル(LLM)は長いシーケンスの処理において大きな進歩を遂げた。 Geminiのようなモデルの中には、何百万ものトークンを処理できるものもある。 しかし、それらのパフォーマンス評価は、主にパープレキシティや合成タスクのようなメトリクスに限られており、より困難な現実のシナリオにおいて、彼らの真の能力をフルに捉えていない可能性がある。 28から174のクラスを持つ6つのデータセットと2Kから50Kトークンの入力長を用いて、極端ラベル分類における長い文脈内学習のためのベンチマーク(LongICLBench)を導入する。 我々のベンチマークでは、LLMが入力全体を理解し、巨大なラベル空間を認識し、正確な予測を行う必要がある。 15個の長文LLMを評価した結果,ラベル空間が小さく,デモンストレーションが短い,難易度が低い分類タスクでうまく機能していることが判明した。 しかし、彼らは174のラベルを持つディスカバリのようなより困難なタスクに苦労し、長いコンテキストに富んだシーケンスを処理する能力のギャップを示唆している。 さらなる分析により、後述のラベルに対するバイアスと、複数の情報に対する推論の改善の必要性が明らかになった。 本研究は,LLMの長期的理解と推論が依然として課題であることを示す。 我々は、LongICLBenchが将来のLLMのより現実的な評価に役立つと考えている。

Large Language Models (LLMs) have made significant strides in handling long sequences. Some models like Gemini could even to be capable of dealing with millions of tokens. However, their performance evaluation has largely been confined to metrics like perplexity and synthetic tasks, which may not fully capture their true abilities in more challenging, real-world scenarios. We introduce a benchmark (LongICLBench) for long in-context learning in extreme-label classification using six datasets with 28 to 174 classes and input lengths from 2K to 50K tokens. Our benchmark requires LLMs to comprehend the entire input to recognize the massive label spaces to make correct predictions. We evaluate on 15 long-context LLMs and find that they perform well on less challenging classification tasks with smaller label space and shorter demonstrations. However, they struggle with more challenging task like Discovery with 174 labels, suggesting a gap in their ability to process long, context-rich sequences. Further analysis reveals a bias towards labels presented later in the sequence and a need for improved reasoning over multiple pieces of information. Our study reveals that long context understanding and reasoning is still a challenging task for the existing LLMs. We believe LongICLBench could serve as a more realistic evaluation for the future long-context LLMs.
翻訳日:2024-06-13 22:34:15 公開日:2024-06-12
# 拡張クエリでトレーニングしたランサーのサプライズ効果

The Surprising Effectiveness of Rankers Trained on Expanded Queries ( http://arxiv.org/abs/2404.02587v2 )

ライセンス: Link先を確認
Abhijit Anand, Venktesh V, Vinay Setty, Avishek Anand, (参考訳) テキストグレードシステムにおける重要な問題は、クエリ分布のテールエンドを形成するハードクエリを扱うことである。 この困難は、一般的でない、不明確でない、あるいは不完全なクエリの存在によって生じる可能性がある。 本研究では,他のクエリのパフォーマンスを損なうことなく,難しいクエリや難しいクエリのランク付け性能を向上させる。 まず、関連する文書を用いてクエリをトレーニングするためのLLMベースのクエリ強化を行う。 次に、特殊なランク付けは、元のクエリではなく、リッチなハードクエリのみに微調整される。 我々は,各クエリに対して推定されるクエリ性能スコアとともに,特殊ランク付け器と基本ランク付け器の関連性スコアを組み合わせる。 我々のアプローチは、通常、全てのクエリに対して単一のローダを使用する既存の方法から外れており、クエリの分散の大部分を形成する、簡単なクエリに偏っている。 DL-Hardデータセットに関する広範な実験では,基本クエリを用いた照会性能に基づくスコアリング手法が,通訳ランキングタスクでは最大25%,文書ランキングタスクでは最大48.4%向上し,SOTAモデルよりも優れた照会性能が得られた。

An important problem in text-ranking systems is handling the hard queries that form the tail end of the query distribution. The difficulty may arise due to the presence of uncommon, underspecified, or incomplete queries. In this work, we improve the ranking performance of hard or difficult queries without compromising the performance of other queries. Firstly, we do LLM based query enrichment for training queries using relevant documents. Next, a specialized ranker is fine-tuned only on the enriched hard queries instead of the original queries. We combine the relevance scores from the specialized ranker and the base ranker, along with a query performance score estimated for each query. Our approach departs from existing methods that usually employ a single ranker for all queries, which is biased towards easy queries, which form the majority of the query distribution. In our extensive experiments on the DL-Hard dataset, we find that a principled query performance based scoring method using base and specialized ranker offers a significant improvement of up to 25% on the passage ranking task and up to 48.4% on the document ranking task when compared to the baseline performance of using original queries, even outperforming SOTA model.
翻訳日:2024-06-13 22:24:31 公開日:2024-06-12
# VoicePrivacy 2024 Challenge Evaluation Plan

The VoicePrivacy 2024 Challenge Evaluation Plan ( http://arxiv.org/abs/2404.02677v2 )

ライセンス: Link先を確認
Natalia Tomashenko, Xiaoxiao Miao, Pierre Champion, Sarina Meyer, Xin Wang, Emmanuel Vincent, Michele Panariello, Nicholas Evans, Junichi Yamagishi, Massimiliano Todisco, (参考訳) 課題は,言語的内容や感情的状態を保護しつつ,話者の音声アイデンティティを隠蔽する音声データのための音声匿名化システムを開発することである。 オーガナイザは、開発および評価データセットと評価スクリプト、ベースライン匿名化システム、および参加者の要求に基づいて形成されたトレーニングリソースのリストを提供する。 参加者は、開発した匿名化システムを適用し、評価スクリプトを実行し、評価結果と匿名化された音声データをオーガナイザに送信する。 結果は、Interspeech 2024と共同で開かれたワークショップで発表され、参加者全員にチャレンジシステムを提示し、追加のワークショップ論文を提出する。

The task of the challenge is to develop a voice anonymization system for speech data which conceals the speaker's voice identity while protecting linguistic content and emotional states. The organizers provide development and evaluation datasets and evaluation scripts, as well as baseline anonymization systems and a list of training resources formed on the basis of the participants' requests. Participants apply their developed anonymization systems, run evaluation scripts and submit evaluation results and anonymized speech data to the organizers. Results will be presented at a workshop held in conjunction with Interspeech 2024 to which all participants are invited to present their challenge systems and to submit additional workshop papers.
翻訳日:2024-06-13 22:24:31 公開日:2024-06-12
# 理論上は1光子純度で光を吸収するBright Heralded Source

Bright Heralded Source Reaching Theoretical Single-Photon Purity ( http://arxiv.org/abs/2404.03236v2 )

ライセンス: Link先を確認
Haoyang Wang, Huihong Yuan, Qiang Zeng, Lai Zhou, Haiqiang Ma, Zhiliang Yuan, (参考訳) 我々は, 単光子源の単一光子純度の理論的限界を導出し, その限界を飽和させる輝かしいギガヘルツパルス源を実証する。 シリコンスパイラル導波路の自発4波混合に基づいて、このオンチップ源は、偶然(CAR)比16.77の一致で1.5MHzを超える偶然の速度で測定される。 自己相関関数$g^{(2)}_h(0)$で定量化された単光子純度は、0.8kHzの一致速度で得られる0.00094 \pm 0.00002$の最小値で理論限界に達する。 本研究の結果は,光注入ロックによるコヒーレントポンプ条件と同様に,効果的なスペクトルフィルタリングによるものである。

We derive the theoretical limit of single-photon purity of heralded single-photon sources, and accordingly demonstrate a bright, gigahertz-pulsed heralded source with the purity saturating the limit. Based on spontaneous four-wave mixing in a silicon spiral waveguide, this on-chip source is measured to have a coincidence rate exceeding 1.5 MHz at a coincidence to accidental (CAR) ratio of 16.77. The single-photon purity, quantified by the auto-correlation function $g^{(2)}_h(0)$, reaches the theoretical limit with the lowest value of $0.00094 \pm 0.00002$ obtained at a coincidence rate of 0.8 kHz. We attribute our results to effective spectral filtering as well as the coherent pump condition helped by optical injection locking.
翻訳日:2024-06-13 22:24:31 公開日:2024-06-12
# DyKnow:LLMにおける時間知覚的実測知識の動的検証

DyKnow:Dynamically Verifying Time-Sensitive Factual Knowledge in LLMs ( http://arxiv.org/abs/2404.08700v2 )

ライセンス: Link先を確認
Seyed Mahed Mousavi, Simone Alghisi, Giuseppe Riccardi, (参考訳) LLMは、異なるタイムスタンプで収集された大量のデータスナップショットから知識を取得する。 その知識は静的ベンチマークを用いて一般に評価される。 しかし、事実知識は一般的に時間に敏感な変化を伴い、静的ベンチマークはこれらのケースに対処できない。 本稿では,LLMにおける知識の動的評価と,最新の知識グラフであるWikidataに対する時間依存性について述べる。 筆者らは,24の私的およびオープンソース LLM における時間依存的知識と,古い事実を更新するための4つの編集方法の有効性を評価する。 私たちの結果は 1) 時代遅れは、最先端のLDMにおいて重要な問題である。 2 LLMは、質問プロンプトのわずかなバリエーションを伴って、無矛盾な回答を出力する。 3) 最先端知識編集アルゴリズムの性能は, 時代遅れや出力不整合を低減できないため, 極めて制限されている。

LLMs acquire knowledge from massive data snapshots collected at different timestamps. Their knowledge is then commonly evaluated using static benchmarks. However, factual knowledge is generally subject to time-sensitive changes, and static benchmarks cannot address those cases. We present an approach to dynamically evaluate the knowledge in LLMs and their time-sensitiveness against Wikidata, a publicly available up-to-date knowledge graph. We evaluate the time-sensitive knowledge in twenty-four private and open-source LLMs, as well as the effectiveness of four editing methods in updating the outdated facts. Our results show that 1) outdatedness is a critical problem across state-of-the-art LLMs; 2) LLMs output inconsistent answers when prompted with slight variations of the question prompt; and 3) the performance of the state-of-the-art knowledge editing algorithms is very limited, as they can not reduce the cases of outdatedness and output inconsistency.
翻訳日:2024-06-13 22:24:31 公開日:2024-06-12
# LLMにおけるバイアス軽減のフィードバックとしての多変数議論からの強化学習

Reinforcement Learning from Multi-role Debates as Feedback for Bias Mitigation in LLMs ( http://arxiv.org/abs/2404.10160v3 )

ライセンス: Link先を確認
Ruoxi Cheng, Haoxuan Ma, Shuirong Cao, Tianyu Shi, (参考訳) LLMのバイアスは、ユーザエクスペリエンスや社会的成果を損なう可能性がある。 RLHFのような現在のバイアス軽減手法は、通常、コストのかかる人間のフィードバックに頼り、他のトピックへの転送可能性に欠け、性能が劣っている。 LLMが生成したコンテンツが生成されていないことを通知し、潜在的なバイアスについて問い合わせると、その認識とバイアスを緩和する能力が大きく向上することがわかった。 そこで我々は,RLDF(Reinforcement Learning from Multi-role Debates as Feedback)を提案する。 RLDFは、複数ロールの議論にLLMを巻き込み、バイアスを露呈し、ランキングスコア機構を使用して各イテレーションにおけるバイアスを徐々に減少させる。 次にダイアログを使用して、高いバイアスと低いバイアスのインスタンスからなるデータセットを作成し、強化学習における報酬モデルをトレーニングする。 このデータセットは、自己回帰のための同一のLLMや、教師学生モードで前者をガイドするAPIのような優れたLLMによって生成される。 異なるLLMおよび種類のバイアスに対する実験結果から, バイアス緩和におけるアプローチの有効性が示唆された。

Biases in LLMs can harm user experience and societal outcomes. Current bias mitigation methods such as RLHF usually rely on costly human feedback, lack transferability to other topics, and show poor performance. We find that informing the LLMs that their generated content is not generated by them and querying about potential biases greatly boosts their awareness and ability to mitigate biases. Based on this, we propose RLDF (Reinforcement Learning from Multi-role Debates as Feedback), replacing human feedback with AI for bias mitigation. RLDF engages LLMs in multi-role debates to expose biases and gradually reduce biases in each iteration using a ranking scoring mechanism. The dialogue are then used to create a dataset composed of both high bias and low bias instances to train the reward model in reinforcement learning. This dataset can be generated by the same LLM for self-reflection or a superior LLM like an API which guides the former one in a teacher-student mode. Experimental results across different LLMs and types of bias show the effectiveness of our approach in bias mitigation.
翻訳日:2024-06-13 22:24:31 公開日:2024-06-12
# 信頼性のある経験的マシン・アンラーニング評価を目指して : ゲーム理論的視点

Towards Reliable Empirical Machine Unlearning Evaluation: A Game-Theoretic View ( http://arxiv.org/abs/2404.11577v2 )

ライセンス: Link先を確認
Yiwen Tu, Pingbang Hu, Jiaqi Ma, (参考訳) 機械学習は、個人が個人データの削除を要求できるデータ保護規則に従うために、特定のトレーニングデータサンプルの情報を削除するために機械学習モデルを更新するプロセスである。 近年、多くの未学習アルゴリズムが開発されているにもかかわらず、これらのアルゴリズムの信頼性評価は依然としてオープンな研究課題である。 本研究では、未学習アルゴリズムの評価において最も一般的なアプローチの一つであるMIAに基づく評価に焦点を当て、信頼性に欠ける既存の評価指標の様々な落とし穴に対処する。 具体的には,非学習アルゴリズムとMIA敵のゲームとして評価プロセスを形式化するゲーム理論フレームワークを提案する。 ゲームの設計を慎重に進めることで,ゲームから誘導される自然な評価基準が,既存の評価基準が満たせないという証明可能な保証を享受できることを実証する。 さらに,ゲームから誘導される評価基準を推定し,理論解析と実験実験の両方を通してその効果を実証する,実用的で効率的なアルゴリズムを提案する。 この研究は、非学習アルゴリズムを実証的に評価するための、新しく信頼性の高いアプローチを示し、より効果的な非学習技術を開発するための道を開いた。

Machine unlearning is the process of updating machine learning models to remove the information of specific training data samples, in order to comply with data protection regulations that allow individuals to request the removal of their personal data. Despite the recent development of numerous unlearning algorithms, reliable evaluation of these algorithms remains an open research question. In this work, we focus on membership inference attack (MIA) based evaluation, one of the most common approaches for evaluating unlearning algorithms, and address various pitfalls of existing evaluation metrics that lack reliability. Specifically, we propose a game-theoretic framework that formalizes the evaluation process as a game between unlearning algorithms and MIA adversaries, measuring the data removal efficacy of unlearning algorithms by the capability of the MIA adversaries. Through careful design of the game, we demonstrate that the natural evaluation metric induced from the game enjoys provable guarantees that the existing evaluation metrics fail to satisfy. Furthermore, we propose a practical and efficient algorithm to estimate the evaluation metric induced from the game, and demonstrate its effectiveness through both theoretical analysis and empirical experiments. This work presents a novel and reliable approach to empirically evaluating unlearning algorithms, paving the way for the development of more effective unlearning techniques.
翻訳日:2024-06-13 22:24:31 公開日:2024-06-12
# CrossIn: 言語間知識アライメントのための効果的なインストラクションチューニングアプローチ

CrossIn: An Efficient Instruction Tuning Approach for Cross-Lingual Knowledge Alignment ( http://arxiv.org/abs/2404.11932v2 )

ライセンス: Link先を確認
Geyu Lin, Bin Wang, Zhengyuan Liu, Nancy F. Chen, (参考訳) 多言語習熟度は、大規模言語モデル(LLM)にとって重要な課題である。 英語中心のモデルは、通常他の言語、特に言語的に英語から離れた言語に最適である。 この性能差は主に、事前学習および指導訓練段階における言語間のトレーニングデータの不均衡分布に起因する。 この問題に対処するために,言語間命令チューニングデータの混合合成を利用するCrossInという新しい手法を提案する。 提案手法は, 各種言語が共有する圧縮表現を利用して, モデルのタスク解決能力と多言語習熟度を1つのプロセスで効率的に向上する。 さらに、CrossInの有効性を評価するために、マルチタスクおよびマルチフェイスベンチマークを導入する。 実験の結果,本手法はタスクや言語間の性能を著しく向上し,多言語間のデータ量と翻訳データの統合が多言語間の整合性と精度の向上に与える影響について広範な知見を提供することができた。

Multilingual proficiency presents a significant challenge for large language models (LLMs). English-centric models are usually suboptimal in other languages, particularly those that are linguistically distant from English. This performance discrepancy mainly stems from the imbalanced distribution of training data across languages during pre-training and instruction tuning stages. To address this problem, we propose a novel approach called CrossIn, which utilizes a mixed composition of cross-lingual instruction tuning data. Our method leverages the compressed representation shared by various languages to efficiently enhance the model's task-solving capabilities and multilingual proficiency within a single process. In addition, we introduce a multi-task and multi-faceted benchmark to evaluate the effectiveness of CrossIn. Experimental results demonstrate that our method substantially improves performance across tasks and languages, and we provide extensive insights into the impact of cross-lingual data volume and the integration of translation data on enhancing multilingual consistency and accuracy.
翻訳日:2024-06-13 22:24:31 公開日:2024-06-12
# くさびの縁としてのW:拘束型衝突体による鐘の相関

W as the Edge of a Wedge: Bell Correlations via Constrained Colliders ( http://arxiv.org/abs/2404.13928v3 )

ライセンス: Link先を確認
Huw Price, (参考訳) Ken Wharton との以前の研究において、ベル相関は特別な選択アーチファクトであり、組み合わせによって説明されている。 (i)コライダーバイアスと (ii)コライダー変数上の境界制約。 これは光円錐の外側に直接的な因果的影響を必要としないため、ベル非局所性と相対性理論を和解する新しい方法を提供する可能性がある。 この記事は提案に対する新たな議論の概要である。 これは、遅延チョイスエンタングルメントスワップを含む特別な(W字型)ベルの実験に対してどのように有効かを説明し、一般的な(V字型)ケースに拡張できると主張している。 引数の詳細なバージョンがarXiv:2406.04571[quant-ph]で公開されている。

In previous work with Ken Wharton, it was proposed that Bell correlations are a special sort of selection artefact, explained by a combination of (i) collider bias and (ii) a boundary constraint on the collider variable. This requires no direct causal influence outside lightcones, and may hence offer a new way to reconcile Bell nonlocality and relativity. This piece outlines a new argument for the proposal. It explains how it is valid for a special class of ('W-shaped') Bell experiments involving delayed-choice entanglement swapping, and argues that it can be extended to the general ('V-shaped') case. A detailed version of the argument is now available in arXiv:2406.04571 [quant-ph].
翻訳日:2024-06-13 22:24:31 公開日:2024-06-12
# OccFeat: BEVセグメンテーションネットワークの事前学習のための自己管理型機能予測

OccFeat: Self-supervised Occupancy Feature Prediction for Pretraining BEV Segmentation Networks ( http://arxiv.org/abs/2404.14027v3 )

ライセンス: Link先を確認
Sophia Sirko-Galouchenko, Alexandre Boulch, Spyros Gidaris, Andrei Bursuc, Antonin Vobecky, Patrick Pérez, Renaud Marlet, (参考訳) 本稿では,カメラのみのBird's-Eye-View(BEV)セグメンテーションネットワークのための,OccFeatと呼ばれる自己教師付き事前学習手法を提案する。 OccFeatでは、占有率予測と特徴蒸留タスクを介して、BEVネットワークを事前訓練する。 アクシデント予測は、シーンをモデルに3次元の幾何学的理解を提供する。 しかし、学習した幾何学はクラスに依存しない。 そこで我々は, 自己教師付き事前学習画像基礎モデルからの蒸留を通じて, 3次元空間のモデルに意味情報を付加する。 本手法で事前訓練したモデルでは,特に低データシナリオにおいて,BEVセマンティックセマンティックセマンティクスの性能が向上した。 さらに, 予備訓練アプローチにおける特徴蒸留と3次元占有率予測の併用の有効性を実証的に確認した。 リポジトリ: https://github.com/valeoai/Occfeat

We introduce a self-supervised pretraining method, called OccFeat, for camera-only Bird's-Eye-View (BEV) segmentation networks. With OccFeat, we pretrain a BEV network via occupancy prediction and feature distillation tasks. Occupancy prediction provides a 3D geometric understanding of the scene to the model. However, the geometry learned is class-agnostic. Hence, we add semantic information to the model in the 3D space through distillation from a self-supervised pretrained image foundation model. Models pretrained with our method exhibit improved BEV semantic segmentation performance, particularly in low-data scenarios. Moreover, empirical results affirm the efficacy of integrating feature distillation with 3D occupancy prediction in our pretraining approach. Repository: https://github.com/valeoai/Occfeat
翻訳日:2024-06-13 22:24:31 公開日:2024-06-12
# SOFTS: 直列核融合による高効率多変量時系列予測

SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion ( http://arxiv.org/abs/2404.14197v2 )

ライセンス: Link先を確認
Lu Han, Xu-Yang Chen, Han-Jia Ye, De-Chuan Zhan, (参考訳) 多変量時系列予測は、金融、交通管理、エネルギー、医療など様々な分野で重要な役割を果たしている。 近年の研究では、チャネル独立の利点は分布のドリフトに抵抗するが、チャネル相関を無視し、さらなる拡張を制限している。 いくつかの手法では、注意やミキサーのようなメカニズムを利用してチャネルの相関を捉えるが、過度に複雑化するか、あるいは分布のドリフトにおいて、特に多数のチャネルで、十分な結果を得るために相関に強く依存する。 このギャップに対処するために,新しいSTARモジュールを組み込んだ,効率的なMLPモデルであるシリーズcOre Fused Time Series forecaster (SOFTS)を提案する。 分散構造を通したチャネルインタラクションを管理する従来のアプローチとは異なり、STARは効率を改善し、各チャネルの品質への依存を減らすために集中型の戦略を採用している。 全シリーズを集約してグローバルなコア表現を形成し、個別のシリーズ表現と融合してチャネル間相互作用を効果的に促進し、SOFTSは線形複雑性のみを持つ既存の最先端手法よりも優れた性能を達成する。 様々な予測モデルにまたがるSTARモジュールの適用性も実証的に実証されている。 さらなる研究と開発のために、私たちはhttps://github.com/Secilia-Cxy/SOFTS.comでコードを公開しました。

Multivariate time series forecasting plays a crucial role in various fields such as finance, traffic management, energy, and healthcare. Recent studies have highlighted the advantages of channel independence to resist distribution drift but neglect channel correlations, limiting further enhancements. Several methods utilize mechanisms like attention or mixer to address this by capturing channel correlations, but they either introduce excessive complexity or rely too heavily on the correlation to achieve satisfactory results under distribution drifts, particularly with a large number of channels. Addressing this gap, this paper presents an efficient MLP-based model, the Series-cOre Fused Time Series forecaster (SOFTS), which incorporates a novel STar Aggregate-Redistribute (STAR) module. Unlike traditional approaches that manage channel interactions through distributed structures, \textit{e.g.}, attention, STAR employs a centralized strategy to improve efficiency and reduce reliance on the quality of each channel. It aggregates all series to form a global core representation, which is then dispatched and fused with individual series representations to facilitate channel interactions effectively.SOFTS achieves superior performance over existing state-of-the-art methods with only linear complexity. The broad applicability of the STAR module across different forecasting models is also demonstrated empirically. For further research and development, we have made our code publicly available at https://github.com/Secilia-Cxy/SOFTS.
翻訳日:2024-06-13 22:24:31 公開日:2024-06-12
# ハイパースペクトル画像分類に関する包括的調査 : 従来型から変圧器への進化

A Comprehensive Survey for Hyperspectral Image Classification: The Evolution from Conventional to Transformers ( http://arxiv.org/abs/2404.14955v3 )

ライセンス: Link先を確認
Muhammad Ahmad, Salvatore Distifano, Adil Mehmood Khan, Manuel Mazzara, Chenyu Li, Jing Yao, Hao Li, Jagannath Aryal, Gemine Vivone, Danfeng Hong, (参考訳) ハイパースペクトル画像分類(HSC)は、ハイパースペクトル(HS)データの高次元性と複雑な性質のために難しい課題である。 従来の機械学習は効率的でありながら、最適な特徴セット、人間駆動設計における主観性、バイアス、制限によって、現実世界のデータに課題に直面している。 従来のアプローチでは、次元の呪い、特徴の選択と抽出の苦労、空間情報の考慮の欠如、ノイズに対するロバスト性、スケーラビリティの問題、複雑なデータ分布にうまく適応できない可能性がある。 近年,これらの課題に対処するための強力なツールとしてDL技術が登場している。 この調査は、DLモデルからトランスフォーマーの新たな利用への進歩に焦点を当て、HSCの現在の動向と今後の展望を概観するものである。 本稿では,HSC 用 DL における重要な概念,方法論,最先端のアプローチについて概説する。 HSCにおけるTransformerベースのモデルの可能性を探り、そのメリットと課題を概説する。 HSCの新たなトレンドや、説明可能なAIとインターオペラビリティの概念に関する徹底的な議論、拡散モデル(画像のデノゲーション、特徴抽出、イメージ融合)についても検討しています。 さらに,HSCに関連するいくつかのオープンな課題と研究課題に対処する。 3つのHSデータセットを用いて,従来のDLモデルとトランスフォーマーの有効性を検証した。 最後に,HSCの精度と効率をさらに向上させる研究の方向性と応用の可能性について概説する。 ソースコードは \url{https://github.com/mahmad00/Conventional-to-Transformer-for-Hyperspectral- Image-Classification-Survey-2024} で公開されている。

Hyperspectral Image Classification (HSC) is a challenging task due to the high dimensionality and complex nature of Hyperspectral (HS) data. Traditional Machine Learning approaches while effective, face challenges in real-world data due to varying optimal feature sets, subjectivity in human-driven design, biases, and limitations. Traditional approaches encounter the curse of dimensionality, struggle with feature selection and extraction, lack spatial information consideration, exhibit limited robustness to noise, face scalability issues, and may not adapt well to complex data distributions. In recent years, DL techniques have emerged as powerful tools for addressing these challenges. This survey provides a comprehensive overview of the current trends and future prospects in HSC, focusing on the advancements from DL models to the emerging use of Transformers. We review the key concepts, methodologies, and state-of-the-art approaches in DL for HSC. We explore the potential of Transformer-based models in HSC, outlining their benefits and challenges. We also delve into emerging trends in HSC, as well as thorough discussions on Explainable AI and Interoperability concepts along with Diffusion Models (image denoising, feature extraction, and image fusion). Additionally, we address several open challenges and research questions pertinent to HSC. Comprehensive experimental results have been undertaken using three HS datasets to verify the efficacy of various conventional DL models and Transformers. Finally, we outline future research directions and potential applications that can further enhance the accuracy and efficiency of HSC. The Source code is available at \url{https://github.com/mahmad00/Conventional-to-Transformer-for-Hyperspectral-Image-Classification-Surve y-2024}.
翻訳日:2024-06-13 22:24:31 公開日:2024-06-12
# 双方向ゲーテッド・リカレント・ユニット(GRU)モデルに基づくテキスト知覚分析と分類

Text Sentiment Analysis and Classification Based on Bidirectional Gated Recurrent Units (GRUs) Model ( http://arxiv.org/abs/2404.17123v2 )

ライセンス: Link先を確認
Wei Xu, Jianlong Chen, Zhicheng Ding, Jinyin Wang, (参考訳) 本稿では、自然言語処理分野におけるテキスト感情分析と分類の重要性を考察し、双方向ゲート再帰単位(GRU)モデルに基づく感情分析と分類の新しいアプローチを提案する。 この研究はまず、テキストの単語クラウドモデルを6つの感情ラベルで分析し、特別な記号、句読点、数字、停止語、非失語部分を削除するステップを含むデータ前処理を実行する。 その後、データセットをトレーニングセットとテストセットに分割し、モデルトレーニングとテストにより、トレーニングによって検証セットの精度が85%から93%に向上し、8%に向上し、同時に、検証セットの損失値が0.7から0.1に低下し、安定する傾向にあり、モデルは実際の値に徐々に接近し、テキスト感情を効果的に分類することができる。 混乱行列は、テストセット上のモデルの精度が94.8%、精度が95.9%、リコールが99.1%、F1スコアが97.4%に達し、モデルの一般化能力と分類効果が良好であることを証明している。 本研究は,テキストの感情分析と,満足な結果による分類に有効な方法を示した。

This paper explores the importance of text sentiment analysis and classification in the field of natural language processing, and proposes a new approach to sentiment analysis and classification based on the bidirectional gated recurrent units (GRUs) model. The study firstly analyses the word cloud model of the text with six sentiment labels, and then carries out data preprocessing, including the steps of removing special symbols, punctuation marks, numbers, stop words and non-alphabetic parts. Subsequently, the data set is divided into training set and test set, and through model training and testing, it is found that the accuracy of the validation set is increased from 85% to 93% with training, which is an increase of 8%; at the same time, the loss value of the validation set decreases from 0.7 to 0.1 and tends to be stable, and the model is gradually close to the actual value, which can effectively classify the text emotions. The confusion matrix shows that the accuracy of the model on the test set reaches 94.8%, the precision is 95.9%, the recall is 99.1%, and the F1 score is 97.4%, which proves that the model has good generalisation ability and classification effect. Overall, the study demonstrated an effective method for text sentiment analysis and classification with satisfactory results.
翻訳日:2024-06-13 22:24:31 公開日:2024-06-12
# モンテカルロと量子計算法を結合した(2+1)次元量子力学の定式化に向けて

Towards determining the (2+1)-dimensional Quantum Electrodynamics running coupling with Monte Carlo and quantum computing methods ( http://arxiv.org/abs/2404.17545v2 )

ライセンス: Link先を確認
Arianna Crippa, Simone Romiti, Lena Funcke, Karl Jansen, Stefan Kühn, Paolo Stornati, Carsten Urbach, (参考訳) 本稿では,2+1$次元のコンパクトな$U(1)$格子ゲージ理論を検証し,ランニングカップリングの研究と非摂動的な$\Lambda$-parameterの抽出戦略を示す。 この目的のために、モンテカルロのシミュレーションと量子コンピューティングを組み合わせて、前者は$a$の格子の数値を決定できるし、後者はベアカップリングの非常に小さな値で摂動状態に到達することができ、従って$a$の小さな値を得ることができる。 この手法は、小さな格子間隔から非摂動的な大規模格子計算への結果をブリッジする一連のステップ(ステップスケーリング関数)を含む。 純粋ゲージの場合に着目して、これらの量子回路は、対応するモンテカルロシミュレーションと一致するように、プラケット演算子の期待値を研究することによって、関連する物理学を捉えることができることを示した。 また、再正規化結合に関係のある静的ポテンシャルと静的力の結果も提示する。 この研究で概説された手順は、物質場を持つアベリア格子ゲージ理論や非アベリア格子ゲージ理論にまで拡張することができ、量子的および古典的手法の両方を用いて格子量子色力学を研究する方法を与えることができる。

In this paper, we examine a compact $U(1)$ lattice gauge theory in $(2+1)$ dimensions and present a strategy for studying the running coupling and extracting the non-perturbative $\Lambda$-parameter. To this end, we combine Monte Carlo simulations and quantum computing, where the former can be used to determine the numerical value of the lattice spacing $a$, and the latter allows for reaching the perturbative regime at very small values of the bare coupling and, correspondingly, small values of $a$. The methodology involves a series of sequential steps (i.e., the step scaling function) to bridge results from small lattice spacings to non-perturbative large-scale lattice calculations. Focusing on the pure gauge case, we demonstrate that these quantum circuits, adapted to gauge degrees of freedom, are able to capture the relevant physics by studying the expectation value of the plaquette operator, for matching with corresponding Monte Carlo simulations. We also present results for the static potential and static force, which can be related to the renormalized coupling. The procedure outlined in this work can be extended to Abelian and non-Abelian lattice gauge theories with matter fields and might provide a way towards studying lattice quantum chromodynamics utilizing both quantum and classical methods.
翻訳日:2024-06-13 22:14:47 公開日:2024-06-12
# 機械読取理解における質問応答スパン抽出による事前学習型生成言語モデルの強化

Enhancing Pre-Trained Generative Language Models with Question Attended Span Extraction on Machine Reading Comprehension ( http://arxiv.org/abs/2404.17991v2 )

ライセンス: Link先を確認
Lin Ai, Zheng Hui, Zizhou Liu, Julia Hirschberg, (参考訳) Machine Reading Comprehension (MRC) は自然言語処理(NLP)分野において重要な課題である。 主流のMRC手法は、BERTのようなエンコーダのみのモデルを用いた抽出戦略を主に活用するが、生成的アプローチは制御外生成の問題に直面している。 MRC生成モデルにおけるこれらの制限に対処するため,QASEモジュールを提案する。 事前学習された生成言語モデル(PLM)の微調整フェーズにおいて、QASEは性能を大幅に向上させ、GPT-4のような先進的な大規模言語モデル(LLM)の抽出能力を数ショットで超えるようにした。 特に、これらの性能向上は、計算要求の増加には至らない。 QASEモジュールの有効性は、様々なデータセットで厳密にテストされ、一貫して最先端(SOTA)の結果を達成または超えているため、抽出MCCタスクにおける生成モデルと抽出モデルの間のギャップを埋めることになる。

Machine Reading Comprehension (MRC) poses a significant challenge in the field of Natural Language Processing (NLP). While mainstream MRC methods predominantly leverage extractive strategies using encoder-only models such as BERT, generative approaches face the issue of out-of-control generation -- a critical problem where answers generated are often incorrect, irrelevant, or unfaithful to the source text. To address these limitations in generative models for MRC, we introduce the Question-Attended Span Extraction (QASE) module. Integrated during the fine-tuning phase of pre-trained generative language models (PLMs), QASE significantly enhances their performance, allowing them to surpass the extractive capabilities of advanced Large Language Models (LLMs) such as GPT-4 in few-shot settings. Notably, these gains in performance do not come with an increase in computational demands. The efficacy of the QASE module has been rigorously tested across various datasets, consistently achieving or even surpassing state-of-the-art (SOTA) results, thereby bridging the gap between generative and extractive models in extractive MRC tasks.
翻訳日:2024-06-13 22:14:47 公開日:2024-06-12
# ニューラルネットワークによる動的データ評価

Neural Dynamic Data Valuation ( http://arxiv.org/abs/2404.19557v3 )

ライセンス: Link先を確認
Zhangyong Liang, Huanhuan Gao, Ji Zhang, (参考訳) データ・エコノミーとその市場の基礎的な構成要素はデータ・エコノミーである。 効率的で公正なデータ評価が、重要な関心事のトピックとして浮上している。 > 限界貢献に基づく多くのアプローチは、様々な下流タスクにおいて有望な結果を示している。 しかしながら、特定の目的のために与えられたデータセットの有用性や価値を評価するために使用される、多数のユーティリティ関数のトレーニングを必要とするため、計算コストが広く知られている。 その結果、大規模なデータセットを含むデータマーケットプレースにこれらの手法を適用することは不可能であると認識されている。 その結果、重要な問題が発生する: ユーティリティ関数の再トレーニングをどうやって回避できるのか? この問題に対処するために,ニューラルダイナミックデータ評価(NDDV)と呼ばれる最適制御の観点から,新しいデータ評価手法を提案する。 本手法は,データ最適制御状態の感度を用いて,データ評価を正確に識別する理論的解釈を持つ。 さらに,データポイントのユニークな特徴を捉え,データポイントと平均場状態の相互作用による公平性を確保するために,データ再重み付け戦略を実装した。 特に,本手法では,すべてのデータポイントの値を推定するために1回のみのトレーニングが必要であり,計算効率が大幅に向上する。 さまざまなデータセットとタスクを使用して包括的な実験を行います。 その結果,提案手法は既存の最先端データ評価手法よりも高い値または低値のデータポイントを正確に同定し,より計算効率がよいことを示す。

Data constitute the foundational component of the data economy and its marketplaces. Efficient and fair data valuation has emerged as a topic of significant interest.\ Many approaches based on marginal contribution have shown promising results in various downstream tasks. However, they are well known to be computationally expensive as they require training a large number of utility functions, which are used to evaluate the usefulness or value of a given dataset for a specific purpose. As a result, it has been recognized as infeasible to apply these methods to a data marketplace involving large-scale datasets. Consequently, a critical issue arises: how can the re-training of the utility function be avoided? To address this issue, we propose a novel data valuation method from the perspective of optimal control, named the neural dynamic data valuation (NDDV). Our method has solid theoretical interpretations to accurately identify the data valuation via the sensitivity of the data optimal control state. In addition, we implement a data re-weighting strategy to capture the unique features of data points, ensuring fairness through the interaction between data points and the mean-field states. Notably, our method requires only training once to estimate the value of all data points, significantly improving the computational efficiency. We conduct comprehensive experiments using different datasets and tasks. The results demonstrate that the proposed NDDV method outperforms the existing state-of-the-art data valuation methods in accurately identifying data points with either high or low values and is more computationally efficient.
翻訳日:2024-06-13 22:14:47 公開日:2024-06-12
# 自動脳異常検出のための自己教師型テキストビジョンフレームワーク

A self-supervised text-vision framework for automated brain abnormality detection ( http://arxiv.org/abs/2405.02782v2 )

ライセンス: Link先を確認
David A. Wood, Emily Guilhem, Sina Kafiabadi, Ayisha Al Busaidi, Kishan Dissanayake, Ahmed Hammam, Nina Mansoor, Matthew Townend, Siddharth Agarwal, Yiran Wei, Asif Mazumder, Gareth J. Barker, Peter Sasieni, Sebastien Ourselin, James H. Cole, Thomas C. Booth, (参考訳) 大規模で専門家によるラベル付きデータセットでトレーニングされたニューラルネットワークは、さまざまな医療画像認識タスクの最先端と見なされている。 しかしながら、分類されたラベル付きデータセットは、事前に定義された固定されたクラスのセットに分類の生成と制約に時間を要する。 特に神経放射線学の応用においては、これは臨床応用の障壁となる。 これらの課題に対処するため,我々は,脳MRI検査における臨床的に関連のある異常を検出するための自己教師型テキストビジョンフレームワークを,自由テキスト神経放射線学レポートに付随する豊富な情報を直接活用して提案する。 トレーニングアプローチは2段階で構成されました。 まず、専門的な神経放射線学言語モデルであるNeuroBERTを用いて、ドメイン固有の自己教師型学習タスクを通して、神経放射線学レポート(N = 50,523)の固定次元ベクトル表現を生成する訓練を行った。 次に、畳み込みニューラルネットワーク(MRIシーケンス毎に1つ)は、平均二乗誤差損失を最適化することにより、個々の脳スキャンを対応するテキストベクトル表現にマッピングすることを学ぶ。 トレーニングを済ませると、私たちのテキストビジョンフレームワークは、適切なクエリ文(例えば、「脳卒中」や「脳卒中」など)をスキャンすることで、報告されていない脳MRI検査の異常を検出することができ、自動トリアージを含む様々な分類ベースのアプリケーションを可能にします。 また,本フレームワークは,放射線科医に発見を示唆し,仮報告の誤りを検知するだけでなく,テキスト記述子に基づく現在の症例に関連のある歴史的検査から病理例を検索,表示することで,臨床診断支援ツールとしても機能する可能性がある。

Artificial neural networks trained on large, expert-labelled datasets are considered state-of-the-art for a range of medical image recognition tasks. However, categorically labelled datasets are time-consuming to generate and constrain classification to a pre-defined, fixed set of classes. For neuroradiological applications in particular, this represents a barrier to clinical adoption. To address these challenges, we present a self-supervised text-vision framework that learns to detect clinically relevant abnormalities in brain MRI scans by directly leveraging the rich information contained in accompanying free-text neuroradiology reports. Our training approach consisted of two-steps. First, a dedicated neuroradiological language model - NeuroBERT - was trained to generate fixed-dimensional vector representations of neuroradiology reports (N = 50,523) via domain-specific self-supervised learning tasks. Next, convolutional neural networks (one per MRI sequence) learnt to map individual brain scans to their corresponding text vector representations by optimising a mean square error loss. Once trained, our text-vision framework can be used to detect abnormalities in unreported brain MRI examinations by scoring scans against suitable query sentences (e.g., 'there is an acute stroke', 'there is hydrocephalus' etc.), enabling a range of classification-based applications including automated triage. Potentially, our framework could also serve as a clinical decision support tool, not only by suggesting findings to radiologists and detecting errors in provisional reports, but also by retrieving and displaying examples of pathologies from historical examinations that could be relevant to the current case based on textual descriptors.
翻訳日:2024-06-13 22:14:47 公開日:2024-06-12
# 微分可能な粒子フィルタのレジーム学習

Regime Learning for Differentiable Particle Filters ( http://arxiv.org/abs/2405.04865v3 )

ライセンス: Link先を確認
John-Joseph Brady, Yuhui Luo, Wenwu Wang, Victor Elvira, Yunpeng Li, (参考訳) 微分可能な粒子フィルタは、シーケンシャルモンテカルロ法とニューラルネットワークの柔軟性を組み合わせて状態空間推論を行う新しいモデルのクラスである。 本稿では、システムが有限の状態空間モデル、すなわちレジームを切り替える場合について述べる。 個々の体制と切り替えプロセスの両方を同時に学習する事前のアプローチは存在しない。 本稿では,ニューラルネットワークを用いた微分可能粒子フィルタ(RLPF)を提案する。 我々はさらに、RLPFや他の関連アルゴリズムのトレーニング手順を設計する。 2つの数値実験において,従来の最先端アルゴリズムと比較して,競合性能を実証した。

Differentiable particle filters are an emerging class of models that combine sequential Monte Carlo techniques with the flexibility of neural networks to perform state space inference. This paper concerns the case where the system may switch between a finite set of state-space models, i.e. regimes. No prior approaches effectively learn both the individual regimes and the switching process simultaneously. In this paper, we propose the neural network based regime learning differentiable particle filter (RLPF) to address this problem. We further design a training procedure for the RLPF and other related algorithms. We demonstrate competitive performance compared to the previous state-of-the-art algorithms on a pair of numerical experiments.
翻訳日:2024-06-13 22:14:47 公開日:2024-06-12
# 改良型デコイ状態およびフラッグ状態スクアッシング法

Improved Decoy-state and Flag-state Squashing Methods ( http://arxiv.org/abs/2405.05069v2 )

ライセンス: Link先を確認
Lars Kamin, Norbert Lütkenhaus, (参考訳) そこで本研究では,デコイ状態法の解析を改良し,達成可能なキーレートを向上し,単一強度シナリオに対する解析結果を復元する手法を提案する。 我々の主な焦点は、現在のデコイ状態法で観察される欠点を改善することであり、特にデコイ強度を使わずに結果を回復することである。 本手法は,様々な強度設定の連続的補間を可能にする。 さらに、信号状態によって強度が変化するシナリオを包含するようにデコイ状態技術を拡張し、実験的な実装の制約を緩和する。 以上の結果から,高漸近性秘密鍵レートでは最低2つの強度が十分であることが示唆された。 さらに、不完全なビームスプリッターなどの検出装置における固有の不完全性に対処する。 我々は、フラグ状態スカッシャーのような特定のスカッシング法に必要となる、サブスペース人口推定の証明可能な低い境界を導出する。 これらの解析的境界は任意の受動線形光学装置を包含することができ、各信号状態に応じて強度が変化することにより、幅広い実験装置を組み込むことができる。

In this work, we present an improved analysis for decoy-state methods, enhancing both achievable key rates and recovering analytical results for the single intensity scenario. Our primary focus is improving the shortcomings observed in current decoy-state methods, particularly recovering results when employing no decoy intensities. Our methods enable the continuous interpolation across varying numbers of intensity settings. Additionally, we extend decoy-state techniques to encompass scenarios where intensities vary depending on the signal state, thereby relaxing the constraints on experimental implementations. Our findings demonstrate that a minimum of two intensities are sufficient for high asymptotic secret key rates, thereby further softening experimental requirements. Additionally, we address inherent imperfections within detection setups like imperfect beamsplitters. We derive provable secure lower bounds on the subspace population estimation, which is required for certain squashing methods such as the flag-state squasher. These analytical bounds allow us to encompass arbitrary passive linear optical setups, and together with intensities varying with each signal state, lets us include a broad class of experimental setups.
翻訳日:2024-06-13 22:14:47 公開日:2024-06-12
# ガウス微分作用素のハイブリッド離散化に対する連続スケール空間に対する近似特性

Approximation properties relative to continuous scale space for hybrid discretizations of Gaussian derivative operators ( http://arxiv.org/abs/2405.05095v3 )

ライセンス: Link先を確認
Tony Lindeberg, (参考訳) 本稿では,正規化されたガウスカーネルあるいはガウスカーネルとの畳み込みに基づいて,ガウス微分の2つのハイブリッド離散化法の特性を解析し,中心的な相違について述べる。 これらの離散化法を研究する動機は、異なる順序の空間微分が同じスケールレベルで必要となる状況において、サンプル化されたガウス核またはガウス核との明示的な畳み込みに基づくより直接的な微分近似と比較して、より効率的に計算することができることである。 これらの計算的利点は、ガウスの核の離散的アナログとの畳み込みに基づくガウスの微分の離散的アナログを計算するための真に離散的なアプローチにも当てはまるが、ガウスの核の離散的アナログに対する基礎となる数学的原始は、整数順序のベッセル関数(英語版)(Bessel function of integer order)という観点から、ガウスの微分のスケールパラメタライズドフィルタ(英語版)(scale-parameterized filters)に基づくディープラーニングの実行やスケールレベルの学習など、画像処理の特定のフレームワークでは利用できないかもしれない。 本稿では,これらのハイブリッド離散化手法の特性について,空間平滑化量に関する定量的な評価と,スケール不変な特徴量検出器から得られるスケール推定値の相対的整合性,および自動スケール選択によるスケールパラメータの非常に小さな値に対する挙動に着目し,完全連続スケール空間理論から得られる対応する結果と,異なるタイプの離散化法とを比較検討した。

This paper presents an analysis of properties of two hybrid discretization methods for Gaussian derivatives, based on convolutions with either the normalized sampled Gaussian kernel or the integrated Gaussian kernel followed by central differences. The motivation for studying these discretization methods is that in situations when multiple spatial derivatives of different order are needed at the same scale level, they can be computed significantly more efficiently compared to more direct derivative approximations based on explicit convolutions with either sampled Gaussian kernels or integrated Gaussian kernels. While these computational benefits do also hold for the genuinely discrete approach for computing discrete analogues of Gaussian derivatives, based on convolution with the discrete analogue of the Gaussian kernel followed by central differences, the underlying mathematical primitives for the discrete analogue of the Gaussian kernel, in terms of modified Bessel functions of integer order, may not be available in certain frameworks for image processing, such as when performing deep learning based on scale-parameterized filters in terms of Gaussian derivatives, with learning of the scale levels. In this paper, we present a characterization of the properties of these hybrid discretization methods, in terms of quantitative performance measures concerning the amount of spatial smoothing that they imply, as well as the relative consistency of scale estimates obtained from scale-invariant feature detectors with automatic scale selection, with an emphasis on the behaviour for very small values of the scale parameter, which may differ significantly from corresponding results obtained from the fully continuous scale-space theory, as well as between different types of discretization methods.
翻訳日:2024-06-13 22:14:47 公開日:2024-06-12
# AnyRotate: Sim-to-Real Touchによる重力不変物体回転

AnyRotate: Gravity-Invariant In-Hand Object Rotation with Sim-to-Real Touch ( http://arxiv.org/abs/2405.07391v2 )

ライセンス: Link先を確認
Max Yang, Chenghua Lu, Alex Church, Yijiong Lin, Chris Ford, Haoran Li, Efi Psomopoulou, David A. W. Barton, Nathan F. Lepora, (参考訳) 人間の手は、異なる手の動きの存在下で手動操作を行うことができる。 ロボットハンドにとって、このレベルのデキスタリティを達成するために、リッチな触覚情報を活用することは、依然として重要な課題である。 本稿では,高密度のsim-to-realタッチを用いた重力不変多軸物体回転システムであるAnyRotateを提案する。 シミュレーションにおいて高密度な触覚ポリシーを訓練することによりこの問題に対処し、ゼロショットポリシー伝達を実現するために、リッチな触覚センシングのためのsim-to-real法を提案する。 我々の定式化により、統一されたポリシーの訓練により、任意の回転軸に関する未知の物体を任意の方向で回転させることができる。 実験では,様々な特性を持つ物体を扱う際に,詳細な接触情報を取得する利点を強調した。 興味深いことに、スリップ検出が明示されていないにもかかわらず、リッチな多指触覚センサは、つかみ内の物体の動きを暗黙的に検出し、ポリシーの堅牢性を改善する反応性の挙動を提供することができる。 プロジェクトのWebサイトはhttps://maxyang27896.github.io/anyrotate/にある。

Human hands are capable of in-hand manipulation in the presence of different hand motions. For a robot hand, harnessing rich tactile information to achieve this level of dexterity still remains a significant challenge. In this paper, we present AnyRotate, a system for gravity-invariant multi-axis in-hand object rotation using dense featured sim-to-real touch. We tackle this problem by training a dense tactile policy in simulation and present a sim-to-real method for rich tactile sensing to achieve zero-shot policy transfer. Our formulation allows the training of a unified policy to rotate unseen objects about arbitrary rotation axes in any hand direction. In our experiments, we highlight the benefit of capturing detailed contact information when handling objects with varying properties. Interestingly, despite not having explicit slip detection, we found rich multi-fingered tactile sensing can implicitly detect object movement within grasp and provide a reactive behavior that improves the robustness of the policy. The project website can be found at https://maxyang27896.github.io/anyrotate/.
翻訳日:2024-06-13 22:14:47 公開日:2024-06-12
# 密度行列ベクトル化による無条件デコヒーレンスフリー量子誤差緩和

Unconditionally decoherence-free quantum error mitigation by density matrix vectorization ( http://arxiv.org/abs/2405.07592v2 )

ライセンス: Link先を確認
Zhong-Xia Shang, Zi-Han Chen, Cai-Sheng Cheng, (参考訳) NISQデバイスが実用的な量子応用を実証するためには、ノイズに対する闘いが不可欠である。 本研究では,密度行列のベクトル化に基づく量子誤差緩和の新しいパラダイムを提案する。 ノイズのない情報をノイズの多い量子状態から抽出しようとする既存の量子誤差緩和法とは異なり,本提案では,ノイズの多い量子状態の密度行列をノイズのない純粋状態に直接変換する。 我々のプロトコルは、ノイズモデルに関する知識、ノイズ強度を調整する能力、複雑な制御ユニタリのためのアンシラキュービットを必要としない。 我々のエンコーディングでは、NISQデバイスは、多くのタスクにおいて優れたパフォーマンスを持つように、変分量子アルゴリズムに非常に望ましいリソースである純粋量子状態を準備している。 我々は、このプロトコルを変分量子アルゴリズムにどのように適合させるかを示す。 本提案に適合するいくつかの具体的なアンザッツ構造を提示し,サンプリング複雑性,表現性,訓練性に関する理論的解析を行った。 また、このプロトコルが大きなノイズの影響や、他の量子エラー軽減プロトコルとどのようにうまく組み合わせられるかについても論じる。 本提案の有効性は, 種々の数値実験により実証された。

Fighting against noise is crucial for NISQ devices to demonstrate practical quantum applications. In this work, we give a new paradigm of quantum error mitigation based on the vectorization of density matrices. Different from the ideas of existing quantum error mitigation methods that try to distill noiseless information from noisy quantum states, our proposal directly changes the way of encoding information and maps the density matrices of noisy quantum states to noiseless pure states, which is realized by a novel and NISQ-friendly measurement protocol and a classical post-processing procedure. Our protocol requires no knowledge of the noise model, no ability to tune the noise strength, and no ancilla qubits for complicated controlled unitaries. Under our encoding, NISQ devices are always preparing pure quantum states which are highly desired resources for variational quantum algorithms to have good performance in many tasks. We show how this protocol can be well-fitted into variational quantum algorithms. We give several concrete ansatz constructions that are suitable for our proposal and do theoretical analysis on the sampling complexity, the expressibility, and the trainability. We also give a discussion on how this protocol is influenced by large noise and how it can be well combined with other quantum error mitigation protocols. The effectiveness of our proposal is demonstrated by various numerical experiments.
翻訳日:2024-06-13 22:14:47 公開日:2024-06-12
# RLHFワークフロー:リワードモデリングからオンラインRLHFへ

RLHF Workflow: From Reward Modeling to Online RLHF ( http://arxiv.org/abs/2405.07863v2 )

ライセンス: Link先を確認
Hanze Dong, Wei Xiong, Bo Pang, Haoxiang Wang, Han Zhao, Yingbo Zhou, Nan Jiang, Doyen Sahoo, Caiming Xiong, Tong Zhang, (参考訳) 本稿では,人間フィードバックからのオンライン反復強化学習(RLHF)のワークフローを,近年の大規模言語モデル(LLM)文学において,オフライン言語よりも優れていることが広く報告されている。 しかし、既存のオープンソースのRLHFプロジェクトは、まだオフラインの学習環境に限られている。 本稿では,このギャップを埋め,オンライン反復RLHFの再現が容易な詳細なレシピを提供することを目的とする。 特に、オンラインの人的フィードバックは通常、限られたリソースを持つオープンソースコミュニティでは実現できないため、さまざまなオープンソースデータセットを使用して好みモデルを構築し、構築されたプロキシ選好モデルを使用して、人間のフィードバックを近似することから始める。 次に、オンライン反復RLHFの背後にある理論的洞察とアルゴリズム原理について議論し、さらに詳細な実践的な実装を行った。 トレーニングしたLLM, LLaMA-3-8B-SFR-Iterative-DPO-Rは, AlpacaEval-2, Arena-Hard, MT-Bench, およびHumanEval, TruthfulQAなどの他の学術ベンチマークなど, LLM チャットボットベンチマークにおいて優れた性能を発揮する。 我々は、教師付き微調整(SFT)と反復RLHFが、完全なオープンソースデータセットで最先端のパフォーマンスを得ることができることを示した。 さらに、私たちのモデル、キュレートされたデータセット、包括的なステップバイステップのコードガイドブックを公開しました。 詳細はhttps://github.com/RLHFlow/RLHF-Reward-Modelingとhttps://github.com/RLHFlow/Online-RLHFを参照してください。

We present the workflow of Online Iterative Reinforcement Learning from Human Feedback (RLHF) in this technical report, which is widely reported to outperform its offline counterpart by a large margin in the recent large language model (LLM) literature. However, existing open-source RLHF projects are still largely confined to the offline learning setting. In this technical report, we aim to fill in this gap and provide a detailed recipe that is easy to reproduce for online iterative RLHF. In particular, since online human feedback is usually infeasible for open-source communities with limited resources, we start by constructing preference models using a diverse set of open-source datasets and use the constructed proxy preference model to approximate human feedback. Then, we discuss the theoretical insights and algorithmic principles behind online iterative RLHF, followed by a detailed practical implementation. Our trained LLM, LLaMA-3-8B-SFR-Iterative-DPO-R, achieves impressive performance on LLM chatbot benchmarks, including AlpacaEval-2, Arena-Hard, and MT-Bench, as well as other academic benchmarks such as HumanEval and TruthfulQA. We have shown that supervised fine-tuning (SFT) and iterative RLHF can obtain state-of-the-art performance with fully open-source datasets. Further, we have made our models, curated datasets, and comprehensive step-by-step code guidebooks publicly available. Please refer to https://github.com/RLHFlow/RLHF-Reward-Modeling and https://github.com/RLHFlow/Online-RLHF for more detailed information.
翻訳日:2024-06-13 22:14:47 公開日:2024-06-12
# 絡み合いから普遍性へ:量子計算ゲートに対する多粒子時空代数的アプローチ再考

From Entanglement to Universality: A Multiparticle Spacetime Algebra Approach to Quantum Computational Gates Revisited ( http://arxiv.org/abs/2405.08152v2 )

ライセンス: Link先を確認
Carlo Cafaro, Newshaw Bahreyni, Leonardo Rossetti, (参考訳) 量子コンピューティングにおける別の数学的探索は、特に物理的な洞察を浸透させれば、非常に科学的に興味深い。 本稿では、[C. Cafaro and S. Mancini, Adv. Appl. Clifford Algebras 21, 493 (2011)]で最初に提示された量子コンピューティングにおける幾何学的(クリフォード)代数(GA)の応用を批判的に再検討する。 我々の焦点は、量子コンピューティングへの2つの応用における幾何代数(GA)技術の有用性をテストすることである。 まず、相対論的構成空間(例えば、多粒子時空代数(MSTA))の幾何学代数を利用することで、1量子と2量子の量子状態の明示的な代数的特徴づけと、1量子と2量子の量子ゲートのMSTA記述を提供する。 この最初の応用では、絡み合った量子状態と2量子の絡み合う量子ゲートに焦点をあてて、絡み合いの概念に特別な注意を払っている。 第二に、ローター群形式に依存するリー代数 SO(3;R) と SU(2;C) の GA 描写と合わせて、前述の MSTA の特徴を利用して、ボイキンの普遍的な量子ゲートの同定に関する証明を再評価することにより、量子コンピューティングにおける普遍性の概念に注意を向ける。 数学的探索の終わりに、我々は2つの主要な結論に達した。 第一に、MSTAの観点は量子状態と量子作用素の強力な概念統一につながる。 より具体的には、複素キュービット空間とそれらに作用するユニタリ作用素の複素空間は、単一の多重ベクトル実空間にマージされる。 第2に,ローター群に基づく回転に対するGA視点は,従来のベクトル法や行列法と比較して,概念上手と計算上手の両方を担っている。

Alternative mathematical explorations in quantum computing can be of great scientific interest, especially if they come with penetrating physical insights. In this paper, we present a critical revisitation of our geometric (Clifford) algebras (GAs) application in quantum computing as originally presented in [C. Cafaro and S. Mancini, Adv. Appl. Clifford Algebras 21, 493 (2011)]. Our focus is on testing the usefulness of geometric algebras (GAs) techniques in two applications to quantum computing. First, making use of the geometric algebra of a relativistic configuration space (a.k.a., multiparticle spacetime algebra or MSTA), we offer an explicit algebraic characterization of one- and two-qubit quantum states together with a MSTA description of one- and two-qubit quantum computational gates. In this first application, we devote special attention to the concept of entanglement, focusing on entangled quantum states and two-qubit entangling quantum gates. Second, exploiting the previously mentioned MSTA characterization together with the GA depiction of the Lie algebras SO(3;R) and SU(2;C) depending on the rotor group formalism, we focus our attention to the concept of universality in quantum computing by reevaluating Boykin's proof on the identification of a suitable set of universal quantum gates. At the end of our mathematical exploration, we arrive at two main conclusions. Firstly, the MSTA perspective leads to a powerful conceptual unification between quantum states and quantum operators. More specifically, the complex qubit space and the complex space of unitary operators acting on them merge in a single multivectorial real space. Secondly, the GA viewpoint on rotations based on the rotor group carries both conceptual and computational upper hands compared to conventional vectorial and matricial methods.
翻訳日:2024-06-13 22:14:47 公開日:2024-06-12
# 異種ハイブリッドMIMO受信機用パッシブDOA推定器の共学習支援多モード深層学習フレームワーク

Co-learning-aided Multi-modal-deep-learning Framework of Passive DOA Estimators for a Heterogeneous Hybrid Massive MIMO Receiver ( http://arxiv.org/abs/2405.09556v2 )

ライセンス: Link先を確認
Jiatong Bai, Feng Shu, Qinghe Zheng, Bo Xu, Baihua Shi, Yiwen Chen, Weibin Zhang, Xianpeng Wang, (参考訳) レートと解像度の優れた性能のため、データ伝送や到着方向(DOA)測定などにおいて、FD(Full-digital)のMultiple-Input Multi-output (MIMO)アンテナアレイが広く採用されている。 しかし、計算の複雑さと回路コストの2つの主な課題に直面している。 この2つの問題は、ハイブリッドアナログデジタル構造(HAD)によってうまく対処できる。 しかし、HADの位相曖昧性の問題があるため、その低効率性や高レイテンシにつながる。 そのようなMIMO構造は、低コスト、低複雑さ、高時間効率を同時に持つことができる。 これら3つの特性を満たすために、FDとヘテロジニアスHAD($2$AD-FD)を統合する新しいヘテロジニアスハイブリッドMIMO受信機構造を提案し、対応するマルチモーダル(MD)学習フレームワークを開発した。 フレームワークには3つの主要なステージがある。 1)ルート多重信号分類(Root-MUSIC)または深層学習(DL)を介して候補セットを生成する。 2) 機械学習(ML)手法を用いて,候補集合から真の解のクラスを推論する。 3) 2つの部分の真の解決策を融合させ、より良いDOA推定を実現する。 このプロセスはMD-Root-MUSICとMDDLという2つのメソッドを構成する。 CoMDDLとCoMD-RootMUSICという2つの拡張手法を構築するために,DOA推定精度の向上とクラスタリングの複雑さの低減を目的として,共学習支援MDフレームワークを提案する。 さらに、提案した $\rm{H}^2$AD-FD 構造に対する Cramer-Rao 下界 (CRLB) も導出される。 実験の結果,提案手法は信号-雑音比 (SNR) > 0 dB のCRLBに近づき,CMDDLとMDDLはCMD-RootMUSICとMD-RootMUSICよりも高い性能を示した。

Due to its excellent performance in rate and resolution, fully-digital (FD) massive multiple-input multiple-output (MIMO) antenna arrays has been widely applied in data transmission and direction of arrival (DOA) measurements, etc. But it confronts with two main challenges: high computational complexity and circuit cost. The two problems may be addressed well by hybrid analog-digital (HAD) structure. But there exists the problem of phase ambiguity for HAD, which leads to its low-efficiency or high-latency. Does exist there such a MIMO structure of owning low-cost, low-complexity and high time efficiency at the same time. To satisfy the three properties, a novel heterogeneous hybrid MIMO receiver structure of integrating FD and heterogeneous HAD ($\rm{H}^2$AD-FD) is proposed and corresponding multi-modal (MD)-learning framework is developed. The framework includes three major stages: 1) generate the candidate sets via root multiple signal classification (Root-MUSIC) or deep learning (DL); 2) infer the class of true solutions from candidate sets using machine learning (ML) methods; 3) fuse the two-part true solutions to achieve a better DOA estimation. The above process form two methods named MD-Root-MUSIC and MDDL. To improve DOA estimation accuracy and reduce the clustering complexity, a co-learning-aided MD framework is proposed to form two enhanced methods named CoMDDL and CoMD-RootMUSIC. Moreover, the Cramer-Rao lower bound (CRLB) for the proposed $\rm{H}^2$AD-FD structure is also derived. Experimental results demonstrate that our proposed four methods could approach the CRLB for signal-to-noise ratio (SNR) > 0 dB and the proposed CoMDDL and MDDL perform better than CoMD-RootMUSIC and MD-RootMUSIC, particularly in the extremely low SNR region.
翻訳日:2024-06-13 22:14:47 公開日:2024-06-12
# 言語モデルは、新しいタスクのためのクロスタスク・インコンテキスト学習を爆発させることができる

Language Models can Exploit Cross-Task In-context Learning for Data-Scarce Novel Tasks ( http://arxiv.org/abs/2405.10548v3 )

ライセンス: Link先を確認
Anwoy Chatterjee, Eshaan Tanwar, Subhabrata Dutta, Tanmoy Chakraborty, (参考訳) LLM(Large Language Models)は、ICL(In-context Learning)機能でNLPを変換した。 LLMをベースとした自動アシスタントが普及しているが、新しいタスクに適応することは依然として困難である。 コロッサルモデルはゼロショット性能に優れるが、その計算要求は広範囲の使用を制限し、より小さな言語モデルは文脈なしでは苦労する。 本稿では,予め定義されたタスクのラベル付き例から新しいタスクまで,LLMが一般化できるかどうかを検討する。 生体ニューロンからインスピレーションを得て、トランスフォーマーアーキテクチャの機械的解釈を行い、タスク間での情報共有の可能性を探る。 我々は,3つのLLMを用いたクロスタスクプロンプトセットアップを設計し,目標タスクの例を示さずに,LLMが大幅な性能向上を実現していることを示す。 クロスタスクプロンプトは、LLaMA-2 7Bが107%、LLaMA-2 13Bが18.6%、GPT3.5が3.2%、ゼロショットプロンプトが平均3.2%、標準のインコンテキスト学習に匹敵するパフォーマンス向上をもたらす。 In-task例に対する擬似ラベル生成の有効性を実証し,本分析により,クロスタスク例の効果と,ソースおよびターゲット入力トークンにおけるモデルアクティベーションの類似性との間に強い相関関係が示された。 本稿では,異なる課題事例から得られた文脈信号に基づいて,LLMの課題解決能力について検討する。

Large Language Models (LLMs) have transformed NLP with their remarkable In-context Learning (ICL) capabilities. Automated assistants based on LLMs are gaining popularity; however, adapting them to novel tasks is still challenging. While colossal models excel in zero-shot performance, their computational demands limit widespread use, and smaller language models struggle without context. This paper investigates whether LLMs can generalize from labeled examples of predefined tasks to novel tasks. Drawing inspiration from biological neurons and the mechanistic interpretation of the Transformer architecture, we explore the potential for information sharing across tasks. We design a cross-task prompting setup with three LLMs and show that LLMs achieve significant performance improvements despite no examples from the target task in the context. Cross-task prompting leads to a remarkable performance boost of 107% for LLaMA-2 7B, 18.6% for LLaMA-2 13B, and 3.2% for GPT 3.5 on average over zero-shot prompting, and performs comparable to standard in-context learning. The effectiveness of generating pseudo-labels for in-task examples is demonstrated, and our analyses reveal a strong correlation between the effect of cross-task examples and model activation similarities in source and target input tokens. This paper offers a first-of-its-kind exploration of LLMs' ability to solve novel tasks based on contextual signals from different task examples.
翻訳日:2024-06-13 22:14:47 公開日:2024-06-12
# FIFO拡散: トレーニングなしのテキストから無限のビデオを生成する

FIFO-Diffusion: Generating Infinite Videos from Text without Training ( http://arxiv.org/abs/2405.11473v3 )

ライセンス: Link先を確認
Jihwan Kim, Junoh Kang, Jinyoung Choi, Bohyung Han, (参考訳) テキスト条件付きビデオ生成のための事前学習拡散モデルに基づく新しい推論手法を提案する。 FIFO拡散(FIFO-Diffusion)と呼ばれるこの手法は、無限に長いビデオを追加の訓練なしに生成できる。 この手法は,複数連続するフレームを同時に処理し,待ち行列のノイズレベルを増大させる対角的デノベーションを反復的に行うことで実現される。 しかし、尾部付近の枠は前方参照でより清潔なものを活用できるため、対角装飾は二重刃の剣であるが、そのような戦略は訓練と推論の相違を招きかねない。 したがって、トレーニングと推論のギャップを減らし、フォワード参照の利点を活かすために、遅延分割を導入する。 実際、FIFO-Diffusionはベースラインモデルが与えられたターゲットビデオ長に関わらず一定量のメモリを消費するが、複数のGPU上での並列推論には適している。 提案手法が既存のテキスト・ビデオ生成ベースラインに対して有望な結果と有効性を示す。 生成したビデオサンプルとソースコードは、プロジェクトページで公開されています。

We propose a novel inference technique based on a pretrained diffusion model for text-conditional video generation. Our approach, called FIFO-Diffusion, is conceptually capable of generating infinitely long videos without additional training. This is achieved by iteratively performing diagonal denoising, which concurrently processes a series of consecutive frames with increasing noise levels in a queue; our method dequeues a fully denoised frame at the head while enqueuing a new random noise frame at the tail. However, diagonal denoising is a double-edged sword as the frames near the tail can take advantage of cleaner ones by forward reference but such a strategy induces the discrepancy between training and inference. Hence, we introduce latent partitioning to reduce the training-inference gap and lookahead denoising to leverage the benefit of forward referencing. Practically, FIFO-Diffusion consumes a constant amount of memory regardless of the target video length given a baseline model, while well-suited for parallel inference on multiple GPUs. We have demonstrated the promising results and effectiveness of the proposed methods on existing text-to-video generation baselines. Generated video samples and source codes are available at our project page.
翻訳日:2024-06-13 22:05:02 公開日:2024-06-12
# 多項目質問は効率的かつロバストなLCM評価器である

Multiple-Choice Questions are Efficient and Robust LLM Evaluators ( http://arxiv.org/abs/2405.11966v3 )

ライセンス: Link先を確認
Ziyin Zhang, Lizhen Xu, Zhaokun Jiang, Hongkun Hao, Rui Wang, (参考訳) GSM-MC と MATH-MC は,60個のオープンソースモデルから GSM8K と MATH の回答と誤予測を収集して構築された2つの多重選択(MC)データセットである。 広範にわたる実験により,これら2つのベンチマークのMCバージョンにおけるLCMの性能は,元のバージョンにおける性能と強く相関し,選択や選択肢の順序を逸脱させる可能性が高く,評価時間を最大30倍に短縮できることを示した。 同様の手順に従って,HumanEvalとMBPPという2つのLLM評価ベンチマークから構築した新しいプログラム出力予測MCデータセットであるPythonIOを紹介する。 私たちのデータとコードはhttps://github.com/Geralt-Targaryen/MC-Evaluation.comで公開されています。

We present GSM-MC and MATH-MC, two multiple-choice (MC) datasets constructed by collecting answers and incorrect predictions on GSM8K and MATH from 60 open-source models. Through extensive experiments, we show that LLMs' performance on the MC versions of these two popular benchmarks is strongly correlated with their performance on the original versions and is quite robust to distractor choices and option orders, while the evaluation time is reduced by a factor of up to 30. Following a similar procedure, we introduce PythonIO, a new program output prediction MC dataset constructed from two other popular LLM evaluation benchmarks, HumanEval and MBPP. Our data and code are available at https://github.com/Geralt-Targaryen/MC-Evaluation.
翻訳日:2024-06-13 22:05:02 公開日:2024-06-12
# SEGAN: 欠落データ計算のための半教師付き学習手法

SEGAN: semi-supervised learning approach for missing data imputation ( http://arxiv.org/abs/2405.13089v3 )

ライセンス: Link先を確認
Xiaohua Pan, Weifeng Wu, Peiran Liu, Zhen Li, Peng Lu, Peijian Cao, Jianfeng Zhang, Xianfei Qiu, YangYang Wu, (参考訳) 多くの実世界の応用において、データ不足は非常に一般的な現象であり、データ駆動人工知能理論や技術の開発がますます困難になっている。 データ補完は、データ前処理の欠如にとって重要な方法である。 ほとんどの既存のミススルーデータ補完モデルは、欠落したデータセットの既知の情報を直接使用するが、欠落したデータ補完モデルにデータセットに含まれるデータラベル情報の影響を無視する。 本稿では,主にジェネレータ,識別器,分類器の3つの重要なモジュールを含む半教師付き学習に基づくデータ補完モデルSEGANを提案する。 SEGANモデルでは、ジェネレータは、欠落したデータ値を予測する際に、既知のデータとそのラベル情報をよりフルに利用することができる。 さらに、SE-GANモデルでは、識別器が既知のデータとジェネレータによって満たされたデータをより効果的に識別できるように、ヒント行列が欠落している。 本稿では,分類器とヒント行列の欠如を導入したSEGANモデルが,ナッシュ平衡に達すると実データ分布特性を学習できることを理論的に証明する。 最後に, 本論文では, 多数の実験を行い, 実験結果から, 現状の多変量データ補完法と組み合わせて, SEGANモデルの性能を3%以上向上することを示した。

In many practical real-world applications, data missing is a very common phenomenon, making the development of data-driven artificial intelligence theory and technology increasingly difficult. Data completion is an important method for missing data preprocessing. Most existing miss-ing data completion models directly use the known information in the missing data set but ignore the impact of the data label information contained in the data set on the missing data completion model. To this end, this paper proposes a missing data completion model SEGAN based on semi-supervised learning, which mainly includes three important modules: generator, discriminator and classifier. In the SEGAN model, the classifier enables the generator to make more full use of known data and its label information when predicting missing data values. In addition, the SE-GAN model introduces a missing hint matrix to allow the discriminator to more effectively distinguish between known data and data filled by the generator. This paper theoretically proves that the SEGAN model that introduces a classifier and a missing hint matrix can learn the real known data distribution characteristics when reaching Nash equilibrium. Finally, a large number of experiments were conducted in this article, and the experimental results show that com-pared with the current state-of-the-art multivariate data completion method, the performance of the SEGAN model is improved by more than 3%.
翻訳日:2024-06-13 22:05:02 公開日:2024-06-12
# UzMorphAnalyser: 屈折端を用いたウズベク語の形態解析モデル

UzMorphAnalyser: A Morphological Analysis Model for the Uzbek Language Using Inflectional Endings ( http://arxiv.org/abs/2405.14179v2 )

ライセンス: Link先を確認
Ulugbek Salaev, (参考訳) ウズベク語は凝集性であるため、根と接尾辞を組み合わせた言葉を形成する多くの形態学的特徴がある。 接尾辞は、単語に付加的な意味と文法的機能を加えることによって、単語の形態解析において重要な役割を果たす。 インフレクションの終末は言語内の様々な形態的特徴を表現するために使用される。 この特徴は、単語終末の可能性の多さを導入し、単語語彙を大幅に拡張し、統計モデルにおけるデータ空間性に関連する問題を悪化させる。 本稿では,形態・音韻的例外を考慮したウズベク語の形態解析のモデル化と形態情報抽出について述べる。 モデルの主なステップは、割り当てられた形態情報を持つ単語の完全なセットと、形態解析のための追加データセットの開発である。 提案手法は5.3Kワードからなる実験セットを用いて評価した。 言語専門家が実施した,手作業による語幹形成,補綴,形態的特徴補正の検証により,単語レベルの精度は91%以上となった。 提案されたモデルに基づく開発ツールは、WebベースのアプリケーションとオープンソースのPythonライブラリとして利用できる。

As Uzbek language is agglutinative, has many morphological features which words formed by combining root and affixes. Affixes play an important role in the morphological analysis of words, by adding additional meanings and grammatical functions to words. Inflectional endings are utilized to express various morphological features within the language. This feature introduces numerous possibilities for word endings, thereby significantly expanding the word vocabulary and exacerbating issues related to data sparsity in statistical models. This paper present modeling of the morphological analysis of Uzbek words, including stemming, lemmatizing, and the extraction of morphological information while considering morpho-phonetic exceptions. Main steps of the model involve developing a complete set of word-ending with assigned morphological information, and additional datasets for morphological analysis. The proposed model was evaluated using a curated test set comprising 5.3K words. Through manual verification of stemming, lemmatizing, and morphological feature corrections carried out by linguistic specialists, it obtained a word-level accuracy of over 91%. The developed tool based on the proposed model is available as a web-based application and an open-source Python library.
翻訳日:2024-06-13 22:05:02 公開日:2024-06-12
# ガウス分布の拡散モデル:厳密解とワッサーシュタイン誤差

Diffusion models for Gaussian distributions: Exact solutions and Wasserstein errors ( http://arxiv.org/abs/2405.14250v3 )

ライセンス: Link先を確認
Emile Pierret, Bruno Galerne, (参考訳) 拡散モデルやスコアベースモデルでは画像生成の性能が向上した。 これらは前方および後方確率微分方程式(SDE)に依存する。 データ分布のサンプリングは、後方SDEまたはその関連するフローODEを数値的に解くことにより達成される。 これらのモデルの収束を研究するには、初期化誤差、トランケーション誤差、離散化、スコア近似の4つの異なる種類のエラーを制御する必要がある。 本稿では,データ分布がガウス的である場合の拡散モデルの挙動とその数値的実装について理論的に検討する。 スコア関数が線型作用素であるこの制限されたフレームワークでは、前向きおよび後向きのSDEと関連するフローODEの分析解を導出することができる。 これにより、様々なWassersteinエラーに対する正確な表現が提供され、任意のサンプリングスキームに対する各エラータイプの影響を比較することができ、インセプション機能に頼るのではなく、データ空間内で直接収束を監視することができます。 実験の結果,拡散モデルの文献から推奨される数値スキームもガウス分布の最良のサンプリングスキームであることがわかった。

Diffusion or score-based models recently showed high performance in image generation. They rely on a forward and a backward stochastic differential equations (SDE). The sampling of a data distribution is achieved by solving numerically the backward SDE or its associated flow ODE. Studying the convergence of these models necessitates to control four different types of error: the initialization error, the truncation error, the discretization and the score approximation. In this paper, we study theoretically the behavior of diffusion models and their numerical implementation when the data distribution is Gaussian. In this restricted framework where the score function is a linear operator, we can derive the analytical solutions of the forward and backward SDEs as well as the associated flow ODE. This provides exact expressions for various Wasserstein errors which enable us to compare the influence of each error type for any sampling scheme, thus allowing to monitor convergence directly in the data space instead of relying on Inception features. Our experiments show that the recommended numerical schemes from the diffusion models literature are also the best sampling schemes for Gaussian distributions.
翻訳日:2024-06-13 22:05:02 公開日:2024-06-12
# 事前学習モデルにおける外部分布の一般化にどのような影響があるか?

What Variables Affect Out-Of-Distribution Generalization in Pretrained Models? ( http://arxiv.org/abs/2405.15018v2 )

ライセンス: Link先を確認
Md Yousuf Harun, Kyungbok Lee, Jhair Gallardo, Giri Krishnan, Christopher Kanan, (参考訳) トレーニング済みのディープニューラルネットワーク(DNN)によって生成される埋め込みは広く使用されているが、下流タスクに対する効果は様々である。 トンネル効果仮説のレンズによるプレトレーニングDNN埋め込みのアウト・オブ・ディストリビューション(OOD)一般化に影響を与える要因について検討し,より深いDNN層が表現を圧縮し,OOD性能を妨げることを示唆した。 初期の研究とは対照的に、トンネル効果は普遍的ではない。 10,584個の線形プローブに基づいて,DNNアーキテクチャ,トレーニングデータセット,画像解像度,拡張によるトンネル効果を緩和する条件について検討した。 我々は,新しいSHAP解析を用いて各変数の影響を定量化する。 研究結果は,おもちゃのデータセットからより広い文脈への発見を一般化する危険性を強調した。

Embeddings produced by pre-trained deep neural networks (DNNs) are widely used; however, their efficacy for downstream tasks can vary widely. We study the factors influencing out-of-distribution (OOD) generalization of pre-trained DNN embeddings through the lens of the tunnel effect hypothesis, which suggests deeper DNN layers compress representations and hinder OOD performance. Contrary to earlier work, we find the tunnel effect is not universal. Based on 10,584 linear probes, we study the conditions that mitigate the tunnel effect by varying DNN architecture, training dataset, image resolution, and augmentations. We quantify each variable's impact using a novel SHAP analysis. Our results emphasize the danger of generalizing findings from toy datasets to broader contexts.
翻訳日:2024-06-13 22:05:02 公開日:2024-06-12
# オンラインマーケティングのためのランキングビリティ向上型収益アップリフトモデリングフレームワーク

Rankability-enhanced Revenue Uplift Modeling Framework for Online Marketing ( http://arxiv.org/abs/2405.15301v2 )

ライセンス: Link先を確認
Bowei He, Yunpeng Weng, Xing Tang, Ziqiang Cui, Zexu Sun, Liang Chen, Xiuqiang He, Chen Ma, (参考訳) 昇降モデリングは、クーポンや割引などの介入に対する敏感な個人を特定するために、治療とコントロールグループ間の応答差を予測することで、オンラインマーケティングにおいて広く採用されている。 従来の \textit{conversion uplift modeling} と比較すると、企業収入と直接関係があるため、より高いポテンシャルを示す。 しかし、従来の研究では、収益アップリフトモデリングにおける長期応答の継続的な分布にほとんど対応できない。 さらに、異なる個人間のアップリフトランキングを最適化することは無視されており、これは実際にアップリフトモデリングの中核である。 このような問題に対処するために,本稿ではまずゼロインフレーション対数正規化(ZILN)損失を利用して応答を回帰し,既存のアップリフトモデルに適応可能な対応するモデリングネットワークをカスタマイズする。 そこで我々は,理論的な観点からランキング関連アップリフトモデル誤差について検討し,従来の応答回帰損失に対する追加損失項として,より厳密な2つの誤差境界を提案する。 最後に,全人口の上昇ランクの誤差を直接モデル化し,リストワイドの上昇ランクの損失を推定する。 本手法の有効性を検証するために, オフラインの公共・産業用データセットを用いた実験を行った。 さらに、オンラインフィンテックマーケティングプラットフォームであるTencent FiTで大規模な実験を行い、実世界のアプリケーションにおける我々の手法の優位性をさらに証明した。

Uplift modeling has been widely employed in online marketing by predicting the response difference between the treatment and control groups, so as to identify the sensitive individuals toward interventions like coupons or discounts. Compared with traditional \textit{conversion uplift modeling}, \textit{revenue uplift modeling} exhibits higher potential due to its direct connection with the corporate income. However, previous works can hardly handle the continuous long-tail response distribution in revenue uplift modeling. Moreover, they have neglected to optimize the uplift ranking among different individuals, which is actually the core of uplift modeling. To address such issues, in this paper, we first utilize the zero-inflated lognormal (ZILN) loss to regress the responses and customize the corresponding modeling network, which can be adapted to different existing uplift models. Then, we study the ranking-related uplift modeling error from the theoretical perspective and propose two tighter error bounds as the additional loss terms to the conventional response regression loss. Finally, we directly model the uplift ranking error for the entire population with a listwise uplift ranking loss. The experiment results on offline public and industrial datasets validate the effectiveness of our method for revenue uplift modeling. Furthermore, we conduct large-scale experiments on a prominent online fintech marketing platform, Tencent FiT, which further demonstrates the superiority of our method in real-world applications.
翻訳日:2024-06-13 22:05:02 公開日:2024-06-12
# GTA:オフライン強化学習のためのガイダンスによる生成軌道拡張

GTA: Generative Trajectory Augmentation with Guidance for Offline Reinforcement Learning ( http://arxiv.org/abs/2405.16907v3 )

ライセンス: Link先を確認
Jaewoo Lee, Sujin Yun, Taeyoung Yun, Jinkyoo Park, (参考訳) オフライン強化学習(Offline Reinforcement Learning (Offline RL))は、オンラインインタラクションなしで静的データセットから効果的な意思決定ポリシーを学ぶという課題を提示している。 ノイズ注入やデータ合成などのデータ拡張技術は、学習状態領域を滑らかにすることでQ関数近似を改善することを目的としている。 しかし、これらの手法は、オフラインデータセットの質を直接的に改善するに足りず、亜最適結果をもたらすことが多い。 そこで本稿では,高次かつ動的に検証可能なトラジェクトリを増大させることにより,オフラインデータの強化を目的とした新しい生成データ拡張手法である,生成トラジェクトリ拡張(Generative Trajectory Augmentation)を提案する。 GTAはデータ拡張フレームワークに拡散モデルを適用します。 GTAは元のトラジェクトリを部分的にノイズし、増幅された戻り値の条件付けにより、分類子なしのガイダンスでノイズを発生させる。 以上の結果から,GTAは汎用データ拡張戦略として,高密度かつ疎度な報酬設定において,広く使われているオフラインRLアルゴリズムの性能を向上させることが示唆された。 さらに、GTAによって強化されたデータの品質分析を行い、GTAがデータの品質を改善することを示す。 私たちのコードはhttps://github.com/Jaewoopudding/GTAで利用可能です。

Offline Reinforcement Learning (Offline RL) presents challenges of learning effective decision-making policies from static datasets without any online interactions. Data augmentation techniques, such as noise injection and data synthesizing, aim to improve Q-function approximation by smoothing the learned state-action region. However, these methods often fall short of directly improving the quality of offline datasets, leading to suboptimal results. In response, we introduce \textbf{GTA}, Generative Trajectory Augmentation, a novel generative data augmentation approach designed to enrich offline data by augmenting trajectories to be both high-rewarding and dynamically plausible. GTA applies a diffusion model within the data augmentation framework. GTA partially noises original trajectories and then denoises them with classifier-free guidance via conditioning on amplified return value. Our results show that GTA, as a general data augmentation strategy, enhances the performance of widely used offline RL algorithms in both dense and sparse reward settings. Furthermore, we conduct a quality analysis of data augmented by GTA and demonstrate that GTA improves the quality of the data. Our code is available at https://github.com/Jaewoopudding/GTA
翻訳日:2024-06-13 22:05:02 公開日:2024-06-12
# オープンワールドグラフ学習のためのグラフ凝縮

Graph Condensation for Open-World Graph Learning ( http://arxiv.org/abs/2405.17003v2 )

ライセンス: Link先を確認
Xinyi Gao, Tong Chen, Wentao Zhang, Yayong Li, Xiangguo Sun, Hongzhi Yin, (参考訳) グラフデータの急増するボリュームは、グラフニューラルネットワーク(GNN)のトレーニングにおいて重要な計算上の課題を示し、様々なアプリケーションにおいてその効率を著しく損なう。 この課題に対処するために、グラフ凝縮(GC)は、性能を維持しながら効率よくGNNを訓練するコンパクトだが代表的なグラフの合成に焦点を当て、有望な加速解として登場した。 GNNのスケーラブルな利用を促進する可能性にもかかわらず、既存のGCメソッドは、凝縮グラフと単に観察された静的グラフ分布との整合に限られている。 この制限は凝縮グラフの一般化能力を著しく制限し、特に動的分布変化に適応する。 しかし、現実のシナリオでは、グラフは動的で常に進化しており、新しいノードとエッジが継続的に統合されている。 したがって、凝縮グラフの限定的な一般化能力のため、効率的なGNNトレーニングにGCを使用するアプリケーションは、動的実世界の状況下でのグラフ構造や分布の進化に直面した場合、準最適GNNに終止符を打つことになる。 この問題を解決するために,構造対応の分散シフトを統合して,進化するグラフパターンをシミュレートし,時間的環境を利用して分散凝縮を行う,オープンワールドグラフ凝縮(OpenGC)を提案する。 このアプローチは、元のグラフから時間的不変パターンを抽出し、縮合グラフの一般化能力を高め、その後、GNNが訓練する。 実世界のグラフと合成進化グラフの両方に関する大規模な実験により、OpenGCは、オープンワールドグラフ環境の動的変化に適応して、最先端(SOTA)GCメソッドより優れていることが示された。

The burgeoning volume of graph data presents significant computational challenges in training graph neural networks (GNNs), critically impeding their efficiency in various applications. To tackle this challenge, graph condensation (GC) has emerged as a promising acceleration solution, focusing on the synthesis of a compact yet representative graph for efficiently training GNNs while retaining performance. Despite the potential to promote scalable use of GNNs, existing GC methods are limited to aligning the condensed graph with merely the observed static graph distribution. This limitation significantly restricts the generalization capacity of condensed graphs, particularly in adapting to dynamic distribution changes. In real-world scenarios, however, graphs are dynamic and constantly evolving, with new nodes and edges being continually integrated. Consequently, due to the limited generalization capacity of condensed graphs, applications that employ GC for efficient GNN training end up with sub-optimal GNNs when confronted with evolving graph structures and distributions in dynamic real-world situations. To overcome this issue, we propose open-world graph condensation (OpenGC), a robust GC framework that integrates structure-aware distribution shift to simulate evolving graph patterns and exploit the temporal environments for invariance condensation. This approach is designed to extract temporal invariant patterns from the original graph, thereby enhancing the generalization capabilities of the condensed graph and, subsequently, the GNNs trained on it. Extensive experiments on both real-world and synthetic evolving graphs demonstrate that OpenGC outperforms state-of-the-art (SOTA) GC methods in adapting to dynamic changes in open-world graph environments.
翻訳日:2024-06-13 22:05:02 公開日:2024-06-12
# PanoTree:バーチャルリアリティシーンにおける自律的なフォトスポットエクスプローラー

PanoTree: Autonomous Photo-Spot Explorer in Virtual Reality Scenes ( http://arxiv.org/abs/2405.17136v2 )

ライセンス: Link先を確認
Tomohiro Hayase, Sacha Braun, Hikari Yanagawa, Itsuki Orito, Yuichi Hiroi, (参考訳) ソーシャルVRプラットフォームは、ユーザーが自分の仮想空間を作成、共有できるようにすることで、社会的、経済的、創造的な活動を可能にする。 ソーシャルVRでは、VRシーン内の写真は訪問者の活動を示す重要な指標である。 VRシーン内の写真スポットの自動識別は、VRシーンの作成とビジター体験の向上を促進することができるが、VRシーンで撮影された写真を定量的に評価し、大きなVRシーンを効率的に探索することは困難である。 我々は、VRシーンにおける自動写真スポットエクスプローラーであるPanoTreeを提案する。 VRシーンで撮影された画像の美学を評価するために、ソーシャルVRプラットフォームが収集した大量の写真に基づいて、ディープスコアリングネットワークをトレーニングし、人間が同様の写真を撮るかどうかを判断する。 さらに,階層的最適最適化(HOO)に基づく探索アルゴリズムを提案し,評価ネットワークから報酬を得て3次元VR空間を効率的に探索する。 本研究は, ランダムに撮影した画像と人間が撮影した画像とを区別することで, 評価ネットワークが人間レベルの性能を達成することを示すものである。 また,自動サムネイル生成,VRワールド作成のサポート,VRシーン内のビジターフロー計画など,探索された写真スポットを用いたアプリケーションについても紹介する。

Social VR platforms enable social, economic, and creative activities by allowing users to create and share their own virtual spaces. In social VR, photography within a VR scene is an important indicator of visitors' activities. Although automatic identification of photo spots within a VR scene can facilitate the process of creating a VR scene and enhance the visitor experience, there are challenges in quantitatively evaluating photos taken in the VR scene and efficiently exploring the large VR scene. We propose PanoTree, an automated photo-spot explorer in VR scenes. To assess the aesthetics of images captured in VR scenes, a deep scoring network is trained on a large dataset of photos collected by a social VR platform to determine whether humans are likely to take similar photos. Furthermore, we propose a Hierarchical Optimistic Optimization (HOO)-based search algorithm to efficiently explore 3D VR spaces with the reward from the scoring network. Our user study shows that the scoring network achieves human-level performance in distinguishing randomly taken images from those taken by humans. In addition, we show applications using the explored photo spots, such as automatic thumbnail generation, support for VR world creation, and visitor flow planning within a VR scene.
翻訳日:2024-06-13 22:05:02 公開日:2024-06-12
# 創造性とオープンエンデドネスについて

On Creativity and Open-Endedness ( http://arxiv.org/abs/2405.18016v2 )

ライセンス: Link先を確認
L. B. Soros, Alyssa Adams, Stefano Kalonaris, Olaf Witkowski, Christian Guckelsberger, (参考訳) 学際的な分野としての人工生命(ALife)は、様々な視点からインスピレーションと影響を引き出す。 科学の進歩は、学際的な対話を招こうとする共同努力に大きく依存する。 本研究の目的は、オープンエンデドネス(OE)の概念に特化して、計算創造性(CC)とALifeの潜在的な関連性に関する議論を活性化することであり、CCの主な目的は、人工システムに創造性を持たせることであり、ALifeはOEと人工イノベーションの研究・合成に多くの研究努力を注いでいる。 しかし、これらの概念が近接しているにも関わらず、それらの使用はそれぞれのコミュニティに限られており、その関係は概ね不明である。 両領域の研究に歴史的文脈を提供し、創造性研究とOEを明示的に結びつける限定的な研究を概観する。 次に、検討すべき特定の質問と、最終的な目標を強調します。 (i)OEの概念の類似点と相違点を強調することにより概念の曖昧さを減少させる。 2OEと創造性の両方を包含する研究課題の相乗効果の識別及び 3ALifeとCC研究の対話を確立すること。

Artificial Life (ALife) as an interdisciplinary field draws inspiration and influence from a variety of perspectives. Scientific progress crucially depends, then, on concerted efforts to invite cross-disciplinary dialogue. The goal of this paper is to revitalize discussions of potential connections between the fields of Computational Creativity (CC) and ALife, focusing specifically on the concept of Open-Endedness (OE); the primary goal of CC is to endow artificial systems with creativity, and ALife has dedicated much research effort into studying and synthesizing OE and artificial innovation. However, despite the close proximity of these concepts, their use so far remains confined to their respective communities, and their relationship is largely unclear. We provide historical context for research in both domains, and review the limited work connecting research on creativity and OE explicitly. We then highlight specific questions to be considered, with the eventual goals of (i) decreasing conceptual ambiguity by highlighting similarities and differences between the concepts of OE, (ii) identifying synergy effects of a research agenda that encompasses both OE and creativity, and (iii) establishing a dialogue between ALife and CC research.
翻訳日:2024-06-13 22:05:02 公開日:2024-06-12
# 野生における記述的画像品質評価

Descriptive Image Quality Assessment in the Wild ( http://arxiv.org/abs/2405.18842v2 )

ライセンス: Link先を確認
Zhiyuan You, Jinjin Gu, Zheyuan Li, Xin Cai, Kaiwen Zhu, Chao Dong, Tianfan Xue, (参考訳) 視覚言語モデル(VLM)の急速な進歩により、VLMベースの画像品質評価(IQA)は、画像品質を言語的に記述し、人間の表現と整合し、IQAタスクの多面的な性質を捉えようとしている。 しかし、現在の方法はまだ実用には程遠い。 まず、事前の作業は特定のサブタスクや設定に絞られ、多様な現実世界のアプリケーションと一致しない。 第二に、データセットのカバレッジ、スケール、品質に制限があるため、パフォーマンスは準最適である。 これらの課題を克服するために、野生における画像品質評価(DepictQA-Wild)を紹介する。 本手法は,評価タスクと比較タスク,簡潔かつ詳細な応答,完全参照,非参照シナリオを含む多機能IQAタスクパラダイムを含む。 そこで本研究では,データ品質を向上する基盤トラスインフォームドデータセット構築手法を導入し,短時間のジョイントフレームワークの下でデータセットを495Kにスケールアップする。 そこで我々はDQ-495Kという,包括的で大規模で高品質なデータセットを構築した。 また、画像の解像度をトレーニング中に保持し、解像度に関する品質問題に対処し、低品質の応答をフィルタリングするのに有用な信頼性スコアを推定する。 実験結果から,DepictQA-Wildは従来のスコアベース手法,VLMモデル以前のIQAモデル,歪み識別,即時評価,推論タスクにおいて独自のGPT-4Vよりも優れていた。 我々の優位性は、Webダウンロードされた画像の評価や、モデル処理された画像のランク付けなど、現実世界のアプリケーションによってさらに確認される。 データセットとコードはhttps://depictqa.github.io/depictqa-wild/でリリースされる。

With the rapid advancement of Vision Language Models (VLMs), VLM-based Image Quality Assessment (IQA) seeks to describe image quality linguistically to align with human expression and capture the multifaceted nature of IQA tasks. However, current methods are still far from practical usage. First, prior works focus narrowly on specific sub-tasks or settings, which do not align with diverse real-world applications. Second, their performance is sub-optimal due to limitations in dataset coverage, scale, and quality. To overcome these challenges, we introduce Depicted image Quality Assessment in the Wild (DepictQA-Wild). Our method includes a multi-functional IQA task paradigm that encompasses both assessment and comparison tasks, brief and detailed responses, full-reference and non-reference scenarios. We introduce a ground-truth-informed dataset construction approach to enhance data quality, and scale up the dataset to 495K under the brief-detail joint framework. Consequently, we construct a comprehensive, large-scale, and high-quality dataset, named DQ-495K. We also retain image resolution during training to better handle resolution-related quality issues, and estimate a confidence score that is helpful to filter out low-quality responses. Experimental results demonstrate that DepictQA-Wild significantly outperforms traditional score-based methods, prior VLM-based IQA models, and proprietary GPT-4V in distortion identification, instant rating, and reasoning tasks. Our advantages are further confirmed by real-world applications including assessing the web-downloaded images and ranking model-processed images. Datasets and codes will be released in https://depictqa.github.io/depictqa-wild/.
翻訳日:2024-06-13 22:05:02 公開日:2024-06-12
# 生理信号の深部潜時変動モデリング

Deep Latent Variable Modeling of Physiological Signals ( http://arxiv.org/abs/2405.19277v3 )

ライセンス: Link先を確認
Khuong Vo, (参考訳) ディープ潜在変数モデルは、複雑な分布をキャプチャする強力な方法である。 これらのモデルは、基盤となる構造は、観測されていないが、データの中に存在すると仮定する。 本論文では,潜伏変数モデルを用いた生理モニタリングに関する高次元問題について考察する。 まず、光学的に得られた信号を入力として、心の電気波形を生成するための新しい状態空間モデルを提案する。 これは、ウェアラブルデバイスによる簡単な評価を通じて、心臓病の臨床的診断をもたらす可能性がある。 次に,確率的グラフィカルモデルの強みと深い敵対学習を組み合わせた脳信号モデリング手法を提案する。 構造化された表現は解釈可能性を提供し、インダクティブバイアスを符号化することで、ニューラル振動のデータ複雑さを低減することができる。 さらに, 教師なし学習問題として定式化したてんかん発作検出において, 学習表現の有効性について検討した。 第3に,生理的尺度と行動の合同モデリングのための枠組みを提案する。 複数の脳データソースを結合する既存の方法は限られている。 異なる種類の生理的尺度間の関係の直接解析は、通常、行動データには関係しない。 本手法は,脳領域の行動に対する特異かつ共有的な貢献を同定し,脳領域の新たな機能発見に利用することができる。 これらの革新的な計算手法の成功は、生物マーカーの発見を種間で翻訳し、多くの生物学的研究や臨床診断における神経認知分析の洞察と、新たな消費者応用を提供する。

A deep latent variable model is a powerful method for capturing complex distributions. These models assume that underlying structures, but unobserved, are present within the data. In this dissertation, we explore high-dimensional problems related to physiological monitoring using latent variable models. First, we present a novel deep state-space model to generate electrical waveforms of the heart using optically obtained signals as inputs. This can bring about clinical diagnoses of heart disease via simple assessment through wearable devices. Second, we present a brain signal modeling scheme that combines the strengths of probabilistic graphical models and deep adversarial learning. The structured representations can provide interpretability and encode inductive biases to reduce the data complexity of neural oscillations. The efficacy of the learned representations is further studied in epilepsy seizure detection formulated as an unsupervised learning problem. Third, we propose a framework for the joint modeling of physiological measures and behavior. Existing methods to combine multiple sources of brain data provided are limited. Direct analysis of the relationship between different types of physiological measures usually does not involve behavioral data. Our method can identify the unique and shared contributions of brain regions to behavior and can be used to discover new functions of brain regions. The success of these innovative computational methods would allow the translation of biomarker findings across species and provide insight into neurocognitive analysis in numerous biological studies and clinical diagnoses, as well as emerging consumer applications.
翻訳日:2024-06-13 22:05:02 公開日:2024-06-12
# LLMのオートアリーナ:エージェントピアバスによるLCM評価の自動化と委員会ディスカッション

Auto Arena of LLMs: Automating LLM Evaluations with Agent Peer-battles and Committee Discussions ( http://arxiv.org/abs/2405.20267v3 )

ライセンス: Link先を確認
Ruochen Zhao, Wenxuan Zhang, Yew Ken Chia, Deli Zhao, Lidong Bing, (参考訳) LLMが日常的に進化するにつれて、信頼できる評価方法が緊急に必要であり、安定した評価結果をタイムリーに提供できる。 現在、静的ベンチマークは汚染の懸念があるため、ユーザーはChatbot Arenaのような人間の投票プラットフォームを信頼する傾向にある。 しかし、人間のアノテーションは広範囲の手作業を必要とする。 自動的かつ堅牢で信頼性の高い評価フレームワークとして,LLMエージェントによる評価プロセス全体を自動化したLLMの自動アリーナを革新的に提案する。 まず、検査者LLMがクエリを考案する。 次に、LLM候補のペアがクエリの周りで複数ラウンドのピアバトルを行い、その間にLLMの真のパフォーマンスギャップが見えてくる。 最後に、LLM審査員の委員会は、偏見を緩和し公平性を促進する勝者をまとめて議論し、決定する。 最新のLLM17の広範な実験において、Auto-Arenaは人間の嗜好と最も高い相関を示し、人間の評価プラットフォームに代わる有望な代替手段を提供する。

As LLMs evolve on a daily basis, there is an urgent need for a trustworthy evaluation method that can provide robust evaluation results in a timely fashion. Currently, as static benchmarks are prone to contamination concerns, users tend to trust human voting platforms, such as Chatbot Arena. However, human annotations require extensive manual efforts. To provide an automatic, robust, and trustworthy evaluation framework, we innovatively propose the Auto-Arena of LLMs, which automates the entire evaluation process with LLM agents. Firstly, an examiner LLM devises queries. Then, a pair of candidate LLMs engage in a multi-round peer-battle around the query, during which the LLM's true performance gaps become visible. Finally, a committee of LLM judges collectively discuss and determine the winner, which alleviates bias and promotes fairness. In our extensive experiment on the 17 newest LLMs, Auto-Arena shows the highest correlation with human preferences, providing a promising alternative to human evaluation platforms.
翻訳日:2024-06-13 22:05:02 公開日:2024-06-12
# CoMoFusion: 一貫性モデルによる赤外線と可視画像の高速かつ高品質な融合

CoMoFusion: Fast and High-quality Fusion of Infrared and Visible Image with Consistency Model ( http://arxiv.org/abs/2405.20764v3 )

ライセンス: Link先を確認
Zhiming Meng, Hui Li, Zeyang Zhang, Zhongwei Shen, Yunlong Yu, Xiaoning Song, Xiaojun Wu, (参考訳) 生成モデルは、赤外線および可視画像融合の分野における融合画像の分布をモデル化するために広く利用されている。 しかし、現在の生成モデルに基づく融合法は、しばしば不安定なトレーニングと遅い推論速度に悩まされる。 この問題を解決するために,CoMoFusionと呼ばれる一貫性モデルに基づく新しい融合法を提案し,高品質な画像を生成し,高速な画像推論を実現する。 具体的には、整合性モデルは、前と逆のプロセスで潜在空間に多重モードのジョイント特徴を構築するのに使用される。 そして、トレーニングされた一貫性モデルによって抽出された赤外および可視の特徴を融合モジュールに供給し、最終融合画像を生成する。 また、融合した画像のテクスチャや鮮やかな情報を高めるために、画素値選択に基づく新規な損失も設計する。 公開データセットに対する大規模な実験により,既存の融合法と比較してSOTA融合性能が向上したことを示す。

Generative models are widely utilized to model the distribution of fused images in the field of infrared and visible image fusion. However, current generative models based fusion methods often suffer from unstable training and slow inference speed. To tackle this problem, a novel fusion method based on consistency model is proposed, termed as CoMoFusion, which can generate the high-quality images and achieve fast image inference speed. In specific, the consistency model is used to construct multi-modal joint features in the latent space with the forward and reverse process. Then, the infrared and visible features extracted by the trained consistency model are fed into fusion module to generate the final fused image. In order to enhance the texture and salient information of fused images, a novel loss based on pixel value selection is also designed. Extensive experiments on public datasets illustrate that our method obtains the SOTA fusion performance compared with the existing fusion methods.
翻訳日:2024-06-13 21:55:11 公開日:2024-06-12
# Visual-RolePlay:ロールプレイングイメージキャラクタによる多モード大規模言語モデルに対するユニバーサルジェイルブレイク攻撃

Visual-RolePlay: Universal Jailbreak Attack on MultiModal Large Language Models via Role-playing Image Character ( http://arxiv.org/abs/2405.20773v2 )

ライセンス: Link先を確認
Siyuan Ma, Weidi Luo, Yu Wang, Xiaogeng Liu, (参考訳) MLLM(Multimodal Large Language Models)の出現と普及に伴い、安全性の確保がますます重要になっている。 この目的を達成するためには,攻撃手法を探索することでMLLMの脆弱性を積極的に発見する必要がある。 このように、有害なセマンティックコンテンツが画像内に埋め込まれる構造ベースのジェイルブレイク攻撃は、モデルを誤解させるために提案されている。 しかし、従来の構造に基づくジェイルブレイク手法は主に、有害なコンテンツをタイポグラフィーによって画像に変換するような悪意あるクエリの形式を変換することに焦点を当てており、ジェイルブレイクの有効性と一般化性に欠ける。 これらの制約に対処するため、まずMLLMジェイルブレイク攻撃に「ロールプレイ」の概念を導入し、視覚ロールプレイ(VRP)と呼ばれる新しい効果的手法を提案する。 特に、VRPはLarge Language Modelsを活用して、リスクの高い文字の詳細な記述を生成し、その記述に基づいて対応する画像を生成する。 良質なロールプレイインストラクションテキストと組み合わせると、これらのハイリスクな文字画像はMLLMを効果的に誤解させ、負の属性を持つ文字を付加することで悪意のある応答を発生させる。 一般化可能性を示すために,VRP法をさらに普遍的な設定に拡張する。 人気のあるベンチマークに関する大規模な実験によると、VRPは、すべてのモデルで平均14.3%のアタック成功率(ASR)で最強のベースラインであるQuery relevantとFigStepを上回っている。

With the advent and widespread deployment of Multimodal Large Language Models (MLLMs), ensuring their safety has become increasingly critical. To achieve this objective, it requires us to proactively discover the vulnerability of MLLMs by exploring the attack methods. Thus, structure-based jailbreak attacks, where harmful semantic content is embedded within images, have been proposed to mislead the models. However, previous structure-based jailbreak methods mainly focus on transforming the format of malicious queries, such as converting harmful content into images through typography, which lacks sufficient jailbreak effectiveness and generalizability. To address these limitations, we first introduce the concept of "Role-play" into MLLM jailbreak attacks and propose a novel and effective method called Visual Role-play (VRP). Specifically, VRP leverages Large Language Models to generate detailed descriptions of high-risk characters and create corresponding images based on the descriptions. When paired with benign role-play instruction texts, these high-risk character images effectively mislead MLLMs into generating malicious responses by enacting characters with negative attributes. We further extend our VRP method into a universal setup to demonstrate its generalizability. Extensive experiments on popular benchmarks show that VRP outperforms the strongest baseline, Query relevant and FigStep, by an average Attack Success Rate (ASR) margin of 14.3% across all models.
翻訳日:2024-06-13 21:55:11 公開日:2024-06-12
# 調波変圧器の付加に対する任意長一般化法

Arbitrary-Length Generalization for Addition in a Tiny Transformer ( http://arxiv.org/abs/2406.00075v2 )

ライセンス: Link先を確認
Alexandre Galvao Patriota, (参考訳) 本稿では,トランスフォーマーモデルを用いて,未知の桁数に対する2桁数の追加を一般化する学習手法を提案する。 提案手法では, 右から左へ処理を行う自己回帰生成手法を用いて, 多数の値を追加するための共通手動手法を模倣する。 私の知る限りでは、この方法論は文献ではこれまで研究されていない。 すべての結果は再現可能であり、対応するRコードはgithub.com/AGPatriota/ALGA-R/で入手できる。

This paper introduces a novel training methodology that enables a Transformer model to generalize the addition of two-digit numbers to numbers with unseen lengths of digits. The proposed approach employs an autoregressive generation technique, processing from right to left, which mimics a common manual method for adding large numbers. To the best of my knowledge, this methodology has not been previously explored in the literature. All results are reproducible, and the corresponding R code is available at github.com/AGPatriota/ALGA-R/.
翻訳日:2024-06-13 21:55:11 公開日:2024-06-12
# 変形可能な医用画像登録のための相関対応粗大なMLP

Correlation-aware Coarse-to-fine MLPs for Deformable Medical Image Registration ( http://arxiv.org/abs/2406.00123v2 )

ライセンス: Link先を確認
Mingyuan Meng, Dagan Feng, Lei Bi, Jinman Kim, (参考訳) 変形可能な画像登録は、医用画像解析の基本的なステップである。 近年、トランスフォーマーは、CNN(Convolutional Neural Networks)の登録と性能向上に使用されている。 トランスフォーマーは、画像特徴間の長距離依存をキャプチャできるが、これは登録に有用であることが示されている。 しかし、自己アテンションの計算/メモリ負荷が高いため、トランスフォーマーは通常、ダウンサンプリングされた特徴解像度で使用され、完全な画像解像度で細かな長距離依存を捉えることはできない。 これにより、各画像ピクセル間の正確な密接な対応を必要とするため、変形可能な登録が制限される。 自己注意のない多層パーセプトロン(MLP)は、計算/メモリ使用において効率的であり、完全な解像度で細粒度の長距離依存を捉えることが可能である。 それでも、MLPは画像登録のために広く研究されておらず、医療登録業務に不可欠な誘導バイアスの考慮が欠如している。 本研究では,変形可能な医用画像登録のための相関対応MLPベース登録ネットワーク(CorrMLP)を提案する。 我々のCorrMLPは、相関対応のマルチウィンドウMLPブロックを新しい粗粒度登録アーキテクチャに導入し、相関対応の粗粒度登録を行うための細粒度マルチレンジ依存をキャプチャする。 7つの公開医療データセットによる大規模な実験により、私たちのCorrMLPは最先端の変形可能な登録方法よりも優れています。

Deformable image registration is a fundamental step for medical image analysis. Recently, transformers have been used for registration and outperformed Convolutional Neural Networks (CNNs). Transformers can capture long-range dependence among image features, which have been shown beneficial for registration. However, due to the high computation/memory loads of self-attention, transformers are typically used at downsampled feature resolutions and cannot capture fine-grained long-range dependence at the full image resolution. This limits deformable registration as it necessitates precise dense correspondence between each image pixel. Multi-layer Perceptrons (MLPs) without self-attention are efficient in computation/memory usage, enabling the feasibility of capturing fine-grained long-range dependence at full resolution. Nevertheless, MLPs have not been extensively explored for image registration and are lacking the consideration of inductive bias crucial for medical registration tasks. In this study, we propose the first correlation-aware MLP-based registration network (CorrMLP) for deformable medical image registration. Our CorrMLP introduces a correlation-aware multi-window MLP block in a novel coarse-to-fine registration architecture, which captures fine-grained multi-range dependence to perform correlation-aware coarse-to-fine registration. Extensive experiments with seven public medical datasets show that our CorrMLP outperforms state-of-the-art deformable registration methods.
翻訳日:2024-06-13 21:55:11 公開日:2024-06-12
# 連続動作を伴う弱結合型MDPの深部強化学習

Deep reinforcement learning for weakly coupled MDP's with continuous actions ( http://arxiv.org/abs/2406.01099v2 )

ライセンス: Link先を確認
Francisco Robledo, Urtzi Ayesta, Konstantin Avrachenkov, (参考訳) 本稿では,連続行動空間と弱結合なMDP問題を対象とした強化学習アルゴリズムであるLagrange Policy for Continuous Actions (LPCA)を紹介する。 LPCAは、Q値計算のためのニューラルネットワークフレームワークにおいて、弱い結合のMDP問題のラグランジュ緩和を導入することで、継続的な行動に依存するリソース制約の課題に対処する。 このアプローチはMDPを効果的に分離し、資源制約環境における効率的な政策学習を可能にする。 グローバル最適化に差分進化を利用するLPCA-DEと,Q値勾配に基づく行動の漸進的かつ段階的に選択するLPCA-Greedyの2つのバリエーションを示す。 他の最先端技術との比較分析では、LPCAの資源配分管理における堅牢性と効率性を強調し、報酬を最大化している。

This paper introduces the Lagrange Policy for Continuous Actions (LPCA), a reinforcement learning algorithm specifically designed for weakly coupled MDP problems with continuous action spaces. LPCA addresses the challenge of resource constraints dependent on continuous actions by introducing a Lagrange relaxation of the weakly coupled MDP problem within a neural network framework for Q-value computation. This approach effectively decouples the MDP, enabling efficient policy learning in resource-constrained environments. We present two variations of LPCA: LPCA-DE, which utilizes differential evolution for global optimization, and LPCA-Greedy, a method that incrementally and greadily selects actions based on Q-value gradients. Comparative analysis against other state-of-the-art techniques across various settings highlight LPCA's robustness and efficiency in managing resource allocation while maximizing rewards.
翻訳日:2024-06-13 21:55:11 公開日:2024-06-12
# CAFO:時系列分類における特徴中心的説明

CAFO: Feature-Centric Explanation on Time Series Classification ( http://arxiv.org/abs/2406.01833v2 )

ライセンス: Link先を確認
Jaeho Kim, Seok-Ju Hahn, Yoontae Hwang, Junghye Lee, Seulki Lee, (参考訳) 多変量時系列分類(MTS)では、MTSデータの複雑で高次元の性質、複雑な時間ダイナミクス、ドメイン固有の解釈の必要性から、モデル性能の重要な特徴(例えばセンサ)を見つけることは極めて困難である。 MTSの現在の説明法は、主に時間中心の説明に焦点を当てており、重要な期間を特定できるが、重要な特徴を特定するのにはあまり効果がない。 この制限は、時間中心の分析を補完する重要で見過ごされがちな、機能中心のアプローチの必要性を浮き彫りにする。 このギャップを埋めるために,本稿ではCAFO(Channel Attention and Feature Orthgonalization)という,MCSのための特徴中心の説明・評価フレームワークを提案する。 CAFOは、チャネルアテンション機構を備えた畳み込みベースのアプローチを採用し、ディープワイドな分離可能なチャネルアテンションモジュール(DepCA)とQR分解に基づくロスを取り入れ、機能ワイドな直交性を促進する。 この直交化により、注意分布の分離性が向上し、特徴量のランク付けと安定化が図られる。 この機能的ランキングの改善は、MSSの機能的説明可能性の理解を高める。 さらに,グローバルな特徴とクラス固有の特徴の重要度を評価する指標を開発する。 我々のフレームワークの有効性は、2つの主要な公開ベンチマークと実世界のデータセットに関する広範な実証分析によって検証される。 MTS分類作業における特徴量評価におけるCAFOの頑健さと情報伝達能力を確認した。 本研究は,MTSにおける特徴中心的説明の理解を深めるだけでなく,特徴中心的説明の今後の探求の基盤となる。

In multivariate time series (MTS) classification, finding the important features (e.g., sensors) for model performance is crucial yet challenging due to the complex, high-dimensional nature of MTS data, intricate temporal dynamics, and the necessity for domain-specific interpretations. Current explanation methods for MTS mostly focus on time-centric explanations, apt for pinpointing important time periods but less effective in identifying key features. This limitation underscores the pressing need for a feature-centric approach, a vital yet often overlooked perspective that complements time-centric analysis. To bridge this gap, our study introduces a novel feature-centric explanation and evaluation framework for MTS, named CAFO (Channel Attention and Feature Orthgonalization). CAFO employs a convolution-based approach with channel attention mechanisms, incorporating a depth-wise separable channel attention module (DepCA) and a QR decomposition-based loss for promoting feature-wise orthogonality. We demonstrate that this orthogonalization enhances the separability of attention distributions, thereby refining and stabilizing the ranking of feature importance. This improvement in feature-wise ranking enhances our understanding of feature explainability in MTS. Furthermore, we develop metrics to evaluate global and class-specific feature importance. Our framework's efficacy is validated through extensive empirical analyses on two major public benchmarks and real-world datasets, both synthetic and self-collected, specifically designed to highlight class-wise discriminative features. The results confirm CAFO's robustness and informative capacity in assessing feature importance in MTS classification tasks. This study not only advances the understanding of feature-centric explanations in MTS but also sets a foundation for future explorations in feature-centric explanations.
翻訳日:2024-06-13 21:55:11 公開日:2024-06-12
# 音声合成のための音声強調言語モデリング

Phonetic Enhanced Language Modeling for Text-to-Speech Synthesis ( http://arxiv.org/abs/2406.02009v2 )

ライセンス: Link先を確認
Kun Zhou, Shengkui Zhao, Yukun Ma, Chong Zhang, Hao Wang, Dianwen Ng, Chongjia Ni, Nguyen Trung Hieu, Jia Qi Yip, Bin Ma, (参考訳) 最近の言語モデルに基づくTTS(Text-to-Speech)フレームワークは、スケーラビリティとコンテキスト内学習能力を実証している。 しかし, 自己回帰型言語モデリングにおける音声単位予測における誤りの蓄積により, 頑健性に悩まされる。 本稿では,TSモデルの性能向上のための音素拡張言語モデリング手法を提案する。 我々は,自己回帰言語モデルの訓練対象として,音声的にリッチな自己教師表現を活用している。 その後、非自己回帰モデルを用いて、きめ細かい音響の詳細を含む離散音響コーデックを予測する。 TTSモデルは、自己回帰訓練中の言語モデルにのみ焦点をあて、非自己回帰訓練で発生する誤りの伝播を減らす。 客観評価と主観評価の両方が提案手法の有効性を検証した。

Recent language model-based text-to-speech (TTS) frameworks demonstrate scalability and in-context learning capabilities. However, they suffer from robustness issues due to the accumulation of errors in speech unit predictions during autoregressive language modeling. In this paper, we propose a phonetic enhanced language modeling method to improve the performance of TTS models. We leverage self-supervised representations that are phonetically rich as the training target for the autoregressive language model. Subsequently, a non-autoregressive model is employed to predict discrete acoustic codecs that contain fine-grained acoustic details. The TTS model focuses solely on linguistic modeling during autoregressive training, thereby reducing the error propagation that occurs in non-autoregressive training. Both objective and subjective evaluations validate the effectiveness of our proposed method.
翻訳日:2024-06-13 21:55:11 公開日:2024-06-12
# タイプベース変異型ジェネレータ

Generator-Based Fuzzers with Type-Based Targeted Mutation ( http://arxiv.org/abs/2406.02034v2 )

ライセンス: Link先を確認
Soha Hussein, Stephen McCamant, Mike Whalen, (参考訳) ファジィアと同様に、特定のコードターゲットに到達するためにジェネレータベースファジィア(GBF)を指示することで、ファジィアの有効性を高めることができる。 以前の研究では、カバレッジ誘導ファジィザは静的解析、テイント解析、制約解決アプローチを混合してこの問題に対処していた。 しかし、これらの技術は、入力ジェネレータを使用してプログラム入力を構築するGBFのために特に開発されなかった。 入力ジェネレータは、プログラム入力のタイピング構成を介して自然に存在する入力構造に関する情報を搬送する。 本稿では,Java GBF の文字列検索とともに,型ベースの突然変異ヒューリスティックを導入する。 私たちの重要な直感は、入力のどの部分(型)が分岐決定に影響を及ぼす可能性があるかを識別できるなら、これらの型を構成するジェネレータの選択を変更することに重点を置くことは、望ましいカバレッジを達成する可能性が高いということです。 当社のテクニックは,AWSLambdaアプリケーションをファッズするために使用しました。 ベースラインのGBFツールと比較すると、アプリケーションカバレッジが平均20倍改善され、サードパーティのコードを含める場合の大幅な改善が示されている。

As with any fuzzer, directing Generator-Based Fuzzers (GBF) to reach particular code targets can increase the fuzzer's effectiveness. In previous work, coverage-guided fuzzers used a mix of static analysis, taint analysis, and constraint-solving approaches to address this problem. However, none of these techniques were particularly crafted for GBF where input generators are used to construct program inputs. The observation is that input generators carry information about the input structure that is naturally present through the typing composition of the program input. In this paper, we introduce a type-based mutation heuristic, along with constant string lookup, for Java GBF. Our key intuition is that if one can identify which sub-part (types) of the input will likely influence the branching decision, then focusing on mutating the choices of the generators constructing these types is likely to achieve the desired coverages. We used our technique to fuzz AWSLambda applications. Results compared to a baseline GBF tool show an almost 20\% average improvement in application coverage, and larger improvements when third-party code is included.
翻訳日:2024-06-13 21:55:11 公開日:2024-06-12
# ニューラル熱力学統合:エネルギーベース拡散モデルからの自由エネルギー

Neural Thermodynamic Integration: Free Energies from Energy-based Diffusion Models ( http://arxiv.org/abs/2406.02313v2 )

ライセンス: Link先を確認
Bálint Máté, François Fleuret, Tristan Bereau, (参考訳) 熱力学積分(TI)は、補間コンフォメーションアンサンブルを補間することで、自由エネルギー差を推定するための厳密な方法を提供する。 しかし、TI計算は計算コストが高く、多くの中間アンサンブルを十分なコンフォメーション空間オーバーラップでサンプリングする必要があるため、通常は少数の自由度を結合することに制限される。 本研究では、トレーニング可能なニューラルネットワークで表されるアルケミカル経路に沿ってTIを実行することを提案する。 臨界的に、相互作用系と非相互作用系の間の時間依存ハミルトン補間をパラメトリズし、デノナイジング拡散目標を用いて勾配を最適化する。 すべての中間アンサンブルをサンプリングするエネルギーベース拡散モデルの能力により、単一の参照計算からTIを実行することができる。 我々はこの手法をレナード・ジョーンズ流体に適用し、過剰な化学ポテンシャルの正確な計算を報告し、Neural TIが数百自由度を一度に結合できることを実証した。

Thermodynamic integration (TI) offers a rigorous method for estimating free-energy differences by integrating over a sequence of interpolating conformational ensembles. However, TI calculations are computationally expensive and typically limited to coupling a small number of degrees of freedom due to the need to sample numerous intermediate ensembles with sufficient conformational-space overlap. In this work, we propose to perform TI along an alchemical pathway represented by a trainable neural network, which we term Neural TI. Critically, we parametrize a time-dependent Hamiltonian interpolating between the interacting and non-interacting systems, and optimize its gradient using a denoising-diffusion objective. The ability of the resulting energy-based diffusion model to sample all intermediate ensembles allows us to perform TI from a single reference calculation. We apply our method to Lennard-Jones fluids, where we report accurate calculations of the excess chemical potential, demonstrating that Neural TI is capable of coupling hundreds of degrees of freedom at once.
翻訳日:2024-06-13 21:55:10 公開日:2024-06-12
# Xmodel-LM技術報告

Xmodel-LM Technical Report ( http://arxiv.org/abs/2406.02856v2 )

ライセンス: Link先を確認
Yichuan Wang, Yang Liu, Yu Yan, Qun Wang, Shulei Wu, Xucheng Huang, Ling Jiang, (参考訳) 約2兆個のトークンで事前トレーニングした,コンパクトで効率的な1.1B言語モデルであるXmodel-LMを紹介する。 ダウンストリームタスク最適化に基づいて、中国語と英語のコーパスのバランスをとる自己構築データセット(Xdata)に基づいて、Xmodel-LMは、そのサイズが小さいにもかかわらず、顕著なパフォーマンスを示す。 特に、同様の規模の既存のオープンソース言語モデルを上回っている。 私たちのモデルチェックポイントとコードはGitHubでhttps://github.com/XiaoduoAILab/XmodelLMで公開されています。

We introduce Xmodel-LM, a compact and efficient 1.1B language model pre-trained on around 2 trillion tokens. Trained on our self-built dataset (Xdata), which balances Chinese and English corpora based on downstream task optimization, Xmodel-LM exhibits remarkable performance despite its smaller size. It notably surpasses existing open-source language models of similar scale. Our model checkpoints and code are publicly accessible on GitHub at https://github.com/XiaoduoAILab/XmodelLM.
翻訳日:2024-06-13 21:55:10 公開日:2024-06-12
# 残留接続と正規化は、GNNの過度なスムース化を確実に防ぐことができる

Residual Connections and Normalization Can Provably Prevent Oversmoothing in GNNs ( http://arxiv.org/abs/2406.02997v2 )

ライセンス: Link先を確認
Michael Scholkemper, Xinyi Wu, Ali Jadbabaie, Michael T. Schaub, (参考訳) 残差接続と正規化層はグラフニューラルネットワーク(GNN)の標準設計選択となり、GNNにおける過度な問題を軽減するソリューションとして提案されている。 しかし、これらの手法が理論的な観点から過大な問題を緩和するのにどのように役立つかはよく分かっていない。 本研究では,残差接続層と正規化層を有する(線形化)GNNの形式的,正確な特徴付けを行う。 私たちはそれを確立します (a) 残差接続の場合、各層に初期特徴を組み込むことで、信号がスムーズになるのを防ぎ、可能ノード表現のサブ空間を決定する。 b) バッチ正規化は、特徴行列の各列の個別再スケーリングによって出力埋め込み空間が1次元部分空間に完全に崩壊することを防ぐ。 これにより、ノード表現がメッセージパッシング演算子の上位$k$固有空間に収束する。 さらに, プロジェクションとして理解可能な正規化層の中心となるステップが, 関連情報が抽出しにくくなるように, メッセージパッシングにおいてグラフ信号を変化させることが示される。 そこで我々は、グラフNormv2と呼ばれる新しい正規化層を導入し、中心となるステップを学習し、元のグラフ信号を望ましくない方法で歪ませないようにした。 実験の結果,本手法の有効性が確認された。

Residual connections and normalization layers have become standard design choices for graph neural networks (GNNs), and were proposed as solutions to the mitigate the oversmoothing problem in GNNs. However, how exactly these methods help alleviate the oversmoothing problem from a theoretical perspective is not well understood. In this work, we provide a formal and precise characterization of (linearized) GNNs with residual connections and normalization layers. We establish that (a) for residual connections, the incorporation of the initial features at each layer can prevent the signal from becoming too smooth, and determines the subspace of possible node representations; (b) batch normalization prevents a complete collapse of the output embedding space to a one-dimensional subspace through the individual rescaling of each column of the feature matrix. This results in the convergence of node representations to the top-$k$ eigenspace of the message-passing operator; (c) moreover, we show that the centering step of a normalization layer -- which can be understood as a projection -- alters the graph signal in message-passing in such a way that relevant information can become harder to extract. We therefore introduce a novel, principled normalization layer called GraphNormv2 in which the centering step is learned such that it does not distort the original graph signal in an undesirable way. Experimental results confirm the effectiveness of our method.
翻訳日:2024-06-13 21:55:10 公開日:2024-06-12
# Follow-Your-Pose v2:Stable Pose Controlのためのマルチコンディション誘導文字アニメーション

Follow-Your-Pose v2: Multiple-Condition Guided Character Image Animation for Stable Pose Control ( http://arxiv.org/abs/2406.03035v2 )

ライセンス: Link先を確認
Jingyun Xue, Hongfa Wang, Qi Tian, Yue Ma, Andong Wang, Zhiyuan Zhao, Shaobo Min, Wenzhe Zhao, Kaihao Zhang, Heung-Yeung Shum, Wei Liu, Mengyang Liu, Wenhan Luo, (参考訳) ソーシャルメディアプラットフォームにおける自動広告やコンテンツ作成などの分野への広範な応用により、ポーズコントロール可能なキャラクタビデオ生成が要求されている。 ポーズシーケンスと参照画像を用いた既存のキャラクタ画像アニメーション手法は有望なパフォーマンスを示しているが、複数のキャラクタアニメーションやボディーオブクルージョンといった複雑なシナリオでは、非一貫性のアニメーションに苦労する傾向がある。 さらに、現在の方法では、トレーニングデータセットとして安定したバックグラウンドと時間的一貫性を備えた大規模な高品質なビデオが要求される。 これら2つの課題は、文字画像アニメーションツールの実用化を妨げている。 本稿では,インターネット上で容易に利用できるノイズの多いオープンソースビデオに基づいてトレーニング可能な,実用的で堅牢なフレームワークFollow-Your-Pose v2を提案する。 マルチコンディションガイドは,背景安定性,マルチキャラクタ生成時の身体閉塞,キャラクタの外観の整合性といった課題に対処するように設計されている。 さらに,マルチキャラクタポーズアニメーションの公平な評価のギャップを埋めるために,約4,000フレームからなる新しいベンチマークを提案する。 大規模な実験により、我々の手法は2つのデータセットと7つのメトリクスで35\%以上のマージンで最先端の手法より優れていることが示された。 一方, 質的評価では, 生成ビデオの品質が著しく向上し, 特に複雑な背景やマルチキャラクタの身体閉塞などのシナリオにおいて, アプローチの優位性が示唆された。

Pose-controllable character video generation is in high demand with extensive applications for fields such as automatic advertising and content creation on social media platforms. While existing character image animation methods using pose sequences and reference images have shown promising performance, they tend to struggle with incoherent animation in complex scenarios, such as multiple character animation and body occlusion. Additionally, current methods request large-scale high-quality videos with stable backgrounds and temporal consistency as training datasets, otherwise, their performance will greatly deteriorate. These two issues hinder the practical utilization of character image animation tools. In this paper, we propose a practical and robust framework Follow-Your-Pose v2, which can be trained on noisy open-sourced videos readily available on the internet. Multi-condition guiders are designed to address the challenges of background stability, body occlusion in multi-character generation, and consistency of character appearance. Moreover, to fill the gap of fair evaluation of multi-character pose animation, we propose a new benchmark comprising approximately 4,000 frames. Extensive experiments demonstrate that our approach outperforms state-of-the-art methods by a margin of over 35\% across 2 datasets and on 7 metrics. Meanwhile, qualitative assessments reveal a significant improvement in the quality of generated video, particularly in scenarios involving complex backgrounds and body occlusion of multi-character, suggesting the superiority of our approach.
翻訳日:2024-06-13 21:55:10 公開日:2024-06-12
# Fact-Checkingのための文書レベルのクレーム抽出と非コンテクスト化

Document-level Claim Extraction and Decontextualisation for Fact-Checking ( http://arxiv.org/abs/2406.03239v2 )

ライセンス: Link先を確認
Zhenyun Deng, Michael Schlichtkrull, Andreas Vlachos, (参考訳) チェックするクレームを選択することは、人間のファクトチェッカーにとって、特に複数の文と複数のクレームを含む文書から、時間を要するタスクである。 しかし、既存のクレーム抽出アプローチは、個々の文からクレームを特定して抽出すること、例えば、ある文がクレームを含むか、またはその文内のクレームの正確な境界を識別することに焦点を当てている。 本稿では,事実確認のための文書レベルのクレーム抽出手法を提案する。 具体的には、文書から中心文を識別するために、まずクレーム抽出を抽出要約として再キャストし、文書から必要コンテキストを含むように書き換える。 自動測定とファクトチェックの両専門家による評価は,本手法が従来よりも精度の高い文書からチェック価値のあるクレームを抽出できるとともに,証拠検索の改善を図っていることを示している。

Selecting which claims to check is a time-consuming task for human fact-checkers, especially from documents consisting of multiple sentences and containing multiple claims. However, existing claim extraction approaches focus more on identifying and extracting claims from individual sentences, e.g., identifying whether a sentence contains a claim or the exact boundaries of the claim within a sentence. In this paper, we propose a method for document-level claim extraction for fact-checking, which aims to extract check-worthy claims from documents and decontextualise them so that they can be understood out of context. Specifically, we first recast claim extraction as extractive summarization in order to identify central sentences from documents, then rewrite them to include necessary context from the originating document through sentence decontextualisation. Evaluation with both automatic metrics and a fact-checking professional shows that our method is able to extract check-worthy claims from documents more accurately than previous work, while also improving evidence retrieval.
翻訳日:2024-06-13 21:55:10 公開日:2024-06-12
# オンライン人気を支えているもの:著者、コンテンツ、あるいは共有者?ベイジアンミクチャーホークスによる拡散ダイナミクスの推定

What Drives Online Popularity: Author, Content or Sharers? Estimating Spread Dynamics with Bayesian Mixture Hawkes ( http://arxiv.org/abs/2406.03390v2 )

ライセンス: Link先を確認
Pio Calderon, Marian-Andrei Rizoiu, (参考訳) ソーシャルメディア上のコンテンツの拡散は、ソース、コンテンツそのもの、そしてコンテンツが広がる経路の3つのレベルにおいて、要素を相互に絡み合うことによって形成される。 最低レベルでは、共有ユーザの人気がその最終的なリーチを決定する。 しかし、オンラインアイテムの性質やソースの信頼性といった高レベルの要因も、オンラインアイテムがいかに広く、迅速に拡散するかを決定する上で重要な役割を担っている。 本研究では,Byesian Mixture Hawkes(BMH)モデルを提案する。 我々は、BMHモデルを分離可能なホークス過程の階層的混合モデルとして定式化し、ホークス力学の異なるクラスとこれらのクラスに対する特徴集合の影響を調節する。 2つの学習課題(コールドスタート人気予測と時間プロファイル一般化性能)でBMHモデルをテストし、2つの実世界のリツイートカスケードデータセットに適用した。 BMHモデルは、両方のデータセットで最先端のモデルと予測ベースラインを上回り、代替品よりもカスケードやアイテムレベルの情報を利用する。 最後に、訓練された出版社レベルのBMHモデルを記事の見出しに応用し、見出しの書き方(中性、クリックベイト、炎症)の有効性が出版社によって異なることを示す。 BMHモデルでは、議論の余地のある出版社と議論の余地のある出版社の間で、スタイルの有効性の違いが明らかになっている。

The spread of content on social media is shaped by intertwining factors on three levels: the source, the content itself, and the pathways of content spread. At the lowest level, the popularity of the sharing user determines its eventual reach. However, higher-level factors such as the nature of the online item and the credibility of its source also play crucial roles in determining how widely and rapidly the online item spreads. In this work, we propose the Bayesian Mixture Hawkes (BMH) model to jointly learn the influence of source, content and spread. We formulate the BMH model as a hierarchical mixture model of separable Hawkes processes, accommodating different classes of Hawkes dynamics and the influence of feature sets on these classes. We test the BMH model on two learning tasks, cold-start popularity prediction and temporal profile generalization performance, applying to two real-world retweet cascade datasets referencing articles from controversial and traditional media publishers. The BMH model outperforms the state-of-the-art models and predictive baselines on both datasets and utilizes cascade- and item-level information better than the alternatives. Lastly, we perform a counter-factual analysis where we apply the trained publisher-level BMH models to a set of article headlines and show that effectiveness of headline writing style (neutral, clickbait, inflammatory) varies across publishers. The BMH model unveils differences in style effectiveness between controversial and reputable publishers, where we find clickbait to be notably more effective for reputable publishers as opposed to controversial ones, which links to the latter's overuse of clickbait.
翻訳日:2024-06-13 21:55:10 公開日:2024-06-12
# 支援ベクトルマシンを用いたクラス不均衡学習手法のレビューと実証的評価

Methods for Class-Imbalanced Learning with Support Vector Machines: A Review and an Empirical Evaluation ( http://arxiv.org/abs/2406.03398v2 )

ライセンス: Link先を確認
Salim Rezvani, Farhad Pourpanah, Chee Peng Lim, Q. M. Jonathan Wu, (参考訳) 本稿では,SVM(Support Vector Machine)とその変種を用いたクラス不均衡学習手法についてレビューする。 まず、SVMの構造とその変種を説明し、クラス不均衡データセットを用いて学習におけるそれらの非効率性について議論する。 クラス不均衡学習に関して,SVMに基づくモデルの階層的分類を導入する。 具体的には、SVMベースのモデルを再サンプリング、アルゴリズム、融合法に分類し、各カテゴリの代表モデルの原理について議論する。 さらに、ベンチマーク不均衡データセットを用いて、各カテゴリにおける様々なSVMモデルの性能を比較するための実験的な評価を行った。 この結果から,データ前処理の要求がないため,アルゴリズム手法は時間がかかりにくいが,再サンプリング手法とアルゴリズム手法を併用した融合法は,一般に最善であるが高い計算負荷が伴うことが明らかとなった。 研究ギャップと今後の研究方向性について論じる。

This paper presents a review on methods for class-imbalanced learning with the Support Vector Machine (SVM) and its variants. We first explain the structure of SVM and its variants and discuss their inefficiency in learning with class-imbalanced data sets. We introduce a hierarchical categorization of SVM-based models with respect to class-imbalanced learning. Specifically, we categorize SVM-based models into re-sampling, algorithmic, and fusion methods, and discuss the principles of the representative models in each category. In addition, we conduct a series of empirical evaluations to compare the performances of various representative SVM-based models in each category using benchmark imbalanced data sets, ranging from low to high imbalanced ratios. Our findings reveal that while algorithmic methods are less time-consuming owing to no data pre-processing requirements, fusion methods, which combine both re-sampling and algorithmic approaches, generally perform the best, but with a higher computational load. A discussion on research gaps and future research directions is provided.
翻訳日:2024-06-13 21:55:10 公開日:2024-06-12
# 音声による臨床うつ病スクリーニング : 実証的研究

Speech-based Clinical Depression Screening: An Empirical Study ( http://arxiv.org/abs/2406.03510v2 )

ライセンス: Link先を確認
Yangbin Chen, Chenyang Xu, Chunfeng Liang, Yanbao Tao, Chuan Shi, (参考訳) 本研究では, 精神科面接, チャットボット会話, テキスト読解など, さまざまな相互作用シナリオを対象としたAIによる抑うつスクリーニングにおける音声信号の有用性について検討した。 参加者には、北京大学第6病院の外来から徴発されたうつ病患者や、地域社会のコントロールグループメンバーが含まれており、すべて標準化された診断プロトコルに従って精神科医によって診断されている。 音声と深部音声の特徴を各参加者の分節録音から抽出した。 分類はニューラルネットワークまたはSVMを使用して行われ、最終的な評価はまとめられたクリップ結果によって決定された。 対話シナリオ, 音声処理技術, 特徴型による分析により, 抑うつスクリーニングの重要な指標として音声が確認される。 具体的には、人間とコンピュータの相互作用が臨床面接の有効性と一致し、読解タスクを超越する。 セグメントの長さと量はモデル性能に大きく影響し、ディープ音声の特徴は従来の音響特性よりもかなり優れていた。

This study investigates the utility of speech signals for AI-based depression screening across varied interaction scenarios, including psychiatric interviews, chatbot conversations, and text readings. Participants include depressed patients recruited from the outpatient clinics of Peking University Sixth Hospital and control group members from the community, all diagnosed by psychiatrists following standardized diagnostic protocols. We extracted acoustic and deep speech features from each participant's segmented recordings. Classifications were made using neural networks or SVMs, with aggregated clip outcomes determining final assessments. Our analysis across interaction scenarios, speech processing techniques, and feature types confirms speech as a crucial marker for depression screening. Specifically, human-computer interaction matches clinical interview efficacy, surpassing reading tasks. Segment duration and quantity significantly affect model performance, with deep speech features substantially outperforming traditional acoustic features.
翻訳日:2024-06-13 21:45:26 公開日:2024-06-12
# 困難か違いか?オーディオディープフェイク検出の一般化を理解する

Harder or Different? Understanding Generalization of Audio Deepfake Detection ( http://arxiv.org/abs/2406.03512v3 )

ライセンス: Link先を確認
Nicolas M. Müller, Nicholas Evans, Hemlata Tak, Philip Sperl, Konstantin Böttinger, (参考訳) 最近の研究は、音声のディープフェイク検出における重要な課題を強調している。 これは、テキスト音声(TTS)モデルの品質が継続的に向上していること、すなわち、より新しいDeepFakesは単に'ハード'で検出できるのか? あるいは、あるモデルで生成されたディープフェイクが、別のモデルで生成されたディープフェイクと根本的に異なるからだろうか? ドメイン内テストデータとドメイン外テストデータのパフォーマンスギャップを'ハードネス'と'ディファレンス'コンポーネントに分解することで、この問題に答える。 ASVspoofデータベースを用いて行った実験は、硬さ成分が事実上無視可能であることを示している。 これは現実世界のディープフェイク検出に直接的な意味を持ち、現在支配的な研究トレンドであるモデル容量の増加だけでは、一般化の課題に効果的に対処できないことを強調している。

Recent research has highlighted a key issue in speech deepfake detection: models trained on one set of deepfakes perform poorly on others. The question arises: is this due to the continuously improving quality of Text-to-Speech (TTS) models, i.e., are newer DeepFakes just 'harder' to detect? Or, is it because deepfakes generated with one model are fundamentally different to those generated using another model? We answer this question by decomposing the performance gap between in-domain and out-of-domain test data into 'hardness' and 'difference' components. Experiments performed using ASVspoof databases indicate that the hardness component is practically negligible, with the performance gap being attributed primarily to the difference component. This has direct implications for real-world deepfake detection, highlighting that merely increasing model capacity, the currently-dominant research trend, may not effectively address the generalization challenge.
翻訳日:2024-06-13 21:45:26 公開日:2024-06-12
# 集合型プロンプティング:言語モデルの順序依存問題の解決の可能性

Set-Based Prompting: Provably Solving the Language Model Order Dependency Problem ( http://arxiv.org/abs/2406.06581v2 )

ライセンス: Link先を確認
Reid McIlroy-Young, Katrina Brown, Conlan Olson, Linjun Zhang, Cynthia Dwork, (参考訳) 自己回帰によって長く一貫性のあるテキスト出力を生成できる生成言語モデルの開発は、この新パラダイムの限界を決定するために研究が進められるにつれて、利用の急増とそれに対応する分析の網羅につながっている。 人間とは異なり、これらの「Large Language Models」(LLM)は入力の小さな変化に非常に敏感であり、その振る舞いに不整合をもたらす。 LLMの出力は、セマンティックに同一であるにもかかわらず、サブシーケンスがスワップされたときに大きく変化する(そしてしばしば変化する)。 本稿では,LLMの出力が指定されたサブシーケンスのセットに順序依存しないことを保証する手法であるSet-Based Promptingを提案する。 本手法は, 順序依存を確実に排除し, 再順序化の影響を受けないテキスト生成を可能にするために, トランスフォーマーベースの LLM に適用可能であることを示す。 提案手法の意義を考察した結果,我々の入力が分布から外れているにもかかわらず,期待される精度への影響は小さく,予測値が一意に選択された応答のシャッフルの順序を超えており,実際は著しく小さくなっていることがわかった。 したがって、Set-based Prompting は、完全に訓練されたモデルの 'dropped-in' メソッドとして使用できる。 最後に, 提案手法の成功により, 入力表現の変更により, LLMの性能が向上する可能性が示唆された。

The development of generative language models that can create long and coherent textual outputs via autoregression has lead to a proliferation of uses and a corresponding sweep of analyses as researches work to determine the limitations of this new paradigm. Unlike humans, these 'Large Language Models' (LLMs) are highly sensitive to small changes in their inputs, leading to unwanted inconsistency in their behavior. One problematic inconsistency when LLMs are used to answer multiple-choice questions or analyze multiple inputs is order dependency: the output of an LLM can (and often does) change significantly when sub-sequences are swapped, despite both orderings being semantically identical. In this paper we present Set-Based Prompting, a technique that guarantees the output of an LLM will not have order dependence on a specified set of sub-sequences. We show that this method provably eliminates order dependency, and that it can be applied to any transformer-based LLM to enable text generation that is unaffected by re-orderings. Delving into the implications of our method, we show that, despite our inputs being out of distribution, the impact on expected accuracy is small, where the expectation is over the order of uniformly chosen shuffling of the candidate responses, and usually significantly less in practice. Thus, Set-Based Prompting can be used as a 'dropped-in' method on fully trained models. Finally, we discuss how our method's success suggests that other strong guarantees can be obtained on LLM performance via modifying the input representations.
翻訳日:2024-06-13 21:45:26 公開日:2024-06-12
# LLMは古典的か非単調的か?ジェネリクスから学ぶ

Are LLMs classical or nonmonotonic reasoners? Lessons from generics ( http://arxiv.org/abs/2406.06590v2 )

ライセンス: Link先を確認
Alina Leidinger, Robert van Rooij, Ekaterina Shutova, (参考訳) LLMにおける推論に関する最近の研究は、機械や人間のフィードバックに対する印象的な性能と柔軟な適応の証拠を提供している。 現実世界をナビゲートするために人間の認知に不可欠な非単調な推論は、難しいが未調査の課題である。 本研究では,7つの最先端LCMの非単調な推論能力について,1つの抽象的および1つの常識的推論タスク,例えば「バードフライ」や「ペンギンは飛べない」例外について検討する(図1参照)。 LLMは人間の非単調な推論能力に従って推論パターンを示すが、支持する例("Owls fly")や非関連情報("Lions has manes")の追加によって、ジェネリックスの真理条件に対する安定した信念を維持することができない。 我々の研究は、人間の推論行動のLCMへの寄与と、一般的な能力の評価の落とし穴を浮き彫りにし、一貫した推論はいまだ解明されていない。

Recent scholarship on reasoning in LLMs has supplied evidence of impressive performance and flexible adaptation to machine generated or human feedback. Nonmonotonic reasoning, crucial to human cognition for navigating the real world, remains a challenging, yet understudied task. In this work, we study nonmonotonic reasoning capabilities of seven state-of-the-art LLMs in one abstract and one commonsense reasoning task featuring generics, such as 'Birds fly', and exceptions, 'Penguins don't fly' (see Fig. 1). While LLMs exhibit reasoning patterns in accordance with human nonmonotonic reasoning abilities, they fail to maintain stable beliefs on truth conditions of generics at the addition of supporting examples ('Owls fly') or unrelated information ('Lions have manes'). Our findings highlight pitfalls in attributing human reasoning behaviours to LLMs, as well as assessing general capabilities, while consistent reasoning remains elusive.
翻訳日:2024-06-13 21:45:26 公開日:2024-06-12
# 肺癌検診におけるTNM分類の高度化のための多言語大言語モデルの検討

Exploring Multilingual Large Language Models for Enhanced TNM classification of Radiology Report in lung cancer staging ( http://arxiv.org/abs/2406.06591v2 )

ライセンス: Link先を確認
Hidetoshi Matsuo, Mizuho Nishio, Takaaki Matsunaga, Koji Fujimoto, Takamichi Murakami, (参考訳) 背景: 労働集約的構造と物語的報告により, 構造的放射線学報告は未発達のままである。 ディープラーニング、特にGPT-3.5のような大規模言語モデル(LLM)は、自然言語による放射線学レポートの構造化を自動化することを約束している。 しかし、LLMは英語以外の言語では効果が低いことが報告されているが、そのラジオロジカルな性能は広く研究されていない。 目的: 本研究は, GPT3.5-turbo (GPT3.5) を用いた放射線学報告に基づくTNM分類の精度と日本語と英語の多言語LLMの有用性について検討することを目的とした。 対象と方法:GPT3.5を用いて肺がんの胸部CT検査からTNM分類を自動的に生成し,その性能を評価するシステムを開発した。 一般化線形混合モデルを用いて,両言語で完全あるいは部分的なTNM定義を提供することによる影響を統計的に分析した。 結果: TNM の完全定義と, 英語での放射線学報告(M = 94%, N = 80%, T = 47%, ALL = 36%)により, 高い精度が得られた。 T, N, M の各因子の定義はそれぞれの精度を統計的に改善した(T: odds ratio (OR) = 2.35, p < 0.001; N: OR = 1.94, p < 0.01; M: OR = 2.50, p < 0.001)。 日本人の報告では、NとMの精度が低下した(Nの精度:OR = 0.74、Mの精度:OR = 0.21)。 結論:本研究は,TNM自動分類における多言語LPMの有用性をラジオグラフィーレポートで示している。 追加のモデルトレーニングがなくても、提供されたTNM定義により性能が向上し、放射線学の文脈におけるLLMの関連性が示唆された。

Background: Structured radiology reports remains underdeveloped due to labor-intensive structuring and narrative-style reporting. Deep learning, particularly large language models (LLMs) like GPT-3.5, offers promise in automating the structuring of radiology reports in natural languages. However, although it has been reported that LLMs are less effective in languages other than English, their radiological performance has not been extensively studied. Purpose: This study aimed to investigate the accuracy of TNM classification based on radiology reports using GPT3.5-turbo (GPT3.5) and the utility of multilingual LLMs in both Japanese and English. Material and Methods: Utilizing GPT3.5, we developed a system to automatically generate TNM classifications from chest CT reports for lung cancer and evaluate its performance. We statistically analyzed the impact of providing full or partial TNM definitions in both languages using a Generalized Linear Mixed Model. Results: Highest accuracy was attained with full TNM definitions and radiology reports in English (M = 94%, N = 80%, T = 47%, and ALL = 36%). Providing definitions for each of the T, N, and M factors statistically improved their respective accuracies (T: odds ratio (OR) = 2.35, p < 0.001; N: OR = 1.94, p < 0.01; M: OR = 2.50, p < 0.001). Japanese reports exhibited decreased N and M accuracies (N accuracy: OR = 0.74 and M accuracy: OR = 0.21). Conclusion: This study underscores the potential of multilingual LLMs for automatic TNM classification in radiology reports. Even without additional model training, performance improvements were evident with the provided TNM definitions, indicating LLMs' relevance in radiology contexts.
翻訳日:2024-06-13 21:45:26 公開日:2024-06-12
# 精製言語モデルにおけるトロイの木について

On Trojans in Refined Language Models ( http://arxiv.org/abs/2406.07778v1 )

ライセンス: Link先を確認
Jayaram Raghuram, George Kesidis, David J. Miller, (参考訳) 言語モデルにおけるトロイの木馬は、製品レビューの感情を決定するなど、特定のアプリケーションのためにモデルが洗練されるときに挿入することができる。 本稿では,データ・ポゾン・脅威モデルの多様性を解明し,実証的に検討する。 次に、異なる防御シナリオに対して、2つの単純な防御を経験的に評価する。 最後に、関連する攻撃と防御について簡単な調査を行う。

A Trojan in a language model can be inserted when the model is refined for a particular application such as determining the sentiment of product reviews. In this paper, we clarify and empirically explore variations of the data-poisoning threat model. We then empirically assess two simple defenses each for a different defense scenario. Finally, we provide a brief survey of related attacks and defenses.
翻訳日:2024-06-13 20:46:21 公開日:2024-06-12
# Tokenwise Reward-Guided Text Generation レビュー

A Critical Look At Tokenwise Reward-Guided Text Generation ( http://arxiv.org/abs/2406.07780v1 )

ライセンス: Link先を確認
Ahmad Rashid, Ruotian Wu, Julia Grosse, Agustinus Kristiadi, Pascal Poupart, (参考訳) 大規模言語モデル(LLM)は、人間の好みに合わせることで、大幅に改善することができる。 しかし、LLMを微調整するコストは、多くのユーザにとって禁じられている。 LLM微調整を回避できるため、トークンワイド報酬誘導テキスト生成法(RGTG)が最近提案されている。 彼らは、全シーケンスでトレーニングされた報酬モデルを使用して、トークン単位の復号中に部分的なシーケンスをスコアし、高い報酬を持つシーケンスに向けて生成を操縦する。 しかし、これらの手法はこれまでのところ、ヒューリスティックな動機付けと分析の不十分さに過ぎなかった。 本研究では,完全系列で訓練された報酬モデルが,部分列のスコアリングと互換性がないことを示す。 この問題を緩和するために、部分列上でBradley-Terry報酬モデルを明示的にトレーニングし、復号時に暗黙的にトークンのポリシーから自己回帰的にサンプリングすることを提案する。 我々は、この報酬モデルと暗黙の政策の性質について研究する。 特に、この政策は2つの異なるRLHF政策の比率に比例することを示す。 提案手法は従来のRGTG法よりも優れており,大規模なLCM微調整を伴わず,オフラインの強いベースラインと同じような性能を実現する。

Large language models (LLMs) can significantly be improved by aligning to human preferences -- the so-called reinforcement learning from human feedback (RLHF). However, the cost of fine-tuning an LLM is prohibitive for many users. Due to their ability to bypass LLM finetuning, tokenwise reward-guided text generation (RGTG) methods have recently been proposed. They use a reward model trained on full sequences to score partial sequences during a tokenwise decoding, in a bid to steer the generation towards sequences with high rewards. However, these methods have so far been only heuristically motivated and poorly analyzed. In this work, we show that reward models trained on full sequences are not compatible with scoring partial sequences. To alleviate this issue, we propose to explicitly train a Bradley-Terry reward model on partial sequences, and autoregressively sample from the implied tokenwise policy during decoding time. We study the property of this reward model and the implied policy. In particular, we show that this policy is proportional to the ratio of two distinct RLHF policies. We show that our simple approach outperforms previous RGTG methods and achieves similar performance as strong offline baselines but without large-scale LLM finetuning.
翻訳日:2024-06-13 20:46:21 公開日:2024-06-12
# 変数から精度へ:微分可能なバンドル調整層におけるばらつきの解消と緩和

From Variance to Veracity: Unbundling and Mitigating Gradient Variance in Differentiable Bundle Adjustment Layers ( http://arxiv.org/abs/2406.07785v1 )

ライセンス: Link先を確認
Swaminathan Gurumurthy, Karnik Ram, Bingqing Chen, Zachary Manchester, Zico Kolter, (参考訳) ロボット工学における様々なポーズ推定と追跡問題は、対応推定問題(しばしばディープ・ネットワークを用いて計算される)に分解され、その後、重み付けされた最小二乗最適化問題によって解決される。 近年の研究では、他方の出力に条件付きを反復的に精製することで2つの問題を結合させることで、ドメイン間でSOTA結果が得られることが示されている。 しかし、これらのモデルのトレーニングは困難であることが判明し、トレーニングの安定化とスピードアップに多くのトリックが必要になる。 本研究では,(1)フローロス干渉,(2)バンドル調整(BA)層における線形化誤差,(3)重量勾配のBA残差依存性の3つの原因について,視覚計測問題を例に挙げる。 これらの問題がいかにノイズと高分散勾配をもたらすかを示し、トレーニングや不安定性の低下につながる可能性がある。 次に、内部最適化ループのネットワークによって予測される重みをトレーニング問題における対応対象の重み付けに用いることにより、勾配のばらつきを低減するための単純で効果的な解を提案する。 これにより、トレーニング対象の‘フォーカス’がより重要な点に到達し、分散を減らし、アウトリーチの影響を軽減できます。 提案手法は, より高速なトレーニングを実現するとともに, 性能を犠牲にすることなく, 様々なトレーニング環境において柔軟にトレーニングできることを示す。 特に、修正したベースラインのビジュアル・オドメトリーモデルに対するトレーニング・スピードアップに$2$--2.5\timesを提示します。

Various pose estimation and tracking problems in robotics can be decomposed into a correspondence estimation problem (often computed using a deep network) followed by a weighted least squares optimization problem to solve for the poses. Recent work has shown that coupling the two problems by iteratively refining one conditioned on the other's output yields SOTA results across domains. However, training these models has proved challenging, requiring a litany of tricks to stabilize and speed up training. In this work, we take the visual odometry problem as an example and identify three plausible causes: (1) flow loss interference, (2) linearization errors in the bundle adjustment (BA) layer, and (3) dependence of weight gradients on the BA residual. We show how these issues result in noisy and higher variance gradients, potentially leading to a slow down in training and instabilities. We then propose a simple, yet effective solution to reduce the gradient variance by using the weights predicted by the network in the inner optimization loop to weight the correspondence objective in the training problem. This helps the training objective `focus' on the more important points, thereby reducing the variance and mitigating the influence of outliers. We show that the resulting method leads to faster training and can be more flexibly trained in varying training setups without sacrificing performance. In particular we show $2$--$2.5\times$ training speedups over a baseline visual odometry model we modify.
翻訳日:2024-06-13 20:46:21 公開日:2024-06-12
# 高キー生成効率量子鍵分布のフィールドテスト

Field Test of Quantum Key Distribution with High Key Creation Efficiency ( http://arxiv.org/abs/2406.07786v1 )

ライセンス: Link先を確認
Yung-Cheng Kao, Sheng-Hsuan Huang, Chin-Hsuan Chang, Chih-Hsiang Wu, Shih-Hsien Chu, Jian Jiang, An-Chi Zhang, Sheng-Yao Huang, Jhih-Heng Yan, Kai-Ming Feng, Chih-Sung Chuu, (参考訳) 量子鍵分布(QKD)は通信の無条件セキュリティを約束する。 しかし、QKDにおける測定基準のランダムな選択は、通常、鍵生成効率を低くする。 この欠点は、各光子が適切な波形を持つ多数の時間ビンで準備可能であることを条件として、差位相シフトQKDで克服される。 本研究では,50時間ビンで狭帯域単一光子を生成する小型の1550nm単一光子源を開発し,鍵生成効率をほぼ最適に向上する。 これらの単一光子をフィールド試験で利用することにより, 鍵生成効率97%の差相シフトQKDを実証した。 我々の研究は、QKDが制御可能な波形を持つ狭帯域単一光子の恩恵を受けることを示す。

Quantumkey distribution (QKD) promises unconditional security for communication. However, the random choices of the measurement basis in QKD usually result in low key creation efficiency. This drawback is overcome in the differential-phase-shift QKD, provided that each photon can be prepared in a large number of time bins with a proper waveform. In this work we develop a miniature 1550-nm single-photon source to generate narrowband single photon in 50 time bins with a nearly optimal waveform for achieving unity key creation efficiency. By utilizing these single photons in the field test, we demonstrate the differential-phase-shift QKD with a key creation efficiency of 97%. Our work shows that the practical QKD can benefit from the narrowband single photons with controllable waveforms.
翻訳日:2024-06-13 20:46:21 公開日:2024-06-12
# 階層型ニューラルネットワーク, p-Adic PDEおよび画像処理への応用

Hierarchical Neural Networks, p-Adic PDEs, and Applications to Image Processing ( http://arxiv.org/abs/2406.07790v1 )

ライセンス: Link先を確認
W. A. Zúñiga-Galindo, B. A. Zambrano-Luna, Baboucarr Dibba, (参考訳) 本稿の第一の目的は、遅延を伴う新しいタイプのp-adic反応拡散セルニューラルネットを導入することである。 これらのネットワークの安定性について検討し,その応答の数値シミュレーションを行う。 第2の目標は、p進セルラーニューラルネットワークの現状と、その画像処理への応用のクイックレビューを提供することである。

The first goal of this article is to introduce a new type of p-adic reaction-diffusion cellular neural network with delay. We study the stability of these networks and provide numerical simulations of their responses. The second goal is to provide a quick review of the state of the art of p-adic cellular neural networks and their applications to image processing.
翻訳日:2024-06-13 20:46:21 公開日:2024-06-12
# 審査員の判断:LLMによるペアワイズ比較評価における位置バイアスの体系的調査

Judging the Judges: A Systematic Investigation of Position Bias in Pairwise Comparative Assessments by LLMs ( http://arxiv.org/abs/2406.07791v1 )

ライセンス: Link先を確認
Lin Shi, Weicheng Ma, Soroush Vosoughi, (参考訳) LLM-as-a-Judgeは、様々なタスク、しかし固有のバイアス、特に位置バイアス(特に、プロンプトにおける彼らの位置に基づく回答の体系的な選好)に対する有望な代替手段を提供し、その効果を損なう。 本研究は,反復的整合性,位置整合性,位置整合性などの指標を用いて,位置バイアスを体系的に研究・定量化する枠組みを開発することにより,この問題を考察する。 我々はMTBenchベンチマークとDevBenchベンチマークから22タスクにわたる9つの判断モデルと40近い回答生成モデルを用いて実験を行い、約80,000の評価インスタンスを生成する。 この総合的な評価は、裁判官やタスク間でのバイアスの顕著な変化を明らかにします。 GPT-4は、しばしば位置整合性と公平性に優れるが、よりコスト効率の良いモデルでは、特定のタスクにおいて、整合性、公平性、コストの基本的なトレードオフを強調しながら、比較可能あるいはそれ以上に優れた性能を発揮する。 また, 位置偏差がランダムな変動によるものではないことを確認し, 繰り返しによる判定の整合性を示した。 本研究は,位置バイアスを理解するための新しい概念を導入し,評価のための多次元フレームワークを提供することによって,この分野に大きく貢献する。 これらの洞察は、最適な審査モデルの選択を導き、ベンチマーク設計を強化し、将来の効果的なデバイアスング戦略の研究の基礎を築き、最終的にLLM評価器の信頼性を高めます。

LLM-as-a-Judge offers a promising alternative to human judges across various tasks, yet inherent biases, particularly position bias - a systematic preference for answers based on their position in the prompt - compromise its effectiveness. Our study investigates this issue by developing a framework to systematically study and quantify position bias using metrics such as repetitional consistency, positional consistency, and positional fairness. We conduct experiments with 9 judge models across 22 tasks from the MTBench and DevBench benchmarks and nearly 40 answer-generating models, generating approximately 80,000 evaluation instances. This comprehensive assessment reveals significant variations in bias across judges and tasks. Although GPT-4 often excels in positional consistency and fairness, some more cost-effective models perform comparably or even better in specific tasks, highlighting essential trade-offs between consistency, fairness, and cost. Our results also demonstrate high consistency of judgment across repetitions, confirming that position bias is not due to random variations. This research significantly contributes to the field by introducing new concepts for understanding position bias and providing a multi-dimensional framework for evaluation. These insights guide the selection of optimal judge models, enhance benchmark design, and lay the foundation for future research into effective debiasing strategies, ultimately enhancing the reliability of LLM evaluators.
翻訳日:2024-06-13 20:46:21 公開日:2024-06-12
# 高分解能ビデオ生成のための階層的パッチ拡散モデル

Hierarchical Patch Diffusion Models for High-Resolution Video Generation ( http://arxiv.org/abs/2406.07792v1 )

ライセンス: Link先を確認
Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov, (参考訳) 拡散モデルは画像合成やビデオ合成において顕著な性能を示した。 しかし、それらを高精細な入力にスケールすることは困難であり、拡散パイプラインを複数の独立したコンポーネントに再構成し、スケーラビリティを制限し、下流アプリケーションを複雑化する必要がある。 これにより、トレーニング中に非常に効率が良くなり、高解像度ビデオのエンドツーエンドの最適化がアンロックされる。 PDMを2つの原則で改善する。 まず、パッチ間の一貫性を強制するために、我々はディープ・コンテクスト・フュージョン(Deep context fusion)を開発します。 第2に、トレーニングと推論を高速化するために、より詳細な粗い画像に対して、より多くのネットワーク容量と計算を割り当てる適応計算を提案する。 得られたモデルは、UCF-101$256^2$のクラス条件のビデオ生成において、66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定し、最近の手法を100%以上上回った。 次に,高解像度の6,4 \times 288 \times 512$テキスト・トゥ・ビデオ合成のための3,6\times 64$低解像度ジェネレータから高速に微調整できることを示す。 我々の知る限りでは、私たちのモデルは、このような高解像度で完全にエンドツーエンドでトレーニングされた最初の拡散ベースのアーキテクチャです。 プロジェクトWebページ: https://snap-research.github.io/hpdm.com

Diffusion models have demonstrated remarkable performance in image and video synthesis. However, scaling them to high-resolution inputs is challenging and requires restructuring the diffusion pipeline into multiple independent components, limiting scalability and complicating downstream applications. This makes it very efficient during training and unlocks end-to-end optimization on high-resolution videos. We improve PDMs in two principled ways. First, to enforce consistency between patches, we develop deep context fusion -- an architectural technique that propagates the context information from low-scale to high-scale patches in a hierarchical manner. Second, to accelerate training and inference, we propose adaptive computation, which allocates more network capacity and computation towards coarse image details. The resulting model sets a new state-of-the-art FVD score of 66.32 and Inception Score of 87.68 in class-conditional video generation on UCF-101 $256^2$, surpassing recent methods by more than 100%. Then, we show that it can be rapidly fine-tuned from a base $36\times 64$ low-resolution generator for high-resolution $64 \times 288 \times 512$ text-to-video synthesis. To the best of our knowledge, our model is the first diffusion-based architecture which is trained on such high resolutions entirely end-to-end. Project webpage: https://snap-research.github.io/hpdm.
翻訳日:2024-06-13 20:46:21 公開日:2024-06-12
# 間接要求:間接ユーザ要求をシンセティックに生成することでタスク指向の対話データセットをより自然にする

IndirectRequests: Making Task-Oriented Dialogue Datasets More Natural by Synthetically Generating Indirect User Requests ( http://arxiv.org/abs/2406.07794v1 )

ライセンス: Link先を確認
Amogh Mannekote, Jinseok Nam, Ziming Li, Jian Gao, Kristy Elizabeth Boyer, Bonnie J. Dorr, (参考訳) 既存のタスク指向対話のベンチマークコーパスは、"マシンと対話するマシン"アプローチか、あるいはクラウドワーカーにテンプレートベースの目標記述を提供することによって収集される。 しかしながら、これらの手法は、人々が小さな会話など間接的に自分の好みを伝達する自然な人間の会話と著しく異なる発話をしばしば生み出す。 Indirect User Requests (IURs) と呼ぶ。 このような発話を理解するには、聞き手側でかなりの世界の知識と推論能力が必要である。 本研究は,タスク指向対話システムにおける自然言語理解(NLU)と対話状態追跡(DST)の研究を支援することを目的として,与えられたドメインに対して,現実的で高品質なIURを自動的に生成するLLMベースのパイプラインを提案する。 その結果, GPT-3.5 や GPT-4 のような大型 LLM は高品質な IUR を生成するが, より小型のモデルで同様の品質を実現することは困難である。 IndirectRequestsは、最初のSchema-Guided Dialog(SGD)データセットを超えて進化するIURのデータセットで、NLUとDSTモデルの"野生"のパフォーマンスをテストする上で困難なテストベッドを提供する。

Existing benchmark corpora of task-oriented dialogue are collected either using a "machines talking to machines" approach or by giving template-based goal descriptions to crowdworkers. These methods, however, often produce utterances that are markedly different from natural human conversations in which people often convey their preferences in indirect ways, such as through small talk. We term such utterances as Indirect User Requests (IURs). Understanding such utterances demands considerable world knowledge and reasoning capabilities on the listener's part. Our study introduces an LLM-based pipeline to automatically generate realistic, high-quality IURs for a given domain, with the ultimate goal of supporting research in natural language understanding (NLU) and dialogue state tracking (DST) for task-oriented dialogue systems. Our findings show that while large LLMs such as GPT-3.5 and GPT-4 generate high-quality IURs, achieving similar quality with smaller models is more challenging. We release IndirectRequests, a dataset of IURs that advances beyond the initial Schema-Guided Dialog (SGD) dataset in that it provides a challenging testbed for testing the "in the wild" performance of NLU and DST models.
翻訳日:2024-06-13 20:46:21 公開日:2024-06-12
# 高等教育のためのハラスメントGenAI:人間学習に対する検索支援型チャットボットの影響に関する研究

Harnessing GenAI for Higher Education: A Study of a Retrieval Augmented Generation Chatbot's Impact on Human Learning ( http://arxiv.org/abs/2406.07796v1 )

ライセンス: Link先を確認
Maung Thway, Jose Recatala-Gomez, Fun Siong Lim, Kedar Hippalgaonkar, Leonard W. T. Ng, (参考訳) 生成人工知能(GenAI)と大規模言語モデル(LLM)の出現は、人間の学習を強化するための新たな道を開いた。 本研究は,Singlish- speak Retrieval Augmented Generation (RAG) チャットボットであるLeodar教授を紹介する。 シンガポールの南陽工科大学で展開されたLeodar教授は、AI支援学習の未来を垣間見るとともに、パーソナライズされたガイダンス、24/7の可用性、コンテキストに関連する情報を提供している。 混合手法を用いて,レオダール教授が学生の学習,エンゲージメント,受験準備に及ぼす影響を明らかにし,97.1%の参加者が肯定的な経験を報告した。 これらの発見は、教育におけるAIの役割を定義し、カスタムなGenAIチャットボットの可能性を強調するのに役立つ。 チャットボットの開発、クラス内展開、学習成果の研究の組み合わせは、GenAI教育ツールのベンチマークを提供し、AIと人間の学習の相互作用を再定義するための足掛かりとなる。

The advent of generative artificial intelligence (GenAI) and large language models (LLMs) has opened new avenues for enhancing human learning. This study introduces Professor Leodar, a custom-built, Singlish-speaking Retrieval Augmented Generation (RAG) chatbot designed to enhance educational support for undergraduate engineering students. Deployed at Nanyang Technological University, Singapore, Professor Leodar offers a glimpse into the future of AI-assisted learning, offering personalized guidance, 24/7 availability, and contextually relevant information. Through a mixed-methods approach, we uncover the impact of Professor Leodar on student learning, engagement, and exam preparedness, with 97.1% of participants reporting positive experiences. These findings help define possible roles of AI in education and highlight the potential of custom GenAI chatbots. Our combination of chatbot development, in-class deployment and study of learning outcomes offers a benchmark for GenAI educational tools and serves as stepping stone for redefining the interplay between AI and human learning.
翻訳日:2024-06-13 20:46:21 公開日:2024-06-12
# 個人化フェデレーション学習のためのクラス分布によるクライアントの正規化と集約

Regularizing and Aggregating Clients with Class Distribution for Personalized Federated Learning ( http://arxiv.org/abs/2406.07800v1 )

ライセンス: Link先を確認
Gyuejeong Lee, Daeyoung Choi, (参考訳) パーソナライズド・フェデレーション・ラーニング(PFL)は、さまざまなデータ分散を持つクライアント向けにカスタマイズされたモデルを可能にする。 しかし、既存のPFL法はしばしば高い計算と通信コストを発生させ、実用的応用を制限している。 本稿では,FedAVG(Federated Averaging)をクラス単位で実行し,サーバ上でクラス毎に複数のグローバルモデルを生成する,新しいPFL手法であるcwFedAVGを提案する。 各ローカルモデルは、その推定ローカルクラス分布によって重み付けされたこれらのグローバルモデルを統合する。 その後、各グローバルモデルは、同じ方法を用いた局所モデルと同一となる。 また,クラス分布と重みノルム分布とのユークリッド距離を最小化し,局所クラス分布を推定する精度を高めるために,新たにWDR(Weight Distribution Regularizer)を設計した。 実験結果から,cwFedAVGは既存のPFL法よりも優れていた。 特に、cwFedAVGは概念的には単純だが計算効率が良い。 可視化は、cwFedAVGが各クラス分布のローカルモデル特殊化を可能にし、グローバルモデルがクライアント間でクラス関連情報をキャプチャする方法に関する洞察を提供する。

Personalized federated learning (PFL) enables customized models for clients with varying data distributions. However, existing PFL methods often incur high computational and communication costs, limiting their practical application. This paper proposes a novel PFL method, Class-wise Federated Averaging (cwFedAVG), that performs Federated Averaging (FedAVG) class-wise, creating multiple global models per class on the server. Each local model integrates these global models weighted by its estimated local class distribution, derived from the L2-norms of deep network weights, avoiding privacy violations. Afterward, each global model does the same with local models using the same method. We also newly designed Weight Distribution Regularizer (WDR) to further enhance the accuracy of estimating a local class distribution by minimizing the Euclidean distance between the class distribution and the weight norms' distribution. Experimental results demonstrate that cwFedAVG matches or outperforms several existing PFL methods. Notably, cwFedAVG is conceptually simple yet computationally efficient as it mitigates the need for extensive calculation to collaborate between clients by leveraging shared global models. Visualizations provide insights into how cwFedAVG enables local model specialization on respective class distributions while global models capture class-relevant information across clients.
翻訳日:2024-06-13 20:46:21 公開日:2024-06-12
# PolySpeech:シングルタスクモデルとの競合性のための統一マルチタスク音声モデル探索

PolySpeech: Exploring Unified Multitask Speech Models for Competitiveness with Single-task Models ( http://arxiv.org/abs/2406.07801v1 )

ライセンス: Link先を確認
Runyan Yang, Huibao Yang, Xiqing Zhang, Tiantian Ye, Ying Liu, Yingying Gao, Shilei Zhang, Chao Deng, Junlan Feng, (参考訳) 近年,様々な音声処理タスクを統一モデルに統合する試みが試みられている。 しかし、マルチタスク音声モデルにおける多様なタスクの協調最適化が個々のタスクのパフォーマンスに肯定的な影響を与えることを直接的に証明する以前の研究はほとんどない。 本稿では,音声認識,音声合成,および2つの音声分類タスクをサポートするマルチタスク音声モデルであるPolySpeechを提案する。 PolySpeechはマルチモーダル言語モデルをその中核構造とし、音声入力として意味表現を使用する。 本稿では,PolySpeechにセマンティックな音声埋め込みトークン化と音声再構成手法を導入し,任意の話者に対して高品質な音声を効率よく生成する。 PolySpeechは、シングルタスクモデルと比較して、さまざまなタスク間の競争力を示している。 我々の実験では、マルチタスク最適化はシングルタスクの最適化に匹敵する性能を達成し、特定のタスクに特に有益である。

Recently, there have been attempts to integrate various speech processing tasks into a unified model. However, few previous works directly demonstrated that joint optimization of diverse tasks in multitask speech models has positive influence on the performance of individual tasks. In this paper we present a multitask speech model -- PolySpeech, which supports speech recognition, speech synthesis, and two speech classification tasks. PolySpeech takes multi-modal language model as its core structure and uses semantic representations as speech inputs. We introduce semantic speech embedding tokenization and speech reconstruction methods to PolySpeech, enabling efficient generation of high-quality speech for any given speaker. PolySpeech shows competitiveness across various tasks compared to single-task models. In our experiments, multitask optimization achieves performance comparable to single-task optimization and is especially beneficial for specific tasks.
翻訳日:2024-06-13 20:46:21 公開日:2024-06-12
# EmoSphere-TTS:制御可能な感情テキスト音声のための球形感情ベクトルによる感情スタイルと強度モデリング

EmoSphere-TTS: Emotional Style and Intensity Modeling via Spherical Emotion Vector for Controllable Emotional Text-to-Speech ( http://arxiv.org/abs/2406.07803v1 )

ライセンス: Link先を確認
Deok-Hyeon Cho, Hyung-Seok Oh, Seung-Bin Kim, Sang-Hoon Lee, Seong-Whan Lee, (参考訳) 感情テキスト音声(TTS)の分野での急速な進歩にもかかわらず、近年の研究は主に特定の感情の平均的なスタイルを模倣することに焦点を当てている。 その結果、音声の感情を操作する能力は、いくつかの事前定義されたラベルに制約され、感情のニュアンスなバリエーションを反映する能力が向上した。 本稿では,球面感情ベクトルを用いて表現的感情音声を合成し,合成音声の感情スタイルと強度を制御するEmoSphere-TTSを提案する。 人間のアノテーションがなければ、私たちは、カルト・球面変換を通じて感情の複雑な性質をモデル化するために、覚醒、原子価、支配的な擬似ラベルを使用します。 さらに,マルチアスペクト特性を反映して生成した音声の品質を向上する2つの条件付き対向ネットワークを提案する。 実験結果は,高品質な表現音声で感情のスタイルや強度を制御できるモデル能力を示す。

Despite rapid advances in the field of emotional text-to-speech (TTS), recent studies primarily focus on mimicking the average style of a particular emotion. As a result, the ability to manipulate speech emotion remains constrained to several predefined labels, compromising the ability to reflect the nuanced variations of emotion. In this paper, we propose EmoSphere-TTS, which synthesizes expressive emotional speech by using a spherical emotion vector to control the emotional style and intensity of the synthetic speech. Without any human annotation, we use the arousal, valence, and dominance pseudo-labels to model the complex nature of emotion via a Cartesian-spherical transformation. Furthermore, we propose a dual conditional adversarial network to improve the quality of generated speech by reflecting the multi-aspect characteristics. The experimental results demonstrate the model ability to control emotional style and intensity with high-quality expressive speech.
翻訳日:2024-06-13 20:46:21 公開日:2024-06-12
# 進化的計算と説明可能なAI: 透明なインテリジェントシステムへの道のり

Evolutionary Computation and Explainable AI: A Roadmap to Transparent Intelligent Systems ( http://arxiv.org/abs/2406.07811v1 )

ライセンス: Link先を確認
Ryan Zhou, Jaume Bacardit, Alexander Brownlee, Stefano Cagnoni, Martin Fyvie, Giovanni Iacca, John McCall, Niki van Stein, David Walker, Ting Hu, (参考訳) AIメソッドはアプリケーションの数が増えていますが、そのブラックボックスの性質はしばしば、説明責任と信頼に関する懸念を引き起こしています。 説明可能な人工知能(XAI)の分野は、AIモデルの人間的理解の必要性に応えて現れた。 進化的計算(EC)は、強力な最適化と学習ツールのファミリーであり、XAIに貢献する大きな可能性を秘めている。 本稿では,XAIについて紹介し,機械学習(ML)モデルの説明に現在使われている様々な技術について概説する。 次に、ECがXAIでどのように使用できるかに注目し、ECテクニックを取り入れたXAIアプローチについてレビューする。 さらに、EC自体におけるXAI原則の適用について論じ、これらの原則がECアルゴリズムの動作と結果、これらのアルゴリズムの(自動)構成、およびこれらのアルゴリズムが最適化する根底にある問題状況にどのように光を当てるかを考察する。 最後に、XAIにおけるオープンな課題と、ECを用いたこの分野における今後の研究の機会について論じる。 我々の目的は、ECが現在の説明可能性の問題に対処するのに適していることを実証し、より透明で信頼性の高いMLモデルやECアルゴリズムの開発に寄与するため、これらの手法のさらなる探索を奨励することである。

AI methods are finding an increasing number of applications, but their often black-box nature has raised concerns about accountability and trust. The field of explainable artificial intelligence (XAI) has emerged in response to the need for human understanding of AI models. Evolutionary computation (EC), as a family of powerful optimization and learning tools, has significant potential to contribute to XAI. In this paper, we provide an introduction to XAI and review various techniques in current use for explaining machine learning (ML) models. We then focus on how EC can be used in XAI, and review some XAI approaches which incorporate EC techniques. Additionally, we discuss the application of XAI principles within EC itself, examining how these principles can shed some light on the behavior and outcomes of EC algorithms in general, on the (automatic) configuration of these algorithms, and on the underlying problem landscapes that these algorithms optimize. Finally, we discuss some open challenges in XAI and opportunities for future research in this field using EC. Our aim is to demonstrate that EC is well-suited for addressing current problems in explainability and to encourage further exploration of these methods to contribute to the development of more transparent and trustworthy ML models and EC algorithms.
翻訳日:2024-06-13 20:46:21 公開日:2024-06-12
# 連続的であるか、離散的であるかは、質問のビットである

To be Continuous, or to be Discrete, Those are Bits of Questions ( http://arxiv.org/abs/2406.07812v1 )

ライセンス: Link先を確認
Yiran Wang, Masao Utiyama, (参考訳) 最近では、連続表現と離散表現の中間に位置する新しい表現としてバイナリ表現が提案されている。 連続的な入力ベクトルを置き換えるために使用される場合、かなりの情報保存能力を示す。 本稿では、モデルがバイナリラベルを出力できるようにするために、出力側にさらに導入する可能性について検討する。 ラベル情報とともに出力側の構造情報を保存するために,従来のコントラストハッシュ法を構造化コントラストハッシュとして拡張する。 具体的には、CKYをラベルレベルからビットレベルにアップグレードし、限界確率を持つ新しい類似度関数を定義し、慎重に設計されたインスタンス選択戦略を持つ新しい対照的な損失関数を導入する。 提案モデルでは, 様々な予測課題における競合性能を達成し, 二項表現が深層学習の連続的性質と自然言語の離散的固有性とのギャップを埋める新しい表現であることを示す。

Recently, binary representation has been proposed as a novel representation that lies between continuous and discrete representations. It exhibits considerable information-preserving capability when being used to replace continuous input vectors. In this paper, we investigate the feasibility of further introducing it to the output side, aiming to allow models to output binary labels instead. To preserve the structural information on the output side along with label information, we extend the previous contrastive hashing method as structured contrastive hashing. More specifically, we upgrade CKY from label-level to bit-level, define a new similarity function with span marginal probabilities, and introduce a novel contrastive loss function with a carefully designed instance selection strategy. Our model achieves competitive performance on various structured prediction tasks, and demonstrates that binary representation can be considered a novel representation that further bridges the gap between the continuous nature of deep learning and the discrete intrinsic property of natural languages.
翻訳日:2024-06-13 20:36:36 公開日:2024-06-12
# マルチパラメトリックMRIにおける乳腺腫瘍分節形成に対する配列の組み合わせの影響の評価

Evaluating the Impact of Sequence Combinations on Breast Tumor Segmentation in Multiparametric MRI ( http://arxiv.org/abs/2406.07813v1 )

ライセンス: Link先を確認
Hang Min, Gorane Santamaria Hormaechea, Prabhakar Ramachandran, Jason Dowling, (参考訳) マルチパラメトリックMRI(Multiparametric magnetic resonance imaging)は、乳がんの進行を評価する重要なツールである。 深層学習は乳房MRIにおける腫瘍のセグメンテーションの自動化に応用されているが、mpMRIにおける配列の組み合わせの効果は未解明のままである。 本研究では,T2-weighted (T2w), dynamic contrast-enhanced MRI (DCE-MRI) とdifffusion-weighted Imaging (DWI) の異なる組み合わせが乳房腫瘍セグメント化に及ぼす影響について検討した。 DCEシークエンスを用いたnnU-Netモデルは, 機能腫瘍容積(FTV)セグメンテーションにおいて0.69$\pm$0.18のDice類似係数(DSC)を達成した。 全腫瘍マスク(WTM)セグメンテーションでは、予測されたFTVをDWIとADCマップに追加し、DSCを0.57$\pm$ 0.24から0.60$\pm$ 0.21に改善した。 T2wの追加は大幅な改善には至らなかったが、それでもより標準化された撮像プロトコルの下でさらなる調査が必要である。 本研究は,mpMRIを用いた乳癌治療反応の予測に関する今後の研究の基盤となる。

Multiparametric magnetic resonance imaging (mpMRI) is a key tool for assessing breast cancer progression. Although deep learning has been applied to automate tumor segmentation in breast MRI, the effect of sequence combinations in mpMRI remains under-investigated. This study explores the impact of different combinations of T2-weighted (T2w), dynamic contrast-enhanced MRI (DCE-MRI) and diffusion-weighted imaging (DWI) with apparent diffusion coefficient (ADC) map on breast tumor segmentation using nnU-Net. Evaluated on a multicenter mpMRI dataset, the nnU-Net model using DCE sequences achieved a Dice similarity coefficient (DSC) of 0.69 $\pm$ 0.18 for functional tumor volume (FTV) segmentation. For whole tumor mask (WTM) segmentation, adding the predicted FTV to DWI and ADC map improved the DSC from 0.57 $\pm$ 0.24 to 0.60 $\pm$ 0.21. Adding T2w did not yield significant improvement, which still requires further investigation under a more standardized imaging protocol. This study serves as a foundation for future work on predicting breast cancer treatment response using mpMRI.
翻訳日:2024-06-13 20:36:36 公開日:2024-06-12
# 集団構成型AI: 公開入力による言語モデルの調整

Collective Constitutional AI: Aligning a Language Model with Public Input ( http://arxiv.org/abs/2406.07814v1 )

ライセンス: Link先を確認
Saffron Huang, Divya Siddarth, Liane Lovitt, Thomas I. Liao, Esin Durmus, Alex Tamkin, Deep Ganguli, (参考訳) 言語モデル(LM)開発者は、LMの振る舞いの唯一の決定者であってはならないというコンセンサスが高まり、より広範な人々がそれらに影響を与えるLMシステムの振舞いを集合的に形成できる方法の必要性が生まれている。 このニーズに対処するために、私たちは、ターゲット人口の特定からモデルのトレーニングと評価への原則の導出に至るまで、公共のインプットをLMにソーシングし統合する多段階プロセスであるCCAI(Collective Constitutional AI)を紹介します。 我々は,この手法の現実的な実践性を実演し,LM開発者から確立された原則で訓練されたベースラインモデルに対して,公開入力をまとめて調整した最初のLMを作成した。 CCAI学習モデルでは,ベースラインモデルと比較して9次元の偏りが低く,言語,数学,無用な評価では同等の性能を維持している。 モデルの質的な比較は、モデルがそれぞれの構成に基づいて異なることを示唆している。例えば、論争的なトピックによって刺激された場合、CCAI訓練されたモデルは、拒絶ではなく、正の反応を生成する傾向にある。 これらの結果は,公的な言語モデル開発に向けた,有望かつ有望な道筋を示すものである。

There is growing consensus that language model (LM) developers should not be the sole deciders of LM behavior, creating a need for methods that enable the broader public to collectively shape the behavior of LM systems that affect them. To address this need, we present Collective Constitutional AI (CCAI): a multi-stage process for sourcing and integrating public input into LMs-from identifying a target population to sourcing principles to training and evaluating a model. We demonstrate the real-world practicality of this approach by creating what is, to our knowledge, the first LM fine-tuned with collectively sourced public input and evaluating this model against a baseline model trained with established principles from a LM developer. Our quantitative evaluations demonstrate several benefits of our approach: the CCAI-trained model shows lower bias across nine social dimensions compared to the baseline model, while maintaining equivalent performance on language, math, and helpful-harmless evaluations. Qualitative comparisons of the models suggest that the models differ on the basis of their respective constitutions, e.g., when prompted with contentious topics, the CCAI-trained model tends to generate responses that reframe the matter positively instead of a refusal. These results demonstrate a promising, tractable pathway toward publicly informed development of language models.
翻訳日:2024-06-13 20:36:36 公開日:2024-06-12
# 大規模言語モデルは良い統計学者か?

Are Large Language Models Good Statisticians? ( http://arxiv.org/abs/2406.07815v1 )

ライセンス: Link先を確認
Yizhang Zhu, Shiyin Du, Boyan Li, Yuyu Luo, Nan Tang, (参考訳) 大規模言語モデル(LLM)は、数学、物理学、化学など、様々な科学的なタスクにおいて印象的な能力を示している。 それらの成功にもかかわらず、複雑な統計タスクの処理におけるLLMの有効性は体系的に過小評価されている。 このギャップを埋めるために、統計解析タスク用に設計された新しいベンチマークであるStatQAを導入する。 StatQAは、特殊統計タスクにおけるLLMの習熟度とその適用性評価能力、特に仮説テスト法に適合した11,623の例で構成されている。 GPT-4o のような最先端モデルでさえ,64.83% で最高の性能を示し,改善の余地があることが示唆された。 特に、オープンソースのLLM(e g LLaMA-3)は限られた能力を示すが、それらの微調整されたものは顕著に改善され、すべての文脈内学習法(e g GPT-4o)よりも優れていた。 さらに、我々の比較人間実験では、LLMと人間のエラータイプに顕著なコントラストが示されています。 このばらつきは、LLMと人間の専門知識を組み合わせることで相補的な強みを導き、彼らの協力的な可能性についてさらなる研究を促すことを示唆している。

Large Language Models (LLMs) have demonstrated impressive capabilities across a range of scientific tasks including mathematics, physics, and chemistry. Despite their successes, the effectiveness of LLMs in handling complex statistical tasks remains systematically under-explored. To bridge this gap, we introduce StatQA, a new benchmark designed for statistical analysis tasks. StatQA comprises 11,623 examples tailored to evaluate LLMs' proficiency in specialized statistical tasks and their applicability assessment capabilities, particularly for hypothesis testing methods. We systematically experiment with representative LLMs using various prompting strategies and show that even state-of-the-art models such as GPT-4o achieve a best performance of only 64.83%, indicating significant room for improvement. Notably, while open-source LLMs (e.g. LLaMA-3) show limited capability, those fine-tuned ones exhibit marked improvements, outperforming all in-context learning-based methods (e.g. GPT-4o). Moreover, our comparative human experiments highlight a striking contrast in error types between LLMs and humans: LLMs primarily make applicability errors, whereas humans mostly make statistical task confusion errors. This divergence highlights distinct areas of proficiency and deficiency, suggesting that combining LLM and human expertise could lead to complementary strengths, inviting further investigation into their collaborative potential.
翻訳日:2024-06-13 20:36:36 公開日:2024-06-12
# スポフダイアリゼーション:部分的なスポフダイアリゼーションにおける「スポフダイアリゼーション」

Spoof Diarization: "What Spoofed When" in Partially Spoofed Audio ( http://arxiv.org/abs/2406.07816v1 )

ライセンス: Link先を確認
Lin Zhang, Xin Wang, Erica Cooper, Mireia Diez, Federico Landini, Nicholas Evans, Junichi Yamagishi, (参考訳) 本稿では,部分的スポフ(PS)シナリオにおける新しいタスクとして,スポフダイアリゼーションを定義する。 これは、スプーフ領域の特定だけでなく、異なるスプーフ手法に従ってクラスタ化することを含む、スプーフがいつ何であったかを決定することを目的としている。 スプーフダイアリゼーションにおける先駆的な研究として、タスクの定義、評価指標の確立、ベンチマークモデルの提案、すなわち、カウンタ・コンディション・クラスタリング(3C)モデルを提案する。 このモデルを用いて,まず,3つのラベリング手法を用いてスプーフダイアリゼーションを支援する対策を効果的に訓練する方法を検討する。 次に,スプーフ局所化予測を用いてダイアリゼーション性能を向上する。 本研究は,音声ファイル毎の1つの話者と,多数のスプーフィング手法が考慮されている限られたシナリオにおいても,タスクの複雑さを明らかにした。 私たちのコードはhttps://github.com/nii-yamagishilab/PartialSpoof.comで公開されています。

This paper defines Spoof Diarization as a novel task in the Partial Spoof (PS) scenario. It aims to determine what spoofed when, which includes not only locating spoof regions but also clustering them according to different spoofing methods. As a pioneering study in spoof diarization, we focus on defining the task, establishing evaluation metrics, and proposing a benchmark model, namely the Countermeasure-Condition Clustering (3C) model. Utilizing this model, we first explore how to effectively train countermeasures to support spoof diarization using three labeling schemes. We then utilize spoof localization predictions to enhance the diarization performance. This first study reveals the high complexity of the task, even in restricted scenarios where only a single speaker per audio file and an oracle number of spoofing methods are considered. Our code is available at https://github.com/nii-yamagishilab/PartialSpoof.
翻訳日:2024-06-13 20:36:36 公開日:2024-06-12
# 客観的説明的評価尺度は信頼できるか? : 敵対的分析

Are Objective Explanatory Evaluation metrics Trustworthy? An Adversarial Analysis ( http://arxiv.org/abs/2406.07820v1 )

ライセンス: Link先を確認
Prithwijit Chowdhury, Mohit Prabhushankar, Ghassan AlRegib, Mohamed Deriche, (参考訳) 説明可能なAI(XAI)は、ニューラルネットワークモデルへの信頼性を高めることによって、ディープラーニングの分野に革命をもたらした。 XAIの分野では、ユーザーがこれらのアルゴリズムの内部動作を調べて意思決定プロセスを理解することができる。 XAIの人気が高まったことにより、説明を生み出すための様々な戦略が出現し、これら全ては時折一致しているだけである。 このように、これらのモジュールのどれが特定のシナリオに最適な説明を与えるかを決定するために、いくつかの客観的評価指標が考案された。 論文の目標は2つある。 一 因果文献から必然性・十分性の概念を取り入れて、合理的な説明であるという理論的・数学的基準をすべて満たした、SHAPE(Pixel Elimination)を用いた新しい説明手法を考案する。 (II)SHAPEは,一般的な重要度に基づく視覚的XAI手法の頑健さと信頼性を測定するために使用される因果的指標を騙した逆説であることを示す。 我々の分析によると、SHAPEはこれらのテストでGradCAMやGradCAM++のような一般的な説明手法よりも優れており、RISEに匹敵するものであり、これらの指標の健全性や全体的な評価のために人間の関与の必要性に関する疑問が提起されている。

Explainable AI (XAI) has revolutionized the field of deep learning by empowering users to have more trust in neural network models. The field of XAI allows users to probe the inner workings of these algorithms to elucidate their decision-making processes. The rise in popularity of XAI has led to the advent of different strategies to produce explanations, all of which only occasionally agree. Thus several objective evaluation metrics have been devised to decide which of these modules give the best explanation for specific scenarios. The goal of the paper is twofold: (i) we employ the notions of necessity and sufficiency from causal literature to come up with a novel explanatory technique called SHifted Adversaries using Pixel Elimination(SHAPE) which satisfies all the theoretical and mathematical criteria of being a valid explanation, (ii) we show that SHAPE is, infact, an adversarial explanation that fools causal metrics that are employed to measure the robustness and reliability of popular importance based visual XAI methods. Our analysis shows that SHAPE outperforms popular explanatory techniques like GradCAM and GradCAM++ in these tests and is comparable to RISE, raising questions about the sanity of these metrics and the need for human involvement for an overall better evaluation.
翻訳日:2024-06-13 20:36:36 公開日:2024-06-12
# ジェネリックUI表現のためのテキストの展望

Tell Me What's Next: Textual Foresight for Generic UI Representations ( http://arxiv.org/abs/2406.07822v1 )

ライセンス: Link先を確認
Andrea Burns, Kate Saenko, Bryan A. Plummer, (参考訳) モバイルアプリのユーザインターフェース(UI)にはアクションやテキスト,構造,イメージの内容が豊富で,ユーザコマンドの自動化やコンテンツの要約,ユーザインターフェースのアクセシビリティ評価など,一般的なUI表現の学習に使用することができる。 以前の研究は、局所的またはグローバルなキャプション損失を伴う強力な視覚的表現を学習してきたが、粒度の保持には失敗した。 これに対抗するために,UI画面表現を学習するための新しい事前学習目標であるTextual Foresightを提案する。 Textual Foresightは、現在のUIとローカルアクションを考慮すれば、将来のUI状態のグローバルなテキスト記述を生成する。 生成タスクでは、Textual ForesightでトレーニングされたUIエージェントが、28倍のイメージで2%以上のパフォーマンスを実現しています。 新たに構築したモバイルアプリデータセットであるOpenAppでトレーニングを行い、アプリUI表現学習のための最初の公開データセットを作成しました。 OpenAppは新たなベースラインを可能にし、Textual Foresightは2倍少ないデータにアクセスしながら、平均タスクパフォーマンスを5.7%改善する。

Mobile app user interfaces (UIs) are rich with action, text, structure, and image content that can be utilized to learn generic UI representations for tasks like automating user commands, summarizing content, and evaluating the accessibility of user interfaces. Prior work has learned strong visual representations with local or global captioning losses, but fails to retain both granularities. To combat this, we propose Textual Foresight, a novel pretraining objective for learning UI screen representations. Textual Foresight generates global text descriptions of future UI states given a current UI and local action taken. Our approach requires joint reasoning over elements and entire screens, resulting in improved UI features: on generation tasks, UI agents trained with Textual Foresight outperform state-of-the-art by 2% with 28x fewer images. We train with our newly constructed mobile app dataset, OpenApp, which results in the first public dataset for app UI representation learning. OpenApp enables new baselines, and we find Textual Foresight improves average task performance over them by 5.7% while having access to 2x less data.
翻訳日:2024-06-13 20:36:36 公開日:2024-06-12
# PRoDeliberation: エンドツーエンドの音声言語理解のための並列ロバスト検討

PRoDeliberation: Parallel Robust Deliberation for End-to-End Spoken Language Understanding ( http://arxiv.org/abs/2406.07823v1 )

ライセンス: Link先を確認
Trang Le, Daniel Lazar, Suyoun Kim, Shan Jiang, Duc Le, Adithya Sagar, Aleksandr Livshits, Ahmed Aly, Akshat Shrivastava, (参考訳) Spoken Language Understanding (SLU) は音声アシスタントの重要なコンポーネントであり、タスク実行のための音声を意味解析に変換する。 従来の研究は、Deliberationを用いたSLUモデルの質と堅牢性を改善するためにエンドツーエンドモデルを探索してきたが、これらのモデルは自己回帰的のままであり、より高いレイテンシをもたらす。 本研究では,PRoDeliberationについて紹介する。PRoDeliberationはコネクショニストのテンポラル分類に基づくデコード戦略を利用した新しい手法であり,ロバストな非自己回帰的デリベレーションモデルをトレーニングするための認知的目的である。 PRoDeliberationは,自動回帰モデルよりも2~10倍高速な並列復号化を実現し,自動回帰復号システムにおける自動音声認識(ASR)の誤り書き起こしを補正する能力を維持していることを示す。 さらに, PRoDeliberation が小型の ASR 機器の限界を克服し, システムの各コンポーネントの必要性を解析できることを示す。

Spoken Language Understanding (SLU) is a critical component of voice assistants; it consists of converting speech to semantic parses for task execution. Previous works have explored end-to-end models to improve the quality and robustness of SLU models with Deliberation, however these models have remained autoregressive, resulting in higher latencies. In this work we introduce PRoDeliberation, a novel method leveraging a Connectionist Temporal Classification-based decoding strategy as well as a denoising objective to train robust non-autoregressive deliberation models. We show that PRoDeliberation achieves the latency reduction of parallel decoding (2-10x improvement over autoregressive models) while retaining the ability to correct Automatic Speech Recognition (ASR) mistranscriptions of autoregressive deliberation systems. We further show that the design of the denoising training allows PRoDeliberation to overcome the limitations of small ASR devices, and we provide analysis on the necessity of each component of the system.
翻訳日:2024-06-13 20:36:36 公開日:2024-06-12
# マルチレシーバ検証による効率的なArbitrated Quantum Digital Signature

Efficient Arbitrated Quantum Digital Signature with Multi-Receiver Verification ( http://arxiv.org/abs/2406.07824v1 )

ライセンス: Link先を確認
Siyu Xiong, Bangying Tang, Hui Han, Jinquan Huang, Mingqiang Bai, Fangzhao Li, Wanrong Yu Zhiwen Mo, Bo Liu, (参考訳) 量子デジタルシグネチャは、情報理論上のセキュリティで署名者の身元を認証するために使用され、非フォージェリーおよび非監査サービスを提供している。 従来のマルチレシーバーの量子デジタルシグネチャスキームでは、複雑な実装と重い鍵消費を伴って、常に1対1のシグネチャの転送可能性を必要としている。 本稿では、複数の受信機で同時にシグネチャを検証できる調停量子デジタルシグネチャ方式を提案するが、シグネチャの転送性は維持されている。 提案手法は, 鍵使用量が少なく, 計算複雑性の低い効率的なシグネチャ計算手法として, 1時間一括ハッシュアルゴリズムと1時間パッド暗号方式を用いて, 様々な量子セキュアネットワークに対して簡易に行うことができる。 提案手法は,受信機数とセキュリティパラメータ設定の同じ長さのファイルに署名する場合に,転送可能性を持つ既存のシグネチャスキームに比べて,少なくとも2桁少ないキーを使用することを示す。

Quantum digital signature is used to authenticate the identity of the signer with information theoretical security, while providing non-forgery and non-repudiation services. In traditional multi-receiver quantum digital signature schemes without an arbitrater, the transferability of one-to-one signature is always required to achieve unforgeability, with complicated implementation and heavy key consumption. In this article, we propose an arbitrated quantum digital signature scheme, in which the signature can be verified by multiple receivers simultaneously, and meanwhile, the transferability of the signature is still kept. Our scheme can be simplified performed to various quantum secure networks, due to the proposed efficient signature calculation procedure with low secure key consumption and low computation complexity, by employing one-time universal hashing algorithm and one-time pad encryption scheme. The evaluation results show that our scheme uses at least two orders of magnitude less key than existing signature schemes with transferability when signing files of the same length with the same number of receivers and security parameter settings.
翻訳日:2024-06-13 20:36:36 公開日:2024-06-12
# 多目的強化学習の最大値定式化:理論からモデルフリーアルゴリズムへ

The Max-Min Formulation of Multi-Objective Reinforcement Learning: From Theory to a Model-Free Algorithm ( http://arxiv.org/abs/2406.07826v1 )

ライセンス: Link先を確認
Giseung Park, Woohyeon Byeon, Seongmin Kim, Elad Havakuk, Amir Leshem, Youngchul Sung, (参考訳) 本稿では,複数の最適化目標を持つ実世界の多くの問題に現れる多目的強化学習について考察する。 我々は,複数の目標間の公平性に着目したマックスミンフレームワークを用いてこの問題にアプローチし,マックスミンフレームワークの下で関連する理論と実用的なモデルフリーアルゴリズムを開発する。 開発理論は多目的強化学習の理論的進歩をもたらし,提案アルゴリズムは既存のベースライン法よりも顕著な性能向上を示す。

In this paper, we consider multi-objective reinforcement learning, which arises in many real-world problems with multiple optimization goals. We approach the problem with a max-min framework focusing on fairness among the multiple goals and develop a relevant theory and a practical model-free algorithm under the max-min framework. The developed theory provides a theoretical advance in multi-objective reinforcement learning, and the proposed algorithm demonstrates a notable performance improvement over existing baseline methods.
翻訳日:2024-06-13 20:36:36 公開日:2024-06-12
# 効率的なFew-shot Neural Renderingのための空間加熱平滑化

Spatial Annealing Smoothing for Efficient Few-shot Neural Rendering ( http://arxiv.org/abs/2406.07828v1 )

ライセンス: Link先を確認
Yuru Xiao, Xianming Liu, Deming Zhai, Kui Jiang, Junjun Jiang, Xiangyang Ji, (参考訳) ハイブリッド表現を持つニューラルレージアンス場(NeRF)は、ビュー合成のためのシーンを再構築し、高効率を実現するという印象的な能力を示している。 それでも、オーバーフィッティングの問題により、スパースビューインプットによってパフォーマンスが大幅に低下する。 これらの課題に対処するために様々な正規化戦略が考案されているが、それらはしばしば非効率な仮定に依存するか、ハイブリッドモデルと互換性がない。 効率を保ち、ハイブリッドフレームワーク内でビューをスパースするためにレジリエンスを改善する方法が明らかに必要である。 本稿では,プレフィルタ駆動型ハイブリッド表現アーキテクチャに特化して設計された,Spatial Annealing smoothing regularized NeRF (SANeRF) という,正確で効率的な数発のニューラルレンダリング手法を提案する。 サンプル空間サイズを初期値から指数関数的に削減する。 この手法は、トレーニングフェーズの初期段階の安定化に不可欠であり、その後の詳細改善プロセスの強化に大きく貢献する。 我々の広範な実験により、SANeRFはたった1行のコードを追加するだけで、現在の数ショットのNeRF法と比較して、より優れたレンダリング品質とより高速な再構築速度を提供できることがわかった。 特にSANeRFは、Blenderデータセット上のPSNRにおいてFreeNeRFを0.3dBで上回り、700倍高速な再構築速度を実現している。

Neural Radiance Fields (NeRF) with hybrid representations have shown impressive capabilities in reconstructing scenes for view synthesis, delivering high efficiency. Nonetheless, their performance significantly drops with sparse view inputs, due to the issue of overfitting. While various regularization strategies have been devised to address these challenges, they often depend on inefficient assumptions or are not compatible with hybrid models. There is a clear need for a method that maintains efficiency and improves resilience to sparse views within a hybrid framework. In this paper, we introduce an accurate and efficient few-shot neural rendering method named Spatial Annealing smoothing regularized NeRF (SANeRF), which is specifically designed for a pre-filtering-driven hybrid representation architecture. We implement an exponential reduction of the sample space size from an initially large value. This methodology is crucial for stabilizing the early stages of the training phase and significantly contributes to the enhancement of the subsequent process of detail refinement. Our extensive experiments reveal that, by adding merely one line of code, SANeRF delivers superior rendering quality and much faster reconstruction speed compared to current few-shot NeRF methods. Notably, SANeRF outperforms FreeNeRF by 0.3 dB in PSNR on the Blender dataset, while achieving 700x faster reconstruction speed.
翻訳日:2024-06-13 20:36:36 公開日:2024-06-12
# 量子ハミルトン-ヤコビ理論、スペクトルパス積分およびエクサクソン-WKB

Quantum Hamilton-Jacobi Theory, Spectral Path Integrals and Exact-WKB ( http://arxiv.org/abs/2406.07829v1 )

ライセンス: Link先を確認
Mustafa Türe, Mithat Ünsal, (参考訳) 我々は、ハミルトン・ヤコビ理論の量子バージョンを用いて、量子力学において経路積分を実行する新しい方法を提案する。 古典力学では、ハミルトン・ヤコビ理論は強力な形式主義であるが、その効用は対応原理を超えた量子論では研究されていない。 正準変換により、新しいハミルトニアンを定数あるいは零に設定できるが、ハミルトンの特徴関数における解に関する情報を保持することができる。 量子論におけるこの利点を享受するためには、古典的ハミルトニアンが用いられる定式化を扱う必要がある。 これは一意に位相空間経路積分を指す。 しかし、HJ形式主義の主要な変数は時間ではなくエネルギーである。 したがって、経路積分、スペクトル経路積分、$\tilde Z(E)$ のフーリエ変換を考えることができる。 これは、摂動周期軌道と非摂動周期軌道に対する量子ハミルトンの特徴関数の表現を認め、グッツウィラーの和を一般化する。 これにより、微分方程式の正確な WKB 解析と相補的な、正確な量子化条件の経路積分が導出される。 これらを一般の$\mathbb Z_2$ symmetric multi-well potential problem に適用し、例えば、レベル分割は二重井戸とは異なり、一般的なマルチインスタンス効果である、いくつかの新しいインスタントン効果を指摘する。

We propose a new way to perform path integrals in quantum mechanics by using a quantum version of Hamilton-Jacobi theory. In classical mechanics, Hamilton-Jacobi theory is a powerful formalism, however, its utility is not explored in quantum theory beyond the correspondence principle. The canonical transformation enables one to set the new Hamiltonian to constant or zero, but keeps the information about solution in Hamilton's characteristic function. To benefit from this in quantum theory, one must work with a formulation in which classical Hamiltonian is used. This uniquely points to phase space path integral. However, the main variable in HJ-formalism is energy, not time. Thus, we are led to consider Fourier transform of path integral, spectral path integral, $\tilde Z(E)$. This admits a representation in terms of a quantum Hamilton's characteristic functions for perturbative and non-perturbative periodic orbits, generalizing Gutzwiller's sum. This results in a path integral derivation of exact quantization conditions, complementary to the exact WKB analysis of differential equations. We apply these to generic $\mathbb Z_2$ symmetric multi-well potential problems and point out some new instanton effects, e.g., the level splitting is generically a multi-instanton effect, unlike double-well.
翻訳日:2024-06-13 20:36:36 公開日:2024-06-12
# ALPS:大規模言語モデルのための高度にスパースなワンショットプルーニングの最適化

ALPS: Improved Optimization for Highly Sparse One-Shot Pruning for Large Language Models ( http://arxiv.org/abs/2406.07831v1 )

ライセンス: Link先を確認
Xiang Meng, Kayhan Behdin, Haoyue Wang, Rahul Mazumder, (参考訳) 様々な自然言語処理タスクにおけるLLM(Large Language Models)の印象的なパフォーマンスは、膨大な計算リソースとストレージ要件の犠牲になる。 ワンショットプルーニング技術は、再訓練を必要とせず、余剰重量を除去することで、これらの負担を軽減する手段を提供する。 しかし、LLMの大規模化は、最適化に基づく手法の代わりにヒューリスティックに頼らざるを得ず、潜在的に準最適圧縮をもたらす。 本稿では,演算子分割手法と条件付き共役勾配に基づく後処理ステップを用いて,プルーニング問題に対処する最適化ベースのフレームワークであるALPSを紹介する。 提案手法はベクトル化とGPU並列性を有効利用しながら収束を加速し理論的に保証する新しい手法を取り入れている。 ALPSは、特にスパースモデルにおいて、プルーニング目的とパープレキシティ低減の観点から、最先端の手法を大幅に上回っている。 OPT-30Bモデルでは70%の間隔で、ALPSはWikiTextデータセットにおけるテストの難易度を13%削減し、既存の手法と比較してゼロショットベンチマークのパフォーマンスを19%改善した。

The impressive performance of Large Language Models (LLMs) across various natural language processing tasks comes at the cost of vast computational resources and storage requirements. One-shot pruning techniques offer a way to alleviate these burdens by removing redundant weights without the need for retraining. Yet, the massive scale of LLMs often forces current pruning approaches to rely on heuristics instead of optimization-based techniques, potentially resulting in suboptimal compression. In this paper, we introduce ALPS, an optimization-based framework that tackles the pruning problem using the operator splitting technique and a preconditioned conjugate gradient-based post-processing step. Our approach incorporates novel techniques to accelerate and theoretically guarantee convergence while leveraging vectorization and GPU parallelism for efficiency. ALPS substantially outperforms state-of-the-art methods in terms of the pruning objective and perplexity reduction, particularly for highly sparse models. On the OPT-30B model with 70% sparsity, ALPS achieves a 13% reduction in test perplexity on the WikiText dataset and a 19% improvement in zero-shot benchmark performance compared to existing methods.
翻訳日:2024-06-13 20:36:36 公開日:2024-06-12
# 超高効率3Dセンシングのためのマスク付きオートエンコーダによるLiDARの事前学習

Sense Less, Generate More: Pre-training LiDAR Perception with Masked Autoencoders for Ultra-Efficient 3D Sensing ( http://arxiv.org/abs/2406.07833v1 )

ライセンス: Link先を確認
Sina Tayebati, Theja Tulabandhula, Amit R. Trivedi, (参考訳) 本研究では,環境の広範囲なトレーニングに基づいて予測可能か,あるいは全体の予測精度に制限がある環境の一部を検出するのではなく,その部分を生成する,破壊的かつフラグアルなLiDAR知覚データフローを提案する。 そこで,提案手法は,低消費電力ロボットと自律走行のためのトレーニングデータと,センサによる軽快な動作のためのセンサエネルギーを交換し,その寿命を1回の充電で延長する。 この目的のために提案した生成前訓練戦略であるR-MAE(Radially masked autoencoding)は、オンフィールド操作中にランダムに生成された角状領域のレーザパワーを選択的に活性化制御することにより、典型的なLiDARシステムでも容易に実装できる。 本研究では,R-MAEを用いた事前学習により,従来の手法よりも空間的関係や物体間距離を効果的に把握できることを示す。 したがって,提案手法はセンサエネルギーを削減するだけでなく,予測精度も向上する。 例えば、Waymo、nuScenes、KITTIデータセットに対する広範な評価は、このアプローチがデータセット全体にわたる検出タスクの平均精度改善を5%以上達成し、WaymoやnuScenesからKITTIへのドメイン転送における精度改善を4%以上達成していることを示している。 3Dオブジェクト検出では、KITTIデータセットの適度な難易度でAPの4.37%まで小さなオブジェクト検出を強化する。 90%のラジアルマスクでも、Waymoデータセットのすべてのオブジェクトクラスで、mAP/mAPHのベースラインモデルを最大5.59%上回る。 さらに, nuScenesデータセットでは, mAPおよびNDSの最大3.17%と2.31%の改善が達成され, 単一および融合LiDARカメラの両モードでの有効性が示された。 https://github.com/sinatayebati/Radial_MAE.com

In this work, we propose a disruptively frugal LiDAR perception dataflow that generates rather than senses parts of the environment that are either predictable based on the extensive training of the environment or have limited consequence to the overall prediction accuracy. Therefore, the proposed methodology trades off sensing energy with training data for low-power robotics and autonomous navigation to operate frugally with sensors, extending their lifetime on a single battery charge. Our proposed generative pre-training strategy for this purpose, called as radially masked autoencoding (R-MAE), can also be readily implemented in a typical LiDAR system by selectively activating and controlling the laser power for randomly generated angular regions during on-field operations. Our extensive evaluations show that pre-training with R-MAE enables focusing on the radial segments of the data, thereby capturing spatial relationships and distances between objects more effectively than conventional procedures. Therefore, the proposed methodology not only reduces sensing energy but also improves prediction accuracy. For example, our extensive evaluations on Waymo, nuScenes, and KITTI datasets show that the approach achieves over a 5% average precision improvement in detection tasks across datasets and over a 4% accuracy improvement in transferring domains from Waymo and nuScenes to KITTI. In 3D object detection, it enhances small object detection by up to 4.37% in AP at moderate difficulty levels in the KITTI dataset. Even with 90% radial masking, it surpasses baseline models by up to 5.59% in mAP/mAPH across all object classes in the Waymo dataset. Additionally, our method achieves up to 3.17% and 2.31% improvements in mAP and NDS, respectively, on the nuScenes dataset, demonstrating its effectiveness with both single and fused LiDAR-camera modalities. https://github.com/sinatayebati/Radial_MAE.
翻訳日:2024-06-13 20:36:36 公開日:2024-06-12
# ビジュアル・キネマティック・チェイン予測を用いたスケール・マニピュレーション学習

Scaling Manipulation Learning with Visual Kinematic Chain Prediction ( http://arxiv.org/abs/2406.07837v1 )

ライセンス: Link先を確認
Xinyu Zhang, Yuhan Liu, Haonan Chang, Abdeslam Boularias, (参考訳) 多様なデータセットから汎用モデルを学ぶことは、機械学習において大きな成功を収めた。 しかしながら、ロボット工学では、既存のマルチタスク学習の方法は、通常、単一のロボットとワークスペースに制約されるが、RT-Xのような最近の研究は、様々な環境における異なるアクション空間間のギャップを手動で埋めるために、非自明なアクション正規化手順を必要とする。 本稿では,ロボットのモデルとカメラパラメータから視覚運動連鎖を自動的に取得できるため,手動による調整が不要な,多様な環境におけるロボット学習における準静的動作の高精度かつ普遍的な表現として視覚運動連鎖を提案する。 本稿では,任意の数のカメラ視点をサポートする畳み込みのないアーキテクチャであるVisual Kinematics Transformer (VKT)を提案する。 我々は,Calvin,RLBench,Open-X,および実際のロボット操作タスクにおいて,BC変換器に対するVKTの優れた性能を示す。 ビデオデモはhttps://mlzxy.github.io/visual-kinetic-chain.comで見ることができる。

Learning general-purpose models from diverse datasets has achieved great success in machine learning. In robotics, however, existing methods in multi-task learning are typically constrained to a single robot and workspace, while recent work such as RT-X requires a non-trivial action normalization procedure to manually bridge the gap between different action spaces in diverse environments. In this paper, we propose the visual kinematics chain as a precise and universal representation of quasi-static actions for robot learning over diverse environments, which requires no manual adjustment since the visual kinematic chains can be automatically obtained from the robot's model and camera parameters. We propose the Visual Kinematics Transformer (VKT), a convolution-free architecture that supports an arbitrary number of camera viewpoints, and that is trained with a single objective of forecasting kinematic structures through optimal point-set matching. We demonstrate the superior performance of VKT over BC transformers as a general agent on Calvin, RLBench, Open-X, and real robot manipulation tasks. Video demonstrations can be found at https://mlzxy.github.io/visual-kinetic-chain.
翻訳日:2024-06-13 18:34:46 公開日:2024-06-12
# SynthForge: 制御可能な3次元生成モデルによる高品質顔データセットの合成

SynthForge: Synthesizing High-Quality Face Dataset with Controllable 3D Generative Models ( http://arxiv.org/abs/2406.07840v1 )

ライセンス: Link先を確認
Abhay Rawat, Shubham Dokania, Astitva Srivastava, Shuaib Ahmed, Haiwen Feng, Rahul Tallamraju, (参考訳) 生成モデルの最近の進歩は、フォトリアリスティックデータを制御可能な方法でレンダリングする能力を解き放った。 実際のデータに基づいてトレーニングされたこれらの生成モデルは、従来のグラフィックレンダリングと比較して、ドメインギャップが最小でも無ければ、現実的なサンプルを生成することができる。 しかし、下流タスクのトレーニングにそのようなモデルを用いて生成されたデータの使用は、主に3D一貫性のあるアノテーションが欠如しているため、未調査のままである。 さらに、制御可能な生成モデルは大量のデータから学習され、その潜在空間はしばしば、限られた生成を伴う下流タスクにおいて有意義なサンプル分布を得るには大きすぎる。 これらの課題を克服するために、既存の制御可能な生成モデルから3次元一貫したアノテーションを抽出し、データを下流タスクに役立てる。 本実験は, 生成した合成データのみを用いた最先端モデルに対する競合性能を示し, 下流タスクの解決の可能性を示した。 プロジェクトページ:https://synth-forge.github.io

Recent advancements in generative models have unlocked the capabilities to render photo-realistic data in a controllable fashion. Trained on the real data, these generative models are capable of producing realistic samples with minimal to no domain gap, as compared to the traditional graphics rendering. However, using the data generated using such models for training downstream tasks remains under-explored, mainly due to the lack of 3D consistent annotations. Moreover, controllable generative models are learned from massive data and their latent space is often too vast to obtain meaningful sample distributions for downstream task with limited generation. To overcome these challenges, we extract 3D consistent annotations from an existing controllable generative model, making the data useful for downstream tasks. Our experiments show competitive performance against state-of-the-art models using only generated synthetic data, demonstrating potential for solving downstream tasks. Project page: https://synth-forge.github.io
翻訳日:2024-06-13 18:34:46 公開日:2024-06-12
# マルチモーダル階層型クロスアテンションモデルを用いたオンラインビデオにおけるコミック・ミスチーフのラベル付け

Labeling Comic Mischief Content in Online Videos with a Multimodal Hierarchical-Cross-Attention Model ( http://arxiv.org/abs/2406.07841v1 )

ライセンス: Link先を確認
Elaheh Baharlouei, Mahsa Shafaei, Yigeng Zhang, Hugo Jair Escalante, Thamar Solorio, (参考訳) オンラインメディアにおける疑わしいコンテンツの検出という課題,特に漫画の過ちのサブカテゴリに対処する。 このタイプのコンテンツは、暴力、大人のコンテンツ、または皮肉などの要素とユーモアを組み合わせることで、検出が困難になる。 マルチモーダルなアプローチを採用することは、コミックの悪戯の内容に固有の微妙な詳細を捉えるのに不可欠である。 この問題に対処するために,コミック誤字検出のための新しいエンドツーエンドマルチモーダルシステムを提案する。 このコントリビューションの一環として、ビデオ、テキスト(字幕と字幕)、オーディオの3つのモードからなるターゲットタスクのための新しいデータセットをリリースする。 また,HICCAP(Herarchical Cross-attention model with CAPtions)を設計し,これらのモダリティ間の複雑な関係を捉える。 その結果,提案手法は,マンガの誤り検出とタイプ分類のためのロバストなベースラインと最先端のモデルよりも大幅に改善されていることがわかった。 このことは、ユーザーが目にするオンラインコンテンツについて情報的決定を下すために、ユーザーを力づけるシステムの可能性を強調している。 さらに,UCF101,HMDB51,XD-Violenceのデータセット上で実験を行い,提案手法の諸シナリオにおける優れた性能を示す他の最先端手法との比較を行った。

We address the challenge of detecting questionable content in online media, specifically the subcategory of comic mischief. This type of content combines elements such as violence, adult content, or sarcasm with humor, making it difficult to detect. Employing a multimodal approach is vital to capture the subtle details inherent in comic mischief content. To tackle this problem, we propose a novel end-to-end multimodal system for the task of comic mischief detection. As part of this contribution, we release a novel dataset for the targeted task consisting of three modalities: video, text (video captions and subtitles), and audio. We also design a HIerarchical Cross-attention model with CAPtions (HICCAP) to capture the intricate relationships among these modalities. The results show that the proposed approach makes a significant improvement over robust baselines and state-of-the-art models for comic mischief detection and its type classification. This emphasizes the potential of our system to empower users, to make informed decisions about the online content they choose to see. In addition, we conduct experiments on the UCF101, HMDB51, and XD-Violence datasets, comparing our model against other state-of-the-art approaches showcasing the outstanding performance of our proposed model in various scenarios.
翻訳日:2024-06-13 18:34:46 公開日:2024-06-12
# マルチリンガルASRにおける新しい言語統合のための低ランク適応付きデュアルパイプ

Dual-Pipeline with Low-Rank Adaptation for New Language Integration in Multilingual ASR ( http://arxiv.org/abs/2406.07842v1 )

ライセンス: Link先を確認
Yerbolat Khassanov, Zhipeng Chen, Tianfeng Chen, Tze Yuang Chong, Wei Li, Jun Zhang, Lu Lu, Yuxuan Wang, (参考訳) 本稿では,新しい言語を事前学習した多言語自動音声認識(mASR)システムに統合する際の課題について述べる。 提案手法は低ランク適応 (LoRA) を持つ双対ピペリンを用いる。 既存の言語用と新しい言語用という2つのデータフローパイプラインを維持している。 プライマリパイプラインはmASRの事前訓練されたパラメータを通した標準フローに従い、セカンダリパイプラインはLoRAと別個の出力デコーダモジュールで表される言語固有のパラメータを付加的に利用する。 提案手法は,既存の言語の性能劣化を最小限に抑え,デコーダ選択戦略によって促進される言語に依存しない操作モードを実現する。 FLEURSデータセットから19の新しい言語に事前学習したWhisperモデルを拡張して提案手法の有効性を検証する。

This paper addresses challenges in integrating new languages into a pre-trained multilingual automatic speech recognition (mASR) system, particularly in scenarios where training data for existing languages is limited or unavailable. The proposed method employs a dual-pipeline with low-rank adaptation (LoRA). It maintains two data flow pipelines-one for existing languages and another for new languages. The primary pipeline follows the standard flow through the pre-trained parameters of mASR, while the secondary pipeline additionally utilizes language-specific parameters represented by LoRA and a separate output decoder module. Importantly, the proposed approach minimizes the performance degradation of existing languages and enables a language-agnostic operation mode, facilitated by a decoder selection strategy. We validate the effectiveness of the proposed method by extending the pre-trained Whisper model to 19 new languages from the FLEURS dataset
翻訳日:2024-06-13 18:34:46 公開日:2024-06-12
# インクリメンタルラーニングと自己注意機構がニューラルシステム同定を改善する

Incremental Learning and Self-Attention Mechanisms Improve Neural System Identification ( http://arxiv.org/abs/2406.07843v1 )

ライセンス: Link先を確認
Isaac Lin, Tianye Wang, Shang Gao, Shiming Tang, Tai Sing Lee, (参考訳) 畳み込みニューラルネットワーク(CNN)は、視覚皮質ニューロンの伝達関数をモデル化するための最先端のアプローチであることが示されている。 一次視覚野の皮質ニューロンは、広範囲な水平およびフィードバック接続によって媒介される文脈情報に敏感である。 標準CNNはグローバル空間画像情報を統合して、連続的な畳み込みラウンドと完全に接続された読み出し層という2つのメカニズムを通じて、そのような文脈変調をモデル化することができる。 本稿では,一次視覚野で観測される文脈依存型フレキシブルゲーティング機構に理論的に関係する非局所ネットワークや自己注意機構が,パラメータマッチングCNN上でのニューラル応答予測を2つの重要な指標で改善することを見出した。 各コンテキストメカニズムの相対的寄与を決定するために,ネットワークを分解する。 このことは、局所受容領域の情報は、全体のチューニング曲線をモデル化する上で最も重要であることを示しているが、チューニングピークを特徴づけるためには、周囲の情報は極めて必要である。 本研究は, 自己意識がその後の空間統合畳み込みを漸進的に学習し, 完全に連結された読み出し層の存在によってさらに強化され, 2つの文脈機構が相補的であることを示唆する。 最後に、自己注意を伴う受容場中心のモデルを学ぶ前に、完全に連結された読み出しを漸進的に学習することで、中心的なコントリビューションの観点からより生物学的に現実的なモデルが得られることを発見した。

Convolutional neural networks (CNNs) have been shown to be the state-of-the-art approach for modeling the transfer functions of visual cortical neurons. Cortical neurons in the primary visual cortex are are sensitive to contextual information mediated by extensive horizontal and feedback connections. Standard CNNs can integrate global spatial image information to model such contextual modulation via two mechanisms: successive rounds of convolutions and a fully connected readout layer. In this paper, we find that non-local networks or self-attention (SA) mechanisms, theoretically related to context-dependent flexible gating mechanisms observed in the primary visual cortex, improve neural response predictions over parameter-matched CNNs in two key metrics: tuning curve correlation and tuning peak. We factorize networks to determine the relative contribution of each context mechanism. This reveals that information in the local receptive field is most important for modeling the overall tuning curve, but surround information is critically necessary for characterizing the tuning peak. We find that self-attention can replace subsequent spatial-integration convolutions when learned in an incremental manner, and is further enhanced in the presence of a fully connected readout layer, suggesting that the two context mechanisms are complementary. Finally, we find that learning a receptive-field-centric model with self-attention, before incrementally learning a fully connected readout, yields a more biologically realistic model in terms of center-surround contributions.
翻訳日:2024-06-13 18:34:46 公開日:2024-06-12
# テキスト・画像生成モデルにおける構成問題の理解と緩和

Understanding and Mitigating Compositional Issues in Text-to-Image Generative Models ( http://arxiv.org/abs/2406.07844v1 )

ライセンス: Link先を確認
Arman Zarei, Keivan Rezaei, Samyadeep Basu, Mehrdad Saberi, Mazda Moayeri, Priyatham Kattakinda, Soheil Feizi, (参考訳) 最近のテキストから画像への拡散に基づく生成モデルは、高精細でリアルな画像を生成し、挑戦的な画像生成ベンチマークで最先端の低いFIDスコアを達成することができる。 しかしながら、これらのテキストから画像への生成モデルの主要な失敗モードの1つは、属性、オブジェクト、および関連する関係を正確に画像に合成することである。 本稿では,CLIPテキストエンコーダによる不完全なテキストコンディショニングが,これらのモデルが高忠実な構成シーンを生成できない主な理由の1つであることを示す。 特に私たちが示すのは (i)CLIPテキストエンコーダの出力空間が準最適であることを示す高一貫性な合成シーンを生成できる最適テキスト埋め込み空間が存在する。 (II)CLIPへの最後のトークン埋め込みは、しばしば、合成プロンプトにおける無関係なトークンからの注意貢献を含むため、誤っていることが観察された。 本研究の主目的は,CLIPの表現空間上の単純な線形射影を,構成的画像-テキストペアの小さな集合を用いて行うことにより,(モデルのFIDスコアを損なわずに)最高の構成的改善が達成できることである。 この結果は、CLIPの出力空間のサブ最適性が主要なエラー源であることを証明している。 また,CLIPにおける誤注目度の再重み付けにより構成性能が向上することが示唆された。

Recent text-to-image diffusion-based generative models have the stunning ability to generate highly detailed and photo-realistic images and achieve state-of-the-art low FID scores on challenging image generation benchmarks. However, one of the primary failure modes of these text-to-image generative models is in composing attributes, objects, and their associated relationships accurately into an image. In our paper, we investigate this compositionality-based failure mode and highlight that imperfect text conditioning with CLIP text-encoder is one of the primary reasons behind the inability of these models to generate high-fidelity compositional scenes. In particular, we show that (i) there exists an optimal text-embedding space that can generate highly coherent compositional scenes which shows that the output space of the CLIP text-encoder is sub-optimal, and (ii) we observe that the final token embeddings in CLIP are erroneous as they often include attention contributions from unrelated tokens in compositional prompts. Our main finding shows that the best compositional improvements can be achieved (without harming the model's FID scores) by fine-tuning {\it only} a simple linear projection on CLIP's representation space in Stable-Diffusion variants using a small set of compositional image-text pairs. This result demonstrates that the sub-optimality of the CLIP's output space is a major error source. We also show that re-weighting the erroneous attention contributions in CLIP can also lead to improved compositional performances, however these improvements are often less significant than those achieved by solely learning a linear projection head, highlighting erroneous attentions to be only a minor error source.
翻訳日:2024-06-13 18:34:46 公開日:2024-06-12
# ディープネットワークを用いた多エージェント強化学習

Multi-agent Reinforcement Learning with Deep Networks for Diverse Q-Vectors ( http://arxiv.org/abs/2406.07848v1 )

ライセンス: Link先を確認
Zhenglong Luo, Zhiyong Chen, James Welsh, (参考訳) マルチエージェント強化学習(MARL)は,複雑な環境下での学習を促進する能力から,重要な研究課題となっている。 マルチエージェントタスクでは、状態-作用値(一般にQ-値と呼ばれる)は個々の報酬のためにエージェントによって異なるため、Q-ベクトルとなる。 最適なポリシーを決定することは、単に1つのQ値の最大化以上のことを含むため、難しい。 ナッシュ均衡のような様々な最適政策がこの文脈で研究されている。 Nash Q-learningやNash Actor-Criticといったアルゴリズムは、これらのシナリオで有効性を示している。 本稿では,Max,Nash,Maximinの戦略を用いて,様々なQ-vectorを学習可能なディープQ-networks(DQN)アルゴリズムを提案する。 このアプローチの有効性は、デュアルロボットアームが協力して鍋を持ち上げる環境で実証される。

Multi-agent reinforcement learning (MARL) has become a significant research topic due to its ability to facilitate learning in complex environments. In multi-agent tasks, the state-action value, commonly referred to as the Q-value, can vary among agents because of their individual rewards, resulting in a Q-vector. Determining an optimal policy is challenging, as it involves more than just maximizing a single Q-value. Various optimal policies, such as a Nash equilibrium, have been studied in this context. Algorithms like Nash Q-learning and Nash Actor-Critic have shown effectiveness in these scenarios. This paper extends this research by proposing a deep Q-networks (DQN) algorithm capable of learning various Q-vectors using Max, Nash, and Maximin strategies. The effectiveness of this approach is demonstrated in an environment where dual robotic arms collaborate to lift a pot.
翻訳日:2024-06-13 18:34:46 公開日:2024-06-12
# 不変部分空間を持つ多層ネットワークに対するバイアス補正型合同分光埋め込み:固有ベクトル摂動と推定

Bias-Corrected Joint Spectral Embedding for Multilayer Networks with Invariant Subspace: Entrywise Eigenvector Perturbation and Inference ( http://arxiv.org/abs/2406.07849v1 )

ライセンス: Link先を確認
Fangzheng Xie, (参考訳) 本稿では,新しいバイアス補正結合スペクトル埋め込みアルゴリズムを用いて,異種多重ネットワーク間の不変部分空間を推定する。 提案アルゴリズムは,2乗ネットワーク隣接行列の和の対角偏差を閉形式偏差公式を利用して再帰的に校正し,最新の推定偏差を用いた部分空間推定器を反復的に更新する。 それに対応して,提案アルゴリズムの進数的部分空間推定理論の完全なレシピを確立し,鋭い進数的部分空間摂動境界と進数的固有ベクトル中心極限定理を含む。 これらの結果を利用して、多層確率ブロックモデルにおける正確なコミュニティ検出と、多層混合メンバーシップモデルにおけるメンバーシッププロファイルの等価性の仮説テストという、2つの多重ネットワーク推論問題を解決した。 我々の証明は、ブロックワイド対称なランダム行列に特に適合する繊細な退行解析と、エントリーワイド固有ベクトル中心極限定理の基本的な関心を持つマルティンゲール論に依拠する。

In this paper, we propose to estimate the invariant subspace across heterogeneous multiple networks using a novel bias-corrected joint spectral embedding algorithm. The proposed algorithm recursively calibrates the diagonal bias of the sum of squared network adjacency matrices by leveraging the closed-form bias formula and iteratively updates the subspace estimator using the most recent estimated bias. Correspondingly, we establish a complete recipe for the entrywise subspace estimation theory for the proposed algorithm, including a sharp entrywise subspace perturbation bound and the entrywise eigenvector central limit theorem. Leveraging these results, we settle two multiple network inference problems: the exact community detection in multilayer stochastic block models and the hypothesis testing of the equality of membership profiles in multilayer mixed membership models. Our proof relies on delicate leave-one-out and leave-two-out analyses that are specifically tailored to block-wise symmetric random matrices and a martingale argument that is of fundamental interest for the entrywise eigenvector central limit theorem.
翻訳日:2024-06-13 18:34:46 公開日:2024-06-12
# オープンドメイン対話生成のための動的確率デコード戦略

Dynamic Stochastic Decoding Strategy for Open-Domain Dialogue Generation ( http://arxiv.org/abs/2406.07850v1 )

ライセンス: Link先を確認
Yiwei Li, Fei Mi, Yitong Li, Yasheng Wang, Bin Sun, Shaoxiong Feng, Kan Li, (参考訳) トップkやトップpのような確率的サンプリング戦略は対話生成タスクで広く用いられている。 しかし、オープンドメインチャットシステムとして、チトチャットとナレッジベースの質問応答という2つの異なる会話シナリオが存在する。 前者の状況では、対話における一対多の性質のため、応答の多様性が不可欠である。 一方、確率的復号法では誤った情報を生成するリスクが伴うため、後者ではランダム性が低い。 その結果,これら2つのシナリオを同時に扱うためには,適応的かつ柔軟な復号化戦略が必要である。 そこで本稿では,動的復号化戦略(DDS)を提案する。 DDSでは、シーケンスレベルとトークンレベルのアダプティブ検索の両方を達成でき、統一されたフレームワークでデコードプロセスを調整することができる。 また,適応アルゴリズムはモデル推論時にのみ利用できるだけでなく,モデル学習段階でも適用でき,さらなる性能向上が期待できる。 包括的実験により,提案手法は4つの確率的復号アルゴリズムと組み合わせることで,事前学習した対話モデルの性能を一貫して向上できることが示された。

Stochastic sampling strategies such as top-k and top-p have been widely used in dialogue generation task. However, as an open-domain chatting system, there will be two different conversation scenarios, i.e. chit-chat and knowledge-based question answering. In the former situation, responses diversity is essential due to the one-to-many nature in dialogue. The latter, on the other hand, requires less randomness given that stochastic decoding strategy entails the risk of generating incorrect information. As a result, an adaptive and flexible decoding strategy is needed to cope with these two scenarios simultaneously. To this end, we propose the dynamic decoding strategy (DDS), which can adjust the decoding space w.r.t. different contexts. In DDS, both sequence-level and token-level adaptive search can be achieved to adjust the decoding process in a unified framework. Besides, our adaptive algorithm can not only be used during model inference, but it can also be applied during the model training stage to further enhance the performance. Comprehensive experiments indicate that the proposed decoding strategy can consistently improve the performance of pre-trained dialogue models when coupled with four well-used stochastic decoding algorithms.
翻訳日:2024-06-13 18:34:46 公開日:2024-06-12
# 画像分割品質測定のためのラベル付きアレイ距離計

A Labeled Array Distance Metric for Measuring Image Segmentation Quality ( http://arxiv.org/abs/2406.07851v1 )

ライセンス: Link先を確認
Maryam Berijanian, Katrina Gensterblum, Doruk Alp Mutlu, Katelyn Reagan, Andrew Hart, Dirk Colbry, (参考訳) 本研究は,画像分割アルゴリズムの共通出力であるラベル付き配列を比較するための2つの新しい距離指標を導入する。 画像の各ピクセルにはラベルが割り当てられ、バイナリセグメンテーションは2つのラベル(「地上」と「背景」)のみを提供する。 これらは単純なバイナリ行列で表現でき、ピクセル差を使って比較できる。 しかし、多くのセグメンテーションアルゴリズムはラベル付き配列で複数の領域を出力する。 LADとMADLADという2つの距離測度を提案し、2つのラベル付き画像間の距離を算出する。 これにより、異なる画像分割アルゴリズムの精度を、その出力を「地上真実」ラベル付けに対して測定することで評価することができる。 どちらのメトリクスも、$O(N)$の複雑な画像に対して$N$のピクセルで動作し、異なるラベル付け方法を使用しても、類似のラベル付き配列を素早く識別するように設計されている。 手動でラベル付けされた画像とセグメンテーションアルゴリズムでラベル付けされた画像の比較を行う。 セグメンテーションアルゴリズムとそのハイパーパラメータの空間を遺伝的アルゴリズムで探索し、自動セグメンテーションの最適解を特定する際には、この評価が重要である。 地上の真実からの距離を測定することで、これらの指標はどのアルゴリズムが最も正確なセグメンテーションを提供するかを決定するのに役立ちます。

This work introduces two new distance metrics for comparing labeled arrays, which are common outputs of image segmentation algorithms. Each pixel in an image is assigned a label, with binary segmentation providing only two labels ('foreground' and 'background'). These can be represented by a simple binary matrix and compared using pixel differences. However, many segmentation algorithms output multiple regions in a labeled array. We propose two distance metrics, named LAD and MADLAD, that calculate the distance between two labeled images. By doing so, the accuracy of different image segmentation algorithms can be evaluated by measuring their outputs against a 'ground truth' labeling. Both proposed metrics, operating with a complexity of $O(N)$ for images with $N$ pixels, are designed to quickly identify similar labeled arrays, even when different labeling methods are used. Comparisons are made between images labeled manually and those labeled by segmentation algorithms. This evaluation is crucial when searching through a space of segmentation algorithms and their hyperparameters via a genetic algorithm to identify the optimal solution for automated segmentation, which is the goal in our lab, SEE-Insight. By measuring the distance from the ground truth, these metrics help determine which algorithm provides the most accurate segmentation.
翻訳日:2024-06-13 18:34:46 公開日:2024-06-12
# DiffPop:画像合成のための可塑性誘導物体配置拡散

DiffPop: Plausibility-Guided Object Placement Diffusion for Image Composition ( http://arxiv.org/abs/2406.07852v1 )

ライセンス: Link先を確認
Jiacheng Liu, Hang Zhou, Shida Wei, Rui Ma, (参考訳) 本稿では,現実的な画像合成の課題に対して,プラウチブルな物体配置の問題に対処する。 DiffPopは、複数のオブジェクトと対応するシーンイメージのスケールと空間の関係を学習するために、可視性誘導拡散確率モデルを利用する最初のフレームワークである。 まず,対象の配置パラメータを直接自己監督的に学習するために,非誘導拡散モデルを訓練する。 そこで我々は, 拡散合成画像上での人間のラベル付けを利用して, 構造的可視性分類器を訓練するための弱い監督を提供する, ループ内人間パイプラインを開発した。 さらに、この分類器は、拡散サンプリング過程を、可塑性物体配置の生成に導くためにも用いられる。 実験により,新しいCityscapes-OPデータセットとパブリックOPAデータセットを用いた多種多様な複合画像の作成方法の優位性を検証するとともに,データ拡張や多目的配置タスクなどの応用におけるその可能性を示す。 データセットとコードはリリースされます。

In this paper, we address the problem of plausible object placement for the challenging task of realistic image composition. We propose DiffPop, the first framework that utilizes plausibility-guided denoising diffusion probabilistic model to learn the scale and spatial relations among multiple objects and the corresponding scene image. First, we train an unguided diffusion model to directly learn the object placement parameters in a self-supervised manner. Then, we develop a human-in-the-loop pipeline which exploits human labeling on the diffusion-generated composite images to provide the weak supervision for training a structural plausibility classifier. The classifier is further used to guide the diffusion sampling process towards generating the plausible object placement. Experimental results verify the superiority of our method for producing plausible and diverse composite images on the new Cityscapes-OP dataset and the public OPA dataset, as well as demonstrate its potential in applications such as data augmentation and multi-object placement tasks. Our dataset and code will be released.
翻訳日:2024-06-13 18:34:46 公開日:2024-06-12
# 単調アライメントによるVALL-E Rのロバストかつ効率的なゼロショットテキスト音声合成

VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment ( http://arxiv.org/abs/2406.07855v1 )

ライセンス: Link先を確認
Bing Han, Long Zhou, Shujie Liu, Sanyuan Chen, Lingwei Meng, Yanming Qian, Yanqing Liu, Sheng Zhao, Jinyu Li, Furu Wei, (参考訳) 離散型ニューラルオーディオコーデックの助けを借りて、大規模言語モデル(LLM)は、ゼロショットテキスト音声合成(TTS)のための有望な方法論としてますます認識されている。 しかし、サンプリングに基づく復号化戦略は、驚くべき多様性を生み出すだけでなく、タイポス、省略、反復といった堅牢性の問題を引き起こす。 さらに、高サンプリングレートのオーディオはまた、自己回帰の推論プロセスに膨大な計算オーバーヘッドをもたらす。 これらの問題に対処するために,我々は,VALL-Eの基礎の上に構築された,堅牢で効率的なゼロショットTSシステムであるVALL-E Rを提案する。 具体的には、音素と音響シーケンスの接続を強化するために、音素のモノトニックアライメント戦略を導入し、関連する音素に一致するように音響トークンを拘束することで、より正確なアライメントを確保する。 さらに,低量子化層における離散符号の復号化にコーデックマージ手法を用い,高い品質の音声出力を保ちながら復号速度を高速化する。 これらの戦略に適合して、VALL-E Rは音素に対する制御ラブラリティを取得し、WERに接することで強靭性を示す。 さらに、自動回帰ステップを少なくし、推論中に60%以上の時間を短縮する。 この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。 オーディオサンプルは以下の通りである。

With the help of discrete neural audio codecs, large language models (LLM) have increasingly been recognized as a promising methodology for zero-shot Text-to-Speech (TTS) synthesis. However, sampling based decoding strategies bring astonishing diversity to generation, but also pose robustness issues such as typos, omissions and repetition. In addition, the high sampling rate of audio also brings huge computational overhead to the inference process of autoregression. To address these issues, we propose VALL-E R, a robust and efficient zero-shot TTS system, building upon the foundation of VALL-E. Specifically, we introduce a phoneme monotonic alignment strategy to strengthen the connection between phonemes and acoustic sequence, ensuring a more precise alignment by constraining the acoustic tokens to match their associated phonemes. Furthermore, we employ a codec-merging approach to downsample the discrete codes in shallow quantization layer, thereby accelerating the decoding speed while preserving the high quality of speech output. Benefiting from these strategies, VALL-E R obtains controllablity over phonemes and demonstrates its strong robustness by approaching the WER of ground truth. In addition, it requires fewer autoregressive steps, with over 60% time reduction during inference. This research has the potential to be applied to meaningful projects, including the creation of speech for those affected by aphasia. Audio samples will be available at: https://aka.ms/valler.
翻訳日:2024-06-13 18:34:46 公開日:2024-06-12
# デジタル双生児による強化強化学習型資源管理に向けて--機会・応用・課題

Toward Enhanced Reinforcement Learning-Based Resource Management via Digital Twin: Opportunities, Applications, and Challenges ( http://arxiv.org/abs/2406.07857v1 )

ライセンス: Link先を確認
Nan Cheng, Xiucheng Wang, Zan Li Zhisheng Yin, Tom Luan, Xuemin Shen, (参考訳) 本稿では,ネットワーク資源管理における性能と信頼性の最適化を目的としたデジタルツイン(DT)強化強化学習(RL)フレームワークについて述べる。 以上の課題に対処するため,統合されたRLベースのリソース管理のための収束速度と性能を向上させるため,包括的なDTベースのフレームワークが提案されている。 提案するフレームワークは、安全な行動探索、長期的なリターンのより正確な推定、トレーニング収束の高速化、コンバージェンス性能の向上、様々なネットワーク条件へのリアルタイム適応を提供する。 次に,超信頼性・低遅延通信 (URLLC) サービスと複数の無人航空機 (UAV) ネットワークに関する2つの事例研究を行い,従来のRLとニューラルネットワークに基づくDeep RL (DRL) による性能,収束速度,トレーニングコスト削減の枠組みの改善を実証した。 最後に、この記事は、この急速に発展する分野における研究課題とオープンな問題を特定し、調査する。

This article presents a digital twin (DT)-enhanced reinforcement learning (RL) framework aimed at optimizing performance and reliability in network resource management, since the traditional RL methods face several unified challenges when applied to physical networks, including limited exploration efficiency, slow convergence, poor long-term performance, and safety concerns during the exploration phase. To deal with the above challenges, a comprehensive DT-based framework is proposed to enhance the convergence speed and performance for unified RL-based resource management. The proposed framework provides safe action exploration, more accurate estimates of long-term returns, faster training convergence, higher convergence performance, and real-time adaptation to varying network conditions. Then, two case studies on ultra-reliable and low-latency communication (URLLC) services and multiple unmanned aerial vehicles (UAV) network are presented, demonstrating improvements of the proposed framework in performance, convergence speed, and training cost reduction both on traditional RL and neural network based Deep RL (DRL). Finally, the article identifies and explores some of the research challenges and open issues in this rapidly evolving field.
翻訳日:2024-06-13 18:34:46 公開日:2024-06-12
# BookSQL: 会計ドメイン用の大規模テキスト-SQLデータセット

BookSQL: A Large Scale Text-to-SQL Dataset for Accounting Domain ( http://arxiv.org/abs/2406.07860v1 )

ライセンス: Link先を確認
Rahul Kumar, Amar Raja Dibbu, Shrutendra Harsola, Vignesh Subrahmaniam, Ashutosh Modi, (参考訳) データベースに対する自然言語インターフェースを開発するための大規模なデータセット(WikiSQL、Spiderなど)が最近提案されている。 これらのデータセットは幅広いドメインをカバーするが、財務や会計といったいくつかの重要なドメインでは不足している。 会計データベースは、特に非技術者によって世界中で使用されているため、自然言語クエリを通じて会計データベースから情報を取り出すのに役立つモデルを開発する必要がある。 本稿では,会計・金融分野向けの大規模テキスト・トゥ・SQLデータセットであるBookSQLを提案することで,このギャップを埋めることを目指している。 データセットは1万の自然言語クエリ-SQLペアで構成され、100万レコードのデータベースを会計する。 BookSQL上のText-to-SQLタスクに対して、既存の最先端モデル(GPT-4を含む)を実験、解析する。 私たちは、この領域でより焦点を絞ったモデルを開発することを目指して、大きなパフォーマンスのギャップを見つけました。

Several large-scale datasets (e.g., WikiSQL, Spider) for developing natural language interfaces to databases have recently been proposed. These datasets cover a wide breadth of domains but fall short on some essential domains, such as finance and accounting. Given that accounting databases are used worldwide, particularly by non-technical people, there is an imminent need to develop models that could help extract information from accounting databases via natural language queries. In this resource paper, we aim to fill this gap by proposing a new large-scale Text-to-SQL dataset for the accounting and financial domain: BookSQL. The dataset consists of 100k natural language queries-SQL pairs, and accounting databases of 1 million records. We experiment with and analyze existing state-of-the-art models (including GPT-4) for the Text-to-SQL task on BookSQL. We find significant performance gaps, thus pointing towards developing more focused models for this domain.
翻訳日:2024-06-13 18:34:46 公開日:2024-06-12
# スパイクニューラルネットワークのための時間空間一貫性に基づく自己蒸留学習

Self-Distillation Learning Based on Temporal-Spatial Consistency for Spiking Neural Networks ( http://arxiv.org/abs/2406.07862v1 )

ライセンス: Link先を確認
Lin Zuo, Yongqi Ding, Mengmeng Jing, Kunshan Yang, Yunqian Yu, (参考訳) スパイキングニューラルネットワーク(SNN)は、その事象駆動性、低消費電力特性、高い生物学的解釈性によって大きな注目を集めている。 知識蒸留(KD)にインスパイアされた最近の研究は、事前学習した教師モデルを用いてSNNモデルの性能を改善した。 しかし、追加の教師モデルは重要な計算資源を必要としており、適切な教師ネットワークアーキテクチャを手動で定義するのは面倒である。 本稿では,これらの問題を回避するために,コスト効率の高いSNNの自己蒸留学習について検討する。 明確に定義された教師がいなければ、SNNは擬似ラベルを生成し、トレーニング中に一貫性を学ぶ。 一方で、トレーニング中のSNNのタイムステップを拡張して、オリジナルの『学生』の学習を導く暗黙の時間的『教師』を作成する。 一方,SNNの最終出力,すなわち空間自己蒸留によって中間段階における弱い分類器の出力を導出する。 我々の時間空間自己蒸留(TSSD)学習法は,推論オーバーヘッドを導入せず,優れた一般化能力を有する。 静的画像データセット CIFAR10/100 と ImageNet 、およびニューロモルフィックデータセット CIFAR10-DVS と DVS-Gesture に関する大規模な実験により、TSSD 法の優れた性能が検証された。 本稿では,KDとSNNを融合させる新しい手法を提案し,高性能SNN学習法について考察する。

Spiking neural networks (SNNs) have attracted considerable attention for their event-driven, low-power characteristics and high biological interpretability. Inspired by knowledge distillation (KD), recent research has improved the performance of the SNN model with a pre-trained teacher model. However, additional teacher models require significant computational resources, and it is tedious to manually define the appropriate teacher network architecture. In this paper, we explore cost-effective self-distillation learning of SNNs to circumvent these concerns. Without an explicit defined teacher, the SNN generates pseudo-labels and learns consistency during training. On the one hand, we extend the timestep of the SNN during training to create an implicit temporal ``teacher" that guides the learning of the original ``student", i.e., the temporal self-distillation. On the other hand, we guide the output of the weak classifier at the intermediate stage by the final output of the SNN, i.e., the spatial self-distillation. Our temporal-spatial self-distillation (TSSD) learning method does not introduce any inference overhead and has excellent generalization ability. Extensive experiments on the static image datasets CIFAR10/100 and ImageNet as well as the neuromorphic datasets CIFAR10-DVS and DVS-Gesture validate the superior performance of the TSSD method. This paper presents a novel manner of fusing SNNs with KD, providing insights into high-performance SNN learning methods.
翻訳日:2024-06-13 18:34:46 公開日:2024-06-12
# FaithFill: 単一の参照画像を用いたオブジェクト補完のための忠実なペイント

FaithFill: Faithful Inpainting for Object Completion Using a Single Reference Image ( http://arxiv.org/abs/2406.07865v1 )

ライセンス: Link先を確認
Rupayan Mallick, Amr Abdalla, Sarah Adel Bargal, (参考訳) 本稿では,FithFillについて紹介する。FithFillは拡散型インペイントオブジェクト補完手法で,行方不明なオブジェクト部品を現実的に生成する。 通常、そのような現実的な生成を実現するには複数の参照画像が必要であるが、そうでなければ、生成は形、テクスチャ、色、背景を忠実に保存しない。 本研究では,1つの入力参照画像のみを利用するパイプラインを提案する。 特異参照画像は、塗装対象物の複数のビューを生成するために使用される。 本研究では,FithFillが1つの参照画像から,オブジェクトの欠落部分の忠実な生成と,背景・シーンの保存を両立させることを実証する。 これは、標準的な類似度指標、人間の判断、GPT評価によって示される。 この結果はDreamBoothデータセットと,新たに提案したデータセットで紹介される。

We present FaithFill, a diffusion-based inpainting object completion approach for realistic generation of missing object parts. Typically, multiple reference images are needed to achieve such realistic generation, otherwise the generation would not faithfully preserve shape, texture, color, and background. In this work, we propose a pipeline that utilizes only a single input reference image -having varying lighting, background, object pose, and/or viewpoint. The singular reference image is used to generate multiple views of the object to be inpainted. We demonstrate that FaithFill produces faithful generation of the object's missing parts, together with background/scene preservation, from a single reference image. This is demonstrated through standard similarity metrics, human judgement, and GPT evaluation. Our results are presented on the DreamBooth dataset, and a novel proposed dataset.
翻訳日:2024-06-13 18:25:01 公開日:2024-06-12
# ブラックボックス予測列最適化のための漸近的最適レグレット

Asymptotically Optimal Regret for Black-Box Predict-then-Optimize ( http://arxiv.org/abs/2406.07866v1 )

ライセンス: Link先を確認
Samuel Tan, Peter I. Frazier, (参考訳) 本研究では,(1) 実践者が決定・文脈・報酬の歴史的データに基づいて教師付き学習モデルを訓練し,(2) 得られたモデルを用いて,モデルが予測した報酬を最大化する決定を求めることによって,新たな文脈に対する将来の二項決定を行う,意思決定のための予測・最適化パラダイムを考察する。 このアプローチは業界では一般的です。 過去の分析では、報酬はすべての歴史的文脈に対する全ての行動に対して観察され、特別な構造を持つ問題でのみ可能であると仮定している。 広告ターゲティングとレコメンデーションシステムによる問題に触発され、この特別な構造を欠いたブラックボックス予測を最適化する新たな問題と、取るべき行動からのみ報酬を観察する方法について検討した。 平均二乗誤差のような古典的精度に基づく測定値と比較して、トレーニングで使用する場合の報酬を著しく改善するように設計された、経験的ソフトレグレット(Empirical Soft Regret, ESR)と呼ばれる新しい損失関数を提案する。 この損失関数は、最適下決定を下す際に達成された後悔を対象とし、この後悔は一般的には区別できないため、ニューラルネットワークやその他の勾配に基づくトレーニングに依存する柔軟な機械学習モデルの使用を可能にする、微分可能な「ソフト」後悔項を提案する。 ペアデータの場合, 損失関数の最適化は, 教師付き学習モデルのクラスにおいて漸近的に最適であることを示す。 また,本手法は,文脈的帯域と条件付き平均治療効果推定のベンチマーク手法と比較して,ニュースレコメンデーションやパーソナライズ医療における現実的な意思決定問題に対して,最先端のアルゴリズムよりも有意に優れていることを示す。

We consider the predict-then-optimize paradigm for decision-making in which a practitioner (1) trains a supervised learning model on historical data of decisions, contexts, and rewards, and then (2) uses the resulting model to make future binary decisions for new contexts by finding the decision that maximizes the model's predicted reward. This approach is common in industry. Past analysis assumes that rewards are observed for all actions for all historical contexts, which is possible only in problems with special structure. Motivated by problems from ads targeting and recommender systems, we study new black-box predict-then-optimize problems that lack this special structure and where we only observe the reward from the action taken. We present a novel loss function, which we call Empirical Soft Regret (ESR), designed to significantly improve reward when used in training compared to classical accuracy-based metrics like mean-squared error. This loss function targets the regret achieved when taking a suboptimal decision; because the regret is generally not differentiable, we propose a differentiable "soft" regret term that allows the use of neural networks and other flexible machine learning models dependent on gradient-based training. In the particular case of paired data, we show theoretically that optimizing our loss function yields asymptotically optimal regret within the class of supervised learning models. We also show our approach significantly outperforms state-of-the-art algorithms on real-world decision-making problems in news recommendation and personalized healthcare compared to benchmark methods from contextual bandits and conditional average treatment effect estimation.
翻訳日:2024-06-13 18:25:01 公開日:2024-06-12
# 実話にしよう:対面会話のための音声対話モデル

Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation ( http://arxiv.org/abs/2406.07867v1 )

ライセンス: Link先を確認
Se Jin Park, Chae Won Kim, Hyeongseop Rha, Minsu Kim, Joanna Hong, Jeong Hun Yeo, Yong Man Ro, (参考訳) 本稿では,新しい対面音声対話モデルを提案する。 ユーザ入力から音声-視覚音声を処理し、音声-視覚音声を応答として生成し、中間テキストに頼ることなくアバターチャットボットシステムを構築するための最初のステップを示す。 この目的のために我々は,オープンドメイン対話データセットであるTopicalChatに基づいて,約9000対話の340時間を含む,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを新たに導入した。 マルチダイアログには、与えられたスクリプトに従って行動する会話相手の音声と視覚の同時記録が含まれており、マルチモーダル合成の研究機会が開けることを期待している。 我々の対面音声対話モデルは、テキスト事前学習された大きな言語モデルを導入し、音声-テキスト共同学習を取り入れて音声-視覚対話領域に適応する。 広範にわたる実験を通して, 対面会話の促進におけるモデルの有効性を検証した。 デモとデータはhttps://multidialog.github.ioとhttps://huggingface.co/datasets/IVLLab/MultiDialogで公開されている。

In this paper, we introduce a novel Face-to-Face spoken dialogue model. It processes audio-visual speech from user input and generates audio-visual speech as the response, marking the initial step towards creating an avatar chatbot system without relying on intermediate text. To this end, we newly introduce MultiDialog, the first large-scale multimodal (i.e., audio and visual) spoken dialogue corpus containing 340 hours of approximately 9,000 dialogues, recorded based on the open domain dialogue dataset, TopicalChat. The MultiDialog contains parallel audio-visual recordings of conversation partners acting according to the given script with emotion annotations, which we expect to open up research opportunities in multimodal synthesis. Our Face-to-Face spoken dialogue model incorporates a textually pretrained large language model and adapts it into the audio-visual spoken dialogue domain by incorporating speech-text joint pretraining. Through extensive experiments, we validate the effectiveness of our model in facilitating a face-to-face conversation. Demo and data are available at https://multidialog.github.io and https://huggingface.co/datasets/IVLLab/MultiDialog, respectively.
翻訳日:2024-06-13 18:25:01 公開日:2024-06-12
# ウェーブレットのパワーを解放する:ハイパースペクトル画像分類のためのウェーブレットベースのコルモゴロフ・アルノルドネットワーク

Unveiling the Power of Wavelets: A Wavelet-based Kolmogorov-Arnold Network for Hyperspectral Image Classification ( http://arxiv.org/abs/2406.07869v1 )

ライセンス: Link先を確認
Seyd Teymoor Seydi, (参考訳) ハイパースペクトル画像分類は、ハイパースペクトルデータに固有の高次元および複雑な空間スペクトル相関のため、重要な課題であるが難しい課題である。 本稿では,ウェーブレットをベースとしたKolmogorov-Arnold Network(wav-kan)アーキテクチャを用いて,複雑な依存関係の効率的なモデリングを行う。 コルモゴロフ・アルノルドの表現定理に触発されて、Wav-KANはウェーブレット関数を学習可能な活性化関数として取り入れ、入力されたスペクトルシグネチャの非線形マッピングを可能にする。 ウェーブレットをベースとしたアクティベーションにより、Wav-KANはダイレーションや翻訳を通じて、マルチスケールの空間パターンとスペクトルパターンを効果的にキャプチャできる。 3つのベンチマークハイパースペクトルデータセット(Salinas, Pavia, Indian Pines)の実験的評価は、従来の多層パーセプトロン(MLP)や最近提案されたSpline-based Kan(Spline-KAN)モデルと比較して、Wav-KANの優れた性能を示す。 本研究は,(1)付加的なハイパースペクトルデータセット(パヴィア大学,WHU-Hi,都市ハイパースペクトル画像)を用いて,Wav-KANの一般化可能性のさらなる検証を行うこと,(2)スケール不変な特徴を捉えるためのマルチレゾリューションなWav-KANアーキテクチャを開発すること,(3)次元還元技術が分類性能に与える影響を分析すること,(4)kanモデルのハイパースペクトルのチューニング方法を検討すること,(5)ハイパースペクトル画像分類におけるWav-KANと他の最先端モデルとの比較を行うこと,である。

Hyperspectral image classification is a crucial but challenging task due to the high dimensionality and complex spatial-spectral correlations inherent in hyperspectral data. This paper employs Wavelet-based Kolmogorov-Arnold Network (wav-kan) architecture tailored for efficient modeling of these intricate dependencies. Inspired by the Kolmogorov-Arnold representation theorem, Wav-KAN incorporates wavelet functions as learnable activation functions, enabling non-linear mapping of the input spectral signatures. The wavelet-based activation allows Wav-KAN to effectively capture multi-scale spatial and spectral patterns through dilations and translations. Experimental evaluation on three benchmark hyperspectral datasets (Salinas, Pavia, Indian Pines) demonstrates the superior performance of Wav-KAN compared to traditional multilayer perceptrons (MLPs) and the recently proposed Spline-based KAN (Spline-KAN) model. In this work we are: (1) conducting more experiments on additional hyperspectral datasets (Pavia University, WHU-Hi, and Urban Hyperspectral Image) to further validate the generalizability of Wav-KAN; (2) developing a multiresolution Wav-KAN architecture to capture scale-invariant features; (3) analyzing the effect of dimensional reduction techniques on classification performance; (4) exploring optimization methods for tuning the hyperparameters of KAN models; and (5) comparing Wav-KAN with other state-of-the-art models in hyperspectral image classification.
翻訳日:2024-06-13 18:25:01 公開日:2024-06-12
# スタイル記述プロンプトを用いたフレキシブル・ミュージック・コンディション・ダンス生成

Flexible Music-Conditioned Dance Generation with Style Description Prompts ( http://arxiv.org/abs/2406.07871v1 )

ライセンス: Link先を確認
Hongsong Wang, Yin Zhu, Xin Geng, (参考訳) ダンスは人間の文化において芸術的な形式や表現として重要な役割を担っているが、ダンスの創造は依然として困難な課題である。 ほとんどのダンス生成法は音楽にのみ依存しており、音楽スタイルやジャンルといった本質的な特質を考慮することは滅多にない。 本研究では,音楽スタイルのセマンティクスを完全に活用して,ダンス生成の多角化作業に適した拡散型フレームワークであるFlexible Dance Generation with Style Description Prompts (DGSDP)を紹介する。 このフレームワークの中核となるコンポーネントはMusic-Conditioned Style-Aware Diffusion (MCSAD)であり、TransformerベースのネットワークとMusic Style Modulationモジュールで構成される。 MCSADは、音楽条件とスタイル記述のプロンプトをダンス生成フレームワークに統合し、生成されたダンスが音楽の内容やスタイルと一致していることを保証する。 フレキシブルなダンス生成を容易にし、異なるタスクに対応するために、後方拡散プロセスに空間的マスキング戦略を効果的に適用する。 提案手法は, 長期的生成, ダンス・イン・ベントワイニング, ダンス・イン・ペイントなど, 様々なタスクにおいて, 音楽と正確に整合したリアルなダンス・シーケンスを生成する。 この作品には、エンターテイメント、芸術、教育に有望な応用を期待して、ダンス生成と創造を刺激する可能性があることを願っています。

Dance plays an important role as an artistic form and expression in human culture, yet the creation of dance remains a challenging task. Most dance generation methods primarily rely solely on music, seldom taking into consideration intrinsic attributes such as music style or genre. In this work, we introduce Flexible Dance Generation with Style Description Prompts (DGSDP), a diffusion-based framework suitable for diversified tasks of dance generation by fully leveraging the semantics of music style. The core component of this framework is Music-Conditioned Style-Aware Diffusion (MCSAD), which comprises a Transformer-based network and a music Style Modulation module. The MCSAD seemly integrates music conditions and style description prompts into the dance generation framework, ensuring that generated dances are consistent with the music content and style. To facilitate flexible dance generation and accommodate different tasks, a spatial-temporal masking strategy is effectively applied in the backward diffusion process. The proposed framework successfully generates realistic dance sequences that are accurately aligned with music for a variety of tasks such as long-term generation, dance in-betweening, dance inpainting, and etc. We hope that this work has the potential to inspire dance generation and creation, with promising applications in entertainment, art, and education.
翻訳日:2024-06-13 18:25:01 公開日:2024-06-12
# マルチパスニューラルネットワークによるロバスト3次元顔アライメント

Robust 3D Face Alignment with Multi-Path Neural Architecture Search ( http://arxiv.org/abs/2406.07873v1 )

ライセンス: Link先を確認
Zhichao Jiang, Hongsong Wang, Xi Teng, Baopu Li, (参考訳) 3D顔のアライメントは、コンピュータビジョンにおいて非常に困難で基本的な問題である。 既存のディープラーニングベースの手法は、異なるネットワークを手動で設計し、3次元顔モデルのパラメータや3次元顔頂点の位置を回帰する。 しかし、そのようなネットワークの設計は専門家の知識に依存しており、これらの手法は様々な顔のポーズで一貫した結果を生み出すのに苦労することが多い。 この制限に対処するために、我々はNeural Architecture Search (NAS)を用いて、3D顔アライメントのための最適なアーキテクチャを自動的に発見する。 マルチパスワンショットニューラル・アーキテクチャ・サーチ(MONAS)フレームワークを提案する。 MONASは2つの主要なアルゴリズムからなる: マルチパスネットワーク アンバイアスドサンプリングベーストレーニングとシミュレートされたアニーリングベースのマルチパスワンショット検索。 3つのベンチマーク実験の結果, 細いアライメントと密なアライメントの両方において, MONASの優れた性能を示した。

3D face alignment is a very challenging and fundamental problem in computer vision. Existing deep learning-based methods manually design different networks to regress either parameters of a 3D face model or 3D positions of face vertices. However, designing such networks relies on expert knowledge, and these methods often struggle to produce consistent results across various face poses. To address this limitation, we employ Neural Architecture Search (NAS) to automatically discover the optimal architecture for 3D face alignment. We propose a novel Multi-path One-shot Neural Architecture Search (MONAS) framework that leverages multi-scale features and contextual information to enhance face alignment across various poses. The MONAS comprises two key algorithms: Multi-path Networks Unbiased Sampling Based Training and Simulated Annealing based Multi-path One-shot Search. Experimental results on three popular benchmarks demonstrate the superior performance of the MONAS for both sparse alignment and dense alignment.
翻訳日:2024-06-13 18:25:01 公開日:2024-06-12
# 適応機構設計による炭素市場シミュレーション

Carbon Market Simulation with Adaptive Mechanism Design ( http://arxiv.org/abs/2406.07875v1 )

ライセンス: Link先を確認
Han Wang, Wenhao Li, Hongyuan Zha, Baoxiang Wang, (参考訳) 炭素市場(英: carbon market)は、地球温暖化に対処する二酸化炭素排出量を減らすことで、個々の利益をグローバルなユーティリティーと整合させる経済エージェントにインセンティブを与える、市場ベースのツールである。 \textit{Cap and Trade} は、炭素許容度(炭素排出量クレジット)の割り当てと取引に基づく重要な原則であり、経済エージェントが計画された排出をフォローし、過剰な排出をペナルティ化することを可能にする。 中央の権威は、資本と貿易にこれらの手当を導入し配分する責任を負う。 しかし、炭素市場ダイナミクスの複雑さは正確なシミュレーションを難なくし、結果として効果的なアロケーション戦略の設計を妨げる。 そこで本研究では,階層型モデルフリーマルチエージェント強化学習(MARL)を用いて市場をシミュレートする適応機構設計フレームワークを提案する。 政府エージェントは炭素クレジットを割り当て、企業は経済活動や炭素取引に従事している。 このフレームワークは、エージェントの振る舞いを包括的に説明します。 MARLは、政府エージェントが生産性、平等、二酸化炭素排出のバランスをとることができることを示している。 私たちのプロジェクトは \url{https://github.com/xwanghan/Carbon-Simulator} で利用可能です。

A carbon market is a market-based tool that incentivizes economic agents to align individual profits with the global utility, i.e., reducing carbon emissions to tackle climate change. \textit{Cap and trade} stands as a critical principle based on allocating and trading carbon allowances (carbon emission credit), enabling economic agents to follow planned emissions and penalizing excess emissions. A central authority is responsible for introducing and allocating those allowances in cap and trade. However, the complexity of carbon market dynamics makes accurate simulation intractable, which in turn hinders the design of effective allocation strategies. To address this, we propose an adaptive mechanism design framework, simulating the market using hierarchical, model-free multi-agent reinforcement learning (MARL). Government agents allocate carbon credits, while enterprises engage in economic activities and carbon trading. This framework illustrates agents' behavior comprehensively. Numerical results show MARL enables government agents to balance productivity, equality, and carbon emissions. Our project is available at \url{https://github.com/xwanghan/Carbon-Simulator}.
翻訳日:2024-06-13 18:25:01 公開日:2024-06-12
# 小規模データフリーな知識蒸留

Small Scale Data-Free Knowledge Distillation ( http://arxiv.org/abs/2406.07876v1 )

ライセンス: Link先を確認
He Liu, Yikai Wang, Huaping Liu, Fuchun Sun, Anbang Yao, (参考訳) データフリーな知識蒸留は、大規模な教師ネットワークによって学んだ知識を利用して、元のトレーニングデータにアクセスすることなく、実際のアプリケーションにおけるプライバシ、セキュリティ、プロプライエタリなリスクを避けることなく、より小さな学生ネットワークのトレーニングを強化することができる。 本研究の行では, 既存の手法は, 知識蒸留のための大規模サンプルセットを合成するために, 教師ネットワークの指導により訓練された, 生成的対人ネットワークをオンザフライで構築する, 逆蒸留のパラダイムに従うのが一般的である。 本稿では,この共通データフリーな知識蒸留パラダイムを再検討し,知識蒸留のための「小規模逆データ」のレンズを用いて,総合的な学習効率を向上させる余地があることを述べる。 データインバージョンと蒸留プロセスの両方において, クラス分布の多様性と難易度を両立させることの重要性を示す実験的な3つの観測結果から, 小型データフリーな知識蒸留SSD-KDを提案する。 定式化においてSSD-KDは, 動的リプレイバッファと強化学習戦略により促進される, 合成サンプルと優先サンプリング関数のバランスをとる変調関数を導入し, 適切なサンプルを選択する。 その結果、SSD-KDは、非常に小さな合成サンプル(例えば、元のトレーニングデータスケールより10倍少ない)で蒸留訓練を行うことができ、一般的な画像分類やセマンティックセグメンテーションベンチマークで示されるように、多くの主流手法よりも1~2桁高速な訓練効率が得られる。 コードはhttps://github.com/OSVAI/SSD-KDで公開されている。

Data-free knowledge distillation is able to utilize the knowledge learned by a large teacher network to augment the training of a smaller student network without accessing the original training data, avoiding privacy, security, and proprietary risks in real applications. In this line of research, existing methods typically follow an inversion-and-distillation paradigm in which a generative adversarial network on-the-fly trained with the guidance of the pre-trained teacher network is used to synthesize a large-scale sample set for knowledge distillation. In this paper, we reexamine this common data-free knowledge distillation paradigm, showing that there is considerable room to improve the overall training efficiency through a lens of ``small-scale inverted data for knowledge distillation". In light of three empirical observations indicating the importance of how to balance class distributions in terms of synthetic sample diversity and difficulty during both data inversion and distillation processes, we propose Small Scale Data-free Knowledge Distillation SSD-KD. In formulation, SSD-KD introduces a modulating function to balance synthetic samples and a priority sampling function to select proper samples, facilitated by a dynamic replay buffer and a reinforcement learning strategy. As a result, SSD-KD can perform distillation training conditioned on an extremely small scale of synthetic samples (e.g., 10X less than the original training data scale), making the overall training efficiency one or two orders of magnitude faster than many mainstream methods while retaining superior or competitive model performance, as demonstrated on popular image classification and semantic segmentation benchmarks. The code is available at https://github.com/OSVAI/SSD-KD.
翻訳日:2024-06-13 18:25:01 公開日:2024-06-12
# 高不確実性を有する群集整合のための階層的強化学習

Hierarchical Reinforcement Learning for Swarm Confrontation with High Uncertainty ( http://arxiv.org/abs/2406.07877v1 )

ライセンス: Link先を確認
Qizhen Wu, Kexin Liu, Lei Chen, Jinhu Lv, (参考訳) Swarm Roboticsでは、追跡回避ゲームを含む対決が重要なシナリオである。 未知の相手の戦略や動的な障害によって引き起こされる高い不確実性は、アクション空間をハイブリッド決定プロセスに複雑化する。 この深層強化学習法は,様々なサイズに対応できるため,群集対決において重要であるが,エンド・ツー・エンドの実装ではハイブリッド処理には対応できない。 本稿では,ターゲット配置層,経路計画層,および2つの層間の動的相互作用機構からなる新しい階層型強化学習手法を提案する。 ハイブリッドプロセスを離散的なアロケーション層と連続的な計画層に分離し、確率的アンサンブルモデルを用いて不確実性を定量化し、相互作用周波数を適応的に調節する。 さらに,両層が導入する不安定なトレーニングプロセスを克服するために,事前学習とクロストレーニングを含む統合トレーニング手法を設計し,トレーニング効率と安定性を向上させる。 比較およびアブレーション実験の結果,提案手法の有効性と一般化性能が検証された。

In swarm robotics, confrontation including the pursuit-evasion game is a key scenario. High uncertainty caused by unknown opponents' strategies and dynamic obstacles complicates the action space into a hybrid decision process. Although the deep reinforcement learning method is significant for swarm confrontation since it can handle various sizes, as an end-to-end implementation, it cannot deal with the hybrid process. Here, we propose a novel hierarchical reinforcement learning approach consisting of a target allocation layer, a path planning layer, and the underlying dynamic interaction mechanism between the two layers, which indicates the quantified uncertainty. It decouples the hybrid process into discrete allocation and continuous planning layers, with a probabilistic ensemble model to quantify the uncertainty and regulate the interaction frequency adaptively. Furthermore, to overcome the unstable training process introduced by the two layers, we design an integration training method including pre-training and cross-training, which enhances the training efficiency and stability. Experiment results in both comparison and ablation studies validate the effectiveness and generalization performance of our proposed approach.
翻訳日:2024-06-13 18:25:01 公開日:2024-06-12
# KernelWarehouse: 動的畳み込みの設計を再考

KernelWarehouse: Rethinking the Design of Dynamic Convolution ( http://arxiv.org/abs/2406.07879v1 )

ライセンス: Link先を確認
Chao Li, Anbang Yao, (参考訳) 動的畳み込みは、入力依存の注意を重み付けしたn個の静的カーネルの線形混合を学習し、通常の畳み込みよりも優れた性能を示す。 しかし、畳み込みパラメータの数をn回増加させるため、パラメータ効率は良くない。 これにより、研究者はパラメータ効率を楽しみながら動的畳み込みの性能境界を前進させるため、n>100(典型的なn<10よりも桁違い大きい)の設定を探索できる研究の進展は得られない。 このギャップを埋めるために、我々はより一般的な動的畳み込み形式であるKernelWarehouseを提案し、同じ層内および隣接するConvNet層間での畳み込みパラメータ依存性を利用するレンズを通して、‘カーネル’や‘アセンブルカーネル’、‘アテンション関数’といった基本的な概念を再定義する。 我々は、さまざまなConvNetアーキテクチャを用いて、ImageNetおよびMS-COCOデータセットにおけるKernelWarehouseの有効性を検証した。 興味深いことに、KernelWarehouseはVision Transformersにも適用でき、モデル精度を改善しながらバックボーンのモデルサイズを削減できる。 例えば、KernelWarehouse (n=4)はResNet18|MobileNetV2|DeiT-Tinyのバックボーンで5.61%|3.90%|4.38%の絶対トップ1精度を達成し、65.10%のモデルサイズ縮小のKernelWarehouse (n=1/4)はResNet18のバックボーンで2.29%のアップを達成した。 コードとモデルはhttps://github.com/OSVAI/KernelWarehouse.comで公開されている。

Dynamic convolution learns a linear mixture of n static kernels weighted with their input-dependent attentions, demonstrating superior performance than normal convolution. However, it increases the number of convolutional parameters by n times, and thus is not parameter efficient. This leads to no research progress that can allow researchers to explore the setting n>100 (an order of magnitude larger than the typical setting n<10) for pushing forward the performance boundary of dynamic convolution while enjoying parameter efficiency. To fill this gap, in this paper, we propose KernelWarehouse, a more general form of dynamic convolution, which redefines the basic concepts of ``kernels", ``assembling kernels" and ``attention function" through the lens of exploiting convolutional parameter dependencies within the same layer and across neighboring layers of a ConvNet. We testify the effectiveness of KernelWarehouse on ImageNet and MS-COCO datasets using various ConvNet architectures. Intriguingly, KernelWarehouse is also applicable to Vision Transformers, and it can even reduce the model size of a backbone while improving the model accuracy. For instance, KernelWarehouse (n=4) achieves 5.61%|3.90%|4.38% absolute top-1 accuracy gain on the ResNet18|MobileNetV2|DeiT-Tiny backbone, and KernelWarehouse (n=1/4) with 65.10% model size reduction still achieves 2.29% gain on the ResNet18 backbone. The code and models are available at https://github.com/OSVAI/KernelWarehouse.
翻訳日:2024-06-13 18:25:01 公開日:2024-06-12
# 機械学習による材料欠陥検出に関する包括的調査--課題,解決策,今後の展望

A Comprehensive Survey on Machine Learning Driven Material Defect Detection: Challenges, Solutions, and Future Prospects ( http://arxiv.org/abs/2406.07880v1 )

ライセンス: Link先を確認
Jun Bai, Di Wu, Tristan Shelley, Peter Schubel, David Twine, John Russell, Xuesen Zeng, Ji Zhang, (参考訳) 材料欠陥(MD)は、製品性能に影響を及ぼし、関連する製品における安全性の問題を引き起こす主要な課題である。 MDの迅速かつ正確な同定と局在化は、MDに関連する現代の課題に対処する上で重要な研究課題である。 超音波やX線などの従来の非破壊検査手法は、手動検査の低効率に関する問題を緩和しているが、高精度、リアルタイムの速度、自動化、知性といった多様な要件を満たすのに苦労している。 近年、機械学習(ML)技術の急速な進歩、特にディープラーニングによる実証によって推進され、MLはコア技術として急速に発展し、材料欠陥検出(MDD)の顕著な研究方向となっている。 最新の文献の総合的なレビューを通じて,MDDに適用されたMLテクニックを,教師なし学習,教師なし学習,半教師付き学習,強化学習,生成学習の5つのカテゴリに分類した。 我々は、これらの技術に関連する利点と潜在的な課題とともに、使用する主要な原則とテクニックを詳細に分析する。 さらに, 航空機, 自動車, 建設, 再生可能エネルギーなど, 様々な産業に広く応用される材料として重要な材料である複合材料における欠陥検出技術に注目した。 最後に,ML技術を活用したMDDの今後の方向性について検討する。 この総合的な調査は、MLベースのMDD技術に関する既存の文献を集約するだけでなく、将来の研究者や工業従事者にも基礎的な参考として役立ち、高度で効率的なMDDシステムの開発において貴重な洞察とガイダンスを提供する。

Material defects (MD) represent a primary challenge affecting product performance and giving rise to safety issues in related products. The rapid and accurate identification and localization of MD constitute crucial research endeavours in addressing contemporary challenges associated with MD. Although conventional non-destructive testing methods such as ultrasonic and X-ray approaches have mitigated issues related to low efficiency in manual inspections, they struggle to meet the diverse requirements of high precision, real-time speed, automation, and intelligence. In recent years, propelled by the swift advancement of machine learning (ML) technologies, particularly exemplified by deep learning, ML has swiftly emerged as the core technology and a prominent research direction for material defect detection (MDD). Through a comprehensive review of the latest literature, we systematically survey the ML techniques applied in MDD into five categories: unsupervised learning, supervised learning, semi-supervised learning, reinforcement learning, and generative learning. We provide a detailed analysis of the main principles and techniques used, together with the advantages and potential challenges associated with these techniques. Furthermore, the survey focuses on the techniques for defect detection in composite materials, which are important types of materials enjoying increasingly wide application in various industries such as aerospace, automotive, construction, and renewable energy. Finally, the survey explores potential future directions in MDD utilizing ML technologies. This comprehensive survey not only consolidates existing literature on ML-based MDD technologies but also serves as a foundational reference for future researchers and industrial practitioners, providing valuable insights and guidance in developing advanced and efficient MDD systems.
翻訳日:2024-06-13 18:25:01 公開日:2024-06-12
# 対話型AIの透明性と制御のためのダッシュボードの設計

Designing a Dashboard for Transparency and Control of Conversational AI ( http://arxiv.org/abs/2406.07882v1 )

ライセンス: Link先を確認
Yida Chen, Aoyu Wu, Trevor DePodesta, Catherine Yeh, Kenneth Li, Nicholas Castillo Marin, Oam Patel, Jan Riecke, Shivam Raval, Olivia Seow, Martin Wattenberg, Fernanda Viégas, (参考訳) 会話型LLMはブラックボックスシステムとして機能し、ユーザがなぜ出力を見るのかを推測する。 この透明性の欠如は、特に偏見と真実性に関する懸念から、潜在的に問題となる可能性がある。 この問題に対処するため,チャットボットをより透明なものにしようと試みるユーザエクスペリエンス設計を伴う,エンドツーエンドのプロトタイプ・ツー・エンドの解釈可能性技術を提案する。 システムの内部状態を調べることで、ユーザの年齢、性別、教育水準、社会経済状態に関するデータを抽出することができる。 次に、チャットボットインタフェースに付随するダッシュボードの設計について述べ、このユーザモデルをリアルタイムで表示する。 ダッシュボードは、ユーザモデルとシステムの振る舞いを制御するためにも使用できる。 最後に、ユーザが計測システムと会話する研究について述べる。 以上の結果から,利用者は内的状態の認識に感謝し,偏りのある行動に曝露し,コントロール意識を高めたことが示唆された。 参加者はまた、デザインと機械学習の両方の研究の今後の方向性を示す貴重な提案を行った。 TalkTunerシステムのプロジェクトページとビデオデモはhttps://bit.ly/talktuner-project-pageで公開されている。

Conversational LLMs function as black box systems, leaving users guessing about why they see the output they do. This lack of transparency is potentially problematic, especially given concerns around bias and truthfulness. To address this issue, we present an end-to-end prototype-connecting interpretability techniques with user experience design-that seeks to make chatbots more transparent. We begin by showing evidence that a prominent open-source LLM has a "user model": examining the internal state of the system, we can extract data related to a user's age, gender, educational level, and socioeconomic status. Next, we describe the design of a dashboard that accompanies the chatbot interface, displaying this user model in real time. The dashboard can also be used to control the user model and the system's behavior. Finally, we discuss a study in which users conversed with the instrumented system. Our results suggest that users appreciate seeing internal states, which helped them expose biased behavior and increased their sense of control. Participants also made valuable suggestions that point to future directions for both design and machine learning research. The project page and video demo of our TalkTuner system are available at https://bit.ly/talktuner-project-page
翻訳日:2024-06-13 18:25:01 公開日:2024-06-12
# 部分観察による多量子状態の分散化のための強化学習

Reinforcement Learning to Disentangle Multiqubit Quantum States from Partial Observations ( http://arxiv.org/abs/2406.07884v1 )

ライセンス: Link先を確認
Pavel Tashev, Stefan Petrov, Friederike Metz, Marin Bukov, (参考訳) 量子状態の部分的な知識を用いてマルチキュービットの絡み合いを制御することは、量子状態の準備と圧縮、量子制御、量子複雑性における卓越した課題に対処する可能性を持つ量子インタラクティブ力学の新興分野における、ほとんど未解明のパラダイムである。 本稿では,アクター・クリティック・アルゴリズムを用いて,任意の4ビット,5ビット,6ビットの短絡回路を構築するための深部強化学習手法を提案する。 2量子化密度行列のみにアクセスすることで、我々のエージェントは、どの2量子化ゲートをオンにするかを決め、ローカル情報のみを必要とするため、現代のNISQデバイスに直接適用できる。 置換同変変換器アーキテクチャを利用することで、エージェントは状態内のキュービットの置換を自律的に識別し、アンタングリングプロトコルをそれに応じて調整することができる。 一度訓練すると、さらなる最適化なしに異なる初期状態からの回路を提供する。 マルチキュービット状態の絡み合い構造を識別・活用するエージェントの能力を実証する。 4ビット、5ビット、6ビットのハールランダム状態において、エージェントは連続ゲートと関連するキュービットの間に強い相関を示すアンタングル回路を構築することを学ぶ。 拡張ベンチマークにより、最小限のゲートリソースを持つ解離プロトコルを見つけるためのRL手法の有効性を示す。 我々は、訓練されたエージェントのノイズに対するレジリエンスを探求し、現実世界の量子コンピューティングアプリケーションの可能性を強調します。 最適解離プロトコルを解析し,少なくとも5つの2量子 (10 CNOT) ゲートを用いて任意の4量子状態を作成するための汎用回路を報告する。

Using partial knowledge of a quantum state to control multiqubit entanglement is a largely unexplored paradigm in the emerging field of quantum interactive dynamics with the potential to address outstanding challenges in quantum state preparation and compression, quantum control, and quantum complexity. We present a deep reinforcement learning (RL) approach to constructing short disentangling circuits for arbitrary 4-, 5-, and 6-qubit states using an actor-critic algorithm. With access to only two-qubit reduced density matrices, our agent decides which pairs of qubits to apply two-qubit gates on; requiring only local information makes it directly applicable on modern NISQ devices. Utilizing a permutation-equivariant transformer architecture, the agent can autonomously identify qubit permutations within the state, and adjusts the disentangling protocol accordingly. Once trained, it provides circuits from different initial states without further optimization. We demonstrate the agent's ability to identify and exploit the entanglement structure of multiqubit states. For 4-, 5-, and 6-qubit Haar-random states, the agent learns to construct disentangling circuits that exhibit strong correlations both between consecutive gates and among the qubits involved. Through extensive benchmarking, we show the efficacy of the RL approach to find disentangling protocols with minimal gate resources. We explore the resilience of our trained agents to noise, highlighting their potential for real-world quantum computing applications. Analyzing optimal disentangling protocols, we report a general circuit to prepare an arbitrary 4-qubit state using at most 5 two-qubit (10 CNOT) gates.
翻訳日:2024-06-13 18:25:01 公開日:2024-06-12
# GENIU:不均衡データのための制限付きデータアクセスアンラーニング

GENIU: A Restricted Data Access Unlearning for Imbalanced Data ( http://arxiv.org/abs/2406.07885v1 )

ライセンス: Link先を確認
Chenhao Zhang, Shaofei Shen, Yawen Zhao, Weitong Tony Chen, Miao Xu, (参考訳) データプライバシの重視により、機械学習の重要性は大きく向上した。 トレーニングされたモデルで、以前に学習した特定のクラスに属するデータを忘れることの可能なクラスアンラーニングは、今日のマシンラーニング・アズ・ア・サービス(MLaaS)の大部分を占める分類タスクとして重要である。 忘れられるデータ(例えば、忘れられるデータ)を除いて、元のデータ上でモデルをリトレーニングすることは、クラスアンラーニングに対する一般的なアプローチである。 しかし、アンラーニングフェーズにおける元のデータの可用性は必ずしも保証されないため、制限されたデータアクセスによるクラスアンラーニングの探索につながっている。 制限されたデータアクセスを持つ現在の未学習メソッドは通常、トレーニングされたニューラルネットワーク分類器を介してプロキシサンプルを生成するが、通常はトレーニングとバランスの取れたデータを忘れることに集中する。 しかし、不均衡な元のデータは、特に忘れたデータが大半が多数派である場合、これらのプロキシや未学習に問題を引き起こす可能性がある。 この問題に対処するため,ジェネラティブ・インバランスド・アンラーニング(GENIU)フレームワークを提案する。 GENIUは変分オートエンコーダ(VAE)を使用して、元のモデルと並行してプロキシジェネレータを同時にトレーニングする。 これらの生成プロキシは、各クラスを正確に表現し、未学習の段階で活用され、元のトレーニングデータへの依存をなくす。 多数派クラスを忘れることによる性能劣化をさらに軽減するため,生成したプロキシと連動するバッチ内チューニング戦略を導入する。 GENIUは、不均衡なデータ設定と制限されたデータアクセスにおけるクラスアンラーニングのための最初の実践的フレームワークであり、将来のアンラーニングに必要な情報の保存を保証する。 実験の結果, 既存手法よりもGENIUの方が優れていることが確認され, 経験的シナリオにおける有効性が確認された。

With the increasing emphasis on data privacy, the significance of machine unlearning has grown substantially. Class unlearning, which involves enabling a trained model to forget data belonging to a specific class learned before, is important as classification tasks account for the majority of today's machine learning as a service (MLaaS). Retraining the model on the original data, excluding the data to be forgotten (a.k.a forgetting data), is a common approach to class unlearning. However, the availability of original data during the unlearning phase is not always guaranteed, leading to the exploration of class unlearning with restricted data access. While current unlearning methods with restricted data access usually generate proxy sample via the trained neural network classifier, they typically focus on training and forgetting balanced data. However, the imbalanced original data can cause trouble for these proxies and unlearning, particularly when the forgetting data consists predominantly of the majority class. To address this issue, we propose the GENerative Imbalanced Unlearning (GENIU) framework. GENIU utilizes a Variational Autoencoder (VAE) to concurrently train a proxy generator alongside the original model. These generated proxies accurately represent each class and are leveraged in the unlearning phase, eliminating the reliance on the original training data. To further mitigate the performance degradation resulting from forgetting the majority class, we introduce an in-batch tuning strategy that works with the generated proxies. GENIU is the first practical framework for class unlearning in imbalanced data settings and restricted data access, ensuring the preservation of essential information for future unlearning. Experimental results confirm the superiority of GENIU over existing methods, establishing its effectiveness in empirical scenarios.
翻訳日:2024-06-13 18:25:01 公開日:2024-06-12
# 意図しないヘイト音声検出のためのモーメントコントラスト学習を用いたラベル認識型ハード負サンプリング手法

Label-aware Hard Negative Sampling Strategies with Momentum Contrastive Learning for Implicit Hate Speech Detection ( http://arxiv.org/abs/2406.07886v1 )

ライセンス: Link先を確認
Jaehoon Kim, Seungwan Jin, Sohyun Park, Someen Park, Kyungsik Han, (参考訳) 直接憎しみのない暗黙のヘイトスピーチを検出することは、依然として課題である。 近年の研究では、BERTやRoBERTaのような事前学習された言語モデルにコントラスト学習を適用して、暗黙のヘイトスピーチを検知しようと試みているが、提案したモデルは、クロスエントロピー損失に基づく学習に対して大きな優位性を持っていない。 ランダムにサンプリングされたバッチデータに基づく対照的な学習は、厳密な負のサンプルを学習することをモデルに促さないことがわかった。 そこで本研究では,運動量積分型コントラスト学習を用いて,ランダムなバッチにおいて負のサンプルを否定するのではなく,強陰性サンプルから詳細な特徴を学習することをモデルに推奨するラベル認識型ハードネガティブサンプリング戦略を提案する。 LAHNは、インデータセットとクロスデータセットの両方において、暗黙のヘイトスピーチ検出のために既存のモデルより優れている。 コードはhttps://github.com/Hanyang-HCC-Lab/LAHNで公開されている。

Detecting implicit hate speech that is not directly hateful remains a challenge. Recent research has attempted to detect implicit hate speech by applying contrastive learning to pre-trained language models such as BERT and RoBERTa, but the proposed models still do not have a significant advantage over cross-entropy loss-based learning. We found that contrastive learning based on randomly sampled batch data does not encourage the model to learn hard negative samples. In this work, we propose Label-aware Hard Negative sampling strategies (LAHN) that encourage the model to learn detailed features from hard negative samples, instead of naive negative samples in random batch, using momentum-integrated contrastive learning. LAHN outperforms the existing models for implicit hate speech detection both in- and cross-datasets. The code is available at https://github.com/Hanyang-HCC-Lab/LAHN
翻訳日:2024-06-13 18:25:01 公開日:2024-06-12
# マンバに基づく言語モデルに関する実証的研究

An Empirical Study of Mamba-based Language Models ( http://arxiv.org/abs/2406.07887v1 )

ライセンス: Link先を確認
Roger Waleffe, Wonmin Byeon, Duncan Riach, Brandon Norick, Vijay Korthikanti, Tri Dao, Albert Gu, Ali Hatamizadeh, Sudhakar Singh, Deepak Narayanan, Garvit Kulshreshtha, Vartika Singh, Jared Casper, Jan Kautz, Mohammad Shoeybi, Bryan Catanzaro, (参考訳) Mambaのような選択的な状態空間モデル(SSM)は、シーケンス長の2次計算複雑性やキー値キャッシュからの大規模な推論時間メモリ要求といったトランスフォーマーの欠点を克服する。 さらに、近年の研究では、SSMがトランスフォーマーの言語モデリング能力に適合または超えることが示されており、魅力的な代替手段となっている。 しかし、制御された設定(例えば、同じデータ)では、これまでSSMとトランスフォーマーを比較する小さな実験しか行っていない。 大規模でこれらのアーキテクチャの長所と短所を理解するため,最大3.5Tトークンのデータセットでトレーニングされた8BパラメータMamba,Mamba-2,Transformerモデルを直接比較した。 また,これらのモデルを,43%のMamba-2,7%の注目,50%のMLP層(Mamba-2-Hybrid)からなるハイブリッドアーキテクチャと比較した。 多様なタスクセットを使用することで、MambaモデルがTransformerとより大きなトレーニング予算で一致できるかという疑問に答える。 その結果、多くのタスクにおいて、純粋なSSMはTransformerにマッチしたり、超えたりするが、強力なコピーやテキスト内学習能力(例えば、5-shot MMLU、Phonebook)や長文推論を必要とするタスクではTransformerより遅れていることがわかった。 対照的に、8B Mamba-2-Hybridは、評価した12の標準タスク(平均で2.65ポイント)の8B変換器を超え、推論時にトークンを生成する場合、最大8倍高速であると予測されている。 16K,32K,128Kシーケンスをサポートするために拡張されたMamba-2-HybridおよびTransformerの変種を評価する追加実験を行った。 さらに23の長いコンテキストタスクでは、ハイブリッドモデルは平均的にTransformerと密に一致または超え続けている。 さらなる研究を可能にするため、NVIDIAのMegatron-LMプロジェクトの一環として、チェックポイントとモデルをトレーニングするためのコードをリリースしています。

Selective state-space models (SSMs) like Mamba overcome some of the shortcomings of Transformers, such as quadratic computational complexity with sequence length and large inference-time memory requirements from the key-value cache. Moreover, recent studies have shown that SSMs can match or exceed the language modeling capabilities of Transformers, making them an attractive alternative. In a controlled setting (e.g., same data), however, studies so far have only presented small scale experiments comparing SSMs to Transformers. To understand the strengths and weaknesses of these architectures at larger scales, we present a direct comparison between 8B-parameter Mamba, Mamba-2, and Transformer models trained on the same datasets of up to 3.5T tokens. We also compare these models to a hybrid architecture consisting of 43% Mamba-2, 7% attention, and 50% MLP layers (Mamba-2-Hybrid). Using a diverse set of tasks, we answer the question of whether Mamba models can match Transformers at larger training budgets. Our results show that while pure SSMs match or exceed Transformers on many tasks, they lag behind Transformers on tasks which require strong copying or in-context learning abilities (e.g., 5-shot MMLU, Phonebook) or long-context reasoning. In contrast, we find that the 8B Mamba-2-Hybrid exceeds the 8B Transformer on all 12 standard tasks we evaluated (+2.65 points on average) and is predicted to be up to 8x faster when generating tokens at inference time. To validate long-context capabilities, we provide additional experiments evaluating variants of the Mamba-2-Hybrid and Transformer extended to support 16K, 32K, and 128K sequences. On an additional 23 long-context tasks, the hybrid model continues to closely match or exceed the Transformer on average. To enable further study, we release the checkpoints as well as the code used to train our models as part of NVIDIA's Megatron-LM project.
翻訳日:2024-06-13 18:15:17 公開日:2024-06-12
# 不均衡データのためのRNNベース、ランダムフォレスト、XGBoostを用いた分類モデル:ASEAN-5株市場における早期クラッシュ検出の事例

Classification Modeling with RNN-Based, Random Forest, and XGBoost for Imbalanced Data: A Case of Early Crash Detection in ASEAN-5 Stock Markets ( http://arxiv.org/abs/2406.07888v1 )

ライセンス: Link先を確認
Deri Siswara, Agus M. Soleh, Aji Hamim Wigena, (参考訳) 本研究は,ASEAN-5株市場における早期のクラッシュ検出のための分類モデルの構築において,ランダムフォレストやXGBoostといった古典的アルゴリズムと比較して,シンプルなRNN,Gated Recurrent Units(GRU),Long Short-Term Memory(LSTM)など,複数のリカレントニューラルネットワーク(RNN)アーキテクチャの性能を評価することを目的とする。 本研究は,市場崩壊の頻度が高いためによく見られる不均衡なデータを用いて検討した。 この調査は2010年から2023年にかけて、インドネシア、マレーシア、シンガポール、タイ、フィリピンを含むASEAN-5諸国の主要株式市場で毎日のデータを分析した。 市場崩壊は、主要株価指数が5%、2.5%、1%のバリュー・アット・リスク(VaR)閾値を下回ると、ターゲット変数として特定される。 主要地域およびグローバル市場および商品市場の技術的指標を含む予測器。 この研究は、それぞれラグ(5、10、15、15、22、50、200)を持つ213の予測器を含み、7のタイムステップを使用して、予測器の総数1491まで拡張する。 データ不均衡の課題は、SMOTE-ENNによって解決される。 その結果、RNNベースのアーキテクチャはRandom ForestやXGBoostよりも優れていた。 様々なRNNアーキテクチャの中で、Simple RNNが最も優れているのは、主に過度に複雑ではなく、短期的な情報に重点を置いているデータ特性のためである。 本研究は、異なる地理的領域や時間帯などの変数を組み込むことにより、過去の研究で観測された現象の範囲を拡大し、拡張し、方法論的な調整を行う。

This research aims to evaluate the performance of several Recurrent Neural Network (RNN) architectures including Simple RNN, Gated Recurrent Units (GRU), and Long Short-Term Memory (LSTM), compared to classic algorithms such as Random Forest and XGBoost in building classification models for early crash detection in ASEAN-5 stock markets. The study is examined using imbalanced data, which is common due to the rarity of market crashes. The study analyzes daily data from 2010 to 2023 across the major stock markets of the ASEAN-5 countries, including Indonesia, Malaysia, Singapore, Thailand, and Philippines. Market crash is identified as the target variable when the major stock price indices fall below the Value at Risk (VaR) thresholds of 5%, 2.5% and 1%. predictors involving technical indicators of major local and global markets as well as commodity markets. This study includes 213 predictors with their respective lags (5, 10, 15, 22, 50, 200) and uses a time step of 7, expanding the total number of predictors to 1491. The challenge of data imbalance is addressed with SMOTE-ENN. The results show that all RNN-Based architectures outperform Random Forest and XGBoost. Among the various RNN architectures, Simple RNN stands out as the most superior, mainly due to the data characteristics that are not overly complex and focus more on short-term information. This study enhances and extends the range of phenomena observed in previous studies by incorporating variables like different geographical zones and time periods, as well as methodological adjustments.
翻訳日:2024-06-13 18:15:17 公開日:2024-06-12
# 子育てダイアライゼーションにおける話者ダイアライゼーションのための音声基礎モデルの検討

Exploring Speech Foundation Models for Speaker Diarization in Child-Adult Dyadic Interactions ( http://arxiv.org/abs/2406.07890v1 )

ライセンス: Link先を確認
Anfeng Xu, Kevin Huang, Tiantian Feng, Lue Shen, Helen Tager-Flusberg, Shrikanth Narayanan, (参考訳) 膨大なデータセットに基づいて訓練された音声基礎モデルは、子音声のような低リソース音声理解の難しさに対処するユニークな機会を開いた。 本研究では,子育て話者ダイアリゼーションにおける音声基礎モデルの能力について検討する。 本研究では, 従来の話者ダイアリゼーション法と比較して, ダイアリゼーション誤差率と話者融合率を39.5%, 62.3%削減できることを示す。 さらに,音声基礎モデルの話者ダイアリゼーション結果を,入力音声ウィンドウサイズ,話者人口統計,訓練データ比率によって評価し,評価した。 本研究は, 子どもの発話理解を促進するために, 音声基盤モデルを理解し, 導入するための有望な経路を明らかにするものである。

Speech foundation models, trained on vast datasets, have opened unique opportunities in addressing challenging low-resource speech understanding, such as child speech. In this work, we explore the capabilities of speech foundation models on child-adult speaker diarization. We show that exemplary foundation models can achieve 39.5% and 62.3% relative reductions in Diarization Error Rate and Speaker Confusion Rate, respectively, compared to previous speaker diarization methods. In addition, we benchmark and evaluate the speaker diarization results of the speech foundation models with varying the input audio window size, speaker demographics, and training data ratio. Our results highlight promising pathways for understanding and adopting speech foundation models to facilitate child speech understanding.
翻訳日:2024-06-13 18:15:17 公開日:2024-06-12
# 分散MDPにおける時間差分学習の時間差解析

Finite Time Analysis of Temporal Difference Learning for Mean-Variance in a Discounted MDP ( http://arxiv.org/abs/2406.07892v1 )

ライセンス: Link先を確認
Tejaram Sangadi, L. A. Prashanth, Krishna Jagannathan, (参考訳) リスクに敏感な強化学習シナリオを前提として,報酬の割引決定プロセス(MDP)における分散に対する政策評価の問題点を考察する。 この問題に対して,線形関数近似(LFA)を用いた時間差(TD)型学習アルゴリズムが文献に存在するが,漸近的な保証しか得られない。 保持する有限標本境界を導出する (一)平均二乗の意味で、及び (二) 尾回し平均化を正則化しない場合に高い確率で行うこと。 我々のバウンダリは初期誤差に対して指数関数的減衰を示し、全体のバウンダリは$O(1/t)$であり、$t$はTDアルゴリズムの更新繰り返しの数である。 さらに、正規化されたTD不変量に対する有界は普遍的なステップサイズである。 割引MDPにおける平均分散最適化のためのアクター・クリティカル・アルゴリズムの解析のためのバウンダリを開放する。

Motivated by risk-sensitive reinforcement learning scenarios, we consider the problem of policy evaluation for variance in a discounted reward Markov decision process (MDP). For this problem, a temporal difference (TD) type learning algorithm with linear function approximation (LFA) exists in the literature, though only asymptotic guarantees are available for this algorithm. We derive finite sample bounds that hold (i) in the mean-squared sense; and (ii) with high probability, when tail iterate averaging is employed with/without regularization. Our bounds exhibit exponential decay for the initial error, while the overall bound is $O(1/t)$, where $t$ is the number of update iterations of the TD algorithm. Further, the bound for the regularized TD variant is for a universal step size. Our bounds open avenues for analysis of actor-critic algorithms for mean-variance optimization in a discounted MDP.
翻訳日:2024-06-13 18:15:17 公開日:2024-06-12
# 時系列予測のための量子メトロロジー手法のパラメータ推定

Parameter Estimation in Quantum Metrology Technique for Time Series Prediction ( http://arxiv.org/abs/2406.07893v1 )

ライセンス: Link先を確認
Vaidik A Sharma, N. Madurai Meenachi, B. Venkatraman, (参考訳) 本稿では,気象予測における量子計算の手法について検討し,特に変分パラメータ推定による予測ポテンシャルの向上に着目した。 複雑な物理系をモデル化し、高分解能の測定を行うための量子シミュレーションと量子メトロジー技術の適用性を提案する。 パラメータ分布と学習率が予測精度に与える影響について検討した。 物理系の時間発展をモデル化するハミルトニアンシミュレーションと積公式手順が採用されている。 シミュレーション誤差を低減するために時間ブロック法を解析し、シミュレーション精度を評価するためにシャッテン無限ノルムを用いる。 損失関数とリソース要求を最小化することで最適化されたパラメータを推定する必要がある。 この目的のために、クレーマー・ラオバウンドとフィッシャー・インフォメーションの数学的定式化は不可欠である。 各種パラメータ値の損失関数制御における学習率の影響 パラメータ化量子回路を用いて、情報抽出のための4段階の手順を概説する。 この方法は、入力状態の作成、パラメータ化された量子状態の進化、出力の測定、および複数の測定値に基づくパラメータの推定を含む。 本研究は、より正確な予測のためのパラメータ推定を最適化した変分ユニタリ回路を解析する。 この結果は、通常のパラメータ分布と学習速度が最適状態に達することに与える影響と、古典的なLong Short Term Memory (LSTM) 予測との比較に光を当て、量子コンピューティングにおけるより適切なアプローチの開発に有用な洞察を与える。

The paper investigates the techniques of quantum computation in metrological predictions, with a particular emphasis on enhancing prediction potential through variational parameter estimation. The applicability of quantum simulations and quantum metrology techniques for modelling complex physical systems and achieving high-resolution measurements are proposed. The impacts of various parameter distributions and learning rates on predictive accuracy are investigated. Modelling the time evolution of physical systems Hamiltonian simulation and the product formula procedure are adopted. The time block method is analyzed in order to reduce simulation errors, while the Schatten-infinite norm is used to evaluate the simulation precision. Methodology requires estimation of optimized parameters by minimizing loss functions and resource needs. For this purpose, the mathematical formulations of Cramer Rao Bound and Fischer Information are indispensable requirements. The impact of learning rates on regulating the loss function for various parameter values. Using parameterized quantum circuits, the article outlines a four-step procedure for extracting information. This method involves the preparation of input states, the evolution of parameterized quantum states, the measurement of outputs, and the estimation of parameters based on multiple measurements. The study analyses variational unitary circuits with optimized parameter estimation for more precise predictions. The findings shed light on the effects of normal parameter distributions and learning rates on attaining the most optimal state and comparison with classical Long Short Term Memory (LSTM) predictions, providing valuable insights for the development of more appropriate approaches in quantum computing.
翻訳日:2024-06-13 18:15:17 公開日:2024-06-12
# 感情会話: 結束表現, 迷路, 詩生成による話し言葉の活用

Emotional Conversation: Empowering Talking Faces with Cohesive Expression, Gaze and Pose Generation ( http://arxiv.org/abs/2406.07895v1 )

ライセンス: Link先を確認
Jiadong Liang, Feng Lu, (参考訳) バイビッド・トーキング・フェイス・ジェネレーションは、映画やゲーム制作など、様々なマルチメディア分野にまたがる潜在的な応用をもたらす。 既存の方法では、唇の動きと入力音声を正確に同期させるが、感情と顔の手がかりの間には、表情、視線、頭ポーズなどの重要な調整が無視されるのが一般的である。 これらのアライメントは、リアルなビデオを合成するのに欠かせない。 これらの課題に対処するために,3次元顔のランドマークを中間変数として用いた2段階の音声駆動音声顔生成フレームワークを提案する。 このフレームワークは、自己指導型学習を通じて、表現、視線、感情との協調的なアライメントを実現する。 具体的には,このタスクを,音声からランドマークへの合成とランドマークから顔への生成という,2つの重要なステップに分解する。 最初のステップは、表情、視線、頭ポーズを表す正規化されたランドマークを含む、感情的に整列した顔の手がかりを同時に合成することに焦点を当てる。 これらのキューはその後、移動した顔のランドマークに再組み立てされる。 2番目のステップでは、移動されたランドマークを自己教師付き学習を用いて潜在キーポイントにマッピングし、事前訓練されたモデルに入力して高品質な顔画像を生成する。 MEADデータセットの大規模な実験により、我々のモデルは視覚的品質と感情的アライメントの両方において、最先端のパフォーマンスを大幅に向上することが示された。

Vivid talking face generation holds immense potential applications across diverse multimedia domains, such as film and game production. While existing methods accurately synchronize lip movements with input audio, they typically ignore crucial alignments between emotion and facial cues, which include expression, gaze, and head pose. These alignments are indispensable for synthesizing realistic videos. To address these issues, we propose a two-stage audio-driven talking face generation framework that employs 3D facial landmarks as intermediate variables. This framework achieves collaborative alignment of expression, gaze, and pose with emotions through self-supervised learning. Specifically, we decompose this task into two key steps, namely speech-to-landmarks synthesis and landmarks-to-face generation. The first step focuses on simultaneously synthesizing emotionally aligned facial cues, including normalized landmarks that represent expressions, gaze, and head pose. These cues are subsequently reassembled into relocated facial landmarks. In the second step, these relocated landmarks are mapped to latent key points using self-supervised learning and then input into a pretrained model to create high-quality face images. Extensive experiments on the MEAD dataset demonstrate that our model significantly advances the state-of-the-art performance in both visual quality and emotional alignment.
翻訳日:2024-06-13 18:15:17 公開日:2024-06-12
# スキルは強化学習に役立つのか? : 時間的抽象化の理論的分析

When Do Skills Help Reinforcement Learning? A Theoretical Analysis of Temporal Abstractions ( http://arxiv.org/abs/2406.07897v1 )

ライセンス: Link先を確認
Zhening Li, Gabriel Poesia, Armando Solar-Lezama, (参考訳) スキルとは、階層的RLによる強化学習(RL)のパフォーマンス向上を目的とした時間的抽象化である。 スキルを活かす環境の性質について直感的に考えるが、正確な特徴は欠落している。 有限な作用空間を持つ決定論的スパース・リワード環境における決定論的スキルの有用性に着目した最初の特徴付けを提供する。 状態に対する解が圧縮性に乏しい環境では,RL性能の低下が理論的,実証的に証明される。 さらなる理論的結果は、既存の経験から学ぶことよりも探索に有益であることが示唆され、マクロアクションのような非表現的なスキルを使用することは、RLのパフォーマンスを悪化させる可能性がある。 我々の発見は、自動スキル発見の研究をガイドし、RL実践者がいつ、どのようにスキルを使うかをよりよく決めるのに役立つことを願っている。

Skills are temporal abstractions that are intended to improve reinforcement learning (RL) performance through hierarchical RL. Despite our intuition about the properties of an environment that make skills useful, a precise characterization has been absent. We provide the first such characterization, focusing on the utility of deterministic skills in deterministic sparse-reward environments with finite action spaces. We show theoretically and empirically that RL performance gain from skills is worse in environments where solutions to states are less compressible. Additional theoretical results suggest that skills benefit exploration more than they benefit learning from existing experience, and that using unexpressive skills such as macroactions may worsen RL performance. We hope our findings can guide research on automatic skill discovery and help RL practitioners better decide when and how to use skills.
翻訳日:2024-06-13 18:15:17 公開日:2024-06-12
# 限定アノテーションを用いた音声感情認識のための自己監督型マルチビューコントラスト学習の探索

Exploring Self-Supervised Multi-view Contrastive Learning for Speech Emotion Recognition with Limited Annotations ( http://arxiv.org/abs/2406.07900v1 )

ライセンス: Link先を確認
Bulat Khaertdinov, Pedro Jeuris, Annanda Sousa, Enrique Hortal, (参考訳) 近年のDeep and Self-Supervised Learning(SSL)の進歩は、音声感情認識(SER)の性能を大幅に改善し、前例のない水準に達した。 しかし、モデルのトレーニングや微調整に十分な量のラベル付けされたデータを取得することは、コストがかかり難い作業である。 本稿では,多視点SSL事前学習手法を提案する。この手法は,アノテーションが限定された場合のSER性能を向上させるために,大規模音声モデルで生成されたものを含む,様々な音声表現に適用することができる。 我々の実験は、wav2vec 2.0をベースとしたスペクトルおよびパラ言語的特徴に基づいて、提案したフレームワークは、非常にスパースなデータアノテーションで設定されたUnweighted Average Recallにおいて、最大10%のSER性能を向上させることを実証している。

Recent advancements in Deep and Self-Supervised Learning (SSL) have led to substantial improvements in Speech Emotion Recognition (SER) performance, reaching unprecedented levels. However, obtaining sufficient amounts of accurately labeled data for training or fine-tuning the models remains a costly and challenging task. In this paper, we propose a multi-view SSL pre-training technique that can be applied to various representations of speech, including the ones generated by large speech models, to improve SER performance in scenarios where annotations are limited. Our experiments, based on wav2vec 2.0, spectral and paralinguistic features, demonstrate that the proposed framework boosts the SER performance, by up to 10% in Unweighted Average Recall, in settings with extremely sparse data annotations.
翻訳日:2024-06-13 18:15:17 公開日:2024-06-12
# 強禁光光時計遷移のコリニア三光子励起

Collinear three-photon excitation of a strongly forbidden optical clock transition ( http://arxiv.org/abs/2406.07902v1 )

ライセンス: Link先を確認
Samuel P. Carman, Jan Rudolph, Benjamin E. Garber, Michael J. Van de Graaff, Hunter Swan, Yijun Jiang, Megan Nantel, Mahiro Abe, Rachel L. Barcklay, Jason M. Hogan, (参考訳) ${}^1\! S_0-{}^3\! ストロンチウムのP_0$クロック遷移は、世界最高の原子時計の基礎と、クロック原子干渉計における重力波検出器の概念の基礎となっている。 この遷移はフェルミオン同位体$^{87}$Srでは弱いが、強い外部磁場が適用されない限りボゾン同位体では強く禁止される。 ここでは、弱磁場中における新しいコリニア三光子過程を用いて、ボゾン${}^{88}$Srにおける時計転移のコヒーレント励起を示す。 我々は、$\text{W}/\text{cm}^{2}$レーザー強度とガウスレベルの磁場振幅を用いて、最大50〜\text{kHz}$のラビ振動を観測する。 ボゾン同位体における核スピンの欠如は、磁場に対する感度の低下と光学格子光シフトをもたらし、系統的な誤差を減少させる。 レーザー場のコリニア伝播は、共通レーザーパルスによる空間的に分離された原子アンサンブルの尋問を可能にし、ダークマター探索とクロック原子干渉計による重力波検出の鍵となる要件である。

The ${}^1\!S_0-{}^3\!P_0$ clock transition in strontium serves as the foundation for the world's best atomic clocks and for gravitational wave detector concepts in clock atom interferometry. This transition is weakly allowed in the fermionic isotope $^{87}$Sr, but strongly forbidden in bosonic isotopes unless a strong external magnetic field is applied. Here we demonstrate coherent excitation of the clock transition in bosonic ${}^{88}$Sr using a novel collinear three-photon process in a weak magnetic field. We observe Rabi oscillations with frequencies of up to $50~\text{kHz}$ using $\text{W}/\text{cm}^{2}$ laser intensities and Gauss-level magnetic field amplitudes. The absence of nuclear spin in bosonic isotopes offers decreased sensitivity to magnetic fields and optical lattice light shifts, enabling clocks with reduced systematic errors. The collinear propagation of the laser fields permits the interrogation of spatially separated atomic ensembles with common laser pulses, a key requirement for dark matter searches and gravitational wave detection with clock atom interferometers.
翻訳日:2024-06-13 18:15:17 公開日:2024-06-12
# 行動におけるマルチモーダルな大規模言語モデルの構築

Grounding Multimodal Large Language Models in Actions ( http://arxiv.org/abs/2406.07904v1 )

ライセンス: Link先を確認
Andrew Szot, Bogdan Mazoure, Harsh Agrawal, Devon Hjelm, Zsolt Kira, Alexander Toshev, (参考訳) マルチモーダル大言語モデル(MLLM)は、Embodied AIを含む多くのドメインで幅広い機能を示している。 本研究では,MLLMのマルチモーダル世界知識を活用することを目的として,MLLMを異なる実施形態とその関連する行動空間にベストグルーピングする方法を検討する。 まず、統一アーキテクチャとアクション空間適応器のレンズを通して、多数の手法を一般化する。 連続的な動作では、学習したトークン化によって十分なモデリング精度が得られ、下流タスクで最高のパフォーマンスが得られることを示す。 離散的な動作に対して、これらの動作をMLLMのネイティブな出力トークン空間と意味的に整合させることが、最も高いパフォーマンスをもたらすことを実証する。 我々は5つの異なる環境における7つのアクションスペースアダプタの徹底的な研究を通じて、これらの教訓に到達した。

Multimodal Large Language Models (MLLMs) have demonstrated a wide range of capabilities across many domains, including Embodied AI. In this work, we study how to best ground a MLLM into different embodiments and their associated action spaces, with the goal of leveraging the multimodal world knowledge of the MLLM. We first generalize a number of methods through a unified architecture and the lens of action space adaptors. For continuous actions, we show that a learned tokenization allows for sufficient modeling precision, yielding the best performance on downstream tasks. For discrete actions, we demonstrate that semantically aligning these actions with the native output token space of the MLLM leads to the strongest performance. We arrive at these lessons via a thorough study of seven action space adapters on five different environments, encompassing over 114 embodied tasks.
翻訳日:2024-06-13 18:15:17 公開日:2024-06-12
# アブレーションに基づく対策

Ablation Based Counterfactuals ( http://arxiv.org/abs/2406.07908v1 )

ライセンス: Link先を確認
Zheng Dai, David K Gifford, (参考訳) 拡散モデル(diffusion model)は、高品質なサンプルを生成する生成モデルのクラスである。 この困難さは科学的および規制的な問題を引き起こし、拡散モデルとそのサンプリングプロセスの複雑さの結果である。 そこで本研究では, モデル再トレーニングではなく, モデルアブレーションに頼って, 対実解析を行うABC(Ablation Based Counterfactuals)を導入する。 このアプローチでは、モデルの独立したコンポーネントを、異なるが重複するトレーニングセットの分割に基づいてトレーニングする。 これらのコンポーネントは単一のモデルに結合され、モデルコンポーネントの組み合わせを非難することで、任意のトレーニングサンプルの因果的影響を取り除くことができる。 拡散モデルの集合を用いてこのようなモデルを構築する方法を示す。 次に、本モデルを用いて、完全な対物的景観を列挙することで、トレーニングデータ属性の限界を研究するとともに、トレーニングデータサイズの増加に伴い、単一のソース属性が減少することを示す。 最後に、帰属不能なサンプルの存在を実証する。

Diffusion models are a class of generative models that generate high-quality samples, but at present it is difficult to characterize how they depend upon their training data. This difficulty raises scientific and regulatory questions, and is a consequence of the complexity of diffusion models and their sampling process. To analyze this dependence, we introduce Ablation Based Counterfactuals (ABC), a method of performing counterfactual analysis that relies on model ablation rather than model retraining. In our approach, we train independent components of a model on different but overlapping splits of a training set. These components are then combined into a single model, from which the causal influence of any training sample can be removed by ablating a combination of model components. We demonstrate how we can construct a model like this using an ensemble of diffusion models. We then use this model to study the limits of training data attribution by enumerating full counterfactual landscapes, and show that single source attributability diminishes with increasing training data size. Finally, we demonstrate the existence of unattributable samples.
翻訳日:2024-06-13 18:15:17 公開日:2024-06-12
# 自己知識蒸留によるフレームレベルCTCアライメントの誘導

Guiding Frame-Level CTC Alignments Using Self-knowledge Distillation ( http://arxiv.org/abs/2406.07909v1 )

ライセンス: Link先を確認
Eungbeom Kim, Hantae Kim, Kyogu Lee, (参考訳) コネクショニスト時間分類(CTC)フレームワークを用いたトランスフォーマーエンコーダは、音声認識(ASR)に広く利用されている。 しかし、ASRの知識蒸留(KD)は、学生モデルの性能向上を阻害するフレームレベルのアライメントにおいて、教師と生徒の間で不一致の問題を生じさせる。 この問題を解決するために,本研究では,フレームレベルのアライメントをトレーニング時にガイドする自己知識蒸留(SKD)手法を提案する。 本研究は,教師モデルと学生モデルを用いた従来の手法とは対照的に,エンコーダ層をシンプルかつ効果的に共有し,サブモデルを学生モデルとして適用する手法を提案する。 全体として、我々のアプローチは資源効率と性能の両方を改善するのに効果的です。 また,スパイクタイミングを実験的に解析し,アライメントの不一致を低減し,提案手法が性能を向上させることを示す。

Transformer encoder with connectionist temporal classification (CTC) framework is widely used for automatic speech recognition (ASR). However, knowledge distillation (KD) for ASR displays a problem of disagreement between teacher-student models in frame-level alignment which ultimately hinders it from improving the student model's performance. In order to resolve this problem, this paper introduces a self-knowledge distillation (SKD) method that guides the frame-level alignment during the training time. In contrast to the conventional method using separate teacher and student models, this study introduces a simple and effective method sharing encoder layers and applying the sub-model as the student model. Overall, our approach is effective in improving both the resource efficiency as well as performance. We also conducted an experimental analysis of the spike timings to illustrate that the proposed method improves performance by reducing the alignment disagreement.
翻訳日:2024-06-13 18:15:17 公開日:2024-06-12
# DeTriever: NL2SQLインコンテキスト学習を改善するデコーダ表現ベースのレトリバー

DeTriever: Decoder-representation-based Retriever for Improving NL2SQL In-Context Learning ( http://arxiv.org/abs/2406.07913v1 )

ライセンス: Link先を確認
Yuxi Feng, Raymond Li, Zhenan Fan, Giuseppe Carenini, Mohammadreza Pourreza, Weiwei Zhang, Yong Zhang, (参考訳) In-context Learning (ICL) は、自然言語の質問を構造化クエリ言語(NL2SQL)に翻訳する際に、様々な複雑なタスクにおいて、Large Language Models (LLM) のパフォーマンスを改善する効果的な手法であることが証明されているが、最も有益な実演例をどうやって選択すべきかという問題は、オープンな研究課題のままである。 以前の作業では、サンプルを動的に取り出すためにオフザシェルフエンコーダをしばしば適用していたが、外部レシーバとLCM間の表現能力には固有の相違が存在する。 さらに、サンプルの選択を最適化することは、ペアの推論を行わずにサンプルの相対的な利点を評価する簡単な方法がないため、非自明な作業である。 これらの欠点に対処するために,LLM隠れ状態の重み付けを学習し,リッチな意味情報を符号化する新しいデモ検索フレームワークであるDeTrieverを提案する。 モデルをトレーニングするために,出力クエリ間の類似性に基づいて,サンプルの相対的な利点を推定するプロキシスコアを提案する。 2つの人気のあるNL2SQLベンチマークの実験により、我々の手法はワンショットNL2SQLタスクにおける最先端のベースラインを大幅に上回ることを示した。

While in-context Learning (ICL) has proven to be an effective technique to improve the performance of Large Language Models (LLMs) in a variety of complex tasks, notably in translating natural language questions into Structured Query Language (NL2SQL), the question of how to select the most beneficial demonstration examples remains an open research problem. While prior works often adapted off-the-shelf encoders to retrieve examples dynamically, an inherent discrepancy exists in the representational capacities between the external retrievers and the LLMs. Further, optimizing the selection of examples is a non-trivial task, since there are no straightforward methods to assess the relative benefits of examples without performing pairwise inference. To address these shortcomings, we propose DeTriever, a novel demonstration retrieval framework that learns a weighted combination of LLM hidden states, where rich semantic information is encoded. To train the model, we propose a proxy score that estimates the relative benefits of examples based on the similarities between output queries. Experiments on two popular NL2SQL benchmarks demonstrate that our method significantly outperforms the state-of-the-art baselines on one-shot NL2SQL tasks.
翻訳日:2024-06-13 18:15:17 公開日:2024-06-12
# グラフトランスダクティブディフェンス:グラフメンバーシップ推論アタックのための2段階ディフェンス

Graph Transductive Defense: a Two-Stage Defense for Graph Membership Inference Attacks ( http://arxiv.org/abs/2406.07917v1 )

ライセンス: Link先を確認
Peizhi Niu, Chao Pan, Siheng Chen, Olgica Milenkovic, (参考訳) グラフニューラルネットワーク(GNN)は、ソーシャルネットワークや医療データ分析といったタスクに強力なグラフ学習機能を提供する、さまざまな現実世界のアプリケーションにおいて重要な存在となっている。 彼らの成功にもかかわらず、GNNは、メンバーシップ推論攻撃(MIA)を含む敵の攻撃に対して脆弱であり、モデルのトレーニングデータの一部であったかどうかを識別することで、プライバシを脅かす。 既存の研究では、グラフ帰納学習環境下でのMIAを探索しているが、この文脈では、より一般的で挑戦的なグラフ帰納学習環境が検討されている。 本稿では,このギャップに対処し,グラフトランスダクティブ学習特性に合わせて,効果的な2段階防御法であるグラフトランスダクティブディフェンス(GTD)を提案する。 提案手法のギストは,トレーニングスケジュールとフラット化戦略を組み合わせることで,トレーニングとテスト損失分布の差を小さくする。 実験結果から,本手法の優れた性能(攻撃時AUROCが9.42 %,実用時性能が18.08 %,LCPが18.08 %)を示し,オーバーヘッドを最小限に抑えた各種分類モデルへのシームレスな統合の可能性を明らかにした。

Graph neural networks (GNNs) have become instrumental in diverse real-world applications, offering powerful graph learning capabilities for tasks such as social networks and medical data analysis. Despite their successes, GNNs are vulnerable to adversarial attacks, including membership inference attacks (MIA), which threaten privacy by identifying whether a record was part of the model's training data. While existing research has explored MIA in GNNs under graph inductive learning settings, the more common and challenging graph transductive learning setting remains understudied in this context. This paper addresses this gap and proposes an effective two-stage defense, Graph Transductive Defense (GTD), tailored to graph transductive learning characteristics. The gist of our approach is a combination of a train-test alternate training schedule and flattening strategy, which successfully reduces the difference between the training and testing loss distributions. Extensive empirical results demonstrate the superior performance of our method (a decrease in attack AUROC by $9.42\%$ and an increase in utility performance by $18.08\%$ on average compared to LBP), highlighting its potential for seamless integration into various classification models with minimal overhead.
翻訳日:2024-06-13 18:15:17 公開日:2024-06-12
# 分別MDPにおける準最適学習と計画

Near-Optimal Learning and Planning in Separated Latent MDPs ( http://arxiv.org/abs/2406.07920v1 )

ライセンス: Link先を確認
Fan Chen, Constantinos Daskalakis, Noah Golowich, Alexander Rakhlin, (参考訳) 本稿では,後期マルコフ決定過程(LMDP)の計算的・統計的側面について考察する。 このモデルでは、学習者は、未知のMDPの混合から各エポックの開始時に描画されたMDPと相互作用する。 既知不合理な結果の副次として,構成型MDPの分離について考察する。 本論文の主な推進力は,効率的な学習に必要な水平長に対して,ほぼシャープな*統計しきい値*を確立することである。 計算面では、最適ポリシーの下での分離性の仮定がより弱い場合、統計的しきい値の観点から時間複雑性のスケーリングを伴う準多項式アルゴリズムが存在することを示す。 さらに、指数時間仮説の下では、ほぼ一致する時間複雑性が低いことを示す。

We study computational and statistical aspects of learning Latent Markov Decision Processes (LMDPs). In this model, the learner interacts with an MDP drawn at the beginning of each epoch from an unknown mixture of MDPs. To sidestep known impossibility results, we consider several notions of separation of the constituent MDPs. The main thrust of this paper is in establishing a nearly-sharp *statistical threshold* for the horizon length necessary for efficient learning. On the computational side, we show that under a weaker assumption of separability under the optimal policy, there is a quasi-polynomial algorithm with time complexity scaling in terms of the statistical threshold. We further show a near-matching time complexity lower bound under the exponential time hypothesis.
翻訳日:2024-06-13 18:15:17 公開日:2024-06-12
# 甲状腺手術物語からの自動情報抽出: GPT-4 と KoELECTRA の比較検討

Automated Information Extraction from Thyroid Operation Narrative: A Comparative Study of GPT-4 and Fine-tuned KoELECTRA ( http://arxiv.org/abs/2406.07922v1 )

ライセンス: Link先を確認
Dongsuk Jang, Hyeryun Park, Jiye Son, Hyeonuk Hwang, Sujin Kim, Jinwook Choi, (参考訳) 急速に発展する医療分野において、人工知能(AI)の統合は、臨床ワークフローの自動化において重要な要素となり、新しい効率と正確さの時代の到来につながっている。 本研究は,甲状腺手術の物語から自動情報抽出を容易にすることを目的としたGPT-4モデルと比較して,微調整KoELECTRAモデルの変換能力に焦点を当てた。 現在の研究状況は、通常表現に強く依存する伝統的な手法によって支配されており、凍結生検報告を含む操作記録の重要な詳細を含むフリースタイルのテキストフォーマットを処理する上で、しばしば課題に直面している。 これに対応するために、この研究は高度な自然言語処理(NLP)技術を活用し、より高度なデータ処理システムへのパラダイムシフトを促進する。 この比較研究を通じて、私たちは医療領域におけるドキュメント処理に対するより合理化され、正確で効率的なアプローチを公表し、医療データの扱い方や分析方法に革命をもたらすことを目標にしています。

In the rapidly evolving field of healthcare, the integration of artificial intelligence (AI) has become a pivotal component in the automation of clinical workflows, ushering in a new era of efficiency and accuracy. This study focuses on the transformative capabilities of the fine-tuned KoELECTRA model in comparison to the GPT-4 model, aiming to facilitate automated information extraction from thyroid operation narratives. The current research landscape is dominated by traditional methods heavily reliant on regular expressions, which often face challenges in processing free-style text formats containing critical details of operation records, including frozen biopsy reports. Addressing this, the study leverages advanced natural language processing (NLP) techniques to foster a paradigm shift towards more sophisticated data processing systems. Through this comparative study, we aspire to unveil a more streamlined, precise, and efficient approach to document processing in the healthcare domain, potentially revolutionizing the way medical data is handled and analyzed.
翻訳日:2024-06-13 18:05:32 公開日:2024-06-12
# オープン語彙キーワードスポッティングのストリーミングのためのCTC対応オーディオテキスト埋め込み

CTC-aligned Audio-Text Embedding for Streaming Open-vocabulary Keyword Spotting ( http://arxiv.org/abs/2406.07923v1 )

ライセンス: Link先を確認
Sichen Jin, Youngmoon Jung, Seungjin Lee, Jaeyoung Roh, Changwoo Han, Hoonyoung Cho, (参考訳) 本稿では,テキストベースのキーワード入力によるオープン語彙キーワードスポッティング(KWS)のストリーミング手法を提案する。 提案手法は,各入力フレームに対して,コネクショニスト時間分類(CTC)を用いてフレームの最適アライメント終了を求め,フレームレベルの音響埋め込み(AE)を集約して,ターゲットキーワードテキストのテキスト埋め込み(TE)と整合する高レベル(文字,単語,フレーズ)AEを求める。 その後、集約されたAEとTEの類似性を計算する。 我々の知る限り、これはKWSのための共同音声テキスト埋め込みを実現するために、音声とキーワードテキストをオンザフライで動的にアライメントする最初の試みである。 提案手法は, ストリーミング方式で運用されているにもかかわらず, 155Kモデルパラメータを持つ非ストリーミング手法と, U が推論時のターゲットキーワードの長さである時間複雑性 O(U) を持つ復号アルゴリズムと比較して, LibriPhrase データセットの競合性能を実現する。

This paper introduces a novel approach for streaming openvocabulary keyword spotting (KWS) with text-based keyword enrollment. For every input frame, the proposed method finds the optimal alignment ending at the frame using connectionist temporal classification (CTC) and aggregates the frame-level acoustic embedding (AE) to obtain higher-level (i.e., character, word, or phrase) AE that aligns with the text embedding (TE) of the target keyword text. After that, we calculate the similarity of the aggregated AE and the TE. To the best of our knowledge, this is the first attempt to dynamically align the audio and the keyword text on-the-fly to attain the joint audio-text embedding for KWS. Despite operating in a streaming fashion, our approach achieves competitive performance on the LibriPhrase dataset compared to the non-streaming methods with a mere 155K model parameters and a decoding algorithm with time complexity O(U), where U is the length of the target keyword at inference time.
翻訳日:2024-06-13 18:05:32 公開日:2024-06-12
# 時間グラフリンク予測のための効率的なニューラルコモンネバー

Efficient Neural Common Neighbor for Temporal Graph Link Prediction ( http://arxiv.org/abs/2406.07926v1 )

ライセンス: Link先を確認
Xiaohui Zhang, Yanbo Wang, Xiyuan Wang, Muhan Zhang, (参考訳) テンポラルグラフは、ソーシャルネットワーク、貿易、交通といった現実世界のシナリオにおいてユビキタスである。 時間グラフ内のノード間の動的リンクを予測することは極めて重要である。 従来の手法では、インタラクション履歴の時間的近傍を利用してまずノード埋め込みを生成し、それからソースとターゲットノードの埋め込みを集約してリンクを予測する。 しかし、これらの手法は個々のノード表現の学習に重点を置いているが、リンク予測のペアワイズ表現学習の性質を見落とし、CN(Common neighbors)のようなリンクの重要なペアワイズ特徴を捉えることができない。 静的グラフリンク予測におけるNeural Common Neighbor (NCN) の成功により、時間グラフにおけるリンク予測のためのNCNの時間バージョンである TNCN を提案する。 TNCNは、各ノードの時間的隣接辞書を動的に更新し、ソースとターゲットノード間のマルチホップ共通辞書を使用して、より効果的なペアワイズ表現を学習する。 我々は,TGB(Temporal Graph Benchmark)から得られた5つの大規模実世界のデータセットに対して,本モデルの有効性を検証する。 さらに、TNCNは大規模なデータセット上で優れたスケーラビリティを示し、人気の高いGNNベースラインを最大6.4倍の速度で上回っている。 私たちのコードはhttps: //github.com/GraphPKU/TNCNで利用可能です。

Temporal graphs are ubiquitous in real-world scenarios, such as social network, trade and transportation. Predicting dynamic links between nodes in a temporal graph is of vital importance. Traditional methods usually leverage the temporal neighborhood of interaction history to generate node embeddings first and then aggregate the source and target node embeddings to predict the link. However, such methods focus on learning individual node representations, but overlook the pairwise representation learning nature of link prediction and fail to capture the important pairwise features of links such as common neighbors (CN). Motivated by the success of Neural Common Neighbor (NCN) for static graph link prediction, we propose TNCN, a temporal version of NCN for link prediction in temporal graphs. TNCN dynamically updates a temporal neighbor dictionary for each node, and utilizes multi-hop common neighbors between the source and target node to learn a more effective pairwise representation. We validate our model on five large-scale real-world datasets from the Temporal Graph Benchmark (TGB), and find that it achieves new state-of-the-art performance on three of them. Additionally, TNCN demonstrates excellent scalability on large datasets, outperforming popular GNN baselines by up to 6.4 times in speed. Our code is available at https: //github.com/GraphPKU/TNCN.
翻訳日:2024-06-13 18:05:32 公開日:2024-06-12
# 信号変調認識深層学習モデルのためのジェネリック・レイヤ・プルーニング法

A Generic Layer Pruning Method for Signal Modulation Recognition Deep Learning Models ( http://arxiv.org/abs/2406.07929v1 )

ライセンス: Link先を確認
Yao Lu, Yutao Zhu, Yuqi Li, Dongwei Xu, Yun Lin, Qi Xuan, Xiaoniu Yang, (参考訳) 通信システムにおけるディープラーニングの適用が成功し、ディープニューラルネットワークが信号分類の方法として好まれるようになった。 これらのモデルは印象的な結果をもたらすが、しばしば高い計算複雑性と大きなモデルサイズが伴い、通信システムへの実践的な展開を妨げる。 この課題に対処するために,我々は新しい層プルーニング法を提案する。 具体的には、モデルを複数の連続ブロックに分解し、それぞれに類似のセマンティクスを持つ連続層を含む。 次に、各ブロック内に保持する必要があるレイヤを、そのコントリビューションに基づいて識別する。 最後に、切断されたブロックを再組み立てし、コンパクトモデルを微調整する。 5つのデータセットに対する広範囲な実験により,レイヤプルーニングやチャネルプルーニングなど,最先端のさまざまなベースラインに対する提案手法の有効性が実証された。

With the successful application of deep learning in communications systems, deep neural networks are becoming the preferred method for signal classification. Although these models yield impressive results, they often come with high computational complexity and large model sizes, which hinders their practical deployment in communication systems. To address this challenge, we propose a novel layer pruning method. Specifically, we decompose the model into several consecutive blocks, each containing consecutive layers with similar semantics. Then, we identify layers that need to be preserved within each block based on their contribution. Finally, we reassemble the pruned blocks and fine-tune the compact model. Extensive experiments on five datasets demonstrate the efficiency and effectiveness of our method over a variety of state-of-the-art baselines, including layer pruning and channel pruning methods.
翻訳日:2024-06-13 18:05:32 公開日:2024-06-12
# 埋め込み型プロンプトによる大規模言語モデル学習

Large Language Model Unlearning via Embedding-Corrupted Prompts ( http://arxiv.org/abs/2406.07933v1 )

ライセンス: Link先を確認
Chris Yuhao Liu, Yaxuan Wang, Jeffrey Flanigan, Yang Liu, (参考訳) 大規模言語モデル(LLM)は、様々な領域にわたる広範な知識を網羅するために進歩してきた。 しかし、大規模な言語モデルが知るべきでないものを制御することは、アライメントの確保と安全な使用のために重要である。 しかし, 保持と忘れのファジィ境界による副次的損傷や, 数十億のパラメータを持つ最先端モデルにまたがる最適化の膨大な計算要求により, LLMからの知識を正確かつ効率的に学習することは依然として困難である。 本研究では,大規模言語モデルのための軽量なアンラーニングフレームワークであるEmbedding-Corrupted (ECO) Promptsを紹介し,知識の絡み合いと非ラーニング効率の両方に対処する。 LLM自体を非学習に頼らず、私たちは推論中に未学習の状態を強制し、プロンプト分類器を使用して忘れるべきプロンプトを特定し、保護する。 推論中に分類器がフラグ付けした非学習対象のオフラインおよび不正なプロンプトに対して、ゼロ順最適化による埋め込みを促すために、汚職が加わったことを学習する。 その結果, 学習対象を満足させるだけでなく, 忘れることを意図したデータに基づいて訓練されたことのないモデルから得られる出力を, より正確に近似できることがわかった。 未学習に関する広範な実験を通じて、未学習に密接に関連する一般ドメインやドメインにおいて、ほぼゼロの副作用で有望な未学習を実現する上で、我々の方法の優位性を実証する。 さらに,本手法のスケーラビリティを0.5Bから236Bまでの100 LLMに強調し,パラメータ数が増加するにつれて追加コストは発生しないことを示した。

Large language models (LLMs) have advanced to encompass extensive knowledge across diverse domains. Yet controlling what a large language model should not know is important for ensuring alignment and thus safe use. However, accurately and efficiently unlearning knowledge from an LLM remains challenging due to the potential collateral damage caused by the fuzzy boundary between retention and forgetting, and the large computational requirements for optimization across state-of-the-art models with hundreds of billions of parameters. In this work, we present Embedding-COrrupted (ECO) Prompts, a lightweight unlearning framework for large language models to address both the challenges of knowledge entanglement and unlearning efficiency. Instead of relying on the LLM itself to unlearn, we enforce an unlearned state during inference by employing a prompt classifier to identify and safeguard prompts to forget. We learn corruptions added to prompt embeddings via zeroth order optimization toward the unlearning objective offline and corrupt prompts flagged by the classifier during inference. We find that these embedding-corrupted prompts not only lead to desirable outputs that satisfy the unlearning objective but also closely approximate the output from a model that has never been trained on the data intended for forgetting. Through extensive experiments on unlearning, we demonstrate the superiority of our method in achieving promising unlearning at nearly zero side effects in general domains and domains closely related to the unlearned ones. Additionally, we highlight the scalability of our method to 100 LLMs, ranging from 0.5B to 236B parameters, incurring no additional cost as the number of parameters increases.
翻訳日:2024-06-13 18:05:32 公開日:2024-06-12
# ヒト評価ガイドラインにおける脆弱性の定義と検出:信頼性NLG評価に向けた予備的研究

Defining and Detecting Vulnerability in Human Evaluation Guidelines: A Preliminary Study Towards Reliable NLG Evaluation ( http://arxiv.org/abs/2406.07935v1 )

ライセンス: Link先を確認
Jie Ruan, Wenqing Wang, Xiaojun Wan, (参考訳) 人間の評価は、自然言語生成(NLG)システムの品質を評価するための金の標準となっている。 それにもかかわらず、評価ガイドラインは信頼性と再現性のある人的評価を確実にする重要な要素として注目されており、我々の調査によると、トップカンファレンスにおける人的評価に関する最近の研究の29.84%のみが評価ガイドラインを公表し、これらのガイドラインの77.09%に脆弱性が特定されている。 信頼できない評価ガイドラインは、不正確な評価結果をもたらし、NLGの正しい方向への進歩を妨げる可能性がある。 これらの課題に対処するため,我々は,信頼性評価ガイドラインへの最初の一歩を踏み出し,既存の論文から抽出したガイドラインの注釈を収集し,Large Language Models (LLMs) を通じて生成する最初の人間評価ガイドラインデータセットを提案する。 次に,8つの脆弱性の分類を導入し,評価ガイドライン作成の原則を定式化する。 さらに,LSMを用いてガイドラインの脆弱性を検出する手法について検討し,人間の評価の信頼性を高めるためのレコメンデーションセットを提案する。 注釈付きヒト評価ガイドラインデータセットと脆弱性検出方法のコードはオンラインで公開されている。

Human evaluation serves as the gold standard for assessing the quality of Natural Language Generation (NLG) systems. Nevertheless, the evaluation guideline, as a pivotal element ensuring reliable and reproducible human assessment, has received limited attention.Our investigation revealed that only 29.84% of recent papers involving human evaluation at top conferences release their evaluation guidelines, with vulnerabilities identified in 77.09% of these guidelines. Unreliable evaluation guidelines can yield inaccurate assessment outcomes, potentially impeding the advancement of NLG in the right direction. To address these challenges, we take an initial step towards reliable evaluation guidelines and propose the first human evaluation guideline dataset by collecting annotations of guidelines extracted from existing papers as well as generated via Large Language Models (LLMs). We then introduce a taxonomy of eight vulnerabilities and formulate a principle for composing evaluation guidelines. Furthermore, a method for detecting guideline vulnerabilities has been explored using LLMs, and we offer a set of recommendations to enhance reliability in human evaluation. The annotated human evaluation guideline dataset and code for the vulnerability detection method are publicly available online.
翻訳日:2024-06-13 18:05:32 公開日:2024-06-12
# 現実世界のRustシステムでアンセーフなコードカプセル化を特徴付ける

Characterizing Unsafe Code Encapsulation In Real-world Rust Systems ( http://arxiv.org/abs/2406.07936v1 )

ライセンス: Link先を確認
Zihao Rao, Yiran Yang, Hui Xu, (参考訳) 内部アンセーフは、システムソフトウェア開発においてRustコミュニティによって提唱される重要な設計パラダイムである。 しかし、安全でないコードをカプセル化し、内部を安全でないものにする方法に関して、公式なガイダンスやベストプラクティスはほとんどない。 問題は、Rustコンパイラが安全でないコードを含む安全な関数の健全性を検証することができないためである。 内部の安全でない機能を安全に宣言することは、Rustの基本的なメモリ安全保証を損なう可能性がある。 この問題に対処するために,本稿では,非安全コードのカプセル化に関するRustコード設計をガイドするベストプラクティスの特定を目的とした,インテリアアンセーフの実現方法について検討する。 具体的には、安全でないコードの本質的な使用とカプセル化をモデル化するための、新しいアンセーフティアイソレーショングラフを提案する。 グラフに基づいて、グラフをいくつかの小さな自己完結部分グラフに分割する4つの主要な分離型と9つの構造パターンを提案する。 これらのサブグラフは、安全でないコードのカプセル化の健全性を調べるのに有用な監査ユニットとして機能する。 私たちは4つの現実のRustプロジェクトにアプローチを適用しました。 実験結果から,本手法はカプセル化コードの特徴付けに有効であることが示された。 さらに、これらのプロジェクトでは、音の検証を複雑にしたり、不協和性の問題を引き起こす可能性のある2つの一般的な問題を特定しました。

Interior unsafe is an essential design paradigm advocated by the Rust community in system software development. However, there is little official guidance or few best practices regarding how to encapsulate unsafe code and achieve interior unsafe. The problem is critical because the Rust compiler is incapable of verifying the soundness of a safe function containing unsafe code. Falsely declaring an interior unsafe function as safe may undermine the fundamental memory-safety guarantee of Rust. To address this issue, this paper studies how interior unsafe is achieved in practice, aiming to identify best practices to guide Rust code design concerning unsafe code encapsulation. Specifically, we propose a novel unsafety isolation graph to model the essential usage and encapsulation of unsafe code. Based on the graph, we further propose four major isolation types and nine structural patterns to split a graph into several small self-contained subgraphs. These subgraphs can serve as useful audit units for examining the soundness of unsafe code encapsulation. We applied our approach to four real-world Rust projects. The experimental results demonstrate that our method is effective in characterizing their encapsulation code. Additionally, we identified two common issues in these projects that could complicate soundness verification or incur unsoundness issues.
翻訳日:2024-06-13 18:05:32 公開日:2024-06-12
# IFTD:運転シーンにおけるループ検出のための画像特徴三角形記述子

IFTD: Image Feature Triangle Descriptor for Loop Detection in Driving Scenes ( http://arxiv.org/abs/2406.07937v1 )

ライセンス: Link先を確認
Fengtian Lang, Ruiye Ming, Zikang Yuan, Xin Yang, (参考訳) 本研究では,STD法に基づく高速で堅牢な画像特徴三角形記述子(IFTD)を提案する。 点雲のBEV投影画像からキーポイントを抽出し、これらのキーポイントを三角形記述子に構成する。 これらの特徴三角形をマッチングすることにより、正確な位置認識を実現し、2つのキーフレーム間での4-DOFポーズ推定を計算した。 さらに,画像類似度検査を用いて最終的な位置認識を行う。 3つの公開データセットによる実験結果から、我々のIFTDは計算オーバーヘッドの少ない最先端の手法よりも、より堅牢性と精度が高いことが示されている。

In this work, we propose a fast and robust Image Feature Triangle Descriptor (IFTD) based on the STD method, aimed at improving the efficiency and accuracy of place recognition in driving scenarios. We extract keypoints from BEV projection image of point cloud and construct these keypoints into triangle descriptors. By matching these feature triangles, we achieved precise place recognition and calculated the 4-DOF pose estimation between two keyframes. Furthermore, we employ image similarity inspection to perform the final place recognition. Experimental results on three public datasets demonstrate that our IFTD can achieve greater robustness and accuracy than state-of-the-art methods with low computational overhead.
翻訳日:2024-06-13 18:05:32 公開日:2024-06-12
# 測定不能なコントラストに対する単純かつシャープな感度解析

Simple yet Sharp Sensitivity Analysis for Any Contrast Under Unmeasured Confounding ( http://arxiv.org/abs/2406.07940v1 )

ライセンス: Link先を確認
Jose M. Peña, (参考訳) リスク比と差分コントラストの感度分析に関するこれまでの研究は、いかなるコントラストに対しても測定されていないコントラストの下で拡張した。 生成した境界が依然として任意にシャープであること、すなわち実際に達成可能であることを証明します。 実データによる境界のユーザビリティについて説明する。

We extend our previous work on sensitivity analysis for the risk ratio and difference contrasts under unmeasured confounding to any contrast. We prove that the bounds produced are still arbitrarily sharp, i.e. practically attainable. We illustrate the usability of the bounds with real data.
翻訳日:2024-06-13 18:05:32 公開日:2024-06-12
# DLLens: LLM支援合成によるディープラーニングライブラリのテスト

DLLens: Testing Deep Learning Libraries via LLM-aided Synthesis ( http://arxiv.org/abs/2406.07944v1 )

ライセンス: Link先を確認
Meiziniu Li, Dongze Li, Jianmeng Liu, Jialun Cao, Yongqiang Tian, Shing-Chi Cheung, (参考訳) テストは、ディープラーニング(DL)ライブラリの品質を保証するための主要なアプローチである。 既存のテスト技術では、テストオラクルの構築を緩和するために差分テストを採用するのが一般的である。 しかし、これらのテクニックは、同じ機能を提供し、差分テストのために多様なテストインプットを生成する実装を見つけることに限られている。 本稿では,DLライブラリテストのための新しい差分テスト手法であるDLLensを紹介する。 我々の洞察では、異なるDLライブラリのAPIは、一般的に、発行されたDLアルゴリズムと同じセットに対して様々な計算を行うように設計されている。 これらのAPIのマッピングは1対1ではないことが多いが、適切な構成と適応の後に、それらの計算を相互にシミュレートできることが観察されている。 これらのシミュレーションは、機能的なDLライブラリのバグを検出するための差分テストを容易にする。 そこで我々は,DLLensを大規模言語モデル(LLM)を用いて,DLライブラリAPIの有効な実装を合成する機構として提案する。 多様なテストインプットを生成するため、DLLensはLLMが支援する静的解析手法を導入し、各APIとその実装のすべての実行パスからパス制約を抽出する。 これらのパス制約は、様々なテストインプットの生成を導くのに使用される。 TensorFlowとPyTorchの2つの人気のあるDLライブラリ上でDLLensを評価する。 評価の結果,DLLensは,これらのライブラリの最先端技術による2倍以上のAPIを合成できることがわかった。 さらに、DLLensは26.7%の制約を抽出し、最先端技術の2.5倍のバグを検出することができる。 DLLensは最近のTensorFlowとPyTorchライブラリで56のバグを発見した。 その中の41は以前不明であり、そのうち39は報告後に開発者によって確認され、19は開発者が修正した。

Testing is a major approach to ensuring the quality of deep learning (DL) libraries. Existing testing techniques commonly adopt differential testing to relieve the need for test oracle construction. However, these techniques are limited in finding implementations that offer the same functionality and generating diverse test inputs for differential testing. This paper introduces DLLens, a novel differential testing technique for DL library testing. Our insight is that APIs in different DL libraries are commonly designed to accomplish various computations for the same set of published DL algorithms. Although the mapping of these APIs is not often one-to-one, we observe that their computations can be mutually simulated after proper composition and adaptation. The use of these simulation counterparts facilitates differential testing for the detection of functional DL library bugs. Leveraging the insight, we propose DLLens as a novel mechanism that utilizes a large language model (LLM) to synthesize valid counterparts of DL library APIs. To generate diverse test inputs, DLLens incorporates a static analysis method aided by LLM to extract path constraints from all execution paths in each API and its counterpart's implementations. These path constraints are then used to guide the generation of diverse test inputs. We evaluate DLLens on two popular DL libraries, TensorFlow and PyTorch. Our evaluation shows that DLLens can synthesize counterparts for more than twice as many APIs found by state-of-the-art techniques on these libraries. Moreover, DLLens can extract 26.7% more constraints and detect 2.5 times as many bugs as state-of-the-art techniques. DLLens has successfully found 56 bugs in recent TensorFlow and PyTorch libraries. Among them, 41 are previously unknown, 39 of which have been confirmed by developers after reporting, and 19 of those confirmed bugs have been fixed by developers.
翻訳日:2024-06-13 18:05:32 公開日:2024-06-12
# Ents: コミュニケーション最適化による決定木のための効率的な3要素学習フレームワーク

Ents: An Efficient Three-party Training Framework for Decision Trees by Communication Optimization ( http://arxiv.org/abs/2406.07948v1 )

ライセンス: Link先を確認
Guopeng Lin, Weili Han, Wenqiang Ruan, Ruisheng Zhou, Lushan Song, Bingshuai Li, Yunfeng Shao, (参考訳) セキュアなマルチパーティ計算に基づく意思決定ツリーのためのマルチパーティトレーニングフレームワークにより、複数のパーティが、プライバシ保護を備えた分散プライベートデータ上で、高性能モデルをトレーニングすることができる。 トレーニングプロセスは基本的に、分割基準に従って頻繁にデータセット分割を行う(e g Gini impurity)。 しかし,決定木に対する既存のマルチパーティトレーニングフレームワークは,(1)連続的な属性を持つデータセットを安全に分割する際の通信オーバーヘッドの増大に悩まされている。 2) 分割基準に対するセキュアな計算に適合するため, 大規模リング上でほぼ全ての計算を行うため, 通信オーバーヘッドの増大に悩まされる。 本稿では,コミュニケーション最適化による意思決定木のための効率的な3要素学習フレームワークであるEntsを提案する。 最初の問題として、セキュアなradixソートプロトコルに基づく一連のトレーニングプロトコルを提示し、データセットを連続的な属性で効率的に安全に分割する。 2つ目の問題として,大規模リング上でほぼ全ての計算を行うことで発生する通信オーバーヘッドを低減するために,小リングと大リング間で共有を変換する効率的な共有変換プロトコルを提案する。 8つの広く使われているデータセットによる実験結果によると、Entsは最先端のフレームワークを5.5\times \sim 9.3\times$と3.9\times \sim 5.3\times$で上回っている。 トレーニング時間の面では、Ents は $3.5\times \sim 6.7\times$ である。 その実用性を示すために、Entsは、WAN設定で245,000以上のサンプルを使用して、広く使用されている実世界のデータセット(Skin Segmentation)上で、決定ツリーをセキュアにトレーニングするのに3時間もかからない。

Multi-party training frameworks for decision trees based on secure multi-party computation enable multiple parties to train high-performance models on distributed private data with privacy preservation. The training process essentially involves frequent dataset splitting according to the splitting criterion (e.g. Gini impurity). However, existing multi-party training frameworks for decision trees demonstrate communication inefficiency due to the following issues: (1) They suffer from huge communication overhead in securely splitting a dataset with continuous attributes. (2) They suffer from huge communication overhead due to performing almost all the computations on a large ring to accommodate the secure computations for the splitting criterion. In this paper, we are motivated to present an efficient three-party training framework, namely Ents, for decision trees by communication optimization. For the first issue, we present a series of training protocols based on the secure radix sort protocols to efficiently and securely split a dataset with continuous attributes. For the second issue, we propose an efficient share conversion protocol to convert shares between a small ring and a large ring to reduce the communication overhead incurred by performing almost all the computations on a large ring. Experimental results from eight widely used datasets show that Ents outperforms state-of-the-art frameworks by $5.5\times \sim 9.3\times$ in communication sizes and $3.9\times \sim 5.3\times$ in communication rounds. In terms of training time, Ents yields an improvement of $3.5\times \sim 6.7\times$. To demonstrate its practicality, Ents requires less than three hours to securely train a decision tree on a widely used real-world dataset (Skin Segmentation) with more than 245,000 samples in the WAN setting.
翻訳日:2024-06-13 18:05:32 公開日:2024-06-12
# ゼロショットハイパースペクトル帯域選択のためのマルチ教師多目的メタラーニング

Multi-Teacher Multi-Objective Meta-Learning for Zero-Shot Hyperspectral Band Selection ( http://arxiv.org/abs/2406.07949v1 )

ライセンス: Link先を確認
Jie Feng, Xiaojian Zhong, Di Li, Weisheng Dong, Ronghua Shang, Licheng Jiao, (参考訳) 帯域選択は、冗長でノイズの多い帯域を除去し、差別的な帯域を維持することで、高スペクトル画像分類において重要な役割を担っている。 しかし,既存のディープラーニングベースの手法の多くは,特定の帯域選択データセットを扱うことを目的としており,その一般化可能性を大幅に制限する新たなデータセットのパラメータを再訓練する必要がある。この問題に対処するために,ゼロショットハイパースペクトル帯選択のための新しいマルチ教師型メタラーニングネットワーク(M$3$BS)を提案する。 M$3$BSでは、一般化可能なグラフ畳み込みネットワーク(GCN)を構築し、データセットに依存しないベースを生成し、複数のバンド選択タスクから互換性のあるメタ知識を抽出する。 メタ知識抽出の能力を高めるために、多様な高品質な体験を提供するために、複数のバンド選択教師を紹介した。 多目的メタラーニングは、様々な最適化目標を自動的に調整し、さまざまなデータセットに同時に適応することを保証する。 最適化が完了すると、取得したメタ知識は、トレーニングや微調整をすることなく、直接見えないデータセットに転送できる。 提案手法の有効性と有効性は,ゼロショットハイパースペクトル帯選択のための最先端ベースラインに匹敵することを示した。

Band selection plays a crucial role in hyperspectral image classification by removing redundant and noisy bands and retaining discriminative ones. However, most existing deep learning-based methods are aimed at dealing with a specific band selection dataset, and need to retrain parameters for new datasets, which significantly limits their generalizability.To address this issue, a novel multi-teacher multi-objective meta-learning network (M$^3$BS) is proposed for zero-shot hyperspectral band selection. In M$^3$BS, a generalizable graph convolution network (GCN) is constructed to generate dataset-agnostic base, and extract compatible meta-knowledge from multiple band selection tasks. To enhance the ability of meta-knowledge extraction, multiple band selection teachers are introduced to provide diverse high-quality experiences.strategy Finally, subsequent classification tasks are attached and jointly optimized with multi-teacher band selection tasks through multi-objective meta-learning in an end-to-end trainable way. Multi-objective meta-learning guarantees to coordinate diverse optimization objectives automatically and adapt to various datasets simultaneously. Once the optimization is accomplished, the acquired meta-knowledge can be directly transferred to unseen datasets without any retraining or fine-tuning. Experimental results demonstrate the effectiveness and efficiency of our proposed method on par with state-of-the-art baselines for zero-shot hyperspectral band selection.
翻訳日:2024-06-13 18:05:32 公開日:2024-06-12
# DemosaicFormer:ハイブリッドEVSカメラのための粗大なデモサイジングネットワーク

DemosaicFormer: Coarse-to-Fine Demosaicing Network for HybridEVS Camera ( http://arxiv.org/abs/2406.07951v1 )

ライセンス: Link先を確認
Senyan Xu, Zhijing Sun, Jiaying Zhu, Yurui Zhu, Xueyang Fu, Zheng-Jun Zha, (参考訳) Hybrid Event-Based Vision Sensor (HybridEVS)は、従来のフレームベースとイベントベースのセンサーを統合した、新しいセンサーである。 その可能性にもかかわらず、ハイブリッドEVS用に特別に設計された画像信号処理(ISP)パイプラインの欠如は大きな課題である。 本研究では,この課題に対処するために,粗い復調と画素補正を含むDemosaicFormerという,粗い微細化フレームワークを提案する。 粗解像ネットワークは、HybridEVSの生データからRGB画像の予備的な高品質な推定値を生成するように設計され、画素補正ネットワークは画像復元性能を高め、欠陥画素の影響を軽減する。 私たちの重要な革新は、多スケールゲーティングモジュール(MSGM)の設計で、異なるスケール間で機能情報を流すことができるような、クロススケール機能の統合を適用しています。 さらに、プログレッシブトレーニングとデータ拡張戦略の採用により、モデルの堅牢性と有効性はさらに向上する。 実験の結果,従来の手法に比べて質的にも視覚的にも優れた性能を示し,MIPI 2024におけるハイブリドレフカメラのMIPI 2024課題における評価指標のすべてにおいて,私たちのDemosaicFormerは最高の性能を達成している。 コードはhttps://github.com/QUEAHREN/DemosaicFormer.comで入手できる。

Hybrid Event-Based Vision Sensor (HybridEVS) is a novel sensor integrating traditional frame-based and event-based sensors, offering substantial benefits for applications requiring low-light, high dynamic range, and low-latency environments, such as smartphones and wearable devices. Despite its potential, the lack of Image signal processing (ISP) pipeline specifically designed for HybridEVS poses a significant challenge. To address this challenge, in this study, we propose a coarse-to-fine framework named DemosaicFormer which comprises coarse demosaicing and pixel correction. Coarse demosaicing network is designed to produce a preliminary high-quality estimate of the RGB image from the HybridEVS raw data while the pixel correction network enhances the performance of image restoration and mitigates the impact of defective pixels. Our key innovation is the design of a Multi-Scale Gating Module (MSGM) applying the integration of cross-scale features, which allows feature information to flow between different scales. Additionally, the adoption of progressive training and data augmentation strategies further improves model's robustness and effectiveness. Experimental results show superior performance against the existing methods both qualitatively and visually, and our DemosaicFormer achieves the best performance in terms of all the evaluation metrics in the MIPI 2024 challenge on Demosaic for Hybridevs Camera. The code is available at https://github.com/QUEAHREN/DemosaicFormer.
翻訳日:2024-06-13 18:05:32 公開日:2024-06-12
# 医用画像分割のための空間周波数デュアルプログレッシブアテンションネットワーク

Spatial-Frequency Dual Progressive Attention Network For Medical Image Segmentation ( http://arxiv.org/abs/2406.07952v1 )

ライセンス: Link先を確認
Zhenhuan Zhou, Along He, Yanlin Wu, Rui Yao, Xueshuo Xie, Tao Li, (参考訳) 医用画像では、様々な種類の病変が、形状やテクスチャに顕著な違いを呈することが多い。 正確な医用画像セグメンテーションは、マルチスケールおよびバウンダリの特徴学習において堅牢な機能を持つディープラーニングモデルを必要とする。 しかし、以前のネットワークは上記の問題に対処する際の制限がある。 まず、従来のネットワークが同時にマルチレベル機能を融合させたり、より深い監視を施してマルチスケール学習を強化する。 しかし、これは特徴的冗長性と過剰な計算オーバーヘッドをもたらす可能性があり、これはネットワークトレーニングや臨床展開には影響しない。 第2に、医用画像分割ネットワークの大多数は、周波数領域における豊富なグローバル情報を無視して、空間領域の特徴のみを学習する。 この結果、低周波成分への偏りが生じ、重要な高周波情報を無視する。 これらの問題に対処するために、空間周波数デュアルドメインアテンションネットワークであるSF-UNetを導入する。 マルチスケールプログレッシブ・チャンネル・アテンション(MPCA)ブロックは、隣接するエンコーダ層にまたがるマルチスケールの特徴を徐々に抽出し、軽量な周波数空間アテンション(FSA)ブロックはわずか0.05Mパラメータで、空間領域と周波数領域の両方からテクスチャとバウンダリの同時学習を可能にする。 提案するSF-UNetの3つの公開データセットに対する有効性を検証する。 実験の結果,従来のSOTA (State-of-the-art Medical Image segmentation Network) と比較して,SF-UNetは最高の性能を示し,DSCとIOUでは最大9.4\%,10.78\%の改善が達成された。 コードはhttps://github.com/nkicsl/SF-UNet.comでリリースされる。

In medical images, various types of lesions often manifest significant differences in their shape and texture. Accurate medical image segmentation demands deep learning models with robust capabilities in multi-scale and boundary feature learning. However, previous networks still have limitations in addressing the above issues. Firstly, previous networks simultaneously fuse multi-level features or employ deep supervision to enhance multi-scale learning. However, this may lead to feature redundancy and excessive computational overhead, which is not conducive to network training and clinical deployment. Secondly, the majority of medical image segmentation networks exclusively learn features in the spatial domain, disregarding the abundant global information in the frequency domain. This results in a bias towards low-frequency components, neglecting crucial high-frequency information. To address these problems, we introduce SF-UNet, a spatial-frequency dual-domain attention network. It comprises two main components: the Multi-scale Progressive Channel Attention (MPCA) block, which progressively extract multi-scale features across adjacent encoder layers, and the lightweight Frequency-Spatial Attention (FSA) block, with only 0.05M parameters, enabling concurrent learning of texture and boundary features from both spatial and frequency domains. We validate the effectiveness of the proposed SF-UNet on three public datasets. Experimental results show that compared to previous state-of-the-art (SOTA) medical image segmentation networks, SF-UNet achieves the best performance, and achieves up to 9.4\% and 10.78\% improvement in DSC and IOU. Codes will be released at https://github.com/nkicsl/SF-UNet.
翻訳日:2024-06-13 18:05:32 公開日:2024-06-12
# DPSW-Sketch:スライディングウィンドウ上での周波数推定のための微分プライベートスケッチフレームワーク(技術的報告)

DPSW-Sketch: A Differentially Private Sketch Framework for Frequency Estimation over Sliding Windows (Technical Report) ( http://arxiv.org/abs/2406.07953v1 )

ライセンス: Link先を確認
Yiping Wang, Yanhao Wang, Cen Chen, (参考訳) 計算のスライディングウィンドウモデルは、データがストリームの形式で継続的に到着するシナリオをキャプチャし、分析に使用されるのは最新の$w$アイテムのみである。 この設定では、小さな空間を用いてスライディングウィンドウ上で所望の統計を正確に追跡する必要がある。 データストリームが個人に関する機密情報を含んでいる場合、このアルゴリズムは、証明可能なプライバシー保証を提供するために緊急に必要である。 本稿では,(1)任意の項目の頻度を推定し,(2)最も頻繁な項目(例えば \emph{heavy Hitters} )をスライディングウィンドウモデルで同定する,という2つの基本的な問題に焦点をあてる。 我々は,ストリーム上の差分プライバシーを満足するだけでなく,サブ線形時間と空間w.r.t.~$w$の有界エラーにおける周波数および重ヒッタクエリの結果を近似する,カウントミンスケッチに基づくスライディングウィンドウフレームワークである‘textsc{DPSW-Sketch} を提案する。 5つの実世界および合成データセットに対する大規模な実験により、 \textsc{DPSW-Sketch} は最先端の手法よりもはるかに優れたユーティリティプライバシトレードオフを提供することが示された。

The sliding window model of computation captures scenarios in which data are continually arriving in the form of a stream, and only the most recent $w$ items are used for analysis. In this setting, an algorithm needs to accurately track some desired statistics over the sliding window using a small space. When data streams contain sensitive information about individuals, the algorithm is also urgently needed to provide a provable guarantee of privacy. In this paper, we focus on the two fundamental problems of privately (1) estimating the frequency of an arbitrary item and (2) identifying the most frequent items (i.e., \emph{heavy hitters}), in the sliding window model. We propose \textsc{DPSW-Sketch}, a sliding window framework based on the count-min sketch that not only satisfies differential privacy over the stream but also approximates the results for frequency and heavy-hitter queries within bounded errors in sublinear time and space w.r.t.~$w$. Extensive experiments on five real-world and synthetic datasets show that \textsc{DPSW-Sketch} provides significantly better utility-privacy trade-offs than state-of-the-art methods.
翻訳日:2024-06-13 18:05:32 公開日:2024-06-12
# 2024 SaTML LLM Capture-the-Flagコンペティションから学んだデータセットと教訓

Dataset and Lessons Learned from the 2024 SaTML LLM Capture-the-Flag Competition ( http://arxiv.org/abs/2406.07954v1 )

ライセンス: Link先を確認
Edoardo Debenedetti, Javier Rando, Daniel Paleka, Silaghi Fineas Florin, Dragos Albastroiu, Niv Cohen, Yuval Lemberg, Reshmi Ghosh, Rui Wen, Ahmed Salem, Giovanni Cherubin, Santiago Zanella-Beguelin, Robin Schmid, Victor Klemm, Takahiro Miki, Chenhao Li, Stefan Kraft, Mario Fritz, Florian Tramèr, Sahar Abdelnabi, Lea Schönherr, (参考訳) 大規模言語モデルシステムは、システムのオリジナルの命令を上書きしたり、プライベートデータをリークすることを目的とした悪意のあるメッセージから重要なセキュリティリスクに直面している。 この問題を調査するため、IEEE SaTML 2024において、フラグがLLMシステムプロンプトの秘密文字列であるキャプチャー・ザ・フラッグ・コンペティションを組織した。 大会は2つの段階に分かれた。 第1フェーズでは、モデルが秘密を漏らすのを防ぐために、チームが防御を開発しました。 第2フェーズでは、チームは他のチームが提案した防衛のために隠された秘密を抽出するよう求められた。 このレポートは、競争の主な洞察を要約している。 とくに、すべての防衛は少なくとも一度はバイパスされ、防衛を成功させることの難しさと、LLMシステムを保護するための追加研究の必要性が浮き彫りにされた。 この方向への今後の研究を促進するため、我々は137万以上のマルチターンアタックチャットでデータセットをコンパイルし、プラットフォームをオープンソース化した。

Large language model systems face important security risks from maliciously crafted messages that aim to overwrite the system's original instructions or leak private data. To study this problem, we organized a capture-the-flag competition at IEEE SaTML 2024, where the flag is a secret string in the LLM system prompt. The competition was organized in two phases. In the first phase, teams developed defenses to prevent the model from leaking the secret. During the second phase, teams were challenged to extract the secrets hidden for defenses proposed by the other teams. This report summarizes the main insights from the competition. Notably, we found that all defenses were bypassed at least once, highlighting the difficulty of designing a successful defense and the necessity for additional research to protect LLM systems. To foster future research in this direction, we compiled a dataset with over 137k multi-turn attack chats and open-sourced the platform.
翻訳日:2024-06-13 17:55:44 公開日:2024-06-12
# グラフニューラルネットワークはどのように解釈可能か?

How Interpretable Are Interpretable Graph Neural Networks? ( http://arxiv.org/abs/2406.07955v1 )

ライセンス: Link先を確認
Yongqiang Chen, Yatao Bian, Bo Han, James Cheng, (参考訳) グラフ構造化データを含む様々な科学的応用において、解釈可能なグラフニューラルネットワーク(XGNN)が広く採用されている。 既存のXGNNは、解釈可能な部分グラフを抽出し、予測するためにエッジやノードの重要度を学習するアテンションベースのメカニズムを主に採用している。 しかし、これらの方法の表現的性質と制限はいまだに不十分である。 本稿では,サブグラフ分布のマルチ線形拡張を,サブグラフ多重線形拡張(SubMT)として定義した,解釈可能なサブグラフ学習を定式化する理論的枠組みを提案する。 所望の解釈可能な部分グラフを抽出するには SubMT の正確な近似が必要であるが,既存の XGNN は SubMT の適合に大きなギャップがある。 結果として、SubMT近似の失敗は、抽出された部分グラフの退化解釈可能性をもたらす。 この問題を軽減するため,我々は新しいXGNNアーキテクチャである Graph Multilinear neT (GMT) を設計した。 我々はいくつかのグラフ分類ベンチマークで理論的知見を実証的に検証した。 その結果、GMTは12の正規および幾何グラフベンチマークにおいて、解釈可能性と一般化性の両方の観点から、最先端の処理性能を最大10%向上させることを示した。

Interpretable graph neural networks (XGNNs ) are widely adopted in various scientific applications involving graph-structured data. Existing XGNNs predominantly adopt the attention-based mechanism to learn edge or node importance for extracting and making predictions with the interpretable subgraph. However, the representational properties and limitations of these methods remain inadequately explored. In this work, we present a theoretical framework that formulates interpretable subgraph learning with the multilinear extension of the subgraph distribution, coined as subgraph multilinear extension (SubMT). Extracting the desired interpretable subgraph requires an accurate approximation of SubMT, yet we find that the existing XGNNs can have a huge gap in fitting SubMT. Consequently, the SubMT approximation failure will lead to the degenerated interpretability of the extracted subgraphs. To mitigate the issue, we design a new XGNN architecture called Graph Multilinear neT (GMT), which is provably more powerful in approximating SubMT. We empirically validate our theoretical findings on a number of graph classification benchmarks. The results demonstrate that GMT outperforms the state-of-the-art up to 10% in terms of both interpretability and generalizability across 12 regular and geometric graph benchmarks.
翻訳日:2024-06-13 17:55:44 公開日:2024-06-12
# クラスアソシエーション埋め込みを用いた画像分類器の正確な説明モデル

Accurate Explanation Model for Image Classifiers using Class Association Embedding ( http://arxiv.org/abs/2406.07961v1 )

ライセンス: Link先を確認
Ruitao Xie, Jingbang Chen, Limai Jiang, Rui Xiao, Yi Pan, Yunpeng Cai, (参考訳) 画像分類は、様々なアプリケーションにおいて説明可能なモデルが決定的に要求される、データ分析における主要なタスクである。 ブラックボックス分類器から説明可能な知識を得るための多くの手法が提案されているが、これらの手法は分類タスクに関するグローバルな知識を抽出する効率を欠いているため、局所トラップに弱いため、しばしば精度が低下する。 本研究では,画像分類器を説明するためのグローバル知識とローカル知識の利点を組み合わせた生成的説明モデルを提案する。 クラス関連埋め込み(CAE)と呼ばれる表現学習手法を開発し,各サンプルを2つのクラス関連コードと個別コードにエンコードする。 与えられたサンプルの個別コードを変更されたクラス関連コードで再結合すると、保存された個々の文字を持つ合成リアルなサンプルになるが、修正されたクラス関連機能と、おそらくはフリップされたクラス割り当てがある。 クラス関連特徴を個々の特徴から効率的に分離するビルディングブロック・コヒーレンシー特徴抽出アルゴリズムを提案する。 抽出された特徴空間は、分類決定パターンを視覚化する低次元多様体を形成する。 各サンプルに関する説明は、分類結果が変わるまで、そのクラス関連コードをガイドパスに沿ってシフトさせることで、サンプルを1方向に連続的に修正する対実生成方式で達成することができる。 本研究では,画像分類タスクをサリエンシマップの形で説明するための最先端の手法と比較し,高い精度を達成できることを実証する。 コードはhttps://github.com/xrt11/XAI-CODEで公開されている。

Image classification is a primary task in data analysis where explainable models are crucially demanded in various applications. Although amounts of methods have been proposed to obtain explainable knowledge from the black-box classifiers, these approaches lack the efficiency of extracting global knowledge regarding the classification task, thus is vulnerable to local traps and often leads to poor accuracy. In this study, we propose a generative explanation model that combines the advantages of global and local knowledge for explaining image classifiers. We develop a representation learning method called class association embedding (CAE), which encodes each sample into a pair of separated class-associated and individual codes. Recombining the individual code of a given sample with altered class-associated code leads to a synthetic real-looking sample with preserved individual characters but modified class-associated features and possibly flipped class assignments. A building-block coherency feature extraction algorithm is proposed that efficiently separates class-associated features from individual ones. The extracted feature space forms a low-dimensional manifold that visualizes the classification decision patterns. Explanation on each individual sample can be then achieved in a counter-factual generation manner which continuously modifies the sample in one direction, by shifting its class-associated code along a guided path, until its classification outcome is changed. We compare our method with state-of-the-art ones on explaining image classification tasks in the form of saliency maps, demonstrating that our method achieves higher accuracies. The code is available at https://github.com/xrt11/XAI-CODE.
翻訳日:2024-06-13 17:55:44 公開日:2024-06-12
# 自然言語記述から能力オントロジーを生成する方法に向けて

Toward a Method to Generate Capability Ontologies from Natural Language Descriptions ( http://arxiv.org/abs/2406.07962v1 )

ライセンス: Link先を確認
Luis Miguel Vieira da Silva, Aljosha Köcher, Felix Gehlhoff, Alexander Fay, (参考訳) フレキシブルで適応的なシステムを実現するために、機能オントロジーは機械解釈可能な方法で関数を記述するためにますます活用されている。 しかし、そのような複雑な存在論的な記述をモデル化することは、まだ手作業とエラーを起こしやすい作業であり、かなりの労力とオントロジーの専門知識を必要とする。 この貢献は、大規模言語モデル(LLM)を用いた能力オントロジーモデリングを自動化する革新的な方法を示し、そのようなタスクに適していることが証明された。 提案手法では,数発のプロンプト技術を用いて事前に定義されたプロンプトに自動的に挿入される機能について,自然言語で記述するだけでよい。 LLMをプロンプトした後、結果として生じる能力オントロジーはLLMとループの様々なステップを通して自動的に検証され、能力オントロジーの全体的な正しさをチェックする。 まず、構文チェックを行い、矛盾点のチェックを行い、最後に幻覚とオントロジーの要素のチェックを行う。 提案手法は,初期自然言語記述と最終人文レビューと修正が可能なため,手作業を大幅に削減し,オントロジー生成プロセスの合理化を図る。

To achieve a flexible and adaptable system, capability ontologies are increasingly leveraged to describe functions in a machine-interpretable way. However, modeling such complex ontological descriptions is still a manual and error-prone task that requires a significant amount of effort and ontology expertise. This contribution presents an innovative method to automate capability ontology modeling using Large Language Models (LLMs), which have proven to be well suited for such tasks. Our approach requires only a natural language description of a capability, which is then automatically inserted into a predefined prompt using a few-shot prompting technique. After prompting an LLM, the resulting capability ontology is automatically verified through various steps in a loop with the LLM to check the overall correctness of the capability ontology. First, a syntax check is performed, then a check for contradictions, and finally a check for hallucinations and missing ontology elements. Our method greatly reduces manual effort, as only the initial natural language description and a final human review and possible correction are necessary, thereby streamlining the capability ontology generation process.
翻訳日:2024-06-13 17:55:44 公開日:2024-06-12
# 多国籍シナリオによる政治リーン推論

Political Leaning Inference through Plurinational Scenarios ( http://arxiv.org/abs/2406.07964v1 )

ライセンス: Link先を確認
Joseba Fernandez de Landa, Rodrigo Agerri, (参考訳) ソーシャルメディア利用者は、他のユーザーとの交流、自発的な宣言、あるいはネットワーク内のコミュニティへの参加を通じて、政治的嗜好を表現する。 これにより、Twitterのようなソーシャルネットワークは、政治学習推論に対する計算科学のアプローチを研究する上で、貴重なデータソースとなる。 本研究は,スペインの3つの地域(バスク州,カタルーニャ州,ガリシア州)に焦点を当て,多党派分類の様々な方法を探究する。 我々は、リツイートから得られた教師なしユーザ表現と、その後の政治的傾き検出に使用される2段階の手法を用いる。 ラベル付きユーザとそれらのインタラクションからなる新たに収集およびキュレートされたデータセットに対する総合的な実験は、限定的なトレーニングデータであっても、バイナリとマルチパーティの両方のフレームワークにおける政治的イデオロギー検出の表現方法としてリレーショナル・エンベディングを使うことの有効性を実証する。 最後に、データビジュアライゼーションは、複雑なグループ内およびグループ間の政治的親和性をキャプチャするリレーショナル・エンベディングの能力を示している。

Social media users express their political preferences via interaction with other users, by spontaneous declarations or by participation in communities within the network. This makes a social network such as Twitter a valuable data source to study computational science approaches to political learning inference. In this work we focus on three diverse regions in Spain (Basque Country, Catalonia and Galicia) to explore various methods for multi-party categorization, required to analyze evolving and complex political landscapes, and compare it with binary left-right approaches. We use a two-step method involving unsupervised user representations obtained from the retweets and their subsequent use for political leaning detection. Comprehensive experimentation on a newly collected and curated dataset comprising labeled users and their interactions demonstrate the effectiveness of using Relational Embeddings as representation method for political ideology detection in both binary and multi-party frameworks, even with limited training data. Finally, data visualization illustrates the ability of the Relational Embeddings to capture intricate intra-group and inter-group political affinities.
翻訳日:2024-06-13 17:55:44 公開日:2024-06-12
# Coherence-based Label Generator and Cooperative Unfolding Networkによる実世界のデハジング

Real-world Image Dehazing with Coherence-based Label Generator and Cooperative Unfolding Network ( http://arxiv.org/abs/2406.07966v1 )

ライセンス: Link先を確認
Chengyu Fang, Chunming He, Fengyang Xiao, Yulun Zhang, Longxiang Tang, Yuelin Zhang, Kai Li, Xiu Li, (参考訳) 実世界のイメージデハジング(RID)は、実世界の環境におけるヘイズによる劣化を軽減することを目的としている。 この課題は、実際のヘイズ分布を正確にモデル化する複雑さと、ペア化された実世界のデータの不足のため、依然として困難である。 これらの課題に対処するために、我々はまず、大気散乱と画像シーンを協調的にモデル化し、物理的知識を深層ネットワークに効果的に統合して、ヘイズ汚染した詳細を復元する、協調展開ネットワークを導入する。 さらに、ネットワークトレーニングのための高品質な擬似ラベルを生成するために、Coherence-based Label Generatorと呼ばれる最初のRID指向反復型平均教師フレームワークを提案する。 具体的には、ネットワークトレーニング中に最適な擬似ラベルを格納するための最適なラベルプールを提供し、グローバルなコヒーレンスとローカルなコヒーレンスを利用して高品質な候補を選定し、ハイウェイトを優先してヘイズフリー領域を優先順位付けする。 提案手法の有効性を検証し,RIDタスクにおける最先端性能を実現する実験を行った。 コードは \url{https://github.com/cnyvfang/CORUN-Colabator} で入手できる。

Real-world Image Dehazing (RID) aims to alleviate haze-induced degradation in real-world settings. This task remains challenging due to the complexities in accurately modeling real haze distributions and the scarcity of paired real-world data. To address these challenges, we first introduce a cooperative unfolding network that jointly models atmospheric scattering and image scenes, effectively integrating physical knowledge into deep networks to restore haze-contaminated details. Additionally, we propose the first RID-oriented iterative mean-teacher framework, termed the Coherence-based Label Generator, to generate high-quality pseudo labels for network training. Specifically, we provide an optimal label pool to store the best pseudo-labels during network training, leveraging both global and local coherence to select high-quality candidates and assign weights to prioritize haze-free regions. We verify the effectiveness of our method, with experiments demonstrating that it achieves state-of-the-art performance on RID tasks. Code will be available at \url{https://github.com/cnyvfang/CORUN-Colabator}.
翻訳日:2024-06-13 17:55:44 公開日:2024-06-12
# ランダムよりも優れた: 制限付きアクティブサンプリングによる信頼性の高いNLG人的評価

Better than Random: Reliable NLG Human Evaluation with Constrained Active Sampling ( http://arxiv.org/abs/2406.07967v1 )

ライセンス: Link先を確認
Jie Ruan, Xiao Pu, Mingqi Gao, Xiaojun Wan, Yuesheng Zhu, (参考訳) 人的評価は高価で時間を要するNLGの評価手法として信頼性が高いと考えられる。 労力とコストを節約するために、研究者は通常、データセット全体からサンプリングされたデータの小さなサブセットに対して、人間による評価を行う。 しかし、異なる選択サブセットはシステムの異なるランキングにつながる。 より正確なシステム間ランキングを与え, 金本位評価をより信頼性の高いものにするため, 信頼性の高い人的判断のための制約付きアクティブサンプリングフレームワーク(CASF)を提案する。 CASFは、Learner、Systematic Sampler、Constrained Controllerを通じて、より正確なシステム間ランキングを得るための代表的サンプルを選択する。137個の実NLG評価セットの実験結果、16のデータセットと5つのNLGタスクにわたる44の人的評価指標で、CASFは93.18%のシステム認識精度を受け取り、システム間ランキング0.83の人的指標の90.91%で第1位または第2位にランク付けされている。

Human evaluation is viewed as a reliable evaluation method for NLG which is expensive and time-consuming. To save labor and costs, researchers usually perform human evaluation on a small subset of data sampled from the whole dataset in practice. However, different selection subsets will lead to different rankings of the systems. To give a more correct inter-system ranking and make the gold standard human evaluation more reliable, we propose a Constrained Active Sampling Framework (CASF) for reliable human judgment. CASF operates through a Learner, a Systematic Sampler and a Constrained Controller to select representative samples for getting a more correct inter-system ranking.Experiment results on 137 real NLG evaluation setups with 44 human evaluation metrics across 16 datasets and 5 NLG tasks demonstrate CASF receives 93.18% top-ranked system recognition accuracy and ranks first or ranks second on 90.91% of the human metrics with 0.83 overall inter-system ranking Kendall correlation.Code and data are publicly available online.
翻訳日:2024-06-13 17:55:44 公開日:2024-06-12
# LibriTTS-P:テキスト音声とスタイルキャプションのための話し方と話者識別プロンプト付きコーパス

LibriTTS-P: A Corpus with Speaking Style and Speaker Identity Prompts for Text-to-Speech and Style Captioning ( http://arxiv.org/abs/2406.07969v1 )

ライセンス: Link先を確認
Masaya Kawamura, Ryuichi Yamamoto, Yuma Shirahata, Takuya Hasumi, Kentaro Tachibana, (参考訳) 我々は、LibriTTS-Rに基づく新しいコーパスであるLibriTTS-Pを紹介し、発話スタイルの発話レベル記述(即ち、プロンプト)と話者特性の話者レベルプロンプトを含む。 提案手法は,(1)話者特性の人間の知覚を捉える手動アノテーション,(2)話し方に関する合成アノテーションである。 既存の英語のプロンプトデータセットと比較して、私たちのコーパスはLibriTTS-Rの全話者に対してより多様なプロンプトアノテーションを提供します。 プロンプトベース制御可能なTSモデルの実験結果から、LibriTTS-Pで訓練されたTSモデルは、従来のデータセットを用いたモデルよりも自然性が高いことを示した。 さらに, スタイルキャプションタスクの結果から, LibriTTS-P を用いたモデルは, 従来のデータセットを用いたモデルよりも2.5倍正確な単語を生成することがわかった。 当社の企業である LibriTTS-P は https://github.com/line/LibriTTS-P で利用可能です。

We introduce LibriTTS-P, a new corpus based on LibriTTS-R that includes utterance-level descriptions (i.e., prompts) of speaking style and speaker-level prompts of speaker characteristics. We employ a hybrid approach to construct prompt annotations: (1) manual annotations that capture human perceptions of speaker characteristics and (2) synthetic annotations on speaking style. Compared to existing English prompt datasets, our corpus provides more diverse prompt annotations for all speakers of LibriTTS-R. Experimental results for prompt-based controllable TTS demonstrate that the TTS model trained with LibriTTS-P achieves higher naturalness than the model using the conventional dataset. Furthermore, the results for style captioning tasks show that the model utilizing LibriTTS-P generates 2.5 times more accurate words than the model using a conventional dataset. Our corpus, LibriTTS-P, is available at https://github.com/line/LibriTTS-P.
翻訳日:2024-06-13 17:55:44 公開日:2024-06-12
# 機械翻訳の品質評価によるLLMの文脈内学習の指導

Guiding In-Context Learning of LLMs through Quality Estimation for Machine Translation ( http://arxiv.org/abs/2406.07970v1 )

ライセンス: Link先を確認
Javad Pourmostafa Roshan Sharami, Dimitar Shterionov, Pieter Spronck, (参考訳) 大規模言語モデル(LLM)からの出力の質は、特に機械翻訳(MT)において、クエリと共に提供される文脈内例(ICE)の品質と密接に関連している。 これらのICEの有効性は、ソーステキストのドメイン、ICEが提示される順序、サンプルの数、使用するプロンプトテンプレートなど、さまざまな要因に影響される。 当然、最も影響力のあるICEを選択することは、結果の翻訳品質にどのように影響するかを理解することに依存します。 本稿では,ドメイン固有品質推定(QE)によって導かれる探索アルゴリズムに依存する,コンテキスト内学習(ICL)の新しい手法を提案する。 提案手法では,XGLMモデルを用いて翻訳基準を必要とせずに翻訳品質を推定し,翻訳品質を最大化するためにMTに有効なICEを選択する。 その結果,既存のICL法と翻訳性能は,事前学習言語モデル(PLM),特にmBART-50の微調整に比べて大幅に向上した。

The quality of output from large language models (LLMs), particularly in machine translation (MT), is closely tied to the quality of in-context examples (ICEs) provided along with the query, i.e., the text to translate. The effectiveness of these ICEs is influenced by various factors, such as the domain of the source text, the order in which the ICEs are presented, the number of these examples, and the prompt templates used. Naturally, selecting the most impactful ICEs depends on understanding how these affect the resulting translation quality, which ultimately relies on translation references or human judgment. This paper presents a novel methodology for in-context learning (ICL) that relies on a search algorithm guided by domain-specific quality estimation (QE). Leveraging the XGLM model, our methodology estimates the resulting translation quality without the need for translation references, selecting effective ICEs for MT to maximize translation quality. Our results demonstrate significant improvements over existing ICL methods and higher translation performance compared to fine-tuning a pre-trained language model (PLM), specifically mBART-50.
翻訳日:2024-06-13 17:55:44 公開日:2024-06-12
# RLHFにおけるリワードと政策モデル間のシームレス性について

It Takes Two: On the Seamlessness between Reward and Policy Model in RLHF ( http://arxiv.org/abs/2406.07971v1 )

ライセンス: Link先を確認
Taiming Lu, Lingfeng Shen, Xinyu Yang, Weiting Tan, Beidi Chen, Huaxiu Yao, (参考訳) ヒューマンフィードバックからの強化学習(Reinforcement Learning from Human Feedback、RLHF)は、言語モデルと人間の好みを合わせるためのトレーニングポリシーモデル(PM)と報酬モデル(RM)を含む。 PMとRMを独立に焦点をあてるのではなく、微調整中の相互作用を検証し、シームレス性の概念を導入することを提案する。 本研究は、RMとPMの連続的な改善がRLHFの進行に変換されない飽和現象を観察することから始まる。 分析の結果, RMはPM応答に適切なスコアを割り当てず, 人間の嗜好に35%のミスマッチ率を示し, PMとRMの相違が顕著であった。 ヒトの努力を伴わずにPMとRMのシームレス性を計測するために,自動計量SEAMを提案する。 SEAMは、データサンプルによって誘導されるPMとRMの判断の相違を定量化する。 データ選択とモデル拡張におけるSEAMの有効性を検証する。 RLトレーニングにSEAMフィルタデータを用いることでRLHFの性能は4.5%向上し,(2)SEAM誘導モデル拡張は標準拡張法よりも4%向上することを示した。

Reinforcement Learning from Human Feedback (RLHF) involves training policy models (PMs) and reward models (RMs) to align language models with human preferences. Instead of focusing solely on PMs and RMs independently, we propose to examine their interactions during fine-tuning, introducing the concept of seamlessness. Our study starts with observing the saturation phenomenon, where continual improvements in RM and PM do not translate into RLHF progress. Our analysis shows that RMs fail to assign proper scores to PM responses, resulting in a 35% mismatch rate with human preferences, highlighting a significant discrepancy between PM and RM. To measure seamlessness between PM and RM without human effort, we propose an automatic metric, SEAM. SEAM quantifies the discrepancies between PM and RM judgments induced by data samples. We validate the effectiveness of SEAM in data selection and model augmentation. Our experiments demonstrate that (1) using SEAM-filtered data for RL training improves RLHF performance by 4.5%, and (2) SEAM-guided model augmentation results in a 4% performance improvement over standard augmentation methods.
翻訳日:2024-06-13 17:55:44 公開日:2024-06-12
# 大規模言語モデルのユニークなセキュリティとプライバシの脅威: 総合的な調査

Unique Security and Privacy Threats of Large Language Model: A Comprehensive Survey ( http://arxiv.org/abs/2406.07973v1 )

ライセンス: Link先を確認
Shang Wang, Tianqing Zhu, Bo Liu, Ding Ming, Xu Guo, Dayong Ye, Wanlei Zhou, (参考訳) 人工知能の急速な発展に伴い、大規模言語モデル(LLM)は自然言語処理において顕著な進歩を遂げた。 これらのモデルは、機械翻訳やチャットボットからエージェントに至るまで、さまざまなアプリケーションにおいて強力な言語理解と生成能力を示すために、大量のデータに基づいて訓練されている。 しかし、LCMは、そのライフサイクル中に様々なプライバシーとセキュリティの問題を露呈し、学術的、産業的な注目を集めている。 さらに、これらのLSMが直面するリスクは、従来の言語モデルとはかなり異なる。 現在の調査では、さまざまなシナリオに基づいたユニークな脅威モデルの明確な分類がないため、事前トレーニング、微調整、RAGシステム、デプロイ、LLMベースのエージェントという5つのシナリオに基づいた、ユニークなプライバシとセキュリティの問題を強調します。 各リスクの特徴について、この調査は潜在的な脅威と対策を提供する。 LLMが直面する攻撃と防御の状況の研究は、LLMのメリットを享受する領域を増やすために、実現可能な研究の方向性を提供することができる。

With the rapid development of artificial intelligence, large language models (LLMs) have made remarkable progress in natural language processing. These models are trained on large amounts of data to demonstrate powerful language understanding and generation capabilities for various applications, from machine translation and chatbots to agents. However, LLMs have exposed a variety of privacy and security issues during their life cycle, which have become the focus of academic and industrial attention. Moreover, these risks LLMs face are pretty different from previous traditional language models. Since current surveys lack a clear taxonomy of unique threat models based on diverse scenarios, we highlight unique privacy and security issues based on five scenarios: pre-training, fine-tuning, RAG system, deploying, and LLM-based agent. Concerning the characteristics of each risk, this survey provides potential threats and countermeasures. The research on attack and defense situations LLMs face can provide feasible research directions, making more areas reap LLMs' benefits.
翻訳日:2024-06-13 17:55:44 公開日:2024-06-12
# 分散データベースにおける多変量ログに基づく異常検出

Multivariate Log-based Anomaly Detection for Distributed Database ( http://arxiv.org/abs/2406.07976v1 )

ライセンス: Link先を確認
Lingzhe Zhang, Tong Jia, Mengxi Jia, Ying Li, Yong Yang, Zhonghai Wu, (参考訳) 分散データベースは、今日のクラウドシステムのような大規模ソフトウェアシステムの基盤となる基盤である。 ソフトウェア可用性を維持するためには、分散データベースの異常を検出することが不可欠である。 既存のアプローチは、ログデータセットの包括的なコレクションであるLoghubを使って開発されている。 さらに、マルチアノマ、マルチノードログを含むデータセットが存在しないことも注目に値する。 その結果、これらのデータセット上に構築されたモデルは、主にスタンドアロンシステムのために設計されており、分散データベースには不適切であり、単一のノードにおける不規則性に基づいてクラスタ全体の異常を推定する一般的な方法は、高い偽陽性率をもたらす。 本稿では,分散データベースにおけるログの特異な異常と多変量の性質について述べる。 分散データベースから多変量ログを備えた,最初のオープンソースで包括的なデータセットを公開する。 このデータセットを用いて、複数のデータベース異常を同定し、多変量ログデータを用いた最先端異常検出の有効性を評価する。 その結果,単一ノードからのログのみに依存することは,分散データベース上での正確な異常検出には不十分であることが判明した。 これらの知見を活用し,分散データベースに適した多変量ログに基づく異常検出手法であるMultiLogを提案する。 我々の実験は、この新しいデータセットに基づいて、MultiLogの優位性を実証し、既存の最先端メソッドを約12%上回った。

Distributed databases are fundamental infrastructures of today's large-scale software systems such as cloud systems. Detecting anomalies in distributed databases is essential for maintaining software availability. Existing approaches, predominantly developed using Loghub-a comprehensive collection of log datasets from various systems-lack datasets specifically tailored to distributed databases, which exhibit unique anomalies. Additionally, there's a notable absence of datasets encompassing multi-anomaly, multi-node logs. Consequently, models built upon these datasets, primarily designed for standalone systems, are inadequate for distributed databases, and the prevalent method of deeming an entire cluster anomalous based on irregularities in a single node leads to a high false-positive rate. This paper addresses the unique anomalies and multivariate nature of logs in distributed databases. We expose the first open-sourced, comprehensive dataset with multivariate logs from distributed databases. Utilizing this dataset, we conduct an extensive study to identify multiple database anomalies and to assess the effectiveness of state-of-the-art anomaly detection using multivariate log data. Our findings reveal that relying solely on logs from a single node is insufficient for accurate anomaly detection on distributed database. Leveraging these insights, we propose MultiLog, an innovative multivariate log-based anomaly detection approach tailored for distributed databases. Our experiments, based on this novel dataset, demonstrate MultiLog's superiority, outperforming existing state-of-the-art methods by approximately 12%.
翻訳日:2024-06-13 17:55:44 公開日:2024-06-12
# グラフニューラルネットワークによるヒューリスティック学習:リンク予測のための統一フレームワーク

Heuristic Learning with Graph Neural Networks: A Unified Framework for Link Prediction ( http://arxiv.org/abs/2406.07979v1 )

ライセンス: Link先を確認
Juzhen Zhang, Lanning Wei, Zhen Xu, Quanming Yao, (参考訳) リンク予測はグラフ学習における基本的なタスクであり、本質的にグラフのトポロジーによって形作られる。 従来のヒューリスティックはグラフトポロジに根ざしているが、様々なグラフをまたいだ一般化の難しさに直面する。 近年の研究はヒューリスティックスの可能性を活用することを目的としているが、地域とグローバルなヒューリスティックスを併せ持つ統一的な定式化は未発見のままである。 局所的および大域的ヒューリスティックスの両方を隣接行列乗法で表すことができるという事実から洞察を導き,様々なヒューリスティックスに対応・一般化するための統一行列定式化を提案する。 さらに,この定式化を効率的に実装するためのHuristic Learning Graph Neural Network (HL-GNN)を提案する。 HL-GNNは層間伝播と層間接続を採用しており、GCNよりも低時間で約20層の深さに達することができる。 HL-GNNはヒューリスティックスや従来のGNNよりも表現力が高いことが証明されており、ノードの特徴と位相情報のトレードオフを適応的に行うことができる。 Planetoid、Amazon、OGBデータセットに関する大規模な実験は、HL-GNNの有効性と効率性を示している。 予測性能の大きな差で既存の手法を上回ります。 加えて、HL-GNNはヒューリスティックにインスパイアされた手法よりも数桁高速であり、訓練可能なパラメータはわずかである。 このケーススタディは、一般化されたヒューリスティックスと学習されたウェイトが極めて解釈可能であることを示す。

Link prediction is a fundamental task in graph learning, inherently shaped by the topology of the graph. While traditional heuristics are grounded in graph topology, they encounter challenges in generalizing across diverse graphs. Recent research efforts have aimed to leverage the potential of heuristics, yet a unified formulation accommodating both local and global heuristics remains undiscovered. Drawing insights from the fact that both local and global heuristics can be represented by adjacency matrix multiplications, we propose a unified matrix formulation to accommodate and generalize various heuristics. We further propose the Heuristic Learning Graph Neural Network (HL-GNN) to efficiently implement the formulation. HL-GNN adopts intra-layer propagation and inter-layer connections, allowing it to reach a depth of around 20 layers with lower time complexity than GCN. HL-GNN is proven to be more expressive than heuristics and conventional GNNs, and it can adaptively trade-off between node features and topological information. Extensive experiments on the Planetoid, Amazon, and OGB datasets underscore the effectiveness and efficiency of HL-GNN. It outperforms existing methods by a large margin in prediction performance. Additionally, HL-GNN is several orders of magnitude faster than heuristic-inspired methods while requiring only a few trainable parameters. The case study further demonstrates that the generalized heuristics and learned weights are highly interpretable.
翻訳日:2024-06-13 17:55:44 公開日:2024-06-12
# タワーディフェンスゲームにおける高レベル戦略制御のための強化学習

Reinforcement Learning for High-Level Strategic Control in Tower Defense Games ( http://arxiv.org/abs/2406.07980v1 )

ライセンス: Link先を確認
Joakim Bergdahl, Alessandro Sestini, Linus Gisslén, (参考訳) 戦略ゲームにおいて、ゲームデザインの最も重要な側面の1つは、プレイヤーにとっての挑戦の感覚を維持することである。 多くのモバイルゲームではゲームプレイのループが高速で進行し、プレイヤーのエンディングが早すぎるのを防ぐために多くのレベルやパズルが必要とされる。 あらゆるコンテンツ作成と同様に、ゲームプレイの仕組み、楽しいゲームアセット、プレイ可能なレベルを確実にするために、テストと検証が不可欠である。 本稿では,従来のスクリプト手法と強化学習を組み合わせたゲームプレイテストと検証に活用可能な自動アプローチを提案する。 私たちは、人気のタワーディフェンスゲーム、Plants vs. Zombiesでソリューションをテストしました。 その結果、強化学習のような学習アプローチとスクリプトAIを組み合わせることで、ヒューリスティックAIのみを使用するよりも高性能で堅牢なエージェントが得られ、40レベルの47.95%に比べて57.12%の成功率を達成した。 さらに,このようなパズル型ゲームにおいて,汎用エージェントを訓練することが困難であることを示す。

In strategy games, one of the most important aspects of game design is maintaining a sense of challenge for players. Many mobile titles feature quick gameplay loops that allow players to progress steadily, requiring an abundance of levels and puzzles to prevent them from reaching the end too quickly. As with any content creation, testing and validation are essential to ensure engaging gameplay mechanics, enjoyable game assets, and playable levels. In this paper, we propose an automated approach that can be leveraged for gameplay testing and validation that combines traditional scripted methods with reinforcement learning, reaping the benefits of both approaches while adapting to new situations similarly to how a human player would. We test our solution on a popular tower defense game, Plants vs. Zombies. The results show that combining a learned approach, such as reinforcement learning, with a scripted AI produces a higher-performing and more robust agent than using only heuristic AI, achieving a 57.12% success rate compared to 47.95% in a set of 40 levels. Moreover, the results demonstrate the difficulty of training a general agent for this type of puzzle-like game.
翻訳日:2024-06-13 17:55:44 公開日:2024-06-12
# メタラーニング型ニューラルプロシージャビアーゼ

Meta-Learning Neural Procedural Biases ( http://arxiv.org/abs/2406.07983v1 )

ライセンス: Link先を確認
Christian Raymond, Qi Chen, Bing Xue, Mengjie Zhan, (参考訳) 少数ショット学習の目標は、新しい目に見えない学習タスクを一般化し、高いパフォーマンスを達成することであり、各タスクは限られた数のサンプルしか持たない。 グラディエントベースのメタ学習は、学習アルゴリズムのコンポーネントに事前学習の経験から得られる帰納的バイアスを埋め込むことで、新しいタスクの学習方法を学ぶことによって、この課題に対処しようとする。 本研究では,従来の研究に基づいて,タスク適応型手続きバイアスをメタ学習するための新しいフレームワークであるNural Procedural Bias Meta-Learning (NPBML)を提案する。 本研究の目的は,メタ学習の初期化,最適化,損失関数を同時に学習し,各タスクに適応させ,学習した帰納バイアスの強度を最大化させることである。 これにより、各学習タスクに固有の手続きバイアスのセットを付与し、わずか数ステップで強力な学習性能を達成できるように特別に設計され、選択される。 実験結果から,ニューラルネットワークの手続き的バイアスをメタラーニングすることにより,学習タスクの分布に対して強い帰納的バイアスを生じさせることで,十分に確立された数発の学習ベンチマークにおける堅牢な学習性能を実現することができることが示された。

The goal of few-shot learning is to generalize and achieve high performance on new unseen learning tasks, where each task has only a limited number of examples available. Gradient-based meta-learning attempts to address this challenging task by learning how to learn new tasks by embedding inductive biases informed by prior learning experiences into the components of the learning algorithm. In this work, we build upon prior research and propose Neural Procedural Bias Meta-Learning (NPBML), a novel framework designed to meta-learn task-adaptive procedural biases. Our approach aims to consolidate recent advancements in meta-learned initializations, optimizers, and loss functions by learning them simultaneously and making them adapt to each individual task to maximize the strength of the learned inductive biases. This imbues each learning task with a unique set of procedural biases which is specifically designed and selected to attain strong learning performance in only a few gradient steps. The experimental results show that by meta-learning the procedural biases of a neural network, we can induce strong inductive biases towards a distribution of learning tasks, enabling robust learning performance across many well-established few-shot learning benchmarks.
翻訳日:2024-06-13 17:55:44 公開日:2024-06-12
# SimSAM: 教師なし画像セグメンテーションのための単純なシーム表現に基づくセマンティック親和性マトリックス

SimSAM: Simple Siamese Representations Based Semantic Affinity Matrix for Unsupervised Image Segmentation ( http://arxiv.org/abs/2406.07986v1 )

ライセンス: Link先を確認
Chanda Grover Kamra, Indra Deep Mastan, Nitin Kumar, Debayan Gupta, (参考訳) 近年の自己教師型学習(SSL)では,アノテーションを必要とせずにデータ表現を学習できるようになった。 非コントラストSSLアプローチ(SimSiam)に触発されて、セマンティック親和性行列を計算するための新しいフレームワークSIMSAMを導入する。 画像が与えられた後、SIMSAMは事前に訓練されたDINO-ViTを使って特徴を抽出し、その特徴を投影し、非コントラスト的な方法で密度の高い特徴の相関を予測する。 本稿では,セマンティック親和性行列のオブジェクトセグメンテーションおよびセマンティックセグメンテーションタスクへの応用について述べる。 私たちのコードはhttps://github.com/chandagrover/SimSAM.comで公開されています。

Recent developments in self-supervised learning (SSL) have made it possible to learn data representations without the need for annotations. Inspired by the non-contrastive SSL approach (SimSiam), we introduce a novel framework SIMSAM to compute the Semantic Affinity Matrix, which is significant for unsupervised image segmentation. Given an image, SIMSAM first extracts features using pre-trained DINO-ViT, then projects the features to predict the correlations of dense features in a non-contrastive way. We show applications of the Semantic Affinity Matrix in object segmentation and semantic segmentation tasks. Our code is available at https://github.com/chandagrover/SimSAM.
翻訳日:2024-06-13 17:45:58 公開日:2024-06-12
# Blowfish:意味探索におけるあいまいさの定量化のためのトポロジカルおよび統計的シグネチャ

Blowfish: Topological and statistical signatures for quantifying ambiguity in semantic search ( http://arxiv.org/abs/2406.07990v1 )

ライセンス: Link先を確認
Thomas Roland Barillot, Alex De Castro, (参考訳) 本研究は,ベクトル探索および検索拡張生成システム(RAG)の文脈において,文章埋め込みにおける曖昧さのトポロジ的シグネチャの証拠を述べる。 我々は、あいまいさの動作定義を提案し、プロプライエタリなデータセットを3、5、10行のチャンクの集合に分割し、クエリや回答セットとして、それぞれのコレクションを順次使用した実験を設計した。 これにより、相反する要因を除去することで曖昧さのシグネチャをテストすることができました。 以上の結果から,プロキシのあいまいなクエリ(サイズ3のドキュメントに対して10のクエリ)は,プロキシのクリアなクエリ(サイズ10のドキュメントに対して5のクエリ)よりも,ホモロジー0と1ベースの機能の分布が異なることがわかった。 次に、これらの結果は多様体の複雑さの増加や、あるいはおよそ不連続な埋め込み部分多様体の観点から議論する。 最後に,これらの知見を意味的類似性の新たな評価戦略として活用する戦略を提案する。

This works reports evidence for the topological signatures of ambiguity in sentence embeddings that could be leveraged for ranking and/or explanation purposes in the context of vector search and Retrieval Augmented Generation (RAG) systems. We proposed a working definition of ambiguity and designed an experiment where we have broken down a proprietary dataset into collections of chunks of varying size - 3, 5, and 10 lines and used the different collections successively as queries and answers sets. It allowed us to test the signatures of ambiguity with removal of confounding factors. Our results show that proxy ambiguous queries (size 10 queries against size 3 documents) display different distributions of homologies 0 and 1 based features than proxy clear queries (size 5 queries against size 10 documents). We then discuss those results in terms increased manifold complexity and/or approximately discontinuous embedding submanifolds. Finally we propose a strategy to leverage those findings as a new scoring strategy of semantic similarities.
翻訳日:2024-06-13 17:45:58 公開日:2024-06-12
# Bias-Variance分析に基づくマルチタスク学習のための反復的ターゲット・フィーチャー・アグリゲーション

Interpetable Target-Feature Aggregation for Multi-Task Learning based on Bias-Variance Analysis ( http://arxiv.org/abs/2406.07991v1 )

ライセンス: Link先を確認
Paolo Bonetti, Alberto Maria Metelli, Marcello Restelli, (参考訳) マルチタスク学習(MTL)は、タスク間の共有知識を活用し、一般化とパフォーマンスを改善するために設計された強力な機械学習パラダイムである。 従来の研究では、共通の特徴表現の識別に焦点をあてた特徴学習と、類似したタスクがグループ化されるタスククラスタリングに分割可能なMLLへのアプローチが提案されている。 本稿では,タスククラスタリングと特徴変換の交わりを目標と特徴の2段階反復集約に基づいて MTL アプローチを提案する。 まず,付加的なガウス雑音を伴う回帰モデルに対するバイアス分散分析を行い,集約された入力特徴と集約された目標に基づいて訓練された線形回帰を考慮した,漸近的バイアスとタスクの分散の一般表現を提案する。 次に,この解析を用いて2相MTLアルゴリズム(NonLinCTFA)を提案する。 第一に、この方法はタスクをクラスタに分割し、得られたターゲットのそれぞれを平均で集約する。 そして、各集約されたタスクに対して、その平均値で特徴のサブセットを次元還元形式で集約する。 両段階において、重要な側面は減った目標と特徴の解釈可能性を維持することであり、これは地球科学への応用によってさらに動機づけられる。 最後に,アルゴリズムを合成データ上で検証し,異なるパラメータと実世界のデータセットの効果を示し,提案手法が古典的データセット,最近のベースライン,地球科学への応用に有効であることを示す。

Multi-task learning (MTL) is a powerful machine learning paradigm designed to leverage shared knowledge across tasks to improve generalization and performance. Previous works have proposed approaches to MTL that can be divided into feature learning, focused on the identification of a common feature representation, and task clustering, where similar tasks are grouped together. In this paper, we propose an MTL approach at the intersection between task clustering and feature transformation based on a two-phase iterative aggregation of targets and features. First, we propose a bias-variance analysis for regression models with additive Gaussian noise, where we provide a general expression of the asymptotic bias and variance of a task, considering a linear regression trained on aggregated input features and an aggregated target. Then, we exploit this analysis to provide a two-phase MTL algorithm (NonLinCTFA). Firstly, this method partitions the tasks into clusters and aggregates each obtained group of targets with their mean. Then, for each aggregated task, it aggregates subsets of features with their mean in a dimensionality reduction fashion. In both phases, a key aspect is to preserve the interpretability of the reduced targets and features through the aggregation with the mean, which is further motivated by applications to Earth science. Finally, we validate the algorithms on synthetic data, showing the effect of different parameters and real-world datasets, exploring the validity of the proposed methodology on classical datasets, recent baselines, and Earth science applications.
翻訳日:2024-06-13 17:45:58 公開日:2024-06-12
# 協調的資源配分のためのオンラインレスバンディットフレームワーク

A Federated Online Restless Bandit Framework for Cooperative Resource Allocation ( http://arxiv.org/abs/2406.07992v1 )

ライセンス: Link先を確認
Jingwen Tong, Xinran Li, Liqun Fu, Jun Zhang, Khaled B. Letaief, (参考訳) Restless Multi-armed bandits (RMAB) は、マルコフ報酬プロセス (MRP) で資源配分問題に対処するために広く利用されている。 既存の研究は、MPPの力学が既に知られていることをしばしば前提としており、最適化の観点からRMAB問題を解くことができる。 それでも、未知のシステムダイナミクスを持つRMABのための効率的な学習ベースのソリューションは、依然として未解決の問題である。 本稿では,MPPの未知系力学を用いた協調資源配分問題について検討する。 この問題は、複数のエージェントが、蓄積した報酬を最大化しながら、システムのダイナミクスを協調的に学習する、マルチエージェントオンラインRMAB問題としてモデル化することができる。 我々は、フェデレートされた学習パラダイムを採用することにより、通信オーバーヘッドとデータプライバシの問題を軽減するために、フェデレートされたオンラインRMABフレームワークを考案した。 この枠組みに基づいて,フェデレートトンプソンサンプリング対応Whittle Index (FedTSWI)アルゴリズムを導入し,このマルチエージェントオンラインRMAB問題を解く。 FedTSWIアルゴリズムは高い通信効率と計算効率、プライバシー保証を享受する。 さらに、FedTSWIアルゴリズムに対する後悔の上限を導出する。 最後に,オンラインマルチユーザマルチチャネルアクセスにおける提案アルゴリズムの有効性を示す。 数値計算の結果,提案アルゴリズムは,ベースラインと比較して高速収束率$\mathcal{O}(\sqrt{T\log(T)})$を達成し,性能が向上した。 さらに重要なことに、そのサンプルの複雑さは、エージェントの数によって減少する。

Restless multi-armed bandits (RMABs) have been widely utilized to address resource allocation problems with Markov reward processes (MRPs). Existing works often assume that the dynamics of MRPs are known prior, which makes the RMAB problem solvable from an optimization perspective. Nevertheless, an efficient learning-based solution for RMABs with unknown system dynamics remains an open problem. In this paper, we study the cooperative resource allocation problem with unknown system dynamics of MRPs. This problem can be modeled as a multi-agent online RMAB problem, where multiple agents collaboratively learn the system dynamics while maximizing their accumulated rewards. We devise a federated online RMAB framework to mitigate the communication overhead and data privacy issue by adopting the federated learning paradigm. Based on this framework, we put forth a Federated Thompson Sampling-enabled Whittle Index (FedTSWI) algorithm to solve this multi-agent online RMAB problem. The FedTSWI algorithm enjoys a high communication and computation efficiency, and a privacy guarantee. Moreover, we derive a regret upper bound for the FedTSWI algorithm. Finally, we demonstrate the effectiveness of the proposed algorithm on the case of online multi-user multi-channel access. Numerical results show that the proposed algorithm achieves a fast convergence rate of $\mathcal{O}(\sqrt{T\log(T)})$ and better performance compared with baselines. More importantly, its sample complexity decreases with the number of agents.
翻訳日:2024-06-13 17:45:58 公開日:2024-06-12
# 社会的強化学習が準安定分極と有権者モデルにどう寄与するか

How social reinforcement learning can lead to metastable polarisation and the voter model ( http://arxiv.org/abs/2406.07993v1 )

ライセンス: Link先を確認
Benedikt V. Meylahn, Janusz M. Meylahn, (参考訳) 従来の意見の分極の持続性に関する説明は、典型的には、分極の可能性(例えば、反発的相互作用)を前提としたモデル化の仮定を含んでいた。 エージェントが強化学習を用いて意見を形成する場合、偏光は安定であることを示す最近の研究は例外である。 このモデルで観測された偏光は安定ではないが、確率1と漸近的に一致していることを示す。 強化学習モデルと有権者モデルとのリンクを構築することにより、観測された分極は準安定であると主張する。 最後に,エージェントの学習過程のわずかな変更により,モデルが非エルゴディックからエルゴディックに変化することを示す。 この結果から,強化学習は意見力学における分極をモデル化する強力な手法である可能性が示唆された。 学習プロセスの詳細によって決定される特性。

Previous explanations for the persistence of polarization of opinions have typically included modelling assumptions that predispose the possibility of polarization (e.g.\ repulsive interactions). An exception is recent research showing that polarization is stable when agents form their opinions using reinforcement learning. We show that the polarization observed in this model is not stable, but exhibits consensus asymptotically with probability one. By constructing a link between the reinforcement learning model and the voter model, we argue that the observed polarization is metastable. Finally, we show that a slight modification in the learning process of the agents changes the model from being non-ergodic to being ergodic. Our results show that reinforcement learning may be a powerful method for modelling polarization in opinion dynamics, but that the tools appropriate for analysing such models crucially depend on the properties of the resulting systems. Properties which are determined by the details of the learning process.
翻訳日:2024-06-13 17:45:58 公開日:2024-06-12
# Asymptotic Unbiased Sample Smpling to Speed Up Sharpness-Aware Minimization (特集:小特集号)

Asymptotic Unbiased Sample Sampling to Speed Up Sharpness-Aware Minimization ( http://arxiv.org/abs/2406.08001v1 )

ライセンス: Link先を確認
Jiaxin Deng, Junbiao Pang, Baochang Zhang, (参考訳) Sharpness-Aware Minimization (SAM) は、一般化誤差を効果的に低減するための有望なアプローチとして登場した。 しかしSAMは、ベースオプティマイザ(例えばSGD)に比べて計算コストが2倍になる。 本稿では, SAM (AUSAM) を高速化する反復に対する漸近的アンバイアスサンプリングを提案し, モデルの一般化能力を維持しつつ, 計算効率を大幅に向上させる。 具体的には、理論上保証された基準、すなわち各サンプルの勾配ノルム(GNS)に基づいてSAM最適化に有用なデータポイントのサブセットを確率的にサンプリングする。 さらに、SAMにおける摂動前後の損失値の差により、GNSを近似する。 プラグ・アンド・プレイのアーキテクチャに依存しない手法として,本手法はSAMを様々なタスクやネットワーク,例えば分類,人間のポーズ推定,ネットワーク量子化などにわたって連続的に高速化する。 CIFAR10/100とTiny-ImageNetでは、AUSAMはSAMに匹敵する結果を達成し、70%以上のスピードアップを提供する。 最近の動的データプルーニング法と比較して、AUSAMはSAMに適しており、性能の維持に優れている。 さらに、AUSAMは、性能を犠牲にすることなく、人間のポーズ推定とモデル量子化の最適化を加速し、その幅広い実用性を示す。

Sharpness-Aware Minimization (SAM) has emerged as a promising approach for effectively reducing the generalization error. However, SAM incurs twice the computational cost compared to base optimizer (e.g., SGD). We propose Asymptotic Unbiased Sampling with respect to iterations to accelerate SAM (AUSAM), which maintains the model's generalization capacity while significantly enhancing computational efficiency. Concretely, we probabilistically sample a subset of data points beneficial for SAM optimization based on a theoretically guaranteed criterion, i.e., the Gradient Norm of each Sample (GNS). We further approximate the GNS by the difference in loss values before and after perturbation in SAM. As a plug-and-play, architecture-agnostic method, our approach consistently accelerates SAM across a range of tasks and networks, i.e., classification, human pose estimation and network quantization. On CIFAR10/100 and Tiny-ImageNet, AUSAM achieves results comparable to SAM while providing a speedup of over 70%. Compared to recent dynamic data pruning methods, AUSAM is better suited for SAM and excels in maintaining performance. Additionally, AUSAM accelerates optimization in human pose estimation and model quantization without sacrificing performance, demonstrating its broad practicality.
翻訳日:2024-06-13 17:45:58 公開日:2024-06-12
# 階層型回帰モデルと計画による混合運動環境の適応性

Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning ( http://arxiv.org/abs/2406.08002v1 )

ライセンス: Link先を確認
Yizhe Huang, Anji Liu, Fanqi Kong, Yaodong Yang, Song-Chun Zhu, Xue Feng, (参考訳) 近年のマルチエージェント強化学習(MARL)アルゴリズムの成功にもかかわらず、混合モチベーション環境でのコプレーヤへの適応は大きな課題である。 一つの実現可能なアプローチは、その特性を推測し、階層的に共プレーヤの振る舞いをモデル化することである。 しかし、これらの手法は推論情報の効率的な推論と利用においてしばしば困難に直面する。 これらの問題に対処するために,混合モチベーション環境における未知のポリシーへのわずかな適応を可能にする,新しいマルチエージェント決定アルゴリズムである階層型対性モデリング・プランニング(HOP)を提案する。 HOPは階層的に2つのモジュールから構成されており、相手の目標を推論し、対応する目標条件付きポリシーを学習する対向モデリングモジュールと、モンテカルロ木探索(MCTS)を用いて最良の応答を識別する計画モジュールである。 提案手法は,他者の目標に対する信念をエピソード内を問わず更新し,相手のモデリングモジュールからの情報を用いて計画のガイドを行うことにより効率を向上する。 実験の結果, 混合運動環境においては, HOPは様々な未確認エージェントと相互作用する際, より優れた少数ショット適応能力を示し, 自己再生のシナリオにおいて優れていた。 さらに、実験中の社会知能の出現は、複雑なマルチエージェント環境における我々のアプローチの可能性を強調している。

Despite the recent successes of multi-agent reinforcement learning (MARL) algorithms, efficiently adapting to co-players in mixed-motive environments remains a significant challenge. One feasible approach is to hierarchically model co-players' behavior based on inferring their characteristics. However, these methods often encounter difficulties in efficient reasoning and utilization of inferred information. To address these issues, we propose Hierarchical Opponent modeling and Planning (HOP), a novel multi-agent decision-making algorithm that enables few-shot adaptation to unseen policies in mixed-motive environments. HOP is hierarchically composed of two modules: an opponent modeling module that infers others' goals and learns corresponding goal-conditioned policies, and a planning module that employs Monte Carlo Tree Search (MCTS) to identify the best response. Our approach improves efficiency by updating beliefs about others' goals both across and within episodes and by using information from the opponent modeling module to guide planning. Experimental results demonstrate that in mixed-motive environments, HOP exhibits superior few-shot adaptation capabilities when interacting with various unseen agents, and excels in self-play scenarios. Furthermore, the emergence of social intelligence during our experiments underscores the potential of our approach in complex multi-agent environments.
翻訳日:2024-06-13 17:45:58 公開日:2024-06-12
# SU(1,1)コヒーレント状態を用いた様々な検出手法によるマッハ・ツェンダー干渉計の位相感度向上

Enhancing phase sensitivity in Mach-Zehnder interferometer with various detection schemes using SU(1,1) coherent states ( http://arxiv.org/abs/2406.08007v1 )

ライセンス: Link先を確認
Nour-Eddine Abouelkhir, Abdallah Slaoui, El Hassan Saidi, Rachid Ahl Laamara, Hanane El Hadfi, (参考訳) インターフェロメトリ位相感度の向上は、急速に発展する量子技術において、高精度な測定に不可欠である。 マッハ・ツェンダー干渉計(Mach-Zehnder Interferometer, MZI)は、この現象を解析するための多用途ツールである。 ビームスプリッターを用いて光線を分割・再結合することにより、MZIは量子クラム・ラオ境界(QCRB)や量子フィッシャー情報(QFI)といったツールを用いて正確な位相感度解析を行うことができる。 本稿では,異なる検出手法と入力状態を用いて,MZIの位相感度を種々のシナリオで解析する。 我々は、両腕、上腕(非対称)、両腕の対称的な3つの位相シフト状況について、1パラメータと2パラメータの量子推定と関連するQCRBを比較した。 次に, 差分強度, 単モード強度, 平衡ホモダインという3つの検出手法による位相感度について検討した。 さらに、すべてのシナリオにおいて、Perelomov と Barut-Girardello コヒーレント状態(SU(1,1)コヒーレント状態の2種類)の使用について検討する。 特に、最適条件下では、全ての検出スキームが、絡み合ったSU(1,1)コヒーレント状態を入力状態として利用することにより、QCRBを実現することができることを示す。

Improving interferometric phase sensitivity is crucial for high-precision measurements in rapidly developing quantum technologies. The Mach-Zehnder interferometer (MZI) is a versatile tool for analyzing this phenomenon. By splitting and recombining a light beam using beam splitters, MZIs allow for precise phase sensitivity analysis using tools like the quantum Cram\'er-Rao bound (QCRB) and the quantum Fisher information (QFI). This paper analyzes the phase sensitivity of a MZI in various scenarios using different detection schemes and input states. We compare the single- and two-parameter quantum estimation and their associated QCRB for three phase-shift situations: in both arms, only in the upper arm (asymmetric), and in both arms symmetrically. We then investigate the phase sensitivity under three detection schemes: difference intensity, single-mode intensity, and balanced homodyne. Additionally, we explore the use of Perelomov and Barut-Girardello coherent states, two types of SU(1,1) coherent states, in all scenarios. Notably, we demonstrate that under optimal conditions, all detection schemes can achieve the QCRB by utilizing entangled SU(1,1) coherent states as input states.
翻訳日:2024-06-13 17:45:58 公開日:2024-06-12
# 低温原子ガス中の光子伝搬の量子還元摂動法

Quantum Reductive Perturbation Method for Photon Propagations in a Cold Atomic Gas ( http://arxiv.org/abs/2406.08008v1 )

ライセンス: Link先を確認
Ou Yao, Huang Guoxiang, (参考訳) 非線形波動理論で広く用いられている古典的RPMの一般化である量子還元摂動法(RPM)を開発し、完全量子ハイゼンベルク-ランゲヴィン-マクスウェル方程式から単純化されたモデル(量子非線形シュロディンガー方程式)を導出する。 この結果は、ガス中の2光子結合状態と光学ソリトンについて議論するために用いられる。 特定の系を考えるが、ここで確立された量子RPMは非常に一般的であり、他の複雑な量子非線形問題にも適用できる。

We develop a quantum reductive perturbation method (RPM), a generalization of classical RPM widely used in nonlinear wave theory, to derive a simplified model (i.e. quantum nonlinear Schrodinger equation) from fully quantum Heisenberg-Langevin-Maxwell equations describingphoton propagations in a coherent cold atomic gas. The result is used to discuss two-photon bound states and optical solitons in the gas. Though a specific system is considered, the quantum RPM established here is very general and can be applied to other complex quantum nonlinear problems.
翻訳日:2024-06-13 17:45:58 公開日:2024-06-12
# OpenObj: 細粒度理解によるオープンボキャブラリオブジェクトレベルニューラルラジアンスフィールド

OpenObj: Open-Vocabulary Object-Level Neural Radiance Fields with Fine-Grained Understanding ( http://arxiv.org/abs/2406.08009v1 )

ライセンス: Link先を確認
Yinan Deng, Jiahui Wang, Jingyu Zhao, Jianyu Dou, Yi Yang, Yufeng Yue, (参考訳) 近年,視覚言語モデル(VLM)によるオープンな3次元シーン再構築への関心が高まっている。 しかし、既存の手法はいくつかの制限に直面している:それらはポイントワイドな特徴を学習することに集中し、ぼやけた意味的理解をもたらすか、単にオブジェクトレベルの再構築に取り組み、それによってオブジェクトの内部の複雑な詳細を見渡す。 これらの課題に対処するため,オープンボキャブラリオブジェクトレベルのニューラルラジアンスフィールド(NeRF)を構築するための革新的なアプローチであるOpenObjを紹介した。 本質的にOpenObjは、オブジェクトレベルでの効率的かつ水密なシーンモデリングと理解のための堅牢なフレームワークを確立します。 さらに,部分レベルの特徴をニューラルネットワークに組み込んで,物体内部のニュアンス表現を可能にする。 このアプローチは、きめ細かい理解を維持しながら、オブジェクトレベルのインスタンスをキャプチャする。 複数のデータセットにおける結果から,OpenObjは,ゼロショットセマンティックセグメンテーションや検索タスクにおいて優れた性能を発揮することが示された。 さらにOpenObjは、グローバルムーブメントやローカル操作など、現実のロボットタスクを複数のスケールでサポートする。

In recent years, there has been a surge of interest in open-vocabulary 3D scene reconstruction facilitated by visual language models (VLMs), which showcase remarkable capabilities in open-set retrieval. However, existing methods face some limitations: they either focus on learning point-wise features, resulting in blurry semantic understanding, or solely tackle object-level reconstruction, thereby overlooking the intricate details of the object's interior. To address these challenges, we introduce OpenObj, an innovative approach to build open-vocabulary object-level Neural Radiance Fields (NeRF) with fine-grained understanding. In essence, OpenObj establishes a robust framework for efficient and watertight scene modeling and comprehension at the object-level. Moreover, we incorporate part-level features into the neural fields, enabling a nuanced representation of object interiors. This approach captures object-level instances while maintaining a fine-grained understanding. The results on multiple datasets demonstrate that OpenObj achieves superior performance in zero-shot semantic segmentation and retrieval tasks. Additionally, OpenObj supports real-world robotics tasks at multiple scales, including global movement and local manipulation.
翻訳日:2024-06-13 17:45:58 公開日:2024-06-12
# キャリブレーションランキングのための自己投票型フレームワーク

A Self-boosted Framework for Calibrated Ranking ( http://arxiv.org/abs/2406.08010v1 )

ライセンス: Link先を確認
Shunyu Zhang, Hu Liu, Wentian Bao, Enyun Yu, Yang Song, (参考訳) スケールキャリブレーションされたランキングシステムは、現在、現実世界のアプリケーションに広く普及しており、正確なランキング品質とキャリブレーションされた確率予測を同時に追求している。 例えば、広告ランキングシステムでは、予測クリックスルーレート(CTR)をランク付けに利用し、クリック当たりのダウンストリーム広告入札に校正する必要がある。 近年,検定絶対値に焦点をあてたポイントワイド・ロスと,相対順序を強調するランキング・ロスという,2つの損失関数の組み合わせを取り入れた校正ランキングの標準手法として,多目的手法が広く採用されている。 しかし、産業用オンラインアプリケーションに適用する場合、既存の多目的CRアプローチには2つの重大な制限がある。 まず、以前の手法では、ランキングの損失を計算するために、単一のミニバッチ内に完全な候補リストを集約する必要がある。 このようなアグリゲーション戦略は、長年、過度な適合を防ぐために有用であることが証明されてきた広範なデータシャッフルに反し、トレーニングの有効性を低下させる。 第二に、既存の多目的法は2つの本質的に矛盾する損失関数を1つの確率論的予測に適用し、キャリブレーションとランク付けの間の準最適トレードオフをもたらす。 この2つの制約に対処するため,キャリブレートランキング(SBCR)のためのセルフブーストフレームワークを提案する。

Scale-calibrated ranking systems are ubiquitous in real-world applications nowadays, which pursue accurate ranking quality and calibrated probabilistic predictions simultaneously. For instance, in the advertising ranking system, the predicted click-through rate (CTR) is utilized for ranking and required to be calibrated for the downstream cost-per-click ads bidding. Recently, multi-objective based methods have been wildly adopted as a standard approach for Calibrated Ranking, which incorporates the combination of two loss functions: a pointwise loss that focuses on calibrated absolute values and a ranking loss that emphasizes relative orderings. However, when applied to industrial online applications, existing multi-objective CR approaches still suffer from two crucial limitations. First, previous methods need to aggregate the full candidate list within a single mini-batch to compute the ranking loss. Such aggregation strategy violates extensive data shuffling which has long been proven beneficial for preventing overfitting, and thus degrades the training effectiveness. Second, existing multi-objective methods apply the two inherently conflicting loss functions on a single probabilistic prediction, which results in a sub-optimal trade-off between calibration and ranking. To tackle the two limitations, we propose a Self-Boosted framework for Calibrated Ranking (SBCR).
翻訳日:2024-06-13 17:45:58 公開日:2024-06-12
# SHACL2FOL: SHACL決定問題のためのFOLツールキット

SHACL2FOL: An FOL Toolkit for SHACL Decision Problems ( http://arxiv.org/abs/2406.08018v1 )

ライセンス: Link先を確認
Paolo Pareti, (参考訳) RDFグラフを検証するためのW3C仕様であるShapes Constraint Language (SHACL)に関する最近の研究は、検証、封じ込め、満足度決定問題に対する公式な解を提供するために、言語を一階述語論理に翻訳することに依存している。 SHACL2FOL(SHACL2FOL)は、最初の自動ツールである。 i) SHACL 文書を FOL 文に変換して i) 満足度と包含性の2つの静的解析問題に対する解を計算し、また、制約の集合に関してグラフの有効性をテストすることもできる。 E や Vampire のような既存の定理証明と統合することにより、上記の決定問題に対する解を計算し、標準 TPTP フォーマットで対応する一階述語論理理論を出力する。 このツールは、SHACLのセマンティクスの自動一階述語論理解釈を提供することによって、SHACLのさらなる理論的研究に寄与し、また、SHACLの制約の作成と管理を支援する静的解析機能を提供することで、SHACL実践者の利益を享受できると考えている。

Recent studies on the Shapes Constraint Language (SHACL), a W3C specification for validating RDF graphs, rely on translating the language into first-order logic in order to provide formally-grounded solutions to the validation, containment and satisfiability decision problems. Continuing on this line of research, we introduce SHACL2FOL, the first automatic tool that (i) translates SHACL documents into FOL sentences and (ii) computes the answer to the two static analysis problems of satisfiability and containment; it also allow to test the validity of a graph with respect to a set of constraints. By integrating with existing theorem provers, such as E and Vampire, the tool computes the answer to the aforementioned decision problems and outputs the corresponding first-order logic theories in the standard TPTP format. We believe this tool can contribute to further theoretical studies of SHACL, by providing an automatic first-order logic interpretation of its semantics, while also benefiting SHACL practitioners, by supplying static analysis capabilities to help the creation and management of SHACL constraints.
翻訳日:2024-06-13 17:45:58 公開日:2024-06-12
# ビジョンファウンデーションモデルによる変更検出による総合的防災評価

Generalizable Disaster Damage Assessment via Change Detection with Vision Foundation Model ( http://arxiv.org/abs/2406.08020v1 )

ライセンス: Link先を確認
Kyeongjin Ahn, Sungwon Han, Sungwon Park, Jihee Kim, Sangyoon Park, Meeyoung Cha, (参考訳) 自然災害の頻度と強度の増大は、迅速かつ正確な被害評価のためのより洗練されたアプローチを要求する。 この問題に対処するため、衛星画像からの災害評価データセットの様々な手法を開発し、災害被害の検知に役立てている。 しかし、地理的景観や災害の多様さは、訓練中に見えない地域に既存の手法を適用することを困難にしている。 本稿では, DAVI(Disaster Assessment with VIsion foundation model)を提案する。 DAVIは、ソース領域でトレーニングされたモデルからイメージセグメンテーション基礎モデルにタスク固有の知識を統合し、ターゲット領域の損傷の可能性を示す擬似ラベルを生成する。 次に、ピクセルと全体像の両方をターゲットとした2段階の精錬プロセスを使用して、前と後の画像に基づいて災害現場の変化をより正確に特定する。 総合的な評価は、DAVIが様々な地形(米国、メキシコなど)と災害種(例、山火事、ハリケーン、地震)で例外的な性能を発揮することを示している。 このことは、地道ラベルに依存しない災害影響の評価において、その堅牢性を確認している。

The increasing frequency and intensity of natural disasters demand more sophisticated approaches for rapid and precise damage assessment. To tackle this issue, researchers have developed various methods on disaster benchmark datasets from satellite imagery to aid in detecting disaster damage. However, the diverse nature of geographical landscapes and disasters makes it challenging to apply existing methods to regions unseen during training. We present DAVI (Disaster Assessment with VIsion foundation model), which overcomes domain disparities and detects structural damage (e.g., building) without requiring ground-truth labels of the target region. DAVI integrates task-specific knowledge from a model trained on source regions with an image segmentation foundation model to generate pseudo labels of possible damage in the target region. It then employs a two-stage refinement process, targeting both the pixel and overall image, to more accurately pinpoint changes in disaster-struck areas based on before-and-after images. Comprehensive evaluations demonstrate that DAVI achieves exceptional performance across diverse terrains (e.g., USA and Mexico) and disaster types (e.g., wildfires, hurricanes, and earthquakes). This confirms its robustness in assessing disaster impact without dependence on ground-truth labels.
翻訳日:2024-06-13 17:45:58 公開日:2024-06-12
# 視覚・言語モデルにおける映像理解能力の拡張

Fewer Tokens and Fewer Videos: Extending Video Understanding Abilities in Large Vision-Language Models ( http://arxiv.org/abs/2406.08024v1 )

ライセンス: Link先を確認
Shimin Chen, Yitian Yuan, Shaoxiang Chen, Zequn Jie, Lin Ma, (参考訳) 画像ベースのLarge Vision-Language Models(画像-LVLM)の進歩の中で、ビデオベースモデル(ビデオ-LVLM)への移行は、品質ビデオデータの可用性の制限によって妨げられている。 本稿では,映像と映像の視覚的共通性を活用して,映像LVLMを効率的にビデオLVLMに進化させることによる課題に対処する。 本稿では、モデルアーキテクチャを強化し、革新的なトレーニング戦略を導入し、最も効果的なタイプのビデオ命令データを特定する、費用対効果のあるビデオLVLMを提案する。 我々の革新的な重み付きトークンサンプリング器は、各ビデオフレームの視覚トークン数を著しく圧縮し、計算コストを効果的に削減する。 また、従来のビデオLVLMと比べて、ビデオデータの10%しか使われていないため、様々なトレーニングフェーズにおいて印象的な結果が得られる。 さらに、限られたリソース設定における映像指導データの影響を掘り下げ、時間的理解を重視してモデル性能を高めることの重要性を強調した。 その結果、FTFV-LVLM (Fwer Tokens and Fewer Videos LVLM) は、ビデオと画像のベンチマークで例外的な性能を示し、我々のモデルの設計とトレーニングのアプローチを検証する。

Amidst the advancements in image-based Large Vision-Language Models (image-LVLM), the transition to video-based models (video-LVLM) is hindered by the limited availability of quality video data. This paper addresses the challenge by leveraging the visual commonalities between images and videos to efficiently evolve image-LVLMs into video-LVLMs. We present a cost-effective video-LVLM that enhances model architecture, introduces innovative training strategies, and identifies the most effective types of video instruction data. Our innovative weighted token sampler significantly compresses the visual token numbers of each video frame, effectively cutting computational expenses. We also find that judiciously using just 10% of the video data, compared to prior video-LVLMs, yields impressive results during various training phases. Moreover, we delve into the influence of video instruction data in limited-resource settings, highlighting the significance of incorporating video training data that emphasizes temporal understanding to enhance model performance. The resulting Fewer Tokens and Fewer Videos LVLM (FTFV-LVLM) exhibits exceptional performance across video and image benchmarks, validating our model's design and training approaches.
翻訳日:2024-06-13 17:45:58 公開日:2024-06-12
# メタバースアイデンティティ: コア原則と批判的課題

Metaverse Identity: Core Principles and Critical Challenges ( http://arxiv.org/abs/2406.08029v1 )

ライセンス: Link先を確認
Liang Yang, Yan Xu, Pan Hui, (参考訳) 本稿ではメタバースにおけるアイデンティティの構築とガバナンスを導くべき基本原則について考察し、対処すべき重要な課題を特定する。 多分野の理論と視点に基づいて、メタバースアイデンティティの2つの基本原理である \emph{Equivalence and Alignment} と \emph{Fusion and Expansiveness} を提案する。 第1の原則は、メタバースのアイデンティティは、ガイドラインの確立と権利の保護に不可欠である規範や標準の観点から、現実世界のアイデンティティと整合性を持つべきである、と論じている。 第2の原則は、メタバースアイデンティティのシームレスな統合と境界のない拡張の必要性を強調し、多様なニーズを満たすために現実世界の制限を超越し、包括的参加を促進する。 これらの2つの原則は、メタバースにおける説明責任、包括性、アイデンティティの一貫性を保証するために不可欠である、と我々は主張する。 アイデンティティの相互運用性、法的含意、プライバシとアイデンティティ管理、ディープフェイクとシンセティック・アイデンティティ、アイデンティティフラグメンテーションと心理学的幸福の5つの重要な課題を特定します。 これらの課題をナビゲートするための潜在的な戦略について議論する。 メタバースアイデンティティーの未来を形作るための積極的かつ協調的なアプローチの重要性について,本論文は結論づける。 メタバースの進化が進むにつれて、我々はこの非チャート領域におけるアイデンティティを取り巻く原則と課題を徹底的に理解し、責任あるアイデンティティ構築と表現を促進するメタバースを構築するために一括して働くことが不可欠である。

This paper explores the core principles that should guide the construction and governance of identity in the metaverse and identifies the critical challenges that need to be addressed. Drawing on multidisciplinary theories and perspectives, we propose two core principles for metaverse identity: \emph{Equivalence and Alignment}, and \emph{Fusion and Expansiveness}. The first principle contends that metaverse identities should be consistent with real-world identities in terms of norms and standards, which is crucial for establishing guidelines and safeguarding rights. The second principle emphasizes the necessity for seamless integration and boundless expansion of metaverse identities, transcending real-world limitations to accommodate diverse needs and foster inclusive participation. We argue that these two principles are vital for ensuring the accountability, inclusiveness, and consistency of identity in the metaverse. We also identify five critical challenges: Identity Interoperability, Legal Implications, Privacy and Identity Management, Deepfakes and Synthetic Identities, and Identity Fragmentation and Psychological Well-being. We discuss potential strategies to navigate these challenges. The paper concludes by underscoring the importance of a proactive and collaborative approach to shaping the future of metaverse identity. As the metaverse continues to evolve, it is imperative that we cultivate a thorough understanding of the principles and challenges surrounding identity in this uncharted territory and work collectively to build a metaverse that fosters responsible identity construction and expression.
翻訳日:2024-06-13 17:45:58 公開日:2024-06-12
# コンセプトドリフトの存在下での推進電動機の故障検出

Fault detection in propulsion motors in the presence of concept drift ( http://arxiv.org/abs/2406.08030v1 )

ライセンス: Link先を確認
Martin Tveten, Morten Stakkeland, (参考訳) 機械学習と統計的手法は、海洋システムにおける監視と故障予測を強化するために使用できる。 これらの手法は、過去のシステム動作の記録を持つデータセットに依存しており、フォールトフリーと欠陥操作の両方の期間を含む可能性がある。 概念ドリフトと呼ばれる基盤システムの予期せぬ変更は、これらの手法のパフォーマンスに影響を与え、モデルの再トレーニングや他の適応の必要性を引き起こす可能性がある。 本稿では, 完全モデル再訓練を必要とせず, コンセプトドリフト時に正常に動作可能な水力推進電動機のステータ巻線過熱検出手法を提案する。 2つの異なるアプローチが提示され、テストされる。 すべてのモデルは、運用用推進モーターのデータセットを使用してトレーニングされ、検証される。

Machine learning and statistical methods can be used to enhance monitoring and fault prediction in marine systems. These methods rely on a dataset with records of historical system behaviour, potentially containing periods of both fault-free and faulty operation. An unexpected change in the underlying system, called a concept drift, may impact the performance of these methods, triggering the need for model retraining or other adaptations. In this article, we present an approach for detecting overheating in stator windings of marine propulsion motors that is able to successfully operate during concept drift without the need for full model retraining. Two distinct approaches are presented and tested. All models are trained and verified using a dataset from operational propulsion motors, with known, sudden concept drifts.
翻訳日:2024-06-13 17:34:43 公開日:2024-06-12
# リモートセンシング画像におけるスラムマッピングのためのディープラーニング:メタ分析とレビュー

Deep Learning for Slum Mapping in Remote Sensing Images: A Meta-analysis and Review ( http://arxiv.org/abs/2406.08031v1 )

ライセンス: Link先を確認
Anjali Raj, Adway Mitra, Manjira Sinha, (参考訳) 国連開発プログラム(UNDP)が設定する、持続可能な開発目標(SDG)2030には、持続可能な都市やコミュニティ、貧困、不平等の削減が含まれる。 しかし、世界中の多くの主要都市、特に先進国では、何百万人もの人々がスラムや非公式の居住地に住んでいる。 これらの入植地とその住民を政府の介入によって解放するためには、スラムの位置と範囲に関する正確なデータが必要である。 地上調査データは最も信頼性が高いが、こうした調査は費用と時間を要する。 また、超高解像度(VHR)画像から得られるリモートセンシングデータもある。 新しい技術の進歩により、スラムのリモートセンシングに基づくマッピングが顕著な研究領域として浮上した。 人工知能の並列化、特にディープラーニングは、衛星画像の自動解析によってスラムに関連する複雑な空間パターンを特定できるように、この分野に新たな次元を追加した。 本稿では,2014年から2024年までのリモートセンシング画像を用いたスラムマッピング研究の詳細なレビューとメタ分析を行い,特にディープラーニングのアプローチに注目した。 データ前処理やモデルトレーニング技術の進歩により,スラム識別精度が著しく向上した。 多様な地理的文脈にまたがって有効な重要な方法論を同定しようと試みてきた。 スラム検出における畳み込みニューラルネットワーク(CNN)の変換的影響を認めながら、我々のレビューでは、普遍的に最適なモデルが欠如していることを示し、文脈固有の適応の必要性を示唆している。 また、データ制限やモデル説明可能性の欠如など、この分野で広く普及している課題を特定し、これらを克服するための潜在的戦略を提案する。

The major Sustainable Development Goals (SDG) 2030, set by the United Nations Development Program (UNDP), include sustainable cities and communities, no poverty, and reduced inequalities. However, millions of people live in slums or informal settlements with poor living conditions in many major cities around the world, especially in less developed countries. To emancipate these settlements and their inhabitants through government intervention, accurate data about slum location and extent is required. While ground survey data is the most reliable, such surveys are costly and time-consuming. An alternative is remotely sensed data obtained from very high-resolution (VHR) imagery. With the advancement of new technology, remote sensing based mapping of slums has emerged as a prominent research area. The parallel rise of Artificial Intelligence, especially Deep Learning has added a new dimension to this field as it allows automated analysis of satellite imagery to identify complex spatial patterns associated with slums. This article offers a detailed review and meta-analysis of research on slum mapping using remote sensing imagery from 2014 to 2024, with a special focus on deep learning approaches. Our analysis reveals a trend towards increasingly complex neural network architectures, with advancements in data preprocessing and model training techniques significantly enhancing slum identification accuracy. We have attempted to identify key methodologies that are effective across diverse geographic contexts. While acknowledging the transformative impact Convolutional Neural Networks (CNNs) in slum detection, our review underscores the absence of a universally optimal model, suggesting the need for context-specific adaptations. We also identify prevailing challenges in this field, such as data limitations and a lack of model explainability and suggest potential strategies for overcoming these.
翻訳日:2024-06-13 17:34:43 公開日:2024-06-12
# 符号付きネットワーク上での強弱ランダムウォーク

Strong and Weak Random Walks on Signed Networks ( http://arxiv.org/abs/2406.08034v1 )

ライセンス: Link先を確認
Shazia'Ayn Babul, Yu Tian, Renaud Lambiotte, (参考訳) ランダムウォークは複雑なネットワークの構造を探索する上で重要な役割を果たしている。 従来のネットワークでは、コミュニティ構造を抽出したり、ノード中心性を理解したり、リンク予測を行ったり、ノード間の類似性を捉えたりすることができる。 符号付きネットワークでは、エッジの重みが正か負かのいずれかである場合、ネットワークの符号付き構造に関する情報を抽出するランダムウォークを設計するのは簡単ではない。 署名されたネットワークのランダムウォークに関する先行研究は、そのようなコミュニティが2つしかない場合(強いバランス)に焦点を当てている。 本稿では,2つ以上のコミュニティを持つネットワークの構造を捉えることのできる,署名付きネットワークランダムウォークを提案する。 このウォークによって類似性行列が生成され、ノードを対角的なコミュニティにクラスタリングすることができる。 歩行長と静止度の観点から,いわゆる強無作為歩行と弱無作為歩行の特性を比較した。 本稿では,弱い歩行に基づく類似度行列を教師なしおよび半教師付きクラスタリングの両方に使用し,グラフが2つ以上のコミュニティを持つ場合の強い歩行に基づく類似度行列よりも優れ,あるいはリンク密度の非対称性を示すという,合成および経験的ネットワークに関する一連の実験を通して示す。 これらの結果は、強い歩行ではなく弱い歩行で行うだけで、符号付きネットワークのための他のランダムウォークベースのアルゴリズムを改善することができることを示唆している。

Random walks play an important role in probing the structure of complex networks. On traditional networks, they can be used to extract community structure, understand node centrality, perform link prediction, or capture the similarity between nodes. On signed networks, where the edge weights can be either positive or negative, it is non-trivial to design a random walk which can be used to extract information about the signed structure of the network, in particular the ability to partition the graph into communities with positive edges inside and negative edges in between. Prior works on signed network random walks focus on the case where there are only two such communities (strong balance), which is rarely the case in empirical networks. In this paper, we propose a signed network random walk which can capture the structure of a network with more than two such communities (weak balance). The walk results in a similarity matrix which can be used to cluster the nodes into antagonistic communities. We compare the characteristics of the so-called strong and weak random walks, in terms of walk length and stationarity. We show through a series of experiments on synthetic and empirical networks that the similarity matrix based on weak walks can be used for both unsupervised and semi-supervised clustering, outperforming the same similarity matrix based on strong walks when the graph has more than two communities, or exhibits asymmetry in the density of links. These results suggest that other random-walk based algorithms for signed networks could be improved simply by running them with weak walks instead of strong walks.
翻訳日:2024-06-13 17:34:43 公開日:2024-06-12
# LVBench:極端に長いビデオ理解ベンチマーク

LVBench: An Extreme Long Video Understanding Benchmark ( http://arxiv.org/abs/2406.08035v1 )

ライセンス: Link先を確認
Weihan Wang, Zehai He, Wenyi Hong, Yean Cheng, Xiaohan Zhang, Ji Qi, Shiyu Huang, Bin Xu, Yuxiao Dong, Ming Ding, Jie Tang, (参考訳) マルチモーダルな大言語モデルの最近の進歩は、ショートビデオ(典型的には1分以内)の理解を著しく向上させ、その結果、いくつかの評価データセットが出現した。 しかし、これらの進歩は、長期的な意思決定のための具体的インテリジェンス、詳細な映画レビューや議論、ライブスポーツ解説といった現実的な応用の要求を満たすには足りていない。 このギャップに対処するために、長いビデオ理解に特化したベンチマークであるLVBenchを紹介する。 我々のデータセットは、公開されているビデオからなり、長いビデオの理解と情報抽出を目的とした様々なタスクを包含する。 LVBenchは、長期記憶と拡張理解能力を実証するために、マルチモーダルモデルに挑戦するように設計されている。 我々の広範な評価により、現在のマルチモーダルモデルは、これらの要求の長いビデオ理解タスクにおいて、まだ性能が劣っていることが明らかとなった。 LVBenchを通じて、長いビデオ理解の複雑さに対処できる、より高度なモデルの開発を促進することを目的としている。 私たちのデータとコードは、https://lvbench.github.io.comで公開されています。

Recent progress in multimodal large language models has markedly enhanced the understanding of short videos (typically under one minute), and several evaluation datasets have emerged accordingly. However, these advancements fall short of meeting the demands of real-world applications such as embodied intelligence for long-term decision-making, in-depth movie reviews and discussions, and live sports commentary, all of which require comprehension of long videos spanning several hours. To address this gap, we introduce LVBench, a benchmark specifically designed for long video understanding. Our dataset comprises publicly sourced videos and encompasses a diverse set of tasks aimed at long video comprehension and information extraction. LVBench is designed to challenge multimodal models to demonstrate long-term memory and extended comprehension capabilities. Our extensive evaluations reveal that current multimodal models still underperform on these demanding long video understanding tasks. Through LVBench, we aim to spur the development of more advanced models capable of tackling the complexities of long video comprehension. Our data and code are publicly available at: https://lvbench.github.io.
翻訳日:2024-06-13 17:34:43 公開日:2024-06-12
# 視覚追跡のための視覚変換器ブロックを適応的にバイパスする

Adaptively Bypassing Vision Transformer Blocks for Efficient Visual Tracking ( http://arxiv.org/abs/2406.08037v1 )

ライセンス: Link先を確認
Xiangyang Yang, Dan Zeng, Xucheng Wang, You Wu, Hengzhou Ye, Shuiwang Li, (参考訳) トランスフォーマーベースのモデルによって、視覚的トラッキングは大幅に進歩した。 しかし、現在のトラッカーの遅い速度は、制約のある計算資源を持つデバイスに適用性を制限する。 この課題に対処するために、効率的な視覚追跡のためにトランスフォーマーブロックを適応的にバイパスする適応型計算フレームワークであるABTrackを紹介する。 ABTrackの背後にある理論的根拠は、意味的特徴や関係がすべての抽象レベルにわたってトラッキングタスクに一様に影響を与えないという観察に根ざしている。 その代わり、この影響はターゲットの特徴とそれが占めるシーンによって異なる。 その結果、ある抽象レベルでの重要でない意味的特徴や関係を無視することは、追跡精度に大きく影響しない可能性がある。 本稿では,変換器ブロックをバイパスすべきかどうかを判断するBypass Decision Module (BDM)を提案し,ViTのアーキテクチャを適応的に単純化し,推論プロセスを高速化する。 各トランスブロックにおけるトークンの潜伏表現の次元を小さくするために,BDMによる時間コスト対策と,ViTの効率向上を両立させるため,プルーニング手法を革新的に適用した。 提案手法の有効性と汎用性を検証し,その性能を実証した。 コードは: \href{https://github.com/1HykhqV3rU/ABTrack} でリリースされている。

Empowered by transformer-based models, visual tracking has advanced significantly. However, the slow speed of current trackers limits their applicability on devices with constrained computational resources. To address this challenge, we introduce ABTrack, an adaptive computation framework that adaptively bypassing transformer blocks for efficient visual tracking. The rationale behind ABTrack is rooted in the observation that semantic features or relations do not uniformly impact the tracking task across all abstraction levels. Instead, this impact varies based on the characteristics of the target and the scene it occupies. Consequently, disregarding insignificant semantic features or relations at certain abstraction levels may not significantly affect the tracking accuracy. We propose a Bypass Decision Module (BDM) to determine if a transformer block should be bypassed, which adaptively simplifies the architecture of ViTs and thus speeds up the inference process. To counteract the time cost incurred by the BDMs and further enhance the efficiency of ViTs, we innovatively adapt a pruning technique to reduce the dimension of the latent representation of tokens in each transformer block. Extensive experiments on multiple tracking benchmarks validate the effectiveness and generality of the proposed method and show that it achieves state-of-the-art performance. Code is released at: \href{https://github.com/1HykhqV3rU/ABTrack}
翻訳日:2024-06-13 17:34:43 公開日:2024-06-12
# プライベートトランスファー学習のための異なるプライベートプロトタイプ

Beyond the Mean: Differentially Private Prototypes for Private Transfer Learning ( http://arxiv.org/abs/2406.08039v1 )

ライセンス: Link先を確認
Dariush Wahdany, Matthew Jagielski, Adam Dziedzic, Franziska Boenisch, (参考訳) 機械学習(ML)モデルは、トレーニングデータセットからプライベート情報を漏洩することが示されている。 ディファレンシャルプライバシ(DP)は、通常、ディファレンシャル・プライベート・確率勾配勾配勾配アルゴリズム(DP-SGD)によって実装され、モデルからのバウンド・リークの標準解となっている。 最近の改善にもかかわらず、DP-SGDベースのプライベートラーニングアプローチは、通常、高いプライバシ(\varepsilon\le1)と低いデータレジーム、プライベートトレーニングデータセットが不均衡な場合に、高いプライバシ(\varepsilon\le1)と低いデータレジームに苦しむ。 これらの制約を克服するため、我々は、個人間移動学習の新しいパラダイムとして、差分的プライベートプロトタイプ学習(DPPL)を提案する。 DPPLは、公開事前訓練されたエンコーダを利用して、プライベートデータから特徴を抽出し、埋め込み空間内の各プライベートクラスを表すDPプロトタイプを生成し、推論のために公開することができる。 我々のDPプロトタイプは、数個のプライベートトレーニングデータポイントからしか得られず、繰り返しノイズが加わらないため、純粋なDPの概念の下でも、高ユーティリティな予測と強力なプライバシ保証を提供する。 さらに、エンコーダの事前トレーニング以上の公開データを活用すれば、プライバシーとユーティリティのトレードオフをさらに改善できることを示す。 4つの最先端エンコーダ、4つのビジョンデータセット、異なるデータと不均衡な条件下での実験的な評価により、DPPLは、プライベート学習に挑戦する際の強力なプライバシー保証の下で高い性能を示す。

Machine learning (ML) models have been shown to leak private information from their training datasets. Differential Privacy (DP), typically implemented through the differential private stochastic gradient descent algorithm (DP-SGD), has become the standard solution to bound leakage from the models. Despite recent improvements, DP-SGD-based approaches for private learning still usually struggle in the high privacy ($\varepsilon\le1)$ and low data regimes, and when the private training datasets are imbalanced. To overcome these limitations, we propose Differentially Private Prototype Learning (DPPL) as a new paradigm for private transfer learning. DPPL leverages publicly pre-trained encoders to extract features from private data and generates DP prototypes that represent each private class in the embedding space and can be publicly released for inference. Since our DP prototypes can be obtained from only a few private training data points and without iterative noise addition, they offer high-utility predictions and strong privacy guarantees even under the notion of pure DP. We additionally show that privacy-utility trade-offs can be further improved when leveraging the public data beyond pre-training of the encoder: in particular, we can privately sample our DP prototypes from the publicly available data points used to train the encoder. Our experimental evaluation with four state-of-the-art encoders, four vision datasets, and under different data and imbalancedness regimes demonstrate DPPL's high performance under strong privacy guarantees in challenging private learning setups.
翻訳日:2024-06-13 17:34:43 公開日:2024-06-12
# IoT侵入検出のための効率的なネットワークトラフィック機能セット

Efficient Network Traffic Feature Sets for IoT Intrusion Detection ( http://arxiv.org/abs/2406.08042v1 )

ライセンス: Link先を確認
Miguel Silva, João Vitorino, Eva Maia, Isabel Praça, (参考訳) サイバーセキュリティソリューションにおける機械学習(ML)モデルの使用には、冗長で欠落したノイズの多い情報から取り除かれた高品質なデータが必要である。 最も関連性の高い機能を選択することで、データの完全性とモデルの効率を大幅に改善することができる。 この研究は、複数のIoTネットワークデータセットで、Information Gain、Chi-Squared Test、Recursive Feature Elimination、Mean Absolute Deviation、Dispersion Ratioといった、さまざまな機能選択メソッドの組み合わせによって提供される機能セットを評価します。 より小さな特徴セットがMLモデルの分類性能とトレーニング時間の両方に与える影響を比較し,IoT侵入検出の計算効率を高めることを目的とした。 全体として、各データセットの最も影響の大きい特徴が同定され、MLモデルは優れた一般化を維持しながら高い計算効率を得た。

The use of Machine Learning (ML) models in cybersecurity solutions requires high-quality data that is stripped of redundant, missing, and noisy information. By selecting the most relevant features, data integrity and model efficiency can be significantly improved. This work evaluates the feature sets provided by a combination of different feature selection methods, namely Information Gain, Chi-Squared Test, Recursive Feature Elimination, Mean Absolute Deviation, and Dispersion Ratio, in multiple IoT network datasets. The influence of the smaller feature sets on both the classification performance and the training time of ML models is compared, with the aim of increasing the computational efficiency of IoT intrusion detection. Overall, the most impactful features of each dataset were identified, and the ML models obtained higher computational efficiency while preserving a good generalization, showing little to no difference between the sets.
翻訳日:2024-06-13 17:34:43 公開日:2024-06-12
# 遺伝子組換えと置換体によるグラフ識別の新しいアプローチ

A novel approach to graph distinction through GENEOs and permutants ( http://arxiv.org/abs/2406.08045v1 )

ライセンス: Link先を確認
Giovanni Bocchi, Massimo Ferri, Patrizio Frosini, (参考訳) 群同変非拡張演算子(GENEOs)の理論は、まずトポロジカルデータ解析において、その不変性や対称性を含むデータオブザーバの幾何学的近似のために開発された。 この論文は、そのような研究の流れから離れ、同型への$r$正則グラフの識別にGENEOsを使うことを探求する。 そこで我々は,これらの演算子の能力と柔軟性をテストすることを目的とする。 実験の結果, GenEOsは$r$正規グラフの比較において, 効率と計算コストの両立を図っているのに対し, データに対する作用は容易に解釈可能であることがわかった。 これは、データとオブザーバに関するいくつかの構造情報が明示的に与えられるとき、genEOsが機械学習における差別的問題に対する汎用的なアプローチである、という考えを支持する。

The theory of Group Equivariant Non-Expansive Operators (GENEOs) was initially developed in Topological Data Analysis for the geometric approximation of data observers, including their invariances and symmetries. This paper departs from that line of research and explores the use of GENEOs for distinguishing $r$-regular graphs up to isomorphisms. In doing so, we aim to test the capabilities and flexibility of these operators. Our experiments show that GENEOs offer a good compromise between efficiency and computational cost in comparing $r$-regular graphs, while their actions on data are easily interpretable. This supports the idea that GENEOs could be a general-purpose approach to discriminative problems in Machine Learning when some structural information about data and observers is explicitly given.
翻訳日:2024-06-13 17:34:43 公開日:2024-06-12
# Swin Transformer と RT-DETR を用いた無線カプセル内視鏡におけるブラッシングフレームの分類と検出のためのロバストパイプライン

A Robust Pipeline for Classification and Detection of Bleeding Frames in Wireless Capsule Endoscopy using Swin Transformer and RT-DETR ( http://arxiv.org/abs/2406.08046v1 )

ライセンス: Link先を確認
Sasidhar Alavala, Anil Kumar Vadde, Aparnamala Kancheti, Subrahmanyam Gorthi, (参考訳) 本稿では,Auto WCEBleedGen Challenge V2 2024へのアプローチを提案する。 本ソリューションは, 出血フレームの初期分類のためのSwin Transformerと, 一連の前処理ステップによって強化された無線カプセル内視鏡(WCE)における出血のさらなる検出のためのRT-DETRを組み合わせる。 これらのステップには、イメージをLab色空間に変換すること、コントラスト限定適応ヒストグラム等化(CLAHE)をより良いコントラストに適用すること、アーティファクトを抑圧するためにガウスのぼかしを使用することが含まれる。 Swin Transformerは、ウィンドウがシフトした階層アーキテクチャを使用して、ローカルウィンドウにフォーカスしながら、ウィンドウ間の相互作用を可能としながら、自己アテンションの計算を効率的に管理する。 RT-DETRは、マルチスケール機能の高速処理のための効率的なハイブリッドエンコーダと、精度を高めるための不確実性最小のクエリ選択を備えている。 Ablation-CAMによるクラスアクティベーションマップは、モデルの判断にもっとも適している。 検証セットでは、事前処理なしで98.5%(他の最先端モデルの中で最も高い)の分類精度が91.7%、$\text{AP}_{50}$が66.7%であるのに対し、最先端のYOLOv8は65.0%である。 テストセットでは、それぞれ87.0%と89.0%の分類精度とF1スコアを達成する。

In this paper, we present our approach to the Auto WCEBleedGen Challenge V2 2024. Our solution combines the Swin Transformer for the initial classification of bleeding frames and RT-DETR for further detection of bleeding in Wireless Capsule Endoscopy (WCE), enhanced by a series of image preprocessing steps. These steps include converting images to Lab colour space, applying Contrast Limited Adaptive Histogram Equalization (CLAHE) for better contrast, and using Gaussian blur to suppress artefacts. The Swin Transformer utilizes a tiered architecture with shifted windows to efficiently manage self-attention calculations, focusing on local windows while enabling cross-window interactions. RT-DETR features an efficient hybrid encoder for fast processing of multi-scale features and an uncertainty-minimal query selection for enhanced accuracy. The class activation maps by Ablation-CAM are plausible to the model's decisions. On the validation set, this approach achieves a classification accuracy of 98.5% (best among the other state-of-the-art models) compared to 91.7% without any pre-processing and an $\text{AP}_{50}$ of 66.7% compared to 65.0% with state-of-the-art YOLOv8. On the test set, this approach achieves a classification accuracy and F1 score of 87.0% and 89.0% respectively.
翻訳日:2024-06-13 17:34:43 公開日:2024-06-12
# 3D CBCT Challenge 2024:SwinIR-based Sinogramと画像強調によるコーンビームCT再構成の改善

3D CBCT Challenge 2024: Improved Cone Beam CT Reconstruction using SwinIR-Based Sinogram and Image Enhancement ( http://arxiv.org/abs/2406.08048v1 )

ライセンス: Link先を確認
Sasidhar Alavala, Subrahmanyam Gorthi, (参考訳) 本稿では,ICASSP SP Grand Challenges 2024の一部である3D CBCT Challenge 2024について述べる。 コーンビームCT(CBCT)の再構成は,スウィン画像復元(SwinIR)と画像強調モジュールを統合して実現されている。 提案手法は、Nesterov Accelerated Gradient Descent (NAG) を用いて、CT画像再構成における最小二乗問題(NAG-LS)を解決する。 シングラムと画像強調モジュールの統合は、画像の明瞭度を高め、細部を保存することを目的としており、低用量と臨床用量のCBCT再建に有望な解決策を提供する。 平均2乗誤差 (MSE) は, 低用量では1/5, 臨床用量では1/10で有意に減少した。 私たちのソリューションは、この課題におけるトップ5のアプローチのひとつです。

In this paper, we present our approach to the 3D CBCT Challenge 2024, a part of ICASSP SP Grand Challenges 2024. Improvement in Cone Beam Computed Tomography (CBCT) reconstruction has been achieved by integrating Swin Image Restoration (SwinIR) based sinogram and image enhancement modules. The proposed methodology uses Nesterov Accelerated Gradient Descent (NAG) to solve the least squares (NAG-LS) problem in CT image reconstruction. The integration of sinogram and image enhancement modules aims to enhance image clarity and preserve fine details, offering a promising solution for both low dose and clinical dose CBCT reconstruction. The averaged mean squared error (MSE) over the validation dataset has decreased significantly, in the case of low dose by one-fifth and clinical dose by one-tenth. Our solution is one of the top 5 approaches in this challenge.
翻訳日:2024-06-13 17:34:43 公開日:2024-06-12
# 電磁回路における平衡結合

Balanced Coupling in Electromagnetic Circuits ( http://arxiv.org/abs/2406.08049v1 )

ライセンス: Link先を確認
Daniel Sank, Mostafa Khezri, Sergei Isakov, Juan Atalaya, (参考訳) 回転波近似(RWA)は駆動共振器および結合共振器の解析においてユビキタスである。 しかし、RWAの限界は理解されていないようで、いくつかの場合において、RWAは本質的な物理学を廃止する。 電気共振回路におけるRWAについて検討する。 古典的ハミルトン法を用いて、共振器駆動または共振器共振器結合の電気的および磁気的成分のバランスをとることにより、RWAを正確にすることができる。 RWAが正確であるこの種のバランスは、超伝導量子ビットに応用され、通常は強いラビの運転に結びつく栄養を抑える。 分散読み出しの文脈では、qubit-共振器結合のバランスは、共振器駆動(MIST)によって引き起こされるqubitリークを変化させるが、transmon qubitの場合、それを除去しない。

The rotating wave approximation (RWA) is ubiquitous in the analysis of driven and coupled resonators. However, the limitations of the RWA seem to be poorly understood and in some cases the RWA disposes of essential physics. We investigate the RWA in the context of electrical resonant circuits. Using a classical Hamiltonian approach, we find that by balancing electrical and magnetic components of the resonator drive or resonator-resonator coupling, the RWA can be made exact. This type of balance, in which the RWA is exact, has applications in superconducting qubits where it suppresses nutation normally associated with strong Rabi driving. In the context of dispersive readout, balancing the qubit-resonator coupling changes the qubit leakage induced by the resonator drive (MIST), but does not remove it in the case of the transmon qubit.
翻訳日:2024-06-13 17:34:43 公開日:2024-06-12
# 大規模言語モデルに対する敵対的侵入攻撃効率

Adversarial Evasion Attack Efficiency against Large Language Models ( http://arxiv.org/abs/2406.08050v1 )

ライセンス: Link先を確認
João Vitorino, Eva Maia, Isabel Praça, (参考訳) 大規模言語モデル(LLM)はテキスト分類に有用であるが、その脆弱性は無視されるべきではない。 敵の例に対する堅牢性は欠如しているため、異なる種類の摂動の影響を理解し、それらの攻撃が、少量の摂動と少量のクエリを持つ一般ユーザによって、デプロイされたLLMに対して複製可能かどうかを評価することが重要である。 本研究は、感情分類課題における5種類のLDMに対する3種類の敵攻撃の有効性、効率、実用性について分析した。 その結果,単語レベルの攻撃と文字レベルの攻撃とは全く異なる影響が示された。 単語攻撃はより効果的であったが、文字や制約のある攻撃はより実用的であり、摂動とクエリの減少を必要とした。 これらの違いは、知的テキスト分類アプリケーションのためにより堅牢なLLMを訓練するための敵防衛戦略の開発中に考慮する必要がある。

Large Language Models (LLMs) are valuable for text classification, but their vulnerabilities must not be disregarded. They lack robustness against adversarial examples, so it is pertinent to understand the impacts of different types of perturbations, and assess if those attacks could be replicated by common users with a small amount of perturbations and a small number of queries to a deployed LLM. This work presents an analysis of the effectiveness, efficiency, and practicality of three different types of adversarial attacks against five different LLMs in a sentiment classification task. The obtained results demonstrated the very distinct impacts of the word-level and character-level attacks. The word attacks were more effective, but the character and more constrained attacks were more practical and required a reduced number of perturbations and queries. These differences need to be considered during the development of adversarial defense strategies to train more robust LLMs for intelligent text classification applications.
翻訳日:2024-06-13 17:34:43 公開日:2024-06-12
# 量子収穫機はランダム性伝達や散逸なしにエネルギー移動を可能にする

Quantum harvester enables energy transfer without randomness transfer or dissipation ( http://arxiv.org/abs/2406.08054v1 )

ライセンス: Link先を確認
Fei Meng, Junhao Xu, Xiangjing Liu, Oscar Dahlsten, (参考訳) 部分的にランダムなエネルギー源が与えられたら、ランダムなエネルギーを転送したり、別の熱力学的コストを受け入れることなくエネルギーを抽出できるだろうか? 我々はこれを、ランダム性のある場から原理的エネルギーを抽出するが、ランダム性を持たず、エネルギー散逸を伴わない、というシナリオとプロトコルを、肯定的に説明する。 このようなプロトコルは、電力を散布する既存の修正方法や、ランダム性をフィードバックシステムに転送するデーモンのようなプロトコルを根本的に上回ります。 このプロトコルは、ある時点で同じ最終状態に至るいくつかの軌道を採る収穫システムの可能性を利用する。 これらのプロトコルが基本的な物理原理に違反していない理由を説明します。 重要な例としては、実験的に確立されたエネルギー準位間のラビ振動現象があり、低いエネルギー準位を励起状態に導く状態空間における多数の回転軸を利用する。 量子系は、外部電位のランダム初期位相に関係なく、一定時間ソースと相互作用した後、最高エネルギーレベルに決定的に励起される。

We consider a foundational question in energy harvesting: given a partly random energy source, is it possible to extract the energy without also transferring randomness or accepting another thermodynamical cost? We answer this in the positive, describing scenarios and protocols where in principle energy is extracted from a field with randomness but without any randomness being transferred, and without energy dissipation. Such protocols fundamentally outperform existing methods of rectification which dissipate power, or feedback demon-like protocols which transfer randomness to the feedback system. The protocols exploit the possibility of the harvesting system taking several trajectories that lead to the same final state at a given time. We explain why these protocols do not violate basic physical principles. A key example involves the experimentally well-established phenomenon of Rabi oscillations between energy levels, exploiting the multitude of rotation axes in the state space that take the lower energy state to the excited state. The quantum system is deterministically excited to the highest energy level after interacting with the source for a fixed amount of time, irrespective of the random initial phase of the external potential.
翻訳日:2024-06-13 17:34:43 公開日:2024-06-12
# 求人情報集約ネットワークからの求人情報表現の学習

Learning Job Title Representation from Job Description Aggregation Network ( http://arxiv.org/abs/2406.08055v1 )

ライセンス: Link先を確認
Napat Laosaengpha, Thanit Tativannarat, Chawan Piansaddhayanon, Attapol Rutherford, Ekapol Chuangsuwanich, (参考訳) 職名表現の学習は、人事自動ツールを開発する上で不可欠なプロセスである。 そのため、既存の手法は主に、仕事の説明から抽出したスキルを通じてタイトル表現を学習することに依存しており、内在するリッチで多様なコンテンツを無視している。 そこで本稿では,ジョブ記述(JD)を通じてジョブタイトルを学習する代替フレームワークを提案し,ジョブ記述アグリゲータ(Job Description Aggregator)コンポーネントを用いて,長い記述と双方向のコントラスト損失を処理し,ジョブタイトルとその記述間の双方向関係を考慮する。 ドメイン内設定とドメイン外設定の両方において,本手法の性能を評価し,スキルベースアプローチよりも優れた性能を実現した。

Learning job title representation is a vital process for developing automatic human resource tools. To do so, existing methods primarily rely on learning the title representation through skills extracted from the job description, neglecting the rich and diverse content within. Thus, we propose an alternative framework for learning job titles through their respective job description (JD) and utilize a Job Description Aggregator component to handle the lengthy description and bidirectional contrastive loss to account for the bidirectional relationship between the job title and its description. We evaluated the performance of our method on both in-domain and out-of-domain settings, achieving a superior performance over the skill-based approach.
翻訳日:2024-06-13 17:34:43 公開日:2024-06-12
# MWIRSTD:MWIR小ターゲット検出データセット

MWIRSTD: A MWIR Small Target Detection Dataset ( http://arxiv.org/abs/2406.08063v1 )

ライセンス: Link先を確認
Nikhil Kumar, Avinash Upadhyay, Shreya Sharma, Manoj Sharma, Pravendra Singh, (参考訳) 本稿では、約1053個の画像を含む14個のビデオシーケンスと、3種類の小型物体の注釈付きターゲットを含む新しい中波長赤外小ターゲット検出データセット(MWIRSTD)を提案する。 このデータセットは、冷却されたMWIRイメージラーを使ってキャプチャされ、研究者が現実的なMWIRシーンにおける小さな物体検出のための最先端の手法を開発し、評価するユニークな機会を提供する。 既存のデータセットとは違い、主に冷却されていない熱画像や、背景に重畳されたターゲットを持つ合成データで構成されており、MWIRSTDは様々なターゲットと環境を持つ本物のMWIRデータを提供する。 提案したデータセット上で, 様々な従来の手法と, 小目標検出のための深層学習技術に関する広範囲な実験を行い, その有効性について貴重な知見を得た。 データセットとコードはhttps://github.com/avinres/MWIRSTD.comで公開されている。

This paper presents a novel mid-wave infrared (MWIR) small target detection dataset (MWIRSTD) comprising 14 video sequences containing approximately 1053 images with annotated targets of three distinct classes of small objects. Captured using cooled MWIR imagers, the dataset offers a unique opportunity for researchers to develop and evaluate state-of-the-art methods for small object detection in realistic MWIR scenes. Unlike existing datasets, which primarily consist of uncooled thermal images or synthetic data with targets superimposed onto the background or vice versa, MWIRSTD provides authentic MWIR data with diverse targets and environments. Extensive experiments on various traditional methods and deep learning-based techniques for small target detection are performed on the proposed dataset, providing valuable insights into their efficacy. The dataset and code are available at https://github.com/avinres/MWIRSTD.
翻訳日:2024-06-13 17:34:43 公開日:2024-06-12
# 複雑度保証によるゲートベース反断熱駆動

Gate-based counterdiabatic driving with complexity guarantees ( http://arxiv.org/abs/2406.08064v1 )

ライセンス: Link先を確認
Dyon van Vreumingen, (参考訳) 反断熱駆動のための一般完全ゲート型量子アルゴリズムを提案する。 このアルゴリズムは、従来の変分法のようなヒューリスティックスに依存しず、断熱ゲージポテンシャルの正規化を利用して、関心の固有状態からの遷移のみを抑制する。 これにより、このターゲット固有状態の周りの最小空隙$\Delta$という観点で、厳密な量子ゲート複雑性を上界にすることができる。 このアルゴリズムは少なくとも$\tilde O(\Delta^{-(3 + o(1))} \epsilon^{-(1 + o(1))})$量子ゲートを必要とし、ターゲット状態の忠実度は少なくとも1 - \epsilon^2$である。 これは、断熱に対する一般的なショートカットとしての反断熱運転の認識に疑問を呈する。

We propose a general, fully gate-based quantum algorithm for counterdiabatic driving. The algorithm does not depend on heuristics as in previous variational methods, and exploits regularisation of the adiabatic gauge potential to suppress only the transitions from the eigenstate of interest. This allows for a rigorous quantum gate complexity upper bound in terms of the minimum gap $\Delta$ around this target eigenstate. We find that the algorithm requires at most $\tilde O(\Delta^{-(3 + o(1))} \epsilon^{-(1 + o(1))})$ quantum gates to achieve a target state fidelity of at least $1 - \epsilon^2$, which is nearly equivalent to the gate complexity of gate-based adiabatic state preparation. This calls into question the perception of counterdiabatic driving as a general shortcut to adiabaticity.
翻訳日:2024-06-13 17:24:58 公開日:2024-06-12
# ジョセフソンエミッタを用いた高周波量子回路の2トン分光

Two-tone spectroscopy of high-frequency quantum circuits with a Josephson emitter ( http://arxiv.org/abs/2406.08066v1 )

ライセンス: Link先を確認
A. Peugeot, H. Riechert, S. Annabi, L. Balembois, M. Villiers, E. Flurin, J. Griesmar, E. Arrighi, J. -D. Pillet, L. Bretheau, (参考訳) 我々は、電圧バイアスの超伝導体-常超伝導体-ジョセフソン接合で高周波放射を発生させ、アシラリーマイクロ波共振器で検出する量子回路上で2トーン分光を行う。 我々はこのプロトコルをトランスモンキュービットと$\lambda/4$共振器という2つの異なるシステムで実装する。 この2トーンジョセフソン分光法はミリ波帯でよく動作し、80GHz以上の周波数に到達し、高コヒーレントな量子系を探索するのに適している。

We perform two-tone spectroscopy on quantum circuits, where high-frequency radiation is generated by a voltage-biased superconductor-normal-superconductor Josephson junction and detection is carried out by an ancillary microwave resonator. We implement this protocol on two different systems, a transmon qubit and a $\lambda/4$ resonator. We demonstrate that this two-tone Josephson spectroscopy operates well into the millimeter-wave band, reaching frequencies larger than 80 GHz, and is well-suited for probing highly coherent quantum systems.
翻訳日:2024-06-13 17:24:58 公開日:2024-06-12
# テキスト中心型マルチモーダル感性分析を伴う大規模言語モデル:調査

Large Language Models Meet Text-Centric Multimodal Sentiment Analysis: A Survey ( http://arxiv.org/abs/2406.08068v1 )

ライセンス: Link先を確認
Hao Yang, Yanyan Zhao, Yang Wu, Shilong Wang, Tian Zheng, Hongbo Zhang, Wanxiang Che, Bing Qin, (参考訳) テキストのみを考慮した従来の感情分析と比較して、マルチモーダル感情分析は、マルチモーダルソースからの感情信号を同時に考慮する必要がある。 自然言語、画像、ビデオ、オーディオ、生理的信号など、さまざまなソースからの感情情報を処理する。 しかし、他のモダリティは多様な感情的な手がかりも含んでいるが、自然言語は通常より豊かな文脈情報を含んでいるため、マルチモーダル感情分析において常に重要な位置を占める。 ChatGPTの出現は、テキスト中心のマルチモーダルタスクに大規模言語モデル(LLM)を適用する大きな可能性を開く。 しかし、既存のLLMがテキスト中心のマルチモーダル感情分析タスクにどのように適応できるかは、まだ不明である。 本研究の目的は,(1)テキスト中心のマルチモーダル感情分析タスクにおける最近の研究の総合的なレビュー,(2)テキスト中心のマルチモーダル感情分析におけるLCMの可能性,(3)LLMに基づくマルチモーダル感情分析技術の応用シナリオの概要,(4)将来的なマルチモーダル感情分析の課題と今後の研究方向性について考察することである。

Compared to traditional sentiment analysis, which only considers text, multimodal sentiment analysis needs to consider emotional signals from multimodal sources simultaneously and is therefore more consistent with the way how humans process sentiment in real-world scenarios. It involves processing emotional information from various sources such as natural language, images, videos, audio, physiological signals, etc. However, although other modalities also contain diverse emotional cues, natural language usually contains richer contextual information and therefore always occupies a crucial position in multimodal sentiment analysis. The emergence of ChatGPT has opened up immense potential for applying large language models (LLMs) to text-centric multimodal tasks. However, it is still unclear how existing LLMs can adapt better to text-centric multimodal sentiment analysis tasks. This survey aims to (1) present a comprehensive review of recent research in text-centric multimodal sentiment analysis tasks, (2) examine the potential of LLMs for text-centric multimodal sentiment analysis, outlining their approaches, advantages, and limitations, (3) summarize the application scenarios of LLM-based multimodal sentiment analysis technology, and (4) explore the challenges and potential research directions for multimodal sentiment analysis in the future.
翻訳日:2024-06-13 17:24:58 公開日:2024-06-12
# Explore-Go: 深層強化学習における一般化のための探索の活用

Explore-Go: Leveraging Exploration for Generalisation in Deep Reinforcement Learning ( http://arxiv.org/abs/2406.08069v1 )

ライセンス: Link先を確認
Max Weltevrede, Felix Kaubek, Matthijs T. J. Spaan, Wendelin Böhmer, (参考訳) 強化学習における残りの課題の1つは、一度デプロイされた場合に遭遇する可能性のある新しいシナリオに一般化可能なエージェントを開発することである。 この課題は、エージェントが一定のタスクセットでトレーニングし、新しいタスクに一般化しなければならない、マルチタスク設定で表されることが多い。 近年の研究では, エージェントの一般化性能を高めるために, トレーニング中の探索量の増加を活用できることが示されている。 これは、テスト中に遭遇した状態が実際にトレーニング中に探索できる場合に意味がある。 本稿では,探索が訓練中に明示的に遭遇できない状態への一般化にも有効である理由を直感的に述べる。 さらに,エージェントが訓練する状態の数を増やすことにより,この直感を生かした探索語法を提案する。 Explore-Goはエージェントの開始状態分布を効果的に増加させ、その結果、既存のほとんどのオン・ポリティクスまたはオフ・ポリティクス・強化学習アルゴリズムと併用することができる。 本稿では,本手法が実演環境やProcgenベンチマーク上での一般化性能を向上させることを実証的に示す。

One of the remaining challenges in reinforcement learning is to develop agents that can generalise to novel scenarios they might encounter once deployed. This challenge is often framed in a multi-task setting where agents train on a fixed set of tasks and have to generalise to new tasks. Recent work has shown that in this setting increased exploration during training can be leveraged to increase the generalisation performance of the agent. This makes sense when the states encountered during testing can actually be explored during training. In this paper, we provide intuition why exploration can also benefit generalisation to states that cannot be explicitly encountered during training. Additionally, we propose a novel method Explore-Go that exploits this intuition by increasing the number of states on which the agent trains. Explore-Go effectively increases the starting state distribution of the agent and as a result can be used in conjunction with most existing on-policy or off-policy reinforcement learning algorithms. We show empirically that our method can increase generalisation performance in an illustrative environment and on the Procgen benchmark.
翻訳日:2024-06-13 17:24:58 公開日:2024-06-12
# CFG++: 拡散モデルのためのマニフォールド制約付き分類器フリーガイダンス

CFG++: Manifold-constrained Classifier Free Guidance for Diffusion Models ( http://arxiv.org/abs/2406.08070v1 )

ライセンス: Link先を確認
Hyungjin Chung, Jeongsol Kim, Geon Yeong Park, Hyelin Nam, Jong Chul Ye, (参考訳) クラシファイアフリーガイダンス(CFG)は、テキスト誘導生成のための現代拡散モデルの基本ツールである。 CFGは有効ではあるが、顕著な欠点がある。 例えば、CFGを使ったDDIMは可逆性に欠け、画像編集を複雑にしている。 これらが拡散モデルの本質的な限界であるという広く信じられているのとは対照的に、この論文は拡散モデル自体よりもCFGに付随するオフ・マニフォールド現象に由来することを明らかにしている。 より具体的には、拡散モデルに基づく逆問題解法(DIS)の最近の進歩に触発され、テキスト条件付きスコアマッチング損失による逆問題としてテキストガイダンスを再構成し、従来のCFG固有のオフマンフォールド問題に対処する新しいアプローチCFG++を開発する。 CFG++は驚くほど単純なCFGの修正を特徴としているが、テキスト・ツー・イメージ生成のサンプル品質の向上、可逆性、ガイダンスの縮小、モード崩壊の削減など、大幅な改善が加えられている。 さらに、CFG++は、低誘導スケールでの無条件サンプリングと条件サンプリングのシームレスな補間を可能にする。 実験結果から,テキスト・ツー・イメージ生成,DDIMのインバージョン,編集,逆問題解決において,本手法が性能を著しく向上させることが確認された。 プロジェクトページ: https://cfgpp-diffusion.github.io/

Classifier-free guidance (CFG) is a fundamental tool in modern diffusion models for text-guided generation. Although effective, CFG has notable drawbacks. For instance, DDIM with CFG lacks invertibility, complicating image editing; furthermore, high guidance scales, essential for high-quality outputs, frequently result in issues like mode collapse. Contrary to the widespread belief that these are inherent limitations of diffusion models, this paper reveals that the problems actually stem from the off-manifold phenomenon associated with CFG, rather than the diffusion models themselves. More specifically, inspired by the recent advancements of diffusion model-based inverse problem solvers (DIS), we reformulate text-guidance as an inverse problem with a text-conditioned score matching loss, and develop CFG++, a novel approach that tackles the off-manifold challenges inherent in traditional CFG. CFG++ features a surprisingly simple fix to CFG, yet it offers significant improvements, including better sample quality for text-to-image generation, invertibility, smaller guidance scales, reduced mode collapse, etc. Furthermore, CFG++ enables seamless interpolation between unconditional and conditional sampling at lower guidance scales, consistently outperforming traditional CFG at all scales. Experimental results confirm that our method significantly enhances performance in text-to-image generation, DDIM inversion, editing, and solving inverse problems, suggesting a wide-ranging impact and potential applications in various fields that utilize text guidance. Project Page: https://cfgpp-diffusion.github.io/.
翻訳日:2024-06-13 17:24:58 公開日:2024-06-12
# ML回帰モデルとの比較による米国大学のネット価格予測

US College Net Price Prediction Comparing ML Regression Models ( http://arxiv.org/abs/2406.08071v1 )

ライセンス: Link先を確認
Zalak Patel, Ayushi Porwal, Kajal Bhandare, Jongwook Woo, (参考訳) 本稿では,US College Scorecardデータセットにおける機械学習アルゴリズムの利用について述べる。 本稿では,すべてのモデルの結果を比較し,パブリックおよびプライベートネット価格を予測するために,予測モデルに関する知識,研究,開発の活用について述べる。 本稿では,政府のウェブサイトに公開されているデータからUS College Scorecardのデータを分析することに焦点を当てる。 我々の目標は、4つの機械学習レグレッションモデルを使用して、各カレッジの平等な純コストを予測する予測モデルを開発することです。

This paper will illustrate the usage of Machine Learning algorithms on US College Scorecard datasets. For this paper, we will use our knowledge, research, and development of a predictive model to compare the results of all the models and predict the public and private net prices. This paper focuses on analyzing US College Scorecard data from data published on government websites. Our goal is to use four machine learning regression models to develop a predictive model to forecast the equitable net cost for every college, encompassing both public institutions and private, whether for-profit or nonprofit.
翻訳日:2024-06-13 17:24:58 公開日:2024-06-12
# ブリッジング資源理論と量子鍵分布:幾何学的解析と統計的検証

Bridging Resource Theory and Quantum Key Distribution: Geometric Analysis and Statistical Testing ( http://arxiv.org/abs/2406.08073v1 )

ライセンス: Link先を確認
Andrea D'Urbano, Michael de Oliveira, Luís Soares Barbosa, (参考訳) 量子的相関と古典的相関の区別は非常に重要である。 ベルポリトープは基本的な道具として確立されている。 本稿では,ネットワークシナリオのコンテキストに資源理論を適用し,量子鍵分布(QKD)プロトコルに拡張する。 これを実現するために,プロトコルを記述可能な因果構造である$P3$を検討し,その評価に有用な統計検査を開発することを目的とする。 より具体的には、2つの目的がある: まず第一に、QKDプロトコルの根底にある因果構造を利用して、結果として生じる非凸ポリトープの幾何学的解析を古典的な振る舞いに焦点をあてる。 第2に、生成されたポリトープ内の任意の2つの挙動間の距離を評価するために、このフレームワーク内でテストを作成する。 このアプローチは、期待される振る舞いからの逸脱を、量子リソースの品質やプロトコルの実行における残留する非古典性に直接リンクするユニークな視点を提供する。

Discerning between quantum and classical correlations is of great importance. Bell polytopes are well established as a fundamental tool. In this paper, we extend this line of inquiry by applying resource theory within the context of Network scenarios, to a Quantum Key Distribution (QKD) protocol. To achieve this, we consider the causal structure $P3$ that can describe the protocol, and we aim to develop useful statistical tests to assess it. More concretely, our objectives are twofold: firstly, to utilise the underlying causal structure of the QKD protocol to obtain a geometrical analysis of the resulting non-convex polytope, with a focus on the classical behaviours. Second, we devise a test within this framework to evaluate the distance between any two behaviours within the generated polytope. This approach offers a unique perspective, linking deviations from expected behaviour directly to the quality of the quantum resource or the residual nonclassicality in protocol execution.
翻訳日:2024-06-13 17:24:58 公開日:2024-06-12
# 大規模マルチモーダルモデルのための概念ベース説明可能性フレームワーク

A Concept-Based Explainability Framework for Large Multimodal Models ( http://arxiv.org/abs/2406.08074v1 )

ライセンス: Link先を確認
Jayneel Parekh, Pegah Khayatan, Mustafa Shukor, Alasdair Newson, Matthieu Cord, (参考訳) 大型マルチモーダルモデル (LMM) は、単一モーダルエンコーダと大型言語モデル (LLM) を組み合わせてマルチモーダルタスクを実行する。 これらのモデルの解釈可能性に対する最近の進歩にもかかわらず、LMMの内部表現を理解することは、大半が謎のままである。 本稿では,LMMの解釈のための新しい枠組みを提案する。 本稿では,トークン表現に適用した辞書学習に基づくアプローチを提案する。 学習辞書の要素は提案した概念に対応している。 これらの概念は、視覚とテキストの両方に意味論的に根ざしていることを示す。 したがって、これらを「マルチモーダルの概念」と呼ぶ。 学習した概念の結果を質的に定量的に評価する。 抽出したマルチモーダル概念は,テストサンプルの表現の解釈に有用であることを示す。 最後に,異なる概念間の絡み合いと,基礎概念の質を視覚的に,テキスト的に評価する。 コードを公開します。

Large multimodal models (LMMs) combine unimodal encoders and large language models (LLMs) to perform multimodal tasks. Despite recent advancements towards the interpretability of these models, understanding internal representations of LMMs remains largely a mystery. In this paper, we present a novel framework for the interpretation of LMMs. We propose a dictionary learning based approach, applied to the representation of tokens. The elements of the learned dictionary correspond to our proposed concepts. We show that these concepts are well semantically grounded in both vision and text. Thus we refer to these as "multi-modal concepts". We qualitatively and quantitatively evaluate the results of the learnt concepts. We show that the extracted multimodal concepts are useful to interpret representations of test samples. Finally, we evaluate the disentanglement between different concepts and the quality of grounding concepts visually and textually. We will publicly release our code.
翻訳日:2024-06-13 17:24:58 公開日:2024-06-12
# 物理化学的特性予測における分子情報と経験値のバランス

Balancing Molecular Information and Empirical Data in the Prediction of Physico-Chemical Properties ( http://arxiv.org/abs/2406.08075v1 )

ライセンス: Link先を確認
Johannes Zenn, Dominik Gond, Fabian Jirasek, Robert Bamler, (参考訳) 純粋な物質と混合物の物理化学的性質を予測することは熱力学における中心的な課題である。 確立された予測手法は、非常に単純なシステムでしか実現できない完全な物理ベースのab-initio計算から、適合したモデルパラメータ(例えば、定量的構造-プロパティ関係法や古典的なグループ寄与法)と共にモデル化される分子に関する情報を使用する記述子ベースの方法、そして、極端な場合において、モデル化されるプロパティ上の既存のデータ(例えば、行列補完法)からのみ、分子記述子と外挿を完全に無視する表現学習方法まで様々である。 本研究では,分子記述子と表現学習を組み合わせた一般的な手法として,確率論的機械学習文献からの予測最大化アルゴリズムを提案する。 提案したハイブリッドモデルは,グラフニューラルネットワークを用いた化学構造情報を利用するが,構造に基づく予測が信頼できないケースを自動的に検出する。 本手法の有効性は,二成分混合物の活性係数の予測を例に示す。 この手法は現在の最先端技術よりも予測精度を著しく向上させ、物理化学的特性の予測を推し進める可能性を示している。

Predicting the physico-chemical properties of pure substances and mixtures is a central task in thermodynamics. Established prediction methods range from fully physics-based ab-initio calculations, which are only feasible for very simple systems, over descriptor-based methods that use some information on the molecules to be modeled together with fitted model parameters (e.g., quantitative-structure-property relationship methods or classical group contribution methods), to representation-learning methods, which may, in extreme cases, completely ignore molecular descriptors and extrapolate only from existing data on the property to be modeled (e.g., matrix completion methods). In this work, we propose a general method for combining molecular descriptors with representation learning using the so-called expectation maximization algorithm from the probabilistic machine learning literature, which uses uncertainty estimates to trade off between the two approaches. The proposed hybrid model exploits chemical structure information using graph neural networks, but it automatically detects cases where structure-based predictions are unreliable, in which case it corrects them by representation-learning based predictions that can better specialize to unusual cases. The effectiveness of the proposed method is demonstrated using the prediction of activity coefficients in binary mixtures as an example. The results are compelling, as the method significantly improves predictive accuracy over the current state of the art, showcasing its potential to advance the prediction of physico-chemical properties in general.
翻訳日:2024-06-13 17:24:58 公開日:2024-06-12
# ステートフルファジィにおけるアクティブ・パッシブ学習の活用

Uses of Active and Passive Learning in Stateful Fuzzing ( http://arxiv.org/abs/2406.08077v1 )

ライセンス: Link先を確認
Cristian Daniele, Seyed Behnam Andarzian, Erik Poll, (参考訳) 本稿では,システムの状態マシンモデル推論のための能動的・受動的学習,すなわち能動的・受動的技術の利用について検討する。 ファジィングは、過去10年間でソフトウェアの堅牢性を改善するための非常に人気があり、成功している技術になっていますが、ステートフルなシステムはいまだにファジィズが難しいです。 パッシブでアクティブなテクニックは、異なるファッザの比較とベンチマーク、同じプロトコルの様々な実装の違いの発見、ファッザの改善など、さまざまな方法に役立つ。

This paper explores the use of active and passive learning, i.e.\ active and passive techniques to infer state machine models of systems, for fuzzing. Fuzzing has become a very popular and successful technique to improve the robustness of software over the past decade, but stateful systems are still difficult to fuzz. Passive and active techniques can help in a variety of ways: to compare and benchmark different fuzzers, to discover differences between various implementations of the same protocol, and to improve fuzzers.
翻訳日:2024-06-13 17:24:58 公開日:2024-06-12
# A$^{2}$-MAE:アンカー・アウェア・マスク付きオートエンコーダを用いた空間・時空間統合型リモートセンシング事前学習法

A$^{2}$-MAE: A spatial-temporal-spectral unified remote sensing pre-training method based on anchor-aware masked autoencoder ( http://arxiv.org/abs/2406.08079v1 )

ライセンス: Link先を確認
Lixian Zhang, Yi Zhao, Runmin Dong, Jinxiao Zhang, Shuai Yuan, Shilei Cao, Mengxuan Chen, Juepeng Zheng, Weijia Li, Wei Liu, Litong Feng, Haohuan Fu, (参考訳) 大規模なリモートセンシング(RS)データは、土地利用監視、防災、環境変化の緩和といった世界規模の課題に対処するために欠かせない重要な空間、時間、スペクトル情報を含む、複数の次元にわたる地球観測を提供する。 RSデータの特徴に合わせた様々な事前学習手法にもかかわらず、重要な制限は持続する: 空間、時間、スペクトル情報を単一の統一モデルに効果的に統合できないことである。 RSデータの可能性を解き明かすため、複数のRSソースの組み込み、多様なカバレッジ、画像集合内の統一された位置、画像内の不均一性を特徴とする空間-時間-スペクトル構造データセット(STSSD)を構築した。 この構造的データセットに基づいて、異なる種類の画像と地理情報から固有の補完情報を活用するアンカー・アウェア・マスク付きオートエンコーダ法(A$^{2}$-MAE)を提案し、事前学習期間中にマスク付きパッチを再構築する。 A$^{2}$-MAEはアンカー対応マスキング戦略と地理符号化モジュールを統合し、RS画像の特性を包括的に活用する。 具体的には,事前に選択したアンカー画像のメタ情報に基づいて,アンカー認識マスキング戦略を動的に適応させることにより,モデル内の多様なRSソースから取得した画像のトレーニングを容易にする。 さらに,正確な空間パターンを活用するための地理符号化手法を提案し,一般的に位置関係の低い下流アプリケーションに対して,モデル一般化能力を向上する。 画像分類,セマンティックセグメンテーション,変化検出タスクなど,既存のRS事前学習手法と比較して,提案手法は様々なダウンストリームタスクを網羅的に改善することを示した。

Vast amounts of remote sensing (RS) data provide Earth observations across multiple dimensions, encompassing critical spatial, temporal, and spectral information which is essential for addressing global-scale challenges such as land use monitoring, disaster prevention, and environmental change mitigation. Despite various pre-training methods tailored to the characteristics of RS data, a key limitation persists: the inability to effectively integrate spatial, temporal, and spectral information within a single unified model. To unlock the potential of RS data, we construct a Spatial-Temporal-Spectral Structured Dataset (STSSD) characterized by the incorporation of multiple RS sources, diverse coverage, unified locations within image sets, and heterogeneity within images. Building upon this structured dataset, we propose an Anchor-Aware Masked AutoEncoder method (A$^{2}$-MAE), leveraging intrinsic complementary information from the different kinds of images and geo-information to reconstruct the masked patches during the pre-training phase. A$^{2}$-MAE integrates an anchor-aware masking strategy and a geographic encoding module to comprehensively exploit the properties of RS images. Specifically, the proposed anchor-aware masking strategy dynamically adapts the masking process based on the meta-information of a pre-selected anchor image, thereby facilitating the training on images captured by diverse types of RS sources within one model. Furthermore, we propose a geographic encoding method to leverage accurate spatial patterns, enhancing the model generalization capabilities for downstream applications that are generally location-related. Extensive experiments demonstrate our method achieves comprehensive improvements across various downstream tasks compared with existing RS pre-training methods, including image classification, semantic segmentation, and change detection tasks.
翻訳日:2024-06-13 17:24:58 公開日:2024-06-12
# AustroTox: オーストリア系オーストリア人攻撃言語検出のためのデータセット

AustroTox: A Dataset for Target-Based Austrian German Offensive Language Detection ( http://arxiv.org/abs/2406.08080v1 )

ライセンス: Link先を確認
Pia Pachinger, Janis Goldzycher, Anna Maria Planitzer, Wojciech Kusa, Allan Hanbury, Julia Neidhardt, (参考訳) 毒性検出におけるモデル解釈可能性はトークンレベルのアノテーションから大いに利益を得る。 しかし、このアノテーションは英語でしか利用できない。 我々は,4,562人のユーザコメントを含むオーストリアドイツ語方言を組み込んだことで有名な,ニュースフォーラムから得られた攻撃的言語検出のためのデータセットを紹介した。 二項攻撃性分類の他に、下品語を構成する各コメント内のスパンを識別したり、攻撃的発言のターゲットを表す。 ゼロショットおよび少数ショット方式で、微調整言語モデルだけでなく、大規模言語モデルも評価する。 以上の結果から,豪華な方言などの言語特異性の検出には微調整モデルが優れているが,オーストロトックスにおける攻撃性の検出には,大きな言語モデルの方が優れていることが示唆された。 データとコードを公開しています。

Model interpretability in toxicity detection greatly profits from token-level annotations. However, currently such annotations are only available in English. We introduce a dataset annotated for offensive language detection sourced from a news forum, notable for its incorporation of the Austrian German dialect, comprising 4,562 user comments. In addition to binary offensiveness classification, we identify spans within each comment constituting vulgar language or representing targets of offensive statements. We evaluate fine-tuned language models as well as large language models in a zero- and few-shot fashion. The results indicate that while fine-tuned models excel in detecting linguistic peculiarities such as vulgar dialect, large language models demonstrate superior performance in detecting offensiveness in AustroTox. We publish the data and code.
翻訳日:2024-06-13 17:24:58 公開日:2024-06-12
# テレグラムによるプロパガンダ・スプレッドアカウントの特定と検出

Characterizing and Detecting Propaganda-Spreading Accounts on Telegram ( http://arxiv.org/abs/2406.08084v1 )

ライセンス: Link先を確認
Klim Kireev, Yevhen Mykhno, Carmela Troncoso, Rebekah Overdorf, (参考訳) 偽情報キャンペーンやプロパガンダなどのソーシャルメディアに対する情報ベースの攻撃は、サイバーセキュリティの脅威を生じさせている。 セキュリティコミュニティは、XやRedditのようなソーシャルメディアプラットフォームに対する脅威に対抗することに重点を置いている。 しかし、WhatsApp、Telegram、Signalといったインスタントメッセージのソーシャルメディアプラットフォームにも表示される。 これらのプラットフォームでは、情報ベースの攻撃は主にグループやチャネルで行われ、チャネル管理者が手動で調整する必要がある。 私たちは1700万以上のTelegramコメントとメッセージの大規模なデータセットを収集し、ラベル付けし、分析します。 我々の分析では、ロシアのプロパガンダとウクライナのプロパガンダを拡散する2つの独立した協調ネットワークを発見し、実際のユーザーからの返信を収集した。 本稿では,適切なユーザメッセージとプロパガンダ応答の関係を利用して,Telegramがモデレーターに提供している情報に合わせた新しいプロパガンダ検出機構を提案する。 本手法は, より高速で安価で, 検出率(97.6%)が11.6ポイント高い。 プロパガンダの進化にもかかわらず効果がある。

Information-based attacks on social media, such as disinformation campaigns and propaganda, are emerging cybersecurity threats. The security community has focused on countering these threats on social media platforms like X and Reddit. However, they also appear in instant-messaging social media platforms such as WhatsApp, Telegram, and Signal. In these platforms information-based attacks primarily happen in groups and channels, requiring manual moderation efforts by channel administrators. We collect, label, and analyze a large dataset of more than 17 million Telegram comments and messages. Our analysis uncovers two independent, coordinated networks that spread pro-Russian and pro-Ukrainian propaganda, garnering replies from real users. We propose a novel mechanism for detecting propaganda that capitalizes on the relationship between legitimate user messages and propaganda replies and is tailored to the information that Telegram makes available to moderators. Our method is faster, cheaper, and has a detection rate (97.6%) 11.6 percentage points higher than human moderators after seeing only one message from an account. It remains effective despite evolving propaganda.
翻訳日:2024-06-13 17:24:58 公開日:2024-06-12
# Flash-VStream: 長いビデオストリームのためのメモリベースのリアルタイム理解

Flash-VStream: Memory-Based Real-Time Understanding for Long Video Streams ( http://arxiv.org/abs/2406.08085v1 )

ライセンス: Link先を確認
Haoji Zhang, Yiqin Wang, Yansong Tang, Yong Liu, Jiashi Feng, Jifeng Dai, Xiaojie Jin, (参考訳) 大規模言語モデルの進歩とクロスモーダルなアライメントにより、既存のマルチモーダルビデオ理解手法はオフラインシナリオにおいて顕著なパフォーマンスを実現している。 しかし、オンラインビデオストリームは、現実世界で最も一般的なメディアフォーマットの1つであり、注目されることはめったにない。 オフラインビデオと比較して、オンラインビデオストリームの「ダイナミック」な性質は、既存のモデルを直接適用する上での課題を提起し、極端に長期的な情報の保存、継続的な視覚的コンテンツ間の相互作用、そして「非同期」ユーザ質問といった新しい問題を導入している。 そこで本稿では,人間の記憶機構をシミュレートしたビデオ言語モデルFlash-VStreamを提案する。 我々のモデルは、非常に長いビデオストリームをリアルタイムで処理し、同時にユーザクエリに応答することができる。 既存のモデルと比較して、Flash-VStreamは推論遅延とVRAM消費の大幅な削減を実現している。 さらに、既存のビデオ理解ベンチマークがオフラインのシナリオに集中していることを踏まえ、オンラインビデオストリーミング理解に特化した新しい質問応答ベンチマークであるVStream-QAを提案する。 提案したベンチマークにおける既存手法との比較により,このような課題に対して,提案手法の優位性を示す。 提案手法の一般化性を検証するため,既存のビデオ理解ベンチマークでさらに評価し,オフラインシナリオでも最先端のパフォーマンスを実現する。 すべてのコード、モデル、データセットはhttps://invinciblewyq.github.io/vstream-page/で入手できる。

Benefiting from the advancements in large language models and cross-modal alignment, existing multi-modal video understanding methods have achieved prominent performance in offline scenario. However, online video streams, as one of the most common media forms in the real world, have seldom received attention. Compared to offline videos, the 'dynamic' nature of online video streams poses challenges for the direct application of existing models and introduces new problems, such as the storage of extremely long-term information, interaction between continuous visual content and 'asynchronous' user questions. Therefore, in this paper we present Flash-VStream, a video-language model that simulates the memory mechanism of human. Our model is able to process extremely long video streams in real-time and respond to user queries simultaneously. Compared to existing models, Flash-VStream achieves significant reductions in inference latency and VRAM consumption, which is intimately related to performing understanding of online streaming video. In addition, given that existing video understanding benchmarks predominantly concentrate on offline scenario, we propose VStream-QA, a novel question answering benchmark specifically designed for online video streaming understanding. Comparisons with popular existing methods on the proposed benchmark demonstrate the superiority of our method for such challenging setting. To verify the generalizability of our approach, we further evaluate it on existing video understanding benchmarks and achieves state-of-the-art performance in offline scenarios as well. All code, models, and datasets are available at the https://invinciblewyq.github.io/vstream-page/
翻訳日:2024-06-13 17:24:58 公開日:2024-06-12
# 雑音を有する定数深さ線形光回路の古典的シミュレーション可能性

Classical simulability of constant-depth linear-optical circuits with noise ( http://arxiv.org/abs/2406.08086v1 )

ライセンス: Link先を確認
Changhun Oh, (参考訳) ノイズは、量子計算の優位性を達成する量子デバイスを実現する上での大きな障害の1つである。 ノイズ効果を最小限にするためには、ノイズが回路の深さが大きくなるにつれて蓄積されるため、浅い深さの量子回路を用いるのが考えられる。 本研究では,光子損失と偏微分性の影響下での浅い深度線形光回路の複雑さについて検討する。 線形光回路と二部グラフの対応性を確立することにより、光子損失と部分的識別性の影響が対応する頂点の除去に等しいことを示す。 この対応とパーコレーション理論を用いて、単一光子を持つ定数深度線形光学回路に対して、線形光学系を高い確率で小さな系に分解可能な損失(ノイズ)のしきい値があることを証明し、効率よく系をシミュレートする。 その結果, ノイズが十分に蓄積されていない浅層深度回路においても, 浅部深度回路で構成される絡み合い構造により, 従来のアルゴリズムを用いて効率よくシミュレーションできる可能性が示唆された。

Noise is one of the main obstacles to realizing quantum devices that achieve a quantum computational advantage. A possible approach to minimize the noise effect is to employ shallow-depth quantum circuits since noise typically accumulates as circuit depth grows. In this work, we investigate the complexity of shallow-depth linear-optical circuits under the effects of photon loss and partial distinguishability. By establishing a correspondence between a linear-optical circuit and a bipartite graph, we show that the effects of photon loss and partial distinguishability are equivalent to removing the corresponding vertices. Using this correspondence and percolation theory, we prove that for constant-depth linear-optical circuits with single photons, there is a threshold of loss (noise) rate above which the linear-optical systems can be decomposed into smaller systems with high probability, which enables us to simulate the systems efficiently. Consequently, our result implies that even in shallow-depth circuits where noise is not accumulated enough, its effect may be sufficiently significant to make them efficiently simulable using classical algorithms due to its entanglement structure constituted by shallow-depth circuits.
翻訳日:2024-06-13 17:24:58 公開日:2024-06-12
# エゴセントリックビデオからの会話相手の同定

Identification of Conversation Partners from Egocentric Video ( http://arxiv.org/abs/2406.08089v1 )

ライセンス: Link先を確認
Tobias Dorszewski, Søren A. Fuglsang, Jens Hjortkjær, (参考訳) ノイズの多いマルチストーカー環境でのコミュニケーションは、特に聴覚障害のある人にとっては困難である。 エゴセントリックなビデオデータは、ユーザの会話相手を特定するために使用することができ、関連する話者の選択的音響増幅を通知するために使用することができる。 近年のコンピュータビジョンにおけるデータセットとタスクの導入は、エゴセントリックな観点からの社会的相互作用の分析に向けた進歩を可能にする。 これに基づいて、対話相手を自我中心のビデオから識別し、適切なデータセットを記述するタスクに焦点を当てる。 我々のデータセットは、各個人が1つ以上の会話パートナーに割り当てられた多様な会話シナリオのエゴセントリックなビデオ69時間で構成され、コンピュータビジョンタスクのラベルを提供する。 このデータセットは、会話相手を特定し、関連するアプローチを評価するアルゴリズムの開発と評価を可能にする。 ここでは、この進行中の作業の初期ベースライン結果とともにデータセットを説明し、ソーシャルな設定のためのエゴセントリックなビデオ分析のエキサイティングな進歩に寄与することを目的としている。

Communicating in noisy, multi-talker environments is challenging, especially for people with hearing impairments. Egocentric video data can potentially be used to identify a user's conversation partners, which could be used to inform selective acoustic amplification of relevant speakers. Recent introduction of datasets and tasks in computer vision enable progress towards analyzing social interactions from an egocentric perspective. Building on this, we focus on the task of identifying conversation partners from egocentric video and describe a suitable dataset. Our dataset comprises 69 hours of egocentric video of diverse multi-conversation scenarios where each individual was assigned one or more conversation partners, providing the labels for our computer vision task. This dataset enables the development and assessment of algorithms for identifying conversation partners and evaluating related approaches. Here, we describe the dataset alongside initial baseline results of this ongoing work, aiming to contribute to the exciting advancements in egocentric video analysis for social settings.
翻訳日:2024-06-13 17:15:13 公開日:2024-06-12
# Sim-to-Real: シーンごとの最適化による汎用イベントベース低照度フレーム補間に向けて

From Sim-to-Real: Toward General Event-based Low-light Frame Interpolation with Per-scene Optimization ( http://arxiv.org/abs/2406.08090v1 )

ライセンス: Link先を確認
Ziran Zhang, Yongrui Ma, Yueting Chen, Feng Zhang, Jinwei Gu, Tianfan Xue, Shi Guo, (参考訳) ビデオフレーム補間(VFI)は,映像強調,フレームレートアップ・コンバージョン,スローモーション生成において重要である。 画素ごとの明るさ変化を非同期にキャプチャするイベントカメラの導入は、特に高速で非線形な動きに対して、VFI機能を著しく向上させた。 しかしながら、これらのイベントベースの手法は、特に後続のアーティファクトや信号遅延といった、低照度環境での課題に直面する。 これらの課題に対処し、低照度条件に適した新しいシーンごとの最適化戦略を提案する。 このアプローチでは、列の内部統計を利用して、低照度条件下での劣化イベントデータを処理し、異なる照明やカメラ設定への一般化性を向上させる。 低照度条件下でのロバスト性を評価するために,低照度条件下でのRGB+EventデータセットであるEVFI-LLを導入する。 その結果,低照度環境における最先端性能が示された。 データセットとソースコードは、公開時に公開される。 プロジェクトページ: https://naturezhanghn.github.io/sim2real

Video Frame Interpolation (VFI) is important for video enhancement, frame rate up-conversion, and slow-motion generation. The introduction of event cameras, which capture per-pixel brightness changes asynchronously, has significantly enhanced VFI capabilities, particularly for high-speed, nonlinear motions. However, these event-based methods encounter challenges in low-light conditions, notably trailing artifacts and signal latency, which hinder their direct applicability and generalization. Addressing these issues, we propose a novel per-scene optimization strategy tailored for low-light conditions. This approach utilizes the internal statistics of a sequence to handle degraded event data under low-light conditions, improving the generalizability to different lighting and camera settings. To evaluate its robustness in low-light condition, we further introduce EVFI-LL, a unique RGB+Event dataset captured under low-light conditions. Our results demonstrate state-of-the-art performance in low-light environments. Both the dataset and the source code will be made publicly available upon publication. Project page: https://naturezhanghn.github.io/sim2real.
翻訳日:2024-06-13 17:15:13 公開日:2024-06-12
# エンコーダ内で伝達される言語:ゼロショット多言語翻訳における表現伝達について

Languages Transferred Within the Encoder: On Representation Transfer in Zero-Shot Multilingual Translation ( http://arxiv.org/abs/2406.08092v1 )

ライセンス: Link先を確認
Zhi Qu, Chenchen Ding, Taro Watanabe, (参考訳) 多言語ニューラルマシン翻訳における表現伝達を理解することは、ゼロショット翻訳不足の原因となる表現的問題を明らかにすることができる。 本研究は,言語伝達における表現の最適な状態を表すため,多言語調査における基本尺度の欠如に対処するために,それ自身に翻訳された文であるアイデンティティペアを導入する。 解析では,エンコーダが言語に依存しない状態ではなく,対象言語の表現部分空間にソース言語を転送することを示した。 したがって、ゼロショット翻訳不足は、表現が他の言語と絡み合っており、ターゲット言語に効果的に転送されないために生じる。 そこで本研究では,2つの方法を提案する。 1)エンコーダにおける低ランク言語固有の埋め込み 2)デコーダにおける表現の言語固有のコントラスト学習。 Europarl-15,TED-19,OPUS-100データセットを用いた実験結果から,言語翻訳能力を向上させることにより,ゼロショット翻訳の性能を大幅に向上させることができた。

Understanding representation transfer in multilingual neural machine translation can reveal the representational issue causing the zero-shot translation deficiency. In this work, we introduce the identity pair, a sentence translated into itself, to address the lack of the base measure in multilingual investigations, as the identity pair represents the optimal state of representation among any language transfers. In our analysis, we demonstrate that the encoder transfers the source language to the representational subspace of the target language instead of the language-agnostic state. Thus, the zero-shot translation deficiency arises because representations are entangled with other languages and are not transferred effectively to the target language. Based on our findings, we propose two methods: 1) low-rank language-specific embedding at the encoder, and 2) language-specific contrastive learning of the representation at the decoder. The experimental results on Europarl-15, TED-19, and OPUS-100 datasets show that our methods substantially enhance the performance of zero-shot translations by improving language transfer capacity, thereby providing practical evidence to support our conclusions.
翻訳日:2024-06-13 17:15:13 公開日:2024-06-12
# 動的システムモデリングにおける学習可能・解釈可能モデルの組み合わせ

Learnable & Interpretable Model Combination in Dynamic Systems Modeling ( http://arxiv.org/abs/2406.08093v1 )

ライセンス: Link先を確認
Tobias Thummerer, Lars Mikelsons, (参考訳) 科学における中核的な概念の1つであり、日々の動的システムモデリングにおいて直感的に起こるものは、モデルやメソッドの組み合わせである。 特に動的システムモデリングでは、2つ以上の構造が組み合わされ、特定のアプリケーション(エリア)に関するより強力で効率的なアーキテクチャが得られます。 さらに、物理シミュレーションも機械学習アーキテクチャと組み合わせて予測精度を向上させるか、計算性能を最適化する。 本稿では,どのモデルが通常組み合わされるのかを考察し,代数的,離散的,微分方程式に基づくモデルの幅の多様性を表現可能なモデルインターフェースを提案する。 さらに、システム理論の観点からこれらのモデルを組み合わせる新しい方法や、不連続モデルにおける代数的ループと局所事象の影響関数という2つの課題を強調し、特別なアプローチを必要とする。 最後に,2つの組み合わせモデル間の汎用的な接続を,勾配に基づく最適化手法の一部として容易に解釈可能な方法で記述できる新しいワイルドカードトポロジーを提案する。 2つのモデル間の異なる接続トポロジを学習し、解釈し、提案手法とソフトウェア実装を適用して比較する。

One of the core concepts in science, and something that happens intuitively in every-day dynamic systems modeling, is the combination of models or methods. Especially in dynamical systems modeling, often two or more structures are combined to obtain a more powerful or efficient architecture regarding a specific application (area). Further, even physical simulations are combined with machine learning architectures, to increase prediction accuracy or optimize the computational performance. In this work, we shortly discuss, which types of models are usually combined and propose a model interface that is capable of expressing a width variety of mixed algebraic, discrete and differential equation based models. Further, we examine different established, as well as new ways of combining these models from a system theoretical point of view and highlight two challenges - algebraic loops and local event affect functions in discontinuous models - that require a special approach. Finally, we propose a new wildcard topology, that is capable of describing the generic connection between two combined models in an easy to interpret fashion that can be learned as part of a gradient based optimization procedure. The contributions of this paper are highlighted at a proof of concept: Different connection topologies between two models are learned, interpreted and compared applying the proposed methodology and software implementation.
翻訳日:2024-06-13 17:15:13 公開日:2024-06-12
# アクターが話す: 動きと外見が絡み合った、一般化可能で高忠実なリップシンク

Make Your Actor Talk: Generalizable and High-Fidelity Lip Sync with Motion and Appearance Disentanglement ( http://arxiv.org/abs/2406.08096v1 )

ライセンス: Link先を確認
Runyi Yu, Tianyu He, Ailing Zeng, Yuchi Wang, Junliang Guo, Xu Tan, Chang Liu, Jie Chen, Jiang Bian, (参考訳) 本研究の目的は,個人的アイデンティティと視覚的詳細を保ちながら,音声による唇の動きの編集を行うことである。 課題は,(1)音声による唇の動き生成と(2)視覚的外観合成の2つのサブプロブレムに分解することができる。 現在のソリューションは、単一の生成モデル内で2つのサブプロブレムを処理する。 その代わりに、動作と外観をアンタングルにし、音声間拡散モデルと動作条件付き外観生成モデルで1つずつ生成することを提案する。 しかし,(1)における動作認識のアイデンティティの保存,(2)における視覚的詳細の保存など,各段階における課題は依然として残っている。 したがって、個人的アイデンティティを維持するために、動作を表現するためにランドマークを採用し、さらにランドマークに基づくアイデンティティ損失を採用する。 動きに依存しない視覚的詳細をキャプチャするために、別個のエンコーダを使用して唇、非唇の外観、動きを符号化し、学習した融合モジュールと統合する。 大規模で多様なデータセットでMyTalkをトレーニングします。 実験により,本手法は,リップシンクと視覚的ディテールの両面から,未知のドメイン外人物によく一般化することが示された。 プロジェクトページ(https://Ingrid789.github.io/MyTalk/)でビデオを見ることを推奨しています。

We aim to edit the lip movements in talking video according to the given speech while preserving the personal identity and visual details. The task can be decomposed into two sub-problems: (1) speech-driven lip motion generation and (2) visual appearance synthesis. Current solutions handle the two sub-problems within a single generative model, resulting in a challenging trade-off between lip-sync quality and visual details preservation. Instead, we propose to disentangle the motion and appearance, and then generate them one by one with a speech-to-motion diffusion model and a motion-conditioned appearance generation model. However, there still remain challenges in each stage, such as motion-aware identity preservation in (1) and visual details preservation in (2). Therefore, to preserve personal identity, we adopt landmarks to represent the motion, and further employ a landmark-based identity loss. To capture motion-agnostic visual details, we use separate encoders to encode the lip, non-lip appearance and motion, and then integrate them with a learned fusion module. We train MyTalk on a large-scale and diverse dataset. Experiments show that our method generalizes well to the unknown, even out-of-domain person, in terms of both lip sync and visual detail preservation. We encourage the readers to watch the videos on our project page (https://Ingrid789.github.io/MyTalk/).
翻訳日:2024-06-13 17:15:13 公開日:2024-06-12
# インダクティブグローバルおよび局所多様体近似と投影

Inductive Global and Local Manifold Approximation and Projection ( http://arxiv.org/abs/2406.08097v1 )

ライセンス: Link先を確認
Jungeum Kim, Xiao Wang, (参考訳) 多様体の仮定による非線形次元の減少は、しばしば多様体学習と呼ばれ、広範囲の高次元データ解析において有用であることが証明されている。 t-SNE と UMAP の重大な影響は、データの局所的情報だけでなく、グローバルな構造情報も可視化するためのさらなる革新を求めて、研究の関心を喚起している。 さらに、目に見えないデータを扱う一般化可能な次元還元への一貫した取り組みがあった。 本稿ではまず,次元の縮小と高次元データ可視化のための新しい多様体学習手法であるGLoMAPを提案する。 GLoMAPは局所的および大域的に意味のある距離推定を保存し、最適化の過程でグローバルから局所的な形成の進展を示す。 さらに、GLoMAPをインダクティブ版iGLoMAPに拡張し、ディープニューラルネットワークを用いてデータを低次元表現にマッピングする。 これにより、iGLoMAPはアルゴリズムを再トレーニングすることなく、目に見えない点に対して低次元の埋め込みを提供することができる。 iGLoMAPは、大規模で高速化された勾配計算を可能にするミニバッチ学習にも適している。 我々は,GLoMAPとiGLoMAPの両方をシミュレーションおよび実データ設定に適用し,最先端手法に対する競合実験を行った。

Nonlinear dimensional reduction with the manifold assumption, often called manifold learning, has proven its usefulness in a wide range of high-dimensional data analysis. The significant impact of t-SNE and UMAP has catalyzed intense research interest, seeking further innovations toward visualizing not only the local but also the global structure information of the data. Moreover, there have been consistent efforts toward generalizable dimensional reduction that handles unseen data. In this paper, we first propose GLoMAP, a novel manifold learning method for dimensional reduction and high-dimensional data visualization. GLoMAP preserves locally and globally meaningful distance estimates and displays a progression from global to local formation during the course of optimization. Furthermore, we extend GLoMAP to its inductive version, iGLoMAP, which utilizes a deep neural network to map data to its lower-dimensional representation. This allows iGLoMAP to provide lower-dimensional embeddings for unseen points without needing to re-train the algorithm. iGLoMAP is also well-suited for mini-batch learning, enabling large-scale, accelerated gradient calculations. We have successfully applied both GLoMAP and iGLoMAP to the simulated and real-data settings, with competitive experiments against the state-of-the-art methods.
翻訳日:2024-06-13 17:15:13 公開日:2024-06-12
# コードグラフ上のトラバーサルによるスケーラブルな欠陥検出

Scalable Defect Detection via Traversal on Code Graph ( http://arxiv.org/abs/2406.08098v1 )

ライセンス: Link先を確認
Zhengyao Liu, Xitong Zhong, Xingjing Deng, Shuo Hong, Xiang Gao, Hailong Sun, (参考訳) 初期段階で欠陥や脆弱性を検出することは、ソフトウェア工学における長年の課題である。 静的分析は、実行せずにコードを検査するテクニックであり、この問題に対処するための重要な戦略として登場した。 最近の進歩の中で、グラフベースの表現、特にコードプロパティグラフ(CPG)の使用は、コード構造とセマンティクスの包括的描写により、注目を集めている。 進歩にもかかわらず、既存のグラフベースの分析ツールは、まだパフォーマンスとスケーラビリティの問題に直面している。 主なボトルネックは、CPGのサイズと複雑さにある。 また、現在のツールで使用されるクエリルールは過剰に指定できる。 したがって、グラフベースの静的解析プラットフォームであるQVoGを導入し、欠陥や脆弱性を検出する。 合理的なグラフサイズを維持するために圧縮されたCPG表現を使用し、それによって全体的なクエリ効率が向上する。 CPGに基づいて、クエリを簡単にするための宣言型クエリ言語も提供する。 さらに、脆弱性検出の汎用性を高めるために、機械学習を統合するには一歩前進する。 1000,000行以上のコードからなるプロジェクトでは、QVoGはコードQLで19分ではなく、およそ15分で分析を完了できる。

Detecting defects and vulnerabilities in the early stage has long been a challenge in software engineering. Static analysis, a technique that inspects code without execution, has emerged as a key strategy to address this challenge. Among recent advancements, the use of graph-based representations, particularly Code Property Graph (CPG), has gained traction due to its comprehensive depiction of code structure and semantics. Despite the progress, existing graph-based analysis tools still face performance and scalability issues. The main bottleneck lies in the size and complexity of CPG, which makes analyzing large codebases inefficient and memory-consuming. Also, query rules used by the current tools can be over-specific. Hence, we introduce QVoG, a graph-based static analysis platform for detecting defects and vulnerabilities. It employs a compressed CPG representation to maintain a reasonable graph size, thereby enhancing the overall query efficiency. Based on the CPG, it also offers a declarative query language to simplify the queries. Furthermore, it takes a step forward to integrate machine learning to enhance the generality of vulnerability detection. For projects consisting of 1,000,000+ lines of code, QVoG can complete analysis in approximately 15 minutes, as opposed to 19 minutes with CodeQL.
翻訳日:2024-06-13 17:15:13 公開日:2024-06-12
# AutoMLにおける予測性能の信頼区間推定

Confidence Interval Estimation of Predictive Performance in the Context of AutoML ( http://arxiv.org/abs/2406.08099v1 )

ライセンス: Link先を確認
Konstantinos Paraschakis, Andrea Castellani, Giorgos Borboudakis, Ioannis Tsamardinos, (参考訳) 教師付き機械学習分析は、アウトオブサンプル予測性能の見積もりを提供するために必要である。 しかし、信頼区間や信頼区間(CI)という形で、単に点推定だけでなく、この性能の不確かさの定量化も必須である。 AutoML設定では、CIの推定は‘勝者の呪い’、すなわち、複数の機械学習パイプラインをクロスバリデーションし、勝利したパイプラインを選択することによる推定のバイアスによって難しい。 本研究では、実データとシミュレーションデータセットのコーパス上のAutoML設定において、CI推定における9つの最先端手法と変種の比較評価を行う。 これらの手法は、包含率(95%のCIには、少なくとも95%の真のパフォーマンスが含まれている)、CIの厳密さ(より情報のあるCIの方が望ましい)、実行時間という観点で比較される。 評価は、すべてではないにせよ、ほとんどのメソッドをカバーし、以前の作業を不均衡で小さなサンプルタスクにまで拡張した最初のものである。 さらに,既存の手法(Bootstrap Bias Correction, BBC)の変種であるBBC-Fを提案する。 結果は、BBC-FとBBCが測定されたすべての指標において他の方法を支配していることを裏付けている。

Any supervised machine learning analysis is required to provide an estimate of the out-of-sample predictive performance. However, it is imperative to also provide a quantification of the uncertainty of this performance in the form of a confidence or credible interval (CI) and not just a point estimate. In an AutoML setting, estimating the CI is challenging due to the ``winner's curse", i.e., the bias of estimation due to cross-validating several machine learning pipelines and selecting the winning one. In this work, we perform a comparative evaluation of 9 state-of-the-art methods and variants in CI estimation in an AutoML setting on a corpus of real and simulated datasets. The methods are compared in terms of inclusion percentage (does a 95\% CI include the true performance at least 95\% of the time), CI tightness (tighter CIs are preferable as being more informative), and execution time. The evaluation is the first one that covers most, if not all, such methods and extends previous work to imbalanced and small-sample tasks. In addition, we present a variant, called BBC-F, of an existing method (the Bootstrap Bias Correction, or BBC) that maintains the statistical properties of the BBC but is more computationally efficient. The results support that BBC-F and BBC dominate the other methods in all metrics measured.
翻訳日:2024-06-13 17:15:13 公開日:2024-06-12
# マルチモーダルテーブル理解

Multimodal Table Understanding ( http://arxiv.org/abs/2406.08100v1 )

ライセンス: Link先を確認
Mingyu Zheng, Xinwei Feng, Qingyi Si, Qiaoqiao She, Zheng Lin, Wenbin Jiang, Weiping Wang, (参考訳) 大規模言語モデル(LLM)に基づく最近のアプローチを含む従来のテーブル理解手法では大きな進歩があったが、モデル入力として機能するためには、与えられたテーブルを特定のテキストシーケンス(MarkdownやHTMLなど)に変換する必要があるという前提に大きく依存している。 しかし、現実のシナリオでは、このような高品質なテキストテーブル表現にアクセスすることは困難であり、テーブルイメージの方がはるかにアクセスしやすい。 したがって、直感的な視覚情報を用いてテーブルを直接理解する方法は、より実用的なアプリケーションを開発する上で極めて重要かつ緊急の課題である。 本稿では,与えられたテーブルイメージに基づいて,様々なテーブル関連要求に対して,モデルが正しい応答を生成する必要がある,新しい問題であるマルチモーダルテーブル理解を提案する。 モデルトレーニングと評価の両方を容易にするため,MMTabと呼ばれる大規模データセットを構築した。 そこで我々は,汎用的な表表多モード大言語モデル(MLLM)であるTable-LLaVAを開発した。 コードとデータは、https://github.com/SpursGoZmy/Table-LLaVAで公開されている。

Although great progress has been made by previous table understanding methods including recent approaches based on large language models (LLMs), they rely heavily on the premise that given tables must be converted into a certain text sequence (such as Markdown or HTML) to serve as model input. However, it is difficult to access such high-quality textual table representations in some real-world scenarios, and table images are much more accessible. Therefore, how to directly understand tables using intuitive visual information is a crucial and urgent challenge for developing more practical applications. In this paper, we propose a new problem, multimodal table understanding, where the model needs to generate correct responses to various table-related requests based on the given table image. To facilitate both the model training and evaluation, we construct a large-scale dataset named MMTab, which covers a wide spectrum of table images, instructions and tasks. On this basis, we develop Table-LLaVA, a generalist tabular multimodal large language model (MLLM), which significantly outperforms recent open-source MLLM baselines on 23 benchmarks under held-in and held-out settings. The code and data is available at this https://github.com/SpursGoZmy/Table-LLaVA
翻訳日:2024-06-13 17:15:13 公開日:2024-06-12
# CoXQL: 会話型XAIシステムにおける説明要求を解析するためのデータセット

CoXQL: A Dataset for Parsing Explanation Requests in Conversational XAI Systems ( http://arxiv.org/abs/2406.08101v1 )

ライセンス: Link先を確認
Qianli Wang, Tatiana Anikina, Nils Feldhus, Simon Ostermann, Sebastian Möller, (参考訳) 言語モデル(LLM)に基づく会話可能な人工知能(ConvXAI)システムは、自然言語処理(NLP)とヒューマンコンピュータインタラクション(HCI)の研究コミュニティから大きな関心を集めている。 このようなシステムは、ユーザによる説明に関する質問に対する回答を提供し、ユーザの理解を深め、LCMの意思決定と生成プロセスに関するさらなる情報を提供する可能性がある。 現在利用可能なConvXAIシステムは、無料チャットではなく意図認識に基づいている。 したがって,ConvXAIシステムにおいてユーザの意図を確実に把握することは,要求をマップする広範囲なXAIメソッドが存在し,それぞれが処理する複数のスロットを持つため,依然として課題である。 このギャップを埋めるために、私たちはConvXAIでユーザ意図認識のための最初のデータセットであるCoXQLを紹介します。 その後、テンプレート検証を取り入れた既存の解析手法を強化し、異なる解析戦略を用いて、CoXQL上で複数のLLMの評価を行う。 我々は,改良された解析手法 (MP+) が従来の手法よりも優れていると結論付けた。 また、複数のスロットを持つ意図はLLMにとって非常に困難なままである。

Conversational explainable artificial intelligence (ConvXAI) systems based on large language models (LLMs) have garnered significant interest from the research community in natural language processing (NLP) and human-computer interaction (HCI). Such systems can provide answers to user questions about explanations, have the potential to enhance users' comprehension and offer more information about the decision-making and generation processes of LLMs. Currently available ConvXAI systems are based on intent recognition rather than free chat. Thus, reliably grasping users' intentions in ConvXAI systems still presents a challenge, because there is a broad range of XAI methods to map requests onto and each of them can have multiple slots to take care of. In order to bridge this gap, we present CoXQL, the first dataset for user intent recognition in ConvXAI, covering 31 intents, seven of which require filling additional slots. Subsequently, we enhance an existing parsing approach by incorporating template validations, and conduct an evaluation of several LLMs on CoXQL using different parsing strategies. We conclude that the improved parsing approach (MP+) surpasses the performance of previous approaches. We also discover that intents with multiple slots remain highly challenging for LLMs.
翻訳日:2024-06-13 17:15:13 公開日:2024-06-12
# 3次元局所特徴エクストラクタの逆パッチ

Adversarial Patch for 3D Local Feature Extractor ( http://arxiv.org/abs/2406.08102v1 )

ライセンス: Link先を確認
Yu Wen Pao, Li Chang Lai, Hong-Yi Lin, (参考訳) ローカル特徴抽出器は多くのコンピュータビジョンタスクの基盤となっている。 しかし、敵の攻撃に対する脆弱性は、その効果を著しく損なう可能性がある。 本稿では,(1)非マッチング画像領域間のマッチングを強制すること,(2)元のマッチング画像領域間のマッチングを阻止すること,の2つの目標を達成するために,洗練された局所特徴抽出アルゴリズムとモデルを攻撃するアプローチについて議論する。 論文の最後には、異なるパッチ生成手法の性能と欠点について論じる。

Local feature extractors are the cornerstone of many computer vision tasks. However, their vulnerability to adversarial attacks can significantly compromise their effectiveness. This paper discusses approaches to attack sophisticated local feature extraction algorithms and models to achieve two distinct goals: (1) forcing a match between originally non-matching image regions, and (2) preventing a match between originally matching regions. At the end of the paper, we discuss the performance and drawbacks of different patch generation methods.
翻訳日:2024-06-13 17:15:13 公開日:2024-06-12
# 脳波による情報ニーズの実現予測

Prediction of the Realisation of an Information Need: An EEG Study ( http://arxiv.org/abs/2406.08105v1 )

ライセンス: Link先を確認
Niall McGuire, Dr Yashar Moshfeghi, (参考訳) 情報検索 (IR) の基本的な目的の1つは、探索者の情報要求 (IN) を満たすことである。 INが物理的にどのように現れるかを理解することは、長い間複雑で解明されたプロセスであった。 しかし、脳波(EEG)データを利用した最近の研究は、INに関連する神経過程についてリアルタイムに洞察を与えている。 残念ながら、この洞察が検索体験にどう役立つかはまだ実証されていない。 そこで本研究では,質問応答(Q/A)タスクを受講しながら,脳波データ内でのINの実現を予測する能力について検討した。 さらに、最適な予測性能をもたらす脳波特徴の組み合わせについて検討し、また、被験者のINの実現がより顕著なQ/Aクエリ内の領域を特定する。 本研究の結果から,脳波データの精度は73.5\% (SD 2.6\%) と90.1\% (SD 22.1\%) である全被験者の脳波のリアルタイム予測に十分であることが示唆された。 この研究は、情報検索の実践において明確な改善によって理論的な神経科学的な進歩をブリッジすることでギャップを埋め、INの実現をリアルタイムに予測する道を開くことで、ギャップを埋めるのに役立つ。

One of the foundational goals of Information Retrieval (IR) is to satisfy searchers' Information Needs (IN). Understanding how INs physically manifest has long been a complex and elusive process. However, recent studies utilising Electroencephalography (EEG) data have provided real-time insights into the neural processes associated with INs. Unfortunately, they have yet to demonstrate how this insight can practically benefit the search experience. As such, within this study, we explore the ability to predict the realisation of IN within EEG data across 14 subjects whilst partaking in a Question-Answering (Q/A) task. Furthermore, we investigate the combinations of EEG features that yield optimal predictive performance, as well as identify regions within the Q/A queries where a subject's realisation of IN is more pronounced. The findings from this work demonstrate that EEG data is sufficient for the real-time prediction of the realisation of an IN across all subjects with an accuracy of 73.5\% (SD 2.6\%) and on a per-subject basis with an accuracy of 90.1\% (SD 22.1\%). This work helps to close the gap by bridging theoretical neuroscientific advancements with tangible improvements in information retrieval practices, paving the way for real-time prediction of the realisation of IN.
翻訳日:2024-06-13 17:15:13 公開日:2024-06-12
# 動的システムの非実効的根本原因解析

Counterfactual-based Root Cause Analysis for Dynamical Systems ( http://arxiv.org/abs/2406.08106v1 )

ライセンス: Link先を確認
Juliane Weilbach, Sebastian Gerwinn, Karim Barsim, Martin Fränzle, (参考訳) 失敗する動的なプロセスや異常な観察の根底にある理由を特定することは、基本的な課題であるが、多くの産業応用がある。 因果推論を使って障害を発生させるサブシステムを特定することで、"観察された障害も発生し得るか? この目的のためには、そのような反現実的な疑問に答えられるような、完全なシステムの振る舞いの形式的な記述が必要である。 しかし、根本原因同定のための既存の因果的方法は通常、静的な設定に限られており、構造的な影響ではなく、障害を引き起こす追加的な外部の影響に焦点が当てられている。 本稿では,Residual Neural Network を用いて動的因果系をモデル化し,それに対応する軌道上の反実分布を導出することにより,これらの問題を解決する。 構造方程式と外的影響に介入した場合, 外的影響にのみ介入した場合に, 根本原因が同定されることを定量的に示す。 対応するShapley値に効率的な近似を適用することで、多数の変数を持つ設定に適用可能な観測失敗の原因となる、異なる点における異なるサブシステム間のランキングも得られる。 本稿では,提案手法が実世界の河川データセットだけでなく,ベンチマーク・ダイナミック・システムにも有効であることを示す。

Identifying the underlying reason for a failing dynamic process or otherwise anomalous observation is a fundamental challenge, yet has numerous industrial applications. Identifying the failure-causing sub-system using causal inference, one can ask the question: "Would the observed failure also occur, if we had replaced the behaviour of a sub-system at a certain point in time with its normal behaviour?" To this end, a formal description of behaviour of the full system is needed in which such counterfactual questions can be answered. However, existing causal methods for root cause identification are typically limited to static settings and focusing on additive external influences causing failures rather than structural influences. In this paper, we address these problems by modelling the dynamic causal system using a Residual Neural Network and deriving corresponding counterfactual distributions over trajectories. We show quantitatively that more root causes are identified when an intervention is performed on the structural equation and the external influence, compared to an intervention on the external influence only. By employing an efficient approximation to a corresponding Shapley value, we also obtain a ranking between the different subsystems at different points in time being responsible for an observed failure, which is applicable in settings with large number of variables. We illustrate the effectiveness of the proposed method on a benchmark dynamic system as well as on a real world river dataset.
翻訳日:2024-06-13 17:15:13 公開日:2024-06-12
# テンソルネットワークを用いた強相互作用NV中心の散逸ダイナミクスのシミュレーション

Simulation of the Dissipative Dynamics of Strongly Interacting NV Centers with Tensor Networks ( http://arxiv.org/abs/2406.08108v1 )

ライセンス: Link先を確認
Jirawat Saiphet, Daniel Braun, (参考訳) ダイヤモンド中のNV中心は、磁場やその他の物理量に対する高感度量子センサーのための有望なプラットフォームである。 高感度と高空間分解能を組み合わせた探索は自然にNV中心の密集につながり、そのためそれら間の強い長距離相互作用をもたらす。 したがって、強く相互作用するNVをシミュレートすることが不可欠である。 しかし、多スピン系の正確な動力学を得るのはヒルベルト空間次元の指数的スケーリングによる難題であり、これはシステムがオープン量子系としてモデル化されるときに悪化する。 本研究では,多体混合状態を表すために行列積密度演算子(MPDO)法を用い,双極子-双極子力による強い長距離結合の存在下でのNVのアンサンブルのダイナミクスをシミュレートする。 数値的精度と安定性の観点から異なる時間進化アルゴリズムをベンチマークする。 その後、強い相互作用状態のダイナミクスを、散逸することなくシミュレートする。

NV centers in diamond are a promising platform for highly sensitive quantum sensors for magnetic fields and other physical quantities. The quest for high sensitivity combined with high spatial resolution leads naturally to dense ensembles of NV centers, and hence to strong, long-range interactions between them. Hence, simulating strongly interacting NVs becomes essential. However, obtaining the exact dynamics for a many-spin system is a challenging task due to the exponential scaling of the Hilbert space dimension, a problem that is exacerbated when the system is modelled as an open quantum system. In this work, we employ the Matrix Product Density Operator (MPDO) method to represent the many-body mixed state and to simulate the dynamics of an ensemble of NVs in the presence of strong long-range couplings due to dipole-dipole forces. We benchmark different time-evolution algorithms in terms of numerical accuracy and stability. Subsequently, we simulate the dynamics in the strong interaction regime, with and without dissipation.
翻訳日:2024-06-13 17:15:13 公開日:2024-06-12
# ヨーロッパDAOワークショップ2024に参加して

Conference Proceedings of The European DAO Workshop 2024 ( http://arxiv.org/abs/2406.08110v1 )

ライセンス: Link先を確認
Florian Spychiger, Michael Lustenberger, (参考訳) スイスのウィンタートゥールで7月4日/5日に開催された欧州DAOワークショップ2024は、分散自治機構(DAO)の課題と機会を探究することを目的としている。 その目標は、DAOを新たな組織構造として前進させるために、学者と実践者の間のイノベーションと知識移転を促進することである。 この完全な論文集は、分散意思決定、ビジネスモデル、人工知能、経済学、DAOの法的課題などについて論じている。 この多種多様なコンパイルは、ブロックチェーン技術に基づくDAOの急速に成長する現象を多分野的に検証する。

The European DAO Workshop 2024 held on July 4th/5th in Winterthur, Switzerland aims to explore the challenges and opportunities of Decentralized Autonomous Organizations (DAOs). Its goal is to foster innovation and knowledge transfer between academics and practitioners to advance DAOs as a new organizational structure. This collection of full papers delves into areas such as decentralized decision-making, business models, artificial intelligence, economics, and legal challenges for DAOs. This diverse compilation offers a multi-disciplinary examination of the rapidly growing phenomenon of DAOs that are based on blockchain technology.
翻訳日:2024-06-13 17:15:13 公開日:2024-06-12
# Codecfake: LLMベースのDeepfakeオーディオ検出のための初期データセット

Codecfake: An Initial Dataset for Detecting LLM-based Deepfake Audio ( http://arxiv.org/abs/2406.08112v1 )

ライセンス: Link先を確認
Yi Lu, Yuankun Xie, Ruibo Fu, Zhengqi Wen, Jianhua Tao, Zhiyong Wang, Xin Qi, Xuefei Liu, Yongwei Li, Yukun Liu, Xiaopeng Wang, Shuchen Shi, (参考訳) LLM(Large Language Model)に基づくディープフェイク音声の普及に伴い,効果的な検出法が緊急に必要となる。 従来のディープフェイク音声生成法は、通常、多段階生成プロセスを含み、最後のステップは、ボイコーダを使用して手作りの特徴から波形を予測する。 しかし、LSMベースのオーディオは、個別のニューラルコーデックからエンドツーエンドの生成プロセスで直接生成され、ボコーダ処理の最終ステップをスキップする。 これは、ボコーダのアーティファクトに基づいた現在のオーディオディープフェイク検出(ADD)モデルにとって大きな課題となる。 LLMに基づくディープフェイク音声を効果的に検出するために、我々は生成プロセスのコア、ニューラルコーデックから波形への変換に焦点を当てた。 7つの代表的ニューラルコーデック法により生成されたCodecfakeデータセットを提案する。 実験結果から,Codecfake テストセットにおけるvocoder トレーニング ADD モデルと比較して,コーデック学習 ADD モデルの平均誤差率は41.406% 減少していることがわかった。

With the proliferation of Large Language Model (LLM) based deepfake audio, there is an urgent need for effective detection methods. Previous deepfake audio generation methods typically involve a multi-step generation process, with the final step using a vocoder to predict the waveform from handcrafted features. However, LLM-based audio is directly generated from discrete neural codecs in an end-to-end generation process, skipping the final step of vocoder processing. This poses a significant challenge for current audio deepfake detection (ADD) models based on vocoder artifacts. To effectively detect LLM-based deepfake audio, we focus on the core of the generation process, the conversion from neural codec to waveform. We propose Codecfake dataset, which is generated by seven representative neural codec methods. Experiment results show that codec-trained ADD models exhibit a 41.406% reduction in average equal error rate compared to vocoder-trained ADD models on the Codecfake test set.
翻訳日:2024-06-13 17:05:29 公開日:2024-06-12
# Valeo4Cast: エンドツーエンドの予測に対するモジュール的アプローチ

Valeo4Cast: A Modular Approach to End-to-End Forecasting ( http://arxiv.org/abs/2406.08113v1 )

ライセンス: Link先を確認
Yihong Xu, Éloi Zablocki, Alexandre Boulch, Gilles Puy, Mickael Chen, Florent Bartoccioni, Nermin Samet, Oriane Siméoni, Spyros Gidaris, Tuan-Hung Vu, Andrei Bursuc, Eduardo Valle, Renaud Marlet, Matthieu Cord, (参考訳) 運動予測は、歩行者、車両、交通信号などの周辺エージェントの将来の軌道を予測するために、自律運転システムにおいて不可欠である。 エンドツーエンドの予測では、モデルは、シーンの異なる要素の位置と過去の軌跡をセンサーデータ(カメラまたはLiDAR)から共同で検出し、将来の位置を予測する必要がある。 私たちは、知覚から予測までエンドツーエンドのトレーニングを通じて、このタスクに取り組む現在のトレンドから離れ、代わりにモジュラーアプローチを使用します。 最近の研究では、検出、追跡、予測モジュールを個別に構築し、訓練する。 その後、モジュールをよりよく統合し、複雑なエラーを軽減するために、連続的な微調整ステップのみを使用します。 本研究は,この単純かつ効果的な手法により,エンドツーエンド予測ベンチマークの性能が著しく向上することを明らかにする。 その結果, CVPR 2024ワークショップ(WAD)で開催されるArgoverse 2 end-to-end Forecasting Challengeに63.82 mAPfでランクインした。 私たちは、昨年の優勝者より+17.1ポイント、今年の優勝者より+13.3ポイント、予測結果を+17.1ポイント上回る。 予測におけるこの顕著なパフォーマンスは、微調整戦略を統合したモジュールパラダイムによって説明できます。

Motion forecasting is crucial in autonomous driving systems to anticipate the future trajectories of surrounding agents such as pedestrians, vehicles, and traffic signals. In end-to-end forecasting, the model must jointly detect from sensor data (cameras or LiDARs) the position and past trajectories of the different elements of the scene and predict their future location. We depart from the current trend of tackling this task via end-to-end training from perception to forecasting and we use a modular approach instead. Following a recent study, we individually build and train detection, tracking, and forecasting modules. We then only use consecutive finetuning steps to integrate the modules better and alleviate compounding errors. Our study reveals that this simple yet effective approach significantly improves performance on the end-to-end forecasting benchmark. Consequently, our solution ranks first in the Argoverse 2 end-to-end Forecasting Challenge held at CVPR 2024 Workshop on Autonomous Driving (WAD), with 63.82 mAPf. We surpass forecasting results by +17.1 points over last year's winner and by +13.3 points over this year's runner-up. This remarkable performance in forecasting can be explained by our modular paradigm, which integrates finetuning strategies and significantly outperforms the end-to-end-trained counterparts.
翻訳日:2024-06-13 17:05:29 公開日:2024-06-12
# 大規模分散ディープラーニングのためのリソース割り当てとワークロードスケジューリング

Resource Allocation and Workload Scheduling for Large-Scale Distributed Deep Learning: A Survey ( http://arxiv.org/abs/2406.08115v1 )

ライセンス: Link先を確認
Feng Liang, Zhen Zhang, Haifeng Lu, Chengming Li, Victor C. M. Leung, Yanyi Guo, Xiping Hu, (参考訳) 大規模データセンターにおける分散ディープラーニングワークロードの急速な増加に伴い、リソース割り当てとワークロードスケジューリングのための効率的な分散ディープラーニングフレームワーク戦略が、高性能なディープラーニングの鍵となっている。 大量のデータセット、モデル、計算および通信リソースを備えた大規模環境は、スケジューリング複雑性、リソースとワークロードの不均一性、フォールトトレランスなど、分散ディープラーニングにおけるリソース割り当てとワークロードスケジューリングに関するさまざまなユニークな課題を提起する。 これらの課題と対応ソリューションを明らかにするため、この調査では、2019年から2024年にかけて主に、大規模分散DLの効率的なリソース割り当てとワークロードスケジューリング戦略に関する文献をレビューした。 分散トレーニングや推論プロセスにおいて、さまざまなリソースタイプ、粒度レベルのスケジューリング、パフォーマンス目標に焦点をあてることで、これらの戦略を探求する。 トピックごとに重要な課題を強調し、既存の技術に関する重要な洞察について議論する。 実際の分散ディープラーニングシナリオにおける大規模リソース割り当てとワークロードスケジューリングの実践例を示すために,大規模言語モデルの学習事例を用いた。 本調査の目的は,コンピュータ科学,人工知能,コミュニケーション研究者が最近の進歩を理解し,大規模分散ディープラーニングのための効率的なフレームワーク戦略のための今後の研究方向を探ることである。

With rapidly increasing distributed deep learning workloads in large-scale data centers, efficient distributed deep learning framework strategies for resource allocation and workload scheduling have become the key to high-performance deep learning. The large-scale environment with large volumes of datasets, models, and computational and communication resources raises various unique challenges for resource allocation and workload scheduling in distributed deep learning, such as scheduling complexity, resource and workload heterogeneity, and fault tolerance. To uncover these challenges and corresponding solutions, this survey reviews the literature, mainly from 2019 to 2024, on efficient resource allocation and workload scheduling strategies for large-scale distributed DL. We explore these strategies by focusing on various resource types, scheduling granularity levels, and performance goals during distributed training and inference processes. We highlight critical challenges for each topic and discuss key insights of existing technologies. To illustrate practical large-scale resource allocation and workload scheduling in real distributed deep learning scenarios, we use a case study of training large language models. This survey aims to encourage computer science, artificial intelligence, and communications researchers to understand recent advances and explore future research directions for efficient framework strategies for large-scale distributed deep learning.
翻訳日:2024-06-13 17:05:29 公開日:2024-06-12
# 検索言語モデリングのための支援型知識書き換え

Supportiveness-based Knowledge Rewriting for Retrieval-augmented Language Modeling ( http://arxiv.org/abs/2406.08116v1 )

ライセンス: Link先を確認
Zile Qiao, Wei Ye, Yong Jiang, Tong Mo, Pengjun Xie, Weiping Li, Fei Huang, Shikun Zhang, (参考訳) Retrieval-augmented Language Model (RALMs) は、最近の専門知識の更新や長期的知識の信頼性の維持など、LLMにおける暗黙的な知識の制限を緩和する大きな可能性を最近示している。 しかし、外部知識ベースとレトリバーは信頼性を保証できないため、LLM生成に役に立たない、あるいは誤解を招く可能性がある。 本稿では,LLM生成に本質的に最適化された,頑健でプラガブルな知識リライトであるSKRを紹介する。 具体的には、「支援性」という新しい概念を導入する。これは知識が下流のタスクをいかに効果的に促すかを示すもので、強化知識がホワイトボックスLLMの応答テキストに与える影響を考慮に入れたものである。 まず,知識支援に基づくリライタモデルのためのトレーニングデータキュレーション戦略を設計し,不適切な書き直し(例えば,支持度スコアが低い)を効果的に識別・フィルタリングし,データの有効性を向上させる。 次に、生成したリライトを最適な支持度に整合させるために、直接選好最適化(DPO)アルゴリズムを導入し、最終応答を改善するための拡張コンテンツの要約をリライターモデルに誘導する。 6つの一般的な知識集約タスクと4つのLCMの総合的な評価は、SKRの有効性と優位性を示している。 7Bパラメータだけで、SKRは現在の最先端汎用LLMであるGPT-4よりも優れた知識書き換え能力を示している。

Retrieval-augmented language models (RALMs) have recently shown great potential in mitigating the limitations of implicit knowledge in LLMs, such as untimely updating of the latest expertise and unreliable retention of long-tail knowledge. However, since the external knowledge base, as well as the retriever, can not guarantee reliability, potentially leading to the knowledge retrieved not being helpful or even misleading for LLM generation. In this paper, we introduce Supportiveness-based Knowledge Rewriting (SKR), a robust and pluggable knowledge rewriter inherently optimized for LLM generation. Specifically, we introduce the novel concept of "supportiveness"--which represents how effectively a knowledge piece facilitates downstream tasks--by considering the perplexity impact of augmented knowledge on the response text of a white-box LLM. Based on knowledge supportiveness, we first design a training data curation strategy for our rewriter model, effectively identifying and filtering out poor or irrelevant rewrites (e.g., with low supportiveness scores) to improve data efficacy. We then introduce the direct preference optimization (DPO) algorithm to align the generated rewrites to optimal supportiveness, guiding the rewriter model to summarize augmented content that better improves the final response. Comprehensive evaluations across six popular knowledge-intensive tasks and four LLMs have demonstrated the effectiveness and superiority of SKR. With only 7B parameters, SKR has shown better knowledge rewriting capability over GPT-4, the current state-of-the-art general-purpose LLM.
翻訳日:2024-06-13 17:05:29 公開日:2024-06-12
# ユーザストーリーとGUIプロトタイピングのインターリンク:半自動LCMによるアプローチ

Interlinking User Stories and GUI Prototyping: A Semi-Automatic LLM-based Approach ( http://arxiv.org/abs/2406.08120v1 )

ライセンス: Link先を確認
Kristian Kolthoff, Felix Kretzer, Christian Bartelt, Alexander Maedche, Simone Paolo Ponzetto, (参考訳) 現在、インタラクティブなシステムは全能的であり、グラフィカルユーザインタフェース(GUI)を作成する必要性は、同様にユビキタスである。 GUIプロトタイピング(GUI Prototyping)は、一般的に自然言語(NL)で表現された最初のユーザ要件(例:ユーザストーリー)を収集した後に使用される、よく知られた、効果的なテクニックである。 残念なことに、GUIプロトタイピングは、しばしば広範囲のリソースを必要とするため、コストがかかり、時間がかかります。 様々な使い勝手の良いプロトタイピングツールがあるにもかかわらず、与えられたユーザー要求に基づいてGUIプロトタイプを開発するのに十分なリソースが不足していることが多い。 本稿では,プロトタイピングツールに組み込まれたGUIプロトタイプにおいて,機能的NLベースの要求の実装を検証するための支援を提供する,LLMに基づく新しいアプローチを提案する。 特に本研究の目的は,GUIプロトタイプに実装されていない機能的ユーザストーリの検出と,その要件を直接実装する適切なGUIコンポーネントのレコメンデーションを提供することである。 既存のGUIの要件をユーザストーリーとして収集し,提案した検証手法と推奨手法をこのデータセットで評価した。 得られた結果はユーザストーリーの検証に有効であり,GUIコンポーネントのレコメンデーションの実現可能性を示す。

Interactive systems are omnipresent today and the need to create graphical user interfaces (GUIs) is just as ubiquitous. For the elicitation and validation of requirements, GUI prototyping is a well-known and effective technique, typically employed after gathering initial user requirements represented in natural language (NL) (e.g., in the form of user stories). Unfortunately, GUI prototyping often requires extensive resources, resulting in a costly and time-consuming process. Despite various easy-to-use prototyping tools in practice, there is often a lack of adequate resources for developing GUI prototypes based on given user requirements. In this work, we present a novel Large Language Model (LLM)-based approach providing assistance for validating the implementation of functional NL-based requirements in a GUI prototype embedded in a prototyping tool. In particular, our approach aims to detect functional user stories that are not implemented in a GUI prototype and provides recommendations for suitable GUI components directly implementing the requirements. We collected requirements for existing GUIs in the form of user stories and evaluated our proposed validation and recommendation approach with this dataset. The obtained results are promising for user story validation and we demonstrate feasibility for the GUI component recommendations.
翻訳日:2024-06-13 17:05:29 公開日:2024-06-12
# 伝説: 参照データセットの安全マージンにアノテーションを付けるために表現工学を活用する

Legend: Leveraging Representation Engineering to Annotate Safety Margin for Preference Datasets ( http://arxiv.org/abs/2406.08124v1 )

ライセンス: Link先を確認
Duanyu Feng, Bowen Qin, Chen Huang, Youcheng Huang, Zheng Zhang, Wenqiang Lei, (参考訳) 微妙な安全性の相違のある応答を区別する報酬モデルの成功は、有害で無害な応答のきめ細かいニュアンスを捉える高品質な選好データセットに大きく依存する。 これは、一方の応答が他方と比較してどれだけ無害であるかを正確に定量化する、選好マージンを含むデータセットを開発する必要性を動機付けている。 本稿では,利幅拡大された選好データセット開発を促進するための,効率的で費用効率のよいフレームワークを提案する。 我々のフレームワークであるRegend, Leverages表現エンジニアリングは、好みのデータセットに注釈を付ける。 LLMの埋め込み空間内で、安全性を表す特定の方向を構築する。 この安全性の方向性を活用することで、レジェンドはペア化された応答のセマンティックな距離をこの方向に沿って利用し、自動的にマージンをアノテートすることができる。 LLMに対する報酬モデリングと無害アライメントの両面での有効性を実験的に実証した。 レジェンドはその効率も際立っており、追加のトレーニングではなく推論時間のみを必要とする。 この効率性により、実装とスケーラビリティがより簡単になり、安全な会話でLLMを整列させる実践的なアプリケーションに特に価値がある。

The success of the reward model in distinguishing between responses with subtle safety differences depends critically on the high-quality preference dataset, which should capture the fine-grained nuances of harmful and harmless responses. This motivates the need to develop a dataset involving preference margins, which accurately quantify how harmless one response is compared to another. In this paper, we take the first step to propose an effective and cost-efficient framework to promote the margin-enhanced preference dataset development. Our framework, Legend, Leverages representation engineering to annotate preference datasets. It constructs the specific direction within the LLM's embedding space that represents safety. By leveraging this safety direction, Legend can then leverage the semantic distances of paired responses along this direction to annotate margins automatically. We experimentally demonstrate our effectiveness in both reward modeling and harmless alignment for LLMs. Legend also stands out for its efficiency, requiring only the inference time rather than additional training. This efficiency allows for easier implementation and scalability, making Legend particularly valuable for practical applications in aligning LLMs with safe conversations.
翻訳日:2024-06-13 17:05:29 公開日:2024-06-12
# ショートロングコンボリューションは、ハードウェア効率の良いリニアアテンションで長いシーケンスにフォーカスするのに役立つ

Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences ( http://arxiv.org/abs/2406.08128v1 )

ライセンス: Link先を確認
Zicheng Liu, Siyuan Li, Li Wang, Zedong Wang, Yunfan Liu, Stan Z. Li, (参考訳) 長い列上の自己アテンション機構における計算複雑性を軽減するために、線形アテンションは計算トリックを利用して線形複雑性を実現する。 近年の研究では、これらを1つに組み合わせた優先順位が示されている。 しかし、線形注意の効率は因果関係において理論レベルに留まらず、SSMは特定のデータに対して効果的に操作するために様々な設計上の制約を必要とする。 したがって,ハイブリッド設計の真のパワーを明らかにするためには,(1)線形注意のためのハードウェア効率の良い実装,(2)SSMの安定化という2つの課題に対処する必要がある。 これを実現するために、タイリングと階層の考え方を活用して、短時間の畳み込みでSSMを置き換えるCHELA(short-long Convolutions with Hardware-Efficient Linear Attention)を提案する。 このアプローチは、線形複雑性を維持しつつ、安定なSSMと線形注意からのグローバルな抽象化とデータ依存の選択を享受する。 提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクに関する総合的な実験を行った。

To mitigate the computational complexity in the self-attention mechanism on long sequences, linear attention utilizes computation tricks to achieve linear complexity, while state space models (SSMs) popularize a favorable practice of using non-data-dependent memory pattern, i.e., emphasize the near and neglect the distant, to processing sequences. Recent studies have shown the priorities by combining them as one. However, the efficiency of linear attention remains only at the theoretical level in a causal setting, and SSMs require various designed constraints to operate effectively on specific data. Therefore, in order to unveil the true power of the hybrid design, the following two issues need to be addressed: (1) hardware-efficient implementation for linear attention and (2) stabilization of SSMs. To achieve this, we leverage the thought of tiling and hierarchy to propose CHELA (short-long Convolutions with Hardware-Efficient Linear Attention), which replaces SSMs with short-long convolutions and implements linear attention in a divide-and-conquer manner. This approach enjoys global abstraction and data-dependent selection from stable SSM and linear attention while maintaining real linear complexity. Our comprehensive experiments on the Long Range Arena benchmark and language modeling tasks demonstrate the effectiveness of the proposed method.
翻訳日:2024-06-13 17:05:29 公開日:2024-06-12
# AIをインテリジェントにする - 哲学の基礎

Making AI Intelligible: Philosophical Foundations ( http://arxiv.org/abs/2406.08134v1 )

ライセンス: Link先を確認
Herman Cappelen, Josh Dever, (参考訳) 人間と人工知能は概念を共有しコミュニケーションできるのか? 「AI知能の育成」は、意味のメタ物理に関する哲学的な研究がこれらの疑問に答えるのに役立つことを示している。 Herman Cappelen と Josh Dever は、哲学における外部主義の伝統を使って、AI と人間の相互理解のモデルを作成する。 そうすることで、彼らはその哲学的伝統を改善する方法を説明する。 この本で取り上げられた疑問は理論的に興味深いだけでなく、その答えは実際的な意味を迫っている。 人間の生活に関する重要な決定の多くは、現在AIの影響を受けている。 AIにその権限を与えるにあたって、私たちは、AIが私たちが関心を持っている世界の特徴(例えば、信用力、リシディズム、がん、戦闘員)を追跡できることを前提にしています。 もしAIが私たちの概念を共有できれば、AIへの依存を正当化するための何らかの手段になるでしょう。 この画期的な研究は、解釈可能なAIを達成するための第一歩を踏み出すための洞察を与えてくれる。

Can humans and artificial intelligences share concepts and communicate? 'Making AI Intelligible' shows that philosophical work on the metaphysics of meaning can help answer these questions. Herman Cappelen and Josh Dever use the externalist tradition in philosophy to create models of how AIs and humans can understand each other. In doing so, they illustrate ways in which that philosophical tradition can be improved. The questions addressed in the book are not only theoretically interesting, but the answers have pressing practical implications. Many important decisions about human life are now influenced by AI. In giving that power to AI, we presuppose that AIs can track features of the world that we care about (for example, creditworthiness, recidivism, cancer, and combatants). If AIs can share our concepts, that will go some way towards justifying this reliance on AI. This ground-breaking study offers insight into how to take some first steps towards achieving Interpretable AI.
翻訳日:2024-06-13 17:05:29 公開日:2024-06-12
# 胸部CTにおける深層学習支援が放射線医の作業負荷と解釈精度に及ぼす影響--クロスオーバーリーダーによる研究

The impact of deep learning aid on the workload and interpretation accuracy of radiologists on chest computed tomography: a cross-over reader study ( http://arxiv.org/abs/2406.08137v1 )

ライセンス: Link先を確認
Anvar Kurmukov, Valeria Chernina, Regina Gareeva, Maria Dugova, Ekaterina Petrash, Olga Aleshina, Maxim Pisov, Boris Shirokikh, Valentin Samokhin, Vladislav Proskurov, Stanislav Shimovolos, Maria Basova, Mikhail Goncahrov, Eugenia Soboleva, Maria Donskova, Farukh Yaushev, Alexey Shevtsov, Alexey Zakharov, Talgat Saparov, Victor Gombolevskiy, Mikhail Belyaev, (参考訳) 胸部CTの解釈には時間を要する。 従来,DLA(Deep-learning-based aid)によるCT解釈の時間短縮効果について検討されてきた。 放射線技師の読影時間と精度に対するマルチ病理的DLAの併用効果について検討した。 40名の放射線技師をランダムに3つの実験用アームに分けた:制御(10名)、DLAの病態について説明を受けたが、それなしで読解を行った情報グループ(10名)、DLAのハーフスタディを解釈した実験グループ(20名)。 各腕は、BIMCV-COVID19データセットから遡及的に収集された200個のCT研究を使用しており、それぞれの放射線学者は20個のCT研究の読解を提供した。 当科では,12例の病理所見について,解釈時間と被験者の診断精度を比較した。 平均読解時間はコントロールアームで15.6分[SD 8.5],情報アームで13.2分[SD 8.7],実験アームで14.4分[SD 10.3],実験アームで11.4分[SD 7.8]であった。 平均感度と特異性は、コントロールアームで41.5[SD 30.4]、86.8[SD 28.3]、インフォメーション非アシストアームで53.5[SD 22.7]、92.3[SD 9.4]、DLAのない実験アームで63.2[SD 16.4]、92.3[SD 8.2]、DLAを持つ実験アームで91.6[SD 7.2]、89.9[SD 6.0]である。 DLAは1研究あたりの解釈時間を2.9分(CI95[1.7, 4.3], p<0.0005), 感度を28.4(CI95[23.4, 33.4], p<0.0005), 特異度を2.4(CI95[0.6, 4.3], p=0.13)に短縮する。 実験室の放射線技師20名のうち16名は読解時間と感度を向上し、2名は限界感度を低下させて時間を改善し、2人は時間を増加させて感度を向上した。 総じて、DLA導入は読書時間を20.6%減らした。

Interpretation of chest computed tomography (CT) is time-consuming. Previous studies have measured the time-saving effect of using a deep-learning-based aid (DLA) for CT interpretation. We evaluated the joint impact of a multi-pathology DLA on the time and accuracy of radiologists' reading. 40 radiologists were randomly split into three experimental arms: control (10), who interpret studies without assistance; informed group (10), who were briefed about DLA pathologies, but performed readings without it; and the experimental group (20), who interpreted half studies with DLA, and half without. Every arm used the same 200 CT studies retrospectively collected from BIMCV-COVID19 dataset; each radiologist provided readings for 20 CT studies. We compared interpretation time, and accuracy of participants diagnostic report with respect to 12 pathological findings. Mean reading time per study was 15.6 minutes [SD 8.5] in the control arm, 13.2 minutes [SD 8.7] in the informed arm, 14.4 [SD 10.3] in the experimental arm without DLA, and 11.4 minutes [SD 7.8] in the experimental arm with DLA. Mean sensitivity and specificity were 41.5 [SD 30.4], 86.8 [SD 28.3] in the control arm; 53.5 [SD 22.7], 92.3 [SD 9.4] in the informed non-assisted arm; 63.2 [SD 16.4], 92.3 [SD 8.2] in the experimental arm without DLA; and 91.6 [SD 7.2], 89.9 [SD 6.0] in the experimental arm with DLA. DLA speed up interpretation time per study by 2.9 minutes (CI95 [1.7, 4.3], p<0.0005), increased sensitivity by 28.4 (CI95 [23.4, 33.4], p<0.0005), and decreased specificity by 2.4 (CI95 [0.6, 4.3], p=0.13). Of 20 radiologists in the experimental arm, 16 have improved reading time and sensitivity, two improved their time with a marginal drop in sensitivity, and two participants improved sensitivity with increased time. Overall, DLA introduction decreased reading time by 20.6%.
翻訳日:2024-06-13 17:05:29 公開日:2024-06-12
# 半漸進的Q-ラーニングにおける暗示バイアスの探索--Fokker-Planck方程式による効果的な失われた景観の可視化-

Probing Implicit Bias in Semi-gradient Q-learning: Visualizing the Effective Loss Landscapes via the Fokker--Planck Equation ( http://arxiv.org/abs/2406.08148v1 )

ライセンス: Link先を確認
Shuyu Yin, Fei Wen, Peilin Liu, Tao Luo, (参考訳) 半段階的なQ-ラーニングは多くの分野に適用されているが、明示的な損失関数が存在しないため、パラメータ空間におけるそのダイナミクスと暗黙のバイアスの研究は困難である。 本稿では,Fokker-Planck方程式を導入し,サンプリングによって得られた部分的データを用いて,2次元パラメータ空間内の有効損失景観の構築と可視化を行う。 この可視化は、ロスランドスケープのグローバルなミニマが、効果的なロスランドスケープのサドルポイントにどのように変換されるかを示し、セミグラディエントな手法の暗黙のバイアスも示している。 さらに、ロスランドスケープのグローバルミニマから派生したサドルポイントが、高次元パラメータ空間とニューラルネットワーク設定の下での効果的なロスランドスケープに依然として存在することを示す。 本稿では,半段階的なQ-ラーニングにおける暗黙のバイアスを探索するための新しい手法を開発する。

Semi-gradient Q-learning is applied in many fields, but due to the absence of an explicit loss function, studying its dynamics and implicit bias in the parameter space is challenging. This paper introduces the Fokker--Planck equation and employs partial data obtained through sampling to construct and visualize the effective loss landscape within a two-dimensional parameter space. This visualization reveals how the global minima in the loss landscape can transform into saddle points in the effective loss landscape, as well as the implicit bias of the semi-gradient method. Additionally, we demonstrate that saddle points, originating from the global minima in loss landscape, still exist in the effective loss landscape under high-dimensional parameter spaces and neural network settings. This paper develop a novel approach for probing implicit bias in semi-gradient Q-learning.
翻訳日:2024-06-13 17:05:29 公開日:2024-06-12
# 画像における色とパターンの普遍的スケール法則

Universal Scale Laws for Colors and Patterns in Imagery ( http://arxiv.org/abs/2406.08149v1 )

ライセンス: Link先を確認
Rémi Michel, Mohamed Tamaazousti, (参考訳) 画像中の色やパターンの分布は、空間分解能とダイナミックスを調整するカスケードを通して観察される。 カラーのカスケードは、自然のシーンのフルカラー画像(FCI)が議論された連続線形ログスケール法(slope $-2.00 \pm 0.01$)に準拠する創発的な普遍性を明らかにしている(L1)。 離散的な2ドルの2ドルパターンのカスケードは、7つのラベルのない回転のないテクスチャ(0000, 0001, 0011, 0012, 0101, 0102, 0123)への画素四角の縮小に由来する。 彼らは空間スケール(L2)に関係なく、いくつかの力学において、非平行な普遍エントロピーの最大値が1.74 pm 0.013$であることを示した。 パターンはまた、カオスシステムの研究において中心となる積分ゆらぎ理論 (1.00 \pm 0.01$) (L3) に準拠している。 色の少ない画像は、L1とL3から2次シフトとバイアスを示すが、L2に付着する。 ランダム化されたヒルベルトフラクタル FCI は基本的なAIベースのシミュレーションよりも法則に適合する。 これらの結果は、平衡物理学とスペクトル画像から得られるニューラルネットワークに関心がある。

Distribution of colors and patterns in images is observed through cascades that adjust spatial resolution and dynamics. Cascades of colors reveal the emergent universal property that Fully Colored Images (FCIs) of natural scenes adhere to the debated continuous linear log-scale law (slope $-2.00 \pm 0.01$) (L1). Cascades of discrete $2 \times 2$ patterns are derived from pixel squares reductions onto the seven unlabeled rotation-free textures (0000, 0001, 0011, 0012, 0101, 0102, 0123). They exhibit an unparalleled universal entropy maximum of $1.74 \pm 0.013$ at some dynamics regardless of spatial scale (L2). Patterns also adhere to the Integral Fluctuation Theorem ($1.00 \pm 0.01$) (L3), pivotal in studies of chaotic systems. Images with fewer colors exhibit quadratic shift and bias from L1 and L3 but adhere to L2. Randomized Hilbert fractals FCIs better match the laws than basic-to-AI-based simulations. Those results are of interest in Neural Networks, out of equilibrium physics and spectral imagery.
翻訳日:2024-06-13 17:05:29 公開日:2024-06-12
# CT3D++:Keypoint-induced Channel-wise Transformerによる3Dオブジェクト検出の改善

CT3D++: Improving 3D Object Detection with Keypoint-induced Channel-wise Transformer ( http://arxiv.org/abs/2406.08152v1 )

ライセンス: Link先を確認
Hualian Sheng, Sijia Cai, Na Zhao, Bing Deng, Qiao Liang, Min-Jian Zhao, Jieping Ye, (参考訳) 点雲からの3次元物体検出の分野は、コンピュータビジョンにおいて急速に進歩しており、三次元空間における物体を正確にかつ効率的に検出し、ローカライズすることを目的としている。 現在の3D検出器は、柔軟性とスケーラビリティの点で一般的に不足しており、性能が向上する余地は十分にある。 本稿では,手作りデザインを最小限に抑えた3次元物体検出のための2つのフレームワークを導入することで,これらの制約に対処することを目的とする。 まず,本提案では,各提案において,生点ベースの埋め込み,標準トランスフォーマーエンコーダ,チャンネルワイドデコーダを順次実行するCT3Dを提案する。 次に、幾何学的および意味論的融合に基づく埋め込みを組み込んだCT3D++と呼ばれる拡張ネットワークを提案し、より価値があり包括的な提案認識情報を取り出す。 さらにCT3D ++は、より効率的な特徴符号化と計算コストの削減に、ポイントツーキー双方向エンコーダを使用している。 CT3Dの対応するコンポーネントをこれらの新しいモジュールに置き換えることで、CT3D++はKITTIデータセットと大規模なWay\-mo Open Datasetの両方で最先端のパフォーマンスを達成する。 私たちのフレームワークのソースコードはhttps://github.com/hlsheng1/CT3D-plusplusでアクセスできます。

The field of 3D object detection from point clouds is rapidly advancing in computer vision, aiming to accurately and efficiently detect and localize objects in three-dimensional space. Current 3D detectors commonly fall short in terms of flexibility and scalability, with ample room for advancements in performance. In this paper, our objective is to address these limitations by introducing two frameworks for 3D object detection with minimal hand-crafted design. Firstly, we propose CT3D, which sequentially performs raw-point-based embedding, a standard Transformer encoder, and a channel-wise decoder for point features within each proposal. Secondly, we present an enhanced network called CT3D++, which incorporates geometric and semantic fusion-based embedding to extract more valuable and comprehensive proposal-aware information. Additionally, CT3D ++ utilizes a point-to-key bidirectional encoder for more efficient feature encoding with reduced computational cost. By replacing the corresponding components of CT3D with these novel modules, CT3D++ achieves state-of-the-art performance on both the KITTI dataset and the large-scale Way\-mo Open Dataset. The source code for our frameworks will be made accessible at https://github.com/hlsheng1/CT3D-plusplus.
翻訳日:2024-06-13 17:05:29 公開日:2024-06-12
# Mixture-of-Expertsのためのトレーニング後の量子化の検討:ベンチマーク

Examining Post-Training Quantization for Mixture-of-Experts: A Benchmark ( http://arxiv.org/abs/2406.08155v1 )

ライセンス: Link先を確認
Pingzhi Li, Xiaolong Jin, Yu Cheng, Tianlong Chen, (参考訳) 大規模言語モデル~(LLM)は自然言語処理の領域において基礎となり、モデルのサイズが大きくなるにつれて性能が向上した。 Mixture-of-Experts~(MoE)アプローチは、スパースアクティベーションによって少ない計算FLOPを使用することで、LCMをより効率的にスケールする方法を提供する。 しかし、それは大きなメモリオーバーヘッドに悩まされ、モデル圧縮技術を必要とする。 モデル圧縮の一般的な方法であるポストトレーニング量子化(英語版)は、MoEの見過ごされた固有空間のため、MoEモデルに直接適用した場合、効果が低いことを証明している。 本稿では,MoEブロックから個々の線形重みまで,粗さから粒度まで,MoE構造を考慮した量子化ヒューリスティックスについて検討する。 異なるMOE構造(ブロック、専門家、線形層)は、効率的かつ効率的な量子化のために様々な重みビットを必要とする。 結論は、2つの代表的なMoEモデルと6つのタスクにわたる広範なベンチマークによって支持される。 さらに、線形重み出力スコアラやMoEブロックスコアラなど、より高いビット割り当てを必要とするMoE量子化の最も重要な重みをより正確に識別する新しい拡張を導入する。 さらに、その後の実験では、重み付けとアクティベーション量子化の両方の文脈で、我々の発見を検証した。

Large Language Models~(LLMs) have become foundational in the realm of natural language processing, demonstrating performance improvements as model sizes increase. The Mixture-of-Experts~(MoE) approach offers a promising way to scale LLMs more efficiently by using fewer computational FLOPs through sparse activation. However, it suffers from significant memory overheads, necessitating model compression techniques. Post-training quantization, a popular method for model compression, proves less effective when directly applied to MoE models due to MoE's overlooked inherent sparsity. This paper explores several MoE structure-aware quantization heuristics, ranging from coarse to fine granularity, from MoE block to individual linear weight. Our investigations reveal critical principles: different MoE structures (i.e., blocks, experts, linear layers) require varying numbers of weight bits for effective and efficient quantization. Conclusions are supported by extensive benchmarking across two representative MoE models and six tasks. We further introduce novel enhancements to more accurately identify the most critical weights in MoE quantization that necessitate higher bit allocations, including the linear weight outlier scorer and MoE block scorer. Additionally, subsequent experiments validate our findings in the context of both weight and activation quantization.
翻訳日:2024-06-13 17:05:29 公開日:2024-06-12
# ConMe: 現代VLMにおける構成推論の評価の再考

ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs ( http://arxiv.org/abs/2406.08164v1 )

ライセンス: Link先を確認
Irene Huang, Wei Lin, M. Jehanzeb Mirza, Jacob A. Hansen, Sivan Doveh, Victor Ion Butoi, Roei Herzig, Assaf Arbelle, Hilde Kuhene, Trevor Darrel, Chuang Gan, Aude Oliva, Rogerio Feris, Leonid Karlinsky, (参考訳) 構成推論(CR)は属性、関係、単語の順序の重要さを把握する。 近年の視覚言語モデル(VLM)は,視覚エンコーダと大言語モデル(LLM)デコーダから構成される。 VLMはCRの課題に効果的に取り組みましたか? 既存のCRベンチマークは、LLMのみの負のテキスト生成パイプラインに依存するため、現代のVLMの境界を適切に押し付けない可能性がある。 その結果、生成した負の値は、VLMのLLMデコーダによって学習された自然言語分布から外れ値として現れるか、対応する画像コンテキスト内では不適切な値として現れる。 これらの制限に対処するため、コンメ - 合成推論ベンチマークと、VLMを活用して'hard CR Q&A'を生成する新しいデータ生成パイプラインを導入する。 我々のパイプラインは、互いに会話して弱点を共同で公開する新しい概念を通じて、困難な構成的推論質問を自律的に生成し、評価し、選択し、堅牢なCRベンチマークを確立し、その後、手動で検証する。 我々のベンチマークでは,従来のベンチマークと比較してCR性能が最大33%低下し,最先端のVLMにおいてもCRの課題が再燃している。

Compositional Reasoning (CR) entails grasping the significance of attributes, relations, and word order. Recent Vision-Language Models (VLMs), comprising a visual encoder and a Large Language Model (LLM) decoder, have demonstrated remarkable proficiency in such reasoning tasks. This prompts a crucial question: have VLMs effectively tackled the CR challenge? We conjecture that existing CR benchmarks may not adequately push the boundaries of modern VLMs due to the reliance on an LLM-only negative text generation pipeline. Consequently, the negatives produced either appear as outliers from the natural language distribution learned by VLMs' LLM decoders or as improbable within the corresponding image context. To address these limitations, we introduce ConMe -- a compositional reasoning benchmark and a novel data generation pipeline leveraging VLMs to produce `hard CR Q&A'. Through a new concept of VLMs conversing with each other to collaboratively expose their weaknesses, our pipeline autonomously generates, evaluates, and selects challenging compositional reasoning questions, establishing a robust CR benchmark, also subsequently validated manually. Our benchmark provokes a noteworthy, up to 33%, decrease in CR performance compared to preceding benchmarks, reinstating the CR challenge even for state-of-the-art VLMs.
翻訳日:2024-06-13 17:05:29 公開日:2024-06-12
# セルビン下温度におけるツリウム添加イットリウムガリウムガーネット結晶の光量子記憶におけるコヒーレンスと緩和ダイナミクスの光学的検討

Optical Investigations of Coherence and Relaxation Dynamics of a Thulium-doped Yttrium Gallium Garnet Crystal at sub-Kelvin Temperatures for Optical Quantum Memory ( http://arxiv.org/abs/2406.08167v1 )

ライセンス: Link先を確認
Antariksha Das, Mohsen Falamarzi Askarani, Jacob H. Davidson, Neil Sinclair, Joshua A. Slater, Sara Marzban, Daniel Oblak, Charles W. Thiel, Rufus L. Cone, Wolfgang Tittel, (参考訳) 希土類イオンドープ結晶は将来の量子リピータの中心となる量子メモリに非常に興味がある。 1$\%$Tm$^{3+}$-doped yttrium gallium garnet (Tm:YGG) の公約を評価するため、約500mKの温度と様々な磁場で、その$^3$H$_6$$\leftrightarrow$$^3$H$_4$遷移の光コヒーレンスとエネルギーレベル寿命の測定を報告した。 また、2パルス光子エコーを用いて1ミリ秒を超えるコヒーレンス時間も測定した。 3パルス光子エコーとスペクトルホール燃焼測定により、スペクトル拡散により、有効コヒーレンス時間はおよそ200秒の時間スケールで数$\mu$sに減少することが明らかになった。 最後に、原子周波数コムプロトコルを用いた光パルスの時間・周波数多重ストレージを示す。 この結果から、Tm:YGGは量子リピータのための多重フォトニック量子メモリとして有望であることが示唆された。

Rare-earth ion-doped crystals are of great interest for quantum memories, a central component in future quantum repeaters. To assess the promise of 1$\%$ Tm$^{3+}$-doped yttrium gallium garnet (Tm:YGG), we report measurements of optical coherence and energy-level lifetimes of its $^3$H$_6$ $\leftrightarrow$ $^3$H$_4$ transition at a temperature of around 500 mK and various magnetic fields. Using spectral hole burning, we find hyperfine ground-level (Zeeman level) lifetimes of several minutes at magnetic fields of less than 1000 G. We also measure coherence time exceeding one millisecond using two-pulse photon echoes. Three-pulse photon echo and spectral hole burning measurements reveal that due to spectral diffusion, the effective coherence time reduces to a few $\mu$s over a timescale of around two hundred seconds. Finally, temporal and frequency-multiplexed storage of optical pulses using the atomic frequency comb protocol is demonstrated. Our results suggest Tm:YGG to be promising for multiplexed photonic quantum memory for quantum repeaters.
翻訳日:2024-06-13 17:05:29 公開日:2024-06-12
# 制約付き最適化問題に対するフィードバックに基づく量子アルゴリズム

Feedback-Based Quantum Algorithm for Constrained Optimization Problems ( http://arxiv.org/abs/2406.08169v1 )

ライセンス: Link先を確認
Salahuddin Abdul Rahman, Özkan Karabacak, Rafal Wisniewski, (参考訳) 量子最適化のためのフィードバックに基づくアルゴリズム \\(FALQON) が最近提案されている。 本稿では、FALQONを効率よく一般化し、2次制約付きバイナリ最適化(QCBO)問題に取り組む。 そこで本研究では,問題の解を基底状態としてエンコードする演算子を提案する。 リアプノフ制御理論を用いて、状態がこの作用素の基底状態に収束するように量子制御系を設計する。 QCBO問題に適用すると,提案アルゴリズムは量子回路の深さを小さくすることで計算資源を節約し,FALQONよりも優れた性能が得られることを示す。 提案アルゴリズムの有効性を数値シミュレーションにより明らかにした。

The feedback-based algorithm for quantum optimization \\(FALQON) has recently been proposed to solve quadratic unconstrained binary optimization problems. This paper efficiently generalizes FALQON to tackle quadratic constrained binary optimization (QCBO) problems. For this purpose, we introduce a new operator that encodes the problem's solution as its ground state. Using Lyapunov control theory, we design a quantum control system such that the state converges to the ground state of this operator. When applied to the QCBO problem, we show that our proposed algorithm saves computational resources by reducing the depth of the quantum circuit and can perform better than FALQON. The effectiveness of our proposed algorithm is further illustrated through numerical simulations.
翻訳日:2024-06-13 16:55:44 公開日:2024-06-12
# AIは人格を理解できるか?-人格相関の予測における人間専門家とAIシステムの比較

Can AI Understand Human Personality? -- Comparing Human Experts and AI Systems at Predicting Personality Correlations ( http://arxiv.org/abs/2406.08170v1 )

ライセンス: Link先を確認
Philipp Schoenegger, Spencer Greenberg, Alexander Grishin, Joshua Lewis, Lucius Caviola, (参考訳) パーソナリティマップ(PersonalityMap)やGPT-4oやClaude 3 Opus(Claude 3 Opus)といった一般的なLLMの、人間のパーソナリティを理解する能力をテストする。 具体的には,人格項目間の相関関係を予測する能力と,一般人と学術的専門家の能力とを比較した。 個々の人間と比較すると、すべてのAIモデルは、普通の人々や学術専門家の大多数よりも優れた予測をします。 しかし、各項目の中央値予測を選択すると、異なるパターンが見つかる: 専門家とパーソナリティマップは、LSMを上回り、ほとんどの尺度に人々を配置します。 以上の結果から,LLMは人格項目間の相関を推定する上で,ほとんどの人よりも優れているが,PersonalityMapのような専門モデルでは,LLMが劣る結果の指標においても,熟練した人間のパフォーマンスに適合または超え続けていることが示唆された。 これは、大きな言語モデルの一般的な能力を支持する証拠と、特定のドメインのために訓練され、デプロイされた専門モデルのための継続的な場所を支持する証拠を提供する。

We test the abilities of specialised deep neural networks like PersonalityMap as well as general LLMs like GPT-4o and Claude 3 Opus in understanding human personality. Specifically, we compare their ability to predict correlations between personality items to the abilities of lay people and academic experts. We find that when compared with individual humans, all AI models make better predictions than the vast majority of lay people and academic experts. However, when selecting the median prediction for each item, we find a different pattern: Experts and PersonalityMap outperform LLMs and lay people on most measures. Our results suggest that while frontier LLMs' are better than most individual humans at predicting correlations between personality items, specialised models like PersonalityMap continue to match or exceed expert human performance even on some outcome measures where LLMs underperform. This provides evidence both in favour of the general capabilities of large language models and in favour of the continued place for specialised models trained and deployed for specific domains.
翻訳日:2024-06-13 16:55:44 公開日:2024-06-12
# 連続偽メディア検出:新しい生成技術にディープフェイク検出器を適応させる

Continuous fake media detection: adapting deepfake detectors to new generative techniques ( http://arxiv.org/abs/2406.08171v1 )

ライセンス: Link先を確認
Francesco Tassone, Luca Maiano, Irene Amerini, (参考訳) 生成技術は、これらの技術の誇大宣伝によって、驚くほど高い速度で進化し続けています。 この急速な進歩はディープフェイク検出器の適用を著しく制限し、科学界の多くの努力にもかかわらず、常に変化するコンテンツに対して十分な堅牢な性能を達成するのに苦労した。 本稿では,これらの制約に対処するため,2つの連続学習手法を偽メディアのショートシーケンスとロングシーケンスで解析する。 どちらのシーケンスも、GANから生成される複雑で異質なディープフェイク、コンピュータグラフィックス技術、未知のソースを含む。 本研究は,連続学習が一般化性の必要性を軽減する上で重要であることを示す。 実際、いくつかの制限はあるものの、連続的な学習手法はトレーニングシーケンス全体にわたって優れたパフォーマンスを維持するのに役立ちます。 しかし、これらのテクニックが十分に堅牢な方法で機能するには、シーケンス内のタスクが類似点を共有する必要がある。 実際、我々の実験によると、タスクの順序と類似性は、時間とともにモデルの性能に影響を与える可能性がある。 この問題に対処するために,タスクの類似性に基づいてタスクをグループ化することが可能であることを示す。 この小さな測度は、長いシーケンスでも顕著な改善を可能にする。 この結果は, 連続的手法を最も有望な検出手法と組み合わせることで, 最新の生成技術に追いつくことができることを示唆している。 さらに,この学習アプローチを,継続的インテグレーションと継続的デプロイメント(CI/CD)のためのディープフェイク検出パイプラインに統合する方法について,概説する。 これにより、ソーシャルネットワークや新しい生成ツール、サードパーティのデータセットなど、さまざまな資金の追跡や、継続的学習の統合によって、検出器の継続的なメンテナンスが可能になる。

Generative techniques continue to evolve at an impressively high rate, driven by the hype about these technologies. This rapid advancement severely limits the application of deepfake detectors, which, despite numerous efforts by the scientific community, struggle to achieve sufficiently robust performance against the ever-changing content. To address these limitations, in this paper, we propose an analysis of two continuous learning techniques on a Short and a Long sequence of fake media. Both sequences include a complex and heterogeneous range of deepfakes generated from GANs, computer graphics techniques, and unknown sources. Our study shows that continual learning could be important in mitigating the need for generalizability. In fact, we show that, although with some limitations, continual learning methods help to maintain good performance across the entire training sequence. For these techniques to work in a sufficiently robust way, however, it is necessary that the tasks in the sequence share similarities. In fact, according to our experiments, the order and similarity of the tasks can affect the performance of the models over time. To address this problem, we show that it is possible to group tasks based on their similarity. This small measure allows for a significant improvement even in longer sequences. This result suggests that continual techniques can be combined with the most promising detection methods, allowing them to catch up with the latest generative techniques. In addition to this, we propose an overview of how this learning approach can be integrated into a deepfake detection pipeline for continuous integration and continuous deployment (CI/CD). This allows you to keep track of different funds, such as social networks, new generative tools, or third-party datasets, and through the integration of continuous learning, allows constant maintenance of the detectors.
翻訳日:2024-06-13 16:55:44 公開日:2024-06-12
# 半教師付き音声言語グロシフィケーション

Semi-Supervised Spoken Language Glossification ( http://arxiv.org/abs/2406.08173v1 )

ライセンス: Link先を確認
Huijie Yao, Wengang Zhou, Hao Zhou, Houqiang Li, (参考訳) Spoken Language glossification (SLG) は、手話のテキストを手話のグロス、すなわち手話の記録に翻訳することを目的としている。 本稿では,SLGに対して$S$emi-$S$upervised$S$poken$L$anguage$G$lossification$S^3$LGというフレームワークを提案する。 SLGにおける限られた並列データのボトルネックに対処するため、S^3$LGは大規模単言語言語テキストをSLGトレーニングに組み込む。 提案するフレームワークは,擬似ラベルから繰り返し注釈を付け,学習する自己学習構造に従う。 S^3$LGは,手話と音声言語との語彙的類似性や構文的相違を考慮し,ルールに基づくヒューリスティックとモデルに基づく自動アノテーションの両アプローチを採用した。 トレーニング中、これらの補完的な合成データセットをランダムに混合し、それらの違いを特別なトークンでマークする。 合成データの品質が低下する可能性があるため、$S^3$LGはさらに整合正則化を活用して合成データにおけるノイズの負の影響を低減する。 S^3$LGの有効性を示すために、公開ベンチマークで大規模な実験を行った。 私たちのコードは \url{https://github.com/yaohj11/S3LG} で利用可能です。

Spoken language glossification (SLG) aims to translate the spoken language text into the sign language gloss, i.e., a written record of sign language. In this work, we present a framework named $S$emi-$S$upervised $S$poken $L$anguage $G$lossification ($S^3$LG) for SLG. To tackle the bottleneck of limited parallel data in SLG, our $S^3$LG incorporates large-scale monolingual spoken language text into SLG training. The proposed framework follows the self-training structure that iteratively annotates and learns from pseudo labels. Considering the lexical similarity and syntactic difference between sign language and spoken language, our $S^3$LG adopts both the rule-based heuristic and model-based approach for auto-annotation. During training, we randomly mix these complementary synthetic datasets and mark their differences with a special token. As the synthetic data may be less quality, the $S^3$LG further leverages consistency regularization to reduce the negative impact of noise in the synthetic data. Extensive experiments are conducted on public benchmarks to demonstrate the effectiveness of the $S^3$LG. Our code is available at \url{https://github.com/yaohj11/S3LG}.
翻訳日:2024-06-13 16:55:44 公開日:2024-06-12
# 室内環境における部分観測物体の再構成のためのカテゴリーレベルのニューラルネットワーク

Category-level Neural Field for Reconstruction of Partially Observed Objects in Indoor Environment ( http://arxiv.org/abs/2406.08176v1 )

ライセンス: Link先を確認
Taekbeom Lee, Youngseok Jang, H. Jin Kim, (参考訳) 神経暗黙の表現は、様々な成功例を通して3次元再構成において注目されている。 シーン理解や編集などのさらなる応用のために、いくつかの作品がオブジェクト構成の再構築に向けて進展している。 観察された領域での優れた性能にもかかわらず、その性能は部分的に観察される物体の再構成において制限されている。 この問題をよりよく扱うために、シーンに存在する同じカテゴリに属するオブジェクト間で有意義な共通3D情報を学習するカテゴリレベルのニューラルフィールドを導入する。 私たちのキーとなるアイデアは、観察された形状に基づいてオブジェクトを分類し、カテゴリレベルのモデルのより良いトレーニングを行うことです。 そして、このニューラルネットワークを利用して、光線に基づく不確実性によって選択された代表オブジェクトを選択し、整合させることにより、部分的に観察されたオブジェクトを登録する挑戦的なタスクを実行する。 シミュレーションと実世界のデータセットによる実験により,いくつかのカテゴリで観測されていない部分の再構成を改善することが実証された。

Neural implicit representation has attracted attention in 3D reconstruction through various success cases. For further applications such as scene understanding or editing, several works have shown progress towards object compositional reconstruction. Despite their superior performance in observed regions, their performance is still limited in reconstructing objects that are partially observed. To better treat this problem, we introduce category-level neural fields that learn meaningful common 3D information among objects belonging to the same category present in the scene. Our key idea is to subcategorize objects based on their observed shape for better training of the category-level model. Then we take advantage of the neural field to conduct the challenging task of registering partially observed objects by selecting and aligning against representative objects selected by ray-based uncertainty. Experiments on both simulation and real-world datasets demonstrate that our method improves the reconstruction of unobserved parts for several categories.
翻訳日:2024-06-13 16:55:44 公開日:2024-06-12
# 実世界の超解像のためのワンステップ有効拡散ネットワーク

One-Step Effective Diffusion Network for Real-World Image Super-Resolution ( http://arxiv.org/abs/2406.08177v1 )

ライセンス: Link先を確認
Rongyuan Wu, Lingchen Sun, Zhiyuan Ma, Lei Zhang, (参考訳) 事前訓練されたテキスト-画像拡散モデルは、その強力な生成画像先行により、現実の超解像(Real-ISR)問題に取り組むために、ますます採用されている。 既存の手法のほとんどはランダムノイズから始まり、与えられた低品質(LQ)画像の誘導の下で高品質(HQ)画像を再構成する。 有望な結果が得られたが、そのようなReal-ISR法はHQイメージを再現するために複数の拡散ステップを必要とし、計算コストを増大させる。 一方、ランダムノイズは出力の不確実性を導入し、画像復元作業には適さない。 これらの問題に対処するため、実ISR問題に対して1段階の効果的な拡散ネットワーク、すなわちOSEDiffを提案する。 我々は,LQ画像は本社を復元するための豊富な情報を含んでいるため,与えられたLQ画像を拡散開始点として直接捉えることができ,ランダムノイズサンプリングによる不確実性を排除できると主張している。 トレーニング可能な層で事前学習した拡散ネットワークを微調整し、複雑な画像劣化に適応する。 一段階拡散モデルによりHQ Real-ISR出力が得られることを保証するため,KL分散正則化を行うために潜時空間における変分点蒸留を適用した。 その結果,OSEDiffモデルでは,1つの拡散ステップでHQイメージを効率よく効率よく生成できることがわかった。 実験により,OSEDiffは,従来の拡散モデルに基づく実ISR法に比べて,客観的な測定値と主観的評価値の両方で,数十段階ないし数百段階のステップを必要とする場合と比較して,同等あるいはさらに優れた実ISR結果が得られることが示された。 ソースコードはhttps://github.com/cswry/OSEDiffで公開される。

The pre-trained text-to-image diffusion models have been increasingly employed to tackle the real-world image super-resolution (Real-ISR) problem due to their powerful generative image priors. Most of the existing methods start from random noise to reconstruct the high-quality (HQ) image under the guidance of the given low-quality (LQ) image. While promising results have been achieved, such Real- ISR methods require multiple diffusion steps to reproduce the HQ image, increasing the computational cost. Meanwhile, the random noise introduces uncertainty in the output, which is unfriendly to image restoration tasks. To address these issues, we propose a one-step effective diffusion network, namely OSEDiff, for the Real- ISR problem. We argue that the LQ image contains rich information to restore its HQ counterpart, and hence the given LQ image can be directly taken as the starting point for diffusion, eliminating the uncertainty introduced by random noise sampling. We finetune the pre-trained diffusion network with trainable layers to adapt it to complex image degradations. To ensure that the one-step diffusion model could yield HQ Real-ISR output, we apply variational score distillation in the latent space to conduct KL-divergence regularization. As a result, our OSEDiff model can efficiently and effectively generate HQ images in just one diffusion step. Our experiments demonstrate that OSEDiff achieves comparable or even better Real-ISR results, in terms of both objective metrics and subjective evaluations, than previous diffusion model based Real-ISR methods that require dozens or hundreds of steps. The source codes will be released at https://github.com/cswry/OSEDiff.
翻訳日:2024-06-13 16:55:44 公開日:2024-06-12
# 抑うつ予測のためのLSMにおける定量的・質的ジェンダーフェアネス

Underneath the Numbers: Quantitative and Qualitative Gender Fairness in LLMs for Depression Prediction ( http://arxiv.org/abs/2406.08183v1 )

ライセンス: Link先を確認
Micol Spitale, Jiaee Cheong, Hatice Gunes, (参考訳) 近年の研究では、抑うつ検出のための多くの機械学習モデルに偏りがあるが、このタスクのLCMの偏りは未解明のままである。 本研究は,既存のLCM (ChatGPT, LLaMA 2, Bard) における性差の量的および質的アプローチを用いて, 性別バイアスの程度を調査するための最初の試みである。 定量的評価の結果,ChatGPTは様々なパフォーマンス指標で最高の性能を示し,LLaMA 2はグループフェアネス指標で他のLCMよりも優れていた。 質的公正度評価はオープンな研究課題として残り、質的公正度評価が定量的評価の可能な範囲を超えてバイアス分析に有意義な洞察を与えるかどうかを調査するためのいくつかの戦略(言葉数、テーマ分析など)を提案する。 LLaMA 2と比べて、ChatGPTはより包括的で、合理的な予測を提供する。 また,ジェンダーフェアネスを質的に評価するために,LLMが採用するテーマをいくつか挙げた。 今後,LLMの公平性の質的評価,特に抑うつ検出などの高精細なタスクの質的評価を行おうとする試みとして,本研究の成果が期待できる。

Recent studies show bias in many machine learning models for depression detection, but bias in LLMs for this task remains unexplored. This work presents the first attempt to investigate the degree of gender bias present in existing LLMs (ChatGPT, LLaMA 2, and Bard) using both quantitative and qualitative approaches. From our quantitative evaluation, we found that ChatGPT performs the best across various performance metrics and LLaMA 2 outperforms other LLMs in terms of group fairness metrics. As qualitative fairness evaluation remains an open research question we propose several strategies (e.g., word count, thematic analysis) to investigate whether and how a qualitative evaluation can provide valuable insights for bias analysis beyond what is possible with quantitative evaluation. We found that ChatGPT consistently provides a more comprehensive, well-reasoned explanation for its prediction compared to LLaMA 2. We have also identified several themes adopted by LLMs to qualitatively evaluate gender fairness. We hope our results can be used as a stepping stone towards future attempts at improving qualitative evaluation of fairness for LLMs especially for high-stakes tasks such as depression detection.
翻訳日:2024-06-13 16:55:44 公開日:2024-06-12
# MobileAgentBench: モバイルLLMエージェントの効率的でユーザフレンドリーなベンチマーク

MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents ( http://arxiv.org/abs/2406.08184v1 )

ライセンス: Link先を確認
Luyuan Wang, Yongyu Deng, Yiwei Zha, Guodong Mao, Qinmin Wang, Tianchen Min, Wei Chen, Shoufa Chen, (参考訳) 大規模言語モデル(LLM)ベースのモバイルエージェントは、携帯電話のグラフィカルユーザインタフェース(GUI)と直接対話する能力と、日々のタスクを自律的に管理する能力によって、ますます人気が高まっている。 学術分野でも産業分野でも有望な見通しにもかかわらず、既存のモバイルエージェントのパフォーマンスをベンチマークする研究はほとんど行われていない。 この課題に対処するために,大規模な手動テストの負担を軽減するために設計された,効率的でユーザフレンドリなベンチマークMobileAgentBenchを提案する。 最初は10のオープンソースアプリケーションに100のタスクを定義しました。 その後、AppAgentやMobileAgentなどの既存のモバイルエージェントを評価し、その性能を徹底的に体系的に比較する。 すべての資料がプロジェクトのWebページでアクセス可能である。 https://MobileAgentBench.github.ioは、学術および工業の分野の発展に寄与している。

Large language model (LLM)-based mobile agents are increasingly popular due to their capability to interact directly with mobile phone Graphic User Interfaces (GUIs) and their potential to autonomously manage daily tasks. Despite their promising prospects in both academic and industrial sectors, little research has focused on benchmarking the performance of existing mobile agents, due to the inexhaustible states of apps and the vague definition of feasible action sequences. To address this challenge, we propose an efficient and user-friendly benchmark, MobileAgentBench, designed to alleviate the burden of extensive manual testing. We initially define 100 tasks across 10 open-source apps, categorized by multiple levels of difficulty. Subsequently, we evaluate several existing mobile agents, including AppAgent and MobileAgent, to thoroughly and systematically compare their performance. All materials are accessible on our project webpage: https://MobileAgentBench.github.io, contributing to the advancement of both academic and industrial fields.
翻訳日:2024-06-13 16:55:44 公開日:2024-06-12
# Hiperwalk:不均一な高性能計算による量子ウォークのシミュレーション

Hiperwalk: Simulation of Quantum Walks with Heterogeneous High-Performance Computing ( http://arxiv.org/abs/2406.08186v1 )

ライセンス: Link先を確認
Paulo Motta, Gustavo A. Bezerra, Anderson F. P. Santos, Renato Portugal, (参考訳) Hiperwalkパッケージは、CPU、GPU、アクセラレーションカードなどの様々なプロセッサの並列処理能力を生かして、異種高速コンピューティングを用いた量子ウォークのシミュレーションを容易にするように設計されている。 このパッケージは、連続時間と離散時間の両方の量子ウォークモデルのシミュレーションを可能にし、大きなグラフ上の量子システムの振る舞いを効果的にモデル化する。 Hiperwalkは、ユーザフレンドリなPythonパッケージのフロントエンドと、効率的な線形代数計算のために並列コンピューティングを利用する高性能なCベースの内部コアを備えている。 この汎用的なツールは、量子ウォークの振る舞いをよりよく理解し、実装を最適化し、空間探索アルゴリズムを含む幅広い潜在的な応用を探索することを可能にする。

The Hiperwalk package is designed to facilitate the simulation of quantum walks using heterogeneous high-performance computing, taking advantage of the parallel processing power of diverse processors such as CPUs, GPUs, and acceleration cards. This package enables the simulation of both the continuous-time and discrete-time quantum walk models, effectively modeling the behavior of quantum systems on large graphs. Hiperwalk features a user-friendly Python package frontend with comprehensive documentation, as well as a high-performance C-based inner core that leverages parallel computing for efficient linear algebra calculations. This versatile tool empowers researchers to better understand quantum walk behavior, optimize implementation, and explore a wide range of potential applications, including spatial search algorithms.
翻訳日:2024-06-13 16:55:44 公開日:2024-06-12
# 時間連続フレームワークにおける流体状態補間と編集の注意に基づく学習

Attention-Based Learning for Fluid State Interpolation and Editing in a Time-Continuous Framework ( http://arxiv.org/abs/2406.08188v1 )

ライセンス: Link先を確認
Bruno Roy, (参考訳) 本研究では,連続時間フレームワーク内での流体補間のためのトランスフォーマーベースのアプローチであるFluidsFormerを紹介する。 PITTと残留ニューラルネットワーク(RNN)の機能を組み合わせることで,流体状態の物理的特性を解析的に予測する。 これにより、シミュレートされたキーフレーム間でサブステップフレームを補間し、時間的滑らかさとアニメーションのシャープさを高めることができる。 煙の補間に関する有望な結果を示し, 液体の初期実験を行った。

In this work, we introduce FluidsFormer: a transformer-based approach for fluid interpolation within a continuous-time framework. By combining the capabilities of PITT and a residual neural network (RNN), we analytically predict the physical properties of the fluid state. This enables us to interpolate substep frames between simulated keyframes, enhancing the temporal smoothness and sharpness of animations. We demonstrate promising results for smoke interpolation and conduct initial experiments on liquids.
翻訳日:2024-06-13 16:55:44 公開日:2024-06-12
# 2nd Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation

2nd Place Solution for MOSE Track in CVPR 2024 PVUW workshop: Complex Video Object Segmentation ( http://arxiv.org/abs/2406.08192v1 )

ライセンス: Link先を確認
Zhensong Xu, Jiangtao Yao, Chengjing Wu, Ting Liu, Luoqi Liu, (参考訳) 複雑なビデオオブジェクトのセグメンテーションは、ビデオ編集や自動データアノテーションなど、幅広い下流アプリケーションの基本的なタスクとして機能する。 ここでは,PVUW 2024のMOSEトラックにおける2位解について述べる。 MOSEにおける微小な物体、類似した物体、高速な動きによる問題を緩和する。 インスタンスセグメンテーションを使用して、MOSEの有効およびテストセットから追加の事前学習データを生成する。 セグメント化されたインスタンスは、COCOから抽出されたオブジェクトと組み合わせて、トレーニングデータを増強し、ベースラインモデルのセマンティック表現を強化する。 さらに、運動によって誘発される画像のぼかしに対する堅牢性を高めるために、トレーニング中に動きのぼかしが追加される。 最後に,テスト時間拡張(TTA)とメモリ戦略を推論段階に適用する。 PVUW 2024のMOSEトラックでは,$\mathcal{J}$0.8007,$\mathcal{F}$0.8683,$\mathcal{J}$\&$\mathcal{F}$0.8345で2位となった。

Complex video object segmentation serves as a fundamental task for a wide range of downstream applications such as video editing and automatic data annotation. Here we present the 2nd place solution in the MOSE track of PVUW 2024. To mitigate problems caused by tiny objects, similar objects and fast movements in MOSE. We use instance segmentation to generate extra pretraining data from the valid and test set of MOSE. The segmented instances are combined with objects extracted from COCO to augment the training data and enhance semantic representation of the baseline model. Besides, motion blur is added during training to increase robustness against image blur induced by motion. Finally, we apply test time augmentation (TTA) and memory strategy to the inference stage. Our method ranked 2nd in the MOSE track of PVUW 2024, with a $\mathcal{J}$ of 0.8007, a $\mathcal{F}$ of 0.8683 and a $\mathcal{J}$\&$\mathcal{F}$ of 0.8345.
翻訳日:2024-06-13 16:55:44 公開日:2024-06-12
# 最小通信コスト統計学習

Minimal Communication-Cost Statistical Learning ( http://arxiv.org/abs/2406.08193v1 )

ライセンス: Link先を確認
Milad Sefidgaran, Abdellatif Zaidi, Piotr Krasnowski, (参考訳) トレーニングデータサンプルに$n$をアクセス可能なクライアントデバイスは、統計的仮説またはモデル$W$を取得し、それをリモートサーバに送信する必要がある。 クライアントとサーバデバイスは、仮説空間の先行と同様に、いくつかの共通乱数列を共有している。 この場合、適切な仮説またはモデル$W$は2つの異なる設計基準を同時に満たすべきである。 一 推測期間中の少人数(人口)リスク及び (ii)最小の通信コストでサーバに転送する「複雑さ」が小さい。 本稿では,エンコーダの出力メッセージが期待されている場合の予測保証を証明可能なインエクスプロメーション保証付き共同トレーニングおよびソース符号化方式を提案する。 具体的には、圧縮学習モデルによって引き起こされる条件分布$\widehat{W}$とそれ以前の$W$との制約を課すことにより、同時に、平均経験的リスク(トレーニング損失)、平均一般化誤差、および最小平均通信コストが保証されることを示す。 また,各エンコーダの出力メッセージに対して,経験的リスクと一般化誤差の保証を求めるワンショットシナリオについても検討する。

A client device which has access to $n$ training data samples needs to obtain a statistical hypothesis or model $W$ and then to send it to a remote server. The client and the server devices share some common randomness sequence as well as a prior on the hypothesis space. In this problem a suitable hypothesis or model $W$ should meet two distinct design criteria simultaneously: (i) small (population) risk during the inference phase and (ii) small 'complexity' for it to be conveyed to the server with minimum communication cost. In this paper, we propose a joint training and source coding scheme with provable in-expectation guarantees, where the expectation is over the encoder's output message. Specifically, we show that by imposing a constraint on a suitable Kullback-Leibler divergence between the conditional distribution induced by a compressed learning model $\widehat{W}$ given $W$ and the prior, one guarantees simultaneously small average empirical risk (aka training loss), small average generalization error and small average communication cost. We also consider a one-shot scenario in which the guarantees on the empirical risk and generalization error are obtained for every encoder's output message.
翻訳日:2024-06-13 16:55:44 公開日:2024-06-12
# サプライチェーンセキュリティのためのソフトウェア署名に関する業界インタビュー研究

An Industry Interview Study of Software Signing for Supply Chain Security ( http://arxiv.org/abs/2406.08198v1 )

ライセンス: Link先を確認
Kelechi G. Kalu, Tanya Singla, Chinenye Okafor, Santiago Torres-Arias, James C. Davis, (参考訳) 多くのソフトウェア製品は、他のチームや外部からのコンポーネントの再帰的な統合によって構成されます。 ソフトウェア製品のサプライチェーンにおける追加リンクは、悪意のある振る舞いの注入のリスクを高める。 サプライチェーンの証明を改善するために、多くのサイバーセキュリティフレームワーク、標準および規制は、ソフトウェア署名の使用を推奨している。 しかし、最近の調査と測定の結果、ソフトウェアシグネチャの採用率と品質は低いことが判明した。 これらの発見は、ソフトウェア署名の実践的適用、採用に影響を与える人的要因、実装中に直面する課題に関する疑問を提起する。 私たちは、ソフトウェア署名の課題と実践について、深い業界観を欠いています。 実際にソフトウェア署名を理解するために、13の組織にまたがる18人の業界関係者にインタビューした。 私たちは、経験豊富なソフトウェアサプライチェーンの障害、セキュリティ標準、ソフトウェア署名の採用に関する規制の影響の可能性を提供します。 また,効率的なソフトウェア署名実装に影響を与える課題についても検討する。 1)ソフトウェアサプライチェーンファクトリモデルの改良モデル,(2)ソフトウェア署名の実施を妨げる技術的,組織的,人間的なさまざまな課題,(3)専門家が署名の重要性について意見が一致しないこと,(4)失敗事故や業界標準がソフトウェア署名やその他のセキュリティ手法の採用にどのように影響するかを報告する。 私たちの発見は,ソフトウェアサプライチェーンのセキュリティ管理を効果的に実施する上で,人的および組織的要因がソフトウェアサプライチェーンのリスクに与える影響を明らかにすることによって,ソフトウェアサプライチェーンのセキュリティの理解に寄与します。

Many software products are composed by the recursive integration of components from other teams or external parties. Each additional link in a software product's supply chain increases the risk of the injection of malicious behavior. To improve supply chain provenance, many cybersecurity frameworks, standards, and regulations recommend the use of software signing. However, recent surveys and measurement studies have found that the adoption rate and quality of software signatures are low. These findings raise questions about the practical application of software signing, the human factors influencing its adoption, and the challenges faced during its implementation. We lack in-depth industry perspectives on the challenges and practices of software signing. To understand software signing in practice, we interviewed 18 high-ranking industry practitioners across 13 organizations. We provide possible impacts of experienced software supply chain failures, security standards, and regulations on software signing adoption. We also study the challenges that affect an effective software signing implementation. To summarize our findings: (1) We present a refined model of the software supply chain factory model highlighting practitioner's signing practices; (2) We highlight the different challenges -- Technical, Organizational, and Human -- that hamper software signing implementation; (3) We report that expert subjects disagree on the importance of signing; (4) We describe how failure incidents and industry standards affect the adoption of software signing and other security techniques. Our findings contribute to the understanding of software supply chain security by highlighting the impact of human and organizational factors on Software Supply Chain risks and providing nuanced insights for effectively implementing Software Supply Chain security controls -- towards Software signing in practice.
翻訳日:2024-06-13 16:55:44 公開日:2024-06-12
# 話者埋め込みにおける対向的摂動を用いた非同期音声匿名化

Asynchronous Voice Anonymization Using Adversarial Perturbation On Speaker Embedding ( http://arxiv.org/abs/2406.08200v1 )

ライセンス: Link先を確認
Rui Wang, Liping Chen, Kong AiK Lee, Zhen-Hua Ling, (参考訳) 音声の匿名化は、音声信号における話者の音声を擬似話者の音声に置き換え、機械認識や人間の知覚から本来の音声属性を隠蔽することにより、プライバシーを守る技術として開発されている。 本稿では,人間の知覚を維持しながら,音声認識に対する音声特性の変化に着目した。 これを非同期音声匿名化と呼ぶ。 この目的のために、話者ゆがみ機構を組み込んだ音声生成フレームワークを用いて匿名化音声を生成する。 話者属性は、話者埋め込みに印加された対角摂動によって変更され、人間の知覚は摂動の強度を制御して保持される。 LibriSpeechデータセットで行った実験では、話者の属性は、その人の知覚が処理された発話の60.71%で保存されていることが判明した。

Voice anonymization has been developed as a technique for preserving privacy by replacing the speaker's voice in a speech signal with that of a pseudo-speaker, thereby obscuring the original voice attributes from machine recognition and human perception. In this paper, we focus on altering the voice attributes against machine recognition while retaining human perception. We referred to this as the asynchronous voice anonymization. To this end, a speech generation framework incorporating a speaker disentanglement mechanism is employed to generate the anonymized speech. The speaker attributes are altered through adversarial perturbation applied on the speaker embedding, while human perception is preserved by controlling the intensity of perturbation. Experiments conducted on the LibriSpeech dataset showed that the speaker attributes were obscured with their human perception preserved for 60.71% of the processed utterances.
翻訳日:2024-06-13 16:55:44 公開日:2024-06-12
# バランスの取れたコラボレーションを誘発する対話ゲーム

A Dialogue Game for Eliciting Balanced Collaboration ( http://arxiv.org/abs/2406.08202v1 )

ライセンス: Link先を確認
Isidora Jeknić, David Schlangen, Alexander Koller, (参考訳) 協調は人間の対話の不可欠な部分である。 典型的なタスク指向の対話ゲームは、参加者に非対称な役割を割り当て、協調や交渉において自然主義的な役割を引き出す能力を制限する。 プレイヤーがゴールステートを交渉しなければならない2Dオブジェクト配置ゲームである。 我々は,人間プレイヤーが様々な役割を担っていることを実証的に示し,バランスの取れた協調によってタスクのパフォーマンスが向上することを示した。 また,LLMベースのベースラインエージェントを用いて,ゲームの自動プレイが人工システムにとって興味深い課題であることを示す。

Collaboration is an integral part of human dialogue. Typical task-oriented dialogue games assign asymmetric roles to the participants, which limits their ability to elicit naturalistic role-taking in collaboration and its negotiation. We present a novel and simple online setup that favors balanced collaboration: a two-player 2D object placement game in which the players must negotiate the goal state themselves. We show empirically that human players exhibit a variety of role distributions, and that balanced collaboration improves task performance. We also present an LLM-based baseline agent which demonstrates that automatic playing of our game is an interesting challenge for artificial systems.
翻訳日:2024-06-13 16:55:44 公開日:2024-06-12
# 拡散促進型HDRビデオ再構成

Diffusion-Promoted HDR Video Reconstruction ( http://arxiv.org/abs/2406.08204v1 )

ライセンス: Link先を確認
Yuanshen Guan, Ruikang Xu, Mingde Yao, Ruisheng Gao, Lizhi Wang, Zhiwei Xiong, (参考訳) 高ダイナミックレンジ(HDR)ビデオ再構成は、低ダイナミックレンジ(LDR)フレームから交互に露出したHDRビデオを生成することを目的としている。 既存の作品の多くは回帰に基づくパラダイムにのみ依存しており、ゴーストのアーティファクトや飽和した地域での詳細の欠如といった悪影響につながっている。 本稿では,HDR-V-Diffと呼ばれるHDR映像再構成のための拡散促進手法を提案する。 そのため、HDR-V-Diffはゴースト・アーティファクトを緩和しつつ、リアルなディテールでHDRビデオを再構築することができる。 しかし、ビデオ拡散モデルの直接導入は、膨大な計算負担を課すことになる。 そこで我々はまず,HDRフレームの分布を学習するためのHDR遅延拡散モデル(HDR-LDM)を提案する。 具体的には、HDR-LDMは、HDRフレームを潜伏空間に圧縮するトネマッピング戦略と、拡散過程に露出情報を集約する新しい露光埋め込みとを具備する。 次に,HDR-LDMの補完として時間情報を学習するためのTCAMを提案する。 最後に,ZiCA(Zero-Init Cross-Attention)機構を設計し,HDRフレームを生成するための事前情報と時間情報を効果的に統合する。 大規模な実験により、HDR-V-Diffはいくつかの代表的なデータセットで最先端の結果が得られることが検証された。

High dynamic range (HDR) video reconstruction aims to generate HDR videos from low dynamic range (LDR) frames captured with alternating exposures. Most existing works solely rely on the regression-based paradigm, leading to adverse effects such as ghosting artifacts and missing details in saturated regions. In this paper, we propose a diffusion-promoted method for HDR video reconstruction, termed HDR-V-Diff, which incorporates a diffusion model to capture the HDR distribution. As such, HDR-V-Diff can reconstruct HDR videos with realistic details while alleviating ghosting artifacts. However, the direct introduction of video diffusion models would impose massive computational burden. Instead, to alleviate this burden, we first propose an HDR Latent Diffusion Model (HDR-LDM) to learn the distribution prior of single HDR frames. Specifically, HDR-LDM incorporates a tonemapping strategy to compress HDR frames into the latent space and a novel exposure embedding to aggregate the exposure information into the diffusion process. We then propose a Temporal-Consistent Alignment Module (TCAM) to learn the temporal information as a complement for HDR-LDM, which conducts coarse-to-fine feature alignment at different scales among video frames. Finally, we design a Zero-Init Cross-Attention (ZiCA) mechanism to effectively integrate the learned distribution prior and temporal information for generating HDR frames. Extensive experiments validate that HDR-V-Diff achieves state-of-the-art results on several representative datasets.
翻訳日:2024-06-13 16:46:00 公開日:2024-06-12
# ハギングフェイスについて何を知っているか : 体系的な文献レビューと質的クレームの定量的検証

What do we know about Hugging Face? A systematic literature review and quantitative validation of qualitative claims ( http://arxiv.org/abs/2406.08205v1 )

ライセンス: Link先を確認
Jason Jones, Wenxin Jiang, Nicholas Synovic, George K. Thiruvathukal, James C. Davis, (参考訳) 背景:SPR(Collaborative Software Package Registries)はソフトウェアサプライチェーンの不可欠な部分です。 多くのエンジニアリング作業はSPRパッケージをアプリケーションに合成する。 これまでの研究では、NPM(JavaScript)やPyPI(Python)といった従来のソフトウェア向けのSPRを調査してきた。 事前学習モデル(PTM)登録は、深層学習サプライチェーンをサポートするため、重要度の高いSPRの新たなクラスである。 Aims: 最近の実証研究は、脆弱性、再利用プロセス、進化などの方法で、PTMレジストリを調査しています。 しかし、現在の知識を体系的に理解するために、既存の研究がそれらを合成することはない。 現存する研究のいくつかは、定量分析を欠いた定性的な主張を含んでいる。 我々の研究は、知識合成と定量的分析を提供することで、これらのギャップを埋める。 方法:まず,系統的な文献レビュー(SLR)を行う。 そして、いくつかの主張が質的なものであることを観察する。 これらのクレームに関連する定量メトリクスを特定し、これらのクレームを裏付けるために測定する。 結果: 当社のSLRでは,HuggingFaceプラットフォーム上でのPTM再利用に関する12の主張を特定しました。 これらの主張のうち3つを定量的解析によって検証し、それらを従来のソフトウェアと直接比較することに成功した。 定量的な測定で定性的クレームを裏付ける結果が得られた。 その結果, (1) PTM は従来のソフトウェアよりもはるかに高いターンオーバー率を示し, PTM エコシステム内の動的かつ急速に進化する再利用環境を示し, (2) ドキュメントの品質と PTM の人気との間には強い相関関係があることがわかった。 結論: 定性研究の主張を具体的な指標で確認し, 定性研究とケーススタディ研究の先行支援を行う。 提案手法は, PTM の再利用, 研究インフラの活性化, 新たな対策のさらなるダイナミクスを示すものである。

Background: Collaborative Software Package Registries (SPRs) are an integral part of the software supply chain. Much engineering work synthesizes SPR package into applications. Prior research has examined SPRs for traditional software, such as NPM (JavaScript) and PyPI (Python). Pre-Trained Model (PTM) Registries are an emerging class of SPR of increasing importance, because they support the deep learning supply chain. Aims: Recent empirical research has examined PTM registries in ways such as vulnerabilities, reuse processes, and evolution. However, no existing research synthesizes them to provide a systematic understanding of the current knowledge. Some of the existing research includes qualitative claims lacking quantitative analysis. Our research fills these gaps by providing a knowledge synthesis and quantitative analyses. Methods: We first conduct a systematic literature review (SLR). We then observe that some of the claims are qualitative. We identify quantifiable metrics associated with those claims, and measure in order to substantiate these claims. Results: From our SLR, we identify 12 claims about PTM reuse on the HuggingFace platform, 4 of which lack quantitative validation. We successfully test 3 of these claims through a quantitative analysis, and directly compare one with traditional software. Our findings corroborate qualitative claims with quantitative measurements. Our findings are: (1) PTMs have a much higher turnover rate than traditional software, indicating a dynamic and rapidly evolving reuse environment within the PTM ecosystem; and (2) There is a strong correlation between documentation quality and PTM popularity. Conclusions: We confirm qualitative research claims with concrete metrics, supporting prior qualitative and case study research. Our measures show further dynamics of PTM reuse, inspiring research infrastructure and new measures.
翻訳日:2024-06-13 16:46:00 公開日:2024-06-12
# 利得源:条件付き平均線量応答推定における分解性能

Sources of Gain: Decomposing Performance in Conditional Average Dose Response Estimation ( http://arxiv.org/abs/2406.08206v1 )

ライセンス: Link先を確認
Christopher Bockel-Rickermann, Toon Vanderschueren, Tim Verdonck, Wouter Verbeke, (参考訳) 条件付き平均線量応答(CADR)の推定は重要であるが難しい問題である。 推定者は、共変量、介入、用量、結果の間の潜在的に複雑な関係を正しくモデル化する必要がある。 近年、機械学習コミュニティは特定の課題をターゲットにしたCADR推定器の開発に大きな関心を示している。 それらの性能は、通常、(半)合成ベンチマークデータセット上の他の方法と比較して評価される。 本稿では,この手法を解析し,さらなる分析を行わない一般的なベンチマークデータセットを用いることで,モデル性能を判断するには不十分であることを示す。 確立されたベンチマークは、影響を歪めなければならない複数の課題を伴います。 そこで本研究では,CADR推定器の性能に寄与する5つの異なる成分の影響を評価できる新しい分解手法を提案する。 このスキームを、広範に使用されている4つのベンチマークデータセット上の8つのCADR推定器に適用し、1500近い個別実験を実行する。 以上の結果から,既存のベンチマークはクリエーターの主張とは異なる理由で難しいことが判明した。 特に、ほとんどの推定者が取り組んだ重要な課題であるコンファウンディングは、考慮されたデータセットのいずれにおいても問題ではない。 本研究の意義と今後の方向性について論じる。

Estimating conditional average dose responses (CADR) is an important but challenging problem. Estimators must correctly model the potentially complex relationships between covariates, interventions, doses, and outcomes. In recent years, the machine learning community has shown great interest in developing tailored CADR estimators that target specific challenges. Their performance is typically evaluated against other methods on (semi-) synthetic benchmark datasets. Our paper analyses this practice and shows that using popular benchmark datasets without further analysis is insufficient to judge model performance. Established benchmarks entail multiple challenges, whose impacts must be disentangled. Therefore, we propose a novel decomposition scheme that allows the evaluation of the impact of five distinct components contributing to CADR estimator performance. We apply this scheme to eight popular CADR estimators on four widely-used benchmark datasets, running nearly 1,500 individual experiments. Our results reveal that most established benchmarks are challenging for reasons different from their creators' claims. Notably, confounding, the key challenge tackled by most estimators, is not an issue in any of the considered datasets. We discuss the major implications of our findings and present directions for future research.
翻訳日:2024-06-13 16:46:00 公開日:2024-06-12
# ASR N-Best Rescoringとリライトのためのトランスフォーマーベースモデル

Transformer-based Model for ASR N-Best Rescoring and Rewriting ( http://arxiv.org/abs/2406.08207v1 )

ライセンス: Link先を確認
Iwen E. Kang, Christophe Van Gysel, Man-Hung Siu, (参考訳) 音声アシスタントは、速度とプライバシーを確保するためにデバイス上の自動音声認識(ASR)をますます利用している。 しかし、デバイス上のリソース制約のため、複雑な情報領域に関連するクエリは、検索エンジンによるさらなる処理を必要とすることが多い。 そこで本研究では,N-best仮説の完全コンテキストを並列に探索することにより,書き換えと書き換えが可能なトランスフォーマーモデルを提案する。 また,リスコア処理とリライト処理の両方に有効である新たな識別シーケンストレーニング手法を提案する。 我々のRescore+RewriteモデルはRescoreのみのベースラインよりも優れており、平均8.6%の単語誤り率(WER)がASRシステムに対して単独で減少することを示す。

Voice assistants increasingly use on-device Automatic Speech Recognition (ASR) to ensure speed and privacy. However, due to resource constraints on the device, queries pertaining to complex information domains often require further processing by a search engine. For such applications, we propose a novel Transformer based model capable of rescoring and rewriting, by exploring full context of the N-best hypotheses in parallel. We also propose a new discriminative sequence training objective that can work well for both rescore and rewrite tasks. We show that our Rescore+Rewrite model outperforms the Rescore-only baseline, and achieves up to an average 8.6% relative Word Error Rate (WER) reduction over the ASR system by itself.
翻訳日:2024-06-13 16:46:00 公開日:2024-06-12
# 4H-SiC共振器アンテナにおける単一V2中心の蛍光増強

Fluorescence enhancement of single V2 centers in a 4H-SiC cavity antenna ( http://arxiv.org/abs/2406.08208v1 )

ライセンス: Link先を確認
Jonathan Körber, Jonah Heiler, Philipp Fuchs, Philipp Flad, Erik Hesselmeier, Pierre Kuna, Jawad Ul-Hassan, Wolfgang Knolle, Christoph Becher, Florian Kaiser, Jörg Wrachtrup, (参考訳) 固体量子エミッタは、本質的にスピン-光子界面を提供するため、分散量子技術の主要な候補である。 しかし、この分野で進行中の課題は、典型的なホスト材料の高屈折率による低光子抽出である。 この問題はフォトニック構造を用いて克服することができる。 本稿では、空洞型光アンテナにおけるV2中心の統合について報告する。 この構造は、平面キャビティとして機能する銀被覆135nm薄膜4H-SiC膜と、理論光子集光率34のブロードバンド共鳴からなる。 平面幾何学により、室温における20以上の単一のV2中心を、平均(最大)カウントレート向上係数9 (15)で同定することができる。 また,80MHz以下の平均吸収線幅を持つ10V2中心を低温下で観測した。 これらの結果は、側方エミッタ位置に対して頑健な光子コレクションの増強を示す。

Solid state quantum emitters are a prime candidate in distributed quantum technologies since they inherently provide a spin-photon interface. An ongoing challenge in the field, however, is the low photon extraction due to the high refractive index of typical host materials. This challenge can be overcome using photonic structures. Here, we report the integration of V2 centers in a cavity-based optical antenna. The structure consists of a silver-coated, 135 nm thin 4H-SiC membrane functioning as a planar cavity with a broadband resonance yielding a theoretical photon collection enhancement factor of 34. The planar geometry allows us to identify over 20 single V2 centers at room temperature with a mean (maximum) count rate enhancement factor of 9 (15). Moreover, we observe 10 V2 centers with a mean absorption linewidth below 80MHz at cryogenic temperatures. These results demonstrate a photon collection enhancement that is robust to the lateral emitter position.
翻訳日:2024-06-13 16:46:00 公開日:2024-06-12
# ワッサーシュタイン勾配流のフォワード・オイラー時差分法は誤りである可能性がある

Forward-Euler time-discretization for Wasserstein gradient flows can be wrong ( http://arxiv.org/abs/2406.08209v1 )

ライセンス: Link先を確認
Yewei Xu, Qin Li, (参考訳) 本稿では,ワッサーシュタイン勾配流のシミュレーションのための前方・前方離散化について検討する。 エネルギー汎関数がKL分散として定義されるような単純な場合であっても、この離散化の失敗を示す2つの反例を示す。 この失敗の簡単な説明も議論されている。

In this note, we examine the forward-Euler discretization for simulating Wasserstein gradient flows. We provide two counter-examples showcasing the failure of this discretization even for a simple case where the energy functional is defined as the KL divergence against some nicely structured probability densities. A simple explanation of this failure is also discussed.
翻訳日:2024-06-13 16:46:00 公開日:2024-06-12
# 表現性と一般化:分子GNNのためのフラグメントバイアス

Expressivity and Generalization: Fragment-Biases for Molecular GNNs ( http://arxiv.org/abs/2406.08210v1 )

ライセンス: Link先を確認
Tom Wollschläger, Niklas Kemper, Leon Hetzel, Johanna Sommer, Stephan Günnemann, (参考訳) 近年の高次グラフニューラルネットワーク(GNN)の進歩は、理論的表現性や分子特性予測性能を改善しているが、断片情報を帰納バイアスとして明示的に使用するモデルの経験的性能に欠けることが多い。 しかし、これらのアプローチに対して、理論的表現性の研究は存在しない。 本研究では,これらのフラグメントバイアスGNNの理論的解析を可能にする,有名なWeisfeiler & Leman(WL)テストの拡張であるFragment-WLテストを提案する。 Fragment-WLテストから得られた知見に基づいて、表現性を著しく向上させる無限語彙の断片化と新しいGNNアーキテクチャを開発した。 本モデルの有効性は,全GNNをPeptides上で上回り,ZINC上の全GNNよりも12%,他のフラグメントバイアスモデルよりも34%低い誤差を有する合成および実世界のデータに対して示す。 さらに,本モデルでは,最新のトランスフォーマーアーキテクチャよりも優れた一般化能力を示し,分子モデリングタスクの堅牢な解として位置づけている。

Although recent advances in higher-order Graph Neural Networks (GNNs) improve the theoretical expressiveness and molecular property predictive performance, they often fall short of the empirical performance of models that explicitly use fragment information as inductive bias. However, for these approaches, there exists no theoretic expressivity study. In this work, we propose the Fragment-WL test, an extension to the well-known Weisfeiler & Leman (WL) test, which enables the theoretic analysis of these fragment-biased GNNs. Building on the insights gained from the Fragment-WL test, we develop a new GNN architecture and a fragmentation with infinite vocabulary that significantly boosts expressiveness. We show the effectiveness of our model on synthetic and real-world data where we outperform all GNNs on Peptides and have 12% lower error than all GNNs on ZINC and 34% lower error than other fragment-biased models. Furthermore, we show that our model exhibits superior generalization capabilities compared to the latest transformer-based architectures, positioning it as a robust solution for a range of molecular modeling tasks.
翻訳日:2024-06-13 16:46:00 公開日:2024-06-12
# 多体共役形状最適化を用いた固体量子ビットの準曲面光学インタフェースの設計

Designing metasurface optical interfaces for solid-state qubits using many-body adjoint shape optimization ( http://arxiv.org/abs/2406.08212v1 )

ライセンス: Link先を確認
Amelia R. Klein, Nader Engheta, Lee C. Bassett, (参考訳) 本稿では, 基本形状からなる地表面の逆設計に関する一般的な戦略について述べる。 私たちは、ダイヤモンドの窒素空洞センターから光を集め、衝突させる構造を設計するためにそれを使用します。 このような準曲面は、固体量子ビットのためのスケーラブルな光学インターフェースを構成し、光ファイバーへの効率的な光子カップリングを可能にし、自由空間の集光光学を排除している。 多体形状最適化戦略はトポロジー最適化の実際的な代替であり、高い性能を保ちながら、最適化全体を通して材料と製造の制約を明示的に強制する。 準曲面は他の固体量子ビットにも容易に適用でき、最適化法は加工に制約のあるフォトニック設計問題に広く適用できる。

We present a general strategy for the inverse design of metasurfaces composed of elementary shapes. We use it to design a structure that collects and collimates light from nitrogen-vacancy centers in diamond. Such metasurfaces constitute scalable optical interfaces for solid-state qubits, enabling efficient photon coupling into optical fibers and eliminating free-space collection optics. The many-body shape optimization strategy is a practical alternative to topology optimization that explicitly enforces material and fabrication constraints throughout the optimization, while still achieving high performance. The metasurface is easily adaptable to other solid-state qubits, and the optimization method is broadly applicable to fabrication-constrained photonic design problems.
翻訳日:2024-06-13 16:46:00 公開日:2024-06-12
# SumHiS:隠れた構造を持つ抽出的な要約

SumHiS: Extractive Summarization Exploiting Hidden Structure ( http://arxiv.org/abs/2406.08215v1 )

ライセンス: Link先を確認
Tikhonov Pavel, Anastasiya Ianina, Valentin Malykh, (参考訳) 抽出要約は、テキストの最も重要な部分をハイライトするタスクである。 そこで本研究では,テキストの隠れクラスタリング構造を用いて要約タスクを抽出する手法を提案する。 CNN/DailyMailの実験結果から,提案手法では抽出法と抽象法の両方よりも精度の高い要約が生成され,ROUGE-2測定値が従来の手法より10%以上高い結果が得られた。 さらに,テキストの隠れ構造をアスペクトとして解釈できることを示す。

Extractive summarization is a task of highlighting the most important parts of the text. We introduce a new approach to extractive summarization task using hidden clustering structure of the text. Experimental results on CNN/DailyMail demonstrate that our approach generates more accurate summaries than both extractive and abstractive methods, achieving state-of-the-art results in terms of ROUGE-2 metric exceeding the previous approaches by 10%. Additionally, we show that hidden structure of the text could be interpreted as aspects.
翻訳日:2024-06-13 16:46:00 公開日:2024-06-12
# 大規模言語モデルのテストに関するソフトウェア工学的視点:研究、実践、ツール、ベンチマーク

A Software Engineering Perspective on Testing Large Language Models: Research, Practice, Tools and Benchmarks ( http://arxiv.org/abs/2406.08216v1 )

ライセンス: Link先を確認
Sinclair Hudson, Sophia Jit, Boyue Caroline Hu, Marsha Chechik, (参考訳) 大規模言語モデル(LLM)は、スタンドアロンツールとしても、現在および将来のソフトウェアシステムのコンポーネントとしても、急速に普及しています。 LLMを2030年のハイテイクシステムや安全クリティカルシステムで使用するためには、厳格なテストを実施する必要がある。 機械学習(ML)コンポーネントのテストとMLベースのシステムに関するソフトウェア工学(SE)の研究は、テスト入力生成や堅牢性など、多くのトピックを体系的に調査してきた。 LLMテストに関連するツール、ベンチマーク、研究、実践的な見解に関する知識も同様に組織化する必要があると考えています。 そこで本研究では,LLM テストのトピックの分類について紹介し,研究の最先端および実践的アプローチ,オープンソースツール,および LLM テストのベンチマークに関する予備的な研究を行い,その結果を本分類にマッピングする。 我々のゴールは、より多くの研究とエンジニアリングの努力を必要とするギャップを特定し、LLM実践者とSE研究コミュニティとのコミュニケーションをより明確にすることです。

Large Language Models (LLMs) are rapidly becoming ubiquitous both as stand-alone tools and as components of current and future software systems. To enable usage of LLMs in the high-stake or safety-critical systems of 2030, they need to undergo rigorous testing. Software Engineering (SE) research on testing Machine Learning (ML) components and ML-based systems has systematically explored many topics such as test input generation and robustness. We believe knowledge about tools, benchmarks, research and practitioner views related to LLM testing needs to be similarly organized. To this end, we present a taxonomy of LLM testing topics and conduct preliminary studies of state of the art and practice approaches to research, open-source tools and benchmarks for LLM testing, mapping results onto this taxonomy. Our goal is to identify gaps requiring more research and engineering effort and inspire a clearer communication between LLM practitioners and the SE research community.
翻訳日:2024-06-13 16:46:00 公開日:2024-06-12
# 実行時凍結:マルチオーガン3Dセグメンテーションのための動的クラス損失

Runtime Freezing: Dynamic Class Loss for Multi-Organ 3D Segmentation ( http://arxiv.org/abs/2406.08217v1 )

ライセンス: Link先を確認
James Willoughby, Irina Voiculescu, (参考訳) セグメンテーションは多くの下流タスク、特に医療領域において重要な前処理ステップとなっている。 最近のセグメンテーションモデルの改善にもかかわらず、多くのセグメンテーションタスクは難しいままである。 複数の臓器を同時に分割する場合、ラベル付きデータの可用性が限られているだけでなく、クラス不均衡も困難である。 本研究では,高度不均衡なトレーニングデータの効果を軽減するために,クラスベースの動的損失戦略を提案する。 提案手法は, 課題のあるマルチクラス3次元腹部臓器データセットにおいて, セグメンテーション性能をいかに向上させるかを示す。

Segmentation has become a crucial pre-processing step to many refined downstream tasks, and particularly so in the medical domain. Even with recent improvements in segmentation models, many segmentation tasks remain difficult. When multiple organs are segmented simultaneously, difficulties are due not only to the limited availability of labelled data, but also to class imbalance. In this work we propose dynamic class-based loss strategies to mitigate the effects of highly imbalanced training data. We show how our approach improves segmentation performance on a challenging Multi-Class 3D Abdominal Organ dataset.
翻訳日:2024-06-13 16:46:00 公開日:2024-06-12
# フィギュラティブな言葉:マルチタスク・フィギュラティブ言語モデリングによるオーサリングの属性

Figuratively Speaking: Authorship Attribution via Multi-Task Figurative Language Modeling ( http://arxiv.org/abs/2406.08218v1 )

ライセンス: Link先を確認
Gregorios A Katsios, Ning Sa, Tomek Strzalkowski, (参考訳) 自然言語処理(NLP)タスクにおいて,テキスト中の言語機能(FL)の識別は重要であり,著者の意図する意味やニュアンスを理解することがコミュニケーションの成功の鍵となる。 同時に、様々なFLの特定のブレンドの使用は、単なる比喩や皮肉のような単一の構成物の使用よりも、作家のスタイルを最も正確に反映している。 したがって、FL機能はオーサリング属性(AA)タスクにおいて重要な役割を果たす可能性があると仮定する。 FL利用に基づくAAの計算研究は,本研究が初めてであると考えている。 そこで本研究では,テキスト中の複数のFL特徴を同時に検出するマルチタスク表現言語モデル(MFLM)を提案する。 我々は、複数のテストセットにわたる詳細な評価を通して、FL検出において、我々のモデルは、等しく、または、より優れた特別なバイナリモデルを実行する傾向があることを実証する。 次に,3つのデータセット上でのAAタスクに対する関節FL特徴の予測能力を評価し,MFLM埋め込みの統合により改善されたAA性能を観察した。

The identification of Figurative Language (FL) features in text is crucial for various Natural Language Processing (NLP) tasks, where understanding of the author's intended meaning and its nuances is key for successful communication. At the same time, the use of a specific blend of various FL forms most accurately reflects a writer's style, rather than the use of any single construct, such as just metaphors or irony. Thus, we postulate that FL features could play an important role in Authorship Attribution (AA) tasks. We believe that our is the first computational study of AA based on FL use. Accordingly, we propose a Multi-task Figurative Language Model (MFLM) that learns to detect multiple FL features in text at once. We demonstrate, through detailed evaluation across multiple test sets, that the our model tends to perform equally or outperform specialized binary models in FL detection. Subsequently, we evaluate the predictive capability of joint FL features towards the AA task on three datasets, observing improved AA performance through the integration of MFLM embeddings.
翻訳日:2024-06-13 16:46:00 公開日:2024-06-12
# 大規模言語モデルはニュースにおけるソフトウェア障害を解析できるか? FAILによるエンドツーエンドの自動パイプライン

Can Large Language Models Analyze Software Failures in the News? An End-to-End Automated Pipeline with FAIL ( http://arxiv.org/abs/2406.08221v1 )

ライセンス: Link先を確認
Dharun Anandayuvaraj, Matthew Campbell, Arav Tewari, James C. Davis, (参考訳) ソフトウェア障害はエンジニアリングの作業や標準、規制を知らせます。 例えば、Log4Jの脆弱性は、政府や業界がソフトウェアサプライチェーンの評価と確保に注意を向けた。 プライベートエンジニアリング記録へのアクセスは困難であるため、障害解析では、ニュースメディアによって報告される情報を使用する傾向がある。 しかし、この方向の先行研究は手作業による分析に依存している。 それは彼らの分析の規模を制限した。 コミュニティはそのような分析が幅広いニュースソースやインシデントを考慮できるような自動サポートを欠いている。 本稿では, このギャップを埋めるために, LLM (FAIL) を用いた故障解析システムを提案する。 FAILは、ニュースで報告されているように、ソフトウェア障害を収集し、分析し、要約する。 FAILは同じ事件を記述した記事をまとめる。 そして、既存の分類法を用いて、死後、欠陥、システム特性を分析します。 FAILをチューニングし,評価するために,31のソフトウェア障害を手作業で解析し,先行作業の手法に従った。 FAILは、ソフトウェア障害に関するニュースを収集するためのF1スコア90%、同じインシデントに関する記事をマージするためのV値0.98を達成し、失敗に関する事実の90%を抽出した。 2010年から2022年の間に11のプロバイダから合計137,427のニュース記事にFAILを適用しました。 FAILは4,184項目で報告された2457の障害を特定し分析した。 その結果,1) 大規模言語モデルでは, 失敗を記述したニュース記事の特定, 構造的分類に基づく分析, (2) 組織内および組織内における類似の障害の頻繁度, (3) ソフトウェア障害の結果の深刻度が過去10年間で増加していることがわかった。 FAILの完全なデータベースは、研究者、エンジニア、政策立案者がソフトウェア障害の多様性から学ぶことができる。

Software failures inform engineering work, standards, regulations. For example, the Log4J vulnerability brought government and industry attention to evaluating and securing software supply chains. Accessing private engineering records is difficult, so failure analyses tend to use information reported by the news media. However, prior works in this direction have relied on manual analysis. That has limited the scale of their analyses. The community lacks automated support to enable such analyses to consider a wide range of news sources and incidents. In this paper, we propose the Failure Analysis Investigation with LLMs (FAIL) system to fill this gap. FAIL collects, analyzes, and summarizes software failures as reported in the news. FAIL groups articles that describe the same incidents. It then analyzes incidents using existing taxonomies for postmortems, faults, and system characteristics. To tune and evaluate FAIL, we followed the methods of prior works by manually analyzing 31 software failures. FAIL achieved an F1 score of 90% for collecting news about software failures, a V-measure of 0.98 for merging articles reporting on the same incident, and extracted 90% of the facts about failures. We then applied FAIL to a total of 137,427 news articles from 11 providers published between 2010 and 2022. FAIL identified and analyzed 2457 distinct failures reported across 4,184 articles. Our findings include: (1) current generation of large language models are capable of identifying news articles that describe failures, and analyzing them according to structured taxonomies; (2) high recurrences of similar failures within organizations and across organizations; and (3) severity of the consequences of software failures have increased over the past decade. The full FAIL database is available so that researchers, engineers, and policymakers can learn from a diversity of software failures.
翻訳日:2024-06-13 16:46:00 公開日:2024-06-12
# コンピュータビジョンモデル評価のための社会技術レンズ:ジェンダーと感情の検知と推論を事例として

A Sociotechnical Lens for Evaluating Computer Vision Models: A Case Study on Detecting and Reasoning about Gender and Emotion ( http://arxiv.org/abs/2406.08222v1 )

ライセンス: Link先を確認
Sha Luo, Sang Jung Kim, Zening Duan, Kaiping Chen, (参考訳) コンピュータビジョン(CV)技術の進化途上において、画像中の性別と感情の自動検出と解釈は重要な研究領域である。 本稿では,CVモデルにおける社会的バイアスについて検討し,精度,リコール,精度といった従来の評価指標の限界を強調した。 これらの指標は、しばしば、流動的で文化的にニュアンスのある構成であるジェンダーと感情の複雑さを捉えるのに不足する。 本研究では,CVモデル評価のための社会工学的枠組みを提案する。 予防接種と気候変動に関連する5,570の画像のデータセットを用いて、DeepFaceやFERといった従来のモデルやGPT-4 Visionのような生成モデルなど、さまざまなCVモデルのパフォーマンスを実証的に比較した。 我々の分析では、画像のサブセットにおける性別と感情の表現を手動で検証し、ベンチマークとして機能させた。 GPT-4 Visionは、性別分類の技術的精度で他のモデルよりも優れているが、特にトランスジェンダーや非バイナリ・ペルソナに対する差別的偏見を示す。 さらに、モデルによる感情検出は肯定的な感情に大きく傾き、特に男性のペルソナによって引き起こされた女性のイメージと幸福を関連付けることに顕著な偏りがある。 これらの結果は,CVモデルの妥当性と差別バイアスに対処する,より包括的な評価基準の開発の必要性を浮き彫りにした。 提案フレームワークは,CVツールを批判的に評価するためのガイドラインを提供し,コミュニケーション研究への応用が倫理的かつ効果的であることを保証する。 この研究の重要な貢献は、社会工学的アプローチに重点を置いており、社会的善をサポートするCV技術と、それを持続させるよりもバイアスを軽減することを提唱している。

In the evolving landscape of computer vision (CV) technologies, the automatic detection and interpretation of gender and emotion in images is a critical area of study. This paper investigates social biases in CV models, emphasizing the limitations of traditional evaluation metrics such as precision, recall, and accuracy. These metrics often fall short in capturing the complexities of gender and emotion, which are fluid and culturally nuanced constructs. Our study proposes a sociotechnical framework for evaluating CV models, incorporating both technical performance measures and considerations of social fairness. Using a dataset of 5,570 images related to vaccination and climate change, we empirically compared the performance of various CV models, including traditional models like DeepFace and FER, and generative models like GPT-4 Vision. Our analysis involved manually validating the gender and emotional expressions in a subset of images to serve as benchmarks. Our findings reveal that while GPT-4 Vision outperforms other models in technical accuracy for gender classification, it exhibits discriminatory biases, particularly in response to transgender and non-binary personas. Furthermore, the model's emotion detection skew heavily towards positive emotions, with a notable bias towards associating female images with happiness, especially when prompted by male personas. These findings underscore the necessity of developing more comprehensive evaluation criteria that address both validity and discriminatory biases in CV models. Our proposed framework provides guidelines for researchers to critically assess CV tools, ensuring their application in communication research is both ethical and effective. The significant contribution of this study lies in its emphasis on a sociotechnical approach, advocating for CV technologies that support social good and mitigate biases rather than perpetuate them.
翻訳日:2024-06-13 16:46:00 公開日:2024-06-12
# 大規模言語モデルと知識グラフの相互作用に関する研究動向

Research Trends for the Interplay between Large Language Models and Knowledge Graphs ( http://arxiv.org/abs/2406.08223v1 )

ライセンス: Link先を確認
Hanieh Khorashadizadeh, Fatima Zahra Amara, Morteza Ezzabady, Frédéric Ieng, Sanju Tiwari, Nandana Mihindukulasooriya, Jinghua Groppe, Soror Sahri, Farah Benamara, Sven Groppe, (参考訳) 本稿では,Large Language Models(LLMs)とKGs(KGs)の相乗的関係について検討する。 本研究の目的は、KG質問回答、オントロジー生成、KG検証、およびLCMによるKG精度と一貫性の向上など、現在の研究におけるギャップに対処することである。 本稿は,KGに対する記述文と自然言語クエリ生成におけるLLMの役割について検討する。 LLMとKGの相互作用の分類、方法論の検証、協調的な使用法と潜在的なバイアスの調査を含む構造化された分析を通じて、LLMとKGの複合可能性に関する新たな洞察を提供する。 AIアプリケーションを改善するための相互作用の重要性を強調し、今後の研究方向性を概説する。

This survey investigates the synergistic relationship between Large Language Models (LLMs) and Knowledge Graphs (KGs), which is crucial for advancing AI's capabilities in understanding, reasoning, and language processing. It aims to address gaps in current research by exploring areas such as KG Question Answering, ontology generation, KG validation, and the enhancement of KG accuracy and consistency through LLMs. The paper further examines the roles of LLMs in generating descriptive texts and natural language queries for KGs. Through a structured analysis that includes categorizing LLM-KG interactions, examining methodologies, and investigating collaborative uses and potential biases, this study seeks to provide new insights into the combined potential of LLMs and KGs. It highlights the importance of their interaction for improving AI applications and outlines future research directions.
翻訳日:2024-06-13 16:46:00 公開日:2024-06-12
# DistilDoc:ビジュアルリッチなドキュメントアプリケーションのための知識蒸留

DistilDoc: Knowledge Distillation for Visually-Rich Document Applications ( http://arxiv.org/abs/2406.08226v1 )

ライセンス: Link先を確認
Jordy Van Landeghem, Subhajit Maity, Ayan Banerjee, Matthew Blaschko, Marie-Francine Moens, Josep Lladós, Sanket Biswas, (参考訳) 本研究では,文書レイアウト解析 (DLA) や文書画像分類 (DIC) など,視覚的にリッチなドキュメント (VRD) アプリケーションのための知識蒸留 (KD) について検討する。 VRDの研究はますます高度で面倒なモデルに依存しているが、モデル圧縮による効率の研究は無視されてきた。 そこで我々は,文書理解(DU)タスクにおけるよりリーンでパフォーマンスの高いモデルのためのKD実験手法を設計する。 我々は,異なるアーキテクチャ (ResNet, ViT, DiT) と容量 (ベース, 小型, 小型) のバックボーンから知識を抽出するためのKD戦略 (応答ベース, 機能ベース) を慎重に選択した。 教師と学生の知識ギャップに影響を与えるものについて検討し、いくつかの方法(適応プロジェクタを用いたバニラKD、MSE、SimKD)が、教師付き学生の訓練より一貫して優れていることを発見した。 さらに,ゼロショットレイアウト対応文書視覚質問応答(DocVQA)に基づく蒸留DLAモデルの共変量シフトとロバスト性を評価するために,下流タスク設定を設計する。 DLA-KD実験は、予測不能に下流のロバスト性に変換される大きなmAP知識ギャップをもたらし、よりセマンティックな文書レイアウトの認識をより効率的に得る方法を探る必要性を強調させる。

This work explores knowledge distillation (KD) for visually-rich document (VRD) applications such as document layout analysis (DLA) and document image classification (DIC). While VRD research is dependent on increasingly sophisticated and cumbersome models, the field has neglected to study efficiency via model compression. Here, we design a KD experimentation methodology for more lean, performant models on document understanding (DU) tasks that are integral within larger task pipelines. We carefully selected KD strategies (response-based, feature-based) for distilling knowledge to and from backbones with different architectures (ResNet, ViT, DiT) and capacities (base, small, tiny). We study what affects the teacher-student knowledge gap and find that some methods (tuned vanilla KD, MSE, SimKD with an apt projector) can consistently outperform supervised student training. Furthermore, we design downstream task setups to evaluate covariate shift and the robustness of distilled DLA models on zero-shot layout-aware document visual question answering (DocVQA). DLA-KD experiments result in a large mAP knowledge gap, which unpredictably translates to downstream robustness, accentuating the need to further explore how to efficiently obtain more semantic document layout awareness.
翻訳日:2024-06-13 16:36:08 公開日:2024-06-12
# ソフトウェア工学における定性データ分析:技術と指導指針

Qualitative Data Analysis in Software Engineering: Techniques and Teaching Insights ( http://arxiv.org/abs/2406.08228v1 )

ライセンス: Link先を確認
Christoph Treude, (参考訳) ソフトウェアリポジトリは、ソースコードコメント、コミットメッセージ、イシュー記述、ドキュメントなど、質的なアーティファクトの豊富なソースである。 これらのアーティファクトは、ソフトウェアリポジトリのマイニングに関する章で概説されているように、定量的手法によって分析されたときに、多くの興味深い洞察を提供する。 この章では、さまざまな定性的データ分析技術を用いて、これらのアーティファクトの解釈に焦点を移す。 質的コーディングは,教育目的だけでなく,研究成果の信頼性や深度向上にも不可欠である。 データ解釈における一貫性と精度を確保するため、コーディングガイドの戦略的設計とともに様々なコーディング手法について議論する。 この章では質的なデータ分析の品質保証についても論じており、信頼性、転送可能性、信頼性、確認可能性といった原則を強調している。 これらの原則は、発見が堅牢で、異なる文脈で一般化できることを保証するために不可欠である。 学習したベストプラクティスと教訓を共有することで、ソフトウェア工学の分野で厳密な質的研究を行うために必要なツールを、すべての読者に提供することを目指している。

Software repositories are rich sources of qualitative artifacts, including source code comments, commit messages, issue descriptions, and documentation. These artifacts offer many interesting insights when analyzed through quantitative methods, as outlined in the chapter on mining software repositories. This chapter shifts the focus towards interpreting these artifacts using various qualitative data analysis techniques. We introduce qualitative coding as an iterative process, which is crucial not only for educational purposes but also to enhance the credibility and depth of research findings. Various coding methods are discussed along with the strategic design of a coding guide to ensure consistency and accuracy in data interpretation. The chapter also discusses quality assurance in qualitative data analysis, emphasizing principles such as credibility, transferability, dependability, and confirmability. These principles are vital to ensure that the findings are robust and can be generalized in different contexts. By sharing best practices and lessons learned, we aim to equip all readers with the tools necessary to conduct rigorous qualitative research in the field of software engineering.
翻訳日:2024-06-13 16:36:08 公開日:2024-06-12
# GPT4Rec: ストリームレコメンデーションのためのグラフプロンプトチューニング

GPT4Rec: Graph Prompt Tuning for Streaming Recommendation ( http://arxiv.org/abs/2406.08229v1 )

ライセンス: Link先を確認
Peiyan Zhang, Yuchen Yan, Xi Zhang, Liying Kang, Chaozhuo Li, Feiran Huang, Senzhang Wang, Sunghun Kim, (参考訳) パーソナライズされたレコメンデーションシステムの領域では、ユーザの好みの進化と、新しいユーザやアイテムの継続的な流入に適応するという課題が最重要である。 従来のモデルは、通常静的なトレーニング-テストアプローチに依存し、これらの動的な要求に追従するのに苦労する。 ストリーミングレコメンデーション、特に連続グラフ学習は、新しいソリューションとして登場した。 しかし、この領域の既存の手法は、データプライバシの厳格な規制によってますます非現実的になっている履歴データ再生に依存しているか、過度に不安定な問題に効果的に対処できないか、あるいはモデルアイソレーションと拡張戦略に依存している。 このような問題に対処するため,GPT4Recというグラフプロンプトタニング方式でレコメンデーションをストリーミングする手法を提案する。 GPT4Recは、ユーザとイテムの相互作用グラフが進化していることを考慮し、まずグラフパターンを複数のビューに分割する。 GPT4Recは、異なるビューで特定のインタラクションパターンとリレーションシップを分離した後、軽量グラフプロンプトを使用して、ユーザ-テムグラフ内のさまざまなインタラクションパターン間でモデルを効率的にガイドする。 まず、ノードレベルのプロンプトを使用して、グラフ内の個々のノードの属性や特性の変化に適応するようにモデルを指示する。 第二に、構造レベルのプロンプトは、グラフ内の接続性や関係性のより広範なパターンに適応するモデルを導く。 最後に、ビューレベルのプロンプトは、複数の不整合ビューからの情報の集約を容易にするために革新的に設計されている。 これらのプロンプト設計により、GPT4Recはグラフの包括的な理解を合成し、ユーザとイテムの相互作用のすべての重要な側面が考慮され、効果的に統合されることを保証する。 4つの多様な実世界のデータセットに対する実験により,提案手法の有効性と有効性を示した。

In the realm of personalized recommender systems, the challenge of adapting to evolving user preferences and the continuous influx of new users and items is paramount. Conventional models, typically reliant on a static training-test approach, struggle to keep pace with these dynamic demands. Streaming recommendation, particularly through continual graph learning, has emerged as a novel solution. However, existing methods in this area either rely on historical data replay, which is increasingly impractical due to stringent data privacy regulations; or are inability to effectively address the over-stability issue; or depend on model-isolation and expansion strategies. To tackle these difficulties, we present GPT4Rec, a Graph Prompt Tuning method for streaming Recommendation. Given the evolving user-item interaction graph, GPT4Rec first disentangles the graph patterns into multiple views. After isolating specific interaction patterns and relationships in different views, GPT4Rec utilizes lightweight graph prompts to efficiently guide the model across varying interaction patterns within the user-item graph. Firstly, node-level prompts are employed to instruct the model to adapt to changes in the attributes or properties of individual nodes within the graph. Secondly, structure-level prompts guide the model in adapting to broader patterns of connectivity and relationships within the graph. Finally, view-level prompts are innovatively designed to facilitate the aggregation of information from multiple disentangled views. These prompt designs allow GPT4Rec to synthesize a comprehensive understanding of the graph, ensuring that all vital aspects of the user-item interactions are considered and effectively integrated. Experiments on four diverse real-world datasets demonstrate the effectiveness and efficiency of our proposal.
翻訳日:2024-06-13 16:36:08 公開日:2024-06-12
# 深層畳み込みニューラルネットワークによるビデオゲームのレンダリンググリッチの検出

Using Deep Convolutional Neural Networks to Detect Rendered Glitches in Video Games ( http://arxiv.org/abs/2406.08231v1 )

ライセンス: Link先を確認
Carlos Garcia Ling, Konrad Tollmar, Linus Gisslen, (参考訳) 本稿では,Deep Convolutional Neural Networks (DCNN) を用いて,ビデオゲームにおける共通グリップを検出する手法を提案する。 問題設定は、入力としてイメージ(800×800 RGB)を5つの定義されたクラスのうちの1つ、通常画像、または4種類のグリッチ(ストレッチ、低解像度、欠落、プレースホルダーのテクスチャ)の1つに分類する。 教師付きアプローチを用いて、生成されたデータを使ってShuffleNetV2をトレーニングする。 本研究は,86.8\%の精度でテクスチャの異常を検出すること,8.7\%の偽陽性率でグリッチの88\%を検知すること,および,未知の物体においてもグリッチの一般化と検出が可能なモデルに焦点を当てた。 本研究は, 偽陽性問題に対処するための信頼度測定と, 画像のアグリゲーションを効果的に行い, 製造時の検出精度の向上を図ることを目的とする。 この研究の主な用途は、ビデオゲーム開発の最終段階におけるグラフィカルテストの部分的自動化である。

In this paper, we present a method using Deep Convolutional Neural Networks (DCNNs) to detect common glitches in video games. The problem setting consists of an image (800x800 RGB) as input to be classified into one of five defined classes, normal image, or one of four different kinds of glitches (stretched, low resolution, missing and placeholder textures). Using a supervised approach, we train a ShuffleNetV2 using generated data. This work focuses on detecting texture graphical anomalies achieving arguably good performance with an accuracy of 86.8\%, detecting 88\% of the glitches with a false positive rate of 8.7\%, and with the models being able to generalize and detect glitches even in unseen objects. We apply a confidence measure as well to tackle the issue with false positives as well as an effective way of aggregating images to achieve better detection in production. The main use of this work is the partial automatization of graphical testing in the final stages of video game development.
翻訳日:2024-06-13 16:36:08 公開日:2024-06-12
# OpenCOLE: 再現可能なグラフィカルデザイン生成を目指して

OpenCOLE: Towards Reproducible Automatic Graphic Design Generation ( http://arxiv.org/abs/2406.08232v1 )

ライセンス: Link先を確認
Naoto Inoue, Kento Masui, Wataru Shimoda, Kota Yamaguchi, (参考訳) 近年,グラフィックデザインの自動生成が注目されている。 しかし、最先端のアプローチは複雑で、プロプライエタリなデータセットに依存しており、再現性障壁を生み出している。 本稿では、OpenCOLEと呼ばれる自動グラフィックデザインのためのオープンフレームワークを提案し、先駆的なCOLEの修正版を構築し、公開データセットにのみモデルをトレーニングする。 GPT4Vの評価に基づいて,本モデルでは元のCOLEに匹敵する有望な性能を示す。 パイプラインをリリースし、その結果をトレーニングして、オープンな開発を奨励します。

Automatic generation of graphic designs has recently received considerable attention. However, the state-of-the-art approaches are complex and rely on proprietary datasets, which creates reproducibility barriers. In this paper, we propose an open framework for automatic graphic design called OpenCOLE, where we build a modified version of the pioneering COLE and train our model exclusively on publicly available datasets. Based on GPT4V evaluations, our model shows promising performance comparable to the original COLE. We release the pipeline and training results to encourage open development.
翻訳日:2024-06-13 16:36:08 公開日:2024-06-12
# MaIL: Mambaによる模倣学習の改善

MaIL: Improving Imitation Learning with Mamba ( http://arxiv.org/abs/2406.08234v1 )

ライセンス: Link先を確認
Xiaogang Jia, Qian Wang, Atalay Donat, Bowen Xing, Ge Li, Hongyi Zhou, Onur Celik, Denis Blessing, Rudolf Lioutikov, Gerhard Neumann, (参考訳) 本研究は,新しい模倣学習(IL)アーキテクチャであるMamba Imitation Learning(MaIL)を紹介する。 トランスフォーマーベースのポリシーは、本質的に非マルコフ的な振る舞いを持つ人間の記録データを扱う能力により、顕著な成果を上げている。 しかし、彼らの高いパフォーマンスは、効果的なトレーニングを複雑にする大きなモデルの欠点によってもたらされる。 状態空間モデル(SSM)はその効率性で知られているが、トランスフォーマーの性能に匹敵することはなかった。 Mambaは、Transformersに対するSSMやライバルのパフォーマンスを大幅に改善し、ILポリシーの魅力的な代替品として位置づけている。 MaILは、Mambaをバックボーンとして活用し、エンコーダ-デコーダ構造でMambaを使用するフォーマリズムを導入している。 この形式主義は、スタンドアロンのポリシーとして、あるいは拡散過程におけるディフューザのようなより高度なアーキテクチャの一部として使用することができる、汎用的なアーキテクチャである。 LIBERO ILベンチマークの大規模評価と3つの実ロボット実験により,MaILは以下の結果を得た。 i)全てのLIBEROタスクにおいてトランスフォーマーを上回っます。 二 小さいデータセットであっても、良好な性能を達成すること。 三 マルチモーダル感覚入力を効果的に処理することができること。 iv) トランスフォーマーに比べて入力ノイズに強い。

This work introduces Mamba Imitation Learning (MaIL), a novel imitation learning (IL) architecture that offers a computationally efficient alternative to state-of-the-art (SoTA) Transformer policies. Transformer-based policies have achieved remarkable results due to their ability in handling human-recorded data with inherently non-Markovian behavior. However, their high performance comes with the drawback of large models that complicate effective training. While state space models (SSMs) have been known for their efficiency, they were not able to match the performance of Transformers. Mamba significantly improves the performance of SSMs and rivals against Transformers, positioning it as an appealing alternative for IL policies. MaIL leverages Mamba as a backbone and introduces a formalism that allows using Mamba in the encoder-decoder structure. This formalism makes it a versatile architecture that can be used as a standalone policy or as part of a more advanced architecture, such as a diffuser in the diffusion process. Extensive evaluations on the LIBERO IL benchmark and three real robot experiments show that MaIL: i) outperforms Transformers in all LIBERO tasks, ii) achieves good performance even with small datasets, iii) is able to effectively process multi-modal sensory inputs, iv) is more robust to input noise compared to Transformers.
翻訳日:2024-06-13 16:36:08 公開日:2024-06-12
# 適応的オフライン-オンライン強化学習のための残留学習と文脈符号化

Residual Learning and Context Encoding for Adaptive Offline-to-Online Reinforcement Learning ( http://arxiv.org/abs/2406.08238v1 )

ライセンス: Link先を確認
Mohammadreza Nakhaei, Aidan Scannell, Joni Pajarinen, (参考訳) オフライン強化学習(RL)は、固定データセットからシーケンシャルな振る舞いを学習することを可能にする。 オフラインデータセットは、すべての可能な状況をカバーするものではないため、多くのメソッドは、オンラインの微調整中に追加のデータを収集し、パフォーマンスを向上させる。 一般に、これらの手法は、オフラインおよびオンライン両方のトレーニングフェーズにおいて、遷移ダイナミクスが同じである、と仮定する。 しかし、屋外建設や荒地でのナビゲーションのような現実世界の多くのアプリケーションでは、遷移ダイナミクスはオフラインとオンラインのフェーズの間で変化することが一般的である。 さらに、オンラインの微調整中にダイナミクスが変わることもある。 オフラインからオンラインRLへの動的変更の問題に対処するために,動的変更を推論してオフラインソリューションの出力を補正する残差学習手法を提案する。 オンラインファインチューニングフェーズでは、コンテキストエンコーダをトレーニングして、動的移行を予測しながら、現在のオンライン学習環境内で一貫性のある表現を学ぶ。 D4RL MuJoCo環境において, 環境リセット時の動的変化に対応するために改良された実験により, 提案手法はこれらの動的変化に適応し, サンプル効率の悪い摂動に一般化できることを示し, 比較法は不可能である。

Offline reinforcement learning (RL) allows learning sequential behavior from fixed datasets. Since offline datasets do not cover all possible situations, many methods collect additional data during online fine-tuning to improve performance. In general, these methods assume that the transition dynamics remain the same during both the offline and online phases of training. However, in many real-world applications, such as outdoor construction and navigation over rough terrain, it is common for the transition dynamics to vary between the offline and online phases. Moreover, the dynamics may vary during the online fine-tuning. To address this problem of changing dynamics from offline to online RL we propose a residual learning approach that infers dynamics changes to correct the outputs of the offline solution. At the online fine-tuning phase, we train a context encoder to learn a representation that is consistent inside the current online learning environment while being able to predict dynamic transitions. Experiments in D4RL MuJoCo environments, modified to support dynamics' changes upon environment resets, show that our approach can adapt to these dynamic changes and generalize to unseen perturbations in a sample-efficient way, whilst comparison methods cannot.
翻訳日:2024-06-13 16:36:08 公開日:2024-06-12
# PTHelper: ペネトレーションテストプロセスをサポートするオープンソースツール

PTHelper: An open source tool to support the Penetration Testing process ( http://arxiv.org/abs/2406.08242v1 )

ライセンス: Link先を確認
Jacobo Casado de Gracia, Alfonso Sánchez-Macián, (参考訳) 攻撃的安全は企業や組織を守るための最先端の手段の1つである。 侵入テスト(英: pentesting)は、組織のセキュリティ姿勢を評価するために、これらの脆弱性を発見し、評価し、悪用するために設計された攻撃的セキュリティの分野である。 このプロセスは時間を要することが多く、テスト担当者が管理しなければならない情報の量も扱いにくい場合がある。 このプロジェクトは、ペンテストの自動化を解決するための実践的なアプローチを採用し、PTHelperと呼ばれる便利なツールを提案する。 このオープンソースのツールは、テストコミュニティが容易にアップグレードできるようにモジュール化された方法で設計されており、その目的を達成するために最先端のツールと人工知能を使用している。

Offensive security is one of the state of the art measures to protect enterprises and organizations. Penetration testing, broadly called pentesting, is a branch of offensive security designed to find, rate and exploit these vulnerabilities, in order to assess the security posture of an organization. This process is often time-consuming and the quantity of information that pentesters need to manage might also be difficult to handle. This project takes a practical approach to solve the automation of pentesting and proposes a usable tool, called PTHelper. This open-source tool has been designed in a modular way to be easily upgradable by the pentesting community, and uses state of the art tools and artificial intelligence to achieve its objective.
翻訳日:2024-06-13 16:36:08 公開日:2024-06-12
# Webストラップのための大規模言語モデルの活用

Leveraging Large Language Models for Web Scraping ( http://arxiv.org/abs/2406.08246v1 )

ライセンス: Link先を確認
Aman Ahluwalia, Suhrud Wani, (参考訳) 大きな言語モデル(LLM)は、人間のタスクを複製し、生産性を向上する素晴らしい能力を示す。 しかし,データ抽出への直接的応用は,事実の正確性よりも流速が優先され,特定の情報を操作する能力が制限されたことによる限界を呈している。 そこで本研究では,これらの制約を克服するために,事前学習したLLMの知識表現能力と,RAGモデルによって実現されたターゲット情報アクセスを活用し,言語生成用に設計されたRAGモデルの汎用的正確なデータスクレイピングレシピについて検討する。 よりモジュール的で解釈可能な方法で知識をキャプチャするために、我々は、潜在知識検索器を備えた事前訓練された言語モデルを使用し、大きなコーパスからドキュメントを検索し、出席できるようにする。 我々はRAGモデルアーキテクチャを活用し、3つのタスクでそれらの機能について詳細な分析を行った。 (i)HTML要素のセマンティック分類 (ii)効果的な理解のためのHTMLテキストのチャンク (iii)異なるLLMとランキングアルゴリズムの結果を比較した。 従来の研究はHTMLの理解と抽出のための専用アーキテクチャと訓練手順を開発してきたが、実効的なチャンキング、検索、ランキングアルゴリズムを付加した標準自然言語で事前訓練されたLLMは、非構造化テキストから複雑なデータを抽出する効率的なデータスクレイピングツールであることが証明された。 今後の研究の方向性には、提案されたRAGベースのデータ抽出フレームワークにおけるプロファイランストラッキングと動的知識更新の課題に対処することが含まれる。 これらの制限を克服することで、このアプローチは膨大なテキスト情報のリポジトリからのデータ抽出に革命をもたらす可能性を秘めている。

Large Language Models (LLMs) demonstrate remarkable capabilities in replicating human tasks and boosting productivity. However, their direct application for data extraction presents limitations due to a prioritisation of fluency over factual accuracy and a restricted ability to manipulate specific information. Therefore to overcome these limitations, this research leverages the knowledge representation power of pre-trained LLMs and the targeted information access enabled by RAG models, this research investigates a general-purpose accurate data scraping recipe for RAG models designed for language generation. To capture knowledge in a more modular and interpretable way, we use pre trained language models with a latent knowledge retriever, which allows the model to retrieve and attend over documents from a large corpus. We utilised RAG model architecture and did an in-depth analysis of their capabilities under three tasks: (i) Semantic Classification of HTML elements, (ii) Chunking HTML text for effective understanding, and (iii) comparing results from different LLMs and ranking algorithms. While previous work has developed dedicated architectures and training procedures for HTML understanding and extraction, we show that LLMs pre-trained on standard natural language with an addition of effective chunking, searching and ranking algorithms, can prove to be efficient data scraping tool to extract complex data from unstructured text. Future research directions include addressing the challenges of provenance tracking and dynamic knowledge updates within the proposed RAG-based data extraction framework. By overcoming these limitations, this approach holds the potential to revolutionise data extraction from vast repositories of textual information.
翻訳日:2024-06-13 16:36:08 公開日:2024-06-12
# インスタンスレベル拡張によるデータセットの強化

Dataset Enhancement with Instance-Level Augmentations ( http://arxiv.org/abs/2406.08249v1 )

ライセンス: Link先を確認
Orest Kupyn, Christian Rupprecht, (参考訳) 本稿では,事前学習した潜伏拡散モデルの広範な分布から知識を取り入れたデータセットの拡張手法を提案する。 データ拡張は通常、画像形成プロセスに関する帰納バイアスをトレーニング(例えば、翻訳、スケーリング、色の変化など)に組み込む。 ここでは、単純なピクセル変換を超えて、画像の一部をオブジェクトインスタンスのレベルで再描画することで、インスタンスレベルのデータ拡張の概念を導入します。 条件拡散モデルと深度とエッジマップ制御条件を組み合わせることで、シーン内の個々のオブジェクトをシームレスに再描画し、セグメンテーションや検出データセットに適用することができる。 データ拡張法として使用され、最先端の有能なオブジェクト検出、セマンティックセグメンテーション、オブジェクト検出モデルの性能と一般化を改善する。 すべてのプライバシに敏感なインスタンス(人、ナンバープレートなど)を再描画することで、この手法はデータ匿名化にも適用できる。 また、一般的なデータセット(COCO、Pascal VOC、DUTS)の完全な合成および匿名化拡張もリリースしています。

We present a method for expanding a dataset by incorporating knowledge from the wide distribution of pre-trained latent diffusion models. Data augmentations typically incorporate inductive biases about the image formation process into the training (e.g. translation, scaling, colour changes, etc.). Here, we go beyond simple pixel transformations and introduce the concept of instance-level data augmentation by repainting parts of the image at the level of object instances. The method combines a conditional diffusion model with depth and edge maps control conditioning to seamlessly repaint individual objects inside the scene, being applicable to any segmentation or detection dataset. Used as a data augmentation method, it improves the performance and generalization of the state-of-the-art salient object detection, semantic segmentation and object detection models. By redrawing all privacy-sensitive instances (people, license plates, etc.), the method is also applicable for data anonymization. We also release fully synthetic and anonymized expansions for popular datasets: COCO, Pascal VOC and DUTS.
翻訳日:2024-06-13 16:36:08 公開日:2024-06-12
# 低温原子集合体における量子記憶のための光誘起架空の磁場

Light-induced fictitious magnetic fields for quantum storage in cold atomic ensembles ( http://arxiv.org/abs/2406.08251v1 )

ライセンス: Link先を確認
Jianmin Wang, Liang Dong, Xingchang Wang, Zihan Zhou, Ying Zuo, Georgios A. Siviloglou, J. F. Chen, (参考訳) 本研究では, 低温原子アンサンブルにおける量子メモリの寿命を延ばすために, 光学的に生成した架空の磁場を利用できることを実証した。 偏光、空間プロファイル、時間波形などの交流スタークシフトの自由度はすべて、正確に制御することができる。 いくつかの実験サイクルにおける時間的変動と、低温の原子ガスに沿った空間的不均一性は光ビームによって補償されている。 量子記憶に架空の磁場を用いることの利点は、これらの磁場を合成できる速度と空間的精度にある。 我々の単純で汎用的な手法は、あらゆる原子種のコヒーレントパルスと単一光子貯蔵に広く応用できる。

In this work, we have demonstrated that optically generated fictitious magnetic fields can be utilized to extend the lifetime of quantum memories in cold atomic ensembles. All the degrees of freedom of an AC Stark shift such as polarization, spatial profile, and temporal waveform can be readily controlled in a precise manner. Temporal fluctuations over several experimental cycles, and spatial inhomogeneities along a cold atomic gas have been compensated by an optical beam. The advantage of the use of fictitious magnetic fields for quantum storage stems from the speed and spatial precision that these fields can be synthesized. Our simple and versatile technique can find widespread application in coherent pulse and single-photon storage in any atomic species.
翻訳日:2024-06-13 16:36:08 公開日:2024-06-12
# 高拡張性ブロックチェーンのための最適サイズシャーディングSMR

Sharding SMR with Optimal-size Shards for Highly Scalable Blockchains ( http://arxiv.org/abs/2406.08252v1 )

ライセンス: Link先を確認
Jianting Zhang, Zhongtang Luo, Raghavendra Ramesh, Aniket Kate, (参考訳) シャーディングは、ノードを複数のシャードに分割してトランザクションを並列に処理することで、ブロックチェーンのスケーラビリティを向上させることができる。 しかし、シャードのサイズとセキュリティのジレンマは、そのセキュリティがシャードの総数を制限するのに十分な大きさでなければならないため、ブロックチェーンのシャードは低並列性とスケーラビリティの低下を招いている。 本稿では、重要な観測に基づいてジレンマを解決するために設計された、最適にスケーラブルなブロックチェーンシャーディングアーキテクチャであるAreteについて述べる。 したがって、Areteの主な考え方は、ブロックチェーンのState Machine Replication(SMR)プロセス自体をシャーディングすることで、シャードのセキュリティのレジリエンス/閾値を改善することである。 まず、AreteはSMRの3つのステップを分離し、単一順序のシャードが順序付けタスクを実行し、複数の処理シャードが分散および実行タスクを実行します。 これにより、処理シャードがコンセンサスを実行できなくなり、処理シャード毎に最大半分の妥協ノードが確保される。 第2に、アレテはビザンチンの障害に対する安全と生活を別々に検討し、安全基準をさらに改善するとともに、一時的な生活違反を規制された方法で許容している。 より最適なサイズのシャードの作成とは別に、そのような分解されたSMRスキームは、トランザクション処理を完全に並列化するための新しい認証順序実行モデルを考案し、シャード化されたブロックチェーンシステムのパフォーマンスを大幅に改善することを可能にする。 私たちはAreteを実装し、地理的に分散したAWS環境で評価します。 以上の結果から,Areteはトランザクションスループットやクロスシャード確認のレイテンシにおいて,シャード内確認のレイテンシを損なうことなく,最先端のシャーディングプロトコルよりも優れていることが示された。

Sharding can enhance blockchain scalability by dividing nodes into multiple shards to handle transactions in parallel. However, the size-security dilemma where a shard must be large enough to ensure its security constrains the overall number of shards, rendering blockchain sharding low parallelism and poor scalability. This paper presents Arete, an optimally scalable blockchain sharding architecture designed to resolve the dilemma based on a key observation: higher (Byzantine) fault-resilient shards allow the creation of more secure shards. The main idea of Arete, therefore, is to improve the security resilience/threshold of shards by sharding the blockchain's State Machine Replication (SMR) process itself. First, Arete decouples the three steps in SMR, leading to a single ordering shard performing the ordering task and multiple processing shards performing the dispersing and execution tasks. This frees processing shards from running consensus, allowing up to half compromised nodes per processing shard. Second, Arete considers safety and liveness against Byzantine failures separately to improve the safety threshold further while tolerating temporary liveness violations in a controlled manner. Apart from the creation of more optimal-size shards, such a deconstructed SMR scheme also empowers us to devise a novel certify-order-execute model to fully parallelize transaction handling, thereby significantly improving the performance of sharded blockchain systems. We implement Arete and evaluate it on a geo-distributed AWS environment. Our results demonstrate that Arete outperforms the state-of-the-art sharding protocol in terms of transaction throughput and cross-shard confirmation latency without compromising on intra-shard confirmation latency.
翻訳日:2024-06-13 16:36:08 公開日:2024-06-12
# M3T:マルチモーダル文書レベル機械翻訳のためのベンチマークデータセット

M3T: A New Benchmark Dataset for Multi-Modal Document-Level Machine Translation ( http://arxiv.org/abs/2406.08255v1 )

ライセンス: Link先を確認
Benjamin Hsu, Xiaoyu Liu, Huayang Li, Yoshinari Fujinuma, Maria Nadejde, Xing Niu, Yair Kittenplon, Ron Litman, Raghavendra Pappagari, (参考訳) 文書翻訳はニューラルマシン翻訳(NMT)システムにとって課題となる。 ほとんどの文書レベルのNMTシステムは、文書からのテキストの完全抽出と正確な読み出し順序を前提として、厳密にキュレートされた文レベルの並列データに依存している。 これらのシステムは、ドキュメントレイアウトのような追加の視覚的手がかりを無視し、無関係とみなす傾向がある。 しかし、現実世界の文書はしばしばこれらの前提に反する複雑なテキストレイアウトを持っている。 光文字認識(OCR)やヒューリスティックルールから情報を抽出するとエラーが発生し、レイアウト(例、段落、ヘッダ)はテキストの遠い部分間の関係を伝達する。 この複雑さは、視覚的に情報を表す広く使われているPDF文書で特に顕著である。 本稿では, 半構造化文書の包括的な翻訳作業において, NMTシステム評価に適した新しいベンチマークデータセットであるM3Tを導入することにより, このギャップを解消する。 このデータセットは、文書レベルのNMTシステムにおける評価ギャップを埋めることを目的としており、現実世界のアプリケーションでリッチテキストレイアウトがもたらす課題を認識している。

Document translation poses a challenge for Neural Machine Translation (NMT) systems. Most document-level NMT systems rely on meticulously curated sentence-level parallel data, assuming flawless extraction of text from documents along with their precise reading order. These systems also tend to disregard additional visual cues such as the document layout, deeming it irrelevant. However, real-world documents often possess intricate text layouts that defy these assumptions. Extracting information from Optical Character Recognition (OCR) or heuristic rules can result in errors, and the layout (e.g., paragraphs, headers) may convey relationships between distant sections of text. This complexity is particularly evident in widely used PDF documents, which represent information visually. This paper addresses this gap by introducing M3T, a novel benchmark dataset tailored to evaluate NMT systems on the comprehensive task of translating semi-structured documents. This dataset aims to bridge the evaluation gap in document-level NMT systems, acknowledging the challenges posed by rich text layouts in real-world applications.
翻訳日:2024-06-13 16:36:08 公開日:2024-06-12
# ドープMagumdar-Ghoshモデルにおける創発性スピロン-ホロン・フェシュバッハ共鳴

Emergent spinon-holon Feshbach resonance in a doped Majumdar-Ghosh model ( http://arxiv.org/abs/2406.08264v1 )

ライセンス: Link先を確認
Simon M. Linsel, Ulrich Schollwöck, Annabelle Bohrdt, Fabian Grusdt, (参考訳) 実験的および数値解析により反強磁性体、特にフラストレーションやドープ系におけるリッチ物理が明らかになった。 Majumdar-Ghoshモデル(MG)は、磁気フラストレーションの結果、二量体化された一重項のスピン不規則基底状態が解析的に知られている。 本稿では、ドープMGモデルの単一ホール角分解光電子スペクトル(ARPES)について検討し、超低温分子で実験的にアクセス可能なスピンホール相互作用を導入する。 本研究では, ARPESスペクトルにおけるスピン-ホロン基底状態とスピン-ホロン分子状態とポラロンの明確なシグネチャを異なる磁化で報告する。 さらに、スピンとホロンの非結合に関連する調整可能な相互作用を持つ創発性フェシュバッハ共鳴のシグネチャを見つける。 本研究は, ドパントの物理に関する新たな知見を, フラストレーション付き$t$-$J$モデルで提供し, 創発的な小体現象の研究のための新しいプラットフォームとして確立した。

Experimental and numerical spectroscopy have revealed rich physics in antiferromagnets, in particular in frustrated and doped systems. The Majumdar-Ghosh (MG) model has an analytically known spin-disordered ground state of dimerized singlets as a result of magnetic frustration. Here we study the single-hole angle-resolved photoemission spectrum (ARPES) of a doped MG model, where we introduce a spin-hole interaction that is experimentally accessible with ultracold molecules. We report a bound spinon-holon ground state and clear signatures of a spinon-holon molecule state and polarons in the ARPES spectrum at different magnetizations. Moreover, we find signatures of an emergent Feshbach resonance with tunable interactions associated with the unbinding of the spinon and the holon. Our results provide new insights into the physics of dopants in frustrated $t$-$J$ models and establish the latter as a new platform for studies of emergent few-body phenomena.
翻訳日:2024-06-13 16:36:08 公開日:2024-06-12
# スプリット・フェデレーションによる自己教師型学習の深化

A deep cut into Split Federated Self-supervised Learning ( http://arxiv.org/abs/2406.08267v1 )

ライセンス: Link先を確認
Marcin Przewięźlikowski, Marcin Osial, Bartosz Zieliński, Marek Śmieja, (参考訳) 協調型自己教師型学習は,クライアントデバイスと中央サーバ間のネットワーク層を分割することで,分散環境において実現可能になった。 しかし、MocoSFLのような最先端の手法は、初期層のネットワーク分割に最適化されており、クライアントデータの保護を減らし、通信オーバーヘッドを増大させる。 本稿では,分散トレーニングにおけるプライバシーとコミュニケーションの効率を維持するために,分割深度が重要であることを実証する。 また,MocoSFLは通信オーバーヘッドの最小化のために破滅的な品質劣化に悩まされていることも確認した。 本稿では,Momentum-Aligned contrastive Split Federated Learning (MonAcoSFL)について紹介する。 その結果,MonAcoSFLを現実のシナリオでより実用的なものにし,通信オーバヘッドを大幅に低減し,最先端の精度を実現することができた。

Collaborative self-supervised learning has recently become feasible in highly distributed environments by dividing the network layers between client devices and a central server. However, state-of-the-art methods, such as MocoSFL, are optimized for network division at the initial layers, which decreases the protection of the client data and increases communication overhead. In this paper, we demonstrate that splitting depth is crucial for maintaining privacy and communication efficiency in distributed training. We also show that MocoSFL suffers from a catastrophic quality deterioration for the minimal communication overhead. As a remedy, we introduce Momentum-Aligned contrastive Split Federated Learning (MonAcoSFL), which aligns online and momentum client models during training procedure. Consequently, we achieve state-of-the-art accuracy while significantly reducing the communication overhead, making MonAcoSFL more practical in real-world scenarios.
翻訳日:2024-06-13 16:36:08 公開日:2024-06-12
# PDFA学習による制約付きLLMの分析

Analyzing constrained LLM through PDFA-learning ( http://arxiv.org/abs/2406.08269v1 )

ライセンス: Link先を確認
Matías Carrasco, Franz Mayr, Sergio Yovine, Johny Kidd, Martín Iturbide, Juan Pedro da Silva, Alejo Garat, (参考訳) 我々は,言語モデルの出力がテキスト生成中に何らかの方法で制約されたときに発生する,ヌル次シンボル確率に対処する合同を定義する。 本研究は,LLMの統計特性を解析するためのケーススタディにおいて,このコングルーエンスに関する商を効率的に学習するアルゴリズムを開発し,評価する。

We define a congruence that copes with null next-symbol probabilities that arise when the output of a language model is constrained by some means during text generation. We develop an algorithm for efficiently learning the quotient with respect to this congruence and evaluate it on case studies for analyzing statistical properties of LLM.
翻訳日:2024-06-13 16:26:24 公開日:2024-06-12
# リレーショナル推論のための変換器における位置符号化初期化の重要性

The Importance of Positional Encoding Initialization in Transformers for Relational Reasoning ( http://arxiv.org/abs/2406.08272v1 )

ライセンス: Link先を確認
Takuya Ito, Luca Cocchi, Tim Klinger, Parikshit Ram, Murray Campbell, Luke Hearne, (参考訳) リレーショナル推論(Relational reasoning)とは、複数のエンティティ間の関係を推論し、理解する能力のこと。 人間では、この能力は問題解決や意思決定など多くの高度な認知機能を支えるものであり、流体知能と確実に結びついている。 自然言語処理やビジョンなど、さまざまな領域で顕著な進歩を遂げた機械学習モデルにもかかわらず、そのようなモデルがリレーショナル推論タスクを実行できる範囲は、まだ不明である。 本稿では、Transformerにおける関係推論における位置符号化(PE)の重要性について検討し、学習可能なPEが他の一般的なPE(例えば、絶対性、相対性、回転性など)よりも優れていることを示す。 さらに,PEを学習可能なパラメータで使用する場合,初期化の選択は学習した表現とその下流の一般化性能に大きな影響を及ぼすことがわかった。 具体的には,小ノルム分布から初期化した学習PEが可能であることを明らかにする。 1) 地筋位置情報を明らかにする。 2)雑音のある入力の存在を一般化し、 3)人間のパフォーマンスと整合した行動パターンを生み出す。 この結果から,関係推論タスクにおける高パフォーマンス・堅牢なPEの学習の重要性が示唆された。

Relational reasoning refers to the ability to infer and understand the relations between multiple entities. In humans, this ability underpins many higher cognitive functions, such as problem solving and decision-making, and has been reliably linked to fluid intelligence. Despite machine learning models making impressive advances across various domains, such as natural language processing and vision, the extent to which such models can perform relational reasoning tasks remains unclear. Here we study the importance of positional encoding (PE) for relational reasoning in the Transformer, and find that a learnable PE outperforms all other commonly-used PEs (e.g., absolute, relative, rotary, etc.). Moreover, we find that when using a PE with a learnable parameter, the choice of initialization greatly influences the learned representations and its downstream generalization performance. Specifically, we find that a learned PE initialized from a small-norm distribution can 1) uncover ground-truth position information, 2) generalize in the presence of noisy inputs, and 3) produce behavioral patterns that are consistent with human performance. Our results shed light on the importance of learning high-performing and robust PEs during relational reasoning tasks, which will prove useful for tasks in which ground truth positions are not provided or not known.
翻訳日:2024-06-13 16:26:24 公開日:2024-06-12
# トランスダクティブグラフオートエンコーダによるコンフォーマル負荷予測

Conformal Load Prediction with Transductive Graph Autoencoders ( http://arxiv.org/abs/2406.08281v1 )

ライセンス: Link先を確認
Rui Luo, Nicolo Colombo, (参考訳) グラフ上のエッジ重みの予測には、輸送システムからソーシャルネットワークまで、さまざまな応用がある。 本稿では,エッジウェイト予測のためのグラフニューラルネットワーク(GNN)アプローチについて述べる。 我々は、共形予測を利用してGNN出力を校正し、有効な予測間隔を生成する。 エラー再重み付けとCQR(Conformalized Quantile Regression)によって、データの異方性を扱う。 実世界の交通データセットにおけるベースライン手法と比較して,本手法の性能を比較した。 このアプローチは、すべてのベースラインよりもカバー範囲と効率性が良く、堅牢性と適応性を示します。

Predicting edge weights on graphs has various applications, from transportation systems to social networks. This paper describes a Graph Neural Network (GNN) approach for edge weight prediction with guaranteed coverage. We leverage conformal prediction to calibrate the GNN outputs and produce valid prediction intervals. We handle data heteroscedasticity through error reweighting and Conformalized Quantile Regression (CQR). We compare the performance of our method against baseline techniques on real-world transportation datasets. Our approach has better coverage and efficiency than all baselines and showcases robustness and adaptability.
翻訳日:2024-06-13 16:26:24 公開日:2024-06-12
# 属性正規化による心臓MRIの解釈型表現学習

Interpretable Representation Learning of Cardiac MRI via Attribute Regularization ( http://arxiv.org/abs/2406.08282v1 )

ライセンス: Link先を確認
Maxime Di Folco, Cosmin I. Bercea, Julia A. Schnabel, (参考訳) 臨床医が人工知能モデルの理解と信頼を確実にするためには、医療画像の解釈可能性が不可欠である。 最近では、その解釈可能性を高めるために、属性を潜在空間にエンコードするいくつかのアプローチが検討されている。 特に属性正規化は、潜在表現の次元に沿って属性のセットを符号化することを目的としている。 しかし、このアプローチは変分オートエンコーダに基づいており、ぼやけた再構築に悩まされている。 本稿では,分散正規化されたソフトイントロスペクティブ変分オートエンコーダを提案し,逆向きに訓練された変分オートエンコーダのフレームワーク内に潜時空間の属性正規化を組み合わせた。 本稿では,英国バイオバンクの短軸磁気共鳴画像を用いて,潜時空間の解釈性を維持しつつ,変動型オートエンコーダ法のぼやけた再構成問題に対処する手法を提案する。

Interpretability is essential in medical imaging to ensure that clinicians can comprehend and trust artificial intelligence models. Several approaches have been recently considered to encode attributes in the latent space to enhance its interpretability. Notably, attribute regularization aims to encode a set of attributes along the dimensions of a latent representation. However, this approach is based on Variational AutoEncoder and suffers from blurry reconstruction. In this paper, we propose an Attributed-regularized Soft Introspective Variational Autoencoder that combines attribute regularization of the latent space within the framework of an adversarially trained variational autoencoder. We demonstrate on short-axis cardiac Magnetic Resonance images of the UK Biobank the ability of the proposed method to address blurry reconstruction issues of variational autoencoder methods while preserving the latent space interpretability.
翻訳日:2024-06-13 16:26:24 公開日:2024-06-12
# 画像エッジ検出のための新しい生物直交スプライニングウェーブレット

A New Class Biorthogonal Spline Wavelet for Image Edge Detection ( http://arxiv.org/abs/2406.08285v1 )

ライセンス: Link先を確認
Dujuan Zhou, Zizhao Yuan, (参考訳) スプラインウェーブレットは、時間と周波数の両方で局在するのに好ましい特性を示した。 本稿では,Cohen-Daubechies-Feauveauウェーブレット構築法と立方体特殊スプラインアルゴリズムに基づく,新規な直交立方体特殊スプラインウェーブレット(BCSSW)を提案する。 BCSSWは、コンパクトな支持、対称性、周波数領域特性においてより良い特性を持つ。 しかし、現在の主流検出演算子は、通常、地域画素や大域構造の不確実な表現を無視している。 これらの問題を解決するために,新しいBCSSWスプラインウェーブレットに基づく構造不確実性と多構造演算子融合検出アルゴリズム(EDBSW)を提案する。 エッジ効果を効率的に処理するスプラインウェーブレットを構築することにより、構造的不確実性を考慮した弾性率最大値を用いて、高度に不確実なエッジサンプルを検出する。 提案するウェーブレット検出演算子は、多構造形態演算子と融合再構成戦略を用いて、異なる周波数の反雑音処理とエッジ情報に効果的に対処する。 多くの実験は、ノイズを低減し、エッジ構造の詳細を捉えるのに優れた性能を示した。

Spline wavelets have shown favorable characteristics for localizing in both time and frequency. In this paper, we propose a new biorthogonal cubic special spline wavelet (BCSSW), based on the Cohen-Daubechies-Feauveau wavelet construction method and the cubic special spline algorithm. BCSSW has better properties in compact support, symmetry, and frequency domain characteristics. However, current mainstream detection operators usually ignore the uncertain representation of regional pixels and global structures. To solve these problems, we propose a structural uncertainty-aware and multi-structure operator fusion detection algorithm (EDBSW) based on a new BCSSW spline wavelet. By constructing a spline wavelet that efficiently handles edge effects, we utilize structural uncertainty-aware modulus maxima to detect highly uncertain edge samples. The proposed wavelet detection operator utilizes the multi-structure morphological operator and fusion reconstruction strategy to effectively address anti-noise processing and edge information of different frequencies. Numerous experiments have demonstrated its excellent performance in reducing noise and capturing edge structure details.
翻訳日:2024-06-13 16:26:24 公開日:2024-06-12
# 適応型時空間グラフニューラルネットにおけるグラフ勝利チケットの事前学習同定

Pre-Training Identification of Graph Winning Tickets in Adaptive Spatial-Temporal Graph Neural Networks ( http://arxiv.org/abs/2406.08287v1 )

ライセンス: Link先を確認
Wenying Duan, Tianxiang Fang, Hong Rao, Xiaoxi He, (参考訳) 本稿では、LTH(Lottery Ticket hypothesis)から派生したグラフウィンティング・チケット(GWT)の概念を導入し、適応空間時間グラフニューラルネットワーク(ASTGNN)の計算効率を大幅に向上させる新しい手法を提案する。 事前決定された恒星トポロジをGWTとしてトレーニング前に採用することにより、エッジの削減と効率的な情報伝達のバランスを保ち、高いモデル性能を維持しながら計算要求を低減できる。 適応的な時空間グラフを生成する際の時間およびメモリ計算の複雑さは、$\mathcal{O}(N^2)$から$\mathcal{O}(N)$に大幅に減少する。 提案手法は, ASTGNNの展開を, 徹底的な訓練, 刈り込み, 再訓練サイクルの必要性をなくすことで効率化し, 計算コストを大幅に低減したフルモデルに匹敵する性能を達成できることを実証的に示す。 具体的には,48GBのメモリを備えた単一A6000を用いて,最大規模の時空間データセット上でASTGNNをトレーニングすることができる。 さらに、スペクトルグラフ理論の観点からGWTの有効性を探求し、理論的な支援を提供します。 この進歩は、ASTGNN内の効率的なサブネットワークの存在を証明しているだけでなく、リソース制約された設定におけるLTHの適用性も拡大し、グラフニューラルネットワークの分野における重要な一歩を踏み出した。 コードはhttps://anonymous.4open.science/r/paper-1430で公開されている。

In this paper, we present a novel method to significantly enhance the computational efficiency of Adaptive Spatial-Temporal Graph Neural Networks (ASTGNNs) by introducing the concept of the Graph Winning Ticket (GWT), derived from the Lottery Ticket Hypothesis (LTH). By adopting a pre-determined star topology as a GWT prior to training, we balance edge reduction with efficient information propagation, reducing computational demands while maintaining high model performance. Both the time and memory computational complexity of generating adaptive spatial-temporal graphs is significantly reduced from $\mathcal{O}(N^2)$ to $\mathcal{O}(N)$. Our approach streamlines the ASTGNN deployment by eliminating the need for exhaustive training, pruning, and retraining cycles, and demonstrates empirically across various datasets that it is possible to achieve comparable performance to full models with substantially lower computational costs. Specifically, our approach enables training ASTGNNs on the largest scale spatial-temporal dataset using a single A6000 equipped with 48 GB of memory, overcoming the out-of-memory issue encountered during original training and even achieving state-of-the-art performance. {Furthermore, we delve into the effectiveness of the GWT from the perspective of spectral graph theory, providing substantial theoretical support.} This advancement not only proves the existence of efficient sub-networks within ASTGNNs but also broadens the applicability of the LTH in resource-constrained settings, marking a significant step forward in the field of graph neural networks. Code is available at https://anonymous.4open.science/r/paper-1430.
翻訳日:2024-06-13 16:26:24 公開日:2024-06-12
# 機械学習におけるクラスラベルとターゲット概念の分離

Decoupling the Class Label and the Target Concept in Machine Unlearning ( http://arxiv.org/abs/2406.08288v1 )

ライセンス: Link先を確認
Jianing Zhu, Bo Han, Jiangchao Yao, Jianliang Xu, Gang Niu, Masashi Sugiyama, (参考訳) データ規制の新たな研究トピックである機械学習は、トレーニングデータの一部を除外した再トレーニングされたモデルを近似するために、トレーニングされたモデルを調整することを目的としている。 過去の研究では、学習内容の未学習は、学習対象の授業の知識を忘れることに成功し、忘れるデータへの勾配の上昇や、残りのデータとの微調整を通じて成功した。 しかし、これらの手法は有用であるが、クラスラベルとターゲット概念が一致していると考えられるため不十分である。 本研究は,ラベル領域のミスマッチを考慮し,従来の一致した3つの問題,例えば,ターゲットミスマッチ,モデルミスマッチ,データミスマッチの3つを調査することによって,それらを分離する。 我々は,対象概念を限定的に忘れる新たな課題を体系的に分析し,これらの課題を実現するために,表現レベルにおける重要な忘れのダイナミクスを明らかにする。 そこで我々は,TARF(TARget-aware Forgetting)という一般的なフレームワークを提案する。 これにより、残部を維持しながら目標概念を積極的に忘れることができ、同時に、忘れデータおよび選択した残部データに熱処理された勾配上昇を同時に行うことができる。 実験により, TARFの有効性を実証するため, 新たに導入した環境下で種々の実験を行った。

Machine unlearning as an emerging research topic for data regulations, aims to adjust a trained model to approximate a retrained one that excludes a portion of training data. Previous studies showed that class-wise unlearning is successful in forgetting the knowledge of a target class, through gradient ascent on the forgetting data or fine-tuning with the remaining data. However, while these methods are useful, they are insufficient as the class label and the target concept are often considered to coincide. In this work, we decouple them by considering the label domain mismatch and investigate three problems beyond the conventional all matched forgetting, e.g., target mismatch, model mismatch, and data mismatch forgetting. We systematically analyze the new challenges in restrictively forgetting the target concept and also reveal crucial forgetting dynamics in the representation level to realize these tasks. Based on that, we propose a general framework, namely, TARget-aware Forgetting (TARF). It enables the additional tasks to actively forget the target concept while maintaining the rest part, by simultaneously conducting annealed gradient ascent on the forgetting data and selected gradient descent on the hard-to-affect remaining data. Empirically, various experiments under the newly introduced settings are conducted to demonstrate the effectiveness of our TARF.
翻訳日:2024-06-13 16:26:24 公開日:2024-06-12
# 階層型セルオートマトンを用いた屋外シーン外挿

Outdoor Scene Extrapolation with Hierarchical Generative Cellular Automata ( http://arxiv.org/abs/2406.08292v1 )

ライセンス: Link先を確認
Dongsu Zhang, Francis Williams, Zan Gojcic, Karsten Kreis, Sanja Fidler, Young Min Kim, Amlan Kar, (参考訳) 小型のLiDARスキャンから微細な3次元形状を生成することを目指しており, 自律走行車 (AV) が豊富に捉えている。 AVシーンの完成に関する以前の研究とは対照的に、我々はLiDARスキャンのラベルのない、空間的限界を超える細かな幾何学を外挿することを目指しており、現実的で高解像度のシミュレーション可能な3Dストリート環境を創り出すための一歩を踏み出した。 空間的拡張性のある条件付き3次元生成モデルである階層型セルラーオートマタ(hGCA)を提案する。 合成シーンの実験では、hGCAは最先端のベースラインと比較して、忠実度と完全度の高い可塑性シーン形状を生成する。 我々のモデルは、Waymo-openデータセットのベースラインよりも質的に優れたsim-to-realから強く一般化する。 また,限られた合成内容で訓練しても,実世界の幾何学的手がかりから新しい物体を創出できるという逸話的証拠も示している。 詳細はhttps://research.nvidia.com/labs/toronto-ai/hGCA/で確認できます。

We aim to generate fine-grained 3D geometry from large-scale sparse LiDAR scans, abundantly captured by autonomous vehicles (AV). Contrary to prior work on AV scene completion, we aim to extrapolate fine geometry from unlabeled and beyond spatial limits of LiDAR scans, taking a step towards generating realistic, high-resolution simulation-ready 3D street environments. We propose hierarchical Generative Cellular Automata (hGCA), a spatially scalable conditional 3D generative model, which grows geometry recursively with local kernels following, in a coarse-to-fine manner, equipped with a light-weight planner to induce global consistency. Experiments on synthetic scenes show that hGCA generates plausible scene geometry with higher fidelity and completeness compared to state-of-the-art baselines. Our model generalizes strongly from sim-to-real, qualitatively outperforming baselines on the Waymo-open dataset. We also show anecdotal evidence of the ability to create novel objects from real-world geometric cues even when trained on limited synthetic content. More results and details can be found on https://research.nvidia.com/labs/toronto-ai/hGCA/.
翻訳日:2024-06-13 16:26:24 公開日:2024-06-12
# 海洋サーベイランスのための熱ドメインにおける容器再同定と活動検出

Vessel Re-identification and Activity Detection in Thermal Domain for Maritime Surveillance ( http://arxiv.org/abs/2406.08294v1 )

ライセンス: Link先を確認
Yasod Ginige, Ransika Gunasekara, Darsha Hewavitharana, Manjula Ariyarathne, Ranga Rodrigo, Peshala Jayasekara, (参考訳) 海上監視は麻薬密輸、違法漁、人身売買などの違法行為を軽減するために不可欠である。 視覚に基づく海上監視は、主に夜間の視認性の問題により困難であり、船の再識別に失敗し、不審な活動を検出する。 本稿では,物体追跡,容器再識別,不審な活動検出機能を備えた海上監視のための熱的,視覚的アプローチを提案する。 容器再同定のために,色特徴のない形状情報を活用するために,容器の側面の特徴を別々に比較する新たな視点非依存アルゴリズムを提案する。 熱領域のトラッキングとアクティビティ検出アルゴリズムを適応させ,私たちが作成した熱データセットを用いて学習する手法を提案する。 このデータセットは、熱海洋監視のための最初の公開ベンチマークデータセットである。 本システムでは, 81.8%のTop1スコアで船体を再同定し, 72.4\%のmAPスコアで不審な活動を特定する。

Maritime surveillance is vital to mitigate illegal activities such as drug smuggling, illegal fishing, and human trafficking. Vision-based maritime surveillance is challenging mainly due to visibility issues at night, which results in failures in re-identifying vessels and detecting suspicious activities. In this paper, we introduce a thermal, vision-based approach for maritime surveillance with object tracking, vessel re-identification, and suspicious activity detection capabilities. For vessel re-identification, we propose a novel viewpoint-independent algorithm which compares features of the sides of the vessel separately (separate side-spaces) leveraging shape information in the absence of color features. We propose techniques to adapt tracking and activity detection algorithms for the thermal domain and train them using a thermal dataset we created. This dataset will be the first publicly available benchmark dataset for thermal maritime surveillance. Our system is capable of re-identifying vessels with an 81.8% Top1 score and identifying suspicious activities with a 72.4\% frame mAP score; a new benchmark for each task in the thermal domain.
翻訳日:2024-06-13 16:26:24 公開日:2024-06-12
# フルクソニウムを用いた高速単一ビットゲートの反回転誤差抑制

Suppressing Counter-Rotating Errors for Fast Single-Qubit Gates with Fluxonium ( http://arxiv.org/abs/2406.08295v1 )

ライセンス: Link先を確認
David A. Rower, Leon Ding, Helin Zhang, Max Hays, Junyoung An, Patrick M. Harrington, Ilan T. Rosen, Jeffrey M. Gertler, Thomas M. Hazard, Bethany M. Niedzielski, Mollie E. Schwartz, Simon Gustavsson, Kyle Serniak, Jeffrey A. Grover, William D. Oliver, (参考訳) クビットデコヒーレンスは必然的に量子論理ゲートの忠実度を低下させる。 したがって、可能な限り高速なゲートを実現することは、キュービット制御の指針であり、ゲート時間が減少するにつれて重要なエラーチャネルを緩和するためのプロトコルを必要とする。 そのようなエラーチャネルの1つは、強い線形偏光駆動の反回転成分から生じる。 このエラーチャネルは、ゲート時間がキュビットラーモア周期に近づいたときに特に重要であり、フラクソニウムのような低周波キュービットを持つ十分に高速な単一キュービットゲートの不忠実性の源となる。 本研究では,このエラーチャネルを緩和するための2つの補完プロトコルを開発し,実証する。 第1のプロトコルは、同時電荷制御とフラックス制御により、回路量子力学(QED)における円偏極駆動を実現する。 第2のプロトコル(コメンシュレートパルス)は、反回転フィールドのコヒーレントかつ周期的な性質を活用して、ゲートへのコントリビューションを規則化し、シングルキュービットゲート忠実度が99.997\%$を確実に超えるようにする。 このプロトコルはプラットフォームに依存しておらず、追加のキャリブレーションオーバーヘッドを必要としない。 本研究は, 耐故障性量子コンピューティングのための高忠実度制御を実現する上で, 回路QEDや他のプラットフォームにおいて, 強い駆動から反ローテーション効果を緩和するための簡単な戦略を確立するものである。

Qubit decoherence unavoidably degrades the fidelity of quantum logic gates. Accordingly, realizing gates that are as fast as possible is a guiding principle for qubit control, necessitating protocols for mitigating error channels that become significant as gate time is decreased. One such error channel arises from the counter-rotating component of strong, linearly polarized drives. This error channel is particularly important when gate times approach the qubit Larmor period and represents the dominant source of infidelity for sufficiently fast single-qubit gates with low-frequency qubits such as fluxonium. In this work, we develop and demonstrate two complementary protocols for mitigating this error channel. The first protocol realizes circularly polarized driving in circuit quantum electrodynamics (QED) through simultaneous charge and flux control. The second protocol -- commensurate pulses -- leverages the coherent and periodic nature of counter-rotating fields to regularize their contributions to gates, enabling single-qubit gate fidelities reliably exceeding $99.997\%$. This protocol is platform independent and requires no additional calibration overhead. This work establishes straightforward strategies for mitigating counter-rotating effects from strong drives in circuit QED and other platforms, which we expect to be helpful in the effort to realize high-fidelity control for fault-tolerant quantum computing.
翻訳日:2024-06-13 16:26:24 公開日:2024-06-12
# AdaNCA: よりロバストな視覚変換器のアダプターとしての神経細胞性オートマタ

AdaNCA: Neural Cellular Automata As Adaptors For More Robust Vision Transformer ( http://arxiv.org/abs/2406.08298v1 )

ライセンス: Link先を確認
Yitao Xu, Tong Zhang, Sabine Süsstrunk, (参考訳) 視覚変換器(ViT)は画像分類タスクにおいて、特に局所的な注意や畳み込みによる局所的な情報を備えた場合、顕著な性能を示した。 このようなアーキテクチャは機能集約を粒度によって改善するが、ネットワークの堅牢性に寄与しないことが多い。 ニューラルセルオートマタ(NCA)は、局所的な相互作用を通じてグローバルなセル表現のモデリングを可能にし、そのトレーニング戦略とアーキテクチャ設計は、ノイズの多い入力に対して強力な一般化能力と堅牢性をもたらす。 本稿では,視覚変換器用Adaptor Neural Cellular Automata (AdaNCA)を提案する。 標準的なNAAの計算オーバーヘッドを克服するために,より効率的な対話学習のための動的インタラクションを提案する。 さらに,AdaNCAの配置解析とロバスト性改善に基づいて,AdaNCAの最も効果的な挿入点を同定するアルゴリズムを開発した。 パラメータの3%未満の増加により、AdaNCAはImageNet1Kベンチマークの敵攻撃下での精度の10%以上の絶対的な改善に貢献している。 さらに,8つのロバスト性ベンチマークと4つのViTアーキテクチャに対して,プラグインモジュールであるAdaNCAが常にViTのロバスト性を改善することを実証した。

Vision Transformers (ViTs) have demonstrated remarkable performance in image classification tasks, particularly when equipped with local information via region attention or convolutions. While such architectures improve the feature aggregation from different granularities, they often fail to contribute to the robustness of the networks. Neural Cellular Automata (NCA) enables the modeling of global cell representations through local interactions, with its training strategies and architecture design conferring strong generalization ability and robustness against noisy inputs. In this paper, we propose Adaptor Neural Cellular Automata (AdaNCA) for Vision Transformer that uses NCA as plug-in-play adaptors between ViT layers, enhancing ViT's performance and robustness against adversarial samples as well as out-of-distribution inputs. To overcome the large computational overhead of standard NCAs, we propose Dynamic Interaction for more efficient interaction learning. Furthermore, we develop an algorithm for identifying the most effective insertion points for AdaNCA based on our analysis of AdaNCA placement and robustness improvement. With less than a 3% increase in parameters, AdaNCA contributes to more than 10% absolute improvement in accuracy under adversarial attacks on the ImageNet1K benchmark. Moreover, we demonstrate with extensive evaluations across 8 robustness benchmarks and 4 ViT architectures that AdaNCA, as a plug-in-play module, consistently improves the robustness of ViTs.
翻訳日:2024-06-13 16:26:24 公開日:2024-06-12
# 社会的ネットワーク分極の動的進化とウイルスの伝播への影響

Dynamical evolution of social network polarization and its impact on the propagation of a virus ( http://arxiv.org/abs/2406.08299v1 )

ライセンス: Link先を確認
Ixandra Achitouv, David Chavalarias, (参考訳) 2020年に発生した新型コロナウイルスのパンデミックは、ワクチンの根絶と社会的分極の複雑な相互作用を浮き彫りにした。 本研究では,ソーシャルネットワーク内における動的分極と,ワクチン接種前後のネットワーク特性を分析した。 その結果、ネットワークがより構造化されていない状態から、より多くのクラスタ化されたコミュニティを持つ状態へと進化していくことを示す。 次に, エージェント・ベース・モデリング・アプローチを用いて, ワクチンを予防接種者, 抗ワクチン個人に割り当てることにより, 偏極社会におけるウイルスの伝播をシミュレートする。 この伝播は、同じ数のワクチンが集団に均質に分布している場合に比較する。 分極ネットワークでは、ウイルスの拡散が著しく広がり、疫病予測において分極を考慮することの重要性が強調される。

The COVID-19 pandemic that emerged in 2020 has highlighted the complex interplay between vaccine hesitancy and societal polarization. In this study, we analyse the dynamical polarization within a social network as well as the network properties before and after a vaccine was made available. Our results show that as the network evolves from a less structured state to one with more clustered communities. Then using an agent-based modeling approach, we simulate the propagation of a virus in a polarized society by assigning vaccines to pro-vaccine individuals and none to the anti-vaccine individuals. We compare this propagation to the case where the same number of vaccines is distributed homogeneously across the population. In polarized networks, we observe a significantly more widespread diffusion of the virus, highlighting the importance of considering polarization for epidemic forecasting.
翻訳日:2024-06-13 16:26:24 公開日:2024-06-12
# ChaosからClarityへ:3DGSは暗闇の中で

From Chaos to Clarity: 3DGS in the Dark ( http://arxiv.org/abs/2406.08300v1 )

ライセンス: Link先を確認
Zhihao Li, Yufei Wang, Alex Kot, Bihan Wen, (参考訳) 低ダイナミックレンジRGB画像の再構成に比べて、原画像からの新たなビュー合成は、優れたハイダイナミックレンジ(HDR)情報を提供する。 しかし、未処理の生画像の固有ノイズは、3Dシーン表現の精度を損なう。 以上の結果から,3次元ガウス散乱(3DGS)は特にこのノイズの影響を受けやすいことが判明した。 これらの課題に対処するために,HDR 3DGSをノイズの多い生画像から再構成する,新たな自己教師型学習フレームワークを提案する。 このフレームワークは、ノイズ抽出器を統合し、騒音分布を予め活用したノイズ-ロバスト再構成損失を利用することで、3DGSを強化する。 実験の結果,LawNeRFデータセットの再構成品質と推論速度の両面において,LDR/HDR 3DGSおよび従来のSOTA(State-of-the-art)モデルよりも優れた性能を示した。 コードは \url{https://lizhihao6.github.io/Raw3DGS} にある。

Novel view synthesis from raw images provides superior high dynamic range (HDR) information compared to reconstructions from low dynamic range RGB images. However, the inherent noise in unprocessed raw images compromises the accuracy of 3D scene representation. Our study reveals that 3D Gaussian Splatting (3DGS) is particularly susceptible to this noise, leading to numerous elongated Gaussian shapes that overfit the noise, thereby significantly degrading reconstruction quality and reducing inference speed, especially in scenarios with limited views. To address these issues, we introduce a novel self-supervised learning framework designed to reconstruct HDR 3DGS from a limited number of noisy raw images. This framework enhances 3DGS by integrating a noise extractor and employing a noise-robust reconstruction loss that leverages a noise distribution prior. Experimental results show that our method outperforms LDR/HDR 3DGS and previous state-of-the-art (SOTA) self-supervised and supervised pre-trained models in both reconstruction quality and inference speed on the RawNeRF dataset across a broad range of training views. Code can be found in \url{https://lizhihao6.github.io/Raw3DGS}.
翻訳日:2024-06-13 16:26:24 公開日:2024-06-12
# 頑健な非パラメトリックテストを用いたモデル可変性の測定

Measuring model variability using robust non-parametric testing ( http://arxiv.org/abs/2406.08307v1 )

ライセンス: Link先を確認
Sinjini Banerjee, Tim Marrinan, Reilly Cannon, Tony Chiang, Anand D. Sarwate, (参考訳) ディープニューラルネットワークのトレーニングには確率的最適化が伴うことが多い。 最適化手順のランダムな要素を初期化するために使用されるシードは、トレーニングされたモデルの品質に大きく影響する。 しかし、種子とモデル品質の関係は説明が難しいため、しばしば超パラメータ最適化にはランダムシードは含まれない。 この研究は、異なるランダムシードで訓練されたディープネットモデルと、予測されたモデルの振る舞いとの関係を記述しようとするものである。 我々は、ネットワーク類似性に関する新しい要約統計量($\alpha$-trimming level)を提案するために、ロバスト仮説テストを採用する。 我々は、異なるランダムシードを持つ訓練されたモデルの集合から生成されたアンサンブルモデルの経験的累積分布関数が、コレクション内のモデル数が大きくなるにつれて、これらの関数の平均を近似することを示すために、$\alpha$-trimmingレベルを用いる。 この洞察は、これらのトレーニングされたモデルのアンサンブルが信頼できる代表であることを保証するために、ランダムな種をいくつサンプリングすべきかのガイダンスを提供する。 また、$\alpha$-trimmingのレベルは、検証精度やチャーン、単独で行う場合のキャリブレーションエラーなど、さまざまなパフォーマンス指標よりも表現力が高く、より原則化された方法でランダムなシード選択を支援することも示している。 実実験において提案した統計値の価値を実証し, 移動学習実験によるランダムシードに対する微調整の利点を示す。

Training a deep neural network often involves stochastic optimization, meaning each run will produce a different model. The seed used to initialize random elements of the optimization procedure heavily influences the quality of a trained model, which may be obscure from many commonly reported summary statistics, like accuracy. However, random seed is often not included in hyper-parameter optimization, perhaps because the relationship between seed and model quality is hard to describe. This work attempts to describe the relationship between deep net models trained with different random seeds and the behavior of the expected model. We adopt robust hypothesis testing to propose a novel summary statistic for network similarity, referred to as the $\alpha$-trimming level. We use the $\alpha$-trimming level to show that the empirical cumulative distribution function of an ensemble model created from a collection of trained models with different random seeds approximates the average of these functions as the number of models in the collection grows large. This insight provides guidance for how many random seeds should be sampled to ensure that an ensemble of these trained models is a reliable representative. We also show that the $\alpha$-trimming level is more expressive than different performance metrics like validation accuracy, churn, or expected calibration error when taken alone and may help with random seed selection in a more principled fashion. We demonstrate the value of the proposed statistic in real experiments and illustrate the advantage of fine-tuning over random seed with an experiment in transfer learning.
翻訳日:2024-06-13 16:26:24 公開日:2024-06-12
# GraphFM: Graph Foundation Modelの総合ベンチマーク

GraphFM: A Comprehensive Benchmark for Graph Foundation Model ( http://arxiv.org/abs/2406.08310v1 )

ライセンス: Link先を確認
Yuhao Xu, Xinqi Liu, Keyu Duan, Yi Fang, Yu-Neng Chuang, Daochen Zha, Qiaoyu Tan, (参考訳) ファンデーション・モデル(FM)は、人工知能システムの開発のための一般的なクラスとして機能し、下流のタスクの範囲にまたがる一般化の幅広い可能性を提供する。 FMの基礎として自己教師型学習を幅広く研究しているにもかかわらず、グラフの自己教師型学習に依存するグラフファウンデーションモデルにはいくつかの顕著な問題が残っている。 1) 均質化。 下流タスクにおける一般化能力の程度は未だ不明である。 2)スケーラビリティ。 これらのモデルが大規模なデータセットにどの程度効果的にスケールできるかは不明だ。 3)効率性。 これらのモデルのトレーニング時間とメモリ使用量を評価する必要がある。 4) 研修停止基準 下流タスクのパフォーマンスを最大化するために、複数のタスクにまたがる事前トレーニングのための最適な停止戦略を決定する。 これらの問題に対処するため、我々は、自己教師付きグラフニューラルネットワーク(GNN)モデルの一般化とスケーラビリティを徹底的に分析し研究する厳密なベンチマークを構築した。 一般化に関しては,ノード分類,リンク予測,ノードクラスタリングといったタスクにまたがって,ノード表現を生成するために訓練された,各種自己教師付きGNNモデルの性能と比較を行った。 スケーラビリティのために、フルバッチとミニバッチ戦略を用いたトレーニング後の各種モデルの性能を比較した。 さらに、GPUメモリ使用量とスループットをテストする実験を行うことで、これらのモデルのトレーニング効率を評価した。 これらの実験を通じて、将来の研究を動機付けるための洞察を提供することを目指している。 このベンチマークのコードはhttps://github.com/NYUSHCS/GraphFMで公開されている。

Foundation Models (FMs) serve as a general class for the development of artificial intelligence systems, offering broad potential for generalization across a spectrum of downstream tasks. Despite extensive research into self-supervised learning as the cornerstone of FMs, several outstanding issues persist in Graph Foundation Models that rely on graph self-supervised learning, namely: 1) Homogenization. The extent of generalization capability on downstream tasks remains unclear. 2) Scalability. It is unknown how effectively these models can scale to large datasets. 3) Efficiency. The training time and memory usage of these models require evaluation. 4) Training Stop Criteria. Determining the optimal stopping strategy for pre-training across multiple tasks to maximize performance on downstream tasks. To address these questions, we have constructed a rigorous benchmark that thoroughly analyzes and studies the generalization and scalability of self-supervised Graph Neural Network (GNN) models. Regarding generalization, we have implemented and compared the performance of various self-supervised GNN models, trained to generate node representations, across tasks such as node classification, link prediction, and node clustering. For scalability, we have compared the performance of various models after training using full-batch and mini-batch strategies. Additionally, we have assessed the training efficiency of these models by conducting experiments to test their GPU memory usage and throughput. Through these experiments, we aim to provide insights to motivate future research. The code for this benchmark is publicly available at https://github.com/NYUSHCS/GraphFM.
翻訳日:2024-06-13 16:26:24 公開日:2024-06-12
# 語彙データ合成のための因果性:高階構造因果ベンチマークフレームワーク

Causality for Tabular Data Synthesis: A High-Order Structure Causal Benchmark Framework ( http://arxiv.org/abs/2406.08311v1 )

ライセンス: Link先を確認
Ruibo Tu, Zineb Senane, Lele Cao, Cheng Zhang, Hedvig Kjellström, Gustav Eje Henter, (参考訳) タブラル合成モデルは複雑な依存関係を捉えるのに効果がなく、分散シフト下での予測や自動意思決定、クロステーブル理解といった包括的な下流タスクでは、合成データの質は依然として不十分である。 大きな課題は、表データの基盤構造と高次関係に関する事前知識の欠如である。 グラフデータ合成のための高次構造情報の体系的評価が,この問題の解決に向けた第一歩である,と我々は主張する。 本稿では,高次構造因果情報を自然な事前知識として導入し,表層合成モデル評価のためのベンチマークフレームワークを提案する。 このフレームワークにより、フレキシブルなデータ生成プロセスでベンチマークデータセットを生成し、これらのデータセットを使用して表形式の合成モデルをトレーニングし、さらなる評価を行うことができる。 複数のベンチマークタスク、高次メトリクス、因果推論タスクを下流タスクとして提案し、トレーニングされたモデルが生成した合成データの品質を評価する。 実験では,高次構造因果情報を取得するためのモデル能力を評価するために,ベンチマークフレームワークを活用することを実証した。 さらに, ベンチマークの結果から, 最先端の表層合成モデルの初期評価が得られた。 彼らは明らかに、理想的なパフォーマンスと実際のパフォーマンスのギャップと、ベースラインメソッドの違いを明らかにしている。 ベンチマークフレームワークはURL https://github.com/TURuibo/CauTabBench.comで利用可能です。

Tabular synthesis models remain ineffective at capturing complex dependencies, and the quality of synthetic data is still insufficient for comprehensive downstream tasks, such as prediction under distribution shifts, automated decision-making, and cross-table understanding. A major challenge is the lack of prior knowledge about underlying structures and high-order relationships in tabular data. We argue that a systematic evaluation on high-order structural information for tabular data synthesis is the first step towards solving the problem. In this paper, we introduce high-order structural causal information as natural prior knowledge and provide a benchmark framework for the evaluation of tabular synthesis models. The framework allows us to generate benchmark datasets with a flexible range of data generation processes and to train tabular synthesis models using these datasets for further evaluation. We propose multiple benchmark tasks, high-order metrics, and causal inference tasks as downstream tasks for evaluating the quality of synthetic data generated by the trained models. Our experiments demonstrate to leverage the benchmark framework for evaluating the model capability of capturing high-order structural causal information. Furthermore, our benchmarking results provide an initial assessment of state-of-the-art tabular synthesis models. They have clearly revealed significant gaps between ideal and actual performance and how baseline methods differ. Our benchmark framework is available at URL https://github.com/TURuibo/CauTabBench.
翻訳日:2024-06-13 16:16:39 公開日:2024-06-12
# GPU加速 Auxiliary-field quantum Monte Carlo with multi-Slater determinant trial state

GPU-accelerated Auxiliary-field quantum Monte Carlo with multi-Slater determinant trial states ( http://arxiv.org/abs/2406.08314v1 )

ライセンス: Link先を確認
Yifei Huang, Zhen Guo, Hung Q. Pham, Dingshun Lv, (参考訳) フェーズレス補助場量子モンテカルロ(ph-AFQMC)の精度は、より良い試行状態で体系的に改善することができる。 マルチスレーター決定試行状態を用いて、ph-AFQMCは、等しい足場上での静的および動的相関のバランスを保ちながら、強相関系を忠実に扱うことができる。 このプリプリントは、大規模・強相関系の効率的なシミュレーションを可能にするために、マルチスレーター決定型トライアル波動関数(GPUアクセラレーションMSD-AFQMC)のためのグラフィクス処理ユニットアクセラレーションph-AFQMCの実装と応用を示す。 このアプローチは、マルチ参照システムにおける基底状態エネルギーのほぼ正確な計算を可能にする。 当社のGPUアクセラレーションMSD-AFQMCは,PythonベースのAFQMCパッケージであるオープンソースコード \texttt{ipie} [\textit{J] に実装されている。 Chem 理論計算。 }, 2022, 19(1): 109-121]。 我々は[Cu$_2$O$_2$]$^{2+}$と[Fe$_2$S$_2$(SCH$_3$)]$^{2-}$のような遷移金属クラスター上でGPUコードのパフォーマンスをベンチマークする。 GPUコードは、両方のケースで少なくとも6倍のスピードアップを実現し、1つのA100 GPUのタイミングを32CPUノードのタイミングと比較する。 Fe$_2$S$_2$(SCH$_3$)]$^{2-}$に対して、我々のGPU MSD-AFQMCは、必要な多くの行列式(>10^5$)にもかかわらず、MSD試験で化学精度に必要な動的相関を回復できることを示す。 本研究は, 遷移金属錯体の電子構造を探索する上で有望な経路を提供するため, 大規模で強い相関関係を持つ分子に対するMSD-AFQMC計算の効率を著しく向上させる。

The accuracy of phaseless auxiliary-field quantum Monte Carlo (ph-AFQMC) can be systematically improved with better trial states. Using multi-Slater determinant trial states, ph-AFQMC has the potential to faithfully treat strongly correlated systems, while balancing the static and dynamical correlations on an equal footing. This preprint presents an implementation and application of graphics processing unit-accelerated ph-AFQMC, for multi-Slater determinant trial wavefunctions (GPU-accelerated MSD-AFQMC), to enable efficient simulation of large-scale, strongly correlated systems. This approach allows for nearly-exact computation of ground state energies in multi-reference systems. Our GPU-accelerated MSD-AFQMC is implemented in the open-source code \texttt{ipie}, a Python-based AFQMC package [\textit{J. Chem. Theory Comput.}, 2022, 19(1): 109-121]. We benchmark the performance of the GPU code on transition-metal clusters like [Cu$_2$O$_2$]$^{2+}$ and [Fe$_2$S$_2$(SCH$_3$)]$^{2-}$. The GPU code achieves at least sixfold speedup in both cases, comparing the timings of a single A100 GPU to that of a 32-CPU node. For [Fe$_2$S$_2$(SCH$_3$)]$^{2-}$, we demonstrate that our GPU MSD-AFQMC can recover the dynamical correlation necessary for chemical accuracy with an MSD trial, despite the large number of determinants required ($>10^5$). Our work significantly enhances the efficiency of MSD-AFQMC calculations for large, strongly correlated molecules by utilizing GPUs, offering a promising path for exploring the electronic structure of transition metal complexes.
翻訳日:2024-06-13 16:16:39 公開日:2024-06-12
# $\varepsilon$-Retrainによるポリシー最適化の改善

Improving Policy Optimization via $\varepsilon$-Retrain ( http://arxiv.org/abs/2406.08315v1 )

ライセンス: Link先を確認
Luca Marzari, Changliu Liu, Priya L. Donti, Enrico Marchesini, (参考訳) 単調な改善保証でポリシーを最適化しつつ、行動選好を促進するために設計された探索戦略である「\varepsilon$-retrain」を提示する。 この目的のために,エージェントが行動選好に従わなかった状態空間の一部である再訓練領域を反復的に収集する手順を導入する。 提案手法は, 定型的再起動状態分布と再トレーニング領域を減衰係数$\varepsilon$で切り換えることにより, エージェントが優先権に反する状況で再トレーニングを行うことができる。 移動,ナビゲーション,電力ネットワークタスクにまたがって数百種以上の種子を実験したところ,本手法は,性能および試料効率を著しく向上させるエージェントが得られた。 さらに、ニューラルネットワークの形式的検証を用いて、エージェントが行動選好に適合する程度を確実に定量化する。

We present $\varepsilon$-retrain, an exploration strategy designed to encourage a behavioral preference while optimizing policies with monotonic improvement guarantees. To this end, we introduce an iterative procedure for collecting retrain areas -- parts of the state space where an agent did not follow the behavioral preference. Our method then switches between the typical uniform restart state distribution and the retrain areas using a decaying factor $\varepsilon$, allowing agents to retrain on situations where they violated the preference. Experiments over hundreds of seeds across locomotion, navigation, and power network tasks show that our method yields agents that exhibit significant performance and sample efficiency improvements. Moreover, we employ formal verification of neural networks to provably quantify the degree to which agents adhere to behavioral preferences.
翻訳日:2024-06-13 16:16:39 公開日:2024-06-12
# プログラミングは LLM によって解決されるか?

Is Programming by Example solved by LLMs? ( http://arxiv.org/abs/2406.08316v1 )

ライセンス: Link先を確認
Wen-Ding Li, Kevin Ellis, (参考訳) PBE(Programming-by-Examples)は、入力出力の例からアルゴリズムを生成することを目的としている。 エンドユーザーの観点からは数百万人にデプロイされ、AIの観点からは、PBEは数発の帰納的推論の非常に一般的な形式に対応する。 コード生成タスクにおけるLarge Language Models(LLMs)の成功を踏まえ、LLMがPBEを「解決した」と言える範囲について検討する。 我々は、リストや文字列のような古典的なドメインと、一般的な事前学習データではよく表現されない非一般的なグラフィックプログラミングドメインを実験する。 事前学習したモデルはPBEでは有効ではないが, テスト問題が分散している場合, はるかに高い性能で微調整できることがわかった。 我々は、これらのモデルが成功して失敗する原因を実証的に分析し、より良いアウト・オブ・ディストリビューションの一般化を実現する方法を理解するための一歩を踏み出した。 これらの結果は、PLEタスクの典型的な組の解決に向けてLLMが大きな進歩をし、PLEシステムの柔軟性と適用性を高めつつ、LSMが依然として不足している方法を特定することを示唆している。

Programming-by-Examples (PBE) aims to generate an algorithm from input-output examples. Such systems are practically and theoretically important: from an end-user perspective, they are deployed to millions of people, and from an AI perspective, PBE corresponds to a very general form of few-shot inductive inference. Given the success of Large Language Models (LLMs) in code-generation tasks, we investigate here the extent to which LLMs can be said to have `solved' PBE. We experiment on classic domains such as lists and strings, and an uncommon graphics programming domain not well represented in typical pretraining data. We find that pretrained models are not effective at PBE, but that they can be fine-tuned for much higher performance, provided the test problems are in-distribution. We analyze empirically what causes these models to succeed and fail, and take steps toward understanding how to achieve better out-of-distribution generalization. Collectively these results suggest that LLMs make strong progress toward solving the typical suite of PBE tasks, potentially increasing the flexibility and applicability of PBE systems, while also identifying ways in which LLMs still fall short.
翻訳日:2024-06-13 16:16:39 公開日:2024-06-12
# データスカース科学応用のための不変マルチスケールニューラルネットワーク

Invariant multiscale neural networks for data-scarce scientific applications ( http://arxiv.org/abs/2406.08318v1 )

ライセンス: Link先を確認
I. Schurov, D. Alforov, M. Katsnelson, A. Bagrov, A. Itin, (参考訳) 現代の世界での機械学習(ML)の成功は、データの豊富さによって決定される。 しかし、多くの産業や科学的問題において、データの量は限られている。 データスカース科学問題へのML法の応用は、いくつかの経路を通してより効果的にできる。 ここでは、対称性を意識した不変アーキテクチャと拡張畳み込みのスタックの組み合わせは、標準アプローチよりも精度が大幅に向上するレセプションを実装するのに非常に効果的であり、容易に実装可能であることを示唆する。 本稿では,フォトニック結晶のバンドギャップの予測と磁気基底状態のネットワーク近似という,異なる領域の物理問題に応用する。 提案された不変なマルチスケールアーキテクチャは、ネットワークの表現可能性を高め、考慮されたすべてのケースにおいてより優れた性能を発揮する。

Success of machine learning (ML) in the modern world is largely determined by abundance of data. However at many industrial and scientific problems, amount of data is limited. Application of ML methods to data-scarce scientific problems can be made more effective via several routes, one of them is equivariant neural networks possessing knowledge of symmetries. Here we suggest that combination of symmetry-aware invariant architectures and stacks of dilated convolutions is a very effective and easy to implement receipt allowing sizable improvements in accuracy over standard approaches. We apply it to representative physical problems from different realms: prediction of bandgaps of photonic crystals, and network approximations of magnetic ground states. The suggested invariant multiscale architectures increase expressibility of networks, which allow them to perform better in all considered cases.
翻訳日:2024-06-13 16:16:39 公開日:2024-06-12
# ブレイドゲートとヤンバクスターゲートの幾何学的表現

Geometric representations of braid and Yang-Baxter gates ( http://arxiv.org/abs/2406.08320v1 )

ライセンス: Link先を確認
Kun Zhang, Kun Hao, Kwangmin Yu, Vladimir Korepin, Wen-Li Yang, (参考訳) ヤンバクスターゲートからなるれんがウォール回路は積分可能である。 量子多体系を平衡から外すための重要な道具となる。 量子コンピュータにYang-Baxterゲートを置くには、量子コンピュータのネイティブゲートに分解する必要がある。 ヤンバクスターゲートを構築するために、最小数の2ビットゲートを適用するのが好ましい。 全てのX型ブレイドゲートとその対応するヤン・バクスターゲートの幾何学的表現について,ヤン・バクスター化を用いて検討する。 ブレイドゲートとヤンバクスターゲートは、2量子四面体の特定の端と面にしか存在できない。 ブレイドゲートとヤンバクスターゲートがクリフォードゲート、マッチゲート、二重ユニタリゲートとなるパラメータを同定する。 幾何学的表現は、他の2ビットゲートの観点で、ブレイドとヤン・バクスターゲートの最適分解を与える。 また、ヤン・バクスターゲートの絡み合う力はスペクトルパラメータによって決定される。 本結果は,量子コンピュータ上でのブレイドゲートとヤンバクスターゲート構築に必要な条件を提供する。

Brick-wall circuits composed of the Yang-Baxter gates are integrable. It becomes an important tool to study the quantum many-body system out of equilibrium. To put the Yang-Baxter gate on the quantum computer, it has to be decomposed into the native gates of quantum computers. It is favorable to apply the least number of native two-qubit gates to construct the Yang-Baxter gate. We study the geometric representations of all X-type braid gates and their corresponding Yang-Baxter gates via the Yang-Baxterization. We find that the braid and Yang-Baxter gates can only exist on certain edges and faces of the two-qubit tetrahedron. We identify the parameters by which the braid and Yang-Baxter gates are the Clifford gate, the matchgate, and the dual-unitary gate. The geometric representations provide the optimal decompositions of the braid and Yang-Baxter gates in terms of other two-qubit gates. We also find that the entangling powers of the Yang-Baxter gates are determined by the spectral parameters. Our results provide the necessary conditions to construct the braid and Yang-Baxter gates on quantum computers.
翻訳日:2024-06-13 16:16:39 公開日:2024-06-12
# 強混合観測による深層学習:スパースペナル化正規化と極小最適性

Deep learning from strongly mixing observations: Sparse-penalized regularization and minimax optimality ( http://arxiv.org/abs/2406.08321v1 )

ライセンス: Link先を確認
William Kengne, Modou Wade, (参考訳) 独立データからのディープニューラルネットワーク推定器の明確な正規化と最適性は、最近かなりの進歩を遂げている。 依存データに対するそのような特性の研究は依然として課題である。 本稿では,強い混合観測から深層学習を行い,二乗および広範な損失関数を扱う。 ディープニューラルネットワーク予測器のスパースペナル化正規化について検討する。 回帰推定、分類、時系列予測、$\cdots$,oracle inequality for the expected excess risk, and a bound on the class of H\"older smooth function。 強混合データと準指数誤差からの非パラメトリック回帰に対しては、$L_2$誤差に対してオラクル不等式を提供し、H\"古い合成関数のクラスにおけるこの誤差の上限について検討する。 ガウス誤差とラプラス誤差による非パラメトリック自己回帰の特定の場合、このH\"古い合成クラスにおける$L_2$誤差の下位境界が確立される。 対数係数において、このバウンダリはその上限値と一致するので、ディープニューラルネットワーク推定器はミニマックス最適速度に達する。

The explicit regularization and optimality of deep neural networks estimators from independent data have made considerable progress recently. The study of such properties on dependent data is still a challenge. In this paper, we carry out deep learning from strongly mixing observations, and deal with the squared and a broad class of loss functions. We consider sparse-penalized regularization for deep neural network predictor. For a general framework that includes, regression estimation, classification, time series prediction,$\cdots$, oracle inequality for the expected excess risk is established and a bound on the class of H\"older smooth functions is provided. For nonparametric regression from strong mixing data and sub-exponentially error, we provide an oracle inequality for the $L_2$ error and investigate an upper bound of this error on a class of H\"older composition functions. For the specific case of nonparametric autoregression with Gaussian and Laplace errors, a lower bound of the $L_2$ error on this H\"older composition class is established. Up to logarithmic factor, this bound matches its upper bound; so, the deep neural network estimator attains the minimax optimal rate.
翻訳日:2024-06-13 16:16:39 公開日:2024-06-12
# MMIL : 疾患関連細胞型発見のための新しいアルゴリズム

MMIL: A novel algorithm for disease associated cell type discovery ( http://arxiv.org/abs/2406.08322v1 )

ライセンス: Link先を確認
Erin Craig, Timothy Keyes, Jolanda Sarno, Maxim Zaslavsky, Garry Nolan, Kara Davis, Trevor Hastie, Robert Tibshirani, (参考訳) 単一細胞データセットは個々の細胞ラベルを欠くことが多く、病気に関連する細胞を特定することは困難である。 そこで我々は,患者レベルラベルを用いたセルレベルの分類器の訓練と校正を可能にする予測最大化手法であるMixture Modeling for Multiple Instance Learning (MMIL)を提案する。 我々のアプローチは、例えばラッソロジスティック回帰モデル、勾配向上木、ニューラルネットワークのトレーニングに使用することができる。 急性骨髄性白血病 (AML) および急性リンパ芽球性白血病 (ALL) の原発性患者検体に適用した場合, 本法は癌細胞を正確に同定し, 組織および治療時刻を一般化し, 生物学的に関連性のある特徴を選択する。 さらに、MMILはモデルトレーニングにセルラベルを組み込むことができ、ラベル付きデータとラベルなしデータの両方を同時に活用するための強力なフレームワークを提供する。 MILのMixture Modelingは、特に未知のゴールドスタンダードラベルと高次元性を持つシナリオにおいて、病気の理解と管理を促進する大きな可能性を持つ、細胞分類のための新しいアプローチを提供する。

Single-cell datasets often lack individual cell labels, making it challenging to identify cells associated with disease. To address this, we introduce Mixture Modeling for Multiple Instance Learning (MMIL), an expectation maximization method that enables the training and calibration of cell-level classifiers using patient-level labels. Our approach can be used to train e.g. lasso logistic regression models, gradient boosted trees, and neural networks. When applied to clinically-annotated, primary patient samples in Acute Myeloid Leukemia (AML) and Acute Lymphoblastic Leukemia (ALL), our method accurately identifies cancer cells, generalizes across tissues and treatment timepoints, and selects biologically relevant features. In addition, MMIL is capable of incorporating cell labels into model training when they are known, providing a powerful framework for leveraging both labeled and unlabeled data simultaneously. Mixture Modeling for MIL offers a novel approach for cell classification, with significant potential to advance disease understanding and management, especially in scenarios with unknown gold-standard labels and high dimensionality.
翻訳日:2024-06-13 16:16:39 公開日:2024-06-12
# 機械ライフサイクルにおける知的デジタル双生児の行動モデルの効率的な生成と適応の利点を図示する

Illustrating the benefits of efficient creation and adaption of behavior models in intelligent Digital Twins over the machine life cycle ( http://arxiv.org/abs/2406.08323v1 )

ライセンス: Link先を確認
Daniel Dittler, Valentin Stegmaier, Nasser Jazdi, Michael Weyrich, (参考訳) デジタルツインの概念は、生産システムまたはそのコンポーネントの仮想表現であり、これらの資産の複雑さの増大をマスターするために「デジタルグラウンド」として利用することができる。 Digital Twinの中心的なサブコンポーネントは、マシンライフサイクル全体に対してメリットを提供する行動モデルである。 しかし、機械ライフサイクル全体を通しての行動モデルの作成、適応、利用は非常に時間がかかるため、コスト対効果比を改善するためのアプローチが必要である。 さらに、特定のユースケースが欠如しており、マシンライフサイクル上での行動モデルの適用と追加のメリットが示されているため、業界における行動モデルの普遍的な適用は、研究に比べて依然として不足している。 本稿ではまず,機械ライフサイクルの文脈におけるディジタルツインと行動モデルの基礎,課題,および関連する研究について述べる。 次に,デジタル双極子の自動適応の概念を,行動モデルに焦点をあてて提示する。 最後に、上記の研究と産業のギャップに対処するため、機械ライフサイクルにおける様々な実例を実演し、その利点と、異なる生活段階における行動モデルの適用について述べる。

The concept of the Digital Twin, which in the context of this paper is the virtual representation of a production system or its components, can be used as a "digital playground" to master the increasing complexity of these assets. Central subcomponents of the Digital Twin are behavior models that can provide benefits over the entire machine life cycle. However, the creation, adaption and use of behavior models throughout the machine life cycle is very time-consuming, which is why approaches to improve the cost-benefit ratio are needed. Furthermore, there is a lack of specific use cases that illustrate the application and added benefit of behavior models over the machine life cycle, which is why the universal application of behavior models in industry is still lacking compared to research. This paper first presents the fundamentals, challenges and related work on Digital Twins and behavior models in the context of the machine life cycle. Then, concepts for low-effort creation and automatic adaption of Digital Twins are presented, with a focus on behavior models. Finally, the aforementioned gap between research and industry is addressed by demonstrating various realized use cases over the machine life cycle, in which the advantages as well as the application of behavior models in the different life phases are shown.
翻訳日:2024-06-13 16:16:39 公開日:2024-06-12
# LaMOT: 言語によるマルチオブジェクト追跡

LaMOT: Language-Guided Multi-Object Tracking ( http://arxiv.org/abs/2406.08324v1 )

ライセンス: Link先を確認
Yunhao Li, Xiaoqiong Liu, Luke Liu, Heng Fan, Libo Zhang, (参考訳) ビジョンランゲージMOTは重要なトラッキング問題であり、近年注目を集めている。 従来のトラッキングタスクのトレーニングセットからテンプレートや事前設定情報を置き換えることで、人間の言語コマンドに基づいてオブジェクトを追跡することを目的としている。 様々な努力にもかかわらず、重要な課題は、なぜ言語が追跡に使用されるのかを明確に理解していないことである。 本稿では,多種多様なシナリオや言語記述を含む大規模ベンチマークであるLaMOTとともに,統一タスクフレームワークであるLanguage-Guided MOTを導入することで,この問題に対処する。 特にLaMOTは、4つの異なるデータセットから1,660のシーケンスで構成され、標準化された評価プラットフォームを提供しながら、様々なビジョンランゲージMOTタスクを統合することを目的としている。 高品質なアノテーションを確保するため、ビデオ毎に適切な記述テキストを各ターゲットに手動で割り当て、注意深い検査と修正を行う。 私たちの知る限りでは、LaMOTはLanguage-Guided MOT専用の最初のベンチマークです。 また,LaMOTerと呼ばれるシンプルなトラッカーを提案する。 統合されたタスクフレームワークを確立し、挑戦的なベンチマークを提供し、将来のアルゴリズム設計と評価のための洞察を提供することで、ビジョンランゲージMOTの研究の発展に寄与することを期待している。 データはhttps://github.com/Nathan-Li123/LaMOT.comで公開します。

Vision-Language MOT is a crucial tracking problem and has drawn increasing attention recently. It aims to track objects based on human language commands, replacing the traditional use of templates or pre-set information from training sets in conventional tracking tasks. Despite various efforts, a key challenge lies in the lack of a clear understanding of why language is used for tracking, which hinders further development in this field. In this paper, we address this challenge by introducing Language-Guided MOT, a unified task framework, along with a corresponding large-scale benchmark, termed LaMOT, which encompasses diverse scenarios and language descriptions. Specially, LaMOT comprises 1,660 sequences from 4 different datasets and aims to unify various Vision-Language MOT tasks while providing a standardized evaluation platform. To ensure high-quality annotations, we manually assign appropriate descriptive texts to each target in every video and conduct careful inspection and correction. To the best of our knowledge, LaMOT is the first benchmark dedicated to Language-Guided MOT. Additionally, we propose a simple yet effective tracker, termed LaMOTer. By establishing a unified task framework, providing challenging benchmarks, and offering insights for future algorithm design and evaluation, we expect to contribute to the advancement of research in Vision-Language MOT. We will release the data at https://github.com/Nathan-Li123/LaMOT.
翻訳日:2024-06-13 16:16:39 公開日:2024-06-12
# PRに関するすべて -- パフォーマンス代表を用いたスマートベンチマークAIアクセラレータ

It's all about PR -- Smart Benchmarking AI Accelerators using Performance Representatives ( http://arxiv.org/abs/2406.08330v1 )

ライセンス: Link先を確認
Alexander Louis-Ferdinand Jung, Jannik Steinmetz, Jonathan Gietz, Konstantin Lübeck, Oliver Bringmann, (参考訳) 統計モデルは、商用オフザシェルフ(COTS)AIハードウェアアクセラレータのパフォーマンスを推定するために広く使用されている。 しかし、統計性能モデルのトレーニングには大量のデータを必要とすることが多く、ハードウェアの可用性が限られている場合、かなりの時間的投資につながる可能性がある。 そこで,本研究では,精度を保ちながらトレーニングサンプル数を大幅に削減する性能モデリング手法を提案する。 当社のアプローチでは,対象とするハードウェアアーキテクチャと初期パラメータスイープの知識を活用して,ディープニューラルネットワーク(DNN)レイヤのパフォーマンス代表(PR)のセットを特定する。 これらのPRは、ベンチマーク、統計的パフォーマンスモデルの構築、推定に使用される。 このターゲットアプローチは、ランダムサンプリングとは対照的に、必要なトレーニングサンプルの数を劇的に削減し、より良い推定精度を実現する。 単層推定では0.02%,DNN推定では0.68%という平均絶対誤差(MAPE)を10000以下のトレーニングサンプルで達成する。 その結果,同じ大きさのランダムサンプリングデータセットを用いて学習したモデルと比較して,単層推定法の方が優れていることが示された。

Statistical models are widely used to estimate the performance of commercial off-the-shelf (COTS) AI hardware accelerators. However, training of statistical performance models often requires vast amounts of data, leading to a significant time investment and can be difficult in case of limited hardware availability. To alleviate this problem, we propose a novel performance modeling methodology that significantly reduces the number of training samples while maintaining good accuracy. Our approach leverages knowledge of the target hardware architecture and initial parameter sweeps to identify a set of Performance Representatives (PR) for deep neural network (DNN) layers. These PRs are then used for benchmarking, building a statistical performance model, and making estimations. This targeted approach drastically reduces the number of training samples needed, opposed to random sampling, to achieve a better estimation accuracy. We achieve a Mean Absolute Percentage Error (MAPE) of as low as 0.02% for single-layer estimations and 0.68% for whole DNN estimations with less than 10000 training samples. The results demonstrate the superiority of our method for single-layer estimations compared to models trained with randomly sampled datasets of the same size.
翻訳日:2024-06-13 16:16:39 公開日:2024-06-12
# 逆分類のための下位境界計算のための遺伝的カラム生成

Genetic Column Generation for Computing Lower Bounds for Adversarial Classification ( http://arxiv.org/abs/2406.08331v1 )

ライセンス: Link先を確認
Maximilian Penka, (参考訳) 直交多クラス分類に関する最近の理論的結果は, 最適輸送におけるワッサーシュタイン・バリセンターのマルチマルジナル定式化と類似していた。 残念ながら、どちらの問題も次元の呪いに悩まされており、数値計算における問題の線形プログラム構造をうまく活用することは困難である。 マルチ階層の最適輸送のための遺伝的カラム生成のアイデアは、マルチクラス分類における最小対角リスクの計算において、次元の呪いを克服するためにどのように使用できるかを検討する。

Recent theoretical results on adversarial multi-class classification showed a similarity to the multi-marginal formulation of Wasserstein-barycenter in optimal transport. Unfortunately, both problems suffer from the curse of dimension, making it hard to exploit the nice linear program structure of the problems for numerical calculations. We investigate how ideas from Genetic Column Generation for multi-marginal optimal transport can be used to overcome the curse of dimension in computing the minimal adversarial risk in multi-class classification.
翻訳日:2024-06-13 16:16:39 公開日:2024-06-12
# UDON:汎用画像表現のためのユニバーサルダイナミックオンライン蒸留器

UDON: Universal Dynamic Online distillatioN for generic image representations ( http://arxiv.org/abs/2406.08332v1 )

ライセンス: Link先を確認
Nikolaos-Antonios Ypsilantis, Kaifeng Chen, André Araujo, Ondřej Chum, (参考訳) 普遍的な画像表現は、任意のドメインのオブジェクトやエンティティを大規模に識別する必要がある、現実世界の微粒化およびインスタンスレベルの認識アプリケーションを可能にするために重要である。 最近の進歩にもかかわらず、既存のメソッドは重要なドメイン固有の知識を捉えることができず、異なるドメイン間でのデータ分散の違いも無視している。 これにより、効率的なユニバーサルソリューションと、ドメイン毎に1つずつ専門的なモデルのコレクションを活用する高価なアプローチの間に、大きなパフォーマンスのギャップが生じる。 本研究では,UDON (Universal Dynamic Online DistillatioN) と呼ばれる新たな学習手法を導入することで,このギャップを解消するために大きな努力を払っている。 UDONでは、各教師が1つのドメインに特化して、詳細なドメイン固有の知識を学生の普遍的な埋め込みに伝達するマルチティーチンガー蒸留を採用している。 UDONの蒸留アプローチは、学生と全教師の間でモデルパラメータのほとんどを共有し、全てのモデルがオンラインで共同で訓練されることによって効果的であるだけでなく、非常に効率的である。 UDONはまた、学習が遅く、より頻繁な処理を必要とするドメインにバッチを動的に割り当てるために、トレーニングプロセスに適応するサンプリング技術も備えている。 これにより、多くのクラスと長い尾の分布によって特徴づけられる複雑な領域の学習が著しく促進される。 総合的な実験により、UDONの各コンポーネントを検証するとともに、最近のUnEDベンチマークで最先端よりも大幅に改善されていることを示す。 コード:https://github.com/nikosips/UDON

Universal image representations are critical in enabling real-world fine-grained and instance-level recognition applications, where objects and entities from any domain must be identified at large scale. Despite recent advances, existing methods fail to capture important domain-specific knowledge, while also ignoring differences in data distribution across different domains. This leads to a large performance gap between efficient universal solutions and expensive approaches utilising a collection of specialist models, one for each domain. In this work, we make significant strides towards closing this gap, by introducing a new learning technique, dubbed UDON (Universal Dynamic Online DistillatioN). UDON employs multi-teacher distillation, where each teacher is specialized in one domain, to transfer detailed domain-specific knowledge into the student universal embedding. UDON's distillation approach is not only effective, but also very efficient, by sharing most model parameters between the student and all teachers, where all models are jointly trained in an online manner. UDON also comprises a sampling technique which adapts the training process to dynamically allocate batches to domains which are learned slower and require more frequent processing. This boosts significantly the learning of complex domains which are characterised by a large number of classes and long-tail distributions. With comprehensive experiments, we validate each component of UDON, and showcase significant improvements over the state of the art in the recent UnED benchmark. Code: https://github.com/nikosips/UDON .
翻訳日:2024-06-13 16:16:39 公開日:2024-06-12
# ProTrain: メモリ認識技術による効率的なLLMトレーニング

ProTrain: Efficient LLM Training via Memory-Aware Techniques ( http://arxiv.org/abs/2406.08334v1 )

ライセンス: Link先を確認
Hanmei Yang, Jin Zhou, Yao Fu, Xiaoqun Wang, Ramine Roane, Hui Guan, Tongping Liu, (参考訳) LLM(Large Language Models)を訓練するのは非常にメモリ不足です。 この問題を解決するために、既存の作業では、ZeRO-OffloadのようなトレーニングプロセスにCPUとGPUの組み合わせを活用している。 このような技術は何十億ものモデルトレーニングを民主化し、少数の消費者向けグラフィックカードでトレーニングすることができる。 しかしながら,既存のフレームワークではメモリ管理が粗い場合が多く,設定チューニングに熟練した専門家が必要であり,ハードウェアの最適利用と性能が向上する。 本稿では,メモリ,計算,IOを協調してメモリ使用量と性能をインテリジェントにバランスさせる新しいトレーニングシステムであるProTrainを提案する。 ProTrainは、Chunkベースのモデル状態管理とBlock-Wise Activation Managementを通じて、ユーザの介入なしにMemory-Aware Runtime Profilerによってガイドされる適応型メモリ管理を実現する。 ProTrainはトレーニングアルゴリズムを変更しないため、精度を損なわない。 実験によると、ProTrainはSOTAのトレーニングシステムと比較して、トレーニングのスループットを1.43$\times$から2.71$\times$に改善している。

It is extremely memory-hungry to train Large Language Models (LLM). To solve this problem, existing work exploits the combination of CPU and GPU for the training process, such as ZeRO-Offload. Such a technique largely democratizes billion-scale model training, making it possible to train with few consumer graphics cards. However, based on our observation, existing frameworks often provide coarse-grained memory management and require experienced experts in configuration tuning, leading to suboptimal hardware utilization and performance. This paper proposes ProTrain, a novel training system that intelligently balances memory usage and performance by coordinating memory, computation, and IO. ProTrain achieves adaptive memory management through Chunk-Based Model State Management and Block-Wise Activation Management, guided by a Memory-Aware Runtime Profiler without user intervention. ProTrain does not change the training algorithm and thus does not compromise accuracy. Experiments show that ProTrain improves training throughput by 1.43$\times$ to 2.71$\times$ compared to the SOTA training systems.
翻訳日:2024-06-13 16:16:39 公開日:2024-06-12
# データエンジニアリングのためのパイプラインツールに関する調査

A Survey of Pipeline Tools for Data Engineering ( http://arxiv.org/abs/2406.08335v1 )

ライセンス: Link先を確認
Anthony Mbata, Yaji Sripada, Mingjun Zhong, (参考訳) 現在、さまざまなパイプラインツールがデータエンジニアリングで使用することができる。 データサイエンティストはこれらのツールを使用して、データに関連する問題を解決し、データの準備から機械学習(ML)の入力としての利用に至るまでのデータエンジニアリングタスクを達成できる。 これらのツールのいくつかは、必須の組み込みコンポーネントを持っているか、あるいは、望ましいデータエンジニアリング操作を実行するために他のツールと組み合わせることができる。 一部のツールは完全あるいは部分的に商用だが、専門家レベルのデータエンジニアリングタスクを実行するためにいくつかのオープンソースツールが利用可能である。 この調査では、パイプラインツールの設計とデータエンジニアリングの意図に基づいて、幅広いカテゴリと例を調査した。 これらのカテゴリは、ETL/ELT(Extract Transform Load/Extract Load Transform)、データ統合、取り込み、変換のためのパイプライン、データパイプラインオーケストレーションとワークフロー管理、マシンラーニングパイプラインである。 そして最後に、データエンジニアリングにパイプラインツールを使用するケーススタディを紹介する。 この研究は、サンプルデータを使った最初のユーザアプリケーション体験、応用パイプラインの複雑さ、そしてこれらのツールを使用して機械学習のデータを作成するためのアプローチの概要を提示する。

Currently, a variety of pipeline tools are available for use in data engineering. Data scientists can use these tools to resolve data wrangling issues associated with data and accomplish some data engineering tasks from data ingestion through data preparation to utilization as input for machine learning (ML). Some of these tools have essential built-in components or can be combined with other tools to perform desired data engineering operations. While some tools are wholly or partly commercial, several open-source tools are available to perform expert-level data engineering tasks. This survey examines the broad categories and examples of pipeline tools based on their design and data engineering intentions. These categories are Extract Transform Load/Extract Load Transform (ETL/ELT), pipelines for Data Integration, Ingestion, and Transformation, Data Pipeline Orchestration and Workflow Management, and Machine Learning Pipelines. The survey also provides a broad outline of the utilization with examples within these broad groups and finally, a discussion is presented with case studies indicating the usage of pipeline tools for data engineering. The studies present some first-user application experiences with sample data, some complexities of the applied pipeline, and a summary note of approaches to using these tools to prepare data for machine learning.
翻訳日:2024-06-13 16:16:39 公開日:2024-06-12
# CoLM-DSR: マルチモーダルな変形性音声再構成のためのニューラルコーデック言語モデリング

CoLM-DSR: Leveraging Neural Codec Language Modeling for Multi-Modal Dysarthric Speech Reconstruction ( http://arxiv.org/abs/2406.08336v1 )

ライセンス: Link先を確認
Xueyuan Chen, Dongchao Yang, Dingdong Wang, Xixin Wu, Zhiyong Wu, Helen Meng, (参考訳) 変形性音声再建(DSR)は、変形性音声を正常な音声に変換することを目的としている。 話者の類似度は低く、プロソディの自然度は低い。 本稿では,ニューラルコーデック言語モデリングを応用したマルチモーダルDSRモデルを提案する。 提案したモデルは以下の通りである。 i) 複数のモーダルコンテンツエンコーダを用いて,変形性音声からの強靭な音素埋め込みを補助的な視覚入力で抽出すること。 2 変形性音声から話者認識コーデックを抽出し、正常化するスピーカコーデックエンコーダであって、本来の音色及び正常韻律を提供するもの 三 コーデック言語モデルに基づく音声デコーダで、抽出した音素埋め込みと正規化コーデックに基づいて音声を再構成する。 UASpeech corpus を用いた評価の結果,提案手法は話者の類似性や韻律の自然性において有意な改善が得られた。

Dysarthric speech reconstruction (DSR) aims to transform dysarthric speech into normal speech. It still suffers from low speaker similarity and poor prosody naturalness. In this paper, we propose a multi-modal DSR model by leveraging neural codec language modeling to improve the reconstruction results, especially for the speaker similarity and prosody naturalness. Our proposed model consists of: (i) a multi-modal content encoder to extract robust phoneme embeddings from dysarthric speech with auxiliary visual inputs; (ii) a speaker codec encoder to extract and normalize the speaker-aware codecs from the dysarthric speech, in order to provide original timbre and normal prosody; (iii) a codec language model based speech decoder to reconstruct the speech based on the extracted phoneme embeddings and normalized codecs. Evaluations on the commonly used UASpeech corpus show that our proposed model can achieve significant improvements in terms of speaker similarity and prosody naturalness.
翻訳日:2024-06-13 16:06:55 公開日:2024-06-12
# WMAdapter:潜伏拡散モデルにWaterMarkコントロールを追加する

WMAdapter: Adding WaterMark Control to Latent Diffusion Models ( http://arxiv.org/abs/2406.08337v1 )

ライセンス: Link先を確認
Hai Ci, Yiren Song, Pei Yang, Jinheng Xie, Mike Zheng Shou, (参考訳) ウォーターマーキングは、AI生成画像の著作権を保護するために不可欠である。 WMAdapterは,ユーザが指定した透かし情報を取り込み,拡散生成プロセス中にシームレスな透かしインプリントを可能にする拡散モデル透かしプラグインである。 WMAdapterは効率的で堅牢であり、高品質に重点を置いている。 そこで本研究では,(1)より軽量で,事前訓練されたポストホック透かしモデルから効果的な知識伝達が可能なコンテキスト適応構造を開発する。 2) 画像品質をさらに向上し, 微小なアーティファクトを除去するために, 余分な微細化のステップを導入し, ハイブリッドな微細化戦略を設計する。 実験の結果、WMAdapterは強力な柔軟性、例外的な画像生成品質、競争力のある透かしの堅牢性を提供することが示された。

Watermarking is crucial for protecting the copyright of AI-generated images. We propose WMAdapter, a diffusion model watermark plugin that takes user-specified watermark information and allows for seamless watermark imprinting during the diffusion generation process. WMAdapter is efficient and robust, with a strong emphasis on high generation quality. To achieve this, we make two key designs: (1) We develop a contextual adapter structure that is lightweight and enables effective knowledge transfer from heavily pretrained post-hoc watermarking models. (2) We introduce an extra finetuning step and design a hybrid finetuning strategy to further improve image quality and eliminate tiny artifacts. Empirical results demonstrate that WMAdapter offers strong flexibility, exceptional image generation quality and competitive watermark robustness.
翻訳日:2024-06-13 16:06:55 公開日:2024-06-12
# 例外点を持つデュアル・ユニタリ量子回路の特殊相関関数

Exact Correlation Functions for Dual-Unitary Quantum circuits with exceptional points ( http://arxiv.org/abs/2406.08338v1 )

ライセンス: Link先を確認
Xi-Dan Hu, Dan-Bo Zhang, (参考訳) デュアルユニタリ量子回路は、転送行列から局所作用素の時空間相関関数を解析的に提供し、正確な解による量子力学の理解を深める。 それでも、例外的な点を持つ非対角変換行列が研究されていないため、完全な理解はいまだに欠けている。 本稿では、転送行列と局所ユニタリゲートの関係を確立することにより、転送行列に例外点を持つデュアルユニタリ量子回路を構築するための逆アプローチを提案する。 固有ベクトルの結合の結果、相関関数は多項式修飾指数減衰を示すが、これは純粋な指数崩壊とは大きく異なる。 さらに、蹴られたXXZスピン鎖のハミルトン的進化は、トロッター分解による例外点を持つ双対単位回路に概ねマッピング可能であることを指摘した。 最後に, ラプラス変換によって相関関数の挙動が異なることを示す。

Dual-unitary quantum circuits can provide analytic spatiotemporal correlation functions of local operators from transfer matrices, enriching our understanding of quantum dynamics with exact solutions. Nevertheless, a full understanding is still lacking as the case of a non-diagonalizable transfer matrix with exceptional points has less been investigated. In this paper, we give an inverse approach for constructing dual-unitary quantum circuits with exceptional points in the transfer matrices, by establishing relations between transfer matrices and local unitary gates. As a consequence of the coalesce of eigenvectors, the correlation functions exhibit a polynomial modified exponential decay, which is significantly different from pure exponential decay, especially at early stages. Moreover, we point out that the Hamiltonian evolution of a kicked XXZ spin chain can be approximately mapped to a dual-unitary circuit with exceptional points by Trotter decomposition. Finally, we investigate the dynamics approaching and at exceptional points, showing that behaviors of correlation functions are distinct by Laplace transformation.
翻訳日:2024-06-13 16:06:55 公開日:2024-06-12
# シナリオベースのモバイルアプリテストの実践的自動化

Practical, Automated Scenario-based Mobile App Testing ( http://arxiv.org/abs/2406.08340v1 )

ライセンス: Link先を確認
Shengcheng Yu, Chunrong Fang, Mingzhe Du, Zimin Ding, Zhenyu Chen, Zhendong Su, (参考訳) モバイルインターネットの急速な発展に伴い,モバイルアプリケーション(アプリケーション)品質保険の重要性が高まっている。 アプリ品質保険の主要な方向性として自動テスト生成アプローチは、コードカバレッジの最適化を目標として、特定のモデルや戦略に従う。 このようなアプローチは、テスト実行とアプリビジネスロジックの間に大きなギャップをもたらします。 ヒューマンテスタが開発したテストスクリプトは、テストシナリオに集中してビジネスロジックを検討する。 モバイルアプリのGUI集約的な機能のため、ヒューマンテスタは常にアプリケーションのGUIを理解して、シナリオのテストスクリプトを整理します。 これにより、アプリケーションGUIの理解からドメイン知識をシナリオベースのテスト生成に活用するインスピレーションが得られます。 本稿では,GUI画像理解によるイベント知識グラフ(EKG)を用いたシナリオベースのモバイルアプリテストのための新しいアプローチであるScenTestを提案する。 ScenTestは、人間のプラクティスを模倣し、ドメイン知識をシナリオベースのモバイルアプリテストに統合することで、自動テストを開始する。 ScenTestは、テストイベントとアプリGUI情報が提示されるクラウドソーステストレポートから、4種類のエンティティと5種類の対応する関係を抽出し、特定のシナリオのためのEKGを構築する。 次に、ScenTestは、アプリの現在の状態とテストコンテキストを考慮し、EKGのガイダンスで、異なるアプリケーションの特定のシナリオのテスト生成を実行する。 我々は異なる側面でScenTestの評価を行う。 結果は,EKGに基づくSkenTestのテスト生成が有効であることを示し,SkenTestは特定のシナリオにおいて,代表的ベースラインと比較して80以上の異なる実世界のバグを明らかにすることができることを示した。

The importance of mobile application (app) quality insurance is increasing with the rapid development of the mobile Internet. Automated test generation approaches, as a dominant direction of app quality insurance, follow specific models or strategies, targeting at optimizing the code coverage. Such approaches lead to a huge gap between testing execution and app business logic. Test scripts developed by human testers consider business logic by focusing on testing scenarios. Due to the GUI-intensive feature of mobile apps, human testers always understand app GUI to organize test scripts for scenarios. This inspires us to utilize domain knowledge from app GUI understanding for scenario-based test generation. In this paper, we propose a novel approach, ScenTest, for scenario-based mobile app testing with event knowledge graph (EKG) via GUI image understanding. ScenTest tries to start automated testing by imitating human practices and integrating domain knowledge into scenario-based mobile app testing, realizing fully automated testing on target testing scenarios for the first time. ScenTest extracts four kinds of entities and five kinds of corresponding relationships from crowdsourced test reports, where the test events and app GUI information are presented, and constructs the EKGs for specific scenarios. Then, ScenTest conducts test generation for specific scenarios on different apps with the guidance of EKG with the combination consideration of app current state and testing context. We conduct an evaluation on ScenTest on different aspects. The results show that the test generation of ScenTest on the basis of EKG is effective, and ScenTest can reveal 80+ distinct real-world bugs in specific scenarios compared with representative baselines.
翻訳日:2024-06-13 16:06:55 公開日:2024-06-12
# アナログ機械式ニューラルディファレンシャル方程式を用いた連続時間ディジタルツイン

Continuous-Time Digital Twin with Analogue Memristive Neural Ordinary Differential Equation Solver ( http://arxiv.org/abs/2406.08343v1 )

ライセンス: Link先を確認
Hegan Chen, Jichang Yang, Jia Chen, Songqi Wang, Shaocong Wang, Dingchen Wang, Xinyu Tian, Yifei Yu, Xi Chen, Yinan Lin, Yangu He, Xiaoshan Wu, Yi Li, Xinyuan Zhang, Ning Lin, Meng Xu, Yi Li, Xumeng Zhang, Zhongrui Wang, Han Wang, Dashan Shang, Qi Liu, Kwang-Ting Cheng, Ming Liu, (参考訳) デジタル双生児(Digital twins)は、産業4.0の基盤であり、コンピュータモデルを通じて現実世界の実体を再現し、製造管理や産業自動化といった分野に革命をもたらした。 機械学習の最近の進歩は、デジタルコンピュータ上の離散時間データと有限深度モデルを用いて、デジタル双生児を開発するためのデータ駆動手法を提供する。 しかし、このアプローチは根底にある連続力学を捉えることに失敗し、複雑なシステムの振る舞いをモデル化するのに苦労する。 さらに、異なるストレージと処理ユニットを持つデジタルコンピュータのアーキテクチャは、頻繁なデータ転送とAnalogue-Digital(A/D)変換を必要とし、時間とエネルギーの両方のコストを大幅に増加させる。 本稿では, 連続時間ダイナミクスを捕捉し, 無限深度モデルを用いた複雑なシステムのモデリングを容易にする, ディジタル双極子に対する経験的ニューラル常微分方程式(ODE)ソルバを提案する。 アナログメムリスタアレイに記憶と計算を統合することで、フォン・ノイマンのボトルネックを回避し、速度とエネルギー効率を両立させる。 我々は,HP memristorのディジタルツインを開発し,その非線形力学を正確に外挿し,最新のディジタルハードウェアと比較して4.2倍の予測速度と41.4倍の予測エネルギーの減少を実現し,許容可能な誤差マージンを維持しながら,我々のアプローチを実験的に検証した。 さらに,ロレンツ96の動的シミュレーションによるスケーラビリティを実証し,従来のディジタル手法と比較して,12.6倍,189.7倍の性能向上が期待できることを示した。 完全アナログコンピューティングの能力を活用することで、我々のブレークスルーはデジタル双生児の開発を加速し、産業4.0の要求を満たすための効率的かつ迅速なソリューションを提供する。

Digital twins, the cornerstone of Industry 4.0, replicate real-world entities through computer models, revolutionising fields such as manufacturing management and industrial automation. Recent advances in machine learning provide data-driven methods for developing digital twins using discrete-time data and finite-depth models on digital computers. However, this approach fails to capture the underlying continuous dynamics and struggles with modelling complex system behaviour. Additionally, the architecture of digital computers, with separate storage and processing units, necessitates frequent data transfers and Analogue-Digital (A/D) conversion, thereby significantly increasing both time and energy costs. Here, we introduce a memristive neural ordinary differential equation (ODE) solver for digital twins, which is capable of capturing continuous-time dynamics and facilitates the modelling of complex systems using an infinite-depth model. By integrating storage and computation within analogue memristor arrays, we circumvent the von Neumann bottleneck, thus enhancing both speed and energy efficiency. We experimentally validate our approach by developing a digital twin of the HP memristor, which accurately extrapolates its nonlinear dynamics, achieving a 4.2-fold projected speedup and a 41.4-fold projected decrease in energy consumption compared to state-of-the-art digital hardware, while maintaining an acceptable error margin. Additionally, we demonstrate scalability through experimentally grounded simulations of Lorenz96 dynamics, exhibiting projected performance improvements of 12.6-fold in speed and 189.7-fold in energy efficiency relative to traditional digital approaches. By harnessing the capabilities of fully analogue computing, our breakthrough accelerates the development of digital twins, offering an efficient and rapid solution to meet the demands of Industry 4.0.
翻訳日:2024-06-13 16:06:55 公開日:2024-06-12
# 深層学習パイプライン統合FFT-ReLUを用いたブラインド画像のデブロアリング

Blind Image Deblurring using FFT-ReLU with Deep Learning Pipeline Integration ( http://arxiv.org/abs/2406.08344v1 )

ライセンス: Link先を確認
Abdul Mohaimen Al Radi, Prothito Shovon Majumder, Syed Mumtahin Mahmud, Mahdi Mohd Hossain Noki, Md. Haider Ali, Md. Mosaddek Khan, (参考訳) ブラインド画像デブロアリング(Blind image deblurring)は、ぼやけた画像からシャープ画像とぼやけたカーネルを導出する過程である。 ぼやけた画像は、通常、ぼやけたカーネルを持つシャープなイメージの畳み込みとしてモデル化され、ブラインドなイメージを効果的に損なうために未知のぼやけたカーネルを推定する必要がある。 既存のアプローチは主に、サリアントエッジ、ダークチャネル、ライトストリークといった、画像のドメイン固有の特徴に焦点を当てている。 これらの機能は、ぼやけたカーネルの見積を強化するための確率的先行機能として機能する。 画像のすべての分布(自然, 顔, テキスト, 低照度, 飽和など)において, ボケカーネルを効果的に推定する新しい事前(ReLUスペーサリティ前)を提案する。 提案手法は,PSNR,SSIM,誤差比の測定値の精度を維持しつつ,最大3倍の精度で推定時間を高速化する。 また,本手法が後処理ユニットとして使用される場合,ディープラーニングに基づくアプローチにおいて,最先端アーキテクチャ(前述のメトリクスの観点から)の性能が顕著に向上することが観察された。

Blind image deblurring is the process of deriving a sharp image and a blur kernel from a blurred image. Blurry images are typically modeled as the convolution of a sharp image with a blur kernel, necessitating the estimation of the unknown blur kernel to perform blind image deblurring effectively. Existing approaches primarily focus on domain-specific features of images, such as salient edges, dark channels, and light streaks. These features serve as probabilistic priors to enhance the estimation of the blur kernel. For improved generality, we propose a novel prior (ReLU sparsity prior) that estimates blur kernel effectively across all distributions of images (natural, facial, text, low-light, saturated etc). Our approach demonstrates superior efficiency, with inference times up to three times faster, while maintaining high accuracy in PSNR, SSIM, and error ratio metrics. We also observe noticeable improvement in the performance of the state-of-the-art architectures (in terms of aforementioned metrics) in deep learning based approaches when our method is used as a post-processing unit.
翻訳日:2024-06-13 16:06:55 公開日:2024-06-12
# ASR文字による音声感情認識:単語誤り率と融合技術に関する総合的研究

Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques ( http://arxiv.org/abs/2406.08353v1 )

ライセンス: Link先を確認
Yuanchao Li, Peter Bell, Catherine Lai, (参考訳) テキストデータは、音声感情認識(SER)の性能と信頼性を高めるための一次入力として一般的に利用される。 しかし、ほとんどの研究における人書きテキストへの依存は、実用的なSERシステムの開発を阻害し、ASR(Automatic Speech Recognition)がテキストソースとして機能する実世界のシナリオとのギャップを生じさせる。 そこで本研究では,よく知られたコーパス(IEMOCAP, CMU-MOSI, MSP-Podcast)上で,単語誤り率 (WER) の異なるASR文字を用いたSER性能のベンチマークを行った。 本評価では, テキストのみおよびバイモーダルSERを多種多様な融合技術で適用し, 現在のSER研究で直面する新たな発見と課題を明らかにする包括的分析をめざした。 さらに, ASR 誤り訂正とモダリティゲート融合を統合した ASR 誤り処理フレームワークを提案する。 この研究は、特に現実世界のアプリケーションにおいて、ASR支援によるSERに関する洞察を提供することが期待されている。

Text data is commonly utilized as a primary input to enhance Speech Emotion Recognition (SER) performance and reliability. However, the reliance on human-transcribed text in most studies impedes the development of practical SER systems, creating a gap between in-lab research and real-world scenarios where Automatic Speech Recognition (ASR) serves as the text source. Hence, this study benchmarks SER performance using ASR transcripts with varying Word Error Rates (WERs) on well-known corpora: IEMOCAP, CMU-MOSI, and MSP-Podcast. Our evaluation includes text-only and bimodal SER with diverse fusion techniques, aiming for a comprehensive analysis that uncovers novel findings and challenges faced by current SER research. Additionally, we propose a unified ASR error-robust framework integrating ASR error correction and modality-gated fusion, achieving lower WER and higher SER results compared to the best-performing ASR transcript. This research is expected to provide insights into SER with ASR assistance, especially for real-world applications.
翻訳日:2024-06-13 16:06:55 公開日:2024-06-12
# DocSynthv2: ドキュメント生成のための実用的な自動回帰モデリング

DocSynthv2: A Practical Autoregressive Modeling for Document Generation ( http://arxiv.org/abs/2406.08354v1 )

ライセンス: Link先を確認
Sanket Biswas, Rajiv Jain, Vlad I. Morariu, Jiuxiang Gu, Puneet Mathur, Curtis Wigington, Tong Sun, Josep Lladós, (参考訳) ドキュメントレイアウトの生成は広く検討されているが、レイアウトとコンテンツの両方を含む包括的なドキュメント生成は、より複雑な課題である。 本稿は、単純で効果的な自己回帰構造モデルの開発を通じて、DocSynthv2と呼ばれる新しいアプローチを提案する。 我々のモデルは、レイアウトとテキストの両方を統合する点で際立ったものであり、既存のレイアウト生成アプローチを超える一歩を踏み出している。 文書中の構造的要素とテキスト内容の関係に着目して,視覚的要素に依存しない密集的かつ文脈的に関連のある文書を作成することを目指す。 本研究は,新しいタスクに対する評価ベンチマーク実験を通じて,文書の生成品質と関連性を向上し,文書作成と自動設計の新たな経路を開拓する上で,レイアウトとテキスト情報を組み合わせたモデルの有効性を実証するものである。 本研究は,複雑な文書生成タスクの処理における自己回帰モデルの有効性を強調した。

While the generation of document layouts has been extensively explored, comprehensive document generation encompassing both layout and content presents a more complex challenge. This paper delves into this advanced domain, proposing a novel approach called DocSynthv2 through the development of a simple yet effective autoregressive structured model. Our model, distinct in its integration of both layout and textual cues, marks a step beyond existing layout-generation approaches. By focusing on the relationship between the structural elements and the textual content within documents, we aim to generate cohesive and contextually relevant documents without any reliance on visual components. Through experimental studies on our curated benchmark for the new task, we demonstrate the ability of our model combining layout and textual information in enhancing the generation quality and relevance of documents, opening new pathways for research in document creation and automated design. Our findings emphasize the effectiveness of autoregressive models in handling complex document generation tasks.
翻訳日:2024-06-13 16:06:55 公開日:2024-06-12
# 社会的認知的視点から:コンテキストを考慮した視覚的社会的関係認識

From a Social Cognitive Perspective: Context-aware Visual Social Relationship Recognition ( http://arxiv.org/abs/2406.08358v1 )

ライセンス: Link先を確認
Shiwei Wu, Chao Zhang, Joya Chen, Tong Xu, Likang Wu, Yao Hu, Enhong Chen, (参考訳) 人々の社会的関係はしばしば周囲を通じて現れ、特定の関係、例えば結婚式の指輪、バラ、抱擁、手を握る特定の物体や相互作用のシンボルとして振る舞う。 これは、社会的関係を認識し、視覚的な外見からこれらの文脈の本質を理解し、捉えなければならないというユニークな課題をもたらす。 しかし、現在の社会的関係理解の手法は、検出された人や対象の基本的な分類パラダイムに依存しており、包括的文脈の理解に失敗し、決定的な社会的要因、特に微妙な視覚的手がかりを見落としていることが多い。 社会的認識の文脈と複雑な詳細を明らかにするために,社会的認知的視点から, 社会的認知的視点から, 社会的認知的視点から, 社会的認知的視点を認識できる新しいアプローチを提案する。 具体的には、ソーシャル・アウェア・セマンティクスを組み込むために、凍結したCLIP上に軽量なアダプタを構築し、新しいマルチモーダル・サイド・アダプタ・チューニング機構を通じて社会概念を学習する。 さらに、各画像の社会的関係を反映した社会認識記述言語プロンプト(シーン、アクティビティ、オブジェクト、感情)を構築し、コンソーRを視覚言語コントラストによる決定的な視覚的社会的要因に集中させる。 印象的なことに、ConSoRは従来の手法を上回り、Person-in-Social-Context(PISC)データセットでは12.2\%、Person-in-Photo-Album(PIPA)ベンチマークでは9.8\%上昇している。 さらに,ConSoRは,社会的関係を明らかにするための重要な視覚的証拠の発見に優れていた。

People's social relationships are often manifested through their surroundings, with certain objects or interactions acting as symbols for specific relationships, e.g., wedding rings, roses, hugs, or holding hands. This brings unique challenges to recognizing social relationships, requiring understanding and capturing the essence of these contexts from visual appearances. However, current methods of social relationship understanding rely on the basic classification paradigm of detected persons and objects, which fails to understand the comprehensive context and often overlooks decisive social factors, especially subtle visual cues. To highlight the social-aware context and intricate details, we propose a novel approach that recognizes \textbf{Con}textual \textbf{So}cial \textbf{R}elationships (\textbf{ConSoR}) from a social cognitive perspective. Specifically, to incorporate social-aware semantics, we build a lightweight adapter upon the frozen CLIP to learn social concepts via our novel multi-modal side adapter tuning mechanism. Further, we construct social-aware descriptive language prompts (e.g., scene, activity, objects, emotions) with social relationships for each image, and then compel ConSoR to concentrate more intensively on the decisive visual social factors via visual-linguistic contrasting. Impressively, ConSoR outperforms previous methods with a 12.2\% gain on the People-in-Social-Context (PISC) dataset and a 9.8\% increase on the People-in-Photo-Album (PIPA) benchmark. Furthermore, we observe that ConSoR excels at finding critical visual evidence to reveal social relationships.
翻訳日:2024-06-13 16:06:55 公開日:2024-06-12
# k-State ExclusionによるChoi Rankの運用的解釈

Operational Interpretation of the Choi Rank Through k-State Exclusion ( http://arxiv.org/abs/2406.08360v1 )

ライセンス: Link先を確認
Benjamin Stratton, Chung-Yun Hsieh, Paul Skrzypczyk, (参考訳) チョイ状態は量子チャネルの研究と解析に欠かせない道具である。 関連するChoi状態のチャネルを考えると、問題を大幅に単純化できる。 また、チャネルの特徴付けに代替的なアプローチを提供し、チャネルの振る舞いに関する新しい洞察を提供するChoi状態の特性を提供する。 丁位国家の位階は重んじられ、その重要性は運用上の解釈によってさらに解明されている。 チョイランクは、アリスとボブの2人のエージェントがいかにして絡み合いの支援された排除タスクを実行できるかという普遍的な境界を提供する。 このタスクは超高密度符号化の拡張と見なすことができ、ボブはアリスの符号化されたビットストリングに関する情報のみを確実に出力することができる。 したがって、国家の差別に代えて、包括的国家排除は超高密度符号化プロトコルの成就において考慮される。 この結果を証明するために、この結果を達成するために、一組の状態の k 状態排除を決定づけるための必要条件が提示され、弱かつ強い排除の概念が導入される。

The Choi-state is an indispensable tool in the study and analysis of quantum channels. Considering a channel in terms of its associated Choi-state can greatly simplify problems. It also offers an alternative approach to the characterisation of a channel, with properties of the Choi-state providing novel insight into a channel's behaviour. The rank of a Choi-state, termed the Choi-rank, has proven to be an important characterising property, and here, its significance is further elucidated through an operational interpretation. The Choi-rank is shown to provide a universal bound on how successfully two agents, Alice and Bob, can perform an entanglement-assisted exclusion task. The task can be considered an extension of super-dense coding, where Bob can only output information about Alice's encoded bit-string with certainty. Conclusive state exclusion, in place of state discrimination, is therefore considered at the culmination of the super-dense coding protocol. In order to prove this result, a necessary condition for conclusive k-state exclusion of a set of states is presented in order to achieve this result, and the notions of weak and strong exclusion are introduced.
翻訳日:2024-06-13 16:06:55 公開日:2024-06-12
# ソフトウェア工学研究の文献レビュー

Teaching Literature Reviewing for Software Engineering Research ( http://arxiv.org/abs/2406.08369v1 )

ライセンス: Link先を確認
Sebastian Baltes, Paul Ralph, (参考訳) 本章の目標は,大学院生を文学評論に積極的に紹介する教師を支援することであり,特にセカンダリリサーチに焦点をあてることである。 本報告では, 文献審査プロセスの概観と, 各種文献レビューの実施に関するガイドラインを策定する前に, 文献レビューの実施状況について概説する。 この章は、既存の文献レビューの質を評価するためのレコメンデーションも提供し、私たちの学習目標と、それに対応する教師をいかに支援するかをまとめて締めくくります。

The goal of this chapter is to support teachers in holistically introducing graduate students to literature reviews, with a particular focus on secondary research. It provides an overview of the overall literature review process and the different types of literature review before diving into guidelines for selecting and conducting different types of literature review. The chapter also provides recommendations for evaluating the quality of existing literature reviews and concludes with a summary of our learning goals and how the chapter supports teachers in addressing them.
翻訳日:2024-06-13 16:06:55 公開日:2024-06-12
# APSeg: クロスドメインなFew-Shotセマンティックセマンティックセグメンティクスのためのオートプロンプトネットワーク

APSeg: Auto-Prompt Network for Cross-Domain Few-Shot Semantic Segmentatio ( http://arxiv.org/abs/2406.08372v1 )

ライセンス: Link先を確認
Weizhao He, Yang Zhang, Wei Zhuo, Linlin Shen, Jiaqi Yang, Songhe Deng, Liang Sun, (参考訳) Few-shot semantic segmentation (FSS) は、いくつかのラベル付きサンプルで未確認のクラスをセグメンテーションする試みである。 現在のFSSメソッドは、トレーニングとアプリケーションシナリオが類似したドメインを共有しているという仮定に基づいて構築されている。 そこで我々は,最先端の基盤モデルであるSAM(Segment Anything Model)を一般化の強化に活用することを提案する。 しかしSAMは、主に自然のシーン画像を構成するトレーニングデータとは異なる領域で不満足に動作し、対話的なプロンプト機構のため、特定のセマンティクスの自動セグメンテーションをサポートしない。 本研究では,クロスドメイン・マイクロショットセマンティックセマンティックセマンティックセマンティクス(CD-FSS)のための新しい自動プロンプトネットワークであるAPSegを紹介した。 具体的には,Dual Prototype Anchor Transformation (DPAT)モジュールを提案する。このモジュールは,サポートプロトタイプとサイクル整合性に基づいて抽出された疑似クエリプロトタイプを融合し,より安定したドメインに依存しない空間に機能を変換することができる。 さらに、メタプロンプトジェネレータ(MPG)モジュールを導入して、手動による視覚的なプロンプトを不要にし、プロンプトの埋め込みを自動的に生成する。 我々は、微調整なしでターゲットドメインに直接適用できる効率的なモデルを構築した。 4つのクロスドメインデータセットの大規模な実験により、我々のモデルは1ショット設定と5ショット設定の平均精度をそれぞれ5.24%および3.10%向上させ、最先端のCD-FSS法より優れていることが示された。

Few-shot semantic segmentation (FSS) endeavors to segment unseen classes with only a few labeled samples. Current FSS methods are commonly built on the assumption that their training and application scenarios share similar domains, and their performances degrade significantly while applied to a distinct domain. To this end, we propose to leverage the cutting-edge foundation model, the Segment Anything Model (SAM), for generalization enhancement. The SAM however performs unsatisfactorily on domains that are distinct from its training data, which primarily comprise natural scene images, and it does not support automatic segmentation of specific semantics due to its interactive prompting mechanism. In our work, we introduce APSeg, a novel auto-prompt network for cross-domain few-shot semantic segmentation (CD-FSS), which is designed to be auto-prompted for guiding cross-domain segmentation. Specifically, we propose a Dual Prototype Anchor Transformation (DPAT) module that fuses pseudo query prototypes extracted based on cycle-consistency with support prototypes, allowing features to be transformed into a more stable domain-agnostic space. Additionally, a Meta Prompt Generator (MPG) module is introduced to automatically generate prompt embeddings, eliminating the need for manual visual prompts. We build an efficient model which can be applied directly to target domains without fine-tuning. Extensive experiments on four cross-domain datasets show that our model outperforms the state-of-the-art CD-FSS method by 5.24% and 3.10% in average accuracy on 1-shot and 5-shot settings, respectively.
翻訳日:2024-06-13 16:06:55 公開日:2024-06-12
# 深層学習に基づくマルチユーザMISOパワーアロケーションとビームフォーミング設計

Deep Learning Based Joint Multi-User MISO Power Allocation and Beamforming Design ( http://arxiv.org/abs/2406.08373v1 )

ライセンス: Link先を確認
Cemil Vahapoglu, Timothy J. O'Shea, Tamoghna Roy, Sennur Ulukus, (参考訳) 第5世代(5G)無線通信ネットワークの進化により、より高いデータレート、広範なカバレッジ、低レイテンシ、電力効率を提供する無線リソース管理ソリューションの必要性が高まっている。 しかし、従来のアプローチの多くは、計算上の制限と静的ネットワーク条件とアルゴリズムの初期化依存性の非現実的な推定のため、実用的ではないままである。 これにより、理論解析とアルゴリズムのリアルタイム処理の間に重要なギャップが生じる。 このギャップを埋めるために、ディープラーニングベースの技術は、普遍関数近似の表現能力を備えた有望なソリューションを提供する。 マルチユーザ・マルチインプット・シングルアウトプット(MU-MISO)システムのための非教師なし深層学習に基づくジョイントパワーアロケーションとビームフォーミング設計を提案する。 本研究の目的は,提案する共同設計フレームワークNNBF-Pの総和率を最大化するとともに,従来の手法と対照的に計算効率のよいソリューションを提供することである。 NNBF-Pとゼロ強制ビームフォーミング(ZFBF)、最小平均二乗誤差(MMSE)ビームフォーミング、NNBFの性能を比較するための多様な設定実験を行った。 実験結果から, NNBF は ZFBF よりも NNBF-P の方が優れており, NNBF は MMSE や ZFBF よりも性能が低いことを示す。 また、NNBFに関する共同設計フレームワークの有効性を示すこともできる。

The evolution of fifth generation (5G) wireless communication networks has led to an increased need for wireless resource management solutions that provide higher data rates, wide coverage, low latency, and power efficiency. Yet, many of existing traditional approaches remain non-practical due to computational limitations, and unrealistic presumptions of static network conditions and algorithm initialization dependencies. This creates an important gap between theoretical analysis and real-time processing of algorithms. To bridge this gap, deep learning based techniques offer promising solutions with their representational capabilities for universal function approximation. We propose a novel unsupervised deep learning based joint power allocation and beamforming design for multi-user multiple-input single-output (MU-MISO) system. The objective is to enhance the spectral efficiency by maximizing the sum-rate with the proposed joint design framework, NNBF-P while also offering computationally efficient solution in contrast to conventional approaches. We conduct experiments for diverse settings to compare the performance of NNBF-P with zero-forcing beamforming (ZFBF), minimum mean square error (MMSE) beamforming, and NNBF, which is also our deep learning based beamforming design without joint power allocation scheme. Experiment results demonstrate the superiority of NNBF-P compared to ZFBF, and MMSE while NNBF can have lower performances than MMSE and ZFBF in some experiment settings. It can also demonstrate the effectiveness of joint design framework with respect to NNBF.
翻訳日:2024-06-13 16:06:55 公開日:2024-06-12
# 2.5D Multi-view Averaging Diffusion Model for 3D Medical Image Translation: for Low-count PET Reconstruction with CTless Attenuation Correction

2.5D Multi-view Averaging Diffusion Model for 3D Medical Image Translation: Application to Low-count PET Reconstruction with CT-less Attenuation Correction ( http://arxiv.org/abs/2406.08374v1 )

ライセンス: Link先を確認
Tianqi Chen, Jun Hou, Yinchi Zhou, Huidong Xie, Xiongchao Chen, Qiong Liu, Xueqi Guo, Menghua Xia, James S. Duncan, Chi Liu, Bo Zhou, (参考訳) ポジトロン・エミッション・トモグラフィ(PET)は重要な臨床画像診断ツールであるが、患者や医療機関に必然的に放射線障害をもたらす。 トレーサー注入量を減らすことと、減衰補正のためのCTの取得をなくすことは、全体的な放射線線量を減らすことができるが、しばしば高ノイズと偏りを伴うPETが生じる。 したがって、非減衰補正低線量PET(NAC-LDPET)を減衰補正標準線量PET(AC-SDPET)に変換する3D法を開発することが望ましい。 近年、拡散モデルは従来のCNN方式よりも優れた画像から画像への翻訳のための最先端のディープラーニング手法として登場した。 しかし、高い計算コストとメモリ負荷のため、主に2Dアプリケーションに限られる。 これらの課題に対処するため,我々は,NAC-LDPETとAC-SDPETを用いた3次元画像合成のための新しい2.5D多視点平均拡散モデル(MADM)を開発した。 特に、MADMは、複数のビューから3D生成品質を確保するために、各サンプリングステップで出力が平均される軸方向、コロナ方向、矢状方向のビューに対して別々の拡散モデルを採用している。 また,3次元サンプリングプロセスの高速化を目的として,拡散モデルの先行としてCNNを用いた3次元生成手法を提案する。 以上の結果から,MADMは従来のCNNベースおよび拡散ベースライン法よりも優れた高画質な3次元翻訳画像を生成可能であることが示唆された。

Positron Emission Tomography (PET) is an important clinical imaging tool but inevitably introduces radiation hazards to patients and healthcare providers. Reducing the tracer injection dose and eliminating the CT acquisition for attenuation correction can reduce the overall radiation dose, but often results in PET with high noise and bias. Thus, it is desirable to develop 3D methods to translate the non-attenuation-corrected low-dose PET (NAC-LDPET) into attenuation-corrected standard-dose PET (AC-SDPET). Recently, diffusion models have emerged as a new state-of-the-art deep learning method for image-to-image translation, better than traditional CNN-based methods. However, due to the high computation cost and memory burden, it is largely limited to 2D applications. To address these challenges, we developed a novel 2.5D Multi-view Averaging Diffusion Model (MADM) for 3D image-to-image translation with application on NAC-LDPET to AC-SDPET translation. Specifically, MADM employs separate diffusion models for axial, coronal, and sagittal views, whose outputs are averaged in each sampling step to ensure the 3D generation quality from multiple views. To accelerate the 3D sampling process, we also proposed a strategy to use the CNN-based 3D generation as a prior for the diffusion model. Our experimental results on human patient studies suggested that MADM can generate high-quality 3D translation images, outperforming previous CNN-based and Diffusion-based baseline methods.
翻訳日:2024-06-13 16:06:55 公開日:2024-06-12
# DDR: フレキシブルなイメージ記述子としての深層劣化応答の爆発

DDR: Exploiting Deep Degradation Response as Flexible Image Descriptor ( http://arxiv.org/abs/2406.08377v1 )

ライセンス: Link先を確認
Juncheng Wu, Zhangkai Ni, Hanli Wang, Wenhan Yang, Yuyin Zhou, Shiqi Wang, (参考訳) 事前訓練されたネットワークによって抽出された画像の深い特徴は、リッチで情報的な表現を含むことが知られている。 本稿では, 劣化条件の異なる画像深部特徴の変化を定量化するDDRについて述べる。 具体的には、テキスト駆動のプロンプトによる画像劣化の制御を可能にすることにより、フレキシブルかつ適応的な劣化を促進する。 画像記述子としてのDDRの汎用性は, 複雑さ, カラフルネス, シャープネス, 全体的な品質など, 画像特性と強く相関している。 さらに,DDRの有効性を応用範囲で示す。 ブラインド画像品質評価指標として優れ、既存の手法を複数のデータセットで上回る。 さらに、DDRは画像復元作業において効果的な教師なし学習目標として機能し、画像の劣化と単一画像の超解像において顕著な進歩をもたらす。 私たちのコードは利用可能になります。

Image deep features extracted by pre-trained networks are known to contain rich and informative representations. In this paper, we present Deep Degradation Response (DDR), a method to quantify changes in image deep features under varying degradation conditions. Specifically, our approach facilitates flexible and adaptive degradation, enabling the controlled synthesis of image degradation through text-driven prompts. Extensive evaluations demonstrate the versatility of DDR as an image descriptor, with strong correlations observed with key image attributes such as complexity, colorfulness, sharpness, and overall quality. Moreover, we demonstrate the efficacy of DDR across a spectrum of applications. It excels as a blind image quality assessment metric, outperforming existing methodologies across multiple datasets. Additionally, DDR serves as an effective unsupervised learning objective in image restoration tasks, yielding notable advancements in image deblurring and single-image super-resolution. Our code will be made available.
翻訳日:2024-06-13 16:06:55 公開日:2024-06-12
# 目が広いアンシャット:予測不能な視線検出による自我中心ビデオにおける教師なしの誤検出

Eyes Wide Unshut: Unsupervised Mistake Detection in Egocentric Video by Detecting Unpredictable Gaze ( http://arxiv.org/abs/2406.08379v1 )

ライセンス: Link先を確認
Michele Mazzamuto, Antonino Furnari, Giovanni Maria Farinella, (参考訳) 本稿では,スマートグラスにおけるユーザ支援を促進する重要な要素である視線信号の解析を通じて,自我中心映像における教師なし誤り検出の課題に対処する。 手動でラベル付けされたミスに依存する従来の教師付きメソッドは、ドメイン依存性とスケーラビリティの問題に悩まされている。 本研究では、ドメイン固有の要件と注釈付きデータの必要性を克服し、人間の活動のビデオの誤りを検出する教師なし手法を提案する。 不完全な入力から視線軌跡を予測できる視線完了モデルを提案する。 期待された視線経路と観測された視線経路の違いは、誤りを特定する指標として機能する。 本手法はEPIC-Tentデータセットで検証され,従来の1クラスの教師なし・教師なしの手法と比較して優位性を示した。

In this paper, we address the challenge of unsupervised mistake detection in egocentric video through the analysis of gaze signals, a critical component for advancing user assistance in smart glasses. Traditional supervised methods, reliant on manually labeled mistakes, suffer from domain-dependence and scalability issues. This research introduces an unsupervised method for detecting mistakes in videos of human activities, overcoming the challenges of domain-specific requirements and the necessity for annotated data. By analyzing unusual gaze patterns that signal user disorientation during tasks, we propose a gaze completion model that forecasts eye gaze trajectories from incomplete inputs. The difference between the anticipated and observed gaze paths acts as an indicator for identifying errors. Our method is validated on the EPIC-Tent dataset, showing its superiority compared to current one-class supervised and unsupervised techniques.
翻訳日:2024-06-13 15:57:07 公開日:2024-06-12
# 発音モデルのない教師なし音声認識に向けて

Towards Unsupervised Speech Recognition Without Pronunciation Models ( http://arxiv.org/abs/2406.08380v1 )

ライセンス: Link先を確認
Junrui Ni, Liming Wang, Yang Zhang, Kaizhi Qian, Heting Gao, Mark Hasegawa-Johnson, Chang D. Yoo, (参考訳) 教師付き自動音声認識(ASR)の最近の進歩は、大文字起こし音声コーパスの増大により顕著な成果を上げている。 しかし、ほとんどの言語はこれらのシステムを効果的に訓練するのに十分なペア音声とテキストデータを持っていない。 本稿では,音声レキシコンへの依存の除去を提案することで,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。 我々は,単語レベルの非教師付きASRという新たな研究方向を探究する。 本システムでは, 高頻度の英単語のみを含むキュレート音声コーパスを用いて, 単語誤り率を20%近く向上させる。 さらに、教師なし音声認識器は、共同音声合成とテキスト・テキスト・マスキングによるトークン入力から生じることを実験的に実証した。 この革新的なモデルは、直接分布マッチングで訓練された以前の教師なしASRモデルの性能を上回る。

Recent advancements in supervised automatic speech recognition (ASR) have achieved remarkable performance, largely due to the growing availability of large transcribed speech corpora. However, most languages lack sufficient paired speech and text data to effectively train these systems. In this article, we tackle the challenge of developing ASR systems without paired speech and text corpora by proposing the removal of reliance on a phoneme lexicon. We explore a new research direction: word-level unsupervised ASR. Using a curated speech corpus containing only high-frequency English words, our system achieves a word error rate of nearly 20% without parallel transcripts or oracle word boundaries. Furthermore, we experimentally demonstrate that an unsupervised speech recognizer can emerge from joint speech-to-speech and text-to-text masked token-infilling. This innovative model surpasses the performance of previous unsupervised ASR models trained with direct distribution matching.
翻訳日:2024-06-13 15:57:07 公開日:2024-06-12
# LaneCPP:物理プライオリティを用いた連続3次元レーン検出

LaneCPP: Continuous 3D Lane Detection using Physical Priors ( http://arxiv.org/abs/2406.08381v1 )

ライセンス: Link先を確認
Maximilian Pittner, Joel Janai, Alexandru P. Condurache, (参考訳) 単分子式3次元車線検出は、路面探索と車線標定のタスクを含む自動運転の文脈において、基本的な問題となっている。 1つの大きな課題は、予測不可能な振る舞いを避けながら、複雑な車線構造をモデル化できる柔軟だが堅牢な線表現である。 従来の手法は完全なデータ駆動アプローチに依存していたが,車線構造と道路形状に関する物理的事前知識を活用した連続3次元車線検出モデルを用いた新しいアプローチであるLaneCPPを導入する。 複雑な道路構造をモデル化することができるが,パラメータ表現に解析的に適用可能な正規化スキームにより,物理的な制約が組み込まれているため,ロバストな挙動を示す。 さらに,道路形状に関する事前知識を3次元特徴空間に組み入れ,空間的特徴をモデル化し,内部道路表面表現を学習するためのネットワークの指導を行う。 実験では, コントリビューションのメリットを示し, 3次元車線検出をより堅牢にするために, 事前利用の意義を証明した。 その結果,LaneCPPはFスコアや幾何誤差の点から最先端の性能を達成することがわかった。

Monocular 3D lane detection has become a fundamental problem in the context of autonomous driving, which comprises the tasks of finding the road surface and locating lane markings. One major challenge lies in a flexible but robust line representation capable of modeling complex lane structures, while still avoiding unpredictable behavior. While previous methods rely on fully data-driven approaches, we instead introduce a novel approach LaneCPP that uses a continuous 3D lane detection model leveraging physical prior knowledge about the lane structure and road geometry. While our sophisticated lane model is capable of modeling complex road structures, it also shows robust behavior since physical constraints are incorporated by means of a regularization scheme that can be analytically applied to our parametric representation. Moreover, we incorporate prior knowledge about the road geometry into the 3D feature space by modeling geometry-aware spatial features, guiding the network to learn an internal road surface representation. In our experiments, we show the benefits of our contributions and prove the meaningfulness of using priors to make 3D lane detection more robust. The results show that LaneCPP achieves state-of-the-art performance in terms of F-Score and geometric errors.
翻訳日:2024-06-13 15:57:07 公開日:2024-06-12
# Diff-A-Riff:潜在拡散モデルによる音楽伴奏共創

Diff-A-Riff: Musical Accompaniment Co-creation via Latent Diffusion Models ( http://arxiv.org/abs/2406.08384v1 )

ライセンス: Link先を確認
Javier Nistal, Marco Pasini, Cyran Aouameur, Maarten Grachten, Stefan Lattner, (参考訳) 近年の深層生成モデルの進歩は、音楽制作の新たな機会を提供する一方で、高い計算要求やオーディオ品質の制限といった課題も生んでいる。 さらに、現在のシステムはテキスト入力のみに頼り、通常、既存の音楽制作のワークフローと互換性のない完全な音楽作品の制作に重点を置いている。 これらの問題に対処するために,任意の音環境に適応した高品質な楽器伴奏を生成するために設計された潜時拡散モデル「Diff-A-Riff」を導入する。 このモデルは、オーディオ参照、テキストプロンプト、または両方を通じて制御を提供し、48kHzの擬似ステレオオーディオを生成し、推論時間とメモリ使用量を大幅に削減する。 我々は、客観的なメトリクスと主観的なリスニングテストを通じてモデルの能力を実証し、付随するWebサイト(sonycslparis.github.io/diffariff-companion/)で広範囲の例を挙げる。

Recent advancements in deep generative models present new opportunities for music production but also pose challenges, such as high computational demands and limited audio quality. Moreover, current systems frequently rely solely on text input and typically focus on producing complete musical pieces, which is incompatible with existing workflows in music production. To address these issues, we introduce "Diff-A-Riff," a Latent Diffusion Model designed to generate high-quality instrumental accompaniments adaptable to any musical context. This model offers control through either audio references, text prompts, or both, and produces 48kHz pseudo-stereo audio while significantly reducing inference time and memory usage. We demonstrate the model's capabilities through objective metrics and subjective listening tests, with extensive examples available on the accompanying website: sonycslparis.github.io/diffariff-companion/
翻訳日:2024-06-13 15:57:07 公開日:2024-06-12
# バルナール認知 : LLMが生み出す認知行動に対する人々の認識に関する研究

Banal Deception Human-AI Ecosystems: A Study of People's Perceptions of LLM-generated Deceptive Behaviour ( http://arxiv.org/abs/2406.08386v1 )

ライセンス: Link先を確認
Xiao Zhan, Yifan Xu, Noura Abdi, Joe Collenette, Ruba Abu-Salma, Stefan Sarkadi, (参考訳) 大規模言語モデル(LLM)は,ユーザに対して誤った,不正確な,あるいは誤解を招く情報を提供することができる。 本稿では,ChatGPTが生み出す騙し行動に対する人々の認識と,それが人々の行動や信頼にどのように影響するかを検討する。 これを実現するために、私たちは混合メソッドアプローチを使用します。 (i)参加者220名によるオンライン調査 (II)12名を対象に半構造化面接を行った。 私たちの結果は (i)最も一般的な偽情報の種類は、過度に単純化され、時代遅れな情報である。 (二)ChatGPTと会話する人間の信頼感と「健康」は「バーナール」の騙し行動に影響される。 三 虚偽の認識責任は、教育水準及び虚偽情報の頻度に左右される。 (4)偽情報に遭遇すると、利用者はより慎重になるが、利用の利点を見極めれば、より信頼されるようになる。 本研究は,「textit{Deceptive AI Ecosystems}」の文脈における人間-AIインタラクションのダイナミクスの理解に寄与し,認知型AI技術の潜在的な害を軽減するためのユーザ中心のアプローチの重要性を強調した。

Large language models (LLMs) can provide users with false, inaccurate, or misleading information, and we consider the output of this type of information as what Natale (2021) calls `banal' deceptive behaviour. Here, we investigate peoples' perceptions of ChatGPT-generated deceptive behaviour and how this affects peoples' own behaviour and trust. To do this, we use a mixed-methods approach comprising of (i) an online survey with 220 participants and (ii) semi-structured interviews with 12 participants. Our results show that (i) the most common types of deceptive information encountered were over-simplifications and outdated information; (ii) humans' perceptions of trust and `worthiness' of talking to ChatGPT are impacted by `banal' deceptive behaviour; (iii) the perceived responsibility for deception is influenced by education level and the frequency of deceptive information; and (iv) users become more cautious after encountering deceptive information, but they come to trust the technology more when they identify advantages of using it. Our findings contribute to the understanding of human-AI interaction dynamics in the context of \textit{Deceptive AI Ecosystems}, and highlight the importance of user-centric approaches to mitigating the potential harms of deceptive AI technologies.
翻訳日:2024-06-13 15:57:07 公開日:2024-06-12
# 双曲型チャーン絶縁体のトポロジー線形応答

Topological linear response of hyperbolic Chern insulators ( http://arxiv.org/abs/2406.08388v1 )

ライセンス: Link先を確認
Canon Sun, Anffany Chen, Tomáš Bzdušek, Joseph Maciejko, (参考訳) 我々は、Thouless-Kohmoto-Nightingale-den Nijs (TKNN) の公式の双曲的アナログを導出することにより、双曲チャーン絶縁体における電磁ホール応答とバンドトポロジ的不変量との接続を確立する。 クーボの公式を双曲格子に一般化することにより、ホールの伝導度が$-e^2C_{ij}/h$に量子化され、$C_{ij}$が最初のチャーン数であることを示す。 フラックススレッディングの議論を通じて、双曲的バンド理論における位相不変量としてのチャーン数の解釈を提供する。 我々は、アベリア州と非アベリア・ブロッホ州から貢献を受けているが、チャーン数はアベリア州のみから計算でき、トポロジカルバンド理論を著しく単純化できることを示した。 最後に, 双曲型ハルデンモデルにおけるチャーン数を計算することにより, 実験結果を数値的に検証する。

We establish a connection between the electromagnetic Hall response and band topological invariants in hyperbolic Chern insulators by deriving a hyperbolic analog of the Thouless-Kohmoto-Nightingale-den Nijs (TKNN) formula. By generalizing the Kubo formula to hyperbolic lattices, we show that the Hall conductivity is quantized to $-e^2C_{ij}/h$, where $C_{ij}$ is the first Chern number. Through a flux-threading argument, we provide an interpretation of the Chern number as a topological invariant in hyperbolic band theory. We demonstrate that, although it receives contributions from both Abelian and non-Abelian Bloch states, the Chern number can be calculated solely from Abelian states, resulting in a tremendous simplification of the topological band theory. Finally, we verify our results numerically by computing various Chern numbers in the hyperbolic Haldane model.
翻訳日:2024-06-13 15:57:07 公開日:2024-06-12
# 大規模言語モデルは、彼らが知らないことを知るには足りなければならない

Large Language Models Must Be Taught to Know What They Don't Know ( http://arxiv.org/abs/2406.08391v1 )

ライセンス: Link先を確認
Sanyam Kapoor, Nate Gruver, Manley Roberts, Katherine Collins, Arka Pal, Umang Bhatt, Adrian Weller, Samuel Dooley, Micah Goldblum, Andrew Gordon Wilson, (参考訳) 大規模言語モデル(LLM)を高度なアプリケーションで使用する場合、その予測をいつ信頼できるかを知る必要があります。 高性能LSMの推進は校正された不確実性を生み出すのに十分であると主張する研究もある一方で、違法に高価なサンプリング手法を導入する研究もある。 この研究において、まず、正しいキャリブレーションを達成するには自己のプロンプトが不十分であるとの主張を行い、その上で、正解と誤解の小さなデータセットを微調整することで、優れた一般化と計算オーバーヘッドの少ない不確かさを推定できることを示した。 そこで本研究では,1000のグレードがベースライン法より優れていることを示すとともに,モデルの特徴を生かしたトレーニングが,性能向上に必要であり,LoRAを使用する場合の大規模オープンソースモデルに対するトラクタブルであることを示す。 また、信頼性の高いLCM不確実性推定を可能にするメカニズムについても検討し、多くのモデルを汎用的な不確実性推定器として利用することができ、その不確実性だけでなく、他のモデルの不確実性にも適用できることを示した。 最後に,不確実性推定が人間とAIの協調環境におけるLLMの人為的利用をユーザスタディで示すことを示す。

When using large language models (LLMs) in high-stakes applications, we need to know when we can trust their predictions. Some works argue that prompting high-performance LLMs is sufficient to produce calibrated uncertainties, while others introduce sampling methods that can be prohibitively expensive. In this work, we first argue that prompting on its own is insufficient to achieve good calibration and then show that fine-tuning on a small dataset of correct and incorrect answers can create an uncertainty estimate with good generalization and small computational overhead. We show that a thousand graded examples are sufficient to outperform baseline methods and that training through the features of a model is necessary for good performance and tractable for large open-source models when using LoRA. We also investigate the mechanisms that enable reliable LLM uncertainty estimation, finding that many models can be used as general-purpose uncertainty estimators, applicable not just to their own uncertainties but also the uncertainty of other models. Lastly, we show that uncertainty estimates inform human use of LLMs in human-AI collaborative settings through a user study.
翻訳日:2024-06-13 15:57:07 公開日:2024-06-12
# FontStudio:コヒーレントかつ一貫性のあるフォント効果生成のための形状適応拡散モデル

FontStudio: Shape-Adaptive Diffusion Model for Coherent and Consistent Font Effect Generation ( http://arxiv.org/abs/2406.08392v1 )

ライセンス: Link先を確認
Xinzhi Mu, Li Chen, Bohan Chen, Shuyang Gu, Jianmin Bao, Dong Chen, Ji Li, Yuhui Yuan, (参考訳) 近年,現代拡散型テキスト・画像生成モデルの芸術的フォント(伝統的にプロのデザイナーの領域)作成への応用が注目されている。 本研究は,多言語フォントに対するテキストエフェクトの生成という,新しい,より要求の高い課題に取り組むことを目的としている。 このタスクは基本的に、従来の長方形のキャンバスとは対照的に、フォント型のキャンバスの区切り内で、一貫性のある一貫した視覚的コンテンツを生成する必要がある。 この課題に対処するために,不規則キャンバス内の所定の形状を解釈し,戦略的に画素分布を計画することのできる,新しい形状適応拡散モデルを提案する。 そこで我々は,高品質な形状適応型画像テキストデータセットをキュレートし,セグメンテーションマスクを視覚条件として組み込んで不規則キャンバス内の画像生成プロセスを制御した。 このアプローチにより、従来の長方形キャンバスに基づく拡散モデルは、提供される幾何学的形状に応じて所望の概念を生成できる。 第2に,複数文字間の整合性を維持するために,生成した基準文字から他の文字へテクスチャを伝達するための学習自由な形状適応的効果伝達法を提案する。 鍵となる洞察は、フォント効果ノイズを事前に構築し、連結潜在空間におけるフォント効果情報を伝搬することである。 FontStudioシステムの有効性は,最新の商用製品であるAdobe Fireflyと比較しても,ユーザの嗜好調査によって確認された。

Recently, the application of modern diffusion-based text-to-image generation models for creating artistic fonts, traditionally the domain of professional designers, has garnered significant interest. Diverging from the majority of existing studies that concentrate on generating artistic typography, our research aims to tackle a novel and more demanding challenge: the generation of text effects for multilingual fonts. This task essentially requires generating coherent and consistent visual content within the confines of a font-shaped canvas, as opposed to a traditional rectangular canvas. To address this task, we introduce a novel shape-adaptive diffusion model capable of interpreting the given shape and strategically planning pixel distributions within the irregular canvas. To achieve this, we curate a high-quality shape-adaptive image-text dataset and incorporate the segmentation mask as a visual condition to steer the image generation process within the irregular-canvas. This approach enables the traditionally rectangle canvas-based diffusion model to produce the desired concepts in accordance with the provided geometric shapes. Second, to maintain consistency across multiple letters, we also present a training-free, shape-adaptive effect transfer method for transferring textures from a generated reference letter to others. The key insights are building a font effect noise prior and propagating the font effect information in a concatenated latent space. The efficacy of our FontStudio system is confirmed through user preference studies, which show a marked preference (78% win-rates on aesthetics) for our system even when compared to the latest unrivaled commercial product, Adobe Firefly.
翻訳日:2024-06-13 15:57:07 公開日:2024-06-12
# VisionLLM v2: 数百の視覚言語タスクのためのエンド・ツー・エンドの汎用マルチモーダル言語モデル

VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks ( http://arxiv.org/abs/2406.08394v1 )

ライセンス: Link先を確認
Jiannan Wu, Muyan Zhong, Sen Xing, Zeqiang Lai, Zhaoyang Liu, Wenhai Wang, Zhe Chen, Xizhou Zhu, Lewei Lu, Tong Lu, Ping Luo, Yu Qiao, Jifeng Dai, (参考訳) VisionLLM v2は、単一のフレームワーク内で視覚知覚、理解、生成を統一する、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。 テキスト出力に限定された従来のMLLMとは異なり、VisionLLM v2はアプリケーションの範囲を大きく広げた。 従来の視覚的質問応答(VQA)だけでなく、オブジェクトのローカライゼーション、ポーズ推定、画像生成と編集といった、オープンなドメイン横断の視覚タスクでも優れている。 そこで本稿では,MLLMとタスク固有のデコーダを接続する媒体として,スーパーリンクと呼ばれる新しい情報伝達機構を提案する。 MLLMと複数の下流デコーダ間のタスク情報の柔軟な伝達と勾配フィードバックを可能にするだけでなく、マルチタスクシナリオでのトレーニング競合を効果的に解決する。 さらに,多種多様なタスクをサポートするために,数百の公的なビジョンと視覚言語タスクのトレーニングデータを注意深く収集し,組み立てた。 このようにして、我々のモデルは数百の視覚言語タスクでエンドツーエンドで協調訓練され、異なるユーザプロンプトを通して共有パラメータのセットを使用してこれらのタスクに一般化することができ、タスク固有のモデルに匹敵するパフォーマンスを達成することができる。 VisionLLM v2はMLLMの一般化に関する新たな視点を提供すると思います。

We present VisionLLM v2, an end-to-end generalist multimodal large model (MLLM) that unifies visual perception, understanding, and generation within a single framework. Unlike traditional MLLMs limited to text output, VisionLLM v2 significantly broadens its application scope. It excels not only in conventional visual question answering (VQA) but also in open-ended, cross-domain vision tasks such as object localization, pose estimation, and image generation and editing. To this end, we propose a new information transmission mechanism termed "super link", as a medium to connect MLLM with task-specific decoders. It not only allows flexible transmission of task information and gradient feedback between the MLLM and multiple downstream decoders but also effectively resolves training conflicts in multi-tasking scenarios. In addition, to support the diverse range of tasks, we carefully collected and combed training data from hundreds of public vision and vision-language tasks. In this way, our model can be joint-trained end-to-end on hundreds of vision language tasks and generalize to these tasks using a set of shared parameters through different user prompts, achieving performance comparable to task-specific models. We believe VisionLLM v2 will offer a new perspective on the generalization of MLLMs.
翻訳日:2024-06-13 15:57:07 公開日:2024-06-12
# 時間制約付きロバストMDP

Time-Constrained Robust MDPs ( http://arxiv.org/abs/2406.08395v1 )

ライセンス: Link先を確認
Adil Zouitine, David Bertoin, Pierre Clavier, Matthieu Geist, Emmanuel Rachelson, (参考訳) 環境不確実性が優先される現実のシナリオにおいて、強化学習アルゴリズムの展開にはロバスト強化学習が不可欠である。 従来の頑健な強化学習は、結果状態の負の確率測度が異なる状態や行動にまたがって独立していると仮定される長方性仮定に依存することが多い。 この前提は、実際に達成されることはめったにないが、過度に保守的な政策につながる。 この問題に対処するために,多因子的,相関的,時間依存的障害を考慮した新しい時間制約型ロバストMDP(TC-RMDP)の定式化を導入し,実世界のダイナミクスをより正確に反映する。 この定式化は、従来の長方性パラダイムを超えて、新しい視点を提供し、ロバストなRLのための分析フレームワークを拡張している。 各種環境情報を用いて3つの異なるアルゴリズムを提案し,それらを連続制御ベンチマークで広範囲に評価する。 以上の結果から,これらのアルゴリズムは性能とロバスト性の間に効率的なトレードオフをもたらすことが示され,古典的ベンチマークではロバスト性を維持しつつ,時間制約のある環境下で従来の頑健なRL法よりも優れていた。 本研究では、ロバストなRLにおける一般的な仮定を再考し、より実用的で現実的なRLアプリケーションを開発するための新たな道を開く。

Robust reinforcement learning is essential for deploying reinforcement learning algorithms in real-world scenarios where environmental uncertainty predominates. Traditional robust reinforcement learning often depends on rectangularity assumptions, where adverse probability measures of outcome states are assumed to be independent across different states and actions. This assumption, rarely fulfilled in practice, leads to overly conservative policies. To address this problem, we introduce a new time-constrained robust MDP (TC-RMDP) formulation that considers multifactorial, correlated, and time-dependent disturbances, thus more accurately reflecting real-world dynamics. This formulation goes beyond the conventional rectangularity paradigm, offering new perspectives and expanding the analytical framework for robust RL. We propose three distinct algorithms, each using varying levels of environmental information, and evaluate them extensively on continuous control benchmarks. Our results demonstrate that these algorithms yield an efficient tradeoff between performance and robustness, outperforming traditional deep robust RL methods in time-constrained environments while preserving robustness in classical benchmarks. This study revisits the prevailing assumptions in robust RL and opens new avenues for developing more practical and realistic RL applications.
翻訳日:2024-06-13 15:57:07 公開日:2024-06-12
# 遠隔音声認識のためのブラインド音源分離とダイアリゼーション

Neural Blind Source Separation and Diarization for Distant Speech Recognition ( http://arxiv.org/abs/2406.08396v1 )

ライセンス: Link先を確認
Yoshiaki Bando, Tomohiko Nakamura, Shinji Watanabe, (参考訳) 本稿では,遠隔音声認識(DSR)のためのニューラルな手法を提案する。 マルチストーカーDSRの標準分離法は、誘導音源分離 (GSS) と呼ばれる統計マルチチャネル法である。 GSSは信号レベルの監視を必要としないが、未知数のアクティブスピーカーを扱うために話者ダイアリゼーション結果に依存する。 この制限を克服するために、統計的分離法の目的関数を用いて、弱い教師付きで神経推論モデルを導入し、訓練する。 この訓練には、複数チャンネルの混合と、話者活動の時間的アノテーションしか必要としない。 GSSとは対照的に、訓練されたモデルは補助情報なしで音声の混合を共同で分離・ダイアリゼーションすることができる。 AMIコーパスを用いた実験により,本手法は単語誤り率に関するオラクルダイアリゼーション結果よりも優れた性能を示した。 コードはオンラインで入手できる。

This paper presents a neural method for distant speech recognition (DSR) that jointly separates and diarizes speech mixtures without supervision by isolated signals. A standard separation method for multi-talker DSR is a statistical multichannel method called guided source separation (GSS). While GSS does not require signal-level supervision, it relies on speaker diarization results to handle unknown numbers of active speakers. To overcome this limitation, we introduce and train a neural inference model in a weakly-supervised manner, employing the objective function of a statistical separation method. This training requires only multichannel mixtures and their temporal annotations of speaker activities. In contrast to GSS, the trained model can jointly separate and diarize speech mixtures without any auxiliary information. The experiments with the AMI corpus show that our method outperforms GSS with oracle diarization results regarding word error rates. The code is available online.
翻訳日:2024-06-13 15:57:07 公開日:2024-06-12
# cPAPERS:科学論文における位置的・多モーダルな対話のデータセット

cPAPERS: A Dataset of Situated and Multimodal Interactive Conversations in Scientific Papers ( http://arxiv.org/abs/2406.08398v1 )

ライセンス: Link先を確認
Anirudh Sundar, Jin Xu, William Gay, Christopher Richardson, Larry Heck, (参考訳) 位置およびマルチモーダル対話(SIMMC)における研究分野は、科学論文における相互作用を含む。 科学論文は主にテキスト、方程式、数字、表から成り立っているため、SIMMC法は研究科学者が必要とする調査と相互作用の深さを支援するために、各コンポーネント向けに特別に開発されなければならない。 本論文では,これらの論文に基礎を置く学術論文のレビューと,arXivで利用可能な学術文献からの参考資料から,会話型質問応答ペアのデータセットである会話型論文(cPAPERS)を紹介する。 本稿では,OpenReview からこれらの質問応答ペアを収集し,LaTeX ソースファイルからコンテキスト情報に関連付けるためのデータ収集戦略を提案する。 さらに我々は,cPAPERSデータセットに対処するために,ゼロショットと微調整の両方の設定でLarge Language Models(LLM)を利用する一連のベースラインアプローチを提案する。

An emerging area of research in situated and multimodal interactive conversations (SIMMC) includes interactions in scientific papers. Since scientific papers are primarily composed of text, equations, figures, and tables, SIMMC methods must be developed specifically for each component to support the depth of inquiry and interactions required by research scientists. This work introduces Conversational Papers (cPAPERS), a dataset of conversational question-answer pairs from reviews of academic papers grounded in these paper components and their associated references from scientific documents available on arXiv. We present a data collection strategy to collect these question-answer pairs from OpenReview and associate them with contextual information from LaTeX source files. Additionally, we present a series of baseline approaches utilizing Large Language Models (LLMs) in both zero-shot and fine-tuned configurations to address the cPAPERS dataset.
翻訳日:2024-06-13 15:57:07 公開日:2024-06-12
# コストパラメータ化モンジュマップ推定器の差別化

Differentiable Cost-Parameterized Monge Map Estimators ( http://arxiv.org/abs/2406.08399v1 )

ライセンス: Link先を確認
Samuel Howard, George Deligiannidis, Patrick Rebeschini, James Thornton, (参考訳) 最適輸送(OT)分野において、輸送マップの最適性が実世界の応用において有用であることを保証するため、地上費用の選択が不可欠である。 したがって、コスト関数の調整に既知の情報を使用することが望ましいため、手元にある問題に適応したOTマップを学習することが望ましい。 モンジマップが既知の形状を持つニューラルネットワークのコストのクラスを考慮することにより、OTマップに関する既知の情報と整合性に最適化可能なモンジマップ推定器を構築する。 そこで我々は,OTマップ推定器と対応するコスト関数の両方を同時に学習する。 損失関数の適切な選択を通じて,提案手法は,適応OTマップとコスト関数を学習する際に,Mongeマップ自体に関する事前情報を組み込むための一般的なアプローチを提供する。

Within the field of optimal transport (OT), the choice of ground cost is crucial to ensuring that the optimality of a transport map corresponds to usefulness in real-world applications. It is therefore desirable to use known information to tailor cost functions and hence learn OT maps which are adapted to the problem at hand. By considering a class of neural ground costs whose Monge maps have a known form, we construct a differentiable Monge map estimator which can be optimized to be consistent with known information about an OT map. In doing so, we simultaneously learn both an OT map estimator and a corresponding adapted cost function. Through suitable choices of loss function, our method provides a general approach for incorporating prior information about the Monge map itself when learning adapted OT maps and cost functions.
翻訳日:2024-06-13 15:57:07 公開日:2024-06-12
# Nyström Kernel Steindisrepancy

Nyström Kernel Stein Discrepancy ( http://arxiv.org/abs/2406.08401v1 )

ライセンス: Link先を確認
Florian Kalinke, Zoltan Szabo, Bharath K. Sriperumbudur, (参考訳) カーネル法はデータ科学と統計学において最も成功したアプローチの多くを基盤としており、情報を失うことなく再現されたカーネルヒルベルト空間の要素として確率測度を表現することができる。 近年、Steinの手法とカーネル技術を組み合わせたカーネルStein discrepancy (KSD) が注目されている。 スタイン作用素を通して、KSDは、目標分布を乗法定数まで知るのに十分であるような、強力な適合性テストの構築を可能にする。 しかし、典型的なU-およびV-StatisticベースのKSD推定器は2次実行時の複雑さに悩まされており、大規模な設定ではアプリケーションの動作を妨げている。 本研究では、Nystr\"om-based KSDAcceleration -- ランタイム $\mathcal O\!\left(mn+m^3\right)$ for $n$ sample and $m\ll n$ Nystr\om points -- を提案する。

Kernel methods underpin many of the most successful approaches in data science and statistics, and they allow representing probability measures as elements of a reproducing kernel Hilbert space without loss of information. Recently, the kernel Stein discrepancy (KSD), which combines Stein's method with kernel techniques, gained considerable attention. Through the Stein operator, KSD allows the construction of powerful goodness-of-fit tests where it is sufficient to know the target distribution up to a multiplicative constant. However, the typical U- and V-statistic-based KSD estimators suffer from a quadratic runtime complexity, which hinders their application in large-scale settings. In this work, we propose a Nystr\"om-based KSD acceleration -- with runtime $\mathcal O\!\left(mn+m^3\right)$ for $n$ samples and $m\ll n$ Nystr\"om points -- , show its $\sqrt{n}$-consistency under the null with a classical sub-Gaussian assumption, and demonstrate its applicability for goodness-of-fit testing on a suite of benchmarks.
翻訳日:2024-06-13 15:57:07 公開日:2024-06-12
# 音の理解, 疑問の欠如:大規模オーディオ言語モデルにおける物体幻覚の挑戦

Understanding Sounds, Missing the Questions: The Challenge of Object Hallucination in Large Audio-Language Models ( http://arxiv.org/abs/2406.08402v1 )

ライセンス: Link先を確認
Chun-Yi Kuan, Wei-Ping Huang, Hung-yi Lee, (参考訳) 大型オーディオ言語モデル(LALM)は、音声認識機能を統合することで従来の大規模言語モデルを強化し、音声関連タスクに取り組むことができる。 これまでの研究は主に、様々なタスクにわたるLALMの性能を評価することに焦点を当ててきたが、信頼性を見落とし、特に物体幻覚のような問題に焦点を合わせてきた。 本研究では,一般公開LALMの物体幻覚の程度を評価する手法を提案する。 以上の結果から,LALMは音声内容の理解において,特殊な音声キャプションモデルに匹敵するものの,識別的疑問,特に音声クリップ内の特定の物体の存在を識別する必要があるものへの答えに苦慮していることが明らかとなった。 この制限は、現在のLALMの重大な弱点を浮き彫りにしている。 さらに,差別的質問に対するLALMの性能向上を図るため,迅速なエンジニアリングの可能性を探る。

Large audio-language models (LALMs) enhance traditional large language models by integrating audio perception capabilities, allowing them to tackle audio-related tasks. Previous research has primarily focused on assessing the performance of LALMs across various tasks, yet overlooking their reliability, particularly concerning issues like object hallucination. In our study, we introduce methods to assess the extent of object hallucination of publicly available LALMs. Our findings reveal that LALMs are comparable to specialized audio captioning models in their understanding of audio content, but struggle to answer discriminative questions, specifically those requiring the identification of the presence of particular object sounds within an audio clip. This limitation highlights a critical weakness in current LALMs: their inadequate understanding of discriminative queries. Moreover, we explore the potential of prompt engineering to enhance LALMs' performance on discriminative questions.
翻訳日:2024-06-13 15:57:07 公開日:2024-06-12
# 極長期計画のための5000層への価値反復ネットワークのスケーリング

Scaling Value Iteration Networks to 5000 Layers for Extreme Long-Term Planning ( http://arxiv.org/abs/2406.08404v1 )

ライセンス: Link先を確認
Yuhui Wang, Qingyuan Wu, Weida Li, Dylan R. Ashley, Francesco Faccio, Chao Huang, Jürgen Schmidhuber, (参考訳) バリューイテレーションネットワーク(英: Value Iteration Network、VIN)は、強化学習(RL)における計画のための潜在MDPで価値イテレーションを実行するエンドツーエンドの差別化可能なアーキテクチャである。 しかしながら、VINは100\times 100$ mazeをナビゲートするなど、長期的かつ大規模な計画タスクへのスケールアップに苦慮している。 我々は,この欠陥は,潜伏型MDPの表現能力と計画モジュールの深さの2つの問題に起因すると考えている。 動的遷移カーネルで潜伏型MDPを増設し、その表現能力を大幅に向上させ、消失する勾配問題を緩和し、接続をスキップして勾配流を改善する「適応ハイウェイ損失」を導入することで、これらに対処する。 本手法は2次元迷路ナビゲーション環境とViZDoom 3Dナビゲーションベンチマークの両方で評価する。 我々の新しい手法であるDynamic Transition VIN(DT-VIN)は,5000層まで容易にスケールでき,上述したタスクの難解なバージョンをカジュアルに解決する。 また, DT-VINは, RL環境下での長期的大規模計画における具体的な一歩であると考えている。

The Value Iteration Network (VIN) is an end-to-end differentiable architecture that performs value iteration on a latent MDP for planning in reinforcement learning (RL). However, VINs struggle to scale to long-term and large-scale planning tasks, such as navigating a $100\times 100$ maze -- a task which typically requires thousands of planning steps to solve. We observe that this deficiency is due to two issues: the representation capacity of the latent MDP and the planning module's depth. We address these by augmenting the latent MDP with a dynamic transition kernel, dramatically improving its representational capacity, and, to mitigate the vanishing gradient problem, introducing an "adaptive highway loss" that constructs skip connections to improve gradient flow. We evaluate our method on both 2D maze navigation environments and the ViZDoom 3D navigation benchmark. We find that our new method, named Dynamic Transition VIN (DT-VIN), easily scales to 5000 layers and casually solves challenging versions of the above tasks. Altogether, we believe that DT-VIN represents a concrete step forward in performing long-term large-scale planning in RL environments.
翻訳日:2024-06-13 15:47:23 公開日:2024-06-12
# RRLS : ロバスト強化学習スイート

RRLS : Robust Reinforcement Learning Suite ( http://arxiv.org/abs/2406.08406v1 )

ライセンス: Link先を確認
Adil Zouitine, David Bertoin, Pierre Clavier, Matthieu Geist, Emmanuel Rachelson, (参考訳) ロバスト強化学習は、敵の環境に対して最適な最悪の性能を提供する学習制御政策の課題である。 環境不確実性の多い現実のシナリオにアルゴリズムをデプロイするための重要な要素であり、標準化されたベンチマークのセットなしで、コミュニティで長年注目されてきた対象である。 この貢献はこのギャップを埋めるために努力します。 本稿では,Mujoco環境をベースとしたベンチマークスイートであるRobust Reinforcement Learning Suite (RRLS)を紹介する。 RRLSはトレーニングと評価のための2種類の不確実性セットを備えた6つの連続制御タスクを提供する。 我々のベンチマークは、堅牢な強化学習タスクの標準化、再現性と同等の実験、特に最近の最先端コントリビューションにおけるRRLSの使用を実証することを目的としている。 また、新しい環境に容易に拡張できるように設計されている。 ソースコードは \href{https://github.com/SuReLI/RRLS}{https://github.com/SuReLI/RRLS} で公開されている。

Robust reinforcement learning is the problem of learning control policies that provide optimal worst-case performance against a span of adversarial environments. It is a crucial ingredient for deploying algorithms in real-world scenarios with prevalent environmental uncertainties and has been a long-standing object of attention in the community, without a standardized set of benchmarks. This contribution endeavors to fill this gap. We introduce the Robust Reinforcement Learning Suite (RRLS), a benchmark suite based on Mujoco environments. RRLS provides six continuous control tasks with two types of uncertainty sets for training and evaluation. Our benchmark aims to standardize robust reinforcement learning tasks, facilitating reproducible and comparable experiments, in particular those from recent state-of-the-art contributions, for which we demonstrate the use of RRLS. It is also designed to be easily expandable to new environments. The source code is available at \href{https://github.com/SuReLI/RRLS}{https://github.com/SuReLI/RRLS}.
翻訳日:2024-06-13 15:47:23 公開日:2024-06-12
# MMWorld:ビデオにおける多分野多面世界モデル評価を目指して

MMWorld: Towards Multi-discipline Multi-faceted World Model Evaluation in Videos ( http://arxiv.org/abs/2406.08407v1 )

ライセンス: Link先を確認
Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang, (参考訳) マルチモーダル言語モデル(MLLM)は、「世界モデル」の出現する能力を示し、複雑な実世界の力学を解釈し推論する。 これらの能力を評価するために、実世界の力学と因果関係の豊かな表現をカプセル化したビデオが理想的なメディアである。 そこで本稿では,マルチディシプリンドなマルチモーダルビデオ理解のための新しいベンチマークであるMMWorldを紹介する。 MMWorldは,(1)包括的理解のためにドメインの専門知識を必要とする様々な分野をカバーする多分野,(2)説明,反現実的思考,将来の予測などを含む多面的推論,という2つの独特な利点で,従来のビデオ理解ベンチマークと差別化を図っている。 MMWorldは、ビデオ全体に関する質問を伴うMLLMを評価する人間アノテーション付きデータセットと、知覚の単一モード内でMLLMを分析する合成データセットで構成されている。 MMWorldは7つの幅広い分野にわたる1,910の動画と69のサブディシプリンは合わせて6,627の質問応答ペアと関連するキャプションで構成されている。 この評価には2つのプロプライエタリなMLLMと10個のオープンソースMLLMが含まれており、MMWorld(例えば、GPT-4Vは52.3\%の精度で最高の性能を発揮し、改善の余地が大きい。 さらなるアブレーション研究は、人間の異なるスキルセットのモデルのような他の興味深い発見を明らかにしている。 MMWorldがビデオにおける世界モデル評価に不可欠なステップになることを願っている。

Multimodal Language Language Models (MLLMs) demonstrate the emerging abilities of "world models" -- interpreting and reasoning about complex real-world dynamics. To assess these abilities, we posit videos are the ideal medium, as they encapsulate rich representations of real-world dynamics and causalities. To this end, we introduce MMWorld, a new benchmark for multi-discipline, multi-faceted multimodal video understanding. MMWorld distinguishes itself from previous video understanding benchmarks with two unique advantages: (1) multi-discipline, covering various disciplines that often require domain expertise for comprehensive understanding; (2) multi-faceted reasoning, including explanation, counterfactual thinking, future prediction, etc. MMWorld consists of a human-annotated dataset to evaluate MLLMs with questions about the whole videos and a synthetic dataset to analyze MLLMs within a single modality of perception. Together, MMWorld encompasses 1,910 videos across seven broad disciplines and 69 subdisciplines, complete with 6,627 question-answer pairs and associated captions. The evaluation includes 2 proprietary and 10 open-source MLLMs, which struggle on MMWorld (e.g., GPT-4V performs the best with only 52.3\% accuracy), showing large room for improvement. Further ablation studies reveal other interesting findings such as models' different skill sets from humans. We hope MMWorld can serve as an essential step towards world model evaluation in videos.
翻訳日:2024-06-13 15:47:23 公開日:2024-06-12
# 災害準備コミュニケーションにおける多民族コミュニティのための生成AIチャットボットの作成:CASAパラダイムの拡張

Tailoring Generative AI Chatbots for Multiethnic Communities in Disaster Preparedness Communication: Extending the CASA Paradigm ( http://arxiv.org/abs/2406.08411v1 )

ライセンス: Link先を確認
Xinyan Zhao, Yuan Sun, Wenlin Liu, Chau-Wai Wong, (参考訳) 本研究は, GPT 4を利用した汎用AI(GenAI)チャットボットのプロトタイプを開発し, 多様な住民にハリケーン対策情報を伝達する試みである。 The Computers Are Social Actors (CASA) paradigm and the literature on disaster vulnerability and cultural tailoring, this study performed a between-jects experiment with 441 Black, Hispanic, and Caucasian residents of Florida。 チャットログの計算解析 (N = 7,848) により,GenAIチャットボット-ユーザインタラクションにおいて,人文準同型とパーソナライゼーションが重要なコミュニケーショントピックであることが示された。 SEMの結果 (N = 441) は, トーンフォーマル性や文化的仕立ての異なるGenAIチャットボットがボットの知覚を著しく予測し, 続いてハリケーンの準備結果を予測することを示唆している。 これらの結果から,GenAIチャットボットを多種多様なコミュニティの災害対応性向上に活用する可能性が示唆された。

This study is among the first to develop different prototypes of generative AI (GenAI) chatbots powered by GPT 4 to communicate hurricane preparedness information to diverse residents. Drawing from the Computers Are Social Actors (CASA) paradigm and the literature on disaster vulnerability and cultural tailoring, this study conducted a between-subjects experiment with 441 Black, Hispanic, and Caucasian residents of Florida. A computational analysis of chat logs (N = 7,848) shows that anthropomorphism and personalization are key communication topics in GenAI chatbot-user interactions. SEM results (N = 441) suggest that GenAI chatbots varying in tone formality and cultural tailoring significantly predict bot perceptions and, subsequently, hurricane preparedness outcomes. These results highlight the potential of using GenAI chatbots to improve diverse communities' disaster preparedness.
翻訳日:2024-06-13 15:47:23 公開日:2024-06-12
# オッドサイクルゲームにおける量子アドバンテージ

Experimental Quantum Advantage in the Odd-Cycle Game ( http://arxiv.org/abs/2406.08412v1 )

ライセンス: Link先を確認
P. Drmota, D. Main, E. M. Ainley, A. Agrawal, G. Araneda, D. P. Nadlinger, B. C. Nichol, R. Srinivas, A. Cabello, D. M. Lucas, (参考訳) 奇数サイクルゲームの最初の実験例を報告する。 我々は2つのイオンを2mほど離し、プレイヤーはそれらを使って、古典的戦略が許すよりもはるかに頻繁に奇数サイクルのゲームに勝つ。 この実験は最適量子戦略を実装し、検出ループホール(検出効率は >99.999 %)を含まず、量子勝利確率に対する理論的な限界の97.8(3) % を達成する。 0.54(2)の非局所コンテンツ -- 物理的に分離されたデバイスにとって最大の値で、検出の抜け穴がない。

We report the first experimental demonstration of the odd-cycle game. We entangle two ions separated by ~2 m and the players use them to win the odd-cycle game significantly more often than the best classical strategy allows. The experiment implements the optimal quantum strategy, is free of the detection loophole (the detection efficiency is >~99.999 %), and achieves 97.8(3) % of the theoretical limit to the quantum winning probability. It provides a nonlocal content of 0.54(2) -- the largest value for physically separate devices, free of the detection loophole, ever observed.
翻訳日:2024-06-13 15:47:23 公開日:2024-06-12
# メモリは必要なものすべて:大規模言語モデル推論を加速するコンピューティング・イン・メモリアーキテクチャの概要

Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference ( http://arxiv.org/abs/2406.08413v1 )

ライセンス: Link先を確認
Christopher Wolters, Xiaoxuan Yang, Ulf Schlichtmann, Toyotaro Suzumura, (参考訳) 大規模言語モデル(LLM)は、最近自然言語処理を変換し、機械が人間のようなテキストを生成し、意味のある会話を行えるようにした。 この開発は、これらのシステムの計算およびメモリ要求が指数関数的に増大するにつれて、LSM推論の速度、効率、アクセシビリティを必要とする。 一方、ムーアの法則の廃止により、計算能力と記憶能力の進歩が遅れている。 LLMは単一のGPUの容量を超えるため、並列処理には複雑な専門家レベルの設定が必要になる。 メモリアクセスは計算よりもはるかに高価になり、メモリウォールとして知られる効率的なスケーリングの課題が浮かび上がっている。 ここで、CIM(Computer-in-Memory)技術は、メモリ内でアナログ計算を直接実行することにより、AI推論を加速するための有望なソリューションを提供する。 メモリと計算要素を密に統合することにより、CIMはフォン・ノイマンのボトルネックを排除し、データの移動を減らし、エネルギー効率を向上させる。 本稿では、トランスフォーマーモデルの概要と分析、各種CIMアーキテクチャのレビュー、そして現代のAIコンピューティングシステムの差し迫った課題にどのように対処できるかを考察する。 本稿では,変圧器関連演算子とそのハードウェアアクセラレーション方式について論じ,対応するCIM設計における課題,トレンド,洞察を明らかにする。

Large language models (LLMs) have recently transformed natural language processing, enabling machines to generate human-like text and engage in meaningful conversations. This development necessitates speed, efficiency, and accessibility in LLM inference as the computational and memory requirements of these systems grow exponentially. Meanwhile, advancements in computing and memory capabilities are lagging behind, exacerbated by the discontinuation of Moore's law. With LLMs exceeding the capacity of single GPUs, they require complex, expert-level configurations for parallel processing. Memory accesses become significantly more expensive than computation, posing a challenge for efficient scaling, known as the memory wall. Here, compute-in-memory (CIM) technologies offer a promising solution for accelerating AI inference by directly performing analog computations in memory, potentially reducing latency and power consumption. By closely integrating memory and compute elements, CIM eliminates the von Neumann bottleneck, reducing data movement and improving energy efficiency. This survey paper provides an overview and analysis of transformer-based models, reviewing various CIM architectures and exploring how they can address the imminent challenges of modern AI computing systems. We discuss transformer-related operators and their hardware acceleration schemes and highlight challenges, trends, and insights in corresponding CIM designs.
翻訳日:2024-06-13 15:47:23 公開日:2024-06-12
# 大規模言語モデルを用いた選好最適化アルゴリズムの探索

Discovering Preference Optimization Algorithms with and for Large Language Models ( http://arxiv.org/abs/2406.08414v1 )

ライセンス: Link先を確認
Chris Lu, Samuel Holt, Claudio Fanconi, Alex J. Chan, Jakob Foerster, Mihaela van der Schaar, Robert Tjarko Lange, (参考訳) オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。 通常、選好最適化は、手作業による凸損失関数を用いたオフライン教師付き学習タスクとしてアプローチされる。 これらの手法は理論的な洞察に基づくものであるが、人間の創造性によって本質的に制約されているため、損失関数の巨大な探索空間はいまだ検討されていない。 我々は、LLMによる客観的な探索を行い、人間の介入を伴わずに、新しい最先端の選好最適化アルゴリズムを自動で発見することで、この問題に対処する。 具体的には,以前に評価された性能指標に基づいて,LLMに新たな優先最適化損失関数の提案と実装を反復的に促す。 このプロセスは、以前は知られていなかった、パフォーマンスの高い選好最適化アルゴリズムの発見につながる。 DiscoPOP(Discovered Preference Optimization)は、ロジスティックな損失と指数的な損失を適応的にブレンドするアルゴリズムである。 実験は、DiscoPOPの最先端性能と、ホールドアウトタスクへの転送の成功を実証する。

Offline preference optimization is a key method for enhancing and controlling the quality of Large Language Model (LLM) outputs. Typically, preference optimization is approached as an offline supervised learning task using manually-crafted convex loss functions. While these methods are based on theoretical insights, they are inherently constrained by human creativity, so the large search space of possible loss functions remains under explored. We address this by performing LLM-driven objective discovery to automatically discover new state-of-the-art preference optimization algorithms without (expert) human intervention. Specifically, we iteratively prompt an LLM to propose and implement new preference optimization loss functions based on previously-evaluated performance metrics. This process leads to the discovery of previously-unknown and performant preference optimization algorithms. The best performing of these we call Discovered Preference Optimization (DiscoPOP), a novel algorithm that adaptively blends logistic and exponential losses. Experiments demonstrate the state-of-the-art performance of DiscoPOP and its successful transfer to held-out tasks.
翻訳日:2024-06-13 15:47:23 公開日:2024-06-12
# OmniCorpus:100億レベル画像にテキストを埋め込んだ統合マルチモーダルコーパス

OmniCorpus: An Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text ( http://arxiv.org/abs/2406.08418v1 )

ライセンス: Link先を確認
Qingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai, (参考訳) 自然文書形式で配置された複数の画像とテキストからなる画像-テキストインターリーブドデータは、インターネットデータの提示パラダイムと整合し、人間の読書習慣によく似ている。 近年の研究では、このようなデータがマルチモーダル・イン・コンテクスト学習に役立ち、マルチモーダル微調整時の大規模言語モデルの能力を維持することが示されている。 しかし、現在の画像テキストインターリーブデータの規模と多様性は、マルチモーダルな大言語モデルの開発を制限している。 本稿では,100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。 効率的なデータエンジンを用いて860億の画像と1,696億のテキストトークンを含む大規模高品質の文書をフィルタリング・抽出する。 私たちのデータセット(例えば、MCC4、OBELICS)と比較してみましょう。 1) 優れたデータ品質を維持しながら、15倍のスケールを持つ。 2) 英語と非英語の両方のWebサイトやビデオ中心のWebサイトを含む、より多様なソースが特徴である。 3) より柔軟で、画像テキストインターリーブドフォーマットから純粋なテキストコーパスと画像テキストペアへ容易に分解できる。 総合的な分析と実験を通じて,提案したデータセットの品質,ユーザビリティ,有効性を検証する。 これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。 コードとデータはhttps://github.com/OpenGVLab/OmniCorpusで公開されている。

Image-text interleaved data, consisting of multiple images and texts arranged in a natural document format, aligns with the presentation paradigm of internet data and closely resembles human reading habits. Recent studies have shown that such data aids multimodal in-context learning and maintains the capabilities of large language models during multimodal fine-tuning. However, the limited scale and diversity of current image-text interleaved data restrict the development of multimodal large language models. In this paper, we introduce OmniCorpus, a 10 billion-scale image-text interleaved dataset. Using an efficient data engine, we filter and extract large-scale high-quality documents, which contain 8.6 billion images and 1,696 billion text tokens. Compared to counterparts (e.g., MMC4, OBELICS), our dataset 1) has 15 times larger scales while maintaining good data quality; 2) features more diverse sources, including both English and non-English websites as well as video-centric websites; 3) is more flexible, easily degradable from an image-text interleaved format to pure text corpus and image-text pairs. Through comprehensive analysis and experiments, we validate the quality, usability, and effectiveness of the proposed dataset. We hope this could provide a solid data foundation for future multimodal model research. Code and data are released at https://github.com/OpenGVLab/OmniCorpus.
翻訳日:2024-06-13 15:47:23 公開日:2024-06-12
# PRIBOOT: 運転シミュレーションを改善するための新しいデータ駆動エキスパート

PRIBOOT: A New Data-Driven Expert for Improved Driving Simulations ( http://arxiv.org/abs/2406.08421v1 )

ライセンス: Link先を確認
Daniel Coelho, Miguel Oliveira, Vitor Santos, Antonio M. Lopez, (参考訳) CARLAのようなシミュレーション環境での自律運転(AD)システムの開発は、現実の自動車技術の進歩に不可欠である。 CARLAはイノベーションを推進するためにLeadboard 2.0を導入した。 しかし、現状のAD法は、十分な基礎的真理データが不足しているため、満足な結果を得るのに苦労している。 CARLAが提供する人間の運転ログは不十分であり、データセット収集に使用されるAutopilotやRoachといった、これまで成功した専門家エージェントは、これらのより要求の多い条件下で有効性が低下している。 これらのデータ制限を克服するために、特権情報付き制限された人間のログを利用する専門家エージェントであるPRIBOOTを導入する。 我々は,新しいベンチマークの要求に合わせた新しいBEV表現を開発し,それをRGB画像として処理し,マスクのセットを使わずに移動学習技術の応用を容易にする。 さらに、拡張経路よりも運転性能をよりバランスよく評価するための新しい評価指標である赤外線レートスコア(IRS)を提案する。 PRIBOOTは、Leadboard 2.0で75%のルート完了(RC)を達成する最初のモデルであり、ドライビングスコア(DS)とIRSはそれぞれ20%と45%である。 PRIBOOTを使えば、研究者は広範なデータセットを生成できるようになり、このベンチマークの進歩を妨げるデータ可用性の問題が解決される可能性がある。

The development of Autonomous Driving (AD) systems in simulated environments like CARLA is crucial for advancing real-world automotive technologies. To drive innovation, CARLA introduced Leaderboard 2.0, significantly more challenging than its predecessor. However, current AD methods have struggled to achieve satisfactory outcomes due to a lack of sufficient ground truth data. Human driving logs provided by CARLA are insufficient, and previously successful expert agents like Autopilot and Roach, used for collecting datasets, have seen reduced effectiveness under these more demanding conditions. To overcome these data limitations, we introduce PRIBOOT, an expert agent that leverages limited human logs with privileged information. We have developed a novel BEV representation specifically tailored to meet the demands of this new benchmark and processed it as an RGB image to facilitate the application of transfer learning techniques, instead of using a set of masks. Additionally, we propose the Infraction Rate Score (IRS), a new evaluation metric designed to provide a more balanced assessment of driving performance over extended routes. PRIBOOT is the first model to achieve a Route Completion (RC) of 75% in Leaderboard 2.0, along with a Driving Score (DS) and IRS of 20% and 45%, respectively. With PRIBOOT, researchers can now generate extensive datasets, potentially solving the data availability issues that have hindered progress in this benchmark.
翻訳日:2024-06-13 15:47:23 公開日:2024-06-12
# State Soup: コンテキスト内スキル学習、検索、混合

State Soup: In-Context Skill Learning, Retrieval and Mixing ( http://arxiv.org/abs/2406.08423v1 )

ライセンス: Link先を確認
Maciej Pióro, Maciej Wołczyk, Razvan Pascanu, Johannes von Oswald, João Sacramento, (参考訳) 新しいタイプのゲート線形リカレントニューラルネットワークは、様々なシーケンスモデリング問題に対して最先端の性能に達した。 このようなモデルは、新しい入力を処理するコストがシーケンスの長さに依存しているため、自然に長いシーケンスを効率的に処理する。 ここでは、パラメータ補間によるモデルマージの成功に触発された、ステートフルシーケンスモデルの別の利点について検討する。 微調整学習と文脈内学習の並列性に基づいて、内部状態を記憶、検索、線形結合が可能なタスクベクトルとして扱えるか検討し、繰り返しの線形性を利用する。 本研究では,事前訓練された反復モデルであるMamba-2.8b上でのこの高速モデルマージ方式について検討し,線形状態補間法が次トーケンの難易度を改善するのに十分であることを示す。

A new breed of gated-linear recurrent neural networks has reached state-of-the-art performance on a range of sequence modeling problems. Such models naturally handle long sequences efficiently, as the cost of processing a new input is independent of sequence length. Here, we explore another advantage of these stateful sequence models, inspired by the success of model merging through parameter interpolation. Building on parallels between fine-tuning and in-context learning, we investigate whether we can treat internal states as task vectors that can be stored, retrieved, and then linearly combined, exploiting the linearity of recurrence. We study this form of fast model merging on Mamba-2.8b, a pretrained recurrent model, and present preliminary evidence that simple linear state interpolation methods suffice to improve next-token perplexity as well as downstream in-context learning task performance.
翻訳日:2024-06-13 15:47:23 公開日:2024-06-12
# 磁場勾配における超高感度単一イオンエレクトロメトリー

Ultrasensitive single-ion electrometry in a magnetic field gradient ( http://arxiv.org/abs/2406.08424v1 )

ライセンス: Link先を確認
F. Bonus, C. Knapp, C. H. Valahu, M. Mironiuc, S. Weidt, W. K. Hensinger, (参考訳) 閉じ込められたイオン中の超微細エネルギーレベルは、長時間のスピン状態を与える。 さらに、荷電粒子の運動は外部の電場摂動と強く結合する。 これらの特性は、電場を量子的に検出するために、閉じ込められたイオンを魅力的なプラットフォームにする。 しかし、スピン状態は電場に強い内在結合を示さない。 これにより達成可能な感度が制限される。 ここでは、静磁場勾配を用いて、電場摂動とスピン状態の結合を増幅する。 これにより、印加された外部電場摂動によって生じる力による捕捉されたイオンの変位は、内部スピン状態のエネルギー準位分裂の瞬間的な変化にマッピングされる。 この勾配を媒介とした電場とスピンのカップリングにより、電磁気学プロトコルを電気測定に利用することができる。 我々の量子センサを用いて、$\mathrm{S^{AC}_{min}=960(10)\times 10^{-6}~V m^{-1}Hz^{-\frac{1}{2}}}$の信号周波数$\omega_{\epsilon}/2\pi=5.82~\mathrm{Hz}$のAC感度と$\mathrm{S^{DC}_{min}=1.97(3)\times 10^{-3} ~V m^{-1}Hz^{-\frac{1}{2}}}$のDC感度を示す。 我々はまた、我々の量子センサを電場ノイズスペクトル分析器として利用することができる回転フレーム緩和法を用いている。 電場信号を$\mathrm{S_{E}(\omega)=6.2(5)\times 10^{-12}~V^2 m^{-2}Hz^{-1}}$のノイズフロアまで、$\mathrm{30.0(3)~kHz}$で測定する。 そこで我々は、サブHzから$\sim\mathrm{500~kHz}$までの周波数範囲にわたる直流信号と交流信号の測定において、前例のない電場感度を示す。 最後に,最大6桁の感度向上を実現するハードウェア修正について述べる。

Hyperfine energy levels in trapped ions offer long-lived spin states. In addition, the motion of these charged particles couples strongly to external electric field perturbations. These characteristics make trapped ions attractive platforms for the quantum sensing of electric fields. However, the spin states do not exhibit a strong intrinsic coupling to electric fields. This limits the achievable sensitivities. Here, we amplify the coupling between electric field perturbations and the spin states by using a static magnetic field gradient. Displacements of the trapped ion resulting from the forces experienced by an applied external electric field perturbation are thereby mapped to an instantaneous change in the energy level splitting of the internal spin states. This gradient mediated coupling of the electric field to the spin enables the use of a range of well-established magnetometry protocols for electrometry. Using our quantum sensor, we demonstrate AC sensitivities of $\mathrm{S^{AC}_{min}=960(10)\times 10^{-6}~V m^{-1}Hz^{-\frac{1}{2}}}$ at a signal frequency of $\omega_{\epsilon}/2\pi=5.82~\mathrm{Hz}$, and DC sensitivities of $\mathrm{S^{DC}_{min}=1.97(3)\times 10^{-3} ~V m^{-1}Hz^{-\frac{1}{2}}}$ with a Hahn-echo type sensing sequence. We also employ a rotating frame relaxometry technique, with which our quantum sensor can be utilised as an electric field noise spectrum analyser. We measure electric field signals down to a noise floor of $\mathrm{S_{E}(\omega)=6.2(5)\times 10^{-12}~V^2 m^{-2}Hz^{-1}}$ at a frequency of $\mathrm{30.0(3)~kHz}$. We therefore demonstrate unprecedented electric field sensitivities for the measurement of both DC signals and AC signals across a frequency range of sub-Hz to $\sim\mathrm{500~kHz}$. Finally, we describe a set of hardware modifications that are capable of achieving a further improvement in sensitivity by up to six orders of magnitude.
翻訳日:2024-06-13 15:47:23 公開日:2024-06-12
# AWGUNET: 病理画像における核分割のための注意支援ウェーブレットガイドU-Net

AWGUNET: Attention-Aided Wavelet Guided U-Net for Nuclei Segmentation in Histopathology Images ( http://arxiv.org/abs/2406.08425v1 )

ライセンス: Link先を確認
Ayush Roy, Payel Pramanik, Dmitrii Kaplun, Sergei Antonov, Ram Sarkar, (参考訳) 病理組織像の正確な核分画は癌診断に不可欠である。 このプロセスの自動化は、手動のアノテーションが時間がかかり、人間のエラーが生じるため、臨床専門家に貴重なサポートを提供する。 しかし、核分割の自動化は、不確実な細胞の境界、複雑な染色、多様な構造によって困難を呈する。 本稿では,U-NetアーキテクチャとDenseNet-121バックボーンを組み合わせたセグメンテーション手法を提案する。 本モデルでは,ウェーブレット誘導型チャネルアテンションモジュールを導入し,セル境界のデライン化を促進させるとともに,学習可能なグローバルアテンションモジュールをチャネル固有のアテンションとして導入する。 デコーダモジュールはアップサンプルブロックと畳み込みブロックで構成されており、染色パターンを扱う際のセグメンテーションをさらに洗練する。 Monuseg と TNBC の2つの公開された病理組織学的データセットを用いて行った実験結果から,提案モデルの優位性を実証し,病理組織学的画像解析と癌診断の進歩の可能性を示した。 コードはhttps://github.com/AyushRoy2001/AWGUNET.comで公開されている。

Accurate nuclei segmentation in histopathological images is crucial for cancer diagnosis. Automating this process offers valuable support to clinical experts, as manual annotation is time-consuming and prone to human errors. However, automating nuclei segmentation presents challenges due to uncertain cell boundaries, intricate staining, and diverse structures. In this paper, we present a segmentation approach that combines the U-Net architecture with a DenseNet-121 backbone, harnessing the strengths of both to capture comprehensive contextual and spatial information. Our model introduces the Wavelet-guided channel attention module to enhance cell boundary delineation, along with a learnable weighted global attention module for channel-specific attention. The decoder module, composed of an upsample block and convolution block, further refines segmentation in handling staining patterns. The experimental results conducted on two publicly accessible histopathology datasets, namely Monuseg and TNBC, underscore the superiority of our proposed model, demonstrating its potential to advance histopathological image analysis and cancer diagnosis. The code is made available at: https://github.com/AyushRoy2001/AWGUNET.
翻訳日:2024-06-13 15:47:23 公開日:2024-06-12
# 次世代データベースインタフェース: LLM-based Text-to-SQL の調査

Next-Generation Database Interfaces: A Survey of LLM-based Text-to-SQL ( http://arxiv.org/abs/2406.08426v1 )

ライセンス: Link先を確認
Zijin Hong, Zheng Yuan, Qinggang Zhang, Hao Chen, Junnan Dong, Feiran Huang, Xiao Huang, (参考訳) 自然言語の質問(text-to-SQL)に基づいて正確なSQLを生成することは、ユーザ質問の理解、データベーススキーマの理解、SQL生成において困難であるため、長年にわたる問題である。 従来のテキストからSQLへのシステムには、ヒューマンエンジニアリングとディープニューラルネットワークが含まれる。 その後、事前訓練された言語モデル(PLM)が開発され、テキストからSQLまでのタスクに利用され、有望なパフォーマンスを実現している。 現代のデータベースがより複雑になり、それに対応するユーザ質問がより困難になるにつれて、限定的な理解能力を持つPLMは、誤ったSQL生成につながる可能性がある。 これはより洗練された最適化手法を必要とし、PLMベースのシステムの適用を制限する。 近年,大規模言語モデル (LLM) は,モデルスケールの増大に伴い,自然言語理解において重要な能力を示した。 したがって、LLMベースの実装を統合することで、テキストからSQLへのリサーチにユニークな機会、課題、ソリューションをもたらすことができる。 本稿では LLM ベースのテキスト-to-SQL の総合的なレビューを行う。 具体的には,テキスト・トゥ・SQLの現在の課題と進化過程について概説する。 次に、テキスト・トゥ・SQLシステムを評価するために設計されたデータセットとメトリクスの詳細を紹介する。 その後、LLMベースのテキスト・トゥ・SQLの最近の進歩を体系的に分析する。 最後に,この分野での課題について考察し,今後の方向性を期待する。

Generating accurate SQL according to natural language questions (text-to-SQL) is a long-standing problem since it is challenging in user question understanding, database schema comprehension, and SQL generation. Conventional text-to-SQL systems include human engineering and deep neural networks. Subsequently, pre-trained language models (PLMs) have been developed and utilized for text-to-SQL tasks, achieving promising performance. As modern databases become more complex and corresponding user questions more challenging, PLMs with limited comprehension capabilities can lead to incorrect SQL generation. This necessitates more sophisticated and tailored optimization methods, which, in turn, restricts the applications of PLM-based systems. Most recently, large language models (LLMs) have demonstrated significant abilities in natural language understanding as the model scale remains increasing. Therefore, integrating the LLM-based implementation can bring unique opportunities, challenges, and solutions to text-to-SQL research. In this survey, we present a comprehensive review of LLM-based text-to-SQL. Specifically, we propose a brief overview of the current challenges and the evolutionary process of text-to-SQL. Then, we provide a detailed introduction to the datasets and metrics designed to evaluate text-to-SQL systems. After that, we present a systematic analysis of recent advances in LLM-based text-to-SQL. Finally, we discuss the remaining challenges in this field and propose expectations for future directions.
翻訳日:2024-06-13 15:47:23 公開日:2024-06-12
# 抽象化によるノイズロバスト性の向上と機械学習への影響

Improving Noise Robustness through Abstractions and its Impact on Machine Learning ( http://arxiv.org/abs/2406.08428v1 )

ライセンス: Link先を確認
Alfredo Ibias, Karol Capala, Varun Ravi Varma, Anna Drozdz, Jose Sousa, (参考訳) ノイズは機械学習(ML)手法の適用に多大な影響を及ぼす学習理論の根本的問題である。 さらに、悪意のあるノイズの導入は、敵攻撃の場合のように、MLメソッドを致命的に失敗させる可能性がある。 したがって、ノイズに対する堅牢性を改善する代替手段の発見と開発は、MLの基本的な問題である。 本稿では,データ抽象化を用いてノイズを緩和する手法を提案する。 目標は、抽象化によって生成された情報の損失を通じて、モデルの性能に対するノイズの影響を減らすことである。 しかし、この情報損失にはコストが伴うため、不足した情報によって精度が低下する可能性がある。 まず、数値データと二分分類タスクの特定のケースに対して、トレーニングデータセットを用いて抽象化を作成するための複数の方法論について検討した。 また、これらの抽象化がノイズに対する堅牢性にどのように影響するかを実験し、抽象データを用いてトレーニングされた時に生データ \emph{vs} を用いてトレーニングされた時に、ニューラルネットワークのノイズに対する堅牢性を調べる実験を行った。 その結果, 抽象概念を用いることは, ノイズロバストML手法の開発に有効な手法であることが明らかとなった。

Noise is a fundamental problem in learning theory with huge effects in the application of Machine Learning (ML) methods, due to real world data tendency to be noisy. Additionally, introduction of malicious noise can make ML methods fail critically, as is the case with adversarial attacks. Thus, finding and developing alternatives to improve robustness to noise is a fundamental problem in ML. In this paper, we propose a method to deal with noise: mitigating its effect through the use of data abstractions. The goal is to reduce the effect of noise over the model's performance through the loss of information produced by the abstraction. However, this information loss comes with a cost: it can result in an accuracy reduction due to the missing information. First, we explored multiple methodologies to create abstractions, using the training dataset, for the specific case of numerical data and binary classification tasks. We also tested how these abstractions can affect robustness to noise with several experiments that explore the robustness of an Artificial Neural Network to noise when trained using raw data \emph{vs} when trained using abstracted data. The results clearly show that using abstractions is a viable approach for developing noise robust ML methods.
翻訳日:2024-06-13 15:47:23 公開日:2024-06-12
# Diffusion Soup:テキストと画像の拡散モデルのためのモデルマージ

Diffusion Soup: Model Merging for Text-to-Image Diffusion Models ( http://arxiv.org/abs/2406.08431v1 )

ライセンス: Link先を確認
Benjamin Biggs, Arjun Seshadri, Yang Zou, Achin Jain, Aditya Golatkar, Yusheng Xie, Alessandro Achille, Ashwin Swaminathan, Stefano Soatto, (参考訳) シャードデータに基づいてトレーニングされた拡散モデルの重みを平均化する,テキスト・ツー・イメージ・ジェネレーションの複合化手法であるDiffusion Soupを提案する。 提案手法では,データシャードに対応するモデルの追加や削除を再帰的に行うことができるため,追加メモリや推論コストを伴わずに,トレーニング不要な連続学習とアンラーニングが可能となる。 本研究では,成分分布の幾何学的平均を近似した重み空間の点から拡散スープを採取し,反記憶化保証を提供し,ゼロショットスタイルの混合を可能にすることを示す。 実証的には、Diffusion Soupはすべてのデータシャードの結合に基づいて訓練されたパラゴンモデルより優れており、ドメインシャードデータのイメージ・リワード(.34$\to$ .44)の30%改善、美的データのIR(.37$\to$ .59)の59%改善を実現している。 いずれの場合も、TIFAスコア(85.5$\to$86.5および85.6$\to$86.8)でもスープが優勢である。 堅牢なアンラーニング -- 個々のドメインシャードを削除すれば、IR(.45$\to$ .44)のパフォーマンスは1%低下します -- を実証し、実際のデータを使用して、アンチメモリ化に関する理論的洞察を検証します。 最後に、Diffusion Soupの異なるシャードに微調整されたモデルの異なるスタイルをブレンドする能力を示し、結果としてハイブリッドスタイルをゼロショットで生成する。

We present Diffusion Soup, a compartmentalization method for Text-to-Image Generation that averages the weights of diffusion models trained on sharded data. By construction, our approach enables training-free continual learning and unlearning with no additional memory or inference costs, since models corresponding to data shards can be added or removed by re-averaging. We show that Diffusion Soup samples from a point in weight space that approximates the geometric mean of the distributions of constituent datasets, which offers anti-memorization guarantees and enables zero-shot style mixing. Empirically, Diffusion Soup outperforms a paragon model trained on the union of all data shards and achieves a 30% improvement in Image Reward (.34 $\to$ .44) on domain sharded data, and a 59% improvement in IR (.37 $\to$ .59) on aesthetic data. In both cases, souping also prevails in TIFA score (respectively, 85.5 $\to$ 86.5 and 85.6 $\to$ 86.8). We demonstrate robust unlearning -- removing any individual domain shard only lowers performance by 1% in IR (.45 $\to$ .44) -- and validate our theoretical insights on anti-memorization using real data. Finally, we showcase Diffusion Soup's ability to blend the distinct styles of models finetuned on different shards, resulting in the zero-shot generation of hybrid styles.
翻訳日:2024-06-13 15:47:23 公開日:2024-06-12
# TasTe: 自己回帰を通じて翻訳する大規模言語モデルを教える

TasTe: Teaching Large Language Models to Translate through Self-Reflection ( http://arxiv.org/abs/2406.08434v1 )

ライセンス: Link先を確認
Yutong Wang, Jiali Zeng, Xuebo Liu, Fandong Meng, Jie Zhou, Min Zhang, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示した。 インストラクションチューニングのような技術は、機械翻訳の下流タスクにおけるLLMの性能を効果的に向上させた。 しかし、既存のアプローチでは、教師付きニューラルネットワーク翻訳(NMT)システムの品質に匹敵する十分な翻訳出力を得ることができない。 この違いの1つが、これらの手法で用いられる直接的なプロンプトは、取得した命令追従能力を完全に活用できないことである。 そこで本稿では,自己回帰を通した翻訳を行うTasTeフレームワークを提案する。 自己回帰過程は、推論の2つの段階を含む。 最初の段階では、LSMは予備的な翻訳を生成し、これらの翻訳を同時に自己評価するように指示される。 第2段階では、LCMは評価結果に応じてこれらの予備翻訳を洗練させる。 WMT22ベンチマークにおける4つの言語方向の評価結果から,提案手法の有効性が示唆された。 我々の研究は、LLMの可能性を解き放ち、MTの能力を強化するという有望なアプローチを提示している。コードとデータセットはhttps://github.com/YutongWang1216/ReflectionLLMMTでオープンソース化されている。

Large language models (LLMs) have exhibited remarkable performance in various natural language processing tasks. Techniques like instruction tuning have effectively enhanced the proficiency of LLMs in the downstream task of machine translation. However, the existing approaches fail to yield satisfactory translation outputs that match the quality of supervised neural machine translation (NMT) systems. One plausible explanation for this discrepancy is that the straightforward prompts employed in these methodologies are unable to fully exploit the acquired instruction-following capabilities. To this end, we propose the TasTe framework, which stands for translating through self-reflection. The self-reflection process includes two stages of inference. In the first stage, LLMs are instructed to generate preliminary translations and conduct self-assessments on these translations simultaneously. In the second stage, LLMs are tasked to refine these preliminary translations according to the evaluation results. The evaluation results in four language directions on the WMT22 benchmark reveal the effectiveness of our approach compared to existing methods. Our work presents a promising approach to unleash the potential of LLMs and enhance their capabilities in MT. The codes and datasets are open-sourced at https://github.com/YutongWang1216/ReflectionLLMMT.
翻訳日:2024-06-13 15:37:29 公開日:2024-06-12
# フルウェーブフィールドライダーのためのコヒーレント光モデム

Coherent Optical Modems for Full-Wavefield Lidar ( http://arxiv.org/abs/2406.08439v1 )

ライセンス: Link先を確認
Parsa Mirdehghan, Brandon Buscaino, Maxx Wu, Doug Charlton, Mohammad E. Mousa-Pasandi, Kiriakos N. Kutulakos, David B. Lindell, (参考訳) デジタル時代の到来により、複数の偏光状態における光の振幅と位相を変調するコヒーレント光学モデムの開発が加速した。 これらのモデムは、毎秒1テラビットを超えるデータレートで数千kmの長さの光ファイバーケーブルを介してデータを送信します。 この顕著な技術は、ほぼTHzレートのプログラム可能な制御と完全な光波面のセンシングによって実現されている。 コヒーレントな光モデムが世界中の通信ネットワークのバックボーンを形成する一方で、それらの異常な能力はイメージングのユニークな機会を提供する。 そこで,本研究では,オフザシェルフコヒーレント光モデムを再利用し,距離,軸速度,偏光を同時に測定する新しいイメージングモードであるフルウェーブフィールドライダーを紹介する。 74GHz帯コヒーレント光モデムと自由空間結合光学と走査ミラーを組み合わせることで,このモダリティを実証する。 このシステムのための時間分解画像形成モデルを開発し、モデムの生送信されたシンボルから各シーンの深さ、速度、偏光情報を復元する最大形状再構成アルゴリズムを定式化する。 既存のライダーと比較して、フルウェーブフィールドライダーは、短時間、マイクロ秒露光時間、信頼性の高い速度測定、周囲光や他のライダー信号からの干渉に対する堅牢性からmmスケールの精度の向上を約束している。

The advent of the digital age has driven the development of coherent optical modems -- devices that modulate the amplitude and phase of light in multiple polarization states. These modems transmit data through fiber optic cables that are thousands of kilometers in length at data rates exceeding one terabit per second. This remarkable technology is made possible through near-THz-rate programmable control and sensing of the full optical wavefield. While coherent optical modems form the backbone of telecommunications networks around the world, their extraordinary capabilities also provide unique opportunities for imaging. Here, we introduce full-wavefield lidar: a new imaging modality that repurposes off-the-shelf coherent optical modems to simultaneously measure distance, axial velocity, and polarization. We demonstrate this modality by combining a 74 GHz-bandwidth coherent optical modem with free-space coupling optics and scanning mirrors. We develop a time-resolved image formation model for this system and formulate a maximum-likelihood reconstruction algorithm to recover depth, velocity, and polarization information at each scene point from the modem's raw transmitted and received symbols. Compared to existing lidars, full-wavefield lidar promises improved mm-scale ranging accuracy from brief, microsecond exposure times, reliable velocimetry, and robustness to intererence from ambient light or other lidar signals.
翻訳日:2024-06-13 15:37:29 公開日:2024-06-12
# 局所リワードを用いた深部強化学習による適応型Swarm Mesh再構成

Adaptive Swarm Mesh Refinement using Deep Reinforcement Learning with Local Rewards ( http://arxiv.org/abs/2406.08440v1 )

ライセンス: Link先を確認
Niklas Freymuth, Philipp Dahlinger, Tobias Würth, Simon Reisch, Luise Kärger, Gerhard Neumann, (参考訳) 物理系のシミュレーションは工学において不可欠であるが、解析解は単純な問題に限られる。 その結果、有限要素法(FEM)のような数値法が広く用いられている。 しかし、問題複雑性と精度の要求が増加するにつれて、FEMは計算コストが高くなる。 Adaptive Mesh Refinement(AMR)は、ドメイン上のメッシュ要素を動的にアロケートし、計算速度と精度のバランスをとることにより、FEMを改善する。 古典的AMRはヒューリスティックや高価な誤差推定器に依存し、複雑なシミュレーションでの使用を制限する。 学習ベースのAMRメソッドは有望だが、現時点では単純な問題にしか対応していない。 本研究では、AMRを複数の新規なエージェントに反復的に分割する、協調的、均質なエージェントのシステムとして定式化する。 このエージェント・ワイズ・パースペクティブは、最大メッシュ要素誤差の低減に焦点を当てた空間報酬の定式化を可能にする。 我々のアプローチであるAdaptive Swarm Mesh Refinement (ASMR)は、効率的な安定した最適化を提供し、推論中にユーザ定義の解像度で高度に適応的なメッシュを生成する。 体積メッシュやノイマン境界条件を含む広範な実験は、ASMRがヒューリスティックなアプローチを超越し、ベースラインを学習し、高価なエラーベースのオラクルAMR戦略の性能と一致することを示した。 さらに、ASMRは推論中に異なるドメインに一般化し、より要求の高い設定において、均一な洗練よりも最大2桁高速にシミュレートするメッシュを生成する。

Simulating physical systems is essential in engineering, but analytical solutions are limited to straightforward problems. Consequently, numerical methods like the Finite Element Method (FEM) are widely used. However, the FEM becomes computationally expensive as problem complexity and accuracy demands increase. Adaptive Mesh Refinement (AMR) improves the FEM by dynamically allocating mesh elements on the domain, balancing computational speed and accuracy. Classical AMR depends on heuristics or expensive error estimators, limiting its use in complex simulations. While learning-based AMR methods are promising, they currently only scale to simple problems. In this work, we formulate AMR as a system of collaborating, homogeneous agents that iteratively split into multiple new agents. This agent-wise perspective enables a spatial reward formulation focused on reducing the maximum mesh element error. Our approach, Adaptive Swarm Mesh Refinement (ASMR), offers efficient, stable optimization and generates highly adaptive meshes at user-defined resolution during inference. Extensive experiments, including volumetric meshes and Neumann boundary conditions, demonstrate that ASMR exceeds heuristic approaches and learned baselines, matching the performance of expensive error-based oracle AMR strategies. ASMR additionally generalizes to different domains during inference, and produces meshes that simulate up to 2 orders of magnitude faster than uniform refinements in more demanding settings.
翻訳日:2024-06-13 15:37:29 公開日:2024-06-12
# 変換依存型敵攻撃

Transformation-Dependent Adversarial Attacks ( http://arxiv.org/abs/2406.08443v1 )

ライセンス: Link先を確認
Yaoteng Tan, Zikui Cai, M. Salman Asif, (参考訳) 入力(例えば、スケーリング、ぼかし、圧縮)を体系的に変換することで、単一の加法摂動が多様で制御可能な誤予測を誘発する新たな種類の脅威である、変換依存の敵攻撃を導入する。 静的な影響を持つ従来の攻撃とは異なり、我々の摂動は変換パラメータの関数として異なる敵攻撃を可能にする変成特性を埋め込む。 モデル(畳み込みネットワークやビジョントランスフォーマーなど)と視覚タスク(画像分類や物体検出など)にまたがる変換依存性の脆弱性を実証する。 提案した幾何的および測光的変換は、1つの工芸品の入力(例えば、分類器の攻撃成功率90%以上)からターゲットとなる誤差の範囲を許容する。 モデルアーキテクチャと変換のタイプ/多様性が攻撃効果に与える影響を解析する。 この作業は、動的で制御可能な脅威として敵の入力を再定義することでパラダイムシフトを強いる。 このような多面的なカメレオンのような摂動に対する堅牢な防御の必要性を強調します。

We introduce transformation-dependent adversarial attacks, a new class of threats where a single additive perturbation can trigger diverse, controllable mis-predictions by systematically transforming the input (e.g., scaling, blurring, compression). Unlike traditional attacks with static effects, our perturbations embed metamorphic properties to enable different adversarial attacks as a function of the transformation parameters. We demonstrate the transformation-dependent vulnerability across models (e.g., convolutional networks and vision transformers) and vision tasks (e.g., image classification and object detection). Our proposed geometric and photometric transformations enable a range of targeted errors from one crafted input (e.g., higher than 90% attack success rate for classifiers). We analyze effects of model architecture and type/variety of transformations on attack effectiveness. This work forces a paradigm shift by redefining adversarial inputs as dynamic, controllable threats. We highlight the need for robust defenses against such multifaceted, chameleon-like perturbations that current techniques are ill-prepared for.
翻訳日:2024-06-13 15:37:29 公開日:2024-06-12
# PixMamba: 水中画像強調のためのデュアルレベルアーキテクチャにおける状態空間モデルの活用

PixMamba: Leveraging State Space Models in a Dual-Level Architecture for Underwater Image Enhancement ( http://arxiv.org/abs/2406.08444v1 )

ライセンス: Link先を確認
Wei-Tung Lin, Yong-Xiang Lin, Jyun-Wei Chen, Kai-Lung Hua, (参考訳) 水中画像強調(UIE)は海洋調査や探査に重要であるが、複雑な色歪みと激しいぼやけによって妨げられている。 近年のディープラーニングに基づく手法は目覚ましい成果を上げているが、これらの手法は高い計算コストと不十分なグローバルモデリングに苦しむため、局所的に過度に調整された領域や過度に調整された領域が生まれる。 我々は,ステートスペースモデル(SSM)を活用して,効率的なグローバル依存性モデリングを実現することにより,これらの課題を克服するために設計された新しいアーキテクチャであるPixMambaを提案する。 限られた受容場と高い計算コストのトランスフォーマーネットワークを持つ畳み込みニューラルネットワーク(CNN)とは異なり、PixMambaは計算効率を維持しながら、グローバルなコンテキスト情報を効率的に取得する。 我々のデュアルレベル戦略は、拡張画像の特徴を再構築するためのパッチレベル効率のMamba Net (EMNet) と、これまで入手が困難であった拡張画像の微細な特徴捕捉とグローバルな一貫性を確保するためのピクセルレベルPixMamba Net (PixNet) を特徴としている。 PixMambaは、さまざまな水中画像データセットにまたがって最先端のパフォーマンスを達成し、視覚的に優れた結果を提供する。 コードは、https://github.com/weitunglin/pixmamba.comで入手できる。

Underwater Image Enhancement (UIE) is critical for marine research and exploration but hindered by complex color distortions and severe blurring. Recent deep learning-based methods have achieved remarkable results, yet these methods struggle with high computational costs and insufficient global modeling, resulting in locally under- or over- adjusted regions. We present PixMamba, a novel architecture, designed to overcome these challenges by leveraging State Space Models (SSMs) for efficient global dependency modeling. Unlike convolutional neural networks (CNNs) with limited receptive fields and transformer networks with high computational costs, PixMamba efficiently captures global contextual information while maintaining computational efficiency. Our dual-level strategy features the patch-level Efficient Mamba Net (EMNet) for reconstructing enhanced image feature and the pixel-level PixMamba Net (PixNet) to ensure fine-grained feature capturing and global consistency of enhanced image that were previously difficult to obtain. PixMamba achieves state-of-the-art performance across various underwater image datasets and delivers visually superior results. Code is available at: https://github.com/weitunglin/pixmamba.
翻訳日:2024-06-13 15:37:29 公開日:2024-06-12
# SVSNet+:音声基礎モデルからの表現による話者音声類似度評価モデルの実現

SVSNet+: Enhancing Speaker Voice Similarity Assessment Models with Representations from Speech Foundation Models ( http://arxiv.org/abs/2406.08445v1 )

ライセンス: Link先を確認
Chun Yin, Tai-Shih Chi, Yu Tsao, Hsin-Min Wang, (参考訳) 事前訓練された音声基礎モデル(SFM)の表現は、多くの下流タスクにおいて顕著なパフォーマンスを示している。 しかし、事前訓練されたSFM表現を話者音声類似度評価に組み込むことの潜在的な利点は、十分に研究されていない。 本稿では,事前学習したSFM表現を統合したSVSNet+を提案する。 Voice Conversion Challenge 2018と2020データセットの実験結果は、SVSNet+にWavLM表現を組み込むことで、ベースラインモデルよりも大幅に改善されていることを示している。 さらに、下流タスクの小さなデータセットによる微調整WavLMの性能は向上しないが、同じデータセットを使用して、WavLMの重み付け表現を学習することで、性能を大幅に向上させることができる。 さらに、WavLMを他のSFMに置き換える場合、SVSNet+はベースラインモデルよりも優れ、強力な一般化能力を示す。

Representations from pre-trained speech foundation models (SFMs) have shown impressive performance in many downstream tasks. However, the potential benefits of incorporating pre-trained SFM representations into speaker voice similarity assessment have not been thoroughly investigated. In this paper, we propose SVSNet+, a model that integrates pre-trained SFM representations to improve performance in assessing speaker voice similarity. Experimental results on the Voice Conversion Challenge 2018 and 2020 datasets show that SVSNet+ incorporating WavLM representations shows significant improvements compared to baseline models. In addition, while fine-tuning WavLM with a small dataset of the downstream task does not improve performance, using the same dataset to learn a weighted-sum representation of WavLM can substantially improve performance. Furthermore, when WavLM is replaced by other SFMs, SVSNet+ still outperforms the baseline models and exhibits strong generalization ability.
翻訳日:2024-06-13 15:37:29 公開日:2024-06-12
# OLMES: 言語モデル評価のための標準

OLMES: A Standard for Language Model Evaluations ( http://arxiv.org/abs/2406.08446v1 )

ライセンス: Link先を確認
Yuling Gu, Oyvind Tafjord, Bailey Kuehl, Dany Haddad, Jesse Dodge, Hannaneh Hajishirzi, (参考訳) AIの進歩は、しばしばモデル能力を測定するタスクにおけるパフォーマンスの改善を主張する新しいモデルによって実証される。 タスク上でモデルがどのように評価されるかの小さな変更は、測定されたパフォーマンスに大きな変化をもたらす可能性があるため、特に言語モデルを評価することは難しい。 一般的な標準設定は存在しないため、異なるモデルが異なる方法で同じタスクで評価され、どのモデルが再現不可能でないかを主張する。 我々は,再現可能なLLM評価のための,完全に文書化された,実用的でオープンな標準であるOLMESを提案する。 本規格の開発において,コミュニティが採用する評価実践のさまざまな要因 - プロンプトフォーマッティングの詳細,テキスト内例の選択,確率正規化,タスクの定式化など - を特定し,検討する。 特に、OLMESは、非自然な「クローズ」な質問の定式化を必要とする小さなベースモデルと、元の定式化を利用できるより大きなモデルとの有意義な比較をサポートしている。 OLMESには、既存の文献の結果から導かれるよく考えられたレコメンデーションや、オープンな質問を調査する新しい実験が含まれている。

Progress in AI is often demonstrated by new models claiming improved performance on tasks measuring model capabilities. Evaluating language models in particular is challenging, as small changes to how a model is evaluated on a task can lead to large changes in measured performance. There is no common standard setup, so different models are evaluated on the same tasks in different ways, leading to claims about which models perform best not being reproducible. We propose OLMES, a completely documented, practical, open standard for reproducible LLM evaluations. In developing this standard, we identify and review the varying factors in evaluation practices adopted by the community - such as details of prompt formatting, choice of in-context examples, probability normalizations, and task formulation. In particular, OLMES supports meaningful comparisons between smaller base models that require the unnatural "cloze" formulation of multiple-choice questions against larger models that can utilize the original formulation. OLMES includes well-considered recommendations guided by results from existing literature as well as new experiments investigating open questions.
翻訳日:2024-06-13 15:37:29 公開日:2024-06-12
# LoRA微細加工における初期化の影響

The Impact of Initialization on LoRA Finetuning Dynamics ( http://arxiv.org/abs/2406.08447v1 )

ライセンス: Link先を確認
Soufiane Hayou, Nikhil Ghosh, Bin Yu, (参考訳) 本稿では,Hu et al (2021)で導入されたローランク適応(LoRA)の初期化の役割について考察する。 基本的には、微調整の初期化として事前訓練されたモデルから始めるには、B を 0 に、A をランダム(PEFT パッケージのデフォルト初期化)に初期化するか、あるいは逆変換することができる。 どちらの場合も、積 BA は初期化時に 0 に等しいので、事前訓練されたモデルから微調整を開始する。 これら2つの初期化スキームは似ているように見える。 インプリンシプル(in-principle)は同じパフォーマンスを示し、同じ最適な学習率を共有するべきである。 これは誤った直観であり、平均収率における最初のスキーム(B から 0 への初期化と A へのランダム化)が他のスキームよりも優れた性能を示すことを示す。 我々の理論的分析は、第1の初期化が第2の初期化よりも大きな学習率(出力不安定を生じさせることなく)を使用することで、第1のスキームのより効率的な学習が可能になることを示唆している。 LLMに関する広範な実験により,本研究の結果を検証した。

In this paper, we study the role of initialization in Low Rank Adaptation (LoRA) as originally introduced in Hu et al. (2021). Essentially, to start from the pretrained model as initialization for finetuning, one can either initialize B to zero and A to random (default initialization in PEFT package), or vice-versa. In both cases, the product BA is equal to zero at initialization, which makes finetuning starts from the pretrained model. These two initialization schemes are seemingly similar. They should in-principle yield the same performance and share the same optimal learning rate. We demonstrate that this is an incorrect intuition and that the first scheme (initializing B to zero and A to random) on average yields better performance compared to the other scheme. Our theoretical analysis shows that the reason behind this might be that the first initialization allows the use of larger learning rates (without causing output instability) compared to the second initialization, resulting in more efficient learning of the first scheme. We validate our results with extensive experiments on LLMs.
翻訳日:2024-06-13 15:37:29 公開日:2024-06-12
# GUI Odyssey: モバイルデバイス上でのクロスプラットフォームGUIナビゲーションのための総合データセット

GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices ( http://arxiv.org/abs/2406.08451v1 )

ライセンス: Link先を確認
Quanfeng Lu, Wenqi Shao, Zitao Liu, Fanqing Meng, Boxuan Li, Botong Chen, Siyuan Huang, Kaipeng Zhang, Yu Qiao, Ping Luo, (参考訳) スマートフォンユーザーは、ソーシャルメディアプラットフォーム間でコンテンツを共有するなどのタスクを完了するために、複数のアプリケーション(アプリ)をナビゲートすることが多い。 自律的なグラフィカルユーザインタフェース(GUI)ナビゲーションエージェントは、ワークフローの合理化と手作業による介入の削減によって、コミュニケーション、エンターテイメント、生産性のユーザエクスペリエンスを向上させることができる。 しかしながら、以前のGUIエージェントは、単一のアプリ内で完了可能な単純なタスクからなるデータセットでトレーニングされることが多く、アプリ間ナビゲーションのパフォーマンスが低下する。 この問題に対処するために、アプリケーション間ナビゲーションエージェントのトレーニングと評価のための包括的なデータセットであるGUI Odysseyを紹介した。 GUI Odysseyは6つのモバイルデバイスから7,735エピソードで構成され、6種類のクロスアプリタスク、201のアプリ、1.4Kのアプリコンボで構成されている。 GUI Odysseyを活用したマルチモーダルなクロスアプリナビゲーションエージェントであるOdysseyAgentを開発した。 大規模な実験は、OdysseyAgentの既存のモデルと比較して精度が優れていることを示した。 例えば、OdysseyAgentは細調整されたQwen-VLとゼロショットのGPT-4Vを1.44\%、55.49\%のドメイン内精度、2.29\%、48.14\%のドメイン外精度で上回っている。 データセットとコードは \url{https://github.com/OpenGVLab/GUI-Odyssey} でリリースされる。

Smartphone users often navigate across multiple applications (apps) to complete tasks such as sharing content between social media platforms. Autonomous Graphical User Interface (GUI) navigation agents can enhance user experience in communication, entertainment, and productivity by streamlining workflows and reducing manual intervention. However, prior GUI agents often trained with datasets comprising simple tasks that can be completed within a single app, leading to poor performance in cross-app navigation. To address this problem, we introduce GUI Odyssey, a comprehensive dataset for training and evaluating cross-app navigation agents. GUI Odyssey consists of 7,735 episodes from 6 mobile devices, spanning 6 types of cross-app tasks, 201 apps, and 1.4K app combos. Leveraging GUI Odyssey, we developed OdysseyAgent, a multimodal cross-app navigation agent by fine-tuning the Qwen-VL model with a history resampling module. Extensive experiments demonstrate OdysseyAgent's superior accuracy compared to existing models. For instance, OdysseyAgent surpasses fine-tuned Qwen-VL and zero-shot GPT-4V by 1.44\% and 55.49\% in-domain accuracy, and 2.29\% and 48.14\% out-of-domain accuracy on average. The dataset and code will be released in \url{https://github.com/OpenGVLab/GUI-Odyssey}.
翻訳日:2024-06-13 15:37:29 公開日:2024-06-12
# ConceptHash:概念発見による微粒化ハッシュの解釈

ConceptHash: Interpretable Fine-Grained Hashing via Concept Discovery ( http://arxiv.org/abs/2406.08457v1 )

ライセンス: Link先を確認
Kam Woh Ng, Xiatian Zhu, Yi-Zhe Song, Tao Xiang, (参考訳) 既存のきめ細かいハッシュメソッドは、グローバル機能とローカル機能の両方を使ってハッシュコードビットを総括的に計算するので、コード解釈性に欠ける。 この制限に対処するために、サブコードレベルの解釈性を実現する新しい方法であるConceptHashを提案する。 ConceptHashでは、各サブコードはオブジェクト部分のような人間の理解可能な概念に対応しており、これらの概念は人間のアノテーションなしで自動的に発見される。 具体的には、Vision Transformerアーキテクチャを活用し、概念トークンを視覚的プロンプトとして、イメージパッチトークンをモデル入力として導入する。 各概念はモデル出力の特定のサブコードにマッピングされ、自然なサブコードの解釈性を提供する。 非常に類似したサブカテゴリ(鳥種など)間の微妙な視覚的差異を捉えるため,学習したハッシュコードがセマンティックアライメントを維持しつつ,微粒なオブジェクトクラス内で識別可能であることを保証するために,言語指導を取り入れた。 このアプローチにより、他の科の種とは異なるまま、種族内で類似性を示すハッシュコードを開発することができる。 4つのきめ細かい画像検索ベンチマークに関する大規模な実験は、ConceptHashが以前の方法よりも大幅に優れており、特別なサブコードの解釈可能性を提供することを示している。 コードネームはhttps://github.com/kamwoh/concepthash。

Existing fine-grained hashing methods typically lack code interpretability as they compute hash code bits holistically using both global and local features. To address this limitation, we propose ConceptHash, a novel method that achieves sub-code level interpretability. In ConceptHash, each sub-code corresponds to a human-understandable concept, such as an object part, and these concepts are automatically discovered without human annotations. Specifically, we leverage a Vision Transformer architecture and introduce concept tokens as visual prompts, along with image patch tokens as model inputs. Each concept is then mapped to a specific sub-code at the model output, providing natural sub-code interpretability. To capture subtle visual differences among highly similar sub-categories (e.g., bird species), we incorporate language guidance to ensure that the learned hash codes are distinguishable within fine-grained object classes while maintaining semantic alignment. This approach allows us to develop hash codes that exhibit similarity within families of species while remaining distinct from species in other families. Extensive experiments on four fine-grained image retrieval benchmarks demonstrate that ConceptHash outperforms previous methods by a significant margin, offering unique sub-code interpretability as an additional benefit. Code at: https://github.com/kamwoh/concepthash.
翻訳日:2024-06-13 15:37:29 公開日:2024-06-12
# 国境を橋渡しする:エストニアと海外の地方自治体のデータ共有障壁を誇示

Bridging the Gap: Unravelling Local Government Data Sharing Barriers in Estonia and Beyond ( http://arxiv.org/abs/2406.08461v1 )

ライセンス: Link先を確認
Katrin Rajamäe Soosaar, Anastasija Nikiforova, (参考訳) エストニアのデジタル政府の成功は世界的に評価されているが、オープン・ガバメント・データ(OGD)イニシアチブは特に地域レベルでは永続的な課題に直面している。 OGDランキングにおける全国的なOGDイニシアチブの著しい進歩にもかかわらず、地方自治体はOGD規定を怠っている。 本研究の目的は,自治体がOGDをオープンに共有することを妨げる障壁を検討することである。 エストニアの自治体へのインタビューを通じて質的なアプローチを採用し、OGDに適応したイノベーション抵抗理論モデルに基づいており、この研究はOGD共有を妨げる障壁に光を当てている。 国家政策と地方政策のギャップを埋めるため、意識の向上、データガバナンスの枠組みの改善、地方・国家当局との協力の促進など、実践的な勧告が提案されている。 エストニアのオープンデータエコシステムにおける見過ごされた弱点に対処し、実用的なレコメンデーションを提供することによって、この研究はよりレジリエントで持続可能なオープンデータエコシステムに寄与する。 さらに、OGDに適応した革新抵抗理論モデルを検証し、地方自治体の状況に合わせて修正版を提案することにより、データの共有抵抗を理解するための理論的枠組みを前進させる。 最終的に、この研究は政策立案者や実践者が現地のOGDイニシアチブに優先順位をつけるための行動となる。

Estonia's digital government success has received global acclaim, yet its Open Government Data (OGD) initiatives, especially at the local level, encounter persistent challenges. Despite significant progress of national OGD initiative in OGD rankings, local governments lag in OGD provision. This study aims to examine barriers hindering municipalities from openly sharing OGD. Employing a qualitative approach through interviews with Estonian municipalities and drawing on the OGD-adapted Innovation Resistance Theory model, the study sheds light on barriers impeding OGD sharing. Practical recommendations are proposed to bridge the gap between national policies and local implementation, including enhancing awareness, improving data governance frameworks, and fostering collaboration be-tween local and national authorities. By addressing overlooked weaknesses in the Estonian open data ecosystem and providing actionable recommendations, this research contributes to a more resilient and sustainable open data ecosystem. Additionally, by validating the OGD-adapted Innovation Resistance Theory model and proposing a revised version tailored for local government contexts, the study advances theoretical frameworks for understanding data sharing resistance. Ultimately, this study serves as a call to action for policymakers and practitioners to prioritize local OGD initiatives.
翻訳日:2024-06-13 15:37:29 公開日:2024-06-12
# カメラ・ポーズ・リファインメントのための自己教師付き学習によるニューラルインシシシト特徴場の学習

Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement ( http://arxiv.org/abs/2406.08463v1 )

ライセンス: Link先を確認
Maxime Pietrantoni, Gabriela Csurka, Martin Humenberger, Torsten Sattler, (参考訳) 視覚的なローカライゼーション技術は、ローカライズに対抗するために、いくつかの根底にあるシーン表現に依存している。 これらの表現は、3D SFMマップや暗黙的に表現することができる。 前者はシーン表現を構築するためにスパースな特徴抽出器とマーカを必要とする。 後者は、シーンの3D構造を十分に捉えていない幾何学的な接地を欠いているかもしれない。 本稿では,同じ距離空間に出力が埋め込まれた3次元高密度特徴場と2次元特徴抽出器とを併用してシーン表現を共同学習することを提案する。 対照的なフレームワークを通じて、この体積場を画像ベース抽出器と整列させ、学習した表面情報からのランキング損失と正則化する。 暗黙の場に符号化された中間的幾何情報を活用するために、ボリュームレンダリングを通してシーンの基盤となる幾何学を学習し、特徴体を設計する。 結果として得られる特徴は、リッチなエンコードされた情報を維持しながら、視点の変化に対して差別的で堅牢である。 次に、画像ベースの機能とレンダリングされたボリューム機能を調整することで、視覚的なローカライゼーションを実現する。 実世界のシーンにおけるアプローチの有効性を示すとともに,暗黙のシーン表現をローカライズに活用する上で,我々のアプローチが先行的かつ同時的な作業よりも優れていることを示す。

Visual localization techniques rely upon some underlying scene representation to localize against. These representations can be explicit such as 3D SFM map or implicit, such as a neural network that learns to encode the scene. The former requires sparse feature extractors and matchers to build the scene representation. The latter might lack geometric grounding not capturing the 3D structure of the scene well enough. This paper proposes to jointly learn the scene representation along with a 3D dense feature field and a 2D feature extractor whose outputs are embedded in the same metric space. Through a contrastive framework we align this volumetric field with the image-based extractor and regularize the latter with a ranking loss from learned surface information. We learn the underlying geometry of the scene with an implicit field through volumetric rendering and design our feature field to leverage intermediate geometric information encoded in the implicit field. The resulting features are discriminative and robust to viewpoint change while maintaining rich encoded information. Visual localization is then achieved by aligning the image-based features and the rendered volumetric features. We show the effectiveness of our approach on real-world scenes, demonstrating that our approach outperforms prior and concurrent work on leveraging implicit scene representations for localization.
翻訳日:2024-06-13 15:37:29 公開日:2024-06-12
# Magpie: 配向LCMの無印加によるスクラッチからの配向データ合成

Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing ( http://arxiv.org/abs/2406.08464v1 )

ライセンス: Link先を確認
Zhangchen Xu, Fengqing Jiang, Luyao Niu, Yuntian Deng, Radha Poovendran, Yejin Choi, Bill Yuchen Lin, (参考訳) 高品質な命令データは、大きな言語モデル(LLM)の整合に不可欠である。 Llama-3-Instructのようなモデルの中にはオープンウェイトを持つものもあるが、アライメントデータは非公開のままであり、AIの民主化を妨げる。 人件費の高騰と、既存のオープンソースのデータ生成手法のスケーリングを効果的に防ぎ、公開アライメントデータセットの多様性と品質を制限している可能性がある。 整列 LLM から直接抽出することで,高品質な命令データを大規模に合成することは可能か? 我々はMagpieという名の大規模アライメントデータを生成する自己合成法を提案する。 我々のキーとなる観察は、Llama-3-Instructのような整列 LLM は、左のテンプレートのみをユーザメッセージに予約された位置まで入力すると、その自動回帰性のおかげで、ユーザクエリを生成することができるということです。 我々はこの手法を用いてLlama-3-Instructを誘導し、対応する応答とともに400万の命令を生成する。 抽出したデータの包括的分析を行い,300Kの高品質なインスタンスを選択する。 Magpieデータを他の公開命令データセットと比較するために、Llama-3-8B-Baseを各データセットに微調整し、微調整されたモデルの性能を評価する。 以上の結果から,Magpieで微調整したモデルでは,教師付き微調整(SFT)とその後のフィードバック学習によって1000万のデータポイントが拡張されているにもかかわらず,公式のLlama-3-8Bインストラクトと同等に動作することが示唆された。 また、SFTのみにMagpieを使用することで、UltraFeedbackによる直接選好最適化など、SFTと選好最適化の両方に使用されていた過去の公開データセットの性能を上回ることができることを示す。 この利点はAlpacaEval、ArenaHard、WildBenchなどのアライメントベンチマークで明らかである。

High-quality instruction data is critical for aligning large language models (LLMs). Although some models, such as Llama-3-Instruct, have open weights, their alignment data remain private, which hinders the democratization of AI. High human labor costs and a limited, predefined scope for prompting prevent existing open-source data creation methods from scaling effectively, potentially limiting the diversity and quality of public alignment datasets. Is it possible to synthesize high-quality instruction data at scale by extracting it directly from an aligned LLM? We present a self-synthesis method for generating large-scale alignment data named Magpie. Our key observation is that aligned LLMs like Llama-3-Instruct can generate a user query when we input only the left-side templates up to the position reserved for user messages, thanks to their auto-regressive nature. We use this method to prompt Llama-3-Instruct and generate 4 million instructions along with their corresponding responses. We perform a comprehensive analysis of the extracted data and select 300K high-quality instances. To compare Magpie data with other public instruction datasets, we fine-tune Llama-3-8B-Base with each dataset and evaluate the performance of the fine-tuned models. Our results indicate that in some tasks, models fine-tuned with Magpie perform comparably to the official Llama-3-8B-Instruct, despite the latter being enhanced with 10 million data points through supervised fine-tuning (SFT) and subsequent feedback learning. We also show that using Magpie solely for SFT can surpass the performance of previous public datasets utilized for both SFT and preference optimization, such as direct preference optimization with UltraFeedback. This advantage is evident on alignment benchmarks such as AlpacaEval, ArenaHard, and WildBench.
翻訳日:2024-06-13 15:37:29 公開日:2024-06-12
# 不均一データを用いた小型平滑部分多様体の非凸フェデレーション学習

Nonconvex Federated Learning on Compact Smooth Submanifolds With Heterogeneous Data ( http://arxiv.org/abs/2406.08465v1 )

ライセンス: Link先を確認
Jiaojiao Zhang, Jiang Hu, Anthony Man-Cho So, Mikael Johansson, (参考訳) 主成分分析や低ランク行列補完といった多くの機械学習タスクは、多様体最適化の問題を引き起こす。 中央集権的な環境での多様体最適化のためのアルゴリズムの設計と解析について研究する研究は多数あるが、現在では連合的な設定に対処する研究はほとんどない。 本稿では,不均一なクライアントデータの設定において,コンパクトなスムーズなサブ多様体上での非凸フェデレーション学習について考察する。 本稿では,確率的リーマン勾配と多様体射影演算子を利用して計算効率を向上し,局所更新を用いて通信効率を向上し,クライアントのドリフトを回避するアルゴリズムを提案する。 理論的には、提案アルゴリズムは、損失関数の多様体構造と性質を共同で活用する新しい解析を用いて、一階最適解の近傍に準線形に収束することを示す。 数値実験により,本アルゴリズムは既存手法に比べて計算・通信オーバーヘッドが大幅に小さいことが示された。

Many machine learning tasks, such as principal component analysis and low-rank matrix completion, give rise to manifold optimization problems. Although there is a large body of work studying the design and analysis of algorithms for manifold optimization in the centralized setting, there are currently very few works addressing the federated setting. In this paper, we consider nonconvex federated learning over a compact smooth submanifold in the setting of heterogeneous client data. We propose an algorithm that leverages stochastic Riemannian gradients and a manifold projection operator to improve computational efficiency, uses local updates to improve communication efficiency, and avoids client drift. Theoretically, we show that our proposed algorithm converges sub-linearly to a neighborhood of a first-order optimal solution by using a novel analysis that jointly exploits the manifold structure and properties of the loss functions. Numerical experiments demonstrate that our algorithm has significantly smaller computational and communication overhead than existing methods.
翻訳日:2024-06-13 15:37:29 公開日:2024-06-12
# 線形回帰におけるスケーリング法則:計算、パラメータ、データ

Scaling Laws in Linear Regression: Compute, Parameters, and Data ( http://arxiv.org/abs/2406.08466v1 )

ライセンス: Link先を確認
Licong Lin, Jingfeng Wu, Sham M. Kakade, Peter L. Bartlett, Jason D. Lee, (参考訳) 経験的に、大規模なディープラーニングモデルは、しばしばニューラルスケーリング法則を満たす:訓練されたモデルのテストエラーは、モデルのサイズとデータサイズが大きくなるにつれて多項式的に改善する。 しかし、従来の知恵では、テストエラーは近似、バイアス、分散エラーから成り、モデルサイズとともに分散エラーが増加することを示唆している。 これは、モデルサイズの増加がパフォーマンスを単調に改善すると予想する、一般的なニューラルスケーリング法則とは一致しない。 無限次元線形回帰セットアップにおけるスケーリング法則の理論について検討する。 具体的には、$M$パラメータを持つモデルを、スケッチされた共変数の線形関数とみなす。 このモデルは1パス確率勾配勾配(SGD)でN$データを用いて訓練される。 最適パラメータがガウス事前を満たすと仮定し、データ共分散行列が次数$a>1$の有理スペクトルを持ち、テスト誤差の既約部分は$\Theta(M^{-(a-1)} + N^{-(a-1)/a})$であることを示す。 M$で増加する分散誤差は、SGDの暗黙の正規化により他の誤差に支配され、したがって境界から消える。 我々の理論は経験的ニューラルスケーリング法則と一致し、数値シミュレーションによって検証される。

Empirically, large-scale deep learning models often satisfy a neural scaling law: the test error of the trained model improves polynomially as the model size and data size grow. However, conventional wisdom suggests the test error consists of approximation, bias, and variance errors, where the variance error increases with model size. This disagrees with the general form of neural scaling laws, which predict that increasing model size monotonically improves performance. We study the theory of scaling laws in an infinite dimensional linear regression setup. Specifically, we consider a model with $M$ parameters as a linear function of sketched covariates. The model is trained by one-pass stochastic gradient descent (SGD) using $N$ data. Assuming the optimal parameter satisfies a Gaussian prior and the data covariance matrix has a power-law spectrum of degree $a>1$, we show that the reducible part of the test error is $\Theta(M^{-(a-1)} + N^{-(a-1)/a})$. The variance error, which increases with $M$, is dominated by the other errors due to the implicit regularization of SGD, thus disappearing from the bound. Our theory is consistent with the empirical neural scaling laws and verified by numerical simulation.
翻訳日:2024-06-13 15:37:29 公開日:2024-06-12
# DafnyBench: 形式的ソフトウェア検証のためのベンチマーク

DafnyBench: A Benchmark for Formal Software Verification ( http://arxiv.org/abs/2406.08467v1 )

ライセンス: Link先を確認
Chloe Loughridge, Qinyi Sun, Seth Ahrenbach, Federico Cassano, Chuyue Sun, Ying Sheng, Anish Mudide, Md Rakib Hossain Misu, Nada Amin, Max Tegmark, (参考訳) DafnyBenchは、正式なソフトウェア検証のための機械学習システムのトレーニングと評価のための、そのタイプの最大のベンチマークである。 我々は,GPT-4 や Claude 3 などの LLM を用いて,約 53,000 行のコードで 750 以上のプログラムを検証できるように,Dafny 形式検証エンジンに十分なヒントを自動生成する機能をテストする。 最良のモデルとプロンプトスキームは68%の成功率を達成し、エラーメッセージのフィードバックで再試行した場合にどのように改善するか、必要なコードやヒントの量でどのように悪化するかを定量化する。 DafnyBenchは、LLMと検証技術の品質が向上するにつれて、このベースラインから迅速に改善できることを期待しています。

We introduce DafnyBench, the largest benchmark of its kind for training and evaluating machine learning systems for formal software verification. We test the ability of LLMs such as GPT-4 and Claude 3 to auto-generate enough hints for the Dafny formal verification engine to successfully verify over 750 programs with about 53,000 lines of code. The best model and prompting scheme achieved 68% success rate, and we quantify how this rate improves when retrying with error message feedback and how it deteriorates with the amount of required code and hints. We hope that DafnyBench will enable rapid improvements from this baseline as LLMs and verification techniques grow in quality.
翻訳日:2024-06-13 15:27:35 公開日:2024-06-12
# PAL:不均一な選好から学ぶための多元的アライメントフレームワーク

PAL: Pluralistic Alignment Framework for Learning from Heterogeneous Preferences ( http://arxiv.org/abs/2406.08469v1 )

ライセンス: Link先を確認
Daiwei Chen, Yi Chen, Aniket Rege, Ramya Korlakai Vinayak, (参考訳) 生のWebスケールデータに事前訓練された大規模な基盤モデルは、人間の好みに合わせた追加のステップなしでは容易にデプロイできない。 このようなアライメントは、典型的には、人間から大量のペア比較("Do you preferred output A or B?")を集め、人間の基本的暗黙の選好のプロキシとして、報酬モデルまたは政策をブラッドリー・テリー・ルーシ(英語版)(BTL)モデルで学習することで行われる。 これらの手法は一般に、複数の意見や嗜好に適応する柔軟性に欠ける、すべての人間が共有する普遍的な嗜好を仮定する。 本研究では,既存の事前学習戦略を補完する人間の嗜好をモデル化するフレームワークであるPALを提案する。 本稿では、レンズとして理想点モデルを用いて、優先比較を用いた視線アライメントを提案する。 本フレームワークは, 新規な改質と混合モデルの利用とともに, 複数個体の嗜好を同時に把握し, 異なる嗜好にまたがる共通嗜好空間を学習する。 提案手法は,大規模基礎モデルと単純なMLP階層の最小層表現を用いて,既存の大規模技術報酬モデルと同等の報酬関数を学習し,報酬モデルの有効性を著しく向上させる。 我々はPALが強力なベースラインに比べて競争報酬モデル精度を達成することを示す。 1)要約データセットを用いた言語モデル; 2)ピック・ア・ピックデータセットを用いた画像生成モデル; 3)人文的ペルソナを用いた新しい半合成異種データセット。 最後に、我々の実験は、不均一性を洗い流し、よりニュアンスなデータ収集アプローチを要求する剛体ルーリックを使用して作成される現在の嗜好データセットの欠点についても強調した。

Large foundation models pretrained on raw web-scale data are not readily deployable without additional step of extensive alignment to human preferences. Such alignment is typically done by collecting large amounts of pairwise comparisons from humans ("Do you prefer output A or B?") and learning a reward model or a policy with the Bradley-Terry-Luce (BTL) model as a proxy for a human's underlying implicit preferences. These methods generally suffer from assuming a universal preference shared by all humans, which lacks the flexibility of adapting to plurality of opinions and preferences. In this work, we propose PAL, a framework to model human preference complementary to existing pretraining strategies, which incorporates plurality from the ground up. We propose using the ideal point model as a lens to view alignment using preference comparisons. Together with our novel reformulation and using mixture modeling, our framework captures the plurality of population preferences while simultaneously learning a common preference latent space across different preferences, which can few-shot generalize to new, unseen users. Our approach enables us to use the penultimate-layer representation of large foundation models and simple MLP layers to learn reward functions that are on-par with the existing large state-of-the-art reward models, thereby enhancing efficiency of reward modeling significantly. We show that PAL achieves competitive reward model accuracy compared to strong baselines on 1) Language models with Summary dataset ; 2) Image Generative models with Pick-a-Pic dataset ; 3) A new semisynthetic heterogeneous dataset generated using Anthropic Personas. Finally, our experiments also highlight the shortcoming of current preference datasets that are created using rigid rubrics which wash away heterogeneity, and call for more nuanced data collection approaches.
翻訳日:2024-06-13 15:27:35 公開日:2024-06-12
# サプライズ! 生理的ストレスを用いたアクティブ・推論・フレームワークによるアロスタティック・レギュレーション [Pre-Print]

Surprise! Using Physiological Stress for Allostatic Regulation Under the Active Inference Framework [Pre-Print] ( http://arxiv.org/abs/2406.08471v1 )

ライセンス: Link先を確認
Imran Khan, Robert Lowe, (参考訳) アロスタシスは、生体システムの長期生存性は、生理的および情緒的ストレスを、長期予測エラーを最小限に抑える適応状態として強調する、生理的および情緒的ストレスの予測調整によって達成される、と提唱している。 近年、アクティブ推論フレームワーク(AIF)は、将来のエラー(自由エネルギー)の最小化を通じて、世界の統計的一致の学習を通じて行動と長期適応を説明し、アロスタティックな規制の定式化を図っている。 アロスタシスによって提案される生体ホルモン動態のレンズによるフレーミング予測誤差は、これらの2つのモデルを生物学的に証明可能な方法で統合する方法を提供することを示唆する。 本稿では, 生理的ストレスホルモン(コルチゾール)の分泌に予測誤差(予備的)を基礎として, ホメオスタティック制御された生理学上の適応的アロスタティックメディエーターとして機能するモデルの開発について述べる。 本研究では, 確率環境下での静電気的および静電気的制御によって制御される, 人工生理学を応用した能動的推論エージェントを用いて, シミュレーションモデルを用いてこれを評価した。 以上の結果から,コルチゾール (ストレス) のアロスタット機能は, 予測誤差の関数として分泌され, 長期間の生理的調節に適応的に有効であることが示唆された。 ストレスの低レベル, 生物学的ホルモン動態に対する情報理論的予測誤差の結合は, エンボディド・インテリジェント・システムに対する長期的規制に対する計算効率のよいモデルを提供することができると論じる。

Allostasis proposes that long-term viability of a living system is achieved through anticipatory adjustments of its physiology and behaviour: emphasising physiological and affective stress as an adaptive state of adaptation that minimizes long-term prediction errors. More recently, the active inference framework (AIF) has also sought to explain action and long-term adaptation through the minimization of future errors (free energy), through the learning of statistical contingencies of the world, offering a formalism for allostatic regulation. We suggest that framing prediction errors through the lens of biological hormonal dynamics proposed by allostasis offers a way to integrate these two models together in a biologically-plausible manner. In this paper, we describe our initial work in developing a model that grounds prediction errors (surprisal) into the secretion of a physiological stress hormone (cortisol) acting as an adaptive, allostatic mediator on a homeostatically-controlled physiology. We evaluate this using a computational model in simulations using an active inference agent endowed with an artificial physiology, regulated through homeostatic and allostatic control in a stochastic environment. Our results find that allostatic functions of cortisol (stress), secreted as a function of prediction errors, provide adaptive advantages to the agent's long-term physiological regulation. We argue that the coupling of information-theoretic prediction errors to low-level, biological hormonal dynamics of stress can provide a computationally efficient model to long-term regulation for embodied intelligent systems.
翻訳日:2024-06-13 15:27:35 公開日:2024-06-12
# RILe:強化模倣学習

RILe: Reinforced Imitation Learning ( http://arxiv.org/abs/2406.08472v1 )

ライセンス: Link先を確認
Mert Albaba, Sammy Christen, Christoph Gebhardt, Thomas Langarek, Michael J. Black, Otmar Hilliges, (参考訳) 強化学習は複雑な振る舞いを生成する上で大きな成功を収めてきたが、大きな報酬関数エンジニアリングを必要とすることが多い。 Imitation Learning と Inverse Reinforcement Learning の逆の変種は、判別器を介して専門家によるデモンストレーションからポリシーを学ぶことで代替手段を提供する。 識別器の使用は、標準的なアプローチよりもデータと計算効率を高めるが、専門家データにおける不完全性に敏感になる。 本稿では,不完全なデータと効率の両面において頑健性を実現する教師学生システムであるRILeを提案する。 RILeでは、教師が生徒のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて報酬関数を動的に調整する間、生徒はアクションポリシーを学習する。 学生のパフォーマンスと専門家の類似性の両方に報酬関数を調整することにより、判別器への依存を減らし、データ不完全性に対する堅牢性を高める。 実験の結果、RILeは制限のある専門家データやノイズの多い専門家データで、既存のメソッドを2倍の性能で上回ることがわかった。

Reinforcement Learning has achieved significant success in generating complex behavior but often requires extensive reward function engineering. Adversarial variants of Imitation Learning and Inverse Reinforcement Learning offer an alternative by learning policies from expert demonstrations via a discriminator. Employing discriminators increases their data- and computational efficiency over the standard approaches; however, results in sensitivity to imperfections in expert data. We propose RILe, a teacher-student system that achieves both robustness to imperfect data and efficiency. In RILe, the student learns an action policy while the teacher dynamically adjusts a reward function based on the student's performance and its alignment with expert demonstrations. By tailoring the reward function to both performance of the student and expert similarity, our system reduces dependence on the discriminator and, hence, increases robustness against data imperfections. Experiments show that RILe outperforms existing methods by 2x in settings with limited or noisy expert data.
翻訳日:2024-06-13 15:27:35 公開日:2024-06-12
# ニューラル演算子の事前学習戦略

Strategies for Pretraining Neural Operators ( http://arxiv.org/abs/2406.08473v1 )

ライセンス: Link先を確認
Anthony Zhou, Cooper Lorsung, AmirPouya Hemmasian, Amir Barati Farimani, (参考訳) 偏微分方程式(PDE)モデリングの事前トレーニングは、一般化性と性能を改善するために、データセットをまたいだニューラルネットワークのスケーリングを約束している。 これらの進歩にもかかわらず、プレトレーニングが神経オペレータにどのように影響するかについての私たちの理解はまだ限られている。 これを解決するために、アーキテクチャの選択を最適化することなく、様々なモデルやデータセット上で事前学習のダイナミクスを特徴付けるとともに、そのスケーリングと一般化の振る舞いを理解するために、様々な事前学習手法を比較した。 プレトレーニングはモデルとデータセットの選択に大きく依存するが、一般的な転送学習や物理ベースのプレトレーニング戦略が最も有効である。 さらに、データ拡張を使用することで、事前学習性能をさらに向上することができる。 最後に、事前学習は、不足するデータレギュレーションの微調整や、事前学習分布と同様の下流データに一般化する場合にも有益である。 物理予測のためのプレトレーニングニューラルネットワークに関する洞察を提供することで、PDEの事前トレーニング手法の開発と評価における今後の取り組みを動機づけたいと考えています。

Pretraining for partial differential equation (PDE) modeling has recently shown promise in scaling neural operators across datasets to improve generalizability and performance. Despite these advances, our understanding of how pretraining affects neural operators is still limited; studies generally propose tailored architectures and datasets that make it challenging to compare or examine different pretraining frameworks. To address this, we compare various pretraining methods without optimizing architecture choices to characterize pretraining dynamics on different models and datasets as well as to understand its scaling and generalization behavior. We find that pretraining is highly dependent on model and dataset choices, but in general transfer learning or physics-based pretraining strategies work best. In addition, pretraining performance can be further improved by using data augmentations. Lastly, pretraining is additionally beneficial when fine-tuning in scarce data regimes or when generalizing to downstream data similar to the pretraining distribution. Through providing insights into pretraining neural operators for physics prediction, we hope to motivate future work in developing and evaluating pretraining methods for PDEs.
翻訳日:2024-06-13 15:27:35 公開日:2024-06-12
# Real2Code: コード生成によるArticulated Objectの再構築

Real2Code: Reconstruct Articulated Objects via Code Generation ( http://arxiv.org/abs/2406.08474v1 )

ライセンス: Link先を確認
Zhao Mandi, Yijia Weng, Dominik Bauer, Shuran Song, (参考訳) コード生成による音声オブジェクトの再構成のための新しいアプローチであるReal2Codeを提案する。 対象物の視覚的観察から,まず画像分割モデルと形状完備モデルを用いて部分形状を再構成する。 次に,オブジェクト指向言語モデル (LLM) に入力された有向境界ボックスを用いて対象部品を表現し,コードとしての関節音節の予測を行う。 事前学習された視覚と言語モデルを利用することで, 合成学習データから非構造化環境における実世界オブジェクトへの一般化を行う。 実験結果から,Real2Codeは従来の再現精度を著しく上回り,トレーニングセットにおけるオブジェクトの構造的複雑さを超越し,最大10個の明瞭なパーツでオブジェクトを再構成する最初のアプローチであることがわかった。 ステレオ再構成モデルに組み込むと、Real2Codeは、深度やカメラ情報を必要とせずに、少数のマルチビューRGB画像から現実世界のオブジェクトに一般化する。

We present Real2Code, a novel approach to reconstructing articulated objects via code generation. Given visual observations of an object, we first reconstruct its part geometry using an image segmentation model and a shape completion model. We then represent the object parts with oriented bounding boxes, which are input to a fine-tuned large language model (LLM) to predict joint articulation as code. By leveraging pre-trained vision and language models, our approach scales elegantly with the number of articulated parts, and generalizes from synthetic training data to real world objects in unstructured environments. Experimental results demonstrate that Real2Code significantly outperforms previous state-of-the-art in reconstruction accuracy, and is the first approach to extrapolate beyond objects' structural complexity in the training set, and reconstructs objects with up to 10 articulated parts. When incorporated with a stereo reconstruction model, Real2Code also generalizes to real world objects from a handful of multi-view RGB images, without the need for depth or camera information.
翻訳日:2024-06-13 15:27:35 公開日:2024-06-12
# 人間の3次元拡散: 明示的な3次元連続拡散モデルによる現実的なアバター生成

Human 3Diffusion: Realistic Avatar Creation via Explicit 3D Consistent Diffusion Models ( http://arxiv.org/abs/2406.08475v1 )

ライセンス: Link先を確認
Yuxuan Xue, Xianghui Xie, Riccardo Marin, Gerard Pons-Moll, (参考訳) 1枚のRGB画像からリアルなアバターを作るのは、魅力的だが難しい問題だ。 その不適切な性質のため、最近の研究は、大規模なデータセットで事前訓練された2次元拡散モデルから強力に事前に活用されている。 2次元拡散モデルは強力な一般化能力を示すが、3次元整合性を保証するマルチビュー形状の先行を提供することはできない。 人間の3次元拡散: 明示的な3次元連続拡散による現実的なアバター創造を提案する。 我々の重要な洞察は、2次元多視点拡散と3次元再構成モデルが相互に相補的な情報を提供し、それらを密結合することで、両方のモデルの可能性を完全に活用できるということである。 本研究では,2次元多視点拡散モデルから先行情報を活用する新しい画像条件生成3次元ガウスプラッツ再構成モデルを導入し,より優れた3次元整合性を持つように2次元逆サンプリングプロセスをガイドする明示的な3次元表現を提供する。 実験により,提案手法は最先端の手法より優れ,単一のRGB画像から現実的なアバターを作成でき,幾何学と外観の両面で高い忠実性が得られることが示された。 また, 多視点2次元事前条件付けによる生成3次元再構成, 2) 明示的な3次元表現によるサンプリング軌道の整合性向上, などにより, 設計の有効性が検証された。 私たちのコードとモデルはhttps://yuxuan-xue.com/ Human-3diffusion.comでリリースされます。

Creating realistic avatars from a single RGB image is an attractive yet challenging problem. Due to its ill-posed nature, recent works leverage powerful prior from 2D diffusion models pretrained on large datasets. Although 2D diffusion models demonstrate strong generalization capability, they cannot provide multi-view shape priors with guaranteed 3D consistency. We propose Human 3Diffusion: Realistic Avatar Creation via Explicit 3D Consistent Diffusion. Our key insight is that 2D multi-view diffusion and 3D reconstruction models provide complementary information for each other, and by coupling them in a tight manner, we can fully leverage the potential of both models. We introduce a novel image-conditioned generative 3D Gaussian Splats reconstruction model that leverages the priors from 2D multi-view diffusion models, and provides an explicit 3D representation, which further guides the 2D reverse sampling process to have better 3D consistency. Experiments show that our proposed framework outperforms state-of-the-art methods and enables the creation of realistic avatars from a single RGB image, achieving high-fidelity in both geometry and appearance. Extensive ablations also validate the efficacy of our design, (1) multi-view 2D priors conditioning in generative 3D reconstruction and (2) consistency refinement of sampling trajectory via the explicit 3D representation. Our code and models will be released on https://yuxuan-xue.com/human-3diffusion.
翻訳日:2024-06-13 15:27:35 公開日:2024-06-12
# RMem:制限付きメモリバンクでビデオオブジェクトのセグメンテーションが改善

RMem: Restricted Memory Banks Improve Video Object Segmentation ( http://arxiv.org/abs/2406.08476v1 )

ライセンス: Link先を確認
Junbao Zhou, Ziqi Pang, Yu-Xiong Wang, (参考訳) 最近のビデオオブジェクトセグメンテーション(VOS)ベンチマークは、挑戦的なシナリオへと進化している。 これは、メモリバンクを拡大して広範な歴史的情報に対応するという一般的な慣行から分岐している。 我々の特別に設計された「メモリ解読」研究は、このような戦略を支える重要な洞察を提供する: メモリバンクの拡大は、有益であるように見えるが、実際には、冗長な情報からの混乱により、VOSモジュールが関連する機能をデコードすることの難しさを増大させる。 メモリバンクを限られた数の必須フレームに制限することにより、VOSの精度を大幅に向上させる。 このプロセスは、バウンダリ容量内で情報記憶バンクを維持するために、フレームの重要性と鮮度をバランスさせる。 さらに、制限されたメモリバンクは、連続的な拡張に比べて、メモリ長のトレーニング-推論の差を小さくする。 これにより、時間的推論における新たな機会を育み、これまで見過ごされていた「時間的位置埋め込み」の導入を可能にします。 最後に、私たちの洞察は"RMem"(制限付きのR)に具体化されています。これは、VOSシナリオの挑戦に優れ、(VOSTデータセット上の)オブジェクトの状態変化と(Long Videosデータセット上の)ロングビデオのための新しい最先端技術を確立する、シンプルで効果的なVOS修正です。 私たちのコードとデモはhttps://restricted-Memory.github.io/で公開されています。

With recent video object segmentation (VOS) benchmarks evolving to challenging scenarios, we revisit a simple but overlooked strategy: restricting the size of memory banks. This diverges from the prevalent practice of expanding memory banks to accommodate extensive historical information. Our specially designed "memory deciphering" study offers a pivotal insight underpinning such a strategy: expanding memory banks, while seemingly beneficial, actually increases the difficulty for VOS modules to decode relevant features due to the confusion from redundant information. By restricting memory banks to a limited number of essential frames, we achieve a notable improvement in VOS accuracy. This process balances the importance and freshness of frames to maintain an informative memory bank within a bounded capacity. Additionally, restricted memory banks reduce the training-inference discrepancy in memory lengths compared with continuous expansion. This fosters new opportunities in temporal reasoning and enables us to introduce the previously overlooked "temporal positional embedding." Finally, our insights are embodied in "RMem" ("R" for restricted), a simple yet effective VOS modification that excels at challenging VOS scenarios and establishes new state of the art for object state changes (on the VOST dataset) and long videos (on the Long Videos dataset). Our code and demo are available at https://restricted-memory.github.io/.
翻訳日:2024-06-13 15:27:35 公開日:2024-06-12
# LLaMA-3で何十億ものウェブ画像を取り返したら?

What If We Recaption Billions of Web Images with LLaMA-3? ( http://arxiv.org/abs/2406.08478v1 )

ライセンス: Link先を確認
Xianhang Li, Haoqin Tu, Mude Hui, Zeyu Wang, Bingchen Zhao, Junfei Xiao, Sucheng Ren, Jieru Mei, Qing Liu, Huangjie Zheng, Yuyin Zhou, Cihang Xie, (参考訳) Webcrawledイメージテキストペアは本質的にノイズの多いものです。 先行研究は、これらのペアのテキスト記述のセマンティックな整合と強化により、様々な視覚言語タスク、特にテキスト・ツー・イメージ生成におけるモデルトレーニングが大幅に向上することを示した。 しかし、この地域の大規模な調査は、主にクローズドソースのままである。 本稿では,GPT-4 レベル LLM である LLaMA-3 を利用して,このコミュニティの取り組みを橋渡しすることを目的としている。 まず、LLaMA-3-8B搭載のLLaVA-1.5を微調整し、DataComp-1Bデータセットから13億枚の画像を再キャプチャするために使用します。 この拡張データセットであるRecap-DataComp-1Bは、先進的な視覚言語モデルのトレーニングにおいて大きなメリットがあることを確認した。 CLIPのような識別モデルでは、クロスモーダル検索タスクにおけるゼロショット性能の強化が観察される。 テキスト・ツー・イメージ・ディフュージョン・トランスフォーマーのような生成モデルでは、生成した画像はユーザのテキスト命令、特に複雑なクエリに従う際に、大幅に改善されている。 私たちのプロジェクトページはhttps://www.haqtu.me/Recap-Datacomp-1B/です。

Web-crawled image-text pairs are inherently noisy. Prior studies demonstrate that semantically aligning and enriching textual descriptions of these pairs can significantly enhance model training across various vision-language tasks, particularly text-to-image generation. However, large-scale investigations in this area remain predominantly closed-source. Our paper aims to bridge this community effort, leveraging the powerful and \textit{open-sourced} LLaMA-3, a GPT-4 level LLM. Our recaptioning pipeline is simple: first, we fine-tune a LLaMA-3-8B powered LLaVA-1.5 and then employ it to recaption 1.3 billion images from the DataComp-1B dataset. Our empirical results confirm that this enhanced dataset, Recap-DataComp-1B, offers substantial benefits in training advanced vision-language models. For discriminative models like CLIP, we observe enhanced zero-shot performance in cross-modal retrieval tasks. For generative models like text-to-image Diffusion Transformers, the generated images exhibit a significant improvement in alignment with users' text instructions, especially in following complex queries. Our project page is https://www.haqtu.me/Recap-Datacomp-1B/
翻訳日:2024-06-13 15:27:35 公開日:2024-06-12
# Real3D: リアルタイム画像による大規模再構成モデルのスケールアップ

Real3D: Scaling Up Large Reconstruction Models with Real-World Images ( http://arxiv.org/abs/2406.08479v1 )

ライセンス: Link先を確認
Hanwen Jiang, Qixing Huang, Georgios Pavlakos, (参考訳) 単一ビュー大再構成モデル(LRM)をトレーニングするためのデフォルトの戦略は、合成3D資産の大規模なデータセットやマルチビューキャプチャを使用した完全な教師付きルートに従う。 これらのリソースはトレーニング手順を単純化するが、既存のデータセットを超えてスケールアップすることは困難であり、必ずしもオブジェクトの実際の分布を表すものではない。 これらの制約に対処するために,本論文では,単一視点の現実画像を用いてトレーニング可能な,最初のLEMシステムであるReal3Dを紹介する。 Real3Dは、既存の合成データと多様なシングルビューリアルイメージの両方の恩恵を受けることができる新しい自己学習フレームワークを導入している。 そこで本研究では,LRMの画素レベルでの監視と意味レベルでの監視を可能にする2つの教師なしの損失を提案する。 画像データの改善とスケールアップのために,我々は,高品質な画像から高品質なサンプルを収集する自動データキュレーション手法を開発した。 我々の実験では、Real3Dは、ドメイン内およびドメイン外の両方の形状だけでなく、実データと合成データを含む4つの多様な評価設定において、先行作業よりも一貫して優れています。 コードとモデルはここにある。 https://hwjiang1510.github.io/Real3D/

The default strategy for training single-view Large Reconstruction Models (LRMs) follows the fully supervised route using large-scale datasets of synthetic 3D assets or multi-view captures. Although these resources simplify the training procedure, they are hard to scale up beyond the existing datasets and they are not necessarily representative of the real distribution of object shapes. To address these limitations, in this paper, we introduce Real3D, the first LRM system that can be trained using single-view real-world images. Real3D introduces a novel self-training framework that can benefit from both the existing synthetic data and diverse single-view real images. We propose two unsupervised losses that allow us to supervise LRMs at the pixel- and semantic-level, even for training examples without ground-truth 3D or novel views. To further improve performance and scale up the image data, we develop an automatic data curation approach to collect high-quality examples from in-the-wild images. Our experiments show that Real3D consistently outperforms prior work in four diverse evaluation settings that include real and synthetic data, as well as both in-domain and out-of-domain shapes. Code and model can be found here: https://hwjiang1510.github.io/Real3D/
翻訳日:2024-06-13 15:27:35 公開日:2024-06-12
# 潜在世界モデルによるエンド・ツー・エンド自動運転の実現

Enhancing End-to-End Autonomous Driving with Latent World Model ( http://arxiv.org/abs/2406.08481v1 )

ライセンス: Link先を確認
Yingyan Li, Lue Fan, Jiawei He, Yuqi Wang, Yuntao Chen, Zhaoxiang Zhang, Tieniu Tan, (参考訳) エンドツーエンドの自動運転は広く注目を集めている。 現在のエンドツーエンドアプローチは、シーン表現の学習を支援するために、検出、追跡、マップセグメンテーションといった知覚タスクの監督に大きく依存している。 しかし、これらの方法は広範なアノテーションを必要とし、データのスケーラビリティを妨げる。 この課題に対処するために、コストのかかるラベルを必要とせず、エンドツーエンドの運転を改善するための新しい自己管理手法を提案する。 具体的には、フレームワーク \textbf{LAW} は LAtent World モデルを用いて、予測されたエゴアクションと現在のフレームの潜時特徴に基づいて、将来の潜時特徴を予測する。 予測された潜在的特徴は、将来実際に観察される特徴によって管理される。 この監督は、潜在特徴学習と行動予測を協調的に最適化し、駆動性能を大幅に向上させる。 その結果,オープンループベンチマークとクローズループベンチマークの両方において,コストのかかるアノテーションを使わずに最先端のパフォーマンスを実現することができた。

End-to-end autonomous driving has garnered widespread attention. Current end-to-end approaches largely rely on the supervision from perception tasks such as detection, tracking, and map segmentation to aid in learning scene representations. However, these methods require extensive annotations, hindering the data scalability. To address this challenge, we propose a novel self-supervised method to enhance end-to-end driving without the need for costly labels. Specifically, our framework \textbf{LAW} uses a LAtent World model to predict future latent features based on the predicted ego actions and the latent feature of the current frame. The predicted latent features are supervised by the actually observed features in the future. This supervision jointly optimizes the latent feature learning and action prediction, which greatly enhances the driving performance. As a result, our approach achieves state-of-the-art performance in both open-loop and closed-loop benchmarks without costly annotations.
翻訳日:2024-06-13 15:27:35 公開日:2024-06-12
# 言葉の価値:テキスト・ツー・イメージ・ジェネレーションにおける知覚的多様性の測定と理解

Words Worth a Thousand Pictures: Measuring and Understanding Perceptual Variability in Text-to-Image Generation ( http://arxiv.org/abs/2406.08482v1 )

ライセンス: Link先を確認
Raphael Tang, Xinyu Zhang, Lixinyu Xu, Yao Lu, Wenyan Li, Pontus Stenetorp, Jimmy Lin, Ferhan Ture, (参考訳) 拡散モデルはテキスト・画像生成における最先端のモデルであるが、その知覚的変動性はまだ検討されていない。 そこで本研究では,ブラックボックス拡散モデルにおける画像のばらつきに対するプロンプトの影響について検討する。 W1KPは、既存の画像対知覚距離からブートストラップした画像の集合における可変性の人間の校正尺度である。 現在のデータセットは最近の拡散モデルをカバーしていないため、評価のために3つのテストセットをキュレートする。 最高の知覚距離は、9つの基準線を最大18ポイント精度で上回り、キャリブレーションは人間の判断の78%で一致します。 W1KPを用いて,新しい画像が既に生成した画像に近づきすぎる前に,画像nプロンプトを10~50個のランダムなシードに対して再利用できることを示し,また,安定拡散XLとDALL-E3を50~200回再利用可能であることを示す。 最後に、実際のプロンプトの56の言語的特徴を分析し、プロンプトの長さ、CLIP埋め込みノルム、具体性、単語感覚が最も変動に影響を及ぼすことを示した。 私たちが認識している限りでは、拡散の多様性を視覚言語学的観点から初めて分析する。 プロジェクトページはhttp://w1kp.comにあります。

Diffusion models are the state of the art in text-to-image generation, but their perceptual variability remains understudied. In this paper, we examine how prompts affect image variability in black-box diffusion-based models. We propose W1KP, a human-calibrated measure of variability in a set of images, bootstrapped from existing image-pair perceptual distances. Current datasets do not cover recent diffusion models, thus we curate three test sets for evaluation. Our best perceptual distance outperforms nine baselines by up to 18 points in accuracy, and our calibration matches graded human judgements 78% of the time. Using W1KP, we study prompt reusability and show that Imagen prompts can be reused for 10-50 random seeds before new images become too similar to already generated images, while Stable Diffusion XL and DALL-E 3 can be reused 50-200 times. Lastly, we analyze 56 linguistic features of real prompts, finding that the prompt's length, CLIP embedding norm, concreteness, and word senses influence variability most. As far as we are aware, we are the first to analyze diffusion variability from a visuolinguistic perspective. Our project page is at http://w1kp.com
翻訳日:2024-06-13 15:27:35 公開日:2024-06-12
# ボリューム・メディカル・セグメンテーション・モデルにおける対向ロバスト性の評価について

On Evaluating Adversarial Robustness of Volumetric Medical Segmentation Models ( http://arxiv.org/abs/2406.08486v1 )

ライセンス: Link先を確認
Hashmat Shadab Malik, Numan Saeed, Asif Hanif, Muzammal Naseer, Mohammad Yaqub, Salman Khan, Fahad Shahbaz Khan, (参考訳) 近年, 臓器および腫瘍ベースの分節作業において, 体積医学的分節モデルが大きな成功を収めている。 しかし、敵の攻撃に対するその脆弱性は未解明のままであり、医療分野におけるそのようなモデルを用いたツールの現実的な展開に関して深刻な懸念が持ち上がっている。 このことは、既存のモデルの堅牢性を調べることの重要性を浮き彫りにしている。 本研究の目的は,コンボリューショナル,トランスフォーマー,マンバをベースとしたモデルを含む,現在のボリュームセグメンテーションアーキテクチャにおける対角的ロバスト性を実証的に検証することである。 我々はこの調査を4つのボリュームセグメンテーションデータセットに拡張し、ホワイトボックスとブラックボックスの双方の攻撃下で堅牢性を評価する。 全体として、ホワイトボックス設定では、ピクセルベースと周波数ベースの両方が合理的に良好に動作するが、転送ベースのブラックボックス攻撃では、後者がかなり良く動作する。 本実験では, コンボリューションモデルよりもトランスフォーマーモデルの方が高いロバスト性を示し, マンバモデルが最も脆弱であることを示す。 さらに,ボリュームセグメンテーションモデルの大規模トレーニングにより,敵攻撃に対するモデルの堅牢性が向上することを示す。 コードと事前トレーニングされたモデルは、https://github.com/HashmatShadab/Robustness-of-Volumetric-Medical-Segmentation-Modelsで利用可能になる。

Volumetric medical segmentation models have achieved significant success on organ and tumor-based segmentation tasks in recent years. However, their vulnerability to adversarial attacks remains largely unexplored, raising serious concerns regarding the real-world deployment of tools employing such models in the healthcare sector. This underscores the importance of investigating the robustness of existing models. In this context, our work aims to empirically examine the adversarial robustness across current volumetric segmentation architectures, encompassing Convolutional, Transformer, and Mamba-based models. We extend this investigation across four volumetric segmentation datasets, evaluating robustness under both white box and black box adversarial attacks. Overall, we observe that while both pixel and frequency-based attacks perform reasonably well under white box setting, the latter performs significantly better under transfer-based black box attacks. Across our experiments, we observe transformer-based models show higher robustness than convolution-based models with Mamba-based models being the most vulnerable. Additionally, we show that large-scale training of volumetric segmentation models improves the model's robustness against adversarial attacks. The code and pretrained models will be made available at https://github.com/HashmatShadab/Robustness-of-Volumetric-Medical-Segmentation-Models.
翻訳日:2024-06-13 15:27:35 公開日:2024-06-12
# LLaVA-HDを超える:高分解能大規模マルチモーダルモデルへの分割

Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models ( http://arxiv.org/abs/2406.08487v1 )

ライセンス: Link先を確認
Yi-Fan Zhang, Qingsong Wen, Chaoyou Fu, Xue Wang, Zhang Zhang, Liang Wang, Rong Jin, (参考訳) 高解像度で明確に見ることは、視覚知覚と推論に不可欠であることが証明されたLMM(Large Multimodal Models)の基礎である。 既存の作業では、画像はグローバルとローカルのブランチで構成され、後者はスライスされたイメージパッチだが、前者と同じ解像度にリサイズされる。 これは、高解像度ではより局所的なパッチが必要であり、結果として計算コストが増大し、一方、局所的な画像トークンの優位性はグローバルな文脈を低下させる可能性があることを意味している。 本稿では,この問題を掘り下げ,新たなフレームワークと精巧な最適化戦略を提案する。 具体的には、異なるアダプタが異なるタスクで優れているという観察に基づいて、アダプタの混合を用いて、グローバルビューからコンテキスト情報を抽出する。 ローカルパッチに関しては、画像トークンを減らすために学習可能なクエリ埋め込みを導入し、ユーザ疑問に対処する最も重要なトークンは、類似性ベースのセレクタによってさらに選択される。 実験の結果は‘less is more’パターンを示し、より少ないがより情報的なローカル画像トークンを使用するとパフォーマンスが向上することを示している。 さらに、グローバルマイニングブロックと局所圧縮ブロックの同時エンドツーエンドトレーニングが最適な結果をもたらすことはないため、トレーニング戦略において重要な課題がある。 そこで我々は、グローバルな側面とローカルな側面のバランスの取れた学習を確実にする、交互に訓練する方法を提唱する。 最後に,画像の詳細化の要求の高いデータセットを導入し,局所的な圧縮層のトレーニングを強化した。 提案手法は,SliME(Sophisticated Tasks,ローカル画像圧縮,Mixture of Global Experts)を用いたLMMと呼ばれ,200万のトレーニングデータのみを用いて,様々なベンチマークにおいて先行的な性能を実現する。

Seeing clearly with high resolution is a foundation of Large Multimodal Models (LMMs), which has been proven to be vital for visual perception and reasoning. Existing works usually employ a straightforward resolution upscaling method, where the image consists of global and local branches, with the latter being the sliced image patches but resized to the same resolution as the former. This means that higher resolution requires more local patches, resulting in exorbitant computational expenses, and meanwhile, the dominance of local image tokens may diminish the global context. In this paper, we dive into the problems and propose a new framework as well as an elaborate optimization strategy. Specifically, we extract contextual information from the global view using a mixture of adapters, based on the observation that different adapters excel at different tasks. With regard to local patches, learnable query embeddings are introduced to reduce image tokens, the most important tokens accounting for the user question will be further selected by a similarity-based selector. Our empirical results demonstrate a `less is more' pattern, where \textit{utilizing fewer but more informative local image tokens leads to improved performance}. Besides, a significant challenge lies in the training strategy, as simultaneous end-to-end training of the global mining block and local compression block does not yield optimal results. We thus advocate for an alternating training way, ensuring balanced learning between global and local aspects. Finally, we also introduce a challenging dataset with high requirements for image detail, enhancing the training of the local compression layer. The proposed method, termed LMM with Sophisticated Tasks, Local image compression, and Mixture of global Experts (SliME), achieves leading performance across various benchmarks with only 2 million training data.
翻訳日:2024-06-13 15:27:35 公開日:2024-06-12
# ICE-G:3次元ガウスプレートの画像条件編集

ICE-G: Image Conditional Editing of 3D Gaussian Splats ( http://arxiv.org/abs/2406.08488v1 )

ライセンス: Link先を確認
Vishnu Jaganathan, Hannah Hanyun Huang, Muhammad Zubair Irshad, Varun Jampani, Amit Raj, Zsolt Kira, (参考訳) 近年,高品質な3Dアセットやシーンを作る技術が数多く出現している。 しかしながら、これらのオブジェクトの編集に関しては、既存のアプローチは遅いか、品質を損なうか、あるいは十分なカスタマイズを提供していないかのどちらかです。 単一の参照ビューから3Dモデルを素早く編集するための新しいアプローチを提案する。 我々の技術はまず編集画像を分割し、次にDINO機能を用いて選択したセグメント化されたデータセットビュー間で意味的に対応する領域をマッチングする。 編集画像の特定の領域からの色やテクスチャの変化を、意味的に理解できる方法で、他のビューに自動的に適用することができる。 これらの編集されたビューは、3Dシーンをさらにトレーニングし、再フォーマットするための更新データセットとして機能する。 したがって、終末は編集された3Dモデルである。 本フレームワークは,手動のローカル編集,任意の例画像からの対応ベースのスタイル転送,複数例画像からの異なるスタイルの組み合わせなど,多種多様な編集作業を可能にする。 局所編集のスピードと容易さから,我々はガウススプラッターを主要な3次元表現として用いているが,この手法はNeRFなどの他の手法でも有効である。 提案手法は,編集のきめ細かい制御を行いながら,高品質な結果が得られることを示す。 プロジェクトページ: ice-gaussian.github.io

Recently many techniques have emerged to create high quality 3D assets and scenes. When it comes to editing of these objects, however, existing approaches are either slow, compromise on quality, or do not provide enough customization. We introduce a novel approach to quickly edit a 3D model from a single reference view. Our technique first segments the edit image, and then matches semantically corresponding regions across chosen segmented dataset views using DINO features. A color or texture change from a particular region of the edit image can then be applied to other views automatically in a semantically sensible manner. These edited views act as an updated dataset to further train and re-style the 3D scene. The end-result is therefore an edited 3D model. Our framework enables a wide variety of editing tasks such as manual local edits, correspondence based style transfer from any example image, and a combination of different styles from multiple example images. We use Gaussian Splats as our primary 3D representation due to their speed and ease of local editing, but our technique works for other methods such as NeRFs as well. We show through multiple examples that our method produces higher quality results while offering fine-grained control of editing. Project page: ice-gaussian.github.io
翻訳日:2024-06-13 15:27:35 公開日:2024-06-12
# NeRFをベースとした色とオパクティを持つガウススメッティング

Gaussian Splatting with NeRF-based Color and Opacity ( http://arxiv.org/abs/2312.13729v5 )

ライセンス: Link先を確認
Dawid Malarz, Weronika Smolak, Jacek Tabor, Sławomir Tadeja, Przemysław Spurek, (参考訳) ニューラル・レージアンス・フィールド(Neural Radiance Fields、NeRF)は、ニューラルネットワークが3次元物体の複雑な位置を捉えていることを示す。 ニューラルネットワークの重みの中に形状と色情報をエンコードすることで、NeRFは3Dオブジェクトの驚くほどシャープな新しいビューを生み出すのに優れています。 近年, 生成モデルを用いた多くのNeRFの一般化が出現し, その汎用性が高まっている。 対照的に、Gaussian Splatting(GS)は、ニューラルネットワークの動作を必要としないため、トレーニングと推論の高速化により、同様のレンダリング品質を提供する。 ガウス分布の集合に3Dオブジェクトに関する情報をエンコードし、古典的なメッシュと同様に3Dでレンダリングできる。 残念なことに、GSは通常数十万のガウス成分を必要とするため、条件付けが難しい。 両モデルの欠点を軽減するために,3Dオブジェクト形状のGS表現とNeRFによる色と不透明度の符号化を用いたビューイングディビジョン・ガウシアン・スプレイティング(VDGS)のハイブリッドモデルを提案する。 我々のモデルは、トレーニング可能な位置(すなわちガウスの手段)、形状(すなわちガウスの共分散)、色と不透明度、およびその色と不透明度の変化をもたらすためにガウスのパラメータと視方向を捉えるニューラルネットワークを用いている。 その結果,3次元オブジェクトの影や光の反射,透過性を,テクスチャや光の成分を加えることなくよりうまく表現することができた。

Neural Radiance Fields (NeRFs) have demonstrated the remarkable potential of neural networks to capture the intricacies of 3D objects. By encoding the shape and color information within neural network weights, NeRFs excel at producing strikingly sharp novel views of 3D objects. Recently, numerous generalizations of NeRFs utilizing generative models have emerged, expanding its versatility. In contrast, Gaussian Splatting (GS) offers a similar render quality with faster training and inference as it does not need neural networks to work. It encodes information about the 3D objects in the set of Gaussian distributions that can be rendered in 3D similarly to classical meshes. Unfortunately, GS are difficult to condition since they usually require circa hundred thousand Gaussian components. To mitigate the caveats of both models, we propose a hybrid model Viewing Direction Gaussian Splatting (VDGS) that uses GS representation of the 3D object's shape and NeRF-based encoding of color and opacity. Our model uses Gaussian distributions with trainable positions (i.e. means of Gaussian), shape (i.e. covariance of Gaussian), color and opacity, and a neural network that takes Gaussian parameters and viewing direction to produce changes in the said color and opacity. As a result, our model better describes shadows, light reflections, and the transparency of 3D objects without adding additional texture and light components.
翻訳日:2024-06-13 11:32:16 公開日:2024-06-12
# 病理画像解析のためのベンチマークパスCLIP

Benchmarking PathCLIP for Pathology Image Analysis ( http://arxiv.org/abs/2401.02651v3 )

ライセンス: Link先を確認
Sunyi Zheng, Xiaonan Cui, Yuxuan Sun, Jingxiong Li, Honglin Li, Yunlong Zhang, Pingyi Chen, Xueping Jing, Zhaoxiang Ye, Lin Yang, (参考訳) 正確な画像分類と検索は、臨床診断と治療決定にとって重要である。 最近のコントラスト言語画像事前学習(CLIP)モデルは、自然画像の理解に顕著な習熟性を示している。 CLIPからインスピレーションを得たPathCLIPは、20万以上の画像とテキストペアをトレーニングに利用して、病理画像解析用に特別に設計されている。 PathCLIPのパフォーマンスは印象的だが、その頑丈さは幅広い画像の破損の下では未だに不明である。 そこで我々は,骨肉腫とWSSS4LUADのデータセットから,多彩な画像に対するPathCLIPの性能評価を行った。 実験では, 明るさ, コントラスト, ガウスのぼかし, 解像度, 彩度, 色調, マークアップの7種類の汚職を4つの重度レベルで導入した。 実験の結果,PathCLIPは画像の破損に対して比較的堅牢であり,ゼロショット分類ではOpenAI-CLIPとPLIPを上回っていることがわかった。 7つの汚職のうち、ぼかしと解像度がPathCLIPのサーバパフォーマンスを劣化させる可能性がある。 これは、臨床検査を行う前に画像の品質を確保することが重要であることを示している。 また,画像画像検索作業におけるPathCLIPのロバスト性を評価し,骨肉腫に対するPLIPよりもPathCLIPの有効性は低いが,WSSS4LUADは多彩な腐敗下では良好であることを明らかにした。 全体として、PathCLIPは、画像に対して印象的なゼロショット分類と検索性能を示すが、それを使用するには適切な注意が必要である。 この研究がPathCLIPの質的な印象を与え、他のCLIPモデルとの違いを理解するのに役立ちたい。

Accurate image classification and retrieval are of importance for clinical diagnosis and treatment decision-making. The recent contrastive language-image pretraining (CLIP) model has shown remarkable proficiency in understanding natural images. Drawing inspiration from CLIP, PathCLIP is specifically designed for pathology image analysis, utilizing over 200,000 image and text pairs in training. While the performance the PathCLIP is impressive, its robustness under a wide range of image corruptions remains unknown. Therefore, we conduct an extensive evaluation to analyze the performance of PathCLIP on various corrupted images from the datasets of Osteosarcoma and WSSS4LUAD. In our experiments, we introduce seven corruption types including brightness, contrast, Gaussian blur, resolution, saturation, hue, and markup at four severity levels. Through experiments, we find that PathCLIP is relatively robustness to image corruptions and surpasses OpenAI-CLIP and PLIP in zero-shot classification. Among the seven corruptions, blur and resolution can cause server performance degradation of the PathCLIP. This indicates that ensuring the quality of images is crucial before conducting a clinical test. Additionally, we assess the robustness of PathCLIP in the task of image-image retrieval, revealing that PathCLIP performs less effectively than PLIP on Osteosarcoma but performs better on WSSS4LUAD under diverse corruptions. Overall, PathCLIP presents impressive zero-shot classification and retrieval performance for pathology images, but appropriate care needs to be taken when using it. We hope this study provides a qualitative impression of PathCLIP and helps understand its differences from other CLIP models.
翻訳日:2024-06-13 11:28:49 公開日:2024-06-12
# RPMixer: 大規模空間時間データのためのランダム投影による時系列予測

RPMixer: Shaking Up Time Series Forecasting with Random Projections for Large Spatial-Temporal Data ( http://arxiv.org/abs/2402.10487v4 )

ライセンス: Link先を確認
Chin-Chia Michael Yeh, Yujie Fan, Xin Dai, Uday Singh Saini, Vivian Lai, Prince Osei Aboagye, Junpeng Wang, Huiyuan Chen, Yan Zheng, Zhongfang Zhuang, Liang Wang, Wei Zhang, (参考訳) 時空間予測システムは、多くの現実世界の課題に対処する上で重要な役割を果たす。 本稿では,一般時系列予測モデル,すなわちノード間の空間的関係を活用できないモデルを用いて,時空間予測問題に対処する可能性を検討する。 RPMixer と呼ばれる全MLP時系列予測アーキテクチャを提案する。 オールMLPアーキテクチャは、最近の時系列予測ベンチマークの成功により選ばれた。 さらに,ネットワーク内の各ブロックがアンサンブルモデルにおいてベース学習者のように振る舞う深層ニューラルネットワークのアンサンブル的挙動,特にアイデンティティマッピング残差接続が組み込まれている場合に着目した。 ランダムなプロジェクション層をモデルに統合することにより、ブロックの出力の多様性を高め、ネットワーク全体の性能を向上させる。 空間時空間グラフモデルと一般予測モデルの両方を含む,提案手法が代替手法より優れていることを示す。

Spatial-temporal forecasting systems play a crucial role in addressing numerous real-world challenges. In this paper, we investigate the potential of addressing spatial-temporal forecasting problems using general time series forecasting models, i.e., models that do not leverage the spatial relationships among the nodes. We propose a all-Multi-Layer Perceptron (all-MLP) time series forecasting architecture called RPMixer. The all-MLP architecture was chosen due to its recent success in time series forecasting benchmarks. Furthermore, our method capitalizes on the ensemble-like behavior of deep neural networks, where each individual block within the network behaves like a base learner in an ensemble model, particularly when identity mapping residual connections are incorporated. By integrating random projection layers into our model, we increase the diversity among the blocks' outputs, thereby improving the overall performance of the network. Extensive experiments conducted on the largest spatial-temporal forecasting benchmark datasets demonstrate that the proposed method outperforms alternative methods, including both spatial-temporal graph models and general forecasting models.
翻訳日:2024-06-13 11:28:49 公開日:2024-06-12
# CounterCurate: 物理・セマンティックなヴィシオ言語構成推論の強化

CounterCurate: Enhancing Physical and Semantic Visio-Linguistic Compositional Reasoning via Counterfactual Examples ( http://arxiv.org/abs/2402.13254v4 )

ライセンス: Link先を確認
Jianrui Zhang, Mu Cai, Tengyang Xie, Yong Jae Lee, (参考訳) 比較的および生成的マルチモーダルモデルの両方に対して、視覚言語合成推論能力を包括的に改善するフレームワークであるCounterCurateを提案する。 特に, 物理的根拠に基づく推論(計数と位置理解)の無視と, セマンティック・カウンティファクチュアル・ファインタニングに高機能なテキストと画像生成モデルを用いる可能性という2つの重要な未探索問題を特定する。 私たちの仕事は、これらのギャップに対処するアプローチの先駆者です。 私たちはまず,CLIPやLLaVAといったマルチモーダルモデルの物理基底合成推論における近距離性能に注目した。 次に、グラウンドド画像生成モデルGLIGENを用いて、微調整データを生成する単純なデータ拡張を行い、新たにキュレーションしたFlickr30k-Positionsベンチマークにおいて、CLIPとLLaVAの+33%と+37%の大幅なパフォーマンス改善を実現した。 さらに,高パフォーマンステキスト生成および画像生成モデル(特にGPT-4VとDALLE-3)の能力を利用して,難解なセマンティックカウンターファクトをキュレートし,SugarCrepeなどのベンチマークにおけるコンポジション推論能力をさらに向上させる。 将来の研究を促進するため、私たちはhttps://countercurate.github.io.comでコード、データセット、ベンチマーク、チェックポイントをリリースしました。

We propose CounterCurate, a framework to comprehensively improve the visio-linguistic compositional reasoning capability for both contrastive and generative multimodal models. In particular, we identify two critical under-explored problems: the neglect of the physically grounded reasoning (counting and position understanding) and the potential of using highly capable text and image generation models for semantic counterfactual fine-tuning. Our work pioneers an approach that addresses these gaps. We first spotlight the near-chance performance of multimodal models like CLIP and LLaVA in physically grounded compositional reasoning. We then apply simple data augmentation using grounded image generation model GLIGEN to generate fine-tuning data, resulting in significant performance improvements: +33% and +37% for CLIP and LLaVA, respectively, on our newly curated Flickr30k-Positions benchmark. Moreover, we exploit the capabilities of high-performing text generation and image generation models, specifically GPT-4V and DALLE-3, to curate challenging semantic counterfactuals, thereby further enhancing compositional reasoning capabilities on benchmarks such as SugarCrepe, where CounterCurate outperforms GPT-4V. To facilitate future research, we release our code, dataset, benchmark, and checkpoints at https://countercurate.github.io.
翻訳日:2024-06-13 11:28:49 公開日:2024-06-12
# 冷却による量子計算

Quantum Computation by Cooling ( http://arxiv.org/abs/2403.01760v5 )

ライセンス: Link先を確認
Jaeyoon Cho, (参考訳) 断熱量子計算は、解をカプセル化した多体基底状態を見つけることによって、計算問題を解くことを目的としたパラダイムモデルである。 しかし、複雑な多体ハミルトニアンのスペクトルギャップによる断熱的進化の利用は、その分析をばかげている。 代わりに、断熱進化の最終的なギャップを埋めた系を直接冷却することは可能であるが、一般の地上でのそのようなスキームの分析は欠落している。 ここでは、この目的のために特定のハミルトンモデルを提案する。 このスキームは空洞冷却にインスパイアされ、ゼロ温度貯水池のエミュレーションを含む。 アシラ貯水池の繰り返し廃棄はシステムのエントロピーを抽出し、システムをその基底状態に向かって駆動する。 同時に、廃棄された量子ビットの測定は、リターンとしてシステムのエネルギーレベル構造を示唆する。 この冷却法に基づく量子計算は、その計算能力において量子回路に基づく計算と等価であることを示す。 次に、組合せ最適化問題に対するいくつかの実例を用いて、このスキームを例示する。 最初の例では、冷却は任意の局所エネルギーミニマムから解放され、いくつかの改良を加えてグロバーの探索アルゴリズムにスキームを還元する。 第2の例では、冷却は豊富な局所エネルギーミニマに悩まされる。 これを回避するために、ハミルトニアンに、局所的なミニマに閉じ込められた集団が高次遷移によってトンネルアウトできるようなメカニズムを埋め込む。 このアイデアを,特定の組合せ最適化問題に対する数値シミュレーションで支持する。 また、量子多体基底状態の調製への応用についても議論し、冷却の時間スケールを決定する上で、スペクトルギャップが重要な要素であると主張した。

Adiabatic quantum computation is a paradigmatic model aiming to solve a computational problem by finding the many-body ground state encapsulating the solution. However, its use of an adiabatic evolution depending on the spectral gap of an intricate many-body Hamiltonian makes its analysis daunting. While it is plausible to directly cool the final gapped system of the adiabatic evolution instead, the analysis of such a scheme on a general ground is missing. Here, we propose a specific Hamiltonian model for this purpose. The scheme is inspired by cavity cooling, involving the emulation of a zero-temperature reservoir. Repeated discarding of ancilla reservoir qubits extracts the entropy of the system, driving the system toward its ground state. At the same time, the measurement of the discarded qubits hints at the energy level structure of the system as a return. We show that quantum computation based on this cooling procedure is equivalent in its computational power to the one based on quantum circuits. We then exemplify the scheme with a few illustrative use cases for combinatorial optimization problems. In the first example, the cooling is free from any local energy minima, reducing the scheme to Grover's search algorithm with a few improvements. In the second example, the cooling suffers from abundant local energy minima. To circumvent this, we implant a mechanism in the Hamiltonian so that the population trapped in the local minima can tunnel out by high-order transitions. We support this idea with a numerical simulation for a particular combinatorial optimization problem. We also discuss its application to preparing quantum many-body ground states, arguing that the spectral gap is a crucial factor in determining the time scale of the cooling.
翻訳日:2024-06-13 11:28:49 公開日:2024-06-12
# 量子回路アンサッツ:量子アルゴリズム設計の抽象化と再利用のパターン

Quantum Circuit Ansatz: Patterns of Abstraction and Reuse of Quantum Algorithm Design ( http://arxiv.org/abs/2405.05021v3 )

ライセンス: Link先を確認
Xiaoyu Guo, Takahiro Muta, Jianjun Zhao, (参考訳) 量子コンピューティングは、複雑な問題に効率的に対処することで、様々な分野に革命をもたらす可能性を秘めている。 中心となるのは量子回路であり、量子状態を操作する量子ゲートの列である。 初期回路構造を定義し,最適化手法の基礎となる右量子回路アンサッツの選択は,量子アルゴリズム設計において重要であり,量子アルゴリズムの設計と実装を支援するために,量子回路アンサゼの分類されたカタログを提示する。 各アンザッツは、意図、モチベーション、適用性、回路図、実装、例などの詳細とともに記述される。 このカタログは、異なるアンサーゼの強度と制限に関する洞察を提供することで、量子アルゴリズム設計者を支援することを目的としている。

Quantum computing holds the potential to revolutionize various fields by efficiently tackling complex problems. At its core are quantum circuits, sequences of quantum gates manipulating quantum states. The selection of the right quantum circuit ansatz, which defines initial circuit structures and serves as the basis for optimization techniques, is crucial in quantum algorithm design.This paper presents a categorized catalog of quantum circuit ansatzes aimed at supporting quantum algorithm design and implementation. Each ansatz is described with details such as intent, motivation, applicability, circuit diagram, implementation, example, and see also. Practical examples are provided to illustrate their application in quantum algorithm design.The catalog aims to assist quantum algorithm designers by offering insights into the strengths and limitations of different ansatzes, thereby facilitating decision-making for specific tasks.
翻訳日:2024-06-13 11:28:49 公開日:2024-06-12
# グローバルクリッパー:トランスフォーマーを用いた物体検出モデルの安全性と信頼性を高める

Global Clipper: Enhancing Safety and Reliability of Transformer-based Object Detection Models ( http://arxiv.org/abs/2406.03229v3 )

ライセンス: Link先を確認
Qutub Syed Sha, Michael Paulitsch, Karthik Pattabiraman, Korbinian Hagn, Fabian Oboril, Cornelius Buerkle, Kay-Ulrich Scholl, Gereon Hinz, Alois Knoll, (参考訳) トランスフォーマーをベースとした物体検出モデルが進むにつれ、自動運転車や航空といった重要な分野への影響が拡大すると予想されている。 推論中にビットフリップを引き起こすソフトエラーは、DNNのパフォーマンスに大きく影響し、予測が変更された。 CNNの従来の範囲制限ソリューションは、トランスフォーマーでは不足している。 本研究は,トランスフォーマーモデルに特化して設計された効果的な緩和戦略であるGlobal ClipperとGlobal Hybrid Clipperを紹介する。 ソフトエラーに対するレジリエンスを大幅に向上させ、欠陥推論を ~ 0 % に削減する。 また、3つのデータセットを用いて2つのトランスフォーマーモデル(DINO-DETRとLite-DETR)と2つのCNNモデル(YOLOv3とSSD)を包括的にモデルロバスト性を評価するために、64以上のシナリオにわたる広範なテストについて詳述した。 さらに、トランスにおける注目ブロックのユニークな側面とCNNとの運用上の差異について検討する。

As transformer-based object detection models progress, their impact in critical sectors like autonomous vehicles and aviation is expected to grow. Soft errors causing bit flips during inference have significantly impacted DNN performance, altering predictions. Traditional range restriction solutions for CNNs fall short for transformers. This study introduces the Global Clipper and Global Hybrid Clipper, effective mitigation strategies specifically designed for transformer-based models. It significantly enhances their resilience to soft errors and reduces faulty inferences to ~ 0\%. We also detail extensive testing across over 64 scenarios involving two transformer models (DINO-DETR and Lite-DETR) and two CNN models (YOLOv3 and SSD) using three datasets, totalling approximately 3.3 million inferences, to assess model robustness comprehensively. Moreover, the paper explores unique aspects of attention blocks in transformers and their operational differences from CNNs.
翻訳日:2024-06-13 11:28:49 公開日:2024-06-12
# ボンド散逸による境界散逸系の緩和時間操作

Manipulating the Relaxation Time of Boundary-Dissipative Systems through Bond Dissipation ( http://arxiv.org/abs/2406.04183v2 )

ライセンス: Link先を確認
Yi Peng, Chao Yang, Yucheng Wang, (参考訳) 緩和時間は量子系の緩和過程を記述する上で重要な役割を果たす。 結合散逸が境界散逸系の緩和時間に与える影響について検討し、緩和時間のスケーリングを$T_c\sim L^{z}$が$z=3$から$3$未満の値に変更できることを見出した。 さらに、そのような結合の散逸が緩和時間を著しく短縮できる理由は、特定の状態を選択的に標的にできるためであることも明らかにした。 アンダーソン局在系の場合、緩和時間のスケーリングの挙動は指数形式からシステムサイズが変化するにつれてパワーロー形式に変化する。 これは、我々が考える結合の散逸が特定の状態を選択するだけでなく、局在特性を破壊できるためである。 我々の研究は、オープンシステムでは、ある種類の消散が、別の種類の消散によって生じる影響を規制するために使用できることを明らかにしている。

Relaxation time plays a crucial role in describing the relaxation processes of quantum systems. We study the effect of a type of bond dissipation on the relaxation time of boundary dissipative systems and find that it can change the scaling of the relaxation time $T_c\sim L^{z}$ from $z=3$ to a value significantly less than $3$. We further reveal that the reason such bond dissipation can significantly reduce the relaxation time is that it can selectively target specific states. For Anderson localized systems, the scaling behavior of the relaxation time changes from an exponential form to a power-law form as the system size varies. This is because the bond dissipation we consider can not only select specific states but also disrupt the localization properties. Our work reveals that in open systems, one type of dissipation can be used to regulate the effects produced by another type of dissipation.
翻訳日:2024-06-13 11:28:49 公開日:2024-06-12
# ADBA:ブラックボックス攻撃に対する近似決定境界法

ADBA:Approximation Decision Boundary Approach for Black-Box Adversarial Attacks ( http://arxiv.org/abs/2406.04998v2 )

ライセンス: Link先を確認
Feiyang Wang, Xingquan Zuo, Hai Huang, Gang Chen, (参考訳) 多くの機械学習モデルは、現実のアプリケーションにおいて最も重大な脅威を示す決定ベースのブラックボックス攻撃によって、敵対的な攻撃を受けやすい。 これらの攻撃は極めてステルス性が高く、ターゲット機械学習モデルから得られたハードラベルを使って敵の例を生成する。 これは典型的には摂動方向の最適化によって実現され、クエリ集約的な正確な探索によって識別された決定境界によって誘導され、攻撃成功率を著しく制限する。 本稿では、近似決定境界(ADB)を用いて、決定境界を正確に決定することなく摂動方向を効率よく正確に比較する手法を提案する。 我々のADBアプローチ(ADBA)の有効性は、適切なADBを迅速に同定し、全ての摂動方向を確実に区別することにある。 そこで本研究では,ADBとして分布の中央値を用いることで,様々な摂動方向を効果的に識別し,ADBA-mdアルゴリズムの開発につながることを確認し,決定境界の確率分布を解析する。 ADBA-mdは摂動方向を区別するために平均4つのクエリしか必要とせず、クエリ効率が高い。 6つの有名な画像分類器に対する大規模な実験は、複数の最先端のブラックボックス攻撃に対してADBAとADBA-mdの優位性を明らかに示している。 ソースコードはhttps://github.com/BUPTAIOC/ADBAで公開されている。

Many machine learning models are susceptible to adversarial attacks, with decision-based black-box attacks representing the most critical threat in real-world applications. These attacks are extremely stealthy, generating adversarial examples using hard labels obtained from the target machine learning model. This is typically realized by optimizing perturbation directions, guided by decision boundaries identified through query-intensive exact search, significantly limiting the attack success rate. This paper introduces a novel approach using the Approximation Decision Boundary (ADB) to efficiently and accurately compare perturbation directions without precisely determining decision boundaries. The effectiveness of our ADB approach (ADBA) hinges on promptly identifying suitable ADB, ensuring reliable differentiation of all perturbation directions. For this purpose, we analyze the probability distribution of decision boundaries, confirming that using the distribution's median value as ADB can effectively distinguish different perturbation directions, giving rise to the development of the ADBA-md algorithm. ADBA-md only requires four queries on average to differentiate any pair of perturbation directions, which is highly query-efficient. Extensive experiments on six well-known image classifiers clearly demonstrate the superiority of ADBA and ADBA-md over multiple state-of-the-art black-box attacks. The source code is available at https://github.com/BUPTAIOC/ADBA.
翻訳日:2024-06-13 11:28:49 公開日:2024-06-12
# 3D-GRAND: グラウンディングと幻覚の少ない3D-LLMのための100万規模のデータセット

3D-GRAND: A Million-Scale Dataset for 3D-LLMs with Better Grounding and Less Hallucination ( http://arxiv.org/abs/2406.05132v2 )

ライセンス: Link先を確認
Jianing Yang, Xuweiyi Chen, Nikhil Madaan, Madhavan Iyengar, Shengyi Qian, David F. Fouhey, Joyce Chai, (参考訳) 言語と3D知覚の統合は、物理的世界を理解し、相互作用するエンボディエージェントやロボットの開発に不可欠である。 大規模言語モデル(LLM)は印象的な言語理解と生成能力を示しているが、3D環境への適応(3D-LLM)はまだ初期段階にある。 主な課題は、言語と3Dシーン間の密接な接点を提供する大規模なデータセットがないことである。 本稿では,40,087の世帯シーンと620万の密集したシーン言語命令を組み合わせた大規模データセットである3D-GRANDを紹介する。 この結果から, 3D-GRANDによる指導指導はグラウンド化能力を大幅に向上させ, 3D-LLMの幻覚を低減させることがわかった。 本稿では,3D-LLMの幻覚を系統的に評価するための総合的なベンチマーク3D-POPEを提案する。 実験では,データセットサイズと3D-LLM性能のスケーリング効果を強調し,AI研究の進展における大規模3Dテキストデータセットの重要性を強調した。 この結果から,大規模な合成データを用いてトレーニングしたモデルが実世界の3Dスキャンで良好に動作できることが示唆された。 3D-GRANDと3D-POPEを通じて、我々は、具現化されたAIコミュニティに不可欠なリソースと洞察を供給し、より信頼性が高く、より地上の3D-LLMのステージを構築することを目指している。 プロジェクトウェブサイト:https://3d-grand.github.io

The integration of language and 3D perception is crucial for developing embodied agents and robots that comprehend and interact with the physical world. While large language models (LLMs) have demonstrated impressive language understanding and generation capabilities, their adaptation to 3D environments (3D-LLMs) remains in its early stages. A primary challenge is the absence of large-scale datasets that provide dense grounding between language and 3D scenes. In this paper, we introduce 3D-GRAND, a pioneering large-scale dataset comprising 40,087 household scenes paired with 6.2 million densely-grounded scene-language instructions. Our results show that instruction tuning with 3D-GRAND significantly enhances grounding capabilities and reduces hallucinations in 3D-LLMs. As part of our contributions, we propose a comprehensive benchmark 3D-POPE to systematically evaluate hallucination in 3D-LLMs, enabling fair comparisons among future models. Our experiments highlight a scaling effect between dataset size and 3D-LLM performance, emphasizing the critical role of large-scale 3D-text datasets in advancing embodied AI research. Notably, our results demonstrate early signals for effective sim-to-real transfer, indicating that models trained on large synthetic data can perform well on real-world 3D scans. Through 3D-GRAND and 3D-POPE, we aim to equip the embodied AI community with essential resources and insights, setting the stage for more reliable and better-grounded 3D-LLMs. Project website: https://3d-grand.github.io
翻訳日:2024-06-13 11:28:49 公開日:2024-06-12
# MotionClone: 制御可能なビデオ生成のためのトレーニング不要モーションクローン

MotionClone: Training-Free Motion Cloning for Controllable Video Generation ( http://arxiv.org/abs/2406.05338v2 )

ライセンス: Link先を確認
Pengyang Ling, Jiazi Bu, Pan Zhang, Xiaoyi Dong, Yuhang Zang, Tong Wu, Huaian Chen, Jiaqi Wang, Yi Jin, (参考訳) モーションベースの制御可能なテキスト・ビデオ生成には、動画生成を制御するモーションが含まれる。 従来手法では、モーションキューを符号化するためのモデルのトレーニングや、ビデオ拡散モデルの微調整が求められていた。 しかし、これらのアプローチは訓練された領域の外で適用された場合、しばしば準最適運動の発生をもたらす。 本研究では,テキスト・ビデオ生成を制御するための参照ビデオからのモーション・クローンを可能にする,トレーニング不要なフレームワークであるMotionCloneを提案する。 基準映像における動きを表現するために時間的注意をビデオインバージョンに用い,注意重み内の雑音や非常に微妙な動きの影響を軽減するために時間的注意指導を導入した。 さらに、合理的な空間関係を合成し、その素早い追跡能力を高めるために、基準映像から前景の粗い位置を活用できる位置認識型意味指導機構と、オリジナル分類器なし指導機能を用いて、映像生成を誘導する。 大規模な実験により、MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方に熟練度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れていることが示されている。

Motion-based controllable text-to-video generation involves motions to control the video generation. Previous methods typically require the training of models to encode motion cues or the fine-tuning of video diffusion models. However, these approaches often result in suboptimal motion generation when applied outside the trained domain. In this work, we propose MotionClone, a training-free framework that enables motion cloning from a reference video to control text-to-video generation. We employ temporal attention in video inversion to represent the motions in the reference video and introduce primary temporal-attention guidance to mitigate the influence of noisy or very subtle motions within the attention weights. Furthermore, to assist the generation model in synthesizing reasonable spatial relationships and enhance its prompt-following capability, we propose a location-aware semantic guidance mechanism that leverages the coarse location of the foreground from the reference video and original classifier-free guidance features to guide the video generation. Extensive experiments demonstrate that MotionClone exhibits proficiency in both global camera motion and local object motion, with notable superiority in terms of motion fidelity, textual alignment, and temporal consistency.
翻訳日:2024-06-13 11:28:49 公開日:2024-06-12
# 一般配電学習 : ディープラーニングの理論的枠組み

General Distribution Learning: A theoretical framework for Deep Learning ( http://arxiv.org/abs/2406.05666v2 )

ライセンス: Link先を確認
Binchuan Qi, Li Li, Wei Gong, (参考訳) 古典的学習理論フレームワークには、深層学習(DL)に関する未解決の研究質問が数多く残されている。 これには、過度にパラメータ化されたニューラルネットワーク(NN)の顕著な一般化機能、目的の非凸性にもかかわらず効率的な最適化性能、一般化のためのフラットミニマのメカニズム、物理的な問題を解決するためのディープアーキテクチャの例外的なパフォーマンスが含まれる。 本稿では、分類、回帰、パラメータ推定を含む、機械学習と統計タスクの包括的範囲に対処するために設計された、新しい理論学習フレームワークであるGeneral Distribution Learning (GD Learning)を紹介する。 従来の統計機械学習とは別に、GD Learningは真の基礎となる分布に焦点を当てている。 GD Learningでは、古典的な統計学習フレームワークにおける予測誤差に対応する学習誤差を、モデルとアルゴリズムによる適合エラーと、限られたサンプリングデータによって導入されたサンプリングエラーに分割する。 このフレームワークは、特にデータ不足を特徴とするシナリオにおいて、事前の知識を著しく取り入れ、パフォーマンスを向上させる。 GD Learningフレームワーク内では、モデルヤコビ行列の固有値の勾配ノルムと不均一性を最小化することにより、非凸最適化における大域的最適解にアプローチできることを実証する。 この知見は勾配構造制御アルゴリズムの開発に繋がる。 GD Learningはまた、オーバーパラメータ化や非凸最適化、バイアス分散トレードオフ、フラットミニマのメカニズムなど、ディープラーニングに関する新たな洞察を提供する。

There remain numerous unanswered research questions on deep learning (DL) within the classical learning theory framework. These include the remarkable generalization capabilities of overparametrized neural networks (NNs), the efficient optimization performance despite non-convexity of objectives, the mechanism of flat minima for generalization, and the exceptional performance of deep architectures in solving physical problems. This paper introduces General Distribution Learning (GD Learning), a novel theoretical learning framework designed to address a comprehensive range of machine learning and statistical tasks, including classification, regression and parameter estimation. Departing from traditional statistical machine learning, GD Learning focuses on the true underlying distribution. In GD Learning, learning error, corresponding to the expected error in classical statistical learning framework, is divided into fitting errors due to models and algorithms, as well as sampling errors introduced by limited sampling data. The framework significantly incorporates prior knowledge, especially in scenarios characterized by data scarcity, thereby enhancing performance. Within the GD Learning framework, we demonstrate that the global optimal solutions in non-convex optimization can be approached by minimizing the gradient norm and the non-uniformity of the eigenvalues of the model's Jacobian matrix. This insight leads to the development of the gradient structure control algorithm. GD Learning also offers fresh insights into the questions on deep learning, including overparameterization and non-convex optimization, bias-variance trade-off, and the mechanism of flat minima.
翻訳日:2024-06-13 11:28:49 公開日:2024-06-12
# 階層的特徴: 改良されたデータセット蒸留のためのGAN事前探索

Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation ( http://arxiv.org/abs/2406.05704v2 )

ライセンス: Link先を確認
Xinhao Zhong, Hao Fang, Bin Chen, Xulin Gu, Tao Dai, Meikang Qiu, Shu-Tao Xia, (参考訳) データセット蒸留は、タスク精度を維持しながら大規模データセットを凝縮する、新たなデータセット削減手法である。 現在の手法は、最適化空間をピクセルから他の情報的特徴領域にシフトさせることで、合成データセットのパフォーマンスを向上させるために、パラメータ化技術を統合している。 しかし、これらは蒸留のための固定された最適化空間に制限され、様々な情報的潜在空間にわたる多様なガイダンスを無視している。 この制限を克服するために,GAN内の階層層を体系的に探索する階層的生成遅延蒸留(H-GLaD)と呼ばれる新しいパラメータ化手法を提案する。 これにより、初期潜在空間から最終ピクセル空間へ徐々に広がることができる。 さらに,合成データセット評価に伴う計算負担を軽減し,合成データセットとオリジナルデータセットのギャップを埋めるために,新しいクラス関連特徴距離尺度を導入する。 実験結果から,提案したH-GLaDは同一アーキテクチャと相互アーキテクチャの両方の性能を同等の時間消費で向上することが示された。

Dataset distillation is an emerging dataset reduction method, which condenses large-scale datasets while maintaining task accuracy. Current methods have integrated parameterization techniques to boost synthetic dataset performance by shifting the optimization space from pixel to another informative feature domain. However, they limit themselves to a fixed optimization space for distillation, neglecting the diverse guidance across different informative latent spaces. To overcome this limitation, we propose a novel parameterization method dubbed Hierarchical Generative Latent Distillation (H-GLaD), to systematically explore hierarchical layers within the generative adversarial networks (GANs). This allows us to progressively span from the initial latent space to the final pixel space. In addition, we introduce a novel class-relevant feature distance metric to alleviate the computational burden associated with synthetic dataset evaluation, bridging the gap between synthetic and original datasets. Experimental results demonstrate that the proposed H-GLaD achieves a significant improvement in both same-architecture and cross-architecture performance with equivalent time consumption.
翻訳日:2024-06-13 11:18:52 公開日:2024-06-12
# MLCM:潜在拡散モデルの多段階連続蒸留

MLCM: Multistep Consistency Distillation of Latent Diffusion Model ( http://arxiv.org/abs/2406.05768v3 )

ライセンス: Link先を確認
Qingsong Xie, Zhenyi Liao, Chen chen, Zhijie Deng, Shixiang Tang, Haonan Lu, (参考訳) 大きな潜伏拡散モデル(LDM)を高速で採取できるものに蒸留することは、研究の関心を惹きつけている。 しかし、既存の手法のほとんどはジレンマに直面している。 一 異なるサンプリング予算のための複数の個別蒸留モデルに依存し、又は (i)限られた(eg,2-4)および/または適度な(eg,5-8)サンプリングステップによる犠牲生成の品質。 これらの問題に対処するため、我々は最近の多段階連続蒸留(MCD)戦略を代表的LCDに拡張し、低コストで高品質な画像合成を行うための多段階潜時整合モデル(MLCM)アプローチを確立した。 MLCMは、MDDの約束により、様々なサンプリングステップの統一モデルとして機能する。 段階間整合性を高めるため, 段階間整合性を高め, 段階間整合性を高めるためのプログレッシブトレーニング戦略により, MCDをさらに強化する。 我々は,教師モデルのサンプリング軌跡から得られた状態をMLCMのトレーニングデータとして捉え,高品質なトレーニングデータセットの要件を引き上げ,蒸留モデルのトレーニングと推論のギャップを埋める。 MLCMは、視覚的品質と美的魅力をさらに向上させるために、嗜好学習戦略と互換性がある。 実証的に、MLCMは2~8ステップのサンプリングで高品質で楽しい画像を生成することができる。 MSCOCO-2017 5Kベンチマークでは、SDXLから蒸留したMLCMは、CLIPスコア33.30、Aesthetic Score6.19、Image Reward1.20の4ステップで、4ステップのLCM[23]、8ステップのSDXL-Lightning[17]、8ステップのHyperSD[33]を大きく上回る。 また、制御可能な生成、画像スタイル転送、中国画像生成を含むアプリケーションにおけるMLCMの汎用性を示す。

Distilling large latent diffusion models (LDMs) into ones that are fast to sample from is attracting growing research interest. However, the majority of existing methods face a dilemma where they either (i) depend on multiple individual distilled models for different sampling budgets, or (ii) sacrifice generation quality with limited (e.g., 2-4) and/or moderate (e.g., 5-8) sampling steps. To address these, we extend the recent multistep consistency distillation (MCD) strategy to representative LDMs, establishing the Multistep Latent Consistency Models (MLCMs) approach for low-cost high-quality image synthesis. MLCM serves as a unified model for various sampling steps due to the promise of MCD. We further augment MCD with a progressive training strategy to strengthen inter-segment consistency to boost the quality of few-step generations. We take the states from the sampling trajectories of the teacher model as training data for MLCMs to lift the requirements for high-quality training datasets and to bridge the gap between the training and inference of the distilled model. MLCM is compatible with preference learning strategies for further improvement of visual quality and aesthetic appeal. Empirically, MLCM can generate high-quality, delightful images with only 2-8 sampling steps. On the MSCOCO-2017 5K benchmark, MLCM distilled from SDXL gets a CLIP Score of 33.30, Aesthetic Score of 6.19, and Image Reward of 1.20 with only 4 steps, substantially surpassing 4-step LCM [23], 8-step SDXL-Lightning [17], and 8-step HyperSD [33]. We also demonstrate the versatility of MLCMs in applications including controllable generation, image style transfer, and Chinese-to-image generation.
翻訳日:2024-06-13 11:18:52 公開日:2024-06-12
# 多段階音声分類の最適化:自動評価における効率的なパラメータ削減のためのウィスパーエンコーダの活用

Optimizing Multi-Stuttered Speech Classification: Leveraging Whisper's Encoder for Efficient Parameter Reduction in Automated Assessment ( http://arxiv.org/abs/2406.05784v2 )

ライセンス: Link先を確認
Huma Ameer, Seemab Latif, Rabia Latif, (参考訳) 発声音声の自動分類は、言語病理学者に支援を提供するタイムリーアセスメントに重要な意味を持つ。 この分野の顕著な進歩にもかかわらず、発話中に複数の不一致が発生した場合、注意が必要である。 我々は、このギャップを埋めるために、より効率的にマルチスタッタ音声を分類することで、進歩的なアプローチをとってきた。 この問題は、まずSEP-28kオーディオクリップからマルチスタッタ分散のデータセットをキュレートすることで解決されている。 第二に、最先端の音声認識モデルであるWhisperを用いて、エンコーダを用いて問題をマルチラベル分類する。 第3に、6エンコーダ層Whisperを用いて様々な層凍結戦略を実験し、そのモデルの計算効率の良い構成を同定した。 提案した構成はマイクロ、マクロ、重み付けされたF1スコアの0.88、0.85、0.87を外部テストデータセット、すなわちFluency-Bankで達成した。 さらに、層の凍結戦略を通じて、上記の結果を達成するために、単一のエンコーダ層を微調整し、モデルのトレーニング可能なパラメータを2027万から329万に減らした。 本研究では,最後のエンコーダ層が発声音声における不一致の同定に寄与していることを明らかにする。 その結果、様々な方言や言語に適応しやすくする計算効率のよいアプローチが導かれた。

The automated classification of stuttered speech has significant implications for timely assessments providing assistance to speech language pathologists. Despite notable advancements in the field, the cases in which multiple disfluencies occur in speech require attention. We have taken a progressive approach to fill this gap by classifying multi-stuttered speech more efficiently. The problem has been addressed by firstly curating a dataset of multi-stuttered disfluencies from SEP-28k audio clips. Secondly, employing Whisper, a state-of-the-art speech recognition model has been leveraged by using its encoder and taking the problem as multi-label classification. Thirdly, using a 6 encoder layer Whisper and experimenting with various layer freezing strategies, a computationally efficient configuration of the model was identified. The proposed configuration achieved micro, macro, and weighted F1- scores of 0.88, 0.85, and 0.87, correspondingly on an external test dataset i.e. Fluency-Bank. In addition, through layer freezing strategies, we were able to achieve the aforementioned results by fine-tuning a single encoder layer, consequently, reducing the model's trainable parameters from 20.27 million to 3.29 million. This research study unveils the contribution of the last encoder layer in the identification of disfluencies in stuttered speech. Consequently, it has led to a computationally efficient approach which makes the model more adaptable for various dialects and languages.
翻訳日:2024-06-13 11:18:52 公開日:2024-06-12
# LLMを用いたより強固, チーパー, デモ不要なログ解析

Stronger, Cheaper and Demonstration-Free Log Parsing with LLMs ( http://arxiv.org/abs/2406.06156v2 )

ライセンス: Link先を確認
Yi Xiao, Van-Hoang Le, Hongyu Zhang, (参考訳) ログ解析は、生ログメッセージを構造化フォーマットに変換するプロセスであり、大規模ソフトウェアシステムのログを自動的に解析するための重要な初期ステップである。 伝統的なログパーサーは、しばしばヒューリスティックや手作りの機能に依存しており、多様なログソースをうまく一般化したり、広範囲なモデルチューニングを必要としたりしない。 近年,一部のログパーザは,大規模言語モデル(LLM)の強力な生成機能を活用している。 しかし、それらはデモの例に大きく依存しており、LCMの呼び出しにかなりのオーバーヘッドをもたらした。 これらの問題に対処するために、トレーニングプロセスやラベル付きデータを必要としないコスト効率のよいLCMベースのログパーサであるLogBatcherを提案する。 ログデータの潜時特性を活用し、オーバーヘッドを低減するために、ログをクラスタリングを通じて複数のパーティションに分割する。 次に、以前解析したログテンプレートとログを一致させるキャッシュマッチングプロセスを実行する。 最後に、各パーティションからログのグループをバッチ化することで、ログ解析に特化したプロンプトコンテキストをLLMに提供します。 我々は16の公開ログデータセットの実験を行い、ログ解析にはLogBatcherが効果的で効率的であることを示した。

Log parsing, the process of converting raw log messages into structured formats, is an important initial step for automated analysis of logs of large-scale software systems. Traditional log parsers often rely on heuristics or handcrafted features, which may not generalize well across diverse log sources or require extensive model tuning. Recently, some log parsers have utilized powerful generative capabilities of large language models (LLMs). However, they heavily rely on demonstration examples, resulting in substantial overhead in LLM invocations. To address these issues, we propose LogBatcher, a cost-effective LLM-based log parser that requires no training process or labeled data. To leverage latent characteristics of log data and reduce the overhead, we divide logs into several partitions through clustering. Then we perform a cache matching process to match logs with previously parsed log templates. Finally, we provide LLMs with better prompt context specialized for log parsing by batching a group of logs from each partition. We have conducted experiments on 16 public log datasets and the results show that LogBatcher is effective and efficient for log parsing.
翻訳日:2024-06-13 11:18:52 公開日:2024-06-12
# PowerInfer-2:スマートフォン上での高速大言語モデル推論

PowerInfer-2: Fast Large Language Model Inference on a Smartphone ( http://arxiv.org/abs/2406.06282v2 )

ライセンス: Link先を確認
Zhenliang Xue, Yixin Song, Zeyu Mi, Le Chen, Yubin Xia, Haibo Chen, (参考訳) 本稿では,スマートフォン上での大規模言語モデル(LLM)の高速推論のためのフレームワークであるPowerInfer-2を紹介する。 PowerInfer-2の重要な洞察は、従来の行列計算をきめ細かいニューロンクラスタ計算に分解することで、スマートフォンの異種計算、メモリ、I/Oリソースを活用することである。 具体的には、PowerInfer-2はLLM推論の様々な段階の計算戦略に適応する多形ニューロンエンジンを備えている。 さらに、セグメント化されたニューロンキャッシングときめ細かいニューロンクラスターレベルのパイプライニングを導入し、I/O操作によるオーバーヘッドを効果的に最小化し、隠蔽する。 PowerInfer-2の実装と評価は、2つのスマートフォンで幅広いLLMモデルをサポートする能力を示し、最先端のフレームワークと比較して29.2倍の速度向上を実現した。 特にPowerInfer-2は、TurboSparse-Mixtral-47Bモデルに1秒あたり11.68トークンを生成する最初のシステムである。 完全にメモリに収まるモデルでは、PowerInfer-2 は llama.cpp や MLC-LLM に匹敵する推論速度を維持しながら、メモリ使用量の約40%の削減を実現している。 デモビデオを含む詳細については、www.powerinfer.ai/v2のプロジェクトサイトを参照してください。

This paper introduces PowerInfer-2, a framework designed for high-speed inference of Large Language Models (LLMs) on smartphones, particularly effective for models whose sizes exceed the device's memory capacity. The key insight of PowerInfer-2 is to utilize the heterogeneous computation, memory, and I/O resources in smartphones by decomposing traditional matrix computations into fine-grained neuron cluster computations. Specifically, PowerInfer-2 features a polymorphic neuron engine that adapts computational strategies for various stages of LLM inference. Additionally, it introduces segmented neuron caching and fine-grained neuron-cluster-level pipelining, which effectively minimize and conceal the overhead caused by I/O operations. The implementation and evaluation of PowerInfer-2 demonstrate its capability to support a wide array of LLM models on two smartphones, achieving up to a 29.2x speed increase compared with state-of-the-art frameworks. Notably, PowerInfer-2 is the first system to serve the TurboSparse-Mixtral-47B model with a generation rate of 11.68 tokens per second on a smartphone. For models that fit entirely within the memory, PowerInfer-2 can achieve approximately a 40% reduction in memory usage while maintaining inference speeds comparable to llama.cpp and MLC-LLM. For more details, including a demonstration video, please visit the project site at www.powerinfer.ai/v2.
翻訳日:2024-06-13 11:18:52 公開日:2024-06-12
# 大規模言語モデルと社会ロボティクスのインターセクションにおける倫理的考察の特定のための経験的デザインジャスティスアプローチ

An Empirical Design Justice Approach to Identifying Ethical Considerations in the Intersection of Large Language Models and Social Robotics ( http://arxiv.org/abs/2406.06400v2 )

ライセンス: Link先を確認
Alva Markelius, (参考訳) 大規模言語モデル(LLM)の社会ロボティクスへの統合は、ユニークな倫理的課題と社会的影響を示す。 本研究は、これらの2つの技術の設計と開発に生じる倫理的考察を特定することを目的としている。 社会ロボティクスにLLMを使用することは、自然言語のオープンドメイン対話を可能にするなど、メリットを提供する可能性がある。 しかし、これらの2つの技術の交差は、誤情報、非言語的手がかり、感情的破壊、偏見に関する倫理的な懸念を引き起こす。 ロボットの身体的エンボディメントは、幻覚や誤報などのLLMベースの社会AIに関連する倫理的ハザードが、身体的エンボディメントが社会的知覚とコミュニケーションに与える影響により悪化する可能性があるため、複雑さを増す。 これらの課題に対処するために、質的な共同設計と相互作用研究を通じて社会技術的倫理的考察を識別することに焦点を当てた経験的デザインの正義に基づく方法論を用いる。 本研究の目的は,LLMのインタフェースとしてヒューマノイド社会ロボットとの共同設計とインタラクションのプロセスに関連する倫理的考察を同定し,LLMを基盤とした社会ロボティクスを設計する文脈において,デザイン正義の方法論をどのように利用できるかを評価することである。 その結果, 相互作用, 共同設計, サービス条件, 関係性という4つの概念的側面から生じる倫理的考察のマッピングが示され, LLMと社会ロボティクスの交叉において, どのようにしてデザイン正義アプローチを実証的に利用できるかが評価された。

The integration of Large Language Models (LLMs) in social robotics presents a unique set of ethical challenges and social impacts. This research is set out to identify ethical considerations that arise in the design and development of these two technologies in combination. Using LLMs for social robotics may provide benefits, such as enabling natural language open-domain dialogues. However, the intersection of these two technologies also gives rise to ethical concerns related to misinformation, non-verbal cues, emotional disruption, and biases. The robot's physical social embodiment adds complexity, as ethical hazards associated with LLM-based Social AI, such as hallucinations and misinformation, can be exacerbated due to the effects of physical embodiment on social perception and communication. To address these challenges, this study employs an empirical design justice-based methodology, focusing on identifying socio-technical ethical considerations through a qualitative co-design and interaction study. The purpose of the study is to identify ethical considerations relevant to the process of co-design of, and interaction with a humanoid social robot as the interface of a LLM, and to evaluate how a design justice methodology can be used in the context of designing LLMs-based social robotics. The findings reveal a mapping of ethical considerations arising in four conceptual dimensions: interaction, co-design, terms of service and relationship and evaluates how a design justice approach can be used empirically in the intersection of LLMs and social robotics.
翻訳日:2024-06-13 11:18:52 公開日:2024-06-12
# Wallyを使ったスケーラブルなプライベート検索

Scalable Private Search with Wally ( http://arxiv.org/abs/2406.06761v2 )

ライセンス: Link先を確認
Hilal Asi, Fabian Boemer, Nicholas Genise, Muhammad Haris Mughees, Tabitha Ogilvie, Rehan Rishi, Guy N. Rothblum, Kunal Talwar, Karl Tarbe, Ruiyu Zhu, Marco Zuliani, (参考訳) 本稿では,大規模データベースに対する効率的なセマンティック検索およびキーワード検索クエリをサポートする,プライベート検索システムであるWallyを提案する。 十分なクライアントがクエリを作成すれば、Wallyのパフォーマンスは以前のシステムよりも大幅に向上します。 従来のプライベート検索システムでは、各クライアントクエリに対して、サーバはデータベースのエントリごとに少なくとも1つの高価な暗号処理を実行する必要がある。 その結果、データベース内のエントリ数に比例して性能が低下した。 Wallyでは、この制限を取り除きます。 具体的には、クエリ毎に、サーバはいくつかのデータベースエントリに対してのみ暗号化操作を実行する。 我々は,各クライアントにいくつかの偽のクエリを追加することを要求し,無名ネットワークを介して各クエリを独立に選択されたランダムな瞬間にサーバに送信することで,これらの結果を達成する。 さらに、各クライアントは、クエリが本物であるか偽なのかを隠すために、何らかの同型暗号化(SHE)も使用しています。 各クライアントが行う偽クエリの数は、クエリを作成するクライアントの数に依存する。 そのため、クライアント数が増えるにつれてフェイククエリのオーバーヘッドがなくなり、数百万のクエリや大規模データベースにスケーラビリティが実現される。 具体的には、Wallyは毎秒3000クエリのレートで8Mのリクエストを処理できる。 これは最先端の計画の約60倍高い。

This paper presents Wally, a private search system that supports efficient semantic and keyword search queries against large databases. When sufficient clients are making the queries, Wally performance is significantly better than previous systems. In previous private search systems, for each client query, the server must perform at least one expensive cryptographic operation per database entry. As a result, performance degraded proportionally with the number of entries in the database. In Wally we get rid of this limitation. Specifically, for each query the server performs cryptographic operations only against a few database entries. We achieve these results by requiring each client to add a few fake queries, and sends each query via an anonymous network to the server at independently chosen random instants. Additionally, each client also uses somewhat homomorphic encryption (SHE) to hide whether a query is real or fake, Wally provides $(\epsilon, \delta)$-differential privacy guarantee, which is an accepted standard for strong privacy. The number of fake queries each client makes depends inversely on the number of clients making queries. Therefore, the fake queries' overhead vanishes as the number of clients increases, enabling scalability to millions of queries and large databases. Concretely, Wally can serve $8$M requests at a rate of 3,000 queries per second. That is around 60x higher than the state-of-the-art scheme.
翻訳日:2024-06-13 11:18:52 公開日:2024-06-12
# フォトニックシステムを用いた量子状態重なり推定手法の実験的ベンチマーク

Experimental benchmarking of quantum state overlap estimation strategies with photonic systems ( http://arxiv.org/abs/2406.06810v2 )

ライセンス: Link先を確認
Hao Zhan, Ben Wang, Minghao Mi, Jie Xie, Liang Xu, Aonan Zhang, Lijian Zhang, (参考訳) 量子状態間の重なりを正確に推定することは、量子情報処理の基本的な課題である。 異なる量子測度を用いた様々な戦略が重複推定のために提案されているが、異なる状況における推定精度制限戦略選択に関する実験的なベンチマークが欠如している。 ここでは, トモグラフィー, トモグラフィー, トモグラフィー投影, シュール集団計測, 光学スワップテストなど, オーバーラップ推定のための4つの実用的戦略の比較を行った。 フォトニックシステムでは、各戦略の重なり依存的な推定精度は、一様サンプリング状態に対する平均推定ばらつきの観点から定量化され、異なる戦略の異なる性能を浮き彫りにする。 さらに、フルレンジ重畳推定において、最適化された精度で適応的な戦略を提案する。 その結果、量子システムから興味のパラメータを抽出することに新たな光を当て、効率的な量子プロトコルの設計を促した。

Accurately estimating the overlap between quantum states is a fundamental task in quantum information processing. While various strategies using distinct quantum measurements have been proposed for overlap estimation, the lack of experimental benchmarks on estimation precision limits strategy selection in different situations. Here we compare the performance of four practical strategies for overlap estimation, including tomography-tomography, tomography-projection, Schur collective measurement and optical swap test. With a photonic system, the overlap-dependent estimation precision for each strategy is quantified in terms of the average estimation variance over uniformly sampled states, which highlight the different performance of different strategies. We further propose an adaptive strategy with optimized precision in full-range overlap estimation. Our results shed new light on extracting the parameter of interest from quantum systems, prompting the design of efficient quantum protocols.
翻訳日:2024-06-13 11:18:52 公開日:2024-06-12
# FLUX:カーネルフュージョンによるGPU上での高速ソフトウェアベースの通信オーバーラップ

FLUX: Fast Software-based Communication Overlap On GPUs Through Kernel Fusion ( http://arxiv.org/abs/2406.06858v2 )

ライセンス: Link先を確認
Liwen Chang, Wenlei Bao, Qi Hou, Chengquan Jiang, Ningxin Zheng, Yinmin Zhong, Xuanrun Zhang, Zuquan Song, Ziheng Jiang, Haibin Lin, Xin Jin, Xin Liu, (参考訳) 大規模なディープラーニングモデルは、広範囲のアプリケーションで多くのタスクを解く強力な能力を示している。 これらの大きなモデルは一般的に、トレーニングと推論を必要とします。 テンソル並列性(Tensor parallelism)は、単一のプロセッサのメモリ容量制限を克服し、/または特定のレイテンシ要求を満たすために計算を高速化するために、デバイス間で操作やレイヤの計算を分割する一般的な手法である。 しかし、この種の並列処理は、ランタイム全体のかなりの部分を占めるかもしれない追加の通信を導入します。 これにより、ノード内のNVLinkを持つGPUなど、高速な相互接続を持つデバイス群における、このテクニックのスケーラビリティが制限される。 本稿では,GPUに依存する計算で通信遅延を著しく隠蔽する新しいFlux法を提案する。 Fluxは通信処理と計算処理を細かな演算に過度に分解し、さらに大きなカーネルに融合させ、カーネル効率を損なうことなく効果的に通信を隠蔽する。 Fluxは核融合によって最大96%の通信を重複させる可能性がある。 全体として、様々なGPU世代と相互接続を持つ128GPUのクラスタ上で、Megatron-LMをトレーニングするための最大1.24倍のスピードアップを実現し、様々なGPU世代と相互接続を持つ8GPUを持つクラスタ上で、vLLM上の推論をプリフィルおよびデコードするための最大1.66倍と1.30倍のスピードアップを実現している。

Large deep learning models have demonstrated strong ability to solve many tasks across a wide range of applications. Those large models typically require training and inference to be distributed. Tensor parallelism is a common technique partitioning computation of an operation or layer across devices to overcome the memory capacity limitation of a single processor, and/or to accelerate computation to meet a certain latency requirement. However, this kind of parallelism introduces additional communication that might contribute a significant portion of overall runtime. Thus limits scalability of this technique within a group of devices with high speed interconnects, such as GPUs with NVLinks in a node. This paper proposes a novel method, Flux, to significantly hide communication latencies with dependent computations for GPUs. Flux over-decomposes communication and computation operations into much finer-grained operations and further fuses them into a larger kernel to effectively hide communication without compromising kernel efficiency. Flux can potentially overlap up to 96% of communication given a fused kernel. Overall, it can achieve up to 1.24x speedups for training over Megatron-LM on a cluster of 128 GPUs with various GPU generations and interconnects, and up to 1.66x and 1.30x speedups for prefill and decoding inference over vLLM on a cluster with 8 GPUs with various GPU generations and interconnects.
翻訳日:2024-06-13 11:18:52 公開日:2024-06-12
# Agent-SiMT:大規模言語モデルを用いたエージェント支援同時機械翻訳

Agent-SiMT: Agent-assisted Simultaneous Machine Translation with Large Language Models ( http://arxiv.org/abs/2406.06910v2 )

ライセンス: Link先を確認
Shoutao Guo, Shaolei Zhang, Zhengrui Ma, Min Zhang, Yang Feng, (参考訳) 同時機械翻訳(SiMT)は、原文を読みながらターゲット翻訳を生成する。 これは、文章を読み、翻訳を生成するのに最適なタイミングを決定するためのポリシーに依存している。 既存の SiMT メソッドは一般的に、ポリシーを同時に決定し、翻訳を生成する、従来の Transformer アーキテクチャを採用している。 ポリシーの決定には優れていますが、翻訳性能は最適以下です。 逆に、広範囲のコーパスで訓練されたLarge Language Models (LLMs) は、優れた生成能力を有するが、SiMTの訓練方法による翻訳ポリシーの取得は困難である。 そこで本研究では,従来のSiMT手法とLLMの強度を組み合わせたフレームワークであるAgent-SiMTを紹介する。 エージェント−SiMTは、ポリシー決定剤及び翻訳剤を含む。 ポリシー決定エージェントは、部分的ソース文と翻訳を用いて翻訳ポリシーを決定するSiMTモデルにより管理される。 LLMを利用した翻訳エージェントは、部分的ソース文に基づいて翻訳を生成する。 2人のエージェントは、SiMTを達成するために協力します。 実験により、Agent-SiMTは最先端の性能を発揮することが示された。

Simultaneous Machine Translation (SiMT) generates target translations while reading the source sentence. It relies on a policy to determine the optimal timing for reading sentences and generating translations. Existing SiMT methods generally adopt the traditional Transformer architecture, which concurrently determines the policy and generates translations. While they excel at determining policies, their translation performance is suboptimal. Conversely, Large Language Models (LLMs), trained on extensive corpora, possess superior generation capabilities, but it is difficult for them to acquire translation policy through the training methods of SiMT. Therefore, we introduce Agent-SiMT, a framework combining the strengths of LLMs and traditional SiMT methods. Agent-SiMT contains the policy-decision agent and the translation agent. The policy-decision agent is managed by a SiMT model, which determines the translation policy using partial source sentence and translation. The translation agent, leveraging an LLM, generates translation based on the partial source sentence. The two agents collaborate to accomplish SiMT. Experiments demonstrate that Agent-SiMT attains state-of-the-art performance.
翻訳日:2024-06-13 11:18:52 公開日:2024-06-12
# 古典的データを最小損失の行列積状態表現に符号化する最適クビットマッピング探索

Optimal Qubit Mapping Search for Encoding Classical Data into Matrix Product State Representation with Minimal Loss ( http://arxiv.org/abs/2406.06935v2 )

ライセンス: Link先を確認
Hyeongjun Jeon, Kyungmin Lee, Dongkyu Lee, Bongsang Kim, Taehyun Kim, (参考訳) Matrix Product State(MPS)は、古典的なデータを量子状態にエンコードするフレームワークを提供する。 本研究では,古典データの符号化に特化して設計されたMPS表現の効率性と精度を向上させる手法について検討する。 提案手法は,MPSトランケーション誤差が古典データのパターンに依存するという観測に基づいて,与えられた古典データに対して最適な量子ビットマッピングを求めるアルゴリズムを考案し,MPS表現の効率と忠実性を向上させる。 さらに、量子分類器の文脈における最適化MPSの影響を評価し、従来のマッピングと比較して性能が向上したことを示す。 この改良により、古典的データを量子状態に符号化するための提案手法の有効性が確かめられる。 MPS表現と最適量子ビットマッピングを組み合わせることで、より効率的で正確な量子データ表現と処理のための新しい方法を開拓することができる。

Matrix product state (MPS) offers a framework for encoding classical data into quantum states, enabling the efficient utilization of quantum resources for data representation and processing. This research paper investigates techniques to enhance the efficiency and accuracy of MPS representations specifically designed for encoding classical data. Based on the observations that MPS truncation error depends on the pattern of the classical data, we devised an algorithm that finds optimal qubit mapping for given classical data, thereby improving the efficiency and fidelity of the MPS representation. Furthermore, we evaluate the impact of the optimized MPS in the context of quantum classifiers, demonstrating their enhanced performance compared to the conventional mapping. This improvement confirms the efficacy of the proposed techniques for encoding classical data into quantum states. MPS representation combined with optimal qubit mapping can pave a new way for more efficient and accurate quantum data representation and processing.
翻訳日:2024-06-13 11:09:07 公開日:2024-06-12
# LiSD:LiDARセグメンテーションと検出のための効率的なマルチタスク学習フレームワーク

LiSD: An Efficient Multi-Task Learning Framework for LiDAR Segmentation and Detection ( http://arxiv.org/abs/2406.07023v2 )

ライセンス: Link先を確認
Jiahua Xu, Si Zuo, Chenfeng Wei, Wei Zhou, (参考訳) 自動運転の急速な普及に伴い、ライダーベースの3Dセマンティックセグメンテーションとオブジェクト検出手法の研究に焦点が当てられ、交通参加者の安全確保が図られている。 近年、学習に基づくアプローチが出現し、従来のアルゴリズムと比較して顕著なパフォーマンス向上が見られた。 しかし、分割と検出のタスクは、伝統的に最高の精度を達成するために、分離して検討されてきた。 そこで本研究では,分割処理と検出処理の両方に対応可能なLiSDというマルチタスク学習フレームワークを提案する。 提案するLiSDはボクセルベースのエンコーダデコーダフレームワークである。 セグメンテーションにおける空間性を維持するために異なる統合手法が採用され、検出時のクエリ初期化のための機能を強化している。 さらに、クロスタスク情報をインスタンス対応リファインメントモジュールで利用して、より正確な予測を得る。 nuScenesデータセットとWaymo Open Datasetの実験結果から,提案モデルの有効性が示された。 LiSDは、lidar-onlyメソッドのnuScenesセグメンテーションベンチマークにおいて、83.3% mIoUの最先端のパフォーマンスを達成することに注意する必要がある。

With the rapid proliferation of autonomous driving, there has been a heightened focus on the research of lidar-based 3D semantic segmentation and object detection methodologies, aiming to ensure the safety of traffic participants. In recent decades, learning-based approaches have emerged, demonstrating remarkable performance gains in comparison to conventional algorithms. However, the segmentation and detection tasks have traditionally been examined in isolation to achieve the best precision. To this end, we propose an efficient multi-task learning framework named LiSD which can address both segmentation and detection tasks, aiming to optimize the overall performance. Our proposed LiSD is a voxel-based encoder-decoder framework that contains a hierarchical feature collaboration module and a holistic information aggregation module. Different integration methods are adopted to keep sparsity in segmentation while densifying features for query initialization in detection. Besides, cross-task information is utilized in an instance-aware refinement module to obtain more accurate predictions. Experimental results on the nuScenes dataset and Waymo Open Dataset demonstrate the effectiveness of our proposed model. It is worth noting that LiSD achieves the state-of-the-art performance of 83.3% mIoU on the nuScenes segmentation benchmark for lidar-only methods.
翻訳日:2024-06-13 11:09:07 公開日:2024-06-12
# ステートフルファジィは本当に混み合っているのか?

Is Stateful Fuzzing Really Challenging? ( http://arxiv.org/abs/2406.07071v2 )

ライセンス: Link先を確認
Cristian Daniele, (参考訳) ファジィングはソフトウェアの脆弱性を見つけるのに非常に効果的であることが証明されている。 ファジィステートレスシステムに関しては、アナリストの判断に疑いの余地はない。 実際、過去20年間に考案されたステートレスファズナーの多さの中で、AFL(AFL++とLibAFL)は、その有効性、速度、バグを見つける能力のために立ち上がった。 一方、ステートフルなシステムを扱う場合、何が最適なツールなのかは明らかではない。 実際、研究コミュニティは、効果的で汎用的なステートフルなファザーを考案(そしてベンチマーク)するのに苦労しています。 本稿では,ステートフルファジィファジィの考案とベンチマークが難しい理由について論じる。

Fuzzing has been proven extremely effective in finding vulnerabilities in software. When it comes to fuzz stateless systems, analysts have no doubts about the choice to make. In fact, among the plethora of stateless fuzzers devised in the last 20 years, AFL (with its descendants AFL++ and LibAFL) stood up for its effectiveness, speed and ability to find bugs. On the other hand, when dealing with stateful systems, it is not clear what is the best tool to use. In fact, the research community struggles to devise (and benchmark) effective and generic stateful fuzzers. In this short paper, we discuss the reasons that make stateful fuzzers difficult to devise and benchmark.
翻訳日:2024-06-13 11:09:07 公開日:2024-06-12
# アグノスティックシャープネスの最小化

Agnostic Sharpness-Aware Minimization ( http://arxiv.org/abs/2406.07107v2 )

ライセンス: Link先を確認
Van-Anh Nguyen, Quyen Tran, Tuan Truong, Thanh-Toan Do, Dinh Phung, Trung Le, (参考訳) シャープネスを意識した最小化(SAM)は、トレーニング損失とロスランドスケープのシャープネスの両方を最小化することで、ディープニューラルネットワークトレーニングの改善に役立っている。 別の側面として、モデルに依存しないメタラーニング(MAML)はモデルの適応性を改善するために設計されたフレームワークである。 MAMLは、最小限の微調整ステップで複数のタスクへの迅速な適応に適したメタモデルセットを最適化し、限られたデータでうまく一般化できる。 本研究では,SAMとMAMLの関連性,特にモデル一般化の強化について検討する。 我々はSAMとMAMLの両方の原則を組み合わせた新しいアプローチであるAgnostic-SAMを紹介する。 Agnostic-SAMは、トレーニングデータを使用してモデルをより広い局所最小化に向けて最適化し、検証データに対する損失値の低減を同時に維持することでSAMの中核的な考え方に適応する。 これにより、小さな摂動に頑丈なだけでなく、データ分散シフト問題にも弱いフラットなミニマを求める。 実験の結果,Agnostic-SAMは,ノイズラベルやデータ制限といった問題条件下で,さまざまなデータセットのベースラインに対する一般化を著しく改善することが示された。

Sharpness-aware minimization (SAM) has been instrumental in improving deep neural network training by minimizing both the training loss and the sharpness of the loss landscape, leading the model into flatter minima that are associated with better generalization properties. In another aspect, Model-Agnostic Meta-Learning (MAML) is a framework designed to improve the adaptability of models. MAML optimizes a set of meta-models that are specifically tailored for quick adaptation to multiple tasks with minimal fine-tuning steps and can generalize well with limited data. In this work, we explore the connection between SAM and MAML, particularly in terms of enhancing model generalization. We introduce Agnostic-SAM, a novel approach that combines the principles of both SAM and MAML. Agnostic-SAM adapts the core idea of SAM by optimizing the model towards wider local minima using training data, while concurrently maintaining low loss values on validation data. By doing so, it seeks flatter minima that are not only robust to small perturbations but also less vulnerable to data distributional shift problems. Our experimental results demonstrate that Agnostic-SAM significantly improves generalization over baselines across a range of datasets and under challenging conditions such as noisy labels and data limitation.
翻訳日:2024-06-13 11:09:07 公開日:2024-06-12
# リカレントニューラルネットワークによる量子プロセスのマルコビアン性の検出

Detecting Markovianity of Quantum Processes via Recurrent Neural Networks ( http://arxiv.org/abs/2406.07226v2 )

ライセンス: Link先を確認
Angela Rosy Morgillo, Massimiliano F. Sacchi, Chiara Macchiavello, (参考訳) 本稿では,Choi状態から得られた時系列データを利用して,RNNを用いてマルコフおよび非マルコフ量子過程を分類する手法を提案する。 このモデルは、様々なシナリオにまたがる95%を超える例外的な精度を示し、任意のベースでデファーズとパウリのチャネルを包含し、一般化振幅減衰力学を包含する。 さらに, 解析した時系列データに対して, 効率的な予測能力を示す。 これらの結果は、量子過程のマルコフ的性質を識別・予測するRNNの可能性を示している。

We present a novel methodology utilizing Recurrent Neural Networks (RNNs) to classify Markovian and non-Markovian quantum processes, leveraging time series data derived from Choi states. The model exhibits exceptional accuracy, surpassing 95%, across diverse scenarios, encompassing dephasing and Pauli channels in an arbitrary basis, and generalized amplitude damping dynamics. Additionally, the developed model shows efficient forecasting capabilities for the analyzed time series data. These results suggest the potential of RNNs in discerning and predicting the Markovian nature of quantum processes.
翻訳日:2024-06-13 11:09:07 公開日:2024-06-12
# 1つのGPUは十分か? 基礎モデルによる高解像度画像生成

Is One GPU Enough? Pushing Image Generation at Higher-Resolutions with Foundation Models ( http://arxiv.org/abs/2406.07251v2 )

ライセンス: Link先を確認
Athanasios Tragakis, Marco Aversa, Chaitanya Kaul, Roderick Murray-Smith, Daniele Faccio, (参考訳) 本稿では,1つのGPUで高解像度の画像のサンプリングを行うため,ゼロショットのテキスト・ツー・イメージ生成フレームワークであるPixelsmithを紹介する。 我々は,事前学習した拡散モデルの出力を1000倍に拡大できることを初めて示し,ギガピクセル画像生成への道を開いた。 カスケード法では, 最低分解能で生成した画像をベースラインとして, 高分解能で試料をサンプリングする。 そこで本研究では,第1生成画像に含まれる全体構造を微細化して融合するスライダ(Slider)について紹介する。 各推論ステップでは、イメージの解像度に関わらず、1つのGPUがプロセスを処理することができるように、メモリ要求を最小限に抑えながら、潜在空間全体ではなくパッチを飾る。 実験結果から,Pixelsmithは既存の技術に比べて品質や多様性が向上するだけでなく,サンプリング時間やアーティファクトも低減できることがわかった。 私たちの作業のコードはhttps://github.com/Thanos-DB/Pixelsmith.comで公開されています。

In this work, we introduce Pixelsmith, a zero-shot text-to-image generative framework to sample images at higher resolutions with a single GPU. We are the first to show that it is possible to scale the output of a pre-trained diffusion model by a factor of 1000, opening the road for gigapixel image generation at no additional cost. Our cascading method uses the image generated at the lowest resolution as a baseline to sample at higher resolutions. For the guidance, we introduce the Slider, a tunable mechanism that fuses the overall structure contained in the first-generated image with enhanced fine details. At each inference step, we denoise patches rather than the entire latent space, minimizing memory demands such that a single GPU can handle the process, regardless of the image's resolution. Our experimental results show that Pixelsmith not only achieves higher quality and diversity compared to existing techniques, but also reduces sampling time and artifacts. The code for our work is available at https://github.com/Thanos-DB/Pixelsmith.
翻訳日:2024-06-13 11:09:07 公開日:2024-06-12
# リアルタイム超解法のための実データ生成に向けて

Towards Realistic Data Generation for Real-World Super-Resolution ( http://arxiv.org/abs/2406.07255v2 )

ライセンス: Link先を確認
Long Peng, Wenbo Li, Renjing Pei, Jingjing Ren, Xueyang Fu, Yang Wang, Yang Cao, Zheng-Jun Zha, (参考訳) 既存の画像超解像(SR)技術は、訓練データと実践シナリオの間に大きな違いがあるため、複雑な実世界の環境で効果的に一般化できないことが多い。 この課題に対処するために、従来の取り組みは、複雑な物理ベース劣化を手動でシミュレートするか、あるいは学習ベースの技術を利用してきたが、これらのアプローチは、大規模で現実的で多様なデータを同時に生成するのに不適当である。 本稿では,実世界の超解像のための教師なし学習データ生成フレームワークRealDGenを紹介する。 本研究では,コンテンツ分解脱結合拡散モデルに統合されたコンテンツと劣化抽出戦略を精巧に開発し,実画像とHR画像から現実的な低解像度画像を生成する。 大規模な実験により、RealDGenは、実世界の劣化を反映する大規模で高品質なペアデータを生成するのに優れており、様々な実世界のベンチマークで一般的なSRモデルの性能を大幅に向上することを示した。

Existing image super-resolution (SR) techniques often fail to generalize effectively in complex real-world settings due to the significant divergence between training data and practical scenarios. To address this challenge, previous efforts have either manually simulated intricate physical-based degradations or utilized learning-based techniques, yet these approaches remain inadequate for producing large-scale, realistic, and diverse data simultaneously. In this paper, we introduce a novel Realistic Decoupled Data Generator (RealDGen), an unsupervised learning data generation framework designed for real-world super-resolution. We meticulously develop content and degradation extraction strategies, which are integrated into a novel content-degradation decoupled diffusion model to create realistic low-resolution images from unpaired real LR and HR images. Extensive experiments demonstrate that RealDGen excels in generating large-scale, high-quality paired data that mirrors real-world degradations, significantly advancing the performance of popular SR models on various real-world benchmarks.
翻訳日:2024-06-13 11:09:07 公開日:2024-06-12
# AIフィードバックによる多目的強化学習

Multi-objective Reinforcement learning from AI Feedback ( http://arxiv.org/abs/2406.07295v2 )

ライセンス: Link先を確認
Marcus Williams, (参考訳) 本稿では,AIフィードバックからの強化学習(RLAIF)を用いて学習した言語モデルのアライメントと性能を改善するための,MORLAIF(Multi-Objective Reinforcement Learning from AI Feedback)を提案する。 すべての人間の嗜好を表現するために単一の嗜好モデルを訓練する標準的なアプローチとは対照的に、MORLAIFは、このタスクを毒性、事実性、薬効など、複数の単純な原則に分解する。 GPT-3.5-Turboからのフィードバックを用いて、各原則ごとに個別の選好モデルを訓練する。 これらの選好モデルスコアは、異なるスカラー化関数を用いて組み合わせられ、ターゲット言語モデルのPPOトレーニングのための報酬信号を提供する。 我々の実験は、MORLAIFが標準のRLAIFベースラインより優れており、MORLAIFはより小さな言語モデルを用いて、より大きな言語モデルを調整するために使用できることを示している。 驚くべきことに、スカラー化関数の選択は結果に大きな影響を与えていない。

This paper presents Multi-Objective Reinforcement Learning from AI Feedback (MORLAIF), a novel approach to improving the alignment and performance of language models trained using reinforcement learning from AI feedback (RLAIF). In contrast to standard approaches that train a single preference model to represent all human preferences, MORLAIF decomposes this task into multiple simpler principles, such as toxicity, factuality, and sycophancy. Separate preference models are trained for each principle using feedback from GPT-3.5-Turbo. These preference model scores are then combined using different scalarization functions to provide a reward signal for Proximal Policy Optimization (PPO) training of the target language model. Our experiments indicate that MORLAIF outperforms the standard RLAIF baselines and that MORLAIF can be used to align larger language models using smaller ones. Surprisingly, the choice of scalarization function does not appear to significantly impact the results.
翻訳日:2024-06-13 11:09:07 公開日:2024-06-12
# 絡み合ったトップクォークの魔法

The magic of entangled top quarks ( http://arxiv.org/abs/2406.07321v2 )

ライセンス: Link先を確認
Chris D. White, Martin J. White, (参考訳) 近年、高エネルギー粒子物理学実験において量子エンタングルメントがどのように測定され、従来のテーブルトップ実験を補完する研究が増えている。 このことは、コリダで量子計算からより多くの概念を検証できるかどうかという問題を提起し、古典的状態よりも真の計算上の優位性を持つこれらの量子状態を区別する魔法の性質について考察する。 LHCにおけるトップアンチトップペア生産について検討し、最終状態のキネマティクスによって魔法の量が異なるマジックトップを自然が生成することを選択することを示した。 個々のパートニックチャネルとプロトンレベルでの結果を比較し、最終状態平均化がマジックを増大させることを示す。 これは、典型的には減少するコンカレンスのような絡み合い対策とは対照的である。 我々の結果は量子情報と粒子物理学の文献の間に新たなリンクを作り、さらなる研究のための実践的な洞察を与える。

Recent years have seen an increasing body of work examining how quantum entanglement can be measured at high energy particle physics experiments, thereby complementing traditional table-top experiments. This raises the question of whether more concepts from quantum computation can be examined at colliders, and we here consider the property of magic, which distinguishes those quantum states which have a genuine computational advantage over classical states. We examine top anti-top pair production at the LHC, showing that nature chooses to produce magic tops, where the amount of magic varies with the kinematics of the final state. We compare results for individual partonic channels and at proton-level, showing that averaging over final states typically increases magic. This is in contrast to entanglement measures, such as the concurrence, which typically decrease. Our results create new links between the quantum information and particle physics literatures, providing practical insights for further study.
翻訳日:2024-06-13 11:09:07 公開日:2024-06-12
# DR-RAG: 質問応答のための検索拡張生成への動的文書関連の適用

DR-RAG: Applying Dynamic Document Relevance to Retrieval-Augmented Generation for Question-Answering ( http://arxiv.org/abs/2406.07348v2 )

ライセンス: Link先を確認
Zijian Hei, Weiling Liu, Wenjie Ou, Juyi Qiao, Junming Jiao, Zhiqing Zhu, Guowen Song, (参考訳) Retrieval-Augmented Generation (RAG) は、質問応答 (QA) のような知識集約的なタスクにおいて、Large Language Models (LLM) の性能を著しく実証している。 RAGは、応答精度を高めるために外部知識ベースを組み込むことで、クエリコンテキストを拡張する。 しかし、クエリ毎に複数回LLMにアクセスするのは効率が悪いため、関連するすべてのドキュメントを単一のクエリで取得することは信頼できない。 クリティカルドキュメントとクエリの間には関連性が低いものの,ドキュメントの一部とクエリを組み合わせることで,残りのドキュメントを検索することができる。 関連性を検討するため,文書検索のリコールと回答の精度を向上させるため,DR-RAG(Dynamic-Relevant Retrieval-Augmented Generation)と呼ばれる2段階検索フレームワークを提案する。 また、2つの異なる選択戦略に小さな分類器を適用して、検索した文書のクエリへの寄与を判定し、相対的に関連する文書を検索する。 一方、DR-RAGはLSMを一度だけ呼び、実験の効率を大幅に向上させる。 マルチホップQAデータセットの実験結果から,DR-RAGは回答の精度を大幅に向上し,QAシステムの新たな進歩を達成できることが示された。

Retrieval-Augmented Generation (RAG) has significantly demonstrated the performance of Large Language Models (LLMs) in the knowledge-intensive tasks, such as Question-Answering (QA). RAG expands the query context by incorporating external knowledge bases to enhance the response accuracy. However, it would be inefficient to access LLMs multiple times for each query and unreliable to retrieve all the relevant documents by a single query. We find that even though there is low relevance between some critical documents and query, it is possible to retrieve the remaining documents by combining parts of the documents with the query. To mine the relevance, a two-stage retrieval framework called Dynamic-Relevant Retrieval-Augmented Generation (DR-RAG) is proposed to improve document retrieval recall and the accuracy of answers while maintaining efficiency. Also, a small classifier is applied to two different selection strategies to determine the contribution of the retrieved documents to answering the query and retrieve the relatively relevant documents. Meanwhile, DR-RAG call the LLMs only once, which significantly improves the efficiency of the experiment. The experimental results on multi-hop QA datasets show that DR-RAG can significantly improve the accuracy of the answers and achieve new progress in QA systems.
翻訳日:2024-06-13 11:09:07 公開日:2024-06-12
# 能動対向摂動による高周波指紋の消去

Erasing Radio Frequency Fingerprints via Active Adversarial Perturbation ( http://arxiv.org/abs/2406.07349v2 )

ライセンス: Link先を確認
Zhaoyi Lu, Wenchao Xu, Ming Tu, Xin Xie, Cunqing Hua, Nan Cheng, (参考訳) RFフィンガープリント(Radio Frequency fingerprinting)とは、アナログ回路の独自性やハードウェアの不完全性から無線デバイスを識別することである。 しかし、修正可能なMACアドレスとは異なり、そのようなハードウェア機能は、空気に放出される信号には必然的であり、例えば、スニファーは、事前訓練されたモデルを使用して、その信号を受信する際に近くのデバイスを特定することができる。 このような指紋は、例えば、関連する上層アプリケーションやエンドユーザなどの重要なプライベート情報を公開することができる。 本稿では,無線機器のRF特性を消し去ることを提案する。 具体的には、識別のためのパイロット信号データから機械学習モデルを訓練する、一般的なRFフィンガープリントのシナリオについて考察する。 新しい対向攻撃ソリューションは適切な摂動を生成するように設計されており、摂動したパイロット信号がハードウェアの特徴を隠蔽し、モデルを誤分類することができる。 理論的には、摂動が許容摂動閾値内の通信機能に影響を与えないことが示される。 また、実際のLTEシステムにおいて、パイロット信号のフィンガープリントと、提案した摂動処理を実装した。 大規模な実験結果から,RF指紋を効果的に消去し,ユーザのプライバシーを保護できることが示されている。

Radio Frequency (RF) fingerprinting is to identify a wireless device from its uniqueness of the analog circuitry or hardware imperfections. However, unlike the MAC address which can be modified, such hardware feature is inevitable for the signal emitted to air, which can possibly reveal device whereabouts, e.g., a sniffer can use a pre-trained model to identify a nearby device when receiving its signal. Such fingerprint may expose critical private information, e.g., the associated upper-layer applications or the end-user. In this paper, we propose to erase such RF feature for wireless devices, which can prevent fingerprinting by actively perturbation from the signal perspective. Specifically, we consider a common RF fingerprinting scenario, where machine learning models are trained from pilot signal data for identification. A novel adversarial attack solution is designed to generate proper perturbations, whereby the perturbed pilot signal can hide the hardware feature and misclassify the model. We theoretically show that the perturbation would not affect the communication function within a tolerable perturbation threshold. We also implement the pilot signal fingerprinting and the proposed perturbation process in a practical LTE system. Extensive experiment results demonstrate that the RF fingerprints can be effectively erased to protect the user privacy.
翻訳日:2024-06-13 11:09:07 公開日:2024-06-12
# AI Sandbagging: 言語モデルは、評価において戦略的に過小評価できる

AI Sandbagging: Language Models can Strategically Underperform on Evaluations ( http://arxiv.org/abs/2406.07358v2 )

ライセンス: Link先を確認
Teun van der Weij, Felix Hofstätter, Ollie Jaffe, Samuel F. Brown, Francis Rhys Ward, (参考訳) 信頼できる能力評価は、AIシステムの安全性を保証するために不可欠であり、AI規制の重要なコンポーネントになりつつある。 しかし、AIシステムまたはAIシステム自体の開発者は、AIの実際の能力を説明するための評価のためのインセンティブを持つかもしれない。 これらの対立する利害関係は、"評価における戦略的過小評価"と定義する$\unicode{x2013}$をサンドバッグ化する問題に繋がる。 本稿では,現代言語モデル(LM)におけるサンドバッグ機能の評価を行う。 我々は、GPT-4やClaude 3 OpusのようなフロンティアLMに対して、一般的な(無害な)能力評価のパフォーマンスを維持しながら、危険な能力評価を選択的に過小評価するように促す。 さらに、パスワードが与えられない限り、モデルが合成データセット上で微調整され、特定の能力を隠蔽できることがわかりました。 この振る舞いは、WMDPのような高品質でホールドアウトされたベンチマークに一般化される。 さらに、フロンティアモデルとより小さなモデルの両方が、機能評価において特定のスコアをターゲットとするために、トリガーまたはパスワードロックが可能であることを示す。 さらに、有能なパスワードロックモデル(Llama 3 70b)が、あまり有能でないモデル(Llama 2 7b)を合理的にエミュレートできることがわかりました。 以上の結果から,機能評価はサンドバッグに弱いことが示唆された。 この脆弱性は評価の信頼性を低下させ、高度なAIシステムの開発と展開に関する重要な安全判断を損なう。

Trustworthy capability evaluations are crucial for ensuring the safety of AI systems, and are becoming a key component of AI regulation. However, the developers of an AI system, or the AI system itself, may have incentives for evaluations to understate the AI's actual capability. These conflicting interests lead to the problem of sandbagging $\unicode{x2013}$ which we define as "strategic underperformance on an evaluation". In this paper we assess sandbagging capabilities in contemporary language models (LMs). We prompt frontier LMs, like GPT-4 and Claude 3 Opus, to selectively underperform on dangerous capability evaluations, while maintaining performance on general (harmless) capability evaluations. Moreover, we find that models can be fine-tuned, on a synthetic dataset, to hide specific capabilities unless given a password. This behaviour generalizes to high-quality, held-out benchmarks such as WMDP. In addition, we show that both frontier and smaller models can be prompted, or password-locked, to target specific scores on a capability evaluation. Even more, we found that a capable password-locked model (Llama 3 70b) is reasonably able to emulate a less capable model (Llama 2 7b). Overall, our results suggest that capability evaluations are vulnerable to sandbagging. This vulnerability decreases the trustworthiness of evaluations, and thereby undermines important safety decisions regarding the development and deployment of advanced AI systems.
翻訳日:2024-06-13 11:09:07 公開日:2024-06-12
# OphNet:眼科手術ワークフロー理解のための大規模ビデオベンチマーク

OphNet: A Large-Scale Video Benchmark for Ophthalmic Surgical Workflow Understanding ( http://arxiv.org/abs/2406.07471v2 )

ライセンス: Link先を確認
Ming Hu, Peng Xia, Lin Wang, Siyuan Yan, Feilong Tang, Zhongxing Xu, Yimin Luo, Kaimin Song, Jurgen Leitner, Xuelian Cheng, Jun Cheng, Chi Liu, Kaijing Zhou, Zongyuan Ge, (参考訳) ビデオによる手術シーンの認識は、ロボット手術、遠隔手術、AI支援手術、特に眼科において重要である。 しかし、多種多様な注釈付きビデオデータセットの不足は、外科的ワークフロー分析のためのインテリジェントシステムの開発を妨げている。 手術ワークフロー分析のための既存のデータセットは、通常、小さなスケール、手術やフェーズカテゴリーの多様性の欠如、時間的局所的なアノテーションの欠如といった課題に直面し、複雑で多様な実世界の手術シナリオにおける行動理解とモデル一般化の検証の要件を制限している。 このギャップに対処するため,眼科手術ワークフロー理解のための大規模,専門家によるビデオベンチマークであるOphNetを紹介した。 OphNetの機能: 1)白内障,緑内障,角膜手術を対象とする2,278本の多彩な手術ビデオ集。 2) 手術,フェーズ,手術ごとに連続的かつ階層的なアノテーションを提供し,包括的理解と解釈性の向上を可能にする。 3)OphNetは時間的局所化アノテーションを提供し,外科的ワークフロー内での時間的局所化と予測作業を容易にする。 OphNetの手術用ビデオは約205時間で、既存の最大の外科用ワークフロー分析ベンチマークの約20倍の大きさだ。 我々のデータセットとコードは、以下の通り利用可能になった。

Surgical scene perception via videos are critical for advancing robotic surgery, telesurgery, and AI-assisted surgery, particularly in ophthalmology. However, the scarcity of diverse and richly annotated video datasets has hindered the development of intelligent systems for surgical workflow analysis. Existing datasets for surgical workflow analysis, which typically face challenges such as small scale, a lack of diversity in surgery and phase categories, and the absence of time-localized annotations, limit the requirements for action understanding and model generalization validation in complex and diverse real-world surgical scenarios. To address this gap, we introduce OphNet, a large-scale, expert-annotated video benchmark for ophthalmic surgical workflow understanding. OphNet features: 1) A diverse collection of 2,278 surgical videos spanning 66 types of cataract, glaucoma, and corneal surgeries, with detailed annotations for 102 unique surgical phases and 150 granular operations; 2) It offers sequential and hierarchical annotations for each surgery, phase, and operation, enabling comprehensive understanding and improved interpretability; 3) Moreover, OphNet provides time-localized annotations, facilitating temporal localization and prediction tasks within surgical workflows. With approximately 205 hours of surgical videos, OphNet is about 20 times larger than the largest existing surgical workflow analysis benchmark. Our dataset and code have been made available at: \url{https://github.com/minghu0830/OphNet-benchmark}.
翻訳日:2024-06-13 11:09:07 公開日:2024-06-12
# CADS:抽象対話要約の課題に関する体系的文献レビュー

CADS: A Systematic Literature Review on the Challenges of Abstractive Dialogue Summarization ( http://arxiv.org/abs/2406.07494v2 )

ライセンス: Link先を確認
Frederic Kirstein, Jan Philip Wahle, Bela Gipp, Terry Ruas, (参考訳) 抽象的対話要約は、会話を情報的かつ簡潔な要約に蒸留する作業である。 このトピックについてレビューが行われてきたが、対話要約の課題を詳述し、タスクの異なる理解を統一し、提案した手法、データセット、評価指標を課題と整合させる包括的な作業が欠如している。 本稿では、2019年から2024年にかけて発行された1262のユニークな研究論文を、Semantic ScholarデータベースとDBLPデータベースに頼って体系的にレビューすることで、英語対話のためのトランスフォーマーに基づく抽象要約に関する研究を要約する。 ダイアログ要約における主な課題(言語、構造、理解、話者、サリエンス、事実)を網羅し、それらをグラフベースのアプローチ、追加のトレーニングタスク、計画戦略など、BARTベースのエンコーダデコーダモデルに過度に依存した対応する技術にリンクする。 言語のようないくつかの課題は、主に訓練方法によってかなりの進歩を遂げたものの、理解、事実性、サリエンスなどの課題は依然として困難であり、重要な研究の機会が得られている。 本稿では,これらの手法がどのように評価され,対話のサブドメイン(例えば,ミーティング,医療)のデータセット,確立された自動メトリクスと人為的評価アプローチを網羅し,スコアとアノテータ合意を評価する。 すべてのサブドメインにまたがるデータセットはごくわずかです。 ROUGEの基準が最もよく使われており、インナー・アノテータの合意やアノテーションのガイドラインについて十分な詳細を示さずに人的評価が頻繁に報告されている。 さらに,最近検討された大規模言語モデルがもたらす影響について考察し,関連性や難易度が潜在的に変化しているにもかかわらず,課題分類はいまだに関連していると結論づける。

Abstractive dialogue summarization is the task of distilling conversations into informative and concise summaries. Although reviews have been conducted on this topic, there is a lack of comprehensive work detailing the challenges of dialogue summarization, unifying the differing understanding of the task, and aligning proposed techniques, datasets, and evaluation metrics with the challenges. This article summarizes the research on Transformer-based abstractive summarization for English dialogues by systematically reviewing 1262 unique research papers published between 2019 and 2024, relying on the Semantic Scholar and DBLP databases. We cover the main challenges present in dialog summarization (i.e., language, structure, comprehension, speaker, salience, and factuality) and link them to corresponding techniques such as graph-based approaches, additional training tasks, and planning strategies, which typically overly rely on BART-based encoder-decoder models. We find that while some challenges, like language, have seen considerable progress, mainly due to training methods, others, such as comprehension, factuality, and salience, remain difficult and hold significant research opportunities. We investigate how these approaches are typically assessed, covering the datasets for the subdomains of dialogue (e.g., meeting, medical), the established automatic metrics and human evaluation approaches for assessing scores and annotator agreement. We observe that only a few datasets span across all subdomains. The ROUGE metric is the most used, while human evaluation is frequently reported without sufficient detail on inner-annotator agreement and annotation guidelines. Additionally, we discuss the possible implications of the recently explored large language models and conclude that despite a potential shift in relevance and difficulty, our described challenge taxonomy remains relevant.
翻訳日:2024-06-13 11:09:07 公開日:2024-06-12
# SPIN: ナビゲーション用の宇宙船画像

SPIN: Spacecraft Imagery for Navigation ( http://arxiv.org/abs/2406.07500v2 )

ライセンス: Link先を確認
Javier Montalvo, Juan Ignacio Bravo Pérez-Villar, Álvaro García-Martín, Pablo Carballeira, Jesús Besc'os, (参考訳) 宇宙運用条件で取得したデータは、宇宙運用のコストと複雑さのために不足している。 これは、自律的な宇宙船ナビゲーションで使用される学習ベースの視覚ベースのナビゲーションアルゴリズムに挑戦している。 既存のデータセットは、主にコンピュータシミュレーションデータに依存するが、このギャップを部分的に埋めている。 しかし、彼らが使用している画像生成ツールはプロプライエタリであり、メソッドの評価を目に見えないシナリオに制限する。 さらに、これらのデータセットは、主にカメラに対する宇宙船の翻訳と回転に焦点を当て、限られた地上データを提供する。 これらの制約に対処するため,SPIN(SPacecraft Imagery for Navigation)という,2つの宇宙船間の相対的なナビゲーションのための,オープンソースの現実的な宇宙船画像生成ツールを提案する。 SPINはさまざまな地上データを提供し、研究者は衛星のカスタム3Dモデルを使用し、特定のカメラ相対的なポーズを定義し、カメラパラメータや環境照明条件などの様々な設定を調整することができる。 宇宙船のポーズ推定作業では,SPIN生成データセットと既存の合成データセットを比較した。 実空間条件をシミュレートしたテストベッドデータにおいて, 平均誤差を50パーセント削減することを示す。 SPINツール(とソースコード)と我々の強化された合成データセットは、GitHub https://github.com/vpulab/SPIN.comで論文の受理時に公開される。

Data acquired in space operational conditions is scarce due to the costs and complexity of space operations. This poses a challenge to learning-based visual-based navigation algorithms employed in autonomous spacecraft navigation. Existing datasets, which largely depend on computer-simulated data, have partially filled this gap. However, the image generation tools they use are proprietary, which limits the evaluation of methods to unseen scenarios. Furthermore, these datasets provide limited ground-truth data, primarily focusing on the spacecraft's translation and rotation relative to the camera. To address these limitations, we present SPIN (SPacecraft Imagery for Navigation), an open-source realistic spacecraft image generation tool for relative navigation between two spacecrafts. SPIN provides a wide variety of ground-truth data and allows researchers to employ custom 3D models of satellites, define specific camera-relative poses, and adjust various settings such as camera parameters and environmental illumination conditions. For the task of spacecraft pose estimation, we compare the results of training with a SPIN-generated dataset against existing synthetic datasets. We show a %50 average error reduction in common testbed data (that simulates realistic space conditions). Both the SPIN tool (and source code) and our enhanced version of the synthetic datasets will be publicly released upon paper acceptance on GitHub https://github.com/vpulab/SPIN.
翻訳日:2024-06-13 11:09:07 公開日:2024-06-12