このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20241001となっている論文です。

PDF登録状況(公開日: 20241001)

TitleAuthorsAbstract論文公表日・翻訳日
# LAViTeR:画像とキャプション生成による視覚・テキスト表現の学習

LAViTeR: Learning Aligned Visual and Textual Representations Assisted by Image and Caption Generation ( http://arxiv.org/abs/2109.04993v3 )

ライセンス: Link先を確認
Mohammad Abuzar Hashemi, Zhanghexuan Li, Mihir Chauhan, Yan Shen, Abhishek Satbhai, Mir Basheer Ali, Mingchen Gao, Sargur Srihari, (参考訳) 大規模な画像テキストペアからの視覚的およびテキスト的表現の事前学習は、多くの下流視覚言語タスクの標準的アプローチになりつつある。 トランスフォーマーベースのモデルは、自己教師付き学習タスクのリストを通じて、モーダル内およびモーダル内注意を学習する。 本稿では,視覚およびテキスト表現学習のための新しいアーキテクチャであるLAViTeRを提案する。 メインモジュールであるVisual Textual Alignment (VTA)は、GANベースの画像合成とイメージキャプションという2つの補助的なタスクによって支援される。 また,学習した視覚とテキストの埋め込みの類似度を計測する新しい評価指標を提案する。 CUBとMS-COCOの2つの公開データセットによる実験結果から、関節機能埋め込み空間における視覚的およびテキスト的表現のアライメントが優れていることが示された。

Pre-training visual and textual representations from large-scale image-text pairs is becoming a standard approach for many downstream vision-language tasks. The transformer-based models learn inter and intra-modal attention through a list of self-supervised learning tasks. This paper proposes LAViTeR, a novel architecture for visual and textual representation learning. The main module, Visual Textual Alignment (VTA) will be assisted by two auxiliary tasks, GAN-based image synthesis and Image Captioning. We also propose a new evaluation metric measuring the similarity between the learnt visual and textual embedding. The experimental results on two public datasets, CUB and MS-COCO, demonstrate superior visual and textual representation alignment in the joint feature embedding space
翻訳日:2024-11-09 15:57:56 公開日:2024-10-01
# チャレンジ応答を用いたディープフェイク音声のAIによるタグ付け

AI-assisted Tagging of Deepfake Audio Calls using Challenge-Response ( http://arxiv.org/abs/2402.18085v2 )

ライセンス: Link先を確認
Govind Mittal, Arthur Jakobsson, Kelly O. Marshall, Chinmay Hegde, Nasir Memon, (参考訳) AI音声クローズ技術、特にオーディオリアルタイムディープフェイク(RTDF)の台頭は、従来の登録ベースの認証をバイパスするリアルタイム音声の偽造を可能にすることによって、社会工学的攻撃を強化している。 そこで本研究では,対話型ディープフェイク音声通話の検出とタグ付けを行う,堅牢なチャレンジ応答手法であるPITCHを提案する。 我々は,人間の聴覚システム,言語学,環境要因に基づく音声課題の包括的分類法を開発し,20の課題を生んだ。 これらは、100人のユーザーによる18,600のオリジナルと1.6万のディープフェイクサンプルからなる新しいデータセットを用いて、主要な音声閉鎖システムに対してテストされた。 PITCHの今後の課題は、完全なアンバランスデータセットにおいて、マシン検出能力を88.7% AUROCスコアに向上させ、セキュリティとユーザビリティのバランスをとる10の機能課題をショートリスト化可能にする。 人間の評価とその後の分析のために、我々は困難でバランスの取れたサブセットをフィルタリングした。 このサブセットでは、人間の評価者がそれぞれ72.6%の精度で評価し、機械は87.7%の精度で評価された。 コール環境がより高いヒューマンコントロールを必要とすることを認めたので、私たちは、マシンを使用して意思決定を行う上で、コールレシーバーを支援しました。 私たちのソリューションでは、不審な着信を“Deepfake-likely”とタグ付けするために、早期警告システムを使用します。 従来の知見とは対照的に,人間の直観と機械の精度の統合は相補的な優位性をもたらすことがわかった。 私たちのソリューションでは、最大制御と検出精度を84.5%に向上しました。 この精度の上昇によってPITCHは、呼び出し検証プロセスにおいてAIによる事前スクリーニングの可能性を実証し、リアルタイムの音声閉鎖攻撃と戦うための適応的で有用なアプローチを提供した。 データの再生とアクセスは \url{https://github.com/mittalgovind/PITCH-Deepfakes} で行う。

The rise of AI voice-cloning technology, particularly audio Real-time Deepfakes (RTDFs), has intensified social engineering attacks by enabling real-time voice impersonation that bypasses conventional enrollment-based authentication. To address this, we propose PITCH, a robust challenge-response method to detect and tag interactive deepfake audio calls. We developed a comprehensive taxonomy of audio challenges based on the human auditory system, linguistics, and environmental factors, yielding 20 prospective challenges. These were tested against leading voice-cloning systems using a novel dataset comprising 18,600 original and 1.6 million deepfake samples from 100 users. PITCH's prospective challenges enhanced machine detection capabilities to 88.7% AUROC score on the full unbalanced dataset, enabling us to shortlist 10 functional challenges that balance security and usability. For human evaluation and subsequent analyses, we filtered a challenging, balanced subset. On this subset, human evaluators independently scored 72.6% accuracy, while machines achieved 87.7%. Acknowledging that call environments require higher human control, we aided call receivers in making decisions with them using machines. Our solution uses an early warning system to tag suspicious incoming calls as "Deepfake-likely." Contrary to prior findings, we discovered that integrating human intuition with machine precision offers complementary advantages. Our solution gave users maximum control and boosted detection accuracy to 84.5%. Evidenced by this jump in accuracy, PITCH demonstrated the potential for AI-assisted pre-screening in call verification processes, offering an adaptable and usable approach to combat real-time voice-cloning attacks. Code to reproduce and access data at \url{https://github.com/mittalgovind/PITCH-Deepfakes}.
翻訳日:2024-11-09 04:32:42 公開日:2024-10-01
# MCUの低エネルギーオンデバイスパーソナライズ

Low-Energy On-Device Personalization for MCUs ( http://arxiv.org/abs/2403.08040v3 )

ライセンス: Link先を確認
Yushan Huang, Ranya Aloufi, Xavier Cadet, Yuchen Zhao, Payam Barnaghi, Hamed Haddadi, (参考訳) マイクロコントローラユニット(MCU)は、低コストとエネルギー消費のためにエッジアプリケーションにとって理想的なプラットフォームであり、カスタマイズされたモデルによってタスク適応が向上するパーソナライズされた機械学習タスクなど、様々なアプリケーションで広く利用されている。 しかし、ローカルオンデバイスパーソナライズのための既存のアプローチは、主に単純なMLアーキテクチャをサポートするか、複雑なローカルトレーニング/トレーニングを必要とするため、高エネルギー消費とMCUの低エネルギー優位性を否定する。 本稿では,効率よく低エネルギーなMCUパーソナライズ手法である$MicroT$を紹介する。 $MicroT$には、自己監督型知識蒸留によって開発された、堅牢で汎用的で小さな特徴抽出器が含まれており、タスク固有のヘッドを訓練して、最小限のエネルギーと計算要求でデバイス上の個別化を可能にする。 MicroTは、エネルギーコストをさらに削減するために、ステージ決定と呼ばれる、MCU最適化の早期終了推論機構を実装している。 このメカニズムにより、ユーザ設定可能な出口基準(ステージ-決定比)をモデル性能と適応的にエネルギーコストのバランスをとることができる。 2つのモデル、3つのデータセット、2つのMCUボードを用いてMicroTを評価した。 $MicroT$は、2つのモデルと3つのデータセットで2.12~11.60%の従来の転送学習(TTL)と2つのSOTAアプローチを上回っている。 広く使われているエネルギ対応エッジデバイスをターゲットに、MicroTのオンデバイストレーニングでは、SRAM使用率を1MB以下に保ちながら、SOTAアプローチの最大2.28$\times$のエネルギーコストを半減する、追加の複雑な操作を必要としない。 ローカル推論において、MicroTは2つのボードと2つのデータセットのTTLと比較して14.17%のエネルギーコストを削減し、エネルギーを意識した資源制約型MCUの長期使用に適していることを強調している。

Microcontroller Units (MCUs) are ideal platforms for edge applications due to their low cost and energy consumption, and are widely used in various applications, including personalized machine learning tasks, where customized models can enhance the task adaptation. However, existing approaches for local on-device personalization mostly support simple ML architectures or require complex local pre-training/training, leading to high energy consumption and negating the low-energy advantage of MCUs. In this paper, we introduce $MicroT$, an efficient and low-energy MCU personalization approach. $MicroT$ includes a robust, general, but tiny feature extractor, developed through self-supervised knowledge distillation, which trains a task-specific head to enable independent on-device personalization with minimal energy and computational requirements. MicroT implements an MCU-optimized early-exit inference mechanism called stage-decision to further reduce energy costs. This mechanism allows for user-configurable exit criteria (stage-decision ratio) to adaptively balance energy cost with model performance. We evaluated MicroT using two models, three datasets, and two MCU boards. $MicroT$ outperforms traditional transfer learning (TTL) and two SOTA approaches by 2.12 - 11.60% across two models and three datasets. Targeting widely used energy-aware edge devices, MicroT's on-device training requires no additional complex operations, halving the energy cost compared to SOTA approaches by up to 2.28$\times$ while keeping SRAM usage below 1MB. During local inference, MicroT reduces energy cost by 14.17% compared to TTL across two boards and two datasets, highlighting its suitability for long-term use on energy-aware resource-constrained MCUs.
翻訳日:2024-11-09 04:10:35 公開日:2024-10-01
# GlycanML: Glycan機械学習のためのマルチタスクとマルチストラクチャベンチマーク

GlycanML: A Multi-Task and Multi-Structure Benchmark for Glycan Machine Learning ( http://arxiv.org/abs/2405.16206v2 )

ライセンス: Link先を確認
Minghao Xu, Yunteng Geng, Yihang Zhang, Ling Yang, Jian Tang, Wentao Zhang, (参考訳) グリカンは基本的な生体分子であり、生物の中で必須の機能を発揮する。 機能的なグリカンデータの急速な増加は、グリカン理解のための機械学習ソリューションの好機となる。 しかし、グリカン関数予測のための標準的な機械学習ベンチマークがまだ欠けている。 本稿では、Glycan Machine Learning(GlycanML)の包括的なベンチマークを構築することで、この空白を埋める。 GlycanMLベンチマークは、グリカン分類学予測、グリカン免疫原性予測、グリコシル化型予測、タンパク質-グリカン相互作用予測などの様々なタスクからなる。 グリカンはGlycanMLのシーケンスとグラフの両方で表現できるため、ベンチマークタスク上でシーケンスベースモデルとグラフニューラルネットワーク(GNN)を広範囲に評価することができる。 さらに、8つのグリカン分類予測タスクを同時に実行することにより、マルチタスク学習(MTL)アルゴリズムのためのGlycanML-MTLテストベッドを導入する。 実験結果から,マルチリレーショナルGNNを用いたグリカンのモデル化が優れており,適切なMTL法によりモデル性能が向上することが示された。 https://github.com/GlycanML/GlycanMLですべてのデータセットとソースコードを提供し、https://GlycanML.github.io/projectでリーダボードを維持しています。

Glycans are basic biomolecules and perform essential functions within living organisms. The rapid increase of functional glycan data provides a good opportunity for machine learning solutions to glycan understanding. However, there still lacks a standard machine learning benchmark for glycan function prediction. In this work, we fill this blank by building a comprehensive benchmark for Glycan Machine Learning (GlycanML). The GlycanML benchmark consists of diverse types of tasks including glycan taxonomy prediction, glycan immunogenicity prediction, glycosylation type prediction, and protein-glycan interaction prediction. Glycans can be represented by both sequences and graphs in GlycanML, which enables us to extensively evaluate sequence-based models and graph neural networks (GNNs) on benchmark tasks. Furthermore, by concurrently performing eight glycan taxonomy prediction tasks, we introduce the GlycanML-MTL testbed for multi-task learning (MTL) algorithms. Experimental results show the superiority of modeling glycans with multi-relational GNNs, and suitable MTL methods can further boost model performance. We provide all datasets and source codes at https://github.com/GlycanML/GlycanML and maintain a leaderboard at https://GlycanML.github.io/project
翻訳日:2024-11-09 02:07:29 公開日:2024-10-01
# Cookie Monster: 異なるプロプライエタリな広告測定システムのためのデバイス上での効率的な予算化

Cookie Monster: Efficient On-device Budgeting for Differentially-Private Ad-Measurement Systems ( http://arxiv.org/abs/2405.16719v4 )

ライセンス: Link先を確認
Pierre Tholoniat, Kelly Kostopoulou, Peter McNeely, Prabhpreet Singh Sodhi, Anirudh Varanasi, Benjamin Case, Asaf Cidon, Roxana Geambasu, Mathias Lécuyer, (参考訳) 主要なブラウザからのサードパーティ製クッキーの削除や、新しいプライバシー保護広告APIの導入によって、調査コミュニティは、Webのプライバシーを質的に改善する業界を支援する機会を、タイムリーに持っている。 本稿では、既存のプライバシー保護広告計測APIを強化するため、W3Cコミュニティグループ内での取り組みについて論じる。 Google、Apple、Meta、Mozillaのデザインを分析し、より厳格で効率的な差分プライバシー(DP)予算コンポーネントでそれらを強化します。 われわれのアプローチはCookie Monsterと呼ばれ、よく定義されたDP保証を強制し、広告主がよりプライベートな測定クエリを正確に実行できるようにする。 DPの個々の形態でプライバシー保証をフレーミングすることで、従来のDP定義を使用するシステムよりもDP予算を効率的にすることができる。 Cookie MonsterをChromeに組み込んで、マイクロベンチマークや広告データセットで評価します。 ワークロード全体にわたって、Cookie Monsterは、同等のDP保護の下でより多くの広告測定を可能にする点で、ベースラインを著しく上回る。

With the impending removal of third-party cookies from major browsers and the introduction of new privacy-preserving advertising APIs, the research community has a timely opportunity to assist industry in qualitatively improving the Web's privacy. This paper discusses our efforts, within a W3C community group, to enhance existing privacy-preserving advertising measurement APIs. We analyze designs from Google, Apple, Meta and Mozilla, and augment them with a more rigorous and efficient differential privacy (DP) budgeting component. Our approach, called Cookie Monster, enforces well-defined DP guarantees and enables advertisers to conduct more private measurement queries accurately. By framing the privacy guarantee in terms of an individual form of DP, we can make DP budgeting more efficient than in current systems that use a traditional DP definition. We incorporate Cookie Monster into Chrome and evaluate it on microbenchmarks and advertising datasets. Across workloads, Cookie Monster significantly outperforms baselines in enabling more advertising measurements under comparable DP protection.
翻訳日:2024-11-09 02:07:29 公開日:2024-10-01
# Dual-Level Adaptive Lossy Compressionを用いたDeep Learning Recommendation Modelトレーニングにおけるコミュニケーションの高速化

Accelerating Communication in Deep Learning Recommendation Model Training with Dual-Level Adaptive Lossy Compression ( http://arxiv.org/abs/2407.04272v5 )

ライセンス: Link先を確認
Hao Feng, Boyuan Zhang, Fanjiang Ye, Min Si, Ching-Hsiang Chu, Jiannan Tian, Chunxing Yin, Summer Deng, Yuchen Hao, Pavan Balaji, Tong Geng, Dingwen Tao, (参考訳) DLRMは最先端のレコメンデーションシステムモデルであり、様々な業界アプリケーションで広く採用されている。 しかし、DLRMモデルの大きなサイズは、効率的なトレーニングのために複数のデバイス/GPUを使用する必要がある。 このプロセスにおける重要なボトルネックは、すべてのデバイスから埋め込みデータを集めるのに必要な全通信に時間を要することだ。 これを軽減するため,通信データサイズを削減し,DLRMトレーニングを高速化するために,エラーバウンドの損失圧縮を利用する手法を提案する。 本研究では,埋込データの特徴を詳細に解析し,高い圧縮率を達成するために,新しい誤り結合型損失圧縮アルゴリズムを開発した。 さらに、テーブルワイドとイテレーションワイドの両方にまたがる、エラーバウンド調整のための二重レベル適応戦略を導入し、圧縮の利点と精度への影響をバランスさせる。 さらに、GPU上のPyTorchテンソルの圧縮機を最適化し、圧縮オーバーヘッドを最小限にする。 評価の結果,本手法は最小限の精度で1.38$\times$トレーニングスピードアップを達成した。

DLRM is a state-of-the-art recommendation system model that has gained widespread adoption across various industry applications. The large size of DLRM models, however, necessitates the use of multiple devices/GPUs for efficient training. A significant bottleneck in this process is the time-consuming all-to-all communication required to collect embedding data from all devices. To mitigate this, we introduce a method that employs error-bounded lossy compression to reduce the communication data size and accelerate DLRM training. We develop a novel error-bounded lossy compression algorithm, informed by an in-depth analysis of embedding data features, to achieve high compression ratios. Moreover, we introduce a dual-level adaptive strategy for error-bound adjustment, spanning both table-wise and iteration-wise aspects, to balance the compression benefits with the potential impacts on accuracy. We further optimize our compressor for PyTorch tensors on GPUs, minimizing compression overhead. Evaluation shows that our method achieves a 1.38$\times$ training speedup with a minimal accuracy impact.
翻訳日:2024-11-08 23:57:53 公開日:2024-10-01
# 低ランク自己回帰回帰モデルを用いた効率的な制御言語生成

Efficient Controlled Language Generation with Low-Rank Autoregressive Reward Models ( http://arxiv.org/abs/2407.04615v2 )

ライセンス: Link先を確認
Sergey Troshin, Vlad Niculae, Antske Fokkens, (参考訳) 大量のデータに基づいて訓練された言語モデルは、場合によっては不適切なコンテンツを生成することが知られており、現実世界で使用するには注意深いチューニングが必要である。 我々は、タスク固有の報酬モデルからスコアを用いて言語モデルから生成を制御するために、報酬拡張復号(RAD)アプローチを再検討する。 RADの学習目標について検討し,報奨行列の学習課題として再検討する。 RADは、報酬行列を表現する際に高い柔軟性をサポートするように設計されており、復号時の計算コストが高くなることを示す。 しかし、RADはその完全な柔軟性を使用しないことを示す。 そこで本研究では,高速かつ効率的な誘導復号化を可能にする報奨モデルの簡易かつ効率的な低ランクパラメトリゼーションを提案する。 解毒処理や感情制御のタスクでは、より柔軟なRADパラメトリゼーションと同等に動作し、生成トークンごとに単一の報酬モデル呼び出ししか必要とせず、低ランクの報酬モデルが実行可能であることを示す。

Language models trained on large amounts of data are known to produce inappropriate content in some cases and require careful tuning to be used in the real world. We revisit the reward augmented decoding (RAD) approach to control the generation from a language model using the scores from a task-specific reward model. We investigate the training objective of RAD, and reformulate it as a task of learning a reward matrix. We show that RAD is designed to support high flexibility when representing the reward matrices, which leads to a higher computational costs during decoding. However, we demonstrate that RAD does not use its full flexibility. Motivated by this, we propose a simpler but more efficient low-rank parametrization of the reward model enabling fast and effective guided decoding. For the detoxification and sentiment control tasks, we show that our low-rank reward model performs on par with the more flexible RAD parametrization, while requiring only a single reward model call per generated token.
翻訳日:2024-11-08 23:46:45 公開日:2024-10-01
# MapTP:HDマップ画像を用いた自動車両のマルチモーダル軌道予測

MapsTP: HD Map Images Based Multimodal Trajectory Prediction for Automated Vehicles ( http://arxiv.org/abs/2407.05811v3 )

ライセンス: Link先を確認
Sushil Sharma, Arindam Das, Ganesh Sistu, Mark Halton, Ciarán Eising, (参考訳) エゴ自動車の軌道予測は、特に他の車両や歩行者の予測不可能な振る舞いのため、都市部や密集地域では、依然として重要な課題である。 マルチモーダル軌跡予測は, 多様な環境データに基づいて, 複数の将来の軌跡を考慮し, 意思決定を促進する。 本研究では,ResNet-50を用いて高精細マップデータから画像の特徴を抽出し,IMUセンサデータを用いて速度,加速度,ヨーレートを算出する。 時間確率ネットワークを用いて潜在的な軌道を計算し、最も正確で高い確率の軌道経路を選択する。 この方法はHDマップデータを統合して、自動運転車の軌道予測の堅牢性と信頼性を向上させる。

Predicting ego vehicle trajectories remains a critical challenge, especially in urban and dense areas due to the unpredictable behaviours of other vehicles and pedestrians. Multimodal trajectory prediction enhances decision-making by considering multiple possible future trajectories based on diverse sources of environmental data. In this approach, we leverage ResNet-50 to extract image features from high-definition map data and use IMU sensor data to calculate speed, acceleration, and yaw rate. A temporal probabilistic network is employed to compute potential trajectories, selecting the most accurate and highly probable trajectory paths. This method integrates HD map data to improve the robustness and reliability of trajectory predictions for autonomous vehicles.
翻訳日:2024-11-08 23:24:33 公開日:2024-10-01
# PT対称量子ビットを用いた量子絡み合いの度合いと忠実度とのトレードオフを破る

Using PT-symmetric Qubits to Break the Tradeoff Between Fidelity and the Degree of Quantum Entanglement ( http://arxiv.org/abs/2407.08525v3 )

ライセンス: Link先を確認
B. -B. Liu, Shi-Lei Su, Y. -L. Zuo, Qiongyi He, Gang Chen, F. Nori, H. Jing, (参考訳) 注目すべき発見は、最小の進化時間がパリティ時間(\mathcal{PT}$)対称系の場合、エルミートセットアップよりも小さいことである。 さらに、この系内では、例外点(EP)やスペクトルの合体に近い2量子量子絡み合いの顕著な加速がある。 それでも、量子EPベースのデバイスでしばしば見過ごされる重要な問題は、その忠実さであり、散逸または後選択のプロセスに大きく影響され、絡み合いの度合いと忠実さの間に固有のトレードオフ関係が生じる。 本研究は, 利得と損失のバランスを保ち, 高速, 高忠実度, 非共振誤差に対する高い反発性を有するアクティブな$\mathcal{PT}$-symmetricシステムを利用することにより, この制限を効果的に克服できることを示す。 この新しい手法は, 精度の高いゲインロスバランスが厳密に維持されていない場合でも, 効率よくマルチキュービットの絡み合わせを作成でき, 両部だけでなく三部構造も絡み合わせとして利用できる。 我々の分析結果は数値シミュレーションとよく一致しており、量子情報技術の応用のための多様な量子リソースを作成・構築するための強力なツールとしての真に$\mathcal{PT}$-devicesの可能性を確認している。

A noteworthy discovery is that the minimal evolution time is smaller for parity-time ($\mathcal{PT}$) symmetric systems compared to Hermitian setups. Moreover, there is a significant acceleration of two-qubit quantum entanglement preparation near the exceptional point (EP), or spectral coalescence, within such system. Nevertheless, an important problem often overlooked for quantum EP-based devices is their fidelity, greatly affected by the process of dissipation or post-selection, creating an inherent trade-off relation between the degree of entanglement and fidelity. Our study demonstrates that this limitation can be effectively overcome by harnessing an active $\mathcal{PT}$-symmetric system, which possesses balanced gain and loss, enabling maximal entanglement with rapid speed, high fidelity, and greater resilience to non-resonant errors. This new approach can efficiently prepare multi-qubit entanglement and use not only bipartite but also tripartite entanglement, as illustrative examples, even when the precise gain-loss balance is not strictly maintained. Our analytical findings are in excellent agreement with numerical simulations, confirming the potential of truly $\mathcal{PT}$-devices as a powerful tool for creating and engineering diverse quantum resources for applications in quantum information technology
翻訳日:2024-11-08 22:17:54 公開日:2024-10-01
# AI加速器のファンデーションモデルの推論最適化

Inference Optimization of Foundation Models on AI Accelerators ( http://arxiv.org/abs/2407.09111v2 )

ライセンス: Link先を確認
Youngsuk Park, Kailash Budhathoki, Liangfu Chen, Jonas Kübler, Jiaji Huang, Matthäus Kleindessner, Jun Huan, Volkan Cevher, Yida Wang, George Karypis, (参考訳) 大規模言語モデル(LLM)を含む強力な基礎モデルとトランスフォーマーアーキテクチャは、さまざまな産業にまたがるジェネレーティブAIの新しい時代を支えてきた。 産業と研究のコミュニティは、これらの基礎モデルに基づいて、多くの新しいアプリケーションを見てきた。 このようなアプリケーションには、質問と回答、カスタマーサービス、画像とビデオの生成、コード補完などが含まれる。 しかし、モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高い遅延が禁止される。 結果として、AIアクセラレータを使用したコスト効率が高く高速な推論の需要はさらに高くなる。 この目的のために,本チュートリアルでは,AIアクセラレータを用いた補完推論最適化手法に関する総合的な議論を行っている。 基本的なTransformerアーキテクチャとディープラーニングシステムフレームワークの概要から始め、高速かつメモリ効率の注意計算のためのシステム最適化手法を深く掘り下げ、AIアクセラレータに効率的に実装する方法について議論する。 次に、高速トランスフォーマー推論の鍵となるアーキテクチャ要素について述べる。 最後に、同じ文脈で様々なモデル圧縮と高速復号化戦略について検討する。

Powerful foundation models, including large language models (LLMs), with Transformer architectures have ushered in a new era of Generative AI across various industries. Industry and research community have witnessed a large number of new applications, based on those foundation models. Such applications include question and answer, customer services, image and video generation, and code completions, among others. However, as the number of model parameters reaches to hundreds of billions, their deployment incurs prohibitive inference costs and high latency in real-world scenarios. As a result, the demand for cost-effective and fast inference using AI accelerators is ever more higher. To this end, our tutorial offers a comprehensive discussion on complementary inference optimization techniques using AI accelerators. Beginning with an overview of basic Transformer architectures and deep learning system frameworks, we deep dive into system optimization techniques for fast and memory-efficient attention computations and discuss how they can be implemented efficiently on AI accelerators. Next, we describe architectural elements that are key for fast transformer inference. Finally, we examine various model compression and fast decoding strategies in the same context.
翻訳日:2024-11-08 22:06:29 公開日:2024-10-01
# マトリックス製品状態アンザッツの変分量子イマジナリー時間進化 : トランスコリックスハミルトニアンの試験

Variational Quantum Imaginary Time Evolution for Matrix Product State Ansatz with Tests on Transcorrelated Hamiltonians ( http://arxiv.org/abs/2407.10523v2 )

ライセンス: Link先を確認
Hao-En Li, Xiang Li, Jia-Cheng Huang, Guang-Ze Zhang, Zhu-Ping Shen, Chen Zhao, Jun Li, Han-Shi Hu, (参考訳) マトリックス生成物状態(MPS)アンザッツは、分子ハミルトニアンの基礎状態を発見し、量子化学問題を解くための有望なアプローチを提供する。 この概念に基づいて、量子回路MPS (QCMPS) の手法により、比較的少数の量子ビットを用いた化学系のシミュレーションが可能となる。 本研究では,変分量子想像時間進化(VarQITE)手法を用いて,QCMPSアンサッツの最適化性能を向上させる。 マクラークランの変分原理によって導かれ、VarQITE法は分析指標と勾配を提供し、QCMPSの収束効率と堅牢性を改善した。 我々はこれらの改善を$\rm H_2$,$\rm H_4$,$\rm LiH$分子のシミュレーションにより数値的に検証する。 さらに、VarQITEが非エルミートハミルトニアンに適用可能であることを考慮し、トランスコリックス(TC)ハミルトニアンの基礎状態を作成する上での有効性を評価する。 このアプローチは、より少ない量子ビットを使用しながら、完全基底集合 (CBS) の極限に匹敵するエネルギーを推定する。 具体的には、ベリリウム原子と$\rm LiH$分子をわずか3量子ビットでシミュレーションし、これらの系のCBS基底状態エネルギーと高い忠実性を維持する。 この量子ビットの低減は、QCMPSアンサッツとトランスコリレーションの両方の利点によって達成される。 本研究は, この量子化学アルゴリズムの短期量子デバイスへの応用の可能性を示すものである。

The matrix product state (MPS) ansatz offers a promising approach for finding the ground state of molecular Hamiltonians and solving quantum chemistry problems. Building on this concept, the proposed technique of quantum circuit MPS (QCMPS) enables the simulation of chemical systems using a relatively small number of qubits. In this study, we enhance the optimization performance of the QCMPS ansatz by employing the variational quantum imaginary time evolution (VarQITE) approach. Guided by McLachlan's variational principle, the VarQITE method provides analytical metrics and gradients, resulting in improved convergence efficiency and robustness of the QCMPS. We validate these improvements numerically through simulations of $\rm H_2$, $\rm H_4$, and $\rm LiH$ molecules. Additionally, given that VarQITE is applicable to non-Hermitian Hamiltonians, we evaluate its effectiveness in preparing the ground state of transcorrelated (TC) Hamiltonians. This approach yields energy estimates comparable to the complete basis set (CBS) limit while using even fewer qubits. Specifically, we perform simulations of the beryllium atom and $\rm LiH$ molecule using only three qubits, maintaining high fidelity with the CBS ground state energy of these systems. This qubit reduction is achieved through the combined advantages of both the QCMPS ansatz and transcorrelation. Our findings demonstrate the potential practicality of this quantum chemistry algorithm on near-term quantum devices.
翻訳日:2024-11-08 21:32:38 公開日:2024-10-01
# 不均衡データを用いた分類のための信頼度境界の学習

Learning Confidence Bounds for Classification with Imbalanced Data ( http://arxiv.org/abs/2407.11878v2 )

ライセンス: Link先を確認
Matt Clifford, Jonathan Erskine, Alexander Hepburn, Raúl Santos-Rodríguez, Dario Garcia-Garcia, (参考訳) クラス不均衡は、伝統的なアプローチがしばしばバイアス付きモデルや信頼できない予測につながるような分類タスクにおいて重大な課題となる。 アンサンプリングとオーバーサンプリングの技術はこの問題に対処するために一般的に用いられてきたが、それらは情報喪失や追加バイアスといった単純なアプローチに起因する固有の制限に悩まされている。 本稿では,従来のソリューションの欠点を克服するために,学習理論と集中不等式を活用する新しい枠組みを提案する。 私たちは、学習プロセスに直接埋め込む信頼境界によって捉えられるように、クラスに依存した方法で不確実性を理解することに重点を置いています。 クラスに依存した推定を組み込むことで、クラス間の不均衡の度合いを効果的に調整し、より堅牢で信頼性の高い分類結果が得られる。 我々は、我々のフレームワークが、分類タスクにおける不均衡なデータを扱うための有望な方向をどのように提供しているかを実証的に示し、実践者がより正確で信頼できるモデルを構築するための貴重なツールを提供する。

Class imbalance poses a significant challenge in classification tasks, where traditional approaches often lead to biased models and unreliable predictions. Undersampling and oversampling techniques have been commonly employed to address this issue, yet they suffer from inherent limitations stemming from their simplistic approach such as loss of information and additional biases respectively. In this paper, we propose a novel framework that leverages learning theory and concentration inequalities to overcome the shortcomings of traditional solutions. We focus on understanding the uncertainty in a class-dependent manner, as captured by confidence bounds that we directly embed into the learning process. By incorporating class-dependent estimates, our method can effectively adapt to the varying degrees of imbalance across different classes, resulting in more robust and reliable classification outcomes. We empirically show how our framework provides a promising direction for handling imbalanced data in classification tasks, offering practitioners a valuable tool for building more accurate and trustworthy models.
翻訳日:2024-11-08 20:59:00 公開日:2024-10-01
# 連続テスト時間適応のための適応カスケードネットワーク

Adaptive Cascading Network for Continual Test-Time Adaptation ( http://arxiv.org/abs/2407.12240v2 )

ライセンス: Link先を確認
Kien X. Nguyen, Fengchun Qiao, Xi Peng, (参考訳) そこで本研究では,テスト時に対象ドメインの列に事前学習したソースモデルを適応させることを目標とする連続的なテスト時間適応の問題について検討する。 既存のテストタイムトレーニング手法には,(1)特徴抽出器と分類器のミスマッチ,(2)主課題と自己監督タスクの干渉,(3)現在の分布に迅速に適応する能力の欠如など,いくつかの制限がある。 これらの課題を踏まえ、我々は、機能抽出器とクラス化器を同時に更新し、それらの間のミスマッチを緩和し、長期モデル適応を可能にするカスケーディングパラダイムを提案する。 モデルの事前学習はメタラーニングフレームワーク内で構成され、メインタスクと自己監督タスク間の干渉を最小限に抑え、制限のないデータの存在下での迅速な適応を促す。 さらに,動的な実世界のシナリオにおけるモデルの適応能力を効果的に評価するために,革新的な評価指標,平均精度,前方転送を導入する。 画像分類,テキスト分類,音声認識など,幅広い課題において,我々のアプローチの優位性を示す実験とアブレーション研究を行った。

We study the problem of continual test-time adaption where the goal is to adapt a source pre-trained model to a sequence of unlabelled target domains at test time. Existing methods on test-time training suffer from several limitations: (1) Mismatch between the feature extractor and classifier; (2) Interference between the main and self-supervised tasks; (3) Lack of the ability to quickly adapt to the current distribution. In light of these challenges, we propose a cascading paradigm that simultaneously updates the feature extractor and classifier at test time, mitigating the mismatch between them and enabling long-term model adaptation. The pre-training of our model is structured within a meta-learning framework, thereby minimizing the interference between the main and self-supervised tasks and encouraging fast adaptation in the presence of limited unlabelled data. Additionally, we introduce innovative evaluation metrics, average accuracy and forward transfer, to effectively measure the model's adaptation capabilities in dynamic, real-world scenarios. Extensive experiments and ablation studies demonstrate the superiority of our approach in a range of tasks including image classification, text classification, and speech recognition.
翻訳日:2024-11-08 20:48:00 公開日:2024-10-01
# 紙SEAにおける自動ピアレビュー:標準化・評価・分析

Automated Peer Reviewing in Paper SEA: Standardization, Evaluation, and Analysis ( http://arxiv.org/abs/2407.12857v2 )

ライセンス: Link先を確認
Jianxiang Yu, Zichen Ding, Jiaqi Tan, Kangyang Luo, Zhenmin Weng, Chenghua Gong, Long Zeng, Renjing Cui, Chengcheng Han, Qiushi Sun, Zhiyong Wu, Yunshi Lan, Xiang Li, (参考訳) 近年、科学論文の急速な増加は、従来のレビューメカニズムを圧倒し、出版物の質が変化している。 既存の手法では、自動科学的レビューのためのLarge Language Models (LLMs) の機能を探っているが、生成された内容はしばしば汎用的あるいは部分的である。 上記の問題に対処するために、自動紙レビューフレームワークSEAを紹介します。 標準化、評価、分析の3つのモジュールから構成されており、それぞれSEA-S、SEA-E、SEA-Aのモデルで表される。 当初、SEA-SはGPT-4のデータ標準化機能を蒸留し、複数のレビューを統合する。 そして、SEA-Eは標準化されたデータを使って微調整を行い、構築的なレビューを生成する。 最後に、SEA-Aは、紙の内容とレビューの整合性を評価するために、ミスマッチスコアと呼ばれる新しい評価指標を導入した。 さらに,一貫性を高めるための自己補正戦略を設計する。 8つの会場から収集されたデータセットに関する大規模な実験結果から、SEAは著者が論文を改善する上で貴重な洞察を得られることを示している。

In recent years, the rapid increase in scientific papers has overwhelmed traditional review mechanisms, resulting in varying quality of publications. Although existing methods have explored the capabilities of Large Language Models (LLMs) for automated scientific reviewing, their generated contents are often generic or partial. To address the issues above, we introduce an automated paper reviewing framework SEA. It comprises of three modules: Standardization, Evaluation, and Analysis, which are represented by models SEA-S, SEA-E, and SEA-A, respectively. Initially, SEA-S distills data standardization capabilities of GPT-4 for integrating multiple reviews for a paper. Then, SEA-E utilizes standardized data for fine-tuning, enabling it to generate constructive reviews. Finally, SEA-A introduces a new evaluation metric called mismatch score to assess the consistency between paper contents and reviews. Moreover, we design a self-correction strategy to enhance the consistency. Extensive experimental results on datasets collected from eight venues show that SEA can generate valuable insights for authors to improve their papers.
翻訳日:2024-11-08 20:25:29 公開日:2024-10-01
# MRI誘発神経画像の特徴と18,000サンプルの関連データセットの生成モデル

Generative models of MRI-derived neuroimaging features and associated dataset of 18,000 samples ( http://arxiv.org/abs/2407.12897v2 )

ライセンス: Link先を確認
Sai Spandana Chintapalli, Rongguang Wang, Zhijian Yang, Vasiliki Tassopoulou, Fanyang Yu, Vishnu Bashyam, Guray Erus, Pratik Chaudhari, Haochang Shou, Christos Davatzikos, (参考訳) 大規模で多様な医療データセットの可用性は、プライバシとデータ共有の制限によってしばしば問題になる。 機械学習技術の病気診断、予後診断、精密医療への応用を成功させるためには、モデルの構築と最適化に大量のデータが必要である。 脳MRIの文脈におけるそのような限界を克服するために、構造的脳画像から派生した規範的局所容積特徴の生成モデルであるGenMINDを提示する。 GenMINDモデルは、13の研究で4万以上のMRIスキャンを網羅し、年齢、性別、人種などの共変量を含むiSTAGINGコンソーシアムから、実際の脳画像領域の体積測定に基づいて訓練されている。 GenMINDを活用することで、成人の寿命(22~90歳)にまたがる18,000の合成サンプルを作成、提供し、モデルが無制限のデータを生成する能力とともに提供する。 実験の結果,GenMINDから生成されたサンプルは実データから得られた分布と一致していることがわかった。 最も重要なことは、生成された規範データにより、疾患分類などのタスクにおける下流機械学習モデルの精度が大幅に向上することである。 データとモデルは、https://huggingface.co/spaces/rongguangw/GenMIND.comで入手できる。

Availability of large and diverse medical datasets is often challenged by privacy and data sharing restrictions. For successful application of machine learning techniques for disease diagnosis, prognosis, and precision medicine, large amounts of data are necessary for model building and optimization. To help overcome such limitations in the context of brain MRI, we present GenMIND: a collection of generative models of normative regional volumetric features derived from structural brain imaging. GenMIND models are trained on real brain imaging regional volumetric measures from the iSTAGING consortium, which encompasses over 40,000 MRI scans across 13 studies, incorporating covariates such as age, sex, and race. Leveraging GenMIND, we produce and offer 18,000 synthetic samples spanning the adult lifespan (ages 22-90 years), alongside the model's capability to generate unlimited data. Experimental results indicate that samples generated from GenMIND agree with the distributions obtained from real data. Most importantly, the generated normative data significantly enhance the accuracy of downstream machine learning models on tasks such as disease classification. Data and models are available at: https://huggingface.co/spaces/rongguangw/GenMIND.
翻訳日:2024-11-08 20:25:29 公開日:2024-10-01
# Weak-to-Strong Reasoning

Weak-to-Strong Reasoning ( http://arxiv.org/abs/2407.13647v2 )

ライセンス: Link先を確認
Yuqing Yang, Yan Ma, Pengfei Liu, (参考訳) 大規模言語モデル(LLM)が人間レベルの能力を超えると、これらのモデルに対してより大規模かつ正確な監視を提供することがますます困難になる。 弱強学習(Weak-to-strong learning)は、より能力の低いモデルを利用して、強いモデルの潜在能力を解き放つ。 しかし、複雑な推論タスクに対するこのアプローチの有効性はまだ検証されていない。 さらに、現在、弱強条件下での推論タスクに対処するには、エラーを含む弱いスーパーバイザーを盲目的に模倣するのを避けるための効率的な方法が欠如している。 本稿では,より高度なモデルや人手による注釈付きデータからの入力を必要とせず,強力なモデルを自律的に訓練データを洗練させるための,進歩的学習フレームワークを提案する。 このフレームワークは、選択的に小さいが高品質なデータセットの教師付き微調整から始まり、続いて強いモデル自体によって識別される対照的なサンプルの優先順位最適化を行う。 GSM8KとMATHデータセットの大規模な実験により、3つの弱いモデルを用いてLlama2-70bの推論能力を著しく向上することが示された。 この方法は、Llama3-8b-instructが、高度に挑戦するオリンピックアリーナのデータセット上で、Llama3-70bを効果的に監督する、前方的な実験装置でさらに検証されている。 この作業は、AI推論能力を強化するための、よりスケーラブルで洗練された戦略の道を開くものだ。 すべての関連コードとリソースは \url{https://github.com/GAIR-NLP/weak-to-strong-reasoning} で利用可能である。

When large language models (LLMs) exceed human-level capabilities, it becomes increasingly challenging to provide full-scale and accurate supervision for these models. Weak-to-strong learning, which leverages a less capable model to unlock the latent abilities of a stronger model, proves valuable in this context. Yet, the efficacy of this approach for complex reasoning tasks is still untested. Furthermore, tackling reasoning tasks under the weak-to-strong setting currently lacks efficient methods to avoid blindly imitating the weak supervisor including its errors. In this paper, we introduce a progressive learning framework that enables the strong model to autonomously refine its training data, without requiring input from either a more advanced model or human-annotated data. This framework begins with supervised fine-tuning on a selective small but high-quality dataset, followed by preference optimization on contrastive samples identified by the strong model itself. Extensive experiments on the GSM8K and MATH datasets demonstrate that our method significantly enhances the reasoning capabilities of Llama2-70b using three separate weak models. This method is further validated in a forward-looking experimental setup, where Llama3-8b-instruct effectively supervises Llama3-70b on the highly challenging OlympicArena dataset. This work paves the way for a more scalable and sophisticated strategy to enhance AI reasoning powers. All relevant code and resources are available in \url{https://github.com/GAIR-NLP/weak-to-strong-reasoning}.
翻訳日:2024-11-08 20:14:30 公開日:2024-10-01
# GE2E-AC: アクセント分類のための汎用エンド・ツー・エンド・ロストレーニング

GE2E-AC: Generalized End-to-End Loss Training for Accent Classification ( http://arxiv.org/abs/2407.14021v2 )

ライセンス: Link先を確認
Chihiro Watanabe, Hirokazu Kameoka, (参考訳) アクセント分類またはACは、入力発話のアクセントタイプを予測するタスクであり、アクセント付き音声認識とアクセント変換への予備ステップとして使用できる。 既存の研究では、予測アクセントラベルの分類誤差を最小限に抑えるためにニューラルネットワークモデルを訓練することで、しばしばそのような分類が達成されている。 モデル全体の最適化は,本手法の訓練時間における分類損失の観点からのみ行われるので,各話者識別など無関係な特徴からアクセント型を予測することができる。 この問題を解決するために、GE2E-ACを提案する。このモデルを用いて入力発話のアクセント埋め込みやAEを抽出し、同一のアクセントクラスのAEが近いようにする。 提案したGE2E-ACの有効性を,従来のクロスエントロピーに基づく損失をトレーニングしたベースラインモデルと比較した。

Accent classification or AC is a task to predict the accent type of an input utterance, and it can be used as a preliminary step toward accented speech recognition and accent conversion. Existing studies have often achieved such classification by training a neural network model to minimize the classification error of the predicted accent label, which can be obtained as a model output. Since we optimize the entire model only from the perspective of classification loss during training time in this approach, the model might learn to predict the accent type from irrelevant features, such as individual speaker identity, which are not informative during test time. To address this problem, we propose a GE2E-AC, in which we train a model to extract accent embedding or AE of an input utterance such that the AEs of the same accent class get closer, instead of directly minimizing the classification loss. We experimentally show the effectiveness of the proposed GE2E-AC, compared to the baseline model trained with the conventional cross-entropy-based loss.
翻訳日:2024-11-08 19:38:31 公開日:2024-10-01
# SS-SFR:仮想KITTIにおける空間周波数応答と物体検出のための劣化自動車シミュレーション

SS-SFR: Synthetic Scenes Spatial Frequency Response on Virtual KITTI and Degraded Automotive Simulations for Object Detection ( http://arxiv.org/abs/2407.15646v2 )

ライセンス: Link先を確認
Daniel Jakab, Alexander Braun, Cathaoir Agnew, Reenu Mohandas, Brian Michael Deegan, Dara Molloy, Enda Ward, Tony Scanlan, Ciarán Eising, (参考訳) 自動車シミュレーションは、コンピュータビジョンアプリケーションにおけるトレーニングデータの欠如を補う可能性がある。 しかし、自動車シミュレーションの画質評価はほとんど行われておらず、光学劣化がシミュレーションに与える影響はほとんど調査されていない。 本研究では,仮想KITTIとガウスのぼかしのバリエーションが画像のシャープネスに与える影響について検討する。 さらに、オブジェクト検出は3つの異なる最先端モデルに対する一般的なコンピュータビジョンアプリケーションであり、オブジェクト検出とシャープネスの関係を特徴付けることができる。 画像のシャープネス(MTF50)は平均0.245cy/pxから0.119cy/pxに低下するが, 物体検出性能は0.58\%(Faster RCNN), 1.45\%(YOLOF), 1.93\%(DETR)の範囲でほぼ安定であることがわかった。

Automotive simulation can potentially compensate for a lack of training data in computer vision applications. However, there has been little to no image quality evaluation of automotive simulation and the impact of optical degradations on simulation is little explored. In this work, we investigate Virtual KITTI and the impact of applying variations of Gaussian blur on image sharpness. Furthermore, we consider object detection, a common computer vision application on three different state-of-the-art models, thus allowing us to characterize the relationship between object detection and sharpness. It was found that while image sharpness (MTF50) degrades from an average of 0.245cy/px to approximately 0.119cy/px; object detection performance stays largely robust within 0.58\%(Faster RCNN), 1.45\%(YOLOF) and 1.93\%(DETR) across all respective held-out test sets.
翻訳日:2024-11-08 15:45:25 公開日:2024-10-01
# 速度駆動型ビジョン:自律走行車のための非同期センサーフュージョンバードアイビューモデル

Velocity Driven Vision: Asynchronous Sensor Fusion Birds Eye View Models for Autonomous Vehicles ( http://arxiv.org/abs/2407.16636v3 )

ライセンス: Link先を確認
Seamie Hayes, Sushil Sharma, Ciarán Eising, (参考訳) 異なるセンサーのモダリティを融合させることは、特に非同期である場合、難しい作業になる可能性がある。 同期化は、キャリブレーション中の長い処理時間や不適切な同期によって起こりうるものであり、安全運転のためにこの以前の情報を引き続き活用する方法と、エゴ車/マルチエージェント軌道予測における物体検出が存在する必要がある。 困難は、センサーのモジュラリティが異なる時間と異なる空間の異なる位置で情報をキャプチャしたという事実から生じる。 そのため、空間的にも時間的にも一致しない。 本稿では,レーダセンサとLiDARセンサがカメラセンサに対して非同期であることの課題について,様々な時間帯で検討する。 空間アライメントは、レーダー/LiDAR点雲を新しいエゴフレーム座標系に変換することで、BEV空間に昇降する前に解決される。 この後のみ、レーダー/LiDAR点雲とリフトカメラの特徴を結合できる。 レーダデータのみの時間的アライメントを補正し、速度情報を用いて将来のレーダポイント位置を推定する新しい手法を実装する。 センサ非同期の問題を解決するアプローチは,有望な結果をもたらす。 速度情報は、360ミリ秒 (ms) の時間レイテンシにおいて、49.54から53.63に改善されるため、非同期データセットのIoUを大幅に改善できることを示す。 さらに550msのレイテンシでは、カメラ+レーダー(C+R)モデルは、カメラ+LiDAR(C+L)モデルよりも0.18IoU性能が向上する。 これは、しばしば無視されるレーダーセンサーのモダリティの活用の進歩であり、自動運転のためにLiDARよりもあまり好まれない。

Fusing different sensor modalities can be a difficult task, particularly if they are asynchronous. Asynchronisation may arise due to long processing times or improper synchronisation during calibration, and there must exist a way to still utilise this previous information for the purpose of safe driving, and object detection in ego vehicle/ multi-agent trajectory prediction. Difficulties arise in the fact that the sensor modalities have captured information at different times and also at different positions in space. Therefore, they are not spatially nor temporally aligned. This paper will investigate the challenge of radar and LiDAR sensors being asynchronous relative to the camera sensors, for various time latencies. The spatial alignment will be resolved before lifting into BEV space via the transformation of the radar/LiDAR point clouds into the new ego frame coordinate system. Only after this can we concatenate the radar/LiDAR point cloud and lifted camera features. Temporal alignment will be remedied for radar data only, we will implement a novel method of inferring the future radar point positions using the velocity information. Our approach to resolving the issue of sensor asynchrony yields promising results. We demonstrate velocity information can drastically improve IoU for asynchronous datasets, as for a time latency of 360 milliseconds (ms), IoU improves from 49.54 to 53.63. Additionally, for a time latency of 550ms, the camera+radar (C+R) model outperforms the camera+LiDAR (C+L) model by 0.18 IoU. This is an advancement in utilising the often-neglected radar sensor modality, which is less favoured than LiDAR for autonomous driving purposes.
翻訳日:2024-11-08 15:34:26 公開日:2024-10-01
# 変形可能な畳み込みに基づく魚眼画像の自律走行における道路シーンセマンティックセマンティックセグメンテーション

Deformable Convolution Based Road Scene Semantic Segmentation of Fisheye Images in Autonomous Driving ( http://arxiv.org/abs/2407.16647v2 )

ライセンス: Link先を確認
Anam Manzoor, Aryan Singh, Ganesh Sistu, Reenu Mohandas, Eoin Grua, Anthony Scanlan, Ciarán Eising, (参考訳) 本研究では, 魚眼画像を用いた自律走行シナリオにおいて, セマンティックセグメンテーションタスクにおける, 現代の変形可能な畳み込みニューラルネットワーク(DCNN)の有効性について検討した。 これらの画像は広い視野を提供し、オブジェクト属性の動的変化による空間的および幾何学的情報の抽出にユニークな課題を提起する。 実験では,WoodScapeの魚眼画像データセットを10の異なるクラスに分割し,複雑な空間関係を捕捉し,セグメンテーション精度を向上させるデフォルマブルネットワークの能力を評価する。 さらに,従来のCNNアーキテクチャと,Vanilla U-NetやResidual U-Netを含むDeformable ConvolutionベースのCNNの性能を比較した。 変形可能なCNNの統合によるmIoUスコアの大幅な改善は、魚眼画像に現れる幾何学的歪みを扱う上で、従来のCNNアーキテクチャよりも優れていることを示す。 このことは、魚眼画像のセマンティックセグメンテーション性能を高める上で、変形可能な畳み込みが重要な役割を担っていることを示している。

This study investigates the effectiveness of modern Deformable Convolutional Neural Networks (DCNNs) for semantic segmentation tasks, particularly in autonomous driving scenarios with fisheye images. These images, providing a wide field of view, pose unique challenges for extracting spatial and geometric information due to dynamic changes in object attributes. Our experiments focus on segmenting the WoodScape fisheye image dataset into ten distinct classes, assessing the Deformable Networks' ability to capture intricate spatial relationships and improve segmentation accuracy. Additionally, we explore different loss functions to address class imbalance issues and compare the performance of conventional CNN architectures with Deformable Convolution-based CNNs, including Vanilla U-Net and Residual U-Net architectures. The significant improvement in mIoU score resulting from integrating Deformable CNNs demonstrates their effectiveness in handling the geometric distortions present in fisheye imagery, exceeding the performance of traditional CNN architectures. This underscores the significant role of Deformable convolution in enhancing semantic segmentation performance for fisheye imagery.
翻訳日:2024-11-08 15:34:26 公開日:2024-10-01
# FLRT:フレント・学生・教師のリチーム

FLRT: Fluent Student-Teacher Redteaming ( http://arxiv.org/abs/2407.17447v2 )

ライセンス: Link先を確認
T. Ben Thompson, Michael Sklar, (参考訳) 多くの公的な言語モデルは、有害または負債を誘発するテキストの可能性を減らすために安全調整されている。 有害な要求に対応するためにこれらのモデルを再設計またはジェイルブレイクするために、ユーザとセキュリティアナリストは敵のプロンプト技術を開発した。 1つの攻撃方法は、プロンプトに離散最適化技術を適用することである。 しかし、結果として生じる攻撃文字列は、しばしばジブベリのテキストであり、高い測定精度のためにディフェンダーによって簡単にフィルタリングされ、目に見えないタスクやよく調整されたモデルでは失敗する可能性がある。 本研究では,既存のアルゴリズム(主にGCGとBEAST)を改良し,Llama-2やPhi-3のような安全チューニングモデルに対する強力で流動的な攻撃を開発する。 本手法は, 発生確率, 内部活性化の両面において, 有害微粒のエミュレートを促進する新しい蒸留法を中心にしている。 人為的な攻撃を促すため、目的にマルチモデルパープレキシティペナルティと反復ペナルティを付加する。 また、トークン挿入、トークンスワップ、トークン削除を許可し、より長いアタックシーケンスを使用することで、オプティマイザ強度を向上させる。 結果として得られるプロセスは、人間書きのプロンプトと同じようなプロンプトで、最も難しいターゲットモデルを確実にジェイルブレイクすることができる。 Advbenchでは,Llama-2-7B,Llama-3-8B,Vicuna-7Bに対する攻撃成功率=93$%,モデルによるパープレキシティ=<33$,Phi-3に対する攻撃成功率は9,5$%である。 また、Llama-2-7B、Phi-3-mini、Vicuna-7Bにまたがる未確認タスクに対して、88$%のコンプライアンスを誘導し、他のブラックボックスモデルに転送する、普遍的に最適化されたシングルフロートプロンプトも見つける。

Many publicly available language models have been safety tuned to reduce the likelihood of toxic or liability-inducing text. To redteam or jailbreak these models for compliance with toxic requests, users and security analysts have developed adversarial prompting techniques. One attack method is to apply discrete optimization techniques to the prompt. However, the resulting attack strings are often gibberish text, easily filtered by defenders due to high measured perplexity, and may fail for unseen tasks and/or well-tuned models. In this work, we improve existing algorithms (primarily GCG and BEAST) to develop powerful and fluent attacks on safety-tuned models like Llama-2 and Phi-3. Our technique centers around a new distillation-based approach that encourages the victim model to emulate a toxified finetune, either in terms of output probabilities or internal activations. To encourage human-fluent attacks, we add a multi-model perplexity penalty and a repetition penalty to the objective. We also enhance optimizer strength by allowing token insertions, token swaps, and token deletions and by using longer attack sequences. The resulting process is able to reliably jailbreak the most difficult target models with prompts that appear similar to human-written prompts. On Advbench we achieve attack success rates $>93$% for Llama-2-7B, Llama-3-8B, and Vicuna-7B, while maintaining model-measured perplexity $<33$; we achieve $95$% attack success for Phi-3, though with higher perplexity. We also find a universally-optimized single fluent prompt that induces $>88$% compliance on previously unseen tasks across Llama-2-7B, Phi-3-mini and Vicuna-7B and transfers to other black-box models.
翻訳日:2024-11-08 15:12:19 公開日:2024-10-01
# 膵腫瘍分節増強のための合成データの最適化

Optimizing Synthetic Data for Enhanced Pancreatic Tumor Segmentation ( http://arxiv.org/abs/2407.19284v2 )

ライセンス: Link先を確認
Linkai Peng, Zheyuan Zhang, Gorkem Durak, Frank H. Miller, Alpay Medetalibeyoglu, Michael B. Wallace, Ulas Bagci, (参考訳) 膵臓がんは、世界中でがん関連死亡の原因の1つとなっている。 医用画像からの膵腫瘍の精密分画は, 臨床的に有効な意思決定のボトルネックとなる。 しかし、深層学習モデルの訓練において、実際の患者データの小型化と可用性によって、高い精度を達成することは、しばしば制限される。 近年のアプローチでは、トレーニングデータセットの強化に合成データ生成を採用している。 有望ではあるが、これらの手法は実際の臨床使用に必要なパフォーマンスベンチマークをまだ満たしていないかもしれない。 本研究は膵腫瘍分節に対する既存の生成AIフレームワークの限界を批判的に評価する。 モデル性能に対する合成 \textit{tumor size} と \textit{boundary definition} の精度の影響を調べるための一連の実験を行った。 以上の結果より,(1)合成腫瘍サイズの組み合わせを戦略的に選択することが最適セグメンテーションの結果にとって重要であること,(2)正確な境界を持つ合成腫瘍の生成がモデル精度を著しく向上すること,などが示唆された。 これらの知見は、診断、予後、治療計画を含む膵癌決定におけるセグメンテーションモデルの臨床的有用性を高めるために、改良された合成データ拡張を活用することの重要性を強調している。 私たちのコードはhttps://github.com/lkpengcs/SynTumorAnalyzer.comで利用可能です。

Pancreatic cancer remains one of the leading causes of cancer-related mortality worldwide. Precise segmentation of pancreatic tumors from medical images is a bottleneck for effective clinical decision-making. However, achieving a high accuracy is often limited by the small size and availability of real patient data for training deep learning models. Recent approaches have employed synthetic data generation to augment training datasets. While promising, these methods may not yet meet the performance benchmarks required for real-world clinical use. This study critically evaluates the limitations of existing generative-AI based frameworks for pancreatic tumor segmentation. We conduct a series of experiments to investigate the impact of synthetic \textit{tumor size} and \textit{boundary definition} precision on model performance. Our findings demonstrate that: (1) strategically selecting a combination of synthetic tumor sizes is crucial for optimal segmentation outcomes, and (2) generating synthetic tumors with precise boundaries significantly improves model accuracy. These insights highlight the importance of utilizing refined synthetic data augmentation for enhancing the clinical utility of segmentation models in pancreatic cancer decision making including diagnosis, prognosis, and treatment plans. Our code will be available at https://github.com/lkpengcs/SynTumorAnalyzer.
翻訳日:2024-11-08 14:38:53 公開日:2024-10-01
# 遠隔超伝導量子プロセッサ間の高忠実完全エンタングルの実現

Realization of high-fidelity perfect entangler between remote superconducting quantum processors ( http://arxiv.org/abs/2407.20338v2 )

ライセンス: Link先を確認
Juan Song, Shuang Yang, Pei Liu, Hui-Li Zhang, Guang-Ming Xue, Zhen-Yu Mi, Wen-Gang Zhang, Fei Yan, Yi-Rong Jin, Hai-Feng Yu, (参考訳) 量子コンピューティングの有望な候補である超伝導量子ビットは現在、再現性、配線の複雑さ、パッケージングモードによるチップサイズ制限に直面している。 分散量子モジュールは、遠隔量子ビット間の普遍的な量子ゲート操作はまだ実現されていないが、より大きな量子情報処理システムを構築するための実行可能な戦略を提供する。 ここでは、30cm以上の距離で2つの遠隔超伝導量子デバイス間の高忠実度完全エンタングルを実証し、これらを接続する同軸ケーブルの定常波モードを利用する。 我々は,CNOTおよびCZゲートに対してそれぞれ$(99.15 \pm 0.02)\%$(98.04 \pm 0.04)\%$(98.04 \pm 0.04)\%$(99.04 \pm 0.02)\%$)のクロスエントロピーベンチマーク(XEB)フィデリティを実現する。 この進歩は、大規模量子システムの将来の発展に欠かせない、普遍的な分散量子情報処理の実現可能性を大幅に向上させる。

Superconducting qubits, a promising candidate for universal quantum computing, currently face limitations in chip size due to reproducibility, wiring complexity, and packaging modes. Distributed quantum modules offer a viable strategy for constructing larger quantum information processing systems, though universal quantum gate operations between remote qubits have yet to be realized. Here, we demonstrate high-fidelity perfect entanglers between two remote superconducting quantum devices over 30 cm distance, leveraging the standing-wave modes in the coaxial cable connecting them. We achieve cross-entropy benchmarking (XEB) fidelities of $(99.15 \pm 0.02)\%$ and $(98.04 \pm 0.04)\%$ for CNOT and CZ gates, respectively, which are more efficient and universal than existing state transfer or feedback-based protocols. This advancement significantly enhances the feasibility of universal distributed quantum information processing, essential for the future development of large-scale quantum systems.
翻訳日:2024-11-08 14:05:01 公開日:2024-10-01
# SharkTrack:サメとレイの水中ビデオ分析を合理化するための正確で汎用的なソフトウェア

SharkTrack: an accurate, generalisable software for streamlining shark and ray underwater video analysis ( http://arxiv.org/abs/2407.20623v2 )

ライセンス: Link先を確認
Filippo Varini, Joel H. Gayford, Jeremy Jenrette, Matthew J. Witt, Francesco Garzon, Francesco Ferretti, Sophie Wilday, Mark E. Bond, Michael R. Heithaus, Danielle Robinson, Devon Carter, Najee Gumbs, Vincent Webster, Ben Glocker, (参考訳) エラスモブランチ(シャーク砂線)は海洋生態系の重要な構成要素である。 しかし、彼らは世界的な人口減少を経験しており、その保護には効果的な人口監視が不可欠である。 Baited Remote Underwater Video Stations (BRUVS) などの水中静止映像は、エラスモブランチの空間生態と豊富さを理解する上で重要である。 しかし、これらのビデオの処理には時間を要する手作業による保存を遅らせる必要がある。 そこで我々は,半自動水中ビデオ解析ソフトウェアSharkTrackを開発した。 SharkTrackはConvolutional Neural Networks(CNN)とMulti-Object Trackingを使用して、エラストモブランチを自動的に検出し追跡し、エラスモブランチ種を手動で分類し、相対的存在量の標準指標である種別MaxN(ssMaxN)を計算するアノテーションパイプラインを提供する。 訓練中にCNNモデルで見えない場所のBRUVSの映像でテストすると、SharkTrackは207時間の映像に対して89%の精度でssMaxNを計算した。 半自動的なSharkTrackパイプラインでは、ビデオの時間あたりの手動分類が2分必要となり、従来の手法に比べて手動解析時間が95%削減されたと見積もられた。 さらに,多様な海洋生態系およびエラストモブランチ種にまたがるSharkTrackの精度を実証した。 SharkTrackアプリケーションはBRUVSを超えて拡張され、水中静止映像の分析が容易になった。 SharkTrackは、ビデオ分析を迅速かつアクセスしやすいものにすることで、研究・保存組織がエラストモブランチの個体群をより効率的に監視し、保存作業を改善することができる。 これらの目標をさらに支援するため、SharkTrackソフトウェアへのパブリックアクセスを提供しています。

Elasmobranchs (shark sand rays) represent a critical component of marine ecosystems. Yet, they are experiencing global population declines and effective monitoring of populations is essential to their protection. Underwater stationary videos, such as those from Baited Remote Underwater Video Stations (BRUVS), are critical for understanding elasmobranch spatial ecology and abundance. However, processing these videos requires time-consuming manual analysis that can delay conservation. To address this challenge, we developed SharkTrack, a semi-automatic underwater video analysis software. SharkTrack uses Convolutional Neural Networks (CNN) and Multi-Object Tracking to automatically detect and track elasmobranchs and provides an annotation pipeline to manually classify elasmobranch species and compute species-specific MaxN (ssMaxN), the standard metric of relative abundance. When tested on BRUVS footage from locations unseen by the CNN model during training, SharkTrack computed ssMaxN with 89% accuracy over 207 hours of footage. The semi-automatic SharkTrack pipeline required two minutes of manual classification per hour of video, an estimated 95% reduction of manual analysis time compared to traditional methods. Furthermore, we demonstrate SharkTrack accuracy across diverse marine ecosystems and elasmobranch species, an advancement compared to previous models, which were limited to specific species or locations. SharkTrack applications extend beyond BRUVS, facilitating the analysis of any underwater stationary video. By making video analysis faster and more accessible, SharkTrack enables research and conservation organisations to monitor elasmobranch populations more efficiently, thereby improving conservation efforts. To further support these goals, we provide public access to the SharkTrack software.
翻訳日:2024-11-08 14:05:01 公開日:2024-10-01
# SharkTrack:サメとレイの水中ビデオ分析を合理化するための正確で汎用的なソフトウェア

SharkTrack: an accurate, generalisable software for streamlining shark and ray underwater video analysis ( http://arxiv.org/abs/2407.20623v3 )

ライセンス: Link先を確認
Filippo Varini, Joel H. Gayford, Jeremy Jenrette, Matthew J. Witt, Francesco Garzon, Francesco Ferretti, Sophie Wilday, Mark E. Bond, Michael R. Heithaus, Danielle Robinson, Devon Carter, Najee Gumbs, Vincent Webster, Ben Glocker, (参考訳) エラスモブランチ(シャーク砂線)は海洋生態系の重要な構成要素である。 しかし、彼らは世界的な人口減少を経験しており、その保護には効果的な人口監視が不可欠である。 Baited Remote Underwater Video Stations (BRUVS) などの水中静止映像は、エラスモブランチの空間生態と豊富さを理解する上で重要である。 しかし、これらのビデオの処理には時間を要する手作業による保存を遅らせる必要がある。 そこで我々は,半自動水中ビデオ解析ソフトウェアSharkTrackを開発した。 SharkTrackはConvolutional Neural Networks(CNN)とMulti-Object Trackingを使用して、エラストモブランチを自動的に検出し追跡し、エラスモブランチ種を手動で分類し、相対的存在量の標準指標である種別MaxN(ssMaxN)を計算するアノテーションパイプラインを提供する。 訓練中にCNNモデルで見えない場所のBRUVSの映像でテストすると、SharkTrackは207時間の映像に対して89%の精度でssMaxNを計算した。 半自動的なSharkTrackパイプラインでは、ビデオの時間あたりの手動分類が2分必要となり、従来の手法に比べて手動解析時間が95%削減されたと見積もられた。 さらに,多様な海洋生態系およびエラストモブランチ種にまたがるSharkTrackの精度を実証した。 SharkTrackアプリケーションはBRUVSを超えて拡張され、水中静止映像の分析が容易になった。 SharkTrackは、ビデオ分析を迅速かつアクセスしやすいものにすることで、研究・保存組織がエラストモブランチの個体群をより効率的に監視し、保存作業を改善することができる。 これらの目標をさらに支援するため、SharkTrackソフトウェアへのパブリックアクセスを提供しています。

Elasmobranchs (shark sand rays) represent a critical component of marine ecosystems. Yet, they are experiencing global population declines and effective monitoring of populations is essential to their protection. Underwater stationary videos, such as those from Baited Remote Underwater Video Stations (BRUVS), are critical for understanding elasmobranch spatial ecology and abundance. However, processing these videos requires time-consuming manual analysis that can delay conservation. To address this challenge, we developed SharkTrack, a semi-automatic underwater video analysis software. SharkTrack uses Convolutional Neural Networks (CNN) and Multi-Object Tracking to automatically detect and track elasmobranchs and provides an annotation pipeline to manually classify elasmobranch species and compute species-specific MaxN (ssMaxN), the standard metric of relative abundance. When tested on BRUVS footage from locations unseen by the CNN model during training, SharkTrack computed ssMaxN with 89% accuracy over 207 hours of footage. The semi-automatic SharkTrack pipeline required two minutes of manual classification per hour of video, an estimated 95% reduction of manual analysis time compared to traditional methods. Furthermore, we demonstrate SharkTrack accuracy across diverse marine ecosystems and elasmobranch species, an advancement compared to previous models, which were limited to specific species or locations. SharkTrack applications extend beyond BRUVS, facilitating the analysis of any underwater stationary video. By making video analysis faster and more accessible, SharkTrack enables research and conservation organisations to monitor elasmobranch populations more efficiently, thereby improving conservation efforts. To further support these goals, we provide public access to the SharkTrack software.
翻訳日:2024-11-08 14:05:01 公開日:2024-10-01
# 平滑なエネルギー誘導:注意のエネルギー曲率を低減した拡散モデルの誘導

Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention ( http://arxiv.org/abs/2408.00760v2 )

ライセンス: Link先を確認
Susung Hong, (参考訳) 条件付き拡散モデルは、視覚コンテンツ生成において顕著な成功を示し、主に分類器フリーガイダンス(CFG)によって、様々な領域にわたる高品質なサンプルを生成する。 非条件モデルへのガイダンスを拡張しようとする最近の試みは、ヒューリスティックな手法に依存しており、その結果、最適以下の生成品質と意図しない効果をもたらす。 本研究では, 自己認識機構のエネルギー的視点を利用して画像生成を促進する, 新たな訓練・条件なし手法であるSmoothed Energy Guidance (SEG)を提案する。 自己注意のエネルギーを定義することにより、注意のエネルギー景観の曲率を減らし、その出力を無条件予測として利用する方法を提案する。 実際に、誘導スケールパラメータを固定しながらガウスのカーネルパラメータを調整することにより、エネルギーランドスケープの曲率を制御する。 さらに,トークン数の2次複雑さを生じさせることなく,注目重量全体をぼかすようなクエリのぼかし手法を提案する。 実験では,SEGは品質と副作用の低減の両方においてパレートの改善を実現している。 コードはhttps://github.com/SusungHong/SEG-SDXLで公開されている。

Conditional diffusion models have shown remarkable success in visual content generation, producing high-quality samples across various domains, largely due to classifier-free guidance (CFG). Recent attempts to extend guidance to unconditional models have relied on heuristic techniques, resulting in suboptimal generation quality and unintended effects. In this work, we propose Smoothed Energy Guidance (SEG), a novel training- and condition-free approach that leverages the energy-based perspective of the self-attention mechanism to enhance image generation. By defining the energy of self-attention, we introduce a method to reduce the curvature of the energy landscape of attention and use the output as the unconditional prediction. Practically, we control the curvature of the energy landscape by adjusting the Gaussian kernel parameter while keeping the guidance scale parameter fixed. Additionally, we present a query blurring method that is equivalent to blurring the entire attention weights without incurring quadratic complexity in the number of tokens. In our experiments, SEG achieves a Pareto improvement in both quality and the reduction of side effects. The code is available at https://github.com/SusungHong/SEG-SDXL.
翻訳日:2024-11-08 13:29:21 公開日:2024-10-01
# 拡散オートエンコーダを用いた医用画像の分類と回帰の因果的説明

Counterfactual Explanations for Medical Image Classification and Regression using Diffusion Autoencoder ( http://arxiv.org/abs/2408.01571v2 )

ライセンス: Link先を確認
Matan Atad, David Schinz, Hendrik Moeller, Robert Graf, Benedikt Wiestler, Daniel Rueckert, Nassir Navab, Jan S. Kirschke, Matthias Keicher, (参考訳) 対実的説明(CE)は、入力特徴の変化が結果の予測にどのように影響するかを説明することによって、機械学習モデルの解釈可能性を高めることを目的としている。 共通CEアプローチは追加のモデルを必要とし、通常は二項対物に制約される。 対照的に、生成モデルの潜在空間、特に拡散オートエンコーダ(DAE)を直接操作する新しい手法を提案する。 このアプローチは、CEの生成と決定境界を越えたモデルの内部表現の継続的な可視化を可能にすることによって、固有の解釈可能性を提供します。 提案手法は,DAEが意味的にリッチな潜在空間を教師なしでエンコードする機能を活用し,ラベル付きデータや特徴抽出モデルを不要にする。 脊椎圧迫骨折 (VCF) や糖尿病性網膜症 (DR) などの重症度病態の医学的分類や経時的退行に有用であることが示唆された。 本手法は,線形モデルを用いた順序CEの可視化をサポートし,モデル決定過程の深い洞察と解釈可能性の向上を実現する。 様々な医用画像データセットに対する実験は、解釈可能性と汎用性における手法の利点を実証している。 DAEの潜伏空間の線形多様体は意味のある補間と操作を可能にし、医療画像特性を探索するための強力なツールとなった。 私たちのコードはhttps://doi.org/10.5281/zenodo.13859266で利用可能です。

Counterfactual explanations (CEs) aim to enhance the interpretability of machine learning models by illustrating how alterations in input features would affect the resulting predictions. Common CE approaches require an additional model and are typically constrained to binary counterfactuals. In contrast, we propose a novel method that operates directly on the latent space of a generative model, specifically a Diffusion Autoencoder (DAE). This approach offers inherent interpretability by enabling the generation of CEs and the continuous visualization of the model's internal representation across decision boundaries. Our method leverages the DAE's ability to encode images into a semantically rich latent space in an unsupervised manner, eliminating the need for labeled data or separate feature extraction models. We show that these latent representations are helpful for medical condition classification and the ordinal regression of severity pathologies, such as vertebral compression fractures (VCF) and diabetic retinopathy (DR). Beyond binary CEs, our method supports the visualization of ordinal CEs using a linear model, providing deeper insights into the model's decision-making process and enhancing interpretability. Experiments across various medical imaging datasets demonstrate the method's advantages in interpretability and versatility. The linear manifold of the DAE's latent space allows for meaningful interpolation and manipulation, making it a powerful tool for exploring medical image properties. Our code is available at https://doi.org/10.5281/zenodo.13859266.
翻訳日:2024-11-08 13:18:17 公開日:2024-10-01
# オプション価格付加プロセスのニューラルネットワーク構造

Neural Term Structure of Additive Process for Option Pricing ( http://arxiv.org/abs/2408.01642v2 )

ライセンス: Link先を確認
Jimin Lin, Guixin Liu, (参考訳) 加法過程は、L''evy過程を時間的均質な増分という仮定を緩和することによって一般化し、従ってより大きな確率過程の族をカバーする。 オプション価格に関する最近の研究は、付加的なプロセスによるログ価格のモデル化は、リスク・ニューラル測度の構築が容易で、明確なオプション価格公式と特徴関数が得られ、インプリートされたボラティリティ面に適合する柔軟性が向上していることを示している。 それでも、加法モデルの校正の課題は、時間依存のパラメータ化から生じ、この場合、項構造に対してパラメトリック関数を定めなければならない。 そこで本稿では,パラメータ関数の設計の難しさを軽減し,不特定リスクを軽減するために,フィードフォワードニューラルネットワークを利用するニューラルネットワークモデルを提案する。 S\&P 500 オプションデータを用いた数値実験を行い,ニューラルターム構造の性能評価を行った。

The additive process generalizes the L\'evy process by relaxing its assumption of time-homogeneous increments and hence covers a larger family of stochastic processes. Recent research in option pricing shows that modeling the underlying log price with an additive process has advantages in easier construction of the risk-neural measure, an explicit option pricing formula and characteristic function, and more flexibility to fit the implied volatility surface. Still, the challenge of calibrating an additive model arises from its time-dependent parameterization, for which one has to prescribe parametric functions for the term structure. For this, we propose the neural term structure model to utilize feedforward neural networks to represent the term structure, which alleviates the difficulty of designing parametric functions and thus attenuates the misspecification risk. Numerical studies with S\&P 500 option data are conducted to evaluate the performance of the neural term structure.
翻訳日:2024-11-08 13:07:08 公開日:2024-10-01
# 知識ニューロンによる大規模言語モデルの実態的リコール行動の解明

Unveiling Factual Recall Behaviors of Large Language Models through Knowledge Neurons ( http://arxiv.org/abs/2408.03247v3 )

ライセンス: Link先を確認
Yifei Wang, Yuheng Chen, Wanting Wen, Yu Sheng, Linjing Li, Daniel Dajun Zeng, (参考訳) 本稿では,Large Language Models (LLMs) が推論タスクに直面すると,その内部知識のリポジトリを積極的にリコールするか,回収するかを検討する。 知識ニューロンによる各推論段階におけるLLMの内部的事実リコールの分析を通じて、LLMは特定の状況下での批判的事実関連を活用できないことが明らかとなった。 代わりに、彼らは理性的な疑問に答えるために、代替のショートカットのような経路を選択する傾向がある。 LLMにおけるパラメトリック知識のリコールプロセスを手動で操作することにより、このリコールプロセスの強化は推論性能を向上する一方、その抑制は顕著な劣化をもたらすことを示す。 さらに,複雑な推論タスクに対処する強力な手法であるChain-of-Thought(CoT)プロンプトの効果を評価する。 以上の結果から, CoT は LLM の順応的かつ信頼性の高い推論を奨励することにより, 事実的知識のリコールを促進できることが示唆された。 さらに,LLMの現実的リコール行動の包括的理解を得るために,文脈的コンフリクトが推論過程における事実の検索にどのように影響するかを考察した。 コードとデータは近く提供される。

In this paper, we investigate whether Large Language Models (LLMs) actively recall or retrieve their internal repositories of factual knowledge when faced with reasoning tasks. Through an analysis of LLMs' internal factual recall at each reasoning step via Knowledge Neurons, we reveal that LLMs fail to harness the critical factual associations under certain circumstances. Instead, they tend to opt for alternative, shortcut-like pathways to answer reasoning questions. By manually manipulating the recall process of parametric knowledge in LLMs, we demonstrate that enhancing this recall process directly improves reasoning performance whereas suppressing it leads to notable degradation. Furthermore, we assess the effect of Chain-of-Thought (CoT) prompting, a powerful technique for addressing complex reasoning tasks. Our findings indicate that CoT can intensify the recall of factual knowledge by encouraging LLMs to engage in orderly and reliable reasoning. Furthermore, we explored how contextual conflicts affect the retrieval of facts during the reasoning process to gain a comprehensive understanding of the factual recall behaviors of LLMs. Code and data will be available soon.
翻訳日:2024-11-08 12:44:50 公開日:2024-10-01
# サイバー犯罪フォーラムにおける大規模言語モデル(LLM)のサイバー脅威インテリジェンス(CTI)への応用

The Use of Large Language Models (LLM) for Cyber Threat Intelligence (CTI) in Cybercrime Forums ( http://arxiv.org/abs/2408.03354v3 )

ライセンス: Link先を確認
Vanessa Clairoux-Trepanier, Isa-May Beauchamp, Estelle Ruellan, Masarah Paquet-Clouston, Serge-Olivier Paquette, Eric Clay, (参考訳) 大規模言語モデル(LLM)は、サイバー犯罪フォーラムからサイバー脅威インテリジェンス(CTI)データを分析するために使用することができる。 しかし,これらの重要なタスクに対するLCMの精度と効率のレベルはまだ十分に評価されていない。 そこで本研究では,OpenAI GPT-3.5-turboモデル [8] をベースとしたLCMシステムの性能評価を行った。 そのために,3つのサイバー犯罪フォーラム (XSS, Exploit_in, RAMP) から700件以上の日次会話のランダムなサンプルを抽出し,LLMシステムを用いて対話を要約し,大規模組織や重要なインフラが標的になっているかどうかなど10のCTI変数を予測するように指示した。 そして、2人のプログラマが会話をレビューし、LLMが抽出した情報が正確かどうかを評価した。 LLMシステムは、平均精度スコア96.23%、平均精度90%、平均リコール88.2%で良好に動作した。 LLMが物語と過去の出来事を区別するのを助けることや、プロンプトにおける動詞の時制に注意することなど、モデルを強化する様々な方法が明らかにされた。 それにもかかわらず、この研究の結果は、LLMをサイバー脅威インテリジェンスに使用することの関連性を強調している。

Large language models (LLMs) can be used to analyze cyber threat intelligence (CTI) data from cybercrime forums, which contain extensive information and key discussions about emerging cyber threats. However, to date, the level of accuracy and efficiency of LLMs for such critical tasks has yet to be thoroughly evaluated. Hence, this study assesses the performance of an LLM system built on the OpenAI GPT-3.5-turbo model [8] to extract CTI information. To do so, a random sample of more than 700 daily conversations from three cybercrime forums - XSS, Exploit_in, and RAMP - was extracted, and the LLM system was instructed to summarize the conversations and predict 10 key CTI variables, such as whether a large organization and/or a critical infrastructure is being targeted, with only simple human-language instructions. Then, two coders reviewed each conversation and evaluated whether the information extracted by the LLM was accurate. The LLM system performed well, with an average accuracy score of 96.23%, an average precision of 90% and an average recall of 88.2%. Various ways to enhance the model were uncovered, such as the need to help the LLM distinguish between stories and past events, as well as being careful with verb tenses in prompts. Nevertheless, the results of this study highlight the relevance of using LLMs for cyber threat intelligence.
翻訳日:2024-11-08 12:44:50 公開日:2024-10-01
# 擬似通信による非同期近似一致

Asynchronous Approximate Agreement with Quadratic Communication ( http://arxiv.org/abs/2408.05495v2 )

ライセンス: Link先を確認
Mose Mizrahi Erbes, Roger Wattenhofer, (参考訳) 非同期ネットワークは$n$のメッセージ送信パーティで、そのうちの最大$t$はビザンチンです。 本研究では,入力の凸内積にほぼ等しい出力が得られるような近似一致について検討する。 Abraham, Amit and Dolev [OPODIS '04] は、最適なレジリエンス $t < \frac{n}{3}$ でこれを達成する。 これは、信頼できるブロードキャスト毎に$\Theta(n^2)$メッセージ、またはイテレーション毎に$\Theta(n^3)$メッセージを取る。 本研究では,n^3$ではなく,n^2$に比例する通信を必要とする信頼性のある放送を強制する,最適に弾力性のある非同期近似契約プロトコルを提案する。 我々は$\omega$-dimensional barycentric agreement with $\mathcal{O}(\omega n^2)$ small message that does not use reliable broadcast。 すると、直径$D$と$\lceil \log_2 D \rceil$のツリーにおいて、多値な階数付きコンセンサス変種を反復してエッジコンセンサスを得る。 この結果、$\mathcal{O}(\log\frac{1}{\varepsilon})$-round protocol for $\varepsilon$-agreement in $[0, 1]$ with $\mathcal{O}(n^2\log\frac{1}{\varepsilon})$ message and $\mathcal{O}(n^2\log\frac{1}{\varepsilon}\log\log\frac{1}{\varepsilon})$ bits of communication, improve the state-of-the-art which are if the inputs are all $0$ or $1$である。 最後に、エッジアグリーメントのためのエッジアグリーメントプロトコルを$\mathbb{Z}$と$\varepsilon$-agreement in $\mathbb{R}$で拡張し、$\mathcal{O}(\log\frac{M}{\varepsilon})$ rounds ここで$M$は最も正直な入力量である。

We consider an asynchronous network of $n$ message-sending parties, up to $t$ of which are byzantine. We study approximate agreement, where the parties obtain approximately equal outputs in the convex hull of their inputs. In their seminal work, Abraham, Amit and Dolev [OPODIS '04] achieve this with the optimal resilience $t < \frac{n}{3}$ with a protocol where each party reliably broadcasts its input every iteration. This takes $\Theta(n^2)$ messages per reliable broadcast, or $\Theta(n^3)$ messages per iteration. In this work, we present optimally resilient asynchronous approximate agreement protocols where we forgo reliable broadcast to require communication proportional to $n^2$ instead of $n^3$. We begin with a protocol for $\omega$-dimensional barycentric agreement with $\mathcal{O}(\omega n^2)$ small messages that does not use reliable broadcast. Then, we achieve edge agreement in a tree of diameter $D$ with $\lceil \log_2 D \rceil$ iterations of a multivalued graded consensus variant. This results in a $\mathcal{O}(\log\frac{1}{\varepsilon})$-round protocol for $\varepsilon$-agreement in $[0, 1]$ with $\mathcal{O}(n^2\log\frac{1}{\varepsilon})$ messages and $\mathcal{O}(n^2\log\frac{1}{\varepsilon}\log\log\frac{1}{\varepsilon})$ bits of communication, improving over the state of the art which matches this complexity only when the inputs are all either $0$ or $1$. Finally, we extend our edge agreement protocol for edge agreement in $\mathbb{Z}$ and thus $\varepsilon$-agreement in $\mathbb{R}$ with quadratic communication, in $\mathcal{O}(\log\frac{M}{\varepsilon})$ rounds where $M$ is the maximum honest input magnitude.
翻訳日:2024-11-08 12:00:35 公開日:2024-10-01
# TikTok上での児童被曝とユーザエンゲージメントの測定

More Skin, More Likes! Measuring Child Exposure and User Engagement on TikTok ( http://arxiv.org/abs/2408.05622v2 )

ライセンス: Link先を確認
Miriam Schirmer, Angelina Voggenreiter, Jürgen Pfeffer, (参考訳) 子どもに関するコンテンツをソーシャルメディア上で共有するSharentingは、ますます一般的になってきており、子どものプライバシーと安全をネット上で懸念する声が上がっている。 本研究では,TikTok上での子どもの露出を調査し,プラットフォームの内容と関連するコメントについて詳細に検討する。 子ども115人のユーザーアカウントから5,896本のビデオで432,178件のコメントを分析し、コンテンツをファミリー、ファッション、スポーツに分類した。 私たちの分析では、不適切なコメントやコンタクトオファーといった潜在的なリスクを強調し、外見に基づくコメントに焦点を当てています。 特に21%のコメントが視覚的外観に関連している。 さらに、19.57%の動画は、水着や裸のミドルリフのような衣服を露出する子供たちを描いており、完全な服を着た子供たちをフィーチャーしたビデオよりも、外見に基づくコメントや、はるかに多くのコメントを惹きつけているが、この傾向はダウンロードには及ばない。 これらの知見は,デジタル時代の子どものプライバシーと幸福を守るための意識と保護の強化の必要性を浮き彫りにした。

Sharenting, the practice of parents sharing content about their children on social media platforms, has become increasingly common, raising concerns about children's privacy and safety online. This study investigates children's exposure on TikTok, offering a detailed examination of the platform's content and associated comments. Analyzing 432,178 comments across 5,896 videos from 115 user accounts featuring children, we categorize content into Family, Fashion, and Sports. Our analysis highlights potential risks, such as inappropriate comments or contact offers, with a focus on appearance-based comments. Notably, 21% of comments relate to visual appearance. Additionally, 19.57% of videos depict children in revealing clothing, such as swimwear or bare midriffs, attracting significantly more appearance-based comments and likes than videos featuring fully clothed children, although this trend does not extend to downloads. These findings underscore the need for heightened awareness and protective measures to safeguard children's privacy and well-being in the digital age.
翻訳日:2024-11-08 11:49:24 公開日:2024-10-01
# BMFT:バイアスをベースとした軽量マスキングによるフェアネス達成

BMFT: Achieving Fairness via Bias-based Weight Masking Fine-tuning ( http://arxiv.org/abs/2408.06890v2 )

ライセンス: Link先を確認
Yuyang Xue, Junyu Yan, Raman Dutt, Fasih Haider, Jingshuai Liu, Steven McDonagh, Sotirios A. Tsaftaris, (参考訳) 堅牢なグループフェアネス特性を持つモデルを開発することは、特に医学的診断のような倫理的に敏感な領域において最重要である。 機械学習における公平性を達成するための最近のアプローチは、かなりの量のトレーニングデータを必要とし、実際のシナリオでは実用的でないかもしれないモデル再トレーニングに依存している。 これらの課題を緩和するために,本研究では,トレーニングデータへのアクセスを必要とせずに,トレーニングモデルの公正性を極めて少ないエポックで向上する,新しいポストプロセッシング手法であるBias-based Weight Masking Fine-Tuning (BMFT)を提案する。 BMFTはモデルパラメータの上にマスクを生成し、偏りのある予測に最も寄与する重みを効率的に識別する。 さらに,特徴抽出器が同定したバイアス影響重みを初期微調整し,再初期化分類層上で微調整を行い,識別性能を向上する2段階の脱バイアス戦略を提案する。 4つの皮膚科学データセットと2つの感度属性にわたる広範囲な実験により、BMFTは診断精度と公平度の両方で既存の最先端技術(SOTA)よりも優れていることが示された。 以上の結果から, BMFTの様々なアウト・オブ・ディストリビューション(OOD)設定における公正性向上効果とロバスト性について考察した。 私たちのコードは、https://github.com/vios-s/BMFTで利用可能です。

Developing models with robust group fairness properties is paramount, particularly in ethically sensitive domains such as medical diagnosis. Recent approaches to achieving fairness in machine learning require a substantial amount of training data and depend on model retraining, which may not be practical in real-world scenarios. To mitigate these challenges, we propose Bias-based Weight Masking Fine-Tuning (BMFT), a novel post-processing method that enhances the fairness of a trained model in significantly fewer epochs without requiring access to the original training data. BMFT produces a mask over model parameters, which efficiently identifies the weights contributing the most towards biased predictions. Furthermore, we propose a two-step debiasing strategy, wherein the feature extractor undergoes initial fine-tuning on the identified bias-influenced weights, succeeded by a fine-tuning phase on a reinitialised classification layer to uphold discriminative performance. Extensive experiments across four dermatological datasets and two sensitive attributes demonstrate that BMFT outperforms existing state-of-the-art (SOTA) techniques in both diagnostic accuracy and fairness metrics. Our findings underscore the efficacy and robustness of BMFT in advancing fairness across various out-of-distribution (OOD) settings. Our code is available at: https://github.com/vios-s/BMFT
翻訳日:2024-11-08 07:53:35 公開日:2024-10-01
# POD-TANNによる地力学における材料・マクロ要素のマルチスケールモデリング

A POD-TANN approach for the multiscale modeling of materials and macroelement derivation in geomechanics ( http://arxiv.org/abs/2408.07165v3 )

ライセンス: Link先を確認
Giovanni Piunno, Ioannis Stefanou, Cristina Jommi, (参考訳) 本稿では,多角形分解(POD)と熱力学に基づくニューラルネットワーク(TANN)を組み合わせることで,複雑な非弾性系のマクロ的挙動を捉える手法を提案する。 この手法はPODを利用して、顕微鏡状態情報からマクロ内部状態変数を抽出し、TANNフレームワーク内のエネルギーポテンシャルネットワークをトレーニングするために使用されるマクロ状態記述を強化する。 TANNによって提供される熱力学的一貫性は、PODの階層的な性質と相まって、複雑で非線形な非弾性物質挙動とマクロ力学系の応答を再現することができる。 このアプローチは複雑化の応用を通じて検証され、高忠実度シミュレーションデータを再現する能力を示す。 提案手法は, 連続非弾性代表単位細胞の均質化, 水平荷重を受ける粘土層中のモノパイルを含む地盤工学系のマクロ要素の導出を含む。 最終的に、PODを介して直接得られるプロジェクション演算子は、顕微鏡場を簡単に再構築するために利用される。 以上の結果から,POD-TANN手法は構成応答を再現する精度を提供するだけでなく,計算コストを低減し,不均一な非弾性地盤力学系のマルチスケールモデリングの実用的なツールとなることが示唆された。

This paper introduces a novel approach that combines Proper Orthogonal Decomposition (POD) with Thermodynamics-based Artificial Neural Networks (TANN) to capture the macroscopic behavior of complex inelastic systems and derive macroelements in geomechanics. The methodology leverages POD to extract macroscopic Internal State Variables from microscopic state information, thereby enriching the macroscopic state description used to train an energy potential network within the TANN framework. The thermodynamic consistency provided by TANN, combined with the hierarchical nature of POD, allows to reproduce complex, non-linear inelastic material behaviors as well as macroscopic geomechanical systems responses. The approach is validated through applications of increasing complexity, demonstrating its capability to reproduce high-fidelity simulation data. The applications proposed include the homogenization of continuous inelastic representative unit cells and the derivation of a macroelement for a geotechnical system involving a monopile in a clay layer subjected to horizontal loading. Eventually, the projection operators directly obtained via POD, are exploit to easily reconstruct the microscopic fields. The results indicate that the POD-TANN approach not only offers accuracy in reproducing the studied constitutive responses, but also reduces computational costs, making it a practical tool for the multiscale modeling of heterogeneous inelastic geomechanical systems.
翻訳日:2024-11-08 07:53:35 公開日:2024-10-01
# MobileMEF:マルチ露光核融合のための高速かつ効率的な方法

MobileMEF: Fast and Efficient Method for Multi-Exposure Fusion ( http://arxiv.org/abs/2408.07932v2 )

ライセンス: Link先を確認
Lucas Nedel Kirsten, Zhicheng Fu, Nikhil Ambha Madhusudhana, (参考訳) 近年のカメラ設計・撮像技術の進歩により,スマートフォンを用いた高品質画像の撮影が可能となった。 しかし、デジタルカメラのダイナミックな範囲が限られているため、高度にバランスの取れない照明で撮影された写真の品質は、品質の悪い画像をもたらすことが多い。 この問題に対処するため、ほとんどのデバイスはマルチ露光フレームをキャプチャし、そのフレームを最終融合画像にマージするためにマルチ露光融合法を使用する。 それでも、従来のディープラーニングアプローチや現在のディープラーニングアプローチは、計算とメモリの重い要求のため、モバイルデバイス上のリアルタイムアプリケーションには適さない。 本稿では,モバイルデバイスに適した効率的なビルディングブロックを備えたエンコーダ・デコーダ深層学習アーキテクチャに基づくマルチ露光融合手法を提案する。 この効率的な設計により、我々のモデルはミッドレンジスマートフォンで2秒未満で4K解像度の画像を処理できる。 提案手法は,ハードウェアに制約のあるデバイス上でのリアルタイムアプリケーションに最適な,リアルタイム品質測定と計算効率(実行時間とメモリ使用量)に関する最先端技術より優れている。 私たちのコードは、https://github.com/LucasKirsten/MobileMEF.comで利用可能です。

Recent advances in camera design and imaging technology have enabled the capture of high-quality images using smartphones. However, due to the limited dynamic range of digital cameras, the quality of photographs captured in environments with highly imbalanced lighting often results in poor-quality images. To address this issue, most devices capture multi-exposure frames and then use some multi-exposure fusion method to merge those frames into a final fused image. Nevertheless, most traditional and current deep learning approaches are unsuitable for real-time applications on mobile devices due to their heavy computational and memory requirements. We propose a new method for multi-exposure fusion based on an encoder-decoder deep learning architecture with efficient building blocks tailored for mobile devices. This efficient design makes our model capable of processing 4K resolution images in less than 2 seconds on mid-range smartphones. Our method outperforms state-of-the-art techniques regarding full-reference quality measures and computational efficiency (runtime and memory usage), making it ideal for real-time applications on hardware-constrained devices. Our code is available at: https://github.com/LucasKirsten/MobileMEF.
翻訳日:2024-11-08 07:40:14 公開日:2024-10-01
# LiDAR点雲を用いた人体動作予測の実用化に向けて

Towards Practical Human Motion Prediction with LiDAR Point Clouds ( http://arxiv.org/abs/2408.08202v2 )

ライセンス: Link先を確認
Xiao Han, Yiming Ren, Yichen Yao, Yujing Sun, Yuexin Ma, (参考訳) 人間の動き予測は、人間中心のマルチメディア理解と対話に不可欠である。 現行の手法は一般に、人間のポーズを観察された入力に頼っているが、これは生の視覚センサーデータしか利用できない現実のシナリオでは実用的ではない。 これらの手法を実際に実装するには、ポーズ推定のプレフレーズが不可欠である。 しかし、このような2段階のアプローチは、しばしばエラーの蓄積による性能低下につながる。 さらに、生の視覚データを疎いキーポイント表現に還元すると、情報の密度が著しく低下し、きめ細かい特徴が失われる。 本稿では,最初の単一LiDARに基づく3次元人体動作予測手法である \textit{LiDAR-HMP} を提案する。 構造を意識した新しい身体特徴記述子をベースとして,LiDAR-HMPは観測された動き多様体を将来のポーズに適応的にマッピングし,人間の動きの時空間相関を効果的にモデル化し,予測結果をさらに洗練する。 広汎な実験により,本手法は2つの公開ベンチマーク上での最先端性能を実現し,実世界の展開において顕著な堅牢性と有効性を示す。

Human motion prediction is crucial for human-centric multimedia understanding and interacting. Current methods typically rely on ground truth human poses as observed input, which is not practical for real-world scenarios where only raw visual sensor data is available. To implement these methods in practice, a pre-phrase of pose estimation is essential. However, such two-stage approaches often lead to performance degradation due to the accumulation of errors. Moreover, reducing raw visual data to sparse keypoint representations significantly diminishes the density of information, resulting in the loss of fine-grained features. In this paper, we propose \textit{LiDAR-HMP}, the first single-LiDAR-based 3D human motion prediction approach, which receives the raw LiDAR point cloud as input and forecasts future 3D human poses directly. Building upon our novel structure-aware body feature descriptor, LiDAR-HMP adaptively maps the observed motion manifold to future poses and effectively models the spatial-temporal correlations of human motions for further refinement of prediction results. Extensive experiments show that our method achieves state-of-the-art performance on two public benchmarks and demonstrates remarkable robustness and efficacy in real-world deployments.
翻訳日:2024-11-08 07:29:14 公開日:2024-10-01
# LLMが答えられないものは何か - LLMの弱点を明らかにするための自己組織化フレームワーク

See What LLMs Cannot Answer: A Self-Challenge Framework for Uncovering LLM Weaknesses ( http://arxiv.org/abs/2408.08978v2 )

ライセンス: Link先を確認
Yulong Chen, Yang Liu, Jianhao Yan, Xuefeng Bai, Ming Zhong, Yinghao Yang, Ziyi Yang, Chenguang Zhu, Yue Zhang, (参考訳) LLM(Large Language Models)の印象的なパフォーマンスは多くの人間設計のベンチマークを一貫して上回り、LLMの欠点を評価する上での新たな課題を提示している。 タスクの設計とLLMの制限を見つけることがますます重要になっている。 本稿では,LLMが誤りから自身の限界を発見できるかどうかを考察する。 そこで本研究では,Human-in-the-loopを用いたセルフチェレンジ評価フレームワークを提案する。 GPT-4が答えられないシードインスタンスから始めて、GPT-4に新しいインスタンスを生成するのに使えるエラーパターンを要約させ、それらに人間のフィードバックを取り入れて、より困難なデータを生成するためにこれらのパターンを洗練させます。 テキスト操作や仮定による質問など8つのパターンが出来上がりました。 次に,GPT-4が生成する1,835個のインスタンスと,人手によるゴールド応答を併用したベンチマーク,SC-G4を構築した。 SC-G4は、LSMの能力の詳細な評価を可能にする、挑戦的なベンチマークとして機能する。 GPT-4で正解できるのは, SC-G4 の44.96 % のみである。 興味深いことに、パイロット実験ではこれらのエラーパターンがClaude-3やLlama-3といった他のLSMにも挑戦しており、微調整で完全には解決できないことが示されている。 我々の研究は、LLMが自身の固有の欠陥を自律的に識別し、将来の動的かつ自動評価のための洞察を提供することを実証する第一歩を踏み出した。

The impressive performance of Large Language Models (LLMs) has consistently surpassed numerous human-designed benchmarks, presenting new challenges in assessing the shortcomings of LLMs. Designing tasks and finding LLMs' limitations are becoming increasingly important. In this paper, we investigate the question of whether an LLM can discover its own limitations from the errors it makes. To this end, we propose a Self-Challenge evaluation framework with human-in-the-loop. Starting from seed instances that GPT-4 fails to answer, we prompt GPT-4 to summarize error patterns that can be used to generate new instances and incorporate human feedback on them to refine these patterns for generating more challenging data, iteratively. We end up with 8 diverse patterns, such as text manipulation and questions with assumptions. We then build a benchmark, SC-G4, consisting of 1,835 instances generated by GPT-4 using these patterns, with human-annotated gold responses. The SC-G4 serves as a challenging benchmark that allows for a detailed assessment of LLMs' abilities. Our results show that only 44.96\% of instances in SC-G4 can be answered correctly by GPT-4. Interestingly, our pilot study indicates that these error patterns also challenge other LLMs, such as Claude-3 and Llama-3, and cannot be fully resolved through fine-tuning. Our work takes the first step to demonstrate that LLMs can autonomously identify their inherent flaws and provide insights for future dynamic and automatic evaluation.
翻訳日:2024-11-08 07:07:05 公開日:2024-10-01
# 自律走行におけるゼロショットロバスト性を実現するセグメント音響モデル

Segment-Anything Models Achieve Zero-shot Robustness in Autonomous Driving ( http://arxiv.org/abs/2408.09839v2 )

ライセンス: Link先を確認
Jun Yan, Pengyu Wang, Danni Wang, Weiquan Huang, Daniel Watzenig, Huilin Yin, (参考訳) セマンティックセグメンテーションは自律運転において重要な認識課題である。 それは敵の例のリスクに悩まされる。 過去数年間、ディープラーニングは、比較的少数のパラメータを持つ畳み込みニューラルネットワーク(CNN)モデルから、膨大な数のパラメータを持つ基礎モデルへと徐々に移行してきた。 segment-anything Model (SAM) は、様々な種類の画像を扱うことができ、特定のオブジェクトを訓練することなく、画像内の任意のオブジェクトを認識し、セグメント化することができる一般化されたイメージセグメンテーションフレームワークである。 セマンティックセグメンテーション、オブジェクト検出、トラッキングなど、さまざまな下流タスクを処理できる統一モデルである。 自律運転におけるセマンティックセグメンテーションの課題として,SAMのゼロショット対逆ロバスト性を検討することが重要である。 そこで本研究では,SAMのロバスト性に関する系統的研究を行った。 実験結果から,ブラックボックスの破損やホワイトボックスの攻撃によるSAMのゼロショット対逆ロバスト性は,追加訓練を必要とせずとも許容できることがわかった。 この研究の発見は、巨大なモデルパラメータと大量のトレーニングデータが出現する現象を招き、敵対的堅牢性の保証を築き上げているという洞察に富んでいる。 SAMはビジョンファウンデーションモデルであり、人工知能(AGI)パイプラインの初期のプロトタイプと見なすことができる。 このようなパイプラインでは、統一モデルは多様なタスクを処理できる。 そこで本研究では,視覚基礎モデルが安全な自動運転に与える影響だけでなく,信頼性の高いAGIの開発にも展望を与えている。 コードは、https://github.com/momo1986/robust_sam_iv.comで入手できる。

Semantic segmentation is a significant perception task in autonomous driving. It suffers from the risks of adversarial examples. In the past few years, deep learning has gradually transitioned from convolutional neural network (CNN) models with a relatively small number of parameters to foundation models with a huge number of parameters. The segment-anything model (SAM) is a generalized image segmentation framework that is capable of handling various types of images and is able to recognize and segment arbitrary objects in an image without the need to train on a specific object. It is a unified model that can handle diverse downstream tasks, including semantic segmentation, object detection, and tracking. In the task of semantic segmentation for autonomous driving, it is significant to study the zero-shot adversarial robustness of SAM. Therefore, we deliver a systematic empirical study on the robustness of SAM without additional training. Based on the experimental results, the zero-shot adversarial robustness of the SAM under the black-box corruptions and white-box adversarial attacks is acceptable, even without the need for additional training. The finding of this study is insightful in that the gigantic model parameters and huge amounts of training data lead to the phenomenon of emergence, which builds a guarantee of adversarial robustness. SAM is a vision foundation model that can be regarded as an early prototype of an artificial general intelligence (AGI) pipeline. In such a pipeline, a unified model can handle diverse tasks. Therefore, this research not only inspects the impact of vision foundation models on safe autonomous driving but also provides a perspective on developing trustworthy AGI. The code is available at: https://github.com/momo1986/robust_sam_iv.
翻訳日:2024-11-08 06:55:48 公開日:2024-10-01
# エッジ上での大規模言語モデルの調整とデプロイ - 問題とアプローチ

Fine-Tuning and Deploying Large Language Models Over Edges: Issues and Approaches ( http://arxiv.org/abs/2408.10691v2 )

ライセンス: Link先を確認
Yanjie Dong, Haijun Zhang, Chengming Li, Song Guo, Victor C. M. Leung, Xiping Hu, (参考訳) 2019年にGPT2-1.5Bが発明されて以来、大型言語モデル(LLM)は特殊モデルから汎用基盤モデルへと移行してきた。 LLMは印象的なゼロショット能力を示すが、ローカルデータセットとデプロイメントのための重要なリソースを微調整する必要がある。 従来の1次オプティマイザによる微調整技術では、メインストリームのハードウェア能力を超える相当なGPUメモリが必要である。 したがって、メモリ効率のよい手法が研究される。 モデル圧縮技術は、持続可能な人工知能の進歩をサポートするために、エネルギー消費、運用コスト、環境への影響を減らすことができる。 さらに、大規模なファンデーションモデルは、画像、オーディオ、ビデオ、マルチモーダルコンテンツを作成するために拡張され、より効率的なデプロイメントの必要性を強調している。 そこで本研究では,ネットワークエッジ上でのメモリ効率の高い微調整手法の概要を概説する。 また,ネットワークエッジ上にLLMをデプロイするビジョンを提供するため,モデル圧縮に関する最新の文献をレビューする。

Since the invention of GPT2--1.5B in 2019, large language models (LLMs) have transitioned from specialized models to versatile foundation models. The LLMs exhibit impressive zero-shot ability, however, require fine-tuning on local datasets and significant resources for deployment. Traditional fine-tuning techniques with the first-order optimizers require substantial GPU memory that exceeds mainstream hardware capability. Therefore, memory-efficient methods are motivated to be investigated. Model compression techniques can reduce energy consumption, operational costs, and environmental impact so that to support sustainable artificial intelligence advancements. Additionally, large-scale foundation models have expanded to create images, audio, videos, and multi-modal contents, further emphasizing the need for efficient deployment. Therefore, we are motivated to present a comprehensive overview of the prevalent memory-efficient fine-tuning methods over the network edge. We also review the state-of-the-art literatures on model compression to provide a vision on deploying LLMs over the network edge.
翻訳日:2024-11-08 06:33:41 公開日:2024-10-01
# Goal-directed ASP を用いたシステム保証事例のセマンティック解析の自動化

Automating Semantic Analysis of System Assurance Cases using Goal-directed ASP ( http://arxiv.org/abs/2408.11699v4 )

ライセンス: Link先を確認
Anitha Murugesan, Isaac Wong, Joaquín Arias, Robert Stroud, Srivatsan Varadarajan, Elmer Salazar, Gopal Gupta, Robin Bloomfield, John Rushby, (参考訳) 保証ケースは、安全とセキュリティが重要となるシステムの認証に関する議論と証拠を示すための構造化された方法を提供する。 しかしながら、これらの保証ケースの作成と評価は、適度な複雑さのシステムであっても複雑で困難である可能性がある。 そのため、これらのタスクのための新しい自動化手法を開発する必要性が高まっている。 既存の保証ケースツールは構造的側面の自動化に重点を置いているが、保証引数のセマンティックコヒーレンスと正確性を完全に評価する能力は欠如している。 従来の作業では、推論プロセス、エビデンス利用、およびデファタ(デファタ)と反証拠の明確な記述を優先するAssurance 2.0フレームワークを導入しました。 本稿では,共通センス推論と解集合プログラミングの解法,特にs(CASP)を用いて,意味ルールに基づく分析機能を備えた Assurance 2.0 の拡張手法を提案する。 これらの分析手法を用いることで、論理的整合性、妥当性、不実現性など、保証事例のユニークな意味的側面を考察する。 これらの分析の応用は、システム開発者と評価者の両方に、保証ケースに対する信頼性を高めます。

Assurance cases offer a structured way to present arguments and evidence for certification of systems where safety and security are critical. However, creating and evaluating these assurance cases can be complex and challenging, even for systems of moderate complexity. Therefore, there is a growing need to develop new automation methods for these tasks. While most existing assurance case tools focus on automating structural aspects, they lack the ability to fully assess the semantic coherence and correctness of the assurance arguments. In prior work, we introduced the Assurance 2.0 framework that prioritizes the reasoning process, evidence utilization, and explicit delineation of counter-claims (defeaters) and counter-evidence. In this paper, we present our approach to enhancing Assurance 2.0 with semantic rule-based analysis capabilities using common-sense reasoning and answer set programming solvers, specifically s(CASP). By employing these analysis techniques, we examine the unique semantic aspects of assurance cases, such as logical consistency, adequacy, indefeasibility, etc. The application of these analyses provides both system developers and evaluators with increased confidence about the assurance case.
翻訳日:2024-11-08 06:11:36 公開日:2024-10-01
# Goal-directed ASP を用いたシステム保証事例のセマンティック解析の自動化

Automating Semantic Analysis of System Assurance Cases using Goal-directed ASP ( http://arxiv.org/abs/2408.11699v5 )

ライセンス: Link先を確認
Anitha Murugesan, Isaac Wong, Joaquín Arias, Robert Stroud, Srivatsan Varadarajan, Elmer Salazar, Gopal Gupta, Robin Bloomfield, John Rushby, (参考訳) 保証ケースは、安全とセキュリティが重要となるシステムの認証に関する議論と証拠を示すための構造化された方法を提供する。 しかしながら、これらの保証ケースの作成と評価は、適度な複雑さのシステムであっても複雑で困難である可能性がある。 そのため、これらのタスクのための新しい自動化手法を開発する必要性が高まっている。 既存の保証ケースツールは構造的側面の自動化に重点を置いているが、保証引数のセマンティックコヒーレンスと正確性を完全に評価する能力は欠如している。 従来の作業では、推論プロセス、エビデンス利用、およびデファタ(デファタ)と反証拠の明確な記述を優先するAssurance 2.0フレームワークを導入しました。 本稿では,共通センス推論と解集合プログラミングの解法,特にs(CASP)を用いて,意味ルールに基づく分析機能を備えた Assurance 2.0 の拡張手法を提案する。 これらの分析手法を用いることで、論理的整合性、妥当性、不実現性など、保証事例のユニークな意味的側面を考察する。 これらの分析の応用は、システム開発者と評価者の両方に、保証ケースに対する信頼性を高めます。

Assurance cases offer a structured way to present arguments and evidence for certification of systems where safety and security are critical. However, creating and evaluating these assurance cases can be complex and challenging, even for systems of moderate complexity. Therefore, there is a growing need to develop new automation methods for these tasks. While most existing assurance case tools focus on automating structural aspects, they lack the ability to fully assess the semantic coherence and correctness of the assurance arguments. In prior work, we introduced the Assurance 2.0 framework that prioritizes the reasoning process, evidence utilization, and explicit delineation of counter-claims (defeaters) and counter-evidence. In this paper, we present our approach to enhancing Assurance 2.0 with semantic rule-based analysis capabilities using common-sense reasoning and answer set programming solvers, specifically s(CASP). By employing these analysis techniques, we examine the unique semantic aspects of assurance cases, such as logical consistency, adequacy, indefeasibility, etc. The application of these analyses provides both system developers and evaluators with increased confidence about the assurance case.
翻訳日:2024-11-08 06:11:36 公開日:2024-10-01
# 2022年Mpoxアウトブレイク時のオンライン毒性の特徴:トピックとネットワークのダイナミクスの計算解析

Characterizing Online Toxicity During the 2022 Mpox Outbreak: A Computational Analysis of Topical and Network Dynamics ( http://arxiv.org/abs/2408.11962v3 )

ライセンス: Link先を確認
Lizhou Fan, Lingyao Li, Libby Hemphill, (参考訳) 背景:ハラスメント、いじめ、ヘイトスピーチ、誤報の拡散などの行動を含むオンライン毒性は、デジタル時代において社会的関心事となっている。 2022年のムポックスの流行は、当初は「モンキーポックス」と呼ばれていたが、その後、関連するスティグマや社会的懸念を緩和するために改名された。 目的:本研究では,2022年のMpox流行を取り巻く有害なオンライン談話の包括的分析を行う。 我々の目的は、その起源を解明し、その性質と内容を特徴づけ、その拡散パターンを辿り、そのより広範な社会的含意を評価し、将来の危機においてそのような毒性を緩和するための戦略を示すための洞察を提供することである。 メソッド: 我々は660万以上のユニークなツイートを収集し、コンテキスト、範囲、コンテンツ、話者、意図を含む5つの次元から分析した。 BERTベースのトピックモデリングとソーシャルネットワークコミュニティのクラスタリングを活用して、Twitter上で有害なダイナミックスを強調した。 結果:Twitter上での有害なオンライン談話では,病気(46.6%),健康政策と医療(19.3%),ホモフォビア(23.9%),政治(6.0%),人種差別(4.1%)の5つの高い話題カテゴリーを特定した。 言及やリツイート、トップユーザーによる毒性拡散ネットワークを通じて、有害コンテンツのリツイートが広まっていたのに対して、影響力のあるユーザはリツイートを通じてこの毒性に関わったり対抗したりすることはめったにないことがわかった。 結論: トピックのダイナミクスを追跡することで、有害なコンテンツの人気の変化をオンラインで追跡することができ、社会的課題の理解を深めることができます。 ネットワークのダイナミクスは、重要なソーシャルメディアインフルエンサーとその意図を浮き彫りにし、有害な談話におけるこれらの中心人物に対処することで危機コミュニケーションを高め、政策決定を通知できることを示している。

Background: Online toxicity, encompassing behaviors such as harassment, bullying, hate speech, and the dissemination of misinformation, has become a pressing social concern in the digital age. The 2022 Mpox outbreak, initially termed "Monkeypox" but subsequently renamed to mitigate associated stigmas and societal concerns, serves as a poignant backdrop to this issue. Objective: In this research, we undertake a comprehensive analysis of the toxic online discourse surrounding the 2022 Mpox outbreak. Our objective is to dissect its origins, characterize its nature and content, trace its dissemination patterns, and assess its broader societal implications, with the goal of providing insights that can inform strategies to mitigate such toxicity in future crises. Methods: We collected more than 1.6 million unique tweets and analyzed them from five dimensions, including context, extent, content, speaker, and intent. Utilizing BERT-based topic modeling and social network community clustering, we delineated the toxic dynamics on Twitter. Results: We identified five high-level topic categories in the toxic online discourse on Twitter, including disease (46.6%), health policy and healthcare (19.3%), homophobia (23.9%), politics (6.0%), and racism (4.1%). Through the toxicity diffusion networks of mentions, retweets, and the top users, we found that retweets of toxic content were widespread, while influential users rarely engaged with or countered this toxicity through retweets. Conclusions: By tracking topical dynamics, we can track the changing popularity of toxic content online, providing a better understanding of societal challenges. Network dynamics spotlight key social media influencers and their intents, indicating that addressing these central figures in toxic discourse can enhance crisis communication and inform policy-making.
翻訳日:2024-11-08 06:00:03 公開日:2024-10-01
# Reactzyme: 酵素反応予測のためのベンチマーク

Reactzyme: A Benchmark for Enzyme-Reaction Prediction ( http://arxiv.org/abs/2408.13659v2 )

ライセンス: Link先を確認
Chenqing Hua, Bozitao Zhong, Sitao Luan, Liang Hong, Guy Wolf, Doina Precup, Shuangjia Zheng, (参考訳) 酵素は、その特異的な触媒反応によって、生命のあらゆる面において必要であり、多様な生物学的プロセスと適応を可能にしている。 酵素機能の予測は、生物学的経路を理解し、薬物開発を誘導し、生産物を生産し、進化研究を促進するために不可欠である。 そこで本研究では,酵素の触媒的反応に基づくアノテート手法を提案する。 この方法は、特定の反応に関する詳細な洞察を与え、新しく発見された反応に適応し、タンパク質ファミリーや専門家由来の反応クラスによる伝統的な分類から分岐する。 私たちは、酵素反応データセットの分析に機械学習アルゴリズムを使用し、酵素の機能に関するより洗練されたビューを提供します。 評価では,2024年1月8日までにSwissProtデータベースとRheaデータベースから得られた,これまでで最大の酵素反応データセットを活用している。 本研究は,酵素反応予測を検索問題として捉え,酵素の触媒活性を比例してランク付けすることを目的とする。 本モデルでは,新規反応のタンパク質をリクルートし,新規タンパク質の反応を予測し,酵素の発見と機能アノテーション(https://github.com/WillHua127/ReactZyme)を促進する。

Enzymes, with their specific catalyzed reactions, are necessary for all aspects of life, enabling diverse biological processes and adaptations. Predicting enzyme functions is essential for understanding biological pathways, guiding drug development, enhancing bioproduct yields, and facilitating evolutionary studies. Addressing the inherent complexities, we introduce a new approach to annotating enzymes based on their catalyzed reactions. This method provides detailed insights into specific reactions and is adaptable to newly discovered reactions, diverging from traditional classifications by protein family or expert-derived reaction classes. We employ machine learning algorithms to analyze enzyme reaction datasets, delivering a much more refined view on the functionality of enzymes. Our evaluation leverages the largest enzyme-reaction dataset to date, derived from the SwissProt and Rhea databases with entries up to January 8, 2024. We frame the enzyme-reaction prediction as a retrieval problem, aiming to rank enzymes by their catalytic ability for specific reactions. With our model, we can recruit proteins for novel reactions and predict reactions in novel proteins, facilitating enzyme discovery and function annotation (https://github.com/WillHua127/ReactZyme).
翻訳日:2024-11-08 05:15:13 公開日:2024-10-01
# ReactZyme: 酵素反応予測のためのベンチマーク

ReactZyme: A Benchmark for Enzyme-Reaction Prediction ( http://arxiv.org/abs/2408.13659v3 )

ライセンス: Link先を確認
Chenqing Hua, Bozitao Zhong, Sitao Luan, Liang Hong, Guy Wolf, Doina Precup, Shuangjia Zheng, (参考訳) 酵素は、その特異的な触媒反応によって、生命のあらゆる面において必要であり、多様な生物学的プロセスと適応を可能にしている。 酵素機能の予測は、生物学的経路を理解し、薬物開発を誘導し、生産物を生産し、進化研究を促進するために不可欠である。 そこで本研究では,酵素の触媒的反応に基づくアノテート手法を提案する。 この方法は、特定の反応に関する詳細な洞察を与え、新しく発見された反応に適応し、タンパク質ファミリーや専門家由来の反応クラスによる伝統的な分類から分岐する。 私たちは、酵素反応データセットの分析に機械学習アルゴリズムを使用し、酵素の機能に関するより洗練されたビューを提供します。 評価では,2024年1月8日までにSwissProtデータベースとRheaデータベースから得られた,これまでで最大の酵素反応データセットを活用している。 本研究は,酵素反応予測を検索問題として捉え,酵素の触媒活性を比例してランク付けすることを目的とする。 本モデルでは,新規反応のタンパク質をリクルートし,新規タンパク質の反応を予測し,酵素の発見と機能アノテーション(https://github.com/WillHua127/ReactZyme)を促進する。

Enzymes, with their specific catalyzed reactions, are necessary for all aspects of life, enabling diverse biological processes and adaptations. Predicting enzyme functions is essential for understanding biological pathways, guiding drug development, enhancing bioproduct yields, and facilitating evolutionary studies. Addressing the inherent complexities, we introduce a new approach to annotating enzymes based on their catalyzed reactions. This method provides detailed insights into specific reactions and is adaptable to newly discovered reactions, diverging from traditional classifications by protein family or expert-derived reaction classes. We employ machine learning algorithms to analyze enzyme reaction datasets, delivering a much more refined view on the functionality of enzymes. Our evaluation leverages the largest enzyme-reaction dataset to date, derived from the SwissProt and Rhea databases with entries up to January 8, 2024. We frame the enzyme-reaction prediction as a retrieval problem, aiming to rank enzymes by their catalytic ability for specific reactions. With our model, we can recruit proteins for novel reactions and predict reactions in novel proteins, facilitating enzyme discovery and function annotation (https://github.com/WillHua127/ReactZyme).
翻訳日:2024-11-08 05:15:13 公開日:2024-10-01
# 再重み付けによる公正性向上 - 十分ルールを実現するための道程

Enhancing Fairness through Reweighting: A Path to Attain the Sufficiency Rule ( http://arxiv.org/abs/2408.14126v2 )

ライセンス: Link先を確認
Xuan Zhao, Klaus Broelemann, Salvatore Ruggieri, Gjergji Kasneci, (参考訳) 本稿では, モデルトレーニングにおける経験的リスク最小化(ERM)プロセスを, 公正性を高めるために, 訓練データの洗練された重み付け方式により向上させる, 革新的なアプローチを提案する。 このスキームは、最適予測器が多様なサブグループ間で整合性を維持することを保証することによって、公正性における十分性規則を維持することを目的としている。 この課題に対処するために、我々は二段階の定式化を採用し、サンプル再重み付け戦略について検討する。 モデルサイズをヒンジする従来の方法とは異なり、我々の定式化は標本重みの空間上の一般化複雑性をモデル化する。 トレーニング速度を改善するために重量を区別します。 提案手法の有効性とロバスト性を実証し,様々な実験における予測性能と公正度測定値のバランスの整合性の向上を示した。

We introduce an innovative approach to enhancing the empirical risk minimization (ERM) process in model training through a refined reweighting scheme of the training data to enhance fairness. This scheme aims to uphold the sufficiency rule in fairness by ensuring that optimal predictors maintain consistency across diverse sub-groups. We employ a bilevel formulation to address this challenge, wherein we explore sample reweighting strategies. Unlike conventional methods that hinge on model size, our formulation bases generalization complexity on the space of sample weights. We discretize the weights to improve training speed. Empirical validation of our method showcases its effectiveness and robustness, revealing a consistent improvement in the balance between prediction performance and fairness metrics across various experiments.
翻訳日:2024-11-08 05:04:12 公開日:2024-10-01
# チャネル当たり量子化を用いたLLaMA3-70Bシリーズの特異性

The Uniqueness of LLaMA3-70B Series with Per-Channel Quantization ( http://arxiv.org/abs/2408.15301v2 )

ライセンス: Link先を確認
Minghai Qin, (参考訳) 我々はLLaMA2/3.1-70BモデルとLLaMA3/3.1/3.2-1B/3B/8B/405Bモデルの両方に欠落しているLLaMA3/3.1-70Bモデルにおいて、特徴的な量子化に関する挙動を観察した。 量子化は、大規模言語モデル(LLM)を効率的にデプロイするための重要なテクニックである。 W8A8後の量子化がモデル精度、特に最近リリースされたLLaMA3/3.1モデルシリーズに与える影響はいまだ議論の余地がある。 本稿では,LLaMA3-70Bモデルシリーズが量子化に一意に弱い理由について述べる。 なぜそうなるのか? では、この問題にどう対処すればよいのか? LLaMA3-70B モデルシリーズは,W8A8 チャネル毎の学習後量子化で独自の精度劣化挙動を呈し,オープン LLM リーダーボードに特徴付けられる複数の LLM を実証的に検討した。 対照的に、LLaMA2、LLaMA3/3.1-8B、LLaMA3.2、Qwen、Mixtral、Mistral、Phi-3、Falconといった他のモデルシリーズはW8A8で堅牢な性能を示した。 その結果,LLaMA3-70Bの重量分布が主な要因であることが示唆された。 トランスフォーマーブロック間の重み分布の異なる特性を巧みに解析することにより、ハードウェア/ソフトウェアオーバヘッドの異なるトレードオフを行う2つのソリューションを提案する。 まず,グループごとのW8A8量子化の粒度を3倍に抑える混合戦略を提案する。 第2に、重みとアクティベーションの量子化誤差のバランスを保ちながら、チャネルごとの量子化を全体にわたって維持するバイスムーシング戦略を導入する。 実験結果から,両戦略はW8A8量子化の下でLLaMA3-70Bモデル全体の精度を効果的に保ち,FP16モデルと同等の性能を発揮することが示された。

We have observed a distinctive quantization-related behavior in the LLaMA3/3.1-70B models that is absent in both the LLaMA2-70B and LLaMA3/3.1/3.2-1B/3B/8B/405B models. Quantization is a crucial technique for deploying large language models (LLMs) efficiently. The impact of W8A8 post-training quantization on model accuracy, especially on the recently released LLaMA3/3.1 model series, remains contentious. In this paper, we explore three key questions: What makes the LLaMA3-70B model series uniquely vulnerable to quantization? Why is this the case? And how can the issue be addressed? We empirically investigate multiple LLMs featured on an open LLM leaderboard, discovering that the LLaMA3-70B model series have a unique accuracy degradation behavior with W8A8 per-channel post-training quantization. In contrast, other model series such as LLaMA2, LLaMA3/3.1-8B, LLaMA3.2, Qwen, Mixtral, Mistral, Phi-3, and Falcon demonstrate robust performance with W8A8. Contrary to previous assertions attributing degradation to the large dynamic range of activations, our findings indicate that the weight distribution of the LLaMA3-70B is the primary factor behind the vulnerability. By meticulously analyzing the distinct characteristics of weight distributions across Transformer blocks, we propose two solutions that make different tradeoffs in hardware/software overhead. First, we propose a mixed strategy where less than 3\% of the layers employ finer per-group W8A8 quantization granularity. Second, we introduce a bi-smoothing strategy that balances quantization errors between weights and activations while maintaining per-channel quantization throughout. Experimental results demonstrate that both strategies effectively preserve the accuracy of the entire LLaMA3-70B model series under W8A8 quantization, achieving performance on par with their FP16 counterparts.
翻訳日:2024-11-08 04:41:58 公開日:2024-10-01
# サブラジアント原子アレイと空洞真空との強い結合の実証

Demonstration of strong coupling of a subradiant atom array to a cavity vacuum ( http://arxiv.org/abs/2408.17079v2 )

ライセンス: Link先を確認
Bence Gábor, K. V. Adwaith, Dániel Varga, Bálint Sárközi, András Dombi, T. W. Clark, F. I. B. Williams, David Nagy, András Vukics, Peter Domokos, (参考訳) 非駆動型高強度光共振器内での冷媒原子の線形散乱を考慮し、強結合真空場に特有の効果を実験的に示す。 共振器モードに関して、非共振格子に原子を配置すると、散乱は破壊的な干渉によって抑制される。 しかし, 強い結合が励起スペクトルの劇的な変化を招き, ゆらぎの強度で真空ラビが分裂することが証明された。 さらに、強結合真空場により誘導されるラマン散乱により、サブラジアントアレイからの線形散乱において有意な偏光回転を示す。

By considering linear scattering of cold atoms inside an undriven high-finesse optical resonator, we experimentally demonstrate effects unique to a strongly coupled vacuum field. Arranging the atoms in an incommensurate lattice, with respect to the resonator mode, the scattering can be suppressed by destructive interference: resulting in a subradiant atomic array. We show however, that strong coupling leads to a drastic modification of the excitation spectrum, as evidenced by well-resolved vacuum Rabi splitting in the intensity of the fluctuations. Furthermore, we demonstrate a significant polarization rotation in the linear scattering off the subradiant array via Raman scattering induced by the strongly coupled vacuum field.
翻訳日:2024-11-08 03:57:28 公開日:2024-10-01
# シンボリックXAIに向けて - 特徴間の人間の理解可能な論理的関係を通しての解説-

Towards Symbolic XAI -- Explanation Through Human Understandable Logical Relationships Between Features ( http://arxiv.org/abs/2408.17198v2 )

ライセンス: Link先を確認
Thomas Schnake, Farnoush Rezaei Jafari, Jonas Lederer, Ping Xiong, Shinichi Nakajima, Stefan Gugler, Grégoire Montavon, Klaus-Robert Müller, (参考訳) 説明可能な人工知能(XAI)は、AIシステムの透明性と信頼を促進する上で重要な役割を担います。 しかしながら、モデルの抽象的推論や問題解決戦略も、人間の問題へのアプローチ方法とより密接に一致しているため、関係しているかどうかを問う。 本稿では,入力特徴間の論理的関係を表現したシンボリッククエリに関連性を持つシンボリックXAIというフレームワークを提案し,モデルの予測の背後にある抽象的推論を抽出する。 この手法は、モデル予測の単純かつ一般的な多階分解に基づいて構築される。 この分解は、GNN-LRPのような高次伝播に基づく関連法や、XAIで一般的に用いられる摂動に基づく説明法を用いて特定することができる。 自然言語処理(NLP),ビジョン,量子化学(QC)の領域では,抽象的な記号的ドメイン知識が豊富であり,ユーザにとって重要な関心事である。 シンボリックXAIフレームワークは、ユーザーによるカスタマイズに柔軟であり、論理式を通じて人間が読めるモデルの決定プロセスを理解する。

Explainable Artificial Intelligence (XAI) plays a crucial role in fostering transparency and trust in AI systems, where traditional XAI approaches typically offer one level of abstraction for explanations, often in the form of heatmaps highlighting single or multiple input features. However, we ask whether abstract reasoning or problem-solving strategies of a model may also be relevant, as these align more closely with how humans approach solutions to problems. We propose a framework, called Symbolic XAI, that attributes relevance to symbolic queries expressing logical relationships between input features, thereby capturing the abstract reasoning behind a model's predictions. The methodology is built upon a simple yet general multi-order decomposition of model predictions. This decomposition can be specified using higher-order propagation-based relevance methods, such as GNN-LRP, or perturbation-based explanation methods commonly used in XAI. The effectiveness of our framework is demonstrated in the domains of natural language processing (NLP), vision, and quantum chemistry (QC), where abstract symbolic domain knowledge is abundant and of significant interest to users. The Symbolic XAI framework provides an understanding of the model's decision-making process that is both flexible for customization by the user and human-readable through logical formulas.
翻訳日:2024-11-08 03:57:28 公開日:2024-10-01
# 大規模言語モデルにおけるリスク評価のための会話複雑度

Conversational Complexity for Assessing Risk in Large Language Models ( http://arxiv.org/abs/2409.01247v2 )

ライセンス: Link先を確認
John Burden, Manuel Cebrian, Jose Hernandez-Orallo, (参考訳) 大きな言語モデル(LLM)は二重用途ジレンマを示し、特に対話的相互作用を通じて、有害な可能性を持ちながら有益なアプリケーションを可能にする。 様々な安全対策にもかかわらず、先進的なLLMは脆弱なままである。 ケビン・ルースのBingとの有名な会話は、長期にわたる対話の後有害なアウトプットを引き起こした。 これは、同様のコンテンツをより簡単に作成できる単純な初期のジェイルブレイクとは対照的であり、疑問を提起する: LLMから有害な情報を引き出すのに、どのくらいの会話努力が必要か? 本稿では,特定の応答を得るために使用される会話長を定量化する会話長(CL)と,その応答につながるユーザの命令シーケンスのコルモゴロフ複雑性として定義される会話複雑度(CC)の2つの尺度を提案する。 Kolmogorov複雑性の計算不能性に対処するため,リファレンスLCMを用いてCCを近似し,ユーザ命令の圧縮性を評価する。 このアプローチを大規模な赤チームデータセットに適用し、有害で無害な会話の長さと複雑さの統計的分布を定量的に分析する。 我々の経験から、この分布分析とCCの最小化はAIの安全性を理解するための貴重なツールであり、有害な情報のアクセシビリティに関する洞察を与えてくれることが示唆されている。 この研究は、LLMの安全性に対する新たな視点の基礎を確立し、害を与える経路のアルゴリズム的な複雑さを中心にしている。

Large Language Models (LLMs) present a dual-use dilemma: they enable beneficial applications while harboring potential for harm, particularly through conversational interactions. Despite various safeguards, advanced LLMs remain vulnerable. A watershed case was Kevin Roose's notable conversation with Bing, which elicited harmful outputs after extended interaction. This contrasts with simpler early jailbreaks that produced similar content more easily, raising the question: How much conversational effort is needed to elicit harmful information from LLMs? We propose two measures: Conversational Length (CL), which quantifies the conversation length used to obtain a specific response, and Conversational Complexity (CC), defined as the Kolmogorov complexity of the user's instruction sequence leading to the response. To address the incomputability of Kolmogorov complexity, we approximate CC using a reference LLM to estimate the compressibility of user instructions. Applying this approach to a large red-teaming dataset, we perform a quantitative analysis examining the statistical distribution of harmful and harmless conversational lengths and complexities. Our empirical findings suggest that this distributional analysis and the minimisation of CC serve as valuable tools for understanding AI safety, offering insights into the accessibility of harmful information. This work establishes a foundation for a new perspective on LLM safety, centered around the algorithmic complexity of pathways to harm.
翻訳日:2024-11-08 03:23:46 公開日:2024-10-01
# サブギガヘルツ系における低特性インピーダンス超伝導タドポール共振器

Low-characteristic-impedance superconducting tadpole resonators in the sub-gigahertz regime ( http://arxiv.org/abs/2409.02558v2 )

ライセンス: Link先を確認
Miika Rasola, Samuel Klaver, Jian Ma, Priyank Singh, Tuomas Uusnäkki, Heikki Suominen, Mikko Möttönen, (参考訳) 共平面導波路の一端に短絡し、他方端に大きな平行平板コンデンサを配置し、簡易で多目的な共振器設計を実証する。 構造形状のため、タドポール共振器と命名する。 この設計により、低値を必要とするアプリケーションに特に適合するように、共振器の特性インピーダンスを調整できる。 Z_c = 2\,{\Omega}$ から 10\,{\Omega}$ および周波数範囲が$f_0 = 290\,\mathrm{MHz}$ から $1.1\,\mathrm{GHz}$ の内的品質要因に到達する一方で、$Q_{\mathrm{int}} = 8.5\times 10^3$ の損失接点への変換を$\tan({\delta}) = 1.2\times 10^{-4} の損失接点への変換を行う。 これらのタドポール共振器は、チップのフットプリントを小さく保ちながら、低周波数・低文字インピーダンスを必要とするアプリケーションに適していると結論付けている。 タッドポール共振器の低特性インピーダンスは、他のマイクロ波成分との強い誘導結合を達成するための有望な候補となる。

We demonstrate a simple and versatile resonator design based on a short strip of a typical coplanar waveguide shorted at one end to the ground and shunted at the other end with a large parallel-plate capacitor. Due to the shape of the structure, we coin it the tadpole resonator. The design allows tailoring the characteristic impedance of the resonator to especially suit applications requiring low values. We demonstrate characteristic impedances ranging from $Z_c = 2\,{\Omega}$ to $10\,{\Omega}$ and a frequency range from $f_0 = 290\,\mathrm{MHz}$ to $1.1\,\mathrm{GHz}$ while reaching internal quality factors of order $Q_{\mathrm{int}} = 8.5\times 10^3$ translating into a loss tangent of $\tan({\delta}) = 1.2\times 10^{-4}$ for the aluminium oxide used as the dielectric in the parallel plate capacitor. We conclude that these tadpole resonators are well suited for applications requiring low frequency and low charactersitic impedance while maintaining a small footprint on chip. The low characteristic impedance of the tadpole resonator renders it a promising candidate for achieving strong inductive coupling to other microwave components.
翻訳日:2024-11-07 23:45:04 公開日:2024-10-01
# 最適二階微分均一性をもつ立方的パワー関数

Cubic power functions with optimal second-order differential uniformity ( http://arxiv.org/abs/2409.03467v2 )

ライセンス: Link先を確認
Connor O'Reilly, Ana Sălăgean, (参考訳) ベクトルブール関数の2階微分均一性について論じる。 2階ゼロ微分均一性という密接に関連する概念は、最近ブーメラン攻撃に対する抵抗に関連して研究されている。 単項函数が単変数であるとき、$x^d$, $d=2^{2k}+2^k+1$, $\gcd(k,n)=1$ は最適二階微分均一性を持つことを示す。 計算学的結果は、アフィン同値を除いて、これらが唯一の最適な立方的パワー関数である可能性を示唆している。 代数次数3のすべての単項函数にそのような条件を一般化する作業を開始する。 また、計算結果から生じるさらなる疑問についても論じる。

We discuss the second-order differential uniformity of vectorial Boolean functions. The closely related notion of second-order zero differential uniformity has recently been studied in connection to resistance to the boomerang attack. We prove that monomial functions with univariate form $x^d$ where $d=2^{2k}+2^k+1$ and $\gcd(k,n)=1$ have optimal second-order differential uniformity. Computational results suggest that, up to affine equivalence, these might be the only optimal cubic power functions. We begin work towards generalising such conditions to all monomial functions of algebraic degree 3. We also discuss further questions arising from computational results.
翻訳日:2024-11-07 23:23:02 公開日:2024-10-01
# LITE: 効率的なReID機能統合によるマルチオブジェクトトラッキングのパラダイムシフト

LITE: A Paradigm Shift in Multi-Object Tracking with Efficient ReID Feature Integration ( http://arxiv.org/abs/2409.04187v2 )

ライセンス: Link先を確認
Jumabek Alikhanov, Dilshod Obidov, Hakil Kim, (参考訳) 軽量統合追跡機能抽出(LITE)パラダイムは,新しいマルチオブジェクト追跡(MOT)手法として導入されている。 推論、前処理、後処理、ReIDモデルのトレーニングコストを削減して、ReIDベースのトラッカーを強化する。 LITEは、スピードを損なうことなくリアルタイムの外観機能を使用する。 YOLOv8mのような標準のCNNベースの検出器を使用して、外観特徴抽出を直接追跡パイプラインに統合することにより、LITEは大幅なパフォーマンス向上を示す。 古典的なDeepSORT上でのLITEの最も単純な実装は、MOT17ベンチマークの28.3 FPSでHOTAのスコアが43.03%に達し、MOT17のDeepSORTの2倍、MOT20データセットの4倍高速となり、同様の精度を維持している。 さらに, トラッキング・バイ・ディテクト・アプローチの新たな評価フレームワークにより, 従来型のDeepSORTのようなトラッカーは, 公正な条件下での評価を行うと, 現代の最先端トラッカーと競合し続けることが明らかとなった。 コードはhttps://github.com/Jumabek/LITE.comで公開される。

The Lightweight Integrated Tracking-Feature Extraction (LITE) paradigm is introduced as a novel multi-object tracking (MOT) approach. It enhances ReID-based trackers by eliminating inference, pre-processing, post-processing, and ReID model training costs. LITE uses real-time appearance features without compromising speed. By integrating appearance feature extraction directly into the tracking pipeline using standard CNN-based detectors such as YOLOv8m, LITE demonstrates significant performance improvements. The simplest implementation of LITE on top of classic DeepSORT achieves a HOTA score of 43.03% at 28.3 FPS on the MOT17 benchmark, making it twice as fast as DeepSORT on MOT17 and four times faster on the more crowded MOT20 dataset, while maintaining similar accuracy. Additionally, a new evaluation framework for tracking-by-detection approaches reveals that conventional trackers like DeepSORT remain competitive with modern state-of-the-art trackers when evaluated under fair conditions. The code will be available post-publication at https://github.com/Jumabek/LITE.
翻訳日:2024-11-07 23:00:54 公開日:2024-10-01
# スペクトルグラフ畳み込みネットワークにおける係数の一般化学習

Generalized Learning of Coefficients in Spectral Graph Convolutional Networks ( http://arxiv.org/abs/2409.04813v2 )

ライセンス: Link先を確認
Mustafa Coşkun, Ananth Grama, Mehmet Koyutürk, (参考訳) スペクトルグラフ畳み込みネットワーク(GCN)は、部分的にはネットワーク伝搬規則の仕様の柔軟性のために、グラフ機械学習アプリケーションで人気を集めている。 これらの伝搬規則は、トレーニング中にラベル情報を用いて係数を学習する多項式フィルタとしてしばしば構成される。 学習された多項式フィルタとは対照的に、明示的なフィルタ関数はネットワークトポロジとネットワーク上のラベルの分布の関係を捉えるのに有用である。 どちらの手法も取り入れたアルゴリズムがいくつか提案されているが、フィルタ関数と多項式近似の関係は完全には解決されていない。 これは主に、フィルタ関数の多項式近似を導出するために解けなければならない線形系の不条件の性質に起因している。 この課題に対処するために、多項式で与えられたフィルタ関数を効率よく効果的に近似できるG-Arnoldi-GCNという統一アプローチとともに、新しいアルノルニ正規化に基づくアルゴリズムを提案する。 我々は,G-Arnoldi-GCNを,多様な位相特性を持つ10個のデータセットにまたがるマルチクラスノード分類の文脈で評価した。 実験の結果,G-Arnoldi-GCNは適切なフィルタ関数を用いる場合,常に最先端の手法よりも優れていた。 全体として、G-Arnoldi-GCNは、多様なフィルタ関数の明示的な設計と適用を可能にすることにより、グラフ機械学習における重要な新しい方向性を開く。 コードリンク:https://github.com/mustafaCoskunAgu/GArnoldi-GCN

Spectral Graph Convolutional Networks (GCNs) have gained popularity in graph machine learning applications due, in part, to their flexibility in specification of network propagation rules. These propagation rules are often constructed as polynomial filters whose coefficients are learned using label information during training. In contrast to learned polynomial filters, explicit filter functions are useful in capturing relationships between network topology and distribution of labels across the network. A number of algorithms incorporating either approach have been proposed; however the relationship between filter functions and polynomial approximations is not fully resolved. This is largely due to the ill-conditioned nature of the linear systems that must be solved to derive polynomial approximations of filter functions. To address this challenge, we propose a novel Arnoldi orthonormalization-based algorithm, along with a unifying approach, called G-Arnoldi-GCN that can efficiently and effectively approximate a given filter function with a polynomial. We evaluate G-Arnoldi-GCN in the context of multi-class node classification across ten datasets with diverse topological characteristics. Our experiments show that G-Arnoldi-GCN consistently outperforms state-of-the-art methods when suitable filter functions are employed. Overall, G-Arnoldi-GCN opens important new directions in graph machine learning by enabling the explicit design and application of diverse filter functions. Code link: https://github.com/mustafaCoskunAgu/GArnoldi-GCN
翻訳日:2024-11-07 22:49:49 公開日:2024-10-01
# VLMのシェイキング:視覚・言語モデリングのためのトランスフォーマーと構造化状態空間モデルの比較

Shaking Up VLMs: Comparing Transformers and Structured State Space Models for Vision & Language Modeling ( http://arxiv.org/abs/2409.05395v2 )

ライセンス: Link先を確認
Georgios Pantazopoulos, Malvina Nikandrou, Alessandro Suglia, Oliver Lemon, Arash Eshghi, (参考訳) 本研究では,最新の構造化状態空間モデル(SSM)であるMambaを用いて,視覚言語モデル(VLM)におけるトランスフォーマーの置き換えについて検討する。 制御条件下で最大3Bパラメータを検証し,マンバベースのVLMがキャプション,質問応答,読解においてトランスフォーマーベースのVLMよりも優れていることを示す。 しかし,トランスフォーマーは視覚的グラウンドリングにおいて高い性能を実現し,性能ギャップが拡大することがわかった。 この現象を説明するために2つの仮説を探求する。 1)隠蔽状態の更新に対するタスク非依存の視覚的エンコーディングの効果,及び 2) 文脈内マルチモーダル検索の観点から視覚的グラウンド化を行うのが困難である。 以上の結果から,タスク認識符号化ではグラウンド化によるパフォーマンス向上が最小であることが示唆されるが,コンテクスト内マルチモーダル検索では,Transformerの方がMambaより有意に優れていた。 全体として、Mambaは、正しい出力がイメージの要約に依存するが、コンテキストから明示的な情報を検索する必要がある場合に苦労するタスクに対して、有望なパフォーマンスを示す。

This study explores replacing Transformers in Visual Language Models (VLMs) with Mamba, a recent structured state space model (SSM) that demonstrates promising performance in sequence modeling. We test models up to 3B parameters under controlled conditions, showing that Mamba-based VLMs outperforms Transformers-based VLMs in captioning, question answering, and reading comprehension. However, we find that Transformers achieve greater performance in visual grounding and the performance gap widens with scale. We explore two hypotheses to explain this phenomenon: 1) the effect of task-agnostic visual encoding on the updates of the hidden states, and 2) the difficulty in performing visual grounding from the perspective of in-context multimodal retrieval. Our results indicate that a task-aware encoding yields minimal performance gains on grounding, however, Transformers significantly outperform Mamba at in-context multimodal retrieval. Overall, Mamba shows promising performance on tasks where the correct output relies on a summary of the image but struggles when retrieval of explicit information from the context is required.
翻訳日:2024-11-07 22:38:45 公開日:2024-10-01
# RICAU-Net: 心筋CTにおける小・小カルシウム病変の分画のための残差ブロック誘発協調注意U-Net

RICAU-Net: Residual-block Inspired Coordinate Attention U-Net for Segmentation of Small and Sparse Calcium Lesions in Cardiac CT ( http://arxiv.org/abs/2409.06993v2 )

ライセンス: Link先を確認
Doyoung Park, Jinsoo Kim, Qi Chang, Shuang Leng, Liang Zhong, Lohendran Baskaran, (参考訳) 4大冠動脈の石灰化の総和であるAgatstonスコアは,冠動脈疾患(CAD)の診断に広く用いられている。 しかし、特定の血管の石灰化が冠状心疾患(CHD)の発生と著しく相関していることから、血管特異的なAgatstonスコアの重要性が多くの研究で強調されている。 本稿では,2つの異なる方法で座標注意を組み込んだResidual-block Inspired Coordinate Attention U-Net(RICAU-Net)と,病変特異的冠状動脈カルシウム(CAC)セグメンテーションのためのコンボ損失関数を提案する。 本研究の目的は,小・小・小のCAC病変にともなう集団不均衡問題に対処することである。 実験結果とアブレーション試験により, 提案法は, 医療応用における他の4つのU-Net法よりも優れており, 4つの病変すべてにおいて最も高いDiceスコアが得られた。

The Agatston score, which is the sum of the calcification in the four main coronary arteries, has been widely used in the diagnosis of coronary artery disease (CAD). However, many studies have emphasized the importance of the vessel-specific Agatston score, as calcification in a specific vessel is significantly correlated with the occurrence of coronary heart disease (CHD). In this paper, we propose the Residual-block Inspired Coordinate Attention U-Net (RICAU-Net), which incorporates coordinate attention in two distinct manners and a customized combo loss function for lesion-specific coronary artery calcium (CAC) segmentation. This approach aims to tackle the high class-imbalance issue associated with small and sparse CAC lesions. Experimental results and the ablation study demonstrate that the proposed method outperforms the four other U-Net based methods used in medical applications, by achieving the highest per-lesion Dice scores across all four lesions.
翻訳日:2024-11-07 21:53:46 公開日:2024-10-01
# EZIGen: 正確な被写体エンコーディングとデカップリング誘導によるゼロショット被写体駆動画像生成の強化

EZIGen: Enhancing zero-shot subject-driven image generation with precise subject encoding and decoupled guidance ( http://arxiv.org/abs/2409.08091v2 )

ライセンス: Link先を確認
Zicheng Duan, Yuxuan Ding, Chenhui Gou, Ziqin Zhou, Ethan Smith, Lingqiao Liu, (参考訳) ゼロショットの被写体駆動画像生成は、所定のサンプル画像から被写体を組み込んだ画像を作成することを目的としている。 課題は、被験者の身元を保存しつつ、主題の外観の特定の側面を変更する必要があるテキストプロンプトと整合させることである。 拡散モデルに基づく手法の進歩にもかかわらず、既存のアプローチは、アイデンティティ保存とテキストプロンプトアライメントのバランスをとるのに苦慮している。 本研究では,この問題について詳細な調査を行い,高いバランスを維持しつつ,効果的なアイデンティティ保護を実現するための重要な知見を明らかにした。 その結果,(1) 対象画像エンコーダの設計はアイデンティティの保存品質に大きな影響を与え,(2) テキストのアライメントとアイデンティティの保存には,テキストと対象のガイダンスの分離が不可欠であることがわかった。 安定拡散モデルの事前訓練されたUNetに基づくエンコーダを用いて、誘導段階を分離し、初期画像レイアウトを反復的に洗練するプロセスに従って、高品質なアイデンティティ転送を保証する。 これらの戦略を通じて、EZIGenは、統一されたモデルと100倍のトレーニングデータを持つ複数の対象駆動ベンチマークで最先端の結果を達成する。 デモページは、https://zichengduan.github.io/pages/EZIGen/index.htmlで公開されている。

Zero-shot subject-driven image generation aims to produce images that incorporate a subject from a given example image. The challenge lies in preserving the subject's identity while aligning with the text prompt which often requires modifying certain aspects of the subject's appearance. Despite advancements in diffusion model based methods, existing approaches still struggle to balance identity preservation with text prompt alignment. In this study, we conducted an in-depth investigation into this issue and uncovered key insights for achieving effective identity preservation while maintaining a strong balance. Our key findings include: (1) the design of the subject image encoder significantly impacts identity preservation quality, and (2) separating text and subject guidance is crucial for both text alignment and identity preservation. Building on these insights, we introduce a new approach called EZIGen, which employs two main strategies: a carefully crafted subject image Encoder based on the pretrained UNet of the Stable Diffusion model to ensure high-quality identity transfer, following a process that decouples the guidance stages and iteratively refines the initial image layout. Through these strategies, EZIGen achieves state-of-the-art results on multiple subject-driven benchmarks with a unified model and 100 times less training data. The demo page is available at: https://zichengduan.github.io/pages/EZIGen/index.html.
翻訳日:2024-11-07 21:31:36 公開日:2024-10-01
# 厳密な原理からの創発的リウヴィリアの例外的点

Emergent Liouvillian exceptional points from exact principles ( http://arxiv.org/abs/2409.08100v3 )

ライセンス: Link先を確認
Shishir Khandelwal, Gianmichele Blasi, (参考訳) 近年、オープン量子系における例外的な点への関心が高まっている。 この領域の自然なアプローチはマルコフのマスター方程式の使用である。 結果として生じるリウヴィリアEPは様々な系で見られ、多くのエキゾチックな効果と関連付けられてきたが、そのような退化とその特異性がマスター方程式の妥当性を超えて持続するかどうかという未解決の問題である。 本研究では、散逸性二重量子ドット系の例として、系のハイゼンベルク方程式が対応する主方程式と同じEPを示すことを示す。 この発見の重要性を強調するために、EPに関連するパラダイム的性質(臨界減衰)がマスター方程式の妥当性をはるかに超越していることを示す。 この結果から, 主方程式の導出に係わる近似の結果ではなく, 基礎となる基本的厳密な原理から, リウヴィリアEPが生じることが示唆された。

Recent years have seen a surge of interest in exceptional points in open quantum systems. The natural approach in this area has been the use of Markovian master equations. While the resulting Liouvillian EPs have been seen in a variety of systems and have been associated to numerous exotic effects, it is an open question whether such degeneracies and their peculiarities can persist beyond the validity of master equations. In this work, taking the example of a dissipative double-quantum-dot system, we show that Heisenberg equations for the system exhibit the same EPs as the corresponding master equations. To highlight the importance of this finding, we prove that the paradigmatic property associated to EPs - critical damping, persists well beyond the validity of master equations. Our results demonstrate that Liouvillian EPs can arise from underlying fundamental exact principles, rather than merely as a consequence of approximations involved in deriving master equations.
翻訳日:2024-11-07 21:31:36 公開日:2024-10-01
# CPL:クリティカルプランの学習がLLMの一般化を促進する

CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks ( http://arxiv.org/abs/2409.08642v2 )

ライセンス: Link先を確認
Tianlong Wang, Junzhe Chen, Xueting Han, Jing Bai, (参考訳) ポストトレーニング,特に自己再生生成データを用いた強化学習(RL)は,大規模言語モデル(LLM)の新たな学習パラダイムとなっている。 しかし、従来の手法では、より広い範囲のタスクにまたがる一般化に適切に対処することなく、タスク固有の推論に焦点を当てているため、一般的な推論器を開発するためにRLをスケールすることは研究課題である。 さらに、アクション空間が限られている従来のRLとは異なり、LLMは無限の空間で動作するため、問題を効果的に解決するための価値ある多様な戦略を探すことが重要である。 これを解決するために、モデル一般化を強化する高レベル抽象計画の行動空間内探索を提案し、以下を含むクリティカルプランステップ学習(CPL)を導入する。 1)計画探索,モンテカルロ木探索(MCTS)を用いて多段階推論タスクにおける多様な計画ステップを探索し, 2) MCTSを介して得られるステップ選好の利点推定を直接選好最適化(DPO)に統合したステップレベルアドバンテージ選好最適化(Step-APO)によるクリティカルプランステップの学習を行う。 この組み合わせは、モデルが重要な計画ステップを効果的に学習し、推論能力と一般化の両方を強化するのに役立つ。 GSM8K(+10.5%),MATH(+6.5%),HumanEval(+12.2%),GPQA(+8.6%),ARC-C(+4.0%),MMLU-STEM(+2.2%),BBH(+1.8%),などの領域外推論ベンチマークも向上した。

Post-training, particularly reinforcement learning (RL) using self-play-generated data, has become a new learning paradigm for large language models (LLMs). However, scaling RL to develop a general reasoner remains a research challenge, as existing methods focus on task-specific reasoning without adequately addressing generalization across a broader range of tasks. Moreover, unlike traditional RL with limited action space, LLMs operate in an infinite space, making it crucial to search for valuable and diverse strategies to solve problems effectively. To address this, we propose searching within the action space on high-level abstract plans to enhance model generalization and introduce Critical Plan Step Learning (CPL), comprising: 1) searching on plan, using Monte Carlo Tree Search (MCTS) to explore diverse plan steps in multi-step reasoning tasks, and 2) learning critical plan steps through Step-level Advantage Preference Optimization (Step-APO), which integrates advantage estimates for step preference obtained via MCTS into Direct Preference Optimization (DPO). This combination helps the model effectively learn critical plan steps, enhancing both reasoning capabilities and generalization. Experimental results demonstrate that our method, trained exclusively on GSM8K and MATH, not only significantly improves performance on GSM8K (+10.5%) and MATH (+6.5%), but also enhances out-of-domain reasoning benchmarks, such as HumanEval (+12.2%), GPQA (+8.6%), ARC-C (+4.0%), MMLU-STEM (+2.2%), and BBH (+1.8%).
翻訳日:2024-11-07 21:20:36 公開日:2024-10-01
# HOLA-Drone: ゼロショット多次元協調探索のためのハイパーグラフィックオープンエンドラーニング

HOLA-Drone: Hypergraphic Open-ended Learning for Zero-Shot Multi-Drone Cooperative Pursuit ( http://arxiv.org/abs/2409.08767v2 )

ライセンス: Link先を確認
Yang Li, Dengyu Zhang, Junfan Chen, Ying Wen, Qingrui Zhang, Shaoshuai Mou, Wei Pan, (参考訳) ゼロショットコーディネート(ZSC)は、これまで遭遇したことのないパートナーと協調できるエージェントを開発することを目的として、マルチエージェントコラボレーションにおいて重要な課題である。 最近の最先端ZSC手法は、主にOverCooked!のような2プレイヤーのビデオゲームに焦点を当てている。 2とハナビ。 本稿では,ZSC研究の範囲を,複数の未確認パートナーと協調して複数のエバダを捕獲できるドローンエージェントを構築する方法について検討する。 本稿では,複数の未知のドローンチームメイトとの協調能力向上を目的とした,ハイパーグラフィック形式のゲームモデリングに基づく学習目標を継続的に適用する新しいハイパーグラフィックオープンエンド学習アルゴリズム(HOLA-Drone)を提案する。 HOLA-Droneの有効性を実証的に検証するため、2つの異なる無人チームメイトプールを構築し、その性能を評価する。 実験の結果,HOLA-Droneは無人ドローンチームメイトとの協調において,ベースライン法よりも優れていた。 さらに、実世界の実験は、物理システムにおけるHOLA-Droneの実現可能性を検証する。 ビデオはプロジェクトのホームページ~\url{https://sites.google.com/view/hola-drone}で見ることができる。

Zero-shot coordination (ZSC) is a significant challenge in multi-agent collaboration, aiming to develop agents that can coordinate with unseen partners they have not encountered before. Recent cutting-edge ZSC methods have primarily focused on two-player video games such as OverCooked!2 and Hanabi. In this paper, we extend the scope of ZSC research to the multi-drone cooperative pursuit scenario, exploring how to construct a drone agent capable of coordinating with multiple unseen partners to capture multiple evaders. We propose a novel Hypergraphic Open-ended Learning Algorithm (HOLA-Drone) that continuously adapts the learning objective based on our hypergraphic-form game modeling, aiming to improve cooperative abilities with multiple unknown drone teammates. To empirically verify the effectiveness of HOLA-Drone, we build two different unseen drone teammate pools to evaluate their performance in coordination with various unseen partners. The experimental results demonstrate that HOLA-Drone outperforms the baseline methods in coordination with unseen drone teammates. Furthermore, real-world experiments validate the feasibility of HOLA-Drone in physical systems. Videos can be found on the project homepage~\url{https://sites.google.com/view/hola-drone}.
翻訳日:2024-11-07 21:09:04 公開日:2024-10-01
# 規則に基づく変数優先度によるモデル独立変数選択

Model-independent variable selection via the rule-based variable priority ( http://arxiv.org/abs/2409.09003v3 )

ライセンス: Link先を確認
Min Lu, Hemant Ishwaran, (参考訳) 高い予測精度を達成することが機械学習の基本的な目標であるが、同様に重要なタスクは、説明力の高い少数の機能を見つけることである。 これは、変数の置換後の予測誤差の変化を測定することで、変数の影響を評価するものである。 しかし、これは、他の方法によって共有される問題である人工データを作成する必要があるため、問題となる可能性がある。 もう1つの問題は、変数選択法がモデル固有性によって制限されることである。 モデルに依存しない新たなアプローチである可変優先度(VarPro)を導入し,人工データの生成や予測誤差の評価を必要とせずにルールを活用する。 この手法は比較的使いやすく、単純な統計値のサンプル平均の計算しか必要とせず、回帰、分類、生存を含む多くのデータ設定に適用できる。 本稿では、VarProの漸近特性について検討し、VarProがノイズ変数に対して一貫したフィルタリング特性を有することを示す。 合成および実世界のデータを用いた実証研究は、この手法がバランスの取れた性能を達成し、可変選択に現在使われている多くの最先端の手順と好意的に比較していることを示している。

While achieving high prediction accuracy is a fundamental goal in machine learning, an equally important task is finding a small number of features with high explanatory power. One popular selection technique is permutation importance, which assesses a variable's impact by measuring the change in prediction error after permuting the variable. However, this can be problematic due to the need to create artificial data, a problem shared by other methods as well. Another problem is that variable selection methods can be limited by being model-specific. We introduce a new model-independent approach, Variable Priority (VarPro), which works by utilizing rules without the need to generate artificial data or evaluate prediction error. The method is relatively easy to use, requiring only the calculation of sample averages of simple statistics, and can be applied to many data settings, including regression, classification, and survival. We investigate the asymptotic properties of VarPro and show, among other things, that VarPro has a consistent filtering property for noise variables. Empirical studies using synthetic and real-world data show the method achieves a balanced performance and compares favorably to many state-of-the-art procedures currently used for variable selection.
翻訳日:2024-11-07 21:09:04 公開日:2024-10-01
# Retrieval-and-Demonstration を用いた直接音声翻訳におけるレアワード精度の最適化

Optimizing Rare Word Accuracy in Direct Speech Translation with a Retrieval-and-Demonstration Approach ( http://arxiv.org/abs/2409.09009v2 )

ライセンス: Link先を確認
Siqi Li, Danni Liu, Jan Niehues, (参考訳) 直接音声翻訳(ST)モデルは稀な単語に苦しむことが多い。 これらの単語の誤った翻訳は、翻訳品質とユーザ信頼に影響を与える深刻な結果をもたらす可能性がある。 希少な単語翻訳は、学習信号の希少さによって神経モデルにとって本質的に困難であるが、現実のシナリオでは、しばしば同様のトピックに関する過去の記録の翻訳へのアクセスが可能である。 これらの貴重な資源を活用するため、直接STモデルにおいて希少な単語翻訳精度を高めるための検索・復調手法を提案する。 まず,既存のSTモデルにレアワード翻訳の例を組み込むことで,テキスト内学習と同様の事前サンプルの恩恵を受けることができる。 次に、適切な例を見つけるために、クロスモーダル(音声から音声へ、音声からテキストへ、テキストからテキストへ)検索装置を開発する。 本研究は, 標準STモデルを用いてレアワード翻訳の例を効果的に適用し, ベースライン上でのレアワード翻訳精度を17.6%向上し, 金の例では8.5%, 検索例では8.5%向上できることを示した。 さらに,音声音声検索手法は,他のモダリティよりも優れ,目に見えない話者に対して高いロバスト性を示す。 私たちのコードは公開されています(https://github.com/SiqiLii/Retrieve-and-Demonstration-ST)。

Direct speech translation (ST) models often struggle with rare words. Incorrect translation of these words can have severe consequences, impacting translation quality and user trust. While rare word translation is inherently challenging for neural models due to sparse learning signals, real-world scenarios often allow access to translations of past recordings on similar topics. To leverage these valuable resources, we propose a retrieval-and-demonstration approach to enhance rare word translation accuracy in direct ST models. First, we adapt existing ST models to incorporate retrieved examples for rare word translation, which allows the model to benefit from prepended examples, similar to in-context learning. We then develop a cross-modal (speech-to-speech, speech-to-text, text-to-text) retriever to locate suitable examples. We demonstrate that standard ST models can be effectively adapted to leverage examples for rare word translation, improving rare word translation accuracy over the baseline by 17.6% with gold examples and 8.5% with retrieved examples. Moreover, our speech-to-speech retrieval approach outperforms other modalities and exhibits higher robustness to unseen speakers. Our code is publicly available (https://github.com/SiqiLii/Retrieve-and-Demonstration-ST).
翻訳日:2024-11-07 21:09:04 公開日:2024-10-01
# リアルワールドウェアハウス最適化問題における実用性を探る:量子アニーラーに基づく定式化と予備結果

Exploring Utility in a Real-World Warehouse Optimization Problem: Formulation Based on Quantum Annealers and Preliminary Results ( http://arxiv.org/abs/2409.09706v2 )

ライセンス: Link先を確認
Eneko Osaba, Esther Villar-Rodriguez, Antón Asla, (参考訳) 現在のNISQ時代において、研究者や実践者が直面している大きな課題の1つは、量子コンピューティングと古典コンピューティングを最も効率的かつ革新的な方法で組み合わせる方法を見つけることである。 本稿では,D-WaveのQuantum Annealerを利用した倉庫最適化問題の量子初期化機構を提案する。 このモジュールは、現実世界の産業問題の最適化に特化した既存の古典的ソフトウェアに組み込むように設計されている。 本研究では,従来のソフトウェアに対して2段階の実験を行い,実装機構の予備実験を行った。

In the current NISQ-era, one of the major challenges faced by researchers and practitioners lies in figuring out how to combine quantum and classical computing in the most efficient and innovative way. In this paper, we present a mechanism coined as Quantum Initialization for Warehouse Optimization Problem that resorts to D-Wave's Quantum Annealer. The module has been specifically designed to be embedded into already existing classical software dedicated to the optimization of a real-world industrial problem. We preliminary tested the implemented mechanism through a two-phase experiment against the classical version of the software.
翻訳日:2024-11-07 20:46:36 公開日:2024-10-01
# 合成データ拡張による小・不均衡データセットの画像分類の強化

Enhancing Image Classification in Small and Unbalanced Datasets through Synthetic Data Augmentation ( http://arxiv.org/abs/2409.10286v2 )

ライセンス: Link先を確認
Neil De La Fuente, Mireia Majó, Irina Luzko, Henry Córdova, Gloria Fernández-Esparrach, Jorge Bernal, (参考訳) 特に、利用可能な注釈付きデータセットが小さく、ターゲットクラス間で高い不均衡を示すアプリケーション領域では、正確な医用画像分類は難しい課題である。 データ取得が必ずしも実現可能とは限らないことを考えると、特に表現不足のクラスでは、クラス固有の変分オートエンコーダ(VAE)と潜在空間補間を用いた新しい合成拡張戦略を導入し、識別能力を向上させる。 特徴空間ギャップを埋めるリアルで多様な合成データを生成することにより、データの不足とクラス不均衡の問題に対処する。 本稿では,各クラス内の潜在表現の補間に依拠し,トレーニングセットを充実させ,モデルの一般化性と診断精度を向上させる。 提案手法は,エゾファゴガストロデュオ内視鏡画像の清潔度を自動評価する方法を訓練し,検証するために作成した321枚の画像の小さなデータセットで検証した。 実データと合成データを組み合わせることで,最も難易度の高いクラスを精度で18%以上増加させることができた。 提案した戦略は、不足しているクラスに恩恵を与えただけでなく、グローバルな精度と精度の65%向上など、他の指標の全般的な改善につながった。

Accurate and robust medical image classification is a challenging task, especially in application domains where available annotated datasets are small and present high imbalance between target classes. Considering that data acquisition is not always feasible, especially for underrepresented classes, our approach introduces a novel synthetic augmentation strategy using class-specific Variational Autoencoders (VAEs) and latent space interpolation to improve discrimination capabilities. By generating realistic, varied synthetic data that fills feature space gaps, we address issues of data scarcity and class imbalance. The method presented in this paper relies on the interpolation of latent representations within each class, thus enriching the training set and improving the model's generalizability and diagnostic accuracy. The proposed strategy was tested in a small dataset of 321 images created to train and validate an automatic method for assessing the quality of cleanliness of esophagogastroduodenoscopy images. By combining real and synthetic data, an increase of over 18\% in the accuracy of the most challenging underrepresented class was observed. The proposed strategy not only benefited the underrepresented class but also led to a general improvement in other metrics, including a 6\% increase in global accuracy and precision.
翻訳日:2024-11-07 20:35:12 公開日:2024-10-01
# 非対称高次ヘルダー平滑性と一様凸性の下での高次下界

Tight Lower Bounds under Asymmetric High-Order Hölder Smoothness and Uniform Convexity ( http://arxiv.org/abs/2409.10773v2 )

ライセンス: Link先を確認
Site Bai, Brian Bullins, (参考訳) 本稿では,高次H\"olderの滑らかかつ一様凸関数を最小化するオラクル複雑性に対して,厳密な下界を提供する。 具体的には、$p^{th}$-次微分が次数$\nu$ とパラメータ $H$ を持つ H\ より古い連続であり、次数$q$ とパラメータ $\sigma$ を持つ一様凸である関数に対して、(1)$q > p + \nu$ と (2)$q < p+\nu$ の2つの非対称ケースに焦点を当てる。 p^{th}$-次オラクルアクセスが与えられると、$\Omega\left( \left( \frac{H}{\sigma}\right)^\frac{2}{3(p+\nu)-2}\left( \frac {\sigma}{\epsilon}\right)^\frac{2(q-p-\nu)}{q(3(p+\nu)-2)}\right)$の最初のケースでは、$\ell_\infty$-truncated-Gausian smoothed hard functionと$\Omega\left(\left(\frac{H}{\sigma}\right)^\frac{2}{3(p+\nu)-2}\left( \frac {\sigma}{\epsilon}\right)^\frac{2(q-p-\nu)}{q(p+\nu)-2\right)$である。 解析は、一階および二階の滑らかさの下での関数の以前の下界と一様凸関数の値とを一般化し、さらに、一般設定における対応する上界と一致させる。

In this paper, we provide tight lower bounds for the oracle complexity of minimizing high-order H\"older smooth and uniformly convex functions. Specifically, for a function whose $p^{th}$-order derivatives are H\"older continuous with degree $\nu$ and parameter $H$, and that is uniformly convex with degree $q$ and parameter $\sigma$, we focus on two asymmetric cases: (1) $q > p + \nu$, and (2) $q < p+\nu$. Given up to $p^{th}$-order oracle access, we establish worst-case oracle complexities of $\Omega\left( \left( \frac{H}{\sigma}\right)^\frac{2}{3(p+\nu)-2}\left( \frac{\sigma}{\epsilon}\right)^\frac{2(q-p-\nu)}{q(3(p+\nu)-2)}\right)$ in the first case with an $\ell_\infty$-ball-truncated-Gaussian smoothed hard function and $\Omega\left(\left(\frac{H}{\sigma}\right)^\frac{2}{3(p+\nu)-2}+ \log^2\left(\frac{\sigma^{p+\nu}}{H^q}\right)^\frac{1}{p+\nu-q}\right)$ in the second case, for reaching an $\epsilon$-approximate solution in terms of the optimality gap. Our analysis generalizes previous lower bounds for functions under first- and second-order smoothness as well as those for uniformly convex functions, and furthermore our results match the corresponding upper bounds in the general setting.
翻訳日:2024-11-07 20:24:10 公開日:2024-10-01
# ハイブリッド量子機械学習を用いた冠状動脈疾患の早期診断

Early Detection of Coronary Heart Disease Using Hybrid Quantum Machine Learning Approach ( http://arxiv.org/abs/2409.10932v2 )

ライセンス: Link先を確認
Mehroush Banday, Sherin Zafar, Parul Agarwal, M Afshar Alam, Abubeker K M, (参考訳) 冠動脈疾患 (CHD) は重症心疾患であり, 治療成績の改善と医療費の節減により早期診断が不可欠である。 量子コンピューティングと機械学習(ML)技術の主流となる開発は、CHD診断の性能に実用的な改善をもたらす可能性がある。 量子機械学習(QML)は、高いパフォーマンスと能力のために、様々な分野に多大な関心を集めています。 医療業界における量子的な飛躍は、処理能力を高め、複数のモデルを最適化する。 QMLの技術は心疾患を予測し早期発見に役立つ可能性がある。 本稿では,冠状心疾患のリスクを予測するために,QML分類器に基づくアンサンブル機械学習モデルを用いたハイブリッドアプローチを提案する。 我々のアプローチは、多次元医療データに対処するユニークな能力を持ち、マルチステップの推論フレームワークで量子および古典的MLアルゴリズムを融合させることにより、手法の堅牢性を再評価する。 心臓病と死亡率の顕著な上昇は、世界の人間の健康と世界経済に影響を及ぼす。 心臓死亡率と死亡率の低下は、心臓病の早期発見を必要とする。 本研究では,従来の機械学習アルゴリズムでは実現不可能な複雑な問題に対処し,計算コストを最小限に抑えるために,量子コンピューティング機能を用いたハイブリッド手法を提案する。 提案手法はRaspberry Pi 5 Graphics Processing Unit(GPU)プラットフォームで開発され,CHDおよび健康管理に苦しむ患者の臨床および画像データを統合した広範なデータセット上でテストされている。 従来の機械学習モデルと比較して、CHDを用いたハイブリッドQMLモデルの精度、感度、F1スコア、特異性が高い。

Coronary heart disease (CHD) is a severe cardiac disease, and hence, its early diagnosis is essential as it improves treatment results and saves money on medical care. The prevailing development of quantum computing and machine learning (ML) technologies may bring practical improvement to the performance of CHD diagnosis. Quantum machine learning (QML) is receiving tremendous interest in various disciplines due to its higher performance and capabilities. A quantum leap in the healthcare industry will increase processing power and optimise multiple models. Techniques for QML have the potential to forecast cardiac disease and help in early detection. To predict the risk of coronary heart disease, a hybrid approach utilizing an ensemble machine learning model based on QML classifiers is presented in this paper. Our approach, with its unique ability to address multidimensional healthcare data, reassures the method's robustness by fusing quantum and classical ML algorithms in a multi-step inferential framework. The marked rise in heart disease and death rates impacts worldwide human health and the global economy. Reducing cardiac morbidity and mortality requires early detection of heart disease. In this research, a hybrid approach utilizes techniques with quantum computing capabilities to tackle complex problems that are not amenable to conventional machine learning algorithms and to minimize computational expenses. The proposed method has been developed in the Raspberry Pi 5 Graphics Processing Unit (GPU) platform and tested on a broad dataset that integrates clinical and imaging data from patients suffering from CHD and healthy controls. Compared to classical machine learning models, the accuracy, sensitivity, F1 score, and specificity of the proposed hybrid QML model used with CHD are manifold higher.
翻訳日:2024-11-07 20:13:03 公開日:2024-10-01
# 分解による記憶訓練データの抽出

Extracting Memorized Training Data via Decomposition ( http://arxiv.org/abs/2409.12367v1 )

ライセンス: Link先を確認
Ellen Su, Anu Vellore, Amy Chang, Raffaele Mura, Blaine Nelson, Paul Kassianik, Amin Karbasi, (参考訳) 社会におけるLarge Language Models(LLM)の普及は、開発者、組織、エンドユーザにも新たな情報セキュリティ上の課題をもたらします。 LLMは大量のデータに基づいてトレーニングされており、ソーストレーニングデータセットの正確な内容を明らかにするための感受性は、セキュリティと安全性のリスクを引き起こす。 現在のアライメント手順は一般的な危険行動を制限するが、LSMがデータ漏洩を完全に防止するわけではない。 以前の研究で、LSMはアウト・オブ・ディストリビューション・クエリや逆行的手法を用いて、トレーニングデータを拡散させる可能性があることが実証された。 本稿では,2つのフロンティア LLM からニュース記事を取り出すための,簡単なクエリベースの分解手法を示す。 命令分解技術を用いて、トレーニングデータの断片を漸進的に抽出する。 ニューヨーク・タイムズの3723記事のうち、73記事から少なくとも1つの動詞の文を抽出し、6記事から20%以上の動詞の文を抽出する。 本手法は,ニュース記事の信頼性の高い再生テキストを生成するのに有効であることを示す。 この方法は単純で一般化可能であり、微調整や生産モデルの変更は行わない。 大規模に複製可能であれば、このトレーニングデータ抽出手法は、プライバシのリスクや不正なデータ漏洩を含む、新たなLLMのセキュリティと安全性の脆弱性を公開する可能性がある。 これらの意味は、モデル開発からエンドユースまで慎重に考慮する必要がある。

The widespread use of Large Language Models (LLMs) in society creates new information security challenges for developers, organizations, and end-users alike. LLMs are trained on large volumes of data, and their susceptibility to reveal the exact contents of the source training datasets poses security and safety risks. Although current alignment procedures restrict common risky behaviors, they do not completely prevent LLMs from leaking data. Prior work demonstrated that LLMs may be tricked into divulging training data by using out-of-distribution queries or adversarial techniques. In this paper, we demonstrate a simple, query-based decompositional method to extract news articles from two frontier LLMs. We use instruction decomposition techniques to incrementally extract fragments of training data. Out of 3723 New York Times articles, we extract at least one verbatim sentence from 73 articles, and over 20% of verbatim sentences from 6 articles. Our analysis demonstrates that this method successfully induces the LLM to generate texts that are reliable reproductions of news articles, meaning that they likely originate from the source training dataset. This method is simple, generalizable, and does not fine-tune or change the production model. If replicable at scale, this training data extraction methodology could expose new LLM security and safety vulnerabilities, including privacy risks and unauthorized data leaks. These implications require careful consideration from model development to its end-use.
翻訳日:2024-11-07 15:14:47 公開日:2024-10-01
# 分解による記憶訓練データの抽出

Extracting Memorized Training Data via Decomposition ( http://arxiv.org/abs/2409.12367v2 )

ライセンス: Link先を確認
Ellen Su, Anu Vellore, Amy Chang, Raffaele Mura, Blaine Nelson, Paul Kassianik, Amin Karbasi, (参考訳) 社会におけるLarge Language Models(LLM)の普及は、開発者、組織、エンドユーザにも新たな情報セキュリティ上の課題をもたらします。 LLMは大量のデータに基づいてトレーニングされており、ソーストレーニングデータセットの正確な内容を明らかにするための感受性は、セキュリティと安全性のリスクを引き起こす。 現在のアライメント手順は一般的な危険行動を制限するが、LSMがデータ漏洩を完全に防止するわけではない。 以前の研究で、LSMはアウト・オブ・ディストリビューション・クエリや逆行的手法を用いて、トレーニングデータを拡散させる可能性があることが実証された。 本稿では,2つのフロンティア LLM からニュース記事を取り出すための,簡単なクエリベースの分解手法を示す。 命令分解技術を用いて、トレーニングデータの断片を漸進的に抽出する。 ニューヨーク・タイムズの3723記事のうち、73記事から少なくとも1つの動詞の文を抽出し、6記事から20%以上の動詞の文を抽出する。 本手法は,ニュース記事の信頼性の高い再生テキストを生成するのに有効であることを示す。 この方法は単純で一般化可能であり、微調整や生産モデルの変更は行わない。 大規模に複製可能であれば、このトレーニングデータ抽出手法は、プライバシのリスクや不正なデータ漏洩を含む、新たなLLMのセキュリティと安全性の脆弱性を公開する可能性がある。 これらの意味は、モデル開発からエンドユースまで慎重に考慮する必要がある。

The widespread use of Large Language Models (LLMs) in society creates new information security challenges for developers, organizations, and end-users alike. LLMs are trained on large volumes of data, and their susceptibility to reveal the exact contents of the source training datasets poses security and safety risks. Although current alignment procedures restrict common risky behaviors, they do not completely prevent LLMs from leaking data. Prior work demonstrated that LLMs may be tricked into divulging training data by using out-of-distribution queries or adversarial techniques. In this paper, we demonstrate a simple, query-based decompositional method to extract news articles from two frontier LLMs. We use instruction decomposition techniques to incrementally extract fragments of training data. Out of 3723 New York Times articles, we extract at least one verbatim sentence from 73 articles, and over 20% of verbatim sentences from 6 articles. Our analysis demonstrates that this method successfully induces the LLM to generate texts that are reliable reproductions of news articles, meaning that they likely originate from the source training dataset. This method is simple, generalizable, and does not fine-tune or change the production model. If replicable at scale, this training data extraction methodology could expose new LLM security and safety vulnerabilities, including privacy risks and unauthorized data leaks. These implications require careful consideration from model development to its end-use.
翻訳日:2024-11-07 15:14:47 公開日:2024-10-01
# マスク粒子モデリングにトークン化は必要か?

Is Tokenization Needed for Masked Particle Modelling? ( http://arxiv.org/abs/2409.12589v1 )

ライセンス: Link先を確認
Matthew Leigh, Samuel Klein, François Charton, Tobias Golling, Lukas Heinrich, Michael Kagan, Inês Ochoa, Margarita Osadchy, (参考訳) 本研究では,高エネルギー物理の基礎モデル構築に関連する非順序集合の高表現性表現を構築するための自己教師型学習手法であるマスク粒子モデリング(MPM)を著しく強化する。 MPMでは、モデルは、ラベルを必要とせず、実験データに直接適用できる学習目標である集合の欠落した要素を復元するために訓練される。 我々は,実装の非効率性に対処し,より強力なデコーダを組み込むことにより,従来のMPMの作業よりも大幅な性能向上を実現している。 いくつかの事前学習タスクを比較し,データトークン化や離散化を伴わない条件付き生成モデルを用いた新しい再構成手法を提案する。 これらの新手法は,ジェット物理の分類,二次頂点探索,トラック識別など,さまざまな下流タスクの活用を含む,ジェットの基礎モデルのための新しい試験ベッド上で,オリジナルのMPMのトークン化学習目標よりも優れていることを示す。

In this work, we significantly enhance masked particle modeling (MPM), a self-supervised learning scheme for constructing highly expressive representations of unordered sets relevant to developing foundation models for high-energy physics. In MPM, a model is trained to recover the missing elements of a set, a learning objective that requires no labels and can be applied directly to experimental data. We achieve significant performance improvements over previous work on MPM by addressing inefficiencies in the implementation and incorporating a more powerful decoder. We compare several pre-training tasks and introduce new reconstruction methods that utilize conditional generative models without data tokenization or discretization. We show that these new methods outperform the tokenized learning objective from the original MPM on a new test bed for foundation models for jets, which includes using a wide variety of downstream tasks relevant to jet physics, such as classification, secondary vertex finding, and track identification.
翻訳日:2024-11-07 14:19:13 公開日:2024-10-01
# マスク粒子モデリングにトークン化は必要か?

Is Tokenization Needed for Masked Particle Modelling? ( http://arxiv.org/abs/2409.12589v2 )

ライセンス: Link先を確認
Matthew Leigh, Samuel Klein, François Charton, Tobias Golling, Lukas Heinrich, Michael Kagan, Inês Ochoa, Margarita Osadchy, (参考訳) 本研究では,高エネルギー物理の基礎モデル構築に関連する非順序集合の高表現性表現を構築するための自己教師型学習手法であるマスク粒子モデリング(MPM)を著しく強化する。 MPMでは、モデルは、ラベルを必要とせず、実験データに直接適用できる学習目標である集合の欠落した要素を復元するために訓練される。 我々は,実装の非効率性に対処し,より強力なデコーダを組み込むことにより,従来のMPMの作業よりも大幅な性能向上を実現している。 いくつかの事前学習タスクを比較し,データトークン化や離散化を伴わない条件付き生成モデルを用いた新しい再構成手法を提案する。 これらの新手法は,ジェット物理の分類,二次頂点探索,トラック識別など,さまざまな下流タスクの活用を含む,ジェットの基礎モデルのための新しい試験ベッド上で,オリジナルのMPMのトークン化学習目標よりも優れていることを示す。

In this work, we significantly enhance masked particle modeling (MPM), a self-supervised learning scheme for constructing highly expressive representations of unordered sets relevant to developing foundation models for high-energy physics. In MPM, a model is trained to recover the missing elements of a set, a learning objective that requires no labels and can be applied directly to experimental data. We achieve significant performance improvements over previous work on MPM by addressing inefficiencies in the implementation and incorporating a more powerful decoder. We compare several pre-training tasks and introduce new reconstruction methods that utilize conditional generative models without data tokenization or discretization. We show that these new methods outperform the tokenized learning objective from the original MPM on a new test bed for foundation models for jets, which includes using a wide variety of downstream tasks relevant to jet physics, such as classification, secondary vertex finding, and track identification.
翻訳日:2024-11-07 14:19:13 公開日:2024-10-01
# 思考の反復:自律型大言語モデル推論における内的対話の活用

Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning ( http://arxiv.org/abs/2409.12618v1 )

ライセンス: Link先を確認
Santosh Kumar Radha, Yasamin Nouri Jelyani, Ara Ghukasyan, Oktay Goktas, (参考訳) 反復的人間のエンゲージメントは、大規模言語モデル(LLM)の高度な言語処理能力を活用するための一般的かつ効果的な手段である。 会話的な方法で適切に構造化されたプロンプトを使用することで、人間のユーザはLLMに効果的に影響を与え、より思慮深く正確な応答を発達させることができる。 そこで本研究では,LLM応答の「考え」を誘発するプロンプトを生成し,インプットクエリと現在のLLM応答の繰り返しを生成することにより,LLM応答を向上させるためのIteration of Thought(IoT)フレームワークを提案する。 静的あるいは半静的なアプローチとは異なり、Thought(CoT)のeg ChainやTree of Thoughts(ToT)とは異なり、IoTは進化するコンテキストに基づいて推論パスを動的に適用する。 IoTフレームワークの3つのコンポーネントは、(1)インストラクティブでコンテキスト固有のプロンプトを生成するインナーダイアログエージェント(IDA)、(2)これらのプロンプトを処理して応答を洗練させるLLMエージェント(LLMA)、(3)以前の2つのコンポーネント間の会話を実装する反復的なプロンプトループである。 LLMがいつイテレーションを中止するかを決めるAIoT(Autonomous Iteration of Thought)と、常に固定数のイテレーションを強制するGIoT(Guid Iteration of Thought)の2つのバリエーションを紹介します。 GPQAデータセットからの複雑な推論タスク、Game of 24での爆発的問題解決、Mini Crosswordsでのパズル解決、HotpotQAデータセットからのマルチホップ質問応答など、さまざまなデータセットにおけるIoTのパフォーマンスについて検討する。 以上の結果から,IoTはLCMの自律応答改善のパラダイムとして実現可能であり,CoTに対する大幅な改善が示され,人間の介入を最小限に抑えた適応的で効率的な推論システムの実現が期待できる。

Iterative human engagement is a common and effective means of leveraging the advanced language processing power of large language models (LLMs). Using well-structured prompts in a conversational manner, human users can effectively influence an LLM to develop more thoughtful and accurate responses. Motivated by this insight, we propose the Iteration of Thought (IoT) framework for enhancing LLM responses by generating "thought"-provoking prompts vis a vis an input query and the current iteration of an LLM's response. Unlike static or semi-static approaches, e.g. Chain of Thought (CoT) or Tree of Thoughts (ToT), IoT adapts its reasoning path dynamically, based on evolving context, and without generating alternate explorative thoughts which are ultimately discarded. The three components of the IoT framework are (1) an Inner Dialogue Agent (IDA) responsible for generating instructive, context-specific prompts; (2) an LLM Agent (LLMA) that processes these prompts to refine its responses; and (3) an iterative prompting loop that implements a conversation between the former two components. We introduce two variants of our framework: Autonomous Iteration of Thought (AIoT), where an LLM decides when to stop iterating, and Guided Iteration of Thought (GIoT), which always forces a fixed number iterations. We investigate the performance of IoT across various datasets, spanning complex reasoning tasks from the GPQA dataset, explorative problem-solving in Game of 24, puzzle solving in Mini Crosswords, and multi-hop question answering from the HotpotQA dataset. Our results show that IoT represents a viable paradigm for autonomous response refinement in LLMs, showcasing significant improvements over CoT and thereby enabling more adaptive and efficient reasoning systems that minimize human intervention.
翻訳日:2024-11-07 14:08:12 公開日:2024-10-01
# 思考の反復:自律型大言語モデル推論における内的対話の活用

Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning ( http://arxiv.org/abs/2409.12618v2 )

ライセンス: Link先を確認
Santosh Kumar Radha, Yasamin Nouri Jelyani, Ara Ghukasyan, Oktay Goktas, (参考訳) 反復的人間のエンゲージメントは、大規模言語モデル(LLM)の高度な言語処理能力を活用するための一般的かつ効果的な手段である。 会話的な方法で適切に構造化されたプロンプトを使用することで、人間のユーザはLLMに効果的に影響を与え、より思慮深く正確な応答を発達させることができる。 そこで本研究では,LLM応答の「考え」を誘発するプロンプトを生成し,インプットクエリと現在のLLM応答の繰り返しを生成することにより,LLM応答を向上させるためのIteration of Thought(IoT)フレームワークを提案する。 静的あるいは半静的なアプローチとは異なり、Thought(CoT)のeg ChainやTree of Thoughts(ToT)とは異なり、IoTは進化するコンテキストに基づいて推論パスを動的に適用する。 IoTフレームワークの3つのコンポーネントは、(1)インストラクティブでコンテキスト固有のプロンプトを生成するインナーダイアログエージェント(IDA)、(2)これらのプロンプトを処理して応答を洗練させるLLMエージェント(LLMA)、(3)以前の2つのコンポーネント間の会話を実装する反復的なプロンプトループである。 LLMがいつイテレーションを中止するかを決めるAIoT(Autonomous Iteration of Thought)と、常に固定数のイテレーションを強制するGIoT(Guid Iteration of Thought)の2つのバリエーションを紹介します。 GPQAデータセットからの複雑な推論タスク、Game of 24での爆発的問題解決、Mini Crosswordsでのパズル解決、HotpotQAデータセットからのマルチホップ質問応答など、さまざまなデータセットにおけるIoTのパフォーマンスについて検討する。 以上の結果から,IoTはLCMの自律応答改善のパラダイムとして実現可能であり,CoTに対する大幅な改善が示され,人間の介入を最小限に抑えた適応的で効率的な推論システムの実現が期待できる。

Iterative human engagement is a common and effective means of leveraging the advanced language processing power of large language models (LLMs). Using well-structured prompts in a conversational manner, human users can effectively influence an LLM to develop more thoughtful and accurate responses. Motivated by this insight, we propose the Iteration of Thought (IoT) framework for enhancing LLM responses by generating "thought"-provoking prompts vis a vis an input query and the current iteration of an LLM's response. Unlike static or semi-static approaches, e.g. Chain of Thought (CoT) or Tree of Thoughts (ToT), IoT adapts its reasoning path dynamically, based on evolving context, and without generating alternate explorative thoughts which are ultimately discarded. The three components of the IoT framework are (1) an Inner Dialogue Agent (IDA) responsible for generating instructive, context-specific prompts; (2) an LLM Agent (LLMA) that processes these prompts to refine its responses; and (3) an iterative prompting loop that implements a conversation between the former two components. We introduce two variants of our framework: Autonomous Iteration of Thought (AIoT), where an LLM decides when to stop iterating, and Guided Iteration of Thought (GIoT), which always forces a fixed number iterations. We investigate the performance of IoT across various datasets, spanning complex reasoning tasks from the GPQA dataset, explorative problem-solving in Game of 24, puzzle solving in Mini Crosswords, and multi-hop question answering from the HotpotQA dataset. Our results show that IoT represents a viable paradigm for autonomous response refinement in LLMs, showcasing significant improvements over CoT and thereby enabling more adaptive and efficient reasoning systems that minimize human intervention.
翻訳日:2024-11-07 14:08:12 公開日:2024-10-01
# 人体を前もって活用する動き再ターゲットのためのデータペア化

Redefining Data Pairing for Motion Retargeting Leveraging a Human Body Prior ( http://arxiv.org/abs/2409.13208v1 )

ライセンス: Link先を確認
Xiyana Figuera, Soogeun Park, Hyemin Ahn, (参考訳) HUman BOdy を前に活用した MR.HuBo (Motion Retargeting leverageing a HUman BOdy prior) を提案する。これは高品質な上半身対である $\langle \text{robot, human} \rangle$ pose データを集めるための費用効率の良い方法であり、これはデータ駆動のモーションリターゲティングに必須である。 既存のアプローチでは$\langle \text{robot, human} \rangle$は人間のMoCapのポーズをロボットのポーズに変換する。 まず、多様なランダムなロボットのポーズをサンプリングし、それを人間のポーズに変換する。 しかし、ランダムなロボットのポーズは極端な人間のポーズをもたらす可能性があるため、大量の人間のポーズデータから事前訓練された人間の身体を活用することで、極端なポーズをソートする新たな手法を提案する。 我々のデータ収集方法は、サイズスケール係数とサンプリングのための関節角度範囲を含むシステムのハイパーパラメータを設計または最適化する場合、任意のヒューマノイドロボットに使用することができる。 このデータ収集法に加えて、大量のペアデータに基づいて教師付き学習によってトレーニングできる2段階の運動再ターゲットニューラルネットワークも提案する。 教師なし学習によってトレーニングされた他の学習ベースの方法と比較して、私たちのディープニューラルネットワークは、十分な高品質なペアデータでトレーニングされたことにより、顕著なパフォーマンスを実現した。 また,本実験により,本手法は,生データや雑音データによるモデルトレーニングよりも,より優れた再ターゲティング結果が得られることを示した。 私たちのコードとビデオ結果はhttps://sites.google.com/view/mr-hubo/で公開されています。

We propose MR.HuBo (Motion Retargeting leveraging a HUman BOdy prior), a cost-effective and convenient method to collect high-quality upper body paired $\langle \text{robot, human} \rangle$ pose data, which is essential for data-driven motion retargeting methods. Unlike existing approaches which collect $\langle \text{robot, human} \rangle$ pose data by converting human MoCap poses into robot poses, our method goes in reverse. We first sample diverse random robot poses, and then convert them into human poses. However, since random robot poses can result in extreme and infeasible human poses, we propose an additional technique to sort out extreme poses by exploiting a human body prior trained from a large amount of human pose data. Our data collection method can be used for any humanoid robots, if one designs or optimizes the system's hyperparameters which include a size scale factor and the joint angle ranges for sampling. In addition to this data collection method, we also present a two-stage motion retargeting neural network that can be trained via supervised learning on a large amount of paired data. Compared to other learning-based methods trained via unsupervised learning, we found that our deep neural network trained with ample high-quality paired data achieved notable performance. Our experiments also show that our data filtering method yields better retargeting results than training the model with raw and noisy data. Our code and video results are available on https://sites.google.com/view/mr-hubo/
翻訳日:2024-11-07 11:29:51 公開日:2024-10-01
# 人体を前もって活用する動き再ターゲットのためのデータペア化

Redefining Data Pairing for Motion Retargeting Leveraging a Human Body Prior ( http://arxiv.org/abs/2409.13208v2 )

ライセンス: Link先を確認
Xiyana Figuera, Soogeun Park, Hyemin Ahn, (参考訳) HUman BOdyを前もって活用するMotion Retargeting) $\langle \text{robot, human} \rangle$ pose data, which is essential for data-driven motion retargeting method。 既存のアプローチでは、$\langle \text{robot, human} \rangle$は人間のMoCapのポーズをロボットのポーズに変換する。 まず、多様なランダムなロボットのポーズをサンプリングし、それを人間のポーズに変換する。 しかし、ランダムなロボットのポーズは極端な人間のポーズをもたらす可能性があるため、大量の人間のポーズデータから事前訓練された人間の身体を活用することで、極端なポーズをソートする新たな手法を提案する。 我々のデータ収集方法は、サイズスケール係数とサンプリングのための関節角度範囲を含むシステムのハイパーパラメータを設計または最適化する場合、任意のヒューマノイドロボットに使用することができる。 このデータ収集法に加えて、大量のペアデータに基づいて教師付き学習によってトレーニングできる2段階の運動再ターゲットニューラルネットワークも提案する。 教師なし学習によってトレーニングされた他の学習ベースの方法と比較して、私たちのディープニューラルネットワークは、十分な高品質なペアデータでトレーニングされたことにより、顕著なパフォーマンスを実現した。 また,本実験により,本手法は,生データや雑音データによるモデルトレーニングよりも,より優れた再ターゲティング結果が得られることを示した。 私たちのコードとビデオ結果はhttps://sites.google.com/view/mr-hubo/で公開されています。

We propose $\text{MR.HuBo}$ (Motion Retargeting leveraging a HUman BOdy prior), a cost-effective and convenient method to collect high-quality upper body paired $\langle \text{robot, human} \rangle$ pose data, which is essential for data-driven motion retargeting methods. Unlike existing approaches which collect $\langle \text{robot, human} \rangle$ pose data by converting human MoCap poses into robot poses, our method goes in reverse. We first sample diverse random robot poses, and then convert them into human poses. However, since random robot poses can result in extreme and infeasible human poses, we propose an additional technique to sort out extreme poses by exploiting a human body prior trained from a large amount of human pose data. Our data collection method can be used for any humanoid robots, if one designs or optimizes the system's hyperparameters which include a size scale factor and the joint angle ranges for sampling. In addition to this data collection method, we also present a two-stage motion retargeting neural network that can be trained via supervised learning on a large amount of paired data. Compared to other learning-based methods trained via unsupervised learning, we found that our deep neural network trained with ample high-quality paired data achieved notable performance. Our experiments also show that our data filtering method yields better retargeting results than training the model with raw and noisy data. Our code and video results are available on https://sites.google.com/view/mr-hubo/
翻訳日:2024-11-07 11:18:04 公開日:2024-10-01
# 人体を前もって活用する動き再ターゲットのためのデータペア化

Redefining Data Pairing for Motion Retargeting Leveraging a Human Body Prior ( http://arxiv.org/abs/2409.13208v3 )

ライセンス: Link先を確認
Xiyana Figuera, Soogeun Park, Hyemin Ahn, (参考訳) 本稿では,HUman BOdyを先行して利用するMR HuBo(Motion Retargeting Using a HUman BOdy prior)を提案する。 人間のMoCapのポーズをロボットのポーズに変換することで、<robot, human>のデータを収集する既存のアプローチとは異なり、メソッドは逆になる。 まず、多様なランダムなロボットのポーズをサンプリングし、それを人間のポーズに変換する。 しかし、ランダムなロボットのポーズは極端な人間のポーズをもたらす可能性があるため、大量の人間のポーズデータから事前訓練された人間の身体を活用することで、極端なポーズをソートする新たな手法を提案する。 我々のデータ収集方法は、サイズスケール係数とサンプリングのための関節角度範囲を含むシステムのハイパーパラメータを設計または最適化する場合、任意のヒューマノイドロボットに使用することができる。 このデータ収集法に加えて、大量のペアデータに基づいて教師付き学習によってトレーニングできる2段階の運動再ターゲットニューラルネットワークも提案する。 教師なし学習によってトレーニングされた他の学習ベースの手法と比較して、私たちのディープニューラルネットワークは、十分な高品質なペアデータでトレーニングされたことにより、顕著なパフォーマンスを実現した。 また,本実験により,本手法は,生データや雑音データによるモデルトレーニングよりも,より優れた再ターゲティング結果が得られることを示した。 私たちのコードとビデオ結果はhttps://sites.google.com/view/mr-hubo/で公開されています。

We propose MR HuBo(Motion Retargeting leveraging a HUman BOdy prior), a cost-effective and convenient method to collect high-quality upper body paired <robot, human> pose data, which is essential for data-driven motion retargeting methods. Unlike existing approaches which collect <robot, human> pose data by converting human MoCap poses into robot poses, our method goes in reverse. We first sample diverse random robot poses, and then convert them into human poses. However, since random robot poses can result in extreme and infeasible human poses, we propose an additional technique to sort out extreme poses by exploiting a human body prior trained from a large amount of human pose data. Our data collection method can be used for any humanoid robots, if one designs or optimizes the system's hyperparameters which include a size scale factor and the joint angle ranges for sampling. In addition to this data collection method, we also present a two-stage motion retargeting neural network that can be trained via supervised learning on a large amount of paired data. Compared to other learning-based methods trained via unsupervised learning, we found that our deep neural network trained with ample high-quality paired data achieved notable performance. Our experiments also show that our data filtering method yields better retargeting results than training the model with raw and noisy data. Our code and video results are available on https://sites.google.com/view/mr-hubo/
翻訳日:2024-11-07 11:18:04 公開日:2024-10-01
# 多モード脳MRI合成のための物理インフォームド潜時拡散法

Physics-Informed Latent Diffusion for Multimodal Brain MRI Synthesis ( http://arxiv.org/abs/2409.13532v1 )

ライセンス: Link先を確認
Sven Lüpke, Yousef Yeganeh, Ehsan Adeli, Nassir Navab, Azade Farshad, (参考訳) 医療画像生成モデルの最近の進歩は、複数のモダリティを表現できることを示唆している。 しかし、データセット間でのモジュラリティ可用性の変動は、それらが生成する合成データの一般的な適用性を制限している。 そこで本研究では,元のデータセットに存在しないものを含む多数の脳MRIモダリティを合成可能な,物理インフォームド生成モデルを提案する。 提案手法は潜時拡散モデルと2段階生成過程を利用する: まず、観測されていない物理的組織特性マップを潜時拡散モデルを用いて合成し、これらのマップを物理信号モデルと組み合わせて最終MRIスキャンを生成する。 本実験は,未確認MRコントラストの生成と物理的妥当性の維持における本手法の有効性を実証するものである。 さらに, 実際の脳組織と比較し, 生成組織特性の分布を検証した。

Recent advances in generative models for medical imaging have shown promise in representing multiple modalities. However, the variability in modality availability across datasets limits the general applicability of the synthetic data they produce. To address this, we present a novel physics-informed generative model capable of synthesizing a variable number of brain MRI modalities, including those not present in the original dataset. Our approach utilizes latent diffusion models and a two-step generative process: first, unobserved physical tissue property maps are synthesized using a latent diffusion model, and then these maps are combined with a physical signal model to generate the final MRI scan. Our experiments demonstrate the efficacy of this approach in generating unseen MR contrasts and preserving physical plausibility. Furthermore, we validate the distributions of generated tissue properties by comparing them to those measured in real brain tissue.
翻訳日:2024-11-07 06:41:58 公開日:2024-10-01
# 多モード脳MRI合成のための物理インフォームド潜時拡散法

Physics-Informed Latent Diffusion for Multimodal Brain MRI Synthesis ( http://arxiv.org/abs/2409.13532v2 )

ライセンス: Link先を確認
Sven Lüpke, Yousef Yeganeh, Ehsan Adeli, Nassir Navab, Azade Farshad, (参考訳) 医療画像生成モデルの最近の進歩は、複数のモダリティを表現できることを示唆している。 しかし、データセット間でのモジュラリティ可用性の変動は、それらが生成する合成データの一般的な適用性を制限している。 そこで本研究では,元のデータセットに存在しないものを含む多数の脳MRIモダリティを合成可能な,物理インフォームド生成モデルを提案する。 提案手法は潜時拡散モデルと2段階生成過程を利用する: まず、観測されていない物理的組織特性マップを潜時拡散モデルを用いて合成し、これらのマップを物理信号モデルと組み合わせて最終MRIスキャンを生成する。 本実験は,未確認MRコントラストの生成と物理的妥当性の維持における本手法の有効性を実証するものである。 さらに, 実際の脳組織と比較し, 生成組織特性の分布を検証した。

Recent advances in generative models for medical imaging have shown promise in representing multiple modalities. However, the variability in modality availability across datasets limits the general applicability of the synthetic data they produce. To address this, we present a novel physics-informed generative model capable of synthesizing a variable number of brain MRI modalities, including those not present in the original dataset. Our approach utilizes latent diffusion models and a two-step generative process: first, unobserved physical tissue property maps are synthesized using a latent diffusion model, and then these maps are combined with a physical signal model to generate the final MRI scan. Our experiments demonstrate the efficacy of this approach in generating unseen MR contrasts and preserving physical plausibility. Furthermore, we validate the distributions of generated tissue properties by comparing them to those measured in real brain tissue.
翻訳日:2024-11-07 06:41:58 公開日:2024-10-01
# CA-BERT:マルチタスク・チャットの高機能化のためのコンテキスト認識の活用

CA-BERT: Leveraging Context Awareness for Enhanced Multi-Turn Chat Interaction ( http://arxiv.org/abs/2409.13701v1 )

ライセンス: Link先を確認
Minghao Liu, Mingxiu Sui, Cangqing Wang, Zhejie Zhou, (参考訳) 自動チャットシステムにおける効果的なコミュニケーションは、コンテキストを理解して応答する能力に依存している。 伝統的なモデルは、適切な応答を生成するために追加のコンテキストが必要かどうかを決定するのに苦労することが多い。 本稿では, この課題に対処するために, 変換器をベースとしたモデルである Context-Aware BERT (CA-BERT) を紹介する。 CA-BERTは、マルチターンチャットにおけるコンテキスト要求を識別するためのディープラーニング手法を革新的に応用し、応答の妥当性と精度の両立を図っている。 本稿では,チャット対話の専門的データセットに着目した新しいトレーニング手法により,BERTの頑健なアーキテクチャを適応させるCA-BERTの開発について述べる。 このモデルはコンテキスト要求を分類する能力に基づいて評価され、精度と効率の点でベースラインBERTモデルよりも優れた性能を示す。 さらにCA-BERTの実装では、トレーニング時間とリソース使用量の大幅な削減が示されており、リアルタイムアプリケーションでも実現可能である。 以上の結果から,CA-BERTはコンテキストの微妙な理解を提供することによって,自動化システムにおけるユーザエクスペリエンスとインタラクション品質を向上させることにより,チャットボットの機能を効果的に向上させることができることが示唆された。 この研究は、チャットアプリケーションにおけるNLPの分野を前進させるだけでなく、文脈に敏感なAI開発に関する将来の研究のためのフレームワークも提供する。

Effective communication in automated chat systems hinges on the ability to understand and respond to context. Traditional models often struggle with determining when additional context is necessary for generating appropriate responses. This paper introduces Context-Aware BERT (CA-BERT), a transformer-based model specifically fine-tuned to address this challenge. CA-BERT innovatively applies deep learning techniques to discern context necessity in multi-turn chat interactions, enhancing both the relevance and accuracy of responses. We describe the development of CA-BERT, which adapts the robust architecture of BERT with a novel training regimen focused on a specialized dataset of chat dialogues. The model is evaluated on its ability to classify context necessity, demonstrating superior performance over baseline BERT models in terms of accuracy and efficiency. Furthermore, CA-BERT's implementation showcases significant reductions in training time and resource usage, making it feasible for real-time applications. The results indicate that CA-BERT can effectively enhance the functionality of chatbots by providing a nuanced understanding of context, thereby improving user experience and interaction quality in automated systems. This study not only advances the field of NLP in chat applications but also provides a framework for future research into context-sensitive AI developments.
翻訳日:2024-11-07 05:46:28 公開日:2024-10-01
# CA-BERT:マルチタスク・チャットの高機能化のためのコンテキスト認識の活用

CA-BERT: Leveraging Context Awareness for Enhanced Multi-Turn Chat Interaction ( http://arxiv.org/abs/2409.13701v2 )

ライセンス: Link先を確認
Minghao Liu, Mingxiu Sui, Yi Nan, Cangqing Wang, Zhijie Zhou, (参考訳) 自動チャットシステムにおける効果的なコミュニケーションは、コンテキストを理解して応答する能力に依存している。 伝統的なモデルは、適切な応答を生成するために追加のコンテキストが必要かどうかを決定するのに苦労することが多い。 本稿では, この課題に対処するために, 変換器をベースとしたモデルである Context-Aware BERT (CA-BERT) を紹介する。 CA-BERTは、マルチターンチャットにおけるコンテキスト要求を識別するためのディープラーニング手法を革新的に応用し、応答の妥当性と精度の両立を図っている。 本稿では,チャット対話の専門的データセットに着目した新しいトレーニング手法により,BERTの頑健なアーキテクチャを適応させるCA-BERTの開発について述べる。 このモデルはコンテキスト要求を分類する能力に基づいて評価され、精度と効率の点でベースラインBERTモデルよりも優れた性能を示す。 さらにCA-BERTの実装では、トレーニング時間とリソース使用量の大幅な削減が示されており、リアルタイムアプリケーションでも実現可能である。 以上の結果から,CA-BERTはコンテキストの微妙な理解を提供することによって,自動化システムにおけるユーザエクスペリエンスとインタラクション品質を向上させることにより,チャットボットの機能を効果的に向上させることができることが示唆された。 この研究は、チャットアプリケーションにおけるNLPの分野を前進させるだけでなく、文脈に敏感なAI開発に関する将来の研究のためのフレームワークも提供する。

Effective communication in automated chat systems hinges on the ability to understand and respond to context. Traditional models often struggle with determining when additional context is necessary for generating appropriate responses. This paper introduces Context-Aware BERT (CA-BERT), a transformer-based model specifically fine-tuned to address this challenge. CA-BERT innovatively applies deep learning techniques to discern context necessity in multi-turn chat interactions, enhancing both the relevance and accuracy of responses. We describe the development of CA-BERT, which adapts the robust architecture of BERT with a novel training regimen focused on a specialized dataset of chat dialogues. The model is evaluated on its ability to classify context necessity, demonstrating superior performance over baseline BERT models in terms of accuracy and efficiency. Furthermore, CA-BERT's implementation showcases significant reductions in training time and resource usage, making it feasible for real-time applications. The results indicate that CA-BERT can effectively enhance the functionality of chatbots by providing a nuanced understanding of context, thereby improving user experience and interaction quality in automated systems. This study not only advances the field of NLP in chat applications but also provides a framework for future research into context-sensitive AI developments.
翻訳日:2024-11-07 05:46:28 公開日:2024-10-01
# ジェネラリストとスペシャリストの混在によるオンデバイス協調言語モデリング

On-device Collaborative Language Modeling via a Mixture of Generalists and Specialists ( http://arxiv.org/abs/2409.13931v1 )

ライセンス: Link先を確認
Dongyang Fan, Bettina Messmer, Martin Jaggi, (参考訳) 我々は,Low-Rank Adaptation (LoRA)モジュールであるMixture of Experts (MoE)アーキテクチャを適用することで,デバイス上での協調的なLLM(Large Language Models)の微調整を目標としている。 従来のMoEアプローチでは、専門家はトレーニングを通じてスペシャリストに発展する。 対照的に、$\textbf{Co}$llaborative learning approach via a $\textbf{Mi}$xture of $\textbf{G}$eneralists and $\textbf{S}$pecialists (CoMiGS)を提案する。 この2つの役割の多様化は、特定の専門家をグローバルに集約し、他者をローカライズしてユーザ固有のデータセットに特化させることによって達成される。 私たちの作業の中心は学習可能なルーティングネットワークで、トークンレベルでルーティングし、最も細かい粒度のコラボレーションとパーソナライゼーションのバランスを取ります。 提案手法は,多種多様なデータセットにまたがる高データ不均一なシナリオにおいて,優れた性能を示す。 提案手法は,LoRAの専門家の数によって異なるが,ユーザ間の計算資源の制約は様々である。 さらに、低リソースのユーザは、高いデータ量で高リソースのユーザから恩恵を受けることができることを示す。

We target on-device collaborative fine-tuning of Large Language Models (LLMs) by adapting a Mixture of Experts (MoE) architecture, where experts are Low-Rank Adaptation (LoRA) modules. In conventional MoE approaches, experts develop into specialists throughout training. In contrast, we propose a novel $\textbf{Co}$llaborative learning approach via a $\textbf{Mi}$xture of $\textbf{G}$eneralists and $\textbf{S}$pecialists (CoMiGS). Diversifying into the two roles is achieved by aggregating certain experts globally while keeping others localized to specialize in user-specific datasets. Central to our work is a learnable routing network that routes at a token level, balancing collaboration and personalization at the finest granularity. Our method consistently demonstrates superior performance in scenarios with high data heterogeneity across various datasets. By design, our approach accommodates varying computational resource constraints among users as shown in different numbers of LoRA experts. We further showcase that low-resourced users can benefit from high-resourced users with high data quantity.
翻訳日:2024-11-07 04:28:44 公開日:2024-10-01
# ジェネラリストとスペシャリストの混在によるオンデバイス協調言語モデリング

On-Device Collaborative Language Modeling via a Mixture of Generalists and Specialists ( http://arxiv.org/abs/2409.13931v2 )

ライセンス: Link先を確認
Dongyang Fan, Bettina Messmer, Martin Jaggi, (参考訳) デバイス上でのLDMは、プライバシを強化し、パーソナライズされたユーザエクスペリエンスを提供する能力に対して、注目を集めている。 個人的・希少なローカルデータによる学習を容易にするために,エンドユーザ間のシステムやデータの異質性に関する課題を導入しながらも,フェデレーション学習が標準的アプローチとなっている。 解決策として,$\textbf{Co}$llaborative learning approach with a $\textbf{Mi}$xture of $\textbf{G}$eneralists and $\textbf{S}$pecialists (CoMiGS)を提案する。 このアプローチは、エンドユーザー全体にわたって特定の専門家を集約し、他者がユーザー固有のデータセットに特化するようにローカライズされたままにすることで、ジェネラリストやスペシャリストを区別する。 提案手法の重要な革新は、目標分布を表す別個の検証セットを用いてルータを更新する、Mixture-of-Experts学習目標の2レベル最適化の定式化である。 CoMiGSはコラボレーションとパーソナライゼーションのバランスを効果的に保ち、複数のデータセットにわたる高いデータの均一性を持つシナリオにおける優れたパフォーマンスによって実証されている。 提案手法は, 利用者の様々な計算資源を, 各種の専門家によって設計する。 資源をデータ量から切り離すことによって、CoMiGSは、スペシャリストが専門知識を通じてローカルデータに適応する規則化効果に対して、過度に適合することに対して頑健である。

On-device LLMs have gained increasing attention for their ability to enhance privacy and provide a personalized user experience. To facilitate learning with private and scarce local data, federated learning has become a standard approach, though it introduces challenges related to system and data heterogeneity among end users. As a solution, we propose a novel $\textbf{Co}$llaborative learning approach with a $\textbf{Mi}$xture of $\textbf{G}$eneralists and $\textbf{S}$pecialists (CoMiGS), being the first to effectively address both. Our approach distinguishes generalists and specialists by aggregating certain experts across end users while keeping others localized to specialize in user-specific datasets. A key innovation of our method is the bi-level optimization formulation of the Mixture-of-Experts learning objective, where the router is updated using a separate validation set that represents the target distribution. CoMiGS effectively balances collaboration and personalization, as demonstrated by its superior performance in scenarios with high data heterogeneity across multiple datasets. By design, our approach accommodates users' varying computational resources through different numbers of specialists. By decoupling resource abundance from data quantity, CoMiGS remains robust against overfitting-due to the generalists' regularizing effect-while adapting to local data through specialist expertise.
翻訳日:2024-11-07 04:28:44 公開日:2024-10-01
# Ashからの軌道復元のデミスティファイション:オープンソース評価と改善

Demystifying Trajectory Recovery From Ash: An Open-Source Evaluation and Enhancement ( http://arxiv.org/abs/2409.14645v1 )

ライセンス: Link先を確認
Nicholas D'Silva, Toran Shahi, Øyvind Timian Dokk Husveg, Adith Sanjeeve, Erik Buchholz, Salil S. Kanhere, (参考訳) 一度分析すると、位置軌跡は様々なアプリケーションに有益な貴重な洞察を与えることができる。 しかし、そのようなデータは非常に敏感であり、例えば個人の身元、住所、政治的関係を明らかにするなど、不正管理の際のプライバシー上のリスクに影響を受けやすい。 したがって、このデータのためにプライバシが保存されることが最優先事項である。 この懸念を和らげるためによく取られる尺度は集合である。 Xuらによる以前の研究は、トラジェクトリが匿名化および集約されたデータセットからまだ回復可能であることを示している。 しかし、この研究は実装の詳細を欠き、攻撃のメカニズムを難読化している。 さらに、この攻撃は商用の非パブリックデータセットで評価され、結果とその後のクレームが検証不可能になった。 本研究では,トラジェクタリカバリ攻撃をスクラッチから再実装し,それを2つのオープンソースデータセット上で評価し,前処理ステップと実装について詳述する。 結果は、一般的な匿名化や集約手法にもかかわらず、プライバシリークがまだ存在することを確認するとともに、初期精度の主張が過度に野心的であったことも示している。 結果が完全に再現可能であることを保証するため、すべてのコードをオープンソースとしてリリースします。 さらに,ベースライン攻撃に対する一連の強化を設計することで,より強力な攻撃を提案する。 これらの拡張により、最大16%の精度が得られ、軌道回復法における将来の研究のための改良されたベンチマークを提供する。 我々の改善により、攻撃のオンライン実行も可能となり、以前は処理不能と考えられていた大規模なデータセットに対する部分的な攻撃が可能になった。 本研究は, 匿名化の手段として, 集約されたモビリティデータをのみ依存せず, 集約されたモビリティデータを公開する際に, 強力なプライバシ保存機構を使用することの重要性を強調した。

Once analysed, location trajectories can provide valuable insights beneficial to various applications. However, such data is also highly sensitive, rendering them susceptible to privacy risks in the event of mismanagement, for example, revealing an individual's identity, home address, or political affiliations. Hence, ensuring that privacy is preserved for this data is a priority. One commonly taken measure to mitigate this concern is aggregation. Previous work by Xu et al. shows that trajectories are still recoverable from anonymised and aggregated datasets. However, the study lacks implementation details, obfuscating the mechanisms of the attack. Additionally, the attack was evaluated on commercial non-public datasets, rendering the results and subsequent claims unverifiable. This study reimplements the trajectory recovery attack from scratch and evaluates it on two open-source datasets, detailing the preprocessing steps and implementation. Results confirm that privacy leakage still exists despite common anonymisation and aggregation methods but also indicate that the initial accuracy claims may have been overly ambitious. We release all code as open-source to ensure the results are entirely reproducible and, therefore, verifiable. Moreover, we propose a stronger attack by designing a series of enhancements to the baseline attack. These enhancements yield higher accuracies by up to 16%, providing an improved benchmark for future research in trajectory recovery methods. Our improvements also enable online execution of the attack, allowing partial attacks on larger datasets previously considered unprocessable, thereby furthering the extent of privacy leakage. The findings emphasise the importance of using strong privacy-preserving mechanisms when releasing aggregated mobility data and not solely relying on aggregation as a means of anonymisation.
翻訳日:2024-11-06 21:45:58 公開日:2024-10-01
# Ashからの軌道復元のデミスティファイション:オープンソース評価と改善

Demystifying Trajectory Recovery From Ash: An Open-Source Evaluation and Enhancement ( http://arxiv.org/abs/2409.14645v2 )

ライセンス: Link先を確認
Nicholas D'Silva, Toran Shahi, Øyvind Timian Dokk Husveg, Adith Sanjeeve, Erik Buchholz, Salil S. Kanhere, (参考訳) 一度分析すると、位置軌跡は様々なアプリケーションに有益な貴重な洞察を与えることができる。 しかし、そのようなデータは非常に敏感であり、例えば個人の身元、住所、政治的関係を明らかにするなど、不正管理の際のプライバシー上のリスクに影響を受けやすい。 したがって、このデータのためにプライバシが保存されることが最優先事項である。 この懸念を和らげるためによく取られる尺度は集合である。 Xuらによる以前の研究は、トラジェクトリが匿名化および集約されたデータセットからまだ回復可能であることを示している。 しかし、この研究は実装の詳細を欠き、攻撃のメカニズムを難読化している。 さらに、この攻撃は商用の非パブリックデータセットで評価され、結果とその後のクレームが検証不可能になった。 本研究では,トラジェクタリカバリ攻撃をスクラッチから再実装し,それを2つのオープンソースデータセット上で評価し,前処理ステップと実装について詳述する。 結果は、一般的な匿名化や集約手法にもかかわらず、プライバシリークがまだ存在することを確認するとともに、初期精度の主張が過度に野心的であったことも示している。 結果が完全に再現可能であることを保証するため、すべてのコードをオープンソースとしてリリースします。 さらに,ベースライン攻撃に対する一連の強化を設計することで,より強力な攻撃を提案する。 これらの拡張により、最大16%の精度が得られ、軌道回復法における将来の研究のための改良されたベンチマークを提供する。 我々の改善により、攻撃のオンライン実行も可能となり、以前は処理不能と考えられていた大規模なデータセットに対する部分的な攻撃が可能になった。 本研究は, 匿名化の手段として, 集約されたモビリティデータをのみ依存せず, 集約されたモビリティデータを公開する際に, 強力なプライバシ保存機構を使用することの重要性を強調した。

Once analysed, location trajectories can provide valuable insights beneficial to various applications. However, such data is also highly sensitive, rendering them susceptible to privacy risks in the event of mismanagement, for example, revealing an individual's identity, home address, or political affiliations. Hence, ensuring that privacy is preserved for this data is a priority. One commonly taken measure to mitigate this concern is aggregation. Previous work by Xu et al. shows that trajectories are still recoverable from anonymised and aggregated datasets. However, the study lacks implementation details, obfuscating the mechanisms of the attack. Additionally, the attack was evaluated on commercial non-public datasets, rendering the results and subsequent claims unverifiable. This study reimplements the trajectory recovery attack from scratch and evaluates it on two open-source datasets, detailing the preprocessing steps and implementation. Results confirm that privacy leakage still exists despite common anonymisation and aggregation methods but also indicate that the initial accuracy claims may have been overly ambitious. We release all code as open-source to ensure the results are entirely reproducible and, therefore, verifiable. Moreover, we propose a stronger attack by designing a series of enhancements to the baseline attack. These enhancements yield higher accuracies by up to 16%, providing an improved benchmark for future research in trajectory recovery methods. Our improvements also enable online execution of the attack, allowing partial attacks on larger datasets previously considered unprocessable, thereby furthering the extent of privacy leakage. The findings emphasise the importance of using strong privacy-preserving mechanisms when releasing aggregated mobility data and not solely relying on aggregation as a means of anonymisation.
翻訳日:2024-11-06 21:45:58 公開日:2024-10-01
# ロボットマニピュレーションのための非同期能動視覚反応モデル

Observe Then Act: Asynchronous Active Vision-Action Model for Robotic Manipulation ( http://arxiv.org/abs/2409.14891v2 )

ライセンス: Link先を確認
Guokang Wang, Hang Li, Shuyuan Zhang, Yanhong Liu, Huaping Liu, (参考訳) 現実のシナリオでは、多くのロボット操作タスクは、オクルージョンと限られた視野によって妨げられ、固定または手首に搭載されたカメラに依存する受動的観察ベースのモデルにとって重要な課題となっている。 本稿では、限られた視覚下でのロボット操作の問題について検討し、タスク駆動型非同期アクティブ・ビジョン・アクション・モデルを提案する。我々のモデルは、カメラを直列接続するNext-Best-View(NBV)ポリシーとグリッパーのNext-Best Pose(NBP)ポリシーをグリップし、数発の強化学習を用いてセンサー・モーター協調フレームワークで訓練する。 提案手法では,3人称カメラがタスク目標に基づいて環境を積極的に観察し,その後適切な操作動作を推測し,RLBenchの視点制約タスク8つのタスクに基づいてモデルを訓練し,評価する。 その結果,操作タスクにおける視覚的制約処理の有効性を示すとともに,ベースラインアルゴリズムを一貫して上回る結果が得られた。

In real-world scenarios, many robotic manipulation tasks are hindered by occlusions and limited fields of view, posing significant challenges for passive observation-based models that rely on fixed or wrist-mounted cameras. In this paper, we investigate the problem of robotic manipulation under limited visual observation and propose a task-driven asynchronous active vision-action model.Our model serially connects a camera Next-Best-View (NBV) policy with a gripper Next-Best Pose (NBP) policy, and trains them in a sensor-motor coordination framework using few-shot reinforcement learning. This approach allows the agent to adjust a third-person camera to actively observe the environment based on the task goal, and subsequently infer the appropriate manipulation actions.We trained and evaluated our model on 8 viewpoint-constrained tasks in RLBench. The results demonstrate that our model consistently outperforms baseline algorithms, showcasing its effectiveness in handling visual constraints in manipulation tasks.
翻訳日:2024-11-06 20:39:08 公開日:2024-10-01
# FLeNS: 強化されたNesterov-Newton Sketchによるフェデレートラーニング

FLeNS: Federated Learning with Enhanced Nesterov-Newton Sketch ( http://arxiv.org/abs/2409.15216v2 )

ライセンス: Link先を確認
Sunny Gupta, Mohit Jindal, Pankhi Kashyap, Pranav Jeevan, Amit Sethi, (参考訳) フェデレーション学習は、特に2階法において、コミュニケーション効率と迅速な収束のバランスをとる上で、重要な課題に直面します。 ニュートン型アルゴリズムは通信ラウンドにおいて線形収束を実現するが、フルヘッセン行列の伝達は2次複雑さのため、しばしば非現実的である。 我々は、ネステロフの手法の加速能力とヘッセンスケッチの次元還元効果を両立させる新しい手法であるFLeNS(Federated Learning with Enhanced Nesterov-Newton Sketch)を紹介する。 FLeNSは、正確なヘッセンを頼らずに中央集権ニュートン法を近似し、通信オーバーヘッドを著しく低減する。 ネステロフの加速度と適応的ヘッセンスケッチを組み合わせることで、FLeNSは急激な収束特性を維持しながら重要な2階情報を保存する。 統計的学習に基づく我々の理論的分析は、FLeNSが通信ラウンドにおける超線形収束率を達成することを示す。 我々は、加速度、スケッチサイズ、収束速度のトレードオフを厳格に保証し、特徴付ける。 FLeNSの最先端性能と通信要求の低減,特にプライバシに敏感な,エッジコンピューティングのシナリオについて,大規模な実証実験により検証した。 コードはhttps://github.com/sunnyinAI/FLeNSで入手できる。

Federated learning faces a critical challenge in balancing communication efficiency with rapid convergence, especially for second-order methods. While Newton-type algorithms achieve linear convergence in communication rounds, transmitting full Hessian matrices is often impractical due to quadratic complexity. We introduce Federated Learning with Enhanced Nesterov-Newton Sketch (FLeNS), a novel method that harnesses both the acceleration capabilities of Nesterov's method and the dimensionality reduction benefits of Hessian sketching. FLeNS approximates the centralized Newton's method without relying on the exact Hessian, significantly reducing communication overhead. By combining Nesterov's acceleration with adaptive Hessian sketching, FLeNS preserves crucial second-order information while preserving the rapid convergence characteristics. Our theoretical analysis, grounded in statistical learning, demonstrates that FLeNS achieves super-linear convergence rates in communication rounds - a notable advancement in federated optimization. We provide rigorous convergence guarantees and characterize tradeoffs between acceleration, sketch size, and convergence speed. Extensive empirical evaluation validates our theoretical findings, showcasing FLeNS's state-of-the-art performance with reduced communication requirements, particularly in privacy-sensitive and edge-computing scenarios. The code is available at https://github.com/sunnyinAI/FLeNS
翻訳日:2024-11-06 20:27:58 公開日:2024-10-01
# 目で見る: 観察可能な、そしてモジュール型の思考の連鎖

Watch Your Steps: Observable and Modular Chains of Thought ( http://arxiv.org/abs/2409.15359v2 )

ライセンス: Link先を確認
Cassandra A. Cohen, William W. Cohen, (参考訳) 我々は,CoTのパワー,一般性,柔軟性を保ちつつ,説明をより観測可能なものにするプログラムトレース・プロンプト(Program Trace Prompting)と呼ばれる,思考の連鎖(CoT)の変種を提案する。 このアプローチでは,いくつかのCoTデモをPythonベースの形式構文でラップし,各プロンプトでステップを特定し,ステップの入力/出力動作を定義し,コンテキスト内例のCoT説明を,これらの形式化されたステップのチェーンに置き換える。 Program Trace Promptingは多くのタスクに適用でき、BIG-Bench Hardベンチマークの23種類のタスクに対して強力な結果が得られる。 さらに重要なことは、この方法で説明を行うことによって、我々は新しいタイプの分析を可能にします。 特に,CoT学習における非局所的誤り(実演で示される推論方法の誤学習に対応する)を未適応問題として同定し,CoTの説明においてステップのモジュラリティを検証する方法を提案する。

We propose a variant of chain of thought (CoT) prompting called Program Trace Prompting that makes explanations more observable while preserving the power, generality and flexibility of CoT. In our approach, few-shot CoT demonstrations are wrapped in a formal syntax based on Python, and each prompt: identifies and names steps; defines the input/output behavior of steps; and replaces CoT explanations of in-context examples with chains of these formalized steps on the same examples. Program Trace Prompting is applicable to many tasks, achieving strong results on the 23 diverse tasks in the BIG-Bench Hard benchmark. More importantly, by instrumenting explanations in this way, we enable new types of analysis. In particular, we identify "non-local errors" (which correspond to incorrectly learning the reasoning method illustrated in the demonstrations) as an unaddressed issue in CoT learning, and we present methods for verifying the modularity of steps in a CoT explanation.
翻訳日:2024-11-06 19:43:38 公開日:2024-10-01
# NLPモデルのプライバシ評価ベンチマーク

Privacy Evaluation Benchmarks for NLP Models ( http://arxiv.org/abs/2409.15868v3 )

ライセンス: Link先を確認
Wei Huang, Yinggui Wang, Cen Chen, (参考訳) NLPモデルに対するプライバシ攻撃を誘導することにより、攻撃者はトレーニングデータやモデルパラメータなどの機密情報を得ることができる。 研究者は、NLPモデルにおけるいくつかの種類の攻撃について詳細に研究してきたが、それらは非系統解析である。 攻撃による影響の包括的理解が欠如している。 例えば、どの攻撃にどのシナリオが適用できるか、異なる攻撃のパフォーマンスに影響を与える共通の要因、異なる攻撃間の関係の性質、攻撃の有効性に対するさまざまなデータセットやモデルの影響などを考慮しなければなりません。 したがって、NLPモデルが直面するプライバシーリスクを全体評価するベンチマークが必要である。 本稿では,従来の/小モデルと大規模言語モデル(LLM)を含むNLP分野におけるプライバシ攻撃・防衛評価ベンチマークを提案する。 このベンチマークは、さまざまなモデル、データセット、プロトコルをサポートし、攻撃と防御戦略の包括的な評価のための標準化されたモジュールをサポートする。 以上の枠組みに基づいて、異なるドメインからの補助データとプライバシ攻撃の強さとの関係について検討する。 また,このシナリオにおいて,知識蒸留(KD)の助けを借りて,より優れた攻撃方法を提案する。 さらに,プライバシ攻撃のための連鎖フレームワークを提案する。 高いレベルの攻撃目標を達成するために、実践者が複数の攻撃をチェーンできる。 これに基づいて、防衛戦略と強化攻撃戦略を提供する。 結果を再現するコードはhttps://github.com/user2311717757/nlp_doctor.comで見ることができる。

By inducing privacy attacks on NLP models, attackers can obtain sensitive information such as training data and model parameters, etc. Although researchers have studied, in-depth, several kinds of attacks in NLP models, they are non-systematic analyses. It lacks a comprehensive understanding of the impact caused by the attacks. For example, we must consider which scenarios can apply to which attacks, what the common factors are that affect the performance of different attacks, the nature of the relationships between different attacks, and the influence of various datasets and models on the effectiveness of the attacks, etc. Therefore, we need a benchmark to holistically assess the privacy risks faced by NLP models. In this paper, we present a privacy attack and defense evaluation benchmark in the field of NLP, which includes the conventional/small models and large language models (LLMs). This benchmark supports a variety of models, datasets, and protocols, along with standardized modules for comprehensive evaluation of attacks and defense strategies. Based on the above framework, we present a study on the association between auxiliary data from different domains and the strength of privacy attacks. And we provide an improved attack method in this scenario with the help of Knowledge Distillation (KD). Furthermore, we propose a chained framework for privacy attacks. Allowing a practitioner to chain multiple attacks to achieve a higher-level attack objective. Based on this, we provide some defense and enhanced attack strategies. The code for reproducing the results can be found at https://github.com/user2311717757/nlp_doctor.
翻訳日:2024-11-06 19:21:13 公開日:2024-10-01
# 逆制約強化学習における探索の効率化

Provably Efficient Exploration in Inverse Constrained Reinforcement Learning ( http://arxiv.org/abs/2409.15963v2 )

ライセンス: Link先を確認
Bo Yue, Jian Li, Guiliang Liu, (参考訳) 複雑な環境における最適制約を得るために、逆制約強化学習(ICRL)は、専門家による実証からデータ駆動方式でこれらの制約を回復しようと試みている。 既存のICRLアルゴリズムは対話型環境からトレーニングサンプルを収集する。 しかし,これらのサンプリング手法の有効性と有効性は未だ不明である。 このギャップを埋めるために、我々は効率性を保証する戦略的探索フレームワークを導入する。 具体的には、ICRL問題に対して実行可能な制約セットを定義し、専門家の政策と環境力学が制約の最適性にどのように影響するかを検討する。 そこで本研究では,効率的な制約推論を実現するための2つの探索アルゴリズムを提案する。 1【コスト推定の有界集合誤差の動的低減】 2)探索政策を戦略的に制約する。 どちらのアルゴリズムも理論的には、抽出可能なサンプルの複雑さに基礎を置いている。 我々は,様々な環境下でのアルゴリズムの性能を実証的に実証した。

To obtain the optimal constraints in complex environments, Inverse Constrained Reinforcement Learning (ICRL) seeks to recover these constraints from expert demonstrations in a data-driven manner. Existing ICRL algorithms collect training samples from an interactive environment. However, the efficacy and efficiency of these sampling strategies remain unknown. To bridge this gap, we introduce a strategic exploration framework with guaranteed efficiency. Specifically, we define a feasible constraint set for ICRL problems and investigate how expert policy and environmental dynamics influence the optimality of constraints. Motivated by our findings, we propose two exploratory algorithms to achieve efficient constraint inference via 1) dynamically reducing the bounded aggregate error of cost estimation and 2) strategically constraining the exploration policy. Both algorithms are theoretically grounded with tractable sample complexity. We empirically demonstrate the performance of our algorithms under various environments.
翻訳日:2024-11-06 18:04:33 公開日:2024-10-01
# 逆制約強化学習における探索の効率化

Provably Efficient Exploration in Inverse Constrained Reinforcement Learning ( http://arxiv.org/abs/2409.15963v3 )

ライセンス: Link先を確認
Bo Yue, Jian Li, Guiliang Liu, (参考訳) 複雑な環境における最適制約を得るために、逆制約強化学習(ICRL)は、専門家による実証からデータ駆動方式でこれらの制約を回復しようと試みている。 既存のICRLアルゴリズムは対話型環境からトレーニングサンプルを収集する。 しかし,これらのサンプリング手法の有効性と有効性は未だ不明である。 このギャップを埋めるために、我々は効率性を保証する戦略的探索フレームワークを導入する。 具体的には、ICRL問題に対して実行可能な制約セットを定義し、専門家の政策と環境力学が制約の最適性にどのように影響するかを検討する。 そこで本研究では,効率的な制約推論を実現するための2つの探索アルゴリズムを提案する。 1【コスト推定の有界集合誤差の動的低減】 2)探索政策を戦略的に制約する。 どちらのアルゴリズムも理論的には、抽出可能なサンプルの複雑さに基礎を置いている。 我々は,様々な環境下でのアルゴリズムの性能を実証的に実証した。

To obtain the optimal constraints in complex environments, Inverse Constrained Reinforcement Learning (ICRL) seeks to recover these constraints from expert demonstrations in a data-driven manner. Existing ICRL algorithms collect training samples from an interactive environment. However, the efficacy and efficiency of these sampling strategies remain unknown. To bridge this gap, we introduce a strategic exploration framework with guaranteed efficiency. Specifically, we define a feasible constraint set for ICRL problems and investigate how expert policy and environmental dynamics influence the optimality of constraints. Motivated by our findings, we propose two exploratory algorithms to achieve efficient constraint inference via 1) dynamically reducing the bounded aggregate error of cost estimation and 2) strategically constraining the exploration policy. Both algorithms are theoretically grounded with tractable sample complexity. We empirically demonstrate the performance of our algorithms under various environments.
翻訳日:2024-11-06 18:04:33 公開日:2024-10-01
# 断熱型CoVaRによる地盤・励起状態の調製

Preparing Ground and Excited States Using Adiabatic CoVaR ( http://arxiv.org/abs/2409.16194v2 )

ライセンス: Link先を確認
Wooseop Hwang, Bálint Koczor, (参考訳) CoVarince Root find with classical shadows (CoVaR) は、変分量子回路のトレーニングのための新しいパラダイムとして最近導入された。 変分量子固有解器の変種のような一般的なアプローチは、非線形古典的コスト関数を最適化することを目的としており、例えば、貧弱な局所ミニマ、高ショット要求、不毛な高原に悩まされている。 これとは対照的に、CoVaRは強力な古典的影をフル活用し、対数的なショット数だけを使い、古典的HPC計算資源を線形にスケールする非常に多数の共分散の結合根を見つける。 その結果、CoVaRは局所トラップに対して特に堅牢であることが示されているが、その主な制限は十分に良い初期状態を必要とすることである。 対象ハミルトニアンの断熱的モーフィングを導入してこの制限に対処し、初期温暖開始が分かっていない場合には、CoVaRが対象ハミルトニアンの固有状態の調製に成功できることを幅広い応用例で示す。 CoVaRはハミルトンエネルギーギャップが非常に小さい場合でも成功し、これはハミルトンエネルギーギャップと逆向きに回路深さがスケールする断熱的進化と位相推定アルゴリズムとは対照的である。 一方、エネルギーギャップが比較的小さい場合、Adiabatic CoVaRは目標とする特定の低層状態とは対照的に、より高い励起状態に収束する。 それにもかかわらず、このような断熱的CoVaRの特性を利用して、熱特性の推定や高エネルギー物理学などの実用的な応用に有用であるハミルトニアンの低地層スペクトルをマッピングすることができることを示す。

CoVarince Root finding with classical shadows (CoVaR) was recently introduced as a new paradigm for training variational quantum circuits. Common approaches, such as variants of the Variational Quantum Eigensolver, aim to optimise a non-linear classical cost function and thus suffer from, e.g., poor local minima, high shot requirements and barren plateaus. In contrast, CoVaR fully exploits powerful classical shadows and finds joint roots of a very large number of covariances using only a logarithmic number of shots and linearly scaling classical HPC compute resources. As a result, CoVaR has been demonstrated to be particularly robust against local traps, however, its main limitation has been that it requires a sufficiently good initial state. We address this limitation by introducing an adiabatic morphing of the target Hamiltonian and demonstrate in a broad range of application examples that CoVaR can successfully prepare eigenstates of the target Hamiltonian when no initial warm start is known. CoVaR succeeds even when Hamiltonian energy gaps are very small -- this is in stark contrast to adiabatic evolution and phase estimation algorithms where circuit depths scale inversely with the Hamiltonian energy gaps. On the other hand, when the energy gaps are relatively small then adiabatic CoVaR may converge to higher excited states as opposed to a targeted specific low-lying state. Nevertheless, we exploit this feature of adiabatic CoVaR and demonstrate that it can be used to map out the low lying spectrum of a Hamiltonian which can be useful in practical applications, such as estimating thermal properties or in high-energy physics.
翻訳日:2024-11-06 17:52:35 公開日:2024-10-01
# 空間構造二光子のホロノミーに及ぼす量子相関の影響

The Influence of Quantum Correlation on the Holonomy of Spatially-Structured Bi-Photons ( http://arxiv.org/abs/2409.16401v2 )

ライセンス: Link先を確認
Mark T. Lusk, (参考訳) 幾何学的位相における絡み合いの顕在化は、空間的に構造化された双光子に対して解明される。 絡み合いパラメータは、分離可能な状態の統計的重ね合わせと量子相関の2つの異なる方法でホロノミーに影響を与えることが示されている。 これらは幾何学的位相に絡み合っており、量子相関の顕在化と説明を可能にする射影的ゲージ不変測度の構築を動機付けている。 一対のモードコンバータからなる光回路は実演を行う。 これは、調整可能な絡み合いを持つ光子対を生産する新しいポンプ工学手法によって促進される。

The manifestation of entanglement within geometric phase is elucidated for spatially-structured bi-photons. Entanglement parameters are shown to influence holonomy in two distinct ways: through statistical superpositions of separable states; and via quantum correlation. These are entwined within geometric phase, motivating the construction of a projective, gauge-invariant measure that allows the manifestation of quantum correlation to be pinpointed and explained. An optical circuit consisting of a pair of misoriented mode converters gives a practical demonstration. This is facilitated by a novel pump engineering method which produces photon pairs with tunable entanglement.
翻訳日:2024-11-06 17:42:27 公開日:2024-10-01
# 空間構造二光子のホロノミーに及ぼす量子相関の影響

The Influence of Quantum Correlation on the Holonomy of Spatially-Structured Bi-Photons ( http://arxiv.org/abs/2409.16401v3 )

ライセンス: Link先を確認
Mark T. Lusk, (参考訳) 幾何学的位相における絡み合いの顕在化は、空間的に構造化された双光子に対して解明される。 絡み合いパラメータは、分離可能な状態の統計的重ね合わせと量子相関の2つの異なる方法でホロノミーに影響を与えることが示されている。 これらは幾何学的位相に絡み合っており、量子相関の顕在化と説明を可能にする射影的ゲージ不変測度の構築を動機付けている。 一対のモードコンバータからなる光回路は実演を行う。 これは、調整可能な絡み合いを持つ光子対を生産する新しいポンプ工学手法によって促進される。

The manifestation of entanglement within geometric phase is elucidated for spatially-structured bi-photons. Entanglement parameters are shown to influence holonomy in two distinct ways: through statistical superpositions of separable states; and via quantum correlation. These are entwined within geometric phase, motivating the construction of a projective, gauge-invariant measure that allows the manifestation of quantum correlation to be pinpointed and explained. An optical circuit consisting of a pair of misoriented mode converters gives a practical demonstration. This is facilitated by a novel pump engineering method which produces photon pairs with tunable entanglement.
翻訳日:2024-11-06 17:42:27 公開日:2024-10-01
# 深部強化学習を用いた効率的な目標マッピングのためのマルチロボットインフォーマティブパス計画

Multi-Robot Informative Path Planning for Efficient Target Mapping using Deep Reinforcement Learning ( http://arxiv.org/abs/2409.16967v2 )

ライセンス: Link先を確認
Apoorva Vashisth, Dipam Patel, Damon Conover, Aniket Bera, (参考訳) 自律ロボットは、その効率性と労働コストの低さから、いくつかのマッピングやデータ収集タスクに採用されている。 これらのタスクでは、ロボットは経路長やミッションタイムなどのリソース予算に制約を課しながら、未知の環境における関心のターゲットをマッピングする必要がある。 これは、各ロボットが環境中の静的障害物から衝突を検出し、回避するだけでなく、ロボット同士の衝突を避けるために、他のロボットの軌道をモデル化する必要があるため、難しい問題である。 本研究では,未知の3次元環境における関心のターゲットをマップするマルチロボット情報経路計画のための新しい深層強化学習手法を提案する。 我々のアプローチの重要な側面は、他のロボットの軌道をモデル化し、通信計画とロボット間衝突回避を可能にする拡張グラフである。 我々は、集中型学習と分散型実行パラダイムを通じて、分散化された強化学習政策を訓練する。 トレーニングが完了すると、ポリシーはさまざまなロボットにスケーラブルになり、再トレーニングは不要になります。 提案手法は,他の最先端のマルチロボット目標マッピング手法よりも33.75%向上する。 私たちは、コードとモデルをhttps://github.com/AccGen99/marl_ippでオープンソース化しました。

Autonomous robots are being employed in several mapping and data collection tasks due to their efficiency and low labor costs. In these tasks, the robots are required to map targets-of-interest in an unknown environment while constrained to a given resource budget such as path length or mission time. This is a challenging problem as each robot has to not only detect and avoid collisions from static obstacles in the environment but also has to model other robots' trajectories to avoid inter-robot collisions. We propose a novel deep reinforcement learning approach for multi-robot informative path planning to map targets-of-interest in an unknown 3D environment. A key aspect of our approach is an augmented graph that models other robots' trajectories to enable planning for communication and inter-robot collision avoidance. We train our decentralized reinforcement learning policy via the centralized training and decentralized execution paradigm. Once trained, our policy is also scalable to varying number of robots and does not require re-training. Our approach outperforms other state-of-the-art multi-robot target mapping approaches by 33.75% in terms of the number of discovered targets-of-interest. We open-source our code and model at: https://github.com/AccGen99/marl_ipp
翻訳日:2024-11-06 17:10:14 公開日:2024-10-01
# DRIM:不完全なマルチモーダル医療データから切り離された表現を学習する

DRIM: Learning Disentangled Representations from Incomplete Multimodal Healthcare Data ( http://arxiv.org/abs/2409.17055v2 )

ライセンス: Link先を確認
Lucas Robinet, Ahmad Berjaoui, Ziad Kheil, Elizabeth Cohen-Jonathan Moyal, (参考訳) 実生活の医療データは、しばしばマルチモーダルで不完全であり、それを効率的に統合できる高度なディープラーニングモデルの必要性が高まっている。 病理組織学のスライド、MRI、遺伝データを含む多様なモダリティの使用は、予後予測を改善し、新しい治療経路を公表する前例のない機会を提供する。 マルチモーダルタスクにおけるペアデータからの表現の導出に広く用いられているコントラスト学習は、異なるビューが同一のタスク関連情報を含み、共有情報のみを活用することを前提としている。 この仮定は、各モダリティが下流タスクに関連する特定の知識も持っているため、医療データを扱う際に制限される。 データ疎性にもかかわらず、共有表現とユニークな表現をキャプチャする新しいマルチモーダル手法であるDRIMを紹介する。 より具体的には、モダリティの集合を考慮し、モダリティに共通する患者関連情報をカプセル化し、モダリティ固有の詳細をカプセル化する。 これは、異なる患者モダリティ間の共有情報を増大させ、各モダリティ内の共有コンポーネントとユニークなコンポーネントの重複を最小限にすることで達成される。 本手法はグリオーマ患者の生存予測タスクにおける最先端のアルゴリズムよりも優れており,モダリティの欠如に対して頑健である。 再現性を促進するため、コードはhttps://github.com/Lucas-rbnt/DRIMで公開されている。

Real-life medical data is often multimodal and incomplete, fueling the growing need for advanced deep learning models capable of integrating them efficiently. The use of diverse modalities, including histopathology slides, MRI, and genetic data, offers unprecedented opportunities to improve prognosis prediction and to unveil new treatment pathways. Contrastive learning, widely used for deriving representations from paired data in multimodal tasks, assumes that different views contain the same task-relevant information and leverages only shared information. This assumption becomes restrictive when handling medical data since each modality also harbors specific knowledge relevant to downstream tasks. We introduce DRIM, a new multimodal method for capturing these shared and unique representations, despite data sparsity. More specifically, given a set of modalities, we aim to encode a representation for each one that can be divided into two components: one encapsulating patient-related information common across modalities and the other, encapsulating modality-specific details. This is achieved by increasing the shared information among different patient modalities while minimizing the overlap between shared and unique components within each modality. Our method outperforms state-of-the-art algorithms on glioma patients survival prediction tasks, while being robust to missing modalities. To promote reproducibility, the code is made publicly available at https://github.com/Lucas-rbnt/DRIM
翻訳日:2024-11-06 17:00:06 公開日:2024-10-01
# ノイズ量子ネットワークを用いた分散センシングにおける量子アドバンテージ

Quantum Advantage in Distributed Sensing with Noisy Quantum Networks ( http://arxiv.org/abs/2409.17089v2 )

ライセンス: Link先を確認
Allen Zang, Alexander Kolar, Alvin Gonzales, Joaquin Chung, Stephen K. Gray, Rajkumar Kettimuthu, Tian Zhong, Zain H. Saleem, (参考訳) 分散センシングにおける量子優位性はノイズの多い量子ネットワークで実現できることを示す。 偏極型GHZ状態をプローブとして用いると、最適局所センシング戦略よりも有利となるように閉形式忠実度しきい値が導出される。 この閾値は、この量子優位性には絡み合いが必要であるが、真の多部絡みは一般に不要であることを示している。 さらに,不完全な局所的絡み合いの発生と局所的な測定制約の影響について検討し,量子的優位性は局所的な演算誤差よりも量子ネットワークの不完全性に対してより堅牢であることを示す。 最後に、分散センシングにおける量子優位性は、オープンソースのカスタマイズ可能な量子ネットワークシミュレータであるSeQUeNCeによるシミュレーションにより、実用的なプロトコルスタックを使用して3ノードの量子ネットワークで達成できることを実証する。

We show that quantum advantage in distributed sensing can be achieved with noisy quantum networks. When using depolarized GHZ states as the probe, we derive a closed-form fidelity threshold to achieve advantage over the optimal local sensing strategy. The threshold indicates that while entanglement is needed for this quantum advantage, genuine multipartite entanglement is generally unnecessary. We further explore the impacts from imperfect local entanglement generation and local measurement constraint, and our results imply that the quantum advantage is more robust against quantum network imperfections than local operation errors. Finally, we demonstrate that the quantum advantage in distributed sensing can be achieved with a three-node quantum network using practical protocol stacks through simulations with SeQUeNCe, an open-source, customizable quantum network simulator.
翻訳日:2024-11-06 17:00:06 公開日:2024-10-01
# 深層強化学習におけるセマンティッククラスタリングの探索

Exploring Semantic Clustering in Deep Reinforcement Learning for Video Games ( http://arxiv.org/abs/2409.17411v2 )

ライセンス: Link先を確認
Liang Zhang, Adarsh Pyarelal, Justin Lieffers, (参考訳) 本稿では,ゲーム用深部強化学習(DRL)のセマンティッククラスタリング特性について検討し,DRLの内部ダイナミクスの理解を深め,解釈可能性の向上を図る。 この文脈では、セマンティッククラスタリングは、セマンティックな類似性に基づいて内部的にビデオ入力をグループ化するニューラルネットワークの本質的な能力を指す。 そこで本研究では,特徴量削減とオンラインクラスタリングを兼ね備えたセマンティッククラスタリングモジュールを統合したDRLアーキテクチャを提案する。 このモジュールはDRLトレーニングパイプラインにシームレスに統合され、従来のt-SNEベースの分析手法で観察された不安定な問題に対処し、意味分析の広範囲な手動アノテーションの必要性を排除する。 実験により,ゲーム用DRLにおけるモジュールの有効性とセマンティッククラスタリング特性について検証した。 さらに,これらの特性に基づいて,政策の階層構造と特徴空間内の意味的分布を理解するための新たな分析手法を導入する。

In this paper, we investigate the semantic clustering properties of deep reinforcement learning (DRL) for video games, enriching our understanding of the internal dynamics of DRL and advancing its interpretability. In this context, semantic clustering refers to the inherent capacity of neural networks to internally group video inputs based on semantic similarity. To achieve this, we propose a novel DRL architecture that integrates a semantic clustering module featuring both feature dimensionality reduction and online clustering. This module seamlessly integrates into the DRL training pipeline, addressing instability issues observed in previous t-SNE-based analysis methods and eliminating the necessity for extensive manual annotation of semantic analysis. Through experiments, we validate the effectiveness of the proposed module and the semantic clustering properties in DRL for video games. Additionally, based on these properties, we introduce new analytical methods to help understand the hierarchical structure of policies and the semantic distribution within the feature space.
翻訳日:2024-11-06 16:30:51 公開日:2024-10-01
# 深層強化学習におけるセマンティッククラスタリングの探索

Exploring Semantic Clustering in Deep Reinforcement Learning for Video Games ( http://arxiv.org/abs/2409.17411v3 )

ライセンス: Link先を確認
Liang Zhang, Justin Lieffers, Adarsh Pyarelal, (参考訳) 本稿では,ゲーム用深部強化学習(DRL)のセマンティッククラスタリング特性について検討し,DRLの内部ダイナミクスの理解を深め,解釈可能性の向上を図る。 この文脈では、セマンティッククラスタリングは、セマンティックな類似性に基づいて内部的にビデオ入力をグループ化するニューラルネットワークの本質的な能力を指す。 そこで本研究では,特徴量削減とオンラインクラスタリングを兼ね備えたセマンティッククラスタリングモジュールを統合したDRLアーキテクチャを提案する。 このモジュールはDRLトレーニングパイプラインにシームレスに統合され、従来のt-SNEベースの分析手法で観察された不安定な問題に対処し、意味分析の広範囲な手動アノテーションの必要性を排除する。 実験により,ゲーム用DRLにおけるモジュールの有効性とセマンティッククラスタリング特性について検証した。 さらに,これらの特性に基づいて,政策の階層構造と特徴空間内の意味的分布を理解するための新たな分析手法を導入する。

In this paper, we investigate the semantic clustering properties of deep reinforcement learning (DRL) for video games, enriching our understanding of the internal dynamics of DRL and advancing its interpretability. In this context, semantic clustering refers to the inherent capacity of neural networks to internally group video inputs based on semantic similarity. To achieve this, we propose a novel DRL architecture that integrates a semantic clustering module featuring both feature dimensionality reduction and online clustering. This module seamlessly integrates into the DRL training pipeline, addressing instability issues observed in previous t-SNE-based analysis methods and eliminating the necessity for extensive manual annotation of semantic analysis. Through experiments, we validate the effectiveness of the proposed module and the semantic clustering properties in DRL for video games. Additionally, based on these properties, we introduce new analytical methods to help understand the hierarchical structure of policies and the semantic distribution within the feature space.
翻訳日:2024-11-06 16:30:51 公開日:2024-10-01
# 言語モデルのためのマルチDesignated Detector Watermarking

Multi-Designated Detector Watermarking for Language Models ( http://arxiv.org/abs/2409.17518v2 )

ライセンス: Link先を確認
Zhengan Huang, Gongxian Zeng, Xin Mu, Yu Wang, Yue Yu, (参考訳) 本稿では,大規模言語モデル (LLM) のための 'emph{multi-designated detector watermarking (MDDW) の研究を開始する。 この技術により、モデルプロバイダは2つの重要な特性を持つLLMから透かし出力を生成することができる。 一 特定し、又は複数の指定された検出器だけが、透かしを識別することができること。 (II)一般利用者の出力品質の低下は認められない。 MDDWのセキュリティ定義を形式化し、MDVS (Multi-designated verifier signatures) を用いて任意のLCMに対してMDDWを構築するためのフレームワークを提案する。 LLM出力の経済的価値を認識し、MDDWのオプションセキュリティ機能としてクレームビリティを導入し、モデルプロバイダが指定された検出器設定内でLLM出力の所有権を主張できるようにする。 クレーム可能なMDDWをサポートするために,任意のMDVSをクレーム可能なMDVSに変換する汎用変換を提案する。 MDDW スキームの実装は,既存の手法よりも高度な機能と柔軟性を示し,性能指標も良好である。

In this paper, we initiate the study of \emph{multi-designated detector watermarking (MDDW)} for large language models (LLMs). This technique allows model providers to generate watermarked outputs from LLMs with two key properties: (i) only specific, possibly multiple, designated detectors can identify the watermarks, and (ii) there is no perceptible degradation in the output quality for ordinary users. We formalize the security definitions for MDDW and present a framework for constructing MDDW for any LLM using multi-designated verifier signatures (MDVS). Recognizing the significant economic value of LLM outputs, we introduce claimability as an optional security feature for MDDW, enabling model providers to assert ownership of LLM outputs within designated-detector settings. To support claimable MDDW, we propose a generic transformation converting any MDVS to a claimable MDVS. Our implementation of the MDDW scheme highlights its advanced functionalities and flexibility over existing methods, with satisfactory performance metrics.
翻訳日:2024-11-06 16:20:44 公開日:2024-10-01
# 空間可視性と時間ダイナミクス:適応的クラウドビデオストリーミングにおける視点予測の革新的領域

Spatial Visibility and Temporal Dynamics: Revolutionizing Field of View Prediction in Adaptive Point Cloud Video Streaming ( http://arxiv.org/abs/2409.18236v1 )

ライセンス: Link先を確認
Chen Li, Tongyu Zong, Yueyu Hu, Yao Wang, Yong Liu, (参考訳) フィールドオブビュー(FoV)適応ストリーミングは、視聴者のFoV内の可視点のみを伝送することによって、没入点クラウドビデオ(PCV)の帯域幅を著しく削減する。 伝統的なアプローチは、しばしば軌跡に基づく6自由度(6DoF)のFoV予測に焦点を当てている。 予測されたFoVは、ポイント可視性を計算するために使用される。 このようなアプローチは、ビデオコンテンツが視聴者の注意に与える影響を明示的に考慮しておらず、FoVからポイント可視性への変換は、しばしばエラーを起こし、時間を要する。 我々は,PCV FoV予測問題をセル可視性の観点から再構成し,予測された可視性分布に基づいて,セルレベルでの3次元データの伝送に関する正確な決定を可能にする。 本研究では,従来の3次元視界データを活用し,空間認識,隣接セル相関,閉塞情報などを取り入れた新しい空間視界とオブジェクト認識グラフモデルを構築し,将来的な細胞視界の予測を行う。 我々のモデルは長期セル可視性予測を大幅に改善し、100万点以上のポイントクラウドビデオのリアルタイムパフォーマンス(30fps以上)を維持しながら、最先端モデルと比較して、MSE損失の予測を最大50%削減する。

Field-of-View (FoV) adaptive streaming significantly reduces bandwidth requirement of immersive point cloud video (PCV) by only transmitting visible points in a viewer's FoV. The traditional approaches often focus on trajectory-based 6 degree-of-freedom (6DoF) FoV predictions. The predicted FoV is then used to calculate point visibility. Such approaches do not explicitly consider video content's impact on viewer attention, and the conversion from FoV to point visibility is often error-prone and time-consuming. We reformulate the PCV FoV prediction problem from the cell visibility perspective, allowing for precise decision-making regarding the transmission of 3D data at the cell level based on the predicted visibility distribution. We develop a novel spatial visibility and object-aware graph model that leverages the historical 3D visibility data and incorporates spatial perception, neighboring cell correlation, and occlusion information to predict the cell visibility in the future. Our model significantly improves the long-term cell visibility prediction, reducing the prediction MSE loss by up to 50% compared to the state-of-the-art models while maintaining real-time performance (more than 30fps) for point cloud videos with over 1 million points.
翻訳日:2024-11-06 15:01:18 公開日:2024-10-01
# 空間可視性と時間ダイナミクス:適応的クラウドビデオストリーミングにおける視点予測の革新的領域

Spatial Visibility and Temporal Dynamics: Revolutionizing Field of View Prediction in Adaptive Point Cloud Video Streaming ( http://arxiv.org/abs/2409.18236v2 )

ライセンス: Link先を確認
Chen Li, Tongyu Zong, Yueyu Hu, Yao Wang, Yong Liu, (参考訳) フィールドオブビュー(FoV)適応ストリーミングは、視聴者のFoV内の可視点のみを伝送することによって、没入点クラウドビデオ(PCV)の帯域幅を著しく削減する。 伝統的なアプローチは、しばしば軌跡に基づく6自由度(6DoF)のFoV予測に焦点を当てている。 予測されたFoVは、ポイント可視性を計算するために使用される。 このようなアプローチは、ビデオコンテンツが視聴者の注意に与える影響を明示的に考慮しておらず、FoVからポイント可視性への変換は、しばしばエラーを起こし、時間を要する。 我々は,PCV FoV予測問題をセル可視性の観点から再構成し,予測された可視性分布に基づいて,セルレベルでの3次元データの伝送に関する正確な決定を可能にする。 本研究では,従来の3次元視界データを活用し,空間認識,隣接セル相関,閉塞情報などを取り入れた新しい空間視界とオブジェクト認識グラフモデルを構築し,将来的な細胞視界の予測を行う。 我々のモデルは長期セル可視性予測を大幅に改善し、100万点以上のポイントクラウドビデオのリアルタイムパフォーマンス(30fps以上)を維持しながら、最先端モデルと比較して、MSE損失の予測を最大50%削減する。

Field-of-View (FoV) adaptive streaming significantly reduces bandwidth requirement of immersive point cloud video (PCV) by only transmitting visible points in a viewer's FoV. The traditional approaches often focus on trajectory-based 6 degree-of-freedom (6DoF) FoV predictions. The predicted FoV is then used to calculate point visibility. Such approaches do not explicitly consider video content's impact on viewer attention, and the conversion from FoV to point visibility is often error-prone and time-consuming. We reformulate the PCV FoV prediction problem from the cell visibility perspective, allowing for precise decision-making regarding the transmission of 3D data at the cell level based on the predicted visibility distribution. We develop a novel spatial visibility and object-aware graph model that leverages the historical 3D visibility data and incorporates spatial perception, neighboring cell correlation, and occlusion information to predict the cell visibility in the future. Our model significantly improves the long-term cell visibility prediction, reducing the prediction MSE loss by up to 50% compared to the state-of-the-art models while maintaining real-time performance (more than 30fps) for point cloud videos with over 1 million points.
翻訳日:2024-11-06 15:01:18 公開日:2024-10-01
# T1強調構造MRIを用いたβ-アミロイドPET画像の合成 : 予備的検討

Synthesizing beta-amyloid PET images from T1-weighted Structural MRI: A Preliminary Study ( http://arxiv.org/abs/2409.18282v1 )

ライセンス: Link先を確認
Qing Lyu, Jin Young Kim, Jeongchul Kim, Christopher T Whitlow, (参考訳) β-アミロイドポジトロン断層撮影(A$\beta$-PET)はアルツハイマー病の研究と診断において重要なツールとなり、ADの目印であるアミロイドプラークの病理学的蓄積に関する洞察を与えている。 しかし、高コスト、可用性の制限、放射能への曝露は、A$\beta$-PETイメージングの広範な使用を制限するため、包括的なデータセットが不足する。 これまでの研究では、より容易に利用できる構造的磁気共鳴画像(MRI)が、A$\beta$-PET画像の合成に有効な選択肢である可能性が示唆されている。 本研究では,T1強調MRI画像から3次元拡散モデルを用いてA$\beta$-PET画像を合成する方法を提案する。 認知正常症例では高画質のA$\beta$-PET画像を生成するが,A$\beta$デポジションパターンの変動により軽度認知障害(MCI)患者では効果が低い。 以上の結果から,MCI患者に対するA$\beta$-PET画像合成の改善には,MCI症例の多症例,臨床,人口統計,認知機能評価,縦断データなどの追加データの導入が必要である可能性が示唆された。

Beta-amyloid positron emission tomography (A$\beta$-PET) imaging has become a critical tool in Alzheimer's disease (AD) research and diagnosis, providing insights into the pathological accumulation of amyloid plaques, one of the hallmarks of AD. However, the high cost, limited availability, and exposure to radioactivity restrict the widespread use of A$\beta$-PET imaging, leading to a scarcity of comprehensive datasets. Previous studies have suggested that structural magnetic resonance imaging (MRI), which is more readily available, may serve as a viable alternative for synthesizing A$\beta$-PET images. In this study, we propose an approach to utilize 3D diffusion models to synthesize A$\beta$-PET images from T1-weighted MRI scans, aiming to overcome the limitations associated with direct PET imaging. Our method generates high-quality A$\beta$-PET images for cognitive normal cases, although it is less effective for mild cognitive impairment (MCI) patients due to the variability in A$\beta$ deposition patterns among subjects. Our preliminary results suggest that incorporating additional data, such as a larger sample of MCI cases and multi-modality information including clinical and demographic details, cognitive and functional assessments, and longitudinal data, may be necessary to improve A$\beta$-PET image synthesis for MCI patients.
翻訳日:2024-11-06 14:51:13 公開日:2024-10-01
# T1強調構造MRIを用いたβ-アミロイドPET画像の合成 : 予備的検討

Synthesizing beta-amyloid PET images from T1-weighted Structural MRI: A Preliminary Study ( http://arxiv.org/abs/2409.18282v2 )

ライセンス: Link先を確認
Qing Lyu, Jin Young Kim, Jeongchul Kim, Christopher T Whitlow, (参考訳) β-アミロイドポジトロン断層撮影(A$\beta$-PET)はアルツハイマー病の研究と診断において重要なツールとなり、ADの目印であるアミロイドプラークの病理学的蓄積に関する洞察を与えている。 しかし、高コスト、可用性の制限、放射能への曝露は、A$\beta$-PETイメージングの広範な使用を制限するため、包括的なデータセットが不足する。 これまでの研究では、より容易に利用できる構造的磁気共鳴画像(MRI)が、A$\beta$-PET画像の合成に有効な選択肢である可能性が示唆されている。 本研究では,T1強調MRI画像から3次元拡散モデルを用いてA$\beta$-PET画像を合成する方法を提案する。 認知正常症例では高画質のA$\beta$-PET画像を生成するが,A$\beta$デポジションパターンの変動により軽度認知障害(MCI)患者では効果が低い。 以上の結果から,MCI患者に対するA$\beta$-PET画像合成の改善には,MCI症例の多症例,臨床,人口統計,認知機能評価,縦断データなどの追加データの導入が必要である可能性が示唆された。

Beta-amyloid positron emission tomography (A$\beta$-PET) imaging has become a critical tool in Alzheimer's disease (AD) research and diagnosis, providing insights into the pathological accumulation of amyloid plaques, one of the hallmarks of AD. However, the high cost, limited availability, and exposure to radioactivity restrict the widespread use of A$\beta$-PET imaging, leading to a scarcity of comprehensive datasets. Previous studies have suggested that structural magnetic resonance imaging (MRI), which is more readily available, may serve as a viable alternative for synthesizing A$\beta$-PET images. In this study, we propose an approach to utilize 3D diffusion models to synthesize A$\beta$-PET images from T1-weighted MRI scans, aiming to overcome the limitations associated with direct PET imaging. Our method generates high-quality A$\beta$-PET images for cognitive normal cases, although it is less effective for mild cognitive impairment (MCI) patients due to the variability in A$\beta$ deposition patterns among subjects. Our preliminary results suggest that incorporating additional data, such as a larger sample of MCI cases and multi-modality information including clinical and demographic details, cognitive and functional assessments, and longitudinal data, may be necessary to improve A$\beta$-PET image synthesis for MCI patients.
翻訳日:2024-11-06 14:51:13 公開日:2024-10-01
# レーザー粉末層融合融解軌道の顕微鏡像の自動分離と解析

Automated Segmentation and Analysis of Microscopy Images of Laser Powder Bed Fusion Melt Tracks ( http://arxiv.org/abs/2409.18326v1 )

ライセンス: Link先を確認
Aagam Shah, Reimar Weissbach, David A. Griggs, A. John Hart, Elif Ertekin, Sameh Tawfick, (参考訳) 金属添加物製造(AM)の普及が進み、研究者や実践者は、印刷条件を最適化するためのデータ駆動アプローチに目を向けている。 メルトトラックの断面画像は、プロセスパラメータのチューニング、パラメータスケーリングデータの作成、欠陥の特定に有用な情報を提供する。 ここでは,断面画像から溶融トラック次元を自動的に識別し,測定する画像分割ニューラルネットワークを提案する。 我々は、U-Netアーキテクチャを用いて、異なる研究室、機械、材料から得られた62個の事前ラベル付き画像のデータセットと、画像拡張を併用したトレーニングを行う。 バッチサイズや学習率などのニューラルネットワークハイパーパラメータを適切に調整すると、学習モデルは99%以上、F1スコア90%以上の精度を示す。 ニューラルネットワークは、さまざまなユーザによってキャプチャされ、異なるマシンに印刷され、異なる顕微鏡を使用して取得された画像でテストされるとき、堅牢性を示す。 後処理モジュールは、溶融プールの高さと幅と湿潤角度を抽出する。 本稿では, 指向性エネルギー沈着などの他のAMプロセスへの拡張など, モデル性能向上の機会と伝達学習への道について論じる。

With the increasing adoption of metal additive manufacturing (AM), researchers and practitioners are turning to data-driven approaches to optimise printing conditions. Cross-sectional images of melt tracks provide valuable information for tuning process parameters, developing parameter scaling data, and identifying defects. Here we present an image segmentation neural network that automatically identifies and measures melt track dimensions from a cross-section image. We use a U-Net architecture to train on a data set of 62 pre-labelled images obtained from different labs, machines, and materials coupled with image augmentation. When neural network hyperparameters such as batch size and learning rate are properly tuned, the learned model shows an accuracy for classification of over 99% and an F1 score over 90%. The neural network exhibits robustness when tested on images captured by various users, printed on different machines, and acquired using different microscopes. A post-processing module extracts the height and width of the melt pool, and the wetting angles. We discuss opportunities to improve model performance and avenues for transfer learning, such as extension to other AM processes such as directed energy deposition.
翻訳日:2024-11-06 07:00:37 公開日:2024-10-01
# レーザー粉末層融合融解軌道の顕微鏡像の自動分離と解析

Automated Segmentation and Analysis of Microscopy Images of Laser Powder Bed Fusion Melt Tracks ( http://arxiv.org/abs/2409.18326v2 )

ライセンス: Link先を確認
Aagam Shah, Reimar Weissbach, David A. Griggs, A. John Hart, Elif Ertekin, Sameh Tawfick, (参考訳) 金属添加物製造(AM)の普及が進み、研究者や実践者は、印刷条件を最適化するためのデータ駆動アプローチに目を向けている。 メルトトラックの断面画像は、プロセスパラメータのチューニング、パラメータスケーリングデータの作成、欠陥の特定に有用な情報を提供する。 ここでは,断面画像から溶融トラック次元を自動的に識別し,測定する画像分割ニューラルネットワークを提案する。 我々は、U-Netアーキテクチャを用いて、異なる研究室、機械、材料から得られた62個の事前ラベル付き画像のデータセットと、画像拡張を併用したトレーニングを行う。 バッチサイズや学習率などのニューラルネットワークハイパーパラメータを適切に調整すると、学習モデルは99%以上、F1スコア90%以上の精度を示す。 ニューラルネットワークは、さまざまなユーザによってキャプチャされ、異なるマシンに印刷され、異なる顕微鏡を使用して取得された画像でテストされるとき、堅牢性を示す。 後処理モジュールは、溶融プールの高さと幅と湿潤角度を抽出する。 本稿では, 指向性エネルギー沈着などの他のAMプロセスへの拡張など, モデル性能向上の機会と伝達学習への道について論じる。

With the increasing adoption of metal additive manufacturing (AM), researchers and practitioners are turning to data-driven approaches to optimise printing conditions. Cross-sectional images of melt tracks provide valuable information for tuning process parameters, developing parameter scaling data, and identifying defects. Here we present an image segmentation neural network that automatically identifies and measures melt track dimensions from a cross-section image. We use a U-Net architecture to train on a data set of 62 pre-labelled images obtained from different labs, machines, and materials coupled with image augmentation. When neural network hyperparameters such as batch size and learning rate are properly tuned, the learned model shows an accuracy for classification of over 99% and an F1 score over 90%. The neural network exhibits robustness when tested on images captured by various users, printed on different machines, and acquired using different microscopes. A post-processing module extracts the height and width of the melt pool, and the wetting angles. We discuss opportunities to improve model performance and avenues for transfer learning, such as extension to other AM processes such as directed energy deposition.
翻訳日:2024-11-06 07:00:37 公開日:2024-10-01
# 標準量子回路を用いたシミュレーションによる量子スイッチの量子クエリ複雑性の指数分離

Exponential separation in quantum query complexity of the quantum switch with respect to simulations with standard quantum circuits ( http://arxiv.org/abs/2409.18420v1 )

ライセンス: Link先を確認
Hlér Kristjánsson, Tatsuki Odake, Satoshi Yoshida, Philip Taranto, Jessica Bavaresco, Marco Túlio Quintino, Mio Murao, (参考訳) 量子論は計算の標準的な回路モデルを超えて、ブラックボックス演算を不定因数順序で適用することができる計算モデルと一致している。 最も単純な例である量子スイッチは、多くの情報処理の利点をもたらすことが示されている。 ここでは、2つの$n$量子ビット量子チャネル上の量子スイッチの作用が、M$を1つのチャネルに呼び出し、もう1つのチャネルを呼び出し、$M \leq \max(2, 2^n-1)$とする任意の因果順序量子回路によって決定的に正確にシミュレートできないことを証明する。 これは、不定因数順序によって提供される量子クエリの複雑さの指数関数的増大を示す。

Quantum theory is consistent with a computational model permitting black-box operations to be applied in an indefinite causal order, going beyond the standard circuit model of computation. The quantum switch -- the simplest such example -- has been shown to provide numerous information-processing advantages. Here, we prove that the action of the quantum switch on two $n$-qubit quantum channels cannot be simulated deterministically and exactly by any causally ordered quantum circuit that uses $M$ calls to one channel and one call to the other, if $M \leq \max(2, 2^n-1)$. This demonstrates an exponential enhancement in quantum query complexity provided by indefinite causal order.
翻訳日:2024-11-06 06:21:38 公開日:2024-10-01
# 標準量子回路を用いたシミュレーションによる量子スイッチの量子クエリ複雑性の指数分離

Exponential separation in quantum query complexity of the quantum switch with respect to simulations with standard quantum circuits ( http://arxiv.org/abs/2409.18420v2 )

ライセンス: Link先を確認
Hlér Kristjánsson, Tatsuki Odake, Satoshi Yoshida, Philip Taranto, Jessica Bavaresco, Marco Túlio Quintino, Mio Murao, (参考訳) 量子論は計算の標準的な回路モデルを超えて、ブラックボックス演算を不定因数順序で適用することができる計算モデルと一致している。 最も単純な例である量子スイッチは、多くの情報処理の利点をもたらすことが示されている。 ここでは、2つの$n$量子ビット量子チャネル上の量子スイッチの作用が、M$を1つのチャネルに呼び出し、もう1つのチャネルを呼び出し、$M \leq \max(2, 2^n-1)$とする任意の因果順序量子回路によって決定的に正確にシミュレートできないことを証明する。 これは、標準的な量子回路と比較して、不定因数順序の量子クエリ複雑性の指数関数的分離を示す。

Quantum theory is consistent with a computational model permitting black-box operations to be applied in an indefinite causal order, going beyond the standard circuit model of computation. The quantum switch -- the simplest such example -- has been shown to provide numerous information-processing advantages. Here, we prove that the action of the quantum switch on two $n$-qubit quantum channels cannot be simulated deterministically and exactly by any causally ordered quantum circuit that uses $M$ calls to one channel and one call to the other, if $M \leq \max(2, 2^n-1)$. This demonstrates an exponential separation in quantum query complexity of indefinite causal order compared to standard quantum circuits.
翻訳日:2024-11-06 06:21:38 公開日:2024-10-01
# 含意非線形ダイナミクスモデルによるデモから学ぶ

Learning from Demonstration with Implicit Nonlinear Dynamics Models ( http://arxiv.org/abs/2409.18768v2 )

ライセンス: Link先を確認
Peter David Fagan, Subramanian Ramamoorthy, (参考訳) 実証から学ぶ(LfD)は、ロボット操作で遭遇したような複雑な動作を含むタスクを解決するためのトレーニングポリシーの有用なパラダイムである。 実際には、LfDを成功させるためには、ポリシー実行中にエラーの蓄積を克服する必要がある。 既存の研究は、データ収集のスケーリング、ヒューマン・イン・ザ・ループによるポリシーエラーの修正、ポリシー予測の時間的アンサンブル、収束保証を伴う動的システムモデル学習などを通じてこの問題に対処しようとしている。 本研究では,この問題を克服するための代替手法を提案し,検証する。 貯水池計算にインスパイアされたニューラルネットワーク層は、時間的ダイナミクスをモデル化するための調整可能な動的特性を持つ固定非線形力学系を含む。 LASA Human Handwriting Dataset を用いて人間の手書き動作を再現する作業において,ニューラルネットワーク層の有効性を検証する。 経験的な実験を通じて、我々の層を既存のニューラルネットワークアーキテクチャに組み込むことで、LfDの複雑なエラーに対処できることが実証された。 さらに,政策予測の時間的アンサンブルやEcho State Network (ESN) の実装など,既存のアプローチとの比較評価を行った。 提案手法は,複数の動的状態に一般化し,競合レイテンシのスコアを維持するとともに,手書き作業においてより正確なポリシ精度とロバスト性を実現する。

Learning from Demonstration (LfD) is a useful paradigm for training policies that solve tasks involving complex motions, such as those encountered in robotic manipulation. In practice, the successful application of LfD requires overcoming error accumulation during policy execution, i.e. the problem of drift due to errors compounding over time and the consequent out-of-distribution behaviours. Existing works seek to address this problem through scaling data collection, correcting policy errors with a human-in-the-loop, temporally ensembling policy predictions or through learning a dynamical system model with convergence guarantees. In this work, we propose and validate an alternative approach to overcoming this issue. Inspired by reservoir computing, we develop a recurrent neural network layer that includes a fixed nonlinear dynamical system with tunable dynamical properties for modelling temporal dynamics. We validate the efficacy of our neural network layer on the task of reproducing human handwriting motions using the LASA Human Handwriting Dataset. Through empirical experiments we demonstrate that incorporating our layer into existing neural network architectures addresses the issue of compounding errors in LfD. Furthermore, we perform a comparative evaluation against existing approaches including a temporal ensemble of policy predictions and an Echo State Network (ESN) implementation. We find that our approach yields greater policy precision and robustness on the handwriting task while also generalising to multiple dynamics regimes and maintaining competitive latency scores.
翻訳日:2024-11-06 05:32:49 公開日:2024-10-01
# AIPatient: EHR と LLM によるエージェントワークフローのシミュレーション

AIPatient: Simulating Patients with EHRs and LLM Powered Agentic Workflow ( http://arxiv.org/abs/2409.18924v2 )

ライセンス: Link先を確認
Huizi Yu, Jiayan Zhou, Lingyao Li, Shan Chen, Jack Gallifant, Anye Shi, Xiang Li, Wenyue Hua, Mingyu Jin, Guang Chen, Yang Zhou, Zhao Li, Trisha Gupte, Ming-Li Chen, Zahra Azizi, Yongfeng Zhang, Themistocles L. Assimes, Xin Ma, Danielle S. Bitterman, Lin Lu, Lizhou Fan, (参考訳) シミュレーション患者システムは、現代医学教育と研究において重要な役割を担い、安全で統合的な学習環境を提供し、臨床意思決定シミュレーションを可能にする。 大言語モデル(LLM)は、医療条件と患者と医師の相互作用を高忠実で低コストで再現することにより、シミュレートされた患者システムを促進することができる。 しかし、これらのシステムの有効性と信頼性の確保は、ユーザへの堅牢で安定した知識拡散とともに、大きく、多様性があり、正確な患者知識ベースを必要とするため、依然として課題である。 そこで我々は,AIPatient Knowledge Graph(AIPatient KG)を入力とし,Reasoning Retrieval-Augmented Generation(Reasoning RAG)エージェントワークフローを生成バックボーンとして開発した。 AIPatient KGは、Electronic Health Records (EHRs)のデータをMIMIC-IIIデータベースに収集し、知識ベース妥当性の高い1,495人の臨床的に多様で関連性の高いコホートを生成する(F1 0.89)。 Reasoning RAGは、検索、KGクエリ生成、抽象化、チェッカー、書き直し、要約を含むタスクにまたがる6つのLLMエージェントを活用する。 このエージェントフレームワークは、EHRベースの医療質問回答(QA)で94.15%の精度に達する。 また,高い可読性 (中間フレッシュ読解率77.23), 中央フレッシュキンケイド級5.6), 頑健性 (ANOVA F値0.6126, p>0.1), 安定性 (ANOVA F値0.782, p>0.1) を示す。 AIPatient システムの有望な性能は、医学教育、モデル評価、システム統合など幅広い応用をサポートする可能性を強調している。

Simulated patient systems play a crucial role in modern medical education and research, providing safe, integrative learning environments and enabling clinical decision-making simulations. Large Language Models (LLM) could advance simulated patient systems by replicating medical conditions and patient-doctor interactions with high fidelity and low cost. However, ensuring the effectiveness and trustworthiness of these systems remains a challenge, as they require a large, diverse, and precise patient knowledgebase, along with a robust and stable knowledge diffusion to users. Here, we developed AIPatient, an advanced simulated patient system with AIPatient Knowledge Graph (AIPatient KG) as the input and the Reasoning Retrieval-Augmented Generation (Reasoning RAG) agentic workflow as the generation backbone. AIPatient KG samples data from Electronic Health Records (EHRs) in the Medical Information Mart for Intensive Care (MIMIC)-III database, producing a clinically diverse and relevant cohort of 1,495 patients with high knowledgebase validity (F1 0.89). Reasoning RAG leverages six LLM powered agents spanning tasks including retrieval, KG query generation, abstraction, checker, rewrite, and summarization. This agentic framework reaches an overall accuracy of 94.15% in EHR-based medical Question Answering (QA), outperforming benchmarks that use either no agent or only partial agent integration. Our system also presents high readability (median Flesch Reading Ease 77.23; median Flesch Kincaid Grade 5.6), robustness (ANOVA F-value 0.6126, p>0.1), and stability (ANOVA F-value 0.782, p>0.1). The promising performance of the AIPatient system highlights its potential to support a wide range of applications, including medical education, model evaluation, and system integration.
翻訳日:2024-11-06 05:22:53 公開日:2024-10-01
# Ruler: 大規模言語モデルに対する生成長制御のためのモデル非依存手法

Ruler: A Model-Agnostic Method to Control Generated Length for Large Language Models ( http://arxiv.org/abs/2409.18943v2 )

ライセンス: Link先を確認
Jiaming Li, Lei Zhang, Yunshui Li, Ziqiang Liu, yuelin bai, Run Luo, Longze Chen, Min Yang, (参考訳) 大きな言語モデルの指示追従能力は、人間が自然な方法でAIエージェントと対話することを可能にする。 しかしながら、特定の長さの応答を生成する必要がある場合、大きな言語モデルは、数値的な制約を正確に知覚するのに固有の困難さのために、ユーザのニーズを満たすのに苦労することが多い。 生成した応答長を制御するための大規模言語モデルの能力を探るため,ターゲット長生成タスク (TLG) を提案し,そのモデルの性能を評価するために,精密マッチング (PM) とフレキシブルマッチング (FM) という2つのメトリクスを設計する。 さらに,メタ長Tokens (MLTs) を用いて,長さ制約された命令下での大規模言語モデルの命令追従能力を向上させる,ルールと呼ばれる新しいモデルに依存しない手法を提案する。 具体的には、ルールは、命令内の長さ制約に基づいて、指定された長さの応答を生成する能力をLLMに装備する。 さらに、ルールは、長さ制約が明示的に提供されていない場合に自動的に適切なMLTを生成し、優れた汎用性と一般化を示す。 総合的な実験により、ターゲット長生成タスクにおける異なるLLM間のルールの有効性が、PMにおける全レベル27.97平均利得、FMにおける29.57平均利得で示されている。 さらに,ルールの有効性と一般化をさらに実証するために,広範囲なアブレーション実験を実施している。 私たちのコードとデータはhttps://github.com/Geaming2002/Ruler.orgで公開されています。

The instruction-following ability of large language models enables humans to interact with AI agents in a natural way. However, when required to generate responses of a specific length, large language models often struggle to meet users' needs due to their inherent difficulty in accurately perceiving numerical constraints. To explore the ability of large language models to control the length of generated responses, we propose the Target Length Generation Task (TLG) and design two metrics, Precise Match (PM) and Flexible Match (FM) to evaluate the model's performance in adhering to specified response lengths. Furthermore, we introduce a novel, model-agnostic approach called Ruler, which employs Meta Length Tokens (MLTs) to enhance the instruction-following ability of large language models under length-constrained instructions. Specifically, Ruler equips LLMs with the ability to generate responses of a specified length based on length constraints within the instructions. Moreover, Ruler can automatically generate appropriate MLT when length constraints are not explicitly provided, demonstrating excellent versatility and generalization. Comprehensive experiments show the effectiveness of Ruler across different LLMs on Target Length Generation Task, e.g., at All Level 27.97 average gain on PM, 29.57 average gain on FM. In addition, we conduct extensive ablation experiments to further substantiate the efficacy and generalization of Ruler. Our code and data is available at https://github.com/Geaming2002/Ruler.
翻訳日:2024-11-06 05:22:52 公開日:2024-10-01
# Pruning then Reweighting:Diffusion Modelのデータ効率向上に向けて

Pruning then Reweighting: Towards Data-Efficient Training of Diffusion Models ( http://arxiv.org/abs/2409.19128v1 )

ライセンス: Link先を確認
Yize Li, Yihua Zhang, Sijia Liu, Xue Lin, (参考訳) 拡散モデル(DM)の卓越した生成能力にもかかわらず、訓練と推論は計算的に高価である。 これまでは拡散サンプリングの高速化に力を入れてきたが、データ効率のよい拡散訓練は見過ごされがちであった。 本研究では,データセットプルーニングの観点から,効率的な拡散訓練について検討する。 GAN(Generative Adversarial Network)のような生成モデルに対するデータ効率トレーニングの原則に着想を得て、まずGANで使用されるデータ選択スキームをDMトレーニングに拡張し、データ特徴をサロゲートモデルで符号化し、スコア基準を適用してコアセットを選択する。 生成性能をさらに向上するために、事前訓練された参照DM上での分布ロバストな最適化(DRO)を通してクラス重み付けを導出するクラスワイドリウェイト手法を用いる。 CIFAR-10上の画素単位DM(DDPM)では、既存の手法よりも優れた手法と、元のフルデータモデルに匹敵する画像合成の有効性を実証し、スピードアップを2.34倍から8.32倍に達成した。 さらに,本手法は遅延DM(LDM),eg,Masked Diffusion Transformer(MDT),Stable Diffusion(SD)に一般化することができ,ImageNet.Code上で競合生成機能を実現することができる(https://github.com/Yeez-lee/Data-Selection-and-Reweighting-for-Diffusion-Models)。

Despite the remarkable generation capabilities of Diffusion Models (DMs), conducting training and inference remains computationally expensive. Previous works have been devoted to accelerating diffusion sampling, but achieving data-efficient diffusion training has often been overlooked. In this work, we investigate efficient diffusion training from the perspective of dataset pruning. Inspired by the principles of data-efficient training for generative models such as generative adversarial networks (GANs), we first extend the data selection scheme used in GANs to DM training, where data features are encoded by a surrogate model, and a score criterion is then applied to select the coreset. To further improve the generation performance, we employ a class-wise reweighting approach, which derives class weights through distributionally robust optimization (DRO) over a pre-trained reference DM. For a pixel-wise DM (DDPM) on CIFAR-10, experiments demonstrate the superiority of our methodology over existing approaches and its effectiveness in image synthesis comparable to that of the original full-data model while achieving the speed-up between 2.34 times and 8.32 times. Additionally, our method could be generalized to latent DMs (LDMs), e.g., Masked Diffusion Transformer (MDT) and Stable Diffusion (SD), and achieves competitive generation capability on ImageNet.Code is available here (https://github.com/Yeez-lee/Data-Selection-and-Reweighting-for-Diffusion-Models).
翻訳日:2024-11-06 04:21:02 公開日:2024-10-01
# Pruning then Reweighting:Diffusion Modelのデータ効率向上に向けて

Pruning then Reweighting: Towards Data-Efficient Training of Diffusion Models ( http://arxiv.org/abs/2409.19128v2 )

ライセンス: Link先を確認
Yize Li, Yihua Zhang, Sijia Liu, Xue Lin, (参考訳) 拡散モデル(DM)の卓越した生成能力にもかかわらず、訓練と推論は計算的に高価である。 これまでは拡散サンプリングの高速化に力を入れてきたが、データ効率のよい拡散訓練は見過ごされがちであった。 本研究では,データセットプルーニングの観点から,効率的な拡散訓練について検討する。 GAN(Generative Adversarial Network)のような生成モデルに対するデータ効率トレーニングの原則に着想を得て、まずGANで使用されるデータ選択スキームをDMトレーニングに拡張し、そこでデータ特徴をサロゲートモデルで符号化し、スコア基準を適用してコアセットを選択する。 生成性能をさらに向上するために、事前訓練された参照DM上での分布ロバストな最適化(DRO)を通してクラス重み付けを導出するクラスワイドリウェイト手法を用いる。 CIFAR-10上の画素単位DM(DDPM)では、既存の手法よりも優れた手法と、元のフルデータモデルに匹敵する画像合成の有効性を実証し、スピードアップを2.34倍から8.32倍に達成した。 さらに,本手法は,遅延DM(LDM),例えばMasked Diffusion Transformer(MDT),Stable Diffusion(SD)に一般化し,ImageNet上での競合生成能力を実現する。 コードはここで入手できる(https://github.com/Yeez-lee/Data-Selection-and-Reweighting-for-Diffusion-Models)。

Despite the remarkable generation capabilities of Diffusion Models (DMs), conducting training and inference remains computationally expensive. Previous works have been devoted to accelerating diffusion sampling, but achieving data-efficient diffusion training has often been overlooked. In this work, we investigate efficient diffusion training from the perspective of dataset pruning. Inspired by the principles of data-efficient training for generative models such as generative adversarial networks (GANs), we first extend the data selection scheme used in GANs to DM training, where data features are encoded by a surrogate model, and a score criterion is then applied to select the coreset. To further improve the generation performance, we employ a class-wise reweighting approach, which derives class weights through distributionally robust optimization (DRO) over a pre-trained reference DM. For a pixel-wise DM (DDPM) on CIFAR-10, experiments demonstrate the superiority of our methodology over existing approaches and its effectiveness in image synthesis comparable to that of the original full-data model while achieving the speed-up between 2.34 times and 8.32 times. Additionally, our method could be generalized to latent DMs (LDMs), e.g., Masked Diffusion Transformer (MDT) and Stable Diffusion (SD), and achieves competitive generation capability on ImageNet. Code is available here (https://github.com/Yeez-lee/Data-Selection-and-Reweighting-for-Diffusion-Models).
翻訳日:2024-11-06 04:21:02 公開日:2024-10-01
# 言語モデルアライメントによる画像研究の順序付けとACR適性基準

Evidence Is All You Need: Ordering Imaging Studies via Language Model Alignment with the ACR Appropriateness Criteria ( http://arxiv.org/abs/2409.19177v1 )

ライセンス: Link先を確認
Michael S. Yao, Allison Chae, Charles E. Kahn Jr., Walter R. Witschey, James C. Gee, Hersh Sagreiya, Osbert Bastani, (参考訳) 画像診断研究は、急性期患者のワークアップと管理において、ますます重要な要素となっている。 しかし、エビデンスベースの医療ガイドラインに従って適切な画像研究を発注することは、医療提供者間の多様性の高い課題である。 この問題に対処するために、最近の研究は、生成的AIと大規模言語モデルを利用して、臨床医が患者に対して関連する画像研究を発注するのに役立つかどうかを調査している。 しかしながら、これらのツールが、American College of Radiology's Appropriateness Criteria (ACR AC)のような医療ガイドラインに正しく適合していることを保証することは困難である。 本研究では,エビデンスに基づくガイドラインに準拠した患者に対して,画像研究を推奨することで,言語モデルをインテリジェントに活用する枠組みを提案する。 患者の"ワンライナー"シナリオの新たなデータセットを公開し、実験をパワーアップし、最先端の言語モデルを最適化して、画像の順序付けにおいて臨床医と同等の精度を達成する。 最後に、我々の言語モデルに基づくパイプラインは、画像注文ワークフローをサポートし、ACR ACによる画像検索の精度を向上させるために、臨床医のインテリジェントアシスタントとして使用できることを示した。 我々の研究は、専門家のエビデンスに基づくガイドラインに従って、AIベースのソフトウェアを活用して信頼できる臨床的意思決定を改善する戦略を実証し、検証する。

Diagnostic imaging studies are an increasingly important component of the workup and management of acutely presenting patients. However, ordering appropriate imaging studies according to evidence-based medical guidelines is a challenging task with a high degree of variability between healthcare providers. To address this issue, recent work has investigated if generative AI and large language models can be leveraged to help clinicians order relevant imaging studies for patients. However, it is challenging to ensure that these tools are correctly aligned with medical guidelines, such as the American College of Radiology's Appropriateness Criteria (ACR AC). In this study, we introduce a framework to intelligently leverage language models by recommending imaging studies for patient cases that are aligned with evidence-based guidelines. We make available a novel dataset of patient "one-liner" scenarios to power our experiments, and optimize state-of-the-art language models to achieve an accuracy on par with clinicians in image ordering. Finally, we demonstrate that our language model-based pipeline can be used as intelligent assistants by clinicians to support image ordering workflows and improve the accuracy of imaging study ordering according to the ACR AC. Our work demonstrates and validates a strategy to leverage AI-based software to improve trustworthy clinical decision making in alignment with expert evidence-based guidelines.
翻訳日:2024-11-06 04:11:01 公開日:2024-10-01
# 言語モデルアライメントによる画像研究の順序付けとACR適性基準

Evidence Is All You Need: Ordering Imaging Studies via Language Model Alignment with the ACR Appropriateness Criteria ( http://arxiv.org/abs/2409.19177v2 )

ライセンス: Link先を確認
Michael S. Yao, Allison Chae, Charles E. Kahn Jr., Walter R. Witschey, James C. Gee, Hersh Sagreiya, Osbert Bastani, (参考訳) 画像診断研究は、急性期患者のワークアップと管理において、ますます重要な要素となっている。 しかし、エビデンスベースの医療ガイドラインに従って適切な画像研究を発注することは、医療提供者間の多様性の高い課題である。 この問題に対処するために、最近の研究は、生成的AIと大規模言語モデルを利用して、臨床医が患者に対して関連する画像研究を発注するのに役立つかどうかを調査している。 しかしながら、これらのツールが、American College of Radiology's Appropriateness Criteria (ACR AC)のような医療ガイドラインに正しく適合していることを保証することは困難である。 本研究では,エビデンスに基づくガイドラインに準拠した患者に対して,画像研究を推奨することで,言語モデルをインテリジェントに活用する枠組みを提案する。 患者の"ワンライナー"シナリオの新たなデータセットを公開し、実験をパワーアップし、最先端の言語モデルを最適化して、画像の順序付けにおいて臨床医と同等の精度を達成する。 最後に、我々の言語モデルに基づくパイプラインは、画像注文ワークフローをサポートし、ACR ACによる画像検索の精度を向上させるために、臨床医のインテリジェントアシスタントとして使用できることを示した。 我々の研究は、専門家のエビデンスに基づくガイドラインに従って、AIベースのソフトウェアを活用して信頼できる臨床的意思決定を改善する戦略を実証し、検証する。

Diagnostic imaging studies are an increasingly important component of the workup and management of acutely presenting patients. However, ordering appropriate imaging studies according to evidence-based medical guidelines is a challenging task with a high degree of variability between healthcare providers. To address this issue, recent work has investigated if generative AI and large language models can be leveraged to help clinicians order relevant imaging studies for patients. However, it is challenging to ensure that these tools are correctly aligned with medical guidelines, such as the American College of Radiology's Appropriateness Criteria (ACR AC). In this study, we introduce a framework to intelligently leverage language models by recommending imaging studies for patient cases that are aligned with evidence-based guidelines. We make available a novel dataset of patient "one-liner" scenarios to power our experiments, and optimize state-of-the-art language models to achieve an accuracy on par with clinicians in image ordering. Finally, we demonstrate that our language model-based pipeline can be used as intelligent assistants by clinicians to support image ordering workflows and improve the accuracy of imaging study ordering according to the ACR AC. Our work demonstrates and validates a strategy to leverage AI-based software to improve trustworthy clinical decision making in alignment with expert evidence-based guidelines.
翻訳日:2024-11-06 04:11:01 公開日:2024-10-01
# 有機分子クビットのODMR信号の増強

Enhancing the ODMR Signal of Organic Molecular Qubits ( http://arxiv.org/abs/2409.19249v1 )

ライセンス: Link先を確認
Yong Rui Poh, Joel Yuen-Zhou, (参考訳) 量子情報科学とセンシングの分野では、電子スピンはしばしば光-スピン界面(光検出磁気共鳴(ODMR)と呼ばれるプロセス)によって特定の偏光に浄化される。 ダイヤモンド-NV中心と遷移金属はどちらも、これらの色中心の優れた基盤であり、金属のない分子アナログは、その分極寿命の延長、環境への影響の軽度化、コスト削減で人気を集めている。 このような有機高スピンの$\pi$-diradicalsを設計するための初期の試みでは、単子として三重項$M_{S}=\pm1$の集団をシェルビングすることでスピン分極することを提案した。 本研究では、一重項集団を三重項$M_{S}=0$サブレベルに戻すことにより、NV中心に真の炭素系分子類似体を設計することで、ODMR信号を改善することを提案する。 両スピンチャネルを$\pi$-diradicalsで達成するために、軌道のノード構造を注意深く制御し、グループ理論的な考察を行うことで、最も近い近傍近似以上の弱いスピン軌道結合を利用する。 これらの分析は、現実的なトリチル基ラジカル二量体のab initio計算によってさらに確認される。 運動学的解析では、実験可能な条件下でのODMRのコントラストが約30%であることを示している。 最後に、基底状態の光順応可能な分子スピン量子ビットへの探索において、我々の対称性に基づく設計は、電子常磁性共鳴(EPR)実験中にゼーマンによって誘導される一重項-三重項混合を回避し、電子スピン量子ビットゲートの実現の場を定めている。

In the fields of quantum information science and sensing, electron spins are often purified into a specific polarisation through an optical-spin interface, a process known as optically-detected magnetic resonance (ODMR). Diamond-NV centres and transition metals are both excellent platforms for these so-called colour centres, while metal-free molecular analogues are also gaining popularity for their extended polarisation lifetimes, milder environmental impacts, and reduced costs. In our earlier attempt at designing such organic high-spin $\pi$-diradicals, we proposed to spin-polarise by shelving triplet $M_{S}=\pm1$ populations as singlets. This was recently verified by experiments albeit with low ODMR contrasts of <1% at temperatures above 5 K. In this work, we propose to improve the ODMR signal by moving singlet populations back into the triplet $M_{S}=0$ sublevel, designing a true carbon-based molecular analogue to the NV centre. To achieve both spin channels in $\pi$-diradicals, we leverage on weaker spin-orbit couplings beyond the nearest-neighbour approximation, made possible by careful control of orbital nodal structures and group-theoretical considerations. These analyses are further confirmed by ab initio calculations of a realistic trityl-based radical dimer. Microkinetic analyses point towards high ODMR contrasts of around 30% under experimentally-feasible conditions, a stark improvement from previous works. Finally, in our quest towards ground-state optically-addressable molecular spin qubits, we exemplify how our symmetry-based design avoids Zeeman-induced singlet-triplet mixings during electron paramagnetic resonance (EPR) experiments, setting the scene for realising electron spin qubit gates.
翻訳日:2024-11-06 00:18:22 公開日:2024-10-01
# 有機分子クビットのODMR信号の増強

Enhancing the ODMR Signal of Organic Molecular Qubits ( http://arxiv.org/abs/2409.19249v2 )

ライセンス: Link先を確認
Yong Rui Poh, Joel Yuen-Zhou, (参考訳) 量子情報科学とセンシングの分野では、電子スピンはしばしば光-スピン界面(光検出磁気共鳴(ODMR)と呼ばれるプロセス)によって特定の偏光に浄化される。 ダイヤモンド-NV中心と遷移金属はどちらも、これらの色中心の優れた基盤であり、金属のない分子アナログは、その分極寿命の延長、環境への影響の軽度化、コスト削減で人気を集めている。 このような有機高スピンの$\pi$-diradicalsを設計するための初期の試みでは、単子として三重項$M_{S}=\pm1$の集団をシェルビングすることでスピン分極することを提案した。 本研究では、一重項集団を三重項$M_{S}=0$サブレベルに戻すことにより、NV中心に真の炭素系分子類似体を設計することで、ODMR信号を改善することを提案する。 両スピンチャネルを$\pi$-diradicalsで達成するために、軌道のノード構造を注意深く制御し、グループ理論的な考察を行うことで、最も近い近傍近似以上の弱いスピン軌道結合を利用する。 これらの分析は、現実的なトリチル基ラジカル二量体のab initio計算によってさらに確認される。 運動学的解析では、実験可能な条件下でのODMRのコントラストが約30%であることを示している。 最後に、基底状態の光順応可能な分子スピン量子ビットへの探索において、我々の対称性に基づく設計は、電子常磁性共鳴(EPR)実験中にゼーマンによって誘導される一重項-三重項混合を回避し、電子スピン量子ビットゲートの実現の場を定めている。

In the fields of quantum information science and sensing, electron spins are often purified into a specific polarisation through an optical-spin interface, a process known as optically-detected magnetic resonance (ODMR). Diamond-NV centres and transition metals are both excellent platforms for these so-called colour centres, while metal-free molecular analogues are also gaining popularity for their extended polarisation lifetimes, milder environmental impacts, and reduced costs. In our earlier attempt at designing such organic high-spin $\pi$-diradicals, we proposed to spin-polarise by shelving triplet $M_{S}=\pm1$ populations as singlets. This was recently verified by experiments albeit with low ODMR contrasts of <1% at temperatures above 5 K. In this work, we propose to improve the ODMR signal by moving singlet populations back into the triplet $M_{S}=0$ sublevel, designing a true carbon-based molecular analogue to the NV centre. To achieve both spin channels in $\pi$-diradicals, we leverage on weaker spin-orbit couplings beyond the nearest-neighbour approximation, made possible by careful control of orbital nodal structures and group-theoretical considerations. These analyses are further confirmed by ab initio calculations of a realistic trityl-based radical dimer. Microkinetic analyses point towards high ODMR contrasts of around 30% under experimentally-feasible conditions, a stark improvement from previous works. Finally, in our quest towards ground-state optically-addressable molecular spin qubits, we exemplify how our symmetry-based design avoids Zeeman-induced singlet-triplet mixings during electron paramagnetic resonance (EPR) experiments, setting the scene for realising electron spin qubit gates.
翻訳日:2024-11-06 00:18:22 公開日:2024-10-01
# 大規模言語モデルを用いたモンテカルロ木探索によるゼロショットマルチホップ質問応答

Zero-Shot Multi-Hop Question Answering via Monte-Carlo Tree Search with Large Language Models ( http://arxiv.org/abs/2409.19382v1 )

ライセンス: Link先を確認
Seongmin Lee, Jaewook Shin, Youngjin Ahn, Seokin Seo, Ohjoon Kwon, Kee-Eung Kim, (参考訳) 大規模言語モデル (LLMs) の最近の進歩は、情報を集約し、異なるテキストから回答を推測するシステムを必要とするマルチホップ質問応答 (MHQA) の領域に大きな影響を与えている。 しかし、LSMの自己回帰性は本質的には、中間的推論ステップで誤りが発生した場合、エラーが蓄積される可能性があるため、課題を生じさせる。 本稿では,MHQAタスクにおける最適な推論経路を特定するために,モンテカルロ木探索(MCTS)に基づくフレームワークであるゼロショットマルチホップ質問回答(MZQA)を提案する。 従来とは違って,通常はドメインの専門知識を必要とする手作りの少数ショットの例をサポートせずに,命令のみに依存するゼロショットプロンプト手法を提案する。 また,MZQA-BCは自己生成MCTS推論軌道を学習し,解析速度を10倍以上に向上させる。 提案手法の有効性は,HotpotQA,2WikiMultihopQA,MuSiQueなどの標準ベンチマークで検証し,既存のフレームワークよりも優れていることを示した。

Recent advances in large language models (LLMs) have significantly impacted the domain of multi-hop question answering (MHQA), where systems are required to aggregate information and infer answers from disparate pieces of text. However, the autoregressive nature of LLMs inherently poses a challenge as errors may accumulate if mistakes are made in the intermediate reasoning steps. This paper introduces Monte-Carlo tree search for Zero-shot multi-hop Question Answering (MZQA), a framework based on Monte-Carlo tree search (MCTS) to identify optimal reasoning paths in MHQA tasks, mitigating the error propagation from sequential reasoning processes. Unlike previous works, we propose a zero-shot prompting method, which relies solely on instructions without the support of hand-crafted few-shot examples that typically require domain expertise. We also introduce a behavioral cloning approach (MZQA-BC) trained on self-generated MCTS inference trajectories, achieving an over 10-fold increase in reasoning speed with bare compromise in performance. The efficacy of our method is validated on standard benchmarks such as HotpotQA, 2WikiMultihopQA, and MuSiQue, demonstrating that it outperforms existing frameworks.
翻訳日:2024-11-05 23:38:55 公開日:2024-10-01
# 大規模言語モデルを用いたモンテカルロ木探索によるゼロショットマルチホップ質問応答

Zero-Shot Multi-Hop Question Answering via Monte-Carlo Tree Search with Large Language Models ( http://arxiv.org/abs/2409.19382v2 )

ライセンス: Link先を確認
Seongmin Lee, Jaewook Shin, Youngjin Ahn, Seokin Seo, Ohjoon Kwon, Kee-Eung Kim, (参考訳) 大規模言語モデル (LLMs) の最近の進歩は、情報を集約し、異なるテキストから回答を推測するシステムを必要とするマルチホップ質問応答 (MHQA) の領域に大きな影響を与えている。 しかし、LSMの自己回帰性は本質的には、中間的推論ステップで誤りが発生した場合、エラーが蓄積される可能性があるため、課題を生じさせる。 本稿では,MHQAタスクにおける最適な推論経路を特定するために,モンテカルロ木探索(MCTS)に基づくフレームワークであるゼロショットマルチホップ質問回答(MZQA)を提案する。 従来とは違って,通常はドメインの専門知識を必要とする手作りの少数ショットの例をサポートせずに,命令のみに依存するゼロショットプロンプト手法を提案する。 また,MZQA-BCは自己生成MCTS推論軌道を学習し,解析速度を10倍以上に向上させる。 提案手法の有効性は,HotpotQA,2WikiMultihopQA,MuSiQueなどの標準ベンチマークで検証し,既存のフレームワークよりも優れていることを示した。

Recent advances in large language models (LLMs) have significantly impacted the domain of multi-hop question answering (MHQA), where systems are required to aggregate information and infer answers from disparate pieces of text. However, the autoregressive nature of LLMs inherently poses a challenge as errors may accumulate if mistakes are made in the intermediate reasoning steps. This paper introduces Monte-Carlo tree search for Zero-shot multi-hop Question Answering (MZQA), a framework based on Monte-Carlo tree search (MCTS) to identify optimal reasoning paths in MHQA tasks, mitigating the error propagation from sequential reasoning processes. Unlike previous works, we propose a zero-shot prompting method, which relies solely on instructions without the support of hand-crafted few-shot examples that typically require domain expertise. We also introduce a behavioral cloning approach (MZQA-BC) trained on self-generated MCTS inference trajectories, achieving an over 10-fold increase in reasoning speed with bare compromise in performance. The efficacy of our method is validated on standard benchmarks such as HotpotQA, 2WikiMultihopQA, and MuSiQue, demonstrating that it outperforms existing frameworks.
翻訳日:2024-11-05 23:38:55 公開日:2024-10-01
# マルチモーダル混合系の同定可能な共有成分分析

Identifiable Shared Component Analysis of Unpaired Multimodal Mixtures ( http://arxiv.org/abs/2409.19422v1 )

ライセンス: Link先を確認
Sagar Shrestha, Subash Timilsina, Xiao Fu, (参考訳) マルチモーダル学習における中核的な課題は、複数の特徴空間(例えば、テキストや音声)からの情報を統合することであり、モダリティに不変なデータ表現を提供することである。 近年の研究では、共有成分とプライベート成分の線形混合から各モードのサンプルが生成される際に、共有成分を小さなあいまいさまで確実に識別できることが示されている。 このような識別性は, 共有情報に基づいて, クロスモーダルなサンプルをアライメント・ペアリングする条件下で得られた。 この研究はさらに一歩前進し、クロスモーダルなサンプルが不整合である多モード線形混合物の共有成分識別性について研究した。 分散分散最小化に基づく損失を提案し、共有コンポーネントの識別可能性を保証する十分な条件の組を導出する。 我々の条件は、独立成分分析に依存する既存の研究よりも遥かに緩やかな、モード間分布の相違特性と密度保存変換の除去に基づく。 より緩和された条件は、様々なアプリケーションで利用可能なサイド情報によって動機付けられた合理的な構造的制約を追加することでも提供されます。 識別可能性の主張は、合成データと実世界のデータを用いて徹底的に検証される。

A core task in multi-modal learning is to integrate information from multiple feature spaces (e.g., text and audio), offering modality-invariant essential representations of data. Recent research showed that, classical tools such as {\it canonical correlation analysis} (CCA) provably identify the shared components up to minor ambiguities, when samples in each modality are generated from a linear mixture of shared and private components. Such identifiability results were obtained under the condition that the cross-modality samples are aligned/paired according to their shared information. This work takes a step further, investigating shared component identifiability from multi-modal linear mixtures where cross-modality samples are unaligned. A distribution divergence minimization-based loss is proposed, under which a suite of sufficient conditions ensuring identifiability of the shared components are derived. Our conditions are based on cross-modality distribution discrepancy characterization and density-preserving transform removal, which are much milder than existing studies relying on independent component analysis. More relaxed conditions are also provided via adding reasonable structural constraints, motivated by available side information in various applications. The identifiability claims are thoroughly validated using synthetic and real-world data.
翻訳日:2024-11-05 23:29:10 公開日:2024-10-01
# マルチモーダル混合系の同定可能な共有成分分析

Identifiable Shared Component Analysis of Unpaired Multimodal Mixtures ( http://arxiv.org/abs/2409.19422v2 )

ライセンス: Link先を確認
Subash Timilsina, Sagar Shrestha, Xiao Fu, (参考訳) マルチモーダル学習における中核的な課題は、複数の特徴空間(例えば、テキストや音声)からの情報を統合することであり、モダリティに不変なデータ表現を提供することである。 近年の研究では、共有成分とプライベート成分の線形混合から各モードのサンプルが生成される際に、共有成分を小さなあいまいさまで確実に識別できることが示されている。 このような識別性は, 共有情報に基づいて, クロスモーダルなサンプルをアライメント・ペアリングする条件下で得られた。 この研究はさらに一歩前進し、クロスモーダルなサンプルが不整合である多モード線形混合物の共有成分識別性について研究した。 分散分散最小化に基づく損失を提案し、共有コンポーネントの識別可能性を保証する十分な条件の組を導出する。 我々の条件は、独立成分分析に依存する既存の研究よりも遥かに緩やかな、モード間分布の相違特性と密度保存変換の除去に基づく。 より緩和された条件は、様々なアプリケーションで利用可能なサイド情報によって動機付けられた合理的な構造的制約を追加することでも提供されます。 識別可能性の主張は、合成データと実世界のデータを用いて徹底的に検証される。

A core task in multi-modal learning is to integrate information from multiple feature spaces (e.g., text and audio), offering modality-invariant essential representations of data. Recent research showed that, classical tools such as {\it canonical correlation analysis} (CCA) provably identify the shared components up to minor ambiguities, when samples in each modality are generated from a linear mixture of shared and private components. Such identifiability results were obtained under the condition that the cross-modality samples are aligned/paired according to their shared information. This work takes a step further, investigating shared component identifiability from multi-modal linear mixtures where cross-modality samples are unaligned. A distribution divergence minimization-based loss is proposed, under which a suite of sufficient conditions ensuring identifiability of the shared components are derived. Our conditions are based on cross-modality distribution discrepancy characterization and density-preserving transform removal, which are much milder than existing studies relying on independent component analysis. More relaxed conditions are also provided via adding reasonable structural constraints, motivated by available side information in various applications. The identifiability claims are thoroughly validated using synthetic and real-world data.
翻訳日:2024-11-05 23:29:10 公開日:2024-10-01
# DropEdge not Foolproof: Effective Augmentation Method for Signed Graph Neural Networks

DropEdge not Foolproof: Effective Augmentation Method for Signed Graph Neural Networks ( http://arxiv.org/abs/2409.19620v1 )

ライセンス: Link先を確認
Zeyu Zhang, Lu Li, Shuyan Wan, Sijie Wang, Zhiyi Wang, Zhiyuan Lu, Dong Hao, Wanli Li, (参考訳) 本稿では, 有意または負の符号を持つエッジを用いて, 親和性や敵意関係をモデル化する符号グラフについて論じ, リンクサイン予測の課題に着目した。 Signed Graph Neural Networks(SGNN)は進歩しているが、グラフの空間性や不均衡な三角形といった課題に直面している。 著者らはこれらの問題に対処するためにデータ拡張(DA)技術を提案するが、多くの既存の手法は側情報がないため、符号付きグラフには適していない。 彼らは、符号付きグラフに適用可能な稀なDA手法であるDropEdge法は、リンクサイン予測性能を向上しない点を強調した。 このフレームワークには、候補エッジを特定する構造拡張モジュールと、有効な候補を選択する戦略が含まれており、最終的にはSGNNトレーニングを改善している。 実験の結果、SGAはSGNNモデルの性能を大幅に向上させ、Slashdotデータセット上でSGCN用のF1-microを32.3%改善した。

The paper discusses signed graphs, which model friendly or antagonistic relationships using edges marked with positive or negative signs, focusing on the task of link sign prediction. While Signed Graph Neural Networks (SGNNs) have advanced, they face challenges like graph sparsity and unbalanced triangles. The authors propose using data augmentation (DA) techniques to address these issues, although many existing methods are not suitable for signed graphs due to a lack of side information. They highlight that the random DropEdge method, a rare DA approach applicable to signed graphs, does not enhance link sign prediction performance. In response, they introduce the Signed Graph Augmentation (SGA) framework, which includes a structure augmentation module to identify candidate edges and a strategy for selecting beneficial candidates, ultimately improving SGNN training. Experimental results show that SGA significantly boosts the performance of SGNN models, with a notable 32.3% improvement in F1-micro for SGCN on the Slashdot dataset.
翻訳日:2024-11-05 22:09:00 公開日:2024-10-01
# DropEdge not Foolproof: Effective Augmentation Method for Signed Graph Neural Networks

DropEdge not Foolproof: Effective Augmentation Method for Signed Graph Neural Networks ( http://arxiv.org/abs/2409.19620v2 )

ライセンス: Link先を確認
Zeyu Zhang, Lu Li, Shuyan Wan, Sijie Wang, Zhiyi Wang, Zhiyuan Lu, Dong Hao, Wanli Li, (参考訳) 本稿では, 有意または負の符号を持つエッジを用いて, 親和性や敵意関係をモデル化する符号グラフについて論じ, リンクサイン予測の課題に着目した。 Signed Graph Neural Networks(SGNN)は進歩しているが、グラフの空間性や不均衡な三角形といった課題に直面している。 著者らはこれらの問題に対処するためにデータ拡張(DA)技術を提案するが、多くの既存の手法は側情報がないため、符号付きグラフには適していない。 彼らは、符号付きグラフに適用可能な稀なDA手法であるDropEdge法は、リンクサイン予測性能を向上しない点を強調した。 このフレームワークには、候補エッジを特定する構造拡張モジュールと、有効な候補を選択する戦略が含まれており、最終的にはSGNNトレーニングを改善している。 実験の結果、SGAはSGNNモデルの性能を大幅に向上させ、Slashdotデータセット上でSGCN用のF1-microを32.3%改善した。

The paper discusses signed graphs, which model friendly or antagonistic relationships using edges marked with positive or negative signs, focusing on the task of link sign prediction. While Signed Graph Neural Networks (SGNNs) have advanced, they face challenges like graph sparsity and unbalanced triangles. The authors propose using data augmentation (DA) techniques to address these issues, although many existing methods are not suitable for signed graphs due to a lack of side information. They highlight that the random DropEdge method, a rare DA approach applicable to signed graphs, does not enhance link sign prediction performance. In response, they introduce the Signed Graph Augmentation (SGA) framework, which includes a structure augmentation module to identify candidate edges and a strategy for selecting beneficial candidates, ultimately improving SGNN training. Experimental results show that SGA significantly boosts the performance of SGNN models, with a notable 32.3% improvement in F1-micro for SGCN on the Slashdot dataset.
翻訳日:2024-11-05 22:09:00 公開日:2024-10-01
# 大規模言語モデルにおける知識編集のタイプ同定

Identifying Knowledge Editing Types in Large Language Models ( http://arxiv.org/abs/2409.19663v1 )

ライセンス: Link先を確認
Xiaopeng Li, Shangwen Wang, Shezheng Song, Bin Ji, Huijun Liu, Shasha Li, Jun Ma, Jie Yu, (参考訳) 近年,大規模言語モデル (LLM) の知識を更新するための効率的な手法として知識編集が登場し,注目が集まっている。 しかし、この技術の悪用を防ぐための効果的な対策が欠如しており、LSMの有害な編集に繋がる可能性がある。 これらの悪意のある修正は、LSMが有害なコンテンツを生成し、ユーザを不適切なアクションに導く可能性がある。 この問題に対処するために、LLMにおける悪意のある編集を識別することを目的とした新しいタスクである \textbf{K}nowledge \textbf{E}diting \textbf{T}ype \textbf{I}dentification (KETI)を導入する。 このタスクの一環として、5種類の悪意のある更新と1種類の良心的な更新を含むベンチマークであるKETIBenchを紹介します。 さらに,オープンソース LLM とクローズドソース LLM のベースライン識別子として,4つの古典的分類モデルと3つのBERTベースモデルを開発した。 実験の結果, 2つのモデルと3つの知識編集手法を含む42の試行にまたがって, 7つのベースライン識別子がすべてまともな識別性能を達成し,LLMにおける悪意ある編集の特定の可能性を強調した。 さらなる分析により、識別子のパフォーマンスは知識編集方法の有効性とは独立であり、ドメイン間の一般化を示し、未知のソースからの編集の識別を可能にすることが明らかとなった。 すべてのデータとコードはhttps://github.com/xpq-tech/KETIで入手できる。 警告: 本論文は有毒テキストの例を含む。

Knowledge editing has emerged as an efficient approach for updating the knowledge of large language models (LLMs), attracting increasing attention in recent research. However, there is a notable lack of effective measures to prevent the malicious misuse of this technology, which could lead to harmful edits in LLMs. These malicious modifications have the potential to cause LLMs to generate toxic content, misleading users into inappropriate actions. To address this issue, we introduce a novel task, \textbf{K}nowledge \textbf{E}diting \textbf{T}ype \textbf{I}dentification (KETI), aimed at identifying malicious edits in LLMs. As part of this task, we present KETIBench, a benchmark that includes five types of malicious updates and one type of benign update. Furthermore, we develop four classical classification models and three BERT-based models as baseline identifiers for both open-source and closed-source LLMs. Our experimental results, spanning 42 trials involving two models and three knowledge editing methods, demonstrate that all seven baseline identifiers achieve decent identification performance, highlighting the feasibility of identifying malicious edits in LLMs. Additional analyses reveal that the performance of the identifiers is independent of the efficacy of the knowledge editing methods and exhibits cross-domain generalization, enabling the identification of edits from unknown sources. All data and code are available in https://github.com/xpq-tech/KETI. Warning: This paper contains examples of toxic text.
翻訳日:2024-11-05 21:58:59 公開日:2024-10-01
# 大規模言語モデルにおける知識編集のタイプ同定

Identifying Knowledge Editing Types in Large Language Models ( http://arxiv.org/abs/2409.19663v2 )

ライセンス: Link先を確認
Xiaopeng Li, Shangwen Wang, Shezheng Song, Bin Ji, Huijun Liu, Shasha Li, Jun Ma, Jie Yu, (参考訳) 近年,大規模言語モデル (LLM) の知識を更新するための効率的な技術として知識編集が登場し,注目を集めている。 しかし、この技術の悪用を防ぐための効果的な対策が欠如しており、LSMの有害な編集につながる可能性がある。 これらの悪意のある修正は、LSMが有害なコンテンツを生成し、ユーザを不適切なアクションに導く可能性がある。 このリスクを前にして,LLMにおける様々な種類の編集を識別することを目的とした,知識編集型識別(KETI)という新たなタスクを導入する。 この課題の一環として,KETIBenchを提案する。KETIBenchには,最も一般的な有害なタイプをカバーする5種類の有害な編集が含まれている。 オープンソースLLMとクローズドソースLLMのベースライン識別子として,4つの古典的分類モデルと3つのBERTベースモデルを開発した。 実験の結果,2つのモデルと3つの知識編集手法を含む42の試行において,7つのベースライン識別子が良好な識別性能を示し,LLMにおける悪意ある編集を識別する可能性が示された。 さらなる分析により、識別子の性能は知識編集手法の信頼性とは独立であり、ドメイン間の一般化を示し、未知のソースからの編集の識別を可能にすることが明らかになった。 すべてのデータとコードはhttps://github.com/xpq-tech/KETIで入手できる。 警告: 本論文は有毒テキストの例を含む。

Knowledge editing has emerged as an efficient technology for updating the knowledge of large language models (LLMs), attracting increasing attention in recent years. However, there is a lack of effective measures to prevent the malicious misuse of this technology, which could lead to harmful edits in LLMs. These malicious modifications could cause LLMs to generate toxic content, misleading users into inappropriate actions. In front of this risk, we introduce a new task, Knowledge Editing Type Identification (KETI), aimed at identifying different types of edits in LLMs, thereby providing timely alerts to users when encountering illicit edits. As part of this task, we propose KETIBench, which includes five types of harmful edits covering most popular toxic types, as well as one benign factual edit. We develop four classical classification models and three BERT-based models as baseline identifiers for both open-source and closed-source LLMs. Our experimental results, across 42 trials involving two models and three knowledge editing methods, demonstrate that all seven baseline identifiers achieve decent identification performance, highlighting the feasibility of identifying malicious edits in LLMs. Additional analyses reveal that the performance of the identifiers is independent of the reliability of the knowledge editing methods and exhibits cross-domain generalization, enabling the identification of edits from unknown sources. All data and code are available in https://github.com/xpq-tech/KETI. Warning: This paper contains examples of toxic text.
翻訳日:2024-11-05 21:58:59 公開日:2024-10-01
# 病理的クレー駆動表現学習による脳CTレポート作成に向けて

See Detail Say Clear: Towards Brain CT Report Generation via Pathological Clue-driven Representation Learning ( http://arxiv.org/abs/2409.19676v1 )

ライセンス: Link先を確認
Chengxin Zheng, Junzhong Ji, Yanzhao Shi, Xiaodan Zhang, Liangqiong Qu, (参考訳) 脳CTレポートの生成は、脳疾患の診断における医師の助けとなる。 近年の研究では、レポートのコヒーレンスを改善するために、視覚的特徴とテキスト的特徴の整合性を扱うことに集中している。 しかし、いくつかの課題がある。 1)3Dスキャンにおける無関係な領域は,視覚的文脈の有意な表現からモデルを逸脱させる。 2) シフトした意味表現: 限られた医療用コーパスは,学習したテキスト表現を生成層に転送することが困難である。 本研究は,病的手がかりに基づくクロスモーダル表現を構築し,それらを正確なレポート生成に自然に適応するためのPCRLモデルを提案する。 具体的には,分類領域,病理実体,報告テーマの視点から病理的手がかりを構築し,視覚的病理的パターンを完全に把握し,横断的特徴表現を学習する。 テキスト生成タスクの表現に適応するため,タスク調整命令を統一した大言語モデル(LLM)を用いて,表現学習とレポート生成のギャップを埋める。 これらの命令により、LSMはタスク間で柔軟に微調整され、レポート生成のためのセマンティック表現を円滑に転送できる。 実験により,本手法が従来の手法より優れ,SoTAの性能が向上することが示された。 私たちのコードはhttps://github.com/Chauncey-Jheng/PCRL-MRG.comで公開されています。

Brain CT report generation is significant to aid physicians in diagnosing cranial diseases. Recent studies concentrate on handling the consistency between visual and textual pathological features to improve the coherence of report. However, there exist some challenges: 1) Redundant visual representing: Massive irrelevant areas in 3D scans distract models from representing salient visual contexts. 2) Shifted semantic representing: Limited medical corpus causes difficulties for models to transfer the learned textual representations to generative layers. This study introduces a Pathological Clue-driven Representation Learning (PCRL) model to build cross-modal representations based on pathological clues and naturally adapt them for accurate report generation. Specifically, we construct pathological clues from perspectives of segmented regions, pathological entities, and report themes, to fully grasp visual pathological patterns and learn cross-modal feature representations. To adapt the representations for the text generation task, we bridge the gap between representation learning and report generation by using a unified large language model (LLM) with task-tailored instructions. These crafted instructions enable the LLM to be flexibly fine-tuned across tasks and smoothly transfer the semantic representation for report generation. Experiments demonstrate that our method outperforms previous methods and achieves SoTA performance. Our code is available at https://github.com/Chauncey-Jheng/PCRL-MRG.
翻訳日:2024-11-05 21:49:14 公開日:2024-10-01
# 病理的クレー駆動表現学習による脳CTレポート作成に向けて

See Detail Say Clear: Towards Brain CT Report Generation via Pathological Clue-driven Representation Learning ( http://arxiv.org/abs/2409.19676v2 )

ライセンス: Link先を確認
Chengxin Zheng, Junzhong Ji, Yanzhao Shi, Xiaodan Zhang, Liangqiong Qu, (参考訳) 脳CTレポートの生成は、脳疾患の診断における医師の助けとなる。 近年の研究では、レポートのコヒーレンスを改善するために、視覚的特徴とテキスト的特徴の整合性を扱うことに集中している。 しかし、いくつかの課題がある。 1)3Dスキャンにおける無関係な領域は,視覚的文脈の有意な表現からモデルを逸脱させる。 2) シフトした意味表現: 限られた医療用コーパスは,学習したテキスト表現を生成層に転送することが困難である。 本研究は,病的手がかりに基づくクロスモーダル表現を構築し,それらを正確なレポート生成に自然に適応するためのPCRLモデルを提案する。 具体的には,分類領域,病理実体,報告テーマの視点から病理的手がかりを構築し,視覚的病理的パターンを完全に把握し,横断的特徴表現を学習する。 テキスト生成タスクの表現に適応するため,タスク調整命令を統一した大言語モデル(LLM)を用いて,表現学習とレポート生成のギャップを埋める。 これらの命令により、LSMはタスク間で柔軟に微調整され、レポート生成のためのセマンティック表現を円滑に転送できる。 実験により,本手法が従来の手法より優れ,SoTAの性能が向上することが示された。 私たちのコードは"https://github.com/Chauncey-Jheng/PCRL-MRG"で利用可能です。

Brain CT report generation is significant to aid physicians in diagnosing cranial diseases. Recent studies concentrate on handling the consistency between visual and textual pathological features to improve the coherence of report. However, there exist some challenges: 1) Redundant visual representing: Massive irrelevant areas in 3D scans distract models from representing salient visual contexts. 2) Shifted semantic representing: Limited medical corpus causes difficulties for models to transfer the learned textual representations to generative layers. This study introduces a Pathological Clue-driven Representation Learning (PCRL) model to build cross-modal representations based on pathological clues and naturally adapt them for accurate report generation. Specifically, we construct pathological clues from perspectives of segmented regions, pathological entities, and report themes, to fully grasp visual pathological patterns and learn cross-modal feature representations. To adapt the representations for the text generation task, we bridge the gap between representation learning and report generation by using a unified large language model (LLM) with task-tailored instructions. These crafted instructions enable the LLM to be flexibly fine-tuned across tasks and smoothly transfer the semantic representation for report generation. Experiments demonstrate that our method outperforms previous methods and achieves SoTA performance. Our code is available at "https://github.com/Chauncey-Jheng/PCRL-MRG".
翻訳日:2024-11-05 21:49:14 公開日:2024-10-01
# Transagent: コード翻訳のためのLLMベースのマルチエージェントシステム

TRANSAGENT: An LLM-Based Multi-Agent System for Code Translation ( http://arxiv.org/abs/2409.19894v1 )

ライセンス: Link先を確認
Zhiqiang Yuan, Weitong Chen, Hanlin Wang, Kai Yu, Xin Peng, Yiling Lou, (参考訳) コード変換は、元の機能を維持しながら、あるプログラミング言語から別の言語にコードを変換します。 従来のルールベースのメソッドは手書きのルールに依存している。 これを解決するために、並列データを利用して自動コード翻訳のためのモデルをトレーニングする学習ベースの手法が開発されている。 最近では、LLM(Large Language Models)の進歩により、学習ベースのコード翻訳がさらに強化されている。 有望ではあるが、LLM変換プログラムは、様々な品質問題(例えば、構文エラーやセマンティックエラー)に悩まされている。 特に、LLMが対応するエラーメッセージを単に提供すれば、これらのエラーを自己デバッグすることは困難である。 本研究では,LLMをベースとした新しいマルチエージェントシステムであるTransagENTを提案する。このシステムでは,構文エラーと意味エラーを,初期コードトランスレータ,構文エラーフィクスダ,コードアリグナー,セマンティックエラーフィクスダを含む4つのLCMベースのエージェント間の相乗効果で修正することで,LLMベースのコード変換を強化する。 TransAGENTの主な洞察は、まずターゲットプログラムとソースプログラム間の実行アライメントに基づいてエラーコードブロックをターゲットプログラムにローカライズすることで、固定スペースを狭め、固定困難を小さくすることができる。 TRAAGENTを評価するために、我々はまず最近のプログラミングタスクから新しいベンチマークを構築し、潜在的なデータ漏洩問題を緩和する。 ベンチマークでは,最新のLLMベースのコード翻訳技術であるUniTransよりも翻訳効率と効率性が優れており,また,異なるLLMに対する評価ではTransagENTの一般化が示され,Ablation研究では各エージェントの寄与が示されている。

Code translation converts code from one programming language to another while maintaining its original functionality, which is crucial for software migration, system refactoring, and cross-platform development. Traditional rule-based methods rely on manually-written rules, which can be time-consuming and often result in less readable code. To overcome this, learning-based methods have been developed, leveraging parallel data to train models for automated code translation. More recently, the advance of Large Language Models (LLMs) further boosts learning-based code translation. Although promising, LLM-translated program still suffers from diverse quality issues (e.g., syntax errors and semantic errors). In particular, it can be challenging for LLMs to self-debug these errors when simply provided with the corresponding error messages. In this work, we propose a novel LLM-based multi-agent system TRANSAGENT, which enhances LLM-based code translation by fixing the syntax errors and semantic errors with the synergy between four LLM-based agents, including Initial Code Translator, Syntax Error Fixer, Code Aligner, and Semantic Error Fixer. The main insight of TRANSAGENT is to first localize the error code block in the target program based on the execution alignment between the target and source program, which can narrow down the fixing space and thus lower down the fixing difficulties. To evaluate TRANSAGENT, we first construct a new benchmark from recent programming tasks to mitigate the potential data leakage issue. On our benchmark, TRANSAGENT outperforms the latest LLM-based code translation technique UniTrans in both translation effectiveness and efficiency; additionally, our evaluation on different LLMs show the generalization of TRANSAGENT and our ablation study shows the contribution of each agent.
翻訳日:2024-11-05 17:09:32 公開日:2024-10-01
# Transagent: コード翻訳のためのLLMベースのマルチエージェントシステム

TRANSAGENT: An LLM-Based Multi-Agent System for Code Translation ( http://arxiv.org/abs/2409.19894v2 )

ライセンス: Link先を確認
Zhiqiang Yuan, Weitong Chen, Hanlin Wang, Kai Yu, Xin Peng, Yiling Lou, (参考訳) コード変換は、元の機能を維持しながら、あるプログラミング言語から別の言語にコードを変換します。 従来のルールベースのメソッドは手書きのルールに依存している。 これを解決するために、並列データを利用して自動コード翻訳のためのモデルをトレーニングする学習ベースの手法が開発されている。 最近では、LLM(Large Language Models)の進歩により、学習ベースのコード翻訳がさらに強化されている。 有望ではあるが、LLM変換プログラムは、様々な品質問題(例えば、構文エラーやセマンティックエラー)に悩まされている。 特に、LLMが対応するエラーメッセージを単に提供すれば、これらのエラーを自己デバッグすることは困難である。 本研究では,LLMをベースとした新しいマルチエージェントシステムであるTransagENTを提案する。このシステムでは,構文エラーと意味エラーを,初期コードトランスレータ,構文エラーフィクスダ,コードアリグナー,セマンティックエラーフィクスダを含む4つのLCMベースのエージェント間の相乗効果で修正することで,LLMベースのコード変換を強化する。 TransAGENTの主な洞察は、まずターゲットプログラムとソースプログラム間の実行アライメントに基づいてエラーコードブロックをターゲットプログラムにローカライズすることで、固定スペースを狭め、固定困難を小さくすることができる。 TRAAGENTを評価するために、我々はまず最近のプログラミングタスクから新しいベンチマークを構築し、潜在的なデータ漏洩問題を緩和する。 ベンチマークでは,最新のLLMベースのコード翻訳技術であるUniTransよりも翻訳効率と効率性が優れており,また,異なるLLMに対する評価ではTransagENTの一般化が示され,Ablation研究では各エージェントの寄与が示されている。

Code translation converts code from one programming language to another while maintaining its original functionality, which is crucial for software migration, system refactoring, and cross-platform development. Traditional rule-based methods rely on manually-written rules, which can be time-consuming and often result in less readable code. To overcome this, learning-based methods have been developed, leveraging parallel data to train models for automated code translation. More recently, the advance of Large Language Models (LLMs) further boosts learning-based code translation. Although promising, LLM-translated program still suffers from diverse quality issues (e.g., syntax errors and semantic errors). In particular, it can be challenging for LLMs to self-debug these errors when simply provided with the corresponding error messages. In this work, we propose a novel LLM-based multi-agent system TRANSAGENT, which enhances LLM-based code translation by fixing the syntax errors and semantic errors with the synergy between four LLM-based agents, including Initial Code Translator, Syntax Error Fixer, Code Aligner, and Semantic Error Fixer. The main insight of TRANSAGENT is to first localize the error code block in the target program based on the execution alignment between the target and source program, which can narrow down the fixing space and thus lower down the fixing difficulties. To evaluate TRANSAGENT, we first construct a new benchmark from recent programming tasks to mitigate the potential data leakage issue. On our benchmark, TRANSAGENT outperforms the latest LLM-based code translation technique UniTrans in both translation effectiveness and efficiency; additionally, our evaluation on different LLMs show the generalization of TRANSAGENT and our ablation study shows the contribution of each agent.
翻訳日:2024-11-05 17:09:32 公開日:2024-10-01
# UniSumEval:LLMの統一・微粒化・多次元要約評価を目指して

UniSumEval: Towards Unified, Fine-Grained, Multi-Dimensional Summarization Evaluation for LLMs ( http://arxiv.org/abs/2409.19898v1 )

ライセンス: Link先を確認
Yuho Lee, Taewon Lee, Jason Cai, Hang Su, Hwanjun Song, (参考訳) 要約品質評価のための既存のベンチマークは、様々な入力シナリオを欠き、狭義の次元(例えば、忠実さ)に焦点を合わせ、主観的かつ粗密なアノテーションスキームに苦労することが多い。 これらの欠点に対処するため、UniSumEvalベンチマークを作成し、入力コンテキスト(例えば、ドメイン、長さ)の範囲を拡張し、きめ細かい多次元アノテーションを提供する。 我々は、データ生成にAIアシストを使用し、幻覚を誘発する可能性のある入力テキストを特定し、人間のアノテーションが細かいアノテーションタスクの難しさを軽減するのを助ける。 UniSumEvalでは、9つの最新の言語モデルを要約としてベンチマークし、様々な入力コンテキストと評価次元にまたがるパフォーマンスに関する洞察を提供する。 さらに,SOTA自動要約評価器の徹底的な比較を行う。 ベンチマークデータはhttps://github.com/DISL-Lab/UniSumEval-v1.0で公開されます。

Existing benchmarks for summarization quality evaluation often lack diverse input scenarios, focus on narrowly defined dimensions (e.g., faithfulness), and struggle with subjective and coarse-grained annotation schemes. To address these shortcomings, we create UniSumEval benchmark, which extends the range of input context (e.g., domain, length) and provides fine-grained, multi-dimensional annotations. We use AI assistance in data creation, identifying potentially hallucinogenic input texts, and also helping human annotators reduce the difficulty of fine-grained annotation tasks. With UniSumEval, we benchmark nine latest language models as summarizers, offering insights into their performance across varying input contexts and evaluation dimensions. Furthermore, we conduct a thorough comparison of SOTA automated summary evaluators. Our benchmark data will be available at https://github.com/DISL-Lab/UniSumEval-v1.0.
翻訳日:2024-11-05 17:09:32 公開日:2024-10-01
# UniSumEval:LLMの統一・微粒化・多次元要約評価を目指して

UniSumEval: Towards Unified, Fine-Grained, Multi-Dimensional Summarization Evaluation for LLMs ( http://arxiv.org/abs/2409.19898v2 )

ライセンス: Link先を確認
Yuho Lee, Taewon Yun, Jason Cai, Hang Su, Hwanjun Song, (参考訳) 要約品質評価のための既存のベンチマークは、様々な入力シナリオを欠き、狭義の次元(例えば、忠実さ)に焦点を合わせ、主観的かつ粗密なアノテーションスキームに苦労することが多い。 これらの欠点に対処するため、UniSumEvalベンチマークを作成し、入力コンテキスト(例えば、ドメイン、長さ)の範囲を拡張し、きめ細かい多次元アノテーションを提供する。 我々は、データ生成にAIアシストを使用し、幻覚を誘発する可能性のある入力テキストを特定し、人間のアノテーションが細かいアノテーションタスクの難しさを軽減するのを助ける。 UniSumEvalでは、9つの最新の言語モデルを要約としてベンチマークし、様々な入力コンテキストと評価次元にまたがるパフォーマンスに関する洞察を提供する。 さらに,SOTA自動要約評価器の徹底的な比較を行う。 ベンチマークデータはhttps://github.com/DISL-Lab/UniSumEval-v1.0で公開されます。

Existing benchmarks for summarization quality evaluation often lack diverse input scenarios, focus on narrowly defined dimensions (e.g., faithfulness), and struggle with subjective and coarse-grained annotation schemes. To address these shortcomings, we create UniSumEval benchmark, which extends the range of input context (e.g., domain, length) and provides fine-grained, multi-dimensional annotations. We use AI assistance in data creation, identifying potentially hallucinogenic input texts, and also helping human annotators reduce the difficulty of fine-grained annotation tasks. With UniSumEval, we benchmark nine latest language models as summarizers, offering insights into their performance across varying input contexts and evaluation dimensions. Furthermore, we conduct a thorough comparison of SOTA automated summary evaluators. Our benchmark data will be available at https://github.com/DISL-Lab/UniSumEval-v1.0.
翻訳日:2024-11-05 16:57:15 公開日:2024-10-01
# LLMに基づくレコメンダモデルにおける高次相互作用認識の強化

Enhancing High-order Interaction Awareness in LLM-based Recommender Model ( http://arxiv.org/abs/2409.19979v1 )

ライセンス: Link先を確認
Xinfeng Wang, Jin Cui, Fumiyo Fukumoto, Yoshimi Suzuki, (参考訳) 大規模言語モデル(LLM)は、テキスト生成タスクに変換することで、推薦タスクにおいて顕著な推論能力を示す。 しかし、既存のアプローチでは、ユーザを無視するか、あるいは非効率に、高次のインタラクションをモデル化しています。 そこで本論文では,ELMRec(ELMRec)を改良したLLMリコメンデータを提案する。 我々は、グラフ事前学習を必要とせず、全単語埋め込みを強化し、LLMのレコメンデーションのためのグラフ構築された相互作用の解釈を大幅に強化する。 この発見は、豊富な知識グラフをLLMベースのレコメンデータに、全単語の埋め込みを通じて組み込むことを促すかもしれない。 また、LCMは、最近のものよりも、ユーザの以前のインタラクションに基づいたアイテムを推奨することが多く、再ランク付けされたソリューションも提示する。 ELMRecは、直接およびシーケンシャルなレコメンデーションの両方において、最先端(SOTA)メソッドよりも優れています。

Large language models (LLMs) have demonstrated prominent reasoning capabilities in recommendation tasks by transforming them into text-generation tasks. % many NLP applications including However, existing approaches either disregard or ineffectively model the user--item high-order interactions. To this end, this paper presents an enhanced LLM-based recommender (ELMRec). We enhance whole-word embeddings to substantially enhance LLMs' interpretation of graph-constructed interactions for recommendations, without requiring graph pre-training. This finding may inspire endeavors to incorporate rich knowledge graphs into LLM-based recommenders via whole-word embedding. We also found that LLMs often recommend items based on users' earlier interactions rather than recent ones, and present a reranking solution. Our ELMRec outperforms state-of-the-art (SOTA) methods in both direct and sequential recommendations.
翻訳日:2024-11-05 16:27:46 公開日:2024-10-01
# LLMに基づくレコメンダモデルにおける高次相互作用認識の強化

Enhancing High-order Interaction Awareness in LLM-based Recommender Model ( http://arxiv.org/abs/2409.19979v2 )

ライセンス: Link先を確認
Xinfeng Wang, Jin Cui, Fumiyo Fukumoto, Yoshimi Suzuki, (参考訳) 大規模言語モデル(LLM)は、テキスト生成タスクに変換することで、推薦タスクにおいて顕著な推論能力を示す。 しかし、既存のアプローチは、ユーザとイテムの高次相互作用を無視するか、非効果的にモデル化する。 そこで本論文では,ELMRec(ELMRec)を改良したLLMリコメンデータを提案する。 我々は、グラフ事前学習を必要とせず、全単語埋め込みを強化し、LLMのレコメンデーションのためのグラフ構築された相互作用の解釈を大幅に強化する。 この発見は、豊富な知識グラフをLLMベースのレコメンデータに、全単語の埋め込みを通じて組み込むことを促すかもしれない。 また、LCMは、最近のものよりも、ユーザの以前のインタラクションに基づいたアイテムを推奨することが多く、再ランク付けされたソリューションも提示する。 ELMRecは、直接およびシーケンシャルなレコメンデーションの両方において、最先端(SOTA)メソッドよりも優れています。

Large language models (LLMs) have demonstrated prominent reasoning capabilities in recommendation tasks by transforming them into text-generation tasks. However, existing approaches either disregard or ineffectively model the user-item high-order interactions. To this end, this paper presents an enhanced LLM-based recommender (ELMRec). We enhance whole-word embeddings to substantially enhance LLMs' interpretation of graph-constructed interactions for recommendations, without requiring graph pre-training. This finding may inspire endeavors to incorporate rich knowledge graphs into LLM-based recommenders via whole-word embedding. We also found that LLMs often recommend items based on users' earlier interactions rather than recent ones, and present a reranking solution. Our ELMRec outperforms state-of-the-art (SOTA) methods in both direct and sequential recommendations.
翻訳日:2024-11-05 16:27:46 公開日:2024-10-01
# OccRWKV:線形複雑度を考慮した効率的な3次元セマンティック動作予測の再考

OccRWKV: Rethinking Efficient 3D Semantic Occupancy Prediction with Linear Complexity ( http://arxiv.org/abs/2409.19987v1 )

ライセンス: Link先を確認
Junming Wang, Wei Yin, Xiaoxiao Long, Xingyu Zhang, Zebin Xing, Xiaoyang Guo, Qian Zhang, (参考訳) 3Dセマンティック占有予測ネットワークは、3Dシーンの幾何学的・意味的構造を再構築し、ロボットナビゲーションや自律運転システムにとって重要な情報を提供する際、顕著な能力を示した。 しかし,高密度ネットワーク構造設計によるオーバヘッドが大きいため,既存のネットワークでは精度とレイテンシのバランスが困難である。この記事では,Receptance Weighted Key Value(RWKV)にヒントを得た,効率的なセマンティック占有ネットワークであるOccRWKVを紹介する。 OccRWKVはセマンティクス、占有予測、特徴融合を分離し、それぞれSem-RWKVとGeo-RWKVブロックを組み込む。 これらのブロックは、長い範囲の依存関係をキャプチャして、ドメイン固有の表現(セマンティクスや幾何学)を学習し、予測精度を高めるように設計されている。 実世界の3D占有のスパース性を生かして,鳥眼ビュー(BEV)空間に特徴を投影することで計算オーバーヘッドを低減し,効率的な特徴強調と融合のためのBEV-RWKVブロックを提案する。 これにより、パフォーマンスを損なうことなく22.2 FPSでのリアルタイム推論が可能になる。 OccRWKVはSemanticKITTIデータセットの最先端の手法よりも優れており、最高のベースラインであるCo-Occの20倍の速度で25.1mIoUを達成した。 コードとビデオはプロジェクトのページで公開されている。

3D semantic occupancy prediction networks have demonstrated remarkable capabilities in reconstructing the geometric and semantic structure of 3D scenes, providing crucial information for robot navigation and autonomous driving systems. However, due to their large overhead from dense network structure designs, existing networks face challenges balancing accuracy and latency.In this paper, we introduce OccRWKV, an efficient semantic occupancy network inspired by Receptance Weighted Key Value (RWKV). OccRWKV separates semantics, occupancy prediction, and feature fusion into distinct branches, each incorporating Sem-RWKV and Geo-RWKV blocks. These blocks are designed to capture long-range dependencies, enabling the network to learn domain-specific representation (i.e., semantics and geometry), which enhances prediction accuracy. Leveraging the sparse nature of real-world 3D occupancy, we reduce computational overhead by projecting features into the bird's-eye view (BEV) space and propose a BEV-RWKV block for efficient feature enhancement and fusion. This enables real-time inference at 22.2 FPS without compromising performance. Experiments demonstrate that OccRWKV outperforms the state-of-the-art methods on the SemanticKITTI dataset, achieving a mIoU of 25.1 while being 20 times faster than the best baseline, Co-Occ, making it suitable for real-time deployment on robots to enhance autonomous navigation efficiency. Code and video are available on our project page: \url{https://jmwang0117.github.io/OccRWKV/}.
翻訳日:2024-11-05 16:27:46 公開日:2024-10-01
# OccRWKV:線形複雑度を考慮した効率的な3次元セマンティック動作予測の再考

OccRWKV: Rethinking Efficient 3D Semantic Occupancy Prediction with Linear Complexity ( http://arxiv.org/abs/2409.19987v2 )

ライセンス: Link先を確認
Junming Wang, Wei Yin, Xiaoxiao Long, Xingyu Zhang, Zebin Xing, Xiaoyang Guo, Qian Zhang, (参考訳) 3Dセマンティック占有予測ネットワークは、3Dシーンの幾何学的・意味的構造を再構築し、ロボットナビゲーションや自律運転システムにとって重要な情報を提供する際、顕著な能力を示した。 しかし、ネットワーク構造設計によるオーバーヘッドが大きいため、既存のネットワークは精度とレイテンシのバランスをとることの難しさに直面している。 本稿では,Receptance Weighted Key Value (RWKV) にヒントを得た,効率的なセマンティック占有ネットワークであるOccRWKVを紹介する。 OccRWKVはセマンティクス、占有予測、特徴融合を分離し、それぞれSem-RWKVとGeo-RWKVブロックを組み込む。 これらのブロックは、長い範囲の依存関係をキャプチャして、ドメイン固有の表現(セマンティクスや幾何学)を学習し、予測精度を高めるように設計されている。 実世界の3D占有のスパース性を生かして,鳥眼ビュー(BEV)空間に特徴を投影することで計算オーバーヘッドを低減し,効率的な特徴強調と融合のためのBEV-RWKVブロックを提案する。 これにより、パフォーマンスを損なうことなく22.2 FPSでのリアルタイム推論が可能になる。 OccRWKVはSemanticKITTIデータセットの最先端の手法よりも優れており、最高のベースラインであるCo-Occの20倍の速度で25.1mIoUを達成した。 コードとビデオはプロジェクトのページで公開されている。

3D semantic occupancy prediction networks have demonstrated remarkable capabilities in reconstructing the geometric and semantic structure of 3D scenes, providing crucial information for robot navigation and autonomous driving systems. However, due to their large overhead from dense network structure designs, existing networks face challenges balancing accuracy and latency. In this paper, we introduce OccRWKV, an efficient semantic occupancy network inspired by Receptance Weighted Key Value (RWKV). OccRWKV separates semantics, occupancy prediction, and feature fusion into distinct branches, each incorporating Sem-RWKV and Geo-RWKV blocks. These blocks are designed to capture long-range dependencies, enabling the network to learn domain-specific representation (i.e., semantics and geometry), which enhances prediction accuracy. Leveraging the sparse nature of real-world 3D occupancy, we reduce computational overhead by projecting features into the bird's-eye view (BEV) space and propose a BEV-RWKV block for efficient feature enhancement and fusion. This enables real-time inference at 22.2 FPS without compromising performance. Experiments demonstrate that OccRWKV outperforms the state-of-the-art methods on the SemanticKITTI dataset, achieving a mIoU of 25.1 while being 20 times faster than the best baseline, Co-Occ, making it suitable for real-time deployment on robots to enhance autonomous navigation efficiency. Code and video are available on our project page: https://jmwang0117.github.io/OccRWKV/.
翻訳日:2024-11-05 16:27:46 公開日:2024-10-01
# Insight:眼表面疾患診断のためのLCMを用いた多モード診断パイプライン

Insight: A Multi-Modal Diagnostic Pipeline using LLMs for Ocular Surface Disease Diagnosis ( http://arxiv.org/abs/2410.00292v1 )

ライセンス: Link先を確認
Chun-Hsiao Yeh, Jiayun Wang, Andrew D. Graham, Andrea J. Liu, Bo Tan, Yubei Chen, Yi Ma, Meng C. Lin, (参考訳) 眼表面疾患の正確な診断はオプティメトリーと眼科において重要であり、臨床データソース(例えば、画像診断と臨床メタデータ)の統合に重点を置いている。 従来の人間の評価は、臨床観察の定量化に正確さを欠いているが、現在のマシンベースの手法では、診断を多クラス分類問題として扱うことが多く、診断に対する各変数の臨床的関連性を推論することなく、事前に定義されたクローズド・セットの回答に限定する。 これらの課題に対処するために,眼表面疾患の診断に大規模言語モデル(LLM)を用いることで,革新的なマルチモーダル診断パイプライン(MDPipe)を導入する。 まず, 画像の定量的な形態データに変換し, 臨床メタデータとの融合を容易にし, 微視的医学的洞察をLCMに伝達できるようにすることにより, 画像の解釈に視覚翻訳装置を用いる。 このコミュニケーションをさらに進めるために,LLMをベースとした要約器を導入し,形態学と臨床メタデータの組み合わせから知見を文脈化し,臨床報告の要約を生成する。 最後に, LLMの推論能力を, 実生活臨床診断の領域特異的な知見で洗練する。 各種眼表面疾患診断ベンチマークを用いて評価したところ,MDPipeはGPT-4を含む既存の基準より優れており,臨床診断の合理性も高いことがわかった。

Accurate diagnosis of ocular surface diseases is critical in optometry and ophthalmology, which hinge on integrating clinical data sources (e.g., meibography imaging and clinical metadata). Traditional human assessments lack precision in quantifying clinical observations, while current machine-based methods often treat diagnoses as multi-class classification problems, limiting the diagnoses to a predefined closed-set of curated answers without reasoning the clinical relevance of each variable to the diagnosis. To tackle these challenges, we introduce an innovative multi-modal diagnostic pipeline (MDPipe) by employing large language models (LLMs) for ocular surface disease diagnosis. We first employ a visual translator to interpret meibography images by converting them into quantifiable morphology data, facilitating their integration with clinical metadata and enabling the communication of nuanced medical insight to LLMs. To further advance this communication, we introduce a LLM-based summarizer to contextualize the insight from the combined morphology and clinical metadata, and generate clinical report summaries. Finally, we refine the LLMs' reasoning ability with domain-specific insight from real-life clinician diagnoses. Our evaluation across diverse ocular surface disease diagnosis benchmarks demonstrates that MDPipe outperforms existing standards, including GPT-4, and provides clinically sound rationales for diagnoses.
翻訳日:2024-11-05 06:35:59 公開日:2024-10-01
# VLMGuard: ラベルなしデータによる悪意あるプロンプトに対するVLMの防御

VLMGuard: Defending VLMs against Malicious Prompts via Unlabeled Data ( http://arxiv.org/abs/2410.00296v1 )

ライセンス: Link先を確認
Xuefeng Du, Reshmi Ghosh, Robert Sim, Ahmed Salem, Vitor Carvalho, Emily Lawton, Yixuan Li, Jack W. Stokes, (参考訳) 視覚言語モデル(VLM)は、視覚情報とテキスト情報の両方の文脈的理解に不可欠である。 しかし、逆に操作された入力に対する脆弱性は重大なリスクをもたらし、出力が損なわれ、VLM統合アプリケーションの信頼性に対する懸念が高まる。 したがって、これらの悪意のあるプロンプトを検出することは、VLM世代に対する信頼を維持するために重要である。 保護プロンプト分類器を開発する上での大きな課題は、大量のラベル付き良性および悪意のあるデータがないことである。 この問題に対処するために,未ラベルのユーザプロンプトを活用する新しい学習フレームワークであるVLMGuardを導入し,悪意のあるプロンプト検出を行う。 これらのラベルのないプロンプトは、VLMがオープンな世界に展開されたときに自然に発生するもので、良心と悪意のある情報の両方から構成される。 このラベル付きデータを活用するために,このラベル付き混合物中の良性サンプルと悪性サンプルを区別する自動悪意度推定スコアを提示し,その上でバイナリプロンプト分類器のトレーニングを可能にする。 特に、私たちのフレームワークは人間のアノテーションを余分に必要とせず、現実世界のアプリケーションに強力な柔軟性と実用性を提供します。 大規模な実験により、VLMGuardは優れた検出結果を得ることができ、最先端の手法よりも優れていた。 Disclaimer: この論文には攻撃的な例が含まれており、読者の判断は推奨される。

Vision-language models (VLMs) are essential for contextual understanding of both visual and textual information. However, their vulnerability to adversarially manipulated inputs presents significant risks, leading to compromised outputs and raising concerns about the reliability in VLM-integrated applications. Detecting these malicious prompts is thus crucial for maintaining trust in VLM generations. A major challenge in developing a safeguarding prompt classifier is the lack of a large amount of labeled benign and malicious data. To address the issue, we introduce VLMGuard, a novel learning framework that leverages the unlabeled user prompts in the wild for malicious prompt detection. These unlabeled prompts, which naturally arise when VLMs are deployed in the open world, consist of both benign and malicious information. To harness the unlabeled data, we present an automated maliciousness estimation score for distinguishing between benign and malicious samples within this unlabeled mixture, thereby enabling the training of a binary prompt classifier on top. Notably, our framework does not require extra human annotations, offering strong flexibility and practicality for real-world applications. Extensive experiment shows VLMGuard achieves superior detection results, significantly outperforming state-of-the-art methods. Disclaimer: This paper may contain offensive examples; reader discretion is advised.
翻訳日:2024-11-05 06:35:59 公開日:2024-10-01
# 励起発光を用いた光ファイバからの光子対の比スペクトル量子状態推定

Spatio-Spectral Quantum State Estimation of Photon Pairs from Optical Fiber Using Stimulated Emission ( http://arxiv.org/abs/2410.00298v1 )

ライセンス: Link先を確認
Dong Beom Kim, Xiye Hu, Alfred B. U'Ren, Karina Garay-Palmett, Virginia O. Lorenz, (参考訳) 1光子当たりの1ビット以上を運ぶ量子光源の開発は、量子情報応用の拡大に欠かせない。 単一光子レベルで高次元の多重自由度源を特徴付けることは、大きなパラメータ空間と限られた放出速度と検出効率のために困難である。 ここでは,光ファイバー中の光子対を横モードおよび周波数自由度で特徴付け,その一方を同時に検出しながら,両自由度に刺激された放射を印加する。 この方法は、複数の自由度にまたがる複雑な相関が存在する様々な光子対情報源プラットフォームの量子状態推定と最適化に有用である。

Developing a quantum light source that carries more than one bit per photon is pivotal for expanding quantum information applications. Characterizing a high-dimensional multiple-degree-of-freedom source at the single-photon level is challenging due to the large parameter space as well as limited emission rates and detection efficiencies. Here, we characterize photon pairs generated in optical fiber in the transverse-mode and frequency degrees of freedom by applying stimulated emission in both degrees of freedom while detecting in one of them at a time. This method may be useful in the quantum state estimation and optimization of various photon-pair source platforms in which complicated correlations across multiple degrees of freedom may be present.
翻訳日:2024-11-05 06:35:59 公開日:2024-10-01
# GSPR: 自動走行のための3次元ガウススプラッティングを用いたマルチモーダル位置認識

GSPR: Multimodal Place Recognition Using 3D Gaussian Splatting for Autonomous Driving ( http://arxiv.org/abs/2410.00299v1 )

ライセンス: Link先を確認
Zhangshuo Qi, Junyi Ma, Jingyi Xu, Zijie Zhou, Luqi Cheng, Guangming Xiong, (参考訳) 位置認識は、自動運転車がGPSで識別された環境で使用可能な位置情報を確実に取得するための重要なモジュールである。 近年,複数モーダル位置認識手法が注目されているのは,異なるモーダルからの相補的情報を活用することで,一様センサシステムの弱点を克服する能力のためである。 しかし、モダリティ間でデータを調和させ、それらの間の時空間的相関を十分に活用する必要があるため、課題が生じる。 本稿では,GSPRと呼ばれる3次元ガウススプラッティングに基づくマルチモーダル位置認識ニューラルネットワークを提案する。 マルチビューRGB画像とLiDAR点雲を時空間的に統一されたシーン表現と、提案したマルチモーダルガウススプラッティングを明示的に組み合わせる。 3次元グラフ畳み込みと変換器で構成されるネットワークは、ガウスのシーンから高レベルな時空間的特徴とグローバルな記述子を抽出して位置認識を行うように設計されている。 提案手法をnuScenesデータセット上で評価し,本手法が多視点カメラとLiDARの相補的強度を有効活用できることを実証した。 私たちのオープンソースコードはhttps://github.com/QiZS-BIT/GSPRで公開されています。

Place recognition is a crucial module to ensure autonomous vehicles obtain usable localization information in GPS-denied environments. In recent years, multimodal place recognition methods have gained increasing attention due to their ability to overcome the weaknesses of unimodal sensor systems by leveraging complementary information from different modalities. However, challenges arise from the necessity of harmonizing data across modalities and exploiting the spatio-temporal correlations between them sufficiently. In this paper, we propose a 3D Gaussian Splatting-based multimodal place recognition neural network dubbed GSPR. It explicitly combines multi-view RGB images and LiDAR point clouds into a spatio-temporally unified scene representation with the proposed Multimodal Gaussian Splatting. A network composed of 3D graph convolution and transformer is designed to extract high-level spatio-temporal features and global descriptors from the Gaussian scenes for place recognition. We evaluate our method on the nuScenes dataset, and the experimental results demonstrate that our method can effectively leverage complementary strengths of both multi-view cameras and LiDAR, achieving SOTA place recognition performance while maintaining solid generalization ability. Our open-source code is available at https://github.com/QiZS-BIT/GSPR.
翻訳日:2024-11-05 06:26:14 公開日:2024-10-01
# RadGazeGen:拡散モデルを用いた放射線とガゼ誘導医療画像生成

RadGazeGen: Radiomics and Gaze-guided Medical Image Generation using Diffusion Models ( http://arxiv.org/abs/2410.00307v1 )

ライセンス: Link先を確認
Moinak Bhattacharya, Gagandeep Singh, Shubham Jain, Prateek Prasanna, (参考訳) 本研究では,高忠実度医用画像生成のためのテキスト・ツー・イメージ拡散モデルに対する制御として,専門家の視線パターンと放射能特徴マップを統合する新しいフレームワークRadGazeGenを提案する。 近年のテキスト・ツー・イメージの拡散モデルの成功にもかかわらず、テキストの記述は不十分であり、これらのモデルに詳細な病原性情報を伝えるのに失敗することが多い。 現実的な画像を生成するためには、解剖学、疾患のテクスチャパターン、および疾患の位置が極めて重要であり、画像生成の忠実さは、疾患診断や治療目的の評価を含む下流のタスクに重大な影響を及ぼす可能性がある。 したがって、医療画像生成のための拡散モデルで使用される制御を慎重に定義する必要性が高まっている。 放射線医の視線パターンは、微妙な疾患パターンと空間的位置を示す重要な視線認知情報である。 放射線学的特徴は、病気の表現型に関する重要な視覚下手がかりを提供する。 本研究では, 標準的な放射線ディスクリプタと組み合わせて, 解剖学的に正しく, 疾患を認識できる医用画像を生成することを提案する。 RadGazeGenはREFLACXデータセットで画像生成の品質と多様性を評価する。 また,臨床応用性を示すため,CheXpertテストセット(n=500)から生成された画像の分類性能とMIMIC-CXR-LTテストセット(n=23550)の長期学習性能を示す。

In this work, we present RadGazeGen, a novel framework for integrating experts' eye gaze patterns and radiomic feature maps as controls to text-to-image diffusion models for high fidelity medical image generation. Despite the recent success of text-to-image diffusion models, text descriptions are often found to be inadequate and fail to convey detailed disease-specific information to these models to generate clinically accurate images. The anatomy, disease texture patterns, and location of the disease are extremely important to generate realistic images; moreover the fidelity of image generation can have significant implications in downstream tasks involving disease diagnosis or treatment repose assessment. Hence, there is a growing need to carefully define the controls used in diffusion models for medical image generation. Eye gaze patterns of radiologists are important visuo-cognitive information, indicative of subtle disease patterns and spatial location. Radiomic features further provide important subvisual cues regarding disease phenotype. In this work, we propose to use these gaze patterns in combination with standard radiomics descriptors, as controls, to generate anatomically correct and disease-aware medical images. RadGazeGen is evaluated for image generation quality and diversity on the REFLACX dataset. To demonstrate clinical applicability, we also show classification performance on the generated images from the CheXpert test set (n=500) and long-tailed learning performance on the MIMIC-CXR-LT test set (n=23550).
翻訳日:2024-11-05 06:26:14 公開日:2024-10-01
# Ask, Pose, Unite:ビジョン言語モデルとの密接なインタラクションのためのデータ取得のスケーリング

Ask, Pose, Unite: Scaling Data Acquisition for Close Interactions with Vision Language Models ( http://arxiv.org/abs/2410.00309v1 )

ライセンス: Link先を確認
Laura Bravo-Sánchez, Jaewoo Heo, Zhenzhen Weng, Kuan-Chieh Wang, Serena Yeung-Levy, (参考訳) 密接な人間同士の相互作用における社会的ダイナミクスは、特に物理的接触の複雑さと訓練データの不足により、ヒューマンメッシュ推定(HME)に重大な課題をもたらす。 これらの課題に対処するため、我々はLVLM(Large Vision Language Models)を用いた新しいデータ生成手法を導入し、テスト時間最適化をガイドし、ペア画像と擬似地上真理メッシュを生成する。 この手法は、アノテーションの負担を軽減するだけでなく、HME内の密接な相互作用に適した包括的なデータセットの組み立てを可能にする。 我々のAsk Pose Unite(APU)データセットは、さまざまなインタラクションタイプをカバーする6.2k以上の人メッシュペアで構成されており、自然主義的な人対人シーンを描いた画像からキュレートされている。 我々は、我々のデータセットを使用して、最適化時にガイダンスとして使用される拡散ベースのコンタクトを事前にトレーニングし、目に見えないインタラクションのメッシュ推定を改善することを実証的に示す。 我々の研究は、HMEにおける密接な相互作用のためのデータ不足という長年にわたる課題に対処し、複雑な相互作用シナリオを扱う分野の能力を強化する。

Social dynamics in close human interactions pose significant challenges for Human Mesh Estimation (HME), particularly due to the complexity of physical contacts and the scarcity of training data. Addressing these challenges, we introduce a novel data generation method that utilizes Large Vision Language Models (LVLMs) to annotate contact maps which guide test-time optimization to produce paired image and pseudo-ground truth meshes. This methodology not only alleviates the annotation burden but also enables the assembly of a comprehensive dataset specifically tailored for close interactions in HME. Our Ask Pose Unite (APU) dataset, comprising over 6.2k human mesh pairs in contact covering diverse interaction types, is curated from images depicting naturalistic person-to-person scenes. We empirically show that using our dataset to train a diffusion-based contact prior, used as guidance during optimization, improves mesh estimation on unseen interactions. Our work addresses longstanding challenges of data scarcity for close interactions in HME enhancing the field's capabilities of handling complex interaction scenarios.
翻訳日:2024-11-05 06:26:14 公開日:2024-10-01
# 極端に不均衡な多変量時系列データによる太陽フレア予測のためのコントラスト表現学習

Contrastive Representation Learning for Predicting Solar Flares from Extremely Imbalanced Multivariate Time Series Data ( http://arxiv.org/abs/2410.00312v1 )

ライセンス: Link先を確認
Onur Vural, Shah Muhammad Hamdi, Soukaina Filali Boubrahimi, (参考訳) 太陽フレアは太陽の磁束の急激な急上昇であり、技術基盤に大きなリスクをもたらす。 これを踏まえて、太陽活動領域の磁場データから機械学習手法による大きなフレアを効果的に予測することは、宇宙気象研究において非常に重要である。 磁場データは多変量時系列で表すことができ、そこでは大きなフレア現象の希少さのために、データが極端にクラス不均衡を示す。 時系列分類に基づくフレア予測では、コントラスト表現学習法の使用は比較的制限されている。 本稿では,多変量時系列データに対する新しいコントラクティブ表現学習手法であるConTREXを紹介し,時間的依存関係と極端なクラス不均衡の課題に対処する。 提案手法では,複数変数の時系列インスタンスから動的特徴を抽出し,最大分離能力を有する正と負のクラス特徴ベクトルから2つの極端を抽出し,新たなコントラスト再構成損失によって導かれる元の多変量時系列データを用いてシーケンス表現埋め込みモジュールをトレーニングし,極端点に整合した埋め込みを生成する。 これらの埋め込みは本質的な時系列特性を捉え、識別力を高める。 提案手法は, 太陽フレアに関する宇宙気象分析 (SWAN-SF) 多変量時系列ベンチマークにおいて, ベースライン法に対して有望な太陽フレア予測結果を示すものである。

Major solar flares are abrupt surges in the Sun's magnetic flux, presenting significant risks to technological infrastructure. In view of this, effectively predicting major flares from solar active region magnetic field data through machine learning methods becomes highly important in space weather research. Magnetic field data can be represented in multivariate time series modality where the data displays an extreme class imbalance due to the rarity of major flare events. In time series classification-based flare prediction, the use of contrastive representation learning methods has been relatively limited. In this paper, we introduce CONTREX, a novel contrastive representation learning approach for multivariate time series data, addressing challenges of temporal dependencies and extreme class imbalance. Our method involves extracting dynamic features from the multivariate time series instances, deriving two extremes from positive and negative class feature vectors that provide maximum separation capability, and training a sequence representation embedding module with the original multivariate time series data guided by our novel contrastive reconstruction loss to generate embeddings aligned with the extreme points. These embeddings capture essential time series characteristics and enhance discriminative power. Our approach shows promising solar flare prediction results on the Space Weather Analytics for Solar Flares (SWAN-SF) multivariate time series benchmark dataset against baseline methods.
翻訳日:2024-11-05 06:26:14 公開日:2024-10-01
# EmoKnob:微細な感情制御による音声のクローン化

EmoKnob: Enhance Voice Cloning with Fine-Grained Emotion Control ( http://arxiv.org/abs/2410.00316v1 )

ライセンス: Link先を確認
Haozhe Chen, Run Chen, Julia Hirschberg, (参考訳) 最近のTTS(Text-to-Speech)技術は自然かつ表現力のある音声を生成するが、ユーザーは感情を選択して強度を制御するオプションがない。 EmoKnobは、任意の感情のサンプルを数発残して、音声合成におけるきめ細かい感情制御を可能にするフレームワークである。 本フレームワークは, 基礎的音声クローニングモデルの最近の進歩によって実現された表現型話者表現空間を活用する。 感情制御フレームワークの少数ショット機能に基づいて、オープンエンドテキストで記述された感情に感情制御を適用する2つの方法を提案し、多様なニュアンスのある感情を制御するための直感的なインタフェースを実現する。 より体系的な感情音声合成分野を実現するために,感情制御フレームワークの忠実度と認識性を厳格に評価するための評価指標のセットを導入する。 客観的および主観的な評価を通じて、我々の感情制御フレームワークは、音声に感情を効果的に埋め込んで、商用TTSサービスの感情表現性を超えていることを示す。

While recent advances in Text-to-Speech (TTS) technology produce natural and expressive speech, they lack the option for users to select emotion and control intensity. We propose EmoKnob, a framework that allows fine-grained emotion control in speech synthesis with few-shot demonstrative samples of arbitrary emotion. Our framework leverages the expressive speaker representation space made possible by recent advances in foundation voice cloning models. Based on the few-shot capability of our emotion control framework, we propose two methods to apply emotion control on emotions described by open-ended text, enabling an intuitive interface for controlling a diverse array of nuanced emotions. To facilitate a more systematic emotional speech synthesis field, we introduce a set of evaluation metrics designed to rigorously assess the faithfulness and recognizability of emotion control frameworks. Through objective and subjective evaluations, we show that our emotion control framework effectively embeds emotions into speech and surpasses emotion expressiveness of commercial TTS services.
翻訳日:2024-11-05 06:26:14 公開日:2024-10-01
# 大規模視覚言語モデルにおける機械的推論の提案

Probing Mechanical Reasoning in Large Vision Language Models ( http://arxiv.org/abs/2410.00318v1 )

ライセンス: Link先を確認
Haoran Sun, Qingying Gao, Haiyun Lyu, Dezhi Luo, Hokin Deng, Yijiang Li, (参考訳) 機械的推論は、人間の知能を他の動物の知能と区別する基本的な能力である。 機械的推論により、私たちはツールを設計し、橋や運河を建設し、人間の文明の基礎となる家を建てることができます。 このような能力を持つマシンを組み込むことは、人間レベルの人工知能を構築するための重要なステップである。 最近、LiらがCogDevelop2Kを開発した。これは、データ集約型認知実験ベンチマークで、マシンインテリジェンスの発達軌道を計測している(Li et al , 2024)。 本稿では,約150の認知実験を含むCogDevelop2KのMechBenchを利用して,メカニカルシステム安定性,歯車,プーリーシステム,シーソー系システム,原理,慣性,運動,その他の流体関連システムを活用する。 VLMにおけるこれらの側面の多様な一貫した挙動を観察する。

Mechanical reasoning is a fundamental ability that sets human intelligence apart from other animal intelligence. Mechanical reasoning allows us to design tools, build bridges and canals, and construct houses which set the foundation of human civilization. Embedding machines with such ability is an important step towards building human-level artificial intelligence. Recently, Li et al. built CogDevelop2K, a data-intensive cognitive experiment benchmark for assaying the developmental trajectory of machine intelligence (Li et al., 2024). Here, to investigate mechanical reasoning in Vision Language Models, we leverage the MechBench of CogDevelop2K, which contains approximately 150 cognitive experiments, to test understanding of mechanical system stability, gears and pulley systems, seesaw-like systems and leverage principle, inertia and motion, and other fluid-related systems in Large Vision Language Models. We observe diverse yet consistent behaviors over these aspects in VLMs.
翻訳日:2024-11-05 06:26:14 公開日:2024-10-01
# 視覚言語モデルはあなたが望むものを見るが、見るものではない

Vision Language Models See What You Want but not What You See ( http://arxiv.org/abs/2410.00324v1 )

ライセンス: Link先を確認
Qingying Gao, Yijiang Li, Haiyun Lyu, Haoran Sun, Dezhi Luo, Hokin Deng, (参考訳) 他人の意図を知り、他人の視点をとることは、人間の知性の2つの中核的な構成要素であり、一般的には「ミンド理論」のインスタンス化であると考えられている。 このような能力を持つ機械を浸透させることは、人間レベルの人工知能を構築するための重要なステップである。 最近、LiらがCogDevelop2Kを開発した。これは、データ集約型認知実験ベンチマークで、マシンインテリジェンスの発達軌跡を評価する。 ここでは,視覚言語モデルにおける意図的理解と視点的理解を考察するために,実世界のシナリオと古典的認知タスクを基礎とした300以上の認知実験を含むCogDevelop2KのIntentBenchとPerspectBenchを利用する。 意外なことに、VLMは意図的理解では高いパフォーマンスを達成できるが、視点決定では低いパフォーマンスを実現している。 このことは認知科学文学における共通の信念に挑戦し、意図的理解のためには、対応するモダリティを視点に考えることが不可欠である。

Knowing others' intentions and taking others' perspectives are two core components of human intelligence that are typically considered to be instantiations of theory-of-mind. Infiltrating machines with these abilities is an important step towards building human-level artificial intelligence. Recently, Li et al. built CogDevelop2K, a data-intensive cognitive experiment benchmark to assess the developmental trajectory of machine intelligence. Here, to investigate intentionality understanding and perspective-taking in Vision Language Models, we leverage the IntentBench and PerspectBench of CogDevelop2K, which contains over 300 cognitive experiments grounded in real-world scenarios and classic cognitive tasks, respectively. Surprisingly, we find VLMs achieving high performance on intentionality understanding but lower performance on perspective-taking. This challenges the common belief in cognitive science literature that perspective-taking at the corresponding modality is necessary for intentionality understanding.
翻訳日:2024-11-05 06:16:28 公開日:2024-10-01
# 埋め込み非エルミート的Su-Schrieffer-Heeger系における後クエンチ反射非対称性のスイッチング

Switching of post quench reflection asymmetry in an embedded non-Hermitian Su-Schrieffer-Heeger system ( http://arxiv.org/abs/2410.00325v1 )

ライセンス: Link先を確認
Anirban Ghosh, Andy Martin, (参考訳) Su-Schrieffer-Heeger格子のクエンチは、エッジ状態で初期化されたトポロジカル境界を越えて、鎖を渡る輸送をもたらす。 我々は、非エルミート成分がSSH格子に埋め込まれた有効モデルにおけるそのようなクエンチを考える。 クエンチにより生じる輸送は, 左右からの輸送に不均衡が存在するという意味では非対称であり, この不均衡は, システムがクエンチされる構成がパラメータ空間によって異なるため, より高次右反射から高次左反射に切り替わる。 局所化とエネルギーの観点からバルク状態の部分的再組織化の基本的な現象から生じる変化について論じる。

A quench in a Su-Schrieffer-Heeger lattice across the topological boundary initialized with an edge state leads to transport across the chain. We consider such a quench in an effective model in which non-Hermitian components are embedded in an SSH lattice. We find that the transport arising as a result of quench is asymmetric in the sense that there is imbalance in reflection in transport from left and right and this imbalance switches from higher right reflection to higher left reflection as the configuration to which the system is quenched varies in parameter space. We discuss the switching as emergence from the underlying phenomenon of a partial reorganization of bulk states in terms of localization and energy, the intricacies of which depends upon the configuration of the system and the symmetries present.
翻訳日:2024-11-05 06:16:28 公開日:2024-10-01
# EnzymeFlow:フローマッチングと共進化ダイナミクスによる反応特異的酵素触媒ポケットの生成

EnzymeFlow: Generating Reaction-specific Enzyme Catalytic Pockets through Flow Matching and Co-Evolutionary Dynamics ( http://arxiv.org/abs/2410.00327v1 )

ライセンス: Link先を確認
Chenqing Hua, Yong Liu, Dinghuai Zhang, Odin Zhang, Sitao Luan, Kevin K. Yang, Guy Wolf, Doina Precup, Shuangjia Zheng, (参考訳) 酵素設計はバイオテクノロジーにおいて重要な領域であり、医薬品開発から合成生物学まで幅広い応用がある。 酵素機能予測やタンパク質結合ポケット設計の伝統的な手法は、酵素-基質相互作用の動的および複雑な性質、特に触媒過程において不足することが多い。 この課題に対処するために, 階層的事前学習と酵素-反応共進化によるフローマッチングを利用して, 特定の基質と触媒反応のための触媒ポケットを生成する, 生成モデルであるEnzymeFlowを紹介した。 さらに, 触媒ポケット生成タスク用に設計された, 大規模で, キュレートされ, 検証された酵素-反応対のデータセットを導入し, 総計で328,192ドルである。 進化力学と反応特異的な適応を取り入れることで、酵素ポケットを設計するための強力なモデルとなり、幅広い生化学反応を触媒することができる。 新しいデータセットの実験は、高品質で機能的な酵素触媒ポケットの設計におけるモデルの有効性を示し、酵素工学と合成生物学の進歩の道を開いた。 EnzymeFlowのコードはhttps://github.com/WillHua127/EnzymeFlowで、ノートブックデモはhttps://github.com/WillHua127/EnzymeFlow/blob/main/enzymeflow_demo.ipynbで提供します。

Enzyme design is a critical area in biotechnology, with applications ranging from drug development to synthetic biology. Traditional methods for enzyme function prediction or protein binding pocket design often fall short in capturing the dynamic and complex nature of enzyme-substrate interactions, particularly in catalytic processes. To address the challenges, we introduce EnzymeFlow, a generative model that employs flow matching with hierarchical pre-training and enzyme-reaction co-evolution to generate catalytic pockets for specific substrates and catalytic reactions. Additionally, we introduce a large-scale, curated, and validated dataset of enzyme-reaction pairs, specifically designed for the catalytic pocket generation task, comprising a total of $328,192$ pairs. By incorporating evolutionary dynamics and reaction-specific adaptations, EnzymeFlow becomes a powerful model for designing enzyme pockets, which is capable of catalyzing a wide range of biochemical reactions. Experiments on the new dataset demonstrate the model's effectiveness in designing high-quality, functional enzyme catalytic pockets, paving the way for advancements in enzyme engineering and synthetic biology. We provide EnzymeFlow code at https://github.com/WillHua127/EnzymeFlow with notebook demonstration at https://github.com/WillHua127/EnzymeFlow/blob/main/enzymeflow_demo.ipynb.
翻訳日:2024-11-05 06:16:28 公開日:2024-10-01
# 視覚言語モデルによる保存法則の理解

Vision Language Models Know Law of Conservation without Understanding More-or-Less ( http://arxiv.org/abs/2410.00332v1 )

ライセンス: Link先を確認
Dezhi Luo, Haiyun Lyu, Qingying Gao, Haoran Sun, Yijiang Li, Hokin Deng, (参考訳) 保存は、量的概念の理解と精神的操作の可逆性の両方によって支えられると考えられる認知発達の重要なマイルストーンである。 視覚言語モデルにおいて、この人間の知性の重要な要素が出現したかどうかを評価するために、我々は、機械学習の発達軌跡を評価するためのデータ集約型認知実験ベンチマークであるCogDevelop2KのConserveBenchを利用する。 バッテリーには4次元の物理量(体積、固体量、長さ、数)に350以上の質問が含まれている。 後者の2つは、量的概念のみの理解を評価する非変換的タスクも含む。 驚いたことに、VLMは一般的に保存できるが、一般的に成功は保存する能力によって引き起こされると考えられる非変換タスクでは失敗する傾向にある。 これは、少なくとも具体的な領域において、保存の法則が、量の概念的な理解なしに存在することを示唆している。

Conservation is a critical milestone of cognitive development considered to be supported by both the understanding of quantitative concepts and the reversibility of mental operations. To assess whether this critical component of human intelligence has emerged in Vision Language Models, we leverage the ConserveBench from CogDevelop2K, a data-intensive cognitive experiment benchmark for assaying the developmental trajectory of machine intelligence. The battery includes over 350 questions across four dimensions of physical quantities: volume, solid quantity, length, and number. The former two involve only transformational tasks, whereas the latter two also involve non-transformational tasks assessing the understanding of quantitative concepts alone. Surprisingly, we find that while VLMs are generally capable of conserving, they tend to fail at non-transformational tasks which success is typically considered to be entailed by the ability to conserve. This implies that the law of conservation, at least in concrete domains, may exist without corresponding conceptual understanding of quantity.
翻訳日:2024-11-05 06:16:28 公開日:2024-10-01
# Few-shot連続関係抽出における言語モデルの一般化の保存

Preserving Generalization of Language models in Few-shot Continual Relation Extraction ( http://arxiv.org/abs/2410.00334v1 )

ライセンス: Link先を確認
Quyen Tran, Nguyen Xuan Thanh, Nguyen Hoang Anh, Nam Le Hai, Trung Le, Linh Van Ngo, Thien Huu Nguyen, (参考訳) FCRE(Few-shot Continual Relations extract)は、限られたラベル付きデータとの新たな関係から知識を逐次統合し、破滅的な忘れ込みを回避し、事前訓練されたバックボーンから事前知識を保存できる、新しい研究分野である。 本研究では,よく捨てられる言語モデルヘッドを活用する新しい手法を提案する。 本手法は,これらのコンポーネントを相互情報最大化戦略により活用することにより,事前学習したバックボーンからの事前知識の維持を支援し,一次分類ヘッドを戦略的に整列させ,モデル性能を向上させる。 さらに、FCREの課題に対処するために、その豊富な知識で有名なLLM(Large Language Models)の可能性を探る。 提案手法の有効性を総合的に評価し,今後の研究に有用な知見を提供する。

Few-shot Continual Relations Extraction (FCRE) is an emerging and dynamic area of study where models can sequentially integrate knowledge from new relations with limited labeled data while circumventing catastrophic forgetting and preserving prior knowledge from pre-trained backbones. In this work, we introduce a novel method that leverages often-discarded language model heads. By employing these components via a mutual information maximization strategy, our approach helps maintain prior knowledge from the pre-trained backbone and strategically aligns the primary classification head, thereby enhancing model performance. Furthermore, we explore the potential of Large Language Models (LLMs), renowned for their wealth of knowledge, in addressing FCRE challenges. Our comprehensive experimental results underscore the efficacy of the proposed method and offer valuable insights for future work.
翻訳日:2024-11-05 06:16:28 公開日:2024-10-01
# SyntheOcc:3DセマンティックMPIによる幾何学的なストリートビュー画像の合成

SyntheOcc: Synthesize Geometric-Controlled Street View Images through 3D Semantic MPIs ( http://arxiv.org/abs/2410.00337v1 )

ライセンス: Link先を確認
Leheng Li, Weichao Qiu, Yingjie Cai, Xu Yan, Qing Lian, Bingbing Liu, Ying-Cong Chen, (参考訳) 自動運転の進歩は、高品質な注釈付きデータセット、特に3D占有率予測のタスクにますます依存している。 本稿では,運転シナリオにOccupancyラベルを条件付け,フォトリアリスティックおよび幾何制御画像の合成を行う拡散モデルであるSyntheOccを提案する。 これにより、トレーニング知覚モデルやシミュレーションのようなアプリケーションのために、無制限に多様な、注釈付き、制御可能なデータセットが得られる。 SyntheOccは、2次元拡散モデルに対する条件入力として3次元幾何学情報を効率的にエンコードする方法という重要な課題に対処する。 提案手法は,3次元意味的マルチプレーン画像(MPI)を革新的に組み込んで,コンディショニングのための包括的かつ空間的に整合した3次元シーン記述を提供する。 その結果、SyntheOccは、与えられた幾何学的ラベル(3Dボクセル空間のセマンティックス)と忠実に整合するフォトリアリスティックなマルチビュー画像とビデオを生成することができる。 nuScenesデータセット上のSyntheOccの大規模な質的および定量的評価は、知覚モデルに効果的なデータ拡張として機能する制御可能な占有データセットを生成する上で、その効果を証明している。

The advancement of autonomous driving is increasingly reliant on high-quality annotated datasets, especially in the task of 3D occupancy prediction, where the occupancy labels require dense 3D annotation with significant human effort. In this paper, we propose SyntheOcc, which denotes a diffusion model that Synthesize photorealistic and geometric-controlled images by conditioning Occupancy labels in driving scenarios. This yields an unlimited amount of diverse, annotated, and controllable datasets for applications like training perception models and simulation. SyntheOcc addresses the critical challenge of how to efficiently encode 3D geometric information as conditional input to a 2D diffusion model. Our approach innovatively incorporates 3D semantic multi-plane images (MPIs) to provide comprehensive and spatially aligned 3D scene descriptions for conditioning. As a result, SyntheOcc can generate photorealistic multi-view images and videos that faithfully align with the given geometric labels (semantics in 3D voxel space). Extensive qualitative and quantitative evaluations of SyntheOcc on the nuScenes dataset prove its effectiveness in generating controllable occupancy datasets that serve as an effective data augmentation to perception models.
翻訳日:2024-11-05 06:16:28 公開日:2024-10-01
# 量子強化原子干渉計における系統誤差の影響

Effects of Systematic Error on Quantum-Enhanced Atom Interferometry ( http://arxiv.org/abs/2410.00341v1 )

ライセンス: Link先を確認
Joshua Goldsmith, Joseph Hope, Simon Haine, (参考訳) 本研究では,量子化原子干渉計における系統的状態準備誤差が検知性能に及ぼす影響を説明するためのフレームワークを開発する。 2軸ツイスト(TAT)、1軸ツイスト(OAT)、ツイスト・アンド・ターン(TNT)状態の準備スキームについて、スピンスクイズと非ガウス状態の両方の文脈でこれを行い、量子状態の堅牢性と感受性に関する一般的な条件を状態準備誤差に導出する。 スピンスクイーズ法では, パラメータ依存位相空間の回転により, OAT はTAT よりも状態生成誤差の影響を受けやすいことがわかった。 非ガウス系では、OATは、そのフィッシャー-共分散行列における対角要素と対角要素の小さな比で説明できるような準備誤差に頑健である。 対照的に、TNTはそのような堅牢性を示していない。 量子エンハンス原子干渉法で常用される単一パラメータ非バイアス推定器は必ずしも最適ではなく、偏りのある推定器や2パラメータ非バイアス推定器がネットエラーを減少させることがある。

We develop a framework for describing the effects of systematic state preparation error in quantum-enhanced atom interferometry on sensing performance. We do this in the context of both spin-squeezed and non-Gaussian states for the two-axis-twisting (TAT), one-axis-twisting (OAT), and twist-and-turn (TNT) state preparation schemes, and derive general conditions for robustness and susceptibility of quantum states to state preparation error. In the spin-squeezing regime, we find that OAT is more susceptible to state preparation error than TAT due to its parameter-dependent phase space rotation. In the non-Gaussian regime, we find that OAT is robust to state preparation errors, which can be explained by a small ratio of off-diagonal to diagonal elements in its Fisher-covariance matrix. In contrast, TNT does not exhibit this robustness. We find that the single parameter unbiased estimators that are habitually used in quantum-enhanced atom interferometry are not always optimal, and that there may be occasions where biased estimators, or two-parameter unbiased estimators, lead to lower net error.
翻訳日:2024-11-05 06:16:28 公開日:2024-10-01
# 3次元人物再識別におけるテクスチャーの役割の再考

Revisiting the Role of Texture in 3D Person Re-identification ( http://arxiv.org/abs/2410.00348v1 )

ライセンス: Link先を確認
Huy Nguyen, Kien Nguyen, Akila Pemasiri, Sridha Sridharan, Clinton Fookes, (参考訳) 本研究では,3次元再構成において容易に利用できる高分解能テクスチャデータを活用する3次元人物再識別(re-ID)のための新しいフレームワークを提案する。 UVTexture マッピングを取り入れた3次元リIDモデルのテクスチャ強調手法を提案する。 われわれのアプローチはUVTextureとそのヒートマップと3Dモデルを組み合わせることで、人物のre-IDプロセスの可視化と説明を行う。 特に、可視化と説明はアクティベーションマップと属性に基づくアテンションマップを通じて行われ、これは人物のre-ID決定に寄与する重要な領域と特徴を強調する。 コントリビューションには,(1)UVTexture処理を用いた3Dモデルにおけるテクスチャ強調技術,(2)UVTextureマッピングと3Dモデルの組み合わせによる人物のre-IDマッチングを探索する革新的な手法,(3)3D人物のre-IDにおける最先端性の実現などが含まれている。 すべてのデータ、コード、モデルを公開することで、結果の再現性を確保します。

This study introduces a new framework for 3D person re-identification (re-ID) that leverages readily available high-resolution texture data in 3D reconstruction to improve the performance and explainability of the person re-ID task. We propose a method to emphasize texture in 3D person re-ID models by incorporating UVTexture mapping, which better differentiates human subjects. Our approach uniquely combines UVTexture and its heatmaps with 3D models to visualize and explain the person re-ID process. In particular, the visualization and explanation are achieved through activation maps and attribute-based attention maps, which highlight the important regions and features contributing to the person re-ID decision. Our contributions include: (1) a novel technique for emphasizing texture in 3D models using UVTexture processing, (2) an innovative method for explicating person re-ID matches through a combination of 3D models and UVTexture mapping, and (3) achieving state-of-the-art performance in 3D person re-ID. We ensure the reproducibility of our results by making all data, codes, and models publicly available.
翻訳日:2024-11-05 06:16:28 公開日:2024-10-01
# 完全正の量子マスター方程式の試行 : 直接的アプローチ

Testing quantum master equations for complete positivity: A direct approach ( http://arxiv.org/abs/2410.00353v1 )

ライセンス: Link先を確認
Timur V. Tscherbul, (参考訳) 量子マスター方程式 (QMEs) は量子情報科学、量子光学、分光、量子熱力学における主要な働きであるが、関連する$N$レベルの量子力学写像の完全正当性を検証することは、$N\ge 3$にとって大きな課題である。 我々は、任意のマルコフ QME のリウヴィリアン行列とコサコフスキー行列の直接写像を確立することで、この問題に対処する。 写像は SU$(N)$ の構造定数からなる長方行列のムーア・ペンローズ擬逆に依存する。 応用として、非コヒーレント光によって駆動される3レベルV系に対する量子光学的ブロッホ・レッドフィールドQMEの完全正則性を確立する。 提案手法により, 完全正のQMEを解くことなく試すことができ, コサコフスキー行列の非負の固有値のみを保持することにより完全正の正の復元が可能である。

While quantum master equations (QMEs) are the primary workhorse in quantum information science, quantum optics, spectroscopy, and quantum thermodynamics, verifying complete positivity of the associated $N$-level quantum dynamical maps remains an outstanding challenge for $N\ge 3$. We address this challenge by establishing a direct mapping between the Liouvillian and Kossakowski matrices of an arbitrary Markovian QME. The mapping relies on the Moore-Penrose pseudo-inverse of a rectangular matrix composed of the structure constants of SU$(N)$. As an application, we establish complete positivity of the quantum optical Bloch-Redfield QME for a three-level V-system driven by incoherent light. Our approach makes it possible to test QMEs for complete positivity without solving them, and to restore complete positivity by keeping only non-negative eigenvalues of the Kossakowski matrix.
翻訳日:2024-11-05 06:06:43 公開日:2024-10-01
# 投資セクターにおける階層型組織シミュラクラ

Hierarchical Organization Simulacra in the Investment Sector ( http://arxiv.org/abs/2410.00354v1 )

ライセンス: Link先を確認
Chung-Chi Chen, Hiroya Takamura, Ichiro Kobayashi, Yusuke Miyao, (参考訳) 本稿では,多エージェントシミュレーションを用いて,専門家による投資行動を持つ人工組織の設計について検討する。 この方法は投資会社の階層的な意思決定を模倣し、ニュース記事を使って意思決定を知らせる。 15年にわたる300社の11万5000以上のニュース記事を分析した大規模な調査は、このアプローチをプロのトレーダーの判断と比較した。 その結果、階層シミュレーションは、頻度と収益性の両方において、専門的な選択と密接に一致していることがわかった。 しかし、この研究は意思決定における偏見も明らかにしており、即発的な言い回しやエージェントの年長感の変化が結果に大きく影響している。 これは、プロの財政的な意思決定を複製する際の大きな言語モデルの可能性と限界の両方を強調している。

This paper explores designing artificial organizations with professional behavior in investments using a multi-agent simulation. The method mimics hierarchical decision-making in investment firms, using news articles to inform decisions. A large-scale study analyzing over 115,000 news articles of 300 companies across 15 years compared this approach against professional traders' decisions. Results show that hierarchical simulations align closely with professional choices, both in frequency and profitability. However, the study also reveals biases in decision-making, where changes in prompt wording and perceived agent seniority significantly influence outcomes. This highlights both the potential and limitations of large language models in replicating professional financial decision-making.
翻訳日:2024-11-05 06:06:43 公開日:2024-10-01
# Deep ReLUとDeep Operator Networkのニューラルスケーリング法則に関する理論的研究

Neural Scaling Laws of Deep ReLU and Deep Operator Network: A Theoretical Study ( http://arxiv.org/abs/2410.00357v1 )

ライセンス: Link先を確認
Hao Liu, Zecheng Zhang, Wenjing Liao, Hayden Schaeffer, (参考訳) ニューラルスケーリング法則はディープニューラルネットワークの性能において重要な役割を担い、幅広いタスクで観察されてきた。 しかし、これらのスケーリング法則を理解するための完全な理論的枠組みはまだ未発達である。 本稿では,関数空間間のマッピングを学習するディープ・オペレーター・ネットワークのニューラル・スケーリング法則について検討し,ChenおよびChenスタイルのアーキテクチャに着目した。 一般的なDeep Operator Network (DeepONet)を含むこれらのアプローチは、学習可能な基底関数と入力関数に依存する係数の線形結合を用いて出力関数を近似する。 我々は、その近似と一般化誤差を分析して、ニューラルネットワークのスケーリング法則を定量化する理論的枠組みを確立する。 深部演算子のネットワークの近似と一般化誤差と,ネットワークモデルのサイズやトレーニングデータサイズといった重要な要因との関係を明確にする。 さらに,入力関数が低次元構造を示す場合にも対処し,より厳密な誤差境界を導出する。 これらの結果は、深いReLUネットワークや他の類似構造にも当てはまる。 本結果は,演算子学習における神経スケーリングの法則を部分的に説明し,その応用の理論的基盤を提供する。

Neural scaling laws play a pivotal role in the performance of deep neural networks and have been observed in a wide range of tasks. However, a complete theoretical framework for understanding these scaling laws remains underdeveloped. In this paper, we explore the neural scaling laws for deep operator networks, which involve learning mappings between function spaces, with a focus on the Chen and Chen style architecture. These approaches, which include the popular Deep Operator Network (DeepONet), approximate the output functions using a linear combination of learnable basis functions and coefficients that depend on the input functions. We establish a theoretical framework to quantify the neural scaling laws by analyzing its approximation and generalization errors. We articulate the relationship between the approximation and generalization errors of deep operator networks and key factors such as network model size and training data size. Moreover, we address cases where input functions exhibit low-dimensional structures, allowing us to derive tighter error bounds. These results also hold for deep ReLU networks and other similar structures. Our results offer a partial explanation of the neural scaling laws in operator learning and provide a theoretical foundation for their applications.
翻訳日:2024-11-05 06:06:43 公開日:2024-10-01
# AARK: 自律レース研究のためのオープンツールキット

AARK: An Open Toolkit for Autonomous Racing Research ( http://arxiv.org/abs/2410.00358v1 )

ライセンス: Link先を確認
James Bockman, Matthew Howe, Adrian Orenstein, Feras Dayoub, (参考訳) 自律走行は、車両の安全管理を長期にわたって要求し、車両の自律性による介入にますます依存する高度な車両安全システムに関する洞察を提供する。 この分野への参加は、参入の障壁が高い。 物理的プラットフォームとその関連センサースイートは、実証可能な進展が生じる前に、大資本のアウトレイを必要とする。 シミュレーターは、プラットフォームを購入することなく研究者がソフトな自律システムを開発することを可能にする。 しかし、現在利用可能なシミュレータには視覚的およびダイナミックな忠実さがなく、購入に費用がかかり、カスタマイズが不足し、使用が困難である。 AARKはACI、ACDG、ACMPCの3つのパッケージを提供する。 ACIは、自律制御ソリューションの便利な比較と評価のために、Assetto Corsaにコンピュータビジョンフレンドリーなインターフェースを提供する。ACDGは、コンピュータビジョンモデルを認識システムで使用するようにトレーニングするための深さ、正常、セマンティックセグメンテーションデータを生成することができる。 AARKは、より安全な道路と信頼できる自律システムの提供に不可欠な分野の研究を統一し、民主化することを目指している。

Autonomous racing demands safe control of vehicles at their physical limits for extended periods of time, providing insights into advanced vehicle safety systems which increasingly rely on intervention provided by vehicle autonomy. Participation in this field carries with it a high barrier to entry. Physical platforms and their associated sensor suites require large capital outlays before any demonstrable progress can be made. Simulators allow researches to develop soft autonomous systems without purchasing a platform. However, currently available simulators lack visual and dynamic fidelity, can still be expensive to buy, lack customisation, and are difficult to use. AARK provides three packages, ACI, ACDG, and ACMPC. These packages enable research into autonomous control systems in the demanding environment of racing to bring more people into the field and improve reproducibility: ACI provides researchers with a computer vision-friendly interface to Assetto Corsa for convenient comparison and evaluation of autonomous control solutions; ACDG enables generation of depth, normal and semantic segmentation data for training computer vision models to use in perception systems; and ACMPC gives newcomers to the field a modular full-stack autonomous control solution, capable of controlling vehicles to build from. AARK aims to unify and democratise research into a field critical to providing safer roads and trusted autonomous systems.
翻訳日:2024-11-05 06:06:43 公開日:2024-10-01
# セルフコントローラ:マルチラウンドステップ・バイ・ステップの自己認識によるLCMの制御

Self-controller: Controlling LLMs with Multi-round Step-by-step Self-awareness ( http://arxiv.org/abs/2410.00359v1 )

ライセンス: Link先を確認
Xiao Peng, Xufan Geng, (参考訳) 大規模言語モデル(LLM)の応用は、すべての領域に広く浸透している。 しかし、LLMの制御性などの基本的な能力はまだ限られている。 そこで本研究では,LSMの推論ロジックに自己認識をもたらす新しいエージェントフレームワークであるSelf-controllerを提案する。 この研究の中核となる考え方は、LLMの反応に基づいて状態を維持することである。 テキストの長さに関する実験は,自己制御器の制御性と有効性を示した。 さらに,テキスト長状態の線形性と単調性に基づいて,生成過程を高速化するバイナリ探索アルゴリズムを実装した。 もうひとつのアドバンテージは、DeepSeekのContext Caching技術で、会話のクラスタがコンテキストの同じプレフィックスを共有する場合、計算トークンの消費を大幅に削減する。 理論的には、このシナリオでは余分な時間複雑性は$O(c \log n)$である。 その結果,本手法のトークン消費量は自明な単一ラウンド生成の2倍以下であることが示唆された。 さらに,単語制約に関するアブレーション研究は,すべての基礎モデルにおける自己制御者の一貫した制御性を示す。

The applications of large language models (LLMs) have been widely spread across all domains. However, the basic abilities such as the controllability of LLMs are still limited. To address this, we propose "Self-controller", a novel agentic framework bringing self-awareness into LLMs' reasoning logic. The core idea of this work is to maintain states based on the LLM's response, letting the LLM become self-aware of current status and think step by step in a multi-round chain-of-thought paradigm. Our experiment on the state of textual length has shown the controllability and effectiveness of the Self-controller. We further implement a binary search algorithm to accelerate the generation process based on the linearity and monotonicity of the textual length state. Another advantage of the Self-controller comes with DeepSeek's Context Caching technology, which significantly saves computational token consumption when a cluster of conversations shares the same prefix of context. Theoretically, we prove that in this scenario the extra time complexity is $O(c \log n)$. Results of the back-of-the-envelope estimation suggest that the token consumption of our method is no more than twice as much as that of the trivial single-round generation. Furthermore, our ablation study on word constraints demonstrates the Self-controller's consistent controllability across all foundation models.
翻訳日:2024-11-05 06:06:43 公開日:2024-10-01
# TFCT-I2P:イメージ・ツー・ポイント・クラウド登録のための色認識変換器を用いた3つのストリーム融合ネットワーク

TFCT-I2P: Three stream fusion network with color aware transformer for image-to-point cloud registration ( http://arxiv.org/abs/2410.00360v1 )

ライセンス: Link先を確認
Muyao Peng, Pei An, Zichen Wan, You Yang, Qiong Liu, (参考訳) 人工知能技術の進歩とともに、イメージ・ツー・ポイント・クラウド登録(I2P)技術は大きな進歩を遂げた。 それでも、点雲(3次元)と画像(2次元)の特徴の次元的差異は、その発展に重大な課題をもたらし続けている。 第一の課題は、あるモダリティの特徴を活用して他のモダリティを増大させることができず、従属空間内の特徴のアライメントが複雑になることである。 この課題に対処するため,TFCT-I2P と呼ばれるイメージ・ツー・ポイント・クラウド手法を提案する。 当初,3ストリーム融合ネットワーク(TFN)を導入し,画像からの色情報と点雲からの構造情報を統合し,両モード間の特徴のアライメントを容易にする。 その後、カラー情報を含むことにより生じるパッチレベルの不一致を効果的に軽減するために、カラーアウェア変換器(CAT)を設計する。 最後に,7Scenes,RGB-D Scenes V2,ScanNet V2,自己収集データセットについて広範な実験を行った。 その結果,TFCT-I2PはInlier Ratioが1.5%,Feature Matching Recallが0.4%,Registration Recallが5.4%,最先端メソッドが1.5%を超えることがわかった。 したがって,提案するTFCT-I2PはI2P登録の進展に寄与すると考えられる。

Along with the advancements in artificial intelligence technologies, image-to-point-cloud registration (I2P) techniques have made significant strides. Nevertheless, the dimensional differences in the features of points cloud (three-dimension) and image (two-dimension) continue to pose considerable challenges to their development. The primary challenge resides in the inability to leverage the features of one modality to augment those of another, thereby complicating the alignment of features within the latent space. To address this challenge, we propose an image-to-point-cloud method named as TFCT-I2P. Initially, we introduce a Three-Stream Fusion Network (TFN), which integrates color information from images with structural information from point clouds, facilitating the alignment of features from both modalities. Subsequently, to effectively mitigate patch-level misalignments introduced by the inclusion of color information, we design a Color-Aware Transformer (CAT). Finally, we conduct extensive experiments on 7Scenes, RGB-D Scenes V2, ScanNet V2, and a self-collected dataset. The results demonstrate that TFCT-I2P surpasses state-of-the-art methods by 1.5% in Inlier Ratio, 0.4% in Feature Matching Recall, and 5.4% in Registration Recall. Therefore, we believe that the proposed TFCT-I2P contributes to the advancement of I2P registration.
翻訳日:2024-11-05 06:06:43 公開日:2024-10-01
# PclGPT: 言語検出の同期と継続のための大規模言語モデル

PclGPT: A Large Language Model for Patronizing and Condescending Language Detection ( http://arxiv.org/abs/2410.00361v1 )

ライセンス: Link先を確認
Hongbo Wang, Mingda Li, Junyu Lu, Hebin Xia, Liang Yang, Bo Xu, Ruizhu Liu, Hongfei Lin, (参考訳) Disclaimer: この論文のサンプルは有害であり、不快を招きます! Patronizing and condescending Language(PCL)は、脆弱なグループに向けられた音声の一種である。 有害言語の本質的な分野として、この種の言語はインターネットコミュニティ間の対立や対立を悪化させ、不利な集団に有害な影響を及ぼす。 従来の訓練済み言語モデル(PLM)は、偽善や偽共感のような暗黙的な毒性特性のためにPCLの検出に不適である。 大規模言語モデル(LLMs)の台頭により、我々は彼らの豊かな感情的意味論を利用して暗黙の毒性を探求するパラダイムを確立することができる。 本稿では,PCL専用に設計された総合LLMベンチマークであるPclGPTを紹介する。 我々は, Pcl-PT/SFTデータセットを収集, 注釈, 統合し, そして, 暗黙的な毒性検出を容易にするために, 包括的事前学習および教師付き微調整階段プロセスを通じてバイリンガルな PclGPT-EN/CN モデル群を開発する。 グループ検出結果とPclGPTおよび他のモデルからのきめ細かい検出結果から,PCLの様々な脆弱なグループに対するバイアスの程度が著しく変化していることが判明した。

Disclaimer: Samples in this paper may be harmful and cause discomfort! Patronizing and condescending language (PCL) is a form of speech directed at vulnerable groups. As an essential branch of toxic language, this type of language exacerbates conflicts and confrontations among Internet communities and detrimentally impacts disadvantaged groups. Traditional pre-trained language models (PLMs) perform poorly in detecting PCL due to its implicit toxicity traits like hypocrisy and false sympathy. With the rise of large language models (LLMs), we can harness their rich emotional semantics to establish a paradigm for exploring implicit toxicity. In this paper, we introduce PclGPT, a comprehensive LLM benchmark designed specifically for PCL. We collect, annotate, and integrate the Pcl-PT/SFT dataset, and then develop a bilingual PclGPT-EN/CN model group through a comprehensive pre-training and supervised fine-tuning staircase process to facilitate implicit toxic detection. Group detection results and fine-grained detection from PclGPT and other models reveal significant variations in the degree of bias in PCL towards different vulnerable groups, necessitating increased societal attention to protect them.
翻訳日:2024-11-05 06:06:43 公開日:2024-10-01
# FedPT:資源制約エッジデバイスにおける大規模言語モデルのフェデレーションプロキシチューニング

FedPT: Federated Proxy-Tuning of Large Language Models on Resource-Constrained Edge Devices ( http://arxiv.org/abs/2410.00362v1 )

ライセンス: Link先を確認
Zhidong Gao, Yu Zhang, Zhenxiao Zhang, Yanmin Gong, Yuanxiong Guo, (参考訳) 様々な言語タスクで優れたパフォーマンスを示すにもかかわらず、訓練済みの大規模言語モデル(LM)では、異なる下流タスクに効果的に対処するために、特定のデータセットを微調整する必要があることが多い。 しかし、下流タスクのためにこれらのLMを微調整するには個人からのデータを収集する必要がある。 フェデレーテッド・ラーニング(FL)がデファクト・ソリューションとして登場し、生データを共有せずに協調的なモデルトレーニングを可能にした。 有望ながら、大きなLMのフェデレートされた微調整は、モデルパラメータへのアクセス制限や高い計算、通信、メモリオーバーヘッドなど、大きな課題に直面している。 これらの課題に対処するために、黒箱型大規模LMのファインチューニングのための新しいフレームワークである \textbf{Fed}erated \textbf{P}roxy-\textbf{T}uning (FedPT)を紹介する。 特に、FedPTのデバイスは、まず小さなLMを協調的にチューニングし、次にサーバは、調整された小さなLMで学んだ知識と、より大きな訓練済みLMで学んだ知識を組み合わせて、直接チューニングされた大きなLMのパフォーマンスに到達することができる大規模なプロキシチューニングされたLMを構築する。 実験結果から,FedPT は計算,通信,メモリのオーバーヘッドを大幅に低減し,競争性能の維持を図っている。 FedPTは、リソース制約のあるデバイス上での大規模なLMの効率的かつプライバシー保護的な微調整のための有望なソリューションを提供し、最先端の大規模LMのアクセシビリティと適用性を広げている。

Despite demonstrating superior performance across a variety of linguistic tasks, pre-trained large language models (LMs) often require fine-tuning on specific datasets to effectively address different downstream tasks. However, fine-tuning these LMs for downstream tasks necessitates collecting data from individuals, which raises significant privacy concerns. Federated learning (FL) has emerged as the de facto solution, enabling collaborative model training without sharing raw data. While promising, federated fine-tuning of large LMs faces significant challenges, including restricted access to model parameters and high computation, communication, and memory overhead. To address these challenges, this paper introduces \textbf{Fed}erated \textbf{P}roxy-\textbf{T}uning (FedPT), a novel framework for federated fine-tuning of black-box large LMs, requiring access only to their predictions over the output vocabulary instead of their parameters. Specifically, devices in FedPT first collaboratively tune a smaller LM, and then the server combines the knowledge learned by the tuned small LM with the knowledge learned by the larger pre-trained LM to construct a large proxy-tuned LM that can reach the performance of directly tuned large LMs. The experimental results demonstrate that FedPT can significantly reduce computation, communication, and memory overhead while maintaining competitive performance compared to directly federated fine-tuning of large LMs. FedPT offers a promising solution for efficient, privacy-preserving fine-tuning of large LMs on resource-constrained devices, broadening the accessibility and applicability of state-of-the-art large LMs.
翻訳日:2024-11-05 06:06:43 公開日:2024-10-01
# 多モーダル言語モデルにおける類似合成の可能性の解き放つ

Unleashing the Potentials of Likelihood Composition for Multi-modal Language Models ( http://arxiv.org/abs/2410.00363v1 )

ライセンス: Link先を確認
Shitian Zhao, Renrui Zhang, Xu Luo, Yan Wang, Shanghang Zhang, Peng Gao, (参考訳) 特に大規模言語モデル (LLM) とマルチモーダル言語モデル (MLM) が異なるアーキテクチャ、パラメータサイズ、トレーニングパイプラインが常に作成されている時代において、モデルの融合は常に重要なトピックである。 本研究では,異種モデルをオフザシェルで融合することを目的としたポストホック・フレームワークを提案し,その基本的な考え方は,マルチチョイスな視覚探索探索タスクを行う際に,複数のモデルの確率分布を構成することである。 ここで、中核となる概念である \textit{likelihood} は、実際には候補の答えのログ確率である。 textit{likelihood composition} では、基本的な操作をいくつか導入する: \textit{debias}, \textit{highlight}, \textit{majority-vote}, \textit{ensemble}。 これらの基本要素を(合成)組み合わせることで、混合合成法が得られます。 9つのVQAデータセットと10個のMLMに関する総合的な実験を行うことで、単純な \textit{ensemble} や \textit{majority-vote} の手法と比較して、 \textit{mix-composition} の有効性を証明した。 このフレームワークでは、新しい基本合成法を提案し、それらを組み合わせて新しい混合合成法を得ることができる。 提案した「textit{likelihood composition」は、異種モデルを融合させ、この枠組みの下での探索を刺激する新しい視点を提供することを願っている。

Model fusing has always been an important topic, especially in an era where large language models (LLM) and multi-modal language models (MLM) with different architectures, parameter sizes and training pipelines, are being created all the time. In this work, we propose a post-hoc framework, aiming at fusing heterogeneous models off-the-shell, which we call \textit{likelihood composition}, and the basic idea is to compose multiple models' likelihood distribution when doing a multi-choice visual-question-answering task. Here the core concept, \textit{likelihood}, is actually the log-probability of the candidate answer. In \textit{likelihood composition}, we introduce some basic operations: \textit{debias}, \textit{highlight}, \textit{majority-vote} and \textit{ensemble}. By combining (composing) these basic elements, we get the mixed composition methods: \textit{mix-composition}. Through conducting comprehensive experiments on 9 VQA datasets and 10 MLMs, we prove the effectiveness of \textit{mix-composition} compared with simple \textit{ensemble} or \textit{majority-vote} methods. In this framework, people can propose new basic composition methods and combine them to get the new mixed composition methods. We hope our proposed \textit{likelihood composition} can provide a new perspective of fusing heterogeneous models and inspire the exploration under this framework.
翻訳日:2024-11-05 06:06:43 公開日:2024-10-01
# 単一量子系における制御機構の解析解

Analytic Solutions of Control Mechanism in Single-Qubit Systems ( http://arxiv.org/abs/2410.00364v1 )

ライセンス: Link先を確認
Erez Abrams, (参考訳) 制御された量子系の進化を管理するメカニズムは、しばしば曖昧にされ、その力学を解釈しにくくする。 Mitra and Rabitz {[Phys. Rev. A 67, 033407 (2003)]} は固有状態間の経路の摂動膨張によるメカニズムを定義する。 本稿では, 制御された単一量子ビット系の機構を考察し, 単一量子ビットの進化の基盤となるメカニズムを, 断片的に一定に制御する新しい解析手法について述べる。

The mechanism governing the evolution of controlled quantum systems is often obscured, making their dynamics hard to interpret. Mitra and Rabitz {[Phys. Rev. A 67, 033407 (2003)]} define mechanism via a perturbative expansion of pathways between eigenstates; the evolution of the system is driven by the constructive and destructive interference of these pathway amplitudes. In this paper, we explore mechanism in controlled single-qubit systems and describe novel analytic methods for computing the mechanism underlying the evolution of a single qubit under a piecewise constant control.
翻訳日:2024-11-05 06:06:43 公開日:2024-10-01
# Easydiagnos:スマートヘルスケアにおける自動診断のための正確な特徴選択のためのフレームワーク

Easydiagnos: a framework for accurate feature selection for automatic diagnosis in smart healthcare ( http://arxiv.org/abs/2410.00366v1 )

ライセンス: Link先を確認
Prasenjit Maji, Amit Kumar Mondal, Hemanta Kumar Mondal, Saraju P. Mohanty, (参考訳) 人工知能(AI)の急速な進歩は、スマートヘルスケアに革命をもたらし、ウェアラブル技術、継続的監視デバイス、インテリジェントな診断システムにおけるイノベーションを推進している。 しかし、セキュリティ、説明可能性、堅牢性、パフォーマンス最適化の課題は、臨床環境において広く採用される上で重要な障壁である。 本研究では、適応特徴評価器(AFE)アルゴリズムを用いて、医療データセットの特徴選択を改善し、問題を克服する革新的なアルゴリズムを提案する。 AFEは遺伝的アルゴリズム(GA)、説明可能な人工知能(XAI)、置換結合技術(PCT)を統合し、臨床決定支援システム(CDSS)を最適化し、予測精度と解釈可能性を向上させる。 提案手法は、6つの異なる機械学習アルゴリズムを用いて3つの多様な医療データセットにまたがって検証され、従来の特徴選択手法よりも堅牢性と優位性を示す。 その結果、スマートヘルスケアにおけるAFEの変革の可能性を強調し、パーソナライズされた透明な患者ケアを可能にした。 特に、AFEアルゴリズムとMLP(Multi-layer Perceptron)を組み合わせると、98.5%の精度を達成し、実際の医療アプリケーションにおける臨床意思決定プロセスを改善する能力を強調した。

The rapid advancements in artificial intelligence (AI) have revolutionized smart healthcare, driving innovations in wearable technologies, continuous monitoring devices, and intelligent diagnostic systems. However, security, explainability, robustness, and performance optimization challenges remain critical barriers to widespread adoption in clinical environments. This research presents an innovative algorithmic method using the Adaptive Feature Evaluator (AFE) algorithm to improve feature selection in healthcare datasets and overcome problems. AFE integrating Genetic Algorithms (GA), Explainable Artificial Intelligence (XAI), and Permutation Combination Techniques (PCT), the algorithm optimizes Clinical Decision Support Systems (CDSS), thereby enhancing predictive accuracy and interpretability. The proposed method is validated across three diverse healthcare datasets using six distinct machine learning algorithms, demonstrating its robustness and superiority over conventional feature selection techniques. The results underscore the transformative potential of AFE in smart healthcare, enabling personalized and transparent patient care. Notably, the AFE algorithm, when combined with a Multi-layer Perceptron (MLP), achieved an accuracy of up to 98.5%, highlighting its capability to improve clinical decision-making processes in real-world healthcare applications.
翻訳日:2024-11-05 06:06:43 公開日:2024-10-01
# ハイパースケールAI時代のROK防衛M&S : 概念,課題,今後の方向性

ROK Defense M&S in the Age of Hyperscale AI: Concepts, Challenges, and Future Directions ( http://arxiv.org/abs/2410.00367v1 )

ライセンス: Link先を確認
Youngjoon Lee, Taehyun Park, Yeongjoon Kang, Jonghoe Kim, Joonhyuk Kang, (参考訳) 国家防衛モデリングとシミュレーション(M&S)へのハイパースケールAIの統合は、戦略的および運用能力の強化に不可欠である。 我々は、超大規模AIが、前例のない精度、速度、複雑なシナリオをシミュレートする能力を提供することで、防衛M\&Sに革命をもたらす方法を探求する。 米国や中国のような国は、これらの技術を採用する最前線にあり、様々な成功の度合いを経験している。 ハイパースケールAIの可能性の最大化は、クローズドネットワーク、ロングテールデータ、複雑な意思決定、専門家不足といった重要な課題に対処する必要がある。 今後の方向性は、国内ファウンデーションモデルの採用、さまざまなGPU/NPUへの投資、ビッグデータサービスの利用、オープンソースソフトウェアの利用などを強調している。 これらのイニシアチブは、国家安全保障を強化し、競争上の優位性を維持し、より広範な技術的・経済的進歩を促進する。 この青写真により、大韓民国は防衛能力を強化し、近代戦争における新たな脅威に先んじることができる。

Integrating hyperscale AI into national defense modeling and simulation (M&S) is crucial for enhancing strategic and operational capabilities. We explore how hyperscale AI can revolutionize defense M\&S by providing unprecedented accuracy, speed, and the ability to simulate complex scenarios. Countries such as the United States and China are at the forefront of adopting these technologies and are experiencing varying degrees of success. Maximizing the potential of hyperscale AI necessitates addressing critical challenges, such as closed networks, long-tail data, complex decision-making, and a shortage of experts. Future directions emphasize the adoption of domestic foundation models, the investment in various GPUs / NPUs, the utilization of big tech services, and the use of open source software. These initiatives will enhance national security, maintain competitive advantages, and promote broader technological and economic progress. With this blueprint, the Republic of Korea can strengthen its defense capabilities and stay ahead of the emerging threats of modern warfare.
翻訳日:2024-11-05 06:06:43 公開日:2024-10-01
# Descriptor: プログラム可能な閾値ベーススパースビジョンのための顔検出データセット

Descriptor: Face Detection Dataset for Programmable Threshold-Based Sparse-Vision ( http://arxiv.org/abs/2410.00368v1 )

ライセンス: Link先を確認
Riadul Islam, Sri Ranga Sai Krishna Tummala, Joey Mulé, Rohith Kankipati, Suraj Jalapally, Dhandeep Challagundla, Chad Howard, Ryan Robucci, (参考訳) スマート焦点面とチップ内画像処理は、エネルギー効率とプライバシーを備えたビジョン対応組込みシステムにとって重要な技術として登場した。 しかし、視覚情報を伝えるためにこれらのニューロモルフィックセンサーが計算したデータの例を提供する特別なデータセットが欠如していることは、これらの有望な技術の採用を妨げている。 イベントベースのセンサを含むニューロモルフィック・イメージラ変種は、焦点面における強度変化の時間的および位置を表す画素アドレスのストリーム、時間差データ、時間差に代表されるデータ、空間変換の適用後の画像データ、光フローデータ、および/または統計的表現などの様々な表現を生成する。 Aff-Wild2と同じビデオから得られる顔検出タスクに特化して設計された、注釈付き時間閾値に基づく視覚データセットを提供する。 このデータセットは、複数のしきい値レベル(例: 4, 8, 12, 16)を提供することで、従来の方法と比較してさまざまな条件と設定の下で、最先端のニューラルネットワークの包括的な評価と最適化を可能にする。 生のビデオからイベントデータを生成するための付随ツールフローにより、アクセシビリティとユーザビリティがさらに向上する。 このリソースは、時間差閾値に基づいて処理し、より正確で効率的な物体検出と局所化を可能にし、最終的には低消費電力でニューロモルフィックな画像技術の広範な採用を促進するスマートセンサに基づく堅牢な視覚システムの開発を支援することが期待されている。 さらなる研究を支援するため、我々はデータセットを \url{https://dx.doi.org/10.21227/bw2e-dj78} で公開しました。

Smart focal-plane and in-chip image processing has emerged as a crucial technology for vision-enabled embedded systems with energy efficiency and privacy. However, the lack of special datasets providing examples of the data that these neuromorphic sensors compute to convey visual information has hindered the adoption of these promising technologies. Neuromorphic imager variants, including event-based sensors, produce various representations such as streams of pixel addresses representing time and locations of intensity changes in the focal plane, temporal-difference data, data sifted/thresholded by temporal differences, image data after applying spatial transformations, optical flow data, and/or statistical representations. To address the critical barrier to entry, we provide an annotated, temporal-threshold-based vision dataset specifically designed for face detection tasks derived from the same videos used for Aff-Wild2. By offering multiple threshold levels (e.g., 4, 8, 12, and 16), this dataset allows for comprehensive evaluation and optimization of state-of-the-art neural architectures under varying conditions and settings compared to traditional methods. The accompanying tool flow for generating event data from raw videos further enhances accessibility and usability. We anticipate that this resource will significantly support the development of robust vision systems based on smart sensors that can process based on temporal-difference thresholds, enabling more accurate and efficient object detection and localization and ultimately promoting the broader adoption of low-power, neuromorphic imaging technologies. To support further research, we publicly released the dataset at \url{https://dx.doi.org/10.21227/bw2e-dj78}.
翻訳日:2024-11-05 06:06:43 公開日:2024-10-01
# 熱走査プローブによる高温超伝導ジョセフソン接合の直接書き込み

Direct writing of high temperature superconducting Josephson junctions using a thermal scanning probe ( http://arxiv.org/abs/2410.00372v1 )

ライセンス: Link先を確認
Ngoc My Hanh Duong, Amanuel M. Berhane, Dave Mitchell, Rifat Ullah, Ting Zhang, He Zhu, Jia Du, Simon K. H. Lam, Emma E. Mitchell, Avi Bendavid, (参考訳) 本稿では,YBa2Cu3O7-x(YBCO)のマイクロストリップに直接弱いリンクを印加する熱走査プローブを用いて,ジョセフソン様超伝導ナノ接合の作製を初めて実証する。 本手法は, 臨界電流(Ic)を等級で効果的に低減する。 結果として生じるナノブリッジは、DCとACのジョセフソン効果の両方で示されるように、SNS型接合のジョセフソン効果の明確な証拠を示す。 このアプローチは、液体窒素温度で動作する量子力学的回路をスケールアップするための、新しく柔軟な方法を提供する。 さらに、ジャンクションのin-situおよびpost fabricationのプロパティを変更するための有望な経路を提供する。

In this letter, we demonstrate for the first time the creation of Josephson-like superconducting nanojunctions using a thermal scanning probe to directly inscribe weak links into microstrips of YBa2Cu3O7-x (YBCO). Our method effectively reduces the critical current (Ic) over an order of magnitude. The resulting nanobridges exhibit clear evidence of Josephson effects, of SNS-type junctions, as shown by both the DC and AC Josephson effects. This approach provides a novel and flexible method for scaling up quantum mechanical circuits that operate at liquid nitrogen temperatures. Additionally, it offers a promising pathway for modifying properties of the junctions in-situ and post fabrication.
翻訳日:2024-11-05 06:06:43 公開日:2024-10-01
# 数年にわたる空間変化に対するロバスト交通予測

Robust Traffic Forecasting against Spatial Shift over Years ( http://arxiv.org/abs/2410.00373v1 )

ライセンス: Link先を確認
Hongjun Wang, Jiyuan Chen, Tong Pan, Zheng Dong, Lingyu Zhang, Renhe Jiang, Xuan Song, (参考訳) 最近の時空間グラフニューラルネットワーク(ST-GNN)とトランスフォーマーの進歩は、時間的相関と空間的相関を効果的に捉えることで、交通予測に有望な可能性を実証している。 時空間モデルの一般化能力は、近年の学術談話において大きな注目を集めている。 しかし、トラフィック・オブ・ディストリビューション(OOD)シナリオに特に対処する実体データセットは提案されていない。 既存のST-OODメソッドは、既存のデータをテストするか、データセットを手動で変更する必要がある。 その結果、OODシナリオにおける現在の時空間モデルの一般化能力は、大半が未解明のままである。 本稿では,新しいトラフィックOODベンチマークを用いた最先端モデルについて検討し,これらのモデルの性能が著しく低下していることを見出した。 厳密な分析を通じて、この減少は、これまで観測されていなかった空間的関係に適応できないモデルによるものであると考えられる。 この課題に対処するために、トレーニング中にグラフジェネレータの集合を学習し、それらを適応的に組み合わせ、新しい環境条件に基づいて新しいグラフを生成し、テスト中に空間分布シフトを処理する新しいMixture of Experts(MoE)フレームワークを提案する。 我々はさらにこの概念をTransformerアーキテクチャに拡張し、大幅な改善を実現した。 提案手法は相似的かつ有効であり,空間力学に対処する時空間モデルにシームレスに統合することができる。

Recent advancements in Spatiotemporal Graph Neural Networks (ST-GNNs) and Transformers have demonstrated promising potential for traffic forecasting by effectively capturing both temporal and spatial correlations. The generalization ability of spatiotemporal models has received considerable attention in recent scholarly discourse. However, no substantive datasets specifically addressing traffic out-of-distribution (OOD) scenarios have been proposed. Existing ST-OOD methods are either constrained to testing on extant data or necessitate manual modifications to the dataset. Consequently, the generalization capacity of current spatiotemporal models in OOD scenarios remains largely underexplored. In this paper, we investigate state-of-the-art models using newly proposed traffic OOD benchmarks and, surprisingly, find that these models experience a significant decline in performance. Through meticulous analysis, we attribute this decline to the models' inability to adapt to previously unobserved spatial relationships. To address this challenge, we propose a novel Mixture of Experts (MoE) framework, which learns a set of graph generators (i.e., graphons) during training and adaptively combines them to generate new graphs based on novel environmental conditions to handle spatial distribution shifts during testing. We further extend this concept to the Transformer architecture, achieving substantial improvements. Our method is both parsimonious and efficacious, and can be seamlessly integrated into any spatiotemporal model, outperforming current state-of-the-art approaches in addressing spatial dynamics.
翻訳日:2024-11-05 05:56:31 公開日:2024-10-01
# CXPMRG-Bench: CheXpert Plusデータセットを用いたX線医療レポート作成のための事前トレーニングとベンチマーク

CXPMRG-Bench: Pre-training and Benchmarking for X-ray Medical Report Generation on CheXpert Plus Dataset ( http://arxiv.org/abs/2410.00379v1 )

ライセンス: Link先を確認
Xiao Wang, Fuling Wang, Yuehang Li, Qingchuan Ma, Shiao Wang, Bo Jiang, Chuanfu Li, Jin Tang, (参考訳) X線画像に基づく医療報告生成(MRG)は、人工知能において重要な領域であり、診断の負担と患者待ち時間を著しく削減することができる。 大幅な進歩にもかかわらず、このタスクは、限られたベンチマークデータセットと、既存の大規模モデルのこの専門分野における機能強化が不十分なため、ボトルネックに到達したと信じている。 具体的には、最近リリースされたCheXpert Plusデータセットには、比較評価アルゴリズムとその結果がなく、データセット自体のみを提供する。 この状況は、その後のアルゴリズムのトレーニング、評価、比較を困難にしている。 そこで我々は,CheXpert Plusデータセット上で,既存の主流X線レポート生成モデルと大規模言語モデル(LLM)の包括的なベンチマークを行う。 提案したベンチマークは、その後のアルゴリズムの確固たる比較基盤を提供し、研究者がこの分野の最先端モデルを簡単に把握するためのガイドとなると信じている。 さらに, 自己教師付き自己回帰生成やX線レポートによるコントラスト学習, 教師付き微調整を含む, 多段階事前学習戦略を用いたX線画像生成のための大規模モデルを提案する。 Mambaに基づく自己回帰事前学習はX線画像を効果的に符号化し、画像テキストコントラスト事前学習はさらに特徴空間を整列させ、より良い実験結果を得ることを示す。 ソースコードは \url{https://github.com/Event-AHU/Medical_Image_Analysis} で見ることができる。

X-ray image-based medical report generation (MRG) is a pivotal area in artificial intelligence which can significantly reduce diagnostic burdens and patient wait times. Despite significant progress, we believe that the task has reached a bottleneck due to the limited benchmark datasets and the existing large models' insufficient capability enhancements in this specialized domain. Specifically, the recently released CheXpert Plus dataset lacks comparative evaluation algorithms and their results, providing only the dataset itself. This situation makes the training, evaluation, and comparison of subsequent algorithms challenging. Thus, we conduct a comprehensive benchmarking of existing mainstream X-ray report generation models and large language models (LLMs), on the CheXpert Plus dataset. We believe that the proposed benchmark can provide a solid comparative basis for subsequent algorithms and serve as a guide for researchers to quickly grasp the state-of-the-art models in this field. More importantly, we propose a large model for the X-ray image report generation using a multi-stage pre-training strategy, including self-supervised autoregressive generation and Xray-report contrastive learning, and supervised fine-tuning. Extensive experimental results indicate that the autoregressive pre-training based on Mamba effectively encodes X-ray images, and the image-text contrastive pre-training further aligns the feature spaces, achieving better experimental results. Source code can be found on \url{https://github.com/Event-AHU/Medical_Image_Analysis}.
翻訳日:2024-11-05 05:56:31 公開日:2024-10-01
# GLMHAによる高能率画像修復とスペクトル再構成のための低位マルチヘッドセルフアテンション

GLMHA A Guided Low-rank Multi-Head Self-Attention for Efficient Image Restoration and Spectral Reconstruction ( http://arxiv.org/abs/2410.00380v1 )

ライセンス: Link先を確認
Zaid Ilyas, Naveed Akhtar, David Suter, Syed Zulqarnain Gilani, (参考訳) 画像復元とスペクトル再構成は、長年続くコンピュータビジョンタスクである。 現在、CNN変換器ハイブリッドモデルはこれらのタスクに最先端のパフォーマンスを提供する。 これらのモデルのアーキテクチャ設計において重要な要素は、チャネルワイド・セルフ・アテンション(CSA)である。 まず,CSAは全体の低ランク動作であることを示す。 そこで,本研究では,CSAを計算的ゲインに置き換えつつ,元のモデル性能を厳格に保ちつつ,インスタンス誘導型低ランクマルチヘッド自己アテンション(GLMHA)を提案する。 提案したGLMHAに共通するのは、短い入力シーケンスと長い入力シーケンスの両方に対して計算利得を提供する能力である。 特に、利得は浮動小数点演算 (FLOPs) とパラメータ数削減の両方の点である。 これは、FLOPが短い入力シーケンスの効率的な設計トリックを超越する、既存の一般的な計算複雑性削減技術であるLinformer、Performer、Reformerとは対照的である。 さらに,RGB画像からのスペクトル再構成,スナップショット圧縮画像からのスペクトル再構成,モーションデブロアリング,画像劣化といったタスクに対して,GLMHAによる最高の性能モデルの向上による広範囲な評価を行った。 以上の結果から,CSAを用いた最高の性能モデルの性能を維持するために必要なパラメータを370K削減した7.7ギガFLOPが得られた。

Image restoration and spectral reconstruction are longstanding computer vision tasks. Currently, CNN-transformer hybrid models provide state-of-the-art performance for these tasks. The key common ingredient in the architectural designs of these models is Channel-wise Self-Attention (CSA). We first show that CSA is an overall low-rank operation. Then, we propose an instance-Guided Low-rank Multi-Head selfattention (GLMHA) to replace the CSA for a considerable computational gain while closely retaining the original model performance. Unique to the proposed GLMHA is its ability to provide computational gain for both short and long input sequences. In particular, the gain is in terms of both Floating Point Operations (FLOPs) and parameter count reduction. This is in contrast to the existing popular computational complexity reduction techniques, e.g., Linformer, Performer, and Reformer, for whom FLOPs overpower the efficient design tricks for the shorter input sequences. Moreover, parameter reduction remains unaccounted for in the existing methods.We perform an extensive evaluation for the tasks of spectral reconstruction from RGB images, spectral reconstruction from snapshot compressive imaging, motion deblurring, and image deraining by enhancing the best-performing models with our GLMHA. Our results show up to a 7.7 Giga FLOPs reduction with 370K fewer parameters required to closely retain the original performance of the best-performing models that employ CSA.
翻訳日:2024-11-05 05:56:31 公開日:2024-10-01
# Wasserstein正則化を用いたスコアベース拡散による降雨抑制

Generative Precipitation Downscaling using Score-based Diffusion with Wasserstein Regularization ( http://arxiv.org/abs/2410.00381v1 )

ライセンス: Link先を確認
Yuhao Liu, James Doss-Gollin, Guha Balakrishnan, Ashok Veeraraghavan, (参考訳) 洪水などの豪雨による地域リスクを理解するには、(稀な出来事をサンプリングするために)長い記録と(局所的な危険を評価するために)高解像度の製品の両方が必要である。 残念なことに、地域リスクや降水科学を理解するのに使える長期記録と高解像度の製品が数多く存在している。 本稿では,世界規模で利用可能な温暖化予測センター(CPC)の降水量とERA5の再解析データをダウンスケールし,キロスケール降水量の推定値を生成する新しい生成拡散モデルを提案する。 降水量計に基づく降水量計による降水量は55kmから1kmに減少し、降雨信号の回復は大きな課題となっている。 モデル(WassDiff という名称)をよく校正された降水強度値を生成するために,拡散復調過程におけるスコアマッチングトレーニング目標に対して,Wasserstein Distance Regularization (WDR) という用語を導入する。 我々は,WDRのない拡散に比べて,WDRが極端値を取得する能力を大幅に向上させることを示す。 WassDiffは従来のスコアベース拡散モデルよりも再現精度とバイアススコアが良いことを示す。 熱帯の嵐や寒冷前線のような極端な気象現象の事例研究は、ワスディフが極端な現象を捉えながら適切な空間パターンを作り出す能力を示している。 このようなダウンスケーリング能力により、既存の歴史的グローバルゲージ記録や、高解像度レーダーのない地域での現在のゲージ測定から、大規模な降水データセットを生成することができる。

Understanding local risks from extreme rainfall, such as flooding, requires both long records (to sample rare events) and high-resolution products (to assess localized hazards). Unfortunately, there is a dearth of long-record and high-resolution products that can be used to understand local risk and precipitation science. In this paper, we present a novel generative diffusion model that downscales (super-resolves) globally available Climate Prediction Center (CPC) gauge-based precipitation products and ERA5 reanalysis data to generate kilometer-scale precipitation estimates. Downscaling gauge-based precipitation from 55 km to 1 km while recovering extreme rainfall signals poses significant challenges. To enforce our model (named WassDiff) to produce well-calibrated precipitation intensity values, we introduce a Wasserstein Distance Regularization (WDR) term for the score-matching training objective in the diffusion denoising process. We show that WDR greatly enhances the model's ability to capture extreme values compared to diffusion without WDR. Extensive evaluation shows that WassDiff has better reconstruction accuracy and bias scores than conventional score-based diffusion models. Case studies of extreme weather phenomena, like tropical storms and cold fronts, demonstrate WassDiff's ability to produce appropriate spatial patterns while capturing extremes. Such downscaling capability enables the generation of extensive km-scale precipitation datasets from existing historical global gauge records and current gauge measurements in areas without high-resolution radar.
翻訳日:2024-11-05 05:56:31 公開日:2024-10-01
# 必要なとき、必要でないときを忘れる: 文脈内知識の学習を通して予測する言語モデル

Answer When Needed, Forget When Not: Language Models Pretend to Forget via In-Context Knowledge Unlearning ( http://arxiv.org/abs/2410.00382v1 )

ライセンス: Link先を確認
Shota Takashiro, Takeshi Kojima, Andrew Gambardella, Qi Cao, Yusuke Iwasawa, Yutaka Matsuo, (参考訳) 大規模言語モデル(LLM)が多種多様なドメインに適用されるにつれて、特定の情報を選択的に学習する能力はますます重要になっている。 例えば、LLMは、従業員や信頼できるパートナーなどの認証された内部ユーザに対して機密情報を提供すると同時に、一般の公益法人や無認可法人を含む外部ユーザからの保護を受けることが期待されている。 この課題に対応するために,<in-context knowledge unlearning' と呼ばれる新しい手法を提案する。 本手法は,事前学習したLLMを微調整し,他の知識を保ちながら,コンテキスト内における対象知識の学習を迅速に行えるようにする。 Llama2-7B/13BモデルとMistral-7Bモデルを用いたTOFUとAGEデータセットの実験では,無関係な知識の80%を維持しながら,95%の精度で精度を保ち,ドメイン内シナリオとドメイン外シナリオのベースラインを著しく上回る結果を得た。 モデルの内部動作に関するさらなる調査では、微調整のLLMが中間層で正しい予測を生成し、それらを最終層まで維持する一方で、最後の層で忘れる決定をする、すなわち「LLMは忘れるふりをする」ことが判明した。 本研究は,LLMにおけるアンラーニングメカニズムの堅牢性向上に関する貴重な知見を提供し,今後の研究の基盤となるものと考えられる。

As large language models (LLMs) are applied across diverse domains, the ability to selectively unlearn specific information has become increasingly essential. For instance, LLMs are expected to provide confidential information to authorized internal users, such as employees or trusted partners, while withholding it from external users, including the general public and unauthorized entities. In response to this challenge, we propose a novel method termed ``in-context knowledge unlearning'', which enables the model to selectively forget information in test-time based on the context of the query. Our method fine-tunes pre-trained LLMs to enable prompt unlearning of target knowledge within the context, while preserving other knowledge. Experiments on the TOFU and AGE datasets using Llama2-7B/13B and Mistral-7B models show our method achieves up to 95% forgetting accuracy while retaining 80% of unrelated knowledge, significantly outperforming baselines in both in-domain and out-of-domain scenarios. Further investigation into the model's internal behavior revealed that while fine-tuned LLMs generate correct predictions in the middle layers and maintain them up to the final layer, they make the decision to forget at the last layer, i.e., ``LLMs pretend to forget''. Our findings offer valuable insights into enhancing the robustness of unlearning mechanisms in LLMs, setting a foundation for future research in the field.
翻訳日:2024-11-05 05:56:31 公開日:2024-10-01
# リフシッツ理論におけるホログラフィック時間的絡み合いエントロピーについて

A note on the holographic time-like entanglement entropy in Lifshitz theory ( http://arxiv.org/abs/2410.00384v1 )

ライセンス: Link先を確認
Siddhi Swarupa Jena, Subhash Mahapatra, (参考訳) 三次元リフシッツ時空の境界理論におけるホログラフィック時間的絡み合いエントロピー(TEE)について検討する。 近年、TEEには様々なホログラフィー提案がなされており、これらの提案を Lifshitz の背景で検証している。 各提案においてTEEの分析結果を求め, 結果を比較し, 異方性スケーリングがTEEに与える影響を解析した。 異なるホログラフィックの提案は、LifshitzバックグラウンドのTEEに同じ結果を与える。 さらに,Lifshitz系のTEEは,異方性パラメータに依存する実部と虚部を含むことが示唆された。

We explore the holographic time-like entanglement entropy (TEE) in the boundary theory of three-dimensional Lifshitz spacetime. There have been various holographic proposals for TEE in recent years and we test those proposals in the Lifshitz background. We obtain the analytic result for TEE in each proposal, compare the results, and analyze how the anisotropic scaling affects the TEE. We find that different holographic proposals give the same result for TEE in the Lifshitz background. Our analysis further suggests that the TEE of the Lifshitz system contains real and imaginary parts, both of which depend on the anisotropic parameter.
翻訳日:2024-11-05 05:56:31 公開日:2024-10-01
# 関節鏡におけるシームレス拡張現実統合 : 関節再建と誘導のためのパイプライン

Seamless Augmented Reality Integration in Arthroscopy: A Pipeline for Articular Reconstruction and Guidance ( http://arxiv.org/abs/2410.00386v1 )

ライセンス: Link先を確認
Hongchao Shu, Mingxu Liu, Lalithkumar Seenivasan, Suxi Gu, Ping-Cheng Ku, Jonathan Knopf, Russell Taylor, Mathias Unberath, (参考訳) 関節鏡は、関節疾患の診断と治療に用いられる、最小侵襲の外科手術である。 関節鏡の臨床ワークフローは通常、小さな切開を通して関節に関節鏡を挿入することを含み、その間、外科医は関節鏡による視覚的評価に大きく依存して移動し、操作する。 しかし、関節鏡の視野の制限と深度知覚の欠如は、複雑な関節構造をナビゲートし、手術中の外科的精度を達成するのに困難をもたらす。 術中意識の向上を目的として,単眼関節鏡画像のみに基づく関節内構造を現実的に再構築するために,同時局所化とマッピング,深度推定,3次元ガウススプラッティングを併用したロバストパイプラインを提案する。 Augmented Reality (AR) アプリケーションへの3D再構成を拡張し、関節ノッチ計測とアノテーションアンカーのためのARアシストを提供する。 従来のStructure-from-Motion法やNeural Radiance Field法と比較すると,パイプラインは高密度な3次元再構成と,平均7分間の明示的な3次元表現による競合レンダリング忠実度を実現している。 4つのファントムデータセットで評価すると、RMSE = 2.21mm、PSNR = 32.86、SSIM = 0.89となる。 術中視力向上と術中手術精度向上の可能性を秘めているため, 術中視力向上, 術中視力向上に寄与する可能性が示唆された。 我々のAR測定ツールは1.59 +/- 1.81mm以内の精度を達成し、ARアノテーションツールは0.721mIoUを達成する。

Arthroscopy is a minimally invasive surgical procedure used to diagnose and treat joint problems. The clinical workflow of arthroscopy typically involves inserting an arthroscope into the joint through a small incision, during which surgeons navigate and operate largely by relying on their visual assessment through the arthroscope. However, the arthroscope's restricted field of view and lack of depth perception pose challenges in navigating complex articular structures and achieving surgical precision during procedures. Aiming at enhancing intraoperative awareness, we present a robust pipeline that incorporates simultaneous localization and mapping, depth estimation, and 3D Gaussian splatting to realistically reconstruct intra-articular structures solely based on monocular arthroscope video. Extending 3D reconstruction to Augmented Reality (AR) applications, our solution offers AR assistance for articular notch measurement and annotation anchoring in a human-in-the-loop manner. Compared to traditional Structure-from-Motion and Neural Radiance Field-based methods, our pipeline achieves dense 3D reconstruction and competitive rendering fidelity with explicit 3D representation in 7 minutes on average. When evaluated on four phantom datasets, our method achieves RMSE = 2.21mm reconstruction error, PSNR = 32.86 and SSIM = 0.89 on average. Because our pipeline enables AR reconstruction and guidance directly from monocular arthroscopy without any additional data and/or hardware, our solution may hold the potential for enhancing intraoperative awareness and facilitating surgical precision in arthroscopy. Our AR measurement tool achieves accuracy within 1.59 +/- 1.81mm and the AR annotation tool achieves a mIoU of 0.721.
翻訳日:2024-11-05 05:56:31 公開日:2024-10-01
# 大規模言語モデルと検索拡張生成を用いた低データ文脈におけるコンパクトモデルの能力向上

Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation ( http://arxiv.org/abs/2410.00387v1 )

ライセンス: Link先を確認
Bhargav Shandilya, Alexis Palmer, (参考訳) 現在の言語モデリング技術のデータと計算要求は、低リソース言語の処理と解析に課題を提起する。 宣言的言語知識は、言語固有の規則の形で有用な帰納的バイアスを持つモデルを提供することによって、このデータ不足ギャップを部分的に橋渡しする可能性がある。 本稿では,大言語モデル(LLM)をベースとした検索拡張生成(RAG)フレームワークを提案する。 データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。 結果は、パフォーマンスと効率の大幅な飛躍が、正しい組み合わせで可能であることを示している。 a) 文法の形の言語入力 b) LLMの解釈力,及び c) より小さいトークン分類網の訓練可能性。 コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。 また、文献言語学者は、それぞれのアウトプットに対して、より合理的な説明と信頼性スコアを提供することにより、形態学的な用語化のためのより信頼性が高く、より有用なツールを提供する。

The data and compute requirements of current language modeling technology pose challenges for the processing and analysis of low-resource languages. Declarative linguistic knowledge has the potential to partially bridge this data scarcity gap by providing models with useful inductive bias in the form of language-specific rules. In this paper, we propose a retrieval augmented generation (RAG) framework backed by a large language model (LLM) to correct the output of a smaller model for the linguistic task of morphological glossing. We leverage linguistic information to make up for the lack of data and trainable parameters, while allowing for inputs from written descriptive grammars interpreted and distilled through an LLM. The results demonstrate that significant leaps in performance and efficiency are possible with the right combination of: a) linguistic inputs in the form of grammars, b) the interpretive power of LLMs, and c) the trainability of smaller token classification networks. We show that a compact, RAG-supported model is highly effective in data-scarce settings, achieving a new state-of-the-art for this task and our target languages. Our work also offers documentary linguists a more reliable and more usable tool for morphological glossing by providing well-reasoned explanations and confidence scores for each output.
翻訳日:2024-11-05 05:56:31 公開日:2024-10-01
# 情報深層学習の基本的・無意味な設定を再考する

Revisiting Essential and Nonessential Settings of Evidential Deep Learning ( http://arxiv.org/abs/2410.00393v1 )

ライセンス: Link先を確認
Mengyuan Chen, Junyu Gao, Changsheng Xu, (参考訳) Evidential Deep Learning (EDL) は、単一の前方通過において確実な予測不確実性を提供する不確実性推定の新しい手法である。 主観論理に基づいて、EDLはディリクレ濃度パラメータをニューラルネットワークから導出し、ディリクレ確率密度関数(PDF)を構築し、クラス確率の分布をモデル化する。 モデル構築において、(1) 一般的に無視される事前重みパラメータはクラス数に固定されるが、その値は実際に証拠の割合と予測スコアの最大値のバランスに影響を及ぼす。 モデル最適化において、(2)経験的リスクは、PDFをディラックデルタ関数に偏り、過信を悪化させる可能性のある分散最小化最適化項を特徴とする。 さらに、構造リスクは典型的にはKL分割最小化正規化を含み、最適化方向は目的を超えて広がり、共通感覚と矛盾し、エビデンス・マグニチュードによってもたらされる情報を減少させる。 そこで,本論文では,主観論理から有意な設定を緩和し,有意な設定,すなわち予測された確率の採用を保ちながら,EDLのよりシンプルかつ効果的な変種であるRe-EDLを提案する。 具体的には、Re-EDLは、前の重みを固定スカラーではなく調整可能なハイパーパラメータとして扱い、分散最小化最適化項と分散正規化項の両方を非推奨にすることで提供されるディリクレPDFの期待を直接最適化する。 大規模な実験と最先端の性能試験により,本手法の有効性が検証された。 ソースコードはhttps://github.com/MengyuanChen21/Re-EDLで公開されている。

Evidential Deep Learning (EDL) is an emerging method for uncertainty estimation that provides reliable predictive uncertainty in a single forward pass, attracting significant attention. Grounded in subjective logic, EDL derives Dirichlet concentration parameters from neural networks to construct a Dirichlet probability density function (PDF), modeling the distribution of class probabilities. Despite its success, EDL incorporates several nonessential settings: In model construction, (1) a commonly ignored prior weight parameter is fixed to the number of classes, while its value actually impacts the balance between the proportion of evidence and its magnitude in deriving predictive scores. In model optimization, (2) the empirical risk features a variance-minimizing optimization term that biases the PDF towards a Dirac delta function, potentially exacerbating overconfidence. (3) Additionally, the structural risk typically includes a KL-divergence-minimizing regularization, whose optimization direction extends beyond the intended purpose and contradicts common sense, diminishing the information carried by the evidence magnitude. Therefore, we propose Re-EDL, a simplified yet more effective variant of EDL, by relaxing the nonessential settings and retaining the essential one, namely, the adoption of projected probability from subjective logic. Specifically, Re-EDL treats the prior weight as an adjustable hyperparameter rather than a fixed scalar, and directly optimizes the expectation of the Dirichlet PDF provided by deprecating both the variance-minimizing optimization term and the divergence regularization term. Extensive experiments and state-of-the-art performance validate the effectiveness of our method. The source code is available at https://github.com/MengyuanChen21/Re-EDL.
翻訳日:2024-11-05 05:56:31 公開日:2024-10-01
# 統計的学習による米国での学校撮影の分析

Analyzing School Shootings in the US with Statistical Learning ( http://arxiv.org/abs/2410.00394v1 )

ライセンス: Link先を確認
Wei Dai, Diya Kafle, Brian Miller, (参考訳) 学校での銃乱射事件は全国的に広く注目を集めている。 キャンパスの学生、教員、職員は、被害者、加害者など、これらの射殺に関与している可能性がある。 [1]。 これらの銃関連の犯罪は学校の安全を脅かす。 1999年から2024年にかけて、約43件の散弾銃乱射があり、500件以上の散弾銃乱射があった。 定義上、銃乱射は4人以上が銃で撃たれるが、犯人を数えないあらゆる出来事として定義される。 学校銃乱射事件を調査した結果,ほとんどの場合,教室内で行われることが判明した。 統計分析を含む既存の研究は、通常、公共の銃乱射事件や、過去に起こった事件のみに焦点を当てており、学校銃乱射事件に焦点を当てた記事はほとんどない。 これにより、将来、学校は銃乱射事件に対してより脆弱になる。 本研究では,様々な資料から学校撮影データを収集し,その結果を分析した。 これらのデータを解釈し、様々な統計分析を行うことで、最終的には法執行機関が将来の学校銃撃に備えるのに役立つだろう。

Active shooter incidents in schools cause widespread attention across the nation. Students, faculty, and staff on campuses could be involved with these shootings, as victims, perpetrators, etc.[1]. These gun-related crimes jeopardize school safety. From 1999 to 2024, there have been approximately 43 mass school shootings, with over 500 school shootings altogether. By definition, mass shooting is defined as any event where four or more people are shot with a gun, but not counting the perpetrator. By studying school shooting cases, we concluded that most of the time, the shootings occur inside the classrooms. Existing research that includes statistical analysis usually focuses on public mass shootings or just shooting incidents that have occurred in the past and there are hardly any articles focusing on school mass shootings. This leads to schools being more vulnerable to mass shootings in the future. In this research, we have gathered school shooting data from various resources to analyze the results. By interpreting these data and conducting various statistical analysis, this will ultimately help the law enforcement to better prepare for future school shootings.
翻訳日:2024-11-05 05:56:31 公開日:2024-10-01
# 動的ニューロン:ディープニューラルネットワーク解析のための統計物理学的アプローチ

Dynamic neurons: A statistical physics approach for analyzing deep neural networks ( http://arxiv.org/abs/2410.00396v1 )

ライセンス: Link先を確認
Donghee Lee, Hye-Sung Lee, Jaeok Yi, (参考訳) ディープニューラルネットワークアーキテクチャは、しばしば反復的な構造要素から構成される。 我々はこれらのパターンを明らかにする新しいアプローチを導入し、ディープラーニングの研究に広く適用することができる。 電力ストリップが複雑なケーブル接続を解き放つのと同じように、このアプローチは神経細胞を相互作用の自由度として扱い、構造を単純化し、ディープニューラルネットワーク内の相互作用の直感的な理解を強化する。 さらに、システムのスケーリング挙動を効果的に解析する手法である再正規化グループ変換の適用を単純化するディープニューラルネットワークの翻訳対称性を明らかにする。 翻訳対称性と再正規化群変換を利用することで、臨界現象を解析できる。 このアプローチは、統計物理学を用いてディープニューラルネットワークを研究するための新しい道を開くかもしれない。

Deep neural network architectures often consist of repetitive structural elements. We introduce a new approach that reveals these patterns and can be broadly applied to the study of deep learning. Similar to how a power strip helps untangle and organize complex cable connections, this approach treats neurons as additional degrees of freedom in interactions, simplifying the structure and enhancing the intuitive understanding of interactions within deep neural networks. Furthermore, it reveals the translational symmetry of deep neural networks, which simplifies the application of the renormalization group transformation - a method that effectively analyzes the scaling behavior of the system. By utilizing translational symmetry and renormalization group transformations, we can analyze critical phenomena. This approach may open new avenues for studying deep neural networks using statistical physics.
翻訳日:2024-11-05 05:56:31 公開日:2024-10-01
# 分散PCAにおける一般化平均アプローチ

A Generalized Mean Approach for Distributed-PCA ( http://arxiv.org/abs/2410.00397v1 )

ライセンス: Link先を確認
Zhi-Yu Jou, Su-Yun Huang, Hung Hung, Shinto Eguchi, (参考訳) 主成分分析(PCA)は次元減少のための広く用いられている手法である。 データセットのサイズが拡大するにつれて、分散PCA(DPCA)が活発な研究領域となっている。 DPCAの重要な課題は、計算オーバーヘッドのため、複数のマシンや計算ノード間で効率的に結果を集約することにある。 Fan et al (2019) は先駆的なDPCA法を導入し、平均化による局所ランク-$r$射影行列を集約する-$r$固有空間を推定した。 しかし、それらの手法は固有値情報を使用しない。 本稿では,固有値情報を組み込んだ新しいDPCA手法を提案し,行列$\beta$-meanを用いて局所的な結果を集約し,それを$\beta$-DPCAと呼ぶ。 行列 $\beta$-mean は、$\beta$-mean の値の調整可能な選択を通じて柔軟で堅牢な集約方法を提供する。 特に$\beta=1$の場合、算術平均、$\beta=-1$の場合、調和平均、$\beta \to 0$の場合、幾何学平均に相当する。 さらに、行列 $\beta$-mean は、行列 $\beta$-divergence のサブクラスである行列 $\beta$-DPCA と結びつき、$\beta$-DPCA のロバスト性をサポートする。 また,固有値摂動下での固有ベクトル秩序の安定性を$\beta$-DPCAに対して検討した。 提案手法の性能を数値解析により評価した。

Principal component analysis (PCA) is a widely used technique for dimension reduction. As datasets continue to grow in size, distributed-PCA (DPCA) has become an active research area. A key challenge in DPCA lies in efficiently aggregating results across multiple machines or computing nodes due to computational overhead. Fan et al. (2019) introduced a pioneering DPCA method to estimate the leading rank-$r$ eigenspace, aggregating local rank-$r$ projection matrices by averaging. However, their method does not utilize eigenvalue information. In this article, we propose a novel DPCA method that incorporates eigenvalue information to aggregate local results via the matrix $\beta$-mean, which we call $\beta$-DPCA. The matrix $\beta$-mean offers a flexible and robust aggregation method through the adjustable choice of $\beta$ values. Notably, for $\beta=1$, it corresponds to the arithmetic mean; for $\beta=-1$, the harmonic mean; and as $\beta \to 0$, the geometric mean. Moreover, the matrix $\beta$-mean is shown to associate with the matrix $\beta$-divergence, a subclass of the Bregman matrix divergence, to support the robustness of $\beta$-DPCA. We also study the stability of eigenvector ordering under eigenvalue perturbation for $\beta$-DPCA. The performance of our proposal is evaluated through numerical studies.
翻訳日:2024-11-05 05:56:31 公開日:2024-10-01
# CusConcept: 拡散モデルによるカスタマイズされた視覚概念分解

CusConcept: Customized Visual Concept Decomposition with Diffusion Models ( http://arxiv.org/abs/2410.00398v1 )

ライセンス: Link先を確認
Zhi Xu, Shaozhe Hao, Kai Han, (参考訳) 1つの画像から視覚概念を分解するために生成モデルを作成することは複雑で難しい問題である。 そこで本研究では,拡散モデルを利用して単一画像を分解し,様々な視点から視覚的概念を生成することを目的とする,新しい課題,カスタマイズされた概念分解について検討する。 この課題に対処するために,2段階のフレームワークCusConcept(カスタマイズされた視覚概念分解用ショート)を提案し,テキスト・画像生成のプロンプトに埋め込むことができるカスタマイズされた視覚概念埋め込みベクターを抽出する。 第1段階では、CusConceptは、人間の特定概念軸に沿って語彙を構築するために、語彙誘導概念分解機構を使用している。 分解された概念は、対応する語彙を検索し、アンカーウェイトを学習することによって得られる。 第2段階では、生成した画像の忠実度と品質を高めるために、共同概念の洗練を行う。 さらに、オープンワールドの概念分解タスクの性能を評価するための評価ベンチマークをキュレートする。 提案手法は,分解された概念の高品質なイメージを効果的に生成し,関連する語彙予測を二次結果として生成する。 定性的かつ定量的な実験により、CusConceptの有効性が実証された。

Enabling generative models to decompose visual concepts from a single image is a complex and challenging problem. In this paper, we study a new and challenging task, customized concept decomposition, wherein the objective is to leverage diffusion models to decompose a single image and generate visual concepts from various perspectives. To address this challenge, we propose a two-stage framework, CusConcept (short for Customized Visual Concept Decomposition), to extract customized visual concept embedding vectors that can be embedded into prompts for text-to-image generation. In the first stage, CusConcept employs a vocabulary-guided concept decomposition mechanism to build vocabularies along human-specified conceptual axes. The decomposed concepts are obtained by retrieving corresponding vocabularies and learning anchor weights. In the second stage, joint concept refinement is performed to enhance the fidelity and quality of generated images. We further curate an evaluation benchmark for assessing the performance of the open-world concept decomposition task. Our approach can effectively generate high-quality images of the decomposed concepts and produce related lexical predictions as secondary outcomes. Extensive qualitative and quantitative experiments demonstrate the effectiveness of CusConcept.
翻訳日:2024-11-05 05:56:31 公開日:2024-10-01
# TikGuard:子供向けの不適切なTikTokコンテンツを検出するディープラーニングトランスフォーマーベースのソリューション

TikGuard: A Deep Learning Transformer-Based Solution for Detecting Unsuitable TikTok Content for Kids ( http://arxiv.org/abs/2410.00403v1 )

ライセンス: Link先を確認
Mazen Balat, Mahmoud Essam Gabr, Hend Bakr, Ahmed B. Zaky, (参考訳) TikTokのようなプラットフォームでのショートフォームビデオの出現は、若い視聴者を不適切なコンテンツから守るという新たな課題をもたらしている。 従来のモデレーション手法は、ユーザー生成ビデオの広範で急速に変化する景観を扱うのに不足することが多く、有害物質に遭遇する子供のリスクを増大させる。 本稿では,TikGuardについて紹介する。TikGuardは,TikTokの子供に適さないコンテンツの検出とフラグ付けを目的とした,トランスフォーマーベースのディープラーニングアプローチである。 特別にキュレートされたデータセットであるTikHarmを使用し、高度なビデオ分類技術を活用することで、TikGuardは86.7%の精度を達成した。 直接比較はTikHarmデータセットのユニークさによって制限されているが、TikGuardのパフォーマンスはコンテンツモデレーションの強化の可能性を強調し、未成年者にとってより安全なオンラインエクスペリエンスに寄与している。 本研究は,映像分類におけるトランスフォーマーモデルの有効性を強調し,この領域における今後の研究の基盤となる。

The rise of short-form videos on platforms like TikTok has brought new challenges in safeguarding young viewers from inappropriate content. Traditional moderation methods often fall short in handling the vast and rapidly changing landscape of user-generated videos, increasing the risk of children encountering harmful material. This paper introduces TikGuard, a transformer-based deep learning approach aimed at detecting and flagging content unsuitable for children on TikTok. By using a specially curated dataset, TikHarm, and leveraging advanced video classification techniques, TikGuard achieves an accuracy of 86.7%, showing a notable improvement over existing methods in similar contexts. While direct comparisons are limited by the uniqueness of the TikHarm dataset, TikGuard's performance highlights its potential in enhancing content moderation, contributing to a safer online experience for minors. This study underscores the effectiveness of transformer models in video classification and sets a foundation for future research in this area.
翻訳日:2024-11-05 05:46:46 公開日:2024-10-01
# 3DGR-CAR:3Dガウス表現を用いた超スパース2次元X線像からの冠動脈再建

3DGR-CAR: Coronary artery reconstruction from ultra-sparse 2D X-ray views with a 3D Gaussians representation ( http://arxiv.org/abs/2410.00404v1 )

ライセンス: Link先を確認
Xueming Fu, Yingtai Li, Fenghe Tang, Jun Li, Mingyue Zhao, Gao-Jun Teng, S. Kevin Zhou, (参考訳) 3D冠動脈再建は,冠動脈疾患の診断,治療計画,手術ナビゲーションに重要である。 従来の再建技術は、しばしば多くの投射を必要とするが、スパースビューのX線投射からの再構成は、放射線線量を減らす潜在的方法である。 しかし, 冠状動脈の3次元容積, 超限の投射は, 効率的かつ正確な3次元再建に重要な課題となる。 そこで本研究では,3DGR-CAR(3D Gaussian Representation for Coronary Artery Reconstruction)を提案する。 超スパース・ビュー・プロジェクションからうるさいガウスの初期化を克服するガウス中心予測器を提案する。 提案手法により, 高速かつ高精度な3次元冠動脈再建が可能となった。 2つのデータセットによる実験結果から,本手法は冠状動脈のボクセル精度と視覚的品質において,他の方法よりも有意に優れていた。 コードはhttps://github.com/windrise/3DGR-CARで入手できる。

Reconstructing 3D coronary arteries is important for coronary artery disease diagnosis, treatment planning and operation navigation. Traditional reconstruction techniques often require many projections, while reconstruction from sparse-view X-ray projections is a potential way of reducing radiation dose. However, the extreme sparsity of coronary arteries in a 3D volume and ultra-limited number of projections pose significant challenges for efficient and accurate 3D reconstruction. To this end, we propose 3DGR-CAR, a 3D Gaussian Representation for Coronary Artery Reconstruction from ultra-sparse X-ray projections. We leverage 3D Gaussian representation to avoid the inefficiency caused by the extreme sparsity of coronary artery data and propose a Gaussian center predictor to overcome the noisy Gaussian initialization from ultra-sparse view projections. The proposed scheme enables fast and accurate 3D coronary artery reconstruction with only 2 views. Experimental results on two datasets indicate that the proposed approach significantly outperforms other methods in terms of voxel accuracy and visual quality of coronary arteries. The code will be available in https://github.com/windrise/3DGR-CAR.
翻訳日:2024-11-05 05:46:46 公開日:2024-10-01
# ECORS: 協調フィルタリングレコメンダシステムにおける局所的およびグローバルなアウトレイラを根絶するための集合クラスタリングアプローチ

ECORS: An Ensembled Clustering Approach to Eradicate The Local And Global Outlier In Collaborative Filtering Recommender System ( http://arxiv.org/abs/2410.00408v1 )

ライセンス: Link先を確認
Mahamudul Hasan, (参考訳) リコメンダシステムは、ユーザの好みに基づいてアイテムを提案するように設計されており、インターネット上で利用可能な膨大な情報をナビゲートするのに役立つ。 圧倒的な内容を考えると、リコメンダシステムにおける重要な研究領域として、外れ値検出が登場している。 ユーザ行動の異常なパターンや不審なパターンを識別する。 しかし、この分野での既存の研究は、アルゴリズムの普遍性に限界があること、ユーザー選択の困難さ、最適化の欠如など、いくつかの課題に直面している。 本稿では,様々なクラスタリングアルゴリズムを用いて,これらの課題に対処する手法を提案する。 具体的には,ユーザ・ユーザ・マトリックス・ベースのクラスタリング手法を用いて,外乱検出を行う。 ユーザ・ユーザ・マトリックスを構築することにより、システム内の疑わしいユーザを特定することができる。 局所的およびグローバルな外れ値が検出され、包括的な分析が保証される。 実験の結果,提案手法はリコメンデータシステムにおける異常検出の精度を大幅に向上させることが示された。

Recommender systems are designed to suggest items based on user preferences, helping users navigate the vast amount of information available on the internet. Given the overwhelming content, outlier detection has emerged as a key research area in recommender systems. It involves identifying unusual or suspicious patterns in user behavior. However, existing studies in this field face several challenges, including the limited universality of algorithms, difficulties in selecting users, and a lack of optimization. In this paper, we propose an approach that addresses these challenges by employing various clustering algorithms. Specifically, we utilize a user-user matrix-based clustering technique to detect outliers. By constructing a user-user matrix, we can identify suspicious users in the system. Both local and global outliers are detected to ensure comprehensive analysis. Our experimental results demonstrate that this approach significantly improves the accuracy of outlier detection in recommender systems.
翻訳日:2024-11-05 05:46:46 公開日:2024-10-01
# AlignSum: 人間の要約選好に合わせたデータピラミッド階層的微調整

AlignSum: Data Pyramid Hierarchical Fine-tuning for Aligning with Human Summarization Preference ( http://arxiv.org/abs/2410.00409v1 )

ライセンス: Link先を確認
Yang Han, Yiming Wang, Rui Wang, Lu Chen, Kai Yu, (参考訳) テキスト要約タスクは、様々な標準データセットに適合するために、通常PLM(Pre-trained Language Models)を使用する。 これらのPLMは自動評価において優れるが、人間の評価では性能が劣ることが多く、生成された要約と人間の要約の好みのずれが示される。 この違いは、微調整データセットの品質の低さと、真の人間の好みを反映した高品質な人間の注釈付きデータの可用性の制限による可能性が高い。 この課題に対処するために、新しい人間の要約選好アライメントフレームワークAlignSumを紹介する。 このフレームワークは3つの部分から構成される: まず、抽出的、抽象的、人間による注釈付き要約データからなるData Pymaridを構築する。 第二に、極端の長さの要約を除去するためにガウス再サンプリングを行う。 最後に、ガウス再サンプリング後にData Pymaridを用いて、2段階の階層的な微調整を実装した。 人間の注釈付きCNN/DailyMailとBBC XSumのデータセットにAlignSumをPLMに適用する。 実験によると、AlignSumでは、BART-LargeのようなPLMが自動評価と人的評価の両方で175B GPT-3を上回っている。 このことは、AlignSumが人間の要約の好みと言語モデルのアライメントを著しく向上させることを示している。

Text summarization tasks commonly employ Pre-trained Language Models (PLMs) to fit diverse standard datasets. While these PLMs excel in automatic evaluations, they frequently underperform in human evaluations, indicating a deviation between their generated summaries and human summarization preferences. This discrepancy is likely due to the low quality of fine-tuning datasets and the limited availability of high-quality human-annotated data that reflect true human preference. To address this challenge, we introduce a novel human summarization preference alignment framework AlignSum. This framework consists of three parts: Firstly, we construct a Data Pymarid with extractive, abstractive, and human-annotated summary data. Secondly, we conduct the Gaussian Resampling to remove summaries with extreme lengths. Finally, we implement the two-stage hierarchical fine-tuning with Data Pymarid after Gaussian Resampling. We apply AlignSum to PLMs on the human-annotated CNN/DailyMail and BBC XSum datasets. Experiments show that with AlignSum, PLMs like BART-Large surpass 175B GPT-3 in both automatic and human evaluations. This demonstrates that AlignSum significantly enhances the alignment of language models with human summarization preferences.
翻訳日:2024-11-05 05:46:46 公開日:2024-10-01
# T1強調脳MRIにおける3次元スウィントランスのマルチタスク前処理

Domain Aware Multi-Task Pretraining of 3D Swin Transformer for T1-weighted Brain MRI ( http://arxiv.org/abs/2410.00410v1 )

ライセンス: Link先を確認
Jonghun Kim, Mansu Kim, Hyunjin Park, (参考訳) 注釈付医用画像の不足は、医用画像解析のための学習モデルを開発する上で、大きなボトルネックとなっている。 したがって、近年の研究は、様々な下流タスクに対して微調整できるアノテーションの要求が少ない事前訓練されたモデルに焦点を当てている。 しかし、既存のアプローチは、主に3次元医用画像データに不適な2次元アプローチの3次元適応である。 脳磁気共鳴画像(MRI)のための3Dスウィントランスフォーマーを事前訓練するためのドメイン認識型マルチタスク学習タスクを提案する。 脳の解剖学と形態学を取り入れた脳MRIの領域知識と、対照的な学習環境での3Dイメージングに適応した標準的な前提課題を考察した。 複数の大規模データベースにまたがる13,687サンプルの大規模な脳MRIデータを用いて,我々のモデルを事前訓練する。 本手法は,アルツハイマー病の分類,パーキンソン病の分類,年齢予測の3つの下流課題において,既存の指導的・自己監督的手法よりも優れていた。 提案したプレテキストタスクのアブレーション研究は,我々のプレテキストタスクの有効性を示す。

The scarcity of annotated medical images is a major bottleneck in developing learning models for medical image analysis. Hence, recent studies have focused on pretrained models with fewer annotation requirements that can be fine-tuned for various downstream tasks. However, existing approaches are mainly 3D adaptions of 2D approaches ill-suited for 3D medical imaging data. Motivated by this gap, we propose novel domain-aware multi-task learning tasks to pretrain a 3D Swin Transformer for brain magnetic resonance imaging (MRI). Our method considers the domain knowledge in brain MRI by incorporating brain anatomy and morphology as well as standard pretext tasks adapted for 3D imaging in a contrastive learning setting. We pretrain our model using large-scale brain MRI data of 13,687 samples spanning several large-scale databases. Our method outperforms existing supervised and self-supervised methods in three downstream tasks of Alzheimer's disease classification, Parkinson's disease classification, and age prediction tasks. The ablation study of the proposed pretext tasks shows the effectiveness of our pretext tasks.
翻訳日:2024-11-05 05:46:46 公開日:2024-10-01
# TPN:Few-shotドキュメンテーション-レベル関係抽出に向けたトランスファー可能なプロトラーニングネットワーク

TPN: Transferable Proto-Learning Network towards Few-shot Document-Level Relation Extraction ( http://arxiv.org/abs/2410.00412v1 )

ライセンス: Link先を確認
Yu Zhang, Zhao Kang, (参考訳) 文書レベルの関係抽出はNOTA(none-of-the-above)関係表現の難易度により性能が低下する。 本稿では,この課題に対処するため,Transferable Proto-Learning Network(TPN)を提案する。 ハイブリッドエンコーダ 階層的に入力テキストの意味内容をアテンション情報と組み合わせてエンコードし、関係表現を強化する。 Out-of-Domain (OOD) 検出のためのプラグアンドプレイモジュールとして、Transferable Proto-Learner はNOTA プロトタイプを適応可能なブロックで計算し、NOTA バイアスを効果的に軽減する。 動的重みキャリブレータは、関係性固有の分類信頼度を検出し、NOTA優位損失関数を校正するための動的重みとして機能する。 最後に、モデルのクロスドメインパフォーマンスを強化するために、仮想敵訓練(VAT)を補完する。 FREDo と ReFREDo について広範な実験的解析を行い,TPN の優位性を実証した。 提案手法は最先端手法と比較して,約半分のパラメータサイズで競合性能を実現する。 データとコードはhttps://github.com/EchoDreamer/TPN.comで入手できる。

Few-shot document-level relation extraction suffers from poor performance due to the challenging cross-domain transferability of NOTA (none-of-the-above) relation representation. In this paper, we introduce a Transferable Proto-Learning Network (TPN) to address the challenging issue. It comprises three core components: Hybrid Encoder hierarchically encodes semantic content of input text combined with attention information to enhance the relation representations. As a plug-and-play module for Out-of-Domain (OOD) Detection, Transferable Proto-Learner computes NOTA prototype through an adaptive learnable block, effectively mitigating NOTA bias across various domains. Dynamic Weighting Calibrator detects relation-specific classification confidence, serving as dynamic weights to calibrate the NOTA-dominant loss function. Finally, to bolster the model's cross-domain performance, we complement it with virtual adversarial training (VAT). We conduct extensive experimental analyses on FREDo and ReFREDo, demonstrating the superiority of TPN. Compared to state-of-the-art methods, our approach achieves competitive performance with approximately half the parameter size. Data and code are available at https://github.com/EchoDreamer/TPN.
翻訳日:2024-11-05 05:46:46 公開日:2024-10-01
# 後方平均整流流:最小MSE光リアリスティック画像復元に向けて

Posterior-Mean Rectified Flow: Towards Minimum MSE Photo-Realistic Image Restoration ( http://arxiv.org/abs/2410.00418v1 )

ライセンス: Link先を確認
Guy Ohayon, Tomer Michaeli, Michael Elad, (参考訳) 光リアル画像復元アルゴリズムは通常、歪み測定(例えば、PSNR、SSIM)と知覚品質測定(例えば、FID、NIQE)で評価される。 この目的を達成するために、現在の手法は通常、後部分布からサンプリングしたり、歪み損失(e , MSE)と知覚品質損失(e , GAN)の重み付け和を最適化しようとする。 従来と異なり,本論文では,完全知覚指数の制約の下でMSEを最小化する最適推定器について検討した。 近年の理論的結果から,後部平均予測(MMSE推定)を地中構造画像の分布に最適に移動させることで,そのような推定器を構築できることが示唆された。 この結果にインスパイアされた後平均整流(PMRF)は,この最適推定器を近似した単純かつ高効率なアルゴリズムである。 特に、PMRFはまず後部平均を予測し、次に所望の最適輸送マップを近似した整流モデルを用いて高品質な画像に転送する。 PMRFの理論的有用性について検討し,様々な画像復元作業において従来手法よりも一貫して優れていることを示す。

Photo-realistic image restoration algorithms are typically evaluated by distortion measures (e.g., PSNR, SSIM) and by perceptual quality measures (e.g., FID, NIQE), where the desire is to attain the lowest possible distortion without compromising on perceptual quality. To achieve this goal, current methods typically attempt to sample from the posterior distribution, or to optimize a weighted sum of a distortion loss (e.g., MSE) and a perceptual quality loss (e.g., GAN). Unlike previous works, this paper is concerned specifically with the optimal estimator that minimizes the MSE under a constraint of perfect perceptual index, namely where the distribution of the reconstructed images is equal to that of the ground-truth ones. A recent theoretical result shows that such an estimator can be constructed by optimally transporting the posterior mean prediction (MMSE estimate) to the distribution of the ground-truth images. Inspired by this result, we introduce Posterior-Mean Rectified Flow (PMRF), a simple yet highly effective algorithm that approximates this optimal estimator. In particular, PMRF first predicts the posterior mean, and then transports the result to a high-quality image using a rectified flow model that approximates the desired optimal transport map. We investigate the theoretical utility of PMRF and demonstrate that it consistently outperforms previous methods on a variety of image restoration tasks.
翻訳日:2024-11-05 05:46:46 公開日:2024-10-01
# LLMはいくつかの質問が未解決であることに気付いているか?

Are LLMs Aware that Some Questions are not Open-ended? ( http://arxiv.org/abs/2410.00423v1 )

ライセンス: Link先を確認
Dongjie Yang, Hai Zhao, (参考訳) 大きな言語モデル(LLM)は、幅広いシナリオで質問に答える素晴らしい能力を示している。 しかし、LLMが異なる種類の質問に直面している場合、LLMがいくつかの質問に限定的な回答があり、より決定論的に答える必要があると認識しているかどうかを調査する価値がある。 我々はこれをLLMの疑問認識と呼んでいる。 LLM における疑問認識の欠如は,(1) オープンでない質問に答えるにはカジュアルすぎる,(2) オープンな質問に答えるには退屈すぎる,という2つの現象をもたらす。 本稿ではまず,LLMにおける質問意識を評価する。 実験の結果, LLMは, 特定の領域における質問に対する意識の欠如, 例えば, 事実知識の欠如, 世代間の幻覚の原因となっていることがわかった。 これらを緩和するために,質問認識温度サンプリング(QuATS)と呼ばれる手法を提案する。 本手法は,質問特徴に基づいて出力分布を適応的に調整することにより,LCMの疑問意識を高める。 QuATSにおける自動調整は、テキスト生成における手動温度調整の必要性を排除し、様々なベンチマークにおけるモデル性能を一貫して改善する。

Large Language Models (LLMs) have shown the impressive capability of answering questions in a wide range of scenarios. However, when LLMs face different types of questions, it is worth exploring whether LLMs are aware that some questions have limited answers and need to respond more deterministically but some do not. We refer to this as question awareness of LLMs. The lack of question awareness in LLMs leads to two phenomena that LLMs are: (1) too casual to answer non-open-ended questions or (2) too boring to answer open-ended questions. In this paper, we first evaluate the question awareness in LLMs. The experimental results show that LLMs have the issues of lacking awareness of questions in certain domains, e.g. factual knowledge, resulting in hallucinations during the generation. To mitigate these, we propose a method called Question Awareness Temperature Sampling (QuATS). This method enhances the question awareness of LLMs by adaptively adjusting the output distributions based on question features. The automatic adjustment in QuATS eliminates the need for manual temperature tuning in text generation and consistently improves model performance in various benchmarks.
翻訳日:2024-11-05 05:46:46 公開日:2024-10-01
# ManiSkill3: 汎用エンボダイドAIのためのGPU並列ロボットシミュレーションとレンダリング

ManiSkill3: GPU Parallelized Robotics Simulation and Rendering for Generalizable Embodied AI ( http://arxiv.org/abs/2410.00425v1 )

ライセンス: Link先を確認
Stone Tao, Fanbo Xiang, Arth Shukla, Yuzhe Qin, Xander Hinrichsen, Xiaodi Yuan, Chen Bao, Xinsong Lin, Yulin Liu, Tse-kai Chan, Yuan Gao, Xuanlin Li, Tongzhou Mu, Nan Xiao, Arnav Gurha, Zhiao Huang, Roberto Calandra, Rui Chen, Shan Luo, Hao Su, (参考訳) シミュレーションは、ロボット学習に対する前例のない計算計算可能なアプローチを可能にした。 しかし、多くの既存のシミュレーションフレームワークは、通常、限られたシーン/タスクをサポートし、一般化可能なロボティクスやsim2realのスケーリングに欠如している。 ManiSkill3は、汎用的な操作をターゲットとしたコンタクトリッチな物理を備えた、最先端のGPU並列化ロボットシミュレータである。 ManiSkill3は、シミュレーション+レンダリング、異種シミュレーション、ポイントクラウド/ボクセルビジュアル入力など、多くの面でGPU並列化をサポートしている。 ManiSkill3のレンダリングによるシミュレーションは、他のプラットフォームよりも2~3倍少ないGPUメモリ使用率で10~1000倍高速に動作し、システムのピソン/ピトルチオーバーヘッドを最小限に抑え、SAPIEN並列レンダリングシステムの使用により、ベンチマーク環境で最大30,000以上のFPSを達成できる。 訓練に何時間もかかったタスクは数分かかる。 さらに、アーティストや現実世界のデジタル双生児がデザインした現実的なシーンにおいて、描画、ヒューマノイド、および押出操作のようなタスクに対するモバイル操作に限らず、12の異なるドメインにまたがる最も包括的なGPU並列化環境/タスクも提供します。 さらに、数百万のデモフレームがモーションプランニング、RL、遠隔操作から提供されている。 ManiSkill3はまた、人気のあるRLとデモから学ぶアルゴリズムにまたがる、包括的なベースラインセットも提供している。

Simulation has enabled unprecedented compute-scalable approaches to robot learning. However, many existing simulation frameworks typically support a narrow range of scenes/tasks and lack features critical for scaling generalizable robotics and sim2real. We introduce and open source ManiSkill3, the fastest state-visual GPU parallelized robotics simulator with contact-rich physics targeting generalizable manipulation. ManiSkill3 supports GPU parallelization of many aspects including simulation+rendering, heterogeneous simulation, pointclouds/voxels visual input, and more. Simulation with rendering on ManiSkill3 can run 10-1000x faster with 2-3x less GPU memory usage than other platforms, achieving up to 30,000+ FPS in benchmarked environments due to minimal python/pytorch overhead in the system, simulation on the GPU, and the use of the SAPIEN parallel rendering system. Tasks that used to take hours to train can now take minutes. We further provide the most comprehensive range of GPU parallelized environments/tasks spanning 12 distinct domains including but not limited to mobile manipulation for tasks such as drawing, humanoids, and dextrous manipulation in realistic scenes designed by artists or real-world digital twins. In addition, millions of demonstration frames are provided from motion planning, RL, and teleoperation. ManiSkill3 also provides a comprehensive set of baselines that span popular RL and learning-from-demonstrations algorithms.
翻訳日:2024-11-05 05:46:46 公開日:2024-10-01
# 知識グラフを用いた学術論文の会話探索

Conversational Exploratory Search of Scholarly Publications Using Knowledge Graphs ( http://arxiv.org/abs/2410.00427v1 )

ライセンス: Link先を確認
Phillip Schneider, Florian Matthes, (参考訳) 従来の検索手法は主に文字列マッチングに依存し、セマンティック検索は基本となる意図と検索用語の文脈的意味を認識することによって概念ベースのマッチングを目標とする。 セマンティック検索は、ユーザの検索語と文書内容の語彙の違いが一般的であり、しばしば無関係な検索結果をもたらす学術出版物を見つけるのに特に有用である。 多くの学術検索エンジンは、著者、出版物、研究概念間の意味関係を表現するために知識グラフを採用している。 しかし、ユーザーは、これらのグラフィカルな検索インターフェイスをナビゲートする際に、データの複雑さとボリュームのために困難に直面し、出版物を効果的に発見する能力を阻害する。 この問題に対処するために,知識グラフを用いた学術出版物探索のための会話検索システムを開発した。 提案システムの設計と実装に関する方法論的アプローチについて概説し,そのアーキテクチャと機能的コンポーネントについて詳述する。 システムの有効性を評価するため,40名の被験者と人的評価を行い,対話インタフェースがグラフィカルインタフェースと従来のテキスト検索とどのように比較されるかを示した。 本評価から得られた知見は,対話型検索システムの設計を推し進めるための実践的な洞察を与えるものである。

Traditional search methods primarily depend on string matches, while semantic search targets concept-based matches by recognizing underlying intents and contextual meanings of search terms. Semantic search is particularly beneficial for discovering scholarly publications where differences in vocabulary between users' search terms and document content are common, often yielding irrelevant search results. Many scholarly search engines have adopted knowledge graphs to represent semantic relations between authors, publications, and research concepts. However, users may face challenges when navigating these graphical search interfaces due to the complexity and volume of data, which impedes their ability to discover publications effectively. To address this problem, we developed a conversational search system for exploring scholarly publications using a knowledge graph. We outline the methodical approach for designing and implementing the proposed system, detailing its architecture and functional components. To assess the system's effectiveness, we employed various performance metrics and conducted a human evaluation with 40 participants, demonstrating how the conversational interface compares against a graphical interface with traditional text search. The findings from our evaluation provide practical insights for advancing the design of conversational search systems.
翻訳日:2024-11-05 05:46:46 公開日:2024-10-01
# レベル縮退工学に基づくKerr-cat量子ビットの残差$Z$結合抑制と高速2量子ゲート

Residual-$ZZ$-coupling suppression and fast two-qubit gate for Kerr-cat qubits based on level-degeneracy engineering ( http://arxiv.org/abs/2410.00431v1 )

ライセンス: Link先を確認
Takaaki Aoki, Akiyoshi Tomonaga, Kosuke Mizuno, Shumpei Masuda, (参考訳) 大規模量子コンピュータの構築には、残差結合による不要なクロストークを回避し、高速なマルチキュービット演算を実現するために、高いオンオフ比を持つビット間カップリング方式が必要となる。 周波数可変カプラを持つ2つのKerr-cat量子ビットに対する$Z$-couplingスキームを提案する。 2つのKerr-cat量子ビットの4つの関連状態を4次縮退させることで、$ZZ$結合をオフにすることができる。 レベルデジェネリティーを部分的に持ち上げることで、スイッチをオンにできます。 理論的には、実験可能な回路モデルが残余の$ZZ$結合を抑制することを示す。 さらに、デコヒーレンスを無視した場合、この回路は$R_{ZZ}(-\pi/2)$-gatefidelityが$99.999\%$より高い値で実現できる。

Building large-scale quantum computers requires an interqubit-coupling scheme with a high on-off ratio to avoid unwanted crosstalk coming from residual coupling and to enable fast multi-qubit operations. We propose a $ZZ$-coupling scheme for two Kerr-cat qubits with a frequency-tunable coupler. By making four relevant states of the two Kerr-cat qubits quadruply degenerate, we can switch off the $ZZ$ coupling. By partially lifting the level degeneracy, we can switch it on. We theoretically show that an experimentally feasible circuit model suppresses the residual $ZZ$ coupling. Moreover, our circuit can realize $R_{ZZ}(-\pi/2)$-gate fidelity higher than $99.999\%$ within $25\,$ns when decoherence is ignored.
翻訳日:2024-11-05 05:36:46 公開日:2024-10-01
# 分子特性予測のためのスケーラブルなマルチタスク伝達学習

Scalable Multi-Task Transfer Learning for Molecular Property Prediction ( http://arxiv.org/abs/2410.00432v1 )

ライセンス: Link先を確認
Chanhui Lee, Dae-Woong Jeong, Sung Moon Ko, Sumin Lee, Hyunseung Kim, Soorin Yim, Sehui Han, Sungwoong Kim, Sungbin Lim, (参考訳) 分子はいくつかの異なる性質を持ち、その重要性と応用は様々である。 実際には、実際的な重要性にもかかわらず、いくつかの特性のラベルは達成し難いことが多い。 このようなデータ不足に対する一般的な解決策は、伝達学習による優れた一般化モデルを使用することである。 これには、ソースを設計するためのドメインエキスパートと、機能を共有するターゲットタスクが含まれる。 しかし、このアプローチには制限がある。 i)。 タスク数の多さによるソースターゲットタスクペアの正確な設計の難しさと問題点 i)。 伝達学習設計の多くの試行錯誤を検証し,それに対応する計算負担 iii)。 マルチタスク分子特性予測の基礎モデリングの可能性を制限する。 データ駆動バイレベル最適化によるトランスファーラーニングの手動設計の限界に対処する。 提案手法は, 最適転移率を自動的に取得することにより, 分子特性予測のためのスケーラブルなマルチタスク変換学習を可能にする。 実験により,提案手法は40の分子特性の予測性能を向上し,トレーニング収束を加速した。

Molecules have a number of distinct properties whose importance and application vary. Often, in reality, labels for some properties are hard to achieve despite their practical importance. A common solution to such data scarcity is to use models of good generalization with transfer learning. This involves domain experts for designing source and target tasks whose features are shared. However, this approach has limitations: i). Difficulty in accurate design of source-target task pairs due to the large number of tasks, and ii). corresponding computational burden verifying many trials and errors of transfer learning design, thereby iii). constraining the potential of foundation modeling of multi-task molecular property prediction. We address the limitations of the manual design of transfer learning via data-driven bi-level optimization. The proposed method enables scalable multi-task transfer learning for molecular property prediction by automatically obtaining the optimal transfer ratios. Empirically, the proposed method improved the prediction performance of 40 molecular properties and accelerated training convergence.
翻訳日:2024-11-05 05:36:46 公開日:2024-10-01
# 均一暗号化とLoRAを備えたPrivTuner:AIファンデーションモデルのプライバシ保護パラメータ効率の良い微調整のためのP3EFTスキーム

PrivTuner with Homomorphic Encryption and LoRA: A P3EFT Scheme for Privacy-Preserving Parameter-Efficient Fine-Tuning of AI Foundation Models ( http://arxiv.org/abs/2410.00433v1 )

ライセンス: Link先を確認
Yang Li, Wenhan Yu, Jun Zhao, (参考訳) AIファウンデーションモデルは、最近、幅広いタスクで印象的な能力を実証した。 ファインチューニング(FT)は、トレーニング済みのAIファンデーションモデルを、より小さなターゲットデータセットでトレーニングすることでカスタマイズする手法である。 本稿では,パラメータ効率FT(PEFT)とプライバシ効率FT(PPFT)の交点と見なすことができるプライバシ保存パラメータ効率FT(P3EFT)フレームワークの研究を開始する。 PEFTはFTを達成するためにモデルのパラメータの小さなサブセットだけを変更する(すなわち、訓練済みのモデルを特定のデータセットに適応させる)が、PPFTはFTプロセス中にモデルの機密性を保護するためにプライバシー保護技術を使用する。 PEFT や PPFT については多くの研究がなされているが,その融合はごくわずかであり,パラメータ効率とモデルプライバシの両方を達成するための P3EFT への取り組みを動機付けている。 P3EFTを例示するために,FHE(Fully Homomorphic Encryption)を組み込んだPrivTunerスキームをLoRA(‘Low-Rank Adapter’の略)に実装した。 直感的には、PrivTunerはモデル所有者と外部データ所有者がPEFTを暗号化データで共同で実装できるようにする。 PrivTunerの詳細を説明した後、エネルギー消費とプライバシー保護をさらに調査する。 次に、無線通信上のPrivTunerシステムについて検討し、FDMA帯域割り当て、無線伝送電力、計算資源割り当て、プライバシ保護などの最適化変数を用いて、プライバシ保護を最大化しつつ、エネルギーを適応的に最小化する共同最適化問題を定式化する。 この問題を解決するために資源割当アルゴリズムを考案した。 実験により,我々のアルゴリズムは,異なるプライバシー要件に適応しながら,エネルギー消費を大幅に削減できることが示された。

AI foundation models have recently demonstrated impressive capabilities across a wide range of tasks. Fine-tuning (FT) is a method of customizing a pre-trained AI foundation model by further training it on a smaller, targeted dataset. In this paper, we initiate the study of the Privacy-Preserving Parameter-Efficient FT (P3EFT) framework, which can be viewed as the intersection of Parameter-Efficient FT (PEFT) and Privacy-Preserving FT (PPFT). PEFT modifies only a small subset of the model's parameters to achieve FT (i.e., adapting a pre-trained model to a specific dataset), while PPFT uses privacy-preserving technologies to protect the confidentiality of the model during the FT process. There have been many studies on PEFT or PPFT but very few on their fusion, which motivates our work on P3EFT to achieve both parameter efficiency and model privacy. To exemplify our P3EFT, we present the PrivTuner scheme, which incorporates Fully Homomorphic Encryption (FHE) enabled privacy protection into LoRA (short for ``Low-Rank Adapter''). Intuitively speaking, PrivTuner allows the model owner and the external data owners to collaboratively implement PEFT with encrypted data. After describing PrivTuner in detail, we further investigate its energy consumption and privacy protection. Then, we consider a PrivTuner system over wireless communications and formulate a joint optimization problem to adaptively minimize energy while maximizing privacy protection, with the optimization variables including FDMA bandwidth allocation, wireless transmission power, computational resource allocation, and privacy protection. A resource allocation algorithm is devised to solve the problem. Experiments demonstrate that our algorithm can significantly reduce energy consumption while adapting to different privacy requirements.
翻訳日:2024-11-05 05:36:46 公開日:2024-10-01
# LLM強化ロボットの認知リスク

Deceptive Risks in LLM-enhanced Robots ( http://arxiv.org/abs/2410.00434v1 )

ライセンス: Link先を確認
Robert Ranisch, Joschka Haltaufderheide, (参考訳) 本稿では,Large Language Models (LLMs) の社会ロボットへの統合における重要な欠陥について検討する。 ChatGPTを含むLSMは、薬物摂取の通知を設定するなど、誤ってリマインダー機能を持つと主張した。 We tested commercially available care software which integrated ChatGPT, running on the Pepper Robot, and continuous production this deceptive pattern。 システムは、リマインダーを設定する能力を誤って主張しただけでなく、薬物スケジュールの管理も積極的に提案した。 この問題の持続性は、システムの信頼性が最重要である医療設定において重大なリスクをもたらす。 このケースは、LSM統合されたロボットを医療に配置する際の倫理的および安全性上の懸念を強調し、脆弱な人口に対する潜在的有害な影響を防ぐための規制監督の緊急の必要性を強調している。

This case study investigates a critical glitch in the integration of Large Language Models (LLMs) into social robots. LLMs, including ChatGPT, were found to falsely claim to have reminder functionalities, such as setting notifications for medication intake. We tested commercially available care software, which integrated ChatGPT, running on the Pepper robot and consistently reproduced this deceptive pattern. Not only did the system falsely claim the ability to set reminders, but it also proactively suggested managing medication schedules. The persistence of this issue presents a significant risk in healthcare settings, where system reliability is paramount. This case highlights the ethical and safety concerns surrounding the deployment of LLM-integrated robots in healthcare, emphasizing the urgent need for regulatory oversight to prevent potentially harmful consequences for vulnerable populations.
翻訳日:2024-11-05 05:36:46 公開日:2024-10-01
# EKAN: Equivariant Kolmogorov-Arnold Networks

EKAN: Equivariant Kolmogorov-Arnold Networks ( http://arxiv.org/abs/2410.00435v1 )

ライセンス: Link先を確認
Lexiang Hu, Yisen Wang, Zhouchen Lin, (参考訳) Kolmogorov-Arnold Networks (KAN) はスプライン活性化機能により科学分野で大きな成功を収め、MLP(Multi-Layer Perceptrons)の代替となった。 しかし、スプライン関数は、機械学習において重要な事前知識であるタスクの対称性を尊重しないかもしれない。 以前は、同変ネットワークはアーキテクチャに対称性を組み込み、特定のアプリケーションでより良い性能を達成していた。 このうち、等変多層パーセプトロン (EMLP) は任意の行列群を MLP に導入し、同変ネットワーク層を層単位で構築するための一般的な枠組みを提供する。 本稿では,Kans に行列群等分散を組み込む手法である Equivariant Kolmogorov-Arnold Networks (EKAN) を提案する。 まず、同変線形重みとともにEKAN層を形成するゲートスプライン基底関数を構築する。 次に、EKANの入力空間とデータセットの特徴空間を整合させるリフト層を定義し、EKANアーキテクチャ全体を構築する。 ベースラインモデルと比較して、EKANは、粒子散乱や3体問題といった対称性に関連したタスクにおいて、より小さなデータセットやより少ないパラメータで高い精度を達成する。 EKANは3つのジェット成分を持つトップクォークタギングのようなシンボリックな公式のシナリオでも、パラメータのわずか26 %$でEMLPと同等の結果を得る。

Kolmogorov-Arnold Networks (KANs) have seen great success in scientific domains thanks to spline activation functions, becoming an alternative to Multi-Layer Perceptrons (MLPs). However, spline functions may not respect symmetry in tasks, which is crucial prior knowledge in machine learning. Previously, equivariant networks embed symmetry into their architectures, achieving better performance in specific applications. Among these, Equivariant Multi-Layer Perceptrons (EMLP) introduce arbitrary matrix group equivariance into MLPs, providing a general framework for constructing equivariant networks layer by layer. In this paper, we propose Equivariant Kolmogorov-Arnold Networks (EKAN), a method for incorporating matrix group equivariance into KANs, aiming to broaden their applicability to more fields. First, we construct gated spline basis functions, which form the EKAN layer together with equivariant linear weights. We then define a lift layer to align the input space of EKAN with the feature space of the dataset, thereby building the entire EKAN architecture. Compared with baseline models, EKAN achieves higher accuracy with smaller datasets or fewer parameters on symmetry-related tasks, such as particle scattering and the three-body problem, often reducing test MSE by several orders of magnitude. Even in non-symbolic formula scenarios, such as top quark tagging with three jet constituents, EKAN achieves comparable results with EMLP using only $26\%$ of the parameters, while KANs do not outperform MLPs as expected.
翻訳日:2024-11-05 05:36:46 公開日:2024-10-01
# 多レベルアライメント表現に基づくオープン語彙操作のタスク成功予測

Task Success Prediction for Open-Vocabulary Manipulation Based on Multi-Level Aligned Representations ( http://arxiv.org/abs/2410.00436v1 )

ライセンス: Link先を確認
Miyu Goko, Motonari Kambara, Daichi Saito, Seitaro Otsuki, Komei Sugiura, (参考訳) 本研究では,操作前後の指示文とエゴセントリックな画像に基づいて,マニピュレータによるオープン語彙操作におけるタスク成功予測の問題を検討する。 MLLM(Multimodal large language model)を含む従来のアプローチでは、オブジェクトの詳細な特性やオブジェクトの位置の微妙な変化を適切に理解できないことが多い。 Contrastive $\lambda$-Repformerを提案する。 提案手法は, 局所的な画像情報を保存する機能, 自然言語に整合した機能, 自然言語を通して構造化された機能, の3つの重要な特徴を多段階整列表現に統合する。 これにより、2つの画像間の表現の違いを見て、重要な変化に焦点を合わせることができる。 Contrastive $\lambda$-Repformerを、大規模標準データセット、RT-1データセット、物理ロボットプラットフォームに基づいて評価する。 その結果,本手法はMLLMなどの既存手法よりも優れていた。 MLLMモデルよりも精度が8.66ポイント向上した。

In this study, we consider the problem of predicting task success for open-vocabulary manipulation by a manipulator, based on instruction sentences and egocentric images before and after manipulation. Conventional approaches, including multimodal large language models (MLLMs), often fail to appropriately understand detailed characteristics of objects and/or subtle changes in the position of objects. We propose Contrastive $\lambda$-Repformer, which predicts task success for table-top manipulation tasks by aligning images with instruction sentences. Our method integrates the following three key types of features into a multi-level aligned representation: features that preserve local image information; features aligned with natural language; and features structured through natural language. This allows the model to focus on important changes by looking at the differences in the representation between two images. We evaluate Contrastive $\lambda$-Repformer on a dataset based on a large-scale standard dataset, the RT-1 dataset, and on a physical robot platform. The results show that our approach outperformed existing approaches including MLLMs. Our best model achieved an improvement of 8.66 points in accuracy compared to the representative MLLM-based model.
翻訳日:2024-11-05 05:36:46 公開日:2024-10-01
# スピン機械式熱機械

Spin-mechanical thermal machines ( http://arxiv.org/abs/2410.00439v1 )

ライセンス: Link先を確認
Mohamed Hatifi, Anshuman Nayak, Jason Twamley, (参考訳) 本研究では,NV中心スピンを機械振動子に結合した量子電池と量子オットー熱機関を構築する方法を提案する。 高精度にNVスピンを制御することにより,従来の仮定に反し,効率的なエネルギー交換が可能となる。 これにより、ロバストな量子電池と、発振器をその基底状態に向かって駆動する冷却スキームが導かれる。 これを利用して、熱湯から切り離すことなく最大効率で機械的作業を生成する量子オットーエンジンを実装し、実用的な量子熱機械の道を開く。

We introduce a method to construct a quantum battery and a quantum Otto heat engine using a Nitrogen-Vacancy (NV) center spin coupled to a mechanical oscillator in a highly detuned regime. By precisely controlling the NV spin, we enable efficient energy exchange despite significant detuning, challenging conventional assumptions. This leads to a robust mechanical quantum battery and a cooling scheme driving the oscillator toward its ground state. Leveraging this, we implement a quantum Otto engine that produces mechanical work at maximum efficiency without decoupling from the hot bath, paving the way for practical quantum thermal machines.
翻訳日:2024-11-05 05:36:46 公開日:2024-10-01
# 重み付き単光子の時間的・空間的相関に基づくビームスプリッタフリー高ビットレート量子乱数生成器

Beamsplitter-free, high bit-rate, quantum random number generator based on temporal and spatial correlations of heralded single-photons ( http://arxiv.org/abs/2410.00440v1 )

ライセンス: Link先を確認
Ayan Kumar Nai, Amritash Sharma, Vimlesh Kumar, Sandeep Singh, Shreya Mishra, C. M. Chandrashekar, G. K. Samanta, (参考訳) 自然パラメトリックダウン変換(SPDC)は、本質的にランダムな量子過程であり、エネルギーと運動量保存の両方によって強い時間的および空間的相関を持つ非決定論的光子対を生成する。 したがって、SPDCベースの光子対は、量子乱数生成(QRNG)に使用される。 典型的には、空間補正を完全に調べることなくQRNGには理想的な非バイアスビームスプリッターと時間的相関が用いられる。 その結果、SPDCベースのQRNGはビットレートが低い。 一方、空間的相関により、非線形位相整合幾何における光子対は、環状環空間分布上の対数的反対点においてランダムに生成される。 したがって、年輪の異なる部分からの光子対間の時間的相関を探索することは、ビームスプリッターの必要性を避けるために、多ビットQRNGを高速に導くことができる。 概念実証として,光子対の空間的相関を用いた高ビットレートQRNGについて,非コリナーのSPDCリングを分割し,縮退し,高明度源とし,両断面間の時間的相関について報告する。 高輝度光子対光源の環状リングを20mm長の型0相整合KTP結晶を周期的に4つのセクションに分割し,光子間の一致(1 ns)のタイムスタンプを記録し,0と1のビットを割り当てた。 本症例では95%以上の最小エントロピー評価を用いて抽出比を決定した。 Toeplitz行列ベースのポストプロセッシングを用いて、3Mbpsのビットレートを持つQRNGを達成し、すべてのNIST 800-22とTestU01テストスイートをパスした。 ジェネリック・スキームはSPDCリングをより分割することでビットレートをさらに高める可能性を示している。

The spontaneous parametric down-conversion (SPDC), an inherently random quantum process, produces a non-deterministic photon-pair with strong temporal and spatial correlations owing to both energy and momentum conservation. Therefore, the SPDC-based photon pairs are used for quantum random number generation (QRNG). Typically, temporal correlation in association with an ideal unbiased beam splitter is used for QRNG without fully exploring the spatial correction. As a result, SPDC-based QRNG has a low bit rate. On the other hand, due to the spatial correlation, the photon pairs in non-collinear phase-matched geometry are generated randomly in diametrically opposite points over an annular ring spatial distribution. Therefore, exploring the temporal correlation between photon pairs from different sections of the annual ring can lead to multi-bit QRNG at a high rate, avoiding the need for a beam splitter. As a proof-of-concept, we report on high-bit-rate QRNG by using spatial correlation of photon-pairs by sectioning the SPDC ring of a non-collinear, degenerate, high-brightness source and temporal correlation between the diametrically opposite sections. Dividing the annular ring of the high-brightness photon-pair source based on a 20 mm long, type-0 phase-matched, periodically-poled KTP crystal into four sections, recording the timestamp of the coincidences (widow of 1 ns) between photons from diametrically opposite sections and assigning bits (0 and 1), we extracted 90 million raw bits over 27.7 s at a pump power of 17 mW. We determined the extraction ratio using the minimum entropy evaluation of more than 95% in our case. Using Toeplitz matrix-based post-processing, we achieved a QRNG with a bit-rate of 3 Mbps, passing all NIST 800-22 and TestU01 test suites. The generic scheme shows the possibility of further enhancement of the bit rate through more sectioning of the SPDC ring.
翻訳日:2024-11-05 05:36:46 公開日:2024-10-01
# ReXplain: 患者フレンドリーなビデオレポートに放射線学を翻訳する

ReXplain: Translating Radiology into Patient-Friendly Video Reports ( http://arxiv.org/abs/2410.00441v1 )

ライセンス: Link先を確認
Luyang Luo, Jenanan Vairavamurthy, Xiaoman Zhang, Abhinav Kumar, Ramon R. Ter-Oganesyan, Stuart T. Schroff, Dan Shilo, Rydhwana Hossain, Mike Moritz, Pranav Rajpurkar, (参考訳) 放射線学の報告は患者にとって理解不能であり、患者中心のケアを損なうことが多い。 ReXplain (Radiology eXplanation) は, 患者に親しみやすい画像レポートを生成する, 革新的なAI駆動システムである。 ReXplainは、テキスト単純化のための大きな言語モデル、解剖学的領域識別のためのイメージセグメンテーションモデル、およびアバター生成ツールを独自に統合し、平易な言語による包括的な説明、強調画像、および3D臓器レンダリングを生成する。 5人の放射線学者による概念実証研究は、ReXplainが正確な放射線情報を提供し、1対1の相談を効果的にシミュレートできることを示唆している。 この研究は、AI支援医療コミュニケーションにおける新しいパラダイムを示し、放射線治療における患者のエンゲージメントと満足度を改善し、マルチモーダル医療コミュニケーションの研究のための新たな道を開く。

Radiology reports often remain incomprehensible to patients, undermining patient-centered care. We present ReXplain (Radiology eXplanation), an innovative AI-driven system that generates patient-friendly video reports for radiology findings. ReXplain uniquely integrates a large language model for text simplification, an image segmentation model for anatomical region identification, and an avatar generation tool, producing comprehensive explanations with plain language, highlighted imagery, and 3D organ renderings. Our proof-of-concept study with five board-certified radiologists indicates that ReXplain could accurately deliver radiological information and effectively simulate one-on-one consultations. This work demonstrates a new paradigm in AI-assisted medical communication, potentially improving patient engagement and satisfaction in radiology care, and opens new avenues for research in multimodal medical communication.
翻訳日:2024-11-05 05:36:46 公開日:2024-10-01
# 光速情報処理

Information processing at the speed of light ( http://arxiv.org/abs/2410.00442v1 )

ライセンス: Link先を確認
M. AbuGhanem, (参考訳) 近年、量子コンピューティングは特に光ベースの技術において大きな進歩を遂げている。 量子フォトニックチップの導入は、スケーラビリティ、安定性、コスト効率が特徴の時代に始まり、コンパクトフットプリントにおける革新的な可能性の道を開いた。 本稿では,光子における情報符号化,フォトニック量子ビットのメリット,光硬化体,量子光源,干渉計,光検出器,導波路を含む必須光デバイスコンポーネントなどの重要な側面を網羅したフォトニック量子コンピューティングを包括的に調査する。 この記事では、フォトニックな量子通信とインターネットと、量子鍵分布や長距離通信などの実装を詳述したセキュアなシステムへのその影響についても検討する。 量子通信の進展傾向とフォトニック量子インターネットの進展に必須な再構成可能な要素について論じる。 このレビューはさらに、スケーラブルでフォールトトレラントなフォトニック量子コンピュータの確立に向けた道筋をたどっており、光子を用いて達成された量子計算の利点を強調している。 さらに、議論はプログラマブルフォトニック回路、集積フォトニック、変換応用にまで及んでいる。 最後に、このレビューはフォトニック量子コンピューティングの展望、含意、課題に対処し、現在の進歩に関する貴重な洞察を提供し、この技術の将来的な方向性を約束する。

In recent years, quantum computing has made significant strides, particularly in light-based technology. The introduction of quantum photonic chips has ushered in an era marked by scalability, stability, and cost-effectiveness, paving the way for innovative possibilities within compact footprints. This article provides a comprehensive exploration of photonic quantum computing, covering key aspects such as encoding information in photons, the merits of photonic qubits, and essential photonic device components including light squeezers, quantum light sources, interferometers, photodetectors, and waveguides. The article also examines photonic quantum communication and internet, and its implications for secure systems, detailing implementations such as quantum key distribution and long-distance communication. Emerging trends in quantum communication and essential reconfigurable elements for advancing photonic quantum internet are discussed. The review further navigates the path towards establishing scalable and fault-tolerant photonic quantum computers, highlighting quantum computational advantages achieved using photons. Additionally, the discussion extends to programmable photonic circuits, integrated photonics and transformative applications. Lastly, the review addresses prospects, implications, and challenges in photonic quantum computing, offering valuable insights into current advancements and promising future directions in this technology.
翻訳日:2024-11-05 05:36:46 公開日:2024-10-01
# 一般化可能な複合画像生成のためのシーングラフの切り離しと合成

Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation ( http://arxiv.org/abs/2410.00447v1 )

ライセンス: Link先を確認
Yunnan Wang, Ziqiang Li, Zequn Zhang, Wenyao Zhang, Baao Xie, Xihui Liu, Wenjun Zeng, Xin Jin, (参考訳) 自然言語やレイアウト条件から画像を生成するという、エキサイティングな進歩がありました。 しかし、これらの手法は、複数のオブジェクトのモデリングが不十分なため、複雑なシーンを忠実に再現することは困難である。 この問題に対処するために、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。 シーングラフを直接生成する従来の手法とは異なり,シーングラフから様々な視覚的手がかりを合成する多変量オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。 具体的には,まずセマンティックス・レイアウト変分オートエンコーダ (SL-VAE) を提案する。 次に、拡散モデルと統合された構成的マスケプド・アテンション(CMA)を開発し、(レイアウト、セマンティクス)微粒な属性を生成誘導として組み込んだ。 視覚的コンテンツを一貫したままグラフ操作を実現するため、「分離された」画像編集効果のための多層サンプリング(MLS)を導入する。 大規模な実験により,本手法はテキスト,レイアウト,シーングラフに基づいて,生成合理性と可制御性の観点から,近年の競合よりも優れることが示された。

There has been exciting progress in generating images from natural language or layout conditions. However, these methods struggle to faithfully reproduce complex scenes due to the insufficient modeling of multiple objects and their relationships. To address this issue, we leverage the scene graph, a powerful structured representation, for complex image generation. Different from the previous works that directly use scene graphs for generation, we employ the generative capabilities of variational autoencoders and diffusion models in a generalizable manner, compositing diverse disentangled visual clues from scene graphs. Specifically, we first propose a Semantics-Layout Variational AutoEncoder (SL-VAE) to jointly derive (layouts, semantics) from the input scene graph, which allows a more diverse and reasonable generation in a one-to-many mapping. We then develop a Compositional Masked Attention (CMA) integrated with a diffusion model, incorporating (layouts, semantics) with fine-grained attributes as generation guidance. To further achieve graph manipulation while keeping the visual content consistent, we introduce a Multi-Layered Sampler (MLS) for an "isolated" image editing effect. Extensive experiments demonstrate that our method outperforms recent competitors based on text, layout, or scene graph, in terms of generation rationality and controllability.
翻訳日:2024-11-05 05:36:46 公開日:2024-10-01
# 医用ラジオグラフィ表現学習の高度化:多レベルセマンティックな粒度を持つハイブリッド事前学習パラダイム

Advancing Medical Radiograph Representation Learning: A Hybrid Pre-training Paradigm with Multilevel Semantic Granularity ( http://arxiv.org/abs/2410.00448v1 )

ライセンス: Link先を確認
Hanqi Jiang, Xixuan Hao, Yuzhou Huang, Chong Ma, Jiaxun Zhang, Yi Pan, Ruimao Zhang, (参考訳) 本稿では,医用ビジョン・ランゲージ・プレトレーニング(Med-VLP)分野におけるラジオグラフィー表現学習の専門的文脈における革新的アプローチを紹介する。 従来の手法では,テキストアノテーションを統一的なレポートにマージすることが多いが,本研究では,解析結果と印象区間の内在的階層的関係を認めている。 画像とテキストのターゲット対応を確立するために,グローバルレベルの視覚表現と印象とトークンレベルの視覚表現とを一致させるHybridMEDフレームワークを提案する。 さらに,本フレームワークでは,(1)画像からの印象を生成するための2つのプロキシタスクを,(1)キャプションブランチ,(2)要約ブランチを介して生成する生成デコーダを組み込んだ。 さらに、知識蒸留を利用してトレーニングプロセスを促進する。 MIMIC-CXRデータセットを用いた実験により,我々の要約部はキャプティング部に対する知識を効果的に蒸留し,共有自己注意とフィードフォワードアーキテクチャによるパラメータ要求を大幅に増大させることなく,モデル性能を向上させることがわかった。

This paper introduces an innovative approach to Medical Vision-Language Pre-training (Med-VLP) area in the specialized context of radiograph representation learning. While conventional methods frequently merge textual annotations into unified reports, we acknowledge the intrinsic hierarchical relationship between the findings and impression section in radiograph datasets. To establish a targeted correspondence between images and texts, we propose a novel HybridMED framework to align global-level visual representations with impression and token-level visual representations with findings. Moreover, our framework incorporates a generation decoder that employs two proxy tasks, responsible for generating the impression from (1) images, via a captioning branch, and (2) findings, through a summarization branch. Additionally, knowledge distillation is leveraged to facilitate the training process. Experiments on the MIMIC-CXR dataset reveal that our summarization branch effectively distills knowledge to the captioning branch, enhancing model performance without significantly increasing parameter requirements due to the shared self-attention and feed-forward architecture.
翻訳日:2024-11-05 05:36:46 公開日:2024-10-01
# プレフェッチ方式のサイドチャネル攻撃に対するスケジューリング・アウェア・ディフェンス

A Scheduling-Aware Defense Against Prefetching-Based Side-Channel Attacks ( http://arxiv.org/abs/2410.00452v1 )

ライセンス: Link先を確認
Till Schlüter, Nils Ole Tippenhauer, (参考訳) 現代のコンピュータプロセッサは、マイクロアーキテクチャ最適化機構を使用して性能を改善する。 欠点として、このような最適化はサイドチャネルの脆弱性を導入する傾向にある。 プリフェッチと呼ばれるメモリの投機的ロードは、現実世界のCPUで一般的であり、そのようなサイドチャネルの脆弱性を引き起こす可能性がある。 しかし、この日までに、影響のあるプリフェッチシステム上でソフトウェアをセキュアにするための効果的で効率的な対策は提示されていない。 プロセスがプレフェッチベースのサイドチャネルに対してどのように防御できるのか? これまでに学術文献で提示されているプリフェッチ方式のサイドチャネル脆弱性を最初に体系化する。 次に、これらのサイドチャネルに対するスケジューリング対応の防御であるPreFenceを設計し、実装する。 我々は、x86_64とARMプロセッサの対策を実装しており、プレフィッシャーを無効にできる任意のプラットフォームに適用することができる。 我々は防衛を評価し、我々の解決策が事前の漏れを確実に止めていることに気付く。 我々の対策は、セキュリティ関連のコードが実行されない間に、無視可能なパフォーマンスへの影響を引き起こします。 期待される平均的なパフォーマンスへの影響は、アプリケーションのセキュリティ関連コードに依存します。 当社の対策はコモディティOSに広く組み込まれ、カーネルにセキュリティ関連コードを表示するよう拡張して、対策の協調的な適用を可能にすることさえ期待しています。

Modern computer processors use microarchitectural optimization mechanisms to improve performance. As a downside, such optimizations are prone to introducing side-channel vulnerabilities. Speculative loading of memory, called prefetching, is common in real-world CPUs and may cause such side-channel vulnerabilities: Prior work has shown that it can be exploited to bypass process isolation and leak secrets, such as keys used in RSA, AES, and ECDH implementations. However, to this date, no effective and efficient countermeasure has been presented that secures software on systems with affected prefetchers. In this work, we answer the question: How can a process defend against prefetch-based side channels? We first systematize prefetching-based side-channel vulnerabilities presented in academic literature so far. Next, we design and implement PreFence, a scheduling-aware defense against these side channels that allows processes to disable the prefetcher temporarily during security-critical operations. We implement our countermeasure for an x86_64 and an ARM processor; it can be adapted to any platform that allows to disable the prefetcher. We evaluate our defense and find that our solution reliably stops prefetch leakage. Our countermeasure causes negligible performance impact while no security-relevant code is executed, and its worst case performance is comparable to completely turning off the prefetcher. The expected average performance impact depends on the security-relevant code in the application and can be negligible as we demonstrate with a simple web server application. We expect our countermeasure could widely be integrated in commodity OS, and even be extended to signal generally security-relevant code to the kernel to allow coordinated application of countermeasures.
翻訳日:2024-11-05 05:27:01 公開日:2024-10-01
# UniAdapt: 知識校正のためのユニバーサルアダプタ

UniAdapt: A Universal Adapter for Knowledge Calibration ( http://arxiv.org/abs/2410.00454v1 )

ライセンス: Link先を確認
Tai D. Nguyen, Long H. Pham, Jun Sun, (参考訳) 大規模言語モデル(LLM)は、エラーを訂正し、継続的に進化する知識をタイムリーかつ効果的な方法でペースを維持するために、頻繁な更新を必要とする。 モデル編集における最近の研究は、特に生涯モデル編集の文脈において、一般化と局所性のバランスをとる上での課題を強調している。 モデルに直接知識を挿入すると、しばしば矛盾が生じ、他の無関係な事前学習された知識が破壊される可能性があることに気づきます。 この問題に対処するため,知識キャリブレーションのためのユニバーサルアダプタUniAdaptを導入する。 UniAdaptはMixture of ExpertsアーキテクチャとRetrieval-Augmented Generationにヒントを得て、ベクトルアシストルータで設計され、適切な専門家に入力をルーティングする。 ルータは、複数のシャードを含むベクトルストアを保持し、セマンティックな類似性検索結果に基づいてルーティングベクターを構築する。 UniAdaptは完全にモデルに依存しず、シームレスなプラグアンドプレイ統合用に設計されている。 実験の結果、UniAdaptは既存の生涯モデルエディタよりも優れており、ほとんどのメトリクスにおいて例外的な結果が得られることがわかった。

Large Language Models (LLMs) require frequent updates to correct errors and keep pace with continuously evolving knowledge in a timely and effective manner. Recent research in it model editing has highlighted the challenges in balancing generalization and locality, especially in the context of lifelong model editing. We discover that inserting knowledge directly into the model often causes conflicts and potentially disrupts other unrelated pre-trained knowledge. To address this problem, we introduce UniAdapt, a universal adapter for knowledge calibration. Inspired by the Mixture of Experts architecture and Retrieval-Augmented Generation, UniAdapt is designed with a vector-assisted router that is responsible for routing inputs to appropriate experts. The router maintains a vector store, including multiple shards, to construct routing vectors based on semantic similarity search results. UniAdapt is fully model-agnostic and designed for seamless plug-and-play integration. Experimental results show that UniAdapt outperforms existing lifelong model editors and achieves exceptional results in most metrics.
翻訳日:2024-11-05 05:27:01 公開日:2024-10-01
# 強化学習におけるソリューション効率の向上:サブGFlowNetの活用とエントロピー統合

Enhancing Solution Efficiency in Reinforcement Learning: Leveraging Sub-GFlowNet and Entropy Integration ( http://arxiv.org/abs/2410.00461v1 )

ライセンス: Link先を確認
Siyi He, (参考訳) 伝統的な強化学習は、特にドラッグデザインやブラックボックス機能最適化のような領域において、多種多様な高水準のソリューションを生成するのに苦労することが多い。 マルコフ・チェイン・モンテカルロ法(MCMC)は、候補選択においてRLの代替手法を提供するが、高い計算コストと限られた候補多様性探索能力に悩まされている。 反応として、新しいニューラルネットワークアーキテクチャであるGFlowNetが導入され、複雑なシステムのダイナミクスをモデル化し、さまざまな高次軌道を生成する。 本稿では,新たな損失関数を導入し,サブGFlowNetに関連する学習目標を洗練することにより,GFlowNetの改良を提案する。 これらの拡張は、エントロピーを統合し、ネットワーク構造特性を活用し、候補の多様性と計算効率を改善することを目的としている。 我々は,超グリッド実験と分子合成タスクによる実験結果により,従来の手法よりも洗練されたGFlowNetの優位性を実証した。 この結果は, エントロピーを取り入れ, 分子合成および種々の実験的設計において, 溶液生成におけるネットワーク構造特性を活用することの有効性を裏付けるものである。

Traditional reinforcement learning often struggles to generate diverse, high-reward solutions, especially in domains like drug design and black-box function optimization. Markov Chain Monte Carlo (MCMC) methods provide an alternative method of RL in candidate selection but suffer from high computational costs and limited candidate diversity exploration capabilities. In response, GFlowNet, a novel neural network architecture, was introduced to model complex system dynamics and generate diverse high-reward trajectories. To further enhance this approach, this paper proposes improvements to GFlowNet by introducing a new loss function and refining the training objective associated with sub-GFlowNet. These enhancements aim to integrate entropy and leverage network structure characteristics, improving both candidate diversity and computational efficiency. We demonstrated the superiority of the refined GFlowNet over traditional methods by empirical results from hypergrid experiments and molecule synthesis tasks. The findings underscore the effectiveness of incorporating entropy and exploiting network structure properties in solution generation in molecule synthesis as well as diverse experimental designs.
翻訳日:2024-11-05 05:27:01 公開日:2024-10-01
# Prompt-based Co-Speech Motion Generationにおける相乗的全音節制御の実現

Enabling Synergistic Full-Body Control in Prompt-Based Co-Speech Motion Generation ( http://arxiv.org/abs/2410.00464v1 )

ライセンス: Link先を確認
Bohong Chen, Yumeng Li, Yao-Xiang Ding, Tianjia Shao, Kun Zhou, (参考訳) 現在の共同音声動作生成手法は、通常、音声内容のみに従う上半身ジェスチャーに焦点をあてるが、歩きながら話すようなテキストプロンプトに基づく相乗的全体動作の精巧な制御を欠いている。 主な課題は 1)既存の音声と運動のデータセットは、非常に限られた全体動作のみを伴い、訓練分布から幅広い共通の人間の活動を生み出す。 2) これらのデータセットには注釈付きユーザプロンプトがない。 このような課題に対処するため,本研究では,全体動作の欠如を補う補助として,市販のテキスト・トゥ・モーション・データセットを利用するSynTalkerを提案する。 コアとなる技術貢献は2つです。 1つは、音声・音声・プロンプトの組込み空間を、音声・音声・プロンプト間の動きにおける大きな分布ミスマッチに拘わらず、整列した組込み空間を得る多段階学習プロセスである。 もう1つは拡散に基づく条件推論プロセスであり、これは局所的な部分のきめ細かい制御を実現するために、分離-then-combine戦略を利用する。 提案手法は,既存のアプローチの能力を超えた,音声とユーザプロンプトの両方に基づく,シナジスティックな全体動作生成の正確かつ柔軟な制御を支援することを検証するため,広範囲な実験を行った。

Current co-speech motion generation approaches usually focus on upper body gestures following speech contents only, while lacking supporting the elaborate control of synergistic full-body motion based on text prompts, such as talking while walking. The major challenges lie in 1) the existing speech-to-motion datasets only involve highly limited full-body motions, making a wide range of common human activities out of training distribution; 2) these datasets also lack annotated user prompts. To address these challenges, we propose SynTalker, which utilizes the off-the-shelf text-to-motion dataset as an auxiliary for supplementing the missing full-body motion and prompts. The core technical contributions are two-fold. One is the multi-stage training process which obtains an aligned embedding space of motion, speech, and prompts despite the significant distributional mismatch in motion between speech-to-motion and text-to-motion datasets. Another is the diffusion-based conditional inference process, which utilizes the separate-then-combine strategy to realize fine-grained control of local body parts. Extensive experiments are conducted to verify that our approach supports precise and flexible control of synergistic full-body motion generation based on both speeches and user prompts, which is beyond the ability of existing approaches.
翻訳日:2024-11-05 05:27:01 公開日:2024-10-01
# 時間特性の分散モニタリング

Distributed Monitoring of Timed Properties ( http://arxiv.org/abs/2410.00465v1 )

ライセンス: Link先を確認
Léo Henry, Thierry Jéron, Nicolas Markey, Victor Roussanaly, (参考訳) 正式な検証では、ランタイム監視は、あるプロパティを満たすかどうかをできるだけ早く決定するために、システムの実行を観察する。 我々は、到達性タイムドオートマトンとして与えられるプロパティについて、分散環境でのモニタリングを検討する。 このような環境では、システムは複数のコンポーネントで構成され、それぞれ独自のローカルクロックとモニターを備えている。 モニタは、関連するコンポーネントで発生したイベントを観察し、他のモニタからFIFOチャネルを介してタイムスタンプされたイベントを受け取る。 クロックは局所的であるため、完全に同期することはできず、不正確なタイムスタンプとなる。 結果として、それらはインターバルと見なされなければならず、モニターはイベントの再注文を考慮せざるを得ない。 このコンテキストでは、各モニタは、現在の実行に関する潜在的に不完全で不正確な知識に基づいて、可能な限り早く、監視しているプロパティに関する判断を提供することを目的としている。 本稿では,時間特性のオンラインモニタリングアルゴリズムを提案する。 まず、受信したイベントに基づいて、モニターが安全に判定を計算できる日付を特定する。 次に、新しい情報が到着したときのこの日時を更新し、プロパティが居住可能な状態の現在のセットを維持し、それに応じて判断を更新する監視アルゴリズムを提案する。

In formal verification, runtime monitoring consists of observing the execution of a system in order to decide as quickly as possible whether or not it satisfies a given property. We consider monitoring in a distributed setting, for properties given as reachability timed automata. In such a setting, the system is made of several components, each equipped with its own local clock and monitor. The monitors observe events occurring on their associated component, and receive timestamped events from other monitors through FIFO channels. Since clocks are local, they cannot be perfectly synchronized, resulting in imprecise timestamps. Consequently, they must be seen as intervals, leading monitors to consider possible reorderings of events. In this context, each monitor aims to provide, as early as possible, a verdict on the property it is monitoring, based on its potentially incomplete and imprecise knowledge of the current execution. In this paper, we propose an on-line monitoring algorithm for timed properties, robust to time imprecision and partial information from distant components. We first identify the date at which a monitor can safely compute a verdict based on received events. We then propose a monitoring algorithm that updates this date when new information arrives, maintains the current set of states in which the property can reside, and updates its verdict accordingly.
翻訳日:2024-11-05 05:27:01 公開日:2024-10-01
# リモートセンシング地球観測データのセマンティックセグメンテーションのための深層マルチモーダル核融合

Deep Multimodal Fusion for Semantic Segmentation of Remote Sensing Earth Observation Data ( http://arxiv.org/abs/2410.00469v1 )

ライセンス: Link先を確認
Ivica Dimitrovski, Vlatko Spasev, Ivan Kitanovski, (参考訳) リモートセンシング画像の正確なセマンティックセグメンテーションは、土地被覆マッピング、都市計画、環境モニタリングなど、様々な地球観測用途に不可欠である。 しかし、個々のデータソースは、しばしばこのタスクの制限を提示する。 超高分解能(VHR)空中画像は、豊富な空間的詳細を提供するが、土地被覆の変化に関する時間的情報を取得することはできない。 逆に、衛星画像時系列(SITS)は植生の季節変動のような時間的ダイナミクスを捉えているが、空間分解能は限られており、微細な物体を区別することは困難である。 本稿では,VHR空中画像とSITSの相補的強度を利用する意味的セグメンテーションのための後期融合深層学習モデル(LF-DLM)を提案する。 提案するモデルは,2つの独立したディープラーニングブランチで構成されている。 1つのブランチは、UNetFormerがキャプチャした空中画像の詳細なテクスチャと、MaxViT(Multi-Axis Vision Transformer)バックボーンを統合する。 もう一方のブランチは、U-Net with Temporal Attention Encoder (U-TAE)を用いてSentinel-2衛星画像時系列からの複雑な時空間ダイナミクスをキャプチャする。 このアプローチは、マルチソース光学画像を用いた土地被覆セグメンテーションのための大規模ベンチマークであるFLAIRデータセットの最先端結果をもたらす。 この結果は,リモートセンシングアプリケーションにおけるセマンティックセグメンテーションの精度と堅牢性を向上させるために,マルチモーダリティ融合の重要性を強調した。

Accurate semantic segmentation of remote sensing imagery is critical for various Earth observation applications, such as land cover mapping, urban planning, and environmental monitoring. However, individual data sources often present limitations for this task. Very High Resolution (VHR) aerial imagery provides rich spatial details but cannot capture temporal information about land cover changes. Conversely, Satellite Image Time Series (SITS) capture temporal dynamics, such as seasonal variations in vegetation, but with limited spatial resolution, making it difficult to distinguish fine-scale objects. This paper proposes a late fusion deep learning model (LF-DLM) for semantic segmentation that leverages the complementary strengths of both VHR aerial imagery and SITS. The proposed model consists of two independent deep learning branches. One branch integrates detailed textures from aerial imagery captured by UNetFormer with a Multi-Axis Vision Transformer (MaxViT) backbone. The other branch captures complex spatio-temporal dynamics from the Sentinel-2 satellite image time series using a U-Net with Temporal Attention Encoder (U-TAE). This approach leads to state-of-the-art results on the FLAIR dataset, a large-scale benchmark for land cover segmentation using multi-source optical imagery. The findings highlight the importance of multi-modality fusion in improving the accuracy and robustness of semantic segmentation in remote sensing applications.
翻訳日:2024-11-05 05:27:01 公開日:2024-10-01
# 単細胞RNA-seqデータに対する不確実性t分布確率近傍埋め込み

Uncertainty-aware t-distributed Stochastic Neighbor Embedding for Single-cell RNA-seq Data ( http://arxiv.org/abs/2410.00473v1 )

ライセンス: Link先を確認
Hui Ma, Kai Chen, (参考訳) t分散確率的隣接埋め込み(t-SNE)を用いた非線形データの可視化により、複雑な単細胞転写風景を2次元または3次元で表現し、生物集団を正確に表現することができる。 しかし、t-SNEは元のデータセットの不確かさを説明できないことが多く、ノイズのある細胞サブセットが識別不能に見えるという誤解を招く。 これらの課題に対処するため、不確実な単一セルRNA系列データに適したノイズ防御可視化ツールであるt-SNE(Ut-SNE)を導入する。 我々のUt-SNEは、各サンプルの確率的表現を作成することにより、単一細胞RNAシークエンシングデータの視覚的解釈に転写可変性に関するノイズを正確に組み込んで、転写可変性の重大な不確実性を明らかにする。 様々な例を通して、Ut-SNEの実践的価値を示し、不確実性認識をデータ視覚化の実践に取り入れることの重要性を浮き彫りにしている。 この汎用的な不確実性認識可視化ツールは、単細胞RNAシークエンシング以外の他の科学領域にも容易に適用でき、高次元データ解析に有用な資源となる。

Nonlinear data visualization using t-distributed stochastic neighbor embedding (t-SNE) enables the representation of complex single-cell transcriptomic landscapes in two or three dimensions to depict biological populations accurately. However, t-SNE often fails to account for uncertainties in the original dataset, leading to misleading visualizations where cell subsets with noise appear indistinguishable. To address these challenges, we introduce uncertainty-aware t-SNE (Ut-SNE), a noise-defending visualization tool tailored for uncertain single-cell RNA-seq data. By creating a probabilistic representation for each sample, Our Ut-SNE accurately incorporates noise about transcriptomic variability into the visual interpretation of single-cell RNA sequencing data, revealing significant uncertainties in transcriptomic variability. Through various examples, we showcase the practical value of Ut-SNE and underscore the significance of incorporating uncertainty awareness into data visualization practices. This versatile uncertainty-aware visualization tool can be easily adapted to other scientific domains beyond single-cell RNA sequencing, making them valuable resources for high-dimensional data analysis.
翻訳日:2024-11-05 05:27:01 公開日:2024-10-01
# ViDAS: 視覚に基づく危険評価と検査

ViDAS: Vision-based Danger Assessment and Scoring ( http://arxiv.org/abs/2410.00477v1 )

ライセンス: Link先を確認
Pranav Gupta, Advith Krishnan, Naman Nanda, Ananth Eswar, Deeksha Agarwal, Pratham Gohil, Pratyush Goel, (参考訳) 本稿では,ビデオコンテンツの危険度を定量化することの難しさに対処し,Large Language Model (LLM) の評価器がいかに人間に似ているかを明らかにすることによって,危険度分析と評価を促進することを目的とした新しいデータセットを提案する。 これは、様々なイベントを含む100のYouTubeビデオのコレクションをコンパイルすることで達成される。 各ビデオは、危険度を0(人間に危険はない)から10(生命を脅かす)に分類し、危険度を高める瞬間を正確に示すタイムスタンプによって注釈付けされる。 さらに,ビデオ要約を用いて,ビデオの危険レベルを独立に評価するためにLCMを利用する。 危険度評価のためのマルチモーダルメタ評価のための平均二乗誤差(MSE)スコアを導入する。 我々のデータセットは、ビデオコンテンツの危険度評価に新たなリソースを提供するだけでなく、人間的な評価を行う上でのLLMの可能性も示している。

We present a novel dataset aimed at advancing danger analysis and assessment by addressing the challenge of quantifying danger in video content and identifying how human-like a Large Language Model (LLM) evaluator is for the same. This is achieved by compiling a collection of 100 YouTube videos featuring various events. Each video is annotated by human participants who provided danger ratings on a scale from 0 (no danger to humans) to 10 (life-threatening), with precise timestamps indicating moments of heightened danger. Additionally, we leverage LLMs to independently assess the danger levels in these videos using video summaries. We introduce Mean Squared Error (MSE) scores for multimodal meta-evaluation of the alignment between human and LLM danger assessments. Our dataset not only contributes a new resource for danger assessment in video content but also demonstrates the potential of LLMs in achieving human-like evaluations.
翻訳日:2024-11-05 05:27:01 公開日:2024-10-01
# ARツールボックスを用いたポイントクラウドからの精密ワークセルのスケッチ

Precise Workcell Sketching from Point Clouds Using an AR Toolbox ( http://arxiv.org/abs/2410.00479v1 )

ライセンス: Link先を確認
Krzysztof Zieliński, Bruce Blumberg, Mikkel Baun Kjærgaard, (参考訳) 実世界の3D空間をポイントクラウドとしてキャプチャすることは効率的で記述的だが、センサーエラーがあり、オブジェクトのパラメトリゼーションが欠如している。 これらの制限は、ロボットプログラミングのような様々な現実世界のアプリケーションには適さないポイントクラウドを、広範な後処理(例えば、アウトリーチ除去、セマンティックセグメンテーション)なしでレンダリングする。 一方,CADモデリングは3次元空間の高画質なパラメトリック表現と組込みセマンティックデータを提供するが,時間とコストのかかる手動コンポーネント作成が必要である。 これらの課題に対処するために,両アプローチの強みを組み合わせた新しいソリューションを提案する。 筆者らの3Dワークセルスケッチ手法は,実世界の3D環境と知識を生かした拡張現実(AR)インタフェースを用いて,生の点雲を洗練することができる。 ツールボックスとAR対応ポインティングデバイスを利用することで、ユーザーは3次元空間におけるデバイスの位置に基づいてポイントクラウドの精度を高めることができる。 地上の真理モデルと比較して,1cm以内の平均誤差を達成できることを実証し,標準LiDARスキャナアプリよりも大幅に改善した。

Capturing real-world 3D spaces as point clouds is efficient and descriptive, but it comes with sensor errors and lacks object parametrization. These limitations render point clouds unsuitable for various real-world applications, such as robot programming, without extensive post-processing (e.g., outlier removal, semantic segmentation). On the other hand, CAD modeling provides high-quality, parametric representations of 3D space with embedded semantic data, but requires manual component creation that is time-consuming and costly. To address these challenges, we propose a novel solution that combines the strengths of both approaches. Our method for 3D workcell sketching from point clouds allows users to refine raw point clouds using an Augmented Reality (AR) interface that leverages their knowledge and the real-world 3D environment. By utilizing a toolbox and an AR-enabled pointing device, users can enhance point cloud accuracy based on the device's position in 3D space. We validate our approach by comparing it with ground truth models, demonstrating that it achieves a mean error within 1cm - significant improvement over standard LiDAR scanner apps.
翻訳日:2024-11-05 05:27:01 公開日:2024-10-01
# 潜在空間におけるカオス系の安定性解析

Stability analysis of chaotic systems in latent spaces ( http://arxiv.org/abs/2410.00480v1 )

ライセンス: Link先を確認
Elise Özalp, Luca Magri, (参考訳) 偏微分方程式とそのカオス解は、工学、科学、その他における複雑なシステムのモデリングにおいて広く使われている。 データ駆動法は、偏微分方程式の解を分割・対数戦略で見つけることができる: この解は、時間力学が推論される潜在空間で求める(`latent-space' アプローチ)。 これは、第1に、オートエンコーダでデータを圧縮し、第2に、テンポラリダイナミクスをリカレントニューラルネットワークで推論することで達成される。 この論文の全体的目標は、潜在空間的アプローチがカオス偏微分方程式の解を推論できるだけでなく、物理系の安定性を予測できることを示すことである。 まず, 畳み込み型自己エンコーダエコー状態ネットワーク(CAE-ESN)を, カオス的倉本・シヴァシンスキー方程式に応用した。 我々はCAE-ESNについて示す。 (i)観測の低次元潜在空間表現を発見し、 (ii) この低次元多様体におけるリアプノフ指数と共変リアプノフベクトル(CLV)を、異なる誘引子に対して正確に推論する。 次に, CAE-ESN を乱流に拡張し, リアプノフスペクトルをヤコビアンフリー法から得られた推定値と比較する。 CAE-ESN に基づく潜在空間アプローチは、リアプノフ指数や CLV のようなカオスシステムの鍵となる性質を保存する潜在空間を効果的に生成し、アトラクターの幾何学的構造を保持する。 CAE-ESNに基づく潜在空間アプローチは、カオスシステムの力学を正確に予測する低次モデルである。

Partial differential equations, and their chaotic solutions, are pervasive in the modelling of complex systems in engineering, science, and beyond. Data-driven methods can find solutions to partial differential equations with a divide-and-conquer strategy: The solution is sought in a latent space, on which the temporal dynamics are inferred (``latent-space'' approach). This is achieved by, first, compressing the data with an autoencoder, and, second, inferring the temporal dynamics with recurrent neural networks. The overarching goal of this paper is to show that a latent-space approach can not only infer the solution of a chaotic partial differential equation, but it can also predict the stability properties of the physical system. First, we employ the convolutional autoencoder echo state network (CAE-ESN) on the chaotic Kuramoto-Sivashinsky equation for various chaotic regimes. We show that the CAE-ESN (i) finds a low-dimensional latent-space representation of the observations and (ii) accurately infers the Lyapunov exponents and covariant Lyapunov vectors (CLVs) in this low-dimensional manifold for different attractors. Second, we extend the CAE-ESN to a turbulent flow, comparing the Lyapunov spectrum to estimates obtained from Jacobian-free methods. A latent-space approach based on the CAE-ESN effectively produces a latent space that preserves the key properties of the chaotic system, such as Lyapunov exponents and CLVs, thus retaining the geometric structure of the attractor. The latent-space approach based on the CAE-ESN is a reduced-order model that accurately predicts the dynamics of the chaotic system, or, alternatively, it can be used to infer stability properties of chaotic systems from data.
翻訳日:2024-11-05 05:16:55 公開日:2024-10-01
# MCGM:マスク条件テキスト・画像生成モデル

MCGM: Mask Conditional Text-to-Image Generative Model ( http://arxiv.org/abs/2410.00483v1 )

ライセンス: Link先を確認
Rami Skaik, Leonardo Rossi, Tomaso Fontanini, Andrea Prati, (参考訳) 生成モデルの最近の進歩は、人工知能の分野に革命をもたらし、高現実的で詳細な画像の作成を可能にした。 本研究では,特定のポーズで画像を生成するために条件拡散モデルのパワーを利用する新しいマスク条件付き画像生成モデル(MCGM)を提案する。 本モデルでは,複数の被写体を持つ単一画像を用いて新たなシーンを生成するBreak-a-scene [1]モデルの成功の上に構築し,生成プロセスの条件付けを可能にするマスク埋め込みインジェクションを組み込んだ。 この追加レベルのコントロールを導入することで、MCGMは、1つの画像から学んだ1つ以上の被験者に対して、フレキシブルで直感的なポーズを生成することができる。 本研究では,マスク条件を満たす高品質な画像の生成と,現行のBreak-a-scene生成モデルの改良に,提案モデルの有効性を実証する。

Recent advancements in generative models have revolutionized the field of artificial intelligence, enabling the creation of highly-realistic and detailed images. In this study, we propose a novel Mask Conditional Text-to-Image Generative Model (MCGM) that leverages the power of conditional diffusion models to generate pictures with specific poses. Our model builds upon the success of the Break-a-scene [1] model in generating new scenes using a single image with multiple subjects and incorporates a mask embedding injection that allows the conditioning of the generation process. By introducing this additional level of control, MCGM offers a flexible and intuitive approach for generating specific poses for one or more subjects learned from a single image, empowering users to influence the output based on their requirements. Through extensive experimentation and evaluation, we demonstrate the effectiveness of our proposed model in generating high-quality images that meet predefined mask conditions and improving the current Break-a-scene generative model.
翻訳日:2024-11-05 05:16:55 公開日:2024-10-01
# パラメータ統合による自己更新可能な大言語モデル

Self-Updatable Large Language Models with Parameter Integration ( http://arxiv.org/abs/2410.00487v1 )

ライセンス: Link先を確認
Yu Wang, Xinshuang Liu, Xiusi Chen, Sean O'Brien, Junda Wu, Julian McAuley, (参考訳) 大規模言語モデル(LLM)の大幅な進歩にもかかわらず、周囲のオブジェクトとの相互作用など、小規模体験の迅速かつ頻繁な統合は依然として大きな課題である。 これらの経験を同化させる2つの重要な要因は、(1)有効性:最近の出来事を正確に記憶する能力、(2)持続性:長期経験を思い出す能力である。 現在の手法では、継続的な学習、モデル編集、知識蒸留技術を使用してモデルパラメータに経験を組み込むか、あるいは長期保持を達成するために外部ストレージに依存するか、ストレージ要求を増大させる。 本稿では,SELF-PARAM (Self-Updatable Large Language Models with Parameter Integration)を提案する。 SELF-PARAMは、ほぼ最適効果と長期維持を確保しながら、余分なパラメータを必要としない。 提案手法では,KL(Kulback-Leibler)の差異を最小限に抑える訓練目的を,元モデルの予測(文脈情報へのアクセス)と対象モデルの予測(そのようなアクセスを伴わない)に用いた。 このデータセットの知識に関する多様な問合せペアを生成し、KLの分散を最小化することにより、ターゲットモデルを更新し、そのパラメータ内の知識をシームレスに内部化する。 SELF-PARAMは,非ゼロストレージ要件を考慮に入れた場合でも,既存の手法よりも有意に優れていた。 この進歩は、モデルパラメータに直接知識を埋め込むことによって、大規模言語モデルにおけるより効率的でスケーラブルなエクスペリエンス統合の道を開く。

Despite significant advancements in large language models (LLMs), the rapid and frequent integration of small-scale experiences, such as interactions with surrounding objects, remains a substantial challenge. Two critical factors in assimilating these experiences are (1) Efficacy: the ability to accurately remember recent events; (2) Retention: the capacity to recall long-past experiences. Current methods either embed experiences within model parameters using continual learning, model editing, or knowledge distillation techniques, which often struggle with rapid updates and complex interactions, or rely on external storage to achieve long-term retention, thereby increasing storage requirements. In this paper, we propose SELF-PARAM (Self-Updatable Large Language Models with Parameter Integration). SELF-PARAM requires no extra parameters while ensuring near-optimal efficacy and long-term retention. Our method employs a training objective that minimizes the Kullback-Leibler (KL) divergence between the predictions of an original model (with access to contextual information) and a target model (without such access). By generating diverse question-answer pairs related to the knowledge and minimizing the KL divergence across this dataset, we update the target model to internalize the knowledge seamlessly within its parameters. Evaluations on question-answering and conversational recommendation tasks demonstrate that SELF-PARAM significantly outperforms existing methods, even when accounting for non-zero storage requirements. This advancement paves the way for more efficient and scalable integration of experiences in large language models by embedding knowledge directly into model parameters.
翻訳日:2024-11-05 05:16:55 公開日:2024-10-01
# ニューラルネットワークを用いた複雑条件下での適応流体モデル学習

Learning Adaptive Hydrodynamic Models Using Neural ODEs in Complex Conditions ( http://arxiv.org/abs/2410.00490v1 )

ライセンス: Link先を確認
Cong Wang, Aoming Liang, Fei Han, Xinyu Zeng, Zhibin Li, Dixia Fan, Jens Kober, (参考訳) 強化学習に基づく四足歩行ロボットは、様々な地形を横断するが、複雑な水中環境のために水中で泳ぐ能力がない。 本稿では,水陸両用四足歩行ロボットのためのデータ駆動型流体力学モデルの開発と評価について述べる。 提案モデルでは,ニューラル正規微分方程式(ODE)とアテンション機構を組み合わせることで,リアルタイムセンサデータを正確に処理し,解釈する。 このモデルにより、四足歩行ロボットは複雑な環境パターンを理解し予測し、堅牢な意思決定戦略を促進することができる。 リアルタイムセンサデータを利用して、様々な環境および内部状態のパラメータを抽出し、モデルを訓練し、評価する。 我々の評価の重要な焦点は、四足歩行ロボットの性能を異なる流体力学条件でテストし、その性能を様々な速度と流体力学条件で評価することである。 その結果, モデルが様々な条件を効果的に学習し, 適応できることが示唆された。

Reinforcement learning-based quadruped robots excel across various terrains but still lack the ability to swim in water due to the complex underwater environment. This paper presents the development and evaluation of a data-driven hydrodynamic model for amphibious quadruped robots, aiming to enhance their adaptive capabilities in complex and dynamic underwater environments. The proposed model leverages Neural Ordinary Differential Equations (ODEs) combined with attention mechanisms to accurately process and interpret real-time sensor data. The model enables the quadruped robots to understand and predict complex environmental patterns, facilitating robust decision-making strategies. We harness real-time sensor data, capturing various environmental and internal state parameters to train and evaluate our model. A significant focus of our evaluation involves testing the quadruped robot's performance across different hydrodynamic conditions and assessing its capabilities at varying speeds and fluid dynamic conditions. The outcomes suggest that the model can effectively learn and adapt to varying conditions, enabling the prediction of force states and enhancing autonomous robotic behaviors in various practical scenarios.
翻訳日:2024-11-05 05:16:55 公開日:2024-10-01
# 二重量子コヒーレンス分光法による振動偏光子における異方性集団結合

Disentangling collective coupling in vibrational polaritons with double quantum coherence spectroscopy ( http://arxiv.org/abs/2410.00494v1 )

ライセンス: Link先を確認
Thomas Schnappinger, Cyril Falvo, Markus Kowalewski, (参考訳) 振動分極は、光学キャビティにおける分子振動と光子モードの強い結合によって形成される。 実験では、振動の強い結合が分子特性を変え、化学反応性に影響を及ぼすことを示した。 しかし、分子アンサンブルの相互作用は複雑であり、修正につながる正確なメカニズムはまだ完全には理解されていない。 分子振動分極子の2次元赤外スペクトルを二重量子コヒーレンス法を用いてシミュレートし、これらのハイブリッド光物質状態の複素多体構造についてさらなる知見を得る。 二重量子コヒーレンス(英語版)は、ハイブリッド・マター・ポラリトン(英語版)の励起を一意に解決し、結果として生じる状態の非調和性を直接探究することができる。 キャビティ・ボルン=オッペンハイマー・ハートリー=フォック・アンサッツと対応する固有状態の完全な量子力学シミュレーションを組み合わせることで、単純化されたモデルシステムを超えることができる。 これにより、単一分子の場合を超えても、自己偏極と共振器相互作用に対する電子構造の応答がスペクトル特性に与える影響を研究できる。

Vibrational polaritons are formed by strong coupling of molecular vibrations and photon modes in an optical cavity. Experiments have demonstrated that vibrational strong coupling can change molecular properties and even affect chemical reactivity. However, the interactions in a molecular ensemble are complex, and the exact mechanisms that lead to modifications are not fully understood yet. We simulate two-dimensional infrared spectra of molecular vibrational polaritons based on the double quantum coherence technique to gain further insight into the complex many-body structure of these hybrid light-matter states. Double quantum coherence uniquely resolves the excitation of hybrid light-matter polaritons and allows to directly probe the anharmonicities of the resulting states. By combining the cavity Born-Oppenheimer Hartree-Fock ansatz with a full quantum dynamics simulation of the corresponding eigenstates, we go beyond simplified model systems. This allows us to study the influence of self-polarization and the response of the electronic structure to the cavity interaction on the spectral features even beyond the single-molecule case.
翻訳日:2024-11-05 05:16:55 公開日:2024-10-01
# 準高調波パラメトリック駆動によるフラクソニウム保護制御

Protected Fluxonium Control with Sub-harmonic Parametric Driving ( http://arxiv.org/abs/2410.00495v1 )

ライセンス: Link先を確認
Johannes Schirk, Florian Wallner, Longxiang Huang, Ivan Tsitsilin, Niklas Bruckmoser, Leon Koch, David Bunch, Niklas J. Glaser, Gerhard B. P. Huber, Martin Knudsen, Gleb Krylov, Achim Marx, Frederik Pfeiffer, Lea Richard, Federico A. Roy, João H. Romeiro, Malay Singh, Lasse Södergren, Etienne Dionis, Dominique Sugny, Max Werninghaus, Klaus Liegener, Christian M. F. Schneider, Stefan Filipp, (参考訳) 高速高忠実度制御のための強い結合を維持しつつ、環境騒音からキュービットを保護することは、量子情報処理における中心的な課題である。 ここでは、遷移周波数における状態の環境密度を低減し、制御チャネルを介してクビット崩壊を除去する超伝導フラクソニウム量子ビットの新しい制御方式を示す。 フラックスラインにローパスフィルタを加えることで、フラックスバイアスが可能となり、同時に遷移周波数の整数分数でパラメトリックに駆動することでフラクソニウム量子ビットをコヒーレントに制御することができる。 フィルタされたフィルタをフィルタされていない構成と比較すると、保護されたケースでは5倍の$T_1$と10倍の$T_2$-echo時間が得られる。 我々は、最大11光子サブハーモニックドライブによるコヒーレント制御を実証し、フラキソニウムポテンシャルの強い非線形性を強調した。 数値計算や解析計算とよく一致したRabi周波数と駆動誘起周波数シフトを実験的に決定する。 さらに,3光子サブハーモニックドライブとオン共鳴ドライブの等価性を示す。 これらの結果は、単一の保護チャネルを介して完全な量子ビット制御のためのスケーラブルな経路を開き、制御線による量子ビットのデコヒーレンスを強く抑制する。

Protecting qubits from environmental noise while maintaining strong coupling for fast high-fidelity control is a central challenge for quantum information processing. Here, we demonstrate a novel control scheme for superconducting fluxonium qubits that eliminates qubit decay through the control channel by reducing the environmental density of states at the transition frequency. Adding a low-pass filter on the flux line allows for flux-biasing and at the same time coherently controlling the fluxonium qubit by parametrically driving it at integer fractions of its transition frequency. We compare the filtered to the unfiltered configuration and find a five times longer $T_1$, and ten times improved $T_2$-echo time in the protected case. We demonstrate coherent control with up to 11-photon sub-harmonic drives, highlighting the strong non-linearity of the fluxonium potential. We experimentally determine Rabi frequencies and drive-induced frequency shifts in excellent agreement with numerical and analytical calculations. Furthermore, we show the equivalence of a 3-photon sub-harmonic drive to an on-resonance drive by benchmarking sub-harmonic gate fidelities above 99.94 %. These results open up a scalable path for full qubit control via a single protected channel, strongly suppressing qubit decoherence caused by control lines.
翻訳日:2024-11-05 05:16:55 公開日:2024-10-01
# マルチターゲット言語横断要約:新しい課題と言語ニュートラルアプローチ

Multi-Target Cross-Lingual Summarization: a novel task and a language-neutral approach ( http://arxiv.org/abs/2410.00502v1 )

ライセンス: Link先を確認
Diogo Pernes, Gonçalo M. Correia, Afonso Mendes, (参考訳) 言語間の要約は、異なる言語の文書を要約することで言語障壁を橋渡しすることを目的としている。 しかし、言語間のセマンティック・コヒーレンスを確保することは見過ごされる課題であり、いくつかの文脈において批判的である。 このギャップを埋めるために、文書を複数のターゲット言語に要約し、生成した要約が意味的に類似していることを保証するタスクとして、多目的言語間要約を導入する。 本稿では,この問題に対する原則的再評価手法と,対象言語間のセマンティック・コヒーレンスを評価するためのマルチ基準評価プロトコルを提案する。

Cross-lingual summarization aims to bridge language barriers by summarizing documents in different languages. However, ensuring semantic coherence across languages is an overlooked challenge and can be critical in several contexts. To fill this gap, we introduce multi-target cross-lingual summarization as the task of summarizing a document into multiple target languages while ensuring that the produced summaries are semantically similar. We propose a principled re-ranking approach to this problem and a multi-criteria evaluation protocol to assess semantic coherence across target languages, marking a first step that will hopefully stimulate further research on this problem.
翻訳日:2024-11-05 05:16:55 公開日:2024-10-01
# 精密医療におけるパーソナライズされた治療決定の学習:非現実的なアウトカム予測とバイオマーカー同定における治療割り当てバイアスの分散

Learning Personalized Treatment Decisions in Precision Medicine: Disentangling Treatment Assignment Bias in Counterfactual Outcome Prediction and Biomarker Identification ( http://arxiv.org/abs/2410.00509v1 )

ライセンス: Link先を確認
Michael Vollenweider, Manuel Schürch, Chiara Rohrer, Gabriele Gut, Michael Krauthammer, Andreas Wicki, (参考訳) 精密医療は、個々の患者に対して治療決定を調整する可能性があるが、臨床観察データの複雑なバイアスと、生物学的データの高次元的な性質のために、大きな課題に直面している。 本研究は,相互情報を用いた多種多様な治療課題バイアスをモデル化し,その影響を機械学習(ML)モデルを用いて予測し,バイオマーカーの同定を行う。 本研究は, 固定治療方針に依存する従来の対策ベンチマークとは異なり, 基礎となる観察治療方針の異なる特徴を, 異なる臨床条件でモデル化することに焦点を当てる。 我々は,おもちゃのデータセット,半合成癌ゲノムアトラス(TCGA)データ,および薬物およびCRISPRスクリーンによる実世界の生物学的結果を用いて,我々のアプローチを検証した。 実証的な生物学的メカニズムを取り入れることで、実世界のデータの複雑さを反映したより現実的なベンチマークを作成する。 分析の結果,いくつかのバイアス,特に結果のメカニズムとは無関係なバイアスは,予測精度に最小限の影響を与えることがわかった。 このことは、対実的MLモデル開発における臨床観察データの特定のバイアスを考慮し、究極的には、精密医療における治療決定のパーソナライズを強化することの重要性を浮き彫りにしている。

Precision medicine offers the potential to tailor treatment decisions to individual patients, yet it faces significant challenges due to the complex biases in clinical observational data and the high-dimensional nature of biological data. This study models various types of treatment assignment biases using mutual information and investigates their impact on machine learning (ML) models for counterfactual prediction and biomarker identification. Unlike traditional counterfactual benchmarks that rely on fixed treatment policies, our work focuses on modeling different characteristics of the underlying observational treatment policy in distinct clinical settings. We validate our approach through experiments on toy datasets, semi-synthetic tumor cancer genome atlas (TCGA) data, and real-world biological outcomes from drug and CRISPR screens. By incorporating empirical biological mechanisms, we create a more realistic benchmark that reflects the complexities of real-world data. Our analysis reveals that different biases lead to varying model performances, with some biases, especially those unrelated to outcome mechanisms, having minimal effect on prediction accuracy. This highlights the crucial need to account for specific biases in clinical observational data in counterfactual ML model development, ultimately enhancing the personalization of treatment decisions in precision medicine.
翻訳日:2024-11-05 05:07:10 公開日:2024-10-01
# 音声合成パターンによる事前学習

Pre-training with Synthetic Patterns for Audio ( http://arxiv.org/abs/2410.00511v1 )

ライセンス: Link先を確認
Yuchi Ishikawa, Tatsuya Komatsu, Yoshimitsu Aoki, (参考訳) 本稿では,実音声データの代わりに合成パターンを用いた事前学習型オーディオエンコーダを提案する。 提案するフレームワークは2つのキー要素から構成される。 第1のMasked Autoencoder(MAE)は、ランダムにマスクされたデータからデータを再構築することから学習する自己教師型学習フレームワークである。 MAEは、データ内の視覚的パターンや規則性といった低レベルの情報に焦点を当てる傾向があります。 したがって、画像、オーディオ・メル・スペクトログラム、あるいは合成パターンであっても、入力で何を表現するかは重要ではない。 これは合成データである第2のキー要素につながる。 合成データは、実際のオーディオとは違って、プライバシーやライセンス侵害の問題は発生しない。 このフレームワークは,MAEと合成パターンを組み合わせることで,実際の音声に関連する問題に対処しながら,実データなしで一般化された特徴表現を学習することを可能にする。 本フレームワークの有効性を評価するため,13の音声タスクと17の合成データセットからなる広範囲な実験を行った。 この実験は、どの種類の合成パターンが音声に有効であるかの洞察を与える。 本研究では,AudioSet-2Mで事前学習したモデルに匹敵する性能を実現し,画像ベースの事前学習手法を部分的に上回っていることを示す。

In this paper, we propose to pre-train audio encoders using synthetic patterns instead of real audio data. Our proposed framework consists of two key elements. The first one is Masked Autoencoder (MAE), a self-supervised learning framework that learns from reconstructing data from randomly masked counterparts. MAEs tend to focus on low-level information such as visual patterns and regularities within data. Therefore, it is unimportant what is portrayed in the input, whether it be images, audio mel-spectrograms, or even synthetic patterns. This leads to the second key element, which is synthetic data. Synthetic data, unlike real audio, is free from privacy and licensing infringement issues. By combining MAEs and synthetic patterns, our framework enables the model to learn generalized feature representations without real data, while addressing the issues related to real audio. To evaluate the efficacy of our framework, we conduct extensive experiments across a total of 13 audio tasks and 17 synthetic datasets. The experiments provide insights into which types of synthetic patterns are effective for audio. Our results demonstrate that our framework achieves performance comparable to models pre-trained on AudioSet-2M and partially outperforms image-based pre-training methods.
翻訳日:2024-11-05 05:07:10 公開日:2024-10-01
# 言語間バックパーシング:ゼロソースセマンティックパーシングにおける意味表現からの発話合成

Cross-lingual Back-Parsing: Utterance Synthesis from Meaning Representation for Zero-Resource Semantic Parsing ( http://arxiv.org/abs/2410.00513v1 )

ライセンス: Link先を確認
Deokhyung Kang, Seonjeong Hwang, Yunsu Kim, Gary Geunbae Lee, (参考訳) 近年の取り組みは、多言語事前訓練言語モデル(mPLM)を用いて、広範囲なアノテーションを必要とせずに、複数の言語にまたがる意味解析(SP)を拡張することを目的としている。 しかし、SPのためのゼロショットのクロスランガル転送を達成することは依然として困難であり、ソース言語とターゲット言語の間にパフォーマンスのギャップが生じる。 本研究では,SPの言語間移動を促進させる新しいデータ拡張手法であるクロスリンガル・バックパーシング(CBP)を提案する。 CBPはmPLMの表現幾何学を利用して、ソースの意味表現からターゲット言語発話を合成する。 本手法は,ソース言語とモノリンガルコーパスにおけるラベル付きデータのみを活用することで,ゼロリソース設定に挑戦する言語間データ拡張を効果的に行う。 2つのクロスランゲージSPベンチマーク(Mschema2QAとXspider)の大規模な実験は、CBPがターゲット言語にかなりの利益をもたらすことを示した。 合成音声のさらなる分析により,本手法は意味的整合性を維持しつつ高いスロット値アライメント率のターゲット言語発話を効果的に生成することを示す。 私たちのコードとデータはhttps://github.com/deokhk/CBPで公開されています。

Recent efforts have aimed to utilize multilingual pretrained language models (mPLMs) to extend semantic parsing (SP) across multiple languages without requiring extensive annotations. However, achieving zero-shot cross-lingual transfer for SP remains challenging, leading to a performance gap between source and target languages. In this study, we propose Cross-Lingual Back-Parsing (CBP), a novel data augmentation methodology designed to enhance cross-lingual transfer for SP. Leveraging the representation geometry of the mPLMs, CBP synthesizes target language utterances from source meaning representations. Our methodology effectively performs cross-lingual data augmentation in challenging zero-resource settings, by utilizing only labeled data in the source language and monolingual corpora. Extensive experiments on two cross-language SP benchmarks (Mschema2QA and Xspider) demonstrate that CBP brings substantial gains in the target language. Further analysis of the synthesized utterances shows that our method successfully generates target language utterances with high slot value alignment rates while preserving semantic integrity. Our codes and data are publicly available at https://github.com/deokhk/CBP.
翻訳日:2024-11-05 05:07:10 公開日:2024-10-01
# 縮退基底状態を持つ有限サイズの量子系における絡み合いの探索

Exploring entanglement in finite-size quantum systems with degenerate ground state ( http://arxiv.org/abs/2410.00515v1 )

ライセンス: Link先を確認
V. S. Okatev, O. M. Sotnikov, V. V. Mazurenko, (参考訳) 我々は、正確なあるいはほぼ退化した基底状態を持つスピン系における非局所量子相関を特徴づけるためのアプローチを開発する。 厳密な対角化で計算された線型独立な退化固有関数から始めると、それらのランダムな線形結合の有限集合をハール測度と生成し、これらの結合が初期固有状態によって分散された空間に均一に分散されることを保証する。 ランダム波動関数のフォン・ノイマンエントロピーを推定することは、基底状態の退化を伴う位相における量子相関の既知の特徴を明らかにするのに役立つ。 例えば、Dzyaloshinskii-Moriya相互作用による量子磁石のスピンスパイラル相は、エンタングルメントエントロピーの強化によって特徴づけられる。 本研究は, 多数の退化固有状態の単発測定に基づいて観測可能な天体を推定する問題について, 理論的知見と実実験の関連性を確立することを目的とする。

We develop an approach for characterizing non-local quantum correlations in spin systems with exactly or nearly degenerate ground states. Starting with linearly independent degenerate eigenfunctions calculated with exact diagonalization we generate a finite set of their random linear combinations with Haar measure, which guarantees that these combinations are uniformly distributed in the space spanned by the initial eigenstates. Estimating the von Neumann entropy of the random wave functions helps to reveal previously unknown features of the quantum correlations in the phases with degeneracy of the ground state. For instance, spin spiral phase of the quantum magnet with Dzyaloshinskii-Moriya interaction is characterized by the enhancement of the entanglement entropy, which can be qualitatively explained by the changes in behaviour of two- and three-spin correlation functions. To establish the connection between our theoretical findings and real experiments we elaborate on the problem of estimating observables on the basis of the single-shot measurements of numerous degenerate eigenstates.
翻訳日:2024-11-05 05:07:10 公開日:2024-10-01
# Sentinel-2イメージレゾリューションの強化:畳み込みと生成ニューラルネットワークに基づく高度な技術の評価

Enhancing Sentinel-2 Image Resolution: Evaluating Advanced Techniques based on Convolutional and Generative Neural Networks ( http://arxiv.org/abs/2410.00516v1 )

ライセンス: Link先を確認
Patrick Kramer, Alexander Steinhardt, Barbara Pedretscher, (参考訳) 本稿では,高分解能化技術を用いてスペクトル情報を含むセンチネル2バンドにおける空間分解能の2。 最先端CNNモデルは、品質と実現可能性の観点から強化されたGANアプローチと比較される。 そのため、Sentinel-2低分解能画像とそれに対応する高分解能空中写真からなる代表データセットが必要である。 文献研究により、土地の利害関係(森林)に関する有効なデータセットは明らかにされていないが、そのために適切なデータセットを生成する必要があり、正確なアライメントと画像ソースの最適化を考慮に入れなければならない。 その結果、CNNベースのアプローチは良好な結果をもたらすが、ぼやけた画像が得られる傾向にあることが明らかとなった。 対照的に、GANベースのモデルは、明確で詳細な画像を提供するだけでなく、定量的評価の観点からも優れた性能を示す。

This paper investigates the enhancement of spatial resolution in Sentinel-2 bands that contain spectral information using advanced super-resolution techniques by a factor of 2. State-of-the-art CNN models are compared with enhanced GAN approaches in terms of quality and feasibility. Therefore, a representative dataset comprising Sentinel-2 low-resolution images and corresponding high-resolution aerial orthophotos is required. Literature study reveals no feasible dataset for the land type of interest (forests), for which reason an adequate dataset had to be generated in addition, accounting for accurate alignment and image source optimization. The results reveal that while CNN-based approaches produce satisfactory outcomes, they tend to yield blurry images. In contrast, GAN-based models not only provide clear and detailed images, but also demonstrate superior performance in terms of quantitative assessment, underlying the potential of the framework beyond the specific land type investigated.
翻訳日:2024-11-05 05:07:10 公開日:2024-10-01
# Ant Colony Optimizationにおけるサブプライヤによる人間-ロボット協調最小時間探索

Human-Robot Collaborative Minimum Time Search through Sub-priors in Ant Colony Optimization ( http://arxiv.org/abs/2410.00517v1 )

ライセンス: Link先を確認
Oscar Gil Viyuela, Alberto Sanfeliu, (参考訳) ヒューマンロボットコラボレーション(HRC)は、人工知能(AI)とヒューマンロボットインタラクション(HRI)の最新のブレークスルーによって、非常に有望な問題に発展してきた。 この成長により、人間の好みも管理できるマルチエージェントアルゴリズムを設計する必要性が高まっている。 本稿では,人間とロボットが共同で物体探索を行う場合に,最小時間探索(MTS)タスクを解くためのACOメタヒューリスティックの拡張を提案する。 提案モデルは2つの主ブロックから構成される。 ひとつは畳み込みニューラルネットワーク(CNN)で、分割された画像からオブジェクトがどこにあるかに関する事前確率を提供する。 2つ目は、サブプライアのMTS-ACOアルゴリズム(SP-MTS-ACO)である。 このモデルは、タブレットコンピュータにおけるVizanti Webベースの可視化を通して、オブジェクトを共同で検索するための実実験でテストされている。 デザインされたインターフェースは、人間と人間のヒューマノイドロボットの通信を可能にする。 その結果,効率を損なうことなくユーザの検索知覚を向上させることができた。

Human-Robot Collaboration (HRC) has evolved into a highly promising issue owing to the latest breakthroughs in Artificial Intelligence (AI) and Human-Robot Interaction (HRI), among other reasons. This emerging growth increases the need to design multi-agent algorithms that can manage also human preferences. This paper presents an extension of the Ant Colony Optimization (ACO) meta-heuristic to solve the Minimum Time Search (MTS) task, in the case where humans and robots perform an object searching task together. The proposed model consists of two main blocks. The first one is a convolutional neural network (CNN) that provides the prior probabilities about where an object may be from a segmented image. The second one is the Sub-prior MTS-ACO algorithm (SP-MTS-ACO), which takes as inputs the prior probabilities and the particular search preferences of the agents in different sub-priors to generate search plans for all agents. The model has been tested in real experiments for the joint search of an object through a Vizanti web-based visualization in a tablet computer. The designed interface allows the communication between a human and our humanoid robot named IVO. The obtained results show an improvement in the search perception of the users without loss of efficiency.
翻訳日:2024-11-05 05:07:10 公開日:2024-10-01
# 直交型遺伝的プログラミングにおける順序戦略の影響の分析

Analysing the Influence of Reorder Strategies for Cartesian Genetic Programming ( http://arxiv.org/abs/2410.00518v1 )

ライセンス: Link先を確認
Henning Cui, Andreas Margraf, Jörg Hähner, (参考訳) 位置バイアス(英: positional bias)とは、ゲノムの開始時にほとんどの遺伝子がプログラムの出力に寄与する現象である。 これにより、CGPの全体的なパフォーマンスが悪化する可能性がある。 位置バイアスを克服する一つの解決策は、対応する表現型を変更することなく現在の遺伝子型をシャッフルするリオーダー法を導入することである。 現在、2つの異なるリオーダー演算子があり、古典的なCGP公式を拡張し、その適合性を改善する。 本稿では、これらの2つの既存演算子の潜在的な欠点について論じる。 その後、CGPで定義されたグラフのジェノタイプを並べ替える3つの新しい演算子を導入する。 4つのBooleanおよび4つのシンボリック回帰ベンチマークにおいて、解が見つかるまでの反復数および/または適合値は、再順序法を用いてCGPを用いて改善されることを実証的に示す。 しかし、最良のリオーダー演算子は存在しない。 さらに、それらの挙動は収束プロットの調査によって解析され、収束型の観点からも全て同じ挙動を示す。

Cartesian Genetic Programming (CGP) suffers from a specific limitation: Positional bias, a phenomenon in which mostly genes at the start of the genome contribute to a program output, while genes at the end rarely do. This can lead to an overall worse performance of CGP. One solution to overcome positional bias is to introduce reordering methods, which shuffle the current genotype without changing its corresponding phenotype. There are currently two different reorder operators that extend the classic CGP formula and improve its fitness value. In this work, we discuss possible shortcomings of these two existing operators. Afterwards, we introduce three novel operators which reorder the genotype of a graph defined by CGP. We show empirically on four Boolean and four symbolic regression benchmarks that the number of iterations until a solution is found and/or the fitness value improves by using CGP with a reorder method. However, there is no consistently best performing reorder operator. Furthermore, their behaviour is analysed by investigating their convergence plots and we show that all behave the same in terms of convergence type.
翻訳日:2024-11-05 05:07:10 公開日:2024-10-01
# LEVERWORLDSを用いた言語モデルの学習能力の探索

Exploring the Learning Capabilities of Language Models using LEVERWORLDS ( http://arxiv.org/abs/2410.00519v1 )

ライセンス: Link先を確認
Eitan Wagner, Amir Feder, Omri Abend, (参考訳) 確率的セッティングのモデルを学ぶには、多くの場合、一般的な構造規則とインスタンスの特定の性質の両方を学ぶ必要がある。 本稿では,様々な学習方法における一般学習と特定学習の相互作用について,サンプル効率に着目して検討する。 我々は、異なる分布を持つ同様の生成過程に従う単純な物理に着想を得た世界を生成できるフレームワーク {\sc LeverWorlds} を設計し、それらのインスタンスを自然言語で表現できる。 これらの世界は、異なる学習方法のサンプルの複雑さを評価するための制御された実験を可能にする。 我々は古典的な学習アルゴリズムとトランスフォーマー言語モデルで実験を行い、微調整とインコンテキスト学習(ICL)を併用した。 我々の一般的な発見は,(1)トランスフォーマーは一般的にタスクを成功させるが,(2)最大様相推定やロジスティック回帰といった構造についてより強い仮定を行う古典的手法に比べて,サンプル効率がかなり低いことである。 この発見は、トランスフォーマーを汎用的推定器として利用する最近の傾向と緊張関係にある。 本稿では、現代言語モデルのICL機能を活用して、このタイプのデータに単純なアルゴリズムを適用するアプローチを提案する。 我々の実験は、現在この課題に苦戦しているが、有望な可能性を示していることを示している。

Learning a model of a stochastic setting often involves learning both general structure rules and specific properties of the instance. This paper investigates the interplay between learning the general and the specific in various learning methods, with emphasis on sample efficiency. We design a framework called {\sc LeverWorlds}, which allows the generation of simple physics-inspired worlds that follow a similar generative process with different distributions, and their instances can be expressed in natural language. These worlds allow for controlled experiments to assess the sample complexity of different learning methods. We experiment with classic learning algorithms as well as Transformer language models, both with fine-tuning and In-Context Learning (ICL). Our general finding is that (1) Transformers generally succeed in the task; but (2) they are considerably less sample efficient than classic methods that make stronger assumptions about the structure, such as Maximum Likelihood Estimation and Logistic Regression. This finding is in tension with the recent tendency to use Transformers as general-purpose estimators. We propose an approach that leverages the ICL capabilities of contemporary language models to apply simple algorithms for this type of data. Our experiments show that models currently struggle with the task but show promising potential.
翻訳日:2024-11-05 05:07:10 公開日:2024-10-01
# 非構造環境におけるキーポイントパッチの設計と同定

Design and Identification of Keypoint Patches in Unstructured Environments ( http://arxiv.org/abs/2410.00521v1 )

ライセンス: Link先を確認
Taewook Park, Seunghwan Kim, Hyondong Oh, (参考訳) 自律ロボットの安定動作には,目標に対する信頼性の高い認識が不可欠である。 生画像から2D座標への直接マッピングを可能にし、ローカライゼーションやパス計画といった他のアルゴリズムとの統合を容易にするため、画像内のキーポイント識別が広く好まれている。 本研究では,ぼやけた環境におけるキーポイントパッチの設計と識別について詳しく検討した。 限られた画素数を用いて, 様々なスケール, 回転, カメラ投影を考慮した, 単純かつ独特な4つの設計を提案する。 さらにスーパーポイントネットワークをカスタマイズして,様々な画像劣化によるロバスト検出を実現する。 提案手法の有効性は実世界のビデオテストを通じて実証され,視覚に基づく自律システムの可能性を強調している。

Reliable perception of targets is crucial for the stable operation of autonomous robots. A widely preferred method is keypoint identification in an image, as it allows direct mapping from raw images to 2D coordinates, facilitating integration with other algorithms like localization and path planning. In this study, we closely examine the design and identification of keypoint patches in cluttered environments, where factors such as blur and shadows can hinder detection. We propose four simple yet distinct designs that consider various scale, rotation and camera projection using a limited number of pixels. Additionally, we customize the Superpoint network to ensure robust detection under various types of image degradation. The effectiveness of our approach is demonstrated through real-world video tests, highlighting potential for vision-based autonomous systems.
翻訳日:2024-11-05 05:07:10 公開日:2024-10-01
# コーパスノベルティのアノテーションガイドライン:パート2 -- Alias Resolution Version 1.0

Annotation Guidelines for Corpus Novelties: Part 2 -- Alias Resolution Version 1.0 ( http://arxiv.org/abs/2410.00522v1 )

ライセンス: Link先を確認
Arthur Amalvy, Vincent Labatut, (参考訳) ノベルティ・コーパス(英: Novelties corpus)は、エイリアス・レゾリューションに注釈を付けた小説(と小説の一部)のコレクションである。 この文書は、アノテーションのプロセスで適用されるガイドラインを記述します。 注釈者によって用いられる指示や、注釈付き小説から回収された多くの例、聖名の定義方法、どの名前が同一の実体を指すべきかなどを含む。

The Novelties corpus is a collection of novels (and parts of novels) annotated for Alias Resolution, among other tasks. This document describes the guidelines applied during the annotation process. It contains the instructions used by the annotators, as well as a number of examples retrieved from the annotated novels, and illustrating how canonical names should be defined, and which names should be considered as referring to the same entity.
翻訳日:2024-11-05 05:07:10 公開日:2024-10-01
# マルチインストラクショナル文書における対話型質問応答のための大規模言語モデルのベンチマーク

Benchmarking Large Language Models for Conversational Question Answering in Multi-instructional Documents ( http://arxiv.org/abs/2410.00526v1 )

ライセンス: Link先を確認
Shiwei Wu, Chen Zhang, Yan Gao, Qimeng Wang, Tong Xu, Yao Hu, Enhong Chen, (参考訳) インストラクショナルドキュメントは様々なタスクを完了するための豊富な知識源であるが、会話型質問応答(CQA)におけるそれらの固有の課題は、十分に解明されていない。 既存のベンチマークは主に、単一の物語文書からの基本的な事実回答に焦点を当てており、複雑な現実世界の教育文書を理解でき、日々の生活における正確なステップバイステップのガイダンスを提供するモデルの能力を評価するのに不十分である。 このギャップを埋めるため,CQAの文脈で大規模言語モデル(LLM)を評価するための新しいベンチマークであるInsCoQAを提案する。 InsCoQAは、百科事典的な教育内容から派生したもので、複数の文書から手続き的指導を検索し、解釈し、正確に要約する能力のモデルを評価し、現実世界の教育タスクの複雑で多面的な性質を反映している。 さらに,InsCoQAベンチマーク上での最先端LCMの総合評価のために,生成した応答の完全性と精度と手続き的指示の精度を計測するLCM支援評価器であるInsEvalを提案する。

Instructional documents are rich sources of knowledge for completing various tasks, yet their unique challenges in conversational question answering (CQA) have not been thoroughly explored. Existing benchmarks have primarily focused on basic factual question-answering from single narrative documents, making them inadequate for assessing a model`s ability to comprehend complex real-world instructional documents and provide accurate step-by-step guidance in daily life. To bridge this gap, we present InsCoQA, a novel benchmark tailored for evaluating large language models (LLMs) in the context of CQA with instructional documents. Sourced from extensive, encyclopedia-style instructional content, InsCoQA assesses models on their ability to retrieve, interpret, and accurately summarize procedural guidance from multiple documents, reflecting the intricate and multi-faceted nature of real-world instructional tasks. Additionally, to comprehensively assess state-of-the-art LLMs on the InsCoQA benchmark, we propose InsEval, an LLM-assisted evaluator that measures the integrity and accuracy of generated responses and procedural instructions.
翻訳日:2024-11-05 04:57:03 公開日:2024-10-01
# TPI-LLM:低リソースエッジデバイス上で70BスケールのLLMを実現する

TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices ( http://arxiv.org/abs/2410.00531v1 )

ライセンス: Link先を確認
Zonghang Li, Wenjiao Feng, Mohsen Guizani, Hongfang Yu, (参考訳) ユーザインタラクションデータのプライバシに関する懸念から、大規模なモデル推論がクラウドからエッジに移行している。 しかし、エッジデバイスは計算能力、メモリ、帯域幅の制限に悩まされ、LLM推論の実行と高速化のために複数のデバイスをまたいで協調する必要がある。 パイプライン並列性(Pipeline parallelism)は、単一ユーザシナリオでは非効率であり、テンソル並列性(tensor parallelism)は頻繁な通信に苦労する。 本稿では,テンソル並列性は低リソースデバイス上でのパイプラインよりも有効であり,TPI-LLMと呼ばれる計算およびメモリ効率の高いテンソル並列推論システムを提案する。 TPI-LLMは、ユーザのデバイスに機密データをローカルに保持し、推論中に層重みを動的に管理するスライディングウィンドウメモリスケジューラを導入し、ディスクI/Oレイテンシと計算と通信の重なり合わせている。 これにより、より大きなモデルはメモリ制限されたデバイス上でスムーズに動作する。 通信ボトルネックを解析し、帯域幅ではなくリンク遅延が主問題として現れるので、スターベースアレーダアルゴリズムが実装される。 TPI-LLMは、エミュレートされたテストベッドと実際のテストベッドの両方での広範な実験を通じて、Accelerateと比較して80%以上、TransformerやGalaxyよりも90%以上、Llama 2-70Bのピークメモリフットプリントを90%削減し、70Bスケールのモデルではわずか3.1GBのメモリしか必要としなかった。

Large model inference is shifting from cloud to edge due to concerns about the privacy of user interaction data. However, edge devices often struggle with limited computing power, memory, and bandwidth, requiring collaboration across multiple devices to run and speed up LLM inference. Pipeline parallelism, the mainstream solution, is inefficient for single-user scenarios, while tensor parallelism struggles with frequent communications. In this paper, we argue that tensor parallelism can be more effective than pipeline on low-resource devices, and present a compute- and memory-efficient tensor parallel inference system, named TPI-LLM, to serve 70B-scale models. TPI-LLM keeps sensitive raw data local in the users' devices and introduces a sliding window memory scheduler to dynamically manage layer weights during inference, with disk I/O latency overlapped with the computation and communication. This allows larger models to run smoothly on memory-limited devices. We analyze the communication bottleneck and find that link latency, not bandwidth, emerges as the main issue, so a star-based allreduce algorithm is implemented. Through extensive experiments on both emulated and real testbeds, TPI-LLM demonstrated over 80% less time-to-first-token and token latency compared to Accelerate, and over 90% compared to Transformers and Galaxy, while cutting the peak memory footprint of Llama 2-70B by 90%, requiring only 3.1 GB of memory for 70B-scale models.
翻訳日:2024-11-05 04:57:03 公開日:2024-10-01
# 内視鏡画像における潰瘍性大腸炎重症度評価のための時空間変換器

Arges: Spatio-Temporal Transformer for Ulcerative Colitis Severity Assessment in Endoscopy Videos ( http://arxiv.org/abs/2410.00536v1 )

ライセンス: Link先を確認
Krishna Chaitanya, Pablo F. Damasceno, Shreyas Fadnavis, Pooya Mobadersany, Chaitanya Parmar, Emily Scherer, Natalia Zemlianskaia, Lindsey Surace, Louis R. Ghanem, Oana Gabriela Cula, Tommaso Mansi, Kristopher Standish, (参考訳) 潰瘍性大腸炎 (UC) における内視鏡検査による重症度評価は, 臨床治験における薬効評価に重要である。 重症度は,Mayo Endoscopic Subscore(MES)とUlcerative Colitis Endoscopic Index of Severity(UCEIS)スコアで測定されることが多い。 しかし、専門家のMES/UCEISアノテーションは、自動化によって対処できる要因である、ラター間のばらつきに時間がかかり、影響を受けやすい。 フレームレベルのラベルによる自動化の試みは、臨床試験におけるビデオレベルのラベルの普及により、完全に教師されたソリューションにおける課題に直面している。 CNN-based weak-supervised model (WSL) with end-to-end (e2e) training without generalization to new disease scores and ignores spatio-temporal information essential for accurate score。 このような制約に対処するため,本研究では,フレーム特徴から時空間情報を組み込んだ変換器を用いた深層学習フレームワーク「Arges」を提案し,内視鏡映像における疾患重症度スコアを推定する。 抽出された特徴は、複数の臨床試験(61Mフレーム、3927ビデオ)から、多種多様なデータセットで事前訓練された基礎モデル(ArgesFM)から導かれる。 MESと3つのUCEIS成分スコアを含む4つのUC病重症度スコアを評価した。 テストセット評価では、MESではF1スコアが4.1%増加し、18.8%、6.6%、UCEISでは3つのスコアが3.8%向上した。 未確認の臨床試験データに対する前向きな検証は、モデルの一般化の成功をさらに証明している。

Accurate assessment of disease severity from endoscopy videos in ulcerative colitis (UC) is crucial for evaluating drug efficacy in clinical trials. Severity is often measured by the Mayo Endoscopic Subscore (MES) and Ulcerative Colitis Endoscopic Index of Severity (UCEIS) score. However, expert MES/UCEIS annotation is time-consuming and susceptible to inter-rater variability, factors addressable by automation. Automation attempts with frame-level labels face challenges in fully-supervised solutions due to the prevalence of video-level labels in clinical trials. CNN-based weakly-supervised models (WSL) with end-to-end (e2e) training lack generalization to new disease scores and ignore spatio-temporal information crucial for accurate scoring. To address these limitations, we propose "Arges", a deep learning framework that utilizes a transformer with positional encoding to incorporate spatio-temporal information from frame features to estimate disease severity scores in endoscopy video. Extracted features are derived from a foundation model (ArgesFM), pre-trained on a large diverse dataset from multiple clinical trials (61M frames, 3927 videos). We evaluate four UC disease severity scores, including MES and three UCEIS component scores. Test set evaluation indicates significant improvements, with F1 scores increasing by 4.1% for MES and 18.8%, 6.6%, 3.8% for the three UCEIS component scores compared to state-of-the-art methods. Prospective validation on previously unseen clinical trial data further demonstrates the model's successful generalization.
翻訳日:2024-11-05 04:57:03 公開日:2024-10-01
# Differentially Private Active Learning: 効果的なデータ選択とプライバシのバランス

Differentially Private Active Learning: Balancing Effective Data Selection and Privacy ( http://arxiv.org/abs/2410.00542v1 )

ライセンス: Link先を確認
Kristian Schwethelm, Johannes Kaiser, Jonas Kuntzer, Mehmet Yigitsoy, Daniel Rueckert, Georgios Kaissis, (参考訳) アクティブラーニング(英: Active Learning, AL)は、機械学習におけるデータラベリングを、最も情報性の高いデータに対して反復的に選択、ラベル付け、トレーニングすることで最適化する手法である。 しかし、正式なプライバシー保護手法、特に差分プライバシー(DP)との統合は、いまだに未調査である。 いくつかの研究は、オンライン学習のような特殊なシナリオにおいて、異なるプライベートなALを探索してきたが、標準的な学習環境において、ALとDPを組み合わせるという根本的な課題は、プライバシに敏感なドメインにおけるALの適用性を著しく制限し、未適応のままである。 本研究は、標準学習設定のための差分プライベートアクティブラーニング(DP-AL)を導入することで、このギャップに対処する。 本研究では,DP-SGDトレーニングをALに統合することで,プライバシ予算の割り当てやデータ利用において大きな課題が生じることを実証する。 これらの課題を克服するために、バッチ生成における個々のサンプリング確率を活用して、トレーニングステップにおけるデータポイントの参加を最大化し、データ利用を最適化するステップ増幅を提案する。 さらに,プライバシ制約下でのデータ選択における各種取得関数の有効性について検討し,一般的に使用される関数の多くが実用的でないことを明らかにする。 視覚および自然言語処理タスクに関する実験は,DP-ALが特定のデータセットやモデルアーキテクチャの性能を向上させることを示す。 しかし、プライバシーに制約のある環境でのALの限界も強調し、プライバシ、モデル精度、データ選択精度のトレードオフを強調した。

Active learning (AL) is a widely used technique for optimizing data labeling in machine learning by iteratively selecting, labeling, and training on the most informative data. However, its integration with formal privacy-preserving methods, particularly differential privacy (DP), remains largely underexplored. While some works have explored differentially private AL for specialized scenarios like online learning, the fundamental challenge of combining AL with DP in standard learning settings has remained unaddressed, severely limiting AL's applicability in privacy-sensitive domains. This work addresses this gap by introducing differentially private active learning (DP-AL) for standard learning settings. We demonstrate that naively integrating DP-SGD training into AL presents substantial challenges in privacy budget allocation and data utilization. To overcome these challenges, we propose step amplification, which leverages individual sampling probabilities in batch creation to maximize data point participation in training steps, thus optimizing data utilization. Additionally, we investigate the effectiveness of various acquisition functions for data selection under privacy constraints, revealing that many commonly used functions become impractical. Our experiments on vision and natural language processing tasks show that DP-AL can improve performance for specific datasets and model architectures. However, our findings also highlight the limitations of AL in privacy-constrained environments, emphasizing the trade-offs between privacy, model accuracy, and data selection accuracy.
翻訳日:2024-11-05 04:57:03 公開日:2024-10-01
# 材料・分子研究における多要素ベイズ最適化のベストプラクティス

Best Practices for Multi-Fidelity Bayesian Optimization in Materials and Molecular Research ( http://arxiv.org/abs/2410.00544v1 )

ライセンス: Link先を確認
Víctor Sabanza-Gil, Riccardo Barbano, Daniel Pacheco Gutiérrez, Jeremy S. Luterbacher, José Miguel Hernández-Lobato, Philippe Schwaller, Loïc Roch, (参考訳) MFBO(Multi-fidelity Bayesian Optimization, MFBO)は、様々な精度の情報ソースがコストの増大に近づいているため、材料と分子発見を高速化するための有望なフレームワークである。 化学的タスクに使用される可能性があるが、MFBOで果たす多くのパラメータの体系的な評価が欠如している。 本研究では,MFBOを実験環境でいつ使用するかを決定するためのガイドラインと勧告を提供する。 分子・材料問題に適用したMFBO法について検討した。 まず, 2つの合成問題において, 2つの異なる獲得関数群を検証し, 近似関数の有意性とコストの影響について検討する。 実装とガイドラインを使って、3つの実際の発見問題をベンチマークし、それらを彼らの単一の忠実度と比較します。 ケミカルサイエンスにおける日常的なツールとしてのMFBOの実現に向けた今後の取り組みの指針となるかもしれない。

Multi-fidelity Bayesian Optimization (MFBO) is a promising framework to speed up materials and molecular discovery as sources of information of different accuracies are at hand at increasing cost. Despite its potential use in chemical tasks, there is a lack of systematic evaluation of the many parameters playing a role in MFBO. In this work, we provide guidelines and recommendations to decide when to use MFBO in experimental settings. We investigate MFBO methods applied to molecules and materials problems. First, we test two different families of acquisition functions in two synthetic problems and study the effect of the informativeness and cost of the approximate function. We use our implementation and guidelines to benchmark three real discovery problems and compare them against their single-fidelity counterparts. Our results may help guide future efforts to implement MFBO as a routine tool in the chemical sciences.
翻訳日:2024-11-05 04:57:03 公開日:2024-10-01
# Kerrパラメトリック振動子量子ビットの高速条件駆動ゲート

High-performance conditional-driving gate for Kerr parametric oscillator qubits ( http://arxiv.org/abs/2410.00552v1 )

ライセンス: Link先を確認
Hiroomi Chono, Hayato Goto, (参考訳) 2光子駆動のカー非線形共振器であるカーパラメトリック発振器(KPO)は、正反対の振幅で安定にコヒーレントな状態を保持でき、量子コンピューティングのための有望なデバイスである。 近年、高度に変形したKPOに対して2ビットゲート$R_{zz}$を提案し、これを条件付きゲート(Chono $\textit{et al}$)と呼ぶ。 Phys。 Rev. Res. $\textbf{4}$, 043054 (2022)] 本研究では,超伝導回路モデルの解析とそれに対応する静的モデルの導出を行い,ゲート動作のフラックスパルスによる交流-ゼーマンシフトがゲート性能に大きく影響していることを見出した。 この効果はゲート時間が短くなるほど増大しやすくなり、エラー率も上昇する。 そこで我々は、この望ましくない効果をキャンセルする手法を提案する。 さらに, 断熱性へのショートカットの適用とフラックスパルスの最適化により, 提案手法を使わずに, 平均忠実度が99.9$\%を超える条件付き運転ゲートを数値的に示す。

Kerr parametric oscillators (KPOs), two-photon driven Kerr-nonlinear resonators, can stably hold coherent states with opposite-sign amplitudes and are promising devices for quantum computing. Recently, we have theoretically proposed a two-qubit gate $R_{zz}$ for highly detuned KPOs and called it a conditional-driving gate [Chono $\textit{et al}$., Phys. Rev. Res. $\textbf{4}$, 043054 (2022)]. In this study, analyzing its superconducting-circuit model and deriving a corresponding static model, we find that an AC-Zeeman shift due to the flux pulse for the gate operation largely affects the gate performance. This effect becomes a more aggravating factor with shorter gate times, leading to an increase in the error rate. We thus propose a method to cancel this undesirable effect. Furthermore, through the use of shortcuts to adiabaticity and the optimization of flux pulses, we numerically demonstrate a conditional-driving gate with average fidelity exceeding 99.9$\%$ twice faster than that without the proposed method.
翻訳日:2024-11-05 04:57:03 公開日:2024-10-01
# 集団戦略による絡み合い状態の最適検証

Beating the Optimal Verification of Entangled States via Collective Strategies ( http://arxiv.org/abs/2410.00554v1 )

ライセンス: Link先を確認
Ye-Chao Liu, Jiangwei Shang, (参考訳) 量子情報処理の領域では、絡み合った状態の効率的な特徴づけは圧倒的な挑戦となり、量子トモグラフィーを含む従来の手法は実現不可能で実用的ではない。 この問題に対処するために,グローバルな測定で最適検証に勝る,任意に高い効率性を示す,集合戦略を用いた新しい検証手法を提案する。 ハードウェア要求に対して線形スケーリングを施した大規模システムでは,様々な実験プラットフォームで実装可能であり,分散処理が可能である。 さらに重要なことは、この手法は絡み合った状態のごくわずかのコピーしか消費せず、測定されていない状態の保存を確実にし、その後のタスクに対する忠実性を高める。 さらに、本プロトコルは、システムに影響を及ぼす特定のノイズの種類について、さらなる洞察を与え、潜在的に標的となる改善を促進する。 これらの進歩は幅広い応用を約束し、より堅牢で効率的な量子情報処理への道筋を提供する。

In the realm of quantum information processing, the efficient characterization of entangled states poses an overwhelming challenge, rendering the traditional methods including quantum tomography unfeasible and impractical. To tackle this problem, we propose a new verification scheme using collective strategies, showcasing arbitrarily high efficiency that beats the optimal verification with global measurements. Our collective scheme can be implemented in various experimental platforms and scalable for large systems with a linear scaling on hardware requirement, and distributed operations are allowed. More importantly, the approach consumes only a few copies of the entangled states, while ensuring the preservation of unmeasured ones, and even boosting their fidelity for any subsequent tasks. Furthermore, our protocol provides additional insight into the specific types of noise affecting the system, thereby facilitating potential targeted improvements. These advancements hold promise for a wide range of applications, offering a pathway towards more robust and efficient quantum information processing.
翻訳日:2024-11-05 04:57:03 公開日:2024-10-01
# AMR-Evol: コード生成における大規模言語モデルのより良い知識蒸留を可能にする適応型モジュール応答進化

AMR-Evol: Adaptive Modular Response Evolution Elicits Better Knowledge Distillation for Large Language Models in Code Generation ( http://arxiv.org/abs/2410.00558v1 )

ライセンス: Link先を確認
Ziyang Luo, Xin Li, Hongzhan Lin, Jing Ma, Lidong Bing, (参考訳) コード生成における GPT4 のようなプロプライエタリな LLM のパフォーマンスは、知識の蒸留(Code Evol-Instruct など)を通じて、これらの機能をオープンソースモデルに複製する傾向にある。 しかし、これらの取り組みは、直接反応蒸留の教師モデルに大きく依存して、応答品質の重要な側面を無視することが多い。 このパラダイムは、特に複雑な指示のために、合成されたデータの質を低下させ、知識蒸留過程を悪化させる。 そこで本研究では, 反応蒸留の精製に2段階のプロセスを用いるアダプティブ・モジュール応答進化(AMR-Evol)フレームワークを提案する。 最初の段階であるモジュラ分解は、直接応答をより管理しやすいサブモジュールに分解する。 第2段階、適応応答進化は、関連する関数モジュールとの応答を自動的に進化させる。 HumanEval, MBPP, EvalPlusの3つのコードベンチマークによる実験により, ベースライン応答蒸留法よりもAMR-Evolフレームワークの方が優れていることが示された。 同様の規模のデータでトレーニングされたオープンソースの Code LLM と比較すると,HumanEval-Plus の +3.0 点,MBPP-Plus の +1.0 点以上のパフォーマンス向上が見られた。 私たちのコードはhttps://github.com/ChiYeungLaw/AMR-Evol.comで公開されています。

The impressive performance of proprietary LLMs like GPT4 in code generation has led to a trend to replicate these capabilities in open-source models through knowledge distillation (e.g. Code Evol-Instruct). However, these efforts often neglect the crucial aspect of response quality, relying heavily on teacher models for direct response distillation. This paradigm, especially for complex instructions, can degrade the quality of synthesized data, compromising the knowledge distillation process. To this end, our study introduces the Adaptive Modular Response Evolution (AMR-Evol) framework, which employs a two-stage process to refine response distillation. The first stage, modular decomposition, breaks down the direct response into more manageable sub-modules. The second stage, adaptive response evolution, automatically evolves the response with the related function modules. Our experiments with three popular code benchmarks (HumanEval, MBPP, and EvalPlus) attest to the superiority of the AMR-Evol framework over baseline response distillation methods. By comparing with the open-source Code LLMs trained on a similar scale of data, we observed performance enhancements: more than +3.0 points on HumanEval-Plus and +1.0 points on MBPP-Plus, which underscores the effectiveness of our framework. Our codes are available at https://github.com/ChiYeungLaw/AMR-Evol.
翻訳日:2024-11-05 04:57:03 公開日:2024-10-01
# 地面の除去は可能か?遠隔物体検出のための障害物認識点雲圧縮

Can We Remove the Ground? Obstacle-aware Point Cloud Compression for Remote Object Detection ( http://arxiv.org/abs/2410.00582v1 )

ライセンス: Link先を確認
Pengxi Zeng, Alberto Presta, Jonah Reinis, Dinesh Bharadia, Hang Qiu, Pamela Cosman, (参考訳) 効率的なポイントクラウド(PC)圧縮は、拡張現実や協調認識など、ストリーミングアプリケーションにとって不可欠である。 古典的なPC圧縮技術は、フレーム内のすべてのポイントを符号化する。 受信側での認識タスクに対する圧縮を調整し、「検出性能を犠牲にすることなく送信中の接地点を除去するのか?」という質問をする。 本研究は, 最先端3次元物体検出モデル(SOTA)の地上への強い依存を明らかにするものである。 本研究では, Pillar-based Ground removal (PGR) アルゴリズムを提案する。 PGRは、オブジェクト認識に文脈を提供しない基底点をフィルタし、受信側認識性能を犠牲にすることなく、圧縮率を大幅に改善する。 重いオブジェクト検出やセマンティックセグメンテーションモデルを使用しないPGRは軽量で、高度に並列化可能で、効果的である。 KITTI と Waymo Open Dataset による評価の結果,SOTA 検出モデルは PGR が 20-30% のポイントを除去し,86 FPS の高速化を実現していることがわかった。

Efficient point cloud (PC) compression is crucial for streaming applications, such as augmented reality and cooperative perception. Classic PC compression techniques encode all the points in a frame. Tailoring compression towards perception tasks at the receiver side, we ask the question, "Can we remove the ground points during transmission without sacrificing the detection performance?" Our study reveals a strong dependency on the ground from state-of-the-art (SOTA) 3D object detection models, especially on those points below and around the object. In this work, we propose a lightweight obstacle-aware Pillar-based Ground Removal (PGR) algorithm. PGR filters out ground points that do not provide context to object recognition, significantly improving compression ratio without sacrificing the receiver side perception performance. Not using heavy object detection or semantic segmentation models, PGR is light-weight, highly parallelizable, and effective. Our evaluations on KITTI and Waymo Open Dataset show that SOTA detection models work equally well with PGR removing 20-30% of the points, with a speeding of 86 FPS.
翻訳日:2024-11-05 04:57:03 公開日:2024-10-01
# 安全性能指標の活用に向けて

Towards an Argument Pattern for the Use of Safety Performance Indicators ( http://arxiv.org/abs/2410.00578v1 )

ライセンス: Link先を確認
Daniel Ratiu, Tihomir Rohlinger, Torben Stolte, Stefan Wagner, (参考訳) 自動運転製品の安全基準であるUL 4600は、安全性能指標(SPI)の使用を義務付け、違反が特定された場合の監視と対応によって安全事例の有効性を継続的に確保する。 標準および共用文献で利用可能な具体的なSPIの例は多数あるが、安全性を達成するための貢献の根拠は暗黙的に残されていることが多い。 本稿では,システムライフサイクル全体を通して,安全ケースの妥当性を確保するため,SPIの使用に関する議論パターンについて述べる。 本研究の目的は,選択したSPIの集合に対する信頼を損なう可能性のある状況を分析するために,SPIを用いた暗黙の議論を明確化することである。 本稿では,SPIの有効性の信頼性を維持するため,メタSPIを用いて期待される性能を継続的に監視する手法を提案する。

UL 4600, the safety standard for autonomous products, mandates the use of Safety Performance Indicators (SPIs) to continuously ensure the validity of safety cases by monitoring and taking action when violations are identified. Despite numerous examples of concrete SPIs available in the standard and companion literature, their contribution rationale for achieving safety is often left implicit. In this paper, we present our initial work towards an argument pattern for the use of SPIs to ensure validity of safety cases throughout the entire lifecycle of the system. Our aim is to make the implicit argument behind using SPIs explicit, and based on this, to analyze the situations that can undermine confidence in the chosen set of SPIs. To maintain the confidence in SPIs' effectiveness, we propose an approach to continuously monitor their expected performance by using meta-SPIs.
翻訳日:2024-11-05 04:47:16 公開日:2024-10-01
# スパイキングニューラルネットワークにおける重み付け初期化による深部活動伝播

Deep activity propagation via weight initialization in spiking neural networks ( http://arxiv.org/abs/2410.00580v1 )

ライセンス: Link先を確認
Aurora Micheli, Olaf Booij, Jan van Gemert, Nergis Tömen, (参考訳) スパイキングニューラルネットワーク(SNN)とニューロモルフィックコンピューティングは、空間性や超低消費電力といったバイオインスパイアされた利点を提供し、従来のネットワークに代わる有望な代替手段を提供する。 しかし、SNNは実際の膜電位を二分スパイクに定量化して情報を伝達するので、スクラッチから深部SNNを訓練することは依然として困難である。 これにより、情報損失や深いレイヤのスパイクの消滅につながる可能性があるため、効果的なトレーニングが妨げられます。 重み初期化はディープニューラルネットワークのトレーニングにおいて重要であることが知られているが、ディープSNNの効果的な初期状態を構成するものは十分に理解されていない。 従来のネットワーク (ANN) 用に設計された既存の重み初期化法は、しばしばSNNに対して異なる計算特性を考慮せずに適用される。 本研究では、量子化演算を考慮したSNNに特化して最適化された最適重量初期化法を導出する。 提案手法は, 従来の手法とは異なり, スパイクの損失を伴わずに, 深部SNNにおける活動の伝播を可能にすることを理論的に示す。 複数の時間ステップにまたがる100層以上のSNNの数値シミュレーションにおいて,この挙動を実証する。 理論的な知見を正確に適用するためには, 層幅とニューロンの過度パラメータに関する数値条件を詳細に解析する必要がある。 さらに,本実験では,重み初期化方式を用いた場合,より高精度で高速な収束性を示す。 最後に、新たに導入された重み初期化は、複数のネットワークおよびニューロンのハイパーパラメータの変動に対して堅牢であることを示す。

Spiking Neural Networks (SNNs) and neuromorphic computing offer bio-inspired advantages such as sparsity and ultra-low power consumption, providing a promising alternative to conventional networks. However, training deep SNNs from scratch remains a challenge, as SNNs process and transmit information by quantizing the real-valued membrane potentials into binary spikes. This can lead to information loss and vanishing spikes in deeper layers, impeding effective training. While weight initialization is known to be critical for training deep neural networks, what constitutes an effective initial state for a deep SNN is not well-understood. Existing weight initialization methods designed for conventional networks (ANNs) are often applied to SNNs without accounting for their distinct computational properties. In this work we derive an optimal weight initialization method specifically tailored for SNNs, taking into account the quantization operation. We show theoretically that, unlike standard approaches, this method enables the propagation of activity in deep SNNs without loss of spikes. We demonstrate this behavior in numerical simulations of SNNs with up to 100 layers across multiple time steps. We present an in-depth analysis of the numerical conditions, regarding layer width and neuron hyperparameters, which are necessary to accurately apply our theoretical findings. Furthermore, our experiments on MNIST demonstrate higher accuracy and faster convergence when using the proposed weight initialization scheme. Finally, we show that the newly introduced weight initialization is robust against variations in several network and neuron hyperparameters.
翻訳日:2024-11-05 04:47:16 公開日:2024-10-01
# 非対称接続型貯水池ネットワークの学習

Asymmetrically connected reservoir networks learn better ( http://arxiv.org/abs/2410.00584v1 )

ライセンス: Link先を確認
Shailendra K. Rathor, Martin Ziegler, Jörg Schumacher, (参考訳) 貯水池ネットワークの高次元再帰層内の接続性は,その性能に不可欠であることを示す。 そこで我々は,ネットワーク接続が性能に与える影響,すなわち貯水池の対称性と構造を,その計算能力に関連して系統的に検討した。 ランダムで非対称な接続を持つ貯水池は、小さな世界トポロジーのような生物学的にインスピレーションを受けた結合性を含む全ての構造された貯水池よりも、模範的なマッキーグラス時間系列においてよりよく機能する。 この結果は、非対称およびランダムに連結されたネットワークにおいて最高となる異なるネットワークトポロジの情報処理能力によって定量化される。

We show that connectivity within the high-dimensional recurrent layer of a reservoir network is crucial for its performance. To this end, we systematically investigate the impact of network connectivity on its performance, i.e., we examine the symmetry and structure of the reservoir in relation to its computational power. Reservoirs with random and asymmetric connections are found to perform better for an exemplary Mackey-Glass time series than all structured reservoirs, including biologically inspired connectivities, such as small-world topologies. This result is quantified by the information processing capacity of the different network topologies which becomes highest for asymmetric and randomly connected networks.
翻訳日:2024-11-05 04:47:16 公開日:2024-10-01
# GERA: 効率的な点登録解析のための幾何学的埋め込み

GERA: Geometric Embedding for Efficient Point Registration Analysis ( http://arxiv.org/abs/2410.00589v1 )

ライセンス: Link先を確認
Geng Li, Haozhi Cao, Mingyang Liu, Shenghai Yuan, Jianfei Yang, (参考訳) ポイントクラウド登録は,手術誘導システムや自動運転車など,さまざまなナビゲーションシステムの推定を行う上で重要な役割を担う,ポイントクラウドの整合性を評価するための推定変換の提供を目的としている。 KPConvやTransformersのような複雑なモジュールに依存しており、計算とメモリの要求がかなり高い。 これらの要件は、特に移動ロボットのような資源に制約のある環境での実践的応用を妨げる。 本稿では,MLPアーキテクチャを生かした新しいポイントクラウド登録ネットワークを提案し,幾何学的情報をオフラインで構築する。 このアプローチは、従来の複雑な特徴抽出器に関連する計算とメモリの負担を排除し、推論時間とリソース消費を大幅に削減する。 本手法は, 3次元座標入力をオフライン構成の幾何符号化に置き換え, 一般化と安定性を最大平均離散性(MMD)比較で実証した。 この効率的で正確な幾何学的表現は、特に高速で信頼性を必要とするアプリケーションにおいて、点雲解析の大幅な進歩を示す。

Point cloud registration aims to provide estimated transformations to align point clouds, which plays a crucial role in pose estimation of various navigation systems, such as surgical guidance systems and autonomous vehicles. Despite the impressive performance of recent models on benchmark datasets, many rely on complex modules like KPConv and Transformers, which impose significant computational and memory demands. These requirements hinder their practical application, particularly in resource-constrained environments such as mobile robotics. In this paper, we propose a novel point cloud registration network that leverages a pure MLP architecture, constructing geometric information offline. This approach eliminates the computational and memory burdens associated with traditional complex feature extractors and significantly reduces inference time and resource consumption. Our method is the first to replace 3D coordinate inputs with offline-constructed geometric encoding, improving generalization and stability, as demonstrated by Maximum Mean Discrepancy (MMD) comparisons. This efficient and accurate geometric representation marks a significant advancement in point cloud analysis, particularly for applications requiring fast and reliability.
翻訳日:2024-11-05 04:47:16 公開日:2024-10-01
# テキストスタイル伝達におけるステアリングLDMのためのスタイル特異的ニューロン

Style-Specific Neurons for Steering LLMs in Text Style Transfer ( http://arxiv.org/abs/2410.00593v1 )

ライセンス: Link先を確認
Wen Lai, Viktor Hangya, Alexander Fraser, (参考訳) テキストスタイル転送(TST)は、本来の意味を変更することなく、テキストのスタイルを変更することを目的としている。 大規模言語モデル(LLM)は、TSTを含む複数のタスクで優れたパフォーマンスを示す。 しかし、ゼロショット設定では、入力テキストのかなりの部分をそのスタイルを効果的に変更することなく直接出力にコピーする傾向がある。 テキストのスタイリスティックな多様性と流布性を高めるため,我々は,スタイル特異的ニューロンを用いたLLMのステアリング手法であるsNeuron-TSTを提案する。 具体的には、ソースとターゲットのスタイルに関連するニューロンを識別し、ソーススタイルのみのニューロンを非活性化し、ターゲットスタイルの単語に高い確率を与える。 しかし,この不活性化が生成したテキストの流速に悪影響を及ぼすことが判明し,非活性化源型ニューロンによって生じる層間のトークン確率の急激なシフトを考慮に入れた改良されたコントラスト復号法を提案する。 実証実験では, 形式性, 毒性, 政治性, 礼儀正しく, 著者性, 感情の6つのベンチマークにおいて, 提案手法の有効性を実証した。

Text style transfer (TST) aims to modify the style of a text without altering its original meaning. Large language models (LLMs) demonstrate superior performance across multiple tasks, including TST. However, in zero-shot setups, they tend to directly copy a significant portion of the input text to the output without effectively changing its style. To enhance the stylistic variety and fluency of the text, we present sNeuron-TST, a novel approach for steering LLMs using style-specific neurons in TST. Specifically, we identify neurons associated with the source and target styles and deactivate source-style-only neurons to give target-style words a higher probability, aiming to enhance the stylistic diversity of the generated text. However, we find that this deactivation negatively impacts the fluency of the generated text, which we address by proposing an improved contrastive decoding method that accounts for rapid token probability shifts across layers caused by deactivated source-style neurons. Empirical experiments demonstrate the effectiveness of the proposed method on six benchmarks, encompassing formality, toxicity, politics, politeness, authorship, and sentiment.
翻訳日:2024-11-05 04:47:16 公開日:2024-10-01
# 累積ステップサイズ適応と適応人口制御の相互作用について

On the Interaction of Adaptive Population Control with Cumulative Step-Size Adaptation ( http://arxiv.org/abs/2410.00595v1 )

ライセンス: Link先を確認
Amir Omeradzic, Hans-Georg Beyer, (参考訳) 3つのPCS(State-of-the-art Adaptive population control Strategy)を理論的・実験的に,複数組換え累積ステップサイズ適応戦略$(\mu/\mu_I, \lambda)$-CSA-ESについて検討した。 第一に、世代数と突然変異強度の再スケーリングのスケーリング特性は、大きな集団サイズに制限された球面上で引き起こされる。 次に, 3種類の標準CSA変異体の適応特性を, 個体群の大きさと次元の関数として検討し, 予測スケーリング結果と比較した。 その後、CSA-ESに沿って3つのPCSが実装され、球面、ランダム、ラストリギン関数のテストベッドで研究される。 CSA適応特性はPCSの性能に大きく影響し、より詳細に示される。 CSA-サブルーチンとPCS-サブルーチンの両方のパラメータセット(スケーリング,効率,成功率)を同定した。

Three state-of-the-art adaptive population control strategies (PCS) are theoretically and empirically investigated for a multi-recombinative, cumulative step-size adaptation Evolution Strategy $(\mu/\mu_I, \lambda)$-CSA-ES. First, scaling properties for the generation number and mutation strength rescaling are derived on the sphere in the limit of large population sizes. Then, the adaptation properties of three standard CSA-variants are studied as a function of the population size and dimensionality, and compared to the predicted scaling results. Thereafter, three PCS are implemented along the CSA-ES and studied on a test bed of sphere, random, and Rastrigin functions. The CSA-adaptation properties significantly influence the performance of the PCS, which is shown in more detail. Given the test bed, well-performing parameter sets (in terms of scaling, efficiency, and success rate) for both the CSA- and PCS-subroutines are identified.
翻訳日:2024-11-05 04:47:16 公開日:2024-10-01
# タイプ・コールグラフ解析のための大規模言語モデルに関する実証的研究

An Empirical Study of Large Language Models for Type and Call Graph Analysis ( http://arxiv.org/abs/2410.00603v1 )

ライセンス: Link先を確認
Ashwin Prasad Shivarpatna Venkatesh, Rose Sunil, Samkutty Sabu, Amir M. Mir, Sofia Reis, Eric Bodden, (参考訳) 大規模言語モデル(LLM)は、ソフトウェア工学、特に静的解析タスクにおいて、その可能性について研究されている。 本研究では,Python および JavaScript プログラムのコールグラフ解析と型推論を強化するため,現在の LLM の可能性について検討する。 我々は,OpenAI の GPT シリーズや LLaMA や Mistral などのオープンソースモデルを含む 24 個の LLM を,既存および新たに開発されたベンチマークを用いて実証的に評価した。 具体的には,Pythonの型推論のためのマイクロベンチマークフレームワークであるTypeEvalPyを拡張した。 さらに、SWARM-CGとSWARM-JSを導入し、複数のプログラミング言語にまたがるコールグラフ構築ツールを評価するための総合的なベンチマークスイートを紹介した。 この結果から,静的解析タスクにおけるLLMの対照的な性能が明らかとなった。 Python のコールグラフ生成では、PyCG のような従来の静的解析ツールが LLM を大幅に上回っている。 JavaScriptでは、静的ツールTAJSはモダンな言語機能を扱うことができないためパフォーマンスが劣るが、LLMはMistral-large-it-2407-123bやGPT-4oのようなモデルに潜在的な可能性を秘めているが、コールグラフ解析では両方の言語で完全性と健全性に苦しむ。 逆に、LLMはPythonの型推論において明らかな優位性を示し、HeaderGenのような従来のツールやHiTyperのようなハイブリッドアプローチを上回っている。 これらの結果から, LLMは型推論において有望であるが, コールグラフ解析における限界は, さらなる研究の必要性を浮き彫りにすることを示している。 我々の研究は、LSMを静的解析ワークフローに統合するための基盤を提供し、その強みと現在の限界についての洞察を提供する。

Large Language Models (LLMs) are increasingly being explored for their potential in software engineering, particularly in static analysis tasks. In this study, we investigate the potential of current LLMs to enhance call-graph analysis and type inference for Python and JavaScript programs. We empirically evaluated 24 LLMs, including OpenAI's GPT series and open-source models like LLaMA and Mistral, using existing and newly developed benchmarks. Specifically, we enhanced TypeEvalPy, a micro-benchmarking framework for type inference in Python, with auto-generation capabilities, expanding its scope from 860 to 77,268 type annotations for Python. Additionally, we introduced SWARM-CG and SWARM-JS, comprehensive benchmarking suites for evaluating call-graph construction tools across multiple programming languages. Our findings reveal a contrasting performance of LLMs in static analysis tasks. For call-graph generation in Python, traditional static analysis tools like PyCG significantly outperform LLMs. In JavaScript, the static tool TAJS underperforms due to its inability to handle modern language features, while LLMs, despite showing potential with models like mistral-large-it-2407-123b and GPT-4o, struggle with completeness and soundness in both languages for call-graph analysis. Conversely, LLMs demonstrate a clear advantage in type inference for Python, surpassing traditional tools like HeaderGen and hybrid approaches such as HiTyper. These results suggest that while LLMs hold promise in type inference, their limitations in call-graph analysis highlight the need for further research. Our study provides a foundation for integrating LLMs into static analysis workflows, offering insights into their strengths and current limitations.
翻訳日:2024-11-05 04:47:16 公開日:2024-10-01
# AIの破滅的リスクガバナンスと安全フレームワークにおける課題の測定

Measurement challenges in AI catastrophic risk governance and safety frameworks ( http://arxiv.org/abs/2410.00608v1 )

ライセンス: Link先を確認
Atoosa Kasirzadeh, (参考訳) 安全フレームワークは、AIガバナンスにおける重要な発展を表している。これらは、主要なAI企業が開発し、AIスケーリング決定に特にフォーカスする、公開共有の破滅的なリスク管理フレームワークの最初のタイプである。 実装における6つの重要な測定課題を特定し、妥当性と信頼性を向上させるための3つの政策勧告を提案する。

Safety frameworks represent a significant development in AI governance: they are the first type of publicly shared catastrophic risk management framework developed by major AI companies and focus specifically on AI scaling decisions. I identify six critical measurement challenges in their implementation and propose three policy recommendations to improve their validity and reliability.
翻訳日:2024-11-05 04:47:16 公開日:2024-10-01
# 分散量子コンピューティング:応用と課題

Distributed Quantum Computing: Applications and Challenges ( http://arxiv.org/abs/2410.00609v1 )

ライセンス: Link先を確認
Juan C. Boschero, Niels M. P. Neumann, Ward van der Schoot, Thom Sijpesteijn, Robert Wezeman, (参考訳) 量子コンピューティングは現在、特定のアプリケーションで約束される大幅なスピードアップを達成するために、急速な開発が進められている。 それでも、量子コンピュータのスケーリングは、約束された量子優位性を達成するための代替手法の探索を急がせるようなエンジニアリング上の課題であり続けている。 分散量子コンピューティングの概念は、異なる個々の量子コンピュータのリンクを通じて量子コンピュータをスケールすることを目的としている。 さらに、分散量子コンピューティングは、長期的な新しいアプリケーションへの道を開く。 本研究は,本技術について,ユースケースと実装上の考察の両方を考慮して,アプリケーションレベルで概観することを目的とする。 このようにして、本研究は、近い将来に現実の分散量子システムを目指して、分散量子コンピューティングの分野を推し進めることを目的としている。

Quantum computing is presently undergoing rapid development to achieve a significant speedup promised in certain applications. Nonetheless, scaling quantum computers remains a formidable engineering challenge, prompting exploration of alternative methods to achieve the promised quantum advantage. An example is given by the concept of distributed quantum computing, which aims to scale quantum computers through the linking of different individual quantum computers. Additionally, distributed quantum computing opens the way to new applications on the longer term. This study seeks to give an overview of this technology on an application-level, considering both use cases and implementation considerations. In this way, this work aims to push forward the field of distributed quantum computing, aiming for real-world distributed quantum systems in the near future.
翻訳日:2024-11-05 04:47:16 公開日:2024-10-01
# Detección Automática de Patologías en Notas Clínicas en Español Combinando Modelos de Lenguaje y Ontologías Médicos

Detección Automática de Patologías en Notas Clínicas en Español Combinando Modelos de Lenguaje y Ontologías Médicos ( http://arxiv.org/abs/2410.00616v1 )

ライセンス: Link先を確認
Léon-Paul Schaub Torre, Pelayo Quirós, Helena García Mieres, (参考訳) 本稿では,医療報告における皮膚疾患の自動検出のためのハイブリッド手法を提案する。 医療オントロジーと組み合わされた大きな言語モデルを用いて、最初の予約またはフォローアップ医療報告を考慮すれば、その人が苦しむ可能性のある病理を予測できる。 以上の結果から, 皮膚病理のタイプ, 重症度, 位置をモデルに教えるとともに, これらの3つの特徴を学習する順番が, 精度を著しく向上させることが示唆された。 本論文では,医療用テキストの分類における最先端の成果を精度0.84,マイクロF1スコア0.82,マクロF1スコア0.75で示し,その方法とデータセットをコミュニティで利用できるようにする。 -- 芸術・芸術・芸術・芸術・芸術・芸術・芸術・芸術・芸術・芸術・芸術・芸術・芸術・芸術・芸術 Usamos un modelo de lenguaje amplio en espa\~nol combinado con ontolog\'ias m\'edicas para predecir, dado un informe m\'edico de primera cita o de seguimiento, la patolog\'ia del paciente。 Los resultados muestran que el tipo, la gravedad y el sitio en el cuerpo de una patolog\'ia dermatol\'ogica, as\'i como en qu\'e orden tiene un modelo que aprender esas tres caracter\'isticas, aumentan su precisi\'on。 El art\'iculo presenta la demostraci\'on de resultados al estado del arte de clasificaci\'on de textos m\'edicos con una precisi\'on de 0.84, micro y macro F1-score de 0.82 y 0.75, y deja a disposici\on de la comunidad tanto el m\'etodo como el conjunto de datos utilizado。

In this paper we present a hybrid method for the automatic detection of dermatological pathologies in medical reports. We use a large language model combined with medical ontologies to predict, given a first appointment or follow-up medical report, the pathology a person may suffer from. The results show that teaching the model to learn the type, severity and location on the body of a dermatological pathology as well as in which order it has to learn these three features significantly increases its accuracy. The article presents the demonstration of state-of-the-art results for classification of medical texts with a precision of 0.84, micro and macro F1-score of 0.82 and 0.75, and makes both the method and the dataset used available to the community. -- En este art\'iculo presentamos un m\'etodo h\'ibrido para la detecci\'on autom\'atica de patolog\'ias dermatol\'ogicas en informes m\'edicos. Usamos un modelo de lenguaje amplio en espa\~nol combinado con ontolog\'ias m\'edicas para predecir, dado un informe m\'edico de primera cita o de seguimiento, la patolog\'ia del paciente. Los resultados muestran que el tipo, la gravedad y el sitio en el cuerpo de una patolog\'ia dermatol\'ogica, as\'i como en qu\'e orden tiene un modelo que aprender esas tres caracter\'isticas, aumentan su precisi\'on. El art\'iculo presenta la demostraci\'on de resultados comparables al estado del arte de clasificaci\'on de textos m\'edicos con una precisi\'on de 0.84, micro y macro F1-score de 0.82 y 0.75, y deja a disposici\'on de la comunidad tanto el m\'etodo como el conjunto de datos utilizado.
翻訳日:2024-11-05 04:47:16 公開日:2024-10-01
# ラジオファンデーションモデル:5Gによる屋内局地化のための事前学習型トランスフォーマー

Radio Foundation Models: Pre-training Transformers for 5G-based Indoor Localization ( http://arxiv.org/abs/2410.00617v1 )

ライセンス: Link先を確認
Jonathan Ott, Jonas Pirkl, Maximilian Stahlke, Tobias Feigl, Christopher Mutschler, (参考訳) 人工知能(AI)ベースのラジオフィンガープリント(FP)は、強力なマルチパス効果を持つ伝搬環境における古典的なローカライゼーション手法より優れている。 しかし、FPのモデルとデータオーケストレーションは、多くの参照位置と各環境に対する広範囲な計測キャンペーンを必要とするため、時間と費用がかかる。 代わりに、現代の教師なしおよび自己教師付き学習方式では、ローカライゼーションのための参照データが少ないが、それらの精度は低いか、追加のセンサー情報を必要とするかのいずれかであり、現実的ではない。 本稿では,5Gチャネル計測における一般変圧器(TF)ニューラルネットワークの事前学習を行う自己教師型学習フレームワークを提案する。 そこで本研究では,入力情報をランダムにマスクしてドロップして再構築する手法を提案する。 そこで、FPに基づく局所化を可能にする伝播環境の時空間パターンと情報を暗黙的に学習する。 最も興味深いのは、この事前学習されたモデルを与えられた環境でローカライズするために最適化する場合、最先端の手法の精度を達成するが、10倍の参照データを必要とし、トレーニングから運用までの時間を著しく短縮する。

Artificial Intelligence (AI)-based radio fingerprinting (FP) outperforms classic localization methods in propagation environments with strong multipath effects. However, the model and data orchestration of FP are time-consuming and costly, as it requires many reference positions and extensive measurement campaigns for each environment. Instead, modern unsupervised and self-supervised learning schemes require less reference data for localization, but either their accuracy is low or they require additional sensor information, rendering them impractical. In this paper we propose a self-supervised learning framework that pre-trains a general transformer (TF) neural network on 5G channel measurements that we collect on-the-fly without expensive equipment. Our novel pretext task randomly masks and drops input information to learn to reconstruct it. So, it implicitly learns the spatiotemporal patterns and information of the propagation environment that enable FP-based localization. Most interestingly, when we optimize this pre-trained model for localization in a given environment, it achieves the accuracy of state-of-the-art methods but requires ten times less reference data and significantly reduces the time from training to operation.
翻訳日:2024-11-05 04:47:16 公開日:2024-10-01
# 充電器支持型オープン量子電池の非線形性支援効果

Nonlinearity-assisted advantage for charger-supported open quantum batteries ( http://arxiv.org/abs/2410.00618v1 )

ライセンス: Link先を確認
Aparajita Bhattacharyya, Pratha Dongre, Ujjwal Sen, (参考訳) 本研究では, 量子電池の性能をエネルギー貯蔵とエネルギー抽出の観点から解析し, オープンシステムアプローチを用いた充電器電池システムの非線形性に着目した。 特に,バッテリと充電器の結合における非線形性と,非調和振動子を含む充電器自体の2種類の非線形性を考える。 どちらのシナリオでも、充電器は環境に接続され、外部レーザー源によって駆動される。 環境下での充電器・電池複合系の力学に対するマルコフのマスター方程式を導出する。 充電器がバッテリに非線形に結合すると、線形結合されたケースに対して定常状態エルゴトロピーが増大する。 さらに, 定常状態と最大エルゴトピーが到達した時刻は, 非線形カップリングの存在下で減少することが確認された。 また、線形の場合ではエルゴトロピーが得られないが、非線形性の非ゼロ値が存在する場合にも得られる。 さらに、非線形相互作用強度と定常エルゴトロピー値におけるコヒーレントドライブ強度の相補性、すなわち、弱い非線形性と強いコヒーレントドライブを用いて得られるのと同じエルゴトロピーを、それらの値の反対の順序で得ることができる。 チャージャーが固有アンハーモニック性を持つ多層トランスモンとしてモデル化された場合、ハーモニックなインスタンスに対して最大エルゴトロピー値の利点を見出す。 非線形結合電池とは異なり、非調和充電器によって駆動される電池は過渡的な状態において有用であることが証明されている。 また、無調波電池がすべての時間スケールでハーモニック駆動よりも有益であるコヒーレント駆動の値も決定する。 さらに,エルゴトロピー値が最大値に達する不調和強度とコヒーレント駆動の異なる領域を観察する。

We analyze the performance of a quantum battery in terms of energy storage and energy extraction, assisted by nonlinearities in a charger-battery system utilizing an open-system approach. In particular, we consider two types of nonlinearities in the system, viz. nonlinearity in the coupling between battery and charger, and the charger itself comprising an anharmonic oscillator. In both these scenarios, the charger is connected to an environment, and is driven by an external laser source. We derive the Markovian master equation for the dynamics of the combined charger-battery system in presence of the environment. When the charger is non-linearly coupled to a battery, we find an enhancement in the steady state ergotropy over the linearly-coupled case. We further see that the times at which steady state and maximum ergotopies are attained get decreased in presence of non-linear coupling. We also identify instances where no ergotropy is obtained in the linear case, but can be obtained in presence of any non-zero value of nonlinearity. We additionally find a complementarity between the non-linear interaction strength and the coherent-drive strength in the steady-state ergotropy values, i.e. the same ergotropy as that obtained using weak nonlinearity and strong coherent drive can be obtained utilizing an opposite order of their values. In case when the charger is modeled as a multi-level transmon with an inherent anharmonicity, we find an advantage in maximum ergotropy values over the harmonic instance. Unlike the non-linearly coupled batteries, the ones mediated by an anharmonic charger prove to be useful in the transient regime. We also determine values of the coherent drive for which the anharmonic battery is beneficial over the harmonic one at all timescales. Further, we observe a distinct region of the anharmonic strength and coherent drive where ergotropy values reach their maxima.
翻訳日:2024-11-05 04:47:16 公開日:2024-10-01
# 微分可能干渉型多モデル粒子フィルタ

Differentiable Interacting Multiple Model Particle Filtering ( http://arxiv.org/abs/2410.00620v1 )

ライセンス: Link先を確認
John-Joseph Brady, Yuhui Luo, Wenwu Wang, Víctor Elvira, Yunpeng Li, (参考訳) 本研究では,パラメータ学習のための連続モンテカルロアルゴリズムを提案する。 ニューラルネットワークなどの高次元パラメータ集合の学習を容易にするために,パラメータを勾配降下により訓練する微分可能粒子フィルタリングの新たな枠組みを採用した。 我々は,複数のモデル粒子フィルタを識別可能とし,個別の動作条件を学習し,同時にジャンプを制御するモデルを設計する。 従来の手法とは対照的に,本アルゴリズムでは,所定の状況下でサンプリングを誘導する確率を用いて,レシエーション毎に割り当てられた計算作業の制御を可能にする。 さらに,従来の手法よりも分散度が低く,計算速度も速い新しい勾配推定器を開発し,一貫性を証明した。 提案アルゴリズムの新たな理論的結果を確立し,従来の最先端アルゴリズムと比較して優れた数値性能を示す。

We propose a sequential Monte Carlo algorithm for parameter learning when the studied model exhibits random discontinuous jumps in behaviour. To facilitate the learning of high dimensional parameter sets, such as those associated to neural networks, we adopt the emerging framework of differentiable particle filtering, wherein parameters are trained by gradient descent. We design a new differentiable interacting multiple model particle filter to be capable of learning the individual behavioural regimes and the model which controls the jumping simultaneously. In contrast to previous approaches, our algorithm allows control of the computational effort assigned per regime whilst using the probability of being in a given regime to guide sampling. Furthermore, we develop a new gradient estimator that has a lower variance than established approaches and remains fast to compute, for which we prove consistency. We establish new theoretical results of the presented algorithms and demonstrate superior numerical performance compared to the previous state-of-the-art algorithms.
翻訳日:2024-11-05 04:35:05 公開日:2024-10-01
# ライティング可能な3次元再構成による照明・ローバスト外挿装置の試作

An Illumination-Robust Feature Extractor Augmented by Relightable 3D Reconstruction ( http://arxiv.org/abs/2410.00629v1 )

ライセンス: Link先を確認
Shunyi Zhao, Zehuan Yu, Zuxin Fan, Zhihao Zhou, Lecheng Ruan, Qining Wang, (参考訳) 視覚的特徴は、しばしば局所的な強度と勾配の方向に依存するが、近年ではロボットナビゲーションや局所化に広く応用されている。 しかし、視覚的特徴の抽出は通常、照明条件の変化によって妨げられ、現実のアプリケーションでは困難である。 これまでの研究では、照明条件の異なるデータセットを確立することでこの問題に対処してきたが、コストと時間を要する可能性がある。 本稿では,照明条件の異なる高速かつ直接的なデータ生成のために,最近開発された3D再構成技術を採用した照明汚染特徴抽出器の設計手順を提案する。 キーポイントの繰り返し可能性と、良質な照明条件と悪質な照明条件における記述子との類似性に長けた特徴を抽出するための自己教師型フレームワークを提案する。 頑健な特徴抽出のための提案手法の有効性を実証するために実験を行った。 アブレーション研究は、自己監督型フレームワークの設計の有効性も示している。

Visual features, whose description often relies on the local intensity and gradient direction, have found wide applications in robot navigation and localization in recent years. However, the extraction of visual features is usually disturbed by the variation of illumination conditions, making it challenging for real-world applications. Previous works have addressed this issue by establishing datasets with variations in illumination conditions, but can be costly and time-consuming. This paper proposes a design procedure for an illumination-robust feature extractor, where the recently developed relightable 3D reconstruction techniques are adopted for rapid and direct data generation with varying illumination conditions. A self-supervised framework is proposed for extracting features with advantages in repeatability for key points and similarity for descriptors across good and bad illumination conditions. Experiments are conducted to demonstrate the effectiveness of the proposed method for robust feature extraction. Ablation studies also indicate the effectiveness of the self-supervised framework design.
翻訳日:2024-11-05 04:35:05 公開日:2024-10-01
# Cafca: Casual Few-shot キャプチャーによる表現的顔の高品質新規合成

Cafca: High-quality Novel View Synthesis of Expressive Faces from Casual Few-shot Captures ( http://arxiv.org/abs/2410.00630v1 )

ライセンス: Link先を確認
Marcel C. Bühler, Gengyan Li, Erroll Wood, Leonhard Helminger, Xu Chen, Tanmay Shah, Daoye Wang, Stephan Garbin, Sergio Orts-Escolano, Otmar Hilliges, Dmitry Lagun, Jérémy Riviere, Paulo Gotardo, Thabo Beeler, Abhimitra Meka, Kripasindhu Sarkar, (参考訳) 体積モデリングとニューラルラディアンス場表現は、3次元顔キャプチャーとフォトリアリスティックな新しいビュー合成に革命をもたらした。 しかし、これらの手法は数百のマルチビュー入力画像を必要とすることが多く、少数の入力しか持たないケースには適用できない。 野生で捉えた3つの入力ビューから高忠実度表現型顔のモデリングを可能にする,人間の顔に先立つ新しいボリュームを提示する。 私たちの重要な洞察は、合成データだけで訓練された暗黙の事前訓練が、極めて困難な現実世界のアイデンティティや表現に一般化し、しわやまつげのような細部を巧みに照らして、斬新なビューを表現できるということです。 3D Morphable Face Modelを活用して、大きなトレーニングセットを合成し、それぞれのアイデンティティを異なる表現、髪、衣服、その他の資産でレンダリングします。 次に、この合成データセットに先立って条件付きニューラルレージアンスフィールドをトレーニングし、推論時に、モデルを1つの被験者の非常にスパースな実画像のセットで微調整する。 平均的な微調整では、3つの入力しか必要とせず、合成ドメインと実ドメインのギャップを渡る。 得られたパーソナライズされた3Dモデルは、強い慣用的な表情を再構成し、知覚的および測光的品質の観点から、スパース入力からの顔合成の高品質な新規なビュー合成において、最先端の表現を上回ります。

Volumetric modeling and neural radiance field representations have revolutionized 3D face capture and photorealistic novel view synthesis. However, these methods often require hundreds of multi-view input images and are thus inapplicable to cases with less than a handful of inputs. We present a novel volumetric prior on human faces that allows for high-fidelity expressive face modeling from as few as three input views captured in the wild. Our key insight is that an implicit prior trained on synthetic data alone can generalize to extremely challenging real-world identities and expressions and render novel views with fine idiosyncratic details like wrinkles and eyelashes. We leverage a 3D Morphable Face Model to synthesize a large training set, rendering each identity with different expressions, hair, clothing, and other assets. We then train a conditional Neural Radiance Field prior on this synthetic dataset and, at inference time, fine-tune the model on a very sparse set of real images of a single subject. On average, the fine-tuning requires only three inputs to cross the synthetic-to-real domain gap. The resulting personalized 3D model reconstructs strong idiosyncratic facial expressions and outperforms the state-of-the-art in high-quality novel view synthesis of faces from sparse inputs in terms of perceptual and photo-metric quality.
翻訳日:2024-11-05 04:35:05 公開日:2024-10-01
# 監視グラフクラスタリングのためのGNNによるクロスカメラデータアソシエーション

Cross-Camera Data Association via GNN for Supervised Graph Clustering ( http://arxiv.org/abs/2410.00643v1 )

ライセンス: Link先を確認
Đorđe Nedeljković, (参考訳) クロスカメラデータアソシエーションは、マルチカメラコンピュータビジョン分野の基盤の1つである。 アーキテクチャ設計と損失定義を通じて、しばしば検出と追跡タスクに統合されるが、独立した課題として認識されている。 最終的な目標は、すべてのカメラから1つのアイテムの外観を接続することである。 したがって、このタスクにおける1つの可能な視点は、すべてのカメラが捉えたノードがインスタンスである親和性グラフのクラスタリングである。 それらは適切な視覚的特徴と位置的属性によって表現される。 我々はGNN(Graph Neural Network)アーキテクチャの利点を活用し、ノードの関係を調べ、代表的エッジ埋め込みを生成する。 これらの埋め込みはノード対における接続の有無を決定するために分類される。 したがって、このアプローチのコアはグラフ接続予測である。 実験室, バスケットボールコート, テラスなど, 多様な環境にまたがるマルチカメラ歩行者データセットを用いて, 実験による検証を行った。 提案手法はSGC-CCAと呼ばれ,グラフ後処理を必要とせずにエンドツーエンドのクラスタリングソリューションを提供することで,GNN-CCAという最先端の手法よりも優れていた。 コードはhttps://github.com/djordjened92/cca-gnnclust.comで公開されている。

Cross-camera data association is one of the cornerstones of the multi-camera computer vision field. Although often integrated into detection and tracking tasks through architecture design and loss definition, it is also recognized as an independent challenge. The ultimate goal is to connect appearances of one item from all cameras, wherever it is visible. Therefore, one possible perspective on this task involves supervised clustering of the affinity graph, where nodes are instances captured by all cameras. They are represented by appropriate visual features and positional attributes. We leverage the advantages of GNN (Graph Neural Network) architecture to examine nodes' relations and generate representative edge embeddings. These embeddings are then classified to determine the existence or non-existence of connections in node pairs. Therefore, the core of this approach is graph connectivity prediction. Experimental validation was conducted on multicamera pedestrian datasets across diverse environments such as the laboratory, basketball court, and terrace. Our proposed method, named SGC-CCA, outperformed the state-of-the-art method named GNN-CCA across all clustering metrics, offering an end-to-end clustering solution without the need for graph post-processing. The code is available at https://github.com/djordjened92/cca-gnnclust.
翻訳日:2024-11-05 04:35:05 公開日:2024-10-01
# ICL-TSVD:事前学習モデルによる連続学習におけるブリッジ理論と実践

ICL-TSVD: Bridging Theory and Practice in Continual Learning with Pre-trained Models ( http://arxiv.org/abs/2410.00645v1 )

ライセンス: Link先を確認
Liangzu Peng, Juan Elenter, Joshua Agterberg, Alejandro Ribeiro, René Vidal, (参考訳) 連続学習(CL)の目標は、連続的に提示される複数のタスクを解決できるモデルを訓練することである。 最近のCLアプローチは、ダウンストリームタスクをうまく一般化する大規模な事前学習モデルを活用することで、強力なパフォーマンスを実現している。 しかし、これらの手法には理論的保証がなく、予期せぬ失敗をしがちである。 逆に、原則付きCLアプローチは、しばしば競争性能を達成するのに失敗する。 本研究では,経験的に強いアプローチ(RanPAC)を原則的枠組みであるICL(Ideal Continual Learner)に統合することにより,理論と実践のギャップを埋める。 具体的には、事前学習された特徴を高次元空間に持ち上げ、過度にパラメータ化された最小ノルム最小二乗問題を定式化する。 持ち上げられた特徴は高度に不調であり、大きなトレーニングエラー(数値不安定)と一般化エラー(二重降下)に繋がる可能性がある。 これらの課題は、持ち上げられた特徴の特異値分解(SVD)を継続的に切り離すことによって解決される。 我々のアプローチはICL-TSVDと呼ばれ、ハイパーパラメータの選択に関して安定しており、数百のタスクを処理でき、複数のデータセット上で最先端のCLメソッドよりも優れています。 重要なこととして,本手法は連続的な学習過程を通じて繰り返し関係を満足させ,SVD因子を適切に選択することにより,学習と一般化の誤差を抑えることができる。 その結果,実験性能と理論的保証が強い安定な連続学習法が得られた。

The goal of continual learning (CL) is to train a model that can solve multiple tasks presented sequentially. Recent CL approaches have achieved strong performance by leveraging large pre-trained models that generalize well to downstream tasks. However, such methods lack theoretical guarantees, making them prone to unexpected failures. Conversely, principled CL approaches often fail to achieve competitive performance. In this work, we bridge this gap between theory and practice by integrating an empirically strong approach (RanPAC) into a principled framework, Ideal Continual Learner (ICL), designed to prevent forgetting. Specifically, we lift pre-trained features into a higher dimensional space and formulate an over-parametrized minimum-norm least-squares problem. We find that the lifted features are highly ill-conditioned, potentially leading to large training errors (numerical instability) and increased generalization errors (double descent). We address these challenges by continually truncating the singular value decomposition (SVD) of the lifted features. Our approach, termed ICL-TSVD, is stable with respect to the choice of hyperparameters, can handle hundreds of tasks, and outperforms state-of-the-art CL methods on multiple datasets. Importantly, our method satisfies a recurrence relation throughout its continual learning process, which allows us to prove it maintains small training and generalization errors by appropriately truncating a fraction of SVD factors. This results in a stable continual learning method with strong empirical performance and theoretical guarantees.
翻訳日:2024-11-05 04:35:05 公開日:2024-10-01
# LASMP: 言語支援サブセットサンプリングベースのモーションプランナ

LASMP: Language Aided Subset Sampling Based Motion Planner ( http://arxiv.org/abs/2410.00649v1 )

ライセンス: Link先を確認
Saswati Bhattacharjee, Anirban Sinha, Chinwe Ekenna, (参考訳) 本稿では,自然言語による移動ロボットの動作計画を支援するLanguage Aided Subset Sampling Based Motion Planner (LASMP)を提案する。 LASMPはRapidly Exploring Random Tree (RRT) メソッドの修正版を使用している。 このシステムは、これらの指示に基づいてロボットのワークスペースの特定の領域に焦点をあてることで効率を向上し、より高速でリソース集約の少ないシステムである。 従来のRT法と比較して、LASMPは必要なノード数を55%削減し、ランダムなサンプルクエリを80%削減し、安全で衝突のないパスを生成する。 シミュレーションと実環境の両方でテストされたLASMPは、複雑な屋内シナリオを扱う上で、より良いパフォーマンスを示している。 その結果、ロボットナビゲーションをより効率的にするために、言語処理とモーションプランニングを組み合わせる可能性を浮き彫りにした。

This paper presents the Language Aided Subset Sampling Based Motion Planner (LASMP), a system that helps mobile robots plan their movements by using natural language instructions. LASMP uses a modified version of the Rapidly Exploring Random Tree (RRT) method, which is guided by user-provided commands processed through a language model (RoBERTa). The system improves efficiency by focusing on specific areas of the robot's workspace based on these instructions, making it faster and less resource-intensive. Compared to traditional RRT methods, LASMP reduces the number of nodes needed by 55% and cuts random sample queries by 80%, while still generating safe, collision-free paths. Tested in both simulated and real-world environments, LASMP has shown better performance in handling complex indoor scenarios. The results highlight the potential of combining language processing with motion planning to make robot navigation more efficient.
翻訳日:2024-11-05 04:35:05 公開日:2024-10-01
# 量子ソフトウェアのテストと分析に関する調査

A Survey on Testing and Analysis of Quantum Software ( http://arxiv.org/abs/2410.00650v1 )

ライセンス: Link先を確認
Matteo Paltenghi, Michael Pradel, (参考訳) 量子コンピューティングは学術と産業の両方から関心を集めており、量子ソフトウェアの世界は急速に成長している。 量子ソフトウェアスタックは量子プログラムで構成され、アルゴリズムを実装し、IBM Qiskit、Google Cirq、Microsoft Q#のようなプラットフォームが開発を可能にしている。 量子ソフトウェアの信頼性と性能を確保するため、テスト生成、バグパターン検出、回路最適化などの様々な手法が提案されている。 しかし、多くの研究と量子ソフトウェアの開発はいくつかの研究コミュニティによって行われているため、既存の技術の概要を網羅的に把握することは困難である。 本研究では,量子ソフトウェアのテストと解析における最先端技術に関する広範な調査を行う。 量子コンピューティング、ソフトウェア工学、プログラミング言語、形式的手法など、いくつかの研究コミュニティの文献について論じる。 私たちの調査では、量子プログラムの期待と予期せぬ動作、テスト技術、プログラム分析アプローチ、最適化、量子ソフトウェアのテストと分析のためのベンチマークなど、幅広いトピックをカバーしています。 議論されたトピック間の新しい接続を作成し、それらをアクセス可能な形で提示する。 最後に、今後の研究を刺激する鍵となる課題とオープンな課題について論じる。

Quantum computing is getting increasing interest from both academia and industry, and the quantum software landscape has been growing rapidly. The quantum software stack comprises quantum programs, implementing algorithms, and platforms like IBM Qiskit, Google Cirq, and Microsoft Q#, enabling their development. To ensure the reliability and performance of quantum software, various techniques for testing and analyzing it have been proposed, such as test generation, bug pattern detection, and circuit optimization. However, the large amount of work and the fact that work on quantum software is performed by several research communities, make it difficult to get a comprehensive overview of the existing techniques. In this work, we provide an extensive survey of the state of the art in testing and analysis of quantum software. We discuss literature from several research communities, including quantum computing, software engineering, programming languages, and formal methods. Our survey covers a wide range of topics, including expected and unexpected behavior of quantum programs, testing techniques, program analysis approaches, optimizations, and benchmarks for testing and analyzing quantum software. We create novel connections between the discussed topics and present them in an accessible way. Finally, we discuss key challenges and open problems to inspire future research.
翻訳日:2024-11-05 04:35:05 公開日:2024-10-01
# 説明可能なマルチステークホルダジョブレコメンダシステム

Explainable Multi-Stakeholder Job Recommender Systems ( http://arxiv.org/abs/2410.00654v1 )

ライセンス: Link先を確認
Roan Schellingerhout, (参考訳) 近年,レコメンデーションシステムに対する世論はますます慎重になっている。 この傾向に沿って、議員はこうしたシステムに対してより批判的になり始めており、結果として、リコメンダシステムやAI全体に対するプライバシー、公正性、説明可能性といった側面に焦点を当てた新しい法律が導入された。 これらの概念は、採用のようなリスクの高い領域では特に重要である。 特に採用において、決定は個人のキャリアや企業成功に大きな影響を及ぼす可能性があるため、かなりの重みを負う。 さらに、求職者、採用者、企業がそれぞれ独自の要件と期待を持って同時に使用するため、マルチステークホルダーアプローチが必要である。 本稿では、説明可能な多人数求職者推薦システムに関する現在の研究を要約し、今後の研究の方向性を概説する。

Public opinion on recommender systems has become increasingly wary in recent years. In line with this trend, lawmakers have also started to become more critical of such systems, resulting in the introduction of new laws focusing on aspects such as privacy, fairness, and explainability for recommender systems and AI at large. These concepts are especially crucial in high-risk domains such as recruitment. In recruitment specifically, decisions carry substantial weight, as the outcomes can significantly impact individuals' careers and companies' success. Additionally, there is a need for a multi-stakeholder approach, as these systems are used by job seekers, recruiters, and companies simultaneously, each with its own requirements and expectations. In this paper, I summarize my current research on the topic of explainable, multi-stakeholder job recommender systems and set out a number of future research directions.
翻訳日:2024-11-05 04:35:05 公開日:2024-10-01
# AutoTM 2.0: ドキュメント分析のためのトピックモデリングフレームワーク

AutoTM 2.0: Automatic Topic Modeling Framework for Documents Analysis ( http://arxiv.org/abs/2410.00655v1 )

ライセンス: Link先を確認
Maria Khodorchenko, Nikolay Butakov, Maxim Zuev, Denis Nasonov, (参考訳) 本稿では,追加正規化トピックモデルを最適化するためのAutoTM 2.0フレームワークを提案する。 以前のバージョンと比較して、このバージョンには、新しい最適化パイプライン、LLMベースの品質メトリクス、分散モードなどの重要な改善が含まれている。 AutoTM 2.0は、専門家や非専門家がテキストドキュメントを使って探索的なデータ分析をしたり、解釈可能な機能のセットでクラスタリングタスクを実行するための快適なツールである。 品質評価は、コヒーレンスやgpt-4ベースのアプローチのような特別に開発されたメトリクスに基づいている。 研究者や実践者は、新しい最適化アルゴリズムを容易に統合し、新しいメトリクスを適用して、モデリングの品質を高め、実験を拡張することができる。 異なる特徴を持つ5つのデータセットと2つの異なる言語で結果を提供することで、AutoTM 2.0は以前のAutoTMよりも優れたパフォーマンスを実現していることを示す。

In this work, we present an AutoTM 2.0 framework for optimizing additively regularized topic models. Comparing to the previous version, this version includes such valuable improvements as novel optimization pipeline, LLM-based quality metrics and distributed mode. AutoTM 2.0 is a comfort tool for specialists as well as non-specialists to work with text documents to conduct exploratory data analysis or to perform clustering task on interpretable set of features. Quality evaluation is based on specially developed metrics such as coherence and gpt-4-based approaches. Researchers and practitioners can easily integrate new optimization algorithms and adapt novel metrics to enhance modeling quality and extend their experiments. We show that AutoTM 2.0 achieves better performance compared to the previous AutoTM by providing results on 5 datasets with different features and in two different languages.
翻訳日:2024-11-05 04:35:05 公開日:2024-10-01
# ロボット故障のマルチモーダルコヒーレント説明生成

Multimodal Coherent Explanation Generation of Robot Failures ( http://arxiv.org/abs/2410.00659v1 )

ライセンス: Link先を確認
Pradip Pramanick, Silvia Rossi, (参考訳) ロボットの行動を説明することは、社会的空間における受容に不可欠である。 ロボットが与えられたタスクを完了しなかった理由を説明することは、非専門家のユーザがロボットの能力と限界に気付くことが特に重要である。 これまでのところ、ロボットの故障を説明する研究は、複数の研究がマルチモーダルな説明の利点を示しているにもかかわらず、テキストによる説明を生み出すことしか検討されていない。 しかし、複数のモダリティの単純な組み合わせは、異なるモダリティにまたがる情報間のセマンティックな不整合をもたらす可能性がある。 非一貫性のないマルチモーダルな説明を理解することは困難であり、ロボットと人間が何を観察し、どのように観察と推論を行うかに矛盾することもある。 このような矛盾は、ロボットの能力に関する誤った結論につながる可能性がある。 本稿では,異なるモダリティからの説明の論理的コヒーレンスを検証し,必要に応じて改良を加えて,コヒーレントなマルチモーダルな説明を生成する手法を提案する。 本稿では,コヒーレンス評価のための分類手法を提案する。 実験により,テキストの包含を認識するためにトレーニング済みのニューラルネットワークの微調整が,マルチモーダルな説明のコヒーレンス評価に有効であることが示唆された。 コードとデータ:https://pradippramanick.github.io/coherent-explain/。

The explainability of a robot's actions is crucial to its acceptance in social spaces. Explaining why a robot fails to complete a given task is particularly important for non-expert users to be aware of the robot's capabilities and limitations. So far, research on explaining robot failures has only considered generating textual explanations, even though several studies have shown the benefits of multimodal ones. However, a simple combination of multiple modalities may lead to semantic incoherence between the information across different modalities - a problem that is not well-studied. An incoherent multimodal explanation can be difficult to understand, and it may even become inconsistent with what the robot and the human observe and how they perform reasoning with the observations. Such inconsistencies may lead to wrong conclusions about the robot's capabilities. In this paper, we introduce an approach to generate coherent multimodal explanations by checking the logical coherence of explanations from different modalities, followed by refinements as required. We propose a classification approach for coherence assessment, where we evaluate if an explanation logically follows another. Our experiments suggest that fine-tuning a neural network that was pre-trained to recognize textual entailment, performs well for coherence assessment of multimodal explanations. Code & data: https://pradippramanick.github.io/coherent-explain/.
翻訳日:2024-11-05 04:35:05 公開日:2024-10-01
# クマラスワミー分布の安定化

Stabilizing the Kumaraswamy Distribution ( http://arxiv.org/abs/2410.00660v1 )

ライセンス: Link先を確認
Max Wasserman, Gonzalo Mateos, (参考訳) 大規模潜在変数モデルは、効率的なサンプリングと低分散微分をサポートする表現的連続分布を必要とし、再パラメータ化のトリックによって達成できる。 Kumaraswamy(KS)分布はどちらも表現的であり、単純な閉形式逆CDFで再パラメータ化トリックをサポートする。 しかし、採用は限られている。 逆CDFとlog-pdfの数値不安定性を同定し、PyTorchやTensorFlowといったライブラリの問題を明らかにする。 次に、KSに基づく単純でスケーラブルな潜伏変数モデルを導入し、コンテキスト型マルチアームバンドにおける探索・探索トレードオフを改善し、グラフニューラルネットワークとのリンク予測のための不確実性定量化を向上する。 本結果は,有界潜在変数に対するスケーラブルな変動モデルにおけるコアコンポーネントとして安定化KS分布を支持する。

Large-scale latent variable models require expressive continuous distributions that support efficient sampling and low-variance differentiation, achievable through the reparameterization trick. The Kumaraswamy (KS) distribution is both expressive and supports the reparameterization trick with a simple closed-form inverse CDF. Yet, its adoption remains limited. We identify and resolve numerical instabilities in the inverse CDF and log-pdf, exposing issues in libraries like PyTorch and TensorFlow. We then introduce simple and scalable latent variable models based on the KS, improving exploration-exploitation trade-offs in contextual multi-armed bandits and enhancing uncertainty quantification for link prediction with graph neural networks. Our results support the stabilized KS distribution as a core component in scalable variational models for bounded latent variables.
翻訳日:2024-11-05 04:35:05 公開日:2024-10-01
# PETをソフトウェアアプリケーションに統合する:ゲームベースの学習アプローチ

Integrating PETs into Software Applications: A Game-Based Learning Approach ( http://arxiv.org/abs/2410.00661v1 )

ライセンス: Link先を確認
Maisha Boteju, Thilina Ranbaduge, Dinusha Vatsalan, Nalin Arachchilage, (参考訳) ソフトウェアアプリケーションにデータ保護手段がないことは、データ漏洩を引き起こし、エンドユーザのプライバシを脅かし、それらのソフトウェアを開発する組織に不安定を引き起こす。 プライバシー強化技術(PET)は、データ漏洩に対する将来的な保護として出現する。 PETは個人データに対する脅威を最小限に抑えつつ、ソフトウェアが価値ある洞察を抽出することを可能にする。 しかし、ソフトウェア開発者はPET統合ソフトウェアを開発するための十分な知識と意識を欠いていることが多い。 この問題は、ソフトウェア開発者にカスタマイズされたPET関連の学習アプローチが不十分であることにより悪化する。 そこで我々は,開発者がPETをソフトウェアに統合する動機となるゲームベースの学習フレームワーク「PETs-101」を提案する。 そうすることで、PETで学習コンテンツを配信するのではなく、開発者のプライバシ保護ソフトウェア開発行動を改善することを目指している。 将来的には,PETの実践をデベロッパーに教える教育ゲーム介入の基盤として,提案フレームワークを実証的に検討し,活用していく予定である。

The absence of data protection measures in software applications leads to data breaches, threatening end-user privacy and causing instabilities in organisations that developed those software. Privacy Enhancing Technologies (PETs) emerge as promising safeguards against data breaches. PETs minimise threats to personal data while enabling software to extract valuable insights from them. However, software developers often lack the adequate knowledge and awareness to develop PETs integrated software. This issue is exacerbated by insufficient PETs related learning approaches customised for software developers. Therefore, we propose "PETs-101", a novel game-based learning framework that motivates developers to integrate PETs into software. By doing so, it aims to improve developers' privacy-preserving software development behaviour rather than simply delivering the learning content on PETs. In future, the proposed framework will be empirically investigated and used as a foundation for developing an educational gaming intervention that trains developers to put PETs into practice.
翻訳日:2024-11-05 04:35:05 公開日:2024-10-01
# TAVRNN: 時間的アテンション強化変動グラフRNNによるニューラルダイナミクスと振る舞いのキャプチャ

TAVRNN: Temporal Attention-enhanced Variational Graph RNN Captures Neural Dynamics and Behavior ( http://arxiv.org/abs/2410.00665v1 )

ライセンス: Link先を確認
Moein Khajehnejad, Forough Habibollahi, Ahmad Khajehnejad, Brett J. Kagan, Adeel Razi, (参考訳) 本稿では、外部刺激や行動フィードバックに応答して、ニューロン接続ネットワークの進化的ダイナミクスを分析するための新しいフレームワークであるTAVRNNを紹介する。 TAVRNNは、神経活動のシーケンシャルスナップショットをモデル化することで、ネットワーク構造の時間的変化を捉え、キー接続パターンの識別を可能にする。 時間的注意機構と変動グラフ技術を活用して、TAVRNNは接続のシフトが時間の経過とともにどのように振舞うかを明らかにする。 TAVRNNは自由行動ラットの生体内カルシウムイメージングデータとDishBrainシステムによる新しい生体内電気生理学的データである。 TAVRNNは、接続変更と性能変動を正確にリンクしながら、分類、クラスタリングタスク、計算効率において、以前のベースラインモデルよりも優れていることを示す。 TAVRNNは、DishBrainシステムにおける高いゲーム性能が感覚チャネルと運動サブリージョンチャネルのアライメントと相関していることを明らかにする。 このフレームワークは、DishBrainシステムからの電気生理学的(ニューロン)データの動的グラフ表現の最初の応用であり、学習中の神経ネットワークの再編成に関する洞察を提供する。 TAVRNNは、成功した学習結果と失敗した学習結果とを区別する能力があり、生物学的神経系のリアルタイムモニタリングと操作に重要な意味を持つ。

We introduce Temporal Attention-enhanced Variational Graph Recurrent Neural Network (TAVRNN), a novel framework for analyzing the evolving dynamics of neuronal connectivity networks in response to external stimuli and behavioral feedback. TAVRNN captures temporal changes in network structure by modeling sequential snapshots of neuronal activity, enabling the identification of key connectivity patterns. Leveraging temporal attention mechanisms and variational graph techniques, TAVRNN uncovers how connectivity shifts align with behavior over time. We validate TAVRNN on two datasets: in vivo calcium imaging data from freely behaving rats and novel in vitro electrophysiological data from the DishBrain system, where biological neurons control a simulated environment during the game of pong. We show that TAVRNN outperforms previous baseline models in classification, clustering tasks and computational efficiency while accurately linking connectivity changes to performance variations. Crucially, TAVRNN reveals that high game performance in the DishBrain system correlates with the alignment of sensory and motor subregion channels, a relationship not evident in earlier models. This framework represents the first application of dynamic graph representation of electrophysiological (neuronal) data from DishBrain system, providing insights into the reorganization of neuronal networks during learning. TAVRNN's ability to differentiate between neuronal states associated with successful and unsuccessful learning outcomes, offers significant implications for real-time monitoring and manipulation of biological neuronal systems.
翻訳日:2024-11-05 04:35:05 公開日:2024-10-01
# GMT:幾何駆動型マルチ参照テクスチャ転送による一般化可能なニューラルレンダリングの実現

GMT: Enhancing Generalizable Neural Rendering via Geometry-Driven Multi-Reference Texture Transfer ( http://arxiv.org/abs/2410.00672v1 )

ライセンス: Link先を確認
Youngho Yoon, Hyun-Kurl Jang, Kuk-Jin Yoon, (参考訳) 新たなビュー合成(NVS)は、多視点画像を用いて任意の視点で画像を生成することを目的としており、ニューラルレイディアンス場(NeRF)からの最近の知見は、顕著な改善に寄与している。 近年、一般化可能なNeRF(G-NeRF)の研究は、NeRFにおけるシーンごとの最適化の課題に対処している。 G-NeRFにおけるラジアンス場の構築はNVSプロセスを単純化し、現実世界の応用に適している。 一方、G-NeRFは、テクスチャに富んだマルチビューソース入力であっても、シーンごとの最適化がないため、特定のシーンの詳細な表現に苦慮している。 本稿では,G-NeRF用に設計されたプラグイン・アンド・プレイモジュールとして利用可能なGeometry-driven Multi-Reference Texture Transfer Network (GMT)を提案する。 具体的には、シーン形状を反映した入力特徴と参照特徴を整列するレイ畳み込み変形可能な畳み込み(RayDCN)を提案する。 さらに,提案したテクスチャ保存変換器 (TP-Former) は,テクスチャ情報を保存しながら,マルチビューソースの特徴を集約する。 その結果,G-NeRFモデルでは1ピクセルあたりの独立レンダリング処理が不十分な画像強調処理において,隣接画素間の直接の相互作用が可能となった。 これは、高周波の詳細をキャプチャする能力を妨げる制約に対処する。 実験により,プラグイン・アンド・プレイモジュールは,各種ベンチマークデータセットのG-NeRFモデルを一貫して改善することが示された。

Novel view synthesis (NVS) aims to generate images at arbitrary viewpoints using multi-view images, and recent insights from neural radiance fields (NeRF) have contributed to remarkable improvements. Recently, studies on generalizable NeRF (G-NeRF) have addressed the challenge of per-scene optimization in NeRFs. The construction of radiance fields on-the-fly in G-NeRF simplifies the NVS process, making it well-suited for real-world applications. Meanwhile, G-NeRF still struggles in representing fine details for a specific scene due to the absence of per-scene optimization, even with texture-rich multi-view source inputs. As a remedy, we propose a Geometry-driven Multi-reference Texture transfer network (GMT) available as a plug-and-play module designed for G-NeRF. Specifically, we propose ray-imposed deformable convolution (RayDCN), which aligns input and reference features reflecting scene geometry. Additionally, the proposed texture preserving transformer (TP-Former) aggregates multi-view source features while preserving texture information. Consequently, our module enables direct interaction between adjacent pixels during the image enhancement process, which is deficient in G-NeRF models with an independent rendering process per pixel. This addresses constraints that hinder the ability to capture high-frequency details. Experiments show that our plug-and-play module consistently improves G-NeRF models on various benchmark datasets.
翻訳日:2024-11-05 04:25:20 公開日:2024-10-01
# 音響アニメーションによるセキュリティプロトコルのユーザガイドによる検証

User-Guided Verification of Security Protocols via Sound Animation ( http://arxiv.org/abs/2410.00676v1 )

ライセンス: Link先を確認
Kangfeng Ye, Roberto Metere, Poonam Yadav, (参考訳) 現在のセキュリティプロトコルの正式な検証は、特殊な研究者や複雑なツールに依存しており、非公式にエミュレータを使った作業を評価するプロトコル設計者にはアクセスできない。 本稿では,シンボル解析を設計プロセスに組み込むことにより,このギャップを解消する。 当社のアプローチでは,インタラクションツリー(ITrees)に基づいたCSPの変種を用いて,Doulev-Yao攻撃モデルを実装して,プロトコルをアニメーターにコンパイルする。 コンパイルの健全性を保証するため、定理証明器 Isabelle/HOL で我々のアプローチを機械化した。 伝統的に象徴的なツールで行われているように、Diffie-Hellmanキー交換とNeedham-Schroeder公開鍵プロトコル(およびローのパッチ付き変種)を参照する。 我々は,我々のアニメーターが容易に攻撃のメカニズムを明らかにし,修正を検証できることを実証する。 この作業は、設計レベルでのセキュリティ統合を促進し、さらなるセキュリティプロパティ分析とソフトウェアエンジニアリング統合をサポートする。

Current formal verification of security protocols relies on specialized researchers and complex tools, inaccessible to protocol designers who informally evaluate their work with emulators. This paper addresses this gap by embedding symbolic analysis into the design process. Our approach implements the Dolev-Yao attack model using a variant of CSP based on Interaction Trees (ITrees) to compile protocols into animators -- executable programs that designers can use for debugging and inspection. To guarantee the soundness of our compilation, we mechanised our approach in the theorem prover Isabelle/HOL. As traditionally done with symbolic tools, we refer to the Diffie-Hellman key exchange and the Needham-Schroeder public-key protocol (and Lowe's patched variant). We demonstrate how our animator can easily reveal the mechanics of attacks and verify corrections. This work facilitates security integration at the design level and supports further security property analysis and software-engineered integrations.
翻訳日:2024-11-05 04:25:20 公開日:2024-10-01
# コンバータエンコーダは時間次元を逆転させる可能性がある

The Conformer Encoder May Reverse the Time Dimension ( http://arxiv.org/abs/2410.00680v1 )

ライセンス: Link先を確認
Robin Schmitt, Albert Zeyer, Mohammad Zeineldeen, Ralf Schlüter, Hermann Ney, (参考訳) コンフォーマーをベースとしたグローバルアテンションベースのエンコーダデコーダ(AED)モデルでは,単調にクロスアテンション重みを減少させることがある。 さらなる調査により、コンバータエンコーダは時間次元のシーケンスを内部的に反転させる。 我々はデコーダのクロスアテンション機構の初期動作を分析し、コンバータエンコーダの自己アテンションが初期フレームと他のすべての情報フレームとの接続を構築することを奨励することを発見した。 さらに、トレーニングのある時点で、コンフォーマーの自己保持モジュールが、前回のフィードフォワードモジュールよりも出力を優先し始め、逆情報のみを通過させることを示す。 本稿では,このフリップを回避する方法とアイデアを提案する。 さらに,エンコーダ入力フレームに対するラベルログ確率の勾配を用いて,ラベルフレーム配置アライメントを求める新しい手法について検討する。

We sometimes observe monotonically decreasing cross-attention weights in our Conformer-based global attention-based encoder-decoder (AED) models. Further investigation shows that the Conformer encoder internally reverses the sequence in the time dimension. We analyze the initial behavior of the decoder cross-attention mechanism and find that it encourages the Conformer encoder self-attention to build a connection between the initial frames and all other informative frames. Furthermore, we show that, at some point in training, the self-attention module of the Conformer starts dominating the output over the preceding feed-forward module, which then only allows the reversed information to pass through. We propose several methods and ideas of how this flipping can be avoided. Additionally, we investigate a novel method to obtain label-frame-position alignments by using the gradients of the label log probabilities w.r.t. the encoder input frames.
翻訳日:2024-11-05 04:25:20 公開日:2024-10-01
# トランスファーラーニングとトランスフォーマーモデルを用いた高度アラビアアルファベット手話認識

Advanced Arabic Alphabet Sign Language Recognition Using Transfer Learning and Transformer Models ( http://arxiv.org/abs/2410.00681v1 )

ライセンス: Link先を確認
Mazen Balat, Rewaa Awaad, Hend Adel, Ahmed B. Zaky, Salah A. Aly, (参考訳) 本稿では、トランスファー学習とトランスフォーマーモデルを組み合わせたディープラーニング手法を用いて、アラビア語 Alphabet Sign Language 認識手法を提案する。 本稿では,ArSL2018 と AASL の2つの公開データセット上で,異なる変種の性能について検討する。 このタスクは、ResNet50、MobileNetV2、EfficientNetB7のような最先端のCNNアーキテクチャと、Google ViTやMicrosoft Swin Transformerといった最新のトランスフォーマーモデルを完全に活用する。 これらの事前訓練されたモデルは、アラビア手話の動きのユニークな特徴を捉えるために、上記のデータセット上で微調整されている。 実験の結果,ArSL2018 と AASL でそれぞれ 99.6\% と 99.43\% の高い認識精度が得られた。 これは、これまで報告された最先端のアプローチをはるかに超えている。 この演奏は、アラビア語話者の聴覚障害や難聴者にとってよりアクセスしやすいコミュニケーションのためにさらに多くの道を開き、包括的社会を奨励する。

This paper presents an Arabic Alphabet Sign Language recognition approach, using deep learning methods in conjunction with transfer learning and transformer-based models. We study the performance of the different variants on two publicly available datasets, namely ArSL2018 and AASL. This task will make full use of state-of-the-art CNN architectures like ResNet50, MobileNetV2, and EfficientNetB7, and the latest transformer models such as Google ViT and Microsoft Swin Transformer. These pre-trained models have been fine-tuned on the above datasets in an attempt to capture some unique features of Arabic sign language motions. Experimental results present evidence that the suggested methodology can receive a high recognition accuracy, by up to 99.6\% and 99.43\% on ArSL2018 and AASL, respectively. That is far beyond the previously reported state-of-the-art approaches. This performance opens up even more avenues for communication that may be more accessible to Arabic-speaking deaf and hard-of-hearing, and thus encourages an inclusive society.
翻訳日:2024-11-05 04:25:20 公開日:2024-10-01
# 技術用語翻訳の効率化: パーエンテティカル・テミノロジー翻訳のための知識蒸留アプローチ

Efficient Technical Term Translation: A Knowledge Distillation Approach for Parenthetical Terminology Translation ( http://arxiv.org/abs/2410.00683v1 )

ライセンス: Link先を確認
Jiyoon Myung, Jihyeon Park, Jungki Son, Kyungro Lee, Joohyung Han, (参考訳) 本稿では,専門分野におけるコミュニケーションの明確化に不可欠である専門用語を正確に翻訳することの課題に対処する。 本研究は, ペアレンテティカル・ターミノロジー・トランスフォーメーション (PTT) タスクを導入し, ペアレンテティカル・ターミノロジー・トランスフォーメーション(PTT)タスクの翻訳とともに, ペアレンテティカル・ターミノロジー・トランスフォーメーション(Parenthetical Terminology Translation, PTT)タスクを導入した。 このアプローチを実現するために,我々は,大規模言語モデルとの協調的アプローチと知識蒸留を用いて,従来のニューラルネットワーク翻訳(NMT)モデルと小型大規模言語モデル(SLM)に応用した代表的TTデータセットを生成した。 さらに,単語の全体的な翻訳精度と正しい括弧表現の両方を評価するための新しい評価指標を開発した。 以上の結果から,SLM は NMT モデルより常に優れておらず,特にターゲット言語での事前訓練が継続しているモデルでは,数発のプロンプトよりも微調整が効果的であることが示唆された。 これらの知見は、より信頼性の高い用語翻訳手法の発展に寄与する。

This paper addresses the challenge of accurately translating technical terms, which are crucial for clear communication in specialized fields. We introduce the Parenthetical Terminology Translation (PTT) task, designed to mitigate potential inaccuracies by displaying the original term in parentheses alongside its translation. To implement this approach, we generated a representative PTT dataset using a collaborative approach with large language models and applied knowledge distillation to fine-tune traditional Neural Machine Translation (NMT) models and small-sized Large Language Models (sLMs). Additionally, we developed a novel evaluation metric to assess both overall translation accuracy and the correct parenthetical presentation of terms. Our findings indicate that sLMs did not consistently outperform NMT models, with fine-tuning proving more effective than few-shot prompting, particularly in models with continued pre-training in the target language. These insights contribute to the advancement of more reliable terminology translation methodologies.
翻訳日:2024-11-05 04:25:20 公開日:2024-10-01
# 化学応用のための短期量子デバイスにおけるロバスト振幅推定の実験的研究

Experimental demonstration of Robust Amplitude Estimation on near-term quantum devices for chemistry applications ( http://arxiv.org/abs/2410.00686v1 )

ライセンス: Link先を確認
Alexander Kunitsa, Nicole Bellonzi, Shangjie Guo, Jérôme F. Gonthier, Corneliu Buda, Clena M. Abuan, Jhonathan Romero, (参考訳) 本研究では、IBM量子デバイス上でのロバスト振幅推定(RAE)のハードウェア実装について検討し、1量子および2量子ハミルトニアンの量子化学への応用を実証する。 予測値を推定する従来の手法よりも2次的なスピードアップを提供する可能性があることで知られるRAEは、現実的な雑音条件下で評価される。 我々の実験はRAEに関連する実践的課題に関する詳細な知見を提供する。 直接測定法と比較して,サンプリング要求の大幅な削減を実現した。 水素分子の基底状態エネルギーの推定において、RAEの実装は2量子ビット実験において2桁の精度を示し、化学的精度を達成した。 これらの結果は、ハードウェアノイズによって生じる固有の制限にもかかわらず、量子化学応用における計算効率を高める可能性を明らかにしている。 また,その性能はコヒーレントエラーやデバイス安定性に悪影響を及ぼす可能性があり,必ずしも平均ゲート誤差と相関しないことがわかった。 これらの結果は、実用シナリオにおいて量子計算手法をハードウェア仕様に適応させることの重要性を浮き彫りにしている。

This study explores hardware implementation of Robust Amplitude Estimation (RAE) on IBM quantum devices, demonstrating its application in quantum chemistry for one- and two-qubit Hamiltonian systems. Known for potentially offering quadratic speedups over traditional methods in estimating expectation values, RAE is evaluated under realistic noisy conditions. Our experiments provide detailed insights into the practical challenges associated with RAE. We achieved a significant reduction in sampling requirements compared to direct measurement techniques. In estimating the ground state energy of the hydrogen molecule, the RAE implementation demonstrated two orders of magnitude better accuracy for the two-qubit experiments and achieved chemical accuracy. These findings reveal its potential to enhance computational efficiencies in quantum chemistry applications despite the inherent limitations posed by hardware noise. We also found that its performance can be adversely impacted by coherent error and device stability and does not always correlate with the average gate error. These results underscore the importance of adapting quantum computational methods to hardware specifics to realize their full potential in practical scenarios.
翻訳日:2024-11-05 04:25:20 公開日:2024-10-01
# 分散ロバスト最適化におけるミニマックス速度の超越

Beyond Minimax Rates in Group Distributionally Robust Optimization via a Novel Notion of Sparsity ( http://arxiv.org/abs/2410.00690v1 )

ライセンス: Link先を確認
Quan Nguyen, Nishant A. Mehta, Cristóbal Guzmán, (参考訳) 群分布的ロバスト最適化 (GDRO) のミニマックス標本複雑性は、群数$Kに対して$\log(K)$因子に決定されている。 この研究において、我々は、$(\lambda, \beta)$-sparsity をダブした空間という新しい概念を通じて、minimaxの観点を超えて試みる。 つまり、この条件は任意のパラメータ $\theta$ において、少なくとも $\beta$ のリスクが他のグループのリスクよりも少なくとも $\lambda$ 大きいグループが存在することを意味する。 $\epsilon$-optimal $\theta$ を見つけるために、サンプル複雑性における $\epsilon$-dependent 項が、潜在的に小さい$\beta$ に対する線形依存に対して$K$ の線形依存と交換可能であることを示す新しいアルゴリズムと解析を通して示される。 この改良は睡眠帯域の最近の進歩を生かし、GDROのための2プレーヤゼロサムゲーム最適化フレームワークと睡眠帯域における動作毎の後悔境界との基本的な関係を示す。 上記の結果は、特定の$\lambda$を入力として持つと仮定する。 おそらく、私たちは次に、ログファクタまで、最高の$(\lambda, \beta)$-sparsity条件に適合するサンプルの複雑さを得る適応アルゴリズムを示します。 最後に、特定の入力$\lambda$に対して、次元のないサンプルの複雑さの結果を得る方法を示す。

The minimax sample complexity of group distributionally robust optimization (GDRO) has been determined up to a $\log(K)$ factor, for $K$ the number of groups. In this work, we venture beyond the minimax perspective via a novel notion of sparsity that we dub $(\lambda, \beta)$-sparsity. In short, this condition means that at any parameter $\theta$, there is a set of at most $\beta$ groups whose risks at $\theta$ all are at least $\lambda$ larger than the risks of the other groups. To find an $\epsilon$-optimal $\theta$, we show via a novel algorithm and analysis that the $\epsilon$-dependent term in the sample complexity can swap a linear dependence on $K$ for a linear dependence on the potentially much smaller $\beta$. This improvement leverages recent progress in sleeping bandits, showing a fundamental connection between the two-player zero-sum game optimization framework for GDRO and per-action regret bounds in sleeping bandits. The aforementioned result assumes having a particular $\lambda$ as input. Perhaps surprisingly, we next show an adaptive algorithm which, up to log factors, gets sample complexity that adapts to the best $(\lambda, \beta)$-sparsity condition that holds. Finally, for a particular input $\lambda$, we also show how to get a dimension-free sample complexity result.
翻訳日:2024-11-05 04:25:20 公開日:2024-10-01
# ウェアラブルデバイス応用のための時間的コンテキストの活用による光胸腺撮影に基づく睡眠安定度モデルの最適化

Optimizing Photoplethysmography-Based Sleep Staging Models by Leveraging Temporal Context for Wearable Devices Applications ( http://arxiv.org/abs/2410.00693v1 )

ライセンス: Link先を確認
Joseph A. P. Quino, Diego A. C. Cardenas, Marcelo A. F. Toledo, Felipe M. Dias, Estela Ribeiro, Jose E. Krieger, Marco A. Gutierrez, (参考訳) 正確な睡眠ステージ分類は、睡眠障害を診断し、睡眠の質を評価するために重要である。 ポリソムノグラフィー(PSG)は依然として金の標準であるが、光胸腺造影法(PPG)はウェアラブルデバイスで広く利用されているため、より実用的である。 しかし、最先端の睡眠ステージング手法は、しばしば長期間の連続的な信号取得を必要とするため、高エネルギー消費のためウェアラブルデバイスでは実用的ではない。 より短い信号の取得はより実現可能だが、正確ではない。 本研究は、トップパフォーマンスの最先端手法に基づく適応型睡眠ステージングモデルを提案し、その性能を異なるPSGセグメントサイズで評価する。 我々は15分間隔で30秒のPSGセグメントを結合し、より長いセグメントコンテキストを活用する。 このアプローチは精度0.75、Cohen's Kappaの0.60、F1-Weightedの0.74、F1-Macroの0.60を達成した。 セグメントサイズの削減は深部およびREM段の感度を低下させたが,本手法は特にこれらの段の30秒ウィンドウ法よりも優れていた。

Accurate sleep stage classification is crucial for diagnosing sleep disorders and evaluating sleep quality. While polysomnography (PSG) remains the gold standard, photoplethysmography (PPG) is more practical due to its affordability and widespread use in wearable devices. However, state-of-the-art sleep staging methods often require prolonged continuous signal acquisition, making them impractical for wearable devices due to high energy consumption. Shorter signal acquisitions are more feasible but less accurate. Our work proposes an adapted sleep staging model based on top-performing state-of-the-art methods and evaluates its performance with different PPG segment sizes. We concatenate 30-second PPG segments over 15-minute intervals to leverage longer segment contexts. This approach achieved an accuracy of 0.75, a Cohen's Kappa of 0.60, an F1-Weighted score of 0.74, and an F1-Macro score of 0.60. Although reducing segment size decreased sensitivity for deep and REM stages, our strategy outperformed single 30-second window methods, particularly for these stages.
翻訳日:2024-11-05 04:25:20 公開日:2024-10-01
# 大規模言語モデルにおけるモデル複雑度の影響の検討

Investigating the Impact of Model Complexity in Large Language Models ( http://arxiv.org/abs/2410.00699v1 )

ライセンス: Link先を確認
Jing Luo, Huiyuan Wang, Weiran Huang, (参考訳) 事前訓練された微調整パラダイムに基づく大規模言語モデル(LLM)は、自然言語処理タスクの解決において重要な役割を担い、常に最先端のパフォーマンスを達成している。 しかし、モデル複雑性が微調整性能にどのように影響するかの理論的理解は依然として困難であり、まだ十分に研究されていない。 本稿では,自己回帰 LLM に着目し,HMM (Hidden Markov Models) を用いたモデリングを提案する。 HMMモデリングに基づいて、下流タスクにおけるモデル複雑性と一般化能力の関係について検討する。 具体的には、下流タスクの一般的なチューニングパラダイムであるヘッドチューニングについて検討し、事前学習されたパラメータはすべて凍結され、個別のヘッドのみが事前学習されたLLM上でトレーニングされる。 我々の理論的分析により、リスクは最初増加し、モデル複雑性の上昇とともに減少し、"二重降下"現象を示すことが明らかとなった。 この場合、最初の「退化」は縮退し、モデルサイズがゼロのときにバイアスと分散のバランスをとる「スイートスポット」が生じることを意味する。 本研究の結論は, 自己回帰型LLMと下流タスクを効果的にモデル化すること, 多変量回帰の包括的リスク分析を行うことを中心に, いくつかの課題に直面する。 我々の研究は、HMMから生成されたデータに基づいて行われた実験によって裏付けられ、実験的な支援と理論的な洞察との整合性を提供する。

Large Language Models (LLMs) based on the pre-trained fine-tuning paradigm have become pivotal in solving natural language processing tasks, consistently achieving state-of-the-art performance. Nevertheless, the theoretical understanding of how model complexity influences fine-tuning performance remains challenging and has not been well explored yet. In this paper, we focus on autoregressive LLMs and propose to employ Hidden Markov Models (HMMs) to model them. Based on the HMM modeling, we investigate the relationship between model complexity and the generalization capability in downstream tasks. Specifically, we consider a popular tuning paradigm for downstream tasks, head tuning, where all pre-trained parameters are frozen and only individual heads are trained atop pre-trained LLMs. Our theoretical analysis reveals that the risk initially increases and then decreases with rising model complexity, showcasing a "double descent" phenomenon. In this case, the initial "descent" is degenerate, signifying that the "sweet spot" where bias and variance are balanced occurs when the model size is zero. Obtaining the presented in this study conclusion confronts several challenges, primarily revolving around effectively modeling autoregressive LLMs and downstream tasks, as well as conducting a comprehensive risk analysis for multivariate regression. Our research is substantiated by experiments conducted on data generated from HMMs, which provided empirical support and alignment with our theoretical insights.
翻訳日:2024-11-05 04:25:20 公開日:2024-10-01
# 強化学習のための対照的な抽象化

Contrastive Abstraction for Reinforcement Learning ( http://arxiv.org/abs/2410.00704v1 )

ライセンス: Link先を確認
Vihang Patil, Markus Hofmarcher, Elisabeth Rumetshofer, Sepp Hochreiter, (参考訳) 多くの状態を含む長い軌跡を扱う場合、強化学習を伴う学習エージェントは困難である。 これらの学習問題を効果的に解決するために、クラスタ状態の抽象表現によって、状態の数を減らすことができる。 原則として、深層強化学習は抽象状態を見つけることができるが、エンドツーエンド学習は不安定である。 本稿では,抽象状態を見つけるための対照的な抽象学習を提案し,そこでは軌道上の連続状態が同じ抽象状態に属すると仮定する。 このような抽象状態は、基本的な場所、達成されたサブゴール、在庫、健康状態である。 コントラスト的抽象学習は、まずコントラスト的学習によって状態表現のクラスタを構築し、次に抽象状態を決定するために近代ホップフィールドネットワークを適用した。 コントラスト的抽象学習の第1段階は自己教師型学習であり、コントラスト的学習力は、類似した表現を持つために連続的に近接している。 第2フェーズでは、現代的なホップフィールドネットワークを使用して、同様の状態表現を同じ固定点、すなわち抽象状態にマッピングする。 抽象レベルは、現代のホップフィールドネットワークの固定点数を決定することで調整できる。 さらに、‘textit{contrastive abstract learning} は報酬を必要とせず、幅広い下流タスクに対する効率的な強化学習を促進する。 本実験は,強化学習におけるコントラスト抽象学習の有効性を実証する。

Learning agents with reinforcement learning is difficult when dealing with long trajectories that involve a large number of states. To address these learning problems effectively, the number of states can be reduced by abstract representations that cluster states. In principle, deep reinforcement learning can find abstract states, but end-to-end learning is unstable. We propose contrastive abstraction learning to find abstract states, where we assume that successive states in a trajectory belong to the same abstract state. Such abstract states may be basic locations, achieved subgoals, inventory, or health conditions. Contrastive abstraction learning first constructs clusters of state representations by contrastive learning and then applies modern Hopfield networks to determine the abstract states. The first phase of contrastive abstraction learning is self-supervised learning, where contrastive learning forces states with sequential proximity to have similar representations. The second phase uses modern Hopfield networks to map similar state representations to the same fixed point, i.e.\ to an abstract state. The level of abstraction can be adjusted by determining the number of fixed points of the modern Hopfield network. Furthermore, \textit{contrastive abstraction learning} does not require rewards and facilitates efficient reinforcement learning for a wide range of downstream tasks. Our experiments demonstrate the effectiveness of contrastive abstraction learning for reinforcement learning.
翻訳日:2024-11-05 04:25:20 公開日:2024-10-01
# 非ストップ・マルチビュー・アクティブビジョン方式によるファクトリ自動化のための低コスト・高速・ロバストビンピッキングシステム

A Low-Cost, High-Speed, and Robust Bin Picking System for Factory Automation Enabled by a Non-Stop, Multi-View, and Active Vision Scheme ( http://arxiv.org/abs/2410.00706v1 )

ライセンス: Link先を確認
Xingdou Fu, Lin Miao, Yasuhiro Ohnishi, Yuki Hasegawa, Masaki Suwa, (参考訳) 工場自動化におけるビンピッキングシステムは通常、金属オブジェクトのスパースでノイズの多い3Dデータによって引き起こされる堅牢性の問題に直面する。 複数ビュー、特にワンショットの3Dセンサーと「手のセンサー」構成を利用することで、その効率性、柔軟性、低コストさから人気が高まっている。 3Dセンサーを3D融合、共同最適化、アクティブビジョンのために複数のビューに移動させる場合、低速で問題が発生する。 これは、センシングが動作タスクから切り離されたモジュールとして扱われ、意図的にビンピッキングシステム用に設計されていないためである。 そこで我々は,動作タスクと多視点能動的視覚スキームを「手持ちセンサ」構成で緊密に結合するビンピッキングシステムを設計した。 ロボットプレイス動作に高速センシングスキームを並列化することでシステムを高速化するだけでなく、次のセンシングパスを決定して、ピッキングプロセス全体の連続性を維持する。 センシング評価のみに焦点を当てた他と異なり, 人間の介入を伴わない5種類の物体について, 実験を行い, 評価を行った。 実験の結果,CPU上では 1.682秒 (最大) 以内で全体の検知が完了し, 抽出完了率は97.75%を超えることがわかった。 ロボットの動きとの並列化により、このセンシング方式は平均で0.635秒のタクト時間しか占めていない。

Bin picking systems in factory automation usually face robustness issues caused by sparse and noisy 3D data of metallic objects. Utilizing multiple views, especially with a one-shot 3D sensor and "sensor on hand" configuration is getting more popularity due to its effectiveness, flexibility, and low cost. While moving the 3D sensor to acquire multiple views for 3D fusion, joint optimization, or active vision suffers from low-speed issues. That is because sensing is taken as a decoupled module from motion tasks and is not intentionally designed for a bin picking system. To address the problems, we designed a bin picking system, which tightly couples a multi-view, active vision scheme with motion tasks in a "sensor on hand" configuration. It not only speeds up the system by parallelizing the high-speed sensing scheme to the robot place action but also decides the next sensing path to maintain the continuity of the whole picking process. Unlike others focusing only on sensing evaluation, we also evaluated our design by picking experiments on 5 different types of objects without human intervention. Our experiments show the whole sensing scheme can be finished within 1.682 seconds (maximum) on CPU and the average picking complete rate is over 97.75%. Due to the parallelization with robot motion, the sensing scheme accounts for only 0.635 seconds in takt time on average.
翻訳日:2024-11-05 04:25:20 公開日:2024-10-01
# ハイブリッド量子ニューラルネットワークを用いたクラウド量子コンピューティングを用いた屋内ユーザ位置推定

Hybrid Quantum Neural Network based Indoor User Localization using Cloud Quantum Computing ( http://arxiv.org/abs/2410.00708v1 )

ライセンス: Link先を確認
Sparsh Mittal, Yash Chand, Neel Kanth Kundu, (参考訳) 本稿では、受信信号強度インジケータ(RSSI)値を用いた屋内ユーザローカライゼーションのためのハイブリッド量子ニューラルネットワーク(HQNN)を提案する。 提案するHQNNの性能をテストするために,WiFi,Bluetooth,Zigbeeを用いて,屋内のローカライズにRSSIデータセットを公開している。 また、HQNNの性能と最近提案された量子フィンガープリントに基づくユーザローカライゼーション手法を比較した。 その結果、HQNNは量子回路にトレーニング可能なパラメータを持つため、HQNNは量子フィンガープリントアルゴリズムよりも優れており、一方、量子フィンガープリントアルゴリズムは、固定量子回路を用いて、テストデータポイントと指紋データセットの類似性を計算している。 従来の研究とは異なり、クラウド量子コンピューティングサービスを使用して、実際のIBM量子コンピュータ上でHQNNと量子指紋アルゴリズムの性能をテストする。 そこで本研究では,実世界のRSSIローカライゼーションデータセットを用いたNISQ量子デバイスにおけるHQNNの性能について検討する。 このアプローチの斬新さは、より少ないニューロンで単純なフィーチャーマップとアンサッツを使用することと、実際の量子ハードウェアで実世界のデータを使ってテストし、実世界のシナリオで実践的な適用性を実証することにあります。

This paper proposes a hybrid quantum neural network (HQNN) for indoor user localization using received signal strength indicator (RSSI) values. We use publicly available RSSI datasets for indoor localization using WiFi, Bluetooth, and Zigbee to test the performance of the proposed HQNN. We also compare the performance of the HQNN with the recently proposed quantum fingerprinting-based user localization method. Our results show that the proposed HQNN performs better than the quantum fingerprinting algorithm since the HQNN has trainable parameters in the quantum circuits, whereas the quantum fingerprinting algorithm uses a fixed quantum circuit to calculate the similarity between the test data point and the fingerprint dataset. Unlike prior works, we also test the performance of the HQNN and quantum fingerprint algorithm on a real IBM quantum computer using cloud quantum computing services. Therefore, this paper examines the performance of the HQNN on noisy intermediate scale (NISQ) quantum devices using real-world RSSI localization datasets. The novelty of our approach lies in the use of simple feature maps and ansatz with fewer neurons, alongside testing on actual quantum hardware using real-world data, demonstrating practical applicability in real-world scenarios.
翻訳日:2024-11-05 04:15:24 公開日:2024-10-01
# BioFace3D:MRIからの3次元顔再構成の顔バイオマーカー抽出のための完全自動パイプライン

BioFace3D: A fully automatic pipeline for facial biomarkers extraction of 3D face reconstructions segmented from MRI ( http://arxiv.org/abs/2410.00711v1 )

ライセンス: Link先を確認
Álvaro Heredia-Lidón, Luis M. Echeverry-Quiceno, Alejandro González, Noemí Hostalet, Edith Pomarol-Clotet, Juan Fortea, Mar Fatjó-Vilas, Neus Martínez-Abadías, Xavier Sevillano, (参考訳) 顔面形態学は、遺伝、精神病、まれな疾患の診断と予後において潜在的に重要な指標として現れている。 特定の状況ではこれらの形態学は厳しいが、他の場合では人間の目では知覚できない微妙なものであり、その識別には正確な定量的ツールが必要である。 顔形態素のマニュアルコーディングは、負担のかかる作業であり、サーバ間およびサーバ内変動の対象となる。 このギャップを克服するために、磁気共鳴画像から再構成した顔モデルを用いた顔バイオマーカーの完全自動計算ツールとしてBioFace3Dを提案する。 このツールは、磁気共鳴画像からの3次元顔モデル抽出、顔形態をコードするホモロジーな3次元ランドマークの登録、幾何学的形態計測技術を用いた解剖学的ランドマーク座標からの顔バイオマーカーの計算の3つの自動モジュールに分けられる。

Facial dysmorphologies have emerged as potential critical indicators in the diagnosis and prognosis of genetic, psychotic and rare disorders. While in certain conditions these dysmorphologies are severe, in other cases may be subtle and not perceivable to the human eye, requiring precise quantitative tools for their identification. Manual coding of facial dysmorphologies is a burdensome task and is subject to inter- and intra-observer variability. To overcome this gap, we present BioFace3D as a fully automatic tool for the calculation of facial biomarkers using facial models reconstructed from magnetic resonance images. The tool is divided into three automatic modules for the extraction of 3D facial models from magnetic resonance images, the registration of homologous 3D landmarks encoding facial morphology, and the calculation of facial biomarkers from anatomical landmarks coordinates using geometric morphometrics techniques.
翻訳日:2024-11-05 04:15:24 公開日:2024-10-01
# エネルギー最小化による擬似非線形データ拡張

Pseudo-Non-Linear Data Augmentation via Energy Minimization ( http://arxiv.org/abs/2410.00718v1 )

ライセンス: Link先を確認
Pingbang Hu, Mahito Sugiyama, (参考訳) 本稿では,エネルギーに基づくモデリングと情報幾何学の原理に基づく,新しい解釈可能なデータ拡張手法を提案する。 ディープニューラルネットワークに依存するブラックボックス生成モデルとは異なり、我々のアプローチは、これらの非解釈可能な変換を明示的で理論的に根拠のある変換に置き換え、解釈可能性とエネルギー最小化のような強力な保証を確保する。 提案手法の中心となるのは,次元減少を逆転して新しいデータを生成する後方投影アルゴリズムの導入である。 実験結果から,ブラックボックス生成モデルとの競合性能は向上し,透明性と解釈性も向上した。

We propose a novel and interpretable data augmentation method based on energy-based modeling and principles from information geometry. Unlike black-box generative models, which rely on deep neural networks, our approach replaces these non-interpretable transformations with explicit, theoretically grounded ones, ensuring interpretability and strong guarantees such as energy minimization. Central to our method is the introduction of the backward projection algorithm, which reverses dimension reduction to generate new data. Empirical results demonstrate that our method achieves competitive performance with black-box generative models while offering greater transparency and interpretability.
翻訳日:2024-11-05 04:15:24 公開日:2024-10-01
# 多項式畳み込みネットワークの幾何学と最適化について

On the Geometry and Optimization of Polynomial Convolutional Networks ( http://arxiv.org/abs/2410.00722v1 )

ライセンス: Link先を確認
Vahid Shahverdi, Giovanni Luca Marchetti, Kathlén Kohn, (参考訳) 単項活性化機能を持つ畳み込みニューラルネットワークについて検討する。 具体的には、パラメータ化写像が正則であり、フィルタを再スケーリングするまでの間、ほぼ至るところで同型であることが証明される。 代数幾何学からツールを利用することにより、この写像の函数空間における像の幾何学的性質を探求する。 特に、モデルの表現性を測るニューロ多様体の次元と度合いを計算し、その特異点を記述する。 さらに、一般的な大規模データセットに対して、回帰損失の最適化に起因した臨界点の数を定量化する明示的な公式を導出する。

We study convolutional neural networks with monomial activation functions. Specifically, we prove that their parameterization map is regular and is an isomorphism almost everywhere, up to rescaling the filters. By leveraging on tools from algebraic geometry, we explore the geometric properties of the image in function space of this map -- typically referred to as neuromanifold. In particular, we compute the dimension and the degree of the neuromanifold, which measure the expressivity of the model, and describe its singularities. Moreover, for a generic large dataset, we derive an explicit formula that quantifies the number of critical points arising in the optimization of a regression loss.
翻訳日:2024-11-05 04:15:24 公開日:2024-10-01
# 第一次行動理論におけるLTLf合成

LTLf Synthesis on First-Order Action Theories ( http://arxiv.org/abs/2410.00726v1 )

ライセンス: Link先を確認
Till Hofmann, Jens Claßen, (参考訳) Gologは表現力のあるハイレベルなエージェント言語で、非決定論的演算子が含まれており、実行時にのみ決定を下すことができる。 いわゆるプログラム実現は、通常、検索やインクリメンタルなオンライン方式で実装される。 本稿では,非決定論の一部が環境の制御下にある,より現実的な事例について考察する。 プログラムの実現は、成功した実現がプログラムを実行し、可能なすべての環境アクションの時間的目標を満たす合成問題となる。 我々は,Gologプログラムと,非有界なオブジェクト数と非局所効果を許容する一階アクション理論の表現型クラスと,LTLfの1階拡張で指定された時間的目標とを組み合わせて検討する。 本研究では、時間的目標の満足度を追跡しながらプログラムの実行を全てキャプチャするゲームアリーナを構築し、その結果の2人プレイヤゲームを解決することで、合成問題を解決する。 提案手法を2つの領域で評価し,本手法の汎用性を示した。

Golog is an expressive high-level agent language that includes nondeterministic operators which allow to leave some of the decisions to be made only at execution time. This so-called program realization is typically implemented by means of search, or in an incremental online fashion. In this paper, we consider the more realistic case where parts of the non-determinism are under the control of the environment. Program realization then becomes a synthesis problem, where a successful realization executes the program and satisfies the temporal goal for all possible environment actions. We consider Golog programs in combination with an expressive class of first-order action theories that allow for an unbounded number of objects and non-local effects, together with a temporal goal specified in a first-order extension of LTLf. We solve the synthesis problem by constructing a game arena that captures all possible executions of the program while tracking the satisfaction of the temporal goal and then solving the resulting two-player game. We evaluate the approach in two domains, showing the general feasibility of the approach.
翻訳日:2024-11-05 04:15:24 公開日:2024-10-01
# オブジェクト中心学習の簡易化

Simplified priors for Object-Centric Learning ( http://arxiv.org/abs/2410.00728v1 )

ライセンス: Link先を確認
Vihang Patil, Andreas Radler, Daniel Klotz, Sepp Hochreiter, (参考訳) 人間はデータを抽象化し、現在の連続学習システムに欠けている「emph{reusable}」概念を構築するのが得意である。 オブジェクト中心学習の分野は、人間の監督なしにデータから抽象表現(スロット)を開発することでこの問題に対処する。 画像の処理には様々な方法が提案されているが、そのほとんどは複雑であり、微分不可能で、スケーラビリティが悪い。 本稿では,SAMP Simplified Slot Attention with Max Pool Priorsという,概念的にシンプルで,完全微分可能で,非定型かつスケーラブルな手法を提案する。 Convolution層とMaxPool層とアテンション層のみを使用して実装できる。 提案手法では,入力画像を畳み込みニューラルネットワークで符号化し,コンボリューション層とMaxPool層を交互に分割してサブネットワークを作成し,プリミティブスロットを抽出する。 これらのプリミティブスロットは、エンコードされたイメージ上のSimplified Slot Attentionのクエリとして使用される。 その単純さにもかかわらず、我々の手法は標準ベンチマークで従来の手法より優れているか、優れている。

Humans excel at abstracting data and constructing \emph{reusable} concepts, a capability lacking in current continual learning systems. The field of object-centric learning addresses this by developing abstract representations, or slots, from data without human supervision. Different methods have been proposed to tackle this task for images, whereas most are overly complex, non-differentiable, or poorly scalable. In this paper, we introduce a conceptually simple, fully-differentiable, non-iterative, and scalable method called SAMP Simplified Slot Attention with Max Pool Priors). It is implementable using only Convolution and MaxPool layers and an Attention layer. Our method encodes the input image with a Convolutional Neural Network and then uses a branch of alternating Convolution and MaxPool layers to create specialized sub-networks and extract primitive slots. These primitive slots are then used as queries for a Simplified Slot Attention over the encoded image. Despite its simplicity, our method is competitive or outperforms previous methods on standard benchmarks.
翻訳日:2024-11-05 04:15:24 公開日:2024-10-01
# 特徴配向拡散を用いた合成画像データ生成の改善

Improved Generation of Synthetic Imaging Data Using Feature-Aligned Diffusion ( http://arxiv.org/abs/2410.00731v1 )

ライセンス: Link先を確認
Lakshmi Nair, (参考訳) 合成データ生成は、医療画像の分野における機械学習の重要な応用である。 既存のアプローチでは、医用画像の合成に微調整拡散モデルを適用することに成功したが、我々は特徴整合拡散によるパイプラインの改善の可能性を探る。 提案手法は,拡散モデルの中間的特徴を専門家の出力特徴と整合させ,予備的な結果から,SSIMの精度は9%向上し,SSIMの多様性は0.12向上した。 我々の手法は既存の手法と相乗効果があり、改良のために拡散訓練パイプラインに容易に統合できる。 コードは \url{https://github.com/lnairGT/Feature-Aligned-Diffusion} で公開しています。

Synthetic data generation is an important application of machine learning in the field of medical imaging. While existing approaches have successfully applied fine-tuned diffusion models for synthesizing medical images, we explore potential improvements to this pipeline through feature-aligned diffusion. Our approach aligns intermediate features of the diffusion model to the output features of an expert, and our preliminary findings show an improvement of 9% in generation accuracy and ~0.12 in SSIM diversity. Our approach is also synergistic with existing methods, and easily integrated into diffusion training pipelines for improvements. We make our code available at \url{https://github.com/lnairGT/Feature-Aligned-Diffusion}.
翻訳日:2024-11-05 04:15:24 公開日:2024-10-01
# 量子コンピュータにおける古典的データの表現

Representation of Classical Data on Quantum Computers ( http://arxiv.org/abs/2410.00742v1 )

ライセンス: Link先を確認
Thomas Lang, Anja Heim, Kilian Dremel, Dimitri Prjamkov, Martin Blaimer, Markus Firsching, Anastasia Papadaki, Stefan Kasperl, Theobald OJ Fuchs, (参考訳) 量子コンピューティングは現在、学術的なコミュニティだけでなく、産業からも注目されている。 量子コンピューティングを用いて取り組まなければならない現実的な問題に対して、量子コンピューティングシステムで使用されるデータを表現することは必須である。 アプリケーションによっては、正規数、高次元のデータ構造、例えばn次元の画像など、さまざまな種類のデータ構造やデータ構造が発生する。 本報告では,ゲート型量子コンピュータ上でのこれらのデータ型表現方法の概要について述べる。

Quantum computing is currently gaining significant attention, not only from the academic community but also from industry, due to its potential applications across several fields for addressing complex problems. For any practical problem which may be tackled using quantum computing, it is imperative to represent the data used onto a quantum computing system. Depending on the application, many different types of data and data structures occur, including regular numbers, higher-dimensional data structures, e.g., n-dimensional images, up to graphs. This report aims to provide an overview of existing methods for representing these data types on gate-based quantum computers.
翻訳日:2024-11-05 04:05:39 公開日:2024-10-01
# WALINET:1H MR Spectroscopic Imagingにおけるニュアンス信号除去のための水と脂質の識別畳み込みニューラルネットワーク

WALINET: A water and lipid identification convolutional Neural Network for nuisance signal removal in 1H MR Spectroscopic Imaging ( http://arxiv.org/abs/2410.00746v1 )

ライセンス: Link先を確認
Paul Weiser, Georg Langs, Stanislav Motyka, Wolfgang Bogner, Sébastien Courvoisier, Malte Hoffmann, Antoine Klauser, Ovidiu C. Andronesi, (参考訳) 目的。 プロトン磁気共鳴分光画像(Proton Magnetic Resonance Spectroscopic Imaging, 1H-MRSI)は、代謝の非侵襲的なスペクトル空間マッピングを提供する。 しかし、脳1H-MRSIの長年の問題は、代謝産物ピークのスペクトル重なりと頭皮からの大きな脂質信号、スペクトルを歪ませる圧倒的な水信号である。 高分解能の1H-MRSIでは, 代謝産物のシグナルを保存しながら, 脂質および水シグナルを正確に除去する高速かつ効果的な方法が必要である。 このタスクのための教師付きニューラルネットワークの可能性は、他のMRSI処理の成功にもかかわらず、まだ解明されていない。 メソッド。 我々は脳1H-MRSIにおける水と脂質の除去のための改良Y-NETネットワークに基づく深層学習手法を提案する。 WALINET (WAter and LIpid Neural Networkwork) は, 最先端の脂質L2正則化法やハンケル・ランツォス特異値分解法 (HLSVD) などの従来の手法と比較した。 NMRSE, SNR, CRLB, FWHM測定値を用いて, シミュレーションおよび脳内MRSIの評価を行った。 結果。 WALINETは非常に高速で、従来のHLSVD+L2では42分だったが、高解像度の全脳MRSIでは8秒を要する。 定量的解析により、WALINETはHLSVD+L2よりも優れた性能を示している。 1) NRMSEが41%低下し, 脂質除去率が高くなった。 2) シミュレーションデータでは, NRMSEが71%, SNRが155%, CRLBが50%低値であった。 健常者や患者においてWALINETが取得した代謝マップは、より目に見える構造とグレー/ホワイト・マターの対比が優れている。 結論。 WALINETは、従来の最先端技術と比較して、全脳1H-MRSIにおけるニュアンス信号除去と代謝物の定量化に優れた性能を有する。 これは、MRSI処理のためのディープラーニングの新しい応用であり、自動化されたハイスループットワークフローの可能性がある。

Purpose. Proton Magnetic Resonance Spectroscopic Imaging (1H-MRSI) provides non-invasive spectral-spatial mapping of metabolism. However, long-standing problems in whole-brain 1H-MRSI are spectral overlap of metabolite peaks with large lipid signal from scalp, and overwhelming water signal that distorts spectra. Fast and effective methods are needed for high-resolution 1H-MRSI to accurately remove lipid and water signals while preserving the metabolite signal. The potential of supervised neural networks for this task remains unexplored, despite their success for other MRSI processing. Methods. We introduce a deep-learning method based on a modified Y-NET network for water and lipid removal in whole-brain 1H-MRSI. The WALINET (WAter and LIpid neural NETwork) was compared to conventional methods such as the state-of-the-art lipid L2 regularization and Hankel-Lanczos singular value decomposition (HLSVD) water suppression. Methods were evaluated on simulated and in-vivo whole-brain MRSI using NMRSE, SNR, CRLB, and FWHM metrics. Results. WALINET is significantly faster and needs 8s for high-resolution whole-brain MRSI, compared to 42 minutes for conventional HLSVD+L2. Quantitative analysis shows WALINET has better performance than HLSVD+L2: 1) more lipid removal with 41% lower NRMSE, 2) better metabolite signal preservation with 71% lower NRMSE in simulated data, 155% higher SNR and 50% lower CRLB in in-vivo data. Metabolic maps obtained by WALINET in healthy subjects and patients show better gray/white-matter contrast with more visible structural details. Conclusions. WALINET has superior performance for nuisance signal removal and metabolite quantification on whole-brain 1H-MRSI compared to conventional state-of-the-art techniques. This represents a new application of deep-learning for MRSI processing, with potential for automated high-throughput workflow.
翻訳日:2024-11-05 04:05:39 公開日:2024-10-01
# 設計構造行列を用いた大規模言語モデル対話におけるトークン使用の最適化

Optimizing Token Usage on Large Language Model Conversations Using the Design Structure Matrix ( http://arxiv.org/abs/2410.00749v1 )

ライセンス: Link先を確認
Ramon Maria Garcia Alarcia, Alessandro Golkar, (参考訳) 大規模言語モデルは、多くの分野やタスクにおいてユビキタス化するにつれて、トークンの使用を減らし、短いコンテキストウィンドウ、限られた出力サイズ、トークンの取り込みと生成に関連するコストといった課題を克服する必要がある。 この作業は、エンジニアリング設計の分野からLLM会話最適化にデザイン構造マトリックスをもたらす。 LLM会話が宇宙船とそのサブシステムの設計に関するユースケースに適用されたDSMは、クラスタリングやシークエンシングなどの分析ツールを使用して、会話を組織化するための効果的なツールであり、一度にLLMから送信または取得されたトークンの数を最小化し、異なるコンテキストウィンドウに割り当てられるチャンクをグループ化する。 したがって、この研究はトークン使用最適化の現在の方法論を拡大し、エンジニアリング設計プラクティスをLLMに統合するための新たな道を開く。

As Large Language Models become ubiquitous in many sectors and tasks, there is a need to reduce token usage, overcoming challenges such as short context windows, limited output sizes, and costs associated with token intake and generation, especially in API-served LLMs. This work brings the Design Structure Matrix from the engineering design discipline into LLM conversation optimization. Applied to a use case in which the LLM conversation is about the design of a spacecraft and its subsystems, the DSM, with its analysis tools such as clustering and sequencing, demonstrates being an effective tool to organize the conversation, minimizing the number of tokens sent to or retrieved from the LLM at once, as well as grouping chunks that can be allocated to different context windows. Hence, this work broadens the current set of methodologies for token usage optimization and opens new avenues for the integration of engineering design practices into LLMs.
翻訳日:2024-11-05 04:05:39 公開日:2024-10-01
# 差別化プライバシボックスの外部を考える:言語モデルプロンプトによるテキストプライバタイズを事例として

Thinking Outside of the Differential Privacy Box: A Case Study in Text Privatization with Language Model Prompting ( http://arxiv.org/abs/2410.00751v1 )

ライセンス: Link先を確認
Stephen Meisenbacher, Florian Matthes, (参考訳) プライバシを保存する自然言語処理の分野は、特に大規模言語モデルの普及に伴うプライバシへの懸念が高まった時代に、人気が高まっている。 最近の文献に一貫して現れる解決策の1つは、差分プライバシー(DP)とNLP技術の統合である。 本稿では、これらのアプローチを批判的に捉え、DP統合が課す制約について議論するとともに、そのような制限がもたらす課題を明らかにする。 そこで本研究では,テキストの書き直しに言語モデルを活用したテキスト民営化手法である$\textbf{DP-Prompt}$に着目した。 特に,DPの有無にかかわらず,複数のシナリオでこの書き換え作業について検討する。 NLPにおけるDPのメリットに関する議論を進めるため、実証的なユーティリティとプライバシの実験を行う。 以上の結果から,NLPにおけるDPのユーザビリティと非DPアプローチに対するメリットについて,さらなる議論の必要性が示唆された。

The field of privacy-preserving Natural Language Processing has risen in popularity, particularly at a time when concerns about privacy grow with the proliferation of Large Language Models. One solution consistently appearing in recent literature has been the integration of Differential Privacy (DP) into NLP techniques. In this paper, we take these approaches into critical view, discussing the restrictions that DP integration imposes, as well as bring to light the challenges that such restrictions entail. To accomplish this, we focus on $\textbf{DP-Prompt}$, a recent method for text privatization leveraging language models to rewrite texts. In particular, we explore this rewriting task in multiple scenarios, both with DP and without DP. To drive the discussion on the merits of DP in NLP, we conduct empirical utility and privacy experiments. Our results demonstrate the need for more discussion on the usability of DP in NLP and its benefits over non-DP approaches.
翻訳日:2024-11-05 04:05:38 公開日:2024-10-01
# TestGenEval: 実世界のユニットテスト生成とテスト完了ベンチマーク

TestGenEval: A Real World Unit Test Generation and Test Completion Benchmark ( http://arxiv.org/abs/2410.00752v1 )

ライセンス: Link先を確認
Kush Jain, Gabriel Synnaeve, Baptiste Rozière, (参考訳) コード生成モデルは、コード補完から欠陥予測まで、多くの一般的なソフトウェアタスクを改善するのに役立つ。 コード生成 LLM の既存のベンチマークのほとんどは、コードオーサリングやコード補完に重点を置いている。 驚いたことに、十分にテストされたソフトウェアと効果的なバグ検出との間に強い相関があるにもかかわらず、ソフトウェアテストのベンチマークに費やされる労力ははるかに少なかった。 このギャップに対処するため、テスト生成性能を測定するための大規模なベンチマークであるTestGenEvalを作成し、リリースします。 SWEBenchに基づいて、TestGenEvalは1,210のコードから68,647のテストと、11の保守されたPythonリポジトリにわたるテストファイルペアで構成されている。 初期テストのオーサリング、テストスイートの補完、コードカバレッジの改善をカバーしている。 テストオーサリングは、開発者がテストスイートをスクラッチから記述するプロセスをシミュレートする一方で、テスト補完は、開発者が既存のテストスイートのカバレッジを改善することを目的としたシナリオを模倣する。 パラメータは7Bから405Bまで様々である。 詳細な分析では、TestGenEvalの総合的なテスト生成性能評価への貢献を強調した。 特に、モデルは高いカバレッジテストスイートを生成するのに苦労しており、最高のモデルであるGPT-4oは平均35.2%のカバレッジしか達成していない。 これは主に、実行に関する推論に苦労するモデルと、複雑なコードパスに対処する際のアサーションエラーが原因である。

Code generation models can help improve many common software tasks ranging from code completion to defect prediction. Most of the existing benchmarks for code generation LLMs focus on code authoring or code completion. Surprisingly, there has been far less effort dedicated to benchmarking software testing, despite the strong correlation between well-tested software and effective bug detection. To address this gap, we create and release TestGenEval, a large-scale benchmark to measure test generation performance. Based on SWEBench, TestGenEval comprises 68,647 tests from 1,210 code and test file pairs across 11 well-maintained Python repositories. It covers initial tests authoring, test suite completion, and code coverage improvements. Test authoring simulates the process of a developer writing a test suite from scratch, while test completion mimics the scenario where a developer aims to improve the coverage of an existing test suite. We evaluate several popular models, with sizes ranging from 7B to 405B parameters. Our detailed analysis highlights TestGenEval's contribution to a comprehensive evaluation of test generation performance. In particular, models struggle to generate high-coverage test suites, with the best model, GPT-4o, achieving an average coverage of only 35.2%. This is primarily due to models struggling to reason about execution, and their frequent assertion errors when addressing complex code paths.
翻訳日:2024-11-05 04:05:38 公開日:2024-10-01
# スマート薬局におけるドラッグデリバリーの最適化:適応型ロボティクス機構を組み合わせた多段階グラフピングネットワークの新しい枠組み

Optimizing Drug Delivery in Smart Pharmacies: A Novel Framework of Multi-Stage Grasping Network Combined with Adaptive Robotics Mechanism ( http://arxiv.org/abs/2410.00753v1 )

ライセンス: Link先を確認
Rui Tang, Shirong Guo, Yuhang Qiu, Honghui Chen, Lujin Huang, Ming Yong, Linfu Zhou, Liquan Guo, (参考訳) ロボットベースのスマート薬局は、現代の医療システムにとって不可欠であり、効率的な薬物デリバリーを可能にしている。 しかし、様々な形状と重なり合う位置を持つ薬物のロボティクス処理において重要な課題があり、それ以前の研究では十分に対処されていない。 本稿では, ロボットアームのカオス的, 重なり合い, 様々な形状の薬物の把握能力を高めるために, 多段階把握ネットワークと適応型ロボット工学機構を組み合わせた新しい枠組みを提案する。 このフレームワークは、改良されたSuper-Resolution Convolutional Neural Network (SRCNN)アルゴリズムを用いて、まず前処理を行い、次に、提案したYOLOv5+E-A-SPPFCSPC+BIFPNC (YOLO-EASB)インスタンスセグメンテーションアルゴリズムを用いて、正確な薬物セグメンテーションを行った。 セグメンテーションマスクの完全性を評価することにより、把握に最も適した薬物を決定することができる。 そして、これらのセグメンテーションされた薬物は、複雑な環境においても正確なピック動作を保証できる最適化された損失関数を持つ改良されたAdaptive Feature Fusion and Grasp-Aware Network (IAFFGA-Net)によって処理された。 ロボットの把握を制御するため,改良されたアリコロニーアルゴリズムと3~5~3の補間を組み合わせた時間最適ロボットアーム軌道計画アルゴリズムを開発した。 最後に,本システムは適応型協調ロボットによって実装・検証され,様々な生産環境やタスク要求に応じて動的に調整される。 実験により、スマート薬局業務の最適化における多段階把握ネットワークの優位性を示すとともに、その顕著な適応性と実用性を示す。

Robots-based smart pharmacies are essential for modern healthcare systems, enabling efficient drug delivery. However, a critical challenge exists in the robotic handling of drugs with varying shapes and overlapping positions, which previous studies have not adequately addressed. To enhance the robotic arm's ability to grasp chaotic, overlapping, and variously shaped drugs, this paper proposed a novel framework combining a multi-stage grasping network with an adaptive robotics mechanism. The framework first preprocessed images using an improved Super-Resolution Convolutional Neural Network (SRCNN) algorithm, and then employed the proposed YOLOv5+E-A-SPPFCSPC+BIFPNC (YOLO-EASB) instance segmentation algorithm for precise drug segmentation. The most suitable drugs for grasping can be determined by assessing the completeness of the segmentation masks. Then, these segmented drugs were processed by our improved Adaptive Feature Fusion and Grasp-Aware Network (IAFFGA-Net) with the optimized loss function, which ensures accurate picking actions even in complex environments. To control the robot grasping, a time-optimal robotic arm trajectory planning algorithm that combines an improved ant colony algorithm with 3-5-3 interpolation was developed, further improving efficiency while ensuring smooth trajectories. Finally, this system was implemented and validated within an adaptive collaborative robot setup, which dynamically adjusts to different production environments and task requirements. Experimental results demonstrate the superiority of our multi-stage grasping network in optimizing smart pharmacy operations, while also showcasing its remarkable adaptability and effectiveness in practical applications.
翻訳日:2024-11-05 04:05:38 公開日:2024-10-01
# 硬度キャラクタリゼーションによる表データのターゲット合成データ生成

Targeted synthetic data generation for tabular data via hardness characterization ( http://arxiv.org/abs/2410.00759v1 )

ライセンス: Link先を確認
Tommaso Ferracci, Leonie Tabea Goldmann, Anton Hinel, Francesco Sanna Passino, (参考訳) 合成データ生成は、希少データや低品質データの文脈でモデル性能と堅牢性を改善することに成功している。 統計学的に有益かつ有害な観測を識別するために,データ評価フレームワークを用いて,高価値なトレーニングポイントのみを生成する新しい拡張パイプラインを導入する。 まず,Shapleyをベースとしたデータ評価手法が,難易度特徴化タスクにおける学習ベースの手法と相容れない性能を示すとともに,理論的・計算的優位性も有することを示す。 そして, シミュレーションデータおよび大規模信用デフォルト予測タスクにおいて, 最難点で訓練された合成データ生成装置が, 目標外データ増大よりも優れていることを示す。 特に,本手法はサンプル外予測の精度を向上し,非ターゲット法に比べて計算効率が向上する。

Synthetic data generation has been proven successful in improving model performance and robustness in the context of scarce or low-quality data. Using the data valuation framework to statistically identify beneficial and detrimental observations, we introduce a novel augmentation pipeline that generates only high-value training points based on hardness characterization. We first demonstrate via benchmarks on real data that Shapley-based data valuation methods perform comparably with learning-based methods in hardness characterisation tasks, while offering significant theoretical and computational advantages. Then, we show that synthetic data generators trained on the hardest points outperform non-targeted data augmentation on simulated data and on a large scale credit default prediction task. In particular, our approach improves the quality of out-of-sample predictions and it is computationally more efficient compared to non-targeted methods.
翻訳日:2024-11-05 04:05:38 公開日:2024-10-01
# DeepAerialMapper:高度自動走行車のためのディープラーニングに基づく半自動HDマップ作成

DeepAerialMapper: Deep Learning-based Semi-automatic HD Map Creation for Highly Automated Vehicles ( http://arxiv.org/abs/2410.00769v1 )

ライセンス: Link先を確認
Robert Krajewski, Huijo Kim, (参考訳) 高精細地図(HDマップ)は、高度自動車両の開発、安全性検証、運用において重要な役割を担っている。 道路セグメントから最新のセンサデータを効率よく収集し,これらから正確な地図を得ることは,HDマップ作成における重要な課題である。 専用の測定車両やシリーズ車両からのクラウドソースデータなどの一般的な手法は、商業的生存可能性の制限に直面していることが多い。 高解像度の空中画像は費用対効果や無料の代替手段を提供するが、地図化にはかなりの手作業と時間を要する。 本稿では,高解像度空中画像からHDマップを作成するための半自動手法を提案する。 提案手法では, ニューラルネットワークを訓練して, 空中画像をHDマップに関連するクラスに意味的に分割する。 得られたセグメンテーションは階層的に後処理され、可視な道路要素の原型HDマップを生成する。 マップをLanelet2フォーマットにエクスポートすることで、標準ツールを使用してさまざまなユースケースを簡単に拡張できる。 本手法を訓練し,評価するために,ドイツにおける都市道路セグメントの公共空間画像を用いたデータセットを作成した。 評価では,車線標識と道路境界の自動マッピングを96%以上の精度で達成した。 私たちのメソッドのソースコードはhttps://github.com/RobertKrajewski/DeepAerialMapper.comで公開されています。

High-definition maps (HD maps) play a crucial role in the development, safety validation, and operation of highly automated vehicles. Efficiently collecting up-to-date sensor data from road segments and obtaining accurate maps from these are key challenges in HD map creation. Commonly used methods, such as dedicated measurement vehicles and crowd-sourced data from series vehicles, often face limitations in commercial viability. Although high-resolution aerial imagery offers a cost-effective or even free alternative, it requires significant manual effort and time to transform it into maps. In this paper, we introduce a semi-automatic method for creating HD maps from high-resolution aerial imagery. Our method involves training neural networks to semantically segment aerial images into classes relevant to HD maps. The resulting segmentation is then hierarchically post-processed to generate a prototypical HD map of visible road elements. Exporting the map to the Lanelet2 format allows easy extension for different use cases using standard tools. To train and evaluate our method, we created a dataset using public aerial imagery of urban road segments in Germany. In our evaluation, we achieved an automatic mapping of lane markings and road borders with a recall and precision exceeding 96%. The source code for our method is publicly available at https://github.com/RobertKrajewski/DeepAerialMapper.
翻訳日:2024-11-05 04:05:38 公開日:2024-10-01
# 協調型プロンプティングによるビデオ質問応答のための大規模言語モデルの構築

Empowering Large Language Model for Continual Video Question Answering with Collaborative Prompting ( http://arxiv.org/abs/2410.00771v1 )

ライセンス: Link先を確認
Chen Cai, Zheng Wang, Jianjun Gao, Wenyang Liu, Ye Lu, Runzhong Zhang, Kim-Hui Yap, (参考訳) 近年、オンラインビデオコンテンツの急速な増加は、固定データセットでトレーニングされた静的ビデオ質問回答(VideoQA)モデルの限界を浮き彫りにしている。 本稿では,連続学習フレームワークにおけるビデオQAの新たな課題を探求し,重要な課題を実証的に特定する。 この問題に対処するために,特定の質問制約の促進,知識獲得の促進,視覚的時間的認識の促進を統合したコラボレーティブ・プロンプト(ColPro)を提案する。 これらのプロンプトは、ビデオQAにおけるテキスト質問コンテキスト、視覚的内容、およびビデオ時間ダイナミクスを捉えることを目的としている。 NExT-QAとDramaQAデータセットの実験結果から、ColProは既存のアプローチに比べて優れた性能を示し、NExT-QAでは55.14\%、DramaQAでは71.24\%の精度を実現し、実用的妥当性と有効性を強調した。

In recent years, the rapid increase in online video content has underscored the limitations of static Video Question Answering (VideoQA) models trained on fixed datasets, as they struggle to adapt to new questions or tasks posed by newly available content. In this paper, we explore the novel challenge of VideoQA within a continual learning framework, and empirically identify a critical issue: fine-tuning a large language model (LLM) for a sequence of tasks often results in catastrophic forgetting. To address this, we propose Collaborative Prompting (ColPro), which integrates specific question constraint prompting, knowledge acquisition prompting, and visual temporal awareness prompting. These prompts aim to capture textual question context, visual content, and video temporal dynamics in VideoQA, a perspective underexplored in prior research. Experimental results on the NExT-QA and DramaQA datasets show that ColPro achieves superior performance compared to existing approaches, achieving 55.14\% accuracy on NExT-QA and 71.24\% accuracy on DramaQA, highlighting its practical relevance and effectiveness.
翻訳日:2024-11-05 04:05:38 公開日:2024-10-01
# 自己指導型学習における一般化と因果説明について

On the Generalization and Causal Explanation in Self-Supervised Learning ( http://arxiv.org/abs/2410.00772v1 )

ライセンス: Link先を確認
Wenwen Qiang, Zeen Song, Ziyin Gu, Jiangmeng Li, Changwen Zheng, Fuchun Sun, Hui Xiong, (参考訳) 自己教師付き学習(SSL)手法はラベルのないデータから学習し、下流タスクで高い一般化性能を達成する。 しかし、トレーニングデータに過度に適合し、新しいタスクに適応する能力を失うこともある。 この現象を解明するために,我々は様々なSSL手法とデータセットの実験を行い,(1)後続のレイヤやエポックにおいて過度にオーバーフィッティングが発生する一方で,すべてのエポックにおいて早期のレイヤで特徴を学習する。(2)コードレートの低減は,SSLモデルにおける過度なオーバーフィッティングの度合いを測定する指標として利用できる。 これらの観測に基づいて,初期層と最終層の特徴分布を整列させて,事前学習した特徴抽出器の過度な適合を緩和し,最終層出力の符号化率を最大化するプラグアンドプレイ方式Undoing Memorization Mechanism (UMM)を提案する。 UMMの学習プロセスは二段階最適化プロセスである。 UMMの因果解析を行い、UMMが事前学習した特徴抽出器が過度に適合し、一般化を回復するのにどう役立つかを説明する。 また、UMMは、様々な下流タスクにおけるSSLメソッドの一般化性能を著しく向上することを示した。

Self-supervised learning (SSL) methods learn from unlabeled data and achieve high generalization performance on downstream tasks. However, they may also suffer from overfitting to their training data and lose the ability to adapt to new tasks. To investigate this phenomenon, we conduct experiments on various SSL methods and datasets and make two observations: (1) Overfitting occurs abruptly in later layers and epochs, while generalizing features are learned in early layers for all epochs; (2) Coding rate reduction can be used as an indicator to measure the degree of overfitting in SSL models. Based on these observations, we propose Undoing Memorization Mechanism (UMM), a plug-and-play method that mitigates overfitting of the pre-trained feature extractor by aligning the feature distributions of the early and the last layers to maximize the coding rate reduction of the last layer output. The learning process of UMM is a bi-level optimization process. We provide a causal analysis of UMM to explain how UMM can help the pre-trained feature extractor overcome overfitting and recover generalization. We also demonstrate that UMM significantly improves the generalization performance of SSL methods on various downstream tasks.
翻訳日:2024-11-05 04:05:38 公開日:2024-10-01
# BabelBench: マルチモーダルおよびマルチ構造化データのコード駆動分析のためのOmniベンチマーク

BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data ( http://arxiv.org/abs/2410.00773v1 )

ライセンス: Link先を確認
Xuwu Wang, Qiwen Cui, Yunzhe Tao, Yiran Wang, Ziwei Chai, Xiaotian Han, Boyi Liu, Jianbo Yuan, Jing Su, Guoyin Wang, Tingkai Liu, Liyu Chen, Tianyi Liu, Tao Sun, Yufeng Zhang, Sirui Zheng, Quanzeng You, Yang Yang, Hongxia Yang, (参考訳) 大規模言語モデル(LLM)は、特に複雑なデータ型を扱う際に、様々な領域でますます重要になっている。 この中には、ChartQAやChatGPT-Adaが示すような構造化データ処理や、Visual Question Answering (VQA)に見られるようなマルチモーダルな非構造化データ処理が含まれる。 これらの地域は産業と学術の両方から大きな注目を集めている。 それにもかかわらず、これらの多様なデータハンドリングシナリオに対する統一的な評価方法論はいまだに存在しない。 コード実行によるマルチモーダルなマルチ構造化データ管理におけるLCMの習熟度を評価する,革新的なベンチマークフレームワークであるBabelBenchを紹介する。 BabelBenchは、知覚、常識推論、論理推論などのタスクでモデルに挑戦する247の精巧にキュレートされた問題からなるデータセットを組み込んでいる。 マルチモーダル理解、構造化データ処理、コード生成の基本的な機能に加えて、これらのタスクは探索、計画、推論、デバッグの高度な機能を必要とする。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。 包括的分析から得られた洞察は、コミュニティ内の将来の研究に貴重なガイダンスを提供する。 ベンチマークデータはhttps://github.com/FFD8FFE/babelbenchで確認できる。

Large language models (LLMs) have become increasingly pivotal across various domains, especially in handling complex data types. This includes structured data processing, as exemplified by ChartQA and ChatGPT-Ada, and multimodal unstructured data processing as seen in Visual Question Answering (VQA). These areas have attracted significant attention from both industry and academia. Despite this, there remains a lack of unified evaluation methodologies for these diverse data handling scenarios. In response, we introduce BabelBench, an innovative benchmark framework that evaluates the proficiency of LLMs in managing multimodal multistructured data with code execution. BabelBench incorporates a dataset comprising 247 meticulously curated problems that challenge the models with tasks in perception, commonsense reasoning, logical reasoning, and so on. Besides the basic capabilities of multimodal understanding, structured data processing as well as code generation, these tasks demand advanced capabilities in exploration, planning, reasoning and debugging. Our experimental findings on BabelBench indicate that even cutting-edge models like ChatGPT 4 exhibit substantial room for improvement. The insights derived from our comprehensive analysis offer valuable guidance for future research within the community. The benchmark data can be found at https://github.com/FFD8FFE/babelbench.
翻訳日:2024-11-05 04:05:38 公開日:2024-10-01
# 不確かさ駆動予測を用いた適応運動生成

Adaptive Motion Generation Using Uncertainty-Driven Foresight Prediction ( http://arxiv.org/abs/2410.00774v1 )

ライセンス: Link先を確認
Hyogo Hiruma, Hiroshi Ito, Tetusya Ogata, (参考訳) 環境の不確実性は、現実のロボットタスクを実行する際には、長年、扱いにくい特徴だった。 これは、不確実性は手動のスクリプティングではカバーできない予期せぬ観察を生成するためである。 学習に基づくロボット制御手法は、未知の状況に対して柔軟な動作を生成するための有望なアプローチであるが、決定論的性質のため、いまだ不確実性に苦しむ傾向にある。 このような条件下で目標タスクを適応的に実行するためには、ロボット制御モデルは、起こりうる不確実性を正確に理解し、そのような不確実性を最小化する最適なアクションを爆発的に導き出す必要がある。 本稿では,動的内部シミュレーションを用いたフォレスト予測を用いた既存の予測学習に基づくロボット制御手法を拡張した。 フォレストモジュールは、複数の可能性のある未来をサンプリングすることでモデルの隠れた状態を洗練し、より低い未来の不確実性に繋がったものに置き換えられる。 ドアオープニング作業において,モデルの適応性を評価した。 ドアは押したり引いたり、滑ったりすることで開けることができるが、ロボットはどの方向を視覚的に区別することができず、ハエに適応する必要がある。 その結果,提案モデルではドアとの相互作用により動作が適応的に分岐し,従来の手法では安定に分岐しなかった。 RNN隠蔽状態のリアプノフ指数を用いて,タスク実行中の各ステップの発散を反映したモデル解析を行った。 その結果,フォレストモジュールは将来の結果を考えるためにモデルに偏りがあることが示され,その結果,ロボットコントローラの方針に不確実性を埋め込む結果となった。 これは、探索中の多様な動きの導出を示す適応的な行動を実装するのに有用である。

Uncertainty of environments has long been a difficult characteristic to handle, when performing real-world robot tasks. This is because the uncertainty produces unexpected observations that cannot be covered by manual scripting. Learning based robot controlling methods are a promising approach for generating flexible motions against unknown situations, but still tend to suffer under uncertainty due to its deterministic nature. In order to adaptively perform the target task under such conditions, the robot control model must be able to accurately understand the possible uncertainty, and to exploratively derive the optimal action that minimizes such uncertainty. This paper extended an existing predictive learning based robot control method, which employ foresight prediction using dynamic internal simulation. The foresight module refines the model's hidden states by sampling multiple possible futures and replace with the one that led to the lower future uncertainty. The adaptiveness of the model was evaluated on a door opening task. The door can be opened either by pushing, pulling, or sliding, but robot cannot visually distinguish which way, and is required to adapt on the fly. The results showed that the proposed model adaptively diverged its motion through interaction with the door, whereas conventional methods failed to stably diverge. The models were analyzed on Lyapunov exponents of RNN hidden states which reflect the possible divergence at each time step during task execution. The result indicated that the foresight module biased the model to consider future consequences, which lead to embedding uncertainties at the policy of the robot controller, rather than the resultant observation. This is beneficial for implementing adaptive behaviors, which indices derivation of diverse motion during exploration.
翻訳日:2024-11-05 04:05:38 公開日:2024-10-01
# ヘイトをデコードする: ヘイトスピーチに対する言語モデルの反応を探る

Decoding Hate: Exploring Language Models' Reactions to Hate Speech ( http://arxiv.org/abs/2410.00775v1 )

ライセンス: Link先を確認
Paloma Piot, Javier Parapar, (参考訳) ヘイトスピーチは、しばしば軽蔑的なポストとして表される、オンライン表現の有害な形態である。 これはデジタル環境において重大なリスクである。 LLM(Large Language Models)の台頭に伴い、大量の未修正インターネットデータをトレーニングしていることから、ヘイトスピーチパターンを再現する可能性に懸念が持たれている。 LLMがヘイトスピーチにどのように反応するかを理解することは、デプロイメントの責任を負う上で重要です。 しかし,LLMのヘイトスピーチに対する行動は限定的に比較されている。 本稿では,7つの最先端LPM(LLaMA 2, Vicuna, LLaMA 3, Mistral, GPT-3.5, GPT-4, Gemini Pro)のヘイトスピーチに対する反応について検討する。 質的な分析を通じて、これらのモデルが生み出す反応のスペクトルを明らかにし、ヘイトスピーチ入力を処理する能力を明らかにすることを目的とする。 また,LLMによるヘイトスピーチ生成を緩和するための戦略についても論じる。 最後に、政治的に正しい言語でフレーム化されたヘイトスピーチに対するモデルの反応について検討する。

Hate speech is a harmful form of online expression, often manifesting as derogatory posts. It is a significant risk in digital environments. With the rise of Large Language Models (LLMs), there is concern about their potential to replicate hate speech patterns, given their training on vast amounts of unmoderated internet data. Understanding how LLMs respond to hate speech is crucial for their responsible deployment. However, the behaviour of LLMs towards hate speech has been limited compared. This paper investigates the reactions of seven state-of-the-art LLMs (LLaMA 2, Vicuna, LLaMA 3, Mistral, GPT-3.5, GPT-4, and Gemini Pro) to hate speech. Through qualitative analysis, we aim to reveal the spectrum of responses these models produce, highlighting their capacity to handle hate speech inputs. We also discuss strategies to mitigate hate speech generation by LLMs, particularly through fine-tuning and guideline guardrailing. Finally, we explore the models' responses to hate speech framed in politically correct language.
翻訳日:2024-11-05 04:05:38 公開日:2024-10-01
# 糖尿病網膜症における局所的・局所的自己監督的表現学習

Local-to-Global Self-Supervised Representation Learning for Diabetic Retinopathy Grading ( http://arxiv.org/abs/2410.00779v1 )

ライセンス: Link先を確認
Mostafa Hajighasemloua, Samad Sheikhaei, Hamid Soltanian-Zadeha, (参考訳) 人工知能アルゴリズムは、過去10年間に画像分類とセグメンテーション能力を実証してきた。 しかし、人工知能アルゴリズムは実際の臨床データに対してシミュレーションに使用されるものよりも性能が低い。 本研究では,自己指導型学習と知識蒸留を用いた新しいハイブリッド学習モデルを提案する。 ViTで使用される自己保持機構とトークンは、ハイブリッドモデルで使用される局所言語学習アプローチに加えて、提案アルゴリズムにより、画像から高次元で高品質な特徴空間を抽出することができる。 医療画像から特徴空間を分類・抽出するニューラルネットワークの能力を実証するために、糖尿病網膜症の画像、特にEyePACSデータセットのデータセットに使用します。 このデータセットは、他の医療画像よりも複雑な構造であり、損傷した領域に関して困難である。 本研究で初めて、このデータセットを分類するために自己教師付き学習と知識蒸留が使用される。 我々のアルゴリズムでは、自己教師型学習および知識蒸留モデルの中で初めて、テストデータセットがトレーニングデータセットよりも50%大きい。 多くの研究とは異なり、データセットから画像を取り除いていない。 最後に, 線形分類器では79.1%, マルチクラス分類では74.36%の精度を達成した。 類似の最先端モデルと比較すると,より高精度で効率的な表現空間が得られた。

Artificial intelligence algorithms have demonstrated their image classification and segmentation ability in the past decade. However, artificial intelligence algorithms perform less for actual clinical data than those used for simulations. This research aims to present a novel hybrid learning model using self-supervised learning and knowledge distillation, which can achieve sufficient generalization and robustness. The self-attention mechanism and tokens employed in ViT, besides the local-to-global learning approach used in the hybrid model, enable the proposed algorithm to extract a high-dimensional and high-quality feature space from images. To demonstrate the proposed neural network's capability in classifying and extracting feature spaces from medical images, we use it on a dataset of Diabetic Retinopathy images, specifically the EyePACS dataset. This dataset is more complex structurally and challenging regarding damaged areas than other medical images. For the first time in this study, self-supervised learning and knowledge distillation are used to classify this dataset. In our algorithm, for the first time among all self-supervised learning and knowledge distillation models, the test dataset is 50% larger than the training dataset. Unlike many studies, we have not removed any images from the dataset. Finally, our algorithm achieved an accuracy of 79.1% in the linear classifier and 74.36% in the k-NN algorithm for multiclass classification. Compared to a similar state-of-the-art model, our results achieved higher accuracy and more effective representation spaces.
翻訳日:2024-11-05 03:55:54 公開日:2024-10-01
# サイクロトミック亜拡張の無限族に対する高速乗算とPLWE-RLWE等価性

Fast Multiplication and the PLWE-RLWE Equivalence for an Infinite Family of Cyclotomic Subextensions ( http://arxiv.org/abs/2410.00792v1 )

ライセンス: Link先を確認
Joonas Ahola, Iván Blanco-Chacón, Wilmar Bolaños, Antti Haavikko, Camilla Hollanti, Rodrigo Martín Sánchez-Ledesma, (参考訳) RLWE(Ring Learning With Errors)とPLWE(Polynomial Learning With Errors)の2^r 3^s$-th cyclotomic field for $r \geq 3$ and $s \geq 1$。 さらに、これらの部分体の整数環における2つの要素の積を計算するための高速アルゴリズムについて述べる。 この乗算アルゴリズムは、高速離散コサイン変換(DCT)を利用するため、フィールドの次元において準線形複雑性を持つ。 我々のアプローチは、2つの入力多項式がチェビシェフ様多項式の基底で与えられると仮定する。 この仮定を検証するために、パワー基底からチェビシェフ基底への基底の変化を$\mathcal{O}(n \log n)$算術演算で計算できることを証明した。 最後に、暗号サイズの妥当なパラメータ集合に対して、この脆弱性を$p$-th cyclotomic field に対する攻撃に対して、最大で$4p$-th cyclotomic field の最大実数部分拡張に対してヒューリスティックかつ理論的に比較する。

We prove the equivalence between the Ring Learning With Errors (RLWE) and the Polynomial Learning With Errors (PLWE) problems for the maximal totally real subfield of the $2^r 3^s$-th cyclotomic field for $r \geq 3$ and $s \geq 1$. Moreover, we describe a fast algorithm for computing the product of two elements in the ring of integers of these subfields. This multiplication algorithm has quasilinear complexity in the dimension of the field, as it makes use of the fast Discrete Cosine Transform (DCT). Our approach assumes that the two input polynomials are given in a basis of Chebyshev-like polynomials, in contrast to the customary power basis. To validate this assumption, we prove that the change of basis from the power basis to the Chebyshev-like basis can be computed with $\mathcal{O}(n \log n)$ arithmetic operations, where $n$ is the problem dimension. Finally, we provide a heuristic and theoretical comparison of the vulnerability to some attacks for the $p$-th cyclotomic field versus the maximal totally real subextension of the $4p$-th cyclotomic field for a reasonable set of parameters of cryptographic size.
翻訳日:2024-11-05 03:55:54 公開日:2024-10-01
# 入力凸ニューラルネットを用いた高速で信頼性の高い$N-k$並行スクリーニング

Fast and Reliable $N-k$ Contingency Screening with Input-Convex Neural Networks ( http://arxiv.org/abs/2410.00796v1 )

ライセンス: Link先を確認
Nicolas Christianson, Wenqi Cui, Steven Low, Weiwei Yang, Baosen Zhang, (参考訳) 電力系統のオペレータは、グリッドの停止や緊急時にディスパッチ決定が可能であることを保証し、カスケード障害を防止し、信頼性の高い運用を保証する必要がある。 しかしながら、$k$グリッドコンポーネントの同時障害が可能なすべての$N - k$コンセントの実現可能性をチェックすることは、小さな$k$でも計算に難航し、システムオペレーターはヒューリスティックなスクリーニング手法を使わなければならない。 不確実性の増加とシステムの振る舞いの変化のため、ヒューリスティックリストにはすべての関連する事象が含まれていない可能性がある。 本研究では,入力凸ニューラルネットワーク (ICNN) を並列性スクリーニングに用いることを提案する。 ICNNの信頼性は凸最適化問題を解くことで決定できることを示すとともに、この問題をトレーニング中に微分可能な最適化層として用いたモデル重みをスケーリングすることにより、データ駆動で信頼性を保証できるICNN分類器を学習できることを示す。 すなわち、この手法はゼロ偽陰性率を保証できる。 IEEE 39-busテストネットワークのケーススタディにおいて,本手法を実証的に検証した。

Power system operators must ensure that dispatch decisions remain feasible in case of grid outages or contingencies to prevent cascading failures and ensure reliable operation. However, checking the feasibility of all $N - k$ contingencies -- every possible simultaneous failure of $k$ grid components -- is computationally intractable for even small $k$, requiring system operators to resort to heuristic screening methods. Because of the increase in uncertainty and changes in system behaviors, heuristic lists might not include all relevant contingencies, generating false negatives in which unsafe scenarios are misclassified as safe. In this work, we propose to use input-convex neural networks (ICNNs) for contingency screening. We show that ICNN reliability can be determined by solving a convex optimization problem, and by scaling model weights using this problem as a differentiable optimization layer during training, we can learn an ICNN classifier that is both data-driven and has provably guaranteed reliability. Namely, our method can ensure a zero false negative rate. We empirically validate this methodology in a case study on the IEEE 39-bus test network, observing that it yields substantial (10-20x) speedups while having excellent classification accuracy.
翻訳日:2024-11-05 03:55:54 公開日:2024-10-01
# 重力波のための軌道原子センサー

Orbital atomic sensor for gravitational waves ( http://arxiv.org/abs/2410.00803v1 )

ライセンス: Link先を確認
Xinyang Yu, W. Vincent Liu, Xiaopeng Li, (参考訳) 重力波科学は一般相対性と重力を超えた研究を変革する。 検出された信号は、銀河のカタクリスティック事象やエキゾチック物体の性質を明らかにするだけでなく、中性子星における状態方程式と色の超伝導渦アライメントのモデル、宇宙ダークマターの分布、そして素粒子の標準モデルを超えた新しい物理モデルとしての通常の物質とのそれらの特性結合のモデルをテストする。 これらの線に沿って進むには測定感度が不可欠である。 急速に発展しているフロンティアの1つは、重力波検出器に応用された量子強化干渉法である。 LIGO、Virgo、KAGRAによって達成された進歩は、エキサイティングな展望をもたらす。 そこで我々は,通常のLIGO装置で受信した重力波信号を位相感受性の絡み合った状態に投射するために,超低温の原子格子に超低温のボース・アインシュタイン凝縮体を用いた軌道原子センサを導入する。 シミュレーションデータによると、LIGOの量子ノイズに対する検出感度は、キー周波数範囲で約1桁向上している。 この進歩により、検出体積の3次の増加が可能となり、重力波を用いて暗黒物質やブラックホールを検出できる可能性が大幅に向上した。

Gravitational wave science transforms research beyond general relativity and gravity. The signals detected not only reveal the nature of cataclysmic events and exotic objects in galaxies, but also test the models for the equation of state and color superconducting vortex alignment in neutron stars, as well as for the distribution of cosmological dark matter and their characteristic coupling with ordinary matter as new physics beyond the standard model of elementary particles. Measurement sensitivity is crucial to advance along those lines. One of the rapidly developing frontiers is quantum enhanced interferometry applied into the gravitational wave detectors. Progress achieved by LIGO, Virgo and KAGRA detectors brings exciting prospects. Here, we introduce an orbital atomic sensor using a squeezed $p$-orbital Bose-Einstein condensate in an ultracold atomic optical lattice to project the gravitational wave signal received by a usual LIGO setup into a phase-sensitive entangled state. Simulation data show the detection sensitivity improves over the quantum noise of LIGO by approximately one order of magnitude in key frequency ranges. This advance enables about three-order-of-magnitude increase in detection volume, significantly advancing the potential of using gravitational waves to detect dark matter and black holes.
翻訳日:2024-11-05 03:55:54 公開日:2024-10-01
# ジョセフソン接合レーザーにおける多粒子絡み

Multipartite entanglement in a Josephson Junction Laser ( http://arxiv.org/abs/2410.00805v1 )

ライセンス: Link先を確認
Ben Lang, Andrew D. Armour, (参考訳) モデルジョセフソンフォトニクスにおける絡み合いの解析では、dc電圧バイアスのジョセフソン接合がキャビティモードの集合を結合し、それらをマイクロ波光子で蓄積する。 近似2次ハミルトニアンモデルを用いて、系のジョセフソンエネルギーが増大するにつれてモードの間に発達するガウス的絡み合いを研究する。 システム内のモードは、与えられたブロック内のモード間での双方向の絡み合いによって、一連のブロックに該当することがわかった。 与えられたブロック内のモード間の三部絡み合いも広く行われているが、ジョセフソンエネルギーの特定の範囲に限定されている。 このシステムは、c励起を必要とせずに、量子技術において重要な資源であるマルチモードマイクロ波絡み込みを生成する代替ルートを提供することができる。

We analyse the entanglement in a model Josephson photonics system in which a dc voltage-biased Josephson junction couples a collection of cavity modes and populates them with microwave photons. Using an approximate quadratic Hamiltonian model, we study the Gaussian entanglement that develops between the modes as the Josephson energy of the system is increased. We find that the modes in the system fall into a series of blocks, with bipartite entanglement generated between modes within a given block. Tripartite entanglement between modes within a given block is also widespread, though it is limited to certain ranges of the Josephson energy. The system could provide an alternative route to generating multimode microwave entanglement, an important resource in quantum technologies, without the need for ac excitation.
翻訳日:2024-11-05 03:55:54 公開日:2024-10-01
# WiGNet: ウィンドウ化されたビジョングラフニューラルネットワーク

WiGNet: Windowed Vision Graph Neural Network ( http://arxiv.org/abs/2410.00807v1 )

ライセンス: Link先を確認
Gabriele Spadaro, Marco Grangetto, Attilio Fiandrotti, Enzo Tartaglione, Jhony H. Giraldo, (参考訳) 近年、グラフニューラルネットワーク(GNN)は、ビジョンGNN(ViG)のようなアーキテクチャがいくつかのコンピュータビジョンタスクで最先端のパフォーマンスを達成するなど、様々な現実の課題に強力な適応性を示している。 しかし、その実用性は、画像サイズと2次スケールのグラフを構築する際の計算複雑性によって妨げられている。 本稿では,効率的な画像処理のための新しいWindowed Vision Graph Neural Network(WiGNet)モデルを提案する。 WiGNetは、イメージをウィンドウに分割し、各ウィンドウ内にグラフを構築することで、以前の作業とは異なる戦略を模索している。 そこで本モデルでは,典型的な2次元畳み込みや自己認識機構の代わりに,グラフ畳み込みを用いる。 WiGNetは、大きな画像サイズに対する計算とメモリの複雑さを効果的に管理する。 提案手法をImageNet-1kベンチマークデータセットで評価し,高解像度画像を用いた下流タスクとしてCelebA-HQデータセットを用いてWiGNetの適応性を検証する。 どちらのシナリオでも,メモリと計算の複雑さを保ちながら,従来のビジョンGNNと比較して競合的な結果が得られる。 WiGNetは、現実世界のアプリケーションにビジョンGNNを配置するための有望なソリューションを提供する。 コードをhttps://github.com/EIDOSLAB/WiGNet.comで公開しました。

In recent years, Graph Neural Networks (GNNs) have demonstrated strong adaptability to various real-world challenges, with architectures such as Vision GNN (ViG) achieving state-of-the-art performance in several computer vision tasks. However, their practical applicability is hindered by the computational complexity of constructing the graph, which scales quadratically with the image size. In this paper, we introduce a novel Windowed vision Graph neural Network (WiGNet) model for efficient image processing. WiGNet explores a different strategy from previous works by partitioning the image into windows and constructing a graph within each window. Therefore, our model uses graph convolutions instead of the typical 2D convolution or self-attention mechanism. WiGNet effectively manages computational and memory complexity for large image sizes. We evaluate our method in the ImageNet-1k benchmark dataset and test the adaptability of WiGNet using the CelebA-HQ dataset as a downstream task with higher-resolution images. In both of these scenarios, our method achieves competitive results compared to previous vision GNNs while keeping memory and computational complexity at bay. WiGNet offers a promising solution toward the deployment of vision GNNs in real-world applications. We publicly released the code at https://github.com/EIDOSLAB/WiGNet.
翻訳日:2024-11-05 03:55:54 公開日:2024-10-01
# 言語神経科学におけるデータ駆動モデルと科学理論を橋渡しするための生成フレームワーク

A generative framework to bridge data-driven models and scientific theories in language neuroscience ( http://arxiv.org/abs/2410.00812v1 )

ライセンス: Link先を確認
Richard Antonello, Chandan Singh, Shailee Jain, Aliyah Hsu, Jianfeng Gao, Bin Yu, Alexander Huth, (参考訳) 大規模言語モデルからの表現は、言語刺激に対するBOLD fMRI応答を予測するのに非常に効果的である。 しかし、これらの表現はほとんど不透明であり、言語刺激のどの特徴が各脳領域の反応を駆動するかは不明である。 本稿では,脳内の言語選択性の簡潔な説明を生成するための枠組みである生成的説明媒介検証について述べる。 このアプローチは、個々のボクセルと関心の皮質領域(ROI)の両方で選択性を説明することに成功している。 説明精度は,基礎となる統計モデルの予測力と安定性と密接に関連していることを示す。 これらの結果から, LLMはデータ駆動モデルと形式的科学理論とのギャップを埋めるのに有効であることが示された。

Representations from large language models are highly effective at predicting BOLD fMRI responses to language stimuli. However, these representations are largely opaque: it is unclear what features of the language stimulus drive the response in each brain area. We present generative explanation-mediated validation, a framework for generating concise explanations of language selectivity in the brain and then validating those explanations in follow-up experiments that use synthetic stimuli. This approach is successful at explaining selectivity both in individual voxels and cortical regions of interest (ROIs).We show that explanatory accuracy is closely related to the predictive power and stability of the underlying statistical models. These results demonstrate that LLMs can be used to bridge the widening gap between data-driven models and formal scientific theories.
翻訳日:2024-11-05 03:55:54 公開日:2024-10-01
# 散逸性量子状態形成における吸収状態相転移と長距離コヒーレンスの安定性

Absorbing State Phase Transitions and Stability of Long-Range Coherence in Dissipative Quantum State Preparation ( http://arxiv.org/abs/2410.00819v1 )

ライセンス: Link先を確認
Matthew Wampler, Nigel R. Cooper, (参考訳) 吸収状態自体が長距離位相コヒーレンスを有する純散逸型量子反応拡散モデルにおける吸収状態相転移について検討する。 このモデルは、(一般化された)W状態に対する散逸的な量子状態準備手順と見なすこともできる。 エラー」リンドブラッドジャンプ作用素はW状態を暗黒状態として保存するが、それでもシステムを切り離して位相遷移を誘導する。 生成プロトコルが弱い誤差量子ジャンプ率に対して脆弱あるいは堅牢である場合を見つけ, 相転移後のコヒーレンス残余が持続することを示す。

We investigate the absorbing state phase transition in a purely dissipative quantum reaction-diffusion model where the absorbing state itself has long range phase coherence. The model may also be viewed as a dissipative quantum state preparation procedure for the (generalized) W-state with errors. The 'error' Lindblad jump operators preserve the W-state as a dark state, but nonetheless act to decohere the system and induce the phase transition. We find cases where the preparation protocol is either fragile or robust against weak error quantum jump rates, and show that remnants of the coherence persist even after the phase transition to the decohering phase.
翻訳日:2024-11-05 03:55:54 公開日:2024-10-01
# Squeeze-and-rememberブロック

Squeeze-and-Remember Block ( http://arxiv.org/abs/2410.00823v1 )

ライセンス: Link先を確認
Rinor Cakaj, Jens Mehnert, Bin Yang, (参考訳) 畳み込みニューラルネットワーク(CNN)は多くの機械学習タスクにおいて重要である。 特徴を検出する畳み込み層、単一ニューロンの過度な信頼を回避するのに役立つドロップアウト層、機能の再利用を可能にする残留層である。 しかし、CNNは人間の脳の記憶に類似した動的な特徴保持機構を欠き、学習した情報を新しい文脈で使用する能力を制限する。 このギャップを埋めるために、我々はCNNに動的メモリライクな機能を与える新しいアーキテクチャユニットである"Squeeze-and-Remember"ブロック(SR)を導入する。 SRブロックはトレーニング中に重要な特徴を選択的に記憶し、推論中にこれらの特徴を適応的に再適用する。 これにより、文脈的に情報を得た予測を行うネットワークの能力が向上する。 ImageNetとCityscapesデータセットの実証的な結果は、SRブロックの有効性を示している。ResNet50に統合することで、Dropout2dだけでImageNet上のトップ1バリデーション精度が0.52%向上し、DeepLab v3では、CityscapesにおけるUnionに対する平均インターセクションが0.20%向上した。 これらの改善は計算オーバーヘッドを最小限に抑えて達成される。 このことは、画像処理タスクにおけるCNNの機能を強化するSRブロックの可能性を示している。

Convolutional Neural Networks (CNNs) are important for many machine learning tasks. They are built with different types of layers: convolutional layers that detect features, dropout layers that help to avoid over-reliance on any single neuron, and residual layers that allow the reuse of features. However, CNNs lack a dynamic feature retention mechanism similar to the human brain's memory, limiting their ability to use learned information in new contexts. To bridge this gap, we introduce the "Squeeze-and-Remember" (SR) block, a novel architectural unit that gives CNNs dynamic memory-like functionalities. The SR block selectively memorizes important features during training, and then adaptively re-applies these features during inference. This improves the network's ability to make contextually informed predictions. Empirical results on ImageNet and Cityscapes datasets demonstrate the SR block's efficacy: integration into ResNet50 improved top-1 validation accuracy on ImageNet by 0.52% over dropout2d alone, and its application in DeepLab v3 increased mean Intersection over Union in Cityscapes by 0.20%. These improvements are achieved with minimal computational overhead. This show the SR block's potential to enhance the capabilities of CNNs in image processing tasks.
翻訳日:2024-11-05 03:55:54 公開日:2024-10-01
# 媒介空間量子相関における非古典性の役割

The role of non-classicality in mediated spatial quantum correlations ( http://arxiv.org/abs/2410.00824v1 )

ライセンス: Link先を確認
Salvatore Raia, Giuseppe Di Pietra, Chiara Marletto, (参考訳) 非古典性の研究は、物理系の量子-古典的遷移を理解するために不可欠である。 最近、非古典性の証人が提案され、少なくとも2つの非可換変数の存在を意図した2つの量子プローブ間の量子相関を生成できるシステム(「仲介者」)の能力がリンクされている。 ここでは、プローブ間の量子相関の増大と媒質の可観測物の非可換性の度合いを定量的に関連付ける新しい不等式を提案する。 我々は、メディエータの様々な非古典性に対する不等式を完全量子から完全古典へ検証する。 この量子-古典遷移は、中間子に印加された位相-フリップチャネルを介してシミュレートされ、その変数の非可換性を効果的に還元する。 この結果は、非古典性を目撃する一般的な枠組みを提供し、相互作用力学の特異性を超えた本質的な性質(ヒルベルト空間次元や可観測可換作用素など)を通じてシステムの非古典性を定量化する。

The study of non-classicality is essential to understand the quantum-to-classical transition in physical systems. Recently a witness of non-classicality has been proposed, linking the ability of a system (``the mediator") to create quantum correlations between two quantum probes with its non-classicality, intended as the existence of at least two non-commuting variables. Here we propose a new inequality that quantitatively links the increase in quantum correlations between the probes to the degree of non-commutativity of the mediator's observables. We test the inequality for various degrees of non-classicality of the mediator, from fully quantum to fully classical. This quantum-to-classical transition is simulated via a phase-flip channel applied to the mediator, inducing an effective reduction of the non-commutativity of its variables. Our results provide a general framework for witnessing non-classicality, quantifying the non-classicality of a system via its intrinsic properties (such as its Hilbert space dimension and observable commutators) beyond the specifics of interaction dynamics.
翻訳日:2024-11-05 03:55:54 公開日:2024-10-01
# 高次元部分積分微分方程式の解法:有限式法

Solving High-Dimensional Partial Integral Differential Equations: The Finite Expression Method ( http://arxiv.org/abs/2410.00835v1 )

ライセンス: Link先を確認
Gareth Hardwick, Senwei Liang, Haizhao Yang, (参考訳) 本稿では,高次元部分積分微分方程式(PIDE)を解くための新しい有限式法(FEX)を提案する。 このアプローチは、オリジナルのFEXと、その固有のアドバンテージを新しい進歩で構築する。 1) 高次元関数近似における係数数を減少させる新しいパラメータグループ化法を提案する。 2) PIDE の積分項の評価の計算効率と精度を大幅に向上させるために,Taylor 系列近似法を実装した。 新しいFEX-PG法は,パラメータグループ化(PG)ステップのアルゴリズムへの付加を示すためにFEX-PGと表記され,高い精度と解釈可能な数値解を提供し,基礎となる解構造の直感的な理解を容易にする明示的な方程式である。 これらの特徴は、有限要素法(FEM)や有限差分法のような伝統的な手法や、深層学習に基づくアプローチでは欠落することが多い。 近年の進歩に対して,本手法をベンチマークするために,文献中のベンチマークPIDEを解決するために新しいFEX-PGを適用した。 高次元設定では、FEX-PGは強力で頑健な性能を示し、単一の精度マシンのエプシロンの順序で相対誤差を達成する。

In this paper, we introduce a new finite expression method (FEX) to solve high-dimensional partial integro-differential equations (PIDEs). This approach builds upon the original FEX and its inherent advantages with new advances: 1) A novel method of parameter grouping is proposed to reduce the number of coefficients in high-dimensional function approximation; 2) A Taylor series approximation method is implemented to significantly improve the computational efficiency and accuracy of the evaluation of the integral terms of PIDEs. The new FEX based method, denoted FEX-PG to indicate the addition of the parameter grouping (PG) step to the algorithm, provides both high accuracy and interpretable numerical solutions, with the outcome being an explicit equation that facilitates intuitive understanding of the underlying solution structures. These features are often absent in traditional methods, such as finite element methods (FEM) and finite difference methods, as well as in deep learning-based approaches. To benchmark our method against recent advances, we apply the new FEX-PG to solve benchmark PIDEs in the literature. In high-dimensional settings, FEX-PG exhibits strong and robust performance, achieving relative errors on the order of single precision machine epsilon.
翻訳日:2024-11-05 03:55:54 公開日:2024-10-01
# 公正性とプライバシ:非バイナリ保護属性のための新しいデータ前処理最適化フレームワーク

Towards Fairness and Privacy: A Novel Data Pre-processing Optimization Framework for Non-binary Protected Attributes ( http://arxiv.org/abs/2410.00836v1 )

ライセンス: Link先を確認
Manh Khoi Duong, Stefan Conrad, (参考訳) AIの不公平な結果の背後にある理由は、しばしばバイアス付きデータセットに根ざしている。 そこで本研究では,(非)バイナリ保護属性を含むデータセットをデバイアスすることで,公平性に対処するフレームワークを提案する。 このフレームワークは、遺伝的アルゴリズムのようなヒューリスティックな手法を用いて、記述された公平性目的を解決するための組合せ最適化問題を提案する。 このフレームワークは、特定の識別基準を最小限に抑えるデータサブセットを見つけることで、この問題に対処する。 ユーザ定義の設定によって、このフレームワークは、データ削除、合成データの追加、合成データの排他的使用など、さまざまなユースケースを可能にする。 特に合成データの排他的使用は、公正性を最適化しながらプライバシを保護するフレームワークの能力を高める。 包括的評価では、我々の枠組みの下では、遺伝的アルゴリズムが元のデータと比較して、より公平なデータセットを効果的に生成できることが示される。 以前の作業とは対照的に、フレームワークはメトリックおよびタスクに依存しないため、高い柔軟性を示し、バイナリまたは非バイナリ保護属性の両方に適用でき、効率的なランタイムを示す。

The reason behind the unfair outcomes of AI is often rooted in biased datasets. Therefore, this work presents a framework for addressing fairness by debiasing datasets containing a (non-)binary protected attribute. The framework proposes a combinatorial optimization problem where heuristics such as genetic algorithms can be used to solve for the stated fairness objectives. The framework addresses this by finding a data subset that minimizes a certain discrimination measure. Depending on a user-defined setting, the framework enables different use cases, such as data removal, the addition of synthetic data, or exclusive use of synthetic data. The exclusive use of synthetic data in particular enhances the framework's ability to preserve privacy while optimizing for fairness. In a comprehensive evaluation, we demonstrate that under our framework, genetic algorithms can effectively yield fairer datasets compared to the original data. In contrast to prior work, the framework exhibits a high degree of flexibility as it is metric- and task-agnostic, can be applied to both binary or non-binary protected attributes, and demonstrates efficient runtime.
翻訳日:2024-11-05 03:46:09 公開日:2024-10-01
# 正則化不均衡最適輸送によるスナップショットからの確率ダイナミクスの学習

Learning Stochastic Dynamics from Snapshots through Regularized Unbalanced Optimal Transport ( http://arxiv.org/abs/2410.00844v1 )

ライセンス: Link先を確認
Zhenyi Zhang, Tiejun Li, Peijie Zhou, (参考訳) 少ない時間分解スナップショットからのサンプルを使用して動的に再構築することは、自然科学と機械学習の両方において重要な問題である。 本稿では、正規化された不均衡な最適輸送(RUOT)を解き、観測されたスナップショットから連続的な不均衡な確率力学を推定するための新しいディープラーニング手法を提案する。 RUOTの形式に基づいて,本手法は,成長過程や死過程の事前知識や追加情報を必要とすることなく,これらのダイナミクスをモデル化し,データから直接学習することができる。 理論的には、RUOTとSchr\odingerブリッジの問題の関連について検討し、主要な課題と潜在的な解決策について議論する。 本手法の有効性は, 合成遺伝子制御ネットワークを用いて実証した。 他の手法と比較して,本手法は成長パターンと遷移パターンを正確に同定し,誤った遷移を排除し,ワディントン発達景観を構築する。

Reconstructing dynamics using samples from sparsely time-resolved snapshots is an important problem in both natural sciences and machine learning. Here, we introduce a new deep learning approach for solving regularized unbalanced optimal transport (RUOT) and inferring continuous unbalanced stochastic dynamics from observed snapshots. Based on the RUOT form, our method models these dynamics without requiring prior knowledge of growth and death processes or additional information, allowing them to be learnt directly from data. Theoretically, we explore the connections between the RUOT and Schr\"odinger bridge problem and discuss the key challenges and potential solutions. The effectiveness of our method is demonstrated with a synthetic gene regulatory network. Compared with other methods, our approach accurately identifies growth and transition patterns, eliminates false transitions, and constructs the Waddington developmental landscape.
翻訳日:2024-11-05 03:46:09 公開日:2024-10-01
# 不確かさを意識したリワードモデル:未知のモデルを理解するためにリワードモデルを教える

Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown ( http://arxiv.org/abs/2410.00847v1 )

ライセンス: Link先を確認
Xingzhou Lou, Dong Yan, Wei Shen, Yuzi Yan, Jian Xie, Junge Zhang, (参考訳) リワードモデル(RM)は、大規模言語モデル(LLM)の世代を人間の期待に合わせる上で重要な役割を果たす。 しかし、一般に普及しているRMは、人間の嗜好の確率性を捉えることができず、報酬予測の信頼性を効果的に評価することができない。 これらの問題に対処するために,不確実なRM(URM)と不確実なRMアンサンブル(URME)を提案する。 URMEは、アンサンブル内の不一致を通じて不確実性を定量化し、報酬評価中の知識の潜在的な欠如を識別する。 実験結果から,提案したURMは,同じ大きさのモデルと比較して最先端の性能を達成し,人間の嗜好における不確実性をモデル化する効果が示された。 さらに, 不確実な定量化によって, URMとURMEは信頼できない予測を識別し, 報酬評価の質を向上させることが実証された。

Reward models (RM) play a critical role in aligning generations of large language models (LLM) to human expectations. However, prevailing RMs fail to capture the stochasticity within human preferences and cannot effectively evaluate the reliability of reward predictions. To address these issues, we propose Uncertain-aware RM (URM) and Uncertain-aware RM Ensemble (URME) to incorporate and manage uncertainty in reward modeling. URM can model the distribution of disentangled attributes within human preferences, while URME quantifies uncertainty through discrepancies in the ensemble, thereby identifying potential lack of knowledge during reward evaluation. Experiment results indicate that the proposed URM achieves state-of-the-art performance compared to models with the same size, demonstrating the effectiveness of modeling uncertainty within human preferences. Furthermore, empirical results show that through uncertainty quantification, URM and URME can identify unreliable predictions to improve the quality of reward evaluations.
翻訳日:2024-11-05 03:46:09 公開日:2024-10-01
# マンリー変換から導出した成分混合モデルのEM勾配アルゴリズム

An EM Gradient Algorithm for Mixture Models with Components Derived from the Manly Transformation ( http://arxiv.org/abs/2410.00848v1 )

ライセンス: Link先を確認
Katharine M. Clark, Paul D. McNicholas, (参考訳) Zhu and Melnykov (2018) は、成分がマンリー変換から導出されるときの混合モデルに適合するモデルを開発した。 彼らのEMアルゴリズムは、MステップのNelder-Mead最適化を利用して、スキューパラメータである$\boldsymbol{\lambda}_g$を更新する。 モデルパラメータの初期推定が良好である場合には,ニュートン法の一段階を用いて,別のEM勾配アルゴリズムを提案する。

Zhu and Melnykov (2018) develop a model to fit mixture models when the components are derived from the Manly transformation. Their EM algorithm utilizes Nelder-Mead optimization in the M-step to update the skew parameter, $\boldsymbol{\lambda}_g$. An alternative EM gradient algorithm is proposed, using one step of Newton's method, when initial estimates for the model parameters are good.
翻訳日:2024-11-05 03:46:09 公開日:2024-10-01
# 光量子通信におけるドップラーシフトと遅延に対するパルス形状最適化

Pulse shape optimization against Doppler shifts and delays in optical quantum communication ( http://arxiv.org/abs/2410.00852v1 )

ライセンス: Link先を確認
Emanuel Schlake, Roy Barzel, Dennis Rätzel, Claus Lämmerzahl, (参考訳) 地球の低軌道にある衛星との宇宙ベースの量子通信における高い相対速度と大きな距離は、補正されていない場合の達成可能な性能を損なう信号のドップラーシフトや遅延を引き起こす可能性がある。 連続可変量子鍵分布(CV-QKD)プロトコルの特定の場合における系統的および確率的ドップラーシフトと遅延の影響を分析し、その一般化された相関関数、あいまいさ関数を性能損失の決定的な尺度として同定する。 スペクトル振幅形状(Gaussian, Single- and double-sided Lorentzian)の特定の選択に対する一般相関やプライベートキャパシティ境界を調べたところ、この選択はスペクトルおよび時間的同期誤差に対する量子通信プロトコルの堅牢性に大きな影響を与えることがわかった。 我々は、パルス形状を最適化することは、量子ネットワークインフラストラクチャのレジリエンス設計におけるビルディングブロックである、と結論付けた。

High relative velocities and large distances in space-based quantum communication with satellites in lower earth orbits can lead to significant Doppler shifts and delays of the signal impairing the achievable performance if uncorrected. We analyze the influence of systematic and stochastic Doppler shift and delay in the specific case of a continuous variable quantum key distribution (CV-QKD) protocol and identify the generalized correlation function, the ambiguity function, as a decisive measure of performance loss. Investigating the generalized correlations as well as private capacity bounds for specific choices of spectral amplitude shape (Gaussian, single- and double-sided Lorentzian), we find that this choice has a significant impact on the robustness of the quantum communication protocol to spectral and temporal synchronization errors. We conclude that optimizing the pulse shape can be a building block in the resilient design of quantum network infrastructure.
翻訳日:2024-11-05 03:46:09 公開日:2024-10-01
# 機械的解析を用いたレトリーバル拡張世代(RAG)におけるパラメトリック知識の外部情報依存性の定量化

Quantifying reliance on external information over parametric knowledge during Retrieval Augmented Generation (RAG) using mechanistic analysis ( http://arxiv.org/abs/2410.00857v1 )

ライセンス: Link先を確認
Reshmi Ghosh, Rahul Seetharaman, Hitesh Wadhwa, Somyaa Aggarwal, Samyadeep Basu, Soundararajan Srinivasan, Wenlong Zhao, Shreyas Chaudhari, Ehsan Aghazadeh, (参考訳) Retrieval Augmented Generation (RAG) は、質問応答や情報検索など、いくつかの自然言語アプリケーションにおいて、外部コンテキストを活用するために広く使われているアプローチである。 しかし、言語モデル(LM)がこの非パラメトリックメモリや検索されたコンテキストを活用するという正確な性質は明確には理解されていない。 本稿ではRAGパイプラインを機械的に検討し、LMが「ショートカット」効果を示し、モデル先行に最小限依存しながら、検索した文脈を利用して質問に答えることに対する強いバイアスを有することを示す。 特集にあたって (a)因果メディエーション分析;質問に答える際に、パラメトリックメモリが最小限に活用されていることを証明するために b)最後のトークン残差ストリームを示す注意貢献とノックアウトは、課題の主題トークンから豊かになるのではなく、RAG-contextのトークンから豊かになる。 LLM (e g ,LlaMa) と SLM (e g ,Phi) にまたがる「ショートカット」の動作が真であることを示す。

Retrieval Augmented Generation (RAG) is a widely used approach for leveraging external context in several natural language applications such as question answering and information retrieval. Yet, the exact nature in which a Language Model (LM) leverages this non-parametric memory or retrieved context isn't clearly understood. This paper mechanistically examines the RAG pipeline to highlight that LMs demonstrate a "shortcut'' effect and have a strong bias towards utilizing the retrieved context to answer questions, while relying minimally on model priors. We propose (a) Causal Mediation Analysis; for proving that parametric memory is minimally utilized when answering a question and (b) Attention Contributions and Knockouts for showing the last token residual stream do not get enriched from the subject token in the question, but gets enriched from tokens of RAG-context. We find this pronounced "shortcut'' behaviour to be true across both LLMs (e.g.,LlaMa) and SLMs (e.g., Phi)
翻訳日:2024-11-05 03:46:09 公開日:2024-10-01
# 対数共振下におけるギブス試料のエントロピー収縮

Entropy contraction of the Gibbs sampler under log-concavity ( http://arxiv.org/abs/2410.00858v1 )

ライセンス: Link先を確認
Filippo Ascolani, Hugo Lavenant, Giacomo Zanella, (参考訳) ギブスサンプリングアルゴリズム(Gibs sampler、別名Glauber dynamics and heat-bath algorithm)はマルコフ・チェイン・モンテカルロアルゴリズムであり、確率測度$\pi$ of interestの条件分布から反復的にサンプリングされる。 例えば、$\pi$ が強い対数凹であるという仮定の下で、ランダムスキャン Gibbs sampler が相対エントロピーで収縮し、関連する収縮率を鋭く評価することを示した。 条件値の評価は, 接合密度の評価よりも安価であるとして, ギブス試料の混合に必要な$$\pi$の完全な評価回数は, 条件数と線形に増加し, 寸法に依存しないことが示唆された。 もし$\pi$が非強対数であるなら、エントロピーの収束速度は指数関数から多項式へと低下する。 我々の手法は多用途であり、Metropolis-within-GibbsスキームやHit-and-Runアルゴリズムにまで拡張されている。 勾配に基づくスキームと最適化文献との関係についても論じる。

The Gibbs sampler (a.k.a. Glauber dynamics and heat-bath algorithm) is a popular Markov Chain Monte Carlo algorithm which iteratively samples from the conditional distributions of a probability measure $\pi$ of interest. Under the assumption that $\pi$ is strongly log-concave, we show that the random scan Gibbs sampler contracts in relative entropy and provide a sharp characterization of the associated contraction rate. Assuming that evaluating conditionals is cheap compared to evaluating the joint density, our results imply that the number of full evaluations of $\pi$ needed for the Gibbs sampler to mix grows linearly with the condition number and is independent of the dimension. If $\pi$ is non-strongly log-concave, the convergence rate in entropy degrades from exponential to polynomial. Our techniques are versatile and extend to Metropolis-within-Gibbs schemes and the Hit-and-Run algorithm. A comparison with gradient-based schemes and the connection with the optimization literature are also discussed.
翻訳日:2024-11-05 03:46:09 公開日:2024-10-01
# バリアモデル予測制御のための模擬学習のサンプル複雑さの改善

Improved Sample Complexity of Imitation Learning for Barrier Model Predictive Control ( http://arxiv.org/abs/2410.00859v1 )

ライセンス: Link先を確認
Daniel Pfrommer, Swati Padmanabhan, Kwangjun Ahn, Jack Umenberger, Tobia Marcucci, Zakaria Mhammedi, Ali Jadbabaie, (参考訳) 近年の模倣学習における研究は、専門家のコントローラーが適度にスムーズで安定していれば、学習したコントローラの性能がより確実に保証されることを示した。 しかし、そのようなスムーズなエキスパートコントローラを任意のシステム向けに構築することは、特に入力や状態制約の存在下では困難である。 主な貢献として、標準的なモデル予測制御(MPC)最適化問題のログバリアに基づく緩和を用いて、そのようなスムーズな専門家が、システムの一般的なクラスに対してどのように設計できるかを示す。 従来の研究を改良し,MPCは何らかの方向に沿って,理論的に最適な誤差-平滑性トレードオフを達成できることを示した。 滑らか性に関するこの理論的な保証の中核は改善された下界であり、凸リプシッツ函数に付随する解析中心の最適性ギャップについて証明する。 実験により, ランダムな平滑化に対するスムースなアプローチのメリットを実証し, 理論的知見を検証した。

Recent work in imitation learning has shown that having an expert controller that is both suitably smooth and stable enables stronger guarantees on the performance of the learned controller. However, constructing such smoothed expert controllers for arbitrary systems remains challenging, especially in the presence of input and state constraints. As our primary contribution, we show how such a smoothed expert can be designed for a general class of systems using a log-barrier-based relaxation of a standard Model Predictive Control (MPC) optimization problem. Improving upon our previous work, we show that barrier MPC achieves theoretically optimal error-to-smoothness tradeoff along some direction. At the core of this theoretical guarantee on smoothness is an improved lower bound we prove on the optimality gap of the analytic center associated with a convex Lipschitz function, which we believe could be of independent interest. We validate our theoretical findings via experiments, demonstrating the merits of our smoothing approach over randomized smoothing.
翻訳日:2024-11-05 03:46:09 公開日:2024-10-01
# ブロックチェーン対応クラウドソーシング機構によるWebスパム検出の強化

Enhancing Web Spam Detection through a Blockchain-Enabled Crowdsourcing Mechanism ( http://arxiv.org/abs/2410.00860v1 )

ライセンス: Link先を確認
Noah Kader, Inwon Kang, Oshani Seneviratne, (参考訳) Web上のスパムの拡散は、検出を自動化するために機械学習モデルの開発を必要としている。 しかし,スパムのダイナミックな性質や,スパマーによる高度な回避技術は,これらのモデルにおいて精度の低下につながることが多い。 従来の機械学習アプローチは、スパマーの絶えず進化する戦術とペースを維持するのに苦労している。 そこで本稿では,スパム検出システムを強化する新しいソリューションとして,ブロックチェーンによるインセンティブ付きクラウドソーシングを提案する。 ブロックチェーンの分散された透過的なフレームワークを活用して、データ収集とラベル付けのためのインセンティブメカニズムを作成します。 コントリビュータは正確なラベルに対して報酬を受け、不正確で高品質なデータを保証するために罰せられる。 スマートコントラクトは、参加者が完全性を保証するために暗号通貨を担保とすることで、提出と評価のプロセスを管理する。 シミュレーションにより、インセンティブ付きクラウドソーシングはデータ品質を向上させることが示され、スパム検出のためのより効果的な機械学習モデルがもたらされる。 このアプローチは、従来のメソッドの課題に対して、スケーラブルで適応可能なソリューションを提供します。

The proliferation of spam on the Web has necessitated the development of machine learning models to automate their detection. However, the dynamic nature of spam and the sophisticated evasion techniques employed by spammers often lead to low accuracy in these models. Traditional machine-learning approaches struggle to keep pace with spammers' constantly evolving tactics, resulting in a persistent challenge to maintain high detection rates. To address this, we propose blockchain-enabled incentivized crowdsourcing as a novel solution to enhance spam detection systems. We create an incentive mechanism for data collection and labeling by leveraging blockchain's decentralized and transparent framework. Contributors are rewarded for accurate labels and penalized for inaccuracies, ensuring high-quality data. A smart contract governs the submission and evaluation process, with participants staking cryptocurrency as collateral to guarantee integrity. Simulations show that incentivized crowdsourcing improves data quality, leading to more effective machine-learning models for spam detection. This approach offers a scalable and adaptable solution to the challenges of traditional methods.
翻訳日:2024-11-05 03:46:09 公開日:2024-10-01
# ティバー! 決定木を焼く

Timber! Poisoning Decision Trees ( http://arxiv.org/abs/2410.00862v1 )

ライセンス: Link先を確認
Stefano Calzavara, Lorenzo Cazzaro, Massimo Vettori, (参考訳) 我々は、決定木をターゲットにした最初のホワイトボックス中毒攻撃であるTimberを紹介します。 ティンバーは、サブツリーのリトレーニングを利用して、所定のトレーニングインスタンスに毒を盛った場合のダメージを効率的に見積もる、欲張りの攻撃戦略に基づいている。 この攻撃は、サブツリー再トレーニングの計算コストが増大する順に処理されるように、トレーニングインスタンスのソートを可能にするツリーアノテーションの手順に依存している。 このソートによってTimberは、大規模なデータセットでより効率的で実現可能な毒殺攻撃を実現するために設計された早期停止基準をサポートする。 また、Timberを従来のランダムな森林モデルに拡張することについても論じる。これは、決定木は通常、予測力を改善するためにアンサンブルに結合されるため有用である。 公開データセットに対する実験的な評価は、我々の攻撃が既存のベースラインよりも有効性、効率性、あるいはその両方で優れていることを示している。 さらに,2つの代表的防御が攻撃の効果を緩和するが,効果的に阻止することができないことを示す。

We present Timber, the first white-box poisoning attack targeting decision trees. Timber is based on a greedy attack strategy leveraging sub-tree retraining to efficiently estimate the damage performed by poisoning a given training instance. The attack relies on a tree annotation procedure which enables sorting training instances so that they are processed in increasing order of computational cost of sub-tree retraining. This sorting yields a variant of Timber supporting an early stopping criterion designed to make poisoning attacks more efficient and feasible on larger datasets. We also discuss an extension of Timber to traditional random forest models, which is useful because decision trees are normally combined into ensembles to improve their predictive power. Our experimental evaluation on public datasets shows that our attacks outperform existing baselines in terms of effectiveness, efficiency or both. Moreover, we show that two representative defenses can mitigate the effect of our attacks, but fail at effectively thwarting them.
翻訳日:2024-11-05 03:46:09 公開日:2024-10-01
# Verbose LLM出力の意義について:翻訳評価における事例研究

On the Implications of Verbose LLM Outputs: A Case Study in Translation Evaluation ( http://arxiv.org/abs/2410.00863v1 )

ライセンス: Link先を確認
Eleftheria Briakou, Zhongtao Liu, Colin Cherry, Markus Freitag, (参考訳) 本稿では, 冗長LLM翻訳が評価に与える影響について検討する。 機械翻訳におけるWMT 2024の一般的な共有タスクから抽出した複数のLLM出力に対して,この動作の有意性を示す。 次に、安全、著作権に関する懸念、短い入力クエリで不十分なコンテキストを含む、冗長性の主要な引き金を特定します。 最後に, この行為を無視することは, 自動評価と人的評価の両方に応じて, より冗長なLLMを不当に罰することを示し, より正確な将来評価のためにこの問題に対処する必要があることを強調した。

This paper investigates the impact of verbose LLM translations on evaluation. We first demonstrate the prevalence of this behavior across several LLM outputs drawn from the WMT 2024 general shared task on machine translation. We then identify the primary triggers of verbosity, including safety, copyright concerns, and insufficient context in short input queries. Finally, we show that ignoring this behavior unfairly penalizes more verbose LLMs according to both automatic and human evaluations, highlighting the need to address this issue for more accurate future evaluations.
翻訳日:2024-11-05 03:46:09 公開日:2024-10-01
# 「信頼できない」:オンライン誤報の偽チェックの認識を探る

"I don't trust them": Exploring Perceptions of Fact-checking Entities for Flagging Online Misinformation ( http://arxiv.org/abs/2410.00866v1 )

ライセンス: Link先を確認
Hana Habib, Sara Elsharawy, Rifat Rahman, (参考訳) オンラインソーシャルメディアプラットフォームにおける誤報の拡散は、社会的に重大な結果をもたらした。 その結果、プラットフォームは、誤解を招く可能性があるニュースコンテンツをユーザーに警告する手段を導入した。 これらの介入は、コンテンツの正確性に関する評価を提供するために、ファクトチェック組織やニュースメディアなどの外部ソースを引用することもある。 しかし、ユーザーがこれらのエンティティが提供する評価を信頼しているかどうか、また、ニュースの話題によって知覚が異なるかどうかは不明である。 我々は、655人の米国参加者とともにオンライン調査を行い、2つの誤情報トピックにまたがる8つのファクトチェックエンティティのユーザ認識と、ユーザの知覚に影響を与える可能性のある要因を調査した。 その結果,エンティティの信頼性とバイアスに関する参加者の意見は,その政治的嗜好と大きく一致して大きく異なっていた。 しかし、事実確認ラベルの存在だけで、参加者が研究した見出しを共有するのを妨げているように見えた。 以上の結果から,中立と認識される事実確認エンティティのさらなる検討の必要性が示唆されるとともに,複数の評価をラベルに組み込む可能性も示唆された。

The spread of misinformation through online social media platforms has had substantial societal consequences. As a result, platforms have introduced measures to alert users of news content that may be misleading or contain inaccuracies as a means to discourage them from sharing it. These interventions sometimes cite external sources, such as fact-checking organizations and news outlets, for providing assessments related to the accuracy of the content. However, it is unclear whether users trust the assessments provided by these entities and whether perceptions vary across different topics of news. We conducted an online study with 655 US participants to explore user perceptions of eight categories of fact-checking entities across two misinformation topics, as well as factors that may impact users' perceptions. We found that participants' opinions regarding the trustworthiness and bias of the entities varied greatly, aligning largely with their political preference. However, just the presence of a fact-checking label appeared to discourage participants from sharing the headlines studied. Our results hint at the need for further exploring fact-checking entities that may be perceived as neutral, as well as the potential for incorporating multiple assessments in such labels.
翻訳日:2024-11-05 03:46:09 公開日:2024-10-01
# 微粒グラディエント・リミクション-カタストロフィック・フォーミングの簡易的アプローチ

Fine-Grained Gradient Restriction: A Simple Approach for Mitigating Catastrophic Forgetting ( http://arxiv.org/abs/2410.00868v1 )

ライセンス: Link先を確認
Bo Liu, Mao Ye, Peter Stone, Qiang Liu, (参考訳) 継続的学習における根本的な課題は、新しいタスクの学習と、以前獲得した知識の記憶のトレードオフをバランスさせることである。 グラディエントエピソードメモリ(GEM)は、過去のトレーニングサンプルのサブセットを利用してモデルパラメータの更新方向を制限することで、このバランスを実現する。 本研究は, GEMにおいてしばしば見過ごされるハイパーパラメータ, メモリ強度を分析し, 更新方向をさらに制約することで, 経験的性能を高めることから始める。 GEMの一般化能力が向上し、それによってより良好なトレードオフがもたらされるため、メモリ強度が有効であることを示す。 この発見により、より柔軟に更新方向を制約する2つのアプローチを提案する。 我々の手法は、記憶力よりも古い知識を記憶し、新しい知識を学習するという、均一に優れたパレートフロンティアを実現することができる。 さらに,より制約のある最適化問題を大まかに解くために,計算効率のよい手法を提案する。

A fundamental challenge in continual learning is to balance the trade-off between learning new tasks and remembering the previously acquired knowledge. Gradient Episodic Memory (GEM) achieves this balance by utilizing a subset of past training samples to restrict the update direction of the model parameters. In this work, we start by analyzing an often overlooked hyper-parameter in GEM, the memory strength, which boosts the empirical performance by further constraining the update direction. We show that memory strength is effective mainly because it improves GEM's generalization ability and therefore leads to a more favorable trade-off. By this finding, we propose two approaches that more flexibly constrain the update direction. Our methods are able to achieve uniformly better Pareto Frontiers of remembering old and learning new knowledge than using memory strength. We further propose a computationally efficient method to approximately solve the optimization problem with more constraints.
翻訳日:2024-11-05 03:46:09 公開日:2024-10-01
# MAP: Masked Autoregressive Pretraining を用いたハイブリッド・マンバ・トランスフォーマー・ビジョンバックボーンの可能性

MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining ( http://arxiv.org/abs/2410.00871v1 )

ライセンス: Link先を確認
Yunze Liu, Li Yi, (参考訳) Mambaは、長期コンテキストモデリングと自動回帰タスクにおいて、大きなアドバンテージを達成してきたが、大きなパラメータを持つスケーラビリティは、ビジョンアプリケーションにおいて依然として大きな制限となっている。 プレトレーニングは バックボーンモデルの性能を高めるために 広く使われている戦略です トランスフォーマー事前学習におけるMasked Autoencoderの成功はよく認識されているが、Mambaの視覚学習性能はそれほど良くない。 適切な自己回帰事前学習を用いることで,Mambaアーキテクチャの性能を大幅に向上させることができることがわかった。 そこで本研究では,Masked Autoregressive Pretraining (MAP) を用いて,ハイブリッド型Mamba-Transformer視覚バックボーンネットワークの事前学習を行う。 この戦略は、MAEとAutoregressive Pretrainingの両方の長所を組み合わせることで、統一パラダイム内でのMambaおよびTransformerモジュールのパフォーマンスを向上させる。 さらに、MambaとTransformerモジュールの統合という観点からは、TransformerレイヤをMambaレイヤ内で一定間隔で挿入することで、ダウンストリームタスクのパフォーマンスが大幅に向上することを示した。 実験結果から,MAPで事前学習した純マンバアーキテクチャとハイブリッドマンバ・トランスフォーマー・ビジョン・バックボーンネットワークが,他の事前学習戦略よりも優れ,最先端の性能を実現していることがわかった。 提案手法の有効性を2次元および3次元のデータセットで検証し,各コンポーネントの設計選択を支援するための詳細なアブレーション研究を行う。

Mamba has achieved significant advantages in long-context modeling and autoregressive tasks, but its scalability with large parameters remains a major limitation in vision applications. pretraining is a widely used strategy to enhance backbone model performance. Although the success of Masked Autoencoder in Transformer pretraining is well recognized, it does not significantly improve Mamba's visual learning performance. We found that using the correct autoregressive pretraining can significantly boost the performance of the Mamba architecture. Based on this analysis, we propose Masked Autoregressive Pretraining (MAP) to pretrain a hybrid Mamba-Transformer vision backbone network. This strategy combines the strengths of both MAE and Autoregressive pretraining, improving the performance of Mamba and Transformer modules within a unified paradigm. Additionally, in terms of integrating Mamba and Transformer modules, we empirically found that inserting Transformer layers at regular intervals within Mamba layers can significantly enhance downstream task performance. Experimental results show that both the pure Mamba architecture and the hybrid Mamba-Transformer vision backbone network pretrained with MAP significantly outperform other pretraining strategies, achieving state-of-the-art performance. We validate the effectiveness of the method on both 2D and 3D datasets and provide detailed ablation studies to support the design choices for each component.
翻訳日:2024-11-05 03:46:09 公開日:2024-10-01
# 音楽生成モデルは音楽理論を符号化しているか?

Do Music Generation Models Encode Music Theory? ( http://arxiv.org/abs/2410.00872v1 )

ライセンス: Link先を確認
Megan Wei, Michael Freeman, Chris Donahue, Chen Sun, (参考訳) 音楽ファンデーションモデルは印象的な音楽生成能力を持っている。 音楽を作曲する際には、音符とインターバルを使って旋律を作り、コードで進行を作らせ、テンポでリズムの感覚を創り出す。 これは音楽生成モデルにどの程度当てはまるのか? より具体的には、基本西洋音楽理論の概念はこれらのモデルの「インナーワーク」の中で観測可能であるか? 近年の研究では、音楽生成モデルからの潜在音声表現を音楽情報検索タスク(例えばジャンル分類、感情認識)に活用することを提案し、これらのモデルにハイレベルな音楽特性が符号化されていることを示唆している。 しかし、個々の音楽理論の概念(例えばテンポ、ピッチクラス、コード品質)はいまだ探索されていない。 そこで我々は, テンポ, 時間署名, 音符, 間隔, 音階, 和音, コード進行, コード進行の概念からなるMIDIとオーディオ音楽理論の合成データセットであるSynTheoryを紹介する。 次に、音楽基礎モデル(JukeboxとMusicGen)におけるこれらの音楽理論の概念を探索し、それらの概念が内部表現の中でいかに強くエンコードされているかを評価する枠組みを提案する。 以上の結果から,音楽理論の概念は基礎モデルにおいて識別可能であり,検出できる程度はモデルのサイズや層によって異なることが示唆された。

Music foundation models possess impressive music generation capabilities. When people compose music, they may infuse their understanding of music into their work, by using notes and intervals to craft melodies, chords to build progressions, and tempo to create a rhythmic feel. To what extent is this true of music generation models? More specifically, are fundamental Western music theory concepts observable within the "inner workings" of these models? Recent work proposed leveraging latent audio representations from music generation models towards music information retrieval tasks (e.g. genre classification, emotion recognition), which suggests that high-level musical characteristics are encoded within these models. However, probing individual music theory concepts (e.g. tempo, pitch class, chord quality) remains under-explored. Thus, we introduce SynTheory, a synthetic MIDI and audio music theory dataset, consisting of tempos, time signatures, notes, intervals, scales, chords, and chord progressions concepts. We then propose a framework to probe for these music theory concepts in music foundation models (Jukebox and MusicGen) and assess how strongly they encode these concepts within their internal representations. Our findings suggest that music theory concepts are discernible within foundation models and that the degree to which they are detectable varies by model size and layer.
翻訳日:2024-11-05 03:46:09 公開日:2024-10-01
# グラフニューラルネットワーク,グラフ畳み込みネットワーク,畳み込みニューラルネットワークを用いたブロックチェーンアプリケーションのレビュー

Review of blockchain application with Graph Neural Networks, Graph Convolutional Networks and Convolutional Neural Networks ( http://arxiv.org/abs/2410.00875v1 )

ライセンス: Link先を確認
Amy Ancelotti, Claudia Liason, (参考訳) 本稿では、ブロックチェーン技術におけるグラフニューラルネットワーク(GNN)、グラフ畳み込みニューラルネットワーク(GCN)、および畳み込みニューラルネットワーク(CNN)の適用についてレビューする。 ブロックチェーンネットワークの複雑さと採用が拡大するにつれ、従来の分析手法では、分散システムの複雑な関係や動的な振る舞いを捉えるのに不十分であることが証明されている。 これらの制限に対処するため、GNN、GCN、CNNといったディープラーニングモデルは、ブロックチェーンアーキテクチャに固有の独自のグラフベースおよび時間構造を活用することで、堅牢なソリューションを提供する。 特にGNNとGCNは、ブロックチェーンノードとトランザクションのリレーショナルデータのモデリングに優れており、不正検出、トランザクション検証、スマートコントラクト分析などのアプリケーションに最適である。 一方、CNNは構造化行列として表現されたブロックチェーンデータを解析するために適応することができ、トランザクションフローに隠された時間的パターンと空間的パターンを明らかにする。 本稿では,これらのモデルが線形ブロックチェーンとDAG(Directed Acyclic Graph)ベースのシステムの両方の効率性,セキュリティ,スケーラビリティを向上させる方法について検討し,その長所と今後の研究方向性を概観する。 高度なニューラルネットワーク技術を統合することで、ブロックチェーン分析の革新、より高度な分散アプリケーションへの道のり、ネットワークパフォーマンスの向上といった、これらのモデルの可能性を実証することを目指している。

This paper reviews the applications of Graph Neural Networks (GNNs), Graph Convolutional Networks (GCNs), and Convolutional Neural Networks (CNNs) in blockchain technology. As the complexity and adoption of blockchain networks continue to grow, traditional analytical methods are proving inadequate in capturing the intricate relationships and dynamic behaviors of decentralized systems. To address these limitations, deep learning models such as GNNs, GCNs, and CNNs offer robust solutions by leveraging the unique graph-based and temporal structures inherent in blockchain architectures. GNNs and GCNs, in particular, excel in modeling the relational data of blockchain nodes and transactions, making them ideal for applications such as fraud detection, transaction verification, and smart contract analysis. Meanwhile, CNNs can be adapted to analyze blockchain data when represented as structured matrices, revealing hidden temporal and spatial patterns in transaction flows. This paper explores how these models enhance the efficiency, security, and scalability of both linear blockchains and Directed Acyclic Graph (DAG)-based systems, providing a comprehensive overview of their strengths and future research directions. By integrating advanced neural network techniques, we aim to demonstrate the potential of these models in revolutionizing blockchain analytics, paving the way for more sophisticated decentralized applications and improved network performance.
翻訳日:2024-11-05 00:19:53 公開日:2024-10-01
# 知識グラフ補完のための連結バイアス注意による経路の書き換え

Replacing Paths with Connection-Biased Attention for Knowledge Graph Completion ( http://arxiv.org/abs/2410.00876v1 )

ライセンス: Link先を確認
Sharmishtha Dutta, Alex Gittens, Mohammed J. Zaki, Charu C. Aggarwal, (参考訳) 知識グラフ(KG)の完成は、KGの既存の事実から推測できる追加の事実を特定することを目的としている。 この分野での最近の進歩は、このタスクを誘導的設定で探索し、テスト時にトレーニング中に存在しないエンティティを見ることができる。 この研究は同様に、時間を要するパスエンコーディングを明示的に使用せず、コストのかかるハイパーパラメータ最適化を必要とするいくつかのハイパーパラメータを導入し、帰納的な設定でのKG補完に焦点を当てている。 提案手法では,Transformerベースのサブグラフ符号化モジュールのみを使用し,接続バイアスによる注意とエンティティロールの埋め込みをサブグラフ符号化モジュールに導入することで,高価で時間を要するパス符号化モジュールの必要性を解消する。 標準インダクティブKGコンプリートベンチマークデータセットの評価は,我々の接続バイアスリンク予測(CBLiP)モデルがパス情報を使用しないモデルよりも優れた性能を示した。 経路情報を利用するモデルと比較して、CBLiPは高速でありながら、競争力や優れた性能を示している。 さらに、接続バイアスによる注意とエンティティロールの埋め込みの効果もトランスダクティブ・セッティングにおいて有効であることを示すため、トランスダクティブ・セッティングにおける関係予測タスクにおけるCBLiPの性能を比較した。

Knowledge graph (KG) completion aims to identify additional facts that can be inferred from the existing facts in the KG. Recent developments in this field have explored this task in the inductive setting, where at test time one sees entities that were not present during training; the most performant models in the inductive setting have employed path encoding modules in addition to standard subgraph encoding modules. This work similarly focuses on KG completion in the inductive setting, without the explicit use of path encodings, which can be time-consuming and introduces several hyperparameters that require costly hyperparameter optimization. Our approach uses a Transformer-based subgraph encoding module only; we introduce connection-biased attention and entity role embeddings into the subgraph encoding module to eliminate the need for an expensive and time-consuming path encoding module. Evaluations on standard inductive KG completion benchmark datasets demonstrate that our Connection-Biased Link Prediction (CBLiP) model has superior performance to models that do not use path information. Compared to models that utilize path information, CBLiP shows competitive or superior performance while being faster. Additionally, to show that the effectiveness of connection-biased attention and entity role embeddings also holds in the transductive setting, we compare CBLiP's performance on the relation prediction task in the transductive setting.
翻訳日:2024-11-05 00:19:53 公開日:2024-10-01
# データポジショニングの観点からの線形系解の実証摂動解析

Empirical Perturbation Analysis of Linear System Solvers from a Data Poisoning Perspective ( http://arxiv.org/abs/2410.00878v1 )

ライセンス: Link先を確認
Yixin Liu, Arielle Carr, Lichao Sun, (参考訳) 例えば、線形回帰モデルを使用する場合など、機械学習設定で広く発生するシステムに適用される線形解法の摂動解析は、これらの解析をデータ中毒攻撃のレンズを通して再認識する際に重要な視点を確立する。 このような攻撃に対する解決者の反応を分析することにより、より堅牢な線形解法の開発に寄与し、線形解法に対する中毒攻撃に関する洞察を提供することを目的としている。 特に,入力データの誤差が,逆攻撃に共通する摂動下での線形システム解法における解の適合誤差と精度にどのように影響するかを検討する。 本研究では、2つの異なる知識レベルによるデータ摂動を提案し、毒素最適化を開発し、ラベル誘導摂動(LP)と無条件摂動(UP)という2つの摂動方法を研究する。 既存の研究は主に理論的な観点から、最悪の場合の摂動を導出することに焦点を当てており、解析は特定の種類の線形系解法に限られることが多い。 データ中毒の場合のように、データが意図的に摂動している状況下では、さまざまな種類の解法がこれらの摂動にどのように反応するかを理解し、異なる種類の敵攻撃によって最も影響を受けるアルゴリズムを特定する。

The perturbation analysis of linear solvers applied to systems arising broadly in machine learning settings -- for instance, when using linear regression models -- establishes an important perspective when reframing these analyses through the lens of a data poisoning attack. By analyzing solvers' responses to such attacks, this work aims to contribute to the development of more robust linear solvers and provide insights into poisoning attacks on linear solvers. In particular, we investigate how the errors in the input data will affect the fitting error and accuracy of the solution from a linear system-solving algorithm under perturbations common in adversarial attacks. We propose data perturbation through two distinct knowledge levels, developing a poisoning optimization and studying two methods of perturbation: Label-guided Perturbation (LP) and Unconditioning Perturbation (UP). Existing works mainly focus on deriving the worst-case perturbation bound from a theoretical perspective, and the analysis is often limited to specific kinds of linear system solvers. Under the circumstance that the data is intentionally perturbed -- as is the case with data poisoning -- we seek to understand how different kinds of solvers react to these perturbations, identifying those algorithms most impacted by different types of adversarial attacks.
翻訳日:2024-11-05 00:19:53 公開日:2024-10-01
# GEMS: 反復的プロンプトプライミングによる創発的エキスパートメトリックシステム

GEMS: Generative Expert Metric System through Iterative Prompt Priming ( http://arxiv.org/abs/2410.00880v1 )

ライセンス: Link先を確認
Ti-Chung Cheng, Carmen Badea, Christian Bird, Thomas Zimmermann, Robert DeLine, Nicole Forsgren, Denae Ford, (参考訳) ドメイン全体にわたって、メトリクスと測定は、課題を特定し、決定を下し、対立を解決するのに不可欠です。 この情報時代に利用可能なデータが豊富にあるにもかかわらず、単一の専門家が複数の学際的なデータにまたがって作業することは困難であるだけでなく、非専門家は効果的な測度を作成したり、理論を適切に選択された文脈固有のメトリクスに変換するのが直感的であることも見出すことができる。 この技術的レポートは、大企業内のソフトウェアコミュニティを調べることで、この課題に対処する。 本稿では,ニューラルアクティビティにインスパイアされたプロンプトエンジニアリングフレームワークを提案し,生成モデルが理論を抽出・要約し,基本的な推論を行うことで,概念をコンテキスト対応のメトリクスに変換し,ソフトウェアコミュニティにソフトウェアリポジトリデータを提供することを示す。 この研究はソフトウェアコミュニティに浸透したが、フレームワークの適用性は様々な分野にまたがり、複雑な課題をトリアージする専門家理論に触発されたメトリクスを示していると信じている。

Across domains, metrics and measurements are fundamental to identifying challenges, informing decisions, and resolving conflicts. Despite the abundance of data available in this information age, not only can it be challenging for a single expert to work across multi-disciplinary data, but non-experts can also find it unintuitive to create effective measures or transform theories into context-specific metrics that are chosen appropriately. This technical report addresses this challenge by examining software communities within large software corporations, where different measures are used as proxies to locate counterparts within the organization to transfer tacit knowledge. We propose a prompt-engineering framework inspired by neural activities, demonstrating that generative models can extract and summarize theories and perform basic reasoning, thereby transforming concepts into context-aware metrics to support software communities given software repository data. While this research zoomed in on software communities, we believe the framework's applicability extends across various fields, showcasing expert-theory-inspired metrics that aid in triaging complex challenges.
翻訳日:2024-11-05 00:19:53 公開日:2024-10-01
# Bayesian ancilla-assisted process tomography による量子リンクの展開

Deployed quantum link characterization via Bayesian ancilla-assisted process tomography ( http://arxiv.org/abs/2410.00892v1 )

ライセンス: Link先を確認
Arefur Rahman, Noah I. Wasserbeck, Zachary Goisman, Rhea P. Fernandes, Brian T. Kirby, Muneer Alshowkan, Chris Kurtz, Joseph M. Lukens, (参考訳) 大規模量子ネットワークの開発には信頼性の高い量子チャネルが必要であり、その品質は量子プロセストモグラフィーの枠組みによって定量化することができる。 本研究では,アシラ支援プロセストモグラフィとベイズ推定を利用して1.6kmの光ファイバーリンクを探査する。 1つの建物でアリスから別の建物でボブに2つの分極結合光子を送り、局所量子ビットをアンシラ系として利用して対応する量子チャネルを特徴づける。 24時間にわたるモニタリングでは、95.1(1)%の安定したプロセス忠実度が返され、0.025-4.38 THzのパスバンドによる制御可能なスペクトルフィルタリングでは、最初に増加し、帯域幅で水平化され、時間と極性モードの分散による安定した動作が提案される。 我々の知る限り、これらの結果は展開された量子リンクの最初のAPTであり、絡み合いに基づく量子ネットワークをその場で解析するための貴重なツールである。

The development of large-scale quantum networks requires reliable quantum channels, the quality of which can be quantified by the framework of quantum process tomography. In this work, we leverage ancilla-assisted process tomography and Bayesian inference to probe a 1.6 km deployed fiber-optic link. We send one of two polarization-entangled photons from Alice in one building to Bob in another, exploiting the local qubit as an ancilla system to characterize the corresponding quantum channel. Monitoring over a 24 h period returns a steady process fidelity of 95.1(1)%, while controllable spectral filtering with passbands from 0.025-4.38 THz finds fidelities that first increase, then level off with bandwidth, suggesting both stable operation with time and minimal polarization mode dispersion. To our knowledge, these results represent the first AAPT of a deployed quantum link, revealing a valuable tool for in situ analysis of entanglement-based quantum networks.
翻訳日:2024-11-05 00:19:53 公開日:2024-10-01
# 量子軌道センシング問題とその応用

The quantum trajectory sensing problem and its solution ( http://arxiv.org/abs/2410.00893v1 )

ライセンス: Link先を確認
Zachary E. Chin, Isaac L. Chuang, (参考訳) 量子軌跡センシング問題は、入射粒子の軌跡を1つの測定で区別できる量子センサ状態を求める。 1つの射影測度で一組の軌跡を曖昧に判別するためには、全ての軌跡後の出力状態は相互直交でなければならないので、通常非常に大きな制約の系を2^n$状態係数で満たさなければならない。 この系が直接的に解くのが難しいことを考えると、センサ状態の基準を単純化し、軌道が特定の対称性に従う場合に関係する方程式や変数の数を指数関数的に削減するグループ理論の枠組みを導入する。 これらの簡易な基準により、軌道センサ状態の一般ファミリーが得られ、完全な単発軌道識別に必要な粒子-センサー相互作用強度の限界が与えられる。 さらに、軌道検出と量子誤差補正の関連性を確立し、投射的測定を用いて摂動を識別する共通の動機を認識する。 私たちのセンサーは実際には新しい量子コードを形成しており、逆によく知られた安定化符号(トーリック符号など)も軌道検出機能を提供している。 この接続により、センサ状態と量子誤り訂正符号の連結によるノイズ耐性軌道検出が可能となる。

The quantum trajectory sensing problem seeks quantum sensor states which enable the trajectories of incident particles to be distinguished using a single measurement. For an $n$-qubit sensor state to unambiguously discriminate a set of trajectories with a single projective measurement, all post-trajectory output states must be mutually orthogonal; therefore, the $2^n$ state coefficients must satisfy a system of constraints which is typically very large. Given that this system is generally challenging to solve directly, we introduce a group-theoretic framework which simplifies the criteria for sensor states and exponentially reduces the number of equations and variables involved when the trajectories obey certain symmetries. These simplified criteria yield general families of trajectory sensor states and provide bounds on the particle-sensor interaction strength required for perfect one-shot trajectory discrimination. Furthermore, we establish a link between trajectory sensing and quantum error correction, recognizing their common motivation to identify perturbations using projective measurements. Our sensor states in fact form novel quantum codes, and conversely, a number of familiar stabilizer codes (such as toric codes) also provide trajectory sensing capabilities. This connection enables noise-resilient trajectory sensing through the concatenation of sensor states with quantum error-correcting codes.
翻訳日:2024-11-05 00:19:53 公開日:2024-10-01
# 健康データプライバシーのグラディエント

The Gradient of Health Data Privacy ( http://arxiv.org/abs/2410.00897v1 )

ライセンス: Link先を確認
Baihan Lin, (参考訳) デジタルヘルスと人工知能の時代、患者のデータプライバシの管理はますます複雑になり、グローバルヘルスエクイティと患者の信頼に重大な影響を及ぼす。 本稿では、従来のバイナリプライバシモデルよりも微妙で適応的なフレームワークを提供する、健康データガバナンスに対する新しい"プライバシ・グラデーション"アプローチを紹介する。 我々の多次元概念は、データ感度、利害関係者の関係、使用目的、時間的側面などの要素を考慮し、コンテキストに敏感なプライバシー保護を可能にします。 政策分析,倫理的考察,青少年の健康,統合ケア,ゲノム研究にまたがるケーススタディを通じて,世界中の多様な医療環境において,このアプローチが重要なプライバシー問題にどのように対処できるかを実証する。 プライバシ勾配モデルは、患者のエンゲージメントを高め、ケア調整を改善し、個々のプライバシ権利を保護しながら、医療研究を加速する可能性がある。 我々は、医療システム、研究インフラ、グローバルヘルスイニシアチブへの影響を考慮して、このアプローチを実施するための政策レコメンデーションを提供する。 この研究は、政策立案者、医療指導者、デジタルヘルスイノベーターに通知することを目的としており、デジタル時代のより公平で、信頼できる、効果的なグローバルヘルスデータエコシステムに貢献している。

In the era of digital health and artificial intelligence, the management of patient data privacy has become increasingly complex, with significant implications for global health equity and patient trust. This paper introduces a novel "privacy gradient" approach to health data governance, offering a more nuanced and adaptive framework than traditional binary privacy models. Our multidimensional concept considers factors such as data sensitivity, stakeholder relationships, purpose of use, and temporal aspects, allowing for context-sensitive privacy protections. Through policy analyses, ethical considerations, and case studies spanning adolescent health, integrated care, and genomic research, we demonstrate how this approach can address critical privacy challenges in diverse healthcare settings worldwide. The privacy gradient model has the potential to enhance patient engagement, improve care coordination, and accelerate medical research while safeguarding individual privacy rights. We provide policy recommendations for implementing this approach, considering its impact on healthcare systems, research infrastructures, and global health initiatives. This work aims to inform policymakers, healthcare leaders, and digital health innovators, contributing to a more equitable, trustworthy, and effective global health data ecosystem in the digital age.
翻訳日:2024-11-05 00:19:53 公開日:2024-10-01
# Toffoli ゲートの少ない量子教科書乗算

Quantum schoolbook multiplication with fewer Toffoli gates ( http://arxiv.org/abs/2410.00899v1 )

ライセンス: Link先を確認
Daniel Litinski, (参考訳) 本稿では, 制御された加算回路を用いて, 従来の制御された加算器に基づく構成に比べてトフォリ数の漸近半減を図り, 校本乗算のための量子回路を構築する方法を提案する。 制御量子ビットが1のときと0のときの減算で加算を行う制御n-qubit加算回路は、制御加算器に必要な2n-1ではなく、n-1トフォリゲートのみを必要とする。 より優れた漸近的スケーリングを持つ乗算回路が存在するにもかかわらず、スクールブック乗算は小さなレジスタサイズに対して最も低いトフォリ数をもたらすため、実用的応用において有利である。 例えば、提案手法は、標準の校本乗算器を持つ回路と比較して256ビット楕円曲線鍵を破るための回路を最大30%削減する。

This paper presents a method for constructing quantum circuits for schoolbook multiplication using controlled add-subtract circuits, asymptotically halving the Toffoli count compared to traditional controlled-adder-based constructions. Controlled n-qubit add-subtract circuits, which perform an addition when the control qubit is one and a subtraction when it is zero, require only n-1 Toffoli gates, instead of the 2n-1 needed for controlled adders. Despite the existence of multiplication circuits with better asymptotic scaling, schoolbook multiplication yields the lowest Toffoli counts for small register sizes, making it advantageous in practical applications. For example, the presented approach reduces the Toffoli count by up to around 30% in circuits for breaking 256-bit elliptic curve keys compared to circuits with standard schoolbook multipliers.
翻訳日:2024-11-05 00:19:53 公開日:2024-10-01
# OSSA: 教師なしワンショットスタイルの適応

OSSA: Unsupervised One-Shot Style Adaptation ( http://arxiv.org/abs/2410.00900v1 )

ライセンス: Link先を確認
Robin Gerster, Holger Caesar, Matthias Rapp, Alexander Wolpert, Michael Teutsch, (参考訳) さまざまなビジョンタスクの成功にもかかわらず、深層ニューラルネットワークアーキテクチャは、トレーニングとターゲットドメインスタイルの違いにより、アウト・オブ・ディストリビューションシナリオでパフォーマンスが低下することが多い。 この制限に対処するために,1枚のラベルのないターゲット画像を用いて対象ドメインスタイルを近似する,オブジェクト検出のための新しい教師なしドメイン適応手法であるOne-Shot Style Adaptation (OSSA)を導入する。 具体的には、OSSAは、単一のターゲット画像から派生したスタイル統計を摂動させ、アダプティブインスタンス正規化(AdaIN)を使用して、特徴レベルのラベル付きソースデータセットにこれらのスタイルを適用することで、多様なターゲットスタイルを生成する。 大規模な実験により、OSSAは1ショットのドメイン適応手法で新しい最先端の手法を確立し、場合によっては数千の未ラベルのターゲット画像を使用する強力なベースラインを上回ります。 気象,シミュレート・トゥ・リアル(シミュレート・トゥ・リアル),ビジュアル・トゥ・サーマル適応といった様々なシナリオにOSSAを適用し,これらの文脈におけるスタイルギャップの全体的意義について検討した。 OSSAのシンプルさと効率性により、既存のフレームワークへの統合が容易になり、データ可用性が制限された実用的なアプリケーションに対して、潜在的に実行可能なソリューションを提供する。 コードはhttps://github.com/RobinGerster7/OSSAで入手できる。

Despite their success in various vision tasks, deep neural network architectures often underperform in out-of-distribution scenarios due to the difference between training and target domain style. To address this limitation, we introduce One-Shot Style Adaptation (OSSA), a novel unsupervised domain adaptation method for object detection that utilizes a single, unlabeled target image to approximate the target domain style. Specifically, OSSA generates diverse target styles by perturbing the style statistics derived from a single target image and then applies these styles to a labeled source dataset at the feature level using Adaptive Instance Normalization (AdaIN). Extensive experiments show that OSSA establishes a new state-of-the-art among one-shot domain adaptation methods by a significant margin, and in some cases, even outperforms strong baselines that use thousands of unlabeled target images. By applying OSSA in various scenarios, including weather, simulated-to-real (sim2real), and visual-to-thermal adaptations, our study explores the overarching significance of the style gap in these contexts. OSSA's simplicity and efficiency allow easy integration into existing frameworks, providing a potentially viable solution for practical applications with limited data availability. Code is available at https://github.com/RobinGerster7/OSSA
翻訳日:2024-11-05 00:19:53 公開日:2024-10-01
# 生成的人工知能を用いた因果表現学習 : テキスト・アズ・ア・トリートへの応用

Causal Representation Learning with Generative Artificial Intelligence: Application to Texts as Treatments ( http://arxiv.org/abs/2410.00903v1 )

ライセンス: Link先を確認
Kosuke Imai, Kentaro Nakamura, (参考訳) 本稿では,生成人工知能の力を生かして,テキストなどの非構造的高次元処理による因果推論の有効性を高める方法について述べる。 具体的には,大規模言語モデル(LLM)のような深層生成モデルを用いて治療を効率よく生成し,その内部表現をその後の因果効果推定に用いることを提案する。 この真の内部表現の知識は、特定の感情や特定の話題などの関心事の特徴を、他の未知の特徴と区別するのに役立ちます。 既存の手法と異なり,提案手法ではデータから因果表現を学習する必要がなく,より正確で効率的な推定結果が得られる。 我々は,平均処理効果の非パラメトリック同定に必要な条件を正式に確立し,重なり合う仮定の違反を避けるための推定戦略を提案し,二重機械学習の適用により提案した推定器の漸近特性を導出する。 最後に, 機器変数を用いた手法を用いて, 提案手法を, 治療対象が固定されていると仮定されるのではなく, 人間の知覚に基づくものであるような設定に拡張する。 我々は,オープンソースのLLMであるLlama3を用いて生成したテキストデータを用いてシミュレーションを行い,最先端の因果表現学習アルゴリズムに対する推定器の利点を説明する。

In this paper, we demonstrate how to enhance the validity of causal inference with unstructured high-dimensional treatments like texts, by leveraging the power of generative Artificial Intelligence. Specifically, we propose to use a deep generative model such as large language models (LLMs) to efficiently generate treatments and use their internal representation for subsequent causal effect estimation. We show that the knowledge of this true internal representation helps separate the treatment features of interest, such as specific sentiments and certain topics, from other possibly unknown confounding features. Unlike the existing methods, our proposed approach eliminates the need to learn causal representation from the data and hence produces more accurate and efficient estimates. We formally establish the conditions required for the nonparametric identification of the average treatment effect, propose an estimation strategy that avoids the violation of the overlap assumption, and derive the asymptotic properties of the proposed estimator through the application of double machine learning. Finally, using an instrumental variables approach, we extend the proposed methodology to the settings, in which the treatment feature is based on human perception rather than is assumed to be fixed given the treatment object. We conduct simulation studies using the generated text data with an open-source LLM, Llama3, to illustrate the advantages of our estimator over the state-of-the-art causal representation learning algorithms.
翻訳日:2024-11-05 00:19:53 公開日:2024-10-01
# ドープAFMボソニック${t-J}$モデルにおける運動磁性とストライプ秩序

Kinetic magnetism and stripe order in the doped AFM bosonic ${t-J}$ model ( http://arxiv.org/abs/2410.00904v1 )

ライセンス: Link先を確認
Timothy J. Harris, Ulrich Schollwöck, Annabelle Bohrdt, Fabian Grusdt, (参考訳) ドープ量子マグネットの物理を制御している顕微鏡機構の解明は、強く相関した多体物理学における中心的な課題である。 量子シミュレーションプラットフォーム(例えば、光学格子やツイーザーアレイに閉じ込められた超低温原子)は、スピンと電荷運動の相互作用を調べるエキサイティングな経路を提供し、高温超伝導体における電荷対の性質のような長年続く問題に対処するための手段を提供する。 ここでは、ドープされたボゾン量子マグネットの強い結合限界、特に反強磁性(AFM)ボソン$t-J$モデルを探ることで、強い相関系の物理学における粒子統計学の役割を解き明かそうとする。 有限ドーピング時の2次元正方格子上のAFMボソニック$t-J$モデルの位相図をマッピングするために,大規模密度行列再正規化群(DMRG)計算を行う。 その結果,低ドーピング系では,高T_c$銅酸化物で観測されるものと同様,ボソニック孔が部分的に充填されたストライプを形成する傾向にあることがわかった。 ドーピングが臨界値$\delta \gtrsim \delta^*_\mathrm{PP} (\delta^*_\mathrm{FM})$を超えると、ハイゼンベルク型AFMと長岡型FMとの競合により、AFMとFMの基底状態が遷移する。 高ドーピングまたは大きな$t/J$制限では、システムは完全に偏極化されたSU(2)強磁性体へと進化し、長岡ポーラロンに結合した相転移と一致する。 我々の発見は、強い相関の量子物質における粒子統計学の役割に光を当て、2Dフェルミ・ハッバードと$t-J$モデルの相に接続する。 我々の結果は、ボゾン量子ガス顕微鏡を用いた最先端量子シミュレーション実験で実現され、ドープされたボゾン量子マグネットのさらなる探索の道を開くことができる。

Unraveling the microscopic mechanisms governing the physics of doped quantum magnets is a central challenge in strongly correlated many-body physics. Quantum simulation platforms, e.g. ultracold atoms trapped in optical lattices or tweezer arrays, offer an exciting pathway to investigate the interplay between spin and charge motion, thereby providing an avenue to addressing longstanding questions such as the nature of charge pairing in high-temperature superconductors. Here, in a new twist, we seek to disentangle the role of particle statistics in the physics of strongly correlated systems by exploring the strong coupling limit of doped bosonic quantum magnets, specifically the antiferromagnetic (AFM) bosonic $t-J$ model. We perform large-scale density matrix renormalization group (DMRG) calculations to map out the phase diagram of the AFM bosonic $t-J$ model on the 2D square lattice at finite doping. We find that in the low doping regime, bosonic holes tend to form partially-filled stripes, akin to those observed in high-$T_c$ cuprates. As doping increases beyond a critical value $\delta \gtrsim \delta^*_\mathrm{PP} (\delta^*_\mathrm{FM})$, a transition occurs between AFM and ferromagnetic (FM) ground states, driven by the competition between Heisenberg-type AFM and Nagaoka-type FM mediated by the motion of mobile bosonic holes. In the high doping or large $t/J$ limit, the system evolves into a fully-polarized SU(2) ferromagnet, consistent with a phase transition linked to Nagaoka polarons. Our findings shed light on the role of particle statistics in strongly correlated quantum matter and connect to phases in the 2D Fermi-Hubbard and $t-J$ models. Our results may be realized in state-of-the-art quantum simulation experiments with bosonic quantum gas microscopes, paving the way for further exploration of doped bosonic quantum magnets.
翻訳日:2024-11-05 00:19:53 公開日:2024-10-01
# 画像テキストアライメントを改善するキャプションにおける分布差の除去

Removing Distributional Discrepancies in Captions Improves Image-Text Alignment ( http://arxiv.org/abs/2410.00905v1 )

ライセンス: Link先を確認
Yuheng Li, Haotian Liu, Mu Cai, Yijun Li, Eli Shechtman, Zhe Lin, Yong Jae Lee, Krishna Kumar Singh, (参考訳) 本稿では,現在の視覚言語モデルにおける構成的理解の課題を対象として,画像テキストアライメントの予測を改善するためのモデルを提案する。 提案手法は,アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いている。 批判的に、アライメントモデルがテキスト情報にのみ依存せず、アライメントを正確に予測するための関連画像も考慮するように、正と負のキャプション間の分布不均衡に対処する。 この強化されたトレーニングデータを作成することで、既存の先進的な視覚言語モデルを微調整して、アライメントを理解する能力を高めます。 我々のモデルは、様々なデータセットにおいて、現在のトップパフォーマンスメソッドよりも大幅に優れています。 また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。 プロジェクトページ: \url{https://yuheng-li.github.io/LLaVA-score/}

In this paper, we introduce a model designed to improve the prediction of image-text alignment, targeting the challenge of compositional understanding in current visual-language models. Our approach focuses on generating high-quality training datasets for the alignment task by producing mixed-type negative captions derived from positive ones. Critically, we address the distribution imbalance between positive and negative captions to ensure that the alignment model does not depend solely on textual information but also considers the associated images for predicting alignment accurately. By creating this enhanced training data, we fine-tune an existing leading visual-language model to boost its capability in understanding alignment. Our model significantly outperforms current top-performing methods across various datasets. We also demonstrate the applicability of our model by ranking the images generated by text-to-image models based on text alignment. Project page: \url{https://yuheng-li.github.io/LLaVA-score/}
翻訳日:2024-11-05 00:19:53 公開日:2024-10-01
# 事前学習モデルに基づくドメイン・インクリメンタル・ラーニングのためのデュアル・コンソリデーション

Dual Consolidation for Pre-Trained Model-Based Domain-Incremental Learning ( http://arxiv.org/abs/2410.00911v1 )

ライセンス: Link先を確認
Da-Wei Zhou, Zi-Wen Cai, Han-Jia Ye, Lijun Zhang, De-Chuan Zhan, (参考訳) ドメイン・インクリメンタル・ラーニング(ドメイン・インクリメンタル・ラーニング、ドメイン・インクリメンタル・ラーニング、ドメイン・インクリメンタル・ラーニング、ドメイン・インクリメンタル・ラーニング、Domain-Incremental Learning、DIL)は、異なるドメインにまたがる新しい概念へのモデルの漸進的な適応を含む。 事前学習モデルの最近の進歩は、DILの確かな基盤を提供する一方で、新しい概念を学ぶことは、しばしば、事前訓練された知識を破滅的に忘れてしまう。 具体的には、シーケンシャルモデル更新は、表現と分類器の両方を最新のドメインからの知識で上書きすることができる。 したがって、学習プロセス全体を通して、すべての目に見えるドメインに対応する表現とそれに対応する分類器を開発することが重要である。 そこで本稿では,歴史的知識を表現レベルと分類レベルの両方で統一・統合するドゥアル・コンソリデータティオン(デュアル・コンソリデータティオン,Duct)を提案する。 異なるステージのバックボーンをマージすることにより、複数のドメインに適した表現空間を段階的に作成する。 マージされた表現は、すべてのドメインからタスク固有の特徴をキャプチャするバランスの取れた仲介役として機能する。 さらに,統合埋め込みと分類器のミスマッチに対処するために,余分な分類器統合プロセスを導入する。 クラスワイドのセマンティック情報を活用することで、最新の埋め込み空間内の古いドメインの分類器重みを推定する。 歴史的および推定された分類器をマージすることにより、それらを統合された埋め込み空間と整合させ、漸進的な分類を容易にする。 4つのベンチマークデータセットの大規模な実験結果は、Ductの最先端のパフォーマンスを示している。

Domain-Incremental Learning (DIL) involves the progressive adaptation of a model to new concepts across different domains. While recent advances in pre-trained models provide a solid foundation for DIL, learning new concepts often results in the catastrophic forgetting of pre-trained knowledge. Specifically, sequential model updates can overwrite both the representation and the classifier with knowledge from the latest domain. Thus, it is crucial to develop a representation and corresponding classifier that accommodate all seen domains throughout the learning process. To this end, we propose DUal ConsolidaTion (Duct) to unify and consolidate historical knowledge at both the representation and classifier levels. By merging the backbone of different stages, we create a representation space suitable for multiple domains incrementally. The merged representation serves as a balanced intermediary that captures task-specific features from all seen domains. Additionally, to address the mismatch between consolidated embeddings and the classifier, we introduce an extra classifier consolidation process. Leveraging class-wise semantic information, we estimate the classifier weights of old domains within the latest embedding space. By merging historical and estimated classifiers, we align them with the consolidated embedding space, facilitating incremental classification. Extensive experimental results on four benchmark datasets demonstrate Duct's state-of-the-art performance.
翻訳日:2024-11-05 00:09:47 公開日:2024-10-01
# MoS:Shardの混合による低ランク適応の解離パラメータ効率

MoS: Unleashing Parameter Efficiency of Low-Rank Adaptation with Mixture of Shards ( http://arxiv.org/abs/2410.00938v1 )

ライセンス: Link先を確認
Sheng Wang, Liheng Chen, Pengan Chen, Jingwei Dong, Boyang Xue, Jiyue Jiang, Lingpeng Kong, Chuan Wu, (参考訳) 大規模言語モデルの迅速なスケーリングは、多数のカスタマイズされたモデルが同時に提供される場合に、爆発的なGPUメモリオーバーヘッドを低減するために、より軽量な微調整方法を必要とする。 パラメータ効率の低いローランク適応(LoRA)を目標とすると、パラメータ共有は有望な解決策となる。 実証的に、我々のハイレベルな共有原則に関する研究は、純粋な共有の有害な影響を逆転させる上で、差別化が欠かせない役割を浮き彫りにしている。 この発見に導かれ、我々は層間共有と層間共有の両方を導入し、サブセット選択、ペア解離、ベクトルシャーディング、シャード民営化の4つのほとんど費用のかかる差別戦略を統合することで、Shardsの混合(MoS)を提案する。 簡単に言えば、Mixture-of-Experts(MoE)のようなルーティング機構でグローバルプールから指定されたシャード数を選択し、その後、それらを低ランク行列に順次結合する。 したがって、LoRAのすべての利点を保ちながらパラメータ効率を向上し、ピアパラメータ共有手法の欠点を効果的に回避する。 実験では,標準のLoRA設定で約8倍のパラメータセーブを実証した。 アブレーション研究は各成分の意義を裏付けるものである。 パラメータ共有法とMoS法に関する我々の知見は、よりパラメータ効率の良い微調整法の将来的な発展を照らし出す可能性がある。

The rapid scaling of large language models necessitates more lightweight finetuning methods to reduce the explosive GPU memory overhead when numerous customized models are served simultaneously. Targeting more parameter-efficient low-rank adaptation (LoRA), parameter sharing presents a promising solution. Empirically, our research into high-level sharing principles highlights the indispensable role of differentiation in reversing the detrimental effects of pure sharing. Guided by this finding, we propose Mixture of Shards (MoS), incorporating both inter-layer and intra-layer sharing schemes, and integrating four nearly cost-free differentiation strategies, namely subset selection, pair dissociation, vector sharding, and shard privatization. Briefly, it selects a designated number of shards from global pools with a Mixture-of-Experts (MoE)-like routing mechanism before sequentially concatenating them to low-rank matrices. Hence, it retains all the advantages of LoRA while offering enhanced parameter efficiency, and effectively circumvents the drawbacks of peer parameter-sharing methods. Our empirical experiments demonstrate approximately 8x parameter savings in a standard LoRA setting. The ablation study confirms the significance of each component. Our insights into parameter sharing and MoS method may illuminate future developments of more parameter-efficient finetuning methods.
翻訳日:2024-11-05 00:09:47 公開日:2024-10-01
# 伊賀語の自動音声認識

Automatic Speech Recognition for the Ika Language ( http://arxiv.org/abs/2410.00940v1 )

ライセンス: Link先を確認
Uchenna Nzenwata, Daniel Ogbuigwe, (参考訳) 我々は,Ikaのような低リソース言語を対象とした音声認識モデル(ASR)の開発において,コスト効率のよいアプローチを提案する。 Ikaにおける新約聖書翻訳から収集した高品質な音声データセットを用いて、事前訓練したwav2vec 2.0の大規模多言語音声モデルを微調整する。 この結果から,微調整による事前学習モデルでは単語誤り率(WER)が0.5377,文字誤り率(CER)が0.2651となり,学習時間は1時間を超えることがわかった。 より大きい10億のパラメータモデルは、より複雑さとよりリッチな音声表現を格納する能力のために、3億のパラメータモデルよりも優れています。 しかし、小さなトレーニングデータセットへの過度な適合が観察され、一般化性が低下する。 本研究は,低リソース言語に対する多言語事前学習モデルの活用の可能性を示すものである。 今後の作業は、データセットの拡大とオーバーフィッティングを緩和するテクニックの探求に重点を置くべきだ。

We present a cost-effective approach for developing Automatic Speech Recognition (ASR) models for low-resource languages like Ika. We fine-tune the pretrained wav2vec 2.0 Massively Multilingual Speech Models on a high-quality speech dataset compiled from New Testament Bible translations in Ika. Our results show that fine-tuning multilingual pretrained models achieves a Word Error Rate (WER) of 0.5377 and Character Error Rate (CER) of 0.2651 with just over 1 hour of training data. The larger 1 billion parameter model outperforms the smaller 300 million parameter model due to its greater complexity and ability to store richer speech representations. However, we observe overfitting to the small training dataset, reducing generalizability. Our findings demonstrate the potential of leveraging multilingual pretrained models for low-resource languages. Future work should focus on expanding the dataset and exploring techniques to mitigate overfitting.
翻訳日:2024-11-05 00:09:47 公開日:2024-10-01
# AR-Sieve Bootstrap for the Random Forest and a Simulation-based comparison with Rangerts time series prediction

AR-Sieve Bootstrap for the Random Forest and a simulation-based comparison with rangerts time series prediction ( http://arxiv.org/abs/2410.00942v1 )

ライセンス: Link先を確認
Cabrel Teguemne Fokam, Carsten Jentsch, Michel Lang, Markus Pauly, (参考訳) ランダムフォレスト(RF)アルゴリズムは、時系列予測を含む幅広い問題に適用できる。 しかし、古典的なIID(独立性とIdentically分散)ブートストラップやブロックブートストラップ戦略(レンジトで実装されている)は、観測を再サンプリングしながらデータ生成プロセス(DGP)の性質を完全に説明していない。 本稿では, DGP を自己回帰プロセスとみなす AR-Sieve Bootstrap (ARSB) に, IID ブートストラップを置き換えた残留ブートストラップ技術と組み合わせて提案する。 新たなモデルの予測性能を評価するために,異なるタイプのDGPから生成された合成データを用いてシミュレーション研究を行う。 ARSBは、森林内の木々の多様性をより高めていることが判明した。 さらに、ARSBを用いたRFは、他のブートストラップ戦略に比べて精度が高い。 しかし、これらの改善はある程度の効率性で達成されている。

The Random Forest (RF) algorithm can be applied to a broad spectrum of problems, including time series prediction. However, neither the classical IID (Independent and Identically distributed) bootstrap nor block bootstrapping strategies (as implemented in rangerts) completely account for the nature of the Data Generating Process (DGP) while resampling the observations. We propose the combination of RF with a residual bootstrapping technique where we replace the IID bootstrap with the AR-Sieve Bootstrap (ARSB), which assumes the DGP to be an autoregressive process. To assess the new model's predictive performance, we conduct a simulation study using synthetic data generated from different types of DGPs. It turns out that ARSB provides more variation amongst the trees in the forest. Moreover, RF with ARSB shows greater accuracy compared to RF with other bootstrap strategies. However, these improvements are achieved at some efficiency costs.
翻訳日:2024-11-05 00:09:47 公開日:2024-10-01
# RisingBALLER: プレーヤーはトークンであり、マッチは文である。

RisingBALLER: A player is a token, a match is a sentence, A path towards a foundational model for football players data analytics ( http://arxiv.org/abs/2410.00943v1 )

ライセンス: Link先を確認
Akedjou Achraff Adjileye, (参考訳) 本稿では,フットボールの試合データに基づいてトレーニングされたトランスフォーマーモデルを利用して,試合固有の選手表現を学習する,初めての公開型アプローチであるRisingBALLERを紹介する。 言語モデリングの進歩からインスピレーションを得たRisingBALLERは、各フットボールの試合をプレイヤーがトークンとして機能するユニークなシーケンスとして扱う。 仮面選手予測(MPP)を事前訓練タスクとして使用することにより、RisingBALLERは、言語モデルがテキスト表現のセマンティック機能を学ぶのと同じように、フットボール選手表現の基本的な特徴を学ぶ。 下流タスクとして,学習者埋め込みの有効性を示すために,次のマッチング統計予測(NMSP)を導入する。 NMSPモデルは、コミュニティ内のパフォーマンス予測に一般的に使用される強力なベースラインを超えている。 さらに、RisingBALLERによる学習した埋め込みが、より効果的なデータ駆動スカウトのための、より厳密なx、y座標、チーム結束推定、および類似したプレイヤー検索を超えて、プレイヤーの役割の本質と多様性をキャプチャする意味のある位置特徴を生成するなど、様々なフットボール分析タスクでどのように使用できるかを詳細に分析する。 単純な機械学習モデル以上の、RisingBALLERは、各マッチのコンテキストを考慮して、プレーヤーの高度な基礎的特徴を学習することによって、フットボールデータ分析を変換するように設計された包括的なフレームワークである。 個人統計以上の選手の理解を深めている。

In this paper, I introduce RisingBALLER, the first publicly available approach that leverages a transformer model trained on football match data to learn match-specific player representations. Drawing inspiration from advances in language modeling, RisingBALLER treats each football match as a unique sequence in which players serve as tokens, with their embeddings shaped by the specific context of the match. Through the use of masked player prediction (MPP) as a pre-training task, RisingBALLER learns foundational features for football player representations, similar to how language models learn semantic features for text representations. As a downstream task, I introduce next match statistics prediction (NMSP) to showcase the effectiveness of the learned player embeddings. The NMSP model surpasses a strong baseline commonly used for performance forecasting within the community. Furthermore, I conduct an in-depth analysis to demonstrate how the learned embeddings by RisingBALLER can be used in various football analytics tasks, such as producing meaningful positional features that capture the essence and variety of player roles beyond rigid x,y coordinates, team cohesion estimation, and similar player retrieval for more effective data-driven scouting. More than a simple machine learning model, RisingBALLER is a comprehensive framework designed to transform football data analytics by learning high-level foundational features for players, taking into account the context of each match. It offers a deeper understanding of football players beyond individual statistics.
翻訳日:2024-11-05 00:09:47 公開日:2024-10-01
# GAMMA-PD: パーキンソン病における多モード運動障害のグラフ解析

GAMMA-PD: Graph-based Analysis of Multi-Modal Motor Impairment Assessments in Parkinson's Disease ( http://arxiv.org/abs/2410.00944v1 )

ライセンス: Link先を確認
Favour Nerrise, Alice Louise Heiman, Ehsan Adeli, (参考訳) 医療技術の急速な進歩は、画像、ゲノム学、電子健康記録(EHRs)を含むマルチモーダル医療データの増加に繋がった。 グラフニューラルネットワーク(GNN)は、ペア関係のキャプチャにおける顕著なパフォーマンスのために、このデータを表現するために広く使用されている。 しかし、マルチモーダル医療データの異質性と複雑さは、高次非ペアワイズ関係の学習に苦慮している標準GNNにとって、依然として重大な課題となっている。 本稿では,GAMMA-PD (Graph-based Analysis of Multi-modal Motor Impairment Assessments in Parkinson's Disease) を提案する。 GAMMA-PDは、高次情報と患者プロファイルと症状サブタイプとの類似性を保存することにより、画像と非画像データを"ハイパーネットワーク"(患者集団グラフ)に統合する。 また、下流決定タスクに対する特徴レベルのコントリビューションを解釈する機能ベースの注意重み付け機構を設計する。 我々はParkinson's Progression Markers Initiative(PPMI)とプライベートデータセットからの臨床データを用いてアプローチを評価した。 パーキンソン病における運動障害症状の予測に有意な改善が認められた。 エンド・ツー・エンドのフレームワークは、患者の特徴のサブセット間の関連性も学習し、疾患や症状プロファイルに関する臨床的に関連する説明を生成する。 ソースコードはhttps://github.com/favour-nerrise/GAMMA-PDで公開されている。

The rapid advancement of medical technology has led to an exponential increase in multi-modal medical data, including imaging, genomics, and electronic health records (EHRs). Graph neural networks (GNNs) have been widely used to represent this data due to their prominent performance in capturing pairwise relationships. However, the heterogeneity and complexity of multi-modal medical data still pose significant challenges for standard GNNs, which struggle with learning higher-order, non-pairwise relationships. This paper proposes GAMMA-PD (Graph-based Analysis of Multi-modal Motor Impairment Assessments in Parkinson's Disease), a novel heterogeneous hypergraph fusion framework for multi-modal clinical data analysis. GAMMA-PD integrates imaging and non-imaging data into a "hypernetwork" (patient population graph) by preserving higher-order information and similarity between patient profiles and symptom subtypes. We also design a feature-based attention-weighted mechanism to interpret feature-level contributions towards downstream decision tasks. We evaluate our approach with clinical data from the Parkinson's Progression Markers Initiative (PPMI) and a private dataset. We demonstrate gains in predicting motor impairment symptoms in Parkinson's disease. Our end-to-end framework also learns associations between subsets of patient characteristics to generate clinically relevant explanations for disease and symptom profiles. The source code is available at https://github.com/favour-nerrise/GAMMA-PD.
翻訳日:2024-11-05 00:09:47 公開日:2024-10-01
# WSIに基づく遺伝子発現予測のための深部回帰モデルの評価

Evaluating Deep Regression Models for WSI-Based Gene-Expression Prediction ( http://arxiv.org/abs/2410.00945v1 )

ライセンス: Link先を確認
Fredrik K. Gustafsson, Mattias Rantalainen, (参考訳) ディープラーニングモデルを用いた定期的な全スライド画像(WSI)から直接mRNA遺伝子の発現プロファイルの予測は、コスト効率が高く、広くアクセス可能な分子表現型を提供する可能性がある。 このようなWSIに基づく遺伝子発現予測モデルが最近, 計算病理学に登場したが, 対応する回帰問題の高次元性は, 詳細な解析を行うための多くの設計選択をもたらす。 本研究は、WSIに基づく遺伝子発現予測のために、どのように深部回帰モデルをトレーニングすべきかを推奨する。 例えば、単一のモデルをトレーニングして全ての20530遺伝子を同時に回帰させることは、計算効率が良いが非常に強いベースラインである、と結論付けている。

Prediction of mRNA gene-expression profiles directly from routine whole-slide images (WSIs) using deep learning models could potentially offer cost-effective and widely accessible molecular phenotyping. While such WSI-based gene-expression prediction models have recently emerged within computational pathology, the high-dimensional nature of the corresponding regression problem offers numerous design choices which remain to be analyzed in detail. This study provides recommendations on how deep regression models should be trained for WSI-based gene-expression prediction. For example, we conclude that training a single model to simultaneously regress all 20530 genes is a computationally efficient yet very strong baseline.
翻訳日:2024-11-05 00:09:47 公開日:2024-10-01
# FPGAを高速化した蛍光寿命イメージングのための圧縮リカレントニューラルネットワーク

Compressing Recurrent Neural Networks for FPGA-accelerated Implementation in Fluorescence Lifetime Imaging ( http://arxiv.org/abs/2410.00948v1 )

ライセンス: Link先を確認
Ismail Erbas, Vikas Pandey, Aporva Amarnath, Naigang Wang, Karthik Swaminathan, Stefan T. Radev, Xavier Intes, (参考訳) 蛍光寿命イメージング(FLI)は細胞環境や分子間相互作用を研究する上で重要な技術であるが、リアルタイムの応用は遅いデータ取得によって制限される。 ディープラーニング(DL)モデルはリアルタイム推論を可能にするが、複雑なアーキテクチャと大規模な行列演算のために計算的に要求される。 これにより、フィールドプログラマブルゲートアレイ(FPGA)ベースのカメラハードウェアの直接実装に不適なDLモデルが得られる。 したがって、モデル圧縮はリアルタイムな推論生成のための実践的なデプロイに不可欠である。 本研究では,FLI時系列データ処理に適したリカレントニューラルネットワーク(RNN)の圧縮に着目し,資源制約付きFPGAボードへの展開を実現する。 我々は,重量減少,知識蒸留(KD),後学習量子化(PTQ),量子化学習(QAT)など,様々な圧縮手法の実証評価を行い,推論精度を保ちながらモデルサイズと計算負荷を低減する。 圧縮されたRNNモデルSeq2SeqLiteは,計算効率と予測精度のバランスを,特に8ビット精度で達成する。 KDを適用することで、データキャプチャ中にFPGA上でのリアルタイムFLI解析に適合し、性能を維持しながらモデルのパラメータサイズを98\%削減した。 この研究は、高速な生物学的プロセスのためのハードウェアアクセラレーションされたリアルタイムFLI分析を統合するための大きなステップである。

Fluorescence lifetime imaging (FLI) is an important technique for studying cellular environments and molecular interactions, but its real-time application is limited by slow data acquisition, which requires capturing large time-resolved images and complex post-processing using iterative fitting algorithms. Deep learning (DL) models enable real-time inference, but can be computationally demanding due to complex architectures and large matrix operations. This makes DL models ill-suited for direct implementation on field-programmable gate array (FPGA)-based camera hardware. Model compression is thus crucial for practical deployment for real-time inference generation. In this work, we focus on compressing recurrent neural networks (RNNs), which are well-suited for FLI time-series data processing, to enable deployment on resource-constrained FPGA boards. We perform an empirical evaluation of various compression techniques, including weight reduction, knowledge distillation (KD), post-training quantization (PTQ), and quantization-aware training (QAT), to reduce model size and computational load while preserving inference accuracy. Our compressed RNN model, Seq2SeqLite, achieves a balance between computational efficiency and prediction accuracy, particularly at 8-bit precision. By applying KD, the model parameter size was reduced by 98\% while retaining performance, making it suitable for concurrent real-time FLI analysis on FPGA during data capture. This work represents a big step towards integrating hardware-accelerated real-time FLI analysis for fast biological processes.
翻訳日:2024-11-05 00:00:02 公開日:2024-10-01
# ホロサイクル・レギュレータ--AdS/CFTにおける正確な遮断依存性

The horocycle regulator: exact cutoff-independence in AdS/CFT ( http://arxiv.org/abs/2410.00950v1 )

ライセンス: Link先を確認
Sristy Agrawal, Oliver DeWolfe, Kenneth Higginbotham, Joshua Levin, (参考訳) 場の量子論における単一部分領域の絡み合いエントロピーは、正式に無限であり、正則化を必要とするが、ある種のエントロピーの組み合わせは、レギュレータが取り除かれる極限において完全に有限であり、相互情報は共通の例である。 均一なラジアルカットオフを持つホログラフィック計算のような一般的なレギュレーションスキームでは、これらの量はカットオフの有限値におけるレギュレータへの非自明な依存を示す。 我々は, 境界上の単一点に近づくすべての測地線に垂直な2次元双曲空間の曲線である, \textit{totally} カットオフ非依存の有限情報測度である, \textit{horocycles} から構築した3次元反ド・ジッター空間で定義されるホログラフィック正則化スキームについて検討する。 このような情報尺度の幅広いクラスについて記述し、また、ホロサイクルレギュレータに双対する場の理論が本質的に非局所的であることを述べる。

While the entanglement entropy of a single subregion in quantum field theory is formally infinite and requires regularization, certain combinations of entropies are perfectly finite in the limit that the regulator is removed, the mutual information being a common example. For generic regulator schemes, such as a holographic calculation with a uniform radial cutoff, these quantities show non-trivial dependence on the regulator at finite values of the cutoff. We investigate a holographic regularization scheme defined in three-dimensional anti-de Sitter space constructed from \textit{horocycles}, curves in two-dimensional hyperbolic space perpendicular to all geodesics approaching a single point on the boundary, that leads to finite information measures that are \textit{totally} cutoff-independent, even at finite values of the regulator. We describe a broad class of such information measures, and describe how the field theory dual to the horocycle regulator is inherently non-local.
翻訳日:2024-11-05 00:00:02 公開日:2024-10-01
# 長距離相互作用を持つハバード模型におけるイテナント磁性

Itinerant magnetism in Hubbard models with long-range interactions ( http://arxiv.org/abs/2410.00955v1 )

ライセンス: Link先を確認
Johannes Dieplinger, Rhine Samajdar, R. N. Bhatt, (参考訳) 半導体量子ドットアレイからmoir\'e材料まで、様々な実験プラットフォームが、最近、ハバードモデルとその変種を研究するための強力な量子シミュレータとして登場した。 これらの発展を動機として、長距離クーロン相互作用の効果を含むハバードモデルの一般化を考察する。 有限サイズの2次元2次元格子と三角形格子に作用し、厳密な対角化と密度行列の正規化群計算を用いて強結合状態における基底状態の磁気構造を探索する。 半充填反強磁性体上の小さな電子ドーピングについては、多種多様な磁気秩序状態を発見し、理論的議論と合わせて、ドーピングと相互作用強度の関数として系の位相図を推定する。 特に、長距離クーロン相互作用を含むと高スピン状態$\unicode{x2014}$飽和長岡強磁性体$\unicode{x2014}$towards相分離やストライプ秩序が不安定になる。 我々はまた、このパラダイム的強相関系にさらなる光を当てる実験において、我々の重要な発見のいくつかを観察するための提案を行った。

A wide variety of experimental platforms, ranging from semiconductor quantum-dot arrays to moir\'e materials, have recently emerged as powerful quantum simulators for studying the Hubbard model and its variants. Motivated by these developments, here, we investigate a generalization of the Hubbard model which includes the effects of long-range Coulomb interactions. Working on finite-sized two-dimensional square and triangular lattices, we use exact diagonalization and density-matrix renormalization group calculations to probe the magnetic structure of the ground state in the strong-coupling regime, where $U$ (the onsite repulsion) $\gg$ $t$ (the nearest-neighbor hopping). For small electron dopings above the half-filled antiferromagnet, we numerically uncover a rich variety of magnetically ordered states, and in conjunction with theoretical arguments, infer the phase diagram of the system as a function of doping and interaction strengths. In particular, we find that the inclusion of long-range Coulomb interactions induces an instability of high-spin states$\unicode{x2014}$such as the saturated Nagaoka ferromagnet$\unicode{x2014}$towards phase separation and stripe ordering. We also present proposals for the observation of some of our key findings in experiments that would shed further light on this paradigmatic strongly correlated system.
翻訳日:2024-11-05 00:00:02 公開日:2024-10-01
# Mumax3-cQED:空洞QEDにおけるマグノン-光子相互作用をシミュレートするためのMumax3の拡張

Mumax3-cQED: an extension of Mumax3 to simulate magnon-photon interactions in cavity QED ( http://arxiv.org/abs/2410.00966v1 )

ライセンス: Link先を確認
Sergio Martínez-Losa del Rincón, Juan Román-Roche, Andrés Martín-Megino, David Zueco, María José Martínez-Pérez, (参考訳) 現実的な磁性材料やナノ構造におけるマグノン偏光子をシミュレートするために,よく知られたマイクロ磁気パッケージ Mumax3 の拡張を提案する。 Mumax3-cQEDは、標準スピンスピン相互作用と磁気モーメントの外部空間および時間依存磁場への結合をモデル化するために、Mumax3のGPUアクセラレーション機能を完全に活用する。 我々は、常磁性相と超放射相の両方においてディックモデルから得られた結果に対して符号を検証する。 ハイブリッドマグノン光状態は非平衡力学と平衡へのアプローチと同様に計算可能であることを示す。 さらに,実験結果を再現し,三次元および共平面導波路共振器を含むマグノンキャビティ実験を設計するためのMumax3-cQEDの可能性を示す。 コードは十分に利用可能であり、微視的な飽和強磁性体を含む実験や、ドメインウォール、渦、スカイミオンなどのスピンテクスチャを特徴とするシステムの設計に役立ちます。

We present an extension of the well-known micromagnetic package Mumax3 to simulate magnon-polaritons in realistic magnetic materials and nanostructures. Mumax3-cQED leverages the full GPU-accelerated capabilities of Mumax3 to model standard spin-spin interactions and the coupling of magnetic moments to external space- and time-dependent magnetic fields, with the additional unique feature of including the coupling to a cavity. We validate the code against results obtained from the Dicke model in both the paramagnetic and the superradiant phases. We show that hybrid magnon-light states can be calculated, as well as the non-equilibrium dynamics and their approach to equilibrium. In addition, we demonstrate the potential of Mumax3-cQED to reproduce experimental results and design magnon-cavity experiments, including three-dimensional and coplanar waveguide resonators. The code is fully available and will be useful for designing experiments involving microscopic saturated ferromagnets as well as systems featuring spin textures such as domain walls, vortices, or skyrmions.
翻訳日:2024-11-05 00:00:02 公開日:2024-10-01
# ボースハバードモデルの量子シミュレーションにおける状態準備のための多地点ゲート

Multi-site gates for state preparation in quantum simulation of the Bose Hubbard Model ( http://arxiv.org/abs/2410.00973v1 )

ライセンス: Link先を確認
Pranjal Praneel, Thomas G. Kiely, Erich J. Mueller, Andre G. Petukhov, (参考訳) 容易に構築された積状態からBose-Hubbardモデルの超流動基底状態への近似に変換する多地点ゲート列を構築した。 写像は1次元のハードコア極限において完全であり、1次元と2次元の非相互作用粒子に対しては正確である。 ゲートシーケンスは、多体干渉計の一部として使われ、ダブルロンの存在を調査するなど、他の応用がある。

We construct a sequence of multi-site gates which transform an easily constructed product state into an approximation to the superfluid ground state of the Bose-Hubbard model. The mapping is exact in the one dimensional hard core limit, and for non-interacting particles in both one and two dimensions. The gate sequence has other applications, such as being used as part of a many-body interferometer which probes the existence of doublons.
翻訳日:2024-11-05 00:00:02 公開日:2024-10-01
# 散逸性猫量子ビットに対するFlux-pumpによるT_1$の分解

Flux-pump induced degradation of $T_1$ for dissipative cat qubits ( http://arxiv.org/abs/2410.00975v1 )

ライセンス: Link先を確認
Léon Carde, Pierre Rouchon, Joachim Cohen, Alexandru Petrescu, (参考訳) キャットキュービットの散逸安定化は、貯水池で駆動された2光子損失が位相フリップエラーを引き起こす他のメカニズムよりも大きいことを保証することにより、ビットフリップエラーを自律的に補正する。 後者を説明するために, 消散性猫量子ビットの安定化に用いる非対称スレッディングSQUID系超伝導回路の有効マスター方程式を導出した。 我々は、時間依存的なシュリーファー=ヴォルフ摂動理論における駆動下での緩和過程のドレッシングを、弱非調和なボゾン度自由度、および数値的に正確なフロケ理論で解析する。 また, パラメトリックポンプの作用により, キャットキュービット安定化に必要な相互作用を生成することにより, 単光子崩壊速度が増大することが確認された。 我々の分析は、現在の実験を知らせる緩和戦略に影響を及ぼし、ここで提示した手法は他の回路実装にも拡張できる。

Dissipative stabilization of cat qubits autonomously corrects for bit flip errors by ensuring that reservoir-engineered two-photon losses dominate over other mechanisms inducing phase flip errors. To describe the latter, we derive an effective master equation for an asymmetrically threaded SQUID based superconducting circuit used to stabilize a dissipative cat qubit. We analyze the dressing of relaxation processes under drives in time-dependent Schrieffer-Wolff perturbation theory for weakly anharmonic bosonic degrees of freedom, and in numerically exact Floquet theory. We find that spurious single-photon decay rates can increase under the action of the parametric pump that generates the required interactions for cat-qubit stabilization. Our analysis feeds into mitigation strategies that can inform current experiments, and the methods presented here can be extended to other circuit implementations.
翻訳日:2024-11-05 00:00:02 公開日:2024-10-01
# 競争力のあるオンラインゲームにおける毒性のウイルス性を明らかにする

Uncovering the Viral Nature of Toxicity in Competitive Online Video Games ( http://arxiv.org/abs/2410.00978v1 )

ライセンス: Link先を確認
Jacob Morrier, Amine Mahmassani, R. Michael Alvarez, (参考訳) Toxicityは、競合するオンラインビデオゲームで広く見られる現象である。 直接的な望ましくない効果に加えて、毒性が他人に拡散し、一人のプレーヤーの誤った行動によって引き起こされる害を増幅するのではないかという懸念もある。 本研究では,選手の有害な発言がどの程度広まるかを推定し,チームメイトも同様に振る舞う。 この目的のために,フリーでプレイ可能なアクションゲーム『Call of Duty: Warzone』のプロプライエタリデータを分析した。 我々は,対戦相手間のインタラクションのネットワークを活用する機器変数識別戦略を定式化し,実装する。 分析の結果, 選手のチームメイトが有毒な言動を行う確率は, 平均的な選手が有毒な言動を行う確率の26.1倍から30.3倍に増加することがわかった。 これらの結果から,オンラインゲームにおける毒性,特に有毒な発話のウイルス性が確認された。

Toxicity is a widespread phenomenon in competitive online video games. In addition to its direct undesirable effects, there is a concern that toxicity can spread to others, amplifying the harm caused by a single player's misbehavior. In this study, we estimate whether and to what extent a player's toxic speech spreads, causing their teammates to behave similarly. To this end, we analyze proprietary data from the free-to-play first-person action game Call of Duty: Warzone. We formulate and implement an instrumental variable identification strategy that leverages the network of interactions among players across matches. Our analysis reveals that all else equal, all of a player's teammates engaging in toxic speech increases their probability of engaging in similar behavior by 26.1 to 30.3 times the average player's likelihood of engaging in toxic speech. These findings confirm the viral nature of toxicity, especially toxic speech, in competitive online video games.
翻訳日:2024-11-05 00:00:02 公開日:2024-10-01
# ブロードサウンド分類とデータセットによる異種音分類

Heterogeneous sound classification with the Broad Sound Taxonomy and Dataset ( http://arxiv.org/abs/2410.00980v1 )

ライセンス: Link先を確認
Panagiota Anastasopoulou, Jessica Torrey, Xavier Serra, Frederic Font, (参考訳) 自動音声分類は、機械聴取において幅広い応用があり、文脈対応の音声処理と理解を可能にしている。 本稿では,異種音の自動分類手法について検討する。 本研究では,Broad Sound Taxonomy を用いた分類課題について検討した。Broad Sound Taxonomy は,多種多様な音をカバーし,実用的なユーザアプリケーションに適した意味的特徴を持つ28のクラスからなる2段階の分類法である。 手動のアノテーションによってデータセットを構築し、精度、クラスごとの多様な表現、実世界のシナリオにおける関連性を保証する。 異種音の分類作業のベースラインを確立するために,従来の機械学習手法と現代の機械学習手法を比較した。 本研究では,音の音響的情報と意味的情報の両方をキャプチャする,事前学習したディープニューラルネットワークを用いて抽出した埋め込みと,音響的に導出された音響的表現がどのように比較されるかについて検討する。 実験結果から,音響情報や意味情報をエンコードした音声埋め込みは,分類作業において高い精度を実現することが示された。 分類誤りを慎重に分析した後、障害の原因をいくつか特定し、それらを緩和するためのアクションを提案する。 本論文は,実世界の音環境において,データの複雑さを効果的に処理し,一般化することのできる,あらゆる段階の分類,データの理解,方法論の採用の必要性を強調した。

Automatic sound classification has a wide range of applications in machine listening, enabling context-aware sound processing and understanding. This paper explores methodologies for automatically classifying heterogeneous sounds characterized by high intra-class variability. Our study evaluates the classification task using the Broad Sound Taxonomy, a two-level taxonomy comprising 28 classes designed to cover a heterogeneous range of sounds with semantic distinctions tailored for practical user applications. We construct a dataset through manual annotation to ensure accuracy, diverse representation within each class and relevance in real-world scenarios. We compare a variety of both traditional and modern machine learning approaches to establish a baseline for the task of heterogeneous sound classification. We investigate the role of input features, specifically examining how acoustically derived sound representations compare to embeddings extracted with pre-trained deep neural networks that capture both acoustic and semantic information about sounds. Experimental results illustrate that audio embeddings encoding acoustic and semantic information achieve higher accuracy in the classification task. After careful analysis of classification errors, we identify some underlying reasons for failure and propose actions to mitigate them. The paper highlights the need for deeper exploration of all stages of classification, understanding the data and adopting methodologies capable of effectively handling data complexity and generalizing in real-world sound environments.
翻訳日:2024-11-04 23:49:57 公開日:2024-10-01
# ScVLM:安全臨界事象理解のためのビジョンランゲージモデル

ScVLM: a Vision-Language Model for Driving Safety Critical Event Understanding ( http://arxiv.org/abs/2410.00982v1 )

ライセンス: Link先を確認
Liang Shi, Boyu Jiang, Feng Guo, (参考訳) 事故やほぼクラッシュを含む運転安全クリティカルイベント(SCE)の正確な識別、理解、記述は、交通安全、自動運転システム、高度な運転支援システムの研究と応用に不可欠である。 SCEは稀な出来事であるため、ほとんどの一般の視覚言語モデル(VLM)は、SCEビデオと物語を結びつけるのに十分な訓練を受けておらず、幻覚と主要な安全特性の欠如につながる可能性がある。 これらの課題に対処するために、教師付き学習とコントラスト学習を組み合わせたハイブリッドアプローチであるScVLMを提案し、VLMの動画理解とイベント記述合理性を改善する。 提案手法は,ビデオとSCEアノテーションを備えた最大公用運転データセットである,第2戦略ハイウェイ研究プログラムの自然言語駆動学習データセットから,8,600以上のSCEをトレーニングし,評価する。 提案手法は, 文脈的に正確な事象記述を生成し, VLMからの幻覚を緩和する手法として, 提案手法の優位性を示す。

Accurately identifying, understanding, and describing driving safety-critical events (SCEs), including crashes and near-crashes, is crucial for traffic safety, automated driving systems, and advanced driver assistance systems research and application. As SCEs are rare events, most general Vision-Language Models (VLMs) have not been trained sufficiently to link SCE videos and narratives, which could lead to hallucination and missing key safety characteristics. To tackle these challenges, we propose ScVLM, a hybrid approach that combines supervised learning and contrastive learning to improve driving video understanding and event description rationality for VLMs. The proposed approach is trained on and evaluated by more than 8,600 SCEs from the Second Strategic Highway Research Program Naturalistic Driving Study dataset, the largest publicly accessible driving dataset with videos and SCE annotations. The results demonstrate the superiority of the proposed approach in generating contextually accurate event descriptions and mitigate hallucinations from VLMs.
翻訳日:2024-11-04 23:49:57 公開日:2024-10-01
# オフラインブラックボックス最適化のためのロバスト誘導拡散

Robust Guided Diffusion for Offline Black-Box Optimization ( http://arxiv.org/abs/2410.00983v1 )

ライセンス: Link先を確認
Can, Chen, Christopher Beckham, Zixuan Liu, Xue Liu, Christopher Pal, (参考訳) オフラインのブラックボックス最適化は、デザインとその測定された特性のオフラインデータセットを使用してブラックボックス関数を最大化することを目的としている。 入力から値へのマッピングを学習し、最適化を導くプロキシとして機能するフォワードアプローチと、値から入力へのマッピングを条件生成のために学習する逆アプローチの2つの主要なアプローチが登場した。 (a) プロキシフリー~(分類子フリー)拡散は、逆写像の堅牢なモデリングにおいて有望であるが、訓練分布を超えて高性能なサンプルを生成するために不可欠なプロキシからの明確なガイダンスは欠如している。 そこで、訓練されたプロキシからの明示的なガイダンスを利用して、サンプリング制御を強化したプロキシフリー拡散を促進させる。 (b)ただし、トレーニングされたプロキシは、配布外問題の影響を受けやすい。 これを解決するために,プロキシフリーな拡散からの洞察をプロキシにシームレスに統合し,リファインメントをプロキシに組み込むためのモジュール \textit{diffusion-based proxy refinement} を考案した。 まとめると、オフラインブラックボックス最適化のために \textit{\textbf{R}obust \textbf{G}uided \textbf{D}iffusion を提案する。 RGDは様々なデザインベンチタスクで最先端の結果を達成し、その効果を裏付ける。 私たちのコードはhttps://anonymous.4open.science/r/RGD-27A5/README.mdです。

Offline black-box optimization aims to maximize a black-box function using an offline dataset of designs and their measured properties. Two main approaches have emerged: the forward approach, which learns a mapping from input to its value, thereby acting as a proxy to guide optimization, and the inverse approach, which learns a mapping from value to input for conditional generation. (a) Although proxy-free~(classifier-free) diffusion shows promise in robustly modeling the inverse mapping, it lacks explicit guidance from proxies, essential for generating high-performance samples beyond the training distribution. Therefore, we propose \textit{proxy-enhanced sampling} which utilizes the explicit guidance from a trained proxy to bolster proxy-free diffusion with enhanced sampling control. (b) Yet, the trained proxy is susceptible to out-of-distribution issues. To address this, we devise the module \textit{diffusion-based proxy refinement}, which seamlessly integrates insights from proxy-free diffusion back into the proxy for refinement. To sum up, we propose \textit{\textbf{R}obust \textbf{G}uided \textbf{D}iffusion for Offline Black-box Optimization}~(\textbf{RGD}), combining the advantages of proxy~(explicit guidance) and proxy-free diffusion~(robustness) for effective conditional generation. RGD achieves state-of-the-art results on various design-bench tasks, underscoring its efficacy. Our code is at https://anonymous.4open.science/r/RGD-27A5/README.md.
翻訳日:2024-11-04 23:49:57 公開日:2024-10-01
# 極端熱波予測のための機械学習モデルの階層構造における精度・解釈可能性トレードオフの対応

Tackling the Accuracy-Interpretability Trade-off in a Hierarchy of Machine Learning Models for the Prediction of Extreme Heatwaves ( http://arxiv.org/abs/2410.00984v1 )

ライセンス: Link先を確認
Alessandro Lovo, Amaury Lancelin, Corentin Herbert, Freddy Bouchet, (参考訳) 機械学習(ML)を使用した予測を行う場合、私たちは主にパフォーマンスと解釈可能性に興味を持っています。 複雑なモデルは一般的に高いスキルを持つが、説明が難しいため、信頼できない。 解釈可能性(interpretability)は、下層の現象を物理的に理解することを目的としている気候社会において特に重要である。 さらに、この予測が、社会に高い影響を与える極端な気象事象に関係する場合は、さらにそうである。 本稿では,より複雑なMLモデルの階層構造を用いて,フランス上空の極端熱波の確率論的予測を行う。 より正確には、グローバルガウス近似(GA)から深部畳み込みニューラルネットワーク(CNN)まで、単純なIntrinsically Interpretable Neural Network(IINN)の中間ステップと、Scattering Transform(ScatNet)を用いたモデルを用いています。 以上の結果から,CNNの精度は向上するが,そのブラックボックスの性質は,最先端の説明可能な人工知能(XAI)ツールを用いても,解釈可能性を大幅に制限することがわかった。 対照的に、ScatNetはCNNと同じようなパフォーマンスを実現し、より透明性を提供し、予測を駆動するデータの重要スケールとパターンを特定します。 この研究は、気候科学のためのMLモデルにおける解釈可能性の可能性を強調し、より単純なモデルがより複雑なモデルの性能に匹敵することを示した。 この解釈可能性の獲得は、モデル予測の信頼の構築と新たな科学的知見の発見に不可欠であり、最終的には極度の気象事象の理解と管理を促進する。

When performing predictions that use Machine Learning (ML), we are mainly interested in performance and interpretability. This generates a natural trade-off, where complex models generally have higher skills but are harder to explain and thus trust. Interpretability is particularly important in the climate community, where we aim at gaining a physical understanding of the underlying phenomena. Even more so when the prediction concerns extreme weather events with high impact on society. In this paper, we perform probabilistic forecasts of extreme heatwaves over France, using a hierarchy of increasingly complex ML models, which allows us to find the best compromise between accuracy and interpretability. More precisely, we use models that range from a global Gaussian Approximation (GA) to deep Convolutional Neural Networks (CNNs), with the intermediate steps of a simple Intrinsically Interpretable Neural Network (IINN) and a model using the Scattering Transform (ScatNet). Our findings reveal that CNNs provide higher accuracy, but their black-box nature severely limits interpretability, even when using state-of-the-art Explainable Artificial Intelligence (XAI) tools. In contrast, ScatNet achieves similar performance to CNNs while providing greater transparency, identifying key scales and patterns in the data that drive predictions. This study underscores the potential of interpretability in ML models for climate science, demonstrating that simpler models can rival the performance of their more complex counterparts, all the while being much easier to understand. This gained interpretability is crucial for building trust in model predictions and uncovering new scientific insights, ultimately advancing our understanding and management of extreme weather events.
翻訳日:2024-11-04 23:49:57 公開日:2024-10-01
# TransResNet: 特徴グラフトによる高分解能医用画像分割のためのViTとCNNの強度統合

TransResNet: Integrating the Strengths of ViTs and CNNs for High Resolution Medical Image Segmentation via Feature Grafting ( http://arxiv.org/abs/2410.00986v1 )

ライセンス: Link先を確認
Muhammad Hamza Sharif, Dmitry Demidov, Asif Hanif, Mohammad Yaqub, Min Xu, (参考訳) 医用画像領域で高解像度画像が好ましいのは、基礎となる方法の診断能力を大幅に向上させるためである。 特に、高解像度は自動画像セグメンテーションの改善に大きく貢献する。 しかし,既存の深層画像分割技術の多くは,空間次元の小さい入力画像に最適化されており,高解像度画像では不十分である。 そこで本研究では,Transformer と CNN を並列的に組み込んで,マルチ解像度画像から特徴を独立して抽出する TransResNet という並列処理アーキテクチャを提案する。 TransResNetでは,TransformerとCNNのブランチの機能マップを融合と自己保持機構を通じて組み合わせることで,グローバルなセマンティックと低レベルの空間的詳細の両方に富む,移植された特徴を生成するクロスグラフティングモジュール(CGM)を導入している。 さらに,これらのグラフトした特徴をデコード処理に用いて,情報フローを増大させ,セグメンテーションマスクの予測精度を向上する。 10つのデータセットに対する大規模な実験により、TransResNetは皮膚病変、網膜血管、ポリープのセグメンテーションを含むいくつかのセグメンテーションタスクにおいて、最先端または競合的な結果を達成することが示された。 ソースコードと事前トレーニングされたモデルはhttps://github.com/Sharifmhamza/TransResNet.comで入手できる。

High-resolution images are preferable in medical imaging domain as they significantly improve the diagnostic capability of the underlying method. In particular, high resolution helps substantially in improving automatic image segmentation. However, most of the existing deep learning-based techniques for medical image segmentation are optimized for input images having small spatial dimensions and perform poorly on high-resolution images. To address this shortcoming, we propose a parallel-in-branch architecture called TransResNet, which incorporates Transformer and CNN in a parallel manner to extract features from multi-resolution images independently. In TransResNet, we introduce Cross Grafting Module (CGM), which generates the grafted features, enriched in both global semantic and low-level spatial details, by combining the feature maps from Transformer and CNN branches through fusion and self-attention mechanism. Moreover, we use these grafted features in the decoding process, increasing the information flow for better prediction of the segmentation mask. Extensive experiments on ten datasets demonstrate that TransResNet achieves either state-of-the-art or competitive results on several segmentation tasks, including skin lesion, retinal vessel, and polyp segmentation. The source code and pre-trained models are available at https://github.com/Sharifmhamza/TransResNet.
翻訳日:2024-11-04 23:49:57 公開日:2024-10-01
# GPT-4を用いた東アジアイディオムの創造的・文脈的翻訳

Creative and Context-Aware Translation of East Asian Idioms with GPT-4 ( http://arxiv.org/abs/2410.00988v1 )

ライセンス: Link先を確認
Kenan Tang, Peiyang Song, Yao Qin, Xifeng Yan, (参考訳) 図形言語の一種として、東アジアのイディオムは豊かな文化的背景をわずかの文字に凝縮している。 このような慣用句の翻訳は、既存の候補者リストから文脈対応の翻訳を選択することを好む人間の翻訳者にとって難しい。 しかし、候補翻訳の辞書を編纂するには、専門家翻訳者にとっても多くの時間と創造性が必要である。 このような負担を軽減するため、GPT-4が高品質な翻訳を生成できるかどうかを評価する。 忠実さと創造性の自動評価に基づいて、GoogleとDeepLの翻訳エンジンよりも優れたパレート最適化戦略を最初に特定する。 そして、低コストで、私たちのコンテキスト対応翻訳は、人間のベースラインよりも、イディオム当たりの高品質な翻訳を達成できます。 さらなる研究を促進するために、すべてのコードとデータをオープンソースにしています。

As a type of figurative language, an East Asian idiom condenses rich cultural background into only a few characters. Translating such idioms is challenging for human translators, who often resort to choosing a context-aware translation from an existing list of candidates. However, compiling a dictionary of candidate translations demands much time and creativity even for expert translators. To alleviate such burden, we evaluate if GPT-4 can help generate high-quality translations. Based on automatic evaluations of faithfulness and creativity, we first identify Pareto-optimal prompting strategies that can outperform translation engines from Google and DeepL. Then, at a low cost, our context-aware translations can achieve far more high-quality translations per idiom than the human baseline. We open-source all code and data to facilitate further research.
翻訳日:2024-11-04 23:49:57 公開日:2024-10-01
# LaDTalk: 高頻度でトーキングヘッドビデオを合成する遅延デノイング

LaDTalk: Latent Denoising for Synthesizing Talking Head Videos with High Frequency Details ( http://arxiv.org/abs/2410.00990v1 )

ライセンス: Link先を確認
Jian Yang, Xukun Wang, Wentao Wang, Guoming Li, Qihang Fang, Ruihong Yuan, Tianyang Wang, Jason Zhaoxin Fan, (参考訳) 音声駆動音声ヘッド生成は、映画制作とバーチャルリアリティーにおける重要な領域である。 既存の手法はエンド・ツー・エンドのパラダイムに従って大きな進歩を遂げてきたが、この領域での表現力に制限があるため、高頻度の細部で動画を制作する際の課題に直面している。 この制限は、写真リアリスティックな音声ヘッドビデオの合成に有効な後処理手法を探るきっかけとなった。 具体的には,基礎モデルとして事前訓練されたWav2Lipモデルを使用し,その堅牢なオーディオ-リップアライメント機能を活用している。 リプシッツ連続性の理論に基づいて、ベクトル量子化オートエンコーダ(VQAE)のノイズロバスト性を理論的に確立した。 さらに,提案した空間最適化ベクトル量子化オートエンコーダ(SOVQAE)により,基礎モデルの高頻度テクスチャ欠損を時間的に復元できることを示した。 我々は、従来のデータセットと、私たちがキュレートしたHFTK(High-Frequency TalKing Head)データセットの両方について実験を行った。 以上の結果から,本手法は,最先端の映像品質とドメイン外リップ同期性能を実現することが示唆された。

Audio-driven talking head generation is a pivotal area within film-making and Virtual Reality. Although existing methods have made significant strides following the end-to-end paradigm, they still encounter challenges in producing videos with high-frequency details due to their limited expressivity in this domain. This limitation has prompted us to explore an effective post-processing approach to synthesize photo-realistic talking head videos. Specifically, we employ a pretrained Wav2Lip model as our foundation model, leveraging its robust audio-lip alignment capabilities. Drawing on the theory of Lipschitz Continuity, we have theoretically established the noise robustness of Vector Quantised Auto Encoders (VQAEs). Our experiments further demonstrate that the high-frequency texture deficiency of the foundation model can be temporally consistently recovered by the Space-Optimised Vector Quantised Auto Encoder (SOVQAE) we introduced, thereby facilitating the creation of realistic talking head videos. We conduct experiments on both the conventional dataset and the High-Frequency TalKing head (HFTK) dataset that we curated. The results indicate that our method, LaDTalk, achieves new state-of-the-art video quality and out-of-domain lip synchronization performance.
翻訳日:2024-11-04 23:49:57 公開日:2024-10-01
# 四面体を超える帯域制御のためのタイトレート

Tight Rates for Bandit Control Beyond Quadratics ( http://arxiv.org/abs/2410.00993v1 )

ライセンス: Link先を確認
Y. Jennifer Sun, Zhou Lu, (参考訳) 線形二次制御(LQC)のような古典的な制御理論とは異なり、現実世界の制御問題は極めて複雑である。 これらの問題は、しばしば敵の摂動、盗賊のフィードバックモデル、および非四角形で反対に選択されたコスト関数を含む。 根本的な未解決の問題は、これらの一般的な制御問題に対して最適な後悔が達成できるかどうかである。 この問題に対処する標準的なアプローチは、メモリによる帯域の凸最適化を減らすことである。 帯域設定では、メモリ構造と非二次損失関数のために、低分散の勾配推定器を構築することが困難である。 本稿では,この問題に対する肯定的な回答を提供する。 我々の主な貢献は、強凸でスムーズなコスト関数を持つ非確率的制御を逆の摂動が存在する場合に、$\tilde{O}(\sqrt{T})$最適後悔を達成するアルゴリズムであり、これまで知られていた$\tilde{O}(T^{2/3})$後悔境界(Cassel and Koren, 2020)の改善である。 提案アルゴリズムは,BCOの最近の進歩(Suggala et al , 2024)を用いて,メモリを使用せずにBandit Convex Optimization (BCO) に問題を還元し,メモリの問題を克服する。 その過程で,BCO をメモリ付きで改良したアルゴリズムを開発した。

Unlike classical control theory, such as Linear Quadratic Control (LQC), real-world control problems are highly complex. These problems often involve adversarial perturbations, bandit feedback models, and non-quadratic, adversarially chosen cost functions. A fundamental yet unresolved question is whether optimal regret can be achieved for these general control problems. The standard approach to addressing this problem involves a reduction to bandit convex optimization with memory. In the bandit setting, constructing a gradient estimator with low variance is challenging due to the memory structure and non-quadratic loss functions. In this paper, we provide an affirmative answer to this question. Our main contribution is an algorithm that achieves an $\tilde{O}(\sqrt{T})$ optimal regret for bandit non-stochastic control with strongly-convex and smooth cost functions in the presence of adversarial perturbations, improving the previously known $\tilde{O}(T^{2/3})$ regret bound from (Cassel and Koren, 2020. Our algorithm overcomes the memory issue by reducing the problem to Bandit Convex Optimization (BCO) without memory and addresses general strongly-convex costs using recent advancements in BCO from (Suggala et al., 2024). Along the way, we develop an improved algorithm for BCO with memory, which may be of independent interest.
翻訳日:2024-11-04 23:49:57 公開日:2024-10-01
# CktGen: 仕様定義アナログ回路生成

CktGen: Specification-Conditioned Analog Circuit Generation ( http://arxiv.org/abs/2410.00995v1 )

ライセンス: Link先を確認
Yuxuan Hou, Jianrong Zhang, Hua Chen, Min Zhou, Faxin Yu, Hehe Fan, Yi Yang, (参考訳) アナログ回路の自動合成は重要な課題である。 既存の手法は通常、タスクを最適化問題として扱い、新しい要求に対する転送可能性と再利用性を制限する。 この制限に対処するために、仕様条件付きアナログ回路生成と呼ばれる特定の仕様に基づいてアナログ回路を直接生成するタスクを導入する。 具体的には、仕様と回路を結合潜在空間にマッピングし、回路を潜在空間から再構成する、単純で効果的な変分オートエンコーダ(VAE)モデルであるCktGenを提案する。 さらに、単一の仕様が複数の異なる回路に対応できることを考えると、単に回路と仕様のマッピングされた潜在表現との距離を最小化することは、これら1対多の関係を捉えない。 これを解決するために,モデル崩壊を防止するために,コントラスト学習と分類器指導を統合した。 オープンサーキットベンチマーク(OCB)の総合的な実験を行い、仕様・回路間の整合性を評価するための新しい評価指標を導入する。 実験結果は既存の最先端手法よりも大幅に改善された。

Automatic synthesis of analog circuits presents significant challenges. Existing methods usually treat the task as optimization problems, which limits their transferability and reusability for new requirements. To address this limitation, we introduce a task that directly generates analog circuits based on specified specifications, termed specification-conditioned analog circuit generation. Specifically, we propose CktGen, a simple yet effective variational autoencoder (VAE) model, that maps specifications and circuits into a joint latent space, and reconstructs the circuit from the latent. Moreover, given that a single specification can correspond to multiple distinct circuits, simply minimizing the distance between the mapped latent representations of the circuit and specification does not capture these one-to-many relationships. To address this, we integrate contrastive learning and classifier guidance to prevent model collapse. We conduct comprehensive experiments on the Open Circuit Benchmark (OCB) and introduce new evaluation metrics for cross-model consistency in the specification-to-circuit generation task. Experimental results demonstrate substantial improvements over existing state-of-the-art methods.
翻訳日:2024-11-04 23:49:57 公開日:2024-10-01
# 平らな視線にたどり着く」:社会的に定位されたノルムを明らかにするための合成ダイアログ生成を設計する

"Hiding in Plain Sight": Designing Synthetic Dialog Generation for Uncovering Socially Situated Norms ( http://arxiv.org/abs/2410.00998v1 )

ライセンス: Link先を確認
Chengfei Wu, Dan Goldwasser, (参考訳) 自然に位置付けられた会話は、会話のトピック、インターロケータ間の関係とそのコミュニケーション意図にふさわしい基礎となる社会的規範を捉えている。 本稿では,年齢,職業,性格タイプ,関係タイプ,会話トピック,会話トラジェクトリなど,多種多様なインターロケータ属性にまたがる対話生成制御フレームワークを提案する。 我々はこの枠組みを用いて、これらのリッチな設定に整合した対話の集合であるNormHintを生成し、紛争につながる規範違反を解析し、これらの紛争を回避するための潜在的なステップとして、社会規範に固執し、本来の発話のコミュニケーション意図を維持した敬意の発声を優先する。 我々は,NormHintの人間による検証と自動分析の結果を提示し,会話の話題を多岐にわたって捉え,会話の自然性について高い評価を得られることを示した。

Naturally situated conversations capture the underlying social norms appropriate for the topic of conversation, the relationship between interlocutors and their communicative intent. This paper proposes a framework for controlled generation of dialogues, spanning a wide range of interlocutors attributes (such as age group, profession and personality types), relationship types, conversation topics and conversational trajectories. We use this framework to generate NormHint, a collection of dialogues consistent with these rich settings and analyzed for norm violation leading to conflicts, and potential steps for avoiding these conflicts by adhering to social norms and preferring respectful utterances maintaining the communicative intents of the original utterance. We present the results of human validation and automated analysis of NormHint and show it captures a wide range of conversational topics and scored highly by humans for the naturalness of the conversations based on the prompted context.
翻訳日:2024-11-04 23:49:57 公開日:2024-10-01
# Y-CA-Net: ボリューム・メディカル・イメージ・セグメンテーションのためのコンボリューショナル・アテンション・ベース・ネットワーク

Y-CA-Net: A Convolutional Attention Based Network for Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2410.01003v1 )

ライセンス: Link先を確認
Muhammad Hamza Sharif, Muzammal Naseer, Mohammad Yaqub, Min Xu, Mohsen Guizani, (参考訳) 近年の注意ベースボリュームセグメンテーション (VS) 法は, 長期依存のモデリングに焦点をあてた医療領域において, 顕著な性能を発揮している。 しかしながら、voxel-wiseの予測タスクでは、注意に基づくVSメソッドに欠けているVSモデルのパフォーマンスにおいて、差別的なローカル機能は重要な要素である。 この問題を解決するために,我々は,畳み込みエンコーダ分岐をトランスフォーマーバックボーンに意図的に組み込んで,局所的特徴とグローバルな特徴を並列に抽出し,それらをCFMM(Cross Feature Mixer Module)に集約し,セグメンテーションマスクの予測を改善する。 その結果,Y-CT-Netは複数の医療セグメンテーションタスクにおいて競合性能を発揮することがわかった。 例えば、マルチ組織セグメンテーションにおいて、Y-CT-Netは82.4%のダイススコアを獲得し、よく調整されたVS Transformer/CNNライクなベースラインであるUNETR/ResNet-3Dを2.9%/1.4%上回る。 Y-CT-Netの成功により、この概念をハイブリッドアテンションモデル(Y-CH-Netモデル)で拡張し、同じセグメンテーションタスクにおけるHD95スコアの3%の改善をもたらす。 Y-CT-NetとY-CH-Netの両モデルの有効性は、我々の仮説を検証し、2つのエンコーダとデコーダのバックボーンをベースとした汎用的な汎用アーキテクチャであるY-CA-Netの概念の開始を動機付け、畳み込みと注意機構の相補的な強みを完全に活用する。 実験結果から,Y-CA-Netはボリュームセグメンテーションにおいて優れた結果を得る上で鍵となる役割を担っていると論じる。

Recent attention-based volumetric segmentation (VS) methods have achieved remarkable performance in the medical domain which focuses on modeling long-range dependencies. However, for voxel-wise prediction tasks, discriminative local features are key components for the performance of the VS models which is missing in attention-based VS methods. Aiming at resolving this issue, we deliberately incorporate the convolutional encoder branch with transformer backbone to extract local and global features in a parallel manner and aggregate them in Cross Feature Mixer Module (CFMM) for better prediction of segmentation mask. Consequently, we observe that the derived model, Y-CT-Net, achieves competitive performance on multiple medical segmentation tasks. For example, on multi-organ segmentation, Y-CT-Net achieves an 82.4% dice score, surpassing well-tuned VS Transformer/CNN-like baselines UNETR/ResNet-3D by 2.9%/1.4%. With the success of Y-CT-Net, we extend this concept with hybrid attention models, that derived Y-CH-Net model, which brings a 3% improvement in terms of HD95 score for same segmentation task. The effectiveness of both models Y-CT-Net and Y-CH-Net verifies our hypothesis and motivates us to initiate the concept of Y-CA-Net, a versatile generic architecture based upon any two encoders and a decoder backbones, to fully exploit the complementary strengths of both convolution and attention mechanisms. Based on experimental results, we argue Y-CA-Net is a key player in achieving superior results for volumetric segmentation.
翻訳日:2024-11-04 23:49:57 公開日:2024-10-01
# 保険データの罰則回帰モデルにおける係数の区間推定

Interval Estimation of Coefficients in Penalized Regression Models of Insurance Data ( http://arxiv.org/abs/2410.01008v1 )

ライセンス: Link先を確認
Alokesh Manna, Zijian Huang, Dipak K. Dey, Yuwen Gu, (参考訳) ツイーディー指数分散ファミリーは、ゼロインフレド半連続データからなる保険の損失をモデル化するために、多くの人々の間で人気がある。 このようなデータでは、内在変数を記述する最も重要な特徴の信頼性(推論)を得ることがしばしば重要である。 ポスト選択推論は、特徴抽出手順を実行した後、モデルパラメータの信頼区間を得るための統計学における標準手順である。 線形モデルでは、ラッソ推定はしばしば外生変数に対応する大きな係数に対して無視できない推定バイアスを持つ。 これらの係数を有効に推測するためには、ラッソ推定のバイアスを補正する必要がある。 仮説テストや標準信頼区間構築のような従来の統計手法は、一般に楽観的すぎるため、選択後の誤った結論につながる可能性がある。 本稿では、一般線形モデル(GLM)ファミリーにおける特徴選択後の係数の信頼区間を構築するためのいくつかの手法と保険データへの適用について論じる。

The Tweedie exponential dispersion family is a popular choice among many to model insurance losses that consist of zero-inflated semicontinuous data. In such data, it is often important to obtain credibility (inference) of the most important features that describe the endogenous variables. Post-selection inference is the standard procedure in statistics to obtain confidence intervals of model parameters after performing a feature extraction procedure. For a linear model, the lasso estimate often has non-negligible estimation bias for large coefficients corresponding to exogenous variables. To have valid inference on those coefficients, it is necessary to correct the bias of the lasso estimate. Traditional statistical methods, such as hypothesis testing or standard confidence interval construction might lead to incorrect conclusions during post-selection, as they are generally too optimistic. Here we discuss a few methodologies for constructing confidence intervals of the coefficients after feature selection in the Generalized Linear Model (GLM) family with application to insurance data.
翻訳日:2024-11-04 23:49:57 公開日:2024-10-01
# コードインタビュー: 入門プログラミングのアサインメントに対するより厳密な評価の設計と評価

Code Interviews: Design and Evaluation of a More Authentic Assessment for Introductory Programming Assignments ( http://arxiv.org/abs/2410.01010v1 )

ライセンス: Link先を確認
Suhas Kannam, Yuri Yang, Aarya Dharm, Kevin Lin, (参考訳) 生成的人工知能は、評価と学術的整合性に関する新たな課題を提起する。 しかし、試験の構造は、コンピュータインタラクションを伴うプログラムの計画、実装、デバッグを含む、真のプログラミング経験に適合しないことが多い。 本経験報告では,家庭内プログラミングの課題に対する,より正確な評価手法であるコードインタビューについて述べる。 行動研究を通じて,質問数や質問の種類,インタビューが個別に行われたか,あるいは学生のグループによって行われたのかを実験した。 プログラムの規模を拡大するために、毎週の授業アシスタント(TA)セクションの大半を変換し、5つの主要な在宅プログラミング課題に関するコードインタビューを実施しました。 5つの情報源からのデータを三角測量して4つのテーマを特定した。 コードインタヴューでは,(1)学生に作業の議論を促し,よりニュアンスな,時には繰り返しの洞察を動機付けること,(2)ピアラーニングを可能とし,ある意味でストレスを減らし,他の方法でストレスを増すこと,(3)慣れ親しんだ実践を慣れ親しんだ評価に置き換えること,(4)学生のコントリビューションを重視し,TAが指導やフィードバックを行う機会を制限すること,などが示唆された。 我々は、学生体験、学術的整合性、作業負荷の教育など、コードインタビューの設計に関するさまざまな決定について論じる。

Generative artificial intelligence poses new challenges around assessment and academic integrity, increasingly driving introductory programming educators to employ invigilated exams often conducted in-person on pencil-and-paper. But the structure of exams often fails to accommodate authentic programming experiences that involve planning, implementing, and debugging programs with computer interaction. In this experience report, we describe code interviews: a more authentic assessment method for take-home programming assignments. Through action research, we experimented with varying the number and type of questions as well as whether interviews were conducted individually or with groups of students. To scale the program, we converted most of our weekly teaching assistant (TA) sections to conduct code interviews on 5 major weekly take-home programming assignments. By triangulating data from 5 sources, we identified 4 themes. Code interviews (1) pushed students to discuss their work, motivating more nuanced but sometimes repetitive insights; (2) enabled peer learning, reducing stress in some ways but increasing stress in other ways; (3) scaled with TA-led sections, replacing familiar practice with an unfamiliar assessment; (4) focused on student contributions, limiting opportunities for TAs to give guidance and feedback. We conclude by discussing the different decisions about the design of code interviews with implications for student experience, academic integrity, and teaching workload.
翻訳日:2024-11-04 23:49:57 公開日:2024-10-01
# 黒人の生きた体験のための意図的デザイン技術

"For Us By Us": Intentionally Designing Technology for Lived Black Experiences ( http://arxiv.org/abs/2410.01014v1 )

ライセンス: Link先を確認
Lisa Egede, Leslie Coney, Brittany Johnson, Christina N. Harrington, Denae Ford, (参考訳) これまでHCIの研究は、人種的にマイノリティー化されたコミュニティが技術システムを構築し、設計し、使用するためのユニークなアプローチの表面を掻き砕いただけである。 人種グループ全体にわたる人々が、さまざまなプラットフォームにまたがってコミュニティを構築する方法の理解度は高まっているが、黒人技術者が自身のコミュニティをどのように設計し、自分たちのコミュニティのためにデザインするかを明確にする研究は、依然として不足している。 本稿では,生きた黒人体験を支援するために,黒人技術者による半構造化されたインタビューの成果を報告する。 彼らの経験から、我々は生き残り、結びついたままで、文化的意義があり、祝いの喜びを味わうための多面的アプローチを見出した。 さらに、我々は、デザインにおいて生きた黒人体験を集中させる必要性を強調し、より広い研究コミュニティに、マージンに焦点を絞ったデザインに関するさらなる調査を行うためのアプローチを共有している。

HCI research to date has only scratched the surface of the unique approaches racially minoritized communities take to building, designing, and using technology systems. While there has been an increase in understanding how people across racial groups create community across different platforms, there is still a lack of studies that explicitly center on how Black technologists design with and for their own communities. In this paper, we present findings from a series of semi-structured interviews with Black technologists who have used, created, or curated resources to support lived Black experiences. From their experiences, we find a multifaceted approach to design as a means of survival, to stay connected, for cultural significance, and to bask in celebratory joy. Further, we provide considerations that emphasize the need for centering lived Black experiences in design and share approaches that can empower the broader research community to conduct further inquiries into design focused on those in the margins.
翻訳日:2024-11-04 23:40:11 公開日:2024-10-01
# PLWE攻撃に対する汎用的アプローチ

A Generalized Approach to Root-based Attacks against PLWE ( http://arxiv.org/abs/2410.01017v1 )

ライセンス: Link先を確認
Iván Blanco Chacón, Raúl Durán Díaz, Rodrigo Martín Sánchez-Ledesma, (参考訳) PLWE(Polynomial Learning With Errors problem)は、2024年8月に国立標準技術研究所によって標準化され、RSAやディフィー・ヘルマン(Diffie-Hellman)や楕円曲線のアナログをベースとした非量子耐性の現在のプリミティブを置き換えるための3つの暗号システムの背景となっている。 PLWEは量子抵抗性が高いと考えられているが、この事実はまだ確立されていない。 さらに、いくつかの特定のインスタンスに対して、いくつかの脆弱性が発生している。 よりフレキシブルな探索において、他の多項式に基づいてPLWEの堅牢性を研究することは、必ずしもシクロトミックではない。 2015年、エリアスらは多項式の根の異なる特徴に基づく多くの攻撃を発見した。 本研究では, PLWE に対する近似について概説するとともに, エリアスらによる新たな攻撃と, エリアスらによる3つのシナリオに基づく有限体上の有限体上の根のトレースの順序を利用して, 攻撃の実施可能な設定を一般化する手法を提案する。

The Polynomial Learning With Errors problem (PLWE) serves as the background of two of the three cryptosystems standardized in August 2024 by the National Institute of Standards and Technology to replace non-quantum resistant current primitives like those based on RSA, Diffie-Hellman or its elliptic curve analogue. Although PLWE is highly believed to be quantum resistant, this fact has not yet been established, contrariwise to other post-quantum proposals like multivariate and some code based ones. Moreover, several vulnerabilities have been encountered for a number of specific instances. In a search for more flexibility, it becomes fully relevant to study the robustness of PLWE based on other polynomials, not necessarily cyclotomic. In 2015, Elias et al found a good number of attacks based on different features of the roots of the polynomial. In the present work we present an overview of the approximations made against PLWE derived from this and subsequent works, along with several new attacks which refine those by Elias et al. exploiting the order of the trace of roots over finite extensions of the finite field under the three scenarios laid out by Elias et al., allowing to generalize the setting in which the attacks can be carried out.
翻訳日:2024-11-04 23:40:11 公開日:2024-10-01
# 言語モデル学習におけるドロップアウトと残留接続の相乗効果の検討

Investigating the Synergistic Effects of Dropout and Residual Connections on Language Model Training ( http://arxiv.org/abs/2410.01019v1 )

ライセンス: Link先を確認
Qingyang Li, Weimao Ke, (参考訳) 本稿では,言語モデル学習における過剰適合軽減におけるドロップアウト手法の意義について考察する。 言語モデリングの文脈における個々の層と残余接続に対する変数のドロップアウト率の影響について、包括的な調査を行っている。 本研究は,古典的なTiny Shakespeareデータに対するデコーダ実装のトレーニングを行い,トレーニング効率と検証誤差に対する調整の効果について検討する。 結果は、正規化のためのドロップアウトの利点と収束のための残差を確認するだけでなく、興味深い相互作用を明らかにする。 残差接続の深さとこれらの接続へのドロップアウトの間には、最適なディープニューラルネットワーク収束と一般化のための重要なトレードオフが存在する。

This paper examines the pivotal role of dropout techniques in mitigating overfitting in language model training. It conducts a comprehensive investigation into the influence of variable dropout rates on both individual layers and residual connections within the context of language modeling. Our study conducts training of a decoder implementation on the classic Tiny Shakespeare data to examine the effects of the adjustments on training efficiency and validation error. Results not only confirm the benefits of dropout for regularization and residuals for convergence, but also reveal their interesting interactions. There exists an important trade-off between the depth of residual connections and the dropout on these connections for optimal deep neural network convergence and generalization.
翻訳日:2024-11-04 23:40:11 公開日:2024-10-01
# 負音を含む視覚音源定位モデルの批判的評価

A Critical Assessment of Visual Sound Source Localization Models Including Negative Audio ( http://arxiv.org/abs/2410.01020v1 )

ライセンス: Link先を確認
Xavier Juanola, Gloria Haro, Magdalena Fuentes, (参考訳) Visual Sound Source Localization (VSSL) のタスクは、視覚的なシーンにおける音源の位置を特定し、シーン理解を強化するために音声と視覚データを統合することである。 最先端モデル(SOTA)の進歩にもかかわらず、我々は3つの重大な欠陥を観察している。 一 モデルの評価は、主に画像に写っている物体が生み出す音に焦点を当てる。 二 評価は、しばしば、音の大きさについての事前の知識を仮定し、 三 現実シナリオにおけるローカライゼーションの普遍的しきい値が確立されていないこと。 本稿では,画像中のオブジェクトが音声入力に対応しない場合,すなわち負の音声で,VSSLモデルの現在の標準評価を完了するための新しいテストセットとメトリクスを提案する。 我々は、沈黙、騒音、オフスクリーンの3種類の否定的オーディオについて検討している。 分析の結果,多くのSOTAモデルでは音声入力に基づいて予測を適切に調整できないことが判明し,これらのモデルが意図した音声情報を利用していない可能性が示唆された。 さらに、推定音声-視覚類似度マップにおける最大値の範囲を、正と負の両方のオーディオケースで包括的に分析し、ほとんどのモデルが十分に識別できないことを示し、音の大きさや可視性などの事前情報なしで、音像定位を行うのに適した普遍的なしきい値を選択するのに不適であることを示す。

The task of Visual Sound Source Localization (VSSL) involves identifying the location of sound sources in visual scenes, integrating audio-visual data for enhanced scene understanding. Despite advancements in state-of-the-art (SOTA) models, we observe three critical flaws: i) The evaluation of the models is mainly focused in sounds produced by objects that are visible in the image, ii) The evaluation often assumes a prior knowledge of the size of the sounding object, and iii) No universal threshold for localization in real-world scenarios is established, as previous approaches only consider positive examples without accounting for both positive and negative cases. In this paper, we introduce a novel test set and metrics designed to complete the current standard evaluation of VSSL models by testing them in scenarios where none of the objects in the image corresponds to the audio input, i.e. a negative audio. We consider three types of negative audio: silence, noise and offscreen. Our analysis reveals that numerous SOTA models fail to appropriately adjust their predictions based on audio input, suggesting that these models may not be leveraging audio information as intended. Additionally, we provide a comprehensive analysis of the range of maximum values in the estimated audio-visual similarity maps, in both positive and negative audio cases, and show that most of the models are not discriminative enough, making them unfit to choose a universal threshold appropriate to perform sound localization without any a priori information of the sounding object, that is, object size and visibility.
翻訳日:2024-11-04 23:40:11 公開日:2024-10-01
# 人間-LLMのダイナミックさを理解する:プログラミングタスクにおけるLLMの利用に関する文献調査

Understanding the Human-LLM Dynamic: A Literature Survey of LLM Use in Programming Tasks ( http://arxiv.org/abs/2410.01026v1 )

ライセンス: Link先を確認
Deborah Etsenake, Meiyappan Nagappan, (参考訳) 大規模言語モデル(LLM)はプログラミングプラクティスを変革し、コード生成活動に重要な機能を提供する。 研究者は様々な分野におけるLLMの可能性を探っているが、本論文はプログラミングタスクにおけるLLMの利用に焦点を当て、LLMがプログラミングタスクに与える影響を評価するユーザ研究からの洞察を引き出す。 本研究では,これらの研究で観測されたLCMとユーザインタラクションの振る舞いを,タスク完了戦略への要求の種類から検討した。 さらに,LLMの利点と弱点が人間とタスクに混在していることを明らかにする。 最後に,人間,LLM,および両者の相互作用の要因が,タスクパフォーマンスだけでなく,人間の強化にどのような影響を及ぼすかを検討した。 本研究は, 両者の非決定論的性質(人間とLLM)による人間とLLMの相互作用の多様性を明らかにするとともに, これらの相互作用パターンのより深い理解の必要性を浮き彫りにした。 我々は,研究者とプログラマに実践的な提案を提供することで結論付ける。

Large Language Models (LLMs) are transforming programming practices, offering significant capabilities for code generation activities. While researchers have explored the potential of LLMs in various domains, this paper focuses on their use in programming tasks, drawing insights from user studies that assess the impact of LLMs on programming tasks. We first examined the user interaction behaviors with LLMs observed in these studies, from the types of requests made to task completion strategies. Additionally, our analysis reveals both benefits and weaknesses of LLMs showing mixed effects on the human and task. Lastly, we looked into what factors from the human, LLM or the interaction of both, affect the human's enhancement as well as the task performance. Our findings highlight the variability in human-LLM interactions due to the non-deterministic nature of both parties (humans and LLMs), underscoring the need for a deeper understanding of these interaction patterns. We conclude by providing some practical suggestions for researchers as well as programmers.
翻訳日:2024-11-04 23:40:11 公開日:2024-10-01
# 羽ばたき:コサイン類似性を用いた適応的自己投機的復号法

Draft on the Fly: Adaptive Self-Speculative Decoding using Cosine Similarity ( http://arxiv.org/abs/2410.01028v1 )

ライセンス: Link先を確認
Michael R. Metel, Peng Lu, Boxing Chen, Mehdi Rezagholizadeh, Ivan Kobyzev, (参考訳) 本研究では,大規模言語モデルの高速な推論のためのフライ法を提案する。 他の(自己)投機的復号法とは異なり,本手法では,入力コンテキストに適合する様々なドラフトモデルを生成するための単純なルールに代えて,固定されたドラフトモデルを生成するために微調整やブラックボックスの最適化を必要としない。 我々の軽量アルゴリズムは、真のプラグ・アンド・プレイ方式でありながら、現在のSOTAと自己投機的復号化の競争力があることを実証的に示す。

We present a simple on the fly method for faster inference of large language models. Unlike other (self-)speculative decoding techniques, our method does not require fine-tuning or black-box optimization to generate a fixed draft model, relying instead on simple rules to generate varying draft models adapted to the input context. We show empirically that our light-weight algorithm is competitive with the current SOTA for self-speculative decoding, while being a truly plug-and-play method.
翻訳日:2024-11-04 23:40:11 公開日:2024-10-01
# FCE-YOLOv8: 小児レントゲンX線画像の破壊検出のための特徴文脈励起モジュール付きYOLOv8

FCE-YOLOv8: YOLOv8 with Feature Context Excitation Modules for Fracture Detection in Pediatric Wrist X-ray Images ( http://arxiv.org/abs/2410.01031v1 )

ライセンス: Link先を確認
Rui-Yang Ju, Chun-Tse Chien, Enkaer Xieerke, Jen-Shiun Chiang, (参考訳) 小児は日常的に手首の外傷を負うことが多いが、外科医による外科治療の前にX線画像を分析し解釈するためには放射線科医が必要である。 ディープラーニングの開発により、ニューラルネットワークはコンピュータ支援診断(CAD)ツールとして機能し、医師や専門医が画像診断を行うのに役立つようになった。 You Only Look Once Version-8 (YOLOv8) モデルは、オブジェクト検出タスクで十分な成功を収めたので、様々なフラクチャー検出に適用されている。 本研究では、FCEモジュール(Squeeze-and-Excitation (SE), Global Context (GC), Gather-Excite (GE), Gaussian Context Transformer (GCT) の4種類のモデルを導入し、モデル性能を向上させる。 GRAZPEDWRI-DXデータセットによる実験結果から,提案したYOLOv8+GC-M3モデルでは,mAP@50値が65.78%から66.32%に向上し,予測時間を短縮しつつ,最先端(SOTA)モデルを上回る結果が得られた。 さらに,提案したYOLOv8+SE-M3モデルでは,最大mAP@50値67.07%を達成し,SOTA性能を上回った。 この作業の実装はhttps://github.com/RuiyangJu/FCE-YOLOv8.comで公開されている。

Children often suffer wrist trauma in daily life, while they usually need radiologists to analyze and interpret X-ray images before surgical treatment by surgeons. The development of deep learning has enabled neural networks to serve as computer-assisted diagnosis (CAD) tools to help doctors and experts in medical image diagnostics. Since the You Only Look Once Version-8 (YOLOv8) model has obtained the satisfactory success in object detection tasks, it has been applied to various fracture detection. This work introduces four variants of Feature Contexts Excitation-YOLOv8 (FCE-YOLOv8) model, each incorporating a different FCE module (i.e., modules of Squeeze-and-Excitation (SE), Global Context (GC), Gather-Excite (GE), and Gaussian Context Transformer (GCT)) to enhance the model performance. Experimental results on GRAZPEDWRI-DX dataset demonstrate that our proposed YOLOv8+GC-M3 model improves the mAP@50 value from 65.78% to 66.32%, outperforming the state-of-the-art (SOTA) model while reducing inference time. Furthermore, our proposed YOLOv8+SE-M3 model achieves the highest mAP@50 value of 67.07%, exceeding the SOTA performance. The implementation of this work is available at https://github.com/RuiyangJu/FCE-YOLOv8.
翻訳日:2024-11-04 23:40:11 公開日:2024-10-01
# 学部コンピュータサイエンスプログラムにおけるクラウドインフラストラクチャとスケーラブルなアプリケーションデプロイの教育

Teaching Cloud Infrastructure and Scalable Application Deployment in an Undergraduate Computer Science Program ( http://arxiv.org/abs/2410.01032v1 )

ライセンス: Link先を確認
Aditya Saligrama, Cody Ho, Benjamin Tripp, Michael Abbott, Christos Kozyrakis, (参考訳) スケーラブルなWebアプリケーションをデプロイするためにクラウドコンピューティングをうまく利用するには、クラウドサービスの弾力性、コスト、セキュリティモデルに関する推論を含む、システム設計とデプロイメントの方法論の両方に対する微妙なアプローチが必要である。 学生は通常、インターンシップや学術研究など、技術キャリアの初期にクラウド抽象化と対話する。 クラウドエンジニアリングの基礎をしっかり理解せずにクラウドネイティブなアプリケーションを構築することは、クラウドプラットフォームに共通するコストとセキュリティの落とし穴に敏感な学生を悩ませる可能性がある。 しかし、クラウドコンピューティングは、コンテナ化やインフラストラクチャ・アズ・コード(IaC)といった現代的なクラウドデプロイメントの背後にある技術とプラクティスが、特定のプロバイダが提供するものから独立した一般的な原則のセットに成熟したばかりであるため、学部レベルでは一般的には教えられていない。 このギャップに対処するため、当社は、スケーラブルなWebアプリケーションをサポートするためのソフトウェアエンジニアリングプラクティスとしてクラウドインフラストラクチャのデプロイメントを枠組みとした、これらの原則に関する学部レベルのコースを設計し、堅牢なクラウドネイティブシステムを構築する上でのクラウドデプロイメントとアプリケーション設計スキルの両方の価値を強調しました。 私たちのコースでは、学生にIaC、コンテナ化、可観測性、サーバレスコンピューティング、継続的インテグレーションとデプロイメントといった、モダンでベストプラクティスのコンセプトとツールを体験するためのハンズオンの課題を数多く紹介しました。 コースの設計、2024年冬に最初の提供を指導した経験について述べ、何がうまくいったのか、改善の可能性について考察する。 私たちのコース資料はhttps://infracourse.cloud.comで公開されています。

Making successful use of cloud computing for deploying scalable web applications requires nuanced approaches to both system design and deployment methodology, involving reasoning about the elasticity, cost, and security models of cloud services. Students commonly interact with cloud abstractions early in their technical careers, including during internships and academic research. Building cloud-native applications without a firm understanding of the fundamentals of cloud engineering can leave students susceptible to cost and security pitfalls common to cloud platforms. Yet, cloud computing is not commonly taught at the undergraduate level, because the technology and practices behind modern cloud deployment, such as containerization and infrastructure-as-code (IaC), have only recently matured into a set of general principles independent from specific providers' offerings. To address this gap, we designed an undergraduate-level course around these principles that framed cloud infrastructure deployment as a software engineering practice in support of scalable web applications, emphasizing the value of both cloud deployment and application design skills in building robust cloud-native systems. Our course featured a number of hands-on assignments that gave students experience with modern, best-practice concepts and tools such as IaC, containerization, observability, serverless computing, and continuous integration and deployment. We describe the design of the course, our experience teaching its initial offering in Winter 2024, and provide our reflections on what worked well and potential areas for improvement. Our course material is publicly available at https://infracourse.cloud.
翻訳日:2024-11-04 23:40:11 公開日:2024-10-01
# 今止めるな - LLMの組み込みベースのスケジューリング

Don't Stop Me Now: Embedding Based Scheduling for LLMs ( http://arxiv.org/abs/2410.01035v1 )

ライセンス: Link先を確認
Rana Shahout, Eran Malach, Chunwei Liu, Weifan Jiang, Minlan Yu, Michael Mitzenmacher, (参考訳) 低要求完了時間がユーザエンゲージメントに直接影響を与える、対話型大規模言語モデル(LLM)アプリケーションでは、効率的なスケジューリングが不可欠である。 SRPT(Shortest Remaining Process Time)のようなサイズベースのスケジューリングアルゴリズムは、既知のあるいは推定されたリクエストサイズを活用し、より短いサービス時間で入ってくるジョブによるプリエンプションを可能にすることで、平均的な要求完了時間を短縮することを目指している。 しかし、LLMシステムにサイズベースのスケジューリングを適用する際には、2つの大きな課題が生じる。 第一に、プロンプトから出力長を正確に予測することは困難であり、しばしば資源集約であり、多くのシステムでは実用的ではない。 結果として、最先端のLLMシステムは、ファースト・オブ・サーブド・スケジューリングをデフォルトとし、ヘッド・オブ・ラインのブロッキングとシステム効率の低下につながる可能性がある。 第2に、プリエンプションは未完了(プリエンプション)要求の中間状態を維持する必要があるため、LCMシステムにメモリオーバーヘッドを余分に導入する。 本稿では,ターゲットLLM自体から出力予測を求めるTRAILを提案する。 各出力トークンを生成した後、各実行要求に対する残りの長さを予測する軽量分類器の入力として内部構造の埋め込みをリサイクルする。 これらの予測を用いて,LLMシステムにおけるメモリオーバーヘッドを考慮に入れたプリエンプションを限定した予測ベースのSRPT変種を提案する。 この変種は、メモリ消費が低い場合、要求実行の早期のプリエンプションを可能にするが、リクエストがリソース利用を最適化するために完了に近づくと、プリエンプションを制限する。 理論的には、M/G/1キューモデルにおけるこのSRPT変種に対する閉形式式を導出し、そのポテンシャル値を示す。 本システムでは,このプリエンプションポリシーを埋め込み型予測手法と併用して実装する。

Efficient scheduling is crucial for interactive Large Language Model (LLM) applications, where low request completion time directly impacts user engagement. Size-based scheduling algorithms like Shortest Remaining Process Time (SRPT) aim to reduce average request completion time by leveraging known or estimated request sizes and allowing preemption by incoming jobs with shorter service times. However, two main challenges arise when applying size-based scheduling to LLM systems. First, accurately predicting output lengths from prompts is challenging and often resource-intensive, making it impractical for many systems. As a result, the state-of-the-art LLM systems default to first-come, first-served scheduling, which can lead to head-of-line blocking and reduced system efficiency. Second, preemption introduces extra memory overhead to LLM systems as they must maintain intermediate states for unfinished (preempted) requests. In this paper, we propose TRAIL, a method to obtain output predictions from the target LLM itself. After generating each output token, we recycle the embedding of its internal structure as input for a lightweight classifier that predicts the remaining length for each running request. Using these predictions, we propose a prediction-based SRPT variant with limited preemption designed to account for memory overhead in LLM systems. This variant allows preemption early in request execution when memory consumption is low but restricts preemption as requests approach completion to optimize resource utilization. On the theoretical side, we derive a closed-form formula for this SRPT variant in an M/G/1 queue model, which demonstrates its potential value. In our system, we implement this preemption policy alongside our embedding-based prediction method.
翻訳日:2024-11-04 23:30:27 公開日:2024-10-01
# MOSEL: EU言語を用いたオープンソースの音声基礎モデルトレーニングのための音声データ95万時間

MOSEL: 950,000 Hours of Speech Data for Open-Source Speech Foundation Model Training on EU Languages ( http://arxiv.org/abs/2410.01036v1 )

ライセンス: Link先を確認
Marco Gaido, Sara Papi, Luisa Bentivogli, Alessio Brutti, Mauro Cettolo, Roberto Gretter, Marco Matassoni, Mohamed Nabih, Matteo Negri, (参考訳) ファンデーションモデル(FM)の台頭と、そのリスクと影響に対処する規制の取り組みが組み合わさって、オープンソースモデルに大きな関心を呼んだ。 しかしながら、既存の音声FM(SFMs)は、たとえ既存のSFMがオープンソースの用語で公開されているモデルウェイト、コード、トレーニングデータを持っていないとしても、オープンソース原則に完全に準拠していない。 本研究では、欧州連合(EU)の24の公用語に注目して、このギャップを埋める第一歩を踏み出します。 我々は,オープンソース準拠のライセンス下で,自動音声認識データセットと未ラベル音声コーパスを合計950k時間調査することにより,適切なトレーニングデータを収集する。 さらに, CC-BYライセンスの下で, 441k時間の非ラベルデータの自動書き起こしを公開し, EU 言語のオープンソース SFM 作成を容易にする。

The rise of foundation models (FMs), coupled with regulatory efforts addressing their risks and impacts, has sparked significant interest in open-source models. However, existing speech FMs (SFMs) fall short of full compliance with the open-source principles, even if claimed otherwise, as no existing SFM has model weights, code, and training data publicly available under open-source terms. In this work, we take the first step toward filling this gap by focusing on the 24 official languages of the European Union (EU). We collect suitable training data by surveying automatic speech recognition datasets and unlabeled speech corpora under open-source compliant licenses, for a total of 950k hours. Additionally, we release automatic transcripts for 441k hours of unlabeled data under the permissive CC-BY license, thereby facilitating the creation of open-source SFMs for the EU languages.
翻訳日:2024-11-04 23:30:27 公開日:2024-10-01
# ファクトからインサイトへ:耳鳴りの解読のための分析レポートの生成と評価に関する研究

From Facts to Insights: A Study on the Generation and Evaluation of Analytical Reports for Deciphering Earnings Calls ( http://arxiv.org/abs/2410.01039v1 )

ライセンス: Link先を確認
Tomas Goldsack, Yang Wang, Chenghua Lin, Chung-Chi Chen, (参考訳) 本稿では,Earnings Calls (ECs) から得られた分析レポートの生成と評価にLarge Language Models (LLMs) を用いることについて検討する。 現在の研究のギャップに対処するため、多エージェントフレームワークにおけるLCMを用いた分析レポートの生成について検討し、多様な視点と分析の望ましいトピックをレポート生成プロセスに導入する特殊エージェントを設計する。 複数の分析を通して、生成されたレポートと人間によるレポートのアライメントと、個人エージェントと集団エージェントの両方の影響について検討する。 以上の結果から, 新たな薬剤の導入により, より洞察に富んだ報告が得られたことが示唆された。 最後に, レポート評価の課題に対処し, 複数次元にわたる人間専門家との有意な相関関係を明らかにするとともに, LLMの限界と強度について検討する。

This paper explores the use of Large Language Models (LLMs) in the generation and evaluation of analytical reports derived from Earnings Calls (ECs). Addressing a current gap in research, we explore the generation of analytical reports with LLMs in a multi-agent framework, designing specialized agents that introduce diverse viewpoints and desirable topics of analysis into the report generation process. Through multiple analyses, we examine the alignment between generated and human-written reports and the impact of both individual and collective agents. Our findings suggest that the introduction of additional agents results in more insightful reports, although reports generated by human experts remain preferred in the majority of cases. Finally, we address the challenging issue of report evaluation, we examine the limitations and strengths of LLMs in assessing the quality of generated reports in different settings, revealing a significant correlation with human experts across multiple dimensions.
翻訳日:2024-11-04 23:30:27 公開日:2024-10-01
# RATIONALYST: 推論を改善するための事前トレーニングプロセス-スーパービジョン

RATIONALYST: Pre-training Process-Supervision for Improving Reasoning ( http://arxiv.org/abs/2410.01044v1 )

ライセンス: Link先を確認
Dongwei Jiang, Guoxuan Wang, Yining Lu, Andrew Wang, Jingyu Zhang, Chuyu Liu, Benjamin Van Durme, Daniel Khashabi, (参考訳) LLMが生成する推論ステップは、トレーニング前のデータに見られる日常的なコミュニケーションに共通する論理的な跳躍を模倣しているため、不完全であるかもしれない。 この課題に対処するために,未ラベルデータから抽出した大量の論理的アノテーションの事前学習に基づく推論のプロセス・スーパービジョンモデル RATIONALYST を紹介した。 We extract 79k rationales from web-scale unlabelled dataset (the Pile) and a combination of reasoning datasets with minimal human intervention。 このウェブスケールの推論のための事前学習により、TRIALYSTは数学的、常識的、科学的、論理的推論を含む様々な推論タスクを一貫して一般化することができる。 LLaMa-3-8Bの微調整により、RATIONALYSTは7つの代表的な推論ベンチマークで平均3.9%の推論精度を向上させる。 また、GPT-4のようなかなり大きな検証器や、一致するトレーニングセットに微調整された同様のサイズのモデルと比較して、優れた性能を示す。

The reasoning steps generated by LLMs might be incomplete, as they mimic logical leaps common in everyday communication found in their pre-training data: underlying rationales are frequently left implicit (unstated). To address this challenge, we introduce RATIONALYST, a model for process-supervision of reasoning based on pre-training on a vast collection of rationale annotations extracted from unlabeled data. We extract 79k rationales from web-scale unlabelled dataset (the Pile) and a combination of reasoning datasets with minimal human intervention. This web-scale pre-training for reasoning allows RATIONALYST to consistently generalize across diverse reasoning tasks, including mathematical, commonsense, scientific, and logical reasoning. Fine-tuned from LLaMa-3-8B, RATIONALYST improves the accuracy of reasoning by an average of 3.9% on 7 representative reasoning benchmarks. It also demonstrates superior performance compared to significantly larger verifiers like GPT-4 and similarly sized models fine-tuned on matching training sets.
翻訳日:2024-11-04 23:30:27 公開日:2024-10-01
# 非線形関数学習の球面解析

Spherical Analysis of Learning Nonlinear Functionals ( http://arxiv.org/abs/2410.01047v1 )

ライセンス: Link先を確認
Zhenyu Yang, Shuo Huang, Han Feng, Ding-Xuan Zhou, (参考訳) 近年,機能的ニューラルネットワーク分野への関心が高まっている。 これらはユークリッド領域上の函数の集合上で定義される連続函数を近似することを目的として提案され、研究されている。 本稿では,球面上の関数の集合上で定義される関数について考察する。 深部ReLUニューラルネットワークの近似能力を,エンコーダデコーダフレームワークを用いた新しい球面解析により検討した。 エンコーダが最初に現れるのは、函数の領域の無限次元の性質を満たすためである。 球面調和を利用して関数の潜在有限次元情報を抽出し、完全に連結されたニューラルネットワークを用いた近似解析の次のステップに役立つ。 さらに、現実世界のオブジェクトは離散的にサンプリングされ、しばしばノイズによって劣化する。 そのため、離散入力を持つエンコーダと、離散入力を持つエンコーダと、ランダムノイズ入力を持つエンコーダとがそれぞれ構成される。 エンコーダ構造が異なる近似レートが提供される。

In recent years, there has been growing interest in the field of functional neural networks. They have been proposed and studied with the aim of approximating continuous functionals defined on sets of functions on Euclidean domains. In this paper, we consider functionals defined on sets of functions on spheres. The approximation ability of deep ReLU neural networks is investigated by novel spherical analysis using an encoder-decoder framework. An encoder comes up first to accommodate the infinite-dimensional nature of the domain of functionals. It utilizes spherical harmonics to help us extract the latent finite-dimensional information of functions, which in turn facilitates in the next step of approximation analysis using fully connected neural networks. Moreover, real-world objects are frequently sampled discretely and are often corrupted by noise. Therefore, encoders with discrete input and those with discrete and random noise input are constructed, respectively. The approximation rates with different encoder structures are provided therein.
翻訳日:2024-11-04 23:30:27 公開日:2024-10-01
# 超伝導量子ビットによるフレキシブルマイクロ波ストリップラインの熱化

Thermalization of a flexible microwave stripline measured by a superconducting qubit ( http://arxiv.org/abs/2410.01053v1 )

ライセンス: Link先を確認
Patrick Paluch, Martin Spiecker, Nicolas Gosling, Viktor Adam, Jakob Kammhuber, Kiefer Vermeulen, Daniël Bouman, Wolfgang Wernsdorfer, Ioan M. Pop, (参考訳) 最近開発されたフレキシブルマイクロ波ストリップラインは、スケーラブルな極低温マイクロ波回路の需要が継続的に上昇する中で、温度を過負荷することなくキャブリング密度を桁違いに高めるという、微妙な視点を提供する。 我々は、超伝導量子回路を用いて、様々な温度で分布する減衰を60,$dBで積分した入力フレキシブルケーブルの熱化をテストする。 超伝導フラキソニウム量子ビットのデコヒーレンス速度から, 3.5\cdot10^{-3}$光子以下の読み出し共振器の残差を推定し, フレキシブルストリップライン減衰器の0.28\,$ms熱化時間を測定する。 さらに, 従来の半剛性同軸ケーブルを用いた場合と同様, クビットの有効温度が26.4\,$mKに達することを確認した。

With the demand for scalable cryogenic microwave circuitry continuously rising, recently developed flexible microwave striplines offer the tantalyzing perspective of increasing the cabling density by an order of magnitude without thermally overloading the cryostat. We use a superconducting quantum circuit to test the thermalization of input flex cables with integrated $60\,$dB of attenuation distributed at various temperature stages. From the measured decoherence rate of a superconducting fluxonium qubit, we estimate a residual population of the readout resonator below $3.5\cdot10^{-3}$ photons and we measure a $0.28\,$ms thermalization time for the flexible stripline attenuators. Furthermore, we confirm that the qubit reaches an effective temperature of $26.4\,$mK, close to the base temperature of the cryostat, practically the same as when using a conventional semi-rigid coaxial cable setup.
翻訳日:2024-11-04 23:30:27 公開日:2024-10-01
# ARPOV:パノラマモザイクストッチによるARにおける物体検出の可視化

ARPOV: Expanding Visualization of Object Detection in AR with Panoramic Mosaic Stitching ( http://arxiv.org/abs/2410.01055v1 )

ライセンス: Link先を確認
Erin McGowan, Ethan Brewer, Claudio Silva, (参考訳) 拡張現実(AR)の利用がより複雑で広く利用できるようになるにつれ、ARアプリケーションは、開発者の振る舞いや環境(例えばインテリジェントアシスタント)を理解するために必要なインテリジェントな機能を、ますます取り入れていくだろう。 このようなアプリケーションは、ARヘッドセットが捉えたビデオに依存しており、多くの場合、ユーザーがいつでも見るものの完全なスコープをキャプチャできない視野が限られている、不規則なカメラの動きを含んでいる。 さらに、オブジェクト検出モデル出力を可視化する標準的な方法は、単一のフレームとタイムステップ内でオブジェクトをキャプチャすることに限定され、そのため、様々なドメインアプリケーションでしばしば必要とされる時間的・空間的コンテキストのキャプチャに失敗する。 本稿では,ARヘッドセットが捉えた映像に合わせたオブジェクト検出モデルを生成するインタラクティブな視覚解析ツールARPOVを提案する。 提案ツールでは、パノラマ縫合を利用して、望ましくないフレームを自動的にフィルタリングしながら、環境のビューを拡大し、オブジェクト検出モデルデバッグを容易にするインタラクティブ機能を備えている。 ARPOVは、可視化研究者と機械学習とAR専門家のコラボレーションの一環として設計されました。

As the uses of augmented reality (AR) become more complex and widely available, AR applications will increasingly incorporate intelligent features that require developers to understand the user's behavior and surrounding environment (e.g. an intelligent assistant). Such applications rely on video captured by an AR headset, which often contains disjointed camera movement with a limited field of view that cannot capture the full scope of what the user sees at any given time. Moreover, standard methods of visualizing object detection model outputs are limited to capturing objects within a single frame and timestep, and therefore fail to capture the temporal and spatial context that is often necessary for various domain applications. We propose ARPOV, an interactive visual analytics tool for analyzing object detection model outputs tailored to video captured by an AR headset that maximizes user understanding of model performance. The proposed tool leverages panorama stitching to expand the view of the environment while automatically filtering undesirable frames, and includes interactive features that facilitate object detection model debugging. ARPOV was designed as part of a collaboration between visualization researchers and machine learning and AR experts; we validate our design choices through interviews with 5 domain experts.
翻訳日:2024-11-04 23:30:27 公開日:2024-10-01
# クープマン演算子を用いた不確実性モデリングとロバストオブザーバ合成

Uncertainty Modelling and Robust Observer Synthesis using the Koopman Operator ( http://arxiv.org/abs/2410.01057v1 )

ライセンス: Link先を確認
Steven Dahdah, James Richard Forbes, (参考訳) 本論文では、クープマン作用素を用いてモデル化されたシステムの集団に対する頑健な非線形オブザーバ合成法を提案する。 クープマン作用素は非線形系を無限次元線型系として書き換えることを可能にする。 クープマン作用素の有限次元近似はデータから直接同定することができ、非線形系の概線型モデルが得られる。 提案手法は、この線形性により、クープマンモデルの集団内で不確実性を周波数領域で定量化することができる。 この不確実性モデルを用いて、ロバストな非線形クープマンオブザーバを合成するために線形ロバスト制御技術が使用される。 提案手法を実験的に実証するために、数十台のモータードライブの人口を用いている。 製造の変動は周波数領域で特徴づけられ、強いクープマンオブザーバは混合$\mathcal{H}_2$-$\mathcal{H}_\infty$最適制御を用いて合成される。

This paper proposes a robust nonlinear observer synthesis method for a population of systems modelled using the Koopman operator. The Koopman operator allows nonlinear systems to be rewritten as infinite-dimensional linear systems. A finite-dimensional approximation of the Koopman operator can be identified directly from data, yielding an approximately linear model of a nonlinear system. The proposed observer synthesis method is made possible by this linearity that in turn allows uncertainty within a population of Koopman models to be quantified in the frequency domain. Using this uncertainty model, linear robust control techniques are used to synthesize robust nonlinear Koopman observers. A population of several dozen motor drives is used to experimentally demonstrate the proposed method. Manufacturing variation is characterized in the frequency domain, and a robust Koopman observer is synthesized using mixed $\mathcal{H}_2$-$\mathcal{H}_\infty$ optimal control.
翻訳日:2024-11-04 23:30:27 公開日:2024-10-01
# 3次元視覚深層学習モデルを用いた埋設深海物体の姿勢推定

Pose Estimation of Buried Deep-Sea Objects using 3D Vision Deep Learning Models ( http://arxiv.org/abs/2410.01061v1 )

ライセンス: Link先を確認
Jerry Yan, Chinmay Talegaonkar, Nicholas Antipa, Eric Terrill, Sophia Merrifield, (参考訳) 本研究では,南カリフォルニアサンペドロ盆地の海底で発見された土砂場樽のポーズと埋没率の推定手法を提案する。 我々の計算ワークフローは、セグメンテーションの基礎モデルの最近の進歩と、バレルの幾何学を定義する点雲を推定するためのビジョントランスフォーマーベースのアプローチを活用している。 本研究では,バレル点雲から埋設したバレルの6-DOFポーズと半径を入力として推定するためのバレルネットを提案する。 我々は, 合成したバレル点雲を用いてバレルネットを訓練し, 遠隔操作車(ROV)ビデオ映像を用いて, 提案手法の可能性を定性的に実証した。 提案手法を従来の最小二乗近似法と比較し, 評価ベンチマークにより, 大幅な改善が得られた。

We present an approach for pose and burial fraction estimation of debris field barrels found on the seabed in the Southern California San Pedro Basin. Our computational workflow leverages recent advances in foundation models for segmentation and a vision transformer-based approach to estimate the point cloud which defines the geometry of the barrel. We propose BarrelNet for estimating the 6-DOF pose and radius of buried barrels from the barrel point clouds as input. We train BarrelNet using synthetically generated barrel point clouds, and qualitatively demonstrate the potential of our approach using remotely operated vehicle (ROV) video footage of barrels found at a historic dump site. We compare our method to a traditional least squares fitting approach and show significant improvement according to our defined benchmarks.
翻訳日:2024-11-04 23:30:27 公開日:2024-10-01
# 真実か偽か? ベイズ復号ゲームは一貫性と信頼性を高める

Truth or Deceit? A Bayesian Decoding Game Enhances Consistency and Reliability ( http://arxiv.org/abs/2410.01064v1 )

ライセンス: Link先を確認
Weitong Zhang, Chengqi Zang, Bernhard Kainz, (参考訳) 大規模な言語モデル(LLM)は、(もっともらしいが)一貫性と信頼性が欠如している、特に曖昧で複雑なシナリオにおいて、出力を生成することが多い。 課題は、アウトプットが事実の正しさと人間の意図の両方に一致していることを保証することから生じます。 これは、貿易がより低い精度で一貫性を改善した既存のアプローチで問題となる。 これらの課題を軽減するために,LLM出力生成の復号段階における一貫性と信頼性を高めるためのゲーム理論的手法を提案する。 本手法は,復号処理を多段ベイズ復号ゲームとしてモデル化する。 これにより、整合性アライメントによる一貫性が保証され、Ambiguity Calibrationによる信頼性が向上する。 このモデルは、最も信頼性の高い出力に関するコンセンサスに動的に収束し、人間のフィードバックや追加のトレーニングなしに {Valid, Specious} 出力を区別する。 我々のゲームデザインでは、ゲームメカニズム(例えば78.1 LLaMA13B vs 76.6 PaLM540B)を通じて、より小さなモデルよりもはるかに大きなモデルを実現し、様々なLL戦略とモデルを統合し、LLMの真正性や信頼性を向上させるゲーム理論ツールの可能性を示す。

Large Language Models (LLMs) often produce outputs that -- though plausible -- can lack consistency and reliability, particularly in ambiguous or complex scenarios. Challenges arise from ensuring that outputs align with both factual correctness and human intent. This is problematic in existing approaches that trade improved consistency for lower accuracy. To mitigate these challenges, we propose a novel game-theoretic approach to enhance consistency and reliability during the decoding stage of LLM output generation. Our method models the decoding process as a multistage Bayesian decoding game. This ensures consistency through Correctness Alignment and enhances reliability via Ambiguity Calibration. The model dynamically converges to a consensus on the most reliable outputs and distinguishes {Valid, Specious} outputs without human feedback or additional training. Our game design allows smaller models to outperform much larger models through game mechanisms (e.g., 78.1 LLaMA13B vs 76.6 PaLM540B), as well as integrating various LL strategies and models, demonstrating the potential of game-theoretic tools to improve the truthfulness and reliability of LLMs.
翻訳日:2024-11-04 23:30:27 公開日:2024-10-01
# 構造保存演算子学習

Structure-Preserving Operator Learning ( http://arxiv.org/abs/2410.01065v1 )

ライセンス: Link先を確認
Nacime Bouziani, Nicolas Boullé, (参考訳) データから直接偏微分方程式によって駆動される複素力学を学習することは、複雑な物理系の高速かつ正確なシミュレーションに大いに期待できる。 ほとんどの場合、この問題は演算子学習タスクとして定式化することができ、連続系の離散化を伴う興味の物理を表現する演算子を学習することを目的としている。 しかし、境界条件のような離散的なレベルで鍵的連続性を保ち、複雑なジオメトリーを持つ物理系に対処することは、既存のほとんどのアプローチでは困難である。 入力出力空間の有限要素(FE)離散化を利用して、連続系の重要な数学的・物理的特性を維持できる演算子学習アーキテクチャ群、構造保存演算子ネットワーク(SPON)を導入する。 SPONは、エンコーダとデコーダが入力出力空間の離散化から従うエンド・ツー・エンドの微分可能なエンコード・プロセス・デコーダアーキテクチャである。 SPONは複雑なジオメトリー上で動作し、特定の境界条件を正確に適用し、理論的な保証を提供する。 我々のフレームワークは、特定のアプリケーションに適した構造保存アーキテクチャを設計するための柔軟な方法を提供する。 さらに,マルチグリッド型SPONアーキテクチャを導入し,高い効率で性能を向上する。 最後に,SPONアーキテクチャの設計とトレーニングを自動化するソフトウェアをリリースする。

Learning complex dynamics driven by partial differential equations directly from data holds great promise for fast and accurate simulations of complex physical systems. In most cases, this problem can be formulated as an operator learning task, where one aims to learn the operator representing the physics of interest, which entails discretization of the continuous system. However, preserving key continuous properties at the discrete level, such as boundary conditions, and addressing physical systems with complex geometries is challenging for most existing approaches. We introduce a family of operator learning architectures, structure-preserving operator networks (SPONs), that allows to preserve key mathematical and physical properties of the continuous system by leveraging finite element (FE) discretizations of the input-output spaces. SPONs are encode-process-decode architectures that are end-to-end differentiable, where the encoder and decoder follows from the discretizations of the input-output spaces. SPONs can operate on complex geometries, enforce certain boundary conditions exactly, and offer theoretical guarantees. Our framework provides a flexible way of devising structure-preserving architectures tailored to specific applications, and offers an explicit trade-off between performance and efficiency, all thanks to the FE discretization of the input-output spaces. Additionally, we introduce a multigrid-inspired SPON architecture that yields improved performance at higher efficiency. Finally, we release a software to automate the design and training of SPON architectures.
翻訳日:2024-11-04 23:30:27 公開日:2024-10-01
# 自然言語からSQLへ: LLMベースのテキストからSQLシステムへ

From Natural Language to SQL: Review of LLM-based Text-to-SQL Systems ( http://arxiv.org/abs/2410.01066v1 )

ライセンス: Link先を確認
Ali Mohammadjafari, Anthony S. Maida, Raju Gottumukkala, (参考訳) LLMの開始以来、構造化SQLコマンドへの自然言語クエリの変換は増え続けていると仮定されている。 以前のレビューと異なり、この調査は、初期のルールベースモデルから高度なLCMアプローチまで、LSMベースのテキスト-SQLシステムの進化と、LSMがこの分野にどのように影響したかに関する包括的な調査を提供する。 ベンチマーク、評価方法、評価指標について議論する。 また,これらのシステムにおけるコンテキスト精度とスキーマリンクを改善するために,知識グラフの統合の役割について一意に研究する。 現在のテクニックは、コーパスのコンテキスト内学習と微調整という2つのカテゴリに分類される。 最後に,計算効率,モデルロバスト性,データプライバシといった重要な課題に注目する。

Since the onset of LLMs, translating natural language queries to structured SQL commands is assuming increasing. Unlike the previous reviews, this survey provides a comprehensive study of the evolution of LLM-based text-to-SQL systems, from early rule-based models to advanced LLM approaches, and how LLMs impacted this field. We discuss benchmarks, evaluation methods and evaluation metrics. Also, we uniquely study the role of integration of knowledge graphs for better contextual accuracy and schema linking in these systems. The current techniques fall into two categories: in-context learning of corpus and fine-tuning, which then leads to approaches such as zero-shot, few-shot learning from the end, and data augmentation. Finally, we highlight key challenges such as computational efficiency, model robustness, and data privacy with perspectives toward their development and improvements in potential areas for future of LLM-based text-to-SQL system.
翻訳日:2024-11-04 23:30:27 公開日:2024-10-01
# 凸性・平滑性のないノイズSGDの収束プライバシー損失

Convergent Privacy Loss of Noisy-SGD without Convexity and Smoothness ( http://arxiv.org/abs/2410.01068v1 )

ライセンス: Link先を確認
Eli Chien, Pan Li, (参考訳) 有界領域上の隠れ状態雑音-SGDアルゴリズムの差分プライバシー(DP)保証について検討する。 Noisy-SGDの標準プライバシ分析では、すべての内部状態が明らかにされていると仮定しており、イテレーション数に関して異なるR'enyi DPに結びついている。 Ye & Shokri (2022) と Altschuler & Talwar (2022) は滑らかな(強く)凸損失の収束境界を証明し、これらの仮定を緩和できるかどうかというオープンな疑問を提起した。 我々は,非凸非平滑な損失に対する収束 R'enyi DP の有効性を証明し,H\ 高齢者の連続的勾配を求める損失が十分であることを示す。また,従来の結果と比較して,厳密な凸損失に対するプライバシー制限も厳格に実現している。この分析は,前方ワッサーシュタイン距離追跡,最適シフト割り当ての特定,H 高齢者還元補題など,多面的な偏差解析の改善に依存している。 本研究は,DPの隠れ状態解析の利点と適用性をさらに解明するものである。

We study the Differential Privacy (DP) guarantee of hidden-state Noisy-SGD algorithms over a bounded domain. Standard privacy analysis for Noisy-SGD assumes all internal states are revealed, which leads to a divergent R'enyi DP bound with respect to the number of iterations. Ye & Shokri (2022) and Altschuler & Talwar (2022) proved convergent bounds for smooth (strongly) convex losses, and raise open questions about whether these assumptions can be relaxed. We provide positive answers by proving convergent R'enyi DP bound for non-convex non-smooth losses, where we show that requiring losses to have H\"older continuous gradient is sufficient. We also provide a strictly better privacy bound compared to state-of-the-art results for smooth strongly convex losses. Our analysis relies on the improvement of shifted divergence analysis in multiple aspects, including forward Wasserstein distance tracking, identifying the optimal shifts allocation, and the H"older reduction lemma. Our results further elucidate the benefit of hidden-state analysis for DP and its applicability.
翻訳日:2024-11-04 23:30:27 公開日:2024-10-01
# 含量・色整合性を考慮したシームレス仮想免疫組織化学的全スライド画像の生成

Generating Seamless Virtual Immunohistochemical Whole Slide Images with Content and Color Consistency ( http://arxiv.org/abs/2410.01072v1 )

ライセンス: Link先を確認
Sitong Liu, Kechun Liu, Samuel Margolis, Wenjun Wu, Stevan R. Knezevich, David E Elder, Megan M. Eguchi, Joann G Elmore, Linda Shapiro, (参考訳) 免疫組織化学(IHC)染色は、病理医の医療画像解析において重要な役割を担い、様々な疾患の診断に重要な情報を提供する。 ヘマトキシリンとエオシン(H&E)を染色した全スライド画像(WSI)の仮想染色により、高価な物理的染色プロセスなしで他の有用なICC染色を自動生成することができる。 しかし、タイルワイズ処理に基づく現在の仮想WSI生成方法は、タイル境界における内容、テクスチャ、色の不整合に悩まされることが多い。 これらの矛盾は、画像の品質を損なうアーティファクトにつながり、正確な臨床評価と診断を妨げる可能性がある。 この制限に対処するため,新しい一貫したWSI合成ネットワークであるCC-WSI-Netを提案する。 我々のCC-WSI-Netは、コンテントとカラー一貫性のスーパーバイザーを統合し、タイル間の一貫性を確保し、シームレスな合成WSIの生成を容易にするとともに、メラノサイト検出におけるSox10免疫組織化学の精度を保証します。 画像品質分析,客観的検出評価,病理学者による主観的調査を通じて,本手法の有効性を検証した。 高品質な合成WSIを生成することにより、研究や臨床医療に広く応用された高度な仮想染色技術の扉を開くことができる。

Immunohistochemical (IHC) stains play a vital role in a pathologist's analysis of medical images, providing crucial diagnostic information for various diseases. Virtual staining from hematoxylin and eosin (H&E)-stained whole slide images (WSIs) allows the automatic production of other useful IHC stains without the expensive physical staining process. However, current virtual WSI generation methods based on tile-wise processing often suffer from inconsistencies in content, texture, and color at tile boundaries. These inconsistencies lead to artifacts that compromise image quality and potentially hinder accurate clinical assessment and diagnoses. To address this limitation, we propose a novel consistent WSI synthesis network, CC-WSI-Net, that extends GAN models to produce seamless synthetic whole slide images. Our CC-WSI-Net integrates a content- and color-consistency supervisor, ensuring consistency across tiles and facilitating the generation of seamless synthetic WSIs while ensuring Sox10 immunohistochemistry accuracy in melanocyte detection. We validate our method through extensive image-quality analyses, objective detection assessments, and a subjective survey with pathologists. By generating high-quality synthetic WSIs, our method opens doors for advanced virtual staining techniques with broader applications in research and clinical care.
翻訳日:2024-11-04 23:30:27 公開日:2024-10-01
# カーネル$ε$-Machinesの推論:複雑系の構造を発見する

Inferring Kernel $ε$-Machines: Discovering Structure in Complex Systems ( http://arxiv.org/abs/2410.01076v1 )

ライセンス: Link先を確認
Alexandra M. Jurgens, Nicolas Brodu, (参考訳) 計算力学の因果状態(確率力学系に対する予測的に等価な軌道クラス)は、再現されたカーネルヒルベルト空間にキャストできることを示した。 その結果は、非常に異なる種類の観測やシステムから直接因果構造を推定する、広く適用可能な方法である。 ここで,本手法を拡張して,生成する因果拡散成分を明示的に導入する。 これらは、縮小次元空間における座標の集合としてカーネル因果状態推定を符号化する。 それぞれのコンポーネントがデータから予測的特徴を抽出し、その応用を4つの例で示す: 第一に、単純な振り子 -- 正確に解けるシステム、第二に、よく研究されたエネルギー景観を持つ高次元システムである$n$-butane -- の分子力学的軌道、第三に、月日スポットシーケンス -- 最長で利用可能な直接観測の時系列、第4に、アクティブな作物畑の多年にわたる観測 -- が10年以上にわたって行われた同じ生態系の不均一な観測である。 このようにして、経験的カーネル因果状態アルゴリズムは、幅広い次元と確率性を持つ系の予測構造を頑健に発見することを示した。

Previously, we showed that computational mechanic's causal states -- predictively-equivalent trajectory classes for a stochastic dynamical system -- can be cast into a reproducing kernel Hilbert space. The result is a widely-applicable method that infers causal structure directly from very different kinds of observations and systems. Here, we expand this method to explicitly introduce the causal diffusion components it produces. These encode the kernel causal-state estimates as a set of coordinates in a reduced dimension space. We show how each component extracts predictive features from data and demonstrate their application on four examples: first, a simple pendulum -- an exactly solvable system; second, a molecular-dynamic trajectory of $n$-butane -- a high-dimensional system with a well-studied energy landscape; third, the monthly sunspot sequence -- the longest-running available time series of direct observations; and fourth, multi-year observations of an active crop field -- a set of heterogeneous observations of the same ecosystem taken for over a decade. In this way, we demonstrate that the empirical kernel causal-states algorithm robustly discovers predictive structures for systems with widely varying dimensionality and stochasticity.
翻訳日:2024-11-04 23:20:41 公開日:2024-10-01
# 多言語LLMにおける概念空間アライメント

Concept Space Alignment in Multilingual LLMs ( http://arxiv.org/abs/2410.01079v1 )

ライセンス: Link先を確認
Qiwei Peng, Anders Søgaard, (参考訳) 多言語大言語モデル (LLMs) は言語全体にわたって幾分一般化しているようである。 これは暗黙のベクトル空間アライメントの結果であると仮定する。 このようなアライメントを評価すると、より大きなモデルは異なる言語における対応する概念の間に非常に高品質な線形アライメントを示すことが分かる。 本実験により,多言語 LLM は2つの欠点に悩まされていることが明らかとなった。 例えば、Llama-2モデルのファミリでは、プロンプトベースの埋め込みは単語の埋め込みよりもうまく整合するが、プロジェクションはリニアではない。

Multilingual large language models (LLMs) seem to generalize somewhat across languages. We hypothesize this is a result of implicit vector space alignment. Evaluating such alignment, we see that larger models exhibit very high-quality linear alignments between corresponding concepts in different languages. Our experiments show that multilingual LLMs suffer from two familiar weaknesses: generalization works best for languages with similar typology, and for abstract concepts. For some models, e.g., the Llama-2 family of models, prompt-based embeddings align better than word embeddings, but the projections are less linear -- an observation that holds across almost all model families, indicating that some of the implicitly learned alignments are broken somewhat by prompt-based methods.
翻訳日:2024-11-04 23:20:41 公開日:2024-10-01
# サブサンプリング層を持つディープネットは、テスト時間で有意義な活性化を意図しない

Deep Nets with Subsampling Layers Unwittingly Discard Useful Activations at Test-Time ( http://arxiv.org/abs/2410.01083v1 )

ライセンス: Link先を確認
Chiao-An Yang, Ziwei Liu, Raymond A. Yeh, (参考訳) サブサンプリング層は、活性化マップの一部を捨て、その空間次元を小さくすることで、ディープネットにおいて重要な役割を果たす。 これにより、ディープネットはより高いレベルの表現を学ぶことができる。 このモチベーションとは対照的に、廃棄された活性化は有用であり、モデル予測を改善するためにハエに組み込むことができるという仮説を立てる。 本仮説の有効性を検証するため,テスト時に有用なアクティベーションマップを探索・集約する手法を提案する。 画像分類とセマンティックセグメンテーションの課題に対して,本手法を適用した。 複数のデータセット上の9つの異なるアーキテクチャに対する大規模な実験は、我々の手法が既存のテスト時間拡張技術を補完し、一貫してテスト時間性能を改善することを示している。 私たちのコードはhttps://github.com/ca-joe-yang/discard-in-subsampling.comで利用可能です。

Subsampling layers play a crucial role in deep nets by discarding a portion of an activation map to reduce its spatial dimensions. This encourages the deep net to learn higher-level representations. Contrary to this motivation, we hypothesize that the discarded activations are useful and can be incorporated on the fly to improve models' prediction. To validate our hypothesis, we propose a search and aggregate method to find useful activation maps to be used at test time. We applied our approach to the task of image classification and semantic segmentation. Extensive experiments over nine different architectures on multiple datasets show that our method consistently improves model test-time performance, complementing existing test-time augmentation techniques. Our code is available at https://github.com/ca-joe-yang/discard-in-subsampling.
翻訳日:2024-11-04 23:20:41 公開日:2024-10-01
# 時間とイベントのアウトカム予測のための深層生存分析モデル入門

An Introduction to Deep Survival Analysis Models for Predicting Time-to-Event Outcomes ( http://arxiv.org/abs/2410.01086v1 )

ライセンス: Link先を確認
George H. Chen, (参考訳) 多くのアプリケーションは、重要なイベントが起こる前に、時間の長さを推論する。 顧客はいつ、サブスクリプションをキャンセルするか、コマ患者が目を覚ますか、あるいは有罪判決を受けた犯罪者が解雇されるか? 生存分析の分野では、主に統計、医学、信頼性工学のコミュニティによって、1970年代から80年代にかけての教科書が広く研究されてきた。 このモノグラフは、生存分析への合理的に自己完結した現代的導入を提供することを目的としている。 我々は、ニューラルネットワークの助けを借りて、個々のデータポイントレベルで、時間と結果の予測に重点を置いている。 我々のゴールは、Cox比例ハザードモデルのような古典的手法から、深層カーネルのKaplan-Meier推定器やニューラル常微分方程式モデルのような現代のディープラーニングアプローチに至るまで、標準回帰と分類とがどのように異なるのか、そしてどのようにして、どのようにして「デザインパターン」が新しい時間とイベントの予測モデルを引き出すために時間とイベントの予測モデルに使われてきたのかを正確に理解することである。 さらに、この最初期のイベント(競合するリスク設定)が発生するまでの時間とともに、いくつかの重要なイベントのどれが最初に起こるかを予測し、時間とともに成長する時系列(動的設定)を与えられた時間とイベントの結果を予測するという、基本的な時間とイベントの予測設定の2つの拡張について調べる。 本稿では,公平性,因果推論,解釈可能性,統計的保証など,さまざまなトピックについて論じる。 当社のモノグラフには,詳細なモデルと評価基準をすべて実装した,付随するコードリポジトリが付属しています。

Many applications involve reasoning about time durations before a critical event happens--also called time-to-event outcomes. When will a customer cancel a subscription, a coma patient wake up, or a convicted criminal reoffend? Time-to-event outcomes have been studied extensively within the field of survival analysis primarily by the statistical, medical, and reliability engineering communities, with textbooks already available in the 1970s and '80s. This monograph aims to provide a reasonably self-contained modern introduction to survival analysis. We focus on predicting time-to-event outcomes at the individual data point level with the help of neural networks. Our goal is to provide the reader with a working understanding of precisely what the basic time-to-event prediction problem is, how it differs from standard regression and classification, and how key "design patterns" have been used time after time to derive new time-to-event prediction models, from classical methods like the Cox proportional hazards model to modern deep learning approaches such as deep kernel Kaplan-Meier estimators and neural ordinary differential equation models. We further delve into two extensions of the basic time-to-event prediction setup: predicting which of several critical events will happen first along with the time until this earliest event happens (the competing risks setting), and predicting time-to-event outcomes given a time series that grows in length over time (the dynamic setting). We conclude with a discussion of a variety of topics such as fairness, causal reasoning, interpretability, and statistical guarantees. Our monograph comes with an accompanying code repository that implements every model and evaluation metric that we cover in detail.
翻訳日:2024-11-04 23:20:41 公開日:2024-10-01
# Empty Spacesを探求する - 最先端のデータ拡張

Exploring Empty Spaces: Human-in-the-Loop Data Augmentation ( http://arxiv.org/abs/2410.01088v1 )

ライセンス: Link先を確認
Catherine Yeh, Donghao Ren, Yannick Assogba, Dominik Moritz, Fred Hohman, (参考訳) 機械学習モデルをより堅牢で安全にするためには、データ拡張が不可欠だ。 しかし、エッジケースのモデル動作を厳格に評価し、潜在的な害を軽減するために、多様なデータポイントを生成する必要があるため、データの増大は困難である。 これらの"未知の未知"をカバーする高品質な拡張を作ることは、時間と創造性に重きを置きます。 本研究では,非構造化テキストデータセットの"未知の未知"をナビゲートするインタラクティブツールであるAmplioを紹介し,空のデータ空間を体系的に同定してデータの多様性を向上させる。 Amplioには、Augment with Concepts、Augment by Interpolation、Augment with Large Language Modelという、ループ内のデータ拡張技術が3つ含まれている。 18名のプロレッドチームによるユーザスタディでは、高品質で多様性があり、関連するモデル安全性のプロンプトを生成する上で、拡張手法の有用性を実証している。 Amplioによってレッドチームでは、データを迅速かつ創造的に拡張することができ、インタラクティブな拡張ワークフローの変革の可能性を強調しています。

Data augmentation is crucial to make machine learning models more robust and safe. However, augmenting data can be challenging as it requires generating diverse data points to rigorously evaluate model behavior on edge cases and mitigate potential harms. Creating high-quality augmentations that cover these "unknown unknowns" is a time- and creativity-intensive task. In this work, we introduce Amplio, an interactive tool to help practitioners navigate "unknown unknowns" in unstructured text datasets and improve data diversity by systematically identifying empty data spaces to explore. Amplio includes three human-in-the-loop data augmentation techniques: Augment With Concepts, Augment by Interpolation, and Augment with Large Language Model. In a user study with 18 professional red teamers, we demonstrate the utility of our augmentation methods in helping generate high-quality, diverse, and relevant model safety prompts. We find that Amplio enabled red teamers to augment data quickly and creatively, highlighting the transformative potential of interactive augmentation workflows.
翻訳日:2024-11-04 23:20:41 公開日:2024-10-01
# FMBench:医療タスクにおけるマルチモーダル大言語モデルのベンチマークフェアネス

FMBench: Benchmarking Fairness in Multimodal Large Language Models on Medical Tasks ( http://arxiv.org/abs/2410.01089v1 )

ライセンス: Link先を確認
Peiran Wu, Che Liu, Canyu Chen, Jun Li, Cosmin I. Bercea, Rossella Arcucci, (参考訳) MLLM(Multimodal Large Language Models)の進歩は、VQA(Visual Question Answering)やRG(Report Generation)といった医療タスクのパフォーマンスを著しく改善した。 しかし、これらのモデルが多様な人口集団にまたがる公平さは、医療において重要であるにもかかわらず、まだ解明されていない。 この監視は、既存の医療マルチモーダルデータセットの多様性の欠如によるものであり、フェアネスの評価を複雑にしている。 そこで本研究では,MLLMの性能評価を行うためのベンチマークであるFMBenchを提案する。 FMBenchには以下の重要な特徴がある。 1: ゼロショット設定の下で、VQAとRGという2つのタスクにまたがる人種、民族、言語、性別の4つの属性を含む。 2: 私たちのVQAタスクはフリーフォームで、現実の応用性を高め、事前定義された選択に関連するバイアスを軽減する。 3: 言語的精度だけでなく, 臨床の観点からも, 語彙的指標とLLMに基づく指標の両方を用いて, モデルの評価を行う。 さらに,FAP(Fairness-Aware Performance)という新たな指標を導入し,MLLMが様々な属性でどの程度高い性能を示すかを評価する。 提案したベンチマークの7Bパラメータから26Bパラメータまでを含む,8つの最先端オープンソースMLLMの性能と妥当性を徹底的に評価した。 我々は,FMBenchが研究コミュニティのモデル評価の洗練と今後の発展を促進することを目指しています。 すべてのデータとコードは、受け入れられると解放される。

Advancements in Multimodal Large Language Models (MLLMs) have significantly improved medical task performance, such as Visual Question Answering (VQA) and Report Generation (RG). However, the fairness of these models across diverse demographic groups remains underexplored, despite its importance in healthcare. This oversight is partly due to the lack of demographic diversity in existing medical multimodal datasets, which complicates the evaluation of fairness. In response, we propose FMBench, the first benchmark designed to evaluate the fairness of MLLMs performance across diverse demographic attributes. FMBench has the following key features: 1: It includes four demographic attributes: race, ethnicity, language, and gender, across two tasks, VQA and RG, under zero-shot settings. 2: Our VQA task is free-form, enhancing real-world applicability and mitigating the biases associated with predefined choices. 3: We utilize both lexical metrics and LLM-based metrics, aligned with clinical evaluations, to assess models not only for linguistic accuracy but also from a clinical perspective. Furthermore, we introduce a new metric, Fairness-Aware Performance (FAP), to evaluate how fairly MLLMs perform across various demographic attributes. We thoroughly evaluate the performance and fairness of eight state-of-the-art open-source MLLMs, including both general and medical MLLMs, ranging from 7B to 26B parameters on the proposed benchmark. We aim for FMBench to assist the research community in refining model evaluation and driving future advancements in the field. All data and code will be released upon acceptance.
翻訳日:2024-11-04 23:20:41 公開日:2024-10-01
# 局所的非負性性を伴う効率良く, かつ, プライベートな大腿骨再建術

Efficient and Private Marginal Reconstruction with Local Non-Negativity ( http://arxiv.org/abs/2410.01091v1 )

ライセンス: Link先を確認
Brett Mullins, Miguel Fuentes, Yingtai Xiao, Daniel Kifer, Cameron Musco, Daniel Sheldon, (参考訳) 差別化プライバシは、フォーマルで定量化されたプライバシの主要な標準であり、数百万人に影響を与える大規模なデプロイメントで使用されている。 クエリリリースと合成データのための多くの微分プライベートアルゴリズムは、回答からメカニズムによって測定された他のクエリまで、クエリに対する回答を再構築するステップを含んでいる。 リコンストラクションは、プライバシ予算の緩和、再構成された回答のエラーの最小化、高次元データセットへのスケーラビリティを実現するための重要なサブプロブレムである。 本稿では,ReM(Residuals-to-Marginals)という基本的かつ効率的なポストプロセッシング手法を提案する。 提案手法は, 効率的な擬似逆変換を許容する残差クエリベースを用いて, 残差クエリを効率的に解放する機構に関する最近の研究に基づいて構築されている。 拡張GReM-LNN(Gaussian Residuals-to-Marginals with Local Non-Negativity)は、ガウス雑音の下で境界を再構成し、一貫性と非負性を満たす。 本稿では,ReM と GReM-LNN の有効性を実演し,既存のプライベートクエリ応答機構である ResidualPlanner と MWEM を改良した。

Differential privacy is the dominant standard for formal and quantifiable privacy and has been used in major deployments that impact millions of people. Many differentially private algorithms for query release and synthetic data contain steps that reconstruct answers to queries from answers to other queries measured by the mechanism. Reconstruction is an important subproblem for such mechanisms to economize the privacy budget, minimize error on reconstructed answers, and allow for scalability to high-dimensional datasets. In this paper, we introduce a principled and efficient postprocessing method ReM (Residuals-to-Marginals) for reconstructing answers to marginal queries. Our method builds on recent work on efficient mechanisms for marginal query release, based on making measurements using a residual query basis that admits efficient pseudoinversion, which is an important primitive used in reconstruction. An extension GReM-LNN (Gaussian Residuals-to-Marginals with Local Non-negativity) reconstructs marginals under Gaussian noise satisfying consistency and non-negativity, which often reduces error on reconstructed answers. We demonstrate the utility of ReM and GReM-LNN by applying them to improve existing private query answering mechanisms: ResidualPlanner and MWEM.
翻訳日:2024-11-04 23:20:41 公開日:2024-10-01
# セグフォーマを用いた無人航空機リモートセンシング画像のセマンティックセグメンテーション

Semantic Segmentation of Unmanned Aerial Vehicle Remote Sensing Images using SegFormer ( http://arxiv.org/abs/2410.01092v1 )

ライセンス: Link先を確認
Vlatko Spasev, Ivica Dimitrovski, Ivan Chorbev, Ivan Kitanovski, (参考訳) リモートセンシングプラットフォームとしての無人航空機(UAV)のエスカレートが注目され、地上での物体認識に有用であることが証明された。 衛星リモートセンシング画像は分解能と耐候性に限界があるが、UAVリモートセンシングは低速無人航空機を使用し、オブジェクト解像度と俊敏性を向上させる。 高度な機械学習技術の出現は、特にUAVリモートセンシング画像のセマンティックセグメンテーションにおいて、画像解析において大きな進歩をもたらした。 本稿では,UAV画像のセマンティックセグメンテーションのためのセマンティックセグメンテーションフレームワークであるSegFormerの有効性と効率を評価する。 SegFormerの変種は、リアルタイム(B0)から高性能(B5)モデルまで、セマンティックセグメンテーションタスクに適したUAVidデータセットを使用して評価される。 この研究は、UAVセマンティックセグメンテーションの文脈において、SegFormer特有のアーキテクチャとトレーニング手順を詳述している。 実験結果は、モデルの性能をベンチマークデータセットで示し、多様なUAVシナリオでオブジェクトとランドカバー機能を正確に記述する能力を強調し、高い効率とパフォーマンスを両立させる。

The escalating use of Unmanned Aerial Vehicles (UAVs) as remote sensing platforms has garnered considerable attention, proving invaluable for ground object recognition. While satellite remote sensing images face limitations in resolution and weather susceptibility, UAV remote sensing, employing low-speed unmanned aircraft, offers enhanced object resolution and agility. The advent of advanced machine learning techniques has propelled significant strides in image analysis, particularly in semantic segmentation for UAV remote sensing images. This paper evaluates the effectiveness and efficiency of SegFormer, a semantic segmentation framework, for the semantic segmentation of UAV images. SegFormer variants, ranging from real-time (B0) to high-performance (B5) models, are assessed using the UAVid dataset tailored for semantic segmentation tasks. The research details the architecture and training procedures specific to SegFormer in the context of UAV semantic segmentation. Experimental results showcase the model's performance on benchmark dataset, highlighting its ability to accurately delineate objects and land cover features in diverse UAV scenarios, leading to both high efficiency and performance.
翻訳日:2024-11-04 23:20:41 公開日:2024-10-01
# 欠落データを用いた高次元ロジスティック回帰:インプット、正規化、普遍性

High-dimensional logistic regression with missing data: Imputation, regularization, and universality ( http://arxiv.org/abs/2410.01093v1 )

ライセンス: Link先を確認
Kabir Aladin Verchand, Andrea Montanari, (参考訳) 本研究では,高次元のリッジ規則化ロジスティック回帰について,加法雑音によって共変体が欠落したり破損したりするような条件下で検討する。 共変量と加法汚職が独立で、通常分散している場合、予測誤差と推定誤差の両方を正確に特徴づける。 さらに、これらの特徴は普遍的であることを示し、データマトリックスのエントリが一連の独立性とモーメント条件を満たす限り、保証は維持され続けます。 普遍性は、共変量体がランダムに完全に欠落しているときに、いくつかの計算に基づく戦略の詳細な研究を可能にする。 ベイズ最適手順の統計物理学におけるレプリカ理論から派生した予想された性能と,これらの戦略の性能を比較することにより,本研究の基盤となる。 私たちの分析ではいくつかの洞察を得ています。 一 単命令と多命令の単純変種とを区別すること (2) 単入力ロジスティック回帰に単純なリッジ正規化項を加えると、ベイズ最適予測誤差とほぼ区別できない予測誤差を持つ推定器が得られる。 我々はこの結果に広範な数値実験を加えて補足する。

We study high-dimensional, ridge-regularized logistic regression in a setting in which the covariates may be missing or corrupted by additive noise. When both the covariates and the additive corruptions are independent and normally distributed, we provide exact characterizations of both the prediction error as well as the estimation error. Moreover, we show that these characterizations are universal: as long as the entries of the data matrix satisfy a set of independence and moment conditions, our guarantees continue to hold. Universality, in turn, enables the detailed study of several imputation-based strategies when the covariates are missing completely at random. We ground our study by comparing the performance of these strategies with the conjectured performance -- stemming from replica theory in statistical physics -- of the Bayes optimal procedure. Our analysis yields several insights including: (i) a distinction between single imputation and a simple variant of multiple imputation and (ii) that adding a simple ridge regularization term to single-imputed logistic regression can yield an estimator whose prediction error is nearly indistinguishable from the Bayes optimal prediction error. We supplement our findings with extensive numerical experiments.
翻訳日:2024-11-04 23:20:41 公開日:2024-10-01
# メカニックメーカー:シンボリックラーニングプログラムによるアクセシブルゲーム開発

Mechanic Maker: Accessible Game Development Via Symbolic Learning Program Synthesis ( http://arxiv.org/abs/2410.01096v1 )

ライセンス: Link先を確認
Megan Sumner, Vardan Saini, Matthew Guzdial, (参考訳) ゲーム開発は、伝統的にプログラミングスキルを必要とする非常に技術的な実践である。 これは、開発者やクリエイティビティ表現の一部としてゲームを使いたがる人たちにとって、参入障壁となる。 アクセシビリティにフォーカスしたゲーム開発ツールは以前からあったが、一般的にはプログラミングを必要とする。 本稿では,プログラムを使わずに幅広いゲームメカニクスを作成するためのツールであるMechanic Makerを紹介する。 代わりに、ゲーム力学を例から合成するバックエンドのシンボリック学習システムに依存している。 本研究では,様々なプログラミングおよびゲーム開発経験を持つ参加者を対象に,ツールのメリットを評価するためにユーザスタディを行った。 その結果、参加者のツール使用能力はプログラミング能力とは無関係であることが判明した。 私たちのようなツールは、ゲーム開発を民主化するのに役立ち、プログラミングのスキルに関わらず、その実践をアクセス可能にすることができると結論付けています。

Game development is a highly technical practice that traditionally requires programming skills. This serves as a barrier to entry for would-be developers or those hoping to use games as part of their creative expression. While there have been prior game development tools focused on accessibility, they generally still require programming, or have major limitations in terms of the kinds of games they can make. In this paper we introduce Mechanic Maker, a tool for creating a wide-range of game mechanics without programming. It instead relies on a backend symbolic learning system to synthesize game mechanics from examples. We conducted a user study to evaluate the benefits of the tool for participants with a variety of programming and game development experience. Our results demonstrated that participants' ability to use the tool was unrelated to programming ability. We conclude that tools like ours could help democratize game development, making the practice accessible regardless of programming skills.
翻訳日:2024-11-04 23:20:41 公開日:2024-10-01
# 建築産業のためのジェネレーティブAIアプリケーション

Generative AI Application for Building Industry ( http://arxiv.org/abs/2410.01098v1 )

ライセンス: Link先を確認
Hanlong Wan, Jian Zhang, Yan Chen, Weili Xu, Fan Feng, (参考訳) 本稿では,建築業界における生成型AI技術,特に大規模言語モデル(LLM)の変容の可能性について検討する。 これらの高度なAIツールを活用することで、この研究は、エネルギーコードコンプライアンス、設計最適化の構築、労働トレーニングなど、主要な分野にわたる応用を探求する。 この研究は、LLMがいかに労働集約的なプロセスを自動化し、建築プラクティスの効率、正確性、安全性を大幅に改善できるかを強調している。 また、アーキテクチャ計画や規制コードにおいて、複雑な視覚的およびテキスト的データを解釈する上での課題にも対処し、AI駆動のコンプライアンスチェックと設計プロセスを強化する革新的なソリューションを提案している。 さらに、さまざまな規制領域にわたる包括的なコードコンプライアンスを実現するAIツールの開発や、現実的なシミュレーションを通じて、AIが労働トレーニングに革命をもたらす可能性など、AI統合の幅広い意味について検討している。 本稿では,建築産業におけるジェネレーティブAIの現在の能力に関する包括的分析を行い,研究開発の今後の方向性を概説するとともに,より賢く,より持続可能な,応答性のある建設実践の道を開くことを目的とする。

This paper investigates the transformative potential of generative AI technologies, particularly large language models (LLMs), within the building industry. By leveraging these advanced AI tools, the study explores their application across key areas such as energy code compliance, building design optimization, and workforce training. The research highlights how LLMs can automate labor-intensive processes, significantly improving efficiency, accuracy, and safety in building practices. The paper also addresses the challenges associated with interpreting complex visual and textual data in architectural plans and regulatory codes, proposing innovative solutions to enhance AI-driven compliance checking and design processes. Additionally, the study considers the broader implications of AI integration, including the development of AI-powered tools for comprehensive code compliance across various regulatory domains and the potential for AI to revolutionize workforce training through realistic simulations. This paper provides a comprehensive analysis of the current capabilities of generative AI in the building industry while outlining future directions for research and development, aiming to pave the way for smarter, more sustainable, and responsive construction practices.
翻訳日:2024-11-04 23:20:41 公開日:2024-10-01
# 韓国の動詞をアンロックする「Verb Lexicon」のユーザーフレンドリーな探索

Unlocking Korean Verbs: A User-Friendly Exploration into the Verb Lexicon ( http://arxiv.org/abs/2410.01100v1 )

ライセンス: Link先を確認
Seohyun Song, Eunkyul Leah Jo, Yige Chen, Jeen-Pyo Hong, Kyuwon Kim, Jin Wee, Miyoung Kang, KyungTae Lim, Jungyeul Park, Chulwoo Park, (参考訳) Sejong辞書データセットは貴重なリソースを提供し、形態学、構文、意味表現を幅広くカバーしている。 このデータセットは言語情報をより深く探索するために利用することができる。 このデータセット内のラベル付き言語構造は、単語とフレーズとそれらのターゲット動詞との関係を明らかにする基盤を形成する。 本稿では,動詞関連情報の収集と統合を目的としたユーザフレンドリーなWebインターフェースを提案する。 さらに、サブカテゴリ化フレームとそれに対応する説明文例を一致させることで、これらの情報をマッピングする取り組みの概要を述べる。 さらに、構文解析とセマンティックロールラベリングを簡単にするPythonライブラリも提供しています。 これらのツールは、朝鮮語処理の応用を開発するために、Sejong辞書データセットを利用したい個人を支援することを目的としている。

The Sejong dictionary dataset offers a valuable resource, providing extensive coverage of morphology, syntax, and semantic representation. This dataset can be utilized to explore linguistic information in greater depth. The labeled linguistic structures within this dataset form the basis for uncovering relationships between words and phrases and their associations with target verbs. This paper introduces a user-friendly web interface designed for the collection and consolidation of verb-related information, with a particular focus on subcategorization frames. Additionally, it outlines our efforts in mapping this information by aligning subcategorization frames with corresponding illustrative sentence examples. Furthermore, we provide a Python library that would simplify syntactic parsing and semantic role labeling. These tools are intended to assist individuals interested in harnessing the Sejong dictionary dataset to develop applications for Korean language processing.
翻訳日:2024-11-04 23:20:41 公開日:2024-10-01
# オフライン多エージェントRLの爆発構造:低干渉ランクの利点

Exploiting Structure in Offline Multi-Agent RL: The Benefits of Low Interaction Rank ( http://arxiv.org/abs/2410.01101v1 )

ライセンス: Link先を確認
Wenhao Zhan, Scott Fujimoto, Zheqing Zhu, Jason D. Lee, Daniel R. Jiang, Yonathan Efroni, (参考訳) オフラインマルチエージェント強化学習(MARL)における近似平衡学習の問題について検討する。 相互作用ランクという構造的仮定を導入し、相互作用ランクの低い関数は一般的なものに比べて分布シフトに対して著しく堅牢であることを示す。 本研究は,非正規化学習と非正規化学習と組み合わせることで,オフラインMARLにおける分散的,計算的,統計的に効率的に学習できることを実証する。 我々の理論的結果は、一般的に用いられる単一エージェント値分解アーキテクチャと対照的に、オフラインMARLにおける相互作用ランクの低い批判的アーキテクチャの可能性を示す実験によって補完される。

We study the problem of learning an approximate equilibrium in the offline multi-agent reinforcement learning (MARL) setting. We introduce a structural assumption -- the interaction rank -- and establish that functions with low interaction rank are significantly more robust to distribution shift compared to general ones. Leveraging this observation, we demonstrate that utilizing function classes with low interaction rank, when combined with regularization and no-regret learning, admits decentralized, computationally and statistically efficient learning in offline MARL. Our theoretical results are complemented by experiments that showcase the potential of critic architectures with low interaction rank in offline MARL, contrasting with commonly used single-agent value decomposition architectures.
翻訳日:2024-11-04 23:20:41 公開日:2024-10-01
# ほぼアラインな復号法

Approximately Aligned Decoding ( http://arxiv.org/abs/2410.01103v1 )

ライセンス: Link先を確認
Daniel Melcer, Sujan Gonugondla, Pramuditha Perera, Haifeng Qian, Wen-Hao Chiang, Yanjun Wang, Nihal Jain, Pranav Garg, Xiaofei Ma, Anoop Deoras, (参考訳) LLM(Large Language Models)の望ましくない出力を拒否することは一般的であるが、現在の手法では過剰な計算量を必要としたり、出力の分布を著しく歪ませたりする。 本稿では,出力分布の歪みと計算効率のバランスをとる手法を提案する。 本手法のタスク固有性能は, 出力分布を歪ませることなく, 計算効率が向上する手法に匹敵することを示した。

It is common to reject undesired outputs of Large Language Models (LLMs); however, current methods to do so require an excessive amount of computation, or severely distort the distribution of outputs. We present a method to balance the distortion of the output distribution with computational efficiency, allowing for the generation of long sequences of text with difficult-to-satisfy constraints, with less amplification of low probability outputs compared to existing methods. We show through a series of experiments that the task-specific performance of our method is comparable to methods that do not distort the output distribution, while being much more computationally efficient.
翻訳日:2024-11-04 23:10:15 公開日:2024-10-01
# 埋め込みに基づく生成モデルに基づく統計的推測

Embedding-based statistical inference on generative models ( http://arxiv.org/abs/2410.01106v1 )

ライセンス: Link先を確認
Hayden Helm, Aranyak Acharyya, Brandon Duderstadt, Youngser Park, Carey E. Priebe, (参考訳) 最近公開された生成モデルのコホートは、さまざまなトピックやドメインにまたがって、人間の専門家レベルのコンテンツを生成することができる。 このコホートにベースモデルとしてモデルが与えられた場合、パラメータ効率のよい微調整、文脈内学習、制約付き復号化といった手法により、生成能力がさらに向上し、計算効率とデータ効率が向上した。 デリバティブモデルのコレクションがこれらの手法の副産物として現れており、これらのモデルはそれぞれ、ベンチマーク上のスコアや、ユーザが利用できないかもしれない、あるいは利用できないかもしれない機密情報にアクセスしている(または持っていた)かどうかの指標など、関連する共変数のセットを持っている。 いくつかのモデルレベルの共変数に対しては、未知の共変数を予測するために「類似」モデルを使用することができる。 本稿では,データカーネルの視点空間である生成モデルの埋め込みに基づく表現に関する最近の結果を,古典的な統計的推論設定に拡張する。 類似」の概念の基盤として視点空間を用いることは、複数のモデルレベルの推論タスクに有効であることを示す。

The recent cohort of publicly available generative models can produce human expert level content across a variety of topics and domains. Given a model in this cohort as a base model, methods such as parameter efficient fine-tuning, in-context learning, and constrained decoding have further increased generative capabilities and improved both computational and data efficiency. Entire collections of derivative models have emerged as a byproduct of these methods and each of these models has a set of associated covariates such as a score on a benchmark, an indicator for if the model has (or had) access to sensitive information, etc. that may or may not be available to the user. For some model-level covariates, it is possible to use "similar" models to predict an unknown covariate. In this paper we extend recent results related to embedding-based representations of generative models -- the data kernel perspective space -- to classical statistical inference settings. We demonstrate that using the perspective space as the basis of a notion of "similar" is effective for multiple model-level inference tasks.
翻訳日:2024-11-04 23:10:15 公開日:2024-10-01
# モンテ・クリプト伯爵:クロスチェーン橋の会計ベースの防衛策

Count of Monte Crypto: Accounting-based Defenses for Cross-Chain Bridges ( http://arxiv.org/abs/2410.01107v1 )

ライセンス: Link先を確認
Enze Liu, Elisa Luo, Jian Chen Yan, Katherine Izhikevich, Stewart Grant, Deian Stefan, Geoffrey M Voelker, Stefan Savage, (参考訳) 2021年から2023年の間、ブロックチェーン間の交換を可能にするために設計された分散型サービスである「ブリッジ」の攻撃により、暗号資産が260億ドル以上で盗まれた。 各攻撃における個々のエクスプロイトは異なるが、単一の設計上の欠陥はそれら全てを下支えしている。 本稿では,この期間にキーブリッジが使用した2千万件のトランザクションを実証分析する。 クロスチェーンのインフローとアウトフローのバランスをとる単純な不変量は、合法的な使用と互換性があることを示します。 さらに,本手法はポストホック監査に十分なだけでなく,既存の橋梁設計にインラインで実装することで,広範囲な橋梁の脆弱性に対する汎用的な保護を実現することができることを示す。

Between 2021 and 2023, crypto assets valued at over \$US2.6 billion were stolen via attacks on "bridges" -- decentralized services designed to allow inter-blockchain exchange. While the individual exploits in each attack vary, a single design flaw underlies them all: the lack of end-to-end value accounting in cross-chain transactions. In this paper, we empirically analyze twenty million transactions used by key bridges during this period. We show that a simple invariant that balances cross-chain inflows and outflows is compatible with legitimate use, yet precisely identifies every known attack (and several likely attacks) in this data. Further, we show that this approach is not only sufficient for post-hoc audits, but can be implemented in-line in existing bridge designs to provide generic protection against a broad array of bridge vulnerabilities.
翻訳日:2024-11-04 23:10:15 公開日:2024-10-01
# 音声スポフ検出のための雷鳴攻撃による強化

Augmentation through Laundering Attacks for Audio Spoof Detection ( http://arxiv.org/abs/2410.01108v1 )

ライセンス: Link先を確認
Hashim Ali, Surya Subramani, Hafiz Malik, (参考訳) 最近のTTS(text-to-speech)の発展により、音声クローン(VC)はより現実的で、手頃で、アクセスしやすくなっている。 これはジョー・バイデンのニューハンプシャー・ディープフェイク・ロボコールなど、この技術の潜在的な悪用を引き起こしている。 このようなクローンを検出するためにいくつかの方法が提案されている。 しかし、これらの手法は比較的クリーンなデータベース上で訓練され、評価されている。 ASVspoof 5 Challengeは、様々なスプーフ攻撃やコーデック状態を含む様々な音響条件のクラウドソースデータベースを導入した。 本稿では, ASVspoof 5 Challenge への提出を行い,ASVSpoof 5 データベース上で, 雷攻撃によるデータ増強による訓練による音声音声検出の性能評価を目的とした。 その結果,A18,A19,A20,A26,A30のスプーフィング攻撃,およびC08,C09,C10のコーデックおよび圧縮条件において,我々のシステムは最悪の性能を示した。

Recent text-to-speech (TTS) developments have made voice cloning (VC) more realistic, affordable, and easily accessible. This has given rise to many potential abuses of this technology, including Joe Biden's New Hampshire deepfake robocall. Several methodologies have been proposed to detect such clones. However, these methodologies have been trained and evaluated on relatively clean databases. Recently, ASVspoof 5 Challenge introduced a new crowd-sourced database of diverse acoustic conditions including various spoofing attacks and codec conditions. This paper is our submission to the ASVspoof 5 Challenge and aims to investigate the performance of Audio Spoof Detection, trained using data augmentation through laundering attacks, on the ASVSpoof 5 database. The results demonstrate that our system performs worst on A18, A19, A20, A26, and A30 spoofing attacks and in the codec and compression conditions of C08, C09, and C10.
翻訳日:2024-11-04 23:10:15 公開日:2024-10-01
# 混在:マルチタスクファインチューニングがLLM性能に及ぼす影響-財務のケーススタディ

Mixing It Up: The Cocktail Effect of Multi-Task Fine-Tuning on LLM Performance -- A Case Study in Finance ( http://arxiv.org/abs/2410.01109v1 )

ライセンス: Link先を確認
Meni Brief, Oded Ovadia, Gil Shenderovitz, Noga Ben Yoash, Rachel Lemberg, Eitam Sheetrit, (参考訳) 金融を含むドメイン固有の文脈における大規模言語モデル(LLM)の適用は急速に拡大している。 通常、ドメイン固有のLCMは、そのドメインに関連する様々な下流タスクのパフォーマンスに基づいて評価される。 本稿では,そのようなタスクに対する微調整LDMの詳細な解析について述べる。 いずれにせよ、ドメイン固有のケースでは、ターゲットタスクのみを微調整することが、必ずしも最も効果的な戦略であるとは限らない。 代わりに、マルチタスクの微調整 — 関連するタスクのカクテルでモデルをトレーニングする — によって、パフォーマンスが大幅に向上する可能性がある。 我々は、Phi-3-Miniのような小さなモデルが、金融ベンチマークにおいてはるかに大きなGPT-4-oモデルを超えながら、最先端の結果を達成する方法を実証する。 本研究は,大規模実験,広範に採用されているLLMをベースラインとして200モデル以上をトレーニングし,マルチタスクファインチューニングのメリットを実証的に確認する。 さらに,正規化の形式としての汎用命令データの利用についても検討し,性能劣化の最小化に寄与することが示唆された。 また, 数学的データを含むこと, 経済的タスクに効果的に移行する数値推論の改善について検討する。 最後に、下流タスクの微調整はタスクのパフォーマンスを目標とする改善につながるが、必ずしもドメイン知識や複雑なドメイン推論能力がより広範に向上するとは限らないことに留意する。

The application of large language models (LLMs) in domain-specific contexts, including finance, has expanded rapidly. Domain-specific LLMs are typically evaluated based on their performance in various downstream tasks relevant to the domain. In this work, we present a detailed analysis of fine-tuning LLMs for such tasks. Somewhat counterintuitively, we find that in domain-specific cases, fine-tuning exclusively on the target task is not always the most effective strategy. Instead, multi-task fine-tuning - where models are trained on a cocktail of related tasks - can significantly enhance performance. We demonstrate how this approach enables a small model, such as Phi-3-Mini, to achieve state-of-the-art results, even surpassing the much larger GPT-4-o model on financial benchmarks. Our study involves a large-scale experiment, training over 200 models using several widely adopted LLMs as baselines, and empirically confirms the benefits of multi-task fine-tuning. Additionally, we explore the use of general instruction data as a form of regularization, suggesting that it helps minimize performance degradation. We also investigate the inclusion of mathematical data, finding improvements in numerical reasoning that transfer effectively to financial tasks. Finally, we note that while fine-tuning for downstream tasks leads to targeted improvements in task performance, it does not necessarily result in broader gains in domain knowledge or complex domain reasoning abilities.
翻訳日:2024-11-04 23:10:15 公開日:2024-10-01
# 独自のインストラクションを構築することで構築することを学ぶ

Learning to Build by Building Your Own Instructions ( http://arxiv.org/abs/2410.01111v1 )

ライセンス: Link先を確認
Aaron Walsman, Muru Zhang, Adam Fishman, Ali Farhadi, Dieter Fox, (参考訳) 複雑な視覚オブジェクトの構造的理解は、人工知能の重要な未解決要素である。 そこで,本研究では,エージェントがこれまで見つからなかったLEGOアセンブリを,単一の対話的なセッションで構築し,そのコンポーネントとその構造に関する情報を収集する,LTRONで最近提案されたBreak-and-Make問題に対する新しい手法を開発した。 我々は、独自のビジュアル・インストラクション・ブックを作成できる「textbf{\ours」と呼ばれるエージェントを構築することでこの問題に対処する。 見えないアセンブリを分解し、定期的にイメージを保存することにより、エージェントは、再構築に必要な情報を保持するために一連の命令を作成することができる。 これらの命令は明示的なメモリを形成し、モデルが1ステップずつアセンブリプロセスについて推論できるようにし、長期の暗黙記憶を必要としないようにする。 これによって,これまでよりもはるかに大きなLEGOアセンブリをトレーニングすることが可能になります。 このモデルの威力を示すために、我々は、平均31個のブロックを格納し、分解と再組み立てに100以上のステップを必要とする、手続き的に作られたLEGO車の新しいデータセットをリリースする。 オンラインの模倣学習を使ってこれらのモデルをトレーニングし、モデルが自身のミスから学習できるようにする。 最後に,LTRONとBreak-and-Makeの問題に対して,学習環境の簡素化とユーザビリティの向上を図っている。

Structural understanding of complex visual objects is an important unsolved component of artificial intelligence. To study this, we develop a new technique for the recently proposed Break-and-Make problem in LTRON where an agent must learn to build a previously unseen LEGO assembly using a single interactive session to gather information about its components and their structure. We attack this problem by building an agent that we call \textbf{\ours} that is able to make its own visual instruction book. By disassembling an unseen assembly and periodically saving images of it, the agent is able to create a set of instructions so that it has the information necessary to rebuild it. These instructions form an explicit memory that allows the model to reason about the assembly process one step at a time, avoiding the need for long-term implicit memory. This in turn allows us to train on much larger LEGO assemblies than has been possible in the past. To demonstrate the power of this model, we release a new dataset of procedurally built LEGO vehicles that contain an average of 31 bricks each and require over one hundred steps to disassemble and reassemble. We train these models using online imitation learning which allows the model to learn from its own mistakes. Finally, we also provide some small improvements to LTRON and the Break-and-Make problem that simplify the learning environment and improve usability.
翻訳日:2024-11-04 23:10:15 公開日:2024-10-01
# ほぼ自由:自然指数家庭における自己一致とバンドへの応用

Almost Free: Self-concordance in Natural Exponential Families and an Application to Bandits ( http://arxiv.org/abs/2410.01112v1 )

ライセンス: Link先を確認
Shuai Liu, Alex Ayoub, Flore Sentenac, Xiaoqi Tan, Csaba Szepesvári, (参考訳) 部分指数尾を持つ単パラメータ自然指数族が多項式サイズのパラメータと自己一致していることを証明する。 亜ガウスの自然指数族に対しては、自己一致パラメータの成長速度を正確に評価する。 一般化された線形包帯に対する楽観的なアルゴリズムは、2階目(最適腕の報酬分布のばらつきによるスケール)と、先行項における問題パラメータの境界への指数的依存のない後悔境界を楽しむことを示す。 我々の知識を最大限に活用するために、我々の研究は、偏見的な尾を持つ一般化線型バンドイットに対する最初の後悔であり、ポアソン、指数的およびガンマバンドイットを含む問題のクラスを広げている。

We prove that single-parameter natural exponential families with subexponential tails are self-concordant with polynomial-sized parameters. For subgaussian natural exponential families we establish an exact characterization of the growth rate of the self-concordance parameter. Applying these findings to bandits allows us to fill gaps in the literature: We show that optimistic algorithms for generalized linear bandits enjoy regret bounds that are both second-order (scale with the variance of the optimal arm's reward distribution) and free of an exponential dependence on the bound of the problem parameter in the leading term. To the best of our knowledge, ours is the first regret bound for generalized linear bandits with subexponential tails, broadening the class of problems to include Poisson, exponential and gamma bandits.
翻訳日:2024-11-04 23:10:15 公開日:2024-10-01
# SIC-POVMと相互非バイアス基底の演算子システム解析

Operator system characterizations of SIC-POVMs and mutually unbiased bases ( http://arxiv.org/abs/2410.01119v1 )

ライセンス: Link先を確認
Travis B. Russell, (参考訳) 対称情報完全正作用素値測度が与えられた次元$d$と、ある順序理論条件を満たす$d^2$-次元作用素系が存在する場合にのみ存在することを示す。 また、そのような演算子システムを構築する方法を説明し、この構成の最初のステップをうまく実行できることを実証する。 与えられた次元に$d+1$の互いに偏りのない基底が存在するという類似の結果を得る。

We show that a symmetric informationally-complete positive operator-valued measure exists in a given dimension $d$ if and only if there exists a $d^2$-dimensional operator system satisfying certain order-theoretic conditions. We also describe a method of constructing such an operator system and demonstrate that the first step of this construction can be carried out successfully. We obtain analogous results for the existence of $d+1$ mutually unbiased bases in a given dimension.
翻訳日:2024-11-04 23:10:15 公開日:2024-10-01
# ファジィ物体検出のための合成画像の比較研究

Synthetic imagery for fuzzy object detection: A comparative study ( http://arxiv.org/abs/2410.01124v1 )

ライセンス: Link先を確認
Siavash H. Khajavi, Mehdi Moshtaghi, Dikai Yu, Zixuan Liu, Kary Främling, Jan Holmström, (参考訳) ファジィ物体検出はコンピュータビジョン(CV)の研究の難しい分野である。 CVにおけるファジィ検出と非ファジィ検出の区別が重要である。 火、煙、霧、蒸気のようなファジィな物体は、木や車のような非ファジィな物体と比較して、視覚的特徴、ぼやけた縁、様々な形状、不透明さ、体積の点で著しく複雑である。 バランスのとれたデータセットと正確なアノテーションの収集はファジィオブジェクトのためのより良いMLモデルを実現するために重要であるが、コレクションとアノテーションのタスクは依然として非常に手作業である。 本研究では,オブジェクト検出モデルを訓練するための3次元モデルに基づいて,完全合成火災画像の生成と自動アノテートを行う方法を提案する。 さらに,合成画像における訓練されたMLモデルの性能と効率を,実画像と混合画像の訓練されたMLモデルと比較した。 火災検出のための合成データの有効性が実証された一方、テストデータセットは実際の火災の幅広い範囲をカバーするため、性能は向上した。 以上の結果から,合成画像と実画像が混合トレーニングセットで利用される場合,結果のMLモデルは実画像で訓練されたモデルと,広い範囲の火災を検出するための合成画像で訓練されたモデルより優れることがわかった。 合成ファジィオブジェクト画像のアノテーションを自動生成する手法は,ファジィオブジェクト検出に適したコンピュータビジョンモデルを作成する際に,時間とコストの両面で重要な意味を持つ。

The fuzzy object detection is a challenging field of research in computer vision (CV). Distinguishing between fuzzy and non-fuzzy object detection in CV is important. Fuzzy objects such as fire, smoke, mist, and steam present significantly greater complexities in terms of visual features, blurred edges, varying shapes, opacity, and volume compared to non-fuzzy objects such as trees and cars. Collection of a balanced and diverse dataset and accurate annotation is crucial to achieve better ML models for fuzzy objects, however, the task of collection and annotation is still highly manual. In this research, we propose and leverage an alternative method of generating and automatically annotating fully synthetic fire images based on 3D models for training an object detection model. Moreover, the performance, and efficiency of the trained ML models on synthetic images is compared with ML models trained on real imagery and mixed imagery. Findings proved the effectiveness of the synthetic data for fire detection, while the performance improves as the test dataset covers a broader spectrum of real fires. Our findings illustrates that when synthetic imagery and real imagery is utilized in a mixed training set the resulting ML model outperforms models trained on real imagery as well as models trained on synthetic imagery for detection of a broad spectrum of fires. The proposed method for automating the annotation of synthetic fuzzy objects imagery carries substantial implications for reducing both time and cost in creating computer vision models specifically tailored for detecting fuzzy objects.
翻訳日:2024-11-04 23:10:15 公開日:2024-10-01
# インターリーブ・アンサンブル・アンサンブル(Interleaved Ensemble Unlearning)による視覚変換器のバックドアの維持

Using Interleaved Ensemble Unlearning to Keep Backdoors at Bay for Finetuning Vision Transformers ( http://arxiv.org/abs/2410.01128v1 )

ライセンス: Link先を確認
Zeyu Michael Li, (参考訳) ビジョントランスフォーマー(ViT)はコンピュータビジョンタスクで人気がある。 推論中のモデルで好ましくない振る舞いを引き起こすバックドア攻撃は、特にセキュリティに敏感なタスクにおいて、ViTのパフォーマンスを脅かす。 畳み込みニューラルネットワーク(CNN)ではバックドアディフェンスが開発されているが、ViTでは効果が低く、ViTに適合するディフェンスは少ない。 この問題を解決するために、バックドアデータセット上でクリーンなViTを微調整するInterleaved Ensemble Unlearning (IEU)を提案する。 ステージ1では、浅いViTが微調整され、バックドアデータの信頼性が高く、クリーンデータの信頼性が低い。 ステージ2では、浅い ViT が ``gate'' として機能し、防御された ViT から潜在的に有毒なデータをブロックする。 このデータは未学習のセットに追加され、勾配上昇によって非同期に未学習となる。 我々は、11の最先端バックドア攻撃に対する3つのデータセットに対するIEUの有効性を実証し、異なるモデルアーキテクチャに適用することで、その汎用性を示す。

Vision Transformers (ViTs) have become popular in computer vision tasks. Backdoor attacks, which trigger undesirable behaviours in models during inference, threaten ViTs' performance, particularly in security-sensitive tasks. Although backdoor defences have been developed for Convolutional Neural Networks (CNNs), they are less effective for ViTs, and defences tailored to ViTs are scarce. To address this, we present Interleaved Ensemble Unlearning (IEU), a method for finetuning clean ViTs on backdoored datasets. In stage 1, a shallow ViT is finetuned to have high confidence on backdoored data and low confidence on clean data. In stage 2, the shallow ViT acts as a ``gate'' to block potentially poisoned data from the defended ViT. This data is added to an unlearn set and asynchronously unlearned via gradient ascent. We demonstrate IEU's effectiveness on three datasets against 11 state-of-the-art backdoor attacks and show its versatility by applying it to different model architectures.
翻訳日:2024-11-04 23:10:15 公開日:2024-10-01
# 量子古典ハイブリッド微分方程式解法H-DES

H-DES: a Quantum-Classical Hybrid Differential Equation Solver ( http://arxiv.org/abs/2410.01130v1 )

ライセンス: Link先を確認
Hamza Jaffali, Jonas Bastos de Araujo, Nadia Milazzo, Marta Reina, Henri de Boutray, Karla Baumann, Frédéric Holweck, (参考訳) 本稿では、微分方程式の系を解くための変分量子アルゴリズムに基づく独自のハイブリッド量子古典アルゴリズムを紹介する。 このアルゴリズムは、異なるパラメタライズド回路によって生成された量子状態の振幅で解関数を符号化し、微分方程式を最適化するタスクを変換するスペクトル法に依存している。 まず、理論的な観点からアルゴリズムの原理を述べる。 このアルゴリズムの詳細な擬似コードを提供し、複雑性解析を行い、そのスケーリング特性を強調する。 様々な微分方程式の集合にその適用性を示す一連の例に適用する。 本手法の利点と今後の探索・改良への可能性について論じる。

In this article, we introduce an original hybrid quantum-classical algorithm based on a variational quantum algorithm for solving systems of differential equations. The algorithm relies on a spectral method, which involves encoding the solution functions in the amplitudes of the quantum states generated by different parametrized circuits and transforms the task of solving the differential equations into an optimization problem. We first describe the principle of the algorithm from a theoretical point of view. We provide a detailed pseudo-code of the algorithm, on which we conduct a complexity analysis to highlight its scaling properties. We apply it to a set of examples, showcasing its applicability across diverse sets of differential equations. We discuss the advantages of our method and potential avenues for further exploration and refinement.
翻訳日:2024-11-04 23:10:15 公開日:2024-10-01
# nGPT:超球面表現学習を用いた正規化変圧器

nGPT: Normalized Transformer with Representation Learning on the Hypersphere ( http://arxiv.org/abs/2410.01131v1 )

ライセンス: Link先を確認
Ilya Loshchilov, Cheng-Ping Hsieh, Simeng Sun, Boris Ginsburg, (参考訳) 本稿では,超球面上で表現学習を行うニューラルニューラルネットワークアーキテクチャ,正規化トランスフォーマー(nGPT)を提案する。 nGPTでは、埋め込み、MLP、注意行列、隠れ状態を構成する全てのベクトルは、単位ノルム化される。 トークンの入力ストリームはハイパースフィアの表面を移動し、各層はターゲット出力予測への変位に寄与する。 これらの変位は、MLPとアテンションブロックによって定義され、ベクトル成分は同じ超球上に存在する。 実験の結果、nGPTはより高速に学習し、シーケンスの長さに応じて4から20の精度で同じ精度を達成するために必要なトレーニングステップの数を削減した。

We propose a novel neural network architecture, the normalized Transformer (nGPT) with representation learning on the hypersphere. In nGPT, all vectors forming the embeddings, MLP, attention matrices and hidden states are unit norm normalized. The input stream of tokens travels on the surface of a hypersphere, with each layer contributing a displacement towards the target output predictions. These displacements are defined by the MLP and attention blocks, whose vector components also reside on the same hypersphere. Experiments show that nGPT learns much faster, reducing the number of training steps required to achieve the same accuracy by a factor of 4 to 20, depending on the sequence length.
翻訳日:2024-11-04 23:00:28 公開日:2024-10-01
# 深部表情認識のための空間行動単位キュー

Spatial Action Unit Cues for Interpretable Deep Facial Expression Recognition ( http://arxiv.org/abs/2410.01848v1 )

ライセンス: Link先を確認
Soufiane Belharbi, Marco Pedersoli, Alessandro Lameiras Koerich, Simon Bacon, Eric Granger, (参考訳) 表情認識のための最先端の分類器(FER)は高い精度を達成できるが、エンドユーザーにとって重要な特徴である解釈性に欠ける。 専門家は通常、コードブックから表情の視覚的解釈のための顔領域への空間行動単位(AU)を関連付ける。 本稿では、同様の専門家の手順を踏襲する。 新しい学習戦略が提案され、AU cues を分類器訓練に明示的に組み込むことで、深い解釈可能なモデルを訓練することができる。 トレーニング中、このAUコードブックは、入力画像表現ラベルおよび顔ランドマークと共に使用され、顔表現に係わる最も識別性の高い画像領域を示すAUヒートマップを構築する。 この価値ある空間キューを利用して、FERの深い解釈可能な分類器を訓練する。 これは、AUヒートマップと相関する分類器の空間層特性を制約することで達成される。 合成損失を用いて、この分類器は、AUマップと相関した解釈可能な視覚層対応の注意を与えながら、画像の正しい分類を訓練し、専門家決定過程をシミュレートする。 我々の戦略は、手作業のアノテーションを伴わずに、イメージクラスの表現のみを監督に頼っている。 我々の新しい戦略は汎用的であり、アーキテクチャの変更や追加のトレーニング時間を必要とすることなく、ディープCNNやトランスフォーマーベースの分類器に適用できます。 RAF-DBとAffectNetデータセットの2つの公開ベンチマークに対する広範な評価は、提案手法が分類性能を劣化させることなく階層的解釈性を向上させることができることを示している。 さらに,クラスアクティベーションマッピング(CAM)手法に依存する共通タイプの解釈可能な分類器について検討し,そのアプローチがCAMの解釈可能性を向上させることを示す。

Although state-of-the-art classifiers for facial expression recognition (FER) can achieve a high level of accuracy, they lack interpretability, an important feature for end-users. Experts typically associate spatial action units (AUs) from a codebook to facial regions for the visual interpretation of expressions. In this paper, the same expert steps are followed. A new learning strategy is proposed to explicitly incorporate AU cues into classifier training, allowing to train deep interpretable models. During training, this AU codebook is used, along with the input image expression label, and facial landmarks, to construct a AU heatmap that indicates the most discriminative image regions of interest w.r.t the facial expression. This valuable spatial cue is leveraged to train a deep interpretable classifier for FER. This is achieved by constraining the spatial layer features of a classifier to be correlated with AU heatmaps. Using a composite loss, the classifier is trained to correctly classify an image while yielding interpretable visual layer-wise attention correlated with AU maps, simulating the expert decision process. Our strategy only relies on image class expression for supervision, without additional manual annotations. Our new strategy is generic, and can be applied to any deep CNN- or transformer-based classifier without requiring any architectural change or significant additional training time. Our extensive evaluation on two public benchmarks RAF-DB, and AffectNet datasets shows that our proposed strategy can improve layer-wise interpretability without degrading classification performance. In addition, we explore a common type of interpretable classifiers that rely on class activation mapping (CAM) methods, and show that our approach can also improve CAM interpretability.
翻訳日:2024-11-04 14:34:44 公開日:2024-10-01
# 安全かつ依存可能なAI分類器生成のための早期ワークフローの提案

An Early-Stage Workflow Proposal for the Generation of Safe and Dependable AI Classifiers ( http://arxiv.org/abs/2410.01850v1 )

ライセンス: Link先を確認
Hans Dermot Doran, Suzana Veljanovska, (参考訳) 資格のある安全で信頼性の高いAIモデルの生成と実行は、透明で、完全で、適応可能で、好ましい軽量ワークフローの定義を必要とする。 AI研究の急速に進歩している領域と、セーフAIドメインの相対的な未成熟さを考えると、機能的に安全な開発が残っているプロセスの安定性は、ある程度の適応性で結婚しなければならない。 この初期段階の研究は、拡張されたONNXモデル記述に基づいて、そのようなワークフローを提案する。 ユースケースは、他のサードパーティのユースケースによって拡張されると思われる、このボディの1つの基盤を提供します。

The generation and execution of qualifiable safe and dependable AI models, necessitates definition of a transparent, complete yet adaptable and preferably lightweight workflow. Given the rapidly progressing domain of AI research and the relative immaturity of the safe-AI domain the process stability upon which functionally safety developments rest must be married with some degree of adaptability. This early-stage work proposes such a workflow basing it on a an extended ONNX model description. A use case provides one foundations of this body of work which we expect to be extended by other, third party use-cases.
翻訳日:2024-11-04 14:34:44 公開日:2024-10-01
# シングルセルデータから時系列ネットワークを復元する

Recovering Time-Varying Networks From Single-Cell Data ( http://arxiv.org/abs/2410.01853v1 )

ライセンス: Link先を確認
Euxhen Hasanaj, Barnabás Póczos, Ziv Bar-Joseph, (参考訳) 遺伝子調節は、人間の発達、疾患反応、その他の重要な生物学的プロセスの全ての側面を基盤とする動的なプロセスである。 時間的遺伝子制御ネットワークの再構築は、従来、回帰分析、グラフィカルモデル、その他の種類の関連ネットワークに依存してきた。 時系列シングルセルデータの増加に伴い、このようなネットワークを再構築するためには、このデータのユニークなスケールと性質に対処する新たなアプローチが必要である。 そこで我々は,時系列単細胞遺伝子発現データから動的グラフを推論するディープニューラルネットワークであるMarleneを開発した。 Marleneは、重みが時間の経過とともに繰り返し単位を使って進化する自己認識機構を用いて、有向遺伝子ネットワークを構築する。 メタ学習を利用することで、稀な細胞タイプであっても正確な時間ネットワークを復元することができる。 さらに、Marleneは、新型コロナウイルスの免疫反応、線維化、老化など、特定の生物学的反応に関連する遺伝子相互作用を特定できる。

Gene regulation is a dynamic process that underlies all aspects of human development, disease response, and other key biological processes. The reconstruction of temporal gene regulatory networks has conventionally relied on regression analysis, graphical models, or other types of relevance networks. With the large increase in time series single-cell data, new approaches are needed to address the unique scale and nature of this data for reconstructing such networks. Here, we develop a deep neural network, Marlene, to infer dynamic graphs from time series single-cell gene expression data. Marlene constructs directed gene networks using a self-attention mechanism where the weights evolve over time using recurrent units. By employing meta learning, the model is able to recover accurate temporal networks even for rare cell types. In addition, Marlene can identify gene interactions relevant to specific biological responses, including COVID-19 immune response, fibrosis, and aging.
翻訳日:2024-11-04 14:34:44 公開日:2024-10-01
# 低演算デバイスにおける葉画像からの植物病検出のための新しい特徴抽出モデル

A Novel Feature Extraction Model for the Detection of Plant Disease from Leaf Images in Low Computational Devices ( http://arxiv.org/abs/2410.01854v1 )

ライセンス: Link先を確認
Rikathi Pal, Anik Basu Bhaumik, Arpan Murmu, Sanoar Hossain, Biswajit Maity, Soumya Sen, (参考訳) 植物の病気は、生産的で安全な農業に重大な危険をもたらす。 植物病は早期かつ正確に検出でき、作物の損失や殺虫剤の使用を減らすことができる。 一方、伝統的な植物病の同定法は一般的に時間がかかり、専門的な専門知識を必要とする。 直接葉の写真を撮って病気を素早く検出できれば、農家にとって有益だろう。 これは時間の節約プロセスであり、即時に修正措置を取ることができます。 そこで本研究では,携帯電話などの低コストコンピューティングシステムを用いて,葉写真からトマトの病原体を検出するための特徴抽出手法を提案する。 提案手法は,葉のイメージから頑健で識別可能な特徴を抽出するために,様々なタイプのディープラーニング技術を統合する。 提案された機能抽出比較が、最先端の5つのディープラーニングモデル(AlexNet、ResNet50、VGG16、VGG19、MobileNet)で実施された。 このデータセットには、10種類のトマト病と1種類の健康な葉から1万枚の葉の写真が含まれています。 実験結果によると、AlexNetの精度は87%で、高速で軽量であり、組み込みシステムやスマートフォンなどの低処理デバイスでの使用に適している。

Diseases in plants cause significant danger to productive and secure agriculture. Plant diseases can be detected early and accurately, reducing crop losses and pesticide use. Traditional methods of plant disease identification, on the other hand, are generally time-consuming and require professional expertise. It would be beneficial to the farmers if they could detect the disease quickly by taking images of the leaf directly. This will be a time-saving process and they can take remedial actions immediately. To achieve this a novel feature extraction approach for detecting tomato plant illnesses from leaf photos using low-cost computing systems such as mobile phones is proposed in this study. The proposed approach integrates various types of Deep Learning techniques to extract robust and discriminative features from leaf images. After the proposed feature extraction comparisons have been made on five cutting-edge deep learning models: AlexNet, ResNet50, VGG16, VGG19, and MobileNet. The dataset contains 10,000 leaf photos from ten classes of tomato illnesses and one class of healthy leaves. Experimental findings demonstrate that AlexNet has an accuracy score of 87%, with the benefit of being quick and lightweight, making it appropriate for use on embedded systems and other low-processing devices like smartphones.
翻訳日:2024-11-04 14:34:44 公開日:2024-10-01
# ニューロ・シンボリック統合による説明可能な診断予測

Explainable Diagnosis Prediction through Neuro-Symbolic Integration ( http://arxiv.org/abs/2410.01855v1 )

ライセンス: Link先を確認
Qiuhao Lu, Rui Li, Elham Sagheb, Andrew Wen, Jinlian Wang, Liwei Wang, Jungwei W. Fan, Hongfang Liu, (参考訳) 診断予測は医療において重要な課題であり、医療状況のタイムリーかつ正確な同定が患者の予後に大きな影響を及ぼす可能性がある。 従来の機械学習とディープラーニングモデルは、この領域で顕著な成功を収めてきたが、多くの場合、臨床における重要な要件である解釈可能性が欠如している。 本研究では、診断予測のための説明可能なモデルを開発するために、ニューロシンボリック手法、特に論理ニューラルネットワーク(LNN)の利用について検討する。 本質的には、学習可能なしきい値を持つ論理規則を通じてドメイン固有の知識を統合するLNNモデルの設計と実装を行う。 我々のモデル、特に$M_{\text{multi-pathway}}$と$M_{\text{comprehensive}}$は、糖尿病予測のケーススタディにおいて、ロジスティック回帰、SVM、ランダムフォレストといった従来のモデルよりも優れたパフォーマンスを示し、高い精度(最大80.52\%)とAUROCスコア(最大0.8457)を達成する。 LNNモデル内の学習重量と閾値は、機能への貢献に関する直接的な洞察を与え、予測力を損なうことなく解釈可能性を高める。 これらの知見は、医療AI応用における精度と説明可能性のギャップを埋める神経象徴的アプローチの可能性を強調している。 透明で適応可能な診断モデルを提供することで、我々の研究は精密医療の進歩に寄与し、公平な医療ソリューションの開発を支援します。 今後の研究は、これらの手法をより大規模で多様なデータセットに拡張して、さまざまな医療状況や人口にわたって適用性を検証することに重点を置いている。

Diagnosis prediction is a critical task in healthcare, where timely and accurate identification of medical conditions can significantly impact patient outcomes. Traditional machine learning and deep learning models have achieved notable success in this domain but often lack interpretability which is a crucial requirement in clinical settings. In this study, we explore the use of neuro-symbolic methods, specifically Logical Neural Networks (LNNs), to develop explainable models for diagnosis prediction. Essentially, we design and implement LNN-based models that integrate domain-specific knowledge through logical rules with learnable thresholds. Our models, particularly $M_{\text{multi-pathway}}$ and $M_{\text{comprehensive}}$, demonstrate superior performance over traditional models such as Logistic Regression, SVM, and Random Forest, achieving higher accuracy (up to 80.52\%) and AUROC scores (up to 0.8457) in the case study of diabetes prediction. The learned weights and thresholds within the LNN models provide direct insights into feature contributions, enhancing interpretability without compromising predictive power. These findings highlight the potential of neuro-symbolic approaches in bridging the gap between accuracy and explainability in healthcare AI applications. By offering transparent and adaptable diagnostic models, our work contributes to the advancement of precision medicine and supports the development of equitable healthcare solutions. Future research will focus on extending these methods to larger and more diverse datasets to further validate their applicability across different medical conditions and populations.
翻訳日:2024-11-04 14:34:44 公開日:2024-10-01
# LinkThief: GNNに対するリンクステアリング攻撃のための汎用構造知識とノード類似性の組み合わせ

LinkThief: Combining Generalized Structure Knowledge with Node Similarity for Link Stealing Attack against GNN ( http://arxiv.org/abs/2410.02826v1 )

ライセンス: Link先を確認
Yuxing Zhang, Siyuan Meng, Chunchun Chen, Mengyao Peng, Hongyan Gu, Xinli Huang, (参考訳) グラフニューラルネットワーク(GNN)は、マルチメディアに幅広い応用がある。近年の研究では、グラフニューラルネットワーク(GNN)が、ターゲットのGNNのトレーニンググラフ内のエッジの存在を推測する、リンク盗難攻撃に弱いことが示されている。既存の攻撃は、通常、類似した後縁を共有する2つのノード間のリンクが存在するという仮定に基づいている。しかし、この仮定では保持しないリンクに焦点を合わせることができない。この目的のために、我々は、LinkThiefというリンク盗難攻撃を提案する。これは、攻撃者のバックグラウンド知識が部分的に流出したターゲットグラフとシャドウグラフを含む一般的な構造知識を含んでいるシナリオである。特に、ターゲットグラフとシャドウグラフの両方にまたがるリンク構造に関する洞察と、グラフとシャドウグラフの両方のエッジ構造に関する洞察と、グラフグラフのシャドウグラフとシャドウグラフからエッジ構造を抽出するシャドウグラフの考え方を導入して、エッジ構造とシャドウグラフを抽出する。

Graph neural networks(GNNs) have a wide range of applications in multimedia.Recent studies have shown that Graph neural networks(GNNs) are vulnerable to link stealing attacks,which infers the existence of edges in the target GNN's training graph.Existing attacks are usually based on the assumption that links exist between two nodes that share similar posteriors;however,they fail to focus on links that do not hold under this assumption.To this end,we propose LinkThief,an improved link stealing attack that combines generalized structure knowledge with node similarity,in a scenario where the attackers' background knowledge contains partially leaked target graph and shadow graph.Specifically,to equip the attack model with insights into the link structure spanning both the shadow graph and the target graph,we introduce the idea of creating a Shadow-Target Bridge Graph and extracting edge subgraph structure features from it.Through theoretical analysis from the perspective of privacy theft,we first explore how to implement the aforementioned ideas.Building upon the findings,we design the Bridge Graph Generator to construct the Shadow-Target Bridge Graph.Then,the subgraph around the link is sampled by the Edge Subgraph Preparation Module.Finally,the Edge Structure Feature Extractor is designed to obtain generalized structure knowledge,which is combined with node similarity to form the features provided to the attack model.Extensive experiments validate the correctness of theoretical analysis and demonstrate that LinkThief still effectively steals links without extra assumptions.
翻訳日:2024-11-03 05:34:38 公開日:2024-10-01
# オートエンコーダを用いた特徴抽出と機械学習によるUAV通信の効果的な侵入検出

Effective Intrusion Detection for UAV Communications using Autoencoder-based Feature Extraction and Machine Learning Approach ( http://arxiv.org/abs/2410.02827v1 )

ライセンス: Link先を確認
Tuan-Cuong Vuong, Cong Chi Nguyen, Van-Cuong Pham, Thi-Thanh-Huyen Le, Xuan-Nam Tran, Thien Van Luong, (参考訳) 本稿では,無人航空機(UAV)の最近の実際のUAV侵入データセットの存在下での新しい侵入検知手法を提案する。 特に,本手法の第一段階において,重要な特徴を効果的に抽出するオートエンコーダアーキテクチャを設計し,攻撃タイプの検出と分類を行う第2段階において,各種機械学習モデルに入力する。 我々の知る限りでは、これは実際のデータセットを使用してUAVに対する自動エンコーダベースの機械学習侵入検出手法を提案する最初の試みであり、既存の研究の多くは、UAV通信とは無関係にシミュレーションされたデータセットまたはデータセットのみを考慮している。 実験の結果,提案手法は,二項分類と多項分類の双方において特徴選択方式などのベースラインよりも優れていることがわかった。

This paper proposes a novel intrusion detection method for unmanned aerial vehicles (UAV) in the presence of recent actual UAV intrusion dataset. In particular, in the first stage of our method, we design an autoencoder architecture for effectively extracting important features, which are then fed into various machine learning models in the second stage for detecting and classifying attack types. To the best of our knowledge, this is the first attempt to propose such the autoencoder-based machine learning intrusion detection method for UAVs using actual dataset, while most of existing works only consider either simulated datasets or datasets irrelevant to UAV communications. Our experiment results show that the proposed method outperforms the baselines such as feature selection schemes in both binary and multi-class classification tasks.
翻訳日:2024-11-03 05:34:38 公開日:2024-10-01
# PyRIT: ジェネレーティブAIシステムにおけるセキュリティリスク識別とレッドチームのためのフレームワーク

PyRIT: A Framework for Security Risk Identification and Red Teaming in Generative AI System ( http://arxiv.org/abs/2410.02828v1 )

ライセンス: Link先を確認
Gary D. Lopez Munoz, Amanda J. Minnich, Roman Lutz, Richard Lundeen, Raja Sekhar Rao Dheekonda, Nina Chikanov, Bolor-Erdene Jagdagdorj, Martin Pouliot, Shiven Chawla, Whitney Maxwell, Blake Bullwinkel, Katherine Pratt, Joris de Gruyter, Charlotte Siska, Pete Bryan, Tori Westerhoff, Chang Kawaguchi, Christian Seifert, Ram Shankar Siva Kumar, Yonatan Zunger, (参考訳) ジェネレーティブ・人工知能(GenAI)は、私たちの日常生活でユビキタスになりつつある。 計算能力とデータの可用性の向上により、シングルモーダルモデルとマルチモーダルモデルの両方が急増した。 GenAIエコシステムが成熟するにつれて、拡張性とモデルに依存しないリスク識別フレームワークの必要性が高まっている。 このニーズに応えるため,我々はPython Risk Identification Toolkit (PyRIT)を紹介した。 PyRITはモデルとプラットフォームに依存しないツールで、マルチモーダル生成型AIモデルにおいて、レッドチームで新しい害、リスク、ジェイルブレイクを探索し、特定することができる。 その構成可能なアーキテクチャは、コアビルディングブロックの再利用を促進し、将来のモデルやモダリティの拡張を可能にする。 本稿では,PyRITの開発と機能,および実世界のシナリオにおける実践的応用について述べる。

Generative Artificial Intelligence (GenAI) is becoming ubiquitous in our daily lives. The increase in computational power and data availability has led to a proliferation of both single- and multi-modal models. As the GenAI ecosystem matures, the need for extensible and model-agnostic risk identification frameworks is growing. To meet this need, we introduce the Python Risk Identification Toolkit (PyRIT), an open-source framework designed to enhance red teaming efforts in GenAI systems. PyRIT is a model- and platform-agnostic tool that enables red teamers to probe for and identify novel harms, risks, and jailbreaks in multimodal generative AI models. Its composable architecture facilitates the reuse of core building blocks and allows for extensibility to future models and modalities. This paper details the challenges specific to red teaming generative AI systems, the development and features of PyRIT, and its practical applications in real-world scenarios.
翻訳日:2024-11-03 05:34:38 公開日:2024-10-01
# LLMは人間レベルプレイヤーではないかもしれないが、テスタになれる: LLMエージェントによるゲーム障害の測定

LLMs May Not Be Human-Level Players, But They Can Be Testers: Measuring Game Difficulty with LLM Agents ( http://arxiv.org/abs/2410.02829v1 )

ライセンス: Link先を確認
Chang Xiao, Brenda Z. Yang, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、様々なタスクにまたがる自律エージェントとしての可能性を示している。 新たな応用の1つは、ゲームにおけるLLMの使用である。 本研究では,ゲーム産業における現実的な問題を探る: LLMはゲーム難度を測定するために使用できるか? LLMエージェントを用いた一般的なゲームテストフレームワークを提案し、広くプレイされている戦略ゲームであるWordleとSlay the Spireでテストする。 LLMは平均的な人間プレイヤーほど動作しないかもしれないが、単純で汎用的なプロンプト技術によって誘導される場合、人間のプレイヤーが示す困難さと統計的に有意で強い相関関係を示す。 このことから, LLM は開発過程におけるゲーム難易度測定に有効である可能性が示唆された。 また,本実験に基づき,ゲームテストプロセスにLSMを組み込むための一般的な原則とガイドラインを概説した。

Recent advances in Large Language Models (LLMs) have demonstrated their potential as autonomous agents across various tasks. One emerging application is the use of LLMs in playing games. In this work, we explore a practical problem for the gaming industry: Can LLMs be used to measure game difficulty? We propose a general game-testing framework using LLM agents and test it on two widely played strategy games: Wordle and Slay the Spire. Our results reveal an interesting finding: although LLMs may not perform as well as the average human player, their performance, when guided by simple, generic prompting techniques, shows a statistically significant and strong correlation with difficulty indicated by human players. This suggests that LLMs could serve as effective agents for measuring game difficulty during the development process. Based on our experiments, we also outline general principles and guidelines for incorporating LLMs into the game testing process.
翻訳日:2024-11-03 05:34:38 公開日:2024-10-01
# YouTube Video Analytics for patient Engagement: Evidence from Colonoscopy prepared Videos (特集 患者のエンゲージメントのためのYouTubeビデオ分析)

YouTube Video Analytics for Patient Engagement: Evidence from Colonoscopy Preparation Videos ( http://arxiv.org/abs/2410.02830v1 )

ライセンス: Link先を確認
Yawen Guo, Xiao Liu, Anjana Susarla, Padman Rema, (参考訳) ビデオは、コンテキスト化された、ジャスト・イン・タイムの医療情報を患者教育に届ける効果的な方法である。 しかし, トピック識別・検索から医療情報の抽出・分析, 患者の視点からの理解可能性まで, 映像解析は極めて困難な課題である。 本研究は, 大腸内視鏡検査の準備にYouTubeビデオから医療情報を検索する手法を利用するデータ解析パイプラインを実証した。 まず、YouTube Data APIを使って、検索キーワードの選択したビデオのメタデータを収集し、Google Video Intelligence APIを使ってテキスト、フレーム、オブジェクトデータを分析します。 次に、医療情報、ビデオの可視性、全体的なレコメンデーションについて、YouTubeのビデオ資料に注釈を付ける。 我々は,ビデオ内の医療用語を識別し,符号化された医療情報と映像理解能力のレベルに基づいて,動画をグループ化するための3つの分類器を構築するために,双方向長短期記憶(BiLSTM)モデルを開発した。 本研究は、医療関係者に対して、多数の健康状態の管理を強化するために、新しい教育ビデオコンテンツを作成するためのガイドラインとスケーラブルなアプローチを提供する。

Videos can be an effective way to deliver contextualized, just-in-time medical information for patient education. However, video analysis, from topic identification and retrieval to extraction and analysis of medical information and understandability from a patient perspective are extremely challenging tasks. This study demonstrates a data analysis pipeline that utilizes methods to retrieve medical information from YouTube videos on preparing for a colonoscopy exam, a much maligned and disliked procedure that patients find challenging to get adequately prepared for. We first use the YouTube Data API to collect metadata of desired videos on select search keywords and use Google Video Intelligence API to analyze texts, frames and objects data. Then we annotate the YouTube video materials on medical information, video understandability and overall recommendation. We develop a bidirectional long short-term memory (BiLSTM) model to identify medical terms in videos and build three classifiers to group videos based on the levels of encoded medical information and video understandability, and whether the videos are recommended or not. Our study provides healthcare stakeholders with guidelines and a scalable approach for generating new educational video content to enhance management of a vast number of health conditions.
翻訳日:2024-11-03 05:24:53 公開日:2024-10-01
# スキル問題:CS:GOスキルレーティングシステムの解析

Skill Issues: An Analysis of CS:GO Skill Rating Systems ( http://arxiv.org/abs/2410.02831v1 )

ライセンス: Link先を確認
Mikel Bober-Irizar, Naunidh Dua, Max McGuinness, (参考訳) オンラインゲームの普及は、改善と公正なマッチメイキングを追跡するための正確なスキルレーティングシステムの必要性を生み出した。 多くのスキルレーティングシステムがデプロイされているが、様々な理論的基礎があるため、これらのアルゴリズムの実際の性能を分析する作業は少ない。 本稿では,サロゲートモデリングのレンズを用いて,Elo,Glicko2,TrueSkillの実証分析を行い,スキル評価が将来のマッチング機能と構成可能な獲得機能に影響を及ぼすことを示す。 我々は、全体的なパフォーマンスとデータ効率を考察し、Counter-Strike: Global Offensive Matchの大規模なデータセットに基づいて感度分析を行う。

The meteoric rise of online games has created a need for accurate skill rating systems for tracking improvement and fair matchmaking. Although many skill rating systems are deployed, with various theoretical foundations, less work has been done at analysing the real-world performance of these algorithms. In this paper, we perform an empirical analysis of Elo, Glicko2 and TrueSkill through the lens of surrogate modelling, where skill ratings influence future matchmaking with a configurable acquisition function. We look both at overall performance and data efficiency, and perform a sensitivity analysis based on a large dataset of Counter-Strike: Global Offensive matches.
翻訳日:2024-11-03 05:24:53 公開日:2024-10-01
# ERASMO:クラスタリングセグメンテーション強化のための大規模言語モデルを活用する

ERASMO: Leveraging Large Language Models for Enhanced Clustering Segmentation ( http://arxiv.org/abs/2410.03738v1 )

ライセンス: Link先を確認
Fillipe dos Santos Silva, Gabriel Kenzo Kakimoto, Julio Cesar dos Reis, Marcelo S. Reis, (参考訳) クラスタ分析は、マーケティングにおける顧客セグメンテーションなど、さまざまなドメインやアプリケーションにおいて重要な役割を果たす。 これらのコンテキストは、表とテキストの両方のデータセットを含むマルチモーダルデータを含むことが多いため、意味のあるクラスタを取得するために隠されたパターンを表現することは困難である。 本研究では,テキストで符号化された表形式データ上に事前学習した言語モデルを微調整し,微調整されたモデルから埋め込みを生成するためのフレームワークであるERASMOを紹介する。 ERASMOは、表形式のデータをテキスト形式に変換するためにテキスト変換器を使用し、言語モデルがより効率的にデータを処理し理解できるようにする。 さらに、ERASMOはランダムな特徴列シャッフルや数動詞化といった手法により、文脈的にリッチで構造的に代表的な埋め込みを生成する。 複数のデータセットとベースラインアプローチを用いて実験を行った。 その結果,ERASMOは各表データセットの特定のコンテキストを完全に活用し,正確なクラスタリングのためのより正確でニュアンスな埋め込みを実現していることがわかった。 このアプローチは、多様な表データ内の複雑な関係パターンをキャプチャすることでクラスタリング性能を向上させる。

Cluster analysis plays a crucial role in various domains and applications, such as customer segmentation in marketing. These contexts often involve multimodal data, including both tabular and textual datasets, making it challenging to represent hidden patterns for obtaining meaningful clusters. This study introduces ERASMO, a framework designed to fine-tune a pretrained language model on textually encoded tabular data and generate embeddings from the fine-tuned model. ERASMO employs a textual converter to transform tabular data into a textual format, enabling the language model to process and understand the data more effectively. Additionally, ERASMO produces contextually rich and structurally representative embeddings through techniques such as random feature sequence shuffling and number verbalization. Extensive experimental evaluations were conducted using multiple datasets and baseline approaches. Our results demonstrate that ERASMO fully leverages the specific context of each tabular dataset, leading to more precise and nuanced embeddings for accurate clustering. This approach enhances clustering performance by capturing complex relationship patterns within diverse tabular data.
翻訳日:2024-11-02 20:18:28 公開日:2024-10-01
# 視覚・音声・テキストからの文法誘導

Grammar Induction from Visual, Speech and Text ( http://arxiv.org/abs/2410.03739v1 )

ライセンス: Link先を確認
Yu Zhao, Hao Fei, Shengqiong Wu, Meishan Zhang, Min Zhang, Tat-seng Chua, (参考訳) 文法誘導は、テキスト、視覚、音響などの豊富な異種信号の恩恵を受けることができる。 この過程において、異なるモジュラリティの特徴は本質的に相互に相補的な役割を果たす。 このような直感によって, 並列画像, テキスト, 音声入力から構成文法木を誘導する, 視覚・音声・音声・音声の文法帰納的タスク(「textbf{VAT-GI}」)を導入している。 言語文法が本文を超えて自然に存在するという事実に触発されて、本文は文法帰納において支配的なモダリティであってはならないと論じる。 したがって、VAT-GIの「emph{textless}」設定も導入し、タスクは視覚的および聴覚的入力のみに依存する。 この課題に対処するため,視覚音声の内面再帰的オートエンコーダ(\textbf{VaTiora})フレームワークを提案する。 さらに、VAT-GIシステムの一般化能力を評価するために、より困難なベンチマークデータを構築する。 2つのベンチマークデータセットを用いた実験により,VaTioraシステムは様々なマルチモーダル信号の取り込みに有効であり,また,VAT-GIの最先端性能を示す。

Grammar Induction could benefit from rich heterogeneous signals, such as text, vision, and acoustics. In the process, features from distinct modalities essentially serve complementary roles to each other. With such intuition, this work introduces a novel \emph{unsupervised visual-audio-text grammar induction} task (named \textbf{VAT-GI}), to induce the constituent grammar trees from parallel images, text, and speech inputs. Inspired by the fact that language grammar natively exists beyond the texts, we argue that the text has not to be the predominant modality in grammar induction. Thus we further introduce a \emph{textless} setting of VAT-GI, wherein the task solely relies on visual and auditory inputs. To approach the task, we propose a visual-audio-text inside-outside recursive autoencoder (\textbf{VaTiora}) framework, which leverages rich modal-specific and complementary features for effective grammar parsing. Besides, a more challenging benchmark data is constructed to assess the generalization ability of VAT-GI system. Experiments on two benchmark datasets demonstrate that our proposed VaTiora system is more effective in incorporating the various multimodal signals, and also presents new state-of-the-art performance of VAT-GI.
翻訳日:2024-11-02 20:18:28 公開日:2024-10-01
# LEME(Language Enhanced Model for Eye) : オープンソース眼科専門大言語モデル

Language Enhanced Model for Eye (LEME): An Open-Source Ophthalmology-Specific Large Language Model ( http://arxiv.org/abs/2410.03740v1 )

ライセンス: Link先を確認
Aidan Gilson, Xuguang Ai, Qianqian Xie, Sahana Srinivasan, Krithi Pushpanathan, Maxwell B. Singer, Jimin Huang, Hyunjae Kim, Erping Long, Peixing Wan, Luciano V. Del Priore, Lucila Ohno-Machado, Hua Xu, Dianbo Liu, Ron A. Adelman, Yih-Chung Tham, Qingyu Chen, (参考訳) 大規模言語モデル(LLM)は医療に革命をもたらす可能性がある。 眼科専門のLSMは乏しく、未発見である。 我々は,眼科専門のLLM(Language Enhanced Model for Eye, LEME)をオープンソースで導入した。 LEMEは当初、Llama2 70Bフレームワーク上で事前訓練を受け、さらに、眼科固有の事例報告、要約、オープンソース研究資料から算出された、約127,000の非コピーライトトレーニングインスタンスのコーパスで微調整された。 GPT-3.5, GPT-4, 3台のLlama2(7B, 13B, 70B), PMC-LLAMA 13B, Meditron 70B, EYE-Llama(他の眼科用LLM)とLEMEを比較検討した。 評価には4つの内部検証タスクが含まれていた。 長期QA, MCQ, 患者EHR要約, 臨床QAを含む外部バリデーションタスクについて検討した。 評価基準には、ルージュ-Lスコア、正確性、専門家による正確性、完全性、可読性の評価が含まれていた。 内部検証では、LEMEは、抽象的な完了(全てのp<0.05)でルージュ-Lスコアが0.20(全p<0.0001)で、ブランク内充填(全p<0.0001)で0.82(全p<0.0001)、短解QA(全p<0.0001、GPT-4を除く)で0.22(全p<0.0001)である。 外的検証では、LEMEは0.19ルージュL(全p<0.0001)の長期QAに優れ、MCQの精度(0.68;全p<0.0001)では2位、EHRの要約と臨床QA(正確性、完全性、可読性5点中4.24~4.83点)では最高となった。 LEMEは、堅牢な微調整と非コピーライトデータの使用に重点を置いており、研究協力を民主化しながら臨床タスクの実行に革命をもたらす可能性を秘めている。

Large Language Models (LLMs) are poised to revolutionize healthcare. Ophthalmology-specific LLMs remain scarce and underexplored. We introduced an open-source, specialized LLM for ophthalmology, termed Language Enhanced Model for Eye (LEME). LEME was initially pre-trained on the Llama2 70B framework and further fine-tuned with a corpus of ~127,000 non-copyrighted training instances curated from ophthalmology-specific case reports, abstracts, and open-source study materials. We benchmarked LEME against eight other LLMs, namely, GPT-3.5, GPT-4, three Llama2 models (7B, 13B, 70B), PMC-LLAMA 13B, Meditron 70B, and EYE-Llama (another ophthalmology-specific LLM). Evaluations included four internal validation tasks: abstract completion, fill-in-the-blank, multiple-choice questions (MCQ), and short-answer QA. External validation tasks encompassed long-form QA, MCQ, patient EHR summarization, and clinical QA. Evaluation metrics included Rouge-L scores, accuracy, and expert evaluation of correctness, completeness, and readability. In internal validations, LEME consistently outperformed its counterparts, achieving Rouge-L scores of 0.20 in abstract completion (all p<0.05), 0.82 in fill-in-the-blank (all p<0.0001), and 0.22 in short-answer QA (all p<0.0001, except versus GPT-4). In external validations, LEME excelled in long-form QA with a Rouge-L of 0.19 (all p<0.0001), ranked second in MCQ accuracy (0.68; all p<0.0001), and scored highest in EHR summarization and clinical QA (ranging from 4.24 to 4.83 out of 5 for correctness, completeness, and readability). LEME's emphasis on robust fine-tuning and the use of non-copyrighted data represents a breakthrough in open-source ophthalmology-specific LLMs, offering the potential to revolutionize execution of clinical tasks while democratizing research collaboration.
翻訳日:2024-11-02 20:18:28 公開日:2024-10-01
# 医療専門医の民主化に向けて

Towards Democratization of Subspeciality Medical Expertise ( http://arxiv.org/abs/2410.03741v1 )

ライセンス: Link先を確認
Jack W. O'Sullivan, Anil Palepu, Khaled Saab, Wei-Hung Weng, Yong Cheng, Emily Chu, Yaanik Desai, Aly Elezaby, Daniel Seung Kim, Roy Lan, Wilson Tang, Natalie Tapaskar, Victoria Parikh, Sneha S. Jain, Kavita Kulkarni, Philip Mansfield, Dale Webster, Juraj Gottweis, Joelle Barral, Mike Schaekermann, Ryutaro Tanno, S. Sara Mahdavi, Vivek Natarajan, Alan Karthikesalingam, Euan Ashley, Tao Tu, (参考訳) 専門医の専門知識の不足、特に稀で複雑で生命を脅かす病気は、医療提供にとって大きな課題となっている。 この問題は、タイムリーに正確な管理が結果を決定する心臓学において特に急激である。 我々は、診断対話に最適化された大規模言語モデル(LLM)に基づく実験AIシステムであるAMIE(Articulate Medical Intelligence Explorer)の可能性を探り、この挑戦的な文脈における臨床意思決定の強化と支援について検討した。 心電図, 心エコー図, 心臓MRI, 遺伝子検査, 心肺ストレステストなど, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電図, 心電 一般心臓科医やAMIEが作成する診断と臨床管理計画の質を評価するために,サブスペシャリストが用いた10ドメイン評価ルーブリックを開発した。 AMIEは10ドメイン中5ドメイン(好みは9%から20%)で一般の心臓科医より優れ、残りは同等であった。 AMIEの反応は、63.7%の症例で心臓科医の全体的な反応品質を改善し、わずか3.4%で品質を低下させた。 心臓科医のAMIEアクセスに対する反応は,10ドメインすべてでAMIEにアクセスすることなく,心臓科医の反応よりも優れていた。 定性検査では、AMIEと一般心臓科医は相互に補完し、AMIEは徹底的で敏感であり、一般心臓科医は簡潔で特異である。 以上の結果から, 専門医は, 専門医のギャップを埋めることによって, 総合心臓科医の能力を増強できる可能性が示唆された。

The scarcity of subspecialist medical expertise, particularly in rare, complex and life-threatening diseases, poses a significant challenge for healthcare delivery. This issue is particularly acute in cardiology where timely, accurate management determines outcomes. We explored the potential of AMIE (Articulate Medical Intelligence Explorer), a large language model (LLM)-based experimental AI system optimized for diagnostic dialogue, to potentially augment and support clinical decision-making in this challenging context. We curated a real-world dataset of 204 complex cases from a subspecialist cardiology practice, including results for electrocardiograms, echocardiograms, cardiac MRI, genetic tests, and cardiopulmonary stress tests. We developed a ten-domain evaluation rubric used by subspecialists to evaluate the quality of diagnosis and clinical management plans produced by general cardiologists or AMIE, the latter enhanced with web-search and self-critique capabilities. AMIE was rated superior to general cardiologists for 5 of the 10 domains (with preference ranging from 9% to 20%), and equivalent for the rest. Access to AMIE's response improved cardiologists' overall response quality in 63.7% of cases while lowering quality in just 3.4%. Cardiologists' responses with access to AMIE were superior to cardiologist responses without access to AMIE for all 10 domains. Qualitative examinations suggest AMIE and general cardiologist could complement each other, with AMIE thorough and sensitive, while general cardiologist concise and specific. Overall, our results suggest that specialized medical LLMs have the potential to augment general cardiologists' capabilities by bridging gaps in subspecialty expertise, though further research and validation are essential for wide clinical utility.
翻訳日:2024-11-02 20:18:28 公開日:2024-10-01
# LLMファインチューニングにおける選択パラメータマージによるトレーニング不均衡の緩和

Mitigating Training Imbalance in LLM Fine-Tuning via Selective Parameter Merging ( http://arxiv.org/abs/2410.03743v1 )

ライセンス: Link先を確認
Yiming Ju, Ziyi Ni, Xingrun Xing, Zhixiong Zeng, hanyu Zhao, Siqi Fan, Zheng Zhang, (参考訳) 大型言語モデル(LLM)を特定のタスクに適応させるためには、SFT(Supervised Fine-tuning)が不可欠である。 本研究は,トレーニングデータの順序がトレーニングの不均衡を著しく引き起こし,性能劣化を引き起こす可能性を実証する。 そこで本研究では,SFTモデルとデータ順序の微調整を併用することにより,この不均衡を緩和し,SFTの全体的な効果を高めることを提案する。 さらに,従来の重み付き平均値法を5つのデータセットで上回る「パラメータ選択マージ」という新しい手法を導入する。 さらに,分析およびアブレーション研究を通じて,本手法の有効性を検証し,性能改善の源泉を同定する。

Supervised fine-tuning (SFT) is crucial for adapting Large Language Models (LLMs) to specific tasks. In this work, we demonstrate that the order of training data can lead to significant training imbalances, potentially resulting in performance degradation. Consequently, we propose to mitigate this imbalance by merging SFT models fine-tuned with different data orders, thereby enhancing the overall effectiveness of SFT. Additionally, we introduce a novel technique, "parameter-selection merging," which outperforms traditional weighted-average methods on five datasets. Further, through analysis and ablation studies, we validate the effectiveness of our method and identify the sources of performance improvements.
翻訳日:2024-11-02 20:18:28 公開日:2024-10-01
# 6G RANのための分散AIプラットフォーム

Distributed AI Platform for the 6G RAN ( http://arxiv.org/abs/2410.03747v1 )

ライセンス: Link先を確認
Ganesh Ananthanarayanan, Xenofon Foukas, Bozidar Radunovic, Yongguang Zhang, (参考訳) 携帯電話無線アクセスネットワーク(RAN)は、コスト削減と事業者や企業向けの新たな収益源の導入の必要性から、急速に6Gに進化している。 このような状況下では、管理ドメインとアプリケーションドメインの両方にまたがる複雑なRAN問題を解決する上で、AIは重要な実現要因として現れます。 残念なことに、そしてAIの不確実な約束にもかかわらず、いくつかの実践的な課題がまだ残っており、RAN空間におけるAIアプリケーションの普及を妨げている。 この記事では、これらの課題に光を当てようと試み、それに対応する既存のアプローチは、真にAIネイティブな6Gネットワークのビジョンを実現するには不十分である、と論じる。 このソリューションの欠如によって動機づけられた同社は、AIネイティブRANのニーズに合わせて、汎用的な分散AIプラットフォームアーキテクチャを提案し、現在進行中の標準化活動との整合性について議論している。

Cellular Radio Access Networks (RANs) are rapidly evolving towards 6G, driven by the need to reduce costs and introduce new revenue streams for operators and enterprises. In this context, AI emerges as a key enabler in solving complex RAN problems spanning both the management and application domains. Unfortunately, and despite the undeniable promise of AI, several practical challenges still remain, hindering the widespread adoption of AI applications in the RAN space. This article attempts to shed light to these challenges and argues that existing approaches in addressing them are inadequate for realizing the vision of a truly AI-native 6G network. Motivated by this lack of solutions, it proposes a generic distributed AI platform architecture, tailored to the needs of an AI-native RAN and discusses its alignment with ongoing standardization efforts.
翻訳日:2024-11-02 16:40:48 公開日:2024-10-01
# Khattat: セマンティックタイポグラフィの可読性と概念表現の強化

Khattat: Enhancing Readability and Concept Representation of Semantic Typography ( http://arxiv.org/abs/2410.03748v1 )

ライセンス: Link先を確認
Ahmed Hussein, Alaa Elsetohy, Sama Hadhoud, Tameem Bakr, Yasser Rohaim, Badr AlKhamissi, (参考訳) 可読性を維持しながら単語の意味を視覚的に伝達する表現型タイポグラフィーを設計することは、意味型タイポグラフィ(semantic typography)として知られる複雑なタスクである。 アイデアの選択、適切なフォントの選択、クリエイティビティとレジリエビリティのバランスを含む。 このプロセスを自動化するエンドツーエンドシステムを導入します。 まず、LLM(Large Language Model)は、自由のような抽象概念に有用な、単語のイメージアイデアを生成する。 次に、FontCLIP事前学習モデルは、フォント属性の意味的理解に基づいて、適切なフォントを自動的に選択する。 本システムは,モーフィングのための単語の最適領域を特定し,事前学習した拡散モデルを用いて反復変換する。 鍵となる機能はOCRベースの損失関数であり、読みやすさを高め、複数の文字の同時スタイリングを可能にする。 提案手法を他のベースラインと比較し,複数の言語にまたがる可読性向上と汎用性を実証し,スクリプトを作成する。

Designing expressive typography that visually conveys a word's meaning while maintaining readability is a complex task, known as semantic typography. It involves selecting an idea, choosing an appropriate font, and balancing creativity with legibility. We introduce an end-to-end system that automates this process. First, a Large Language Model (LLM) generates imagery ideas for the word, useful for abstract concepts like freedom. Then, the FontCLIP pre-trained model automatically selects a suitable font based on its semantic understanding of font attributes. The system identifies optimal regions of the word for morphing and iteratively transforms them using a pre-trained diffusion model. A key feature is our OCR-based loss function, which enhances readability and enables simultaneous stylization of multiple characters. We compare our method with other baselines, demonstrating great readability enhancement and versatility across multiple languages and writing scripts.
翻訳日:2024-11-02 16:40:48 公開日:2024-10-01
# 平和な国の機械学習分類:比較分析とデータセット最適化

Machine Learning Classification of Peaceful Countries: A Comparative Analysis and Dataset Optimization ( http://arxiv.org/abs/2410.03749v1 )

ライセンス: Link先を確認
K. Lian, L. S. Liebovitch, M. Wild, H. West, P. T. Coleman, F. Chen, E. Kimani, K. Sieck, (参考訳) 本稿では,グローバルメディア記事から抽出した言語パターンを用いて,各国を平和的・非平和的に分類する機械学習手法を提案する。 我々は,平和な国を効果的に識別する教師付き分類モデルを開発するために,ベクトル埋め込みとコサイン類似性を利用する。 さらに,データセットサイズがモデル性能に与える影響について検討し,データセットの縮小が分類精度に与える影響について検討する。 本研究は,大規模テキストデータを用いた平和研究における課題と機会を浮き彫りにしたものである。

This paper presents a machine learning approach to classify countries as peaceful or non-peaceful using linguistic patterns extracted from global media articles. We employ vector embeddings and cosine similarity to develop a supervised classification model that effectively identifies peaceful countries. Additionally, we explore the impact of dataset size on model performance, investigating how shrinking the dataset influences classification accuracy. Our results highlight the challenges and opportunities associated with using large-scale text data for peace studies.
翻訳日:2024-11-02 16:40:48 公開日:2024-10-01
# SQFT:低精度スパース基礎モデルにおける低コストモデル適応

SQFT: Low-cost Model Adaptation in Low-precision Sparse Foundation Models ( http://arxiv.org/abs/2410.03750v1 )

ライセンス: Link先を確認
Juan Pablo Muñoz, Jinjie Yuan, Nilesh Jain, (参考訳) 大規模な事前学習モデル(LPM)は、大規模な言語モデルのようにユビキタスになり、多くのアプリケーションで使われている。 これらのモデルはしばしば、微調整の段階を通じて、望ましいドメインまたは下流タスクに適合する。 本稿では,LPMの低精度スパースパラメータ効率微調整のためのエンドツーエンドソリューションであるSQFTを提案し,資源制約環境における効率的なモデル操作を実現する。 さらに、革新的な戦略により、スパースウェイトとローランクアダプタのマージが、従来のアプローチの限界を克服することなく、スパースウェイトとローランクアダプタのマージが可能になる。 SQFTはまた、異なる数値精度の量子化重みとアダプタを持つことの課題にも対処し、精度を犠牲にすることなく、所望の数値形式でのマージを可能にする。 複数の適応シナリオ、モデル、および包括的疎度レベルは、SQFTの有効性を示す。 モデルとコードはhttps://github.com/IntelLabs/Hardware-Aware-Aware-Automated-Machine-Learningで公開されている。

Large pre-trained models (LPMs), such as large language models, have become ubiquitous and are employed in many applications. These models are often adapted to a desired domain or downstream task through a fine-tuning stage. This paper proposes SQFT, an end-to-end solution for low-precision sparse parameter-efficient fine-tuning of LPMs, allowing for effective model manipulation in resource-constrained environments. Additionally, an innovative strategy enables the merging of sparse weights with low-rank adapters without losing sparsity and accuracy, overcoming the limitations of previous approaches. SQFT also addresses the challenge of having quantized weights and adapters with different numerical precisions, enabling merging in the desired numerical format without sacrificing accuracy. Multiple adaptation scenarios, models, and comprehensive sparsity levels demonstrate the effectiveness of SQFT. Models and code are available at https://github.com/IntelLabs/Hardware-Aware-Automated-Machine-Learning.
翻訳日:2024-11-02 16:40:48 公開日:2024-10-01
# 音声言語モデルの最新動向:調査

Recent Advances in Speech Language Models: A Survey ( http://arxiv.org/abs/2410.03751v1 )

ライセンス: Link先を確認
Wenqian Cui, Dianzhi Yu, Xiaoqi Jiao, Ziqiao Meng, Guangyan Zhang, Qichao Wang, Yiwen Guo, Irwin King, (参考訳) 大規模言語モデル(LLM)は、主にテキストベースのインタラクションの能力において、近年大きな注目を集めている。 しかしながら、人間の自然な相互作用は、しばしば音声に依存し、音声ベースのモデルへのシフトを必要とする。 これを実現するための簡単なアプローチは、“自動音声認識(ASR) + LLM + Text-to-Speech(TTS)”というパイプラインで、入力された音声はテキストに書き起こされ、LLMによって処理され、その後音声に変換される。 単純であるにもかかわらず、この手法は、モーダリティ変換時の情報損失や3段階にわたるエラー蓄積といった、固有の制限に悩まされている。 これらの問題に対処するために、音声言語モデル(SpeechLMs) – テキストから変換せずに音声を生成するエンドツーエンドモデル – が、有望な代替手段として登場した。 本稿では,近年のSpeechLMの構築手法を概観し,アーキテクチャの重要コンポーネントと開発に不可欠な各種のトレーニングレシピを詳述する。 さらに,SpeechLMの様々な能力について体系的に調査し,SpeechLMの評価指標を分類し,この急速に発展する分野における課題と今後の研究方向性について議論する。

Large Language Models (LLMs) have recently garnered significant attention, primarily for their capabilities in text-based interactions. However, natural human interaction often relies on speech, necessitating a shift towards voice-based models. A straightforward approach to achieve this involves a pipeline of ``Automatic Speech Recognition (ASR) + LLM + Text-to-Speech (TTS)", where input speech is transcribed to text, processed by an LLM, and then converted back to speech. Despite being straightforward, this method suffers from inherent limitations, such as information loss during modality conversion and error accumulation across the three stages. To address these issues, Speech Language Models (SpeechLMs) -- end-to-end models that generate speech without converting from text -- have emerged as a promising alternative. This survey paper provides the first comprehensive overview of recent methodologies for constructing SpeechLMs, detailing the key components of their architecture and the various training recipes integral to their development. Additionally, we systematically survey the various capabilities of SpeechLMs, categorize the evaluation metrics for SpeechLMs, and discuss the challenges and future research directions in this rapidly evolving field.
翻訳日:2024-11-02 16:40:48 公開日:2024-10-01
# 統計学習によるUEFA EURO 2024のモデル化と予測

Modeling and Prediction of the UEFA EURO 2024 via Combined Statistical Learning Approaches ( http://arxiv.org/abs/2410.09068v1 )

ライセンス: Link先を確認
Andreas Groll, Lars M. Hvattum, Christophe Ley, Jonas Sternemann, Gunther Schauberger, Achim Zeileis, (参考訳) 本研究では、基本的に異なる3つの機械学習モデルを組み合わせて、UEFA EURO 2024を予測するための新たなジョイントモデルを作成する。 そこで, 一般化線形モデル, ランダム森林モデル, 極端な勾配促進モデルを用いて, 試合の得点数を予測する。 3つのモデルは、UEFA EUROs 2004-2020のマッチ結果に基づいてトレーニングされ、各トーナメントのチームの特徴と、サッカーチームの異なるランキング方法から派生した3つの強化された変数が追加されている。 第1の強化変数は、ナショナルチームによる歴史的な試合データに基づいており、第2の強化変数は、ブックメーカーのすべての参加チームのトーナメント勝利率に基づいており、第3の強化変数は、クラブおよび国際試合における個々の選手の歴史的な試合データに基づいており、結果としてプレイヤーのレーティングが生じる。 そして、参加チームの現在の共変量情報に基づいて、最終的なトレーニングモデルを使用して、UEFA EURO 2024を予測する。 この目的のために、トーナメントは、様々なトーナメントステージにまたがる確率が導出される全ての試合の予想目標数に基づいて、100,000回シミュレートされる。 フランスは19.2%、イギリスは16.7%、ドイツは13.7%である。

In this work, three fundamentally different machine learning models are combined to create a new, joint model for forecasting the UEFA EURO 2024. Therefore, a generalized linear model, a random forest model, and a extreme gradient boosting model are used to predict the number of goals a team scores in a match. The three models are trained on the match results of the UEFA EUROs 2004-2020, with additional covariates characterizing the teams for each tournament as well as three enhanced variables derived from different ranking methods for football teams. The first enhanced variable is based on historic match data from national teams, the second is based on the bookmakers' tournament winning odds of all participating teams, and the third is based on historic match data of individual players both for club and international matches, resulting in player ratings. Then, based on current covariate information of the participating teams, the final trained model is used to predict the UEFA EURO 2024. For this purpose, the tournament is simulated 100.000 times, based on the estimated expected number of goals for all possible matches, from which probabilities across the different tournament stages are derived. Our combined model identifies France as the clear favourite with a winning probability of 19.2%, followed by England (16.7%) and host Germany (13.7%).
翻訳日:2024-10-30 16:58:09 公開日:2024-10-01
# クレジットカード不正検出のためのイノベーティブアテンションに基づくアンサンブルシステム

An Innovative Attention-based Ensemble System for Credit Card Fraud Detection ( http://arxiv.org/abs/2410.09069v1 )

ライセンス: Link先を確認
Mehdi Hosseini Chagahi, Niloufar Delfan, Saeed Mohammadi Dashtaki, Behzad Moshiri, Md. Jalil Piran, (参考訳) クレジットカード詐欺(CCF)の検出は、消費者が信用格付けに悪影響を及ぼす可能性のある不正取引から消費者を守るために重要な役割を担っている。 金融機関が支払いメカニズムの信頼性を維持し、不正取引を補償する高価な手続きを回避できるようにする。 人工知能手法の利用はクレジットカード詐欺事件の特定に顕著な効果を示した。 本研究では,ユニークな注意に基づくアンサンブルモデルを提案する。 このモデルは、第一層分類器の予測を統合するための注意層と、最良の統合値を選択するための選択層とを付加することにより強化される。 注意層は、従属重み付き平均化(DOWA)と従属重み付き平均化(IOWA)の2つのアグリゲーション演算子で実装される。 IOWA演算子の性能は、勾配勾配勾配最適化法に基づくニューラルネットワークの学習アルゴリズムに非常に近いが、DOWA演算子の実行は、他の学習者と比較して外れ値予測を行う分類器を弱めることに基づいている。 どちらの作用素も、複雑なパターンを認識するのに十分なレベルの複雑さを持っている。 精度と多様性は、2つの集約演算子によって予測される分類器を選択するために使用する2つの基準である。 ブートストラップフォレストを用いて、CCF検出に最も寄与するデータセットの13の最も重要な特徴を特定し、提案したモデルに給餌する。 有効性を排除したアンサンブルモデルは99.95%の精度を達成し、曲線(AUC)の下の面積は1。

Detecting credit card fraud (CCF) holds significant importance due to its role in safeguarding consumers from unauthorized transactions that have the potential to result in financial detriment and negative impacts on their credit rating. It aids financial institutions in upholding the reliability of their payment mechanisms and circumventing the expensive procedure of compensating for deceitful transactions. The utilization of Artificial Intelligence methodologies demonstrated remarkable efficacy in the identification of credit card fraud instances. Within this study, we present a unique attention-based ensemble model. This model is enhanced by adding an attention layer for integration of first layer classifiers' predictions and a selection layer for choosing the best integrated value. The attention layer is implemented with two aggregation operators: dependent ordered weighted averaging (DOWA) and induced ordered weighted averaging (IOWA). The performance of the IOWA operator is very close to the learning algorithm in neural networks which is based on the gradient descent optimization method, and performing the DOWA operator is based on weakening the classifiers that make outlier predictions compared to other learners. Both operators have a sufficient level of complexity for the recognition of complex patterns. Accuracy and diversity are the two criteria we use for selecting the classifiers whose predictions are to be integrated by the two aggregation operators. Using a bootstrap forest, we identify the 13 most significant features of the dataset that contribute the most to CCF detection and use them to feed the proposed model. Exhibiting its efficacy, the ensemble model attains an accuracy of 99.95% with an area under the curve (AUC) of 1.
翻訳日:2024-10-30 16:58:09 公開日:2024-10-01
# 医用画像統合のためのステガノグラフィーと透かし

Using Steganography and Watermarking For Medical Image Integrity ( http://arxiv.org/abs/2410.09071v1 )

ライセンス: Link先を確認
Givon Zirkind, (参考訳) 医用画像はデジタル時代に沿っている。 X線のような医用画像は、もはやフィルムやフィルムで作られていない。 むしろデジタルだ。 また、相談や遠隔医療の理由から送信され、アーカイブされている。 これらの画像の送信と検索は整合性の問題であり、高い整合性が必要である。 デジタル医療画像の非常に小さなアーティファクトは、診断の作成や変更において重要な意味を持つ。 医学的画像の整合性、特に関心のある地域において、識別され保存されることが不可欠である。 ウォーターマーキングとステガノグラフィーは、画像の認証、特に著作権の目的で使用される。 これらの技術は医療画像に適用できる。 しかし、これらの手法は画像の整合性を阻害する可能性がある。 他の領域ではそのような歪みは許容されるが、医療領域ではこの歪みは許容されない。 診断には高い精度が不可欠である。 本稿では, 使用手法, その利点, 欠点, および, 整合性への障害を克服する方法について論じる。

Medical imaging has kept up with the digital age. Medical images such as x-rays are no longer keep on film or; even made with film. Rather, they are digital. In addition, they are transmitted for reasons of consultation and telehealth as well as archived. Transmission and retrieval of these images presents an integrity issue, with a high level of integrity being needed. Very small artifacts in a digital medical image can have significant importance, making or changing a diagnosis. It is imperative that the integrity of a medical image, especially in a Region of Interest be identifiable and preserved. Watermarking and steganography are used for the purposes of authenticating images, especially for copyright purposes. These techniques can be applied to medical images. However, these techniques can interfere with the integrity of the picture. While such distortion may be acceptable in other domains, in the medical domain this distortion is not acceptable. High accuracy is imperative for diagnosis. This paper discusses the techniques used, their advantages and shortcomings as well as methods of overcoming obstacles to integrity.
翻訳日:2024-10-30 16:48:15 公開日:2024-10-01
# ドメイン被覆強化によるLDMのフェデレーション・インストラクション・チューニング

Federated Instruction Tuning of LLMs with Domain Coverage Augmentation ( http://arxiv.org/abs/2409.20135v2 )

ライセンス: Link先を確認
Zezhou Wang, Yaxin Du, Zhuzhong Qian, Siheng Chen, (参考訳) Federated Domain-specific Instruction Tuning (FedDIT)は、特定のドメイン内のモデルパフォーマンスを最終的に向上させるため、サーバサイドの公開データとともに、限られたクロスクライアントなプライベートデータを使用する。 FedDITに影響を与える要因は依然として不明であり、既存の命令拡張手法は主に分散環境を考慮せずに集中的な設定に焦点を当てている。 実験の結果,データ不均一性ではなく,クロスクライアントなドメインカバレッジがFedDITのモデル性能を駆動していることが判明した。 そこで本研究では,クライアントセンターの選択と検索に基づく拡張により,ドメインカバレッジを最適化するFedDCAを提案する。 クライアント側の計算負担を軽減するため、FedDCA$^*$はサーバ側の機能アライメントを備えた異種エンコーダを使用する。 4つの異なる領域(コード、医療、財務、数学)にわたる大規模な実験は、両方の方法の有効性を裏付けるものである。 さらに,多量の公開データを用いたメモリ抽出攻撃に対するプライバシー保護について検討した。 その結果,公開データの量とプライバシ保護能力との間に有意な相関は認められなかった。 しかし、微調整ラウンドが増加するにつれて、プライバシー漏洩のリスクは減少または収束する。

Federated Domain-specific Instruction Tuning (FedDIT) utilizes limited cross-client private data alongside server-side public data for instruction augmentation, ultimately enhancing model performance within specific domains. While the factors affecting FedDIT remain unclear and existing instruction augmentation methods mainly focus on the centralized setting without considering the distributed environment. Our experiments reveal that the cross-client domain coverage, rather than data heterogeneity, drives model performance in FedDIT. In response, we propose FedDCA, which optimizes domain coverage through greedy client center selection and retrieval-based augmentation. To alleviate client-side computational burdens, FedDCA$^*$ uses heterogeneous encoders with server-side feature alignment. Extensive experiments across four distinct domains (code, medical, financial, and mathematical) substantiate the effectiveness of both methods. Additionally, we investigate privacy preservation against memory extraction attacks utilizing varying amounts of public data. Results show no significant correlation between the volume of public data and the privacy-preserving capability. However, as the fine-tuning round increases, the risk of privacy leakage reduces or converges.
翻訳日:2024-10-02 19:42:09 公開日:2024-10-01
# 天文学研究の発展における大規模言語モデルの役割

What is the Role of Large Language Models in the Evolution of Astronomy Research? ( http://arxiv.org/abs/2409.20252v2 )

ライセンス: Link先を確認
Morgan Fouesneau, Ivelina G. Momcheva, Urmila Chadayammuri, Mariia Demianenko, Antoine Dumont, Raphael E. Hviding, K. Angelique Kahle, Nadiia Pulatova, Bhavesh Rajpoot, Marten B. Scheuck, Rhys Seeburger, Dmitry Semenov, Jaime I. Villaseñor, (参考訳) ChatGPTや他の最先端の大規模言語モデル(LLM)は、複数のフィールドを急速に変換し、幅広いアプリケーションに強力なツールを提供している。 これらのモデルは、一般に広大なデータセットに基づいて訓練され、人間のようなテキスト生成能力を示し、アイデア、文献レビュー、コーディング、ドラフト、アウトリーチなどの研究タスクに有用である。 我々は、異なるキャリア段階の13人の天文学者と研究分野を対象に、数ヶ月にわたって多種多様タスクにわたるLLM応用を探索し、研究活動におけるその性能を評価するために調査を行った。 この研究には、参加者のLSMに対する経験と態度を評価する匿名調査が伴った。 提案した課題と調査回答の詳細な分析と,具体的なアウトプット例を提供する。 本研究はLLMの可能性と限界を明らかにするとともに,一般および研究特有の倫理的考察にも対処する。 我々は、LLMを批判的思考とドメインの専門知識で補完する必要性を強調し、これらのツールが厳格な科学的調査の代用としてではなく、援助として機能することを保証して、一連の勧告で締めくくります。

ChatGPT and other state-of-the-art large language models (LLMs) are rapidly transforming multiple fields, offering powerful tools for a wide range of applications. These models, commonly trained on vast datasets, exhibit human-like text generation capabilities, making them useful for research tasks such as ideation, literature review, coding, drafting, and outreach. We conducted a study involving 13 astronomers at different career stages and research fields to explore LLM applications across diverse tasks over several months and to evaluate their performance in research-related activities. This work was accompanied by an anonymous survey assessing participants' experiences and attitudes towards LLMs. We provide a detailed analysis of the tasks attempted and the survey answers, along with specific output examples. Our findings highlight both the potential and limitations of LLMs in supporting research while also addressing general and research-specific ethical considerations. We conclude with a series of recommendations, emphasizing the need for researchers to complement LLMs with critical thinking and domain expertise, ensuring these tools serve as aids rather than substitutes for rigorous scientific inquiry.
翻訳日:2024-10-02 19:42:09 公開日:2024-10-01
# SSMは多変量時系列から重合される

A SSM is Polymerized from Multivariate Time Series ( http://arxiv.org/abs/2409.20310v2 )

ライセンス: Link先を確認
Haixiang Wu, (参考訳) 多変量時系列(MTS)タスクでは、以前の状態空間モデル(SSM)はTransformerベースの手法のモデリングパラダイムに従った。 しかし、いずれもMSSの複雑な依存関係を明示的にモデル化するものではない:Channel Dependency variation with Time (CDT)である。 この観点から、直交関数に基づく継続的更新関数の近似を含むSSMの導出を掘り下げる。 MTS予測の新しい手法であるPoly-Mambaを開発した。 その中心となる概念は、元の直交関数基底空間を可変混合項を含む多変数直交関数空間に拡張し、重み付き係数でCDTを明示的に記述するために、この空間上に射影することである。 ポリマンバでは,多変数直交多項式近似 (MOPA) をこの概念の簡易な実装として提案する。 チャネル間の単純な線形関係について,Linear Channel Mixing (LCM) を提案し,提案手法により異なるチャネルに対して適応的にCDTパターンを生成する。 6つの実世界のデータセットの実験では、Poly-MambaはSOTAメソッドよりも優れており、特に多数のチャネルと複雑な相関を持つデータセットを扱う場合である。 コードとログファイルは、https://github.com/Joeland4/Poly-Mamba.comでリリースされる。

For multivariate time series (MTS) tasks, previous state space models (SSMs) followed the modeling paradigm of Transformer-based methods. However, none of them explicitly model the complex dependencies of MTS: the Channel Dependency variations with Time (CDT). In view of this, we delve into the derivation of SSM, which involves approximating continuously updated functions by orthogonal function basis. We then develop Poly-Mamba, a novel method for MTS forecasting. Its core concept is to expand the original orthogonal function basis space into a multivariate orthogonal function space containing variable mixing terms, and make a projection on this space so as to explicitly describe the CDT by weighted coefficients. In Poly-Mamba, we propose the Multivariate Orthogonal Polynomial Approximation (MOPA) as a simplified implementation of this concept. For the simple linear relationship between channels, we propose Linear Channel Mixing (LCM) and generate CDT patterns adaptively for different channels through a proposed Order Combining method. Experiments on six real-world datasets demonstrate that Poly-Mamba outperforms the SOTA methods, especially when dealing with datasets having a large number of channels and complex correlations. The codes and log files will be released at: https://github.com/Joeland4/Poly-Mamba.
翻訳日:2024-10-02 19:42:09 公開日:2024-10-01
# コントラスト学習に基づく多段階プログレッシブファインタニングSNNとRLに基づく外部最適化によるGANの強化

Enhancing GANs with Contrastive Learning-Based Multistage Progressive Finetuning SNN and RL-Based External Optimization ( http://arxiv.org/abs/2409.20340v2 )

ライセンス: Link先を確認
Osama Mustafa, (参考訳) がん研究、特に早期診断、症例理解、治療戦略設計におけるディープラーニングの応用は、高品質なデータの必要性を強調している。 生成AI、特にGAN(Generative Adversarial Networks)は、患者のプライバシと実際のデータの不足に起因する問題に対処しながら、クラス不均衡、堅牢な学習、モデルトレーニングといった課題に対する主要なソリューションとして登場した。 彼らの約束にもかかわらず、GANは、組織学的データに固有の、いくつかの課題に直面している。 原因となる問題としては、トレーニングの不均衡、モード崩壊、差別化の不十分なフィードバックからの線形学習、厳密なフィードバックによるハードバウンダリ収束などがある。 病理組織学的データは、その複雑な表現、高空間分解能、マルチスケールの特徴でユニークな課題を呈している。 これらの課題に対処するため、我々は2つのコンポーネントからなるフレームワークを提案する。 まず,MFT-SNN(Multi stage Progressive Finetuning Siamese Neural Network)を導入し,病理組織学的パッチの類似性を評価する。 第2に、GANトレーニングループ内に強化学習に基づく外部最適化器(RL-EO)を実装し、報酬信号生成装置として機能する。 改良された判別器損失関数は、重み付けされた報酬を取り入れ、損失を最小化しつつ、この報酬を最大化するためにGANを誘導する。 このアプローチは、ディスクリミネータに対する外部最適化ガイドを提供し、ジェネレータオーバーフィットを防止し、スムーズな収束を保証する。 提案手法は、FIDスコア、KIDスコア、知覚パス長、下流分類タスクなど、様々な指標において、従来のSOTAよりも優れている。

The application of deep learning in cancer research, particularly in early diagnosis, case understanding, and treatment strategy design, emphasizes the need for high-quality data. Generative AI, especially Generative Adversarial Networks (GANs), has emerged as a leading solution to challenges like class imbalance, robust learning, and model training, while addressing issues stemming from patient privacy and the scarcity of real data. Despite their promise, GANs face several challenges, both inherent and specific to histopathology data. Inherent issues include training imbalance, mode collapse, linear learning from insufficient discriminator feedback, and hard boundary convergence due to stringent feedback. Histopathology data presents a unique challenge with its complex representation, high spatial resolution, and multiscale features. To address these challenges, we propose a framework consisting of two components. First, we introduce a contrastive learning-based Multistage Progressive Finetuning Siamese Neural Network (MFT-SNN) for assessing the similarity between histopathology patches. Second, we implement a Reinforcement Learning-based External Optimizer (RL-EO) within the GAN training loop, serving as a reward signal generator. The modified discriminator loss function incorporates a weighted reward, guiding the GAN to maximize this reward while minimizing loss. This approach offers an external optimization guide to the discriminator, preventing generator overfitting and ensuring smooth convergence. Our proposed solution has been benchmarked against state-of-the-art (SOTA) GANs and a Denoising Diffusion Probabilistic model, outperforming previous SOTA across various metrics, including FID score, KID score, Perceptual Path Length, and downstream classification tasks.
翻訳日:2024-10-02 19:42:09 公開日:2024-10-01
# インスタンス適応型ゼロショットチェーン・オブ・サート・プロンプティング

Instance-adaptive Zero-shot Chain-of-Thought Prompting ( http://arxiv.org/abs/2409.20441v2 )

ライセンス: Link先を確認
Xiaosong Yuan, Chen Shen, Shaotian Yan, Xiaofeng Zhang, Liang Xie, Wenxiao Wang, Renchu Guan, Ying Wang, Jieping Ye, (参考訳) Zero-shot Chain-of-Thought (CoT) は,実世界の推論タスクにおける大規模言語モデル(LLM)の性能向上のための,シンプルかつ効果的な戦略として出現する。 それでも、単一のタスクレベルのプロンプトがインスタンス全体に一様に適用されることは、本質的に制限されている。 この研究は、良いプロンプトと悪いプロンプトを適応的に微分することで、代替のゼロショットCoT推論スキームとして、インスタンス適応プロンプトアルゴリズムを導入する。 具体的には、まず情報フローのレンズを通してLCMの分析を用い、ゼロショットCoT推論のメカニズムを検出する。 より優れたゼロショットCoT推論では、質問から意味情報を取得するためのプロンプトが必要であることに気付く。 それとは対照的に、これらのいずれかが欠落すると、おそらく悪い結果がもたらされるだろう。 そこから、ゼロショットCoT推論のためのインスタンス適応的プロンプト戦略(IAP)をさらに提案する。 LLaMA-2, LLaMA-3, Qwenで行った数学・論理・コモンセンス推論タスク(例えば、GSM8K, MMLU, Causal Judgement)の実験では、インスタンス適応型ゼロショットCoTプロンプトは、いくつかのプロンプトや高度な手順で他のタスクレベルメソッドよりも優れた性能を示し、ゼロショットCoT推論機構における我々の発見の重要性を示している。

Zero-shot Chain-of-Thought (CoT) prompting emerges as a simple and effective strategy for enhancing the performance of large language models (LLMs) in real-world reasoning tasks. Nonetheless, the efficacy of a singular, task-level prompt uniformly applied across the whole of instances is inherently limited since one prompt cannot be a good partner for all, a more appropriate approach should consider the interaction between the prompt and each instance meticulously. This work introduces an instance-adaptive prompting algorithm as an alternative zero-shot CoT reasoning scheme by adaptively differentiating good and bad prompts. Concretely, we first employ analysis on LLMs through the lens of information flow to detect the mechanism under zero-shot CoT reasoning, in which we discover that information flows from question to prompt and question to rationale jointly influence the reasoning results most. We notice that a better zero-shot CoT reasoning needs the prompt to obtain semantic information from the question then the rationale aggregates sufficient information from the question directly and via the prompt indirectly. On the contrary, lacking any of those would probably lead to a bad one. Stem from that, we further propose an instance-adaptive prompting strategy (IAP) for zero-shot CoT reasoning. Experiments conducted with LLaMA-2, LLaMA-3, and Qwen on math, logic, and commonsense reasoning tasks (e.g., GSM8K, MMLU, Causal Judgement) obtain consistent improvement, demonstrating that the instance-adaptive zero-shot CoT prompting performs better than other task-level methods with some curated prompts or sophisticated procedures, showing the significance of our findings in the zero-shot CoT reasoning mechanism.
翻訳日:2024-10-02 19:42:09 公開日:2024-10-01
# ドメイン被覆強化によるLDMのフェデレーション・インストラクション・チューニング

Federated Instruction Tuning of LLMs with Domain Coverage Augmentation ( http://arxiv.org/abs/2409.20135v1 )

ライセンス: Link先を確認
Zezhou Wang, Yaxin Du, Zhuzhong Qian, Siheng Chen, (参考訳) Federated Domain-specific Instruction Tuning (FedDIT)は、クロスクライアントなプライベートデータとサーバサイドのパブリックデータを活用して、特定のドメインにおけるモデルパフォーマンスを向上させる。 FedDITに影響を与える要因は依然として不明であり、既存の命令拡張手法は主に分散環境を考慮せずに集中的な設定に焦点を当てている。 まず、データ不均一性ではなく、クロスクライアントなドメインカバレッジがFedDITのモデル性能を駆動することを示す。 そこで本研究では,クライアントセンターの選択と検索に基づく拡張により,ドメインカバレッジを最大化するFedDCAを提案する。 クライアント側の計算を減らすため、FedDCA$^*$はサーバ側の機能アライメントを備えた異種エンコーダを使用する。 4つの領域(コード、医療、財務、数学)にわたる大規模な実験は、両方の方法の有効性を検証する。 さらに,各種の公開データを用いたメモリ抽出攻撃に対するプライバシ保護について検討した結果,公開データ量とプライバシ保護能力との間に有意な相関関係がないことが判明した。 しかし、微調整ラウンドが増加するにつれて、プライバシー漏洩のリスクは減少または収束する。

Federated Domain-specific Instruction Tuning (FedDIT) leverages a few cross-client private data and server-side public data for instruction augmentation, enhancing model performance in specific domains. While the factors affecting FedDIT remain unclear and existing instruction augmentation methods mainly focus on the centralized setting without considering the distributed environment. Firstly, our experiments show that cross-client domain coverage, rather than data heterogeneity, drives model performance in FedDIT. Thus, we propose FedDCA, which maximizes domain coverage through greedy client center selection and retrieval-based augmentation. To reduce client-side computation, FedDCA$^*$ uses heterogeneous encoders with server-side feature alignment. Extensive experiments across four domains (code, medical, financial, and mathematical) validate the effectiveness of both methods. Additionally, we explore the privacy protection against memory extraction attacks with various amounts of public data and results show that there is no significant correlation between the amount of public data and the privacy-preserving capability. However, as the fine-tuning round increases, the risk of privacy leakage reduces or converges.
翻訳日:2024-10-02 13:17:59 公開日:2024-10-01
# 天文学研究の発展における大規模言語モデルの役割

What is the Role of Large Language Models in the Evolution of Astronomy Research? ( http://arxiv.org/abs/2409.20252v1 )

ライセンス: Link先を確認
Morgan Fouesneau, Ivelina G. Momcheva, Urmila Chadayammuri, Mariia Demianenko, Antoine Dumont, Raphael E. Hviding, K. Angelique Kahle, Nadiia Pulatova, Bhavesh Rajpoot, Marten B. Scheuck, Rhys Seeburger, Dmitry Semenov, Jaime I. Villaseñor, (参考訳) ChatGPTや他の最先端の大規模言語モデル(LLM)は、複数のフィールドを急速に変換し、幅広いアプリケーションに強力なツールを提供している。 これらのモデルは、一般に広大なデータセットに基づいて訓練され、人間のようなテキスト生成能力を示し、アイデア、文献レビュー、コーディング、ドラフト、アウトリーチなどの研究タスクに有用である。 我々は、異なるキャリア段階の13人の天文学者と研究分野を対象に、数ヶ月にわたって多種多様タスクにわたるLLM応用を探索し、研究活動におけるその性能を評価するために調査を行った。 この研究には、参加者のLSMに対する経験と態度を評価する匿名調査が伴った。 提案した課題と調査回答の詳細な分析と,具体的なアウトプット例を提供する。 本研究はLLMの可能性と限界を明らかにするとともに,一般および研究特有の倫理的考察にも対処する。 我々は、LLMを批判的思考とドメインの専門知識で補完する必要性を強調し、これらのツールが厳格な科学的調査の代用としてではなく、援助として機能することを保証して、一連の勧告で締めくくります。

ChatGPT and other state-of-the-art large language models (LLMs) are rapidly transforming multiple fields, offering powerful tools for a wide range of applications. These models, commonly trained on vast datasets, exhibit human-like text generation capabilities, making them useful for research tasks such as ideation, literature review, coding, drafting, and outreach. We conducted a study involving 13 astronomers at different career stages and research fields to explore LLM applications across diverse tasks over several months and to evaluate their performance in research-related activities. This work was accompanied by an anonymous survey assessing participants' experiences and attitudes towards LLMs. We provide a detailed analysis of the tasks attempted and the survey answers, along with specific output examples. Our findings highlight both the potential and limitations of LLMs in supporting research while also addressing general and research-specific ethical considerations. We conclude with a series of recommendations, emphasizing the need for researchers to complement LLMs with critical thinking and domain expertise, ensuring these tools serve as aids rather than substitutes for rigorous scientific inquiry.
翻訳日:2024-10-02 11:58:29 公開日:2024-10-01