論文の概要: Beyond Feature Fusion: Contextual Bayesian PEFT for Multimodal Uncertainty Estimation
- arxiv url: http://arxiv.org/abs/2604.16615v1
- Date: Fri, 17 Apr 2026 18:12:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.106695
- Title: Beyond Feature Fusion: Contextual Bayesian PEFT for Multimodal Uncertainty Estimation
- Title(参考訳): 特徴融合を超えて:マルチモーダル不確実性推定のための文脈ベイズ型PEFT
- Authors: Habibeh Naderi, Behrouz Haji Soleimani, Stan Matwin,
- Abstract要約: 音声コンテキストを伴うテキスト予測タスクに対して,マルチモーダルかつ不確実性を考慮したパラメータ効率の高い微調整手法であるCoCo-LoRAを導入する。
その結果,音声を融合した特徴ストリームとしてではなく,文脈の不確実性信号として用いることで,低リソース予測のための頑健でパラメータ効率のよい代替手段が提供されることがわかった。
- 参考スコア(独自算出の注目度): 1.1242490155213278
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce CoCo-LoRA, a multimodal, uncertainty-aware parameter-efficient fine-tuning method for text prediction tasks accompanied by audio context. Existing PEFT approaches such as LoRA are efficient but typically deterministic, while recent Bayesian low-rank adapters model uncertainty in a lightweight way yet remain largely unimodal and condition uncertainty primarily on internal text features. This leaves them poorly equipped to reflect uncertainty driven by external acoustic factors such as background noise, channel variability, or speaking style, which can materially affect reliability in speech-centered applications. CoCo-LoRA addresses this gap by conditioning a contextual variational posterior in the low-rank space on both local text-derived adapter features and an audio-derived context signal. A pooled audio embedding is projected once into a shared context space and then adapted through lightweight layer-wise heads, enabling global-to-local, depth-specific modulation of the adapter uncertainty and update without high-dimensional multimodal fusion. Stochasticity is confined to a compact latent component in the rank space, preserving PEFT scalability while producing audio-sensitive, heteroscedastic uncertainty. Based on our evaluations across diverse tasks and backbone combinations, CoCo-LoRA consistently matches or outperforms text-only PEFT and conventional feature-fusion transfer baselines, particularly on high-coverage labels where reliable adaptation is critical. The results indicate that using audio as a contextual uncertainty signal, rather than as a fused feature stream, provides a robust and parameter-efficient alternative for multimodal low-resource prediction.
- Abstract(参考訳): 音声コンテキストを伴うテキスト予測タスクに対して,マルチモーダルかつ不確実性を考慮したパラメータ効率の高い微調整手法であるCoCo-LoRAを導入する。
LoRAのような既存のPEFTアプローチは効率的だが決定論的であるが、最近のベイジアン低ランクアダプタは、軽量な方法で不確実性をモデル化するが、主に内部テキストの特徴に依存しない。
これにより、背景雑音、チャンネルの可変性、発話スタイルなどの外部音響要因によって引き起こされる不確実性の反映が不十分になり、音声中心のアプリケーションの信頼性に実質的に影響を与える可能性がある。
CoCo-LoRAは、ローカルテキスト由来のアダプタ機能とオーディオ由来のコンテキスト信号の両方に、低ランク空間における文脈変動後部を条件付けることで、このギャップに対処する。
プールドオーディオ埋め込みは、一度共有コンテキスト空間に投影され、その後、軽量なレイヤーワイドヘッドを介して適用され、アダプタの不確かさのグローバル・ローカル・ディープ・インフォメーションを調整し、高次元のマルチモーダル融合なしで更新することができる。
確率性は階数空間のコンパクトな潜伏成分に制限され、PEFTのスケーラビリティを保ちながら、音声に敏感でヘテロスセダティックな不確実性を生み出す。
各種タスクとバックボーンの組み合わせによる評価に基づいて,CoCo-LoRAはテキストのみのPEFTと従来の機能融合転送ベースライン,特に信頼性の高い適応が重要となる高包括ラベルに一貫して適合し,性能が向上する。
その結果,音声を融合した特徴ストリームとしてではなく,文脈の不確実性信号として用いることで,マルチモーダルな低リソース予測のための堅牢でパラメータ効率の良い代替手段が提供されることがわかった。
関連論文リスト
- Cross-Modal Bayesian Low-Rank Adaptation for Uncertainty-Aware Multimodal Learning [1.1242490155213278]
CALIBERは音声テキスト学習のための多モード不確実性対応PEFTフレームワークである。
テキスト由来の低ランク機能は、局所的な音響コンテキストを生成するためにフレームレベルのオーディオ埋め込みに付随する。
その結果、CALIBERはテキストのみのベイズPEFTと従来のマルチモーダル・トランスファー学習ベースラインで一貫して一致または改善することがわかった。
論文 参考訳(メタデータ) (2026-04-17T19:23:08Z) - Uncertainty Quantification for Multimodal Large Language Models with Incoherence-adjusted Semantic Volume [45.38219855706969]
マルチモーダル大規模言語モデル(MLLM)のためのトレーニング不要不確実性定量化フレームワークUMPIREを紹介する。
UMPIREは、与えられたタスクインスタンスに対するサンプルMLLM応答の不整合調整セマンティックボリュームを計算する。
UMPIREは、画像、音声、ビデオテキストのベンチマークにおいて、エラー検出と不確実性校正において、基準値よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2026-02-27T17:18:42Z) - Communication-Efficient Multi-Modal Edge Inference via Uncertainty-Aware Distributed Learning [60.650628083185616]
トレーニングと推論効率を向上させるために,3段階のコミュニケーション対応分散学習フレームワークを提案する。
StageIでは、デバイスがローカルなマルチモーダルな自己教師型学習を行い、デバイス-サーバ交換なしで共有およびモダリティ固有のエンコーダを得る。
集中的な顕在的融合校正による分散微調整は、モダリティごとの不確かさを解消し、ノイズやチャネルのフェーディングによって歪んだ特徴を確実に集約する。
不確実性誘導フィードバック機構であるStageIIIは、分散環境での通信精度のトレードオフを最適化し、不確実なサンプルに対する追加機能を選択的に要求する。
論文 参考訳(メタデータ) (2026-01-21T12:38:02Z) - AmbShield: Enhancing Physical Layer Security with Ambient Backscatter Devices against Eavesdroppers [69.56534335936534]
AmbShieldは自然分布のAmBDを利用して正規チャネルを強化し、eavesdropperを分解するAmBD支援PSSスキームである。
AmbShieldでは、AmBDはランダムに後方散乱して盗聴者の干渉を発生させるフレンドリーなジャマーとして利用され、受動的リレーは所望の信号を後方散乱して正当な装置の容量を高める。
論文 参考訳(メタデータ) (2026-01-14T20:56:50Z) - MARS-Sep: Multimodal-Aligned Reinforced Sound Separation [72.85468563236005]
MARS-Sepは音分離のための強化学習フレームワークである。
クリッピングされた信頼領域サロゲートによって最適化された、ファクタライズされたベータマスクポリシを学ぶ。
複数のベンチマークの実験は、テキスト、オーディオ、イメージ-キュード分離において一貫した利得を示している。
論文 参考訳(メタデータ) (2025-10-12T09:05:28Z) - Beyond Simple Fusion: Adaptive Gated Fusion for Robust Multimodal Sentiment Analysis [27.11612547025828]
textbfAdaptive textbfGated textbfFusion textbfNetwork。
CMU-MOSIとCMU-MOSEIの実験により、AGFNは精度において強いベースラインを著しく上回り、頑健なパフォーマンスを持つ微妙な感情を効果的に識別することを示した。
論文 参考訳(メタデータ) (2025-10-02T05:05:41Z) - GUARD: Glocal Uncertainty-Aware Robust Decoding for Effective and Efficient Open-Ended Text Generation [7.799544459641742]
GUARDは、オープンエンドテキスト生成におけるコヒーレンスと多様性のバランスをとる自己適応復号法である。
GUARDはテキストの多様性と一貫性のバランスを良好に保ちつつ、生成速度を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-08-28T13:14:20Z) - Uncertainty-driven Embedding Convolution [16.523816971857787]
不確実性駆動型埋め込み畳み込み(UEC)を提案する。
UECは決定論的埋め込みをポストホックな方法で確率論的に変換する。
その後、埋め込みの不確実性に基づいて適応アンサンブル重みを計算する。
論文 参考訳(メタデータ) (2025-07-28T11:15:25Z) - Stable Neighbor Denoising for Source-free Domain Adaptive Segmentation [91.83820250747935]
擬似ラベルノイズは主に不安定なサンプルに含まれており、ほとんどのピクセルの予測は自己学習中に大きく変化する。
我々は, 安定・不安定な試料を効果的に発見する, SND(Stable Neighbor Denoising)アプローチを導入する。
SNDは、様々なSFUDAセマンティックセグメンテーション設定における最先端メソッドよりも一貫して優れている。
論文 参考訳(メタデータ) (2024-06-10T21:44:52Z) - Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。
4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文 参考訳(メタデータ) (2023-01-18T04:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。