Fugu-MT 論文翻訳(概要): Skill-CMIB: Multimodal Agent Skill for Consistent Action via Conditional Multimodal Information Bottleneck

論文の概要: Skill-CMIB: Multimodal Agent Skill for Consistent Action via Conditional Multimodal Information Bottleneck

arxiv url: http://arxiv.org/abs/2605.08526v1
Date: Fri, 08 May 2026 22:17:54 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:49.71159
Title: Skill-CMIB: Multimodal Agent Skill for Consistent Action via Conditional Multimodal Information Bottleneck
Title（参考訳）: Skill-CMIB:条件付きマルチモーダル情報ボトルネックによる一貫性行動のためのマルチモーダルエージェントスキル
Authors: Zihan Huang, Junda Wu, Tong Yu, Qianqi Yan, Rohan Surana, Uttaran Bhattacharya, Lina Yao, Xin Eric Wang, Julian McAuley,
Abstract要約: マルチモーダルスキル構築のための条件付きマルチモーダル情報ボトルネック(CMIB)を提案する。単純な2ストリームの定式化とは異なり、CMIBはテキストスキルにマルチモーダルラテントを明示的に条件付け、したがってクロスモーダルの冗長性を構造的に低減する。 CMIBの条件分解を最適化し、再利用可能なマルチモーダルスキルを得られるようにした変動目的のインスタンスを作成する。
参考スコア（独自算出の注目度）: 60.930825621351794
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: While LLM-based agents excel at planning and executing long action sequences, their execution often remains inconsistent across trials, limiting reliability. Consolidating agent consistency requires distilling trial-error trajectories into reusable skills that preserve task-relevant invariants while discarding trajectory-specific noise. However, in multimodal settings, the key challenge is not only that useful invariants are distributed across vision and language information, but that different modalities support different kinds of reusable skill content: while some skills are verbalizable and interpretable, others reside in perceptual evidence beyond text. Text-only skills may lose perceptual cues, whereas storing text and perception naively introduces redundancy and noise. Existing inference-time methods, such as self-consistency, improve reliability through costly multi-sample decoding, while internalization strategies lack a way to separate verbalizable skill content from residual perceptual information. To address this, we introduce Conditional Multimodal Information Bottleneck (CMIB), a method for multimodal skill construction. CMIB begins with a joint bottleneck over multimodal skills and derives an exact sequential decomposition: (1) a text-stage bottleneck distilling interpretable skill cards, and (2) a conditional multimodal bottleneck compressing only residual information in perception that remains predictive beyond text. Unlike naive two-stream formulations, CMIB explicitly conditions the multimodal latent on the text skill, thus structurally reducing cross-modal redundancy and enabling independent control over textual and perceptual compression. We instantiate CMIB with a variational objective that makes its conditional decomposition tractable to optimize, yielding reusable multimodal skills that improve execution stability without incurring multi-sample inference overhead.
Abstract（参考訳）: LLMベースのエージェントは長いアクションシーケンスの計画と実行に優れるが、その実行はトライアル間で矛盾し、信頼性が制限されることが多い。統合剤の整合性には、試行錯誤の軌跡を蒸留し、作業関連不変性を保存し、軌跡固有のノイズを除去する再利用可能な技術が必要である。しかし、マルチモーダル環境では、有用な不変性が視覚情報や言語情報に分散されているだけでなく、異なるモダリティが様々な再利用可能なスキルコンテンツをサポートしている。テキストのみのスキルは知覚の手がかりを失うことがあるが、テキストと知覚を保存することで、冗長性とノイズが引き起こされる。自己整合性のような既存の推論時間法では、コストがかかるマルチサンプルの復号化によって信頼性が向上する一方、内部化戦略では、残余の知覚情報から言語化可能なスキルコンテンツを分離する方法が欠如している。そこで本研究では,マルチモーダルスキル構築のための条件付きマルチモーダル情報ボトルネック(CMIB)を提案する。 CMIBはマルチモーダルスキルに対する共同ボトルネックから始まり,(1)テキスト段階のボトルネック蒸留による解釈可能なスキルカード,(2)テキストを超えて予測可能な残差情報のみを圧縮する条件付きマルチモーダルボトルネックという,正確な逐次分解を導出する。単純な2ストリームの定式化とは異なり、CMIBはテキストスキルにマルチモーダルラテントを明示的に条件付け、構造的にクロスモーダルの冗長性を低減し、テキストと知覚の圧縮を独立的に制御できるようにする。我々は,CMIBの条件分解を最適化し,再利用可能なマルチモーダルスキルを実現し,マルチサンプル推論のオーバーヘッドを発生させることなく,実行安定性を向上させる。

関連論文リスト

LIMSSR: LLM-Driven Sequence-to-Score Reasoning under Training-Time Incomplete Multimodal Observations [53.20772659095155]
本稿では、トレーニング時不完全観察において、より困難なIMLの設定に取り組む。本稿では,この課題を条件付きシーケンス推論タスクとして再構成したLIMSSR(LLM-Driven Incomplete Multimodal Sequence-to-Score Reasoning)を提案する。
論文参考訳（メタデータ） (2026-05-01T06:11:42Z)
PLUME: Latent Reasoning Based Universal Multimodal Embedding [52.35354073629127]
ユニバーサルマルチモーダル埋め込み(UME)は、異種入力を単一のモデルで共有検索空間にマッピングする。最近のアプローチでは、埋め込みを抽出する前に明確なチェーン・オブ・シント(CoT)論理を生成することにより、UMEを改善している。 PLUMEは,言語化されたCoTを連続的潜伏状態の短時間の自己回帰ロールアウトに置き換えることで,UMEを進化させる潜在的推論フレームワークである。
論文参考訳（メタデータ） (2026-04-02T14:04:53Z)
Enhancing Weakly Supervised Multimodal Video Anomaly Detection through Text Guidance [10.079930398169205]
テキストは明示的な意味情報を提供し、異常な特徴を高め、誤報を減らすことができる。汎用言語モデルが異常な特定のニュアンスをキャプチャできないため、効果的なテキスト特徴の抽出は困難である。マルチモーダル核融合はしばしば冗長性と不均衡に悩まされる。
論文参考訳（メタデータ） (2026-02-11T05:44:30Z)
Communication-Efficient Multi-Modal Edge Inference via Uncertainty-Aware Distributed Learning [60.650628083185616]
トレーニングと推論効率を向上させるために,3段階のコミュニケーション対応分散学習フレームワークを提案する。 StageIでは、デバイスがローカルなマルチモーダルな自己教師型学習を行い、デバイス-サーバ交換なしで共有およびモダリティ固有のエンコーダを得る。集中的な顕在的融合校正による分散微調整は、モダリティごとの不確かさを解消し、ノイズやチャネルのフェーディングによって歪んだ特徴を確実に集約する。不確実性誘導フィードバック機構であるStageIIIは、分散環境での通信精度のトレードオフを最適化し、不確実なサンプルに対する追加機能を選択的に要求する。
論文参考訳（メタデータ） (2026-01-21T12:38:02Z)
Buffer replay enhances the robustness of multimodal learning under missing-modality [9.512378886218395]
本稿では,Replay Prompting (REP)を導入し,ネットワークの深さが増大するにつれて情報損失を軽減し,より深い層で再生する。視覚言語、視覚言語、時間的マルチモーダルベンチマークの実験では、REPはシングルモーダルとマルチモーダルの両方の欠落シナリオにおいて、先行手法よりも一貫して優れていた。これらの結果から、REPは、欠落したモダリティ環境に挑戦する上で、堅牢なマルチモーダル学習のための軽量かつ効果的なパラダイムとして確立されている。
論文参考訳（メタデータ） (2025-11-28T10:55:31Z)
ContextNav: Towards Agentic Multimodal In-Context Learning [85.05420047017513]
ContextNavは、自動検索のスケーラビリティと人間のようなキュレーションの品質と適応性を統合するエージェントフレームワークである。リソースを意識したマルチモーダル埋め込みパイプラインを構築し、検索可能なベクトルデータベースを維持し、エージェント検索と構造アライメントを適用して、ノイズ耐性のあるコンテキストを構築する。実験の結果、ContextNavはさまざまなデータセットで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-10-06T07:49:52Z)
Rethinking Explainability in the Era of Multimodal AI [9.57008593971486]
マルチモーダルAIシステムはユビキタスになり、ハイテイクなアプリケーションにまたがって優れたパフォーマンスを実現している。既存の説明可能性のテクニックの多くは単調のままであり、モダリティ固有の特徴属性、概念、回路トレースを分離して生成する。本稿では, マルチモーダルモデル決定を駆動するクロスモーダルな影響を, 体系的に誤表現し, 捉えることができないことを論じる。
論文参考訳（メタデータ） (2025-06-16T03:08:29Z)
Narrowing Information Bottleneck Theory for Multimodal Image-Text Representations Interpretability [15.155556606996994]
Narrowing Information Bottleneck Theoryは、従来のボトルネックアプローチを再定義する新しいフレームワークである。提案手法は,画像の解釈可能性の平均9%,テキストの解釈可能性の平均58.83%を向上し,処理速度63.95%を高速化する。
論文参考訳（メタデータ） (2025-02-16T19:01:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。