論文の概要: LEMON: Local Explanations via Modality-aware OptimizatioN
- arxiv url: http://arxiv.org/abs/2602.02786v1
- Date: Mon, 02 Feb 2026 20:40:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.077127
- Title: LEMON: Local Explanations via Modality-aware OptimizatioN
- Title(参考訳): LEMON: Modality-Aware OptimizatioNによるローカルな説明
- Authors: Yu Qin, Phillip Sloan, Raul Santos-Rodriguez, Majid Mirmehdi, Telmo de Menezes e Silva Filho,
- Abstract要約: LEMONはマルチモーダル予測の局所的な説明のためのモデルに依存しないフレームワークである。
モダリティレベルの貢献と特徴レベルの属性を両立させる統一的な説明を生成する。
強力なマルチモーダルベースラインに比べて,ブラックボックス評価を35~67倍,ランタイムを2~8倍削減しながら,競争力のある削除ベースの忠実性を実現する。
- 参考スコア(独自算出の注目度): 7.247967284515863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal models are ubiquitous, yet existing explainability methods are often single-modal, architecture-dependent, or too computationally expensive to run at scale. We introduce LEMON (Local Explanations via Modality-aware OptimizatioN), a model-agnostic framework for local explanations of multimodal predictions. LEMON fits a single modality-aware surrogate with group-structured sparsity to produce unified explanations that disentangle modality-level contributions and feature-level attributions. The approach treats the predictor as a black box and is computationally efficient, requiring relatively few forward passes while remaining faithful under repeated perturbations. We evaluate LEMON on vision-language question answering and a clinical prediction task with image, text, and tabular inputs, comparing against representative multimodal baselines. Across backbones, LEMON achieves competitive deletion-based faithfulness while reducing black-box evaluations by 35-67 times and runtime by 2-8 times compared to strong multimodal baselines.
- Abstract(参考訳): マルチモーダルモデルはユビキタスであるが、既存の説明可能性法はしばしば単一モーダル、アーキテクチャに依存し、大規模に実行するには計算コストがかかりすぎる。
LEMON(Local Explanations via Modality-aware OptimizatioN)は,マルチモーダル予測の局所的説明のためのモデルに依存しないフレームワークである。
LEMONは単一のモダリティを意識したサロゲートとグループ構造された空間に適合し、モダリティレベルの貢献と特徴レベルの属性をアンタングルする統一的な説明を生成する。
この手法は、予測器をブラックボックスとして扱い、計算的に効率的であり、反復的な摂動の下で忠実に保ちながら、比較的少ない前方通過を必要とする。
我々は,視覚言語による質問応答と画像,テキスト,表象入力による臨床予測課題を,代表的マルチモーダルベースラインと比較し,LEMONの評価を行った。
バックボーン全体のLEMONは、強力なマルチモーダルベースラインに比べて、ブラックボックス評価を35~67倍、ランタイムを2~8倍削減しながら、競争力のある削除ベースの忠実性を達成する。
関連論文リスト
- Directional Reasoning Injection for Fine-Tuning MLLMs [51.53222423215055]
マルチモーダルな大言語モデル(MLLM)は急速に進歩しているが、その推論能力は強いテキストのみのモデルよりも遅れていることが多い。
このギャップを埋める既存の方法は、大規模マルチモーダル推論データや強化学習の監督された微調整に依存している。
この問題を解決するために,DRIFT(Directional Reasoning Injection for Fine-Tuning)を提案する。
論文 参考訳(メタデータ) (2025-10-16T18:06:46Z) - Boosting Multi-modal Keyphrase Prediction with Dynamic Chain-of-Thought in Vision-Language Models [28.416254061159176]
マルチモーダルキーフレーズ予測(MMKP)は、テキストのみの手法を超えて進歩することを目的としている。
従来のマルチモーダルアプローチは、困難な不在と目に見えないシナリオを扱う上で、重大な制限があることが証明されている。
MMKPタスクに視覚言語モデル(VLM)を活用することを提案する。
論文 参考訳(メタデータ) (2025-10-10T13:13:07Z) - Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization [68.64764778089229]
MISP-DPOはマルチモーダルDPOに複数の意味的に多様な負の画像を組み込む最初のフレームワークである。
提案手法は,CLIP空間にプロンプトと候補画像を埋め込んで,意味的偏差を解釈可能な因子に発見するためにスパースオートエンコーダを適用する。
5つのベンチマーク実験により、MISP-DPOは従来手法よりも常にマルチモーダルアライメントを改善することが示された。
論文 参考訳(メタデータ) (2025-09-30T03:24:09Z) - Principled Multimodal Representation Learning [99.53621521696051]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - Rationale-Enhanced Decoding for Multi-modal Chain-of-Thought [11.538345159297839]
チェーン・オブ・シンクレット(CoT)プロンプトは、多モーダル推論を強化するために、大きな視覚言語モデル(LLM)に適応している。
既存のLVLMは、CoT推論において生成された有理性の内容を無視していることが多い。
本稿では,新しいプラグイン・アンド・プレイ型推論時間復号法である理性強化復号法(RED)を提案する。
論文 参考訳(メタデータ) (2025-07-10T12:07:13Z) - TimeXL: Explainable Multi-modal Time Series Prediction with LLM-in-the-Loop [79.5773512667468]
TimeXLは、プロトタイプベースの時系列エンコーダと3つの協調する大規模言語モデルを統合するマルチモーダル予測フレームワークである。
リフレクションLLMは、予測された値と地上の真実を比較し、テキストの不整合やノイズを識別する。
このクローズドループワークフロー予測、批判(参照)、改善が連続的にフレームワークのパフォーマンスと解釈可能性を高めます。
論文 参考訳(メタデータ) (2025-03-02T20:40:53Z) - Vision-Language Models Can Self-Improve Reasoning via Reflection [20.196406628954303]
CoT(Chain-of-Thought)は,大規模言語モデル(LLM)の推論能力の向上を実証した。
本稿では,自己学習フレームワークR3Vを提案する。このフレームワークは,CoTレーショナル上でのリフレクションにより,モデルの視覚言語推論を反復的に強化する。
提案手法は, 生成した解に対する自己回帰をサポートし, テスト時間計算による性能向上を図っている。
論文 参考訳(メタデータ) (2024-10-30T14:45:00Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Adaptive Contrastive Learning on Multimodal Transformer for Review
Helpfulness Predictions [40.70793282367128]
本稿では,MRHP(Multimodal Review Helpfulness Prediction)問題に対するマルチモーダルコントラスト学習を提案する。
さらに,コントラスト学習における適応重み付け方式を提案する。
最後に,マルチモーダルデータの不整合性に対処するマルチモーダルインタラクションモジュールを提案する。
論文 参考訳(メタデータ) (2022-11-07T13:05:56Z) - Robust Latent Representations via Cross-Modal Translation and Alignment [36.67937514793215]
ほとんどのマルチモーダル機械学習手法では、トレーニングに使用されるすべてのモダリティをテストに利用する必要がある。
この制限に対処するため、トレーニング中のみに複数のモーダルを用いてユニモーダルシステムのテスト性能を向上させることを目的としている。
提案するマルチモーダルトレーニングフレームワークは、クロスモーダル変換と相関に基づく潜在空間アライメントを用いる。
論文 参考訳(メタデータ) (2020-11-03T11:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。