論文の概要: Variational Information Pursuit with Large Language and Multimodal
Models for Interpretable Predictions
- arxiv url: http://arxiv.org/abs/2308.12562v1
- Date: Thu, 24 Aug 2023 05:04:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-08-25 15:16:58.677353
- Title: Variational Information Pursuit with Large Language and Multimodal
Models for Interpretable Predictions
- Title(参考訳): 解釈可能な予測のための大言語と多モーダルモデルを用いた変分情報探索
- Authors: Kwan Ho Ryan Chan, Aditya Chattopadhyay, Benjamin David Haeffele, Rene
Vidal
- Abstract要約: 変分情報探索 (V-IP) は、設計によって解釈可能な予測を行うためのフレームワークである。
任意のタスクにV-IPを適用するには、ドメインの専門家による密集した概念ラベル付きデータサンプルが必要である。
我々は、この制限に対処するために、FM(Foundational Models)でV-IPフレームワークを拡張します。
- 参考スコア(独自算出の注目度): 9.07837207208113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Variational Information Pursuit (V-IP) is a framework for making
interpretable predictions by design by sequentially selecting a short chain of
task-relevant, user-defined and interpretable queries about the data that are
most informative for the task. While this allows for built-in interpretability
in predictive models, applying V-IP to any task requires data samples with
dense concept-labeling by domain experts, limiting the application of V-IP to
small-scale tasks where manual data annotation is feasible. In this work, we
extend the V-IP framework with Foundational Models (FMs) to address this
limitation. More specifically, we use a two-step process, by first leveraging
Large Language Models (LLMs) to generate a sufficiently large candidate set of
task-relevant interpretable concepts, then using Large Multimodal Models to
annotate each data sample by semantic similarity with each concept in the
generated concept set. While other interpretable-by-design frameworks such as
Concept Bottleneck Models (CBMs) require an additional step of removing
repetitive and non-discriminative concepts to have good interpretability and
test performance, we mathematically and empirically justify that, with a
sufficiently informative and task-relevant query (concept) set, the proposed
FM+V-IP method does not require any type of concept filtering. In addition, we
show that FM+V-IP with LLM generated concepts can achieve better test
performance than V-IP with human annotated concepts, demonstrating the
effectiveness of LLMs at generating efficient query sets. Finally, when
compared to other interpretable-by-design frameworks such as CBMs, FM+V-IP can
achieve competitive test performance using fewer number of concepts/queries in
both cases with filtered or unfiltered concept sets.
- Abstract(参考訳): 変分情報追跡 (v-ip) は、タスクに最も有益であるデータに関するタスク関連、ユーザ定義、および解釈可能なクエリの短いチェーンを順次選択することによって、解釈可能な予測を行うためのフレームワークである。
これは予測モデルに組み込みで解釈可能であるが、任意のタスクにV-IPを適用するには、ドメインの専門家による密集した概念ラベル付きデータサンプルが必要である。
本研究では,V-IPフレームワークをFM(Foundational Models)で拡張し,この制限に対処する。
より具体的には、まずLarge Language Models(LLM)を利用してタスク関連解釈可能な概念の十分に大きな候補セットを生成し、次にLarge Multimodal Modelsを使用して各データサンプルを、生成された概念セットの各概念とセマンティックな類似性でアノテートする。
コンセプション・ボトルネック・モデル(CBM)のような他の解釈可能な設計フレームワークでは、反復的および非識別的概念を取り除き、良好な解釈性とテスト性能を持つ必要があるが、数学的かつ経験的に、十分な情報的およびタスク関連クエリ(概念)セットを用いて、提案したFM+V-IPメソッドはいかなる種類の概念フィルタリングも必要としないことを正当化する。
さらに, FM+V-IP と LLM の生成した概念は, 注釈付き概念を用いた V-IP よりも優れたテスト性能を達成できることを示す。
最後に、CBMのような他の解釈可能な設計フレームワークと比較すると、FM+V-IPはフィルタまたはフィルタされていないコンセプトセットの両方のケースにおいて、少ない数のコンセプト/クエリを使用して競合するテスト性能を達成することができる。
関連論文リスト
- Advancing Visual Large Language Model for Multi-granular Versatile Perception [31.78788398688894]
Visual Large Language Model を取り入れた多言語・多言語知覚フレームワーク MVP-LM を提案する。
我々のフレームワークは、ボックスとマスクの予測とともに、単語ベースと文ベースの両方の知覚タスクを統合するように設計されている。
MVP-LMは、CoTにインスパイアされたデータセット統一戦略と合わせて、革新的なマルチグラニュラリティデコーダを備えている。
論文 参考訳(メタデータ) (2025-07-22T04:09:14Z) - Reinforcing Multimodal Understanding and Generation with Dual Self-rewards [56.08202047680044]
大規模言語モデル(LLM)は、クロスモデル理解と生成を単一のフレームワークに統合する。
現在のソリューションでは、外部の監視(例えば、人間のフィードバックや報酬モデル)が必要であり、一方向のタスクにのみ対処する。
我々は,LMMの理解と生成能力を強化するために,自己監督型二重報酬機構を導入する。
論文 参考訳(メタデータ) (2025-06-09T17:38:45Z) - Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.832839189236694]
テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。
このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。
多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-05-27T07:23:38Z) - Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing [43.75154489681047]
MDS(Multi-Document Summarization)のためのテスト時間スケーリングを利用した新しいフレームワークを提案する。
提案手法では,様々なプロンプトを用いて複数の候補サマリーを生成し,アグリゲータと組み合わせて洗練されたサマリーを生成する。
また,本手法を効果的に評価するために,LCM-ACU(Consistency-Aware Preference)スコアとLLM-Content-Unit(LLM-ACU)スコアという2つの新しいLCMベースの指標を導入する。
論文 参考訳(メタデータ) (2025-02-27T23:34:47Z) - Multi-Faceted Multimodal Monosemanticity [42.64636740703632]
深層マルチモーダルモデルから抽出した解釈可能なモノセマンティックな特徴を解析するために,データ駆動型アプローチを採用する。
具体的には,大規模画像とテキストのペアで学習した視覚言語表現モデルであるCLIPについて検討する。
本稿では,CLIPから学んだ特徴を抽出・解析する多モード解釈可能性ツールと尺度について述べる。
論文 参考訳(メタデータ) (2025-02-16T14:51:07Z) - Dual Prototype Evolving for Test-Time Generalization of Vision-Language Models [11.545127156146368]
本稿では,事前学習型視覚言語モデル(VLM)のための新しいテスト時間適応手法であるDual Prototype Evolving (DPE)を紹介する。
テスト期間中にターゲットクラスに対するより正確なマルチモーダル表現を段階的にキャプチャするために、テキストとビジュアルの2つのプロトタイプを作成し、進化させます。
提案したDPEは,従来の最先端手法を一貫して上回りながら,競争力のある計算効率を示す。
論文 参考訳(メタデータ) (2024-10-16T17:59:49Z) - VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks [60.5257456681402]
我々は、幅広い下流タスクを扱える普遍的な埋め込みモデルを構築している。
1 MMEB(Massive Multimodal Embedding Benchmark)は、4 つのメタタスク(分類、視覚的質問応答、マルチモーダル検索、視覚的グラウンド)と36 つのデータセット(20 のトレーニングと16 の評価データセットを含む)と、2 の VLM2Vec (Vision-Language Model -> Vector) を含む。
論文 参考訳(メタデータ) (2024-10-07T16:14:05Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Multi-modal Auto-regressive Modeling via Visual Words [96.25078866446053]
本稿では,視覚的特徴を大規模多モードモデルの語彙上の確率分布にマッピングする視覚トークンの概念を提案する。
さらに、LMM内の意味空間における視覚的特徴の分布と、視覚情報を表現するためにテキスト埋め込みを使用することの可能性について検討する。
論文 参考訳(メタデータ) (2024-03-12T14:58:52Z) - ProbVLM: Probabilistic Adapter for Frozen Vision-Language Models [69.50316788263433]
本稿では,事前学習された視覚言語モデルの埋め込みに対する確率分布を推定する確率的アダプタProbVLMを提案する。
本稿では,検索タスクにおける不確実性埋め込みのキャリブレーションを定量化し,ProbVLMが他の手法よりも優れていることを示す。
本稿では,大規模な事前学習型潜伏拡散モデルを用いて,埋め込み分布を可視化する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T18:16:06Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Variational Information Pursuit for Interpretable Predictions [8.894670614193677]
変分情報探索 (V-IP) は, 生成モデル学習の必要性を回避したIPの変分特性である。
V-IPは、典型的にはシーケンシャル意思決定問題で使用される強化学習と比較して、クエリチェーンがはるかに短い。
本稿では,V-IPが生成モデルよりも優れた医療診断などの課題に対して有効であることを示す。
論文 参考訳(メタデータ) (2023-02-06T15:43:48Z) - SimVLM: Simple Visual Language Model Pretraining with Weak Supervision [48.98275876458666]
SimVLM(Simple Visual Language Model)という,最小限の事前学習フレームワークを提案する。
SimVLMは、大規模な弱監視を活用することで、トレーニングの複雑さを低減する。
様々な識別的および生成的視覚言語ベンチマークにおいて、最先端の新たな結果が得られる。
論文 参考訳(メタデータ) (2021-08-24T18:14:00Z) - Multi-Task Learning for Dense Prediction Tasks: A Survey [87.66280582034838]
マルチタスク学習(MTL)技術は、性能、計算、メモリフットプリントに関する有望な結果を示している。
我々は、コンピュータビジョンにおけるMLLのための最先端のディープラーニングアプローチについて、よく理解された視点を提供する。
論文 参考訳(メタデータ) (2020-04-28T09:15:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。