論文の概要: From Wrong To Right: A Recursive Approach Towards Vision-Language
Explanation
- arxiv url: http://arxiv.org/abs/2311.12391v1
- Date: Tue, 21 Nov 2023 07:02:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 01:56:39.450369
- Title: From Wrong To Right: A Recursive Approach Towards Vision-Language
Explanation
- Title(参考訳): 誤りから右へ:視覚言語説明への再帰的アプローチ
- Authors: Jiaxin Ge, Sanjay Subramanian, Trevor Darrell, Boyi Li
- Abstract要約: ReVisE: a $textbfRe$cursive $textbfVis$ual $textbfE$xplanationアルゴリズムを示します。
本手法は,視覚的特徴(テキスト入力で条件付き),回答,説明を反復的に計算する。
この多段階のアプローチは、モデルが自身の回答を正し、単段階の説明生成よりも優れた結果をもたらすことが判明した。
- 参考スコア(独自算出の注目度): 60.746079839840895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Addressing the challenge of adapting pre-trained vision-language models for
generating insightful explanations for visual reasoning tasks with limited
annotations, we present ReVisE: a $\textbf{Re}$cursive $\textbf{Vis}$ual
$\textbf{E}$xplanation algorithm. Our method iteratively computes visual
features (conditioned on the text input), an answer, and an explanation, to
improve the explanation quality step by step until the answer converges. We
find that this multi-step approach guides the model to correct its own answers
and outperforms single-step explanation generation. Furthermore, explanations
generated by ReVisE also serve as valuable annotations for few-shot
self-training. Our approach outperforms previous methods while utilizing merely
5% of the human-annotated explanations across 10 metrics, demonstrating up to a
4.2 and 1.3 increase in BLEU-1 score on the VCR and VQA-X datasets,
underscoring the efficacy and data-efficiency of our method.
- Abstract(参考訳): 限られたアノテーションで視覚的推論タスクの洞察力のある説明を生成するために、事前学習された視覚言語モデルを適用するという課題に対処するため、ReVisEを提示する: a $\textbf{Re}$cursive $\textbf{Vis}$ual $\textbf{E}$xplanation algorithm。
提案手法は,視覚的特徴(テキスト入力で条件付き),回答,説明を反復的に計算し,回答が収束するまで説明品質を段階的に改善する。
このマルチステップアプローチは,モデルが自身の回答を訂正し,単一ステップの説明生成を上回らせることを導く。
さらに、ReVisEによって生成された説明は、数発の自己学習のための貴重なアノテーションとしても機能する。
提案手法は,VCRおよびVQA-XデータセットにおけるBLEU-1スコアの4.2と1.3増加を実証し,提案手法の有効性とデータ効率を実証し,従来の手法よりも優れていた。
関連論文リスト
- Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Intrinsic Subgraph Generation for Interpretable Graph based Visual Question Answering [27.193336817953142]
グラフに基づく視覚質問応答(VQA)に対する解釈可能なアプローチを提案する。
本モデルは,問合せ処理中に本質的にサブグラフを生成するように設計されている。
生成した部分グラフを,グラフニューラルネットワークの確立したポストホックな説明可能性法と比較し,人的評価を行う。
論文 参考訳(メタデータ) (2024-03-26T12:29:18Z) - Silkie: Preference Distillation for Large Visual Language Models [56.10697821410489]
本稿では,大型視覚言語モデル(LVLM)の嗜好蒸留について検討する。
まず,AIアノテーションを用いた視覚言語フィードバックデータセットを構築した。
我々は, GPT-4V を用いて, 有用性, 視覚的忠実性, 倫理的考察のアウトプットを評価する。
結果として得られたモデルSilkieは、認知能力と認知能力に関するMMEベンチマークで6.9%と9.5%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2023-12-17T09:44:27Z) - LLM4Vis: Explainable Visualization Recommendation using ChatGPT [21.875548217393927]
そこで我々は,ChatGPTをベースとした新しい手法を提案する。
提案手法は,特徴記述,実演例選択,説明生成,実演例構築,推論ステップを含む。
論文 参考訳(メタデータ) (2023-10-11T16:51:46Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - Explanation Regeneration via Information Bottleneck [29.92996769997743]
本研究では,情報ボトルネック手法 EIB を開発し,十分かつ簡潔な説明文を生成する。
提案手法は,事前学習された言語モデルからの単一パス出力を洗練することにより,自由テキストの説明を再生する。
論文 参考訳(メタデータ) (2022-12-19T16:41:19Z) - Inducing Semantic Grouping of Latent Concepts for Explanations: An
Ante-Hoc Approach [18.170504027784183]
我々は,潜伏状態を利用してモデルの異なる部分を適切に修正することにより,より良い説明が得られ,予測性能が向上することを示した。
また,2つの異なる自己スーパービジョン技術を用いて,考察対象の自己スーパービジョンのタイプに関連する意味ある概念を抽出する手法を提案した。
論文 参考訳(メタデータ) (2021-08-25T07:09:57Z) - Explain and Predict, and then Predict Again [6.865156063241553]
説明生成フェーズにおけるマルチタスク学習を用いたExPredを、効果的なトレードオフ説明と予測損失として提案します。
3つの多様な言語データセットに対するアプローチを幅広く評価しています。
論文 参考訳(メタデータ) (2021-01-11T19:36:52Z) - Leakage-Adjusted Simulatability: Can Models Generate Non-Trivial
Explanations of Their Behavior in Natural Language? [86.60613602337246]
我々はNL説明を評価するためのリーク調整シミュラビリティ(LAS)指標を提案する。
LASは、どのように説明が直接アウトプットをリークするかを制御しながら、オブザーバがモデルのアウトプットを予測するのに役立つかを計測する。
マルチエージェントゲームとしての説明文生成を行い、ラベルリークをペナライズしながら、シミュラビリティの説明を最適化する。
論文 参考訳(メタデータ) (2020-10-08T16:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。