論文の概要: Instruction-tuned Self-Questioning Framework for Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2509.21251v1
- Date: Thu, 25 Sep 2025 14:45:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.992871
- Title: Instruction-tuned Self-Questioning Framework for Multimodal Reasoning
- Title(参考訳): マルチモーダル推論のための命令調整型セルフクエストフレームワーク
- Authors: You-Won Jang, Yu-Jung Heo, Jaeseok Kim, Minsu Lee, Du-Seong Chang, Byoung-Tak Zhang,
- Abstract要約: SQ-InstructBLIPは,画像認識による情報サブクェリとサブサブ問合せを反復的に生成することで,推論性能を向上させる。
提案手法は,VQAタスクを解く際に,生成したサブクエストを付加情報として用いたSQ-InstructBLIPが,従来よりも高精度な推論を行うことを示す。
- 参考スコア(独自算出の注目度): 25.286098876478928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The field of vision-language understanding has been actively researched in recent years, thanks to the development of Large Language Models~(LLMs). However, it still needs help with problems requiring multi-step reasoning, even for very simple questions. Recent studies adopt LLMs to tackle this problem by iteratively generating sub-questions and answers. However, there are disadvantages such as 1) the fine-grained visual contents of images are not available using LLMs that cannot read visual information, 2) internal mechanisms are inaccessible and difficult to reproduce by using black-box LLMs. To solve these problems, we propose the SQ (Self-Questioning)-InstructBLIP, which improves inference performance by generating image-aware informative sub-questions and sub-answers iteratively. The SQ-InstructBLIP, which consists of a Questioner, Answerer, and Reasoner that share the same architecture. Questioner and Answerer generate sub-questions and sub-answers to help infer the main-question, and Reasoner performs reasoning on the main-question considering the generated sub-question information. Our experiments show that the proposed method SQ-InstructBLIP, which uses the generated sub-questions as additional information when solving the VQA task, performs more accurate reasoning than the previous works.
- Abstract(参考訳): 近年,Large Language Models~(LLMs)の開発により,視覚言語理解の分野が活発に研究されている。
しかし、非常に単純な質問であっても、多段階の推論を必要とする問題にはまだ助けが必要である。
近年の研究では、LLMをサブクエストと回答を反復的に生成することでこの問題に対処している。
しかし、不利な点もある。
1) 画像のきめ細かい視覚内容は, 視覚情報を読めないLCMでは利用できない。
2) 内部機構は, ブラックボックスLPMを用いては到達不能であり, 再生が困難である。
これらの問題を解決するために,画像認識情報サブクェリとサブ問合せを反復的に生成することで推論性能を向上させるSQ(Self-Questioning)-InstructBLIPを提案する。
SQ-InstructBLIPは、同じアーキテクチャを共有する質問者、回答者、およびReasonerで構成されている。
質問者とAnswererは、主問を推測するためにサブクエストとサブアンサーを生成し、Reasonerは生成されたサブクエスト情報を考慮してメインクエストを推論する。
提案手法は,VQAタスクを解く際に,生成したサブクエストを付加情報として用いたSQ-InstructBLIPが,従来よりも高精度な推論を行うことを示す。
関連論文リスト
- DAGR: Decomposition Augmented Graph Retrieval with LLMs [1.034893617526558]
DAGRは、複雑な質問と、関連するリンクされたサブグラフを抽出するサブクエストにおけるそれらの分解の両方を活用する検索手法である。
結果として得られるGraph-RAGパイプラインは、複雑なマルチホップ質問の処理と、グラフ構造化データに対する効果的な推論に適している。
DAGRを標準マルチホップQAベンチマークで評価し、競合する既存手法に匹敵する性能または優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2025-06-16T11:44:28Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Critical Questions Generation: Motivation and Challenges [6.0158981171030685]
本稿では,議論文を処理し,それによる批判的な質問を生成する新しいタスクを提案する。
議論理論において、CQは、欠落している可能性のある情報を指差して、議論の盲点を埋めるように設計されたツールである。
LLMを用いたCQs生成の研究には,大規模な実験のための参照データセットが必要である。
論文 参考訳(メタデータ) (2024-10-18T09:46:38Z) - Crafting Interpretable Embeddings by Asking LLMs Questions [89.49960984640363]
大規模言語モデル(LLM)は、自然言語処理タスクの増大に対して、テキスト埋め込みを急速に改善した。
質問応答埋め込み (QA-Emb) を導入し, 各特徴がLLMに対して質問された質問に対する回答を表す。
我々はQA-Embを用いて、言語刺激に対するfMRIボクセル応答を予測するための解釈可能なモデルを柔軟に生成する。
論文 参考訳(メタデータ) (2024-05-26T22:30:29Z) - keqing: knowledge-based question answering is a nature chain-of-thought
mentor of LLM [27.76205400533089]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスク、特に質問応答において顕著な性能を示した。
本稿では,知識グラフ上の質問関連構造化情報を取得するために,ChatGPTなどのLLMを支援する新しいフレームワークを提案する。
KBQAデータセットの実験結果から,Keqingは競合性能を達成でき,各質問に答える論理を説明できることがわかった。
論文 参考訳(メタデータ) (2023-12-31T08:39:04Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - An In-Context Schema Understanding Method for Knowledge Base Question
Answering [70.87993081445127]
大きな言語モデル(LLM)は、言語理解において強力な能力を示しており、この課題を解決するために使用することができる。
既存のメソッドは、当初、スキーマ固有の詳細を使わずにLLMを使用してロジックフォームのドラフトを生成することで、この課題を回避している。
そこで本研究では,LLMが文脈内学習を利用してスキーマを直接理解できる簡易なインコンテキスト理解(ICSU)手法を提案する。
論文 参考訳(メタデータ) (2023-10-22T04:19:17Z) - Search-in-the-Chain: Interactively Enhancing Large Language Models with
Search for Knowledge-intensive Tasks [121.74957524305283]
本稿では、情報検索(IR)とLarge Language Model(LLM)のインタラクションのための、textbfSearch-in-the-Chain(SearChain)という新しいフレームワークを提案する。
実験の結果、SearChainは複雑な知識集約タスクにおける最先端のベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-04-28T10:15:25Z) - Text Modular Networks: Learning to Decompose Tasks in the Language of
Existing Models [61.480085460269514]
本稿では,既存のモデルで解けるより単純なモデルに分解することで,複雑なタスクを解くための解釈可能なシステムを構築するためのフレームワークを提案する。
我々はこのフレームワークを用いて、ニューラルネットワークのファクトイド単一スパンQAモデルとシンボリック電卓で答えられるサブクエストに分解することで、マルチホップ推論問題に答えられるシステムであるModularQAを構築する。
論文 参考訳(メタデータ) (2020-09-01T23:45:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。