論文の概要: CLEVR-X: A Visual Reasoning Dataset for Natural Language Explanations
- arxiv url: http://arxiv.org/abs/2204.02380v1
- Date: Tue, 5 Apr 2022 17:38:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 13:06:44.178694
- Title: CLEVR-X: A Visual Reasoning Dataset for Natural Language Explanations
- Title(参考訳): CLEVR-X: 自然言語説明のためのビジュアル推論データセット
- Authors: Leonard Salewski and A. Sophia Koepke and Hendrik P. A. Lensch and
Zeynep Akata
- Abstract要約: 本稿では,CLEVRデータセットを拡張した大規模CLEVR-Xデータセットを提案する。
CLEVRデータセットの各画像検索ペアに対して、CLEVR-Xは複数の構造化されたテキスト説明を含んでいる。
提案したデータセットの真真正な説明が本当に完全で関連性があることを確認するために,ユーザスタディを実施している。
- 参考スコア(独自算出の注目度): 45.111515861268956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Providing explanations in the context of Visual Question Answering (VQA)
presents a fundamental problem in machine learning. To obtain detailed insights
into the process of generating natural language explanations for VQA, we
introduce the large-scale CLEVR-X dataset that extends the CLEVR dataset with
natural language explanations. For each image-question pair in the CLEVR
dataset, CLEVR-X contains multiple structured textual explanations which are
derived from the original scene graphs. By construction, the CLEVR-X
explanations are correct and describe the reasoning and visual information that
is necessary to answer a given question. We conducted a user study to confirm
that the ground-truth explanations in our proposed dataset are indeed complete
and relevant. We present baseline results for generating natural language
explanations in the context of VQA using two state-of-the-art frameworks on the
CLEVR-X dataset. Furthermore, we provide a detailed analysis of the explanation
generation quality for different question and answer types. Additionally, we
study the influence of using different numbers of ground-truth explanations on
the convergence of natural language generation (NLG) metrics. The CLEVR-X
dataset is publicly available at
\url{https://explainableml.github.io/CLEVR-X/}.
- Abstract(参考訳): VQA(Visual Question Answering)の文脈における説明を提供することは、機械学習における根本的な問題である。
VQAの自然言語説明を生成する過程に関する詳細な知見を得るために,我々はCLEVRデータセットを拡張した大規模CLEVR-Xデータセットを提案する。
CLEVRデータセットの各画像検索ペアに対して、CLEVR-Xは、元のシーングラフから派生した複数の構造化されたテキスト説明を含む。
構築によって、CLEVR-Xの説明は正しいものであり、ある質問に答えるために必要な推論と視覚情報を記述する。
提案するデータセットの根拠となる説明が本当に完全かつ適切であることを確認するため,ユーザ調査を実施した。
CLEVR-Xデータセット上の2つの最先端フレームワークを用いて、VQAの文脈で自然言語の説明を生成するためのベースライン結果を示す。
さらに,質問と回答のタイプの違いによる説明生成品質の詳細な分析を行った。
さらに,自然言語生成指標 (nlg) の収束性に対する基礎的説明数の違いの影響について検討した。
CLEVR-Xデータセットは \url{https://explainableml.github.io/CLEVR-X/} で公開されている。
関連論文リスト
- Large Vision-Language Models for Remote Sensing Visual Question Answering [0.0]
リモートセンシング視覚質問回答(RSVQA)は、複雑な衛星画像の自然言語質問への答えを解釈する難しいタスクである。
伝統的なアプローチは、しばしば別々の視覚特徴抽出器と言語処理モデルに依存しており、計算集約的で、オープンエンドの質問を扱う能力に制限がある。
RSVQAプロセスの合理化にLVLM(Large Vision-Language Model)を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-16T18:32:38Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
視覚言語モデル(VLM)は、状態情報を視覚的テキストのプロンプトとして処理し、テキスト内のポリシー決定に応答することができる。
LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering [58.17090503446995]
我々は,テキストや知識グラフ,テーブル,インフォボックスといった異質な情報源から収集された証拠について,文脈における質問の理解と推論の課題を組み合わせた会話型質問応答タスクに着目する。
提案手法はグラフ構造表現を用いて質問とその文脈に関する情報を集約する。
論文 参考訳(メタデータ) (2024-06-14T13:28:03Z) - CoVR-2: Automatic Data Construction for Composed Video Retrieval [59.854331104466254]
Composed Image Retrieval (CoIR) はテキストと画像のクエリを一緒に考えるタスクとして最近人気を集めている。
本稿では,ビデオキャプションペアのトリプレットを生成する,スケーラブルな自動データセット作成手法を提案する。
また、コンポジションビデオ検索(CoVR)を含むタスクの範囲を広げる。
論文 参考訳(メタデータ) (2023-08-28T17:55:33Z) - QLEVR: A Diagnostic Dataset for Quantificational Language and Elementary
Visual Reasoning [0.4759142872591625]
本稿では,最小バイアスの診断的質問応答データセットであるQLEVRを紹介する。
本稿では,そのデータセットがどのように作成され,最先端の視覚的質問応答モデルの最初の評価結果を示す。
論文 参考訳(メタデータ) (2022-05-06T08:51:13Z) - Visual Question Answering based on Formal Logic [9.023122463034332]
VQAでは、一連の質問が一連の画像に基づいて提示され、手元にあるタスクがその答えに到達する。
我々は形式論理の枠組みを用いて記号的推論に基づくアプローチをとる。
提案手法は高い解釈が可能であり, パイプラインの各ステップは人間によって容易に解析できる。
論文 参考訳(メタデータ) (2021-11-08T19:43:53Z) - Ontology-based question answering over corporate structured data [0.0]
自然言語理解(NLU)処理に対するオントロジーに基づくアプローチは、対話システムの品質に対する質問の改善を可能にする。
我々は、NLUエンジンアーキテクチャを説明し、その実装を評価した。
そこで,チャットボットの対話エンジンについて述べる。
論文 参考訳(メタデータ) (2021-11-08T13:49:15Z) - VANiLLa : Verbalized Answers in Natural Language at Large Scale [2.9098477555578333]
このデータセットは、CSQAとSimpleQuestionsWikidataデータセットから適応された100万以上の単純な質問で構成されている。
このデータセットの回答文は、三つの事実よりも構文的に、意味的に質問に近い。
論文 参考訳(メタデータ) (2021-05-24T16:57:54Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z) - The Role of the Input in Natural Language Video Description [60.03448250024277]
自然言語ビデオ記述(NLVD)は最近、コンピュータビジョン、自然言語処理、マルチメディア、自律型ロボティクスのコミュニティに強い関心を集めている。
本研究は, 視覚入力の役割に関する広範な研究を行い, 総合的なNLP性能について評価した。
t-SNEをベースとした解析を行い,検討した変換が全体的視覚データ分布に与える影響を評価する。
論文 参考訳(メタデータ) (2021-02-09T19:00:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。