論文の概要: Unified Questioner Transformer for Descriptive Question Generation in
Goal-Oriented Visual Dialogue
- arxiv url: http://arxiv.org/abs/2106.15550v1
- Date: Tue, 29 Jun 2021 16:36:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-30 15:24:00.847094
- Title: Unified Questioner Transformer for Descriptive Question Generation in
Goal-Oriented Visual Dialogue
- Title(参考訳): ゴール指向視覚対話における記述的質問生成のための統一質問変換器
- Authors: Shoya Matsumori, Kosuke Shingyouchi, Yuki Abe, Yosuke Fukuchi, Komei
Sugiura, and Michita Imai
- Abstract要約: 現実世界について質問できる対話型人工知能の構築は、ビジョンと言語問題における最大の課題の1つだ。
我々はUnified Questioner Transformer (UniQer) と呼ばれる新しい問合せアーキテクチャを提案する。
我々は、CLEVR Askと呼ばれる目標指向の視覚対話タスクを構築し、質問者に対して説明的質問を生成する複雑なシーンを合成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building an interactive artificial intelligence that can ask questions about
the real world is one of the biggest challenges for vision and language
problems. In particular, goal-oriented visual dialogue, where the aim of the
agent is to seek information by asking questions during a turn-taking dialogue,
has been gaining scholarly attention recently. While several existing models
based on the GuessWhat?! dataset have been proposed, the Questioner typically
asks simple category-based questions or absolute spatial questions. This might
be problematic for complex scenes where the objects share attributes or in
cases where descriptive questions are required to distinguish objects. In this
paper, we propose a novel Questioner architecture, called Unified Questioner
Transformer (UniQer), for descriptive question generation with referring
expressions. In addition, we build a goal-oriented visual dialogue task called
CLEVR Ask. It synthesizes complex scenes that require the Questioner to
generate descriptive questions. We train our model with two variants of CLEVR
Ask datasets. The results of the quantitative and qualitative evaluations show
that UniQer outperforms the baseline.
- Abstract(参考訳): 現実世界について質問できる対話型人工知能の構築は、ビジョンと言語問題における最大の課題の1つだ。
特に,ターンテイク対話中に質問して情報を求めるエージェントが目指す目標指向の視覚対話は,近年,学術的に注目を集めている。
既存のモデルが いくつかあるのに
データセットが提案され、質問者は一般的に単純なカテゴリベースの質問や絶対的な空間的な質問を尋ねる。
これは、オブジェクトが属性を共有する複雑なシーンや、オブジェクトを区別するために記述的な質問が必要な場合に問題となる。
本稿では,参照表現を用いた記述的質問生成のためのunified questioner transformer (uniqer) という新しい質問者アーキテクチャを提案する。
さらに,CLEVR Askと呼ばれる目標指向の視覚対話タスクを構築した。
質問者が記述的な質問を生成する必要がある複雑な場面を合成する。
私たちは、CLEVR Askデータセットの2つのバリエーションでモデルをトレーニングします。
定量的および定性的な評価の結果は、UniQerがベースラインを上回っていることを示している。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - CommVQA: Situating Visual Question Answering in Communicative Contexts [16.180130883242672]
画像、画像記述、実世界のコミュニケーションシナリオからなるデータセットであるCommVQAを紹介する。
CommVQAの解決には文脈情報へのアクセスが不可欠であることを示す。
論文 参考訳(メタデータ) (2024-02-22T22:31:39Z) - Qsnail: A Questionnaire Dataset for Sequential Question Generation [76.616068047362]
質問紙作成作業に特化して構築された最初のデータセットについて述べる。
我々はQsnailの実験を行い、その結果、検索モデルと従来の生成モデルが与えられた研究トピックや意図と完全に一致していないことが明らかとなった。
チェーン・オブ・シークレット・プロンプトと微調整による改善にもかかわらず、言語モデルによるアンケートは、人間の手書きのアンケートには及ばない。
論文 参考訳(メタデータ) (2024-02-22T04:14:10Z) - Keeping the Questions Conversational: Using Structured Representations
to Resolve Dependency in Conversational Question Answering [26.997542897342164]
本稿では,中間表現を会話の手がかりとして捉え,生成するための新しいフレームワークCONVSR(CONVQA using Structured Representations)を提案する。
我々はQuACとCANARDのデータセット上でモデルをテストし、提案するフレームワークが標準的な質問書き直しモデルよりも優れたF1スコアを達成できることを実験結果により示す。
論文 参考訳(メタデータ) (2023-04-14T13:42:32Z) - Equivariant and Invariant Grounding for Video Question Answering [68.33688981540998]
ほとんどの主要なVideoQAモデルはブラックボックスとして機能し、応答プロセスの背後にある視覚言語的なアライメントを曖昧にする。
解釈可能なビデオQA(EIGV)のための自己解釈可能なフレームワーク、同変および不変グラウンドを考案する。
EIGVは、因果場面と環境情報を区別し、視覚言語的アライメントを明確に提示することができる。
論文 参考訳(メタデータ) (2022-07-26T10:01:02Z) - Video Dialog as Conversation about Objects Living in Space-Time [35.54055886856042]
我々はCOSTと呼ばれるニューラル推論をサポートするビデオダイアログのための新しいオブジェクト中心フレームワークを提案する。
COSTは、新しい質問を受けたときに更新されるオブジェクト関連ダイアログの状態を管理し、追跡する。
DSTC7 と DSTC8 のベンチマークで COST を評価し,最先端技術に対する競合性を実証した。
論文 参考訳(メタデータ) (2022-07-08T02:34:38Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - Evaluating Mixed-initiative Conversational Search Systems via User
Simulation [9.066817876491053]
このような検索システムの自動評価のための対話型ユーザシミュレータUSiを提案する。
Ui が生成した応答は,その基盤となる情報要求と同等であり,人間による回答に匹敵するものであることを示す。
論文 参考訳(メタデータ) (2022-04-17T16:27:33Z) - MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media
Knowledge Extraction and Grounding [131.8797942031366]
我々は、画像中のオブジェクトをテキストにクロスメディアグラウンドする必要があるニュース記事について、1,384の質問を含む新しいQA評価ベンチマークを示す。
具体的には、画像キャプチャーペアの推論を必要とするマルチホップ質問によって、参照されている接地された視覚オブジェクトを特定し、その質問に答えるためにニュースボディテキストからスパンを予測する。
本稿では, マルチメディアデータ拡張フレームワークを提案する。これは, クロスメディア知識抽出と合成質問応答生成に基づいて, このタスクの弱い監視を提供するデータを自動的に強化するものである。
論文 参考訳(メタデータ) (2021-12-20T18:23:30Z) - Inquisitive Question Generation for High Level Text Comprehension [60.21497846332531]
InQUISITIVEは、文書を読みながら19K質問を抽出するデータセットである。
我々は,読者が情報を求めるための実践的な戦略に携わることを示す。
我々は, GPT-2に基づく質問生成モデルを評価し, 妥当な質問を生成することができることを示す。
論文 参考訳(メタデータ) (2020-10-04T19:03:39Z) - ConvAI3: Generating Clarifying Questions for Open-Domain Dialogue
Systems (ClariQ) [64.60303062063663]
本論文では,対話システムに対する質問の明確化に関する課題について詳述する(ClariQ)。
このチャレンジは、2020年のSearch Oriented Conversational AI (SCAI) EMNLPワークショップで、ConvAI3(Conversational AI Challenge series)の一部として組織されている。
論文 参考訳(メタデータ) (2020-09-23T19:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。