論文の概要: Are Current Decoding Strategies Capable of Facing the Challenges of
Visual Dialogue?
- arxiv url: http://arxiv.org/abs/2210.12997v1
- Date: Mon, 24 Oct 2022 07:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 13:44:59.528612
- Title: Are Current Decoding Strategies Capable of Facing the Challenges of
Visual Dialogue?
- Title(参考訳): 現在のデコード戦略は視覚対話の課題に直面することができるか?
- Authors: Amit Kumar Chaudhary, Alex J. Lucassen, Ioanna Tsani, Alberto Testoni
- Abstract要約: 我々は,Visual Dialogueの参照ゲームにおいて,異なるデコード戦略を比較した。
いずれも、語彙の豊かさ、タスクの正確さ、視覚的な接点のバランスを取れなかった。
我々の発見と提案は、より効果的な復号アルゴリズムの設計の出発点になるかもしれない。
- 参考スコア(独自算出の注目度): 3.491999371287298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decoding strategies play a crucial role in natural language generation
systems. They are usually designed and evaluated in open-ended text-only tasks,
and it is not clear how different strategies handle the numerous challenges
that goal-oriented multimodal systems face (such as grounding and
informativeness). To answer this question, we compare a wide variety of
different decoding strategies and hyper-parameter configurations in a Visual
Dialogue referential game. Although none of them successfully balance lexical
richness, accuracy in the task, and visual grounding, our in-depth analysis
allows us to highlight the strengths and weaknesses of each decoding strategy.
We believe our findings and suggestions may serve as a starting point for
designing more effective decoding algorithms that handle the challenges of
Visual Dialogue tasks.
- Abstract(参考訳): 自然言語生成システムではデコーディング戦略が重要な役割を果たす。
それらは通常、オープンエンドのテキストのみのタスクで設計され、評価されるが、異なる戦略が目標指向のマルチモーダルシステムが直面する多くの課題(グルーディングやインフォメーションネスなど)をどのように扱うかは明確ではない。
この質問に答えるために,視覚対話参照ゲームにおいて,様々なデコーディング戦略とハイパーパラメータ構成を比較した。
いずれも、語彙的豊かさ、タスクの正確さ、視覚的根拠のバランスをとることはありませんでしたが、詳細な分析により、各デコード戦略の長所と短所を強調します。
われわれの発見と提案は、視覚対話タスクの課題を扱うより効率的な復号アルゴリズムの設計の出発点となるかもしれない。
関連論文リスト
- Visual AI and Linguistic Intelligence Through Steerability and
Composability [0.0]
本研究では,言語と視覚を統合した多段階課題に対処する上で,LLM(Multimodal large language model)の機能について検討する。
この研究は、AI Lego DesigningからAI Satellite Image Analysisまで、創造的で建設的に多様な14のタスクを提示する。
論文 参考訳(メタデータ) (2023-11-18T22:01:33Z) - Multi-level Contrastive Learning for Script-based Character
Understanding [14.341307979533871]
文字の個人性やアイデンティティを発話から学習することを目的としたスクリプトにおける文字理解のシナリオに取り組む。
キャラクタのグローバル情報をきめ細かな方法でキャプチャするマルチレベルコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T02:40:52Z) - Uncovering Hidden Connections: Iterative Search and Reasoning for Video-grounded Dialog [83.63849872250651]
ビデオグラウンドダイアログは、正確な応答生成のために、ダイアログ履歴とビデオコンテンツの両方を深く理解する必要がある。
本稿では,テキストエンコーダ,ビジュアルエンコーダ,ジェネレータで構成される反復探索・推論フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T07:37:13Z) - Language Model Decoding as Likelihood-Utility Alignment [54.70547032876017]
モデルの有効性がタスク固有の実用性の概念とどのように一致しているかについて、暗黙の仮定に基づいて、デコード戦略をグループ化する分類法を導入する。
具体的には、様々なタスクの集合における予測の可能性と有用性の相関を解析することにより、提案された分類を裏付ける最初の実証的証拠を提供する。
論文 参考訳(メタデータ) (2022-10-13T17:55:51Z) - Improving Multi-turn Emotional Support Dialogue Generation with
Lookahead Strategy Planning [81.79431311952656]
感情支援のための新しいシステムMultiESCを提案する。
戦略プランニングでは,特定の戦略を使用した後のユーザフィードバックを見積もるルックアヘッドを提案する。
ユーザ状態モデリングにおいて、MultiESCはユーザーの微妙な感情表現を捉え、感情の原因を理解することに重点を置いている。
論文 参考訳(メタデータ) (2022-10-09T12:23:47Z) - Deep Learning for Visual Speech Analysis: A Survey [54.53032361204449]
本稿では,視覚音声分析におけるディープラーニング手法の最近の進歩を概観する。
私たちは、基本的な問題、課題、ベンチマークデータセット、既存のメソッドの分類、最先端のパフォーマンスなど、視覚音声のさまざまな側面をカバーしています。
論文 参考訳(メタデータ) (2022-05-22T14:44:53Z) - On Decoding Strategies for Neural Text Generators [73.48162198041884]
言語生成タスクと復号化戦略の相互作用について検討する。
生成したテキストの属性の変化をデコード戦略とタスクの両方の関数として測定する。
以上の結果から,これまで観察された結果と意外な結果の両方が明らかとなった。
論文 参考訳(メタデータ) (2022-03-29T16:25:30Z) - Looking for Confirmations: An Effective and Human-Like Visual Dialogue
Strategy [6.02280861819024]
State-Of-The-Artシステムは文法的に正しいが、効果的な戦略が欠如しており、人間には不自然に聞こえるという疑問を生じさせる。
我々は,効率的な目標指向戦略を導出するビームサーチリグレードアルゴリズムに基づくモデルであるConfirm-itを設計する。
本研究では,確認イットによって生成された対話は,ビーム探索復号化よりも自然かつ効果的であることを示す。
論文 参考訳(メタデータ) (2021-09-11T16:28:58Z) - From Show to Tell: A Survey on Image Captioning [48.98681267347662]
視覚と言語を結びつけることは、ジェネレーティブ・インテリジェンスにおいて重要な役割を担っている。
画像キャプションの研究はまだ結論に達していない。
本研究の目的は,画像キャプション手法の包括的概要と分類を提供することである。
論文 参考訳(メタデータ) (2021-07-14T18:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。