論文の概要: NoisyEQA: Benchmarking Embodied Question Answering Against Noisy Queries
- arxiv url: http://arxiv.org/abs/2412.10726v1
- Date: Sat, 14 Dec 2024 07:52:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:37.425190
- Title: NoisyEQA: Benchmarking Embodied Question Answering Against Noisy Queries
- Title(参考訳): NoisyEQA: 騒々しいクエリに対する身体的質問の回答のベンチマーク
- Authors: Tao Wu, Chuhao Zhou, Yen Heng Wong, Lin Gu, Jianfei Yang,
- Abstract要約: 本研究では,ノイズの多い質問を認識・修正するエージェントの能力を評価するために,ノイズEQAベンチマークを導入する。
このベンチマークでは、現実のアプリケーションで見られる4つの一般的なノイズ(潜在幻覚ノイズ、メモリノイズ、知覚ノイズ、セマンティックノイズ)を紹介します。
また,ノイズ検出能力と応答品質の両方を向上・測定する「自己補正」機構と,新たな評価指標を提案する。
- 参考スコア(独自算出の注目度): 16.283468528293568
- License:
- Abstract: The rapid advancement of Vision-Language Models (VLMs) has significantly advanced the development of Embodied Question Answering (EQA), enhancing agents' abilities in language understanding and reasoning within complex and realistic scenarios. However, EQA in real-world scenarios remains challenging, as human-posed questions often contain noise that can interfere with an agent's exploration and response, bringing challenges especially for language beginners and non-expert users. To address this, we introduce a NoisyEQA benchmark designed to evaluate an agent's ability to recognize and correct noisy questions. This benchmark introduces four common types of noise found in real-world applications: Latent Hallucination Noise, Memory Noise, Perception Noise, and Semantic Noise generated through an automated dataset creation framework. Additionally, we also propose a 'Self-Correction' prompting mechanism and a new evaluation metric to enhance and measure both noise detection capability and answer quality. Our comprehensive evaluation reveals that current EQA agents often struggle to detect noise in questions, leading to responses that frequently contain erroneous information. Through our Self-Correct Prompting mechanism, we can effectively improve the accuracy of agent answers.
- Abstract(参考訳): VLM(Vision-Language Models)の急速な進歩は、複雑で現実的なシナリオにおける言語理解と推論におけるエージェントの能力を高めるために、EQA(Embodied Question Answering)の開発を著しく前進させてきた。
しかしながら、現実世界のシナリオにおけるEQAは、エージェントの探索と応答に干渉しうるノイズを含むことが多いため、特に言語初心者や非専門家のユーザーにとって、依然として困難である。
これを解決するために,エージェントがノイズの多い質問を認識し,修正する能力を評価するために,ノイズEQAベンチマークを導入する。
このベンチマークでは、現実のアプリケーションで見られる4つの一般的なノイズを紹介している。潜在幻覚ノイズ、メモリノイズ、知覚ノイズ、自動データセット生成フレームワークを通じて生成されるセマンティックノイズだ。
また、ノイズ検出能力と応答品質の両方を向上・測定する「自己補正」促進機構と、新しい評価指標を提案する。
我々の総合的な評価の結果、現在のEQAエージェントは、しばしば質問のノイズを検出するのに苦労し、しばしば誤った情報を含む応答をもたらすことが判明した。
自己補正プロンプティング機構により,エージェント回答の精度を効果的に向上させることができる。
関連論文リスト
- EfficientEQA: An Efficient Approach for Open Vocabulary Embodied Question Answering [21.114403949257934]
EQA(Embodied Question Answering)は、ロボットホームアシスタントにとって不可欠な課題である。
近年の研究では、大規模視覚言語モデル(VLM)がEQAに有効に活用できることが示されているが、既存の研究はビデオベースの質問応答に焦点を当てているか、クローズドフォームの選択セットに依存している。
オープン語彙EQAのためのEfficientEQAと呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-26T19:48:47Z) - Enhancing Noise Robustness of Retrieval-Augmented Language Models with Adaptive Adversarial Training [39.21885486667879]
大型言語モデル(LLM)は、幻覚、時代遅れの知識、追跡不能な推論プロセスなどの課題に遭遇する重大な能力を示す。
Retrieval-augmented Generation(RAG)は、これらの課題を軽減するために、外部データベースからの知識を統合する、有望なソリューションとして登場した。
本稿では,RAAT(Retrieval-augmented Adaptive Adrial Training)として知られる新しいRAGアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-31T16:24:53Z) - Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity [55.399230250413986]
上流タスクから有害なセマンティックノイズを除去するためのQFM-IQM(Quality-Aware Feature Matching IQA Metric)を提案する。
提案手法は,8つの標準IQAデータセット上での最先端NR-IQA法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-11T06:50:27Z) - QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for
Zero-Shot Commonsense Question Answering [48.25449258017601]
State-of-the-artはCommonSense Knowledge Basesから構築されたQAペア上での微調整言語モデルにアプローチする。
本稿では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:27:34Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - Improving Visual Question Answering Models through Robustness Analysis
and In-Context Learning with a Chain of Basic Questions [70.70725223310401]
本研究は,VQAモデルのロバスト性を評価するために,基本質問と呼ばれる意味的関連質問を利用する新しい手法を提案する。
実験により,提案手法はVQAモデルのロバスト性を効果的に解析することを示した。
論文 参考訳(メタデータ) (2023-04-06T15:32:35Z) - On the Impact of Speech Recognition Errors in Passage Retrieval for
Spoken Question Answering [13.013751306590303]
合成ASR雑音に対する語彙・高密度レトリバーのロバスト性について検討した。
我々は,人間の声による質問を含む新しいデータセットを作成し,その書き起こしを用いて,合成ASRノイズの代わりに自然なASRノイズを扱う場合に,検索性能がさらに劣化することを示す。
論文 参考訳(メタデータ) (2022-09-26T18:29:36Z) - NoiseQA: Challenge Set Evaluation for User-Centric Question Answering [68.67783808426292]
応答エンジンに先立つパイプライン内のコンポーネントが,多種多様なエラーの原因を発生させることができることを示す。
我々は、QAシステムが効果的にデプロイされる前に、進歩の余地がかなりあると結論付けている。
論文 参考訳(メタデータ) (2021-02-16T18:35:29Z) - Contextualized Attention-based Knowledge Transfer for Spoken
Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。
本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。
Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-21T15:17:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。