論文の概要: Browsing Lost Unformed Recollections: A Benchmark for Tip-of-the-Tongue Search and Reasoning
- arxiv url: http://arxiv.org/abs/2503.19193v1
- Date: Mon, 24 Mar 2025 22:46:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:52:37.153164
- Title: Browsing Lost Unformed Recollections: A Benchmark for Tip-of-the-Tongue Search and Reasoning
- Title(参考訳): ゆるやかな無形リフレクション:Top-of-the-Tongue SearchとReasoningのベンチマーク
- Authors: Sky CH-Wang, Darshan Deshpande, Smaranda Muresan, Anand Kannappan, Rebecca Qian,
- Abstract要約: Browsing Lost Unformed Recollectionsは、一般的なAIアシスタントのベンチマークである。
350の質問を公開のリーダーボードを通じてリリースし、回答を250に維持し、残りの質問をプライベートテストセットとして保持します。
人間はこれらの質問を容易に受け取り(平均98%)、最高のパフォーマンスのシステムは56%だ。
- 参考スコア(独自算出の注目度): 15.59077639080307
- License:
- Abstract: We introduce Browsing Lost Unformed Recollections, a tip-of-the-tongue known-item search and reasoning benchmark for general AI assistants. BLUR introduces a set of 573 real-world validated questions that demand searching and reasoning across multi-modal and multilingual inputs, as well as proficient tool use, in order to excel on. Humans easily ace these questions (scoring on average 98%), while the best-performing system scores around 56%. To facilitate progress toward addressing this challenging and aspirational use case for general AI assistants, we release 350 questions through a public leaderboard, retain the answers to 250 of them, and have the rest as a private test set.
- Abstract(参考訳): Browsing Lost Unformed Recollectionsは、一般的なAIアシスタントのための、知名度の高い検索と推論のベンチマークである。
BLURは、マルチモーダル入力と多言語入力をまたいだ検索と推論を要求する573の現実世界の検証された質問と、熟練したツールの使用を紹介する。
人間はこれらの質問を容易に受け取り(平均98%)、最高のパフォーマンスのシステムは56%だ。
一般AIアシスタントのこの挑戦的で願望的なユースケースへの対処を容易にするために、公開リーダボードを通じて350の質問を公開し、回答を250に保持し、残りをプライベートテストセットとして保持します。
関連論文リスト
- WikiHint: A Human-Annotated Dataset for Hint Ranking and Generation [15.144785147549713]
最初に手動で構築したヒントデータセットWikiHintを紹介した。
次に,LLaMA-3.1 などのオープンソース LLM を微調整し,応答認識や応答に依存しない文脈でのヒント生成を行う。
我々は,ヒントの助けを借りずに質問に答える人間の被験者に対して,ヒントの有効性を評価する。
論文 参考訳(メタデータ) (2024-12-02T15:44:19Z) - ScopeQA: A Framework for Generating Out-of-Scope Questions for RAG [52.33835101586687]
会話AIエージェントはRetrieval Augmented Generation(RAG)を使用して、ユーザからの問い合わせに対して検証可能なドキュメント地上応答を提供する。
本稿では,多様な境界線外質問を効率よく生成する,ガイド付き幻覚に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Localizing and Mitigating Errors in Long-form Question Answering [79.63372684264921]
LFQA(Long-form Question answering)は、複雑な質問に対して徹底的で深い回答を提供し、理解を深めることを目的としている。
この研究は、人書きおよびモデル生成LFQA回答の局所的エラーアノテーションを備えた最初の幻覚データセットであるHaluQuestQAを紹介する。
論文 参考訳(メタデータ) (2024-07-16T17:23:16Z) - CLARINET: Augmenting Language Models to Ask Clarification Questions for Retrieval [52.134133938779776]
CLARINETは,回答が正しい候補の確実性を最大化する質問を選択することで,情報的明確化を問うシステムである。
提案手法は,大規模言語モデル(LLM)を検索分布の条件付きで拡張し,各ターンで真の候補のランクを最大化する問題を生成する。
論文 参考訳(メタデータ) (2024-04-28T18:21:31Z) - STaR-GATE: Teaching Language Models to Ask Clarifying Questions [32.71841885198304]
有用な質問を生成するために,言語モデルの自己改善能力について検討する。
25,500のユニークなペルソナ・タスク・プロンプトの合成データセットを生成する。
より良い質問をするために言語モデルを教えることは、よりパーソナライズされた回答につながる。
論文 参考訳(メタデータ) (2024-03-28T05:35:22Z) - TriviaHG: A Dataset for Automatic Hint Generation from Factoid Questions [20.510164413931577]
ファクトイド問題に対するヒント自動生成のためのフレームワークを提案する。
我々はTriviaQAデータセットから16,645の質問に対応する160,230のヒントを含む新しい大規模データセットを構築した。
提案手法とTriviaHGデータセットを評価するために,提案したヒントを用いて10名の個人に2,791のヒントを注釈付け,6名の人間に回答を指示した。
論文 参考訳(メタデータ) (2024-03-27T10:27:28Z) - Asking Multimodal Clarifying Questions in Mixed-Initiative
Conversational Search [89.1772985740272]
混合開始型会話検索システムでは、質問を明確にすることで、意図を単一のクエリで表現するのに苦労するユーザを支援する。
マルチモーダル情報が関係するシナリオでは、非テクスチャ情報を用いることで、明確化のプロセスを改善することができると仮定する。
質問を明確にする4k以上のマルチモーダルを含むMelonというデータセットを収集し、14k以上の画像で濃縮する。
クエリの明確化フェーズにおけるマルチモーダルコンテンツの重要性を理解するために,いくつかの解析を行った。
論文 参考訳(メタデータ) (2024-02-12T16:04:01Z) - GAIA: a benchmark for General AI Assistants [31.717241753626926]
一般AIアシスタントのベンチマークであるGAIAを紹介します。
GAIAは、推論、マルチモーダリティハンドリング、Webブラウジング、一般的なツール使用の習熟度といった基本的な能力を必要とする現実世界の質問を提案する。
プラグインを装着した GPT-4 では, GPT-4 が 92% 対 15% の回答を得た。
論文 参考訳(メタデータ) (2023-11-21T20:34:47Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z) - WebCPM: Interactive Web Search for Chinese Long-form Question Answering [104.676752359777]
LFQA(Long-form Question answering)は、複雑でオープンな質問に、段落長の詳細な回答で答えることを目的としている。
中国初のLFQAデータセットであるWebCPMを紹介する。
高品質な質問応答対5,500件,支援事実14,315件,Web検索121,330件を収集した。
論文 参考訳(メタデータ) (2023-05-11T14:47:29Z) - ProtoQA: A Question Answering Dataset for Prototypical Common-Sense
Reasoning [35.6375880208001]
本稿では,人工知能システムの常識推論能力をトレーニングし,評価するための新しい質問応答データセットを提案する。
トレーニングセットは、長期にわたる国際ゲームショーFAMILY-FEUDでプレイされている既存の質問セットから収集される。
また,モデルがランク付けされた回答リストを出力しなければならない生成的評価タスクを提案する。
論文 参考訳(メタデータ) (2020-05-02T09:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。