論文の概要: UsefulBench: Towards Decision-Useful Information as a Target for Information Retrieval
- arxiv url: http://arxiv.org/abs/2604.15827v2
- Date: Thu, 23 Apr 2026 15:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:05.994578
- Title: UsefulBench: Towards Decision-Useful Information as a Target for Information Retrieval
- Title(参考訳): UsefulBench:情報検索のターゲットとしての意思決定情報を目指して
- Authors: Tobias Schimanski, Stefanie Lewandowski, Christian Woerle, Nicola Reichenau, Yauheni Huryn, Markus Leippold,
- Abstract要約: 古典的類似性に基づく情報検索は,より関連性が高いことを示す。
このデータセットは、テキストがクエリ(関連性)に接続されているか、それに対応する実用的な価値を持っているか(有用性)をラベル付けした3人の専門家によって計算されたものです。
- 参考スコア(独自算出の注目度): 6.822058957408746
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Conventional information retrieval is concerned with identifying the relevance of texts for a given query. Yet, the conventional definition of relevance is dominated by aspects of similarity in texts, leaving unobserved whether the text is truly useful for addressing the query. For instance, when answering whether Paris is larger than Berlin, texts about Paris being in France are relevant (lexical/semantic similarity), but not useful. In this paper, we introduce UsefulBench, a domain-specific dataset curated by three professional analysts labeling whether a text is connected to a query (relevance) or holds practical value in responding to it (usefulness). We show that classic similarity-based information retrieval aligns more strongly with relevance. While LLM-based systems can counteract this bias, we find that domain-specific problems require a high degree of expertise, which current LLMs do not fully incorporate. We explore approaches to (partially) overcome this challenge. However, UsefulBench presents a dataset challenge for targeted information retrieval systems.
- Abstract(参考訳): 従来の情報検索は、あるクエリに対するテキストの関連性を特定することを目的としている。
しかし、従来の関連性の定義は、テキストにおける類似性の側面に支配されており、そのテキストがクエリに対処するのに本当に有用であるかどうかを未確認のまま残している。
例えば、パリがベルリンよりも大きいかどうかを問うと、パリがフランスにあるという文章は関連性がある(語彙的・意味的類似性)が、役に立たない。
本稿では,テキストがクエリ(関連性)に接続されているか,あるいはそれに対応する実用的な価値を持っているかをラベル付けした,3人の専門家によるドメイン固有データセットであるUsefulBenchを紹介する。
古典的類似性に基づく情報検索は,より関連性が高いことを示す。
LLMベースのシステムは、このバイアスに対処できるが、ドメイン固有の問題には高度な専門知識が必要であり、現在のLLMは完全には組み込まれていない。
この課題を克服するためのアプローチを(部分的には)探求します。
しかし、UsefulBenchはターゲット情報検索システムのためのデータセットの課題を提示している。
関連論文リスト
- RAPID: Retrieval-Augmented Parallel Inference Drafting for Text-Based Video Event Retrieval [2.9927319356868436]
テキストベースのビデオイベント検索のための既存の手法は、コンテキスト情報の重要な役割を見越して、オブジェクトレベルの記述に重点を置いている。
本稿では,Large Language Models(LLMs)の進歩と,ユーザクエリのセマンティックな修正にアクティベートベースの学習を活用するRAPIDという新しいシステムを提案する。
我々のシステムは、Ho Chi Minh City AI Challenge 2024に参加することによって、スピードと精度の両面で検証され、300時間以上のビデオからイベントを取り出すことに成功した。
論文 参考訳(メタデータ) (2025-01-27T18:45:07Z) - Knowledge-Aware Query Expansion with Large Language Models for Textual and Relational Retrieval [49.42043077545341]
知識グラフ(KG)から構造化文書関係を付加したLLMを拡張した知識対応クエリ拡張フレームワークを提案する。
文書テキストをリッチなKGノード表現として活用し、KAR(Knowledge-Aware Retrieval)のための文書ベースの関係フィルタリングを利用する。
論文 参考訳(メタデータ) (2024-10-17T17:03:23Z) - Redefining Information Retrieval of Structured Database via Large Language Models [10.117751707641416]
本稿では,ChatLRと呼ばれる新しい検索拡張フレームワークを提案する。
主に、Large Language Models (LLM) の強力な意味理解能力を用いて、正確かつ簡潔な情報検索を実現する。
実験の結果、ChatLRがユーザクエリに対処する効果を示し、全体の情報検索精度は98.8%を超えた。
論文 参考訳(メタデータ) (2024-05-09T02:37:53Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Decomposing Complex Queries for Tip-of-the-tongue Retrieval [72.07449449115167]
複雑なクエリは、コンテンツ要素(例えば、書籍の文字やイベント)、ドキュメントテキスト以外の情報を記述する。
この検索設定は舌の先端 (TOT) と呼ばれ、クエリと文書テキスト間の語彙的および意味的重複に依存するモデルでは特に困難である。
クエリを個別のヒントに分解し、サブクエリとしてルーティングし、特定の検索者にルーティングし、結果をアンサンブルすることで、このような複雑なクエリを扱うための、シンプルで効果的なフレームワークを導入します。
論文 参考訳(メタデータ) (2023-05-24T11:43:40Z) - Open Domain Question Answering over Virtual Documents: A Unified
Approach for Data and Text [62.489652395307914]
我々は、知識集約型アプリケーションのための構造化知識を符号化する手段として、Data-to-text法、すなわち、オープンドメイン質問応答(QA)を用いる。
具体的には、ウィキペディアとウィキソースの3つのテーブルを付加知識源として使用する、データとテキスト上でのオープンドメインQAのための冗長化-レトリバー・リーダー・フレームワークを提案する。
UDT-QA(Unified Data and Text QA)は,知識インデックスの拡大を効果的に活用できることを示す。
論文 参考訳(メタデータ) (2021-10-16T00:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。