論文の概要: KITAB: Evaluating LLMs on Constraint Satisfaction for Information
Retrieval
- arxiv url: http://arxiv.org/abs/2310.15511v1
- Date: Tue, 24 Oct 2023 04:40:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 20:28:50.326041
- Title: KITAB: Evaluating LLMs on Constraint Satisfaction for Information
Retrieval
- Title(参考訳): KITAB:情報検索における制約満足度の評価
- Authors: Marah I Abdin, Suriya Gunasekar, Varun Chandrasekaran, Jerry Li, Mert
Yuksekgonul, Rahee Ghosh Peshawaria, Ranjita Naik, Besmira Nushi
- Abstract要約: 本研究では,情報検索のための制約満足度クエリに応答する最先端技術モデルについて検討する。
言語モデルの制約満足度を測定するための新しいデータセットであるKITABを提案する。
- 参考スコア(独自算出の注目度): 23.3454086714842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the ability of state-of-the art models to answer constraint
satisfaction queries for information retrieval (e.g., 'a list of ice cream
shops in San Diego'). In the past, such queries were considered to be tasks
that could only be solved via web-search or knowledge bases. More recently,
large language models (LLMs) have demonstrated initial emergent abilities in
this task. However, many current retrieval benchmarks are either saturated or
do not measure constraint satisfaction. Motivated by rising concerns around
factual incorrectness and hallucinations of LLMs, we present KITAB, a new
dataset for measuring constraint satisfaction abilities of language models.
KITAB consists of book-related data across more than 600 authors and 13,000
queries, and also offers an associated dynamic data collection and constraint
verification approach for acquiring similar test data for other authors. Our
extended experiments on GPT4 and GPT3.5 characterize and decouple common
failure modes across dimensions such as information popularity, constraint
types, and context availability. Results show that in the absence of context,
models exhibit severe limitations as measured by irrelevant information,
factual errors, and incompleteness, many of which exacerbate as information
popularity decreases. While context availability mitigates irrelevant
information, it is not helpful for satisfying constraints, identifying
fundamental barriers to constraint satisfaction. We open source our
contributions to foster further research on improving constraint satisfaction
abilities of future models.
- Abstract(参考訳): 本研究は,情報検索における制約満足度問合せ(例えば「サンディエゴのアイスクリームショップの一覧」)に対する最新技術モデルの回答能力について検討する。
これまでこのようなクエリは,web検索や知識ベースを通じてのみ解決可能なタスクと考えられていた。
最近では、大きな言語モデル (LLM) がこのタスクの初期発生能力を示している。
しかし、現在の検索ベンチマークの多くは飽和しているか、制約満足度を測定していない。
llmの事実的不正確性と幻覚に関する懸念の高まりに動機づけられ,言語モデルの制約満足度を測定するための新しいデータセットであるkitabを提案する。
KITABは600人以上の著者と13,000のクエリにまたがる書籍関連データで構成され、関連する動的データ収集と制約検証アプローチを提供し、他の著者に対して同様のテストデータを取得する。
GPT4 と GPT3.5 に関する拡張実験では,情報人気,制約タイプ,コンテキストアベイラビリティなど,一般的な障害モードを特徴付ける。
その結果,無関係な情報,事実的誤り,不完全性によって測定された厳密な制約が,情報人気が低下するにつれて悪化することが明らかとなった。
コンテキスト可用性は無関係な情報を緩和するが、制約を満たすには役立たず、制約満足度に対する基本的な障壁を特定する。
今後のモデルの制約満足度向上に関するさらなる研究を促進するため、当社のコントリビューションをオープンソースとして公開します。
関連論文リスト
- The Ability of Large Language Models to Evaluate Constraint-satisfaction in Agent Responses to Open-ended Requests [0.6249768559720121]
我々は,新しいArithmetic Constraint-Satisfaction(ACS)ベンチマークデータセットを開発し,リリースする。
このデータセットは、対応する制約を持つ複雑なユーザリクエスト、エージェント応答、応答における各制約の満足度を示すヒューマンラベルで構成されている。
ほとんどのモデルにはまだ改善のための重要なヘッドルームがあることを示し、エラーは主に推論の問題に起因する。
論文 参考訳(メタデータ) (2024-09-22T09:27:42Z) - Real World Conversational Entity Linking Requires More Than Zeroshots [50.5691094768954]
本研究では,資源制約下でのELモデルの有効性を評価するための評価シナリオを設計する。
本稿では、Fandomと新しいゼロショット対話型エンティティリンクデータセットを用いて、ELモデルの未知KBへの一般化能力を評価する。
その結果,既存のゼロショットELモデルでは,事前トレーニングなしで新しいドメイン固有KBを導入するとフェールすることがわかった。
論文 参考訳(メタデータ) (2024-09-02T10:37:53Z) - Uncovering Limitations of Large Language Models in Information Seeking from Tables [28.19697259795014]
本稿では,テーブル情報探索(TabIS)のための信頼性の高いベンチマークを紹介する。
テキスト類似度に基づくメトリクスによる信頼性の低い評価を避けるため、TabISはテキスト生成フォーマットではなく、単一選択の質問フォーマット(質問毎に2つのオプション)を採用する。
論文 参考訳(メタデータ) (2024-06-06T14:30:59Z) - Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Wiki-TabNER:Advancing Table Interpretation Through Named Entity
Recognition [19.423556742293762]
TIタスクの評価に広く用いられているベンチマークデータセットを分析した。
この欠点を克服するため、我々はより困難なデータセットを構築し、注釈付けします。
本稿では,新たに開発された大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:22:07Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models [38.79074982172423]
本稿では,トランスフォーマーを用いた大規模言語モデル (LLM) の内部動作について検討する。
本稿では,制約満足度問題として事実クエリをモデル化することを提案する。
制約トークンに対するLLMの注意と世代毎の事実的正確性との間には,強い正の相関関係が認められた。
論文 参考訳(メタデータ) (2023-09-26T17:48:55Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。