論文の概要: KITAB: Evaluating LLMs on Constraint Satisfaction for Information
Retrieval
- arxiv url: http://arxiv.org/abs/2310.15511v1
- Date: Tue, 24 Oct 2023 04:40:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 20:28:50.326041
- Title: KITAB: Evaluating LLMs on Constraint Satisfaction for Information
Retrieval
- Title(参考訳): KITAB:情報検索における制約満足度の評価
- Authors: Marah I Abdin, Suriya Gunasekar, Varun Chandrasekaran, Jerry Li, Mert
Yuksekgonul, Rahee Ghosh Peshawaria, Ranjita Naik, Besmira Nushi
- Abstract要約: 本研究では,情報検索のための制約満足度クエリに応答する最先端技術モデルについて検討する。
言語モデルの制約満足度を測定するための新しいデータセットであるKITABを提案する。
- 参考スコア(独自算出の注目度): 23.3454086714842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the ability of state-of-the art models to answer constraint
satisfaction queries for information retrieval (e.g., 'a list of ice cream
shops in San Diego'). In the past, such queries were considered to be tasks
that could only be solved via web-search or knowledge bases. More recently,
large language models (LLMs) have demonstrated initial emergent abilities in
this task. However, many current retrieval benchmarks are either saturated or
do not measure constraint satisfaction. Motivated by rising concerns around
factual incorrectness and hallucinations of LLMs, we present KITAB, a new
dataset for measuring constraint satisfaction abilities of language models.
KITAB consists of book-related data across more than 600 authors and 13,000
queries, and also offers an associated dynamic data collection and constraint
verification approach for acquiring similar test data for other authors. Our
extended experiments on GPT4 and GPT3.5 characterize and decouple common
failure modes across dimensions such as information popularity, constraint
types, and context availability. Results show that in the absence of context,
models exhibit severe limitations as measured by irrelevant information,
factual errors, and incompleteness, many of which exacerbate as information
popularity decreases. While context availability mitigates irrelevant
information, it is not helpful for satisfying constraints, identifying
fundamental barriers to constraint satisfaction. We open source our
contributions to foster further research on improving constraint satisfaction
abilities of future models.
- Abstract(参考訳): 本研究は,情報検索における制約満足度問合せ(例えば「サンディエゴのアイスクリームショップの一覧」)に対する最新技術モデルの回答能力について検討する。
これまでこのようなクエリは,web検索や知識ベースを通じてのみ解決可能なタスクと考えられていた。
最近では、大きな言語モデル (LLM) がこのタスクの初期発生能力を示している。
しかし、現在の検索ベンチマークの多くは飽和しているか、制約満足度を測定していない。
llmの事実的不正確性と幻覚に関する懸念の高まりに動機づけられ,言語モデルの制約満足度を測定するための新しいデータセットであるkitabを提案する。
KITABは600人以上の著者と13,000のクエリにまたがる書籍関連データで構成され、関連する動的データ収集と制約検証アプローチを提供し、他の著者に対して同様のテストデータを取得する。
GPT4 と GPT3.5 に関する拡張実験では,情報人気,制約タイプ,コンテキストアベイラビリティなど,一般的な障害モードを特徴付ける。
その結果,無関係な情報,事実的誤り,不完全性によって測定された厳密な制約が,情報人気が低下するにつれて悪化することが明らかとなった。
コンテキスト可用性は無関係な情報を緩和するが、制約を満たすには役立たず、制約満足度に対する基本的な障壁を特定する。
今後のモデルの制約満足度向上に関するさらなる研究を促進するため、当社のコントリビューションをオープンソースとして公開します。
関連論文リスト
- Optimizing Language Model's Reasoning Abilities with Weak Supervision [48.60598455782159]
弱い教師付きベンチマークであるtextscPuzzleBen について,25,147 の複雑な質問,回答,人為的合理性からなる。
データセットのユニークな側面は、10,000の未注釈の質問を含めることであり、LLMの推論能力を高めるために、より少ないスーパーサイズのデータを活用することができる。
論文 参考訳(メタデータ) (2024-05-07T07:39:15Z) - TIGQA:An Expert Annotated Question Answering Dataset in Tigrinya [23.9450659334194]
本研究では、まず、機械翻訳(MT)を用いて既存のデータセットをSQuAD形式でTigrinyaデータセットに変換する可能性について検討する。
TIGQAは、気候、水、交通など122の多様なトピックをカバーする2.68Kの質問応答ペアからなる、注釈付き教育データセットである。
論文 参考訳(メタデータ) (2024-04-26T07:07:43Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Wiki-TabNER:Advancing Table Interpretation Through Named Entity
Recognition [19.423556742293762]
TIタスクの評価に広く用いられているベンチマークデータセットを分析した。
この欠点を克服するため、我々はより困難なデータセットを構築し、注釈付けします。
本稿では,新たに開発された大規模言語モデルを評価するためのプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T15:22:07Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Attention Satisfies: A Constraint-Satisfaction Lens on Factual Errors of Language Models [38.79074982172423]
本稿では,トランスフォーマーを用いた大規模言語モデル (LLM) の内部動作について検討する。
本稿では,制約満足度問題として事実クエリをモデル化することを提案する。
制約トークンに対するLLMの注意と世代毎の事実的正確性との間には,強い正の相関関係が認められた。
論文 参考訳(メタデータ) (2023-09-26T17:48:55Z) - PRiSM: Enhancing Low-Resource Document-Level Relation Extraction with
Relation-Aware Score Calibration [44.074482478955126]
ドキュメントレベルの関係抽出(DocRE)は、ドキュメント内のすべてのエンティティペアの関係を抽出することを目的としている。
DocREの主な課題は、人間の集中的な努力を必要とするデータに注釈をつけるコストである。
本稿では,関係意味情報に基づくロジット適応学習を行うPRiSMを提案する。
論文 参考訳(メタデータ) (2023-09-25T04:42:39Z) - GLUECons: A Generic Benchmark for Learning Under Constraints [102.78051169725455]
本研究では,自然言語処理とコンピュータビジョンの分野における9つのタスクの集合であるベンチマークを作成する。
外部知識を制約としてモデル化し、各タスクの制約のソースを特定し、これらの制約を使用するさまざまなモデルを実装します。
論文 参考訳(メタデータ) (2023-02-16T16:45:36Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。