論文の概要: HAGRID: A Human-LLM Collaborative Dataset for Generative
Information-Seeking with Attribution
- arxiv url: http://arxiv.org/abs/2307.16883v1
- Date: Mon, 31 Jul 2023 17:49:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 13:01:55.989762
- Title: HAGRID: A Human-LLM Collaborative Dataset for Generative
Information-Seeking with Attribution
- Title(参考訳): HAGRID:属性による生成情報探索のための人間-LLM協調データセット
- Authors: Ehsan Kamalloo, Aref Jafari, Xinyu Zhang, Nandan Thakur, Jimmy Lin
- Abstract要約: 本稿では,Human-in-the-loop Attributable Generative Retrieval for Information-seeking dataset(Human-in-the-loop Attributable Generative Retrieval for Information-seeking dataset)を提案する。
ブラックボックスプロプライエタリな検索エンジンに焦点を当てた最近の取り組みとは異なり、私たちはMIRACLの英語サブセットの上にデータセットを構築しました。
- 参考スコア(独自算出の注目度): 46.41448772928026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of large language models (LLMs) had a transformative impact on
search, ushering in a new era of search engines that are capable of generating
search results in natural language text, imbued with citations for supporting
sources. Building generative information-seeking models demands openly
accessible datasets, which currently remain lacking. In this paper, we
introduce a new dataset, HAGRID (Human-in-the-loop Attributable Generative
Retrieval for Information-seeking Dataset) for building end-to-end generative
information-seeking models that are capable of retrieving candidate quotes and
generating attributed explanations. Unlike recent efforts that focus on human
evaluation of black-box proprietary search engines, we built our dataset atop
the English subset of MIRACL, a publicly available information retrieval
dataset. HAGRID is constructed based on human and LLM collaboration. We first
automatically collect attributed explanations that follow an in-context
citation style using an LLM, i.e. GPT-3.5. Next, we ask human annotators to
evaluate the LLM explanations based on two criteria: informativeness and
attributability. HAGRID serves as a catalyst for the development of
information-seeking models with better attribution capabilities.
- Abstract(参考訳): 大規模言語モデル(英語版)(llms)の台頭は、自然言語テキストで検索結果を生成できる新しい時代の検索エンジンとして、検索エンジンに革命的な影響を与えた。
生成的な情報参照モデルの構築には、オープンアクセス可能なデータセットが必要である。
本稿では,情報検索用Human-in-the-loop Attributable Generative Retrieval(Human-in-the-loop Attributable Generative Retrieval for Information-seeking Dataset)という新たなデータセットを提案する。
ブラックボックスプロプライエタリな検索エンジンの人間による評価に焦点を当てた最近の取り組みとは異なり、我々はMIRACLの英語サブセットの上にデータセットを構築した。
HAGRIDは人間とLLMの協調に基づいて構築される。
まず,LLM,すなわちGPT-3.5を用いて,文脈内引用スタイルに従う属性付き説明を自動的に収集する。
次に,人間のアノテータに,情報性と帰属性という2つの基準に基づいてLCMの説明を評価するよう依頼する。
HAGRIDは、より良い属性能力を持つ情報探索モデルを開発する触媒となる。
関連論文リスト
- WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search
Results with Citations [36.314460206807745]
我々は,属性付きクエリ中心要約 (AQFS) のタスクを定式化するとともに,7kの人称注釈の要約を引用した中国語データセットであるWebCiteSを提示する。
これらの課題に対処するために、詳細なメトリクスを開発し、自動評価器が文を細かな検証のためにサブステートに分解できるようにする。
論文 参考訳(メタデータ) (2024-03-04T07:06:41Z) - Enhancing Amharic-LLaMA: Integrating Task Specific and Generative
Datasets [2.918085792934617]
タスク固有および生成データセットを統合することでLLaMA-2-Amharicモデルの強化に注力する。
我々はAmharic命令の微調整データセットとLLaMA-2-Amharicモデルをコンパイルする。
微調整されたモデルは、異なるNLPタスクで有望な結果を示す。
論文 参考訳(メタデータ) (2024-02-12T19:25:11Z) - Exploiting Contextual Target Attributes for Target Sentiment
Classification [53.30511968323911]
TSCの既存のPTLMベースモデルは、1)PTLMをコンテキストエンコーダとして採用した微調整ベースモデル、2)テキスト/単語生成タスクに分類タスクを転送するプロンプトベースモデル、の2つのグループに分類される。
我々は,PTLM を TSC に活用する新たな視点として,言語モデリングと文脈的ターゲット属性による明示的ターゲットコンテキスト相互作用の利点を同時に活用する。
論文 参考訳(メタデータ) (2023-12-21T11:45:28Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - DataFinder: Scientific Dataset Recommendation from Natural Language
Descriptions [100.52917027038369]
我々は、短い自然言語記述を与えられたデータセットを推奨するタスクを運用する。
この作業を容易にするために、我々は、より大規模な自動構築トレーニングセットと、より少ない専門家によるアノテート評価セットからなるDataFinderデータセットを構築した。
このシステムは、DataFinderデータセットに基づいてトレーニングされ、既存のサードパーティのデータセット検索エンジンよりも関連性の高い検索結果を見つける。
論文 参考訳(メタデータ) (2023-05-26T05:22:36Z) - Enabling Large Language Models to Generate Text with Citations [37.64884969997378]
大規模言語モデル (LLM) は情報検索のツールとして広く使われている。
我々の目的は、LLMが引用文を生成できるようにし、その事実の正しさと妥当性を向上させることである。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:53:49Z) - QTSumm: Query-Focused Summarization over Tabular Data [58.62152746690958]
人々は主に、データ分析を行うか、特定の質問に答えるためにテーブルをコンサルティングします。
そこで本研究では,テキスト生成モデルに人間的な推論を行なわなければならない,クエリ中心のテーブル要約タスクを新たに定義する。
このタスクには,2,934テーブル上の7,111の人間注釈付きクエリ-サマリーペアを含む,QTSummという新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:43:51Z) - Synergistic Interplay between Search and Large Language Models for
Information Retrieval [141.18083677333848]
InteRにより、RMはLLM生成した知識コレクションを使用してクエリの知識を拡張することができる。
InteRは、最先端手法と比較して総合的に優れたゼロショット検索性能を実現する。
論文 参考訳(メタデータ) (2023-05-12T11:58:15Z) - Can Population-based Engagement Improve Personalisation? A Novel Dataset
and Experiments [21.12546768556595]
VLEは、公開されている科学ビデオ講義から抽出されたコンテンツとビデオベースの特徴からなる、新しいデータセットである。
実験結果から,新たに提案したVLEデータセットがコンテキストに依存しないエンゲージメント予測モデルの構築につながることが示唆された。
構築したモデルとパーソナライズアルゴリズムを組み合わせる実験は、教育推薦者によるコールドスタート問題に対処する上で有望な改善を示す。
論文 参考訳(メタデータ) (2022-06-22T15:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。