Fugu-MT 論文翻訳(概要): Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models

論文の概要: Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models

arxiv url: http://arxiv.org/abs/2212.08037v1
Date: Thu, 15 Dec 2022 18:45:29 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-16 16:41:11.582446
Title: Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models
Title（参考訳）: Atributed Question Answering: Attributed Large Language Modelsの評価とモデリング
Authors: Bernd Bohnet, Vinh Q. Tran, Pat Verga, Roee Aharoni, Daniel Andor, Livio Baldini Soares, Jacob Eisenstein, Kuzman Ganchev, Jonathan Herzig, Kai Hui, Tom Kwiatkowski, Ji Ma, Jianmo Ni, Tal Schuster, William W. Cohen, Michael Collins, Dipanjan Das, Donald Metzler, Slav Petrov, Kellie Webster
Abstract要約: 大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。我々は、LLMが生成するテキストの属性に持つ能力は、この設定においてシステム開発者とユーザの両方にとって不可欠であると信じている。
参考スコア（独自算出の注目度）: 68.37431984231338
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have shown impressive results across a variety of tasks while requiring little or no direct supervision. Further, there is mounting evidence that LLMs may have potential in information-seeking scenarios. We believe the ability of an LLM to attribute the text that it generates is likely to be crucial for both system developers and users in this setting. We propose and study Attributed QA as a key first step in the development of attributed LLMs. We develop a reproducable evaluation framework for the task, using human annotations as a gold standard and a correlated automatic metric that we show is suitable for development settings. We describe and benchmark a broad set of architectures for the task. Our contributions give some concrete answers to two key questions (How to measure attribution?, and How well do current state-of-the-art methods perform on attribution?), and give some hints as to how to address a third key question (How to build LLMs with attribution?).
Abstract（参考訳）: 大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。さらに、LLMが情報検索のシナリオに潜在的な可能性があるという証拠もいくつかある。 LLMが生成するテキストを属性付ける能力は、この設定ではシステム開発者とユーザの両方にとって不可欠であると考えています。我々は、属性付きLLMの開発における第一歩として、Attributed QAを提案し、研究する。我々は、人間のアノテーションをゴールドスタンダードとして使用し、開発環境に適した相関した自動指標を用いて再現可能なタスク評価フレームワークを開発する。我々は、タスクの幅広いアーキテクチャを記述し、ベンチマークする。私たちのコントリビュートでは、2つの重要な質問(アトリビューションの計測方法?,現在の最先端メソッドがアトリビューションでどのように動作するか?)に対する具体的な回答と,第3の重要な質問への対処方法(アトリビューションでllmを構築する方法)に関するヒントを提供しています。

関連論文リスト

LLM-KG-Bench 3.0: A Compass for SemanticTechnology Capabilities in the Ocean of LLMs [0.12564343689544843]
現在のLLM(Large Language Models)は、プログラムコードの開発を、他の多くの側面でも支援できますが、KG(Knowledge Graphs)との連携もサポートできますか? バージョン3.0のLLM-KG-Benchフレームワークは、これらの質問に答えるために設計されている。 LLM回答を自動評価するための一連のタスクで構成されており、セマンティックテクノロジーの様々な側面をカバーしている。
論文参考訳（メタデータ） (2025-05-19T13:29:27Z)
Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文参考訳（メタデータ） (2025-02-21T02:03:08Z)
Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文参考訳（メタデータ） (2024-06-16T12:46:40Z)
RepoQA: Evaluating Long Context Code Understanding [12.329233433333416]
RepoQAは、Large Language Models(LLM)を長文のコード理解で評価するためのベンチマークである。 RepoQAには、5つのモダンプログラミング言語にまたがる50の人気のあるリポジトリから収集された500のコード検索タスクが含まれている。
論文参考訳（メタデータ） (2024-06-10T05:15:30Z)
Peering into the Mind of Language Models: An Approach for Attribution in Contextual Question Answering [9.86691461253151]
大規模言語モデル(LLM)の隠れ状態表現を利用した文脈質問応答における帰属手法を提案する。提案手法は,より詳細な属性を提供し,生成した回答の質を保ちながら,広範囲なモデル再訓練および検索モデルオーバーヘッドの必要性を回避している。本稿では,LLM世代に対するトークンレベルのアノテーションを文脈質問応答設定に有する属性データセットであるVerifiability-granularを提案する。
論文参考訳（メタデータ） (2024-05-28T09:12:44Z)
Harnessing Multi-Role Capabilities of Large Language Models for Open-Domain Question Answering [40.2758450304531]
オープンドメイン質問応答 (ODQA) は情報システムにおいて重要な研究スポットライトとなっている。本稿では,ODQA処理をクエリ拡張,文書選択,回答生成という3つの基本ステップに定式化するフレームワークを提案する。我々は,ロールプレイングプロンプトを洗練するための新しいプロンプト最適化アルゴリズムを導入し,高品質なエビデンスと回答を生成する。
論文参考訳（メタデータ） (2024-03-08T11:09:13Z)
Benchmarking Large Language Models on Controllable Generation under Diversified Instructions [34.89012022437519]
大型言語モデル (LLM) は命令追従能力に優れていた。様々な命令に関係のある明示的な制約にどの程度対応できるかは、いまだに不明である。命令に対するLLMの応答を様々な制約で評価する新しいベンチマークであるCoDI-Evalを提案する。
論文参考訳（メタデータ） (2024-01-01T07:35:31Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)
Learning to Retrieve In-Context Examples for Large Language Models [69.9707552694766]
大規模言語モデル(LLM)は、文脈内で学習する能力を示している。文脈内学習の有効性は、選択した例の品質に大きく依存する。高品質なインコンテキストの例を識別可能な高密度検索を反復的に学習する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2023-07-14T05:23:08Z)
AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文参考訳（メタデータ） (2023-03-29T17:03:21Z)
Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-16T18:23:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。