論文の概要: QUILL: Quotation Generation Enhancement of Large Language Models
- arxiv url: http://arxiv.org/abs/2411.03675v1
- Date: Wed, 06 Nov 2024 05:24:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-07 19:24:43.378182
- Title: QUILL: Quotation Generation Enhancement of Large Language Models
- Title(参考訳): QUILL:大規模言語モデルのクエリ生成向上
- Authors: Jin Xiao, Bowei Zhang, Qianyu He, Jiaqing Liang, Feng Wei, Jinglei Chen, Zujie Liang, Deqing Yang, Yanghua Xiao,
- Abstract要約: 大規模言語モデル(LLM)は優れた筆記アシスタントとなったが、引用生成に苦戦している。
これは、事実的な引用を提供するときに幻覚を与えるか、人間の期待を超える引用を与えるのに失敗するためである。
まず,引用生成タスクの総合的かつ自動評価システムを構築し,それぞれが対応する自動測定値を持つ5つの基準から構成される。
次に、スコープが広く次元が豊富なバイリンガル知識ベースを構築し、最大32,022個の引用を含む。
- 参考スコア(独自算出の注目度): 45.385109352200196
- License:
- Abstract: While Large language models (LLMs) have become excellent writing assistants, they still struggle with quotation generation. This is because they either hallucinate when providing factual quotations or fail to provide quotes that exceed human expectations. To bridge the gap, we systematically study how to evaluate and improve LLMs' performance in quotation generation tasks. We first establish a holistic and automatic evaluation system for quotation generation task, which consists of five criteria each with corresponding automatic metric. To improve the LLMs' quotation generation abilities, we construct a bilingual knowledge base that is broad in scope and rich in dimensions, containing up to 32,022 quotes. Moreover, guided by our critiria, we further design a quotation-specific metric to rerank the retrieved quotations from the knowledge base. Extensive experiments show that our metrics strongly correlate with human preferences. Existing LLMs struggle to generate desired quotes, but our quotation knowledge base and reranking metric help narrow this gap. Our dataset and code are publicly available at https://github.com/GraceXiaoo/QUILL.
- Abstract(参考訳): 大規模言語モデル(LLM)は優れた筆記アシスタントとなっているが、引用生成に苦戦している。
これは、事実的な引用を提供するときに幻覚を与えるか、人間の期待を超える引用を与えるのに失敗するためである。
このギャップを埋めるために、引用生成タスクにおけるLCMの性能評価と改善方法を体系的に研究する。
まず,引用生成タスクの総合的かつ自動評価システムを構築し,それぞれが対応する自動測定値を持つ5つの基準から構成される。
LLMの引用生成能力を改善するため、最大32,022個の引用を含む、スコープが広く次元が豊富なバイリンガル知識ベースを構築した。
さらに, 知識ベースから抽出した引用を再現するために, 引用特化計量を設計する。
大規模な実験は、我々の測定値が人間の好みと強く相関していることを示している。
既存のLLMは、望ましい引用を生成するのに苦労していますが、引用知識ベースとメトリクスの再ランクは、このギャップを狭めるのに役立ちます。
私たちのデータセットとコードはhttps://github.com/GraceXiaoo/QUILL.comで公開されています。
関連論文リスト
- What do Large Language Models Need for Machine Translation Evaluation? [12.42394213466485]
大規模言語モデル(LLM)は、微調整された多言語事前訓練言語モデルに匹敵する結果が得られる。
本稿では,LLMの機械翻訳品質を評価するために,ソース,参照,翻訳エラー,ガイドラインなどの翻訳情報が必要であるかを検討する。
論文 参考訳(メタデータ) (2024-10-04T09:50:45Z) - Generating bilingual example sentences with large language models as lexicography assistants [2.6550899846546527]
本稿では,資源レベルの異なる言語におけるバイリンガル辞書の例文の生成と評価におけるLLMの性能について検討する。
GDEX(Good Dictionary Example)基準に対するLCM生成例の品質評価を行った。
論文 参考訳(メタデータ) (2024-10-04T06:45:48Z) - Ground Every Sentence: Improving Retrieval-Augmented LLMs with Interleaved Reference-Claim Generation [51.8188846284153]
RAGは大規模言語モデル(LLM)を強化するために広く採用されている。
分散テキスト生成(ATG)が注目され、RAGにおけるモデルの応答をサポートするための引用を提供する。
本稿では,ReClaim(Refer & Claim)と呼ばれる詳細なATG手法を提案する。
論文 参考訳(メタデータ) (2024-07-01T20:47:47Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Enabling Large Language Models to Generate Text with Citations [37.64884969997378]
大規模言語モデル (LLM) は情報検索のツールとして広く使われている。
我々の目的は、LLMが引用文を生成できるようにし、その事実の正しさと妥当性を向上させることである。
自動LLMのCitation Evaluationのための最初のベンチマークであるALCEを提案する。
論文 参考訳(メタデータ) (2023-05-24T01:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。