Fugu-MT 論文翻訳(概要): A Realistic Evaluation of LLMs for Quotation Attribution in Literary Texts: A Case Study of LLaMa3

論文の概要: A Realistic Evaluation of LLMs for Quotation Attribution in Literary Texts: A Case Study of LLaMa3

arxiv url: http://arxiv.org/abs/2406.11380v1
Date: Mon, 17 Jun 2024 09:56:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 15:21:39.058104
Title: A Realistic Evaluation of LLMs for Quotation Attribution in Literary Texts: A Case Study of LLaMa3
Title（参考訳）: リテラリーテキストにおける引用帰属のためのLLMの現実的評価:LLaMa3を事例として
Authors: Gaspard Michel, Elena V. Epure, Romain Hennequin, Christophe Cerisara,
Abstract要約: 大言語モデル (LLM) ゼロショットと少数ショットのパフォーマンスは記憶とデータ汚染の影響を受ける。我々はタスク固有の記憶度尺度を設計し、Llama3の引用属性の実行能力が新しい記憶度に正の相関があることを示す。
参考スコア（独自算出の注目度）: 11.259583037191772
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) zero-shot and few-shot performance are subject to memorization and data contamination, complicating the assessment of their validity. In literary tasks, the performance of LLMs is often correlated to the degree of book memorization. In this work, we carry out a realistic evaluation of LLMs for quotation attribution in novels, taking the instruction fined-tuned version of Llama3 as an example. We design a task-specific memorization measure and use it to show that Llama3's ability to perform quotation attribution is positively correlated to the novel degree of memorization. However, Llama3 still performs impressively well on books it has not memorized nor seen. Data and code will be made publicly available.
Abstract（参考訳）: 大規模言語モデル(LLM)ゼロショットと少数ショットのパフォーマンスは記憶とデータ汚染の影響を受けるため、それらの妥当性の評価が複雑になる。文学的タスクでは、LLMのパフォーマンスは、しばしば本の記憶の度合いと相関する。本研究では,小説における引用帰属のためのLLMの現実的な評価を行い,Llama3の微調整版を例に挙げる。我々はタスク固有の記憶度尺度を設計し、Llama3の引用属性の実行能力が新しい記憶度に正の相関があることを示す。しかし、Llama3は、まだ記憶も見ていない本でも、素晴らしいパフォーマンスを保っている。データとコードは公開されます。

関連論文リスト

Evaluation of LLMs in Speech is Often Flawed: Test Set Contamination in Large Language Models for Speech Recognition [16.1813157127555]
本研究は,LLMプレトレーニングコーパスにLibriSpeechとCommon Voiceの評価セットのかなりの量が現れることを明らかにする。汚染影響を測定するために、汚染を伴わずに訓練されたLLMを比較した。その結果,LSMの出力は少量のデータ汚染によってバイアスを受けることができることがわかった。
論文参考訳（メタデータ） (2025-05-28T11:39:59Z)
Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキスト上に既存のテキスト埋め込みモデルを微調整することで、優れた分類精度が得られることが判明した。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
A Statistical Analysis of LLMs' Self-Evaluation Using Proverbs [1.9073729452914245]
本稿では,300対の確率対からなる新規な確率データベースについて紹介する。そこで本研究では,テキストのコンバージェンスと,類似の証明における数値コンバージェンスを評価するテストを提案する。
論文参考訳（メタデータ） (2024-10-22T02:38:48Z)
Generating bilingual example sentences with large language models as lexicography assistants [2.6550899846546527]
本稿では,資源レベルの異なる言語におけるバイリンガル辞書の例文の生成と評価におけるLLMの性能について検討する。 GDEX(Good Dictionary Example)基準に対するLCM生成例の品質評価を行った。
論文参考訳（メタデータ） (2024-10-04T06:45:48Z)
CUTE: Measuring LLMs' Understanding of Their Tokens [54.70665106141121]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。 LLMはどの程度の間、正書法情報を学ぶことができるのか? LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークを提案する。
論文参考訳（メタデータ） (2024-09-23T18:27:03Z)
Exploring the Role of Transliteration in In-Context Learning for Low-resource Languages Written in Non-Latin Scripts [50.40191599304911]
非ラテン文字で書かれた低リソース言語に対するLLMの性能向上にも効果があるか検討する。本稿では,(1) の原文,(2) ラテン文字,(3) の両文を対象とする3つのプロンプトテンプレートを提案する。本研究の結果から,翻訳の有効性はタスクタイプやモデルサイズによって異なることが明らかとなった。
論文参考訳（メタデータ） (2024-07-02T14:51:20Z)
Scaling Laws for Fact Memorization of Large Language Models [67.94080978627363]
我々は,大規模言語モデルにおける事実知識のスケーリング法則と,異なる種類の事実を記憶する行動について分析する。 LLMの事実知識能力は,モデルサイズや訓練のエポックと線形かつ負の指数法則関係を持つことがわかった。本研究は,LLMのファクト・ナレッジ・ナレッジ・ラーニングの能力と特徴を明らかにし,LLMのファクト・ナレッジ・アジュメンテーションの方向性を示した。
論文参考訳（メタデータ） (2024-06-22T03:32:09Z)
Evaluating Character Understanding of Large Language Models via Character Profiling from Fictional Works [33.817319226631426]
大規模言語モデル(LLM)は印象的なパフォーマンスを示し、多くのAIアプリケーションに拍車をかけた。これらのRPAの前提条件は、LLMが架空の作品からキャラクターを理解する能力にある。これまでの努力は、基本的な分類タスクや特徴的模倣を通じて、この機能を評価してきた。
論文参考訳（メタデータ） (2024-04-19T09:10:29Z)
PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。 LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文参考訳（メタデータ） (2024-04-03T04:53:14Z)
"Sorry, Come Again?" Prompting -- Enhancing Comprehension and Diminishing Hallucination with [PAUSE]-injected Optimal Paraphrasing [10.20632187568563]
幻覚は現代大言語モデル(LLM)の最も脆弱な側面として現れてきた。本稿では,LCMの幻覚を避けることを目的としたSCAプロンプトについて紹介する。本稿では,21のLLMに対するプロンプトの形式性,可読性,具体性について,言語的ニュアンスを詳細に分析する。与えられたプロンプトの最も理解しやすいパラフレーズを識別する最適なパラフレーズ化手法を提案する。
論文参考訳（メタデータ） (2024-03-27T19:45:09Z)
Harnessing Artificial Intelligence to Combat Online Hate: Exploring the Challenges and Opportunities of Large Language Models in Hate Speech Detection [4.653571633477755]
大規模言語モデル(LLM)は、翻訳、要約、感情分析など、言語生成以外の多くの多様なアプリケーションで優れている。このことは、憎しみや有害なスピーチを識別する領域において、問題や倫理的なジレンマに悩まされる。
論文参考訳（メタデータ） (2024-03-12T19:12:28Z)
When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。 FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文参考訳（メタデータ） (2024-02-16T22:12:53Z)
Beware of Words: Evaluating the Lexical Diversity of Conversational LLMs using ChatGPT as Case Study [3.0059120458540383]
対話型大言語モデル(LLM)が生成するテキストの語彙的リッチ性の評価と,それがモデルパラメータにどのように依存するかを検討する。その結果、語彙豊かさがChatGPTのバージョンと、そのパラメータのいくつか、例えば存在ペナルティやモデルに割り当てられた役割にどのように依存しているかが示される。
論文参考訳（メタデータ） (2024-02-11T13:41:17Z)
Large Language Models: A Survey [66.39828929831017]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。 LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文参考訳（メタデータ） (2024-02-09T05:37:09Z)
Do LLMs Dream of Ontologies? [15.049502693786698]
大規模言語モデル(LLM)は、最近、自動テキスト理解と生成に革命をもたらした。本稿では,汎用的な事前学習 LLM が,どの程度の知識を持つかを検討する。
論文参考訳（メタデータ） (2024-01-26T15:10:23Z)
AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。数学的推論とコモンセンス推論の実験を行う。
論文参考訳（メタデータ） (2023-11-22T17:24:21Z)
SoK: Memorization in General-Purpose Large Language Models [25.448127387943053]
大規模言語モデル(LLM)は、無数のアプリケーションが開発中で、目覚ましいペースで進んでいる。 LLMはトレーニングデータの短い秘密を記憶できるだけでなく、さまざまな方法でテキストで表現できる事実や書体スタイルといった概念を記憶することもできる。本稿では,文章,事実,アイデア,アルゴリズム,書式,分布特性,アライメント目標を網羅したLLMにおける記憶のための分類法を提案する。
論文参考訳（メタデータ） (2023-10-24T14:25:53Z)
Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文参考訳（メタデータ） (2023-10-15T06:12:58Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)
Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文参考訳（メタデータ） (2023-08-19T09:17:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。