Fugu-MT 論文翻訳(概要): Which is better? Exploring Prompting Strategy For LLM-based Metrics

論文の概要: Which is better? Exploring Prompting Strategy For LLM-based Metrics

arxiv url: http://arxiv.org/abs/2311.03754v1
Date: Tue, 7 Nov 2023 06:36:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-08 16:38:11.119410
Title: Which is better? Exploring Prompting Strategy For LLM-based Metrics
Title（参考訳）: どちらがよいか? LLMに基づくメトリクスのプロンプト戦略の探求
Authors: Joonghoon Kim, Saeran Park, Kiyoon Jeong, Sangmin Lee, Seung Hun Han, Jiyoon Lee, Pilsung Kang
Abstract要約: 本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。 BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
参考スコア（独自算出の注目度）: 6.681126871165601
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: This paper describes the DSBA submissions to the Prompting Large Language Models as Explainable Metrics shared task, where systems were submitted to two tracks: small and large summarization tracks. With advanced Large Language Models (LLMs) such as GPT-4, evaluating the quality of Natural Language Generation (NLG) has become increasingly paramount. Traditional similarity-based metrics such as BLEU and ROUGE have shown to misalign with human evaluation and are ill-suited for open-ended generation tasks. To address this issue, we explore the potential capability of LLM-based metrics, especially leveraging open-source LLMs. In this study, wide range of prompts and prompting techniques are systematically analyzed with three approaches: prompting strategy, score aggregation, and explainability. Our research focuses on formulating effective prompt templates, determining the granularity of NLG quality scores and assessing the impact of in-context examples on LLM-based evaluation. Furthermore, three aggregation strategies are compared to identify the most reliable method for aggregating NLG quality scores. To examine explainability, we devise a strategy that generates rationales for the scores and analyzes the characteristics of the explanation produced by the open-source LLMs. Extensive experiments provide insights regarding evaluation capabilities of open-source LLMs and suggest effective prompting strategies.
Abstract（参考訳）: 本稿では,dsbaの大規模言語モデルへの提案について,説明可能なメトリクス共有タスクとして述べる。 GPT-4のような先進的な大規模言語モデル(LLM)により、自然言語生成(NLG)の品質を評価することがますます重要になっている。 BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。この問題に対処するために, LLM ベースのメトリクスの可能性, 特にオープンソース LLM の活用について検討する。本研究では, 戦略, スコアアグリゲーション, 説明可能性の3つのアプローチを用いて, 幅広いプロンプトとプロンプト手法を体系的に分析した。本研究は, 効果的なプロンプトテンプレートの定式化, NLG品質スコアの粒度決定, LLMに基づく評価における文脈内例の影響評価に焦点をあてる。さらに,3つの集計戦略を比較し,nlg品質スコアを集計する最も信頼性の高い方法を特定する。説明可能性を検討するため,オープンソースのLCMが生み出した説明の特徴を解析し,スコアの合理性を生成する戦略を考案した。広範な実験は、オープンソースのllmの評価能力に関する洞察を提供し、効果的なプロンプト戦略を提案する。

関連論文リスト

LLM-as-a-qualitative-judge: automating error analysis in natural language generation [6.705171415653766]
自然言語生成のための大規模言語モデル(LLM)に基づく評価手法を提案する。提案手法は, 直感的累積アルゴリズムを用いて, 提案した課題のクラスタリングとオープンエンド・インスタンス・イシュー分析により構成する。以上の結果から,LLM-as-a-qualitative-judgeは2/3例のインスタンス固有の問題を正しく認識し,ヒトのアノテータによる報告と類似したエラー型レポートを生成することができることがわかった。
論文参考訳（メタデータ） (2025-06-10T18:01:42Z)
From Course to Skill: Evaluating LLM Performance in Curricular Analytics [2.5104969073405976]
大規模言語モデル(LLM)は、大規模で非構造化のカリキュラムデータを扱うことを約束している。我々は,LLMや従来のNLP法に基づく4つのテキストアライメント戦略を体系的に評価した。本研究は, 簡潔かつ抽象的なカリキュラム文書の分析において, LLMsが持つ可能性を明らかにするとともに, その性能がモデル選択やプロンプト戦略に大きく依存することを明らかにする。
論文参考訳（メタデータ） (2025-05-05T02:46:23Z)
Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文参考訳（メタデータ） (2025-02-21T02:03:08Z)
From Human Annotation to LLMs: SILICON Annotation Workflow for Management Research [13.818244562506138]
LLM(Large Language Models)は、人間のアノテーションに対する費用対効果と効率的な代替手段を提供する。本稿では、SILICON (Systematic Inference with LLMs for Information Classification and Notation) ワークフローを紹介する。このワークフローは、人間のアノテーションの確立した原則と、体系的な迅速な最適化とモデル選択を統合している。
論文参考訳（メタデータ） (2024-12-19T02:21:41Z)
DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Language Models can Evaluate Themselves via Probability Discrepancy [38.54454263880133]
様々な大規模言語モデル(LLM)の有効性を評価するための自己評価手法ProbDiffを提案する。テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。以上の結果から, ProbDiff は GPT-4 に基づく評価結果と同等の結果を得た。
論文参考訳（メタデータ） (2024-05-17T03:50:28Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文参考訳（メタデータ） (2024-01-13T15:59:09Z)
Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文参考訳（メタデータ） (2023-11-15T18:25:26Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
A Survey on Large Language Models for Recommendation [77.91673633328148]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で強力なツールとして登場した。本調査では,これらのモデルを2つの主要なパラダイム(DLLM4Rec)とジェネレーティブLSM4Rec(GLLM4Rec)に分類する。
論文参考訳（メタデータ） (2023-05-31T13:51:26Z)
Information Extraction in Low-Resource Scenarios: Survey and Perspective [56.5556523013924]
情報抽出は構造化されていないテキストから構造化された情報を導き出そうとする。本稿では,emphLLMおよびemphLLMに基づく低リソースIEに対するニューラルアプローチについて概説する。
論文参考訳（メタデータ） (2022-02-16T13:44:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。