Fugu-MT 論文翻訳(概要): Think Together and Work Better: Combining Humans' and LLMs' Think-Aloud Outcomes for Effective Text Evaluation

論文の概要: Think Together and Work Better: Combining Humans' and LLMs' Think-Aloud Outcomes for Effective Text Evaluation

arxiv url: http://arxiv.org/abs/2409.07355v1
Date: Wed, 11 Sep 2024 15:40:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-12 14:03:35.633749
Title: Think Together and Work Better: Combining Humans' and LLMs' Think-Aloud Outcomes for Effective Text Evaluation
Title（参考訳）: 思考と作業の改善: 効果的なテキスト評価のための人間とLLMの思考音響結果の組み合わせ
Authors: SeongYeub Chu, JongWoo Kim, MunYong Yi,
Abstract要約: 本研究では,人間の専門知識とLarge Language Models(LLM)を統合するフレームワークであるtextbfInteractEvalを紹介する。このフレームワークはThink-Aloud(TA)メソッドを使用して、チェックリストベースのテキスト評価の属性を生成する。
参考スコア（独自算出の注目度）: 2.5398014196797605
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: This study introduces \textbf{InteractEval}, a framework that integrates human expertise and Large Language Models (LLMs) using the Think-Aloud (TA) method to generate attributes for checklist-based text evaluation. By combining human flexibility and reasoning with LLM consistency, InteractEval outperforms traditional non-LLM-based and LLM-based baselines across four distinct dimensions, consisting of Coherence, Fluency, Consistency, and Relevance. The experiment also investigates the effectiveness of the TA method, showing that it promotes divergent thinking in both humans and LLMs, leading to the generation of a wider range of relevant attributes and enhance text evaluation performance. Comparative analysis reveals that humans excel at identifying attributes related to internal quality (Coherence and Fluency), but LLMs perform better at those attributes related to external alignment (Consistency and Relevance). Consequently, leveraging both humans and LLMs together produces the best evaluation outcomes. In other words, this study emphasizes the necessity of effectively combining humans and LLMs in an automated checklist-based text evaluation framework. The code is available at \textbf{\url{https://github.com/BBeeChu/InteractEval.git}}.
Abstract（参考訳）: 本研究では,人間の専門知識とLarge Language Models(LLM)を統合するフレームワークである‘textbf{InteractEval}をThink-Aloud(TA)法で導入し,チェックリストに基づくテキスト評価の属性を生成する。人間の柔軟性と推論とLLMの一貫性を組み合わせることで、InteractEvalは従来のLLMベースのベースラインとLLMベースのベースラインを、Coherence、 Fluency、Consistency、Relevanceの4つの異なる次元で上回る。また, TA法の有効性について検討し, ヒトとLDMの両方における散発的思考を促進することにより, より広い範囲の属性が生成され, テキスト評価性能が向上することを示した。比較分析では、人間は内部品質(コヒーレンスとフルーレンシー)に関連する属性を識別する能力が優れているが、LCMは外部アライメント(一貫性と妥当性)に関連する属性を良く評価する。したがって、人間とLLMを一緒に利用すれば、最高の評価結果が得られる。言い換えれば、自動チェックリストに基づくテキスト評価フレームワークにおいて、人間とLLMを効果的に組み合わせることの必要性を強調している。コードは \textbf{\url{https://github.com/BBeeChu/InteractEval.git}} で公開されている。

関連論文リスト

On Evaluating LLM Alignment by Evaluating LLMs as Judges [68.15541137648721]
大規模言語モデル(LLM)のアライメントを評価するには、助け、誠実、安全、正確に人間の指示に従う必要がある。本研究では,LLMの生成能力と評価能力の関係について検討した。モデル出力を直接評価することなくアライメントを評価するベンチマークを提案する。
論文参考訳（メタデータ） (2025-11-25T18:33:24Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
Evaluating book summaries from internal knowledge in Large Language Models: a cross-model and semantic consistency approach [0.0]
本研究では,大規模言語モデル(LLM)を用いて,包括的かつ正確な書籍要約を生成する能力について検討する。これらのモデルが、確立された人間の解釈と一致した有意義な物語を合成できるかどうかを検討する。
論文参考訳（メタデータ） (2025-03-27T15:36:24Z)
Comparing Human Expertise and Large Language Models Embeddings in Content Validity Assessment of Personality Tests [0.0]
本研究では,大規模言語モデル(LLM)の心理測定器の内容妥当性評価への応用について検討する。人間の専門的評価と高度なLCMの両方を用いて,意味的項目・構成的アライメントの精度を比較した。その結果、人間とAIのアプローチの強みと限界が明らかになりました。
論文参考訳（メタデータ） (2025-03-15T10:54:35Z)
From Text to Insight: Leveraging Large Language Models for Performance Evaluation in Management [6.70908766695241]
本研究では,大規模言語モデル(LLM),特にGPT-4の可能性を探り,組織的タスクパフォーマンス評価における客観性を高める。以上の結果から,GPT評価は人間の評価に匹敵するが,一貫性と信頼性が高いことが示唆された。 LLMはテキストベースのデータから意味のある構成物を抽出できるが、その範囲は特定のパフォーマンス評価形式に限定されている。
論文参考訳（メタデータ） (2024-08-09T20:35:10Z)
CIBench: Evaluating Your LLMs with a Code Interpreter Plugin [68.95137938214862]
データサイエンスタスクにコードインタプリタを利用するLLMの能力を総合的に評価する,CIBenchという対話型評価フレームワークを提案する。評価データセットは,LLM-人的協調手法を用いて構築され,連続的かつ対話的なIPythonセッションを活用することによって,実際のワークフローをシミュレートする。コードインタプリタの利用において, CIBench 上で 24 個の LLM の能力を解析し, 将来の LLM に対する貴重な洞察を提供するため, 広範囲にわたる実験を行った。
論文参考訳（メタデータ） (2024-07-15T07:43:55Z)
MATEval: A Multi-Agent Discussion Framework for Advancing Open-Ended Text Evaluation [22.19073789961769]
生成型大規模言語モデル(LLM)は注目に値するが、これらのモデルによって生成されたテキストの品質は、しばしば永続的な問題を示す。 MATEval: "Multi-Agent Text Evaluation framework"を提案する。本フレームワークは,評価プロセスの深度と広さを高めるために,自己回帰と整合性戦略とフィードバック機構を取り入れている。
論文参考訳（メタデータ） (2024-03-28T10:41:47Z)
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。 LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。 Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文参考訳（メタデータ） (2024-03-25T17:11:28Z)
Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文参考訳（メタデータ） (2023-11-15T18:25:26Z)
Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文参考訳（メタデータ） (2023-10-11T16:38:11Z)
ALLURE: Auditing and Improving LLM-based Evaluation of Text using Iterative In-Context-Learning [7.457517083017178]
大規模言語モデル(LLM)は、人間やAIが生成するテキストの評価に使用される。実用性にもかかわらず、LSMは異なる障害モードを示し、徹底的な監査とテキスト評価機能の改善が必要である。ここでは、大規模な言語モデルを理解するための体系的なアプローチであるALLUREを紹介します。
論文参考訳（メタデータ） (2023-09-24T17:15:58Z)
MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback [78.60644407028022]
我々は,大規模言語モデルのマルチターンインタラクションによる課題解決能力を評価するベンチマークであるMINTを紹介する。 LLMは一般的に、ツールと言語フィードバックの恩恵を受けます。 LLMの評価、教師あり指導ファインタニング(SIFT)、人間からのフィードバックからの強化学習(RLHF)は、一般的にマルチターン能力を損なう。
論文参考訳（メタデータ） (2023-09-19T15:25:42Z)
Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。 LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文参考訳（メタデータ） (2023-05-03T07:28:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。