Fugu-MT 論文翻訳(概要): Temperature and Persona Shape LLM Agent Consensus With Minimal Accuracy Gains in Qualitative Coding

論文の概要: Temperature and Persona Shape LLM Agent Consensus With Minimal Accuracy Gains in Qualitative Coding

arxiv url: http://arxiv.org/abs/2507.11198v1
Date: Tue, 15 Jul 2025 11:06:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-16 19:46:03.086422
Title: Temperature and Persona Shape LLM Agent Consensus With Minimal Accuracy Gains in Qualitative Coding
Title（参考訳）: 定性的符号化における温度・人体形状LLMエージェントの最小精度向上
Authors: Conrad Borchers, Bahar Shahrokhian, Francesco Balzan, Elham Tajik, Sreecharan Sankaranarayanan, Sebastian Simon,
Abstract要約: 大規模言語モデル(LLM)は、大規模で定性的研究の新たな可能性を実現する。エージェントペルソナと温度形状コンセンサス構築に関する実験的検討を行った。我々は、人手による注釈書のゴールドスタンダードデータセットに対して、77,000以上のコーディング決定を解析する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) enable new possibilities for qualitative research at scale, including coding and data annotation. While multi-agent systems (MAS) can emulate human coding workflows, their benefits over single-agent coding remain poorly understood. We conducted an experimental study of how agent persona and temperature shape consensus-building and coding accuracy of dialog segments based on a codebook with 8 codes. Our open-source MAS mirrors deductive human coding through structured agent discussion and consensus arbitration. Using six open-source LLMs (with 3 to 32 billion parameters) and 18 experimental configurations, we analyze over 77,000 coding decisions against a gold-standard dataset of human-annotated transcripts from online math tutoring sessions. Temperature significantly impacted whether and when consensus was reached across all six LLMs. MAS with multiple personas (including neutral, assertive, or empathetic), significantly delayed consensus in four out of six LLMs compared to uniform personas. In three of those LLMs, higher temperatures significantly diminished the effects of multiple personas on consensus. However, neither temperature nor persona pairing lead to robust improvements in coding accuracy. Single agents matched or outperformed MAS consensus in most conditions. Only one model (OpenHermesV2:7B) and code category showed above-chance gains from MAS deliberation when temperature was 0.5 or lower and especially when the agents included at least one assertive persona. Qualitative analysis of MAS collaboration for these configurations suggests that MAS may nonetheless aid in narrowing ambiguous code applications that could improve codebooks and human-AI coding. We contribute new insight into the limits of LLM-based qualitative methods, challenging the notion that diverse MAS personas lead to better outcomes. We open-source our MAS and experimentation code.
Abstract（参考訳）: 大規模言語モデル(LLM)は、コーディングやデータアノテーションなど、大規模で定性的な研究の新たな可能性を実現する。マルチエージェントシステム(MAS)は人間のコーディングワークフローをエミュレートできるが、シングルエージェントのコーディングよりもその利点はよく分かっていない。 8符号のコードブックを用いて,エージェントペルソナと温度形状コンセンサスの構築とダイアログセグメントの符号化精度について実験を行った。オープンソースのMASは、構造化されたエージェントの議論と合意の仲裁を通じて、演能的な人間のコーディングをミラーします。 6つのオープンソースのLCM(3～32億のパラメータを持つ)と18の実験的な構成を用いて、オンラインの数学学習セッションから、人間の注釈付きテキストのゴールドスタンダードデータセットに対して77,000以上のコーディング決定を解析した。温度は6つのLDMにまたがってコンセンサスが到達したかどうかに大きく影響した。複数のペルソナ(中立性、主張性、共感性を含む)を持つMASは、一様ペルソナと比較して、6つのLDMのうち4つのコンセンサスを著しく遅らせた。これらの3つのLSMでは、高い温度はコンセンサスに対する複数のペルソナの影響を著しく低下させた。しかし、温度とペルソナのペアリングは、符号化精度を堅牢に向上させるには至らなかった。単一のエージェントは、ほとんどの条件でMASのコンセンサスに適合または優れていた。 1つのモデル(OpenHermesV2:7B)とコードカテゴリは、温度0.5以下の場合、特に少なくとも1つの断定的ペルソナを含む場合、MASの審理から上向きの利得を示した。これらの構成のためのMASコラボレーションの質的分析は、MASがコードブックや人間とAIのコーディングを改善するための曖昧なコードアプリケーションを狭めるのに役立つことを示唆している。我々は, LLMに基づく定性的手法の限界に対する新たな洞察を提供し, 多様なMASペルソナがより良い結果をもたらすという考えに挑戦する。私たちはMASと実験コードをオープンソースにしています。

関連論文リスト

Is LLM-Generated Code More Maintainable \& Reliable than Human-Written Code? [4.893345190925178]
本研究では,LLM生成コードと人手書きコードの内部品質特性を比較した。我々の分析によると、LLM生成コードにはバグが少なく、全体的な修正に労力がかかりません。
論文参考訳（メタデータ） (2025-08-01T15:17:34Z)
Is Compression Really Linear with Code Intelligence? [60.123628177110206]
textitFormat Annealingは、事前訓練されたモデルの本質的な能力を同等に評価するために設計された、軽量で透明なトレーニング手法である。我々の経験的結果は、測定されたコードインテリジェンスとビット・パー・キャラクタ(BPC)の基本的な対数関係を明らかにする。私たちの研究は、コードインテリジェンスの開発における圧縮の役割をより微妙に理解し、コードドメインにおける堅牢な評価フレームワークに貢献します。
論文参考訳（メタデータ） (2025-05-16T16:59:14Z)
Instruct or Interact? Exploring and Eliciting LLMs' Capability in Code Snippet Adaptation Through Prompt Engineering [19.019004855931676]
大規模言語モデル(LLM)は、コード生成タスクにおいて、有望な結果でその有効性を確認した。再利用指向でコンテキスト依存のコード変更予測タスクであるアダプティブのパフォーマンスはまだ不明だ。 LLMの適応性を引き出すためのインタラクティブなプロンプト手法を提案する。
論文参考訳（メタデータ） (2024-11-23T09:40:36Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
AIME: AI System Optimization via Multiple LLM Evaluators [79.03422337674664]
AIME は複数の LLM を利用した評価プロトコルであり、それぞれが独立した基準で評価を生成し、結合を通してそれらを結合する。コード生成タスクにおける AIME のベースラインメソッドのパフォーマンスは,LeetCodeHard と HumanEval データセットの単一 LLM 評価プロトコルよりも最大 62% 高いエラー検出率,最大 16% 高い成功率で向上している。
論文参考訳（メタデータ） (2024-10-04T04:03:24Z)
Can LLMs Replace Manual Annotation of Software Engineering Artifacts? [24.563167762241346]
大規模言語モデル(LLM)は、最近、いくつかの領域で人間レベルのパフォーマンスを実証し始めた。本稿では、コードやコード関連アーティファクトの評価において、より安価なLCMクエリーでコストのかかる被験者を代用する可能性について検討する。以上の結果から,LLMを人体アノテーションに置き換えることで,人体・人体・人体間の合意に等しいあるいは近い契約が成立する可能性が示唆された。
論文参考訳（メタデータ） (2024-08-10T12:30:01Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Validating LLM-Generated Programs with Metamorphic Prompt Testing [8.785973653167112]
大規模言語モデル(LLM)は、ソフトウェア開発ライフサイクルにますます統合されています。本稿では,これらの課題に対処するため,メタモルフィック・プロンプト・テストと呼ばれる新しい手法を提案する。我々のHumanEvalに対する評価は,GPT-4が生成する誤プログラムの75%を,偽陽性率8.6%で検出できることを示す。
論文参考訳（メタデータ） (2024-06-11T00:40:17Z)
HumanEvalComm: Benchmarking the Communication Competence of Code Generation for LLMs and LLM Agent [2.8391355909797644]
大規模言語モデル(LLM)は、コード生成の分野でタスクを実行する能力を大幅に改善した。 LLMが有能なプログラマであることと、最上位のソフトウェアエンジニアであることの間にはまだギャップがある。
論文参考訳（メタデータ） (2024-05-31T22:06:18Z)
MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文参考訳（メタデータ） (2023-11-14T21:46:27Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。