論文の概要: Causal methods for LLM development and evaluation
- arxiv url: http://arxiv.org/abs/2605.25998v1
- Date: Mon, 25 May 2026 16:15:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.461361
- Title: Causal methods for LLM development and evaluation
- Title(参考訳): LLMの開発と評価のための因果的手法
- Authors: Dennis Frauen, Marie Brockschmidt, Konstantin Hess, Haorui Ma, Yuchen Ma, Abdurahman Maarouf, Maresa Schröder, Jonas Schweisthal, Yuxin Wang, Athiya Deviyani, Sonali Parbhoo, Rahul G. Krishnan, Stefan Feuerriegel,
- Abstract要約: 大規模言語モデル(LLM)開発は現在、データミックス、報酬モデル、ルーティング戦略、評価パイプラインに対する大規模な経験的イテレーションによって進められている。
ここでは、LLM開発と評価における多くの中心的な疑問が本質的に因果関係であると主張する。
我々は,LLM開発・評価パイプラインにおいて因果的手法が潜在的に不活用されていることを論じる。
- 参考スコア(独自算出の注目度): 49.64304126945395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) development is currently driven by large-scale empirical iteration over data mixtures, reward models, routing strategies, and evaluation pipelines. Here, we argue that many central questions in LLM development and evaluation are inherently causal: What is the effect of adding a data domain during pretraining? How do annotator preferences change when LLMs generate text in a different style? Should a prompt be routed to a larger or smaller model given inference cost constraints? In general, causal methods are well-suited to such settings where interventions change outcomes but, surprisingly, are underrepresented in LLM development. Our contribution is threefold: (1) We explain how causal methods can help develop modern LLM development and evaluation: LLM development relies heavily on logged data, which are often subject to confounding and distribution shifts; evaluation uses learned but potentially biased judges; and deployment environments are non-stationary. These conditions make purely predictive approaches fragile and create opportunities for principled identification and estimation methods from causal inference. (2) We further map opportunities for causal methods in the entire LLM development pipeline, including pretraining, alignment, routing, agentic workflows, and evaluation. (3) We discuss new research opportunities around leveraging causal methods for LLM development and evaluation. Overall, we argue that causal methods are potentially underutilized for the LLM development and evaluation pipeline, despite the fact that such methods can ensure a reliable and scientifically grounded design.
- Abstract(参考訳): 大規模言語モデル(LLM)開発は現在、データミックス、報酬モデル、ルーティング戦略、評価パイプラインに対する大規模な経験的イテレーションによって進められている。
ここでは、LLM開発と評価における多くの中心的な疑問が本質的に因果関係であると論じている。
LLMが異なるスタイルのテキストを生成するとき、アノテーションの好みはどのように変わるのか?
推論コストの制約を条件に、プロンプトをより大きなモデルあるいは小さなモデルにルーティングすべきだろうか?
一般に、因果的手法は、介入が結果を変えるような環境に適しているが、驚くべきことに、LDM開発では不十分である。
1) 因果的手法が現代のLCM開発と評価の発展にどのように役立つかを説明する: LLM開発はログ化されたデータに大きく依存するが、しばしばコンバウンディングや分散のシフトが伴う。
これらの条件は純粋に予測的アプローチを脆弱にし、因果推論から原理的同定と推定方法の機会を創出する。
2) LLM 開発パイプライン全体において,事前学習,アライメント,ルーティング,エージェントワークフロー,評価などの因果的手法の機会を更にマップする。
3) LLM 開発・評価における因果的手法の活用に関する新たな研究機会について論じる。
全体としては,このような手法が信頼性と科学的根拠を持つ設計を確実にするにもかかわらず,LLM開発・評価パイプラインには因果的手法が不活用される可能性があると論じる。
関連論文リスト
- Realizing LLMs' Causal Potential Requires Science-Grounded, Novel Benchmarks [20.409472830397455]
因果発見に関するLLM(Large Language Models)による最近の強いパフォーマンスの主張は、重要な欠陥によって損なわれている。
LLMは因果構造を本当に理由付けていますか?
LLMの因果解析の可能性を実現するには、(P.1)最近の科学的研究に基づく堅牢な評価プロトコルを開発し、(P.2)LLM由来の知識とデータ駆動統計を組み合わせたハイブリッドな手法を設計することが必要である。
論文 参考訳(メタデータ) (2025-10-18T14:58:04Z) - HumanEvo: An Evolution-aware Benchmark for More Realistic Evaluation of Repository-level Code Generation [36.1669124651617]
我々は,大規模言語モデルのコード生成性能を,ソフトウェア開発の進化的性質を反映した設定内で理解するための実証的研究を行う。
我々は、自動実行ベースの評価ツールを備えた進化型リポジトリレベルのコード生成データセットであるHumanEvoを使用します。
従来の進化を無視した評価手法は, 10.0%から61.1%の範囲で, LLMの膨張性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-06-11T03:19:18Z) - Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。
本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T03:24:34Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Faster and Lighter LLMs: A Survey on Current Challenges and Way Forward [29.81212051279456]
モデル圧縮およびシステムレベルの最適化手法の最近の進歩は、LLM推論を強化することを目的としている。
この調査はこれらの手法の概要を提供し、最近の発展を強調している。
論文 参考訳(メタデータ) (2024-02-02T06:29:34Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Causal Reasoning and Large Language Models: Opening a New Frontier for Causality [29.433401785920065]
大規模言語モデル(LLM)は、高い確率で因果引数を生成することができる。
LLMは人間のドメインの専門家によって因果解析のセットアップの労力を節約するために使われる。
論文 参考訳(メタデータ) (2023-04-28T19:00:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。