論文の概要: Data-Model Co-Evolution: Growing Test Sets to Refine LLM Behavior
- arxiv url: http://arxiv.org/abs/2510.12728v1
- Date: Tue, 14 Oct 2025 17:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.4081
- Title: Data-Model Co-Evolution: Growing Test Sets to Refine LLM Behavior
- Title(参考訳): データモデル共進化: LLMの振る舞いを抑えるためのテストセットの成長
- Authors: Minjae Lee, Minsuk Kahng,
- Abstract要約: 大きな言語モデル(LLM)により、開発者はプロンプト命令を編集することでモデルの振る舞いを制御できる。
我々はこのパラダイムを対話型システムで運用し、微妙でドメイン固有のポリシーをインシデントインストラクションにエンコードするという課題に対処する。
- 参考スコア(独自算出の注目度): 10.041741229516141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A long-standing challenge in machine learning has been the rigid separation between data work and model refinement, enforced by slow fine-tuning cycles. The rise of Large Language Models (LLMs) overcomes this historical barrier, allowing applications developers to instantly govern model behavior by editing prompt instructions. This shift enables a new paradigm: data-model co-evolution, where a living test set and a model's instructions evolve in tandem. We operationalize this paradigm in an interactive system designed to address the critical challenge of encoding subtle, domain-specific policies into prompt instructions. The system's structured workflow guides people to discover edge cases, articulate rationales for desired behavior, and iteratively evaluate instruction revisions against a growing test set. A user study shows our workflow helps participants refine instructions systematically and specify ambiguous policies more concretely. This work points toward more robust and responsible LLM applications through human-in-the-loop development aligned with local preferences and policies.
- Abstract(参考訳): 機械学習における長年の課題は、データワークとモデルリファインメントの厳格な分離であり、緩やかな微調整サイクルによって実施されている。
LLM(Large Language Models)の台頭は、この歴史的障壁を克服し、アプリケーション開発者は、プロンプト命令を編集することで、即座にモデル動作を制御できる。
このシフトは、データモデル共進化という、生きたテストセットとモデルの命令がタンデムで進化する新しいパラダイムを可能にします。
我々はこのパラダイムを対話型システムで運用し、微妙でドメイン固有のポリシーをインシデントインストラクションにエンコードするという重要な課題に対処する。
システムの構造化されたワークフローは、エッジケースの発見、望ましい振る舞いの合理性を明確にし、成長するテストセットに対する命令修正を反復的に評価する。
ユーザスタディによると、私たちのワークフローは、参加者が命令を体系的に洗練し、曖昧なポリシーをより具体的に指定するのに役立ちます。
この研究は、より堅牢で責任あるLLMアプリケーションに向けて、ローカルな嗜好やポリシーに沿うヒューマン・イン・ザ・ループ開発を行っている。
関連論文リスト
- Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Controllable Navigation Instruction Generation with Chain of Thought Prompting [74.34604350917273]
本稿では,C-インストラクタを提案する。C-インストラクタは,スタイル制御およびコンテンツ制御可能な命令生成のために,チェーン・オブ・シンクタスタイルのプロンプトを利用する。
C-インストラクタは生成した命令をより追従しやすくし、ランドマークオブジェクトの操作に対する制御性を高める。
論文 参考訳(メタデータ) (2024-07-10T07:37:20Z) - CoIN: A Benchmark of Continual Instruction tuNing for Multimodel Large Language Model [121.23360004498893]
逐次的命令チューニングパラダイムにおける既存のMLLMを評価するためのベンチマークであるContinuous Instruction tuNing(CoIN)を提案する。
CoINの実験では、現在の強力なMLLMが依然として破滅的な忘れを被っていることが示されている。
従来の命令アライメントを維持するのに有効なMLLMにMoELoRAを導入する。
論文 参考訳(メタデータ) (2024-03-13T08:54:31Z) - Transformer-based Causal Language Models Perform Clustering [20.430255724239448]
簡単な指示追従タスクを導入し、合成データセットを用いてトランスフォーマーに基づく因果言語モデルを分析する。
本研究は,本モデルが隠れ空間内のデータをクラスタリングすることで,タスク固有の情報を学習し,学習中にこのクラスタリングプロセスが動的に進化することを示唆している。
論文 参考訳(メタデータ) (2024-02-19T14:02:31Z) - Benchmarking Large Language Models on Controllable Generation under
Diversified Instructions [34.89012022437519]
大型言語モデル (LLM) は命令追従能力に優れていた。
様々な命令に関係のある明示的な制約にどの程度対応できるかは、いまだに不明である。
命令に対するLLMの応答を様々な制約で評価する新しいベンチマークであるCoDI-Evalを提案する。
論文 参考訳(メタデータ) (2024-01-01T07:35:31Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。