論文の概要: Search over Self-Edit Strategies for LLM Adaptation
- arxiv url: http://arxiv.org/abs/2601.14532v1
- Date: Tue, 20 Jan 2026 22:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.180382
- Title: Search over Self-Edit Strategies for LLM Adaptation
- Title(参考訳): LLM適応のための自己編集戦略の探索
- Authors: Alistair Cheong, Haolin Cong, Tyler Yang, Dustin Miao,
- Abstract要約: 本研究では,LLMがタスクフィードバックを用いて重みを更新する方法について検討する。
自己適応型言語モデル(SEAL)フレームワークをテストベッドとして使用し、固定されたヒューマンテンプレート制約を緩和した。
テンプレート生成が過去のテンプレートの軽量アーカイブで条件付けられたかどうかが異なる2つのバリエーションが研究された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many LLM-based open-ended search systems freeze the foundation model that proposes improvements to existing solutions, which may bottleneck long-run progress. Recent work has explored updating the proposal model at test time [arXiv:2511.23473], but the update strategy is still typically hand-specified. Therefore, this study investigated whether an LLM can use task feedback to decide how it should update its weights. For tractability, we focused on the simpler case where there is only one round of self-improvement, and restricted the update operator to self-supervised next token prediction (NTP), leaving the model freedom in choosing its training data and key NTP hyperparameters. Using the Self-Adapting Language Models (SEAL) [arXiv:2506.10943] framework as a testbed, we relaxed its fixed human template constraint and allowed the model to generate its own self-edit templates, thereby giving it more control over its training data and hyperparameters. Two variants were studied, differing in whether template generation was conditioned on a lightweight archive of past templates. In SEAL's Single-Passage Knowledge Incorporation setting with Qwen3-8B on SQuAD [arXiv:1606.05250], the no-archive variant performed comparably to the weaker "Implications" baseline, while the archive variant outperformed "Implications" and approached the strongest human-designed "Rewrite" baseline without surpassing it. Further analysis of collapse in the model's exploration revealed that a naive archive can confer some short-term robustness but can also accelerate homogenization, suggesting that explicit novelty pressure may be required to consistently advance beyond carefully optimized human strategies. Our code is available at https://github.com/cheongalc/search-self-edit-strategies .
- Abstract(参考訳): 多くのLLMベースのオープンエンド検索システムは、長期の進歩を妨げかねない既存のソリューションの改善を提案する基盤モデルを凍結する。
最近の研究は、テスト時に提案モデルを更新することを検討している(arXiv:2511.23473]が、更新戦略は通常手作業で決められている。
そこで本研究では,LLMがタスクフィードバックを用いて重みを更新する方法について検討した。
トラクタビリティに関しては,自己改善のラウンドが1ラウンドしかないという単純なケースに注目し,更新演算子を自己教師型次のトークン予測(NTP)に制限した上で,トレーニングデータとキーNTPハイパーパラメータを選択する際のモデル自由を残した。
テストベッドとしてSelf-Adapting Language Models (SEAL) [arXiv:2506.10943]フレームワークを使用して、固定された人間のテンプレート制約を緩和し、モデルが独自のセルフ編集テンプレートを生成することを可能にし、トレーニングデータとハイパーパラメータのコントロールをより強化した。
テンプレート生成が過去のテンプレートの軽量アーカイブ上で条件付けられたかどうかが異なる2つのバリエーションが研究された。
SEAL's Single-Passage Knowledge Incorporation set with Qwen3-8B on SQuAD [arXiv:1606.05250] において、非構造的変種はより弱い「Implications」ベースラインと互換性を持って実行され、アーカイブ的変種は「Implications」を上回り、それを超えることなく最強の人間設計の「Rewrite」ベースラインに接近した。
モデルの探索における崩壊のさらなる分析により、単純アーカイブは短期的な堅牢性を引き出すことができるが、均質化を加速する可能性も示され、明確な新規性圧力は、慎重に最適化された人間の戦略を超えて一貫して前進するために必要である可能性が示唆された。
私たちのコードはhttps://github.com/cheongalc/search-self-edit-strategiesで利用可能です。
関連論文リスト
- MERGETUNE: Continued fine-tuning of vision-language models [77.8627788911249]
微調整視覚言語モデル(VLM)は、しばしば事前訓練された知識を破滅的に忘れてしまう。
ゼロショットモデルに適応した後に事前学習した知識を回復するための新しいパラダイムである連続微調整(CFT)を導入する。
論文 参考訳(メタデータ) (2026-01-15T15:15:53Z) - Temporal Self-Rewarding Language Models: Decoupling Chosen-Rejected via Past-Future [38.1810626252963]
自己回帰言語モデル(Self-Rewarding Language Models)は、LLM-as-a-Judgeプロンプトを通じて、大きな言語モデル(LLM)が応答を生成し、独自の出力を評価するアーキテクチャを提案する。
本研究では,過去,現在,将来のモデル世代を戦略的に調整し,学習信号を持続するテキストbf自己回帰言語モデルを提案する。
論文 参考訳(メタデータ) (2025-08-08T05:25:54Z) - Aligning Frozen LLMs by Reinforcement Learning: An Iterative Reweight-then-Optimize Approach [65.6966065843227]
Iterative Reweight-then-IROは、凍結ベースモデルのRLスタイルアライメントを実行するフレームワークである。
テスト時には、値関数を使用して、検索ベースの最適化プロセスを介してベースモデル生成をガイドする。
特に、ユーザは、OpenAIの強化微調整(RFT)と同様、自身のデータセットにモデルをアライメントするためにIROを適用することができる。
論文 参考訳(メタデータ) (2025-06-21T21:49:02Z) - Self-Adapting Language Models [47.52508465862889]
大規模言語モデル(LLM)は強力だが静的であり、新しいタスクや知識、例に対応して重みを適応するメカニズムが欠如している。
我々は,自己適応型LSM(Self-Adapting LLMs, SEAL)を導入する。
知識の定式化と数ショットの一般化の実験により、SEALは自己指向適応が可能な言語モデルに向けた有望なステップであることが示された。
論文 参考訳(メタデータ) (2025-06-12T17:48:13Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。