論文の概要: AlignTune: Modular Toolkit for Post-Training Alignment of Large Language Models
- arxiv url: http://arxiv.org/abs/2602.09621v2
- Date: Wed, 11 Feb 2026 18:51:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 15:03:20.152953
- Title: AlignTune: Modular Toolkit for Post-Training Alignment of Large Language Models
- Title(参考訳): AlignTune: 大規模言語モデルのトレーニング後のアライメントのためのモジュールツールキット
- Authors: R E Zera Marveen Lyngkhoi, Chirag Chawla, Pratinav Seth, Utsav Avaiya, Soham Bhattacharjee, Mykola Khandoga, Rui Yuan, Vinay Kumar Sankarapu,
- Abstract要約: トレーニング後のアライメントは、大規模言語モデル(LLM)のデプロイの中心である
本稿では,教師付きファインチューニング(SFT)とRLHFスタイルの最適化のための統一インターフェースを公開するモジュールツールキットAlignTuneを紹介する。
単一のファクトリ境界の後方でバックエンド固有のロジックを分離することで、AlignTuneは制御された比較と再現可能な実験を可能にする。
- 参考スコア(独自算出の注目度): 5.231136329355501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training alignment is central to deploying large language models (LLMs), yet practical workflows remain split across backend-specific tools and ad-hoc glue code, making experiments hard to reproduce. We identify backend interference, reward fragmentation, and irreproducible pipelines as key obstacles in alignment research. We introduce AlignTune, a modular toolkit exposing a unified interface for supervised fine-tuning (SFT) and RLHF-style optimization with interchangeable TRL and Unsloth backends. AlignTune standardizes configuration, provides an extensible reward layer (rule-based and learned), and integrates evaluation over standard benchmarks and custom tasks. By isolating backend-specific logic behind a single factory boundary, AlignTune enables controlled comparisons and reproducible alignment experiments.
- Abstract(参考訳): トレーニング後のアライメントは、大規模な言語モデル(LLM)のデプロイの中心であるが、現実的なワークフローはバックエンド固有のツールとアドホックなグルーコードに分割されており、実験の再現が困難である。
我々は、アライメント研究における重要な障害として、バックエンドの干渉、報酬の断片化、および予測不可能なパイプラインを識別する。
本稿では,教師付きファインチューニング(SFT)とRLHFスタイルの最適化のための統一インターフェースを,TRLとUnslothバックエンドを交換可能なモジュールツールキットAlignTuneを紹介する。
AlignTuneは設定を標準化し、拡張可能な報酬層(ルールベースと学習)を提供し、標準ベンチマークやカスタムタスクに対する評価を統合する。
単一のファクトリ境界の後方でバックエンド固有のロジックを分離することにより、AlignTuneは制御された比較と再現可能なアライメント実験を可能にする。
関連論文リスト
- FMBench: Adaptive Large Language Model Output Formatting [49.52930069696333]
適応型マークダウン出力フォーマットのベンチマークであるFMBenchを提案する。
2つのモデルファミリーの実験は、SFTが一貫してセマンティックアライメントを改善していることを示している。
結果はまた、意味的目的と構造的目的の間に固有のトレードオフを明らかにします。
論文 参考訳(メタデータ) (2026-02-06T04:42:06Z) - Veri-Sure: A Contract-Aware Multi-Agent Framework with Temporal Tracing and Formal Verification for Correct RTL Code Generation [4.723302382132762]
シリコングレードの正しさは、 (i) シミュレーション中心の評価の限られたカバレッジと信頼性、 (ii) 回帰と修復幻覚、 (iii) エージェントハンドオフ間で意図が再解釈される意味的ドリフトによってボトルネックが残っている。
エージェントの意図を整合させる設計契約を確立するマルチエージェントフレームワークであるVeri-Sureを提案する。
論文 参考訳(メタデータ) (2026-01-27T16:10:23Z) - When Domain Pretraining Interferes with Instruction Alignment: An Empirical Study of Adapter Merging in Medical LLMs [0.6345523830122167]
大規模言語モデルは、ドメイン適応と命令アライメントを組み合わせる際に驚くべきアダプタ干渉を示す。
医学LLMのための2段階のLORAパイプラインについて検討し、ドメイン指向事前トレーニング(PT)と教師付き微調整(SFT)を個別に訓練し、後にマージした。
論文 参考訳(メタデータ) (2026-01-26T10:54:06Z) - AR-MOT: Autoregressive Multi-object Tracking [56.09738000988466]
本稿では,大規模言語モデル(LLM)フレームワーク内のシーケンス生成タスクとしてMOTを定式化する,新しい自己回帰パラダイムを提案する。
この設計により、タスク固有のヘッドを必要とせずに、フレキシブルなシーケンス構成によって構造化された結果を出力できる。
地域レベルの視覚知覚を高めるために,事前訓練された検出器に基づくオブジェクト・トケナイザを導入する。
論文 参考訳(メタデータ) (2026-01-05T09:17:28Z) - TabTune: A Unified Library for Inference and Fine-Tuning Tabular Foundation Models [3.6210754412846318]
タブラル基礎モデルは、構造化データ学習における成長するパラダイムを表している。
単一インタフェースで表層基礎モデルの完全なワークフローを標準化する統合ライブラリであるTabTuneを紹介する。
論文 参考訳(メタデータ) (2025-11-04T18:25:17Z) - EasySteer: A Unified Framework for High-Performance and Extensible LLM Steering [55.56674028743782]
大規模言語モデル(LLM)のステアリングは、推論時にモデル動作を制御するための有望なパラダイムとして登場した。
我々は,vLLM上に構築された高性能LLMステアリングのための統合フレームワークであるEasySteerを提案する。
論文 参考訳(メタデータ) (2025-09-29T17:59:07Z) - TTPA: Token-level Tool-use Preference Alignment Training Framework with Fine-grained Evaluation [27.71948796412585]
Token-level Tool-use Preference Orignment Training Framework (TTPA)
TTPAはトークンレベルのツール使用嗜好データセットを構築するためのトレーニングパラダイムである。
論文 参考訳(メタデータ) (2025-05-26T14:06:02Z) - Disperse-Then-Merge: Pushing the Limits of Instruction Tuning via Alignment Tax Reduction [75.25114727856861]
大規模言語モデル(LLM)は、スーパービジョンされた微調整プロセスの後半で劣化する傾向にある。
この問題に対処するための単純な分散結合フレームワークを導入する。
我々のフレームワークは、一連の標準知識と推論ベンチマークに基づいて、データキュレーションや正規化の訓練など、様々な高度な手法より優れています。
論文 参考訳(メタデータ) (2024-05-22T08:18:19Z) - Interfacing Foundation Models' Embeddings [131.0352288172788]
ファウンデーションモデルの埋め込みと、モダリティと粒度にまたがる統合イメージとデータセットレベルの理解を整合させる汎用インターフェースであるFINDを提案する。
インターリーブド埋め込み空間を考慮したFIND-Benchでは,インターリーブドセグメンテーションと検索のためのCOCOデータセットに新たなトレーニングと評価アノテーションを導入している。
論文 参考訳(メタデータ) (2023-12-12T18:58:02Z) - Adaptive Spot-Guided Transformer for Consistent Local Feature Matching [64.30749838423922]
局所的特徴マッチングのための適応スポットガイド変換器(ASTR)を提案する。
ASTRは、統一された粗いアーキテクチャにおける局所的な一貫性とスケールのバリエーションをモデル化する。
論文 参考訳(メタデータ) (2023-03-29T12:28:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。