論文の概要: Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration
- arxiv url: http://arxiv.org/abs/2509.14760v1
- Date: Thu, 18 Sep 2025 09:08:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.14004
- Title: Reasoning over Boundaries: Enhancing Specification Alignment via Test-time Delibration
- Title(参考訳): 境界に関する推論: テスト時修正による仕様アライメントの強化
- Authors: Haoran Zhang, Yafu Li, Xuyang Hu, Dongrui Liu, Zhilin Wang, Bo Li, Yu Cheng,
- Abstract要約: 大規模言語モデル(LLM)は、ユーザや組織によってカスタマイズされた、振る舞いと安全性の仕様(特別な)によって管理される、さまざまな実世界のシナリオにますます適用されています。
我々は、この課題を仕様の整合性として定式化し、行動と安全性の両方の観点から、動的でシナリオ固有の仕様に従うLLMの能力に焦点をあてる。
本稿では,テスト時間自由度(TTD)と階層的リフレクションと仕様境界に対するリフレクションを併用した軽量な手法Align3を提案する。
- 参考スコア(独自算出の注目度): 37.41688400204914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly applied in diverse real-world scenarios, each governed by bespoke behavioral and safety specifications (spec) custom-tailored by users or organizations. These spec, categorized into safety-spec and behavioral-spec, vary across scenarios and evolve with changing preferences and requirements. We formalize this challenge as specification alignment, focusing on LLMs' ability to follow dynamic, scenario-specific spec from both behavioral and safety perspectives. To address this challenge, we propose Align3, a lightweight method that employs Test-Time Deliberation (TTD) with hierarchical reflection and revision to reason over the specification boundaries. We further present SpecBench, a unified benchmark for measuring specification alignment, covering 5 scenarios, 103 spec, and 1,500 prompts. Experiments on 15 reasoning and 18 instruct models with several TTD methods, including Self-Refine, TPO, and MoreThink, yield three key findings: (i) test-time deliberation enhances specification alignment; (ii) Align3 advances the safety-helpfulness trade-off frontier with minimal overhead; (iii) SpecBench effectively reveals alignment gaps. These results highlight the potential of test-time deliberation as an effective strategy for reasoning over the real-world specification boundaries.
- Abstract(参考訳): 大規模言語モデル(LLM)は、ユーザや組織によってカスタマイズされた、振る舞いと安全性の仕様(特別な)によって管理される、さまざまな実世界のシナリオにますます適用されています。
これらの仕様は、安全仕様と行動仕様に分類され、シナリオによって異なり、好みや要求を変更することで進化する。
我々は、この課題を仕様の整合性として定式化し、行動と安全性の両方の観点から、動的でシナリオ固有の仕様に従うLLMの能力に焦点をあてる。
この課題に対処するために、我々は、階層的なリフレクションと仕様境界に対する推論のためのリフレクションを備えたテスト時間自由度(TTD)を用いた軽量な手法であるAlign3を提案する。
さらに5つのシナリオ、103の仕様、1500のプロンプトをカバーする、仕様アライメントを測定するための統一ベンチマークであるSpecBenchを紹介します。
自己精製法、TPO法、MoreThink法を含むいくつかのTTD法を用いた15の推論モデルと18のインストラクションモデルの実験では、3つの重要な結果が得られた。
i) テストタイムの審議は仕様の整合性を高めます。
(ii) Align3 は、最小限のオーバーヘッドで、安全性を損なうトレードオフフロンティアを前進させる。
(iii)SpecBenchはアライメントギャップを効果的に明らかにする。
これらの結果は、実世界の仕様境界を推論する効果的な戦略として、テスト時の検討の可能性を強調している。
関連論文リスト
- SAEL: Leveraging Large Language Models with Adaptive Mixture-of-Experts for Smart Contract Vulnerability Detection [14.581402965011117]
スマートコントラクト脆弱性検出のためのLLMベースのフレームワークであるSAELを提案する。
まず、脆弱性を特定し、説明を生成するためにLSMを誘導するプロンプトを設計する。
次に、CodeT5とT5のプロンプトチューニングをコントラクトコードと説明処理に適用し、タスク固有のパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-07-30T04:28:00Z) - ExpertSteer: Intervening in LLMs through Expert Knowledge [71.12193680015622]
アクティベーションステアリングは、大規模言語モデルの生成プロセスを制御するための有望な方法を提供する。
本稿では、任意の専門的モデルを用いてステアリングベクトルを生成する新しいアプローチであるExpertSteerを提案する。
3つのLSMを4つの異なる領域にわたる15の人気のあるベンチマークで包括的な実験を行う。
論文 参考訳(メタデータ) (2025-05-18T08:55:46Z) - A Multi-Dimensional Constraint Framework for Evaluating and Improving Instruction Following in Large Language Models [48.361839372110246]
本研究では,制約拡張,競合検出,命令書き換えを行う自動命令生成パイプラインを開発する。
我々は、19の大規模言語モデルを評価し、制約形式間の性能のかなりの変動を明らかにする。
詳細な分析では、これらの利得は主にモデルのアテンションモジュールパラメータの変更に起因していることを示している。
論文 参考訳(メタデータ) (2025-05-12T14:16:55Z) - What is Formal Verification without Specifications? A Survey on mining LTL Specifications [5.655251163654288]
リアクティブシステムのためのデファクト標準仕様言語であるLTL(Linear Temporal Logic)のマイニング仕様の進歩をリストし比較する。
いくつかのアプローチは、仕様設計の異なる側面と設定に対処する公式を学習するために設計されている。
本研究は,現在の最先端技術について調査し,形式的手法実践者の利便性について比較する。
論文 参考訳(メタデータ) (2025-01-27T18:06:48Z) - Generating Test Scenarios from NL Requirements using Retrieval-Augmented LLMs: An Industrial Study [5.179738379203527]
本稿では,Large Language Models (LLM) を用いたRAG(Retrieval-Augmented Generation) を用いたテストシナリオ生成のための自動アプローチ(RAGTAG)を提案する。
オーストリアポストの2つの産業プロジェクトにおけるRAGTAGの評価を行い,ドイツ語と英語のバイリンガル要件について検討した。
論文 参考訳(メタデータ) (2024-04-19T10:27:40Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z) - Concretization of Abstract Traffic Scene Specifications Using Metaheuristic Search [1.9307952728103126]
AVのシナリオベースのテストに向けた第一歩として、トラフィックシナリオの初期シーンを減らさなければならない。
本稿では,車両を現実的な道路地図上に配置し,一連の抽象的制約を満たす交通シーンの促進手法を提案する。
提案手法の8つの構成を,最先端のScenicツールの3つのバリエーションと比較するために,現実的な3つの道路地図上で一連の実験を行った。
論文 参考訳(メタデータ) (2023-07-15T15:13:16Z) - OPT-IML: Scaling Language Model Instruction Meta Learning through the
Lens of Generalization [101.37439352091612]
モデルサイズとベンチマークサイズの両方をスケールする際のダウンストリームタスク性能に対する命令チューニング決定の影響について述べる。
我々は、OPT-30Bに適用された命令調整決定に関する知見を提示し、さらにこれらの知見を活用して、OPTの命令調整版であるOPT-IML 30Bと175Bを訓練する。
論文 参考訳(メタデータ) (2022-12-22T19:56:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。