論文の概要: RTTC: Reward-Guided Collaborative Test-Time Compute
- arxiv url: http://arxiv.org/abs/2508.10024v1
- Date: Thu, 07 Aug 2025 21:18:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.019929
- Title: RTTC: Reward-Guided Collaborative Test-Time Compute
- Title(参考訳): RTTC: Reward-Guided Collaborative Test-Time Compute
- Authors: J. Pablo Muñoz, Jinjie Yuan,
- Abstract要約: Test-Time Compute (TTC) は,Large Language Models (LLM) の性能向上のための強力なパラダイムとして登場した。
Reward-Guided Test-Time Compute (RTTC) は、クエリ毎に最も効果的なTTC戦略を適応的に選択する新しいフレームワークである。
RTTCは分散サーバクライアントアーキテクチャで動作し、リモートの知識ベースから関連するサンプルを取得し、RAGまたはクライアントデバイスに軽量な微調整を適用する。
- 参考スコア(独自算出の注目度): 0.9208007322096533
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Test-Time Compute (TTC) has emerged as a powerful paradigm for enhancing the performance of Large Language Models (LLMs) at inference, leveraging strategies such as Test-Time Training (TTT) and Retrieval-Augmented Generation (RAG). However, the optimal adaptation strategy varies across queries, and indiscriminate application of TTC strategy incurs substantial computational overhead. In this work, we introduce Reward-Guided Test-Time Compute (RTTC), a novel framework that adaptively selects the most effective TTC strategy for each query via a pretrained reward model, maximizing downstream accuracy across diverse domains and tasks. RTTC operates in a distributed server-client architecture, retrieving relevant samples from a remote knowledge base and applying RAG or lightweight fine-tuning on client devices only when necessary. To further mitigate redundant computation, we propose Query-State Caching, which enables the efficient reuse of historical query states at both retrieval and adaptation levels. Extensive experiments across multiple LLMs and benchmarks demonstrate that RTTC consistently achieves superior accuracy compared to vanilla RAG or TTT, validating the necessity of adaptive, reward-guided TTC selection and the potential of RTTC for scalable, high-performance language model adaptation.
- Abstract(参考訳): テスト時計算(TTC)は,テスト時トレーニング(TTT)や検索時生成(RAG)といった戦略を活用して,大規模言語モデル(LLM)の性能向上のための強力なパラダイムとして登場した。
しかし、最適適応戦略はクエリによって異なり、TTC戦略の非差別的な適用は、かなりの計算オーバーヘッドを引き起こす。
本稿では,RTTC(Reward-Guided Test-Time Compute)を提案する。このフレームワークは,事前トレーニングされた報酬モデルを用いて,クエリ毎に最も効果的なTTC戦略を適応的に選択し,さまざまなドメインやタスクの下流精度を最大化する。
RTTCは分散サーバクライアントアーキテクチャで動作し、リモートの知識ベースから関連するサンプルを取得し、RAGまたはクライアントデバイスに軽量な微調整を適用する。
そこで本稿では,検索と適応の両レベルでの履歴クエリ状態の効率的な再利用を可能にするクエリ・ステート・キャッシュを提案する。
RTTCは、適応的、報酬誘導型TTC選択の必要性と、スケーラブルで高性能な言語モデル適応のためのRTTCの可能性を検証する。
関連論文リスト
- Test-time Correlation Alignment [2.389598109913754]
テスト時間適応(TTA)は、ラベルのないテストデータのみを使用して適応する。
テスト時間相関アライメント(TCA)は、理論的保証でテスト性能を向上させることができる。
LinearTCAは、追加のモデル更新なしでインスタンスと相関アライメントの両方を達成するために、単純な線形変換を適用します。
LinearTCA+は、既存のTTAメソッドを簡単に強化できるプラグイン・アンド・プレイモジュールとして機能する。
論文 参考訳(メタデータ) (2025-05-01T13:59:13Z) - LoRA-TTT: Low-Rank Test-Time Training for Vision-Language Models [23.218237408724676]
視覚言語モデル(VLM)のための新しいテスト時間訓練(TTT)法であるLoRA-TTTを提案する。
テスト期間中にLoRAを導入し,パラメータのみを更新することにより,本手法は単純かつ効果的なTTTアプローチを提供する。
本手法は,メモリ消費や実行量を増やすことなく,これらの2つの損失を組み合わせ,多様な領域に適応することができる。
論文 参考訳(メタデータ) (2025-02-04T07:40:26Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - IT$^3$: Idempotent Test-Time Training [95.78053599609044]
ディープラーニングモデルは、トレーニングデータとテストデータの間の分散シフトのために、現実世界の環境にデプロイする際に苦労することが多い。
Idempotent Test-Time Training (IT$3$) は、現在のテストインスタンスのみを使用して、分散シフトへのオンザフライ適応を可能にする新しいアプローチである。
この結果から,イデオポテンスはドメインやアーキテクチャをまたいで一般化するテスト時間適応の普遍的原理を提供すると考えられる。
論文 参考訳(メタデータ) (2024-10-05T15:39:51Z) - pSTarC: Pseudo Source Guided Target Clustering for Fully Test-Time
Adaptation [15.621092104244003]
テスト時間適応(TTA)は機械学習において重要な概念であり、モデルが現実世界のシナリオでうまく機能することを可能にする。
そこで本研究では,TTAの比較的未探索領域を実世界のドメインシフト下で解決する手法として,擬似ソースガイドターゲットクラスタリング(pSTarC)を提案する。
論文 参考訳(メタデータ) (2023-09-02T07:13:47Z) - Benchmarking Test-Time Adaptation against Distribution Shifts in Image
Classification [77.0114672086012]
テスト時間適応(TTA)は、予測時にのみラベルのないサンプルを活用することにより、モデルの一般化性能を向上させる技術である。
本稿では,広く使用されている5つの画像分類データセット上で,13のTTA手法とその変種を体系的に評価するベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T16:59:53Z) - Improved Test-Time Adaptation for Domain Generalization [48.239665441875374]
テストタイムトレーニング(TTT)は、学習したモデルにテストデータを適用する。
この作業は2つの主な要因に対処する: テストフェーズ中にアップデートする信頼性のあるパラメータを更新および識別するための適切な補助的TTTタスクを選択する。
トレーニングされたモデルに適応パラメータを追加し、テストフェーズでのみ適応パラメータを更新することを提案する。
論文 参考訳(メタデータ) (2023-04-10T10:12:38Z) - Revisiting Realistic Test-Time Training: Sequential Inference and
Adaptation by Anchored Clustering Regularized Self-Training [37.75537703971045]
テスト時アンカークラスタリング(TTAC)アプローチを開発し,より強力なテスト時特徴学習を実現する。
自己学習(ST)はラベルのないデータから学ぶ上で大きな成功を収めた。
TTAC++は、5つのTTデータセットの最先端メソッドを一貫して上回る。
論文 参考訳(メタデータ) (2023-03-20T04:30:18Z) - Revisiting Realistic Test-Time Training: Sequential Inference and
Adaptation by Anchored Clustering [37.76664203157892]
テスト時アンカークラスタリング(TTAC)アプローチを開発し,より強力なテスト時特徴学習を実現する。
TTACはソースドメインとターゲットドメインの両方のクラスタを検出し、ターゲットクラスタとソースクラスタを一致させて、一般化を改善する。
すべてのTTプロトコルにおいて,TTACは5つのTTデータセットの最先端手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-06-06T16:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。