Fugu-MT 論文翻訳(概要): Learning to Stop Overthinking at Test Time

論文の概要: Learning to Stop Overthinking at Test Time

arxiv url: http://arxiv.org/abs/2502.10954v2
Date: Tue, 18 Feb 2025 03:41:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 13:32:01.336754
Title: Learning to Stop Overthinking at Test Time
Title（参考訳）: テスト時間でやり直しをやめることを学ぶ
Authors: Hieu Tran Bao, Nguyen Cong Dat, Nguyen Duc Anh, Hoang Thanh-Tung,
Abstract要約: テスト時間のスケーリングは、トレーニング時間のスケーリングが限界に達した後に約束される、最も活発な研究領域の1つです。テスト時間における各サンプルに必要な最適な計算量を決定するためのテスト時間トレーニング手法を提案する。また,より効率的かつ堅牢な視覚推論のための新しい繰り返しアーキテクチャであるConv-LiGRUを提案する。
参考スコア（独自算出の注目度）: 1.0356759327536202
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Test time scaling is currently one of the most active research areas that shows promise after training time scaling has reached its limits. Deep-thinking (DT) models are a class of recurrent models that can perform easy-to-hard generalization by assigning more compute to harder test samples. However, due to their inability to determine the complexity of a test sample, DT models have to use a large amount of computation for both easy and hard test samples. Excessive test time computation is wasteful and can cause the ``overthinking'' problem where more test time computation leads to worse results. In this paper, we introduce a test time training method for determining the optimal amount of computation needed for each sample during test time. We also propose Conv-LiGRU, a novel recurrent architecture for efficient and robust visual reasoning. Extensive experiments demonstrate that Conv-LiGRU is more stable than DT, effectively mitigates the ``overthinking'' phenomenon, and achieves superior accuracy.
Abstract（参考訳）: テスト時間のスケーリングは現在、トレーニングタイムのスケーリングが限界に達した後に約束される、最も活発な研究領域の1つです。ディープ・シンキング(Deep-thinking、DT)モデルは、より難しいテストサンプルにより多くの計算を割り当てることによって、容易にハードな一般化を行うことができる反復モデルのクラスである。しかし、テストサンプルの複雑さを判断できないため、DTモデルは簡単なテストサンプルと難しいテストサンプルの両方に大量の計算を使わなければならない。過剰なテスト時間計算は無駄であり、より多くのテスト時間計算がより悪い結果をもたらす‘過剰な考え’問題を引き起こす可能性がある。本稿では,テスト時間における各試料に必要な最適な計算量を決定するためのテスト時間トレーニング手法を提案する。また,より効率的かつ堅牢な視覚推論のための新しい繰り返しアーキテクチャであるConv-LiGRUを提案する。大規模な実験により、Conv-LiGRUはDTよりも安定であり、「過剰思考」現象を効果的に緩和し、精度が向上することが示された。

関連論文リスト

Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
Scaling Test-Time Compute Without Verification or RL is Suboptimal [70.28430200655919]
RL法や検索法に基づく検証器ベース (VB) 手法による微調整は, 一定量の計算・データ予算を条件として, 蒸留・クローニングに基づく検証器フリー (VF) 手法よりもはるかに優れていることを示す。我々は,3/8Bの事前学習型LLMのドクティクスと数学推論の両問題に対して,我々の理論を実証的に相関させ,テスト時間計算のスケーリングには検証が不可欠であることを確認した。
論文参考訳（メタデータ） (2025-02-17T18:43:24Z)
Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning [32.45574194957491]
クロスエントロピー損失のあるトレーニングは、パス@Nのパス@Nの精度$itは、長いトレーニングで$$を下げることを示す。モデル信頼性を制限し、pass@Nテストのパフォーマンスを回復することにより、pass@Nに整合した、原則化された修正されたトレーニング損失を提案する。
論文参考訳（メタデータ） (2025-02-11T00:33:31Z)
Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文参考訳（メタデータ） (2024-12-30T18:55:12Z)
Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parameters [27.656263126925815]
LLMにおける推論時間計算のスケーリングについて検討する。どちらの場合も、テスト時間計算のスケーリングに対する異なるアプローチの有効性は、プロンプトの難しさによって大きく異なることがわかった。
論文参考訳（メタデータ） (2024-08-06T17:35:05Z)
Precise Error Rates for Computationally Efficient Testing [75.63895690909241]
本稿では,計算複雑性に着目した単純な対数-単純仮説テストの問題を再考する。線形スペクトル統計に基づく既存の試験は、I型とII型の誤差率の間の最良のトレードオフ曲線を達成する。
論文参考訳（メタデータ） (2023-11-01T04:41:16Z)
Robust Test-Time Adaptation in Dynamic Scenarios [9.475271284789969]
テスト時適応(TTA)は、未ラベルのテストデータストリームのみを用いて、事前訓練されたモデルを分散をテストすることを目的としている。 PTTAの複雑なデータストリームに対してロバストテスト時間適応法(RoTTA)を精査する。私たちのメソッドは実装が簡単で、迅速なデプロイメントに適しています。
論文参考訳（メタデータ） (2023-03-24T10:19:14Z)
Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文参考訳（メタデータ） (2022-12-14T18:08:42Z)
Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文参考訳（メタデータ） (2022-04-06T06:39:40Z)
Significance tests of feature relevance for a blackbox learner [6.72450543613463]
ブラックボックス学習者の特徴関連性に関する2つの一貫した試験を導出する。第1は、推論サンプルの摂動による損失差を評価する。 2つ目は推論サンプルを2つに分割するが、データの摂動は必要ない。
論文参考訳（メタデータ） (2021-03-02T00:59:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。