Fugu-MT 論文翻訳(概要): Test-Time Compute for Dense Retrieval: Agentic Program Generation with Frozen Embedding Models

論文の概要: Test-Time Compute for Dense Retrieval: Agentic Program Generation with Frozen Embedding Models

arxiv url: http://arxiv.org/abs/2605.11374v2
Date: Wed, 13 May 2026 00:56:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-14 17:13:58.881569
Title: Test-Time Compute for Dense Retrieval: Agentic Program Generation with Frozen Embedding Models
Title（参考訳）: 密度検索のためのテスト時間計算:凍結埋め込みモデルによるエージェントプログラム生成
Authors: Han Xiao,
Abstract要約: テストタイム計算は大きな推論モデルにしか利益がないと広く信じられている。また、小さな埋め込みモデルにも役立ちます。エージェントプログラム探索ループを用いて,凍結埋め込みAPI上で259個の候補推論プログラムを探索する。
参考スコア（独自算出の注目度）: 5.943245848892104
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Test-time compute is widely believed to benefit only large reasoning models. We show it also helps small embedding models. Since modern embedding models are distilled from LLM backbones, a frozen encoder should benefit from extra inference compute without retraining. Using an agentic program-search loop, we explore 259 candidate inference programs over a frozen embedding API across ninety generations. The entire Pareto frontier collapses onto a single algebra: a softmax-weighted centroid of the local top-K documents interpolated with the query. This default, which introduces no trainable parameters, lifts nDCG@10 statistically significantly across seven embedding-model families spanning a tenfold parameter range, with held-out full-BEIR validation confirming the lift on every model tested.
Abstract（参考訳）: テストタイム計算は大きな推論モデルにしか利益がないと広く信じられている。また、小さな埋め込みモデルにも役立ちます。現代の埋め込みモデルはLLMバックボーンから蒸留されるので、冷凍エンコーダは再トレーニングせずに余分な推論計算の恩恵を受けるだろう。エージェントプログラム探索ループを用いて,90世代にわたる凍結埋込API上で259個の候補推論プログラムを探索する。パレートフロンティア全体が1つの代数に崩壊し、局所的なトップK文書のソフトマックス重み付きセントロイドがクエリに補間される。このデフォルトはトレーニング可能なパラメータを導入せず、nDCG@10を10倍のパラメータ範囲にまたがる7つの埋め込みモデルファミリで統計的に格上げする。

関連論文リスト

Rethinking Reward Models for Multi-Domain Test-Time Scaling [91.76069784586149]
従来の作業では、プロセス報酬モデル(PRM)が最終回答のみを評価する結果報酬モデル(ORM)を上回っていると仮定しています。 14の異なる領域にまたがる4つの報酬モデル変種を統一的に評価する。 LLMの自動ラベル付けからラベルノイズを継承し,長い推論軌跡の評価に難渋するPRM方式の段階的スコアリングが原因と考えられる。
論文参考訳（メタデータ） (2025-10-01T04:21:14Z)
Performance of Machine Learning Classifiers for Anomaly Detection in Cyber Security Applications [0.1601392577755919]
この研究は、2つの不均衡なパブリックデータセット上の機械学習モデルを実証的に評価する。テスト対象はeXtreme Gradient Boosting (XGB) と Multi Layer Perceptron (MLP) である。 IterativeImputerの結果は平均値と中央値に匹敵するが、複雑性と実行時間の増加のために大規模なデータセットには推奨されない。
論文参考訳（メタデータ） (2025-04-26T02:43:27Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
Fitting networks with a cancellation trick [7.289672463326423]
新しいネットワークモデルとしてlogit-DCBMを提案する。 $beta$-model や LSM と同様に、logit-DCBM には非線形因子が含まれており、パラメータの適合は困難である。 R-SCOREは、多くの場合、既存のスペクトルアプローチよりも大幅に改善される。
論文参考訳（メタデータ） (2025-02-23T21:51:34Z)
ProofAug: Efficient Neural Theorem Proving via Fine-grained Proof Structure Analysis [50.020850767257095]
本稿では,LLMに様々な粒度で自動化手法を付加するProofAugを提案する。本手法は,オープンソースのDeep-math-7bベースモデルとIsabelle証明アシスタントを用いて,MiniF2Fベンチマークで検証した。また、ProofAugのLean 4バージョンを実装し、Kimina-Prover-seek-Distill-1.5Bのパス@1のパフォーマンスを44.3%から50.4%に改善します。
論文参考訳（メタデータ） (2025-01-30T12:37:06Z)
Finding Needles in Emb(a)dding Haystacks: Legal Document Retrieval via Bagging and SVR Ensembles [51.0691253204425]
本稿では,サポートベクタ回帰アンサンブル,ブートストラップアグリゲーション(バッグ),およびドイツ法情報検索データベース(GerDaLIR)への埋め込み空間を利用した検索手法を提案する。投票アンサンブルを用いてベースライン上のリコールの改善を示し、トレーニングやディープラーニングモデルを微調整することなく、有望な初期結果を提案する。
論文参考訳（メタデータ） (2025-01-09T07:21:44Z)
Zeroth-Order Adaptive Neuron Alignment Based Pruning without Re-Training [7.972074133591484]
我々は, LLMの任意のプルーニングアルゴリズム上で使用可能な, エフェストアップアルゴリズムである textbfNeuroAl を提案する。我々の手法は、パフォーマンス・ランタイムトレードオフの観点から最新の最先端手法よりも一貫して優れています。
論文参考訳（メタデータ） (2024-11-11T15:30:16Z)
TACRED Revisited: A Thorough Evaluation of the TACRED Relation Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つであるパフォーマンスの天井に到達したのか、改善の余地はあるのか? ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文参考訳（メタデータ） (2020-04-30T15:07:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。