Fugu-MT 論文翻訳(概要): IDSelect: A RL-Based Cost-Aware Selection Agent for Video-based Multi-Modal Person Recognition

論文の概要: IDSelect: A RL-Based Cost-Aware Selection Agent for Video-based Multi-Modal Person Recognition

arxiv url: http://arxiv.org/abs/2602.18990v1
Date: Sun, 22 Feb 2026 00:32:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.432518
Title: IDSelect: A RL-Based Cost-Aware Selection Agent for Video-based Multi-Modal Person Recognition
Title（参考訳）: IDSelect:ビデオに基づくマルチモーダル人物認識のためのRLに基づくコスト認識エージェント
Authors: Yuyang Ji, Yixuan Shen, Kien Nguyen, Lifeng Zhou, Feng Liu,
Abstract要約: IDSelectは、ビデオベースの人物認識のためのコスト対応セレクタである。俳優/批評家の強化学習を用いて、軽量エージェントをエンドツーエンドで訓練する。 95.9%のランク1の精度を達成し、92.4%は強いベースラインよりも低い。
参考スコア（独自算出の注目度）: 15.914278388641414
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video-based person recognition achieves robust identification by integrating face, body, and gait. However, current systems waste computational resources by processing all modalities with fixed heavyweight ensembles regardless of input complexity. To address these limitations, we propose IDSelect, a reinforcement learning-based cost-aware selector that chooses one pre-trained model per modality per-sequence to optimize the accuracy-efficiency trade-off. Our key insight is that an input-conditioned selector can discover complementary model choices that surpass fixed ensembles while using substantially fewer resources. IDSelect trains a lightweight agent end-to-end using actor-critic reinforcement learning with budget-aware optimization. The reward balances recognition accuracy with computational cost, while entropy regularization prevents premature convergence. At inference, the policy selects the most probable model per modality and fuses modality-specific similarities for the final score. Extensive experiments on challenging video-based datasets demonstrate IDSelect's superior efficiency: on CCVID, it achieves 95.9% Rank-1 accuracy with 92.4% less computation than strong baselines while improving accuracy by 1.8%; on MEVID, it reduces computation by 41.3% while maintaining competitive performance.
Abstract（参考訳）: 映像に基づく人物認識は、顔、体、歩行を統合することにより、堅牢な識別を実現する。しかし、現在のシステムでは、入力の複雑さに関わらず、全てのモダリティを固定重みのアンサンブルで処理することで計算資源を無駄にしている。これらの制約に対処するため、我々は強化学習に基づくコスト認識セレクタであるIDSelectを提案し、精度と効率のトレードオフを最適化するために、列毎に1つの事前学習モデルを選択する。我々の重要な洞察は、入力条件付きセレクタが、極めて少ないリソースを使用しながら、固定アンサンブルを超える補的なモデル選択を発見できるということである。 IDSelectは、予算対応の最適化とアクター批判強化学習を用いて、エンドツーエンドの軽量エージェントを訓練する。報酬は認識精度と計算コストのバランスをとり、エントロピー正則化は早めの収束を防ぐ。推論において、ポリシーはモダリティごとに最も確率の高いモデルを選択し、最終スコアに対してモダリティ固有の類似性を融合する。 CCVIDでは95.9%のランク1の精度を、強いベースラインよりも92.4%少ない計算で達成し、精度を1.8%向上させ、MEVIDでは、競争性能を維持しながら計算を41.3%削減する。

関連論文リスト

ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文参考訳（メタデータ） (2026-02-27T05:22:01Z)
Precision Autotuning for Linear Solvers via Reinforcement Learning [0.0]
本稿では,線形解法の適応的精度調整のための強化学習フレームワークを提案する。本稿では,2次精度のベースラインに匹敵する精度を維持しながら,計算コストを削減できることを示す。これはRLによる精度自動チューニングに関する最初の研究であり、目に見えないデータセット上で検証されている。
論文参考訳（メタデータ） (2026-01-02T15:59:42Z)
Mixed-Precision Conjugate Gradient Solvers with RL-Driven Precision Tuning [0.0]
本稿では,数値精度を動的に最適化する新しい強化学習(RL)フレームワークを提案する。我々はQ-ラーニングを用いてキー操作に精度レベルを適応的に割り当て、計算効率と数値精度の最適なバランスをとる。その結果, 解法の性能向上におけるRLの有効性が示され, 混合精度数値法へのRLの適用が初めて確認された。
論文参考訳（メタデータ） (2025-04-19T11:35:03Z)
Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文参考訳（メタデータ） (2025-02-25T19:08:07Z)
Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文参考訳（メタデータ） (2024-06-25T16:52:37Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
Serverless Federated AUPRC Optimization for Multi-Party Collaborative Imbalanced Data Mining [119.89373423433804]
有効指標としてAUPRC(Area Under Precision-Recall)を導入した。サーバーレスのマルチパーティ共同トレーニングは、サーバーノードのボトルネックを避けることで通信コストを削減できる。本稿では,AUPRCを直接最適化する ServerLess biAsed sTochastic gradiEnt (SLATE) アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-08-06T06:51:32Z)
Fair Feature Subset Selection using Multiobjective Genetic Algorithm [0.0]
フェアネスと精度を両立させる特徴部分選択手法を提案する。モデル性能の指標としてF1-Scoreを用いる。最も一般的なフェアネスベンチマークデータセットの実験では、進化的アルゴリズムを用いることで、フェアネスと精度のトレードオフを効果的に探索できることが示されている。
論文参考訳（メタデータ） (2022-04-30T22:51:19Z)
APQ: Joint Search for Network Architecture, Pruning and Quantization Policy [49.3037538647714]
本稿では,リソース制約のあるハードウェア上での効率的なディープラーニング推論のためのAPQを提案する。ニューラルアーキテクチャ、プルーニングポリシー、量子化ポリシーを別々に検索する従来の方法とは異なり、我々はそれらを共同で最適化する。同じ精度で、APQはMobileNetV2+HAQよりもレイテンシ/エネルギーを2倍/1.3倍削減する。
論文参考訳（メタデータ） (2020-06-15T16:09:17Z)
Triple Wins: Boosting Accuracy, Robustness and Efficiency Together by Enabling Input-Adaptive Inference [119.19779637025444]
深層ネットワークは、(クリーンな自然画像の場合)正確さと(敵対的な摂動画像の場合)頑健さの相違に直面することを最近提案された。本稿では,入力適応推論に関連するマルチエグジットネットワークについて検討し,モデル精度,ロバスト性,効率の最適化において「スイートポイント」を達成する上での強い期待を示す。
論文参考訳（メタデータ） (2020-02-24T00:40:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。