論文の概要: CountLLM: Towards Generalizable Repetitive Action Counting via Large Language Model
- arxiv url: http://arxiv.org/abs/2503.17690v1
- Date: Sat, 22 Mar 2025 08:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:36:51.287730
- Title: CountLLM: Towards Generalizable Repetitive Action Counting via Large Language Model
- Title(参考訳): CountLLM: 大規模言語モデルによる一般化可能な反復行動カウントを目指して
- Authors: Ziyu Yao, Xuxin Cheng, Zhiqi Huang, Lei Li,
- Abstract要約: 繰り返しのアクションカウントは、フィットネス監視などのビデオ分析アプリケーションに有用である。
我々は,ビデオデータと周期的テキストプロンプトを入力として取り出し,所望のカウント値を出力する,LLMに基づく最初の大規模言語モデルであるCountLLMを提案する。
本研究では,周期性の特徴を記述し,整合性を確保するために標準化された応答形式を実装した命令のための周期性ベースの構造化テンプレートを開発する。
- 参考スコア(独自算出の注目度): 21.173115602479996
- License:
- Abstract: Repetitive action counting, which aims to count periodic movements in a video, is valuable for video analysis applications such as fitness monitoring. However, existing methods largely rely on regression networks with limited representational capacity, which hampers their ability to accurately capture variable periodic patterns. Additionally, their supervised learning on narrow, limited training sets leads to overfitting and restricts their ability to generalize across diverse scenarios. To address these challenges, we propose CountLLM, the first large language model (LLM)-based framework that takes video data and periodic text prompts as inputs and outputs the desired counting value. CountLLM leverages the rich clues from explicit textual instructions and the powerful representational capabilities of pre-trained LLMs for repetitive action counting. To effectively guide CountLLM, we develop a periodicity-based structured template for instructions that describes the properties of periodicity and implements a standardized answer format to ensure consistency. Additionally, we propose a progressive multimodal training paradigm to enhance the periodicity-awareness of the LLM. Empirical evaluations on widely recognized benchmarks demonstrate CountLLM's superior performance and generalization, particularly in handling novel and out-of-domain actions that deviate significantly from the training data, offering a promising avenue for repetitive action counting.
- Abstract(参考訳): ビデオ内の周期的な動きをカウントすることを目的とした反復的アクションカウントは、フィットネスモニタリングなどのビデオ分析アプリケーションに有用である。
しかし、既存の手法は表現能力に制限のある回帰ネットワークに大きく依存しており、変動周期パターンを正確にキャプチャする能力を損なう。
さらに、狭い限られたトレーニングセットに関する教師付き学習は、過度に適合し、さまざまなシナリオにまたがる一般化能力を制限する。
これらの課題に対処するため,ビデオデータと周期的テキストプロンプトを入力とし,所望のカウント値を出力するLLMベースのフレームワークであるCountLLMを提案する。
CountLLMは、明示的なテキスト命令からの豊富なヒントと、反復的なアクションカウントのためにトレーニング済みのLLMの強力な表現能力を活用する。
CountLLM を効果的にガイドするために,周期性の特徴を記述し,整合性を確保するために標準化された応答形式を実装した命令のための周期性ベースの構造化テンプレートを開発した。
さらに,LLMの周期性認識性を高めるため,プログレッシブ・マルチモーダル・トレーニング・パラダイムを提案する。
広く認識されているベンチマークに関する実証的な評価は、CountLLMの優れたパフォーマンスと一般化を示し、特にトレーニングデータから大きく逸脱する新規なドメイン外のアクションを扱い、反復的なアクションカウントのための有望な道を提供する。
関連論文リスト
- Multimodal Large Models Are Effective Action Anticipators [10.454791411515812]
ActionLLMは、ビデオシーケンスを逐次トークンとして扱う新しいアプローチであり、将来のアクションを予測するために大規模言語モデルを活用する。
我々のベースラインモデルは、将来のトークンを設定し、アクションチューニングモジュールを導入し、テキストデコーダ層を線形層に減らし、LCMアーキテクチャを単純化する。
LLMのコモンセンス推論をさらに活用するために、観察されたフレームに対するアクションカテゴリを予測し、シーケンシャルな意味理解を導くためにシーケンシャルなテキスト手がかりを使用する。
論文 参考訳(メタデータ) (2025-01-01T10:16:10Z) - Enhancing Item Tokenization for Generative Recommendation through Self-Improvement [67.94240423434944]
生成レコメンデーションシステムは大規模言語モデル(LLM)によって駆動される
現在のアイテムトークン化手法には、テキスト記述、数値文字列、離散トークンのシーケンスの使用が含まれる。
自己改善アイテムトークン化手法を提案し,LLMがトレーニングプロセス中に独自のアイテムトークン化を洗練できるようにする。
論文 参考訳(メタデータ) (2024-12-22T21:56:15Z) - LVLM-COUNT: Enhancing the Counting Ability of Large Vision-Language Models [5.892066196730199]
大規模視覚言語モデル(LVLM)は、訓練中に遭遇する物体の数を超えるタスクを数えるのに苦労する。
分割・対数手法を用いてLVLMのカウント能力を向上し、カウント問題をサブカウントタスクに分割する。
提案手法は,様々なデータセットやベンチマークにおけるLVLMのカウント能力を向上させる。
論文 参考訳(メタデータ) (2024-12-01T05:50:22Z) - Empowering Time Series Analysis with Large Language Models: A Survey [24.202539098675953]
本稿では,大規模言語モデルを用いた時系列解析手法の体系的概要について述べる。
具体的には、まず、時系列の文脈で言語モデルを適用する際の課題とモチベーションについて述べる。
次に、既存のメソッドを異なるグループ(ダイレクトクエリ、トークン化、プロンプトデザイン、ファインチューン、モデル統合)に分類し、各グループにおける主要なアイデアを強調します。
論文 参考訳(メタデータ) (2024-02-05T16:46:35Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - ReLLa: Retrieval-enhanced Large Language Models for Lifelong Sequential Behavior Comprehension in Recommendation [43.270424225285105]
ゼロショットと少数ショットのレコメンデーションタスクのために、純粋に大きな言語モデルを適応し、強化することに重点を置いています。
ゼロショット設定と少数ショット設定の両方でレコメンデーションタスクを行うRetrieval-enhanced Large Language Model (ReLLa)を提案する。
論文 参考訳(メタデータ) (2023-08-22T02:25:04Z) - Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。
驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文 参考訳(メタデータ) (2023-07-10T17:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。