論文の概要: Captioning Daily Activity Images in Early Childhood Education: Benchmark and Algorithm
- arxiv url: http://arxiv.org/abs/2604.01941v1
- Date: Thu, 02 Apr 2026 12:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.763925
- Title: Captioning Daily Activity Images in Early Childhood Education: Benchmark and Algorithm
- Title(参考訳): 幼児期教育における日常活動画像のキャプション:ベンチマークとアルゴリズム
- Authors: Sixing Li, Zhibin Gu, Ziqi Zhang, Weiguo Pan, Bing Li, Ying Wang, Hongzhe Liu,
- Abstract要約: 専門家レベルのキャプションと細粒度ラベルを付加した256,121個の実世界の画像からなる,ECE日々の活動イメージキャプションのための大規模ベンチマークECACを紹介する。
本稿では,RSRS(Reward-Conditional Switch of Reinforcement Learning and Supervised Fine-Tuning)を提案する。
我々のモデルは51.06のTSを実現し,優れたキャプション品質を維持しつつ,最先端のベースラインを大幅に上回っている。
- 参考スコア(独自算出の注目度): 15.316492518665827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image captioning for Early Childhood Education (ECE) is essential for automated activity understanding and educational assessment. However, existing methods face two key challenges. First, the lack of large-scale, domain-specific datasets limits the model's ability to capture fine-grained semantic concepts unique to ECE scenarios, resulting in generic and imprecise descriptions. Second, conventional training paradigms exhibit limitations in enhancing professional object description capability, as supervised learning tends to favor high-frequency expressions, while reinforcement learning may suffer from unstable optimization on difficult samples. To address these limitations, we introduce ECAC, a large-scale benchmark for ECE daily activity image captioning, comprising 256,121 real-world images annotated with expert-level captions and fine-grained labels. ECAC is further equipped with a domain-oriented evaluation protocol, the Teaching Toy Recognition Score (TTS), to explicitly measure professional object naming accuracy. Furthermore, we propose RSRS (Reward-Conditional Switch of Reinforcement Learning and Supervised Fine-Tuning), a hybrid training framework that dynamically alternates between RL and supervised optimization. By rerouting hard samples with zero rewards to supervised fine-tuning, RSRS effectively mitigates advantage collapse and enables stable optimization for fine-grained recognition. Leveraging ECAC and RSRS, we develop KinderMM-Cap-3B, a domain-adapted multimodal large language model. Extensive experiments demonstrate that our model achieves a TTS of 51.06, substantially outperforming state-of-the-art baselines while maintaining superior caption quality, highlighting its potential for specialized educational applications.
- Abstract(参考訳): 幼児教育(ECE)のイメージキャプションは,活動理解と教育評価の自動化に不可欠である。
しかし、既存の手法は2つの大きな課題に直面している。
まず、大規模なドメイン固有のデータセットの欠如により、ECEシナリオ固有のきめ細かいセマンティックな概念をキャプチャする能力が制限され、結果として汎用的で不正確な記述が生まれます。
第二に、従来の訓練パラダイムは、教師付き学習が高周波表現を好む傾向にあるのに対して、強化学習は難しいサンプルに対して不安定な最適化に悩まされるため、プロのオブジェクト記述能力の向上の限界を示す。
これらの制約に対処するため,専門レベルのキャプションと細粒度ラベルを付加した256,121個の実世界の画像からなる,ECEの日常活動画像キャプションのための大規模ベンチマークECACを導入する。
ECACはさらにドメイン指向評価プロトコルであるTTS(Teaching Toy Recognition Score)を備えており、プロのオブジェクトの命名精度を明示的に測定する。
さらに,RSRS(Reward-Conditional Switch of Reinforcement Learning and Supervised Fine-Tuning)を提案する。
厳密なサンプルを無報酬でリルートして教師付き微調整を行うことで、RSRSは有利な崩壊を効果的に軽減し、微粒化認識のための安定した最適化を可能にする。
ECACとRSRSを活用し,ドメイン適応型マルチモーダル言語モデルであるKinderMM-Cap-3Bを開発した。
大規模な実験により,我々のモデルは51.06のTSを達成し,優れたキャプション品質を維持しつつ,最先端のベースラインを著しく上回り,専門的な教育応用の可能性を強調した。
関連論文リスト
- Specific Emitter Identification via Active Learning [15.523945888913941]
本稿では,アクティブラーニング(AL)によって強化されたSEIアプローチを提案する。
第1段階では、ラベルのないデータからロバストな表現を抽出する動的辞書更新機構を自己教師付きコントラスト学習に適用する。
第2段階では、小さなラベル付きデータセットの教師付きトレーニングが行われ、コントラストとクロスエントロピーの損失を共同最適化して特徴分離性を向上させる。
第3段階では、ALモジュールは、不確実性と代表性基準に基づいて、未ラベルデータから最も価値のあるサンプルをアノテーションとして選択する。
論文 参考訳(メタデータ) (2026-01-08T02:16:04Z) - Vision Large Language Models Are Good Noise Handlers in Engagement Analysis [54.397912827957164]
本稿では,VLM(Vision Large Language Models)を利用したアノテーションの洗練とトレーニングプロセスの指導を行うフレームワークを提案する。
本フレームワークでは,行動手がかりを抽出し,データを高信頼性サブセットと低信頼性サブセットに分割する。
改良された高信頼性サブセットで訓練された古典型コンピュータビジョンモデルは,カリキュラム戦略により強化され,改善されたことを示す。
論文 参考訳(メタデータ) (2025-11-18T18:50:26Z) - CSE-SFP: Enabling Unsupervised Sentence Representation Learning via a Single Forward Pass [3.0566617373924325]
プレトレーニング言語モデル(PLM)の最近の進歩は、この分野において顕著な進歩をもたらした。
CSE-SFPは,生成モデルの構造的特徴を利用する革新的な手法である。
CSE-SFPは高品質な埋め込みを実現するだけでなく、トレーニング時間とメモリ消費を著しく削減する。
論文 参考訳(メタデータ) (2025-05-01T08:27:14Z) - Crossing the Reward Bridge: Expanding RL with Verifiable Rewards Across Diverse Domains [92.36624674516553]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の数学的推論と符号化性能の向上に成功している。
本稿では,医学,化学,心理学,経済学,教育など,さまざまな現実世界領域におけるRLVRの有効性と拡張性について検討する。
我々は,2値検証による制限を克服するために,ソフトなモデルに基づく報酬信号を生成する生成的スコアリング手法を利用する。
論文 参考訳(メタデータ) (2025-03-31T08:22:49Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Efficient Prompt Tuning of Large Vision-Language Model for Fine-Grained Ship Classification [59.99976102069976]
リモートセンシング(RS-FGSC)における船のきめ細かい分類は、クラス間の高い類似性とラベル付きデータの限られた可用性のために大きな課題となる。
大規模な訓練済みビジョンランゲージモデル(VLM)の最近の進歩は、少数ショット学習やゼロショット学習において印象的な能力を示している。
本研究は, 船種別分類精度を高めるために, VLMの可能性を生かしたものである。
論文 参考訳(メタデータ) (2024-03-13T05:48:58Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。