論文の概要: EmoLoom-2B: Fast Base-Model Screening for Emotion Classification and VAD with Lexicon-Weak Supervision and KV-Off Evaluation
- arxiv url: http://arxiv.org/abs/2601.01112v1
- Date: Sat, 03 Jan 2026 08:25:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.036055
- Title: EmoLoom-2B: Fast Base-Model Screening for Emotion Classification and VAD with Lexicon-Weak Supervision and KV-Off Evaluation
- Title(参考訳): EmoLoom-2B: Lexicon-Weak SupervisionとKV-Off Evaluationによる感情分類とVADのための高速ベースモデルスクリーニング
- Authors: Zilin Li, Weiwei Xu, Xuanbo Lu, Zheda Liu,
- Abstract要約: EmoLoom-2Bは2Bパラメータ以下の小さな言語モデルを、感情分類とValence-Arousal-Dominance予測のための高速なスクリーニング候補に変換する。
プロトコルに忠実で公平な評価を保証するため,単一入力出力契約の下でデータのロード,トレーニング,推論を統一する。
- 参考スコア(独自算出の注目度): 14.702916401734916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce EmoLoom-2B, a lightweight and reproducible pipeline that turns small language models under 2B parameters into fast screening candidates for joint emotion classification and Valence-Arousal-Dominance prediction. To ensure protocol-faithful and fair evaluation, we unify data loading, training, and inference under a single JSON input-output contract and remove avoidable variance by adopting KV-off decoding as the default setting. We incorporate two orthogonal semantic regularizers: a VAD-preserving constraint that aligns generated text with target VAD triples, and a lightweight external appraisal classifier that provides training-time guidance on goal attainment, controllability, certainty, and fairness without injecting long rationales. To improve polarity sensitivity, we introduce Valence Flip augmentation based on mirrored emotional pairs. During supervised fine-tuning, we apply A/B mixture sampling with entropy-aware temperature scheduling to balance coverage and convergence. Using Qwen-1.8B-Chat as the base model, EmoLoom-2B achieves strong performance on GoEmotions and EmpatheticDialogues, and demonstrates robust cross-corpus generalization on DailyDialog. The proposed recipe is budget-aware, auditable, and re-entrant, serving as a dependable screening pass before heavier training or multimodal fusion.
- Abstract(参考訳): EmoLoom-2Bは2Bパラメータ以下で小さな言語モデルを高速なスクリーニング候補に変換する軽量かつ再現可能なパイプラインであり,Valence-Arousal-Dominance予測を行う。
プロトコルに忠実で公平な評価を保証するため、単一のJSON入出力契約の下でデータのロード、トレーニング、推論を統一し、デフォルト設定としてKV-offデコーディングを採用することで回避可能な分散を取り除く。
2つの直交的意味正規化器を組み込む: 生成したテキストをターゲットのVAD三重項と整列するVAD保存制約と、目標達成、制御可能性、確実性、公正性に関するトレーニングタイムガイダンスを提供する軽量な外部評価分類器である。
極性感度を向上させるために,鏡付き感情対に基づくヴァレンスフリップ拡張を導入する。
教師付き微調整中, エントロピーを考慮した温度スケジューリングとA/B混合サンプリングを適用し, カバー率と収束率のバランスをとる。
Qwen-1.8B-Chat をベースモデルとして、EmoLoom-2B は GoEmotions と EmpatheticDialogues で強い性能を発揮し、DailyDialog 上で堅牢なクロスコーパスの一般化を示す。
提案したレシピは、より重いトレーニングやマルチモーダル融合の前に、信頼性の高いスクリーニングパスとして機能する予算対応、監査可能、再エントリーである。
関連論文リスト
- Rethinking Preference Alignment for Diffusion Models with Classifier-Free Guidance [8.038055165320195]
ベースモデルを再訓練することなくアライメントを改善する簡単な手法を提案する。
一般化をさらに高めるため、選好学習を正と負のデータに基づいて訓練された2つのモジュールに分離する。
我々はPick-a-Pic v2およびHPDv3を用いた安定拡散1.5および安定拡散XLの評価を行い、一貫した定量的および定性的な利得を示した。
論文 参考訳(メタデータ) (2026-02-21T11:18:52Z) - K-Sort Eval: Efficient Preference Evaluation for Visual Generation via Corrected VLM-as-a-Judge [51.93484138861584]
視覚生成モデルの急速な開発により、よりスケーラブルで人間に合わせた評価方法の必要性が高まっている。
K-Sort Evalは,後方補正と動的マッチングを統合した信頼性と効率的なVLMに基づく評価フレームワークである。
実験の結果、K-Sort EvalはK-Sort Arenaと一致した評価結果を提供する。
論文 参考訳(メタデータ) (2026-02-10T05:07:46Z) - Fine-tuning Pre-trained Vision-Language Models in a Human-Annotation-Free Manner [46.140724013144194]
CLIPのような大規模視覚言語モデル(VLM)は、ゼロショットの強い一般化を示すが、下流のタスクに適応するためには通常、コストのかかるラベル付きデータを必要とする。
既存の教師なしの自己学習手法は擬似ラベル化に依存しているが、信頼できない信頼度フィルタリング、確認バイアス、低信頼サンプルの未利用に悩まされることが多い。
我々は,デュアルモデル,クロスモーダル協調機構を通じてラベルのないデータを活用する,教師なし適応フレームワークであるCollaborative Fine-Tuning (CoFT)を提案する。
論文 参考訳(メタデータ) (2026-02-04T09:00:12Z) - Non-Contrastive Vision-Language Learning with Predictive Embedding Alignment [12.336161969869567]
分布正規化を伴う共同埋め込み予測に基づくNOn-contrastive Vision-Language AlignmentフレームワークであるNOVAを紹介する。
テキストエンコーダとしてCeriorBERTとMIMIC-CXRでスクラッチからトレーニングしたビジョントランスフォーマーを用いて,ゼロショット胸部X線分類におけるNOVAの評価を行った。
本研究は,非コントラスト的視覚言語事前学習が,コントラスト的手法よりもシンプルで,より安定的で,より効果的な代替手段を提供することを示す。
論文 参考訳(メタデータ) (2026-01-31T10:57:46Z) - Cross-modal Proxy Evolving for OOD Detection with Vision-Language Models [59.242742594156546]
CoEvoは、テキストプロキシとビジュアルプロキシの両方を双方向でサンプル条件で適応するテストタイムフレームワークである。
CoEvoは最先端のパフォーマンスを実現し、AUROCを1.33%改善し、ImageNet-1KではFPR95を45.98%削減した。
論文 参考訳(メタデータ) (2026-01-13T12:08:26Z) - HADSF: Aspect Aware Semantic Control for Explainable Recommendation [4.75127493865044]
大規模言語モデル(LLM)の最近の進歩は、推薦システムに対してより効果的な情報抽出を約束している。
本稿では,適応選択によるコンパクトなコーパスレベルのアスペクトボキャブラリを誘導し,構造化アスペクトオピニオン三重項のボキャブラリ誘導,明示的に制約された抽出を行う2段階アプローチを提案する。
1.5B-70Bパラメータにまたがる約300万のレビューに関する実験では、標準評価予測器に統合された場合、HADSFは予測エラーを一貫して減少させる。
論文 参考訳(メタデータ) (2025-10-30T20:49:33Z) - Aligning Diffusion Language Models via Unpaired Preference Optimization [3.5258364450686623]
拡散言語モデル(dLLMs)は、自己回帰(AR)ジェネレータに代わる新たな選択肢である。
ELBO-KTOは,拡散対数類似度に対するELBOサロゲートと,予測理論的,未選択の選好目的を組み合わせて導入する。
論文 参考訳(メタデータ) (2025-10-26T03:02:39Z) - Token-Level Inference-Time Alignment for Vision-Language Models [58.41370989069588]
VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。
本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。
推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
論文 参考訳(メタデータ) (2025-10-20T09:58:03Z) - ACD-CLIP: Decoupling Representation and Dynamic Fusion for Zero-Shot Anomaly Detection [21.26826497960086]
ゼロショット異常検出(ZSAD)によるVLMの事前訓練
パラメータ効率のよい畳み込み型低ランク適応 (Conv-LoRA) アダプタを提案する。
また、テキストプロンプトを適応的に変調するために視覚的コンテキストを活用する動的フュージョンゲートウェイ(DFG)を導入する。
論文 参考訳(メタデータ) (2025-08-11T10:03:45Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Interactive Test-Time Adaptation with Reliable Spatial-Temporal Voxels for Multi-Modal Segmentation [56.70910056845503]
マルチモーダルテストタイム適応(MM-TTA)は、補完的なマルチモーダル入力をオンライン形式で活用することにより、ラベルのないターゲットドメインにモデルを適応させる。
従来のMM-TTA法は, 時間的不整合によるフレームワイドの不安定な予測と, 信頼度誘導の仮定に反する不正確な予測の2つの大きな限界に悩まされていた。
Latte++は、より情報的な幾何学的対応によって不安定なフレーム単位の予測をより抑制し、対話型テスト時間適応(ITTA)は、努力を伴わない人間のフィードバックを促進するフレキシブルなアドオンである。
論文 参考訳(メタデータ) (2024-03-11T06:56:08Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。