Fugu-MT 論文翻訳(概要): Fine-Tuning Qwen 2.5 3B for Realistic Movie Dialogue Generation

論文の概要: Fine-Tuning Qwen 2.5 3B for Realistic Movie Dialogue Generation

arxiv url: http://arxiv.org/abs/2502.16274v1
Date: Sat, 22 Feb 2025 16:00:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.072665
Title: Fine-Tuning Qwen 2.5 3B for Realistic Movie Dialogue Generation
Title（参考訳）: 実写映画対話のための微調整Qwen 2.5 3B
Authors: Kartik Gupta,
Abstract要約: Alibaba Groupが開発したQwen 2.5シリーズは、小さなオープンソースの事前訓練モデルの最前線にある。その結果、小型モデルが高品質でリアルな対話を実現する能力を示し、リアルタイムで文脈に敏感な会話生成に有望なアプローチを提供する。
参考スコア（独自算出の注目度）: 4.884240342385462
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The Qwen 2.5 3B base model was fine-tuned to generate contextually rich and engaging movie dialogue, leveraging the Cornell Movie-Dialog Corpus, a curated dataset of movie conversations. Due to the limitations in GPU computing and VRAM, the training process began with the 0.5B model progressively scaling up to the 1.5B and 3B versions as efficiency improvements were implemented. The Qwen 2.5 series, developed by Alibaba Group, stands at the forefront of small open-source pre-trained models, particularly excelling in creative tasks compared to alternatives like Meta's Llama 3.2 and Google's Gemma. Results demonstrate the ability of small models to produce high-quality, realistic dialogue, offering a promising approach for real-time, context-sensitive conversation generation.
Abstract（参考訳）: Qwen 2.5 3Bベースモデルは、映画会話のキュレートされたデータセットであるCornel Movie-Dialog Corpusを利用して、文脈的に豊かで魅力的な映画対話を生成するために微調整された。 GPUコンピューティングとVRAMの制限のため、トレーニングプロセスは0.5Bモデルから1.5Bと3Bバージョンまで徐々に拡大し、効率の改善が実現された。 Alibaba Groupが開発したQwen 2.5シリーズは、小さなオープンソースの事前訓練モデルの最前線にあり、特にMetaのLlama 3.2やGoogleのGemmaのような代替製品と比較して、クリエイティブなタスクに優れている。その結果、小型モデルが高品質でリアルな対話を実現する能力を示し、リアルタイムで文脈に敏感な会話生成に有望なアプローチを提供する。

関連論文リスト

Predicting Brain Responses To Natural Movies With Multimodal LLMs [0.881196878143281]
We present MedARC's team solution to the Algonauts 2025 Challenge。我々のパイプラインは、ビデオ(V-JEPA2)、音声(Whisper)、テキスト(Llama 3.2)、視覚テキスト(InternVL3)、視覚テキストオーディオ(Qwen2.5-Omni)の様々な最先端事前学習モデルのリッチなマルチモーダル表現を利用した。最終提出書では、Pearsonの非配信映画のテスト分割に対する相関が平均0.2085に達し、当社のチームは競争で4位にランクインした。
論文参考訳（メタデータ） (2025-07-26T13:57:08Z)
Efficient Interleaved Speech Modeling through Knowledge Distillation [5.389972857470079]
現在の音声言語モデルは、多くのデプロイメント環境のサイズやレイテンシの制約を超える。我々は, 層状蒸留, 隠れ状態のマッチング, 注意マップ, 軟化ロジットにより, コンパクトで表現力豊かな音声生成モデルを構築した。 TinyWave は (i) 音声または表現的トークンと (ii) 混合音声テキスト継続を用いた音声のみの生成をサポートする。
論文参考訳（メタデータ） (2025-06-30T09:47:37Z)
CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.31925012315064]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。 CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文参考訳（メタデータ） (2025-05-23T07:55:21Z)
A Multi-Agent Framework for Automated Qinqiang Opera Script Generation Using Large Language Models [2.919625687404969]
本稿では,大規模言語モデル,視覚生成,テキストを音声合成に統合することにより,チンカングオペラの終末制作を自動化する新しいマルチエージェントフレームワークを提案する。 Dou E Yuanのケーススタディでは、スクリプトの忠実度が3.8、ビジュアルコヒーレンスが3.5、音声の精度が3.6、シングルエージェントベースラインが0.3ポイント向上した。
論文参考訳（メタデータ） (2025-04-22T03:14:29Z)
AMD-Hummingbird: Towards an Efficient Text-to-Video Model [12.09360569154206]
テキスト・トゥ・ビデオ(T2V)生成は、テキスト記述からリアルな映像を合成する能力において大きな注目を集めている。以前の作業のほとんどは、現実のデプロイメントに適した、より小さく、より効率的なモデルの必要性を見越しながら、視覚的忠実さを優先している。本稿では,Hummingbirdと呼ばれる軽量なT2Vフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-24T11:13:33Z)
The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation [53.837937703425794]
LanDiffは、自己回帰言語モデルと拡散モデルの強みを相乗化するハイブリッドフレームワークである。本アーキテクチャでは,(1)効率的なセマンティック圧縮により3次元視覚特徴をコンパクトな1次元表現に圧縮するセマンティック・トークンー,(2)高レベルのセマンティックな関係を持つセマンティック・トークンを生成する言語モデル,(3)粗いセマンティクスを高忠実なビデオに洗練するストリーミング拡散モデルを紹介する。
論文参考訳（メタデータ） (2025-03-06T16:53:14Z)
Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文参考訳（メタデータ） (2024-01-05T14:47:20Z)
PEEKABOO: Interactive Video Generation via Masked-Diffusion [16.27046318032809]
モジュールベースのビデオ生成モデルにビデオ制御を組み込むための第1のソリューションを提案する。 Peekabooは、既存のビデオ生成モデルとシームレスに統合され、追加のトレーニングや推論オーバーヘッドを必要とせずに、コントロールを提供する。我々の広範囲な質的および定量的評価により、PeekabooはmIoUのベースラインモデルよりも最大3.8倍改善していることが明らかとなった。
論文参考訳（メタデータ） (2023-12-12T18:43:05Z)
Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models [59.525108086957296]
Video-ChatGPTは、ビデオ適応型ビジュアルエンコーダとLLMをマージするマルチモーダルモデルである。ビデオに関する詳細な会話を理解し、生成することができる。我々は,ビデオチャットGPTのトレーニングに使用される10,000対のビデオ命令ペアの新しいデータセットを提案する。
論文参考訳（メタデータ） (2023-06-08T17:59:56Z)
Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。 NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文参考訳（メタデータ） (2023-02-15T18:55:29Z)
DialogVED: A Pre-trained Latent Variable Encoder-Decoder Model for Dialog Response Generation [80.45816053153722]
DialogVEDは、拡張エンコーダデコーダ事前トレーニングフレームワークに連続潜伏変数を導入し、応答の関連性と多様性を高める。我々は,PersonaChat,DailyDialog,DSTC7-AVSDベンチマークを用いて応答生成実験を行った。
論文参考訳（メタデータ） (2022-04-27T16:18:15Z)
GALAXY: A Generative Pre-trained Model for Task-Oriented Dialog with Semi-Supervised Learning and Explicit Policy Injection [36.77204909711832]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから,対話ポリシーを明示的に学習する,事前学習型ダイアログモデルを提案する。具体的には、事前学習中にポリシー最適化のためのダイアログアクト予測タスクを導入し、一貫性の規則化項を用いて、学習した表現を洗練させる。その結果,GALAXYはタスク指向対話システムの性能を大幅に向上させることがわかった。
論文参考訳（メタデータ） (2021-11-29T15:24:36Z)
Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文参考訳（メタデータ） (2020-06-27T08:24:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。