論文の概要: Fine-Tuning Qwen 2.5 3B for Realistic Movie Dialogue Generation
- arxiv url: http://arxiv.org/abs/2502.16274v1
- Date: Sat, 22 Feb 2025 16:00:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 22:36:56.072665
- Title: Fine-Tuning Qwen 2.5 3B for Realistic Movie Dialogue Generation
- Title(参考訳): 実写映画対話のための微調整Qwen 2.5 3B
- Authors: Kartik Gupta,
- Abstract要約: Alibaba Groupが開発したQwen 2.5シリーズは、小さなオープンソースの事前訓練モデルの最前線にある。
その結果、小型モデルが高品質でリアルな対話を実現する能力を示し、リアルタイムで文脈に敏感な会話生成に有望なアプローチを提供する。
- 参考スコア(独自算出の注目度): 4.884240342385462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Qwen 2.5 3B base model was fine-tuned to generate contextually rich and engaging movie dialogue, leveraging the Cornell Movie-Dialog Corpus, a curated dataset of movie conversations. Due to the limitations in GPU computing and VRAM, the training process began with the 0.5B model progressively scaling up to the 1.5B and 3B versions as efficiency improvements were implemented. The Qwen 2.5 series, developed by Alibaba Group, stands at the forefront of small open-source pre-trained models, particularly excelling in creative tasks compared to alternatives like Meta's Llama 3.2 and Google's Gemma. Results demonstrate the ability of small models to produce high-quality, realistic dialogue, offering a promising approach for real-time, context-sensitive conversation generation.
- Abstract(参考訳): Qwen 2.5 3Bベースモデルは、映画会話のキュレートされたデータセットであるCornel Movie-Dialog Corpusを利用して、文脈的に豊かで魅力的な映画対話を生成するために微調整された。
GPUコンピューティングとVRAMの制限のため、トレーニングプロセスは0.5Bモデルから1.5Bと3Bバージョンまで徐々に拡大し、効率の改善が実現された。
Alibaba Groupが開発したQwen 2.5シリーズは、小さなオープンソースの事前訓練モデルの最前線にあり、特にMetaのLlama 3.2やGoogleのGemmaのような代替製品と比較して、クリエイティブなタスクに優れている。
その結果、小型モデルが高品質でリアルな対話を実現する能力を示し、リアルタイムで文脈に敏感な会話生成に有望なアプローチを提供する。
関連論文リスト
- A Multi-Agent Framework for Automated Qinqiang Opera Script Generation Using Large Language Models [2.919625687404969]
本稿では,大規模言語モデル,視覚生成,テキストを音声合成に統合することにより,チンカングオペラの終末制作を自動化する新しいマルチエージェントフレームワークを提案する。
Dou E Yuanのケーススタディでは、スクリプトの忠実度が3.8、ビジュアルコヒーレンスが3.5、音声の精度が3.6、シングルエージェントベースラインが0.3ポイント向上した。
論文 参考訳(メタデータ) (2025-04-22T03:14:29Z) - AMD-Hummingbird: Towards an Efficient Text-to-Video Model [12.09360569154206]
テキスト・トゥ・ビデオ(T2V)生成は、テキスト記述からリアルな映像を合成する能力において大きな注目を集めている。
以前の作業のほとんどは、現実のデプロイメントに適した、より小さく、より効率的なモデルの必要性を見越しながら、視覚的忠実さを優先している。
本稿では,Hummingbirdと呼ばれる軽量なT2Vフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-24T11:13:33Z) - The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation [53.837937703425794]
LanDiffは、自己回帰言語モデルと拡散モデルの強みを相乗化するハイブリッドフレームワークである。
本アーキテクチャでは,(1)効率的なセマンティック圧縮により3次元視覚特徴をコンパクトな1次元表現に圧縮するセマンティック・トークンー,(2)高レベルのセマンティックな関係を持つセマンティック・トークンを生成する言語モデル,(3)粗いセマンティクスを高忠実なビデオに洗練するストリーミング拡散モデルを紹介する。
論文 参考訳(メタデータ) (2025-03-06T16:53:14Z) - Pheme: Efficient and Conversational Speech Generation [52.34331755341856]
我々は,コンパクトだが高性能な会話型TSモデルを提供するPhemeモデルシリーズを紹介する。
小規模の会話データで効率的にトレーニングでき、データ要求を10倍に削減できるが、自動回帰的TSモデルの品質にマッチする。
論文 参考訳(メタデータ) (2024-01-05T14:47:20Z) - PEEKABOO: Interactive Video Generation via Masked-Diffusion [16.27046318032809]
モジュールベースのビデオ生成モデルにビデオ制御を組み込むための第1のソリューションを提案する。
Peekabooは、既存のビデオ生成モデルとシームレスに統合され、追加のトレーニングや推論オーバーヘッドを必要とせずに、コントロールを提供する。
我々の広範囲な質的および定量的評価により、PeekabooはmIoUのベースラインモデルよりも最大3.8倍改善していることが明らかとなった。
論文 参考訳(メタデータ) (2023-12-12T18:43:05Z) - Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models [59.525108086957296]
Video-ChatGPTは、ビデオ適応型ビジュアルエンコーダとLLMをマージするマルチモーダルモデルである。
ビデオに関する詳細な会話を理解し、生成することができる。
我々は,ビデオチャットGPTのトレーニングに使用される10,000対のビデオ命令ペアの新しいデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - DialogVED: A Pre-trained Latent Variable Encoder-Decoder Model for
Dialog Response Generation [80.45816053153722]
DialogVEDは、拡張エンコーダデコーダ事前トレーニングフレームワークに連続潜伏変数を導入し、応答の関連性と多様性を高める。
我々は,PersonaChat,DailyDialog,DSTC7-AVSDベンチマークを用いて応答生成実験を行った。
論文 参考訳(メタデータ) (2022-04-27T16:18:15Z) - GALAXY: A Generative Pre-trained Model for Task-Oriented Dialog with
Semi-Supervised Learning and Explicit Policy Injection [36.77204909711832]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから,対話ポリシーを明示的に学習する,事前学習型ダイアログモデルを提案する。
具体的には、事前学習中にポリシー最適化のためのダイアログアクト予測タスクを導入し、一貫性の規則化項を用いて、学習した表現を洗練させる。
その結果,GALAXYはタスク指向対話システムの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2021-11-29T15:24:36Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。