論文の概要: Cosmos-LLaVA: Chatting with the Visual Cosmos-LLaVA: Görselle Sohbet Etmek
- arxiv url: http://arxiv.org/abs/2412.02760v1
- Date: Tue, 03 Dec 2024 19:01:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:10:27.089272
- Title: Cosmos-LLaVA: Chatting with the Visual Cosmos-LLaVA: Görselle Sohbet Etmek
- Title(参考訳): Cosmos-LLaVA: Visual Cosmos-LLaVA: Görselle Sohbet Etmek
- Authors: Ahmed Zeer, Eren Dogan, Yusuf Erdem, Elif Ince, Osama Shbib, M. Egemen Uzun, Atahan Uz, M. Kaan Yuce, H. Toprak Kesgin, M. Fatih Amasyali,
- Abstract要約: Cosmos-LLaVAモデルはトルコ語の欠陥を克服するために設計された。
各種データセットによる微調整がモデル性能に与える影響を詳細に分析する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this study, a Turkish visual instruction model was developed and various model architectures and dataset combinations were analysed to improve the performance of this model. The Cosmos-LLaVA model, which is built by combining different large language models and image coders, is designed to overcome the deficiencies in the Turkish language. In the experiments, the effects of fine-tuning with various datasets on the model performance are analysed in detail. The results show that model architecture and dataset selection have a significant impact on performance. Bu \c{c}al{\i}\c{s}mada bir T\"urk\c{c}e g\"orsel talimat modeli geli\c{s}tirilerek bu modelin performans{\i}n{\i} art{\i}rmaya y\"onelik \c{c}e\c{s}itli model mimarileri ve veri k\"umesi kombinasyonlar{\i} derinlemesine incelenmi\c{s}tir. Farkl{\i} b\"uy\"uk dil modelleri ve g\"or\"unt\"u kodlay{\i}c{\i}lar{\i}n{\i}n bir araya getirilmesiyle olu\c{s}turulan Cosmos-LLaVA modeli, T\"urk\c{c}e dilindeki eksiklikleri gidermeye y\"onelik olarak tasarlanm{\i}\c{s}t{\i}r. Yap{\i}lan deneylerde, \c{c}e\c{s}itli veri k\"umeleri ile yap{\i}lan ince ayarlar{\i}n model performans{\i}n{\i} nas{\i}l etkiledi\u{g}i detayl{\i} olarak ele al{\i}nm{\i}\c{s}t{\i}r. Sonu\c{c}lar, model mimarisi ve veri k\"umesi se\c{c}iminin performans \"uzerinde \"onemli bir etkiye sahip oldu\u{g}unu g\"ostermektedir.
- Abstract(参考訳): 本研究では,トルコのビジュアル・インストラクション・モデルを開発し,その性能向上のために様々なモデル・アーキテクチャとデータセットの組み合わせを分析した。
異なる大きな言語モデルとイメージコーダを組み合わせることで構築されたコスモス・ラヴァモデルは、トルコ語の欠陥を克服するために設計されている。
実験では,各種データセットを用いた微調整がモデル性能に与える影響を詳細に分析した。
結果は、モデルアーキテクチャとデータセットの選択がパフォーマンスに大きな影響を与えることを示している。
Bu \c{c}al{\i}\c{s}mada bir T\"urk\c{c}e g\"orsel talimat modeli geli\c{s}tirilerek bu modelin performingans{\i}n{\i} art{\i}rmaya y\"onelik \c{c}e\c{s}itli model mimarileri ve veri k\"umesi kombinasyonlar{\i} derinlemesine incelenmi\c{s}tir。
Farkl{\i} b\"uy\"uk dil modelleri ve g\"or\"unt\"u kodlay{\i}c{\i}lar{\i}n{\i}n bir araya getirilmesiyle olu\c{s}turulan Cosmos-LLaVA modeli, T\"urk\c{c}e dilindeki eksiklikleri gidermeye y\"onelik olarak tasarlanm{\i}\c{s}t{\i}r.
Yap{\i}lan deneylerde, \c{c}e\c{s}itli veri k\"umeleri ile yap{\i}lan ince ayarlar{\i}lan ince ayarlar{\i}n model performingans{\i}n{\i}l etkiledi\u{g}i detayl{\i} olarak ele al{\i}nm{\i}\c{s}t{\i}r.
Sonu\c{c}lar, model mimarisi ve veri k\"umesi se\c{c}iminin performingans \"onemli bir etkiye sahip oldu\u{g}unu g\"ostermektedir.
関連論文リスト
- $\text{M}^{\text{3}}$: A Modular World Model over Streams of Tokens [51.65485693709418]
トークン化を個別に最適化しながら、トークンストリームを動的にモデリングする、有望なモジュラーフレームワークとして、トークンベースのワールドモデルが登場した。
本稿では、このフレームワークを拡張した、$textbfm$odular $textbfw$orld $textbfm$odelを紹介します。
$textMtext3$は、エージェントのパフォーマンスを向上させるために、既存の文献からいくつかの改善を実現している。
論文 参考訳(メタデータ) (2025-02-17T08:06:10Z) - TD3: Tucker Decomposition Based Dataset Distillation Method for Sequential Recommendation [50.23504065567638]
本稿では,メタラーニングフレームワークにおける textbfDataset textbfDistillation 手法である textbfTD3 を紹介する。
TD3は、オリジナルのデータから完全に表現力のある合成配列の要約を蒸留する。
拡張技術により、学習者は合成要約を忠実に適合させ、アンプループでの正確な更新を確実にすることができる。
論文 参考訳(メタデータ) (2025-02-05T03:13:25Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - B\"{u}y\"{u}k dil modellerinin T\"{u}rk\c{c}e verisetleri ile
e\u{g}itilmesi ve ince ayarlanmas\i [0.0]
大規模な言語モデルは飛躍的に進歩し、大きな注目を集め、激しい研究の段階にある。
トルコ語に関しては、オープンアクセスモデルは十分なカバレッジを提供していない。
本稿では,トルコの大規模なデータセットの作成,これらを用いたLLMのトレーニング,トルコ語入力による事前学習モデルの微調整など,この問題を軽減するためのアイデアを提案する。
論文 参考訳(メタデータ) (2023-06-06T19:31:08Z) - Rethinking Masked Language Modeling for Chinese Spelling Correction [70.85829000570203]
言語モデルと誤りモデルという2つの異なるモデルによる共同決定として,中国語のスペル補正(CSC)について検討する。
細調整されたBERTは、言語モデルに不適合なままエラーモデルに過度に適合する傾向にあり、その結果、分布外エラーパターンへの一般化が不十分であることがわかった。
微調整中に入力シーケンスから20%の非エラートークンをランダムにマスキングする非常に単純な戦略は、エラーモデルを犠牲にすることなく、はるかに優れた言語モデルを学ぶのに十分であることを示す。
論文 参考訳(メタデータ) (2023-05-28T13:19:12Z) - Towards Understanding and Mitigating Dimensional Collapse in Heterogeneous Federated Learning [112.69497636932955]
フェデレートラーニングは、プライバシを考慮したデータ共有を必要とせずに、さまざまなクライアントでモデルをトレーニングすることを目的としている。
本研究では,データの不均一性がグローバル集約モデルの表現に与える影響について検討する。
フェデレーション学習における次元的崩壊を効果的に緩和する新しい手法である sc FedDecorr を提案する。
論文 参考訳(メタデータ) (2022-10-01T09:04:17Z) - Deconstructing Distributions: A Pointwise Framework of Learning [15.517383696434162]
テスト分布におけるモデルの平均性能と、この個々の点におけるポイントワイズ性能の関係について調べる。
プロファイルは、モデルとデータの構造 -- 分布の内外 -- に新しい洞察を与えることができる。
論文 参考訳(メタデータ) (2022-02-20T23:25:28Z) - Conterfactual Generative Zero-Shot Semantic Segmentation [17.727625440123802]
一般的なゼロショットセマンティックセグメンテーション手法の1つは、生成モデルに基づいている。
本研究では,オリジナルのモデルにおいて,共同創設者を避けるための反事実的手法を検討する。
我々のモデルは、2つの実世界のデータセットのベースラインモデルと比較される。
論文 参考訳(メタデータ) (2021-06-11T13:01:03Z) - Bringing Light Into the Dark: A Large-scale Evaluation of Knowledge
Graph Embedding Models Under a Unified Framework [31.35912529064612]
我々はPyKEENソフトウェアパッケージで21のインタラクションモデルを再実装し評価した。
4つのデータセットに対して、数千の実験と24,804のGPU時間で大規模なベンチマークを行いました。
論文 参考訳(メタデータ) (2020-06-23T22:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。