論文の概要: FTibSuite: A Comprehensive Resource Suite for Tibetan Vision-Language Modeling
- arxiv url: http://arxiv.org/abs/2605.26601v1
- Date: Tue, 26 May 2026 06:36:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.704144
- Title: FTibSuite: A Comprehensive Resource Suite for Tibetan Vision-Language Modeling
- Title(参考訳): FTibSuite - チベットのビジョンランゲージモデリングのための総合的なリソーススイート
- Authors: Guixian Xu, Yide Liang, Zeli Su, Xuexian Song, Ziyin Zhang, Yushuang Dong, Ting Zhang, Xu Han,
- Abstract要約: ヴィジュアル言語モデルは急速に進歩しているが、チベット語は依然として極めて低リソース言語である。
チベットの視覚言語研究のための総合的なリソーススイートであるFTibSuiteを紹介する。
- 参考スコア(独自算出の注目度): 8.322433690836244
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-language models have progressed rapidly, but Tibetan remains a severely underserved low-resource language due to the lack of reproducible training and evaluation infrastructure. To fill this gap, we introduce FTibSuite, a comprehensive resource suite for Tibetan vision-language research, consisting of FTibData (human-verified multimodal training corpora spanning continual pretraining, image-text alignment, and instruction tuning data), FTibBench (Tibetan adaptations of five mainstream multimodal benchmarks with a hierarchical quality-control workflow to reduce translation noise), and FTibVLM, a reproducible baseline built on Qwen3-VL-8B-Instruct via a three-stage adaptation pipeline. Experiments on FTibBench show FTibVLM delivers consistent performance gains across all tasks, such as improving MMBench accuracy from 42.97 to 67.78 and POPE-random accuracy from 47.53 to 80.56, while retaining the backbone's original Chinese capabilities with minimal degradation, providing the first standardized foundation for Tibetan multimodal research.
- Abstract(参考訳): 視覚言語モデルは急速に進歩しているが、再現可能なトレーニングや評価インフラが欠如しているため、チベット語は厳しい低リソース言語のままである。
このギャップを埋めるために、FTibSuite、FTibData、FTibBench、Qwen3-VL-8B-Instructをベースとした再現可能なベースラインであるFTibVLMを紹介する。
FTibBenchの実験では、FTibVLMはMMBenchの精度を42.97から67.78に改善し、POPEランダムの精度を47.53から80.56に改善し、バックボーンの元の中国の能力は最小限の劣化で維持し、チベットのマルチモーダル研究のための最初の標準化された基盤を提供するなど、全てのタスクで一貫したパフォーマンス向上を実現している。
関連論文リスト
- Tibetan-TTS:Low-Resource Tibetan Speech Synthesis with Large Model Adaptation [12.646367121453485]
本研究は,Xingchen AGI Lab が開発した大規模音声合成モデルに基づく,大規模モデルに基づくチベットTTSシステムを提案する。
実験結果から, 低資源環境下では, 安定した, 自然な, 理解可能なチベット語音声を生成できることが示唆された。
以上の結果から,大規模なモデルバックボーンとチベット語指向のテキスト表現適応と言語間適応学習を組み合わせることで,低リソースのチベット語音声合成が可能であることが示唆された。
論文 参考訳(メタデータ) (2026-05-04T11:45:39Z) - TEMPO: Scaling Test-time Training for Large Reasoning Models [87.61789183311856]
テストタイムトレーニング(TTT)は、推論時間中にラベルのないテストインスタンスにモデルパラメータを適用する。
TTTフレームワークであるTEMPOを提案する。これは、ラベル付きデータセット上で定期的な批評家の再検討を行い、ラベル付き質問に対するポリシー修正をインターリーブする。
論文 参考訳(メタデータ) (2026-04-21T10:01:04Z) - Adapting Large Language Models to Low-Resource Tibetan: A Two-Stage Continual and Supervised Fine-Tuning Study [5.4615141061033645]
この研究は、形態学的に豊かで表現不足の言語であるチベット語に、Qwen2.5-3Bの2段階の適応を提示する。
チベットの言語基盤を確立するために,CPT(Continuous Pretraining)を使用し,タスクと翻訳にSFT(Supervised Fine-Tuning)を併用した。
論文 参考訳(メタデータ) (2025-12-03T17:06:51Z) - Advancing Large Language Models for Tibetan with Curated Data and Continual Pre-Training [43.57169338795754]
我々はこれまでで最大のチベット事前訓練コーパスを作成し、様々な情報源からデータを収集した。
キュレートされたデータを用いて,チベット語における生成能力を高めるために,多言語ベースモデルの事前/ポストトレーニングを継続する。
我々は、新しい高品質のチベットベンチマークを作成し、それらを既存の公開ベンチマークで補完する。
論文 参考訳(メタデータ) (2025-07-12T08:54:05Z) - MLLP-VRAIN UPV system for the IWSLT 2025 Simultaneous Speech Translation Translation task [7.247809853198223]
本研究は,IWSLT 2025 同時音声翻訳トラックの共有作業におけるMLLP-VRAIN研究グループの参加について述べる。
本論文は, 長期音声のリアルタイム翻訳における特異な課題を, モジュラーカスケードシステムの構築によって解決するものである。
論文 参考訳(メタデータ) (2025-06-23T16:44:01Z) - InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models [139.19991097260115]
InternVL3は、ネイティブなマルチモーダル事前学習パラダイムを備えたInternVLシリーズの重要な進歩である。
特に、InternVL3-78B は MMMU ベンチマークで72.2 のスコアを獲得し、オープンソースの MLLM に新しい最先端技術を設定する。
オープンサイエンスの原則を追求するため、我々は、次世代MLLMのさらなる研究・開発を促進するために、トレーニングデータとモデルウェイトの両方を公開します。
論文 参考訳(メタデータ) (2025-04-14T17:59:25Z) - TIB-STC: A Large-Scale Structured Tibetan Benchmark for Low-Resource Language Modeling [10.77750944881769]
我々は,大規模言語モデル(LLM)の開発と評価を支援するために設計された,最初の大規模,専門家による,マルチドメインデータセットであるTIB-STCを提案する。
TIB-STCは、文学、宗教、医学、法律、日々のコミュニケーションにまたがる100億以上のトークンを拡大し、伝統的な文法と様式的な豊かさを保っている。
Ti-MMLUやTi-SafetyBenchを含むチベット固有のタスクに対するTLUEベンチマークの評価は、TIB-STCが堅牢な指示追従と文化的に整合した生成を可能にしたことを示す。
論文 参考訳(メタデータ) (2025-03-24T02:17:41Z) - The Surprising Effectiveness of Test-Time Training for Few-Shot Learning [59.309477460893916]
言語モデル(LM)は、トレーニングディストリビューション内のタスクにおいて印象的なパフォーマンスを示しているが、しばしば構造的に新しいタスクで苦労している。
LMの推論と少数ショット学習能力を改善するメカニズムとして,テストタイムトレーニング(TTT)の有効性を検討する。
本研究は,新しいタスクにおける文脈内学習の限界を強調し,言語モデルの適応性を高めるためのテストタイムトレーニングの可能性を示した。
論文 参考訳(メタデータ) (2024-11-11T18:59:45Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。