論文の概要: The Impact of Visual Information in Chinese Characters: Evaluating Large Models' Ability to Recognize and Utilize Radicals
- arxiv url: http://arxiv.org/abs/2410.09013v1
- Date: Thu, 17 Oct 2024 17:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 20:36:41.662920
- Title: The Impact of Visual Information in Chinese Characters: Evaluating Large Models' Ability to Recognize and Utilize Radicals
- Title(参考訳): 漢字における視覚情報の影響:ラディカル認識・活用能力の評価
- Authors: Xiaofeng Wu, Karl Stratos, Wei Xu,
- Abstract要約: 大規模言語モデル(LLM)と視覚言語モデル(VLM)を評価する。
我々の結果は、モデルが驚くほど、しかしまだ限られた、視覚情報に関する知識を誇示していることを示している。
我々は、ラジカルに関する追加情報を提供する際に、パートオフ音声タグ付けにおける一貫した改善を観察する。
- 参考スコア(独自算出の注目度): 17.24821720084663
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The glyphic writing system of Chinese incorporates information-rich visual features in each character, such as radicals that provide hints about meaning or pronunciation. However, there has been no investigation into whether contemporary Large Language Models (LLMs) and Vision-Language Models (VLMs) can harness these sub-character features in Chinese through prompting. In this study, we establish a benchmark to evaluate LLMs' and VLMs' understanding of visual elements in Chinese characters, including radicals, composition structures, strokes, and stroke counts. Our results reveal that models surprisingly exhibit some, but still limited, knowledge of the visual information, regardless of whether images of characters are provided. To incite models' ability to use radicals, we further experiment with incorporating radicals into the prompts for Chinese language understanding tasks. We observe consistent improvement in Part-Of-Speech tagging when providing additional information about radicals, suggesting the potential to enhance CLP by integrating sub-character information.
- Abstract(参考訳): 中国語のグリフ文字体系は、意味や発音のヒントを提供する急進語など、各文字に情報に富んだ視覚的特徴を取り入れている。
しかし,現代大言語モデル (LLMs) と視覚言語モデル (VLMs) は,中国語のこれらのサブ文字をプロンプトによって活用できるかどうかについては調査されていない。
本研究では,ラディカル,構成構造,ストローク数,ストローク数など,漢字の視覚的要素に対するLLMとVLMの理解を評価するためのベンチマークを構築した。
結果から,文字のイメージが提供されたかどうかに関わらず,画像情報に関する知識が驚くほど限られていることが判明した。
モデルがラジカルを使用する能力を引き出すために、中国語理解タスクのプロンプトにラジカルを組み込むことをさらに実験する。
ラジカルについて追加情報を提供する際には,パートOf-Speechタギングにおける一貫した改善が観察され,サブキャラクタ情報の統合によるCLPの強化の可能性が示唆された。
関連論文リスト
- Instruction Tuning-free Visual Token Complement for Multimodal LLMs [51.138806401996696]
マルチモーダルな大言語モデル(MLLM)は、視覚と言語の間のエレガントな橋渡しを約束している。
本稿では,MLLM が欠落した視覚機能を取り戻すのに役立つ Visual Token Complement フレームワーク (VTC) を提案する。
我々のVTCは、テキスト不関連特徴を特定するためのガイドとしてテキスト・ツー・イメージ生成を統合し、視覚的セレクタを開発し、補完的な視覚的トークンを生成する。
論文 参考訳(メタデータ) (2024-08-09T12:13:01Z) - CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation [49.41531871253317]
我々は、新しい中国語ビジョン言語理解評価ベンチマークデータセットを提案する。
オブジェクトカテゴリとイメージの選択は、完全に中国のネイティブスピーカーによって駆動される。
中国文化関連VLデータセットの微調整により,VLMの中国文化理解が効果的に向上することが確認された。
論文 参考訳(メタデータ) (2024-07-01T08:35:37Z) - Integrating Language-Derived Appearance Elements with Visual Cues in Pedestrian Detection [51.66174565170112]
本研究では,大言語モデルの強みを文脈的外見の変化の理解に活用するための新しいアプローチを提案する。
本稿では,言語由来の外観要素を定式化し,歩行者検出に視覚的手がかりを取り入れることを提案する。
論文 参考訳(メタデータ) (2023-11-02T06:38:19Z) - VLIS: Unimodal Language Models Guide Multimodal Language Generation [23.094728230459125]
VLIS(Importance Smpling weights)として視覚言語モデルを導入する。
視覚言語モデルの視覚的条件付け能力と、追加のトレーニングを伴わずに、アンモダルテキストのみの言語モデルの言語理解を組み合わせる。
VLISは、常識理解や複雑なテキスト生成など、様々なタスクにおける視覚言語モデルを改善する。
論文 参考訳(メタデータ) (2023-10-15T07:58:52Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Dynamic Multi-View Fusion Mechanism For Chinese Relation Extraction [12.818297160055584]
そこで我々は,中国関係抽出のための多視点特徴を動的に学習するMix-of-view-experts framework(MoVE)を提案する。
漢字の内的知識と外的知識の両面から,我々の枠組みは漢字の意味情報をよりよく捉えることができる。
論文 参考訳(メタデータ) (2023-03-09T07:35:31Z) - Language identification as improvement for lip-based biometric visual
systems [13.205817167773443]
本稿では,口唇運動に基づく視覚的(聴覚のない)識別システムの性能を高めるために,言語情報を軟式生体認証特性として用いる予備研究について述べる。
これらのデータの統合により,提案した視覚システムの識別性能が大幅に向上したことを報告した。
論文 参考訳(メタデータ) (2023-02-27T15:44:24Z) - Stroke-Based Autoencoders: Self-Supervised Learners for Efficient
Zero-Shot Chinese Character Recognition [4.64065792373245]
我々は漢字の洗練された形態をモデル化するストロークベースのオートエンコーダを開発した。
我々のSAEアーキテクチャは、ゼロショット認識において、他の既存の手法よりも優れています。
論文 参考訳(メタデータ) (2022-07-17T14:39:10Z) - Zero-shot Cross-Linguistic Learning of Event Semantics [27.997873309702225]
アラビア語、中国語、ファルシ語、ドイツ語、ロシア語、トルコ語にまたがる画像のキャプションを見る。
我々は,この言語について注釈付きデータを全く見ていないにもかかわらず,ある言語に対して語彙的側面が予測可能であることを示す。
論文 参考訳(メタデータ) (2022-07-05T23:18:36Z) - Visual Clues: Bridging Vision and Language Foundations for Image
Paragraph Captioning [78.07495777674747]
我々は、視覚的手がかりを用いて、大きな事前訓練された視覚基盤モデルと言語モデルをブリッジすることで、余分なクロスモーダルトレーニングなしでそれを行うことができると論じる。
基礎モデルの強力なゼロショット機能のおかげで、画像のリッチなセマンティック表現を構築することから始める。
大規模言語モデルを用いて視覚的コンテンツを包括的に記述し、視覚モデルによって再度検証し、画像に最適な候補を選択する。
論文 参考訳(メタデータ) (2022-06-03T22:33:09Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。