論文の概要: Reasoning Over the Glyphs: Evaluation of LLM's Decipherment of Rare Scripts
- arxiv url: http://arxiv.org/abs/2501.17785v1
- Date: Wed, 29 Jan 2025 17:24:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:54:38.200181
- Title: Reasoning Over the Glyphs: Evaluation of LLM's Decipherment of Rare Scripts
- Title(参考訳): グリフに対する推論: LLMによる希少なスクリプトの解読の評価
- Authors: Yu-Fei Shih, Zheng-Lin Lin, Shu-Kai Hsieh,
- Abstract要約: 稀なスクリプトを含む言語パズルのマルチモーダルデータセットを構築するための新しいアプローチを提案する。
我々は,GPT-4o,Gemini,Claude 3.5 Sonnetといった著名なモデルを用いて,言語パズルに関する実験を行った。
言語解読における現在のAI手法の長所と短所を明らかにした。
- 参考スコア(独自算出の注目度): 0.6144680854063939
- License:
- Abstract: We explore the capabilities of LVLMs and LLMs in deciphering rare scripts not encoded in Unicode. We introduce a novel approach to construct a multimodal dataset of linguistic puzzles involving such scripts, utilizing a tokenization method for language glyphs. Our methods include the Picture Method for LVLMs and the Description Method for LLMs, enabling these models to tackle these challenges. We conduct experiments using prominent models, GPT-4o, Gemini, and Claude 3.5 Sonnet, on linguistic puzzles. Our findings reveal the strengths and limitations of current AI methods in linguistic decipherment, highlighting the impact of Unicode encoding on model performance and the challenges of modeling visual language tokens through descriptions. Our study advances understanding of AI's potential in linguistic decipherment and underscores the need for further research.
- Abstract(参考訳): Unicodeで符号化されていないレアスクリプトの解読におけるLVLMとLLMの機能について検討する。
本稿では,言語グリフのトークン化手法を用いて,このようなスクリプトを含む言語パズルのマルチモーダルデータセットを構築する手法を提案する。
提案手法には,LVLMのPicture MethodとLCMのDescription Methodが含まれており,これらの課題に対処することができる。
我々は,GPT-4o,Gemini,Claude 3.5 Sonnetといった著名なモデルを用いて,言語パズルに関する実験を行った。
言語解読における現在のAI手法の長所と短所を明らかにし,Unicodeエンコーディングがモデル性能に与える影響と,記述による視覚言語トークンのモデル化の課題を明らかにする。
我々の研究は、言語解読におけるAIの可能性の理解を深め、さらなる研究の必要性を浮き彫りにしている。
関連論文リスト
- Prompt and circumstance: A word-by-word LLM prompting approach to interlinear glossing for low-resource languages [6.4977738682502295]
SIGMORPHON 2023共有タスクから7つの言語に適用した,検索に基づくLLM探索手法の有効性について検討した。
我々のシステムは、形態素レベルスコアカテゴリーの全ての言語に対するBERTベースの共有タスクベースラインを破る。
Tsez のケーススタディでは,LLM に言語命令の自動生成と追従を依頼し,難解な文法的特徴の誤りを低減させる。
論文 参考訳(メタデータ) (2025-02-13T21:23:16Z) - LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文 参考訳(メタデータ) (2024-12-11T18:59:33Z) - Seeing Syntax: Uncovering Syntactic Learning Limitations in Vision-Language Models [18.87130615326443]
視覚言語モデル(VLM)は、画像キャプションとテキスト・ツー・イメージ生成の基礎モデルとして機能する。
近年の研究では、VLMテキストエンコーダ(特に構成性や意味理解など)の制限が強調されている。
論文 参考訳(メタデータ) (2024-12-11T05:37:04Z) - Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation [6.688680877428467]
そこで我々は,Gloss-free Multimodal Sign Language Translationフレームワークを提案する。
マルチモーダルな大言語モデルを用いて手話コンポーネントの詳細なテキスト記述を生成する。
提案手法は,ベンチマークデータセットPHOENIX14TとCSL-Dailyの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-25T09:01:41Z) - Negation Blindness in Large Language Models: Unveiling the NO Syndrome in Image Generation [63.064204206220936]
基礎的な大規模言語モデル(LLM)は、私たちが技術を理解する方法を変えました。
詩の執筆からコーディング、エッセイ生成、パズルの解決まで、様々な課題に長けていることが示されている。
画像生成機能の導入により、より包括的で汎用的なAIツールとなった。
現在特定されている欠陥には、幻覚、偏見、有害なコンテンツを生成するために制限されたコマンドをバイパスすることが含まれる。
論文 参考訳(メタデータ) (2024-08-27T14:40:16Z) - Bridging the Language Gap: Enhancing Multilingual Prompt-Based Code Generation in LLMs via Zero-Shot Cross-Lingual Transfer [5.355430735475281]
本稿では,多言語プロンプトベースのコード生成の複雑さについて検討する。
評価の結果,非英語のプロンプトにおけるコード品質の相違が明らかとなった。
本稿では,ニューラルプロジェクション手法を用いたゼロショット言語間アプローチを提案する。
論文 参考訳(メタデータ) (2024-08-19T05:11:46Z) - Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - Beyond Text: Frozen Large Language Models in Visual Signal Comprehension [34.398976855955404]
Vision-to-Language Tokenizer(V2T Tokenizer)は、エンコーダデコーダ、LLM語彙、CLIPモデルを組み合わせて、画像を「外国語」に変換する。
我々は、画像認識、画像キャプション、視覚的質問応答などの理解タスクを含む、厳密な実験を行い、また、塗り絵、アウトペイント、デブロアリング、シフト復元などの画像装飾タスクを実施。
論文 参考訳(メタデータ) (2024-03-12T17:59:51Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。