論文の概要: Hebrew Diacritics Restoration using Visual Representation
- arxiv url: http://arxiv.org/abs/2510.26521v1
- Date: Thu, 30 Oct 2025 14:15:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.852131
- Title: Hebrew Diacritics Restoration using Visual Representation
- Title(参考訳): 視覚表現を用いたヘブライ語発音の復元
- Authors: Yair Elboher, Yuval Pinter,
- Abstract要約: ゼロショット分類問題としてタスクをフレーム化するヘブライ語ダイアクリプティゼーションシステムであるDIVRITを提案する。
提案手法は単語レベルで動作し,各単語に対して最も適切な発音パターンを選択する。
DIVRITの重要な革新は、画像として非記述テキストを処理するヘブライ語ビジュアル言語モデルを使用することである。
- 参考スコア(独自算出の注目度): 8.254230288283258
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diacritics restoration in Hebrew is a fundamental task for ensuring accurate word pronunciation and disambiguating textual meaning. Despite the language's high degree of ambiguity when unvocalized, recent machine learning approaches have significantly advanced performance on this task. In this work, we present DIVRIT, a novel system for Hebrew diacritization that frames the task as a zero-shot classification problem. Our approach operates at the word level, selecting the most appropriate diacritization pattern for each undiacritized word from a dynamically generated candidate set, conditioned on the surrounding textual context. A key innovation of DIVRIT is its use of a Hebrew Visual Language Model, which processes undiacritized text as an image, allowing diacritic information to be embedded directly within the input's vector representation. Through a comprehensive evaluation across various configurations, we demonstrate that the system effectively performs diacritization without relying on complex, explicit linguistic analysis. Notably, in an ``oracle'' setting where the correct diacritized form is guaranteed to be among the provided candidates, DIVRIT achieves a high level of accuracy. Furthermore, strategic architectural enhancements and optimized training methodologies yield significant improvements in the system's overall generalization capabilities. These findings highlight the promising potential of visual representations for accurate and automated Hebrew diacritization.
- Abstract(参考訳): ヘブライ語における方言の復元は、正確な単語の発音とテキストの意味の曖昧さを保証するための基本的な課題である。
アンボーカライズされていない言語では曖昧さの度合いが高いにもかかわらず、最近の機械学習アプローチは、このタスクにおいてかなり高度なパフォーマンスを持っている。
本稿では,ヘブライ語ダイアクリプティゼーションのための新しいシステムであるDIVRITについて述べる。
本手法は単語レベルで動作し,周囲のテクスチュアコンテキストに条件付き動的に生成した候補集合から,単語毎に最も適切な発音パターンを選択する。
DIVRITの重要な革新はヘブライ語ビジュアル言語モデルを使用することである。
様々な構成の包括的評価を通じて,複雑で明示的な言語分析に頼ることなく,効果的にダイアクリタイズを行うことを示した。
特に、与えられた候補のうち、正しいダイアライズされた形式が保証されている '`oracle'' 設定では、DIVRIT は高い精度を達成する。
さらに、戦略的アーキテクチャ強化と最適化されたトレーニング手法により、システム全体の一般化能力が大幅に向上する。
これらの知見は, 正確な, 自動化されたヘブライ語発音のための視覚表現の可能性を示すものである。
関連論文リスト
- Language-Agnostic Visual Embeddings for Cross-Script Handwriting Retrieval [5.359439761925416]
本稿では,統一的,スタイル不変な視覚埋め込みを学習する軽量な非対称なデュアルエンコーダフレームワークを提案する。
インスタンスレベルのアライメントとクラスレベルのセマンティック一貫性を共同で最適化することにより、言語に依存しないセマンティックプロトタイプに視覚的な埋め込みをアンロックする。
実験の結果,本手法は言語内検索ベンチマークにおいて,28のベースラインと最先端の精度に優れていた。
論文 参考訳(メタデータ) (2026-01-16T12:55:41Z) - Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - Visual Text Processing: A Comprehensive Review and Unified Evaluation [99.57846940547171]
視覚テキスト処理における最近の進歩を包括的・多視点的に分析する。
本研究の目的は,視覚テキスト処理のダイナミックな分野における今後の探索と革新を促進する基礎資源として,本研究を確立することである。
論文 参考訳(メタデータ) (2025-04-30T14:19:29Z) - LATex: Leveraging Attribute-based Text Knowledge for Aerial-Ground Person Re-Identification [78.73711446918814]
我々は,属性ベースのテキスト知識を活用するために,アクシデントチューニング戦略を採用した,AG-ReIDのためのLATexという新しいフレームワークを提案する。
我々のフレームワークは属性ベースのテキスト知識をフル活用してAGReIDの性能を向上させることができる。
論文 参考訳(メタデータ) (2025-03-31T04:47:05Z) - Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。
本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。
最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文 参考訳(メタデータ) (2024-08-28T09:07:30Z) - DENOISER: Rethinking the Robustness for Open-Vocabulary Action Recognition [28.02038637078298]
Open-Vocabulary Action Recognition (OVAR)は、コンピュータビジョンにおける基本的なビデオタスクの1つである。
本稿では,様々な種類のマルチレベルノイズをシミュレートして既存手法の評価を行う。
生成と識別という2つの部分をカバーする新しいDENOISERフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-23T10:17:42Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding [88.24517460894634]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - CLIPTER: Looking at the Bigger Picture in Scene Text Recognition [10.561377899703238]
私たちは、CLIPのような現代視覚言語モデルの能力を利用して、作物ベースの認識者にシーンレベルの情報を提供する。
我々は,視覚言語モデルから得られた画像全体の表現を,クロスアテンションゲート機構を介して認識語レベルの特徴と融合させることにより,これを実現する。
論文 参考訳(メタデータ) (2023-01-18T12:16:19Z) - Visually-augmented pretrained language models for NLP tasks without
images [77.74849855049523]
既存のソリューションはしばしば視覚的知識増強のために明示的なイメージに依存している。
我々は、新しいtextbfVisually-textbfAugmented fine-tuningアプローチを提案する。
我々のアプローチは、BERT、RoBERTa、BART、T5を異なるスケールで継続的に改善することができる。
論文 参考訳(メタデータ) (2022-12-15T16:13:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。