論文の概要: Language-Agnostic Visual Embeddings for Cross-Script Handwriting Retrieval
- arxiv url: http://arxiv.org/abs/2601.11248v1
- Date: Fri, 16 Jan 2026 12:55:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.48953
- Title: Language-Agnostic Visual Embeddings for Cross-Script Handwriting Retrieval
- Title(参考訳): クロススクリプト手書き検索のための言語に依存しないビジュアル埋め込み
- Authors: Fangke Chen, Tianhao Dong, Sirry Chen, Guobin Zhang, Yishu Zhang, Yining Chen,
- Abstract要約: 本稿では,統一的,スタイル不変な視覚埋め込みを学習する軽量な非対称なデュアルエンコーダフレームワークを提案する。
インスタンスレベルのアライメントとクラスレベルのセマンティック一貫性を共同で最適化することにより、言語に依存しないセマンティックプロトタイプに視覚的な埋め込みをアンロックする。
実験の結果,本手法は言語内検索ベンチマークにおいて,28のベースラインと最先端の精度に優れていた。
- 参考スコア(独自算出の注目度): 5.359439761925416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten word retrieval is vital for digital archives but remains challenging due to large handwriting variability and cross-lingual semantic gaps. While large vision-language models offer potential solutions, their prohibitive computational costs hinder practical edge deployment. To address this, we propose a lightweight asymmetric dual-encoder framework that learns unified, style-invariant visual embeddings. By jointly optimizing instance-level alignment and class-level semantic consistency, our approach anchors visual embeddings to language-agnostic semantic prototypes, enforcing invariance across scripts and writing styles. Experiments show that our method outperforms 28 baselines and achieves state-of-the-art accuracy on within-language retrieval benchmarks. We further conduct explicit cross-lingual retrieval, where the query language differs from the target language, to validate the effectiveness of the learned cross-lingual representations. Achieving strong performance with only a fraction of the parameters required by existing models, our framework enables accurate and resource-efficient cross-script handwriting retrieval.
- Abstract(参考訳): 手書き単語の検索はデジタルアーカイブにとって不可欠であるが、大きな手書きのバリエーションと言語間のセマンティックギャップのために依然として困難である。
大きな視覚言語モデルは潜在的な解決策を提供するが、その禁止的な計算コストは実用的なエッジ展開を妨げる。
そこで本研究では,統一的,スタイル不変な視覚埋め込みを学習する軽量な非対称なデュアルエンコーダフレームワークを提案する。
インスタンスレベルのアライメントとクラスレベルのセマンティック一貫性を共同で最適化することにより、言語に依存しないセマンティックプロトタイプに視覚的な埋め込みをアンロックし、スクリプトや書き込みスタイルの不変性を強制する。
実験の結果,本手法は28のベースラインを上回り,言語内検索ベンチマークにおける最先端の精度を実現していることがわかった。
さらに、クエリ言語が対象言語と異なるような明示的な言語間検索を行い、学習された言語間表現の有効性を検証する。
既存のモデルで要求されるパラメータのごく一部しか持たない強力な性能を実現するため,我々のフレームワークは正確かつ資源効率のよいクロススクリプト手書き検索を実現する。
関連論文リスト
- What Drives Cross-lingual Ranking? Retrieval Approaches with Multilingual Language Models [0.19116784879310025]
リソース、スクリプト、埋め込みモデルにおける弱い言語間セマンティックアライメントの相違により、言語間情報検索は困難である。
既存のパイプラインは、しばしば翻訳と単言語検索に依存し、計算オーバーヘッドとノイズ、パフォーマンスを追加する。
この研究は、文書翻訳、事前訓練されたエンコーダによる多言語密集検索、単語、フレーズ、クエリー文書レベルのコントラスト学習、および3つのベンチマークデータセットにおけるクロスエンコーダの再ランク付けという、4つの介入タイプを体系的に評価する。
論文 参考訳(メタデータ) (2025-11-24T17:17:40Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - On The Ingredients of an Effective Zero-shot Semantic Parser [95.01623036661468]
我々は、標準発話とプログラムの訓練例を文法から言い換えて、ゼロショット学習を分析する。
改良された文法,より強力なパラフレーズ,効率的な学習手法を用いて,これらのギャップを埋めることを提案する。
我々のモデルはラベル付きデータゼロの2つの意味解析ベンチマーク(Scholar, Geo)で高い性能を達成する。
論文 参考訳(メタデータ) (2021-10-15T21:41:16Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Cross-lingual Text Classification with Heterogeneous Graph Neural
Network [2.6936806968297913]
言語間テキスト分類は、ソース言語上の分類器を訓練し、その知識を対象言語に伝達することを目的としている。
近年の多言語事前学習言語モデル (mPLM) は言語間分類タスクにおいて顕著な結果をもたらす。
言語間テキスト分類のための言語内および言語間における異種情報を統合するための,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2021-05-24T12:45:42Z) - Constrained Language Models Yield Few-Shot Semantic Parsers [73.50960967598654]
我々は,事前学習された大規模言語モデルの利用を,少ない意味論として検討する。
意味構文解析の目標は、自然言語入力によって構造化された意味表現を生成することである。
言語モデルを用いて、入力を英語に似た制御されたサブ言語にパラフレーズし、対象の意味表現に自動的にマッピングする。
論文 参考訳(メタデータ) (2021-04-18T08:13:06Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。