論文の概要: SymbolSight: Minimizing Inter-Symbol Interference for Reading with Prosthetic Vision
- arxiv url: http://arxiv.org/abs/2601.17326v1
- Date: Sat, 24 Jan 2026 06:14:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.592584
- Title: SymbolSight: Minimizing Inter-Symbol Interference for Reading with Prosthetic Vision
- Title(参考訳): SymbolSight: 人工視覚による読解におけるシンボル間干渉の最小化
- Authors: Jasmine Lesner, Michael Beyeler,
- Abstract要約: 逐次的な文字提示では、1つのシンボルの残像が次のシンボルの認識を妨害し、体系的な認識エラーを引き起こす。
混乱を最小限に抑えるためにシンボル・ツー・レターマッピングを選択する計算フレームワークであるSymbolSightを提案する。
アラビア語、ブルガリア語、英語でのシミュレーションでは、結果の不均一なシンボルセットによって予測された混乱は22。
- 参考スコア(独自算出の注目度): 4.153834414190214
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retinal prostheses restore limited visual perception, but low spatial resolution and temporal persistence make reading difficult. In sequential letter presentation, the afterimage of one symbol can interfere with perception of the next, leading to systematic recognition errors. Rather than relying on future hardware improvements, we investigate whether optimizing the visual symbols themselves can mitigate this temporal interference. We present SymbolSight, a computational framework that selects symbol-to-letter mappings to minimize confusion among frequently adjacent letters. Using simulated prosthetic vision (SPV) and a neural proxy observer, we estimate pairwise symbol confusability and optimize assignments using language-specific bigram statistics. Across simulations in Arabic, Bulgarian, and English, the resulting heterogeneous symbol sets reduced predicted confusion by a median factor of 22 relative to native alphabets. These results suggest that standard typography is poorly matched to serial, low-bandwidth prosthetic vision and demonstrate how computational modeling can efficiently narrow the design space of visual encodings to generate high-potential candidates for future psychophysical and clinical evaluation.
- Abstract(参考訳): 網膜補綴は、限られた視覚知覚を回復するが、空間分解能と時間持続性が低いため読み出しが困難である。
逐次的な文字提示では、1つのシンボルの残像が次のシンボルの認識を妨害し、体系的な認識エラーを引き起こす。
将来のハードウェア改善に頼るのではなく、視覚的シンボル自体の最適化がこの時間的干渉を軽減することができるかどうかを検討する。
本稿では,隣接する文字間の混乱を最小限に抑えるために,シンボル・ツー・レターマッピングを選択する計算フレームワークであるSymbolSightを提案する。
シミュレーション人工視覚(SPV)とニューラルプロキシオブザーバを用いて、ペアワイズシンボルの難易度を推定し、言語固有のビッグラム統計を用いて割り当てを最適化する。
アラビア語、ブルガリア語、英語のシミュレーション全体において、結果として生じる異種記号集合は、ネイティブアルファベットに対する22の中央値の混乱を減らした。
これらの結果から, 標準的なタイポグラフィは, 連続的, 低帯域義肢の視覚とはあまり一致せず, 視覚的エンコーディングの設計空間を効率的に狭め, 将来的な心理物理学的, 臨床的評価のための高能率な候補を生成することが示唆された。
関連論文リスト
- Vision Language Models Map Logos to Text via Semantic Entanglement in the Visual Projector [41.95688336107109]
視覚言語モデル(VLM)はマルチモーダル推論において顕著な進歩を遂げた。
しかし、視覚的な証拠はアウトプットを根拠にしていない幻覚に弱いままである。
本稿では,これまで見過ごされていた「ロゴ幻覚」について考察する。
論文 参考訳(メタデータ) (2025-10-14T08:42:58Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - Image Tokens Matter: Mitigating Hallucination in Discrete Tokenizer-based Large Vision-Language Models via Latent Editing [39.969451863788464]
LVLM(Large Vision-Language Models)は、視覚入力を有限のトークン集合に符号化することで、マルチモーダル表現を統一する。
これらのモデルは、まだ存在しないオブジェクトを幻覚させる。
生成中の潜像埋め込みを変更することで、視覚的に欠落したトークンの影響を抑える幻覚緩和法を提案する。
論文 参考訳(メタデータ) (2025-05-24T22:36:15Z) - TokBench: Evaluating Your Visual Tokenizer before Visual Generation [75.38270351179018]
さまざまな画像トークンやVAEに対して,テキストと顔の復元品質をさまざまな尺度で分析する。
以上の結果から, 現代の視覚トークン化器は, 特に小規模では, 細粒度保存に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-23T17:52:16Z) - KNN Transformer with Pyramid Prompts for Few-Shot Learning [52.735070934075736]
Few-Shot Learningはラベル付きデータで新しいクラスを認識することを目的としている。
近年の研究では、視覚的特徴を調節するためのテキストプロンプトを用いたまれなサンプルの課題に対処しようと試みている。
論文 参考訳(メタデータ) (2024-10-14T07:39:30Z) - Symbolic Visual Reinforcement Learning: A Scalable Framework with
Object-Level Abstraction and Differentiable Expression Search [63.3745291252038]
DiffSESは、離散的なシンボルポリシーを発見する新しいシンボリック学習手法である。
生のピクセルレベルの入力の代わりにオブジェクトレベルの抽象化を使用することで、DiffSESはシンボリック表現の単純さとスケーラビリティの利点を活用することができる。
我々の実験は、DiffSESが最先端のシンボルRL法よりもシンプルでスケーラブルなシンボリックポリシーを生成することができることを示した。
論文 参考訳(メタデータ) (2022-12-30T17:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。