論文の概要: BrailleLLM: Braille Instruction Tuning with Large Language Models for Braille Domain Tasks
- arxiv url: http://arxiv.org/abs/2510.18288v1
- Date: Tue, 21 Oct 2025 04:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.921266
- Title: BrailleLLM: Braille Instruction Tuning with Large Language Models for Braille Domain Tasks
- Title(参考訳): BrailleLLM: 点字領域タスクのための大規模言語モデルによる点字命令チューニング
- Authors: Tianyuan Huang, Zepeng Zhu, Hangdi Xing, Zirui Shao, Zhi Yu, Chaoxiong Yang, Jiaxian He, Xiaozhong Liu, Jiajun Bu,
- Abstract要約: 我々は、様々な点字領域の研究を支援するために、英語と中国語の点字混合データセットを構築した。
点字データに適した構文木に基づく拡張手法を提案する。
B BrailleLLMは、BKFTを使用して、統合された点字変換、公式から点字変換、混合テキスト変換を実現する。
- 参考スコア(独自算出の注目度): 29.63312125264775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Braille plays a vital role in education and information accessibility for visually impaired individuals. However, Braille information processing faces challenges such as data scarcity and ambiguities in mixed-text contexts. We construct English and Chinese Braille Mixed Datasets (EBMD/CBMD) with mathematical formulas to support diverse Braille domain research, and propose a syntax tree-based augmentation method tailored for Braille data. To address the underperformance of traditional fine-tuning methods in Braille-related tasks, we investigate Braille Knowledge-Based Fine-Tuning (BKFT), which reduces the learning difficulty of Braille contextual features. BrailleLLM employs BKFT via instruction tuning to achieve unified Braille translation, formula-to-Braille conversion, and mixed-text translation. Experiments demonstrate that BKFT achieves significant performance improvements over conventional fine-tuning in Braille translation scenarios. Our open-sourced datasets and methodologies establish a foundation for low-resource multilingual Braille research.
- Abstract(参考訳): 点字は視覚障害者にとって教育や情報アクセシビリティにおいて重要な役割を担っている。
しかし、点字情報処理は、混合コンテキストにおけるデータの不足や曖昧さといった課題に直面している。
我々は,様々な点字領域の研究を支援する数学的公式を用いて,英語と中国語の点字混合データセット(EBMD/CBMD)を構築し,点字データに適した構文木に基づく拡張手法を提案する。
点字関連タスクにおける従来の微調整手法の過小評価に対処するため,点字文脈特徴の学習難度を低減させる点字知識ベース細調整(BKFT)について検討する。
BrailleLLMは命令チューニングを通じてBKFTを使用し、統合された点字変換、式から点字変換、混合テキスト変換を実現している。
実験により、BKFTは点字翻訳のシナリオにおいて、従来の微調整よりも大幅な性能向上を実現していることが示された。
我々のオープンソースデータセットと方法論は、低リソース多言語点字研究の基礎を確立します。
関連論文リスト
- Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Vision-Language Models are Strong Noisy Label Detectors [76.07846780815794]
本稿では、視覚言語モデルに適応するためのDeFTと呼ばれるDenoising Fine-Tuningフレームワークを提案する。
DeFTは、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴のロバストなアライメントを利用して、ノイズの多いラベルを抽出する。
7つの合成および実世界のノイズデータセットの実験結果から,ノイズラベル検出と画像分類の両方においてDeFTの有効性が検証された。
論文 参考訳(メタデータ) (2024-09-29T12:55:17Z) - Vision-Braille: An End-to-End Tool for Chinese Braille Image-to-Text Translation [12.027431535689717]
視覚障害者は、読み書きに点字しか使えない大規模なグループである。
点字作家はしばしば音色を省略して空間を節約し、同じ子音と母音の点字が中国語に翻訳されると混乱する。
このプロジェクトは、初めて公開された点字翻訳システムである。
論文 参考訳(メタデータ) (2024-07-08T15:51:37Z) - Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
既存の手法では、視覚エンコーダを教師付き微調整(SFT)を介してMLLM(Multimodal Large Language Models)と整列させるのが一般的である。
言語レベルでの視覚的トークンアライメントにテキストガイダンスを活用する新しいアプローチであるPARROTを提案する。
我々は6言語、15カテゴリ、12,000の質問からなる新しいベンチマークであるMassive Multilingual Multimodal Benchmark (MMMB)を紹介する。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - Cross-modality Data Augmentation for End-to-End Sign Language Translation [66.46877279084083]
エンドツーエンド手話翻訳(SLT)は、手話動画を中間表現なしで直接音声言語テキストに変換することを目的としている。
署名ビデオとテキスト間のモダリティのギャップとラベル付きデータの不足のため、これは難しい課題だった。
本稿では,強力な光沢からテキストへの翻訳機能をエンドツーエンドの手話翻訳に変換するための,新しいクロスモダリティデータ拡張(XmDA)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-18T16:34:18Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Optical Braille Recognition using Circular Hough Transform [0.0]
本研究の目的は、盲目の学生の個人文書を翻訳することで、学術機関におけるコミュニケーションギャップを強化することである。
ハフ変換に基づくドット検出機構を提案する。
検出されたドットは、距離ベースのクラスタリングアルゴリズムを使用して点字セルにクラスタリングされる。
54点字スクリプトのデータセットに対するこの手法の包括的な評価は、98.71%の精度で行われている。
論文 参考訳(メタデータ) (2021-07-02T12:15:24Z) - An automated approach to mitigate transcription errors in braille texts
for the Portuguese language [1.0742675209112622]
本稿では、ポルトガル語の点字テキストにおける転写誤りを軽減させる自動アプローチを提案する。
本稿では,その点字表現に基づく単語の最適な対応を提供する辞書と組み合わせた選択関数を提案する。
論文 参考訳(メタデータ) (2021-03-05T20:41:14Z) - Optical Braille Recognition Using Object Detection CNN [0.0]
本稿では,物体検出畳み込みニューラルネットワークを用いて,点字文字全体を同時に検出する光点字認識手法を提案する。
これは、スマートフォンのカメラで撮影されている点字テキストを認識できるようにします。
論文 参考訳(メタデータ) (2020-12-22T23:22:59Z) - Braille to Text Translation for Bengali Language: A Geometric Approach [0.0]
一般人は点字を読めない。だから教師や親類は、学習を手伝うのが難しい。
ここでは、これらの触覚アルファベットを画像化し、それらをプレーンテキストに変換する点字 to Text Translatorを提案する。
この手法は点字認識において97.25%の精度が得られる。
論文 参考訳(メタデータ) (2020-12-02T19:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。