論文の概要: Improve Academic Query Resolution through BERT-based Question Extraction from Images
- arxiv url: http://arxiv.org/abs/2405.01587v1
- Date: Sun, 28 Apr 2024 19:11:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-12 16:00:17.728191
- Title: Improve Academic Query Resolution through BERT-based Question Extraction from Images
- Title(参考訳): BERTに基づく画像からの質問抽出によるアカデミッククエリ分解能の向上
- Authors: Nidhi Kamal, Saurabh Yadav, Jorawar Singh, Aditi Avasthi,
- Abstract要約: BERTに基づくディープラーニングモデルを用いて,テキストや画像から質問を抽出する手法を提案する。
本手法は,エドテック組織における学生問合せ解決の精度と効率を向上させることを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Providing fast and accurate resolution to the student's query is an essential solution provided by Edtech organizations. This is generally provided with a chat-bot like interface to enable students to ask their doubts easily. One preferred format for student queries is images, as it allows students to capture and post questions without typing complex equations and information. However, this format also presents difficulties, as images may contain multiple questions or textual noise that lowers the accuracy of existing single-query answering solutions. In this paper, we propose a method for extracting questions from text or images using a BERT-based deep learning model and compare it to the other rule-based and layout-based methods. Our method aims to improve the accuracy and efficiency of student query resolution in Edtech organizations.
- Abstract(参考訳): 生徒の質問に対する迅速かつ正確な解決を提供することは、Edtechの組織によって提供される重要な解決策である。
これは一般的に、学生が容易に疑念を問うことができるチャットボットのようなインターフェースを備えている。
学生が複雑な方程式や情報を入力せずに質問を捉え、投稿することができる。
しかし、このフォーマットは、画像に複数の質問やテキストノイズが含まれており、既存の単一クエリ応答ソリューションの精度を低下させるため、困難を生じさせる。
本稿では,BERTに基づくディープラーニングモデルを用いてテキストや画像から質問を抽出し,他のルールベースおよびレイアウトベース手法と比較する手法を提案する。
本手法は,エドテック組織における学生問合せ解決の精度と効率を向上させることを目的としている。
関連論文リスト
- Unified Text-to-Image Generation and Retrieval [96.72318842152148]
MLLM(Multimodal Large Language Models)の文脈における統一フレームワークを提案する。
まず,MLLMの内在的識別能力について検討し,学習自由な方法で検索を行うための生成的検索手法を提案する。
次に、自動回帰生成方式で生成と検索を統一し、生成した画像と検索した画像の最も適合した画像を選択する自律的決定モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-09T15:00:28Z) - Asking Multimodal Clarifying Questions in Mixed-Initiative
Conversational Search [89.1772985740272]
混合開始型会話検索システムでは、質問を明確にすることで、意図を単一のクエリで表現するのに苦労するユーザを支援する。
マルチモーダル情報が関係するシナリオでは、非テクスチャ情報を用いることで、明確化のプロセスを改善することができると仮定する。
質問を明確にする4k以上のマルチモーダルを含むMelonというデータセットを収集し、14k以上の画像で濃縮する。
クエリの明確化フェーズにおけるマルチモーダルコンテンツの重要性を理解するために,いくつかの解析を行った。
論文 参考訳(メタデータ) (2024-02-12T16:04:01Z) - Seek for Incantations: Towards Accurate Text-to-Image Diffusion
Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。
提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文 参考訳(メタデータ) (2024-01-12T03:46:29Z) - User-friendly Image Editing with Minimal Text Input: Leveraging
Captioning and Injection Techniques [32.82206298102458]
テキスト駆動画像編集は拡散モデルにおいて顕著な成功を収めた。
既存の手法では、ユーザの記述がソースイメージのコンテキストを十分に基礎づけていると仮定する。
本稿では,素早い生成フレームワークを組み合わせることで,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-06-05T09:09:10Z) - TQ-Net: Mixed Contrastive Representation Learning For Heterogeneous Test
Questions [18.186909839033017]
テスト質問(TQ)は通常異質でマルチモーダルで、テキストのみを含むものもあれば、リテラル記述以上の情報を含むものもある。
本稿では,2段階の教師なしインスタンスレベルのコントラスト型事前学習法を用いて,従来のテキストのみの表現を改善する。
そして、TQ-Netは、画像の内容と異種データの表現を融合するために提案された。
論文 参考訳(メタデータ) (2023-03-09T10:55:48Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Progressive Learning for Image Retrieval with Hybrid-Modality Queries [48.79599320198615]
ハイブリッドモダリティクエリによる画像検索(CTI-IR)
我々は、CTI-IRタスクを3段階の学習問題に分解し、ハイブリッドモダリティクエリを用いて画像検索のための複雑な知識を段階的に学習する。
提案モデルは,Fashion-IQおよびShoesベンチマークデータセットにおいて,Recall@K平均の最先端手法を24.9%,9.5%向上させる。
論文 参考訳(メタデータ) (2022-04-24T08:10:06Z) - Continuous Examination by Automatic Quiz Assessment Using Spiral Codes
and Image Processing [69.35569554213679]
紙のキズは安価で、教室のキャンパス教育の範囲内にある。
クイズの修正は かなりの障害だ
本稿では,新しい画像処理技術によって問題を緩和することを提案する。
論文 参考訳(メタデータ) (2022-01-26T22:58:15Z) - RTIC: Residual Learning for Text and Image Composition using Graph
Convolutional Network [19.017377597937617]
画像検索のための画像とテキストの構成学習について検討する。
本稿では,グラフ畳み込みネットワーク(gcn)と既存の合成手法を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2021-04-07T09:41:52Z) - Compositional Learning of Image-Text Query for Image Retrieval [3.9348884623092517]
画像検索のための画像とテキストクエリの合成を学習するための自動エンコーダベースモデルComposeAEを提案する。
我々は、深層メトリック学習アプローチを採用し、ソース画像とテキストクエリの合成をターゲット画像に近づけるメトリクスを学習する。
論文 参考訳(メタデータ) (2020-06-19T14:21:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。