論文の概要: Talking to Data: Designing Smart Assistants for Humanities Databases
- arxiv url: http://arxiv.org/abs/2506.00986v1
- Date: Sun, 01 Jun 2025 12:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.699251
- Title: Talking to Data: Designing Smart Assistants for Humanities Databases
- Title(参考訳): データとの対話 - 人文データベースのためのスマートアシスタントの設計
- Authors: Alexander Sergeev, Valeriya Goloviznina, Mikhail Melnichenko, Evgeny Kotelnikov,
- Abstract要約: 本研究では,デジタル人文科学データとの自然言語通信を容易にするLLMベースのスマートアシスタントを提案する。
このツールは、研究者が複雑なデータベースを自然言語でクエリできるようにすることで、人文科学におけるアクセシビリティと効率を高めることを目的としている。
- 参考スコア(独自算出の注目度): 41.94295877935867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Access to humanities research databases is often hindered by the limitations of traditional interaction formats, particularly in the methods of searching and response generation. This study introduces an LLM-based smart assistant designed to facilitate natural language communication with digital humanities data. The assistant, developed in a chatbot format, leverages the RAG approach and integrates state-of-the-art technologies such as hybrid search, automatic query generation, text-to-SQL filtering, semantic database search, and hyperlink insertion. To evaluate the effectiveness of the system, experiments were conducted to assess the response quality of various language models. The testing was based on the Prozhito digital archive, which contains diary entries from predominantly Russian-speaking individuals who lived in the 20th century. The chatbot is tailored to support anthropology and history researchers, as well as non-specialist users with an interest in the field, without requiring prior technical training. By enabling researchers to query complex databases with natural language, this tool aims to enhance accessibility and efficiency in humanities research. The study highlights the potential of Large Language Models to transform the way researchers and the public interact with digital archives, making them more intuitive and inclusive. Additional materials are presented in GitHub repository: https://github.com/alekosus/talking-to-data-intersys2025.
- Abstract(参考訳): 人文科学研究データベースへのアクセスは、伝統的相互作用フォーマットの制限、特に検索と応答生成の方法によって妨げられることが多い。
本研究では,デジタル人文科学データとの自然言語通信を容易にするLLMベースのスマートアシスタントを提案する。
このアシスタントはチャットボット形式で開発され、RAGアプローチを活用し、ハイブリッド検索、自動クエリ生成、テキストからSQLへのフィルタリング、セマンティックデータベース検索、ハイパーリンク挿入といった最先端技術を統合する。
システムの有効性を評価するため,様々な言語モデルの応答品質を評価する実験を行った。
テストは、20世紀のロシア語を話す人々の日記を含む、プロジト人のデジタルアーカイブに基づいて行われた。
このチャットボットは、人類学と歴史研究者、およびこの分野に関心を持たない非専門的なユーザーをサポートするために、事前の技術訓練を必要とせずに設計されている。
このツールは、研究者が複雑なデータベースを自然言語でクエリできるようにすることで、人文科学におけるアクセシビリティと効率を高めることを目的としている。
この研究は、研究者や一般大衆がデジタルアーカイブと対話する方法を変えるための大規模言語モデルの可能性を強調し、より直感的で包括的だ。
追加資料はGitHubリポジトリに掲載されている。
関連論文リスト
- Customizable LLM-Powered Chatbot for Behavioral Science Research [6.084958172018792]
LLM(Large Language Models)は、人間のコミュニケーションによく似たテキストを生成する。
チャットボットの潜在的な実用性は、特に研究の文脈において、従来のアプリケーションを超越している。
本研究では,行動科学研究を支援するためのCLPC(Customizable LLM-Powered)システムを提案する。
論文 参考訳(メタデータ) (2025-01-09T19:27:28Z) - AutoConv: Automatically Generating Information-seeking Conversations
with Large Language Models [74.10293412011455]
合成会話生成のためのAutoConvを提案する。
具体的には,会話生成問題を言語モデリングタスクとして定式化する。
我々は、情報探索プロセスの特徴を捉えるために、人間同士の会話でLLMを微調整する。
論文 参考訳(メタデータ) (2023-08-12T08:52:40Z) - Does Collaborative Human-LM Dialogue Generation Help Information
Extraction from Human Dialogues? [55.28340832822234]
実際のアプリケーションにおける人間の対話の問題解決は、既存のWizard-of-Ozコレクションよりもはるかに複雑である。
本稿では,リアルな対話を合成できる人間間対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-13T20:02:50Z) - ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational
Finance Question Answering [70.6359636116848]
本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。
我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。
論文 参考訳(メタデータ) (2022-10-07T23:48:50Z) - Training Conversational Agents with Generative Conversational Networks [74.9941330874663]
我々は、生成会話ネットワークを使用して、自動的にデータを生成し、社会的会話エージェントを訓練する。
自動メトリクスと人的評価器を用いてTopicalChatのアプローチを評価し、10%のシードデータで100%のデータを使用するベースラインに近いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-15T21:46:39Z) - Cetacean Translation Initiative: a roadmap to deciphering the
communication of sperm whales [97.41394631426678]
最近の研究では、非ヒト種における音響コミュニケーションを分析するための機械学習ツールの約束を示した。
マッコウクジラの大量生物音響データの収集と処理に必要な重要な要素について概説する。
開発された技術能力は、非人間コミュニケーションと動物行動研究を研究する幅広いコミュニティにおいて、クロス応用と進歩をもたらす可能性が高い。
論文 参考訳(メタデータ) (2021-04-17T18:39:22Z) - Text Mining for Processing Interview Data in Computational Social
Science [0.6820436130599382]
我々は、市販のテキスト分析技術を用いて、計算社会科学研究からのインタビューテキストデータを処理する。
局所的クラスタリングと用語的エンリッチメントが,応答の探索と定量化に有用であることがわかった。
我々は社会科学の研究にテキスト分析を使うことを奨励し、特に探索的オープンエンドな研究に力を入れている。
論文 参考訳(メタデータ) (2020-11-28T00:44:35Z) - Efficient Deployment of Conversational Natural Language Interfaces over
Databases [45.52672694140881]
本稿では、自然言語からクエリ言語への機械学習モデルを開発するためのトレーニングデータセット収集を高速化する新しい手法を提案する。
本システムでは,対話セッションを定義した対話型多言語データを生成することができる。
論文 参考訳(メタデータ) (2020-05-31T19:16:27Z) - Talk to Papers: Bringing Neural Question Answering to Academic Search [8.883733362171034]
Talk to Papersは、最近のオープンドメイン質問応答(QA)技術を利用して、学術検索の現在の経験を改善する。
研究者が自然言語クエリを使って正確な答えを見つけ、大量の学術論文から洞察を抽出できるように設計されています。
論文 参考訳(メタデータ) (2020-04-04T19:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。