論文の概要: An Open-Source Web-Based Tool for Evaluating Open-Source Large Language Models Leveraging Information Retrieval from Custom Documents
- arxiv url: http://arxiv.org/abs/2502.10916v2
- Date: Wed, 19 Feb 2025 19:36:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 10:45:30.890054
- Title: An Open-Source Web-Based Tool for Evaluating Open-Source Large Language Models Leveraging Information Retrieval from Custom Documents
- Title(参考訳): カスタムドキュメントから情報検索を活用するオープンソースの大規模言語モデル評価ツール
- Authors: Godfrey I,
- Abstract要約: 本稿では,対話エージェントとの会話中にユーザの発話行為が与える影響を実演できる,オープンソースのWebベースツールについて紹介する。
研究者や専門家は、様々な対話のパフォーマンスを評価し、ユーザのコミュニケーション意図を視覚化し、チャットエージェントにアップロードされた特定の文書を利用して情報検索を行うことができる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In our work, we present the first-of-its-kind open-source web-based tool which is able to demonstrate the impacts of a user's speech act during discourse with conversational agents, which leverages open-source large language models. With this software resource, it is possible for researchers and experts to evaluate the performance of various dialogues, visualize the user's communicative intents, and utilise uploaded specific documents for the chat agent to use for its information retrieval to respond to the user query. The context gathered by these models is obtained from a set of linguistic features extracted, which forms the context embeddings of the models. Regardless of these models showing good context understanding based on these features, there still remains a gap in including deeper pragmatic features to improve the model's comprehension of the query, hence the efforts to develop this web resource, which is able to extract and then inject this overlooked feature in the encoder-decoder pipeline of the conversational agent. To demonstrate the effect and impact of the resource, we carried out an experiment which evaluated the system using 2 knowledge files for information retrieval, with two user queries each, across 5 open-source large language models using 10 standard metrics. Our results showed that larger open-source models, demonstrated an improved alignment when the user speech act was included with their query. The smaller models in contrast showed an increased perplexity and mixed performance, which explicitly indicated struggles in processing queries that explicitly included speech acts. The results from the analysis using the developed web resource highlight the potential of speech acts towards enhancing conversational depths while underscoring the need for model-specific optimizations to address increased computational costs and response times.
- Abstract(参考訳): 本研究では,オープンソースの大規模言語モデルを活用する対話エージェントとの対話において,ユーザの発話行為が与える影響を実演することのできる,オープンソースのWebベースツールについて紹介する。
このソフトウェアリソースにより、研究者や専門家は、様々な対話のパフォーマンスを評価し、ユーザのコミュニケーション意図を視覚化し、チャットエージェントにアップロードされた特定の文書を利用して、ユーザクエリに応答する情報検索を行うことができる。
これらのモデルによって収集されたコンテキストは、モデルのコンテキスト埋め込みを形成する言語的特徴の集合から得られる。
これらの機能に基づいて適切なコンテキスト理解を示すモデルにせよ、モデルによるクエリの理解を改善するためのより深い実用的機能を含めるには、依然としてギャップが残っているため、このWebリソースの開発は、会話エージェントのエンコーダ-デコーダパイプラインで見落とされた機能を抽出し、注入することができる。
資源の効果と影響を実証するために,10の標準指標を用いた5つのオープンソース大言語モデルに対して,情報検索に2つの知識ファイルを用いて,それぞれ2つのユーザクエリを用いてシステム評価を行った。
以上の結果から,より大規模なオープンソースモデルでは,ユーザの音声行為をクエリに含めた場合,アライメントが改善された。
対照的に、より小さなモデルでは、難易度と混合性能が増加し、明示的に音声行為を含むクエリの処理に苦慮することが明らかとなった。
開発したWebリソースを用いた分析結果から,会話深度の向上に向けた音声行動の可能性を明らかにするとともに,計算コストと応答時間の増加に対応するために,モデル固有の最適化の必要性を強調した。
関連論文リスト
- Likelihood as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
言語モデルの性能の効果的な指標としての可能性を示す。
提案手法は,より優れた性能をもたらすプロンプトの選択と構築のための尺度として,疑似可能性を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Multi-Modal Retrieval For Large Language Model Based Speech Recognition [15.494654232953678]
我々は,kNN-LMとクロスアテンション手法の2つのアプローチによるマルチモーダル検索を提案する。
音声に基づくマルチモーダル検索はテキストベースの検索よりも優れていることを示す。
我々は,Spoken-Squad質問応答データセットを用いて,最先端の認識結果を得る。
論文 参考訳(メタデータ) (2024-06-13T22:55:22Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Enhancing Retrieval Processes for Language Generation with Augmented
Queries [0.0]
本研究は,実事実に基づく正確な応答をモデルに誘導するRAG(Retrieval-Augmented Generation)を通じてこの問題に対処することに焦点を当てる。
スケーラビリティの問題を克服するために、BERTやOrca2といった洗練された言語モデルとユーザクエリを結びつけることを検討する。
実験結果から,RAGによる初期言語モデルの性能向上が示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:19:53Z) - Evaluating Large Language Models in Semantic Parsing for Conversational
Question Answering over Knowledge Graphs [6.869834883252353]
本稿では,この課題に対して事前訓練を受けていない大規模言語モデルの性能を評価する。
その結果,大規模言語モデルでは対話からグラフクエリを生成することができることがわかった。
論文 参考訳(メタデータ) (2024-01-03T12:28:33Z) - Instruct and Extract: Instruction Tuning for On-Demand Information
Extraction [86.29491354355356]
On-Demand Information extractは、現実世界のユーザのパーソナライズされた要求を満たすことを目的としている。
InstructIEというベンチマークを、自動生成したトレーニングデータと、人手による注釈付きテストセットの両方を含む形で提示する。
InstructIE 上に構築した On-Demand Information Extractor, ODIE をさらに発展させる。
論文 参考訳(メタデータ) (2023-10-24T17:54:25Z) - BRENT: Bidirectional Retrieval Enhanced Norwegian Transformer [1.911678487931003]
検索ベースの言語モデルは、質問応答タスクにますます採用されている。
我々はREALMフレームワークを適用し,ノルウェー初の検索モデルを開発した。
本研究では,このような学習により,抽出質問応答における読み手のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-04-19T13:40:47Z) - Leveraging Advantages of Interactive and Non-Interactive Models for
Vector-Based Cross-Lingual Information Retrieval [12.514666775853598]
対話型モデルと非対話型モデルの利点を活用する新しいフレームワークを提案する。
非対話型アーキテクチャ上でモデルを構築できる半対話型機構を導入するが、各文書を関連付けられた多言語クエリと共にエンコードする。
本手法は,計算効率を維持しながら検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-03T03:03:19Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Reasoning in Dialog: Improving Response Generation by Context Reading
Comprehension [49.92173751203827]
マルチターンダイアログでは、発話が文の完全な形を取るとは限らない。
読み解きの質問に答えるモデルの能力を検討し、応答生成性能の向上を提案する。
論文 参考訳(メタデータ) (2020-12-14T10:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。