論文の概要: REAL: Benchmarking Abilities of Large Language Models for Housing Transactions and Services
- arxiv url: http://arxiv.org/abs/2507.03477v1
- Date: Fri, 04 Jul 2025 11:05:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.747098
- Title: REAL: Benchmarking Abilities of Large Language Models for Housing Transactions and Services
- Title(参考訳): REAL: トランザクションとサービスのための大規模言語モデルのベンチマーク能力
- Authors: Kexin Zhu, Yang Han,
- Abstract要約: 本稿では,不動産業者の大規模言語モデル評価(REAL)について,住宅取引・サービス分野におけるLCMの能力を評価するための評価スイートとして紹介する。
REALは、メモリ、理解、推論、幻覚の4つのトピックにわたる5,316の高品質な評価項目で構成されている。
実験結果から, LLMには不動産分野に適用すべき改善の余地がまだ残っていることが示唆された。
- 参考スコア(独自算出の注目度): 1.7336930524935108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of large language models (LLMs) has greatly promoted the progress of chatbot in multiple fields. There is an urgent need to evaluate whether LLMs can play the role of agent in housing transactions and services as well as humans. We present Real Estate Agent Large Language Model Evaluation (REAL), the first evaluation suite designed to assess the abilities of LLMs in the field of housing transactions and services. REAL comprises 5,316 high-quality evaluation entries across 4 topics: memory, comprehension, reasoning and hallucination. All these entries are organized as 14 categories to assess whether LLMs have the knowledge and ability in housing transactions and services scenario. Additionally, the REAL is used to evaluate the performance of most advanced LLMs. The experiment results indicate that LLMs still have significant room for improvement to be applied in the real estate field.
- Abstract(参考訳): 大規模言語モデル(LLM)の開発は、複数の分野におけるチャットボットの進歩を大いに促進してきた。
人間だけでなく、住宅取引やサービスにおいて、LCMがエージェントとしての役割を担えるかを評価する必要がある。
本稿では,不動産業者の大規模言語モデル評価(REAL)について,住宅取引・サービス分野におけるLCMの能力を評価するための評価スイートとして紹介する。
REALは、メモリ、理解、推論、幻覚の4つのトピックにわたる5,316の高品質な評価項目で構成されている。
これらの項目はすべて、LLMが住宅取引やサービスシナリオの知識と能力を持っているかどうかを評価するために、14のカテゴリに分類される。
さらに、REALは最も先進的なLCMの性能を評価するために使われる。
実験結果から, LLMは依然として不動産分野に応用すべき改善の余地があることが示唆された。
関連論文リスト
- On the Performance of LLMs for Real Estate Appraisal [5.812129569528997]
本研究では,Large Language Models (LLMs) が,競争力と解釈可能な住宅価格推定を生成することによって,不動産情報へのアクセスを民主化する方法について検討する。
我々は,多種多様な国際住宅データを用いて,ゼロショット,少数ショット,市場レポート強化,ハイブリッドプロンプト技術の比較を行った。
この結果から, LLMは, 特性サイズやアメニティなどのヘドニック変数を有効利用し, 有意義な推定値が得られることがわかった。
論文 参考訳(メタデータ) (2025-06-13T14:14:40Z) - An Empirical Study of Many-to-Many Summarization with Large Language Models [82.10000188179168]
大規模言語モデル(LLM)は強い多言語能力を示しており、実アプリケーションでM2MS(Multi-to-Many summarization)を実行する可能性を秘めている。
本研究は,LLMのM2MS能力に関する系統的研究である。
論文 参考訳(メタデータ) (2025-05-19T11:18:54Z) - A Survey of Useful LLM Evaluation [20.048914787813263]
2段階フレームワーク:コア能力からエージェントへ」
コア能力」の段階では, LLMの推論能力, 社会的影響, ドメイン知識について議論した。
エージェントの段階では, LLMエージェントアプリケーションの動作, 計画, ツール学習の具体化を実演した。
論文 参考訳(メタデータ) (2024-06-03T02:20:03Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - LLMMaps -- A Visual Metaphor for Stratified Evaluation of Large Language
Models [13.659853119356507]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々なタスクにおいて印象的な能力を示した。
彼らは幻覚を起こす傾向があり、モデルがその反応の中で誤った情報や誤った情報を公開する。
ユーザによるQ&Aデータセットに対するLLMの性能評価を可能にする新しい可視化手法として,LLMMapsを提案する。
論文 参考訳(メタデータ) (2023-04-02T05:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。