論文の概要: MacBehaviour: An R package for behavioural experimentation on large language models
- arxiv url: http://arxiv.org/abs/2405.07495v1
- Date: Mon, 13 May 2024 06:31:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 14:44:50.712873
- Title: MacBehaviour: An R package for behavioural experimentation on large language models
- Title(参考訳): MacBehaviour: 大規模言語モデル上での行動実験のためのRパッケージ
- Authors: Xufeng Duan, Shixuan Li, Zhenguang G. Cai1,
- Abstract要約: MacBehaviour"は機械行動研究用のRパッケージである。
1つのパッケージで60以上の言語モデルと対話することを目指している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There has been increasing interest in investigating the behaviours of large language models (LLMs) and LLM-powered chatbots by treating an LLM as a participant in a psychological experiment. We therefore developed an R package called "MacBehaviour" that aims to interact with more than 60 language models in one package (e.g., OpenAI's GPT family, the Claude family, Gemini, Llama family, and open-source models) and streamline the experimental process of LLMs behaviour experiments. The package offers a comprehensive set of functions designed for LLM experiments, covering experiment design, stimuli presentation, model behaviour manipulation, logging response and token probability. To demonstrate the utility and effectiveness of "MacBehaviour," we conducted three validation experiments on three LLMs (GPT-3.5, Llama-2 7B, and Vicuna-1.5 13B) to replicate sound-gender association in LLMs. The results consistently showed that they exhibit human-like tendencies to infer gender from novel personal names based on their phonology, as previously demonstrated (Cai et al., 2023). In summary, "MacBehaviour" is an R package for machine behaviour studies which offers a user-friendly interface and comprehensive features to simplify and standardize the experimental process.
- Abstract(参考訳): 大規模言語モデル (LLM) と LLM を利用したチャットボットの心理実験において, LLM を参加者として扱うことにより, 大規模言語モデル (LLM) と LLM を利用したチャットボットの振る舞いを調べることへの関心が高まっている。
そこで我々は,60以上の言語モデル(OpenAIのGPTファミリ,Claudeファミリ,Gemini,Llamaファミリ,オープンソースモデルなど)を1パッケージで操作することを目的として,MacBehaviourというRパッケージを開発した。
このパッケージは、実験設計、刺激提示、モデル行動操作、ロギング応答、トークン確率をカバーし、LLM実験のために設計された包括的な関数セットを提供する。
MacBehaviour の有効性と有効性を示すため,3つの LLM (GPT-3.5, Llama-2 7B, Vicuna-1.5 13B) を用いて3つの LLM の音響・ジェンダー関係の再現実験を行った。
その結果, 前述したように, 新たな人名から性別を推測する傾向が, 一貫して示された(Cai et al , 2023)。
要約すると、"MacBehaviour"は、ユーザーフレンドリーなインターフェースと、実験プロセスの簡素化と標準化のための包括的な機能を提供するマシン行動研究のためのRパッケージである。
関連論文リスト
- Can LLMs Reliably Simulate Human Learner Actions? A Simulation Authoring Framework for Open-Ended Learning Environments [1.4999444543328293]
学習者の行動のシミュレーションは、ストレステストのオープンエンドな対話型学習環境を支援し、デプロイ前に新しい適応のプロトタイプを作成する。
我々は,学習者行動に関する検証可能な仮説を組み合わせることで,専門家がシミュレーションを開発し,評価できるシミュレーションオーサリングフレームワークHyp-Mixを提案する。
論文 参考訳(メタデータ) (2024-10-03T00:25:40Z) - Simulating Field Experiments with Large Language Models [0.6144680854063939]
本稿では,大規模言語モデル(LLM)のフィールド実験への応用を先導する。
観測者モードと参加者モードという2つの新しいプロンプト戦略を導入することで、複雑なフィールド設定において、結果の予測と参加者応答の再現の両方を行うLLMの能力を実証する。
以上の結果から,特定のシナリオにおいて実際の実験結果と良好な一致を示し,観察モードでは66%の刺激精度が得られた。
論文 参考訳(メタデータ) (2024-08-19T03:41:43Z) - Can large language models explore in-context? [87.49311128190143]
単純なマルチアームバンディット環境において,エージェントとして大規模言語モデルをデプロイする。
モデルが実質的な介入なしには、探索にしっかりと関わっていないことが分かっています。
論文 参考訳(メタデータ) (2024-03-22T17:50:43Z) - Are You Sure? Challenging LLMs Leads to Performance Drops in The
FlipFlop Experiment [82.60594940370919]
大規模言語モデル(LLM)のマルチターン動作を研究するためのFlipFlop実験を提案する。
モデルが平均46%の時間で回答を反転させ、全てのモデルが最初の予測と最終予測の間に精度を低下させ、平均17%の低下(FlipFlop効果)を示す。
我々はオープンソースのLLMで微調整実験を行い、合成されたデータに対する微調整は、性能劣化を60%低減させることができるが、サイコファンティックな振る舞いを完全には解決できないことを発見した。
論文 参考訳(メタデータ) (2023-11-14T23:40:22Z) - Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。
ネガティブな対立や干渉は パフォーマンスに悪影響を及ぼすかもしれない
我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文 参考訳(メタデータ) (2023-11-05T15:48:29Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - Better Zero-Shot Reasoning with Role-Play Prompting [10.90357246745529]
ロールプレイプロンプトは、ほとんどのデータセットで標準のゼロショットアプローチを一貫して上回っている。
これは、大きな言語モデルの推論能力を増強する可能性を強調している。
論文 参考訳(メタデータ) (2023-08-15T11:08:30Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - pymdp: A Python library for active inference in discrete state spaces [52.85819390191516]
pymdpはPythonでアクティブな推論をシミュレートするオープンソースパッケージである。
我々は,POMDPによるアクティブな推論をシミュレートする,最初のオープンソースパッケージを提供する。
論文 参考訳(メタデータ) (2022-01-11T12:18:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。