このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240223となっている論文です。

PDF登録状況(公開日: 20240223)

TitleAuthorsAbstract論文公表日・翻訳日
# 無人自動車運転システムの安全性に関する最初の示唆

Initial Indications of Safety of Driverless Automated Driving Systems ( http://arxiv.org/abs/2403.14648v1 )

ライセンス: Link先を確認
Jiayu Joyce Chen, Steven E. Shladover, (参考訳) 自動運転システム(ADS)が公道で運用されるようになると、これらのシステムが現実世界の交通状況をいかに安全に管理しているかを理解する必要がある。 カリフォルニア州公共事業委員会(CPUC)のデータが、カリフォルニアで人間ドライバーのいない交通ネットワーク会社(TNCs)で利用可能になるにつれ、ADSと人間の運転安全性を比較するための最初の基礎がある。 本稿では、2020年12月から2022年11月までの、CPUC TNC年次報告書によるUberのライドシェアリング、2022年3月から2023年8月までの、カリフォルニア州自動車局(DMV)による自動運転車(AV)の運転、2022年3月から2023年8月までのWaymoとCruiseによる無人運転パイロット(テスト)および展開(レベンジ・サービス)プログラムの3種類の運転の事故率と特徴を分析する。 運転はすべてサンフランシスコ市内で行われ、高速道路は除いた。 同じ地理的制限により、脆弱な道路利用者、人口密度、速度制限、および天気や道路条件などの外部要因への露出を制御することができる。 この研究によると、監督されたAVはUberの人間運転とほぼ同等の事故(CPMM)があり、自動運転車のWaymo AVはCPMMが低く、ドライバーレスのCruise AVはUberの人間運転よりもCPMMが高い。 このデータサンプルは、サンフランシスコの複雑な都市環境において、現在の自動化システムが人間の運転する車よりも安全かどうかについての結論を裏付けるには十分ではない。

As driverless automated driving systems (ADS) start to operate on public roads, there is an urgent need to understand how safely these systems are managing real-world traffic conditions. With data from the California Public Utilities Commission (CPUC) becoming available for Transportation Network Companies (TNCs) operating in California with and without human drivers, there is an initial basis for comparing ADS and human driving safety. This paper analyzes the crash rates and characteristics for three types of driving: Uber ridesharing trips from the CPUC TNC Annual Report in 2020, supervised autonomous vehicles (AV) driving from the California Department of Motor Vehicles (DMV) between December 2020 and November 2022, driverless ADS pilot (testing) and deployment (revenue service) program from Waymo and Cruise between March 2022 and August 2023. All of the driving was done within the city of San Francisco, excluding freeways. The same geographical confinement allows for controlling the exposure to vulnerable road users, population density, speed limit, and other external factors such as weather and road conditions. The study finds that supervised AV has almost equivalent crashes per million miles (CPMM) as Uber human driving, the driverless Waymo AV has a lower CPMM, and the driverless Cruise AV has a higher CPMM than Uber human driving. The data samples are not yet large enough to support conclusions about whether the current automated systems are more or less safe than human-operated vehicles in the complex San Francisco urban environment.
翻訳日:2024-04-01 03:52:54 公開日:2024-02-23
# 科学ソフトの経済的価値

The economic value of scientific software ( http://arxiv.org/abs/2403.14649v1 )

ライセンス: Link先を確認
Nicolas Jullien, (参考訳) 学術機関とそのスタッフはソフトウェアを使用し、適応し、作成する。 私たちは、ミッション遂行に使用されるビジネスツールについて考えています。例えば、教育管理(Moodle)や教科指導支援(Maximaなど)です。 研究者やチームによる研究プロジェクト(ANR、ヨーロッパなどから資金提供を受けているか、そうでないか)の一部として、あるいはサードパーティのリサーチサービスとして設計された、研究作業に由来するソフトウェアについて話しているところです。 これらのプロジェクトは数十年(Coqプログラム証明アシスタントプロジェクトやGPACマルチメディアコンテンツ配信プラットフォームなど)継続することができる。 我々は、このソフトウェアがなぜ作られたのか、どのような資源、機関がそれに由来する関心、科学研究から生じるソフトウェアの「価値化」について論じる。 社会価値(知識の世界遺産への貢献)、金融価値(契約)、経済価値(ビジネス創造)、科学的価値(出版)、イメージ価値(学生、研究者、企業、加入者)。

Academic institutions and their staff use, adapt and create software. We're thinking of business tools used to carry out their mission: teaching management (Moodle) or subject teaching support (such as Maxima for formal calculus), for example. We're talking about software resulting from research work, designed by a researcher or a team as part of a research project (funded by ANR, Europe, etc. or not) or as a research service for a third party. These projects can last for decades (such as the Coq program proof assistant project, or the GPAC multimedia content distribution platform).We discuss why this software is produced, with what resources, the interest that institutions derive from it, what we call the ''valorization'' of software resulting from scientific research. The latter is multifaceted, as are the missions of scientific institutions: social value (contribution to the world heritage of knowledge), financial value (contracts), economic value (business creation), scientific value (publication), image value (visibility of the institution among target audiences: students, researchers, companies, prescribers).
翻訳日:2024-04-01 03:52:54 公開日:2024-02-23
# パーソナライズされた医療・保守・検査・農業4.0におけるコンピューティング継続のハーネス

Harnessing the Computing Continuum across Personalized Healthcare, Maintenance and Inspection, and Farming 4.0 ( http://arxiv.org/abs/2403.14650v1 )

ライセンス: Link先を確認
Fatemeh Baghdadi, Davide Cirillo, Daniele Lezzi, Francesc Lordan, Fernando Vazquez, Eugenio Lomurno, Alberto Archetti, Danilo Ardagna, Matteo Matteucci, (参考訳) 2021年に開始され、欧州委員会によって資金提供されたAI-SPRINTプロジェクトは、コンピュータ連続体におけるAIアプリケーションの開発と実装に焦点を当てている。 この継続により、中央集中型データセンタからエッジデバイスへの計算資源とサービスのコヒーレントな統合が保証され、効率的で適応的な計算とアプリケーション配信が容易になる。 AI-SPRINTは、3つの実用的なユースケースで証明されているように、合理化プロセス、効率の向上、リアルタイムに運用する能力など、科学的に重要な進歩を遂げている。 本稿では、これらの応用 -- パーソナライズされたヘルスケア、メンテナンス、検査、Farming 4.0 -- を詳細に検討し、その実践とAI-SPRINT技術の統合による目的を明らかにする。 提案するツールチェーンが、さまざまな課題に効果的に対処し、プロセスを洗練し、その関連性と複数のドメインへの影響について議論する。 これらのシナリオで使用される主要なAI-SPRINTツールの概要を概観した後、論文では、得られた発見と重要な教訓について要約する。

The AI-SPRINT project, launched in 2021 and funded by the European Commission, focuses on the development and implementation of AI applications across the computing continuum. This continuum ensures the coherent integration of computational resources and services from centralized data centers to edge devices, facilitating efficient and adaptive computation and application delivery. AI-SPRINT has achieved significant scientific advances, including streamlined processes, improved efficiency, and the ability to operate in real time, as evidenced by three practical use cases. This paper provides an in-depth examination of these applications -- Personalized Healthcare, Maintenance and Inspection, and Farming 4.0 -- highlighting their practical implementation and the objectives achieved with the integration of AI-SPRINT technologies. We analyze how the proposed toolchain effectively addresses a range of challenges and refines processes, discussing its relevance and impact in multiple domains. After a comprehensive overview of the main AI-SPRINT tools used in these scenarios, the paper summarizes of the findings and key lessons learned.
翻訳日:2024-04-01 03:52:54 公開日:2024-02-23
# DOSA:インドにおける異なる地理的サブカルチャーのソーシャルアーティファクトのデータセット

DOSA: A Dataset of Social Artifacts from Different Indian Geographical Subcultures ( http://arxiv.org/abs/2403.14651v1 )

ライセンス: Link先を確認
Agrima Seth, Sanchit Ahuja, Kalika Bali, Sunayana Sitaram, (参考訳) 生成モデルは、テキスト生成、コモンセンス推論、質問応答など、様々なアプリケーションでますます使われている。 グローバルに効果的にするためには、これらのモデルは地域社会文化の文脈を意識し、考慮しなければなりません。 LLM のトレーニングデータは Web ベースであり,Web は情報表現に制限があるため,Web 上にないコミュニティ内に存在する知識を捉えない。 したがって、これらのモデルはWebからの不等式、意味的ミスアライメント、ステレオタイプを悪化させる。 NLPでは,コミュニティ中心の参加型研究手法を求める声が高まっている。 本研究では,最初のコミュニティ生成である$\textbf{D}$ataset $\textbf{o}$f 615 $\textbf{S}$ocial $\textbf{A}$rtifactsを紹介し,19の異なるインディアンのサブカルチャーから260人の参加者を参加させることで,参加型研究手法を用いてこのコールに応答する。 我々は、これらの人工物の名前や記述を集合的な感覚に頼って収集するゲーミフィケーション・フレームワークを用いて、これらの文化の個人が共有する感覚と意味的に一致させる。 次に,4つの人気のあるLCMをベンチマークし,各地域のサブカルチャーにおいて,アーティファクトを推測する能力に有意な差異があることを見出した。

Generative models are increasingly being used in various applications, such as text generation, commonsense reasoning, and question-answering. To be effective globally, these models must be aware of and account for local socio-cultural contexts, making it necessary to have benchmarks to evaluate the models for their cultural familiarity. Since the training data for LLMs is web-based and the Web is limited in its representation of information, it does not capture knowledge present within communities that are not on the Web. Thus, these models exacerbate the inequities, semantic misalignment, and stereotypes from the Web. There has been a growing call for community-centered participatory research methods in NLP. In this work, we respond to this call by using participatory research methods to introduce $\textit{DOSA}$, the first community-generated $\textbf{D}$ataset $\textbf{o}$f 615 $\textbf{S}$ocial $\textbf{A}$rtifacts, by engaging with 260 participants from 19 different Indian geographic subcultures. We use a gamified framework that relies on collective sensemaking to collect the names and descriptions of these artifacts such that the descriptions semantically align with the shared sensibilities of the individuals from those cultures. Next, we benchmark four popular LLMs and find that they show significant variation across regional sub-cultures in their ability to infer the artifacts.
翻訳日:2024-04-01 03:52:54 公開日:2024-02-23
# 通貨取引における長期記憶パターン認識

Long Short-Term Memory Pattern Recognition in Currency Trading ( http://arxiv.org/abs/2403.18839v1 )

ライセンス: Link先を確認
Jai Pal, (参考訳) この研究は、20世紀初頭にRichard D. Wyckoffによって考案されたフレームワークであるWyckoff Phases(英語版)のレンズを通して金融市場を分析した。 この研究は、Wyckoffフレームワーク内の蓄積パターンに注目し、トレーディング範囲とセカンダリテストのフェーズを調査し、市場のダイナミクスを理解し、潜在的なトレーディング機会を特定することの重要性を解明する。 この研究は、これらのフェーズの複雑さを解き明かすことによって、市場構造を通して流動性を生み出すことに光を当て、トレーダーがこの知識を利用して価格の動きを予測し、情報的な決定を下す方法についての洞察を与える。 Wyckoffパターンの効果的な検出と解析は、複雑な市場データを処理できる堅牢な計算モデルを必要とし、空間データは畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)モデルによる時間データを最もよく分析する。 トレーニングデータの作成には、重要な市場の動きを表すスイングポイントとフィラーポイントの生成、ノイズの導入、モデル一般化の強化が含まれる。 シグモイド関数のような活性化関数は、ニューラルネットワークモデルの出力挙動を決定する上で重要な役割を果たす。 本研究は,金融市場におけるパターン認識と分析の強化の可能性を強調し,金融データ中のWyckoffパターンの検出におけるディープラーニングモデルの顕著な有効性を示した。 結論として、この研究は、金融分析とトレーディング戦略におけるAI主導のアプローチの変革の可能性を強調し、トレーディングと投資のプラクティスを形作るAIテクノロジの統合について論じている。

This study delves into the analysis of financial markets through the lens of Wyckoff Phases, a framework devised by Richard D. Wyckoff in the early 20th century. Focusing on the accumulation pattern within the Wyckoff framework, the research explores the phases of trading range and secondary test, elucidating their significance in understanding market dynamics and identifying potential trading opportunities. By dissecting the intricacies of these phases, the study sheds light on the creation of liquidity through market structure, offering insights into how traders can leverage this knowledge to anticipate price movements and make informed decisions. The effective detection and analysis of Wyckoff patterns necessitate robust computational models capable of processing complex market data, with spatial data best analyzed using Convolutional Neural Networks (CNNs) and temporal data through Long Short-Term Memory (LSTM) models. The creation of training data involves the generation of swing points, representing significant market movements, and filler points, introducing noise and enhancing model generalization. Activation functions, such as the sigmoid function, play a crucial role in determining the output behavior of neural network models. The results of the study demonstrate the remarkable efficacy of deep learning models in detecting Wyckoff patterns within financial data, underscoring their potential for enhancing pattern recognition and analysis in financial markets. In conclusion, the study highlights the transformative potential of AI-driven approaches in financial analysis and trading strategies, with the integration of AI technologies shaping the future of trading and investment practices.
翻訳日:2024-04-01 02:25:04 公開日:2024-02-23
# VISREAS: 疑問の余地のない複雑なビジュアル推論

VISREAS: Complex Visual Reasoning with Unanswerable Questions ( http://arxiv.org/abs/2403.10534v1 )

ライセンス: Link先を確認
Syeda Nahida Akter, Sangwu Lee, Yingshan Chang, Yonatan Bisk, Eric Nyberg, (参考訳) 回答する前の質問の有効性を検証することは、ユーザーが不完全な指示を提供する現実世界のアプリケーションでは不可欠である。 このシナリオでは、理想的なモデルはクエリの相違に対処し、最良の答えを生成するのではなく、ユーザに伝えるべきです。 この要件に対処するため, 対象, 属性, 関係の共通性や相違をトラバースし, 摂動することによって構成された, 応答可能な, 問合せ不能な視覚的クエリからなる, 新たな構成的視覚的問合せデータセットVISREASを導入する。 VISREASには、Visual Genomeのシーングラフを使って自動的に生成されるセマンティックな多様なクエリが2.07M含まれている。 このタスクのユニークな特徴は、回答する前のイメージに対する質問応答性を検証すること、そして最先端モデルの貧弱な性能が、新しいモジュールベースラインであるLOGIC2VISIONの設計に影響を与えたことである。 LOGIC2VISIONは、VISREAS(LLaVA-1.5より+4.82%、InstructBLIPより+12.23%)の生成モデルより優れており、分類モデルに対する性能が大幅に向上している。

Verifying a question's validity before answering is crucial in real-world applications, where users may provide imperfect instructions. In this scenario, an ideal model should address the discrepancies in the query and convey them to the users rather than generating the best possible answer. Addressing this requirement, we introduce a new compositional visual question-answering dataset, VISREAS, that consists of answerable and unanswerable visual queries formulated by traversing and perturbing commonalities and differences among objects, attributes, and relations. VISREAS contains 2.07M semantically diverse queries generated automatically using Visual Genome scene graphs. The unique feature of this task, validating question answerability with respect to an image before answering, and the poor performance of state-of-the-art models inspired the design of a new modular baseline, LOGIC2VISION that reasons by producing and executing pseudocode without any external modules to generate the answer. LOGIC2VISION outperforms generative models in VISREAS (+4.82% over LLaVA-1.5; +12.23% over InstructBLIP) and achieves a significant gain in performance against the classification models.
翻訳日:2024-03-25 07:56:27 公開日:2024-02-23
# AltGraph:効率的な最適化のための生成グラフモデルを用いた量子回路の再設計

AltGraph: Redesigning Quantum Circuits Using Generative Graph Models for Efficient Optimization ( http://arxiv.org/abs/2403.12979v1 )

ライセンス: Link先を確認
Collin Beaudoin, Koustubh Phalak, Swaroop Ghosh, (参考訳) 量子回路変換は、回路深さ、ゲート数、現代のノイズ中間スケール量子(NISQ)デバイスとの互換性などの様々な側面を最適化しながら、等価な回路を生成することを目的としている。 回路変換には2つの技法がある。 ひとつはルールベースのアプローチで、IDのユニタリ操作に匹敵するゲートのペアを鮮やかにキャンセルする。 ルールベースのアプローチは、Qiskit、tket、Quilcといった量子コンパイラで使用される。 2つ目は、量子回路探索空間を探索することで等価な量子回路を見つけようとする探索に基づくアプローチである。 検索ベースのアプローチは一般的に、生成モデルや強化学習(RL)のような機械学習技術に依存する。 本研究では,既存の生成グラフモデルを用いて等価な量子回路を生成する検索ベースの新しい回路変換手法AltGraphを提案する。 DAG変動オートエンコーダ(D-VAE)とGRU(Gated Recurrent Unit)とGCN(Graph Convolutional Network)の2つの変種と、量子回路の直接巡回グラフ(DAG)を入力として出力するDeepGMG(Deep Generative Model for Graphs)の3つの主要なグラフモデルを用いて、等価な量子回路を再構成する。 次に、等価量子回路を生成するために遅延空間を摂動させ、そのいくつかはハードウェア結合マップとより互換性があり、/またはより優れた最適化が可能となり、ゲート数と回路深さが減少する。 AltGraphは、密度行列で0.0074 Mean Squared Error (MSE)しか持たない元のトランスパイル回路と比較して、ゲート数の平均37.55%の削減と回路深さの37.75%の削減を実現している。

Quantum circuit transformation aims to produce equivalent circuits while optimizing for various aspects such as circuit depth, gate count, and compatibility with modern Noisy Intermediate Scale Quantum (NISQ) devices. There are two techniques for circuit transformation. The first is a rule-based approach that greedily cancels out pairs of gates that equate to the identity unitary operation. Rule-based approaches are used in quantum compilers such as Qiskit, tket, and Quilc. The second is a search-based approach that tries to find an equivalent quantum circuit by exploring the quantum circuits search space. Search-based approaches typically rely on machine learning techniques such as generative models and Reinforcement Learning (RL). In this work, we propose AltGraph, a novel search-based circuit transformation approach that generates equivalent quantum circuits using existing generative graph models. We use three main graph models: DAG Variational Autoencoder (D-VAE) with two variants: Gated Recurrent Unit (GRU) and Graph Convolutional Network (GCN), and Deep Generative Model for Graphs (DeepGMG) that take a Direct Acyclic Graph (DAG) of the quantum circuit as input and output a new DAG from which we reconstruct the equivalent quantum circuit. Next, we perturb the latent space to generate equivalent quantum circuits some of which may be more compatible with the hardware coupling map and/or enable better optimization leading to reduced gate count and circuit depth. AltGraph achieves on average a 37.55% reduction in the number of gates and a 37.75% reduction in the circuit depth post-transpiling compared to the original transpiled circuit with only 0.0074 Mean Squared Error (MSE) in the density matrix.
翻訳日:2024-03-25 07:27:10 公開日:2024-02-23
# アンビエント光センサを用いた消音

De-authentication using Ambient Light Sensor ( http://arxiv.org/abs/2309.12220v2 )

ライセンス: Link先を確認
Ankit Gangwal, Aashish Paliwal, Mauro Conti, (参考訳) ユーザ認証はログインセッションの開始または再開前に行われるが、非認証は、現在アクティブなログインセッションを無効にするために、事前に認証されたユーザがいないことを検出する。 適切な認証解除がないと、よく知られたランチタイム攻撃が起こり、近くにいる敵が不注意に離れたユーザのログインセッションを乗っ取る。 自動消音のための既存のソリューションは、例えば、特別な配置要件や、外部機器の初期コストが高いといった、明確な実用的な制限がある。 本稿では,新しい,安価で,高速で,ユーザフレンドリーな脱認証手法である「環境光センサを用いたDEAL(DE-authentication using Ambient Light Sensor)」を提案する。 DEALは、現代のコンピュータの内蔵環境光センサーを使用して、ユーザーがワークデスクを離れているかどうかを判断する。 DEALは、設計上、照明条件の自然変化に耐性があり、周囲の照明の急激な変化(例えば、部屋の明かりが光っているため)に対処するように構成できる。 4つの典型的な職場環境において,120人のボランティアによる4800のセッションからデータを収集し,提案手法の質を徹底的に評価するための一連の実験を行った。 以上の結果から, DEALは89.15%のヒット率,7.35%のダウンアウトで,4秒以内に離脱ユーザを非認証化できることがわかった。 最後に、DEALをバイパスしてランチタイムアタックを起動することは事実上不可能であり、攻撃者はユーザの位置を数秒以内に取るか、センサーの読み取りをリアルタイムに巧みに操作する必要がある。

While user authentication happens before initiating or resuming a login session, de-authentication detects the absence of a previously-authenticated user to revoke her currently active login session. The absence of proper de-authentication can lead to well-known lunchtime attacks, where a nearby adversary takes over a carelessly departed user's running login session. The existing solutions for automatic de-authentication have distinct practical limitations, e.g., extraordinary deployment requirements or high initial cost of external equipment. In this paper, we propose "DE-authentication using Ambient Light sensor" (DEAL), a novel, inexpensive, fast, and user-friendly de-authentication approach. DEAL utilizes the built-in ambient light sensor of a modern computer to determine if the user is leaving her work-desk. DEAL, by design, is resilient to natural shifts in lighting conditions and can be configured to handle abrupt changes in ambient illumination (e.g., due to toggling of room lights). We collected data samples from 4800 sessions with 120 volunteers in 4 typical workplace settings and conducted a series of experiments to evaluate the quality of our proposed approach thoroughly. Our results show that DEAL can de-authenticate a departing user within 4 seconds with a hit rate of 89.15% and a fall-out of 7.35%. Finally, bypassing DEAL to launch a lunchtime attack is practically infeasible as it requires the attacker to either take the user's position within a few seconds or manipulate the sensor readings sophisticatedly in real-time.
翻訳日:2024-03-19 04:01:03 公開日:2024-02-23
# 安全性と安全性を活かした2層ブロックチェーンシャーディングプロトコルの高性能化

A Two-Layer Blockchain Sharding Protocol Leveraging Safety and Liveness for Enhanced Performance ( http://arxiv.org/abs/2310.11373v3 )

ライセンス: Link先を確認
Yibin Xu, Jingyi Zheng, Boris Düdder, Tijs Slaats, Yongluan Zhou, (参考訳) シャーディングはブロックチェーンのスケーラビリティ向上に不可欠だ。 既存のプロトコルは、さまざまな敵攻撃を見落とし、トランザクションスループットを制限します。 本稿では、この問題に対処する基盤的なシャーディングプロトコルであるReticulumを紹介し、ブロックチェーンのスケーラビリティを向上する。 Reticulumは2段階のアプローチを採用し、実行時逆アタックに基づくトランザクションスループットを適用している。 コントロール"と"プロセス"のシャードを2つのレイヤで構成する。 プロセスシャードには少なくとも1つの信頼できるノードが含まれ、コントロールシャードには信頼性のあるノードが多数含まれている。 最初のフェーズでは、トランザクションはブロックに書き込まれ、プロセスシャード内のノードによって投票される。 承認されたブロックが全会一致で確認される。 第2段階では、全会一致の受け入れられないブロックは制御シャードによって投票される。 多数派が賛成すればブロックが認められ、第一段階の反対者や無言の有権者は排除される。 Reticulumは第1フェーズで全会一致投票を使用しており、ノードが少ないため、より並列なプロセスシャードが可能である。 コントロールシャードは決定を確定し、紛争を解決します。 Reticulumの革新的な設計を確認し、さまざまなネットワーク攻撃に対して高いトランザクションスループットと堅牢性を提供し、ブロックチェーンネットワークの既存のシャーディングプロトコルを上回っている。

Sharding is essential for improving blockchain scalability. Existing protocols overlook diverse adversarial attacks, limiting transaction throughput. This paper presents Reticulum, a groundbreaking sharding protocol addressing this issue, boosting blockchain scalability. Reticulum employs a two-phase approach, adapting transaction throughput based on runtime adversarial attacks. It comprises "control" and "process" shards in two layers. Process shards contain at least one trustworthy node, while control shards have a majority of trusted nodes. In the first phase, transactions are written to blocks and voted on by nodes in process shards. Unanimously accepted blocks are confirmed. In the second phase, blocks without unanimous acceptance are voted on by control shards. Blocks are accepted if the majority votes in favor, eliminating first-phase opponents and silent voters. Reticulum uses unanimous voting in the first phase, involving fewer nodes, enabling more parallel process shards. Control shards finalize decisions and resolve disputes. Experiments confirm Reticulum's innovative design, providing high transaction throughput and robustness against various network attacks, outperforming existing sharding protocols for blockchain networks.
翻訳日:2024-03-19 02:13:39 公開日:2024-02-23
# 大衆のための信頼できる機密仮想マシン

Trustworthy confidential virtual machines for the masses ( http://arxiv.org/abs/2402.15277v1 )

ライセンス: Link先を確認
Anna Galanou, Khushboo Bindlish, Luca Preibsch, Yvonne-Anne Pignolet, Christof Fetzer, Rüdiger Kapitza, (参考訳) 信頼性コンピューティングは、クラウドプロバイダを信頼されたコンピューティングベースから排除し、ワークロードをクラウドに移行するという不関心を解消することで、不信な顧客の懸念を軽減する。 これは、AMDのSEV Secure Nested Paging (SEV-SNP)のような新しいハードウェア拡張によって促進される。 しかしながら、機密性の高いワークロードをデプロイするサービスプロバイダや、機密データをサービスに渡すエンドユーザに対して、そのような保護が保証されるためには、関係者に証拠を送信する必要がある。 サービスプロバイダは、リモート検証を行うことで、このような証明を取得することができるが、エンドユーザは通常、この証明を取得したり、その正しさを検証する手段を持っていないため、サービスプロバイダの信頼性に頼る必要がある。 本稿では,2つの主要なコントリビューションを特徴とするアプローチであるRevelioを紹介する。 i)シークレット仮想マシン(VM)ベースのワークロードを、サービスプロバイダによってさえも改ざんを許さない方法で設計し、デプロイすることができる。 二 ユーザに対し、その完全性を容易に検証する権限を付与すること。 特に、Web対応のワークロードに注力し、SEV-SNPを活用して保護し、新しいWebセッションが確立されるたびに、エンドユーザがシームレスにそれらを証明できるようにします。 Revelioのメリットを強調するために、オープンソースコラボレーションオフィススイートをホストするスタンドアロンのステートフルVMのセキュリティと、コモディティユーザが分散化されたブロックチェーンインフラストラクチャであるInternet Computerに安全にアクセス可能なレプリケーションプロトコルプロキシの提示について論じる。

Confidential computing alleviates the concerns of distrustful customers by removing the cloud provider from their trusted computing base and resolves their disincentive to migrate their workloads to the cloud. This is facilitated by new hardware extensions, like AMD's SEV Secure Nested Paging (SEV-SNP), which can run a whole virtual machine with confidentiality and integrity protection against a potentially malicious hypervisor owned by an untrusted cloud provider. However, the assurance of such protection to either the service providers deploying sensitive workloads or the end-users passing sensitive data to services requires sending proof to the interested parties. Service providers can retrieve such proof by performing remote attestation while end-users have typically no means to acquire this proof or validate its correctness and therefore have to rely on the trustworthiness of the service providers. In this paper, we present Revelio, an approach that features two main contributions: i) it allows confidential virtual machine (VM)-based workloads to be designed and deployed in a way that disallows any tampering even by the service providers and ii) it empowers users to easily validate their integrity. In particular, we focus on web-facing workloads, protect them leveraging SEV-SNP, and enable end-users to remotely attest them seamlessly each time a new web session is established. To highlight the benefits of Revelio, we discuss how a standalone stateful VM that hosts an open-source collaboration office suite can be secured and present a replicated protocol proxy that enables commodity users to securely access the Internet Computer, a decentralized blockchain infrastructure.
翻訳日:2024-03-18 07:28:31 公開日:2024-02-23
# ポストディザスタネットワークのためのUAVコーディネーションのブロックチェーン対応フレームワーク

A Blockchain-Enabled Framework of UAV Coordination for Post-Disaster Networks ( http://arxiv.org/abs/2402.15331v1 )

ライセンス: Link先を確認
Sana Hafeez, Runze Cheng, Lina Mohjazi, Muhammad Ali Imran, Yao Sun, (参考訳) 緊急通信は重要であるが、地上インフラが破壊される自然災害の後に困難である。 無人航空機(UAV)はこれらのシナリオにおいて、アジャイルリリーフコーディネートに巨大な可能性を秘めている。 しかしながら、UAV艦隊を効果的に活用することは、セキュリティ、プライバシ、レスポンスエージェンシー間の効率的なコラボレーションに関して、さらなる課題をもたらす。 本稿では、コンソーシアムブロックチェーンモデル、スマートコントラクト、災害対応のためにUAV艦隊を安全に調整するための暗号化技術を統合することで、これらの課題に対処する堅牢なブロックチェーン対応フレームワークを提案する。 具体的には、セキュアかつプライベートなマルチ緊急調整のためのコンソーシアムブロックチェーンアーキテクチャと、実用的なビザンチン耐障害性(DPoS-PBFT)の委譲された証明を用いて、効率と耐障害性のバランスをとる最適化されたコンセンサスプロトコルである。 総合的なシミュレーションでは、ポストディザスターネットワークにおけるUAV調整のための透明性、自動化、スケーラビリティ、サイバー攻撃のレジリエンスを高めるフレームワークの能力を示している。

Emergency communication is critical but challenging after natural disasters when ground infrastructure is devastated. Unmanned aerial vehicles (UAVs) offer enormous potential for agile relief coordination in these scenarios. However, effectively leveraging UAV fleets poses additional challenges around security, privacy, and efficient collaboration across response agencies. This paper presents a robust blockchain-enabled framework to address these challenges by integrating a consortium blockchain model, smart contracts, and cryptographic techniques to securely coordinate UAV fleets for disaster response. Specifically, we make two key contributions: a consortium blockchain architecture for secure and private multi-agency coordination; and an optimized consensus protocol balancing efficiency and fault tolerance using a delegated proof of stake practical byzantine fault tolerance (DPoS-PBFT). Comprehensive simulations showcase the framework's ability to enhance transparency, automation, scalability, and cyber-attack resilience for UAV coordination in post-disaster networks.
翻訳日:2024-03-18 07:28:31 公開日:2024-02-23
# 次世代認証の可能性について:眼球運動と脳波に基づくメカニズムに関する研究

On the Usability of Next-Generation Authentication: A Study on Eye Movement and Brainwave-based Mechanisms ( http://arxiv.org/abs/2402.15388v1 )

ライセンス: Link先を確認
Matin Fallahi, Patricia Arias Cabarcos, Thorsten Strufe, (参考訳) パスワードは、よく知られたセキュリティとユーザビリティの制限にもかかわらず、広く使われている認証メカニズムのままである。 この状況を改善するため、眼球運動や脳波などの行動生物学的要因に基づく次世代認証機構が出現した。 しかし、その使用性は比較的低いままである。 このギャップを埋めるために,我々は3つの脳と3つの眼の認証機構を質的,定量的に評価するための経験的ユーザスタディ(n=32名)を行った。 以上の結果から,SUSスコアは78.6~79.6の範囲で,SUSスコアは「優れた」スコアで評価されている。 参加者は特に脳波認証を、眼球運動認証よりも安全だがプライバシーを侵害し、努力に重きを置いていると認識した。 しかし、中立応答のかなりの数は、これらの認証方法のセキュリティとプライバシーに関するより詳細な情報を必要としていることを示している。 収集したエビデンスに基づいて、プライバシー、認証インターフェース設計、検証時間という3つの重要な改善領域を特定します。 我々は,次世代認証機構のユーザビリティとセキュリティを改善するために,デザイナと開発者に対して推奨する。

Passwords remain a widely-used authentication mechanism, despite their well-known security and usability limitations. To improve on this situation, next-generation authentication mechanisms, based on behavioral biometric factors such as eye movement and brainwave have emerged. However, their usability remains relatively under-explored. To fill this gap, we conducted an empirical user study (n=32 participants) to evaluate three brain-based and three eye-based authentication mechanisms, using both qualitative and quantitative methods. Our findings show good overall usability according to the System Usability Scale for both categories of mechanisms, with average SUS scores in the range of 78.6-79.6 and the best mechanisms rated with an "excellent" score. Participants particularly identified brainwave authentication as more secure yet more privacy-invasive and effort-intensive compared to eye movement authentication. However, the significant number of neutral responses indicates participants' need for more detailed information about the security and privacy implications of these authentication methods. Building on the collected evidence, we identify three key areas for improvement: privacy, authentication interface design, and verification time. We offer recommendations for designers and developers to improve the usability and security of next-generation authentication mechanisms.
翻訳日:2024-03-18 07:28:31 公開日:2024-02-23
# Prime+Retouch: キャッシュがロックされてリークされたとき

Prime+Retouch: When Cache is Locked and Leaked ( http://arxiv.org/abs/2402.15425v1 )

ライセンス: Link先を確認
Jaehyuk Lee, Fan Sang, Taesoo Kim, (参考訳) 現代のコモディティCPUのキャッシュは、サイドチャネルリークの主な原因の1つとなり、新たな攻撃ベクタとして悪用されている。 キャッシュベースのサイドチャネル攻撃を防ぐために、攻撃者が立ち去ることができるマイクロアーキテクチャトレースの量を制限する検出ベースの攻撃と、機密データに対する排除を許すことでそのような漏洩を防ぐと主張するプリフェッチ・アンド・ロック技術という2つの対策が提案されている。 本稿では,キャッシュ置換ポリシーのメタデータを用いて,キャッシュアクティビティを正確に推論することにより,これらの防御スキームを完全に回避するPrime+Retouch攻撃を提案する。 Prime+Retouchには3つの特徴がある。 1) 2つの既知の緩和策を回避できるように, 被害者のデータを無断で排除する。 2)攻撃者のプリプドキャッシュラインへの1つのメモリアクセスの最小限の同期が必要である。 3)非共有メモリを通じてデータをリークするが、基本的な消去メタデータが共有されているためである。 メインストリームのIntel x86と、新しいApple M1の2つのアーキテクチャでPrime+Retouchをデモします。 我々は、通常のおよびSGX保護環境下で、Clakのような堅牢なキャッシュサイドチャネル緩和により、Prime+RetouchがAESのTテーブル実装を破る方法を明らかにする。 また、M1プラットフォームに対するPrime+Retouch攻撃の可能性を示すとともに、コアクロックサイクルタイマやパフォーマンスカウンタなどの正確な測定ツールが攻撃者にアクセスできない場合に、より多くの制約を課す。 さらに,Apple M1 アーキテクチャ上でのキャッシュの非開示化と L1 データキャッシュの排除ポリシーを最初に検討した。 また,Intel TSXを再利用し,ユーザ空間のノイズフリーキャッシュ監視ツールを考案した。

Caches on the modern commodity CPUs have become one of the major sources of side-channel leakages and been abused as a new attack vector. To thwart the cache-based side-channel attacks, two types of countermeasures have been proposed: detection-based ones that limit the amount of microarchitectural traces an attacker can leave, and cache prefetching-and-locking techniques that claim to prevent such leakage by disallowing evictions on sensitive data. In this paper, we present the Prime+Retouch attack that completely bypasses these defense schemes by accurately inferring the cache activities with the metadata of the cache replacement policy. Prime+Retouch has three noticeable properties: 1) it incurs no eviction on the victim's data, allowing us to bypass the two known mitigation schemes, 2) it requires minimal synchronization of only one memory access to the attacker's pre-primed cache lines, and 3) it leaks data via non-shared memory, yet because underlying eviction metadata is shared. We demonstrate Prime+Retouch in two architectures: predominant Intel x86 and emerging Apple M1. We elucidate how Prime+Retouch can break the T-table implementation of AES with robust cache side-channel mitigations such as Cloak, under both normal and SGX-protected environments. We also manifest feasibility of the Prime+Retouch attack on the M1 platform imposing more restrictions where the precise measurement tools such as core clock cycle timer and performance counters are inaccessible to the attacker. Furthermore, we first demystify undisclosed cache architecture and its eviction policy of L1 data cache on Apple M1 architecture. We also devise a user-space noise-free cache monitoring tool by repurposing Intel TSX.
翻訳日:2024-03-18 07:28:31 公開日:2024-02-23
# 複数のデジタル認証情報からのクレームの選択的開示

Selective disclosure of claims from multiple digital credentials ( http://arxiv.org/abs/2402.15447v1 )

ライセンス: Link先を確認
Šeila Bećirović Ramić, Irfan Prazina, Damir Pozderac, Razija Turčinhodžić Mulahasanović, Saša Mrdović, (参考訳) デジタル認証は、インターネット上のデジタルIDの基盤である。 プライバシーを達成するには、資格情報の特定の機能を実装する必要がある。 一つは選択的な開示で、ユーザーは自分の望むクレームや属性だけを開示できる。 本稿では,Merkle ハッシュツリーと Boneh-Lynn-Shacham (BLS) シグネチャを組み合わせた選択開示手法を提案する。 これらの手法を組み合わせることで、単一資格のクレームを選択的に開示し、異なる当事者が署名した複数のクレデンシャルから選択的に開示されたクレームを含む検証可能なプレゼンテーションを作成する。 選択的な開示に加えて、このアプローチを用いて複数の発行者が署名した証明書の発行を可能にする。

Digital credentials represent a cornerstone of digital identity on the Internet. To achieve privacy, certain functionalities in credentials should be implemented. One is selective disclosure, which allows users to disclose only the claims or attributes they want. This paper presents a novel approach to selective disclosure that combines Merkle hash trees and Boneh-Lynn-Shacham (BLS) signatures. Combining these approaches, we achieve selective disclosure of claims in a single credential and creation of a verifiable presentation containing selectively disclosed claims from multiple credentials signed by different parties. Besides selective disclosure, we enable issuing credentials signed by multiple issuers using this approach.
翻訳日:2024-03-18 07:28:31 公開日:2024-02-23
# スマートコントロールにおけるセキュリティとレジリエンス向上のための強化学習に基づくアプローチ:攻撃・防御手法に関する調査

Reinforcement Learning-Based Approaches for Enhancing Security and Resilience in Smart Control: A Survey on Attack and Defense Methods ( http://arxiv.org/abs/2402.15617v1 )

ライセンス: Link先を確認
Zheyu Zhang, (参考訳) 強化学習(Reinforcement Learning, RL)は、機械学習のコアパラダイムのひとつで、現実世界の経験に基づいて意思決定を行うことを学ぶ。 このアプローチには、スマートグリッド最適化やスマートホームオートメーションなど、さまざまな領域にわたる高度なAIアプリケーションがある。 しかし、これらの重要なセクターにおけるRLの増殖は、基盤となるニューラルネットワークポリシーをターゲットにした高度な敵攻撃に曝され、システムの完全性が損なわれている。 スマートグリッドの効率性と持続可能性を高める上でRLが重要な役割を担っていることや、スマートホームにおけるパーソナライズされた利便性を考えると、これらのシステムのセキュリティが最重要である。 本稿では,スマートグリッドやスマートホームの複雑で潜在的に敵対的な環境がもたらす固有の課題に対処するため,これらのコンテキストにおけるRLフレームワークのレジリエンスを高めることを目的とする。 我々は、最新のRL脅威を徹底的にレビューし、これらのアプリケーションを保護するために調整された効果的な防衛戦略の概要を述べる。 我々の比較分析は、RL駆動型スマートシステムに対する敵の戦術のニュアンスに光を当て、その革新的な貢献、制限、そしてそれらが持つ妥協に焦点をあてて、防御メカニズムを評価する。 スマートグリッドとスマートホームのシナリオに集中することにより、この調査はML開発者と研究者に、新たな脅威に対してRLアプリケーションを保護するために必要な洞察を与え、ますます接続する世界の信頼性と安全性を確保します。

Reinforcement Learning (RL), one of the core paradigms in machine learning, learns to make decisions based on real-world experiences. This approach has significantly advanced AI applications across various domains, notably in smart grid optimization and smart home automation. However, the proliferation of RL in these critical sectors has also exposed them to sophisticated adversarial attacks that target the underlying neural network policies, compromising system integrity. Given the pivotal role of RL in enhancing the efficiency and sustainability of smart grids and the personalized convenience in smart homes, ensuring the security of these systems is paramount. This paper aims to bolster the resilience of RL frameworks within these specific contexts, addressing the unique challenges posed by the intricate and potentially adversarial environments of smart grids and smart homes. We provide a thorough review of the latest adversarial RL threats and outline effective defense strategies tailored to safeguard these applications. Our comparative analysis sheds light on the nuances of adversarial tactics against RL-driven smart systems and evaluates the defense mechanisms, focusing on their innovative contributions, limitations, and the compromises they entail. By concentrating on the smart grid and smart home scenarios, this survey equips ML developers and researchers with the insights needed to secure RL applications against emerging threats, ensuring their reliability and safety in our increasingly connected world.
翻訳日:2024-03-18 07:18:44 公開日:2024-02-23
# 広視野量子ダイヤモンド磁場マップによる電流密度の最適化

Optimized Current Density Reconstruction from Widefield Quantum Diamond Magnetic Field Maps ( http://arxiv.org/abs/2402.17781v1 )

ライセンス: Link先を確認
Siddhant Midha, Madhur Parashar, Anuj Bathla, David A. Broadway, Jean-Philippe Tetienne, and Kasturi Saha(参考訳) ダイヤモンド結晶中の窒素空隙(nv)欠陥を用いた量子ダイヤモンド顕微鏡は、幅広いナノスケール電流プロファイルの磁場イメージングを可能にした。 イメージングプロセスと密接な関係は電流密度を再構成する問題であり、研究中の構造に重要な洞察を与える。 これはノイズデータからの現在の再構成の非自明な逆問題として現れ、一般的にフーリエに基づくアプローチによって行われる。 学習アルゴリズムとベイズ法が推論に基づく再構成の新しい代替として提案されている。 NVイメージングから得られた磁場画像から2次元電流密度マップを再構成するためのフーリエ法およびベイズ法の適用性を検討した。 本研究では, 各種パラメータ構造における再構成アルゴリズムの性能を解明するために, 広範囲な数値シミュレーションを行い, 実験データによる再構成による解析を更に検証する。 最後に,特定の再構成アルゴリズムを好むパラメータレジームを調べ,ベイズ法で正規化を選択するための経験的アプローチを提案する。

Quantum Diamond Microscopy using Nitrogen-Vacancy (NV) defects in diamond crystals has enabled the magnetic field imaging of a wide variety of nanoscale current profiles. Intimately linked with the imaging process is the problem of reconstructing the current density, which provides critical insight into the structure under study. This manifests as a non-trivial inverse problem of current reconstruction from noisy data, typically conducted via Fourier-based approaches. Learning algorithms and Bayesian methods have been proposed as novel alternatives for inference-based reconstructions. We study the applicability of Fourier-based and Bayesian methods for reconstructing two-dimensional current density maps from magnetic field images obtained from NV imaging. We discuss extensive numerical simulations to elucidate the performance of the reconstruction algorithms in various parameter regimes, and further validate our analysis via performing reconstructions on experimental data. Finally, we examine parameter regimes that favor specific reconstruction algorithms and provide an empirical approach for selecting regularization in Bayesian methods.
翻訳日:2024-03-11 00:18:28 公開日:2024-02-23
# 制約潜時空間物質:光胸腺造影から動脈圧へのアンチアノマラス波形変換法

Constraint Latent Space Matters: An Anti-anomalous Waveform Transformation Solution from Photoplethysmography to Arterial Blood Pressure ( http://arxiv.org/abs/2402.17780v1 )

ライセンス: Link先を確認
Cheng Bian, Xiaoyu Li, Qi Bi, Guangpu Zhu, Jiegeng Lyu, Weile Zhang, Yelei Li, Zijing Zeng(参考訳) 動脈血圧 (ABP) は, 心臓血管の健康管理に有効である。 潜在性にもかかわらず、app測定の侵襲的性質は、主に臨床環境にその有用性を限定し、医療施設を超えた継続的なモニタリングの適用性を制限する。 光胸腺造影(PPG)信号のAPB等価物質への変換は、心血管疾患管理に革命をもたらす可能性から大きな注目を集めている。 PPG-to-ABP予測の最近の進歩は、生成モデルと識別モデルの統合を含んでいる。 これらの進歩にもかかわらず、これらのモデルの有効性は、異なるハードウェアと個人にまたがるPSGデータ分布の変化に起因する潜在空間シフトの予測によって制限され、歪んだAPP波形につながる可能性がある。 この問題に対処するために,量子化されたコードブックを活用し,複数の離散化ベースを用いて頑健な潜在空間を生成する,LSCT(Latent Space Constraint Transformer)という革新的なソリューションを提案する。 再構築を容易にするため,CAM(Relation-boosted Attention Module)を導入し,グローバルスケールで関連するベースを体系的にクエリする。 さらに,表現能力を高めるために,潜在コードのチャネル内における局所情報フローを育成し,再構成のための追加埋め込みを提供するマルチスペクトル拡張知識(msek)を提案する。 公開データセットとプライベートダウンストリームタスクデータセットの両方に関する包括的な実験を通じて、提案手法は既存の手法と比較して注目すべきパフォーマンス向上を示す。 広範なアブレーション研究は、導入された各モジュールの有効性をさらに実証する。

Arterial blood pressure (ABP) holds substantial promise for proactive cardiovascular health management. Notwithstanding its potential, the invasive nature of ABP measurements confines their utility primarily to clinical environments, limiting their applicability for continuous monitoring beyond medical facilities. The conversion of photoplethysmography (PPG) signals into ABP equivalents has garnered significant attention due to its potential in revolutionizing cardiovascular disease management. Recent strides in PPG-to-ABP prediction encompass the integration of generative and discriminative models. Despite these advances, the efficacy of these models is curtailed by the latent space shift predicament, stemming from alterations in PPG data distribution across disparate hardware and individuals, potentially leading to distorted ABP waveforms. To tackle this problem, we present an innovative solution named the Latent Space Constraint Transformer (LSCT), leveraging a quantized codebook to yield robust latent spaces by employing multiple discretizing bases. To facilitate improved reconstruction, the Correlation-boosted Attention Module (CAM) is introduced to systematically query pertinent bases on a global scale. Furthermore, to enhance expressive capacity, we propose the Multi-Spectrum Enhancement Knowledge (MSEK), which fosters local information flow within the channels of latent code and provides additional embedding for reconstruction. Through comprehensive experimentation on both publicly available datasets and a private downstream task dataset, the proposed approach demonstrates noteworthy performance enhancements compared to existing methods. Extensive ablation studies further substantiate the effectiveness of each introduced module.
翻訳日:2024-03-11 00:18:13 公開日:2024-02-23
# LLMの数学的推論におけるデータ能力境界の実証的研究

An Empirical Study of Data Ability Boundary in LLMs' Math Reasoning ( http://arxiv.org/abs/2403.00799v1 )

ライセンス: Link先を確認
Zui Chen, Yezeng Chen, Jiaqi Han, Zhijie Huang, Ji Qi, Yi Zhou(参考訳) 大規模言語モデル(llm)は数学推論タスクの創発的能力を示しており,教師付き微調整(sft)によるオープンソースllmの能力向上に注目が集まっている。 In this paper, we aim to explore a general data strategy for supervised data to help optimize and expand math reasoning ability.Firstly, we determine the ability boundary of reasoning paths augmentation by identifying these paths' minimal optimal set.Secondly, we validate that different abilities of the model can be cumulatively enhanced by Mix of Minimal Optimal Sets of corresponding types of data, while our models MMOS achieve SOTA performance on series base models under much lower construction costs.Besides, we point out GSM-HARD is not really hard and today's LLMs no longer lack numerical robustness.Also, we provide an Auto Problem Generator for robustness testing and educational applications.Our code and data are publicly available at https://github.com/cyzhh/MMOS.

Large language models (LLMs) are displaying emergent abilities for math reasoning tasks,and there is a growing attention on enhancing the ability of open-source LLMs through supervised fine-tuning (SFT).In this paper, we aim to explore a general data strategy for supervised data to help optimize and expand math reasoning ability.Firstly, we determine the ability boundary of reasoning paths augmentation by identifying these paths' minimal optimal set.Secondly, we validate that different abilities of the model can be cumulatively enhanced by Mix of Minimal Optimal Sets of corresponding types of data, while our models MMOS achieve SOTA performance on series base models under much lower construction costs.Besides, we point out GSM-HARD is not really hard and today's LLMs no longer lack numerical robustness.Also, we provide an Auto Problem Generator for robustness testing and educational applications.Our code and data are publicly available at https://github.com/cyzhh/MMOS.
翻訳日:2024-03-11 00:12:40 公開日:2024-02-23
# ヘレン:周波数ワイドヘシアン固有値正規化を用いたCTR予測モデルの最適化

Helen: Optimizing CTR Prediction Models with Frequency-wise Hessian Eigenvalue Regularization ( http://arxiv.org/abs/2403.00798v1 )

ライセンス: Link先を確認
Zirui Zhu, Yong Liu, Zangwei Zheng, Huifeng Guo, Yang You(参考訳) CTR(Click-Through Rate)予測は、オンライン広告とレコメンデーションシナリオにおいて最も重要である。 最近のCTR予測モデルの普及にもかかわらず、オープンソースのベンチマークアセスメントによって証明されたように、パフォーマンスの改善は制限されている。 現在の研究者は、さまざまなデータセットや設定のための新しいモデルの開発に注力する傾向にあり、重要な疑問を無視することが多い。 本稿では,最適化の観点からCTR予測の問題にアプローチする。 我々は,CTR予測の典型的データ特性と最適化統計を考察し,トップヘッセン固有値と特徴周波数との強い正の相関を明らかにする。 この相関関係は、頻繁に発生する特徴が急激な局所ミニマに向かって収束する傾向にあり、最終的には準最適性能をもたらすことを示唆している。 最適化中の損失景観の幾何学的側面を考慮したシャープネス認識最小化(SAM)の最近の進歩により,我々は,CTR予測のための専用最適化器Helenを提案する。 ヘレンは正規化特徴周波数に基づく適応摂動によって達成される周波数方向のヘッセン固有値正規化を取り入れている。 オープンソースのベンチマークフレームワーク下での実証結果は、Helenの有効性を裏付けるものだ。 これはヘッセン行列の最高固有値の制約に成功し、BARS上の3つの公開ベンチマークデータセットの7つの一般的なモデルに適用した場合、広く使われている最適化アルゴリズムよりも明確な優位性を示す。 私たちのコードはgithub.com/NUS-HPC-AI-Lab/Helenにあります。

Click-Through Rate (CTR) prediction holds paramount significance in online advertising and recommendation scenarios. Despite the proliferation of recent CTR prediction models, the improvements in performance have remained limited, as evidenced by open-source benchmark assessments. Current researchers tend to focus on developing new models for various datasets and settings, often neglecting a crucial question: What is the key challenge that truly makes CTR prediction so demanding? In this paper, we approach the problem of CTR prediction from an optimization perspective. We explore the typical data characteristics and optimization statistics of CTR prediction, revealing a strong positive correlation between the top hessian eigenvalue and feature frequency. This correlation implies that frequently occurring features tend to converge towards sharp local minima, ultimately leading to suboptimal performance. Motivated by the recent advancements in sharpness-aware minimization (SAM), which considers the geometric aspects of the loss landscape during optimization, we present a dedicated optimizer crafted for CTR prediction, named Helen. Helen incorporates frequency-wise Hessian eigenvalue regularization, achieved through adaptive perturbations based on normalized feature frequencies. Empirical results under the open-source benchmark framework underscore Helen's effectiveness. It successfully constrains the top eigenvalue of the Hessian matrix and demonstrates a clear advantage over widely used optimization algorithms when applied to seven popular models across three public benchmark datasets on BARS. Our code locates at github.com/NUS-HPC-AI-Lab/Helen.
翻訳日:2024-03-11 00:12:25 公開日:2024-02-23
# ガウス過程による平均回帰時系列予測の強化:金融予測における機能的および拡張的データ構造

Enhancing Mean-Reverting Time Series Prediction with Gaussian Processes: Functional and Augmented Data Structures in Financial Forecasting ( http://arxiv.org/abs/2403.00796v1 )

ライセンス: Link先を確認
Narayan Tondapu(参考訳) 本稿では,ガウス過程(GP)を基礎構造を持つ平均回帰時系列の予測に適用し,比較的未探索な機能的および拡張的データ構造を用いて検討する。 多くの従来の予測手法は時系列データの短期的ダイナミクスに重点を置いているが、GPは平均予測だけでなく、将来の軌道上の確率分布全体を予測する可能性を提供する。 これは、不正なボラティリティ評価が資本損失につながる場合、正確な予測だけでは十分でない金融状況において特に有益である。 さらに、貿易選択においては、GPは取引コストに応じて調整された複数のシャープ比の予測を可能とし、意思決定を支援する。 本研究で活用される機能的データ表現は,前年のトレーニングデータから離れても,過去の情報を活用することで,長期的予測を可能にする。 さらに、拡張表現は、将来のポイントに複数のターゲットを組み込むことでトレーニングセットを強化し、長期的な予測を容易にする。 提案手法は,商品先物の有効性を評価する手法と密接に一致している。 しかし、我々のテスト手法は異なる。 実データの代わりに、同様の特性を持つシミュレーションデータを用いる。 騒音, 脂肪尾, 不適切なカーネル条件の増加条件下で, データ表現とモデルの両方を評価するテスト環境を構築した。 データをシミュレートすることにより,実データ上での時系列モデルに固有の不確実性を低減することにより,実データに対する実データ分布の完全なシミュレーションと比較することができる。 拡張による特徴予測を可能とし,サブサンプリングを用いてGPの実現性を確保する。

In this paper, we explore the application of Gaussian Processes (GPs) for predicting mean-reverting time series with an underlying structure, using relatively unexplored functional and augmented data structures. While many conventional forecasting methods concentrate on the short-term dynamics of time series data, GPs offer the potential to forecast not just the average prediction but the entire probability distribution over a future trajectory. This is particularly beneficial in financial contexts, where accurate predictions alone may not suffice if incorrect volatility assessments lead to capital losses. Moreover, in trade selection, GPs allow for the forecasting of multiple Sharpe ratios adjusted for transaction costs, aiding in decision-making. The functional data representation utilized in this study enables longer-term predictions by leveraging information from previous years, even as the forecast moves away from the current year's training data. Additionally, the augmented representation enriches the training set by incorporating multiple targets for future points in time, facilitating long-term predictions. Our implementation closely aligns with the methodology outlined in, which assessed effectiveness on commodity futures. However, our testing methodology differs. Instead of real data, we employ simulated data with similar characteristics. We construct a testing environment to evaluate both data representations and models under conditions of increasing noise, fat tails, and inappropriate kernels-conditions commonly encountered in practice. By simulating data, we can compare our forecast distribution over time against a full simulation of the actual distribution of our test set, thereby reducing the inherent uncertainty in testing time series models on real data. We enable feature prediction through augmentation and employ sub-sampling to ensure the feasibility of GPs.
翻訳日:2024-03-11 00:12:01 公開日:2024-02-23
# 大規模言語モデルを用いた自然言語記述アルゴリズムの実行

Executing Natural Language-Described Algorithms with Large Language Models: An Investigation ( http://arxiv.org/abs/2403.00795v1 )

ライセンス: Link先を確認
Xin Zheng, Qiming Zhu, Hongyu Lin, Yaojie Lu, Xianpei Han and Le Sun(参考訳) 自然言語で記述されたコンピュータプログラムの実行は、長い間コンピュータ科学の追求であった。 大規模言語モデル(LLM)が示す自然言語理解能力の向上が出現し,この目標への道筋が明らかになってきた。 本稿では,自然言語で概説したアルゴリズムを理解・実行するための現在のLLMの能力を検討する。 多くの代表的なアルゴリズムを含む有名な教科書であるintroduction to algorithmから派生したアルゴリズムテストセットを構築した。 LLMのコード実行能力を体系的に評価するために、30のアルゴリズムを選択し、合計300のランダムサンプリングインスタンスを生成し、人気のあるLLMがこれらのアルゴリズムを理解し実行できるかを評価した。 この結果から,LLM,特にGPT-4は,重数値計算を伴わない限り,自然言語で記述されたプログラムを効果的に実行できることが判明した。 我々は,LLMのコード実行能力の評価に寄与し,LLMの計算能力に関するさらなる調査と応用を奨励すると考えている。

Executing computer programs described in natural language has long been a pursuit of computer science. With the advent of enhanced natural language understanding capabilities exhibited by large language models (LLMs), the path toward this goal has been illuminated. In this paper, we seek to examine the capacity of present-day LLMs to comprehend and execute algorithms outlined in natural language. We established an algorithm test set sourced from Introduction to Algorithm, a well-known textbook that contains many representative widely-used algorithms. To systematically assess LLMs' code execution abilities, we selected 30 algorithms, generated 300 random-sampled instances in total, and evaluated whether popular LLMs can understand and execute these algorithms. Our findings reveal that LLMs, notably GPT-4, can effectively execute programs described in natural language, as long as no heavy numeric computation is involved. We believe our findings contribute to evaluating LLMs' code execution abilities and would encourage further investigation and application for the computation power of LLMs.
翻訳日:2024-03-11 00:11:36 公開日:2024-02-23
# Humorについて真剣に語る - 不幸な大規模言語モデルによるHummorデータセットの構築

Getting Serious about Humor: Crafting Humor Datasets with Unfunny Large Language Models ( http://arxiv.org/abs/2403.00794v1 )

ライセンス: Link先を確認
Zachary Horvitz, Jingru Chen, Rahul Aditya, Harshvardhan Srivastava, Robert West, Zhou Yu, Kathleen McKeown(参考訳) ユーモアは人間の認知と相互作用の基本的な側面である。 しかし、近年の自然言語処理の進歩にもかかわらず、ユーモア検出は、類似の非ユーモラステキストとユーモラステキストをペアリングするデータセットの不足によって複雑化している課題である。 本研究では,大規模言語モデル(llm)がテキスト編集によるユーモア検出のための合成データを生成することができるか検討する。 既存の人間のデータセットでllmをベンチマークし、現在のllmは、人間によって判断されるように、ユーモア検出の下流のタスクで測定されるような、'楽しみ'なジョークを表現できる素晴らしい能力を示していることを示した。 我々は、gpt-4の合成データがバイリンガル・アノテータによって高い評価を受け、ユーモア分類器の敵対的な例を提供するコード混合英語ヒンディ・ユーモアデータセットへのアプローチを拡張した。

Humor is a fundamental facet of human cognition and interaction. Yet, despite recent advances in natural language processing, humor detection remains a challenging task that is complicated by the scarcity of datasets that pair humorous texts with similar non-humorous counterparts. In our work, we investigate whether large language models (LLMs), can generate synthetic data for humor detection via editing texts. We benchmark LLMs on an existing human dataset and show that current LLMs display an impressive ability to `unfun' jokes, as judged by humans and as measured on the downstream task of humor detection. We extend our approach to a code-mixed English-Hindi humor dataset, where we find that GPT-4's synthetic data is highly rated by bilingual annotators and provides challenging adversarial examples for humor classifiers.
翻訳日:2024-03-11 00:11:17 公開日:2024-02-23
# limaml: メタ学習による深層推薦モデルのパーソナライズ

LiMAML: Personalization of Deep Recommender Models via Meta Learning ( http://arxiv.org/abs/2403.00803v1 )

ライセンス: Link先を確認
Ruofan Wang, Prakruthi Prabhakar, Gaurav Srivastava, Tianqi Wang, Zeinab S. Jalali, Varun Bharill, Yunbo Ouyang, Aastha Nigam, Divya Venugopalan, Aman Gupta, Fedor Borisyuk, Sathiya Keerthi, Ajith Muralidharan(参考訳) 推薦システムの領域では、さまざまなビジネス目的をモデル化するための支配的なパラダイムとして、ディープニューラルネットワークがユビキタスに採用されている。 ユーザベースが拡大を続けるにつれ、パーソナライゼーションの必要性と頻繁なモデル更新が重要視され、さまざまなメンバに関連し、リフレッシュされたエクスペリエンスが配信されるようになる。 そこで本研究では,個人や他のエンティティのモデルのパーソナライズに合わせた革新的なメタラーニングソリューションと,最新のユーザインタラクション信号に基づく頻繁な更新について紹介する。 具体的には、モデル非依存メタ学習(maml)アルゴリズムを利用して、最近のユーザインタラクションデータを用いてタスク単位のサブネットワークに適応する。 オンラインレコメンデーションシステムにおいて、オリジナルのMAMLベースのモデルを生産することのほぼ不可能さを考慮して、我々は、メタ学習サブネットワークを本番環境で運用する効率的な戦略を提案し、それらが固定サイズのベクトルに変換され、メタ埋め込みと呼ばれ、オンラインサービスのための数十億のパラメータを持つモデルのシームレスなデプロイを可能にする。 LinkedInのさまざまなアプリケーションから得られた生産データに関する広範な実験を通じて、提案手法は、広義のIDベースのパーソナライゼーションアプローチなどの強力なベースラインを含む、それらのアプリケーションのベースラインモデルよりも一貫して優れていることを示す。 私たちのアプローチは、さまざまなlinkedinアプリケーションにわたって、高度にパーソナライズされたaiモデルのデプロイを可能にしました。

In the realm of recommender systems, the ubiquitous adoption of deep neural networks has emerged as a dominant paradigm for modeling diverse business objectives. As user bases continue to expand, the necessity of personalization and frequent model updates have assumed paramount significance to ensure the delivery of relevant and refreshed experiences to a diverse array of members. In this work, we introduce an innovative meta-learning solution tailored to the personalization of models for individual members and other entities, coupled with the frequent updates based on the latest user interaction signals. Specifically, we leverage the Model-Agnostic Meta Learning (MAML) algorithm to adapt per-task sub-networks using recent user interaction data. Given the near infeasibility of productionizing original MAML-based models in online recommendation systems, we propose an efficient strategy to operationalize meta-learned sub-networks in production, which involves transforming them into fixed-sized vectors, termed meta embeddings, thereby enabling the seamless deployment of models with hundreds of billions of parameters for online serving. Through extensive experimentation on production data drawn from various applications at LinkedIn, we demonstrate that the proposed solution consistently outperforms the baseline models of those applications, including strong baselines such as using wide-and-deep ID based personalization approach. Our approach has enabled the deployment of a range of highly personalized AI models across diverse LinkedIn applications, leading to substantial improvements in business metrics as well as refreshed experience for our members.
翻訳日:2024-03-10 23:58:50 公開日:2024-02-23
# 2段階レコメンダシステムの理論的理解に向けて

Towards a Theoretical Understanding of Two-Stage Recommender Systems ( http://arxiv.org/abs/2403.00802v1 )

ライセンス: Link先を確認
Amit Kumar Jaiswal(参考訳) プロダクショングレードのレコメンダシステムは、netflix、pinterest、amazonなど、オンラインメディアサービスで使用される大規模コーパスに大きく依存している。 これらのシステムは、2段階のモデル(2つのディープニューラルネットワーク)で低次元空間に投影されたユーザとアイテムの埋め込みを学習することにより、レコメンデーションを強化し、アイテムに関連するユーザのフィードバックを予測する。 推薦に人気があるにもかかわらず、理論的な行動は包括的に解明されていない。 最適レコメンダシステムへの強い収束を伴う2段階レコメンダの漸近的挙動について検討する。 2段階の推薦者の理論的特性と統計的保証を確立する。 漸近的な振る舞いに加えて,入力特徴の固有次元に依存することにより,二段階レコメンダシステムがより高速な収束を実現することを実証する。 最後に,2段階のレコメンデータにより,項目やユーザの属性が評価に与える影響をカプセル化できることを数値的に示す。

Production-grade recommender systems rely heavily on a large-scale corpus used by online media services, including Netflix, Pinterest, and Amazon. These systems enrich recommendations by learning users' and items' embeddings projected in a low-dimensional space with two-stage models (two deep neural networks), which facilitate their embedding constructs to predict users' feedback associated with items. Despite its popularity for recommendations, its theoretical behaviors remain comprehensively unexplored. We study the asymptotic behaviors of the two-stage recommender that entail a strong convergence to the optimal recommender system. We establish certain theoretical properties and statistical assurance of the two-stage recommender. In addition to asymptotic behaviors, we demonstrate that the two-stage recommender system attains faster convergence by relying on the intrinsic dimensions of the input features. Finally, we show numerically that the two-stage recommender enables encapsulating the impacts of items' and users' attributes on ratings, resulting in better performance compared to existing methods conducted using synthetic and real-world data experiments.
翻訳日:2024-03-10 23:58:22 公開日:2024-02-23
# 自己再生:1つの大きな言語モデルによる情報検索システムの構築

Self-Retrieval: Building an Information Retrieval System with One Large Language Model ( http://arxiv.org/abs/2403.00801v1 )

ライセンス: Link先を確認
Qiaoyu Tang, Jiawei Chen, Bowen Yu, Yaojie Lu, Cheng Fu, Haiyang Yu, Hongyu Lin, Fei Huang, Ben He, Xianpei Han, Le Sun, Yongbin Li(参考訳) 大規模言語モデル(LLM)の台頭は、情報へのアクセス方法における情報検索(IR)システムの役割に変化をもたらした。 孤立したアーキテクチャと限られた相互作用のため、既存のIRシステムは、人間が直接情報を提供することから、間接的に機能する大きな言語モデルへの移行に完全に対応できない。 本稿では、irシステムの要求する能力を単一のllmに完全に内部化し、irプロセス中にllmの能力を深く活用できる、エンドツーエンドのllm駆動情報検索アーキテクチャであるself-retrievalを提案する。 具体的には、自己回帰は自然言語インデクシングアーキテクチャを介して、コーパスを内部化しllmに取得する。 次に、検索プロセス全体を文書生成と自己評価の手順として再定義し、単一の大規模言語モデルを用いてエンドツーエンドで実行できる。 実験結果から,自己検索は従来の検索手法を大きなマージンで大幅に上回るだけでなく,検索オーグメンテーション生成のようなLLM駆動下流アプリケーションの性能も著しく向上することが示された。

The rise of large language models (LLMs) has transformed the role of information retrieval (IR) systems in the way to humans accessing information. Due to the isolated architecture and the limited interaction, existing IR systems are unable to fully accommodate the shift from directly providing information to humans to indirectly serving large language models. In this paper, we propose Self-Retrieval, an end-to-end, LLM-driven information retrieval architecture that can fully internalize the required abilities of IR systems into a single LLM and deeply leverage the capabilities of LLMs during IR process. Specifically, Self-retrieval internalizes the corpus to retrieve into a LLM via a natural language indexing architecture. Then the entire retrieval process is redefined as a procedure of document generation and self-assessment, which can be end-to-end executed using a single large language model. Experimental results demonstrate that Self-Retrieval not only significantly outperforms previous retrieval approaches by a large margin, but also can significantly boost the performance of LLM-driven downstream applications like retrieval augumented generation.
翻訳日:2024-03-10 23:58:03 公開日:2024-02-23
# 脳にインスパイアされた二段階アプローチ--思考過程の模倣による数学的推論の強化

Brain-Inspired Two-Stage Approach: Enhancing Mathematical Reasoning by Imitating Human Thought Processes ( http://arxiv.org/abs/2403.00800v1 )

ライセンス: Link先を確認
Yezeng Chen, Zui Chen, Yi Zhou(参考訳) 大きな言語モデルは、数学用語の問題解決において創発的な能力を示すが、複雑な多段階の数学的推論タスクでは難しい課題がある。 数学的推論タスクにおけるモデル性能を向上させるため、従来の研究はデータの質と量を改善し、オープンソースモデルの微調整を行った。 本稿では,人間の思考過程を模倣して数学的推論能力を高め,前頭葉モデルを用いて計画を生成し,頭頂葉モデルを用いてコードを生成し,回答を得る新しいアプローチであるbrainを提案する。 まず,コードLLaMA 7Bに基づくモデルと比較し,SOTAの性能を評価する。 第二に、計画が自然言語、コード、形式言語から明示的に抽出できることが分かる。 私たちのコードとデータはhttps://github.com/cyzhh/brainで公開されている。

Although large language models demonstrate emergent abilities in solving math word problems, there is a challenging task in complex multi-step mathematical reasoning tasks. To improve model performance on mathematical reasoning tasks, previous work has conducted supervised fine-tuning on open-source models by improving the quality and quantity of data. In this paper, we propose a novel approach, named Brain, to imitate human thought processes to enhance mathematical reasoning abilities, using the Frontal Lobe Model to generate plans, and then employing the Parietal Lobe Model to generate code and execute to obtain answers. First, we achieve SOTA performance in comparison with Code LLaMA 7B based models through this method. Secondly, we find that plans can be explicitly extracted from natural language, code, or formal language. Our code and data are publicly available at https://github.com/cyzhh/Brain.
翻訳日:2024-03-10 23:57:45 公開日:2024-02-23
# klarna製品ページデータセット: グラフニューラルネットワークと大規模言語モデルによるweb要素のノミネート

The Klarna Product Page Dataset: Web Element Nomination with Graph Neural Networks and Large Language Models ( http://arxiv.org/abs/2111.02168v4 )

ライセンス: Link先を確認
Alexandra Hotti, Riccardo Sven Risuleo, Stefan Magureanu, Aref Moradi, Jens Lagergren(参考訳) Webオートメーションは、ユーザがデジタル世界と対話する方法に革命をもたらす可能性を秘めている。 この進化の中心は、Webページ上のユニークな要素を識別するWeb要素指名タスクである。 残念ながら、Web自動化のためのアルゴリズム設計の開発は、Web上の現実世界のアプリケーションによって直面する複雑さを反映した、包括的で現実的なデータセットの不足によって妨げられている。 そこで我々は,klarna製品ページデータセット(klarna product page dataset)を紹介する。 データセットには、8つの地域にわたる8,175のeコマースウェブサイトから51,701の手動ラベル付き製品ページと、レンダリングされたページのスクリーンショットのデータセットが含まれている。 Klarna Product Page Datasetの研究を開始するために、Web要素の指名タスクにおいて、GNN(Graph Neural Networks)の範囲を実証的にベンチマークする。 我々は3つの重要な貢献をした。 まず、単純な畳み込みGNN(GCN)が、複雑な最先端の指名手法より優れていることを発見した。 第2に,前述したgcnを用いて,各ページから少数の関連要素を識別するトレーニングリファインメント手順を提案する。 これらの要素は最終候補のために大きな言語モデルに渡される。 この手順は、微調整を必要とせずに、挑戦的なデータセットの16.8ポイントの精度を著しく向上させる。 最後に、この分野における別の一般的な課題である、要素指名に適したトレーニング方法論の豊富さへの対応として、さらにノミネート精度を高める新しいトレーニング手法であるチャレンジノミネートトレーニング手順を紹介する。

Web automation holds the potential to revolutionize how users interact with the digital world, offering unparalleled assistance and simplifying tasks via sophisticated computational methods. Central to this evolution is the web element nomination task, which entails identifying unique elements on webpages. Unfortunately, the development of algorithmic designs for web automation is hampered by the scarcity of comprehensive and realistic datasets that reflect the complexity faced by real-world applications on the Web. To address this, we introduce the Klarna Product Page Dataset, a comprehensive and diverse collection of webpages that surpasses existing datasets in richness and variety. The dataset features 51,701 manually labeled product pages from 8,175 e-commerce websites across eight geographic regions, accompanied by a dataset of rendered page screenshots. To initiate research on the Klarna Product Page Dataset, we empirically benchmark a range of Graph Neural Networks (GNNs) on the web element nomination task. We make three important contributions. First, we found that a simple Convolutional GNN (GCN) outperforms complex state-of-the-art nomination methods. Second, we introduce a training refinement procedure that involves identifying a small number of relevant elements from each page using the aforementioned GCN. These elements are then passed to a large language model for the final nomination. This procedure significantly improves the nomination accuracy by 16.8 percentage points on our challenging dataset, without any need for fine-tuning. Finally, in response to another prevalent challenge in this field - the abundance of training methodologies suitable for element nomination - we introduce the Challenge Nomination Training Procedure, a novel training approach that further boosts nomination accuracy.
翻訳日:2024-02-29 01:22:17 公開日:2024-02-23
# 定位MRIガイド下放射線療法を施行した肺腫瘍に対する核磁気共鳴デルタ放射線療法

Magnetic resonance delta radiomics to track radiation response in lung tumors receiving stereotactic MRI-guided radiotherapy ( http://arxiv.org/abs/2402.16619v1 )

ライセンス: Link先を確認
Yining Zha (1 and 2 and 3), Benjamin H. Kann (1 and 2), Zezhong Ye (1 and 2), Anna Zapaishchykova (1 and 2 and 4), John He (2), Shu-Hui Hsu (2), Jonathan E. Leeman (2), Kelly J. Fitzgerald (2), David E. Kozono (2), Raymond H. Mak (1 and 2), Hugo J.W.L. Aerts (1 and 2 and 4 and 5) ((1) Artificial Intelligence in Medicine Program, Mass General Brigham, Harvard Medical School, Boston, MA, USA, (2) Department of Radiation Oncology, Dana-Farber Cancer Institute and Brigham and Women's Hospital, Harvard Medical School, Boston, MA, USA, (3) Department of Biostatistics, Harvard T.H. Chan School of Public Health, Boston, MA, USA, (4) Radiology and Nuclear Medicine, CARIM & GROW, Maastricht University, Maastricht, the Netherlands, (5) Department of Radiology, Brigham and Women's Hospital, Dana-Farber Cancer Institute, Harvard Medical School, Boston, MA, USA)(参考訳) 序説:肺癌はがん関連死亡の主な原因であり,早期肺癌に対する定位体放射線療法(SBRT)が標準治療となっている。 しかし腫瘍レベルでの放射線に対する異種反応は困難である。 現在、標準化された服用レギュラーは個々の患者や腫瘍の特徴に基づく適応を欠いている。 そこで我々は, 放射線線量応答の追跡, 放射線線量測定, 放射線線量測定, および治療成績の予測から, デルタ放射線治療の可能性を探る。 方法: 39例を対象に, mrガイド下肺sbrt治療47例の検討を行った。 放射線学的特徴をpyradiomicsを用いて抽出し,安定性を時間的および空間的に評価した。 デルタ放射能は放射線照射量と相関し,腫瘍制御とcox退縮との関連について検討した。 結果: 107例中, 49例が時間安定性を示し, 57例が空間安定性を示した。 15の安定および非線形な特徴を解析した。 放射線量分率の納入に伴い, 表面と体積比の中央値は減少し, 粗さと90%のパーセンタイル値が増加した。 スキューネスは基線から毎分22%-45%の相対的な絶対値変化を示し, 共分散解析によりロコリージョン障害 (p=0.012) と関連していた。 腫瘤径と容積は認められなかったが,皮膚,伸長,平坦は局所再発のない生存と有意に関連していた。 結論: MRガイド下肺SBRTにおけるデルタ放射能解析の有用性と安定性について検討した。 MRデルタ放射能は腫瘍内放射線効果の短期的なX線像を捉えうることが示唆された。

Introduction: Lung cancer is a leading cause of cancer-related mortality, and stereotactic body radiotherapy (SBRT) has become a standard treatment for early-stage lung cancer. However, the heterogeneous response to radiation at the tumor level poses challenges. Currently, standardized dosage regimens lack adaptation based on individual patient or tumor characteristics. Thus, we explore the potential of delta radiomics from on-treatment magnetic resonance (MR) imaging to track radiation dose response, inform personalized radiotherapy dosing, and predict outcomes. Methods: A retrospective study of 47 MR-guided lung SBRT treatments for 39 patients was conducted. Radiomic features were extracted using Pyradiomics, and stability was evaluated temporally and spatially. Delta radiomics were correlated with radiation dose delivery and assessed for associations with tumor control and survival with Cox regressions. Results: Among 107 features, 49 demonstrated temporal stability, and 57 showed spatial stability. Fifteen stable and non-collinear features were analyzed. Median Skewness and surface to volume ratio decreased with radiation dose fraction delivery, while coarseness and 90th percentile values increased. Skewness had the largest relative median absolute changes (22%-45%) per fraction from baseline and was associated with locoregional failure (p=0.012) by analysis of covariance. Skewness, Elongation, and Flatness were significantly associated with local recurrence-free survival, while tumor diameter and volume were not. Conclusions: Our study establishes the feasibility and stability of delta radiomics analysis for MR-guided lung SBRT. Findings suggest that MR delta radiomics can capture short-term radiographic manifestations of intra-tumoral radiation effect.
翻訳日:2024-02-28 20:31:33 公開日:2024-02-23
# ポートフォリオ最適化のためのトランスフォーマーベース深層強化学習とブラックリッターマンモデルの統合

Combining Transformer based Deep Reinforcement Learning with Black-Litterman Model for Portfolio Optimization ( http://arxiv.org/abs/2402.16609v1 )

ライセンス: Link先を確認
Ruoyu Sun (1), Angelos Stefanidis (2), Zhengyong Jiang (2), Jionglong Su (2) ((1) Xi'an Jiaotong-Liverpool University, School of Mathematics and Physics, Department of Financial and Actuarial Mathematics (2) Xi'an Jiaotong-Liverpool University Entrepreneur College (Taicang), School of AI and Advanced Computing (1))(参考訳) モデルフリーのアルゴリズムとして、深層強化学習(DRL)エージェントは、教師なしの方法で環境と対話することで学習し、決定する。 近年、DRLエージェントは市場の変化に動的に適応でき、資産間のジョイントダイナミクスの仕様に依存しないため、継続的な取引期間においてポートフォリオ最適化のためにDRLアルゴリズムが広く採用されている。 しかし、ポートフォリオ最適化のための典型的なdrlエージェントは、ポートフォリオ資産のリターン間の動的相関を認識するポリシーを学習できない。 ポートフォリオ資産間の動的相関はポートフォリオの最適化に不可欠であるため、そのような知識の欠如は、特にターゲット市場がショートセール(すなわち米国株式市場)を許可した場合において、リスク単位当たりのリターンを最大化することが困難となる。 本研究では,DRLエージェントとBlack-Litterman (BL)モデルを組み合わせたハイブリッドポートフォリオ最適化モデルを提案する。 基本的に、DRLエージェントは、目標ポートフォリオ重量を決定するためにBLモデルを適用するポリシーを学ぶように訓練される。 DRLエージェントをテストするため,ダウ・ジョーンズ工業平均株価に基づいてポートフォリオを構築した。 実世界の米国株式市場データを用いた実験の結果、我々のDRLエージェントは、様々な比較ポートフォリオ選択戦略や代替DRLフレームワークを、累積リターンで少なくとも42%上回っていることが示された。 リスク単位当たりのリターンに関しては、DRLエージェントは、さまざまな比較ポートフォリオ選択戦略や、他の機械学習フレームワークに基づく代替戦略よりも大幅に優れています。

As a model-free algorithm, deep reinforcement learning (DRL) agent learns and makes decisions by interacting with the environment in an unsupervised way. In recent years, DRL algorithms have been widely applied by scholars for portfolio optimization in consecutive trading periods, since the DRL agent can dynamically adapt to market changes and does not rely on the specification of the joint dynamics across the assets. However, typical DRL agents for portfolio optimization cannot learn a policy that is aware of the dynamic correlation between portfolio asset returns. Since the dynamic correlations among portfolio assets are crucial in optimizing the portfolio, the lack of such knowledge makes it difficult for the DRL agent to maximize the return per unit of risk, especially when the target market permits short selling (i.e., the US stock market). In this research, we propose a hybrid portfolio optimization model combining the DRL agent and the Black-Litterman (BL) model to enable the DRL agent to learn the dynamic correlation between the portfolio asset returns and implement an efficacious long/short strategy based on the correlation. Essentially, the DRL agent is trained to learn the policy to apply the BL model to determine the target portfolio weights. To test our DRL agent, we construct the portfolio based on all the Dow Jones Industrial Average constitute stocks. Empirical results of the experiments conducted on real-world United States stock market data demonstrate that our DRL agent significantly outperforms various comparison portfolio choice strategies and alternative DRL frameworks by at least 42% in terms of accumulated return. In terms of the return per unit of risk, our DRL agent significantly outperforms various comparative portfolio choice strategies and alternative strategies based on other machine learning frameworks.
翻訳日:2024-02-28 20:30:29 公開日:2024-02-23
# 変形可能な画像登録のための多目的学習

Multi-Objective Learning for Deformable Image Registration ( http://arxiv.org/abs/2402.16658v1 )

ライセンス: Link先を確認
Monika Grewal, Henrike Westerveld, Peter A. N. Bosman, Tanja Alderliesten(参考訳) 変形可能な画像登録(DIR)は、複数の競合する目的を最適化するが、既存のDIRアルゴリズムの多くは多目的(MO)ではない。 さらに,DIRの深層学習アルゴリズムの設計にも進展があるが,深層学習を用いたMO DIRの方向性に関する作業は行われていない。 本稿では、最近提案されたニューラルネットワークのmoトレーニング手法と、dirのための有名なディープニューラルネットワークを組み合わせることで、このギャップを埋め、深層学習に基づくmo dirアプローチを作成する。 骨盤核磁気共鳴画像(MRI)のDIR法について検討した。 提案したMO DIRアプローチは, それぞれの患者に対して, 目的の異なるトレードオフに対応する複数の登録出力を提供することによって, 臨床応用の観点から, 単一のDIR出力よりも望ましい特性が得られたことを実験的に実証した。 実験では、提案されたMO DIRアプローチが、可能な値のグリッドからサンプリングされた各目標に対する重み付き複数のニューラルネットワークを単にトレーニングするよりも、トレードオフフロント全体にわたってDIR出力の拡散を改善することも示している。

Deformable image registration (DIR) involves optimization of multiple conflicting objectives, however, not many existing DIR algorithms are multi-objective (MO). Further, while there has been progress in the design of deep learning algorithms for DIR, there is no work in the direction of MO DIR using deep learning. In this paper, we fill this gap by combining a recently proposed approach for MO training of neural networks with a well-known deep neural network for DIR and create a deep learning based MO DIR approach. We evaluate the proposed approach for DIR of pelvic magnetic resonance imaging (MRI) scans. We experimentally demonstrate that the proposed MO DIR approach -- providing multiple registration outputs for each patient that each correspond to a different trade-off between the objectives -- has additional desirable properties from a clinical use point-of-view as compared to providing a single DIR output. The experiments also show that the proposed MO DIR approach provides a better spread of DIR outputs across the entire trade-off front than simply training multiple neural networks with weights for each objective sampled from a grid of possible values.
翻訳日:2024-02-28 20:21:50 公開日:2024-02-23
# コードの大規模言語モデルにおけるトロイの木馬シグネチャについて

On Trojan Signatures in Large Language Models of Code ( http://arxiv.org/abs/2402.16896v1 )

ライセンス: Link先を確認
Aftab Hussain, Md Rafiqul Islam Rabin, Mohammad Amin Alipour(参考訳) Fields et al. (2021) で説明されているようなトロイジャンシグネチャは、トロイジャンモデルのトロイジャンクラスパラメータ(重み)と非トロイジャンクラスパラメータの分布において顕著な違いであり、トロイジャンモデルを検出するのに使用できる。 Fields et al. (2021) は、コンピュータビジョンの分類タスクにおいて、Resnet、WideResnet、Densenet、VGGなどの画像モデルでトロヤ符号を発見した。 本稿では,ソースコードの大規模言語モデルの分類器層パラメータにおけるそのようなシグネチャについて検討する。 この結果から,トロイジャン符号はLLMに一般化できないことが示唆された。 トロイの木馬のコードモデルは、より明示的な設定で毒を盛られたとしても、頑丈であることがわかった。 クローンと欠陥検出という2つの二項分類タスクに対して,9つのトロイの木馬モデルを解析した。 我々の知る限りでは、これは、大規模言語のコードモデルに対する重みに基づくトロイの木馬署名の啓示技術を調べる最初の試みであり、さらに、そのようなモデルの重みからのみトロイの木馬を検出することが難しいことを実証するものである。

Trojan signatures, as described by Fields et al. (2021), are noticeable differences in the distribution of the trojaned class parameters (weights) and the non-trojaned class parameters of the trojaned model, that can be used to detect the trojaned model. Fields et al. (2021) found trojan signatures in computer vision classification tasks with image models, such as, Resnet, WideResnet, Densenet, and VGG. In this paper, we investigate such signatures in the classifier layer parameters of large language models of source code. Our results suggest that trojan signatures could not generalize to LLMs of code. We found that trojaned code models are stubborn, even when the models were poisoned under more explicit settings (finetuned with pre-trained weights frozen). We analyzed nine trojaned models for two binary classification tasks: clone and defect detection. To the best of our knowledge, this is the first work to examine weight-based trojan signature revelation techniques for large-language models of code and furthermore to demonstrate that detecting trojans only from the weights in such models is a hard problem.
翻訳日:2024-02-28 19:24:12 公開日:2024-02-23
# The Good and the Bad: Exploring Privacy Issues in Retrieval-Augmented Generation (RAG)

The Good and The Bad: Exploring Privacy Issues in Retrieval-Augmented Generation (RAG) ( http://arxiv.org/abs/2402.16893v1 )

ライセンス: Link先を確認
Shenglai Zeng, Jiankun Zhang, Pengfei He, Yue Xing, Yiding Liu, Han Xu, Jie Ren, Shuaiqiang Wang, Dawei Yin, Yi Chang, Jiliang Tang(参考訳) Retrieval-augmented Generation(RAG)は、データプライバシが重要な関心事である、プロプライエタリデータとプライベートデータによる言語モデルを容易にする強力なテクニックである。 大規模な言語モデル(LLM)のプライバシーリスクは広範な研究によって実証されているが、RAG技術はLLM生成の固有の振る舞いを再構築する可能性がある。 本研究では,プライベート検索データベースを漏洩するRAGシステムの脆弱性を実証する,新たな攻撃手法による広範な実証研究を行う。 検索データに対するRAGの新たなリスクにもかかわらず,RAGがLPMのトレーニングデータの漏洩を軽減できることが明らかとなった。 本稿では,LLM とRAG システムビルダの双方にメリットがある検索拡張 LLM のプライバシ保護に関する新たな知見を提供する。 私たちのコードはhttps://github.com/phycholosogy/rag-privacyで利用可能です。

Retrieval-augmented generation (RAG) is a powerful technique to facilitate language model with proprietary and private data, where data privacy is a pivotal concern. Whereas extensive research has demonstrated the privacy risks of large language models (LLMs), the RAG technique could potentially reshape the inherent behaviors of LLM generation, posing new privacy issues that are currently under-explored. In this work, we conduct extensive empirical studies with novel attack methods, which demonstrate the vulnerability of RAG systems on leaking the private retrieval database. Despite the new risk brought by RAG on the retrieval data, we further reveal that RAG can mitigate the leakage of the LLMs' training data. Overall, we provide new insights in this paper for privacy protection of retrieval-augmented LLMs, which benefit both LLMs and RAG systems builders. Our code is available at https://github.com/phycholosogy/RAG-privacy.
翻訳日:2024-02-28 19:23:47 公開日:2024-02-23
# DNAにおける超高速励起ダイナミクス:ブリッジング相関量子力学と配列依存性

Ultrafast excitonic dynamics in DNA: Bridging correlated quantum dynamics and sequence dependence ( http://arxiv.org/abs/2402.16892v1 )

ライセンス: Link先を確認
D. Herb, M. Rossini and J. Ankerhold(参考訳) DNAの光励起の後、同じDNA塩基上に局在した励起電子(LUMO)と残りのホール(HOMO)は、相互のクーロン相互作用のためにフレンケルエキシトンと呼ばれる結合対を形成する。 本研究では,ab initioデータによってパラメトリゼーションされたタイト結合(tb)アプローチにより,レラクゼーション特性,平均電荷分離,双極子モーメントを,二重鎖dna配列の大規模なアンサンブル(全16,384個の塩基配列と14個のヌクレオベース)に関連付けることができることを示した。 このようにして、長い寿命の励起状態、高平均電荷分離、高双極子モーメントの原因となる配列の比較的小さなサブセンスを識別することができる。 さらなる分析により、これらの配列は特にT-リッチであることが示されている。 電子-ホール相互作用(クーロン力)の影響を系統的にスクリーニングすることにより、これらの相関関係は直接的にアクセスできない相互作用パラメータの有限サイズの変動に対して比較的堅牢であることを示す。 この手法は、量子物理学と物理化学のシミュレーション手法と遺伝学やエピジェネティクスで知られている統計解析を組み合わせることで、両方の分野の情報を統合する強力な橋渡しとなる。

After photo-excitation of DNA, the excited electron (in the LUMO) and the remaining hole (in the HOMO) localized on the same DNA base form a bound pair, called the Frenkel exciton, due to their mutual Coulomb interaction. In this study, we demonstrate that a tight-binding (TB) approach, parametrized by ab initio data, allows to correlate relaxation properties, average charge separation, and dipole moments to a large ensemble of double-stranded DNA sequences (all 16,384 possible sequences with 14 nucleobases). This way, we are able to identify a relatively small sub-ensemble of sequences responsible for long-lived excited states, high average charge separation, and high dipole moment. Further analysis shows that these sequences are particularly T-rich. By systematically screening the impact of electron-hole interaction (Coulomb forces), we verify that these correlations are relatively robust against finite-size variations of the interaction parameter, not directly accessible experimentally. This methodology combines simulation methods from quantum physics and physical chemistry with statistical analysis known from genetics and epigenetics, thus representing a powerful bridge to combine information from both fields.
翻訳日:2024-02-28 19:23:29 公開日:2024-02-23
# クロスプロブレムゼロショット一般化によるルーティング問題に対するマルチタスク学習

Multi-Task Learning for Routing Problem with Cross-Problem Zero-Shot Generalization ( http://arxiv.org/abs/2402.16891v1 )

ライセンス: Link先を確認
Fei Liu, Xi Lin, Qingfu Zhang, Xialiang Tong, Mingxuan Yuan(参考訳) 車両のルーティング問題(vrps)は、多くの現実世界のアプリケーションで見られるが、数十年間、重要な研究課題となっている。 近年,手動アルゴリズム設計なしでVRPを解く学習モデルを活用したニューラルネットワーク最適化(NCO)アプローチが注目されている。 しかし、現在のNCO手法では、ルーティング問題に対して1つのモデルを構築する必要があり、様々な特性を持つ現実の産業問題に対する実践的応用を著しく妨げている。 本研究では,クロスプロブレム一般化の重大な課題に取り組むための最初の試みを行う。 特に,共有属性の異なる組み合わせとしてVRPを定式化し,属性合成を通じて単一モデルを用いて同時に解決する。 このようにして、提案モデルは、ゼロショットの一般化方式で、見知らぬ属性の組み合わせでVRPを解くことができる。 11のvrp変種、ベンチマークデータセット、業界ロジスティックシナリオに関する広範な実験が行われている。 その結果,11個のVRPにおいて統合モデルは優れた性能を示し,既存のアプローチの20%以上から平均的なギャップを約5%削減し,ベンチマークデータセットや実世界のロジスティクスアプリケーション上での大幅なパフォーマンス向上を実現した。

Vehicle routing problems (VRPs), which can be found in numerous real-world applications, have been an important research topic for several decades. Recently, the neural combinatorial optimization (NCO) approach that leverages a learning-based model to solve VRPs without manual algorithm design has gained substantial attention. However, current NCO methods typically require building one model for each routing problem, which significantly hinders their practical application for real-world industry problems with diverse attributes. In this work, we make the first attempt to tackle the crucial challenge of cross-problem generalization. In particular, we formulate VRPs as different combinations of a set of shared underlying attributes and solve them simultaneously via a single model through attribute composition. In this way, our proposed model can successfully solve VRPs with unseen attribute combinations in a zero-shot generalization manner. Extensive experiments are conducted on eleven VRP variants, benchmark datasets, and industry logistic scenarios. The results show that the unified model demonstrates superior performance in the eleven VRPs, reducing the average gap to around 5% from over 20% in the existing approach and achieving a significant performance boost on benchmark datasets as well as a real-world logistics application.
翻訳日:2024-02-28 19:23:05 公開日:2024-02-23
# 生成モデルは自己ウォータマークされる:再生成によるモデル認証の宣言

Generative Models are Self-Watermarked: Declaring Model Authentication through Re-Generation ( http://arxiv.org/abs/2402.16889v1 )

ライセンス: Link先を確認
Aditya Desu, Xuanli He, Qiongkai Xu, Wei Lu(参考訳) 機械とAIが生成したコンテンツが増殖するにつれて、生成モデルの知的特性を保護することが不可欠になっているが、データ所有権の検証は、特に生成したデータの不正な再利用の場合、重大な課題を引き起こす。 データオーナシップの検証という課題は、ブラックボックスシステムとして機能することが多いマシンラーニング・アズ・ア・サービス(mlaas)を使用することによってさらに増幅される。 私たちの仕事は、個々のサンプルからのデータ再利用を検出することです。 伝統的に、透かしはAI生成コンテンツを検出するために利用されてきた。 しかし、モデルや生成したコンテンツにトリガとして追加情報を埋め込む透かし技術とは異なり、本手法では出力に固有の潜在指紋を再生成することで識別する。 本稿では, 再生成によるデータ所有を考慮に入れた説明可能な検証手法を提案し, さらに, 反復的データ再生による生成モデルにおけるこれらの指紋の増幅を行う。 この手法は理論的に基礎を置いており、最近の高度なテキストと画像生成モデルを用いて生存性と堅牢性を示す。 当社の方法論は,APIの知的財産権の保護を超えて,誤情報の普及や学術的不正行為といった重要な問題に対処する上で重要である。 ソースとオーサシップの整合性を確保するための有用なツールを提供し、信頼性とオーサシップの検証が不可欠であるさまざまなシナリオでアプリケーションを拡張します。

As machine- and AI-generated content proliferates, protecting the intellectual property of generative models has become imperative, yet verifying data ownership poses formidable challenges, particularly in cases of unauthorized reuse of generated data. The challenge of verifying data ownership is further amplified by using Machine Learning as a Service (MLaaS), which often functions as a black-box system. Our work is dedicated to detecting data reuse from even an individual sample. Traditionally, watermarking has been leveraged to detect AI-generated content. However, unlike watermarking techniques that embed additional information as triggers into models or generated content, potentially compromising output quality, our approach identifies latent fingerprints inherently present within the outputs through re-generation. We propose an explainable verification procedure that attributes data ownership through re-generation, and further amplifies these fingerprints in the generative models through iterative data re-generation. This methodology is theoretically grounded and demonstrates viability and robustness using recent advanced text and image generative models. Our methodology is significant as it goes beyond protecting the intellectual property of APIs and addresses important issues such as the spread of misinformation and academic misconduct. It provides a useful tool to ensure the integrity of sources and authorship, expanding its application in different scenarios where authenticity and ownership verification are essential.
翻訳日:2024-02-28 19:22:45 公開日:2024-02-23
# 小貯留層を用いたカオス的アトラクタ再構成 -トポロジーの影響-

Chaotic attractor reconstruction using small reservoirs - the influence of topology ( http://arxiv.org/abs/2402.16888v1 )

ライセンス: Link先を確認
Lina Jaurigue(参考訳) 測定データに基づく時系列予測は、幅広い応用において必要であり、広範な研究の対象となっている。 特に難しい課題はカオス力学によって生成された時系列の予測である。 近年,リザーバコンピューティングはカオスダイナミクスを予測し,データからカオスアトラクタを再構築する効果的な手法であることが示されている。 本研究は, ハードウェア実装性の向上と適切なサロゲートモデルの信頼性向上を目標として, より小さく, より低い複雑性の貯水池に向けて進められている。 非結合ノードのリザーバーは、複雑なリザーバトポロジよりも長期時系列予測をより確実に生成する。 得られたサロゲート系のスペクトル半径を小さくして, 未結合貯水池のアトラクタ再構成を改良した。 これらの結果は,訓練した貯水池の閉ループ操作によって達成される自律サーロゲートシステムにおいて,所望のダイナミクスが安定するかどうかを決定する上で,ノード次数が重要な役割を果たすことを示唆する。 ハードウェア実装の面では、非結合ノードは複雑な結合セットアップを必要としないため、ハードウェアアーキテクチャの自由度が高くなり、非結合ノードの場合、システム応答はスペースと時間多重化に等価である。

Forecasting timeseries based upon measured data is needed in a wide range of applications and has been the subject of extensive research. A particularly challenging task is the forecasting of timeseries generated by chaotic dynamics. In recent years reservoir computing has been shown to be an effective method of forecasting chaotic dynamics and reconstructing chaotic attractors from data. In this work strides are made toward smaller and lower complexity reservoirs with the goal of improved hardware implementability and more reliable production of adequate surrogate models. We show that a reservoir of uncoupled nodes more reliably produces long term timeseries predictions than complex reservoir topologies. We then link the improved attractor reconstruction of the uncoupled reservoir with smaller spectral radii of the resulting surrogate systems. These results indicate that, the node degree plays an important role in determining whether the desired dynamics will be stable in the autonomous surrogate system which is attained via closed-loop operation of the trained reservoir. In terms of hardware implementability, uncoupled nodes would allow for greater freedom in the hardware architecture because no complex coupling setups are needed and because, for uncoupled nodes, the system response is equivalent for space and time multiplexing.
翻訳日:2024-02-28 19:22:21 公開日:2024-02-23
# 複雑ネットワークのための人工知能:可能性,方法論,応用

Artificial Intelligence for Complex Network: Potential, Methodology and Application ( http://arxiv.org/abs/2402.16887v1 )

ライセンス: Link先を確認
Jingtao Ding, Chang Liu, Yu Zheng, Yunke Zhang, Zihan Yu, Ruikun Li, Hongyi Chen, Jinghua Piao, Huandong Wang, Jiazhen Liu and Yong Li(参考訳) 複雑なネットワークは、自然環境から人間社会まで、様々な現実世界のシステムに及んでいる。 これらのネットワークの本質は、微視的障害のあるネットワークトポロジーとノードダイナミクスを介し、特定の集合的な振る舞いを特徴とするマクロな順序に移行し、進化する能力にある。 過去20年間で、複雑なネットワーク科学は、実世界のネットワークを支える統計力学、構造、力学の理解を著しく強化してきた。 これらの進歩にもかかわらず、より現実的なシステムを探究し、実践的な応用を強化する上で大きな課題が残っている。 人工知能(AI)技術の出現は、多様な現実世界のネットワークデータと相まって、複雑なネットワーク科学研究の新しい時代を告げている。 この調査は、複雑なネットワーク研究の難題を克服する上で、AIの潜在的な利点を体系的に解決することを目的としている。 重要な研究問題を要約し、対応する方法論と応用の徹底的なレビューを提供する。 複雑なネットワークのためのAIに関するこの包括的な調査を通じて、私たちは、この学際分野におけるさらなる研究と進歩を促進する貴重な洞察を提供することを期待しています。

Complex networks pervade various real-world systems, from the natural environment to human societies. The essence of these networks is in their ability to transition and evolve from microscopic disorder-where network topology and node dynamics intertwine-to a macroscopic order characterized by certain collective behaviors. Over the past two decades, complex network science has significantly enhanced our understanding of the statistical mechanics, structures, and dynamics underlying real-world networks. Despite these advancements, there remain considerable challenges in exploring more realistic systems and enhancing practical applications. The emergence of artificial intelligence (AI) technologies, coupled with the abundance of diverse real-world network data, has heralded a new era in complex network science research. This survey aims to systematically address the potential advantages of AI in overcoming the lingering challenges of complex network research. It endeavors to summarize the pivotal research problems and provide an exhaustive review of the corresponding methodologies and applications. Through this comprehensive survey-the first of its kind on AI for complex networks-we expect to provide valuable insights that will drive further research and advancement in this interdisciplinary field.
翻訳日:2024-02-28 19:22:01 公開日:2024-02-23
# ノイズデータによる効率的なデータ駆動最適化

Efficient Data-Driven Optimization with Noisy Data ( http://arxiv.org/abs/2102.04363v4 )

ライセンス: Link先を確認
Bart P.G. Van Parys(参考訳) 古典的なクルバック・リーバー(英語版)あるいはエントロピー距離は、ノイズのないデータを用いた意思決定の文脈において、ある望ましい統計的特性を享受することが知られている。 しかし、ほとんどの現実的な状況では、意思決定者が利用できるデータは一定量の計測ノイズを受ける。 そこで本研究では,既知のノイズ源によってデータが破損するデータ駆動型処方問題について検討する。 我々は,この雑音下での効率的なデータ駆動型定式化を導出し,エントロピックな最適輸送解釈を享受していることを示す。 最後に、これらの効率的なロバストな定式化は、ストラッセンの古典的表現を生かして、いくつかの興味深い設定で抽出可能であることを示す。

Classical Kullback-Leibler or entropic distances are known to enjoy certain desirable statistical properties in the context of decision-making with noiseless data. However, in most practical situations the data available to a decision maker is subject to a certain amount of measurement noise. We hence study here data-driven prescription problems in which the data is corrupted by a known noise source. We derive efficient data-driven formulations in this noisy regime and indicate that they enjoy an entropic optimal transport interpretation. Finally, we show that these efficient robust formulations are tractable in several interesting settings by exploiting a classical representation result by Strassen.
翻訳日:2024-02-28 01:04:18 公開日:2024-02-23
# 量子不確かさの起源について

On the Origin of Quantum Uncertainty ( http://arxiv.org/abs/2005.07325v3 )

ライセンス: Link先を確認
Christoph Adami (Michigan State University)(参考訳) 量子測定に内在する不確実性の起源は量子理論の開始以来議論されてきたが、今日まで量子状態の合成に関して角度で行われた測定の不確定性の原因は不明である。 ここでは、量子不確実性は数学的論理に内在する不確定性の顕現であることを示す。 相互にプログラム空間に書き込む古典的チューリングマシンのペアを明示的に構成することにより、そのペアの結合状態が決定されるが、個々のマシンの状態は量子測定において正確には決定されないことを示す。 特に、個々の機械の固有状態は、消滅する固有値を持つものの、古典状態の重ね合わせであるように見える。 これらの「古典的な絡み合った」チューリングマシンは本質的に決定不能な「ハロイング問題」を実行しているため、この構成は、そのようなマシンが状態について疑問を呈するときに生じる必然的なランダム性が、シャイティンの停止確率のビットに内在するランダム性であることを示唆している。 この古典的構成は量子測定を反映するので、量子の不確かさは同じ起源を持つと主張する。

The origin of the uncertainty inherent in quantum measurements has been discussed since quantum theory's inception, but to date the source of the indeterminacy of measurements performed at an angle with respect to a quantum state's preparation is unknown. Here I propose that quantum uncertainty is a manifestation of the indeterminism inherent in mathematical logic. By explicitly constructing pairs of classical Turing machines that write into each others' program space, I show that the joint state of such a pair is determined, while the state of the individual machine is not, precisely as in quantum measurement. In particular, the eigenstates of the individual machines appear to be superpositions of classical states, albeit with vanishing eigenvalue. Because these "classically entangled" Turing machines essentially implement undecidable "halting problems", this construction suggests that the inevitable randomness that results when interrogating such machines about their state is precisely the randomness inherent in the bits of Chaitin's halting probability. Because this classical construction mirrors quantum measurement, I argue that quantum uncertainty has the same origin.
翻訳日:2024-02-28 01:04:07 公開日:2024-02-23
# 寒冷原子による光キャビティ内の動的相転移の探索

Exploring dynamical phase transitions with cold atoms in an optical cavity ( http://arxiv.org/abs/1910.00439v2 )

ライセンス: Link先を確認
Juan A. Muniz, Diego Barberena, Robert J. Lewis-Swan, Dylan J. Young, Julia R. K. Cline, Ana Maria Rey, James K. Thompson(参考訳) 光学キャビティにおける原子と光の相互作用は、制御された環境で集団(多体)量子物理学を研究する手段となる。 このような空洞内の原子のアンサンブルは、原子内部の準位がスピンの自由度を模倣し、空洞パラメータを変化させて調整可能な長距離相互作用を通して相互作用する集合量子スピンモデルの研究のために提案されている。 従来、原子-光相互作用とキャビティからの光の散逸の間に生じる非古典定常相が研究されてきた。 これらの系はまた、最近の実験で示されているように、平衡で存在せず、平衡からシステムを駆逐することで安定化できる物質の動的相を研究する機会を提供する。 これらの位相は標準平衡相転移に似た普遍的な挙動を示すこともできる。 ここでは、約100万個のストロンチウム88原子を光学空洞に配置して、量子磁性の象徴的モデルである集団リプキン・メシュコフ・グリク模型をシミュレートし、この系における物質の異なる動的相の観察を報告した。 本システムでは,システムサイズや初期状態,その他のパラメータに対する動的相転移の依存性を調べることができる。 これらの観測は、超流動ヘリウムにおけるジョセフソン効果や、原子と固体のポラリトン凝縮など、関連する系の類似の動的相と関連付けられる。 このシステム自体は、光学遷移におけるメトロロジー上有用な絡み合い状態を生成する可能性を提供し、最先端の原子時計での量子化を可能にする。

Interactions between atoms and light in optical cavities provide a means of investigating collective (many-body) quantum physics in controlled environments. Such ensembles of atoms in cavities have been proposed for studying collective quantum spin models, where the atomic internal levels mimic a spin degree of freedom and interact through long-range interactions tunable by changing the cavity parameters. Non-classical steady-state phases arising from the interplay between atom-light interactions and dissipation of light from the cavity have previously been investigated. These systems also offer the opportunity to study dynamical phases of matter that are precluded from existence at equilibrium but can be stabilized by driving a system out of equilibrium, as demonstrated by recent experiments. These phases can also display universal behaviors akin to standard equilibrium phase transitions. Here, we use an ensemble of about a million strontium-88 atoms in an optical cavity to simulate a collective Lipkin-Meshkov-Glick model, an iconic model in quantum magnetism, and report the observation of distinct dynamical phases of matter in this system. Our system allows us to probe the dependence of dynamical phase transitions on system size, initial state and other parameters. These observations can be linked to similar dynamical phases in related systems, including the Josephson effect in superfluid helium, or coupled atomic and solid-state polariton condensates. The system itself offers potential for generation of metrologically useful entangled states in optical transitions, which could permit quantum enhancement in state-of-the-art atomic clocks.
翻訳日:2024-02-28 01:03:46 公開日:2024-02-23
# 干渉による深層学習可能なテキストセマンティックコミュニケーションの性能限界

Performance Limits of a Deep Learning-Enabled Text Semantic Communication under Interference ( http://arxiv.org/abs/2302.14702v3 )

ライセンス: Link先を確認
Tilahun M. Getu, Walid Saad, Georges Kaddoum, and Mehdi Bennis(参考訳) 深層学習(DL)対応セマンティックコミュニケーション(SemCom)は、電力使用量、帯域使用量、伝送遅延を最小化することで、6Gイネーブルとして登場したが、その利点は相当なセマンティックノイズを引き起こす電波干渉(RFI)によって制限される。 このようなセマンティクスノイズの影響は、干渉耐性(ir$^2$)のsemcom設計を用いて緩和できるが、そのような設計はまだ存在しない。 IR2 SemComの基本的な研究を奨励するために、DeepSCと呼ばれる人気のテキストSemComシステムの性能限界をRFI(multi-interferer)の存在下で研究した。 SemComの原則的確率的フレームワークを導入することで、(マルチインターフェラー)RFIのパワーが非常に大きくなるにつれて、DeepSCは意味的に無関係な文を生成することを示す。 また,DeepSC の実用限界と,マルチインターフェラー RFI による停止確率の低い限界を導出し,寿命の長い DL ベースの IR$^2$ SemCom システムを提案する。 シミュレーションとコンピュータ実験で導出した限界を補足し,rfiを用いた無線攻撃に対するdeepscの脆弱性を裏付ける。

Although deep learning (DL)-enabled semantic communication (SemCom) has emerged as a 6G enabler by minimizing irrelevant information transmission -- minimizing power usage, bandwidth consumption, and transmission delay, its benefits can be limited by radio frequency interference (RFI) that causes substantial semantic noise. Such semantic noise's impact can be alleviated using an interference-resistant and robust (IR$^2$) SemCom design, though no such design exists yet. To stimulate fundamental research on IR2 SemCom, the performance limits of a popular text SemCom system named DeepSC are studied in the presence of (multi-interferer) RFI. By introducing a principled probabilistic framework for SemCom, we show that DeepSC produces semantically irrelevant sentences as the power of (multi-interferer) RFI gets very large. We also derive DeepSC's practical limits and a lower bound on its outage probability under multi-interferer RFI, and propose a (generic) lifelong DL-based IR$^2$ SemCom system. We corroborate the derived limits with simulations and computer experiments, which also affirm the vulnerability of DeepSC to a wireless attack using RFI.
翻訳日:2024-02-28 01:01:30 公開日:2024-02-23
# 高励起状態の断熱的時間発展

Adiabatic time evolution of highly excited states ( http://arxiv.org/abs/2306.13967v2 )

ライセンス: Link先を確認
Hadi Yarloo, Hua-Chen Zhang, Anne E. B. Nielsen(参考訳) 量子システムの断熱的時間発展は、計算の単純化による状態準備から、最適化や量子コンピューティングへの位相変換まで、広く使われているツールである。 断熱時間進化は一般にギャップのある基底状態に対してうまく機能するが、保護エネルギーギャップが欠如しているスペクトルの中央の熱状態には有効ではない。 ここでは、特定の種類の高励起状態である量子多体傷が、保護エネルギーギャップが存在しないにもかかわらず断熱時間の進化に適していることを示す。 テンソルネットワークと2次元分数的量子ホールモデルから構築された2つのかなり異なるモデルを考えると、必要な最終断熱忠実度が約0.99のとき、量子不足は断熱力学に関してギャップ付き基底状態と類似する。 1次元モデルの傷痕状態が断熱的に変換できる最大速度は、一般的な熱と障害駆動の局所化状態の両方に対して指数関数的に減少するのに対し、システムサイズによるパワー則として減少する。 傾斜速度が一定かつ低かった場合, 単体からの距離のずれはスカー状態の傾斜速度と直線的に一致するが, 接地状態の差は2次的に起こる。 したがって、ガッピングされた基底状態は、0.9999以上の必要な断熱繊維が非常に高い場合、より良く機能する。 スカー状態から漏れる2つのメカニズムを特定し、その結果を説明するためにそれらを使用します。 単一で孤立した基底状態の操作は量子的応用では一般的であるが、傷跡状態の断熱的進化は、単一のシステムで同時に基底状態のような状態の塔全体を操作できる柔軟性を提供する。

Adiabatic time evolution of quantum systems is a widely used tool with applications ranging from state preparation over simplifications of computations and topological transformations to optimization and quantum computing. Adiabatic time evolution generally works well for gapped ground states, but not for thermal states in the middle of the spectrum that lack a protecting energy gap. Here we show that quantum many-body scars - a particular type of highly excited states - are suitable for adiabatic time evolution despite the absence of a protecting energy gap. Considering two rather different models, namely a one-dimensional model constructed from tensor networks and a two-dimensional fractional quantum Hall model with anyons, we find that the quantum scars perform similarly to gapped ground states with respect to adiabatic dynamics when the required final adiabatic fidelity is around 0.99. The maximum speed at which the scar state of the one-dimensional model can be adiabatically transformed decreases as a power law with system size, as opposed to exponentially for both generic thermal and disorder-driven localized states. At constant and very low ramp speed, we find that the deviation of the fidelity from unity scales linearly with ramp speed for scar states, but quadratically for gapped ground states. The gapped ground states hence perform better when the required adiabatic fidelities are very high, such as 0.9999 and above. We identify two mechanisms for leakage out of the scar state and use them to explain our results. While manipulating a single, isolated ground state is common in quantum applications, adiabatic evolution of scar states provides the flexibility to manipulate an entire tower of ground-state-like states simultaneously in a single system.
翻訳日:2024-02-28 00:52:01 公開日:2024-02-23
# モデル所有者決定に対する虚偽の主張

False Claims against Model Ownership Resolution ( http://arxiv.org/abs/2304.06607v3 )

ライセンス: Link先を確認
Jian Liu, Rui Zhang, Sebastian Szyller, Kui Ren, N.Asokan(参考訳) ディープニューラルネットワーク(DNN)モデルは、モデル所有者の貴重な知的特性であり、競争上の優位性を構成する。 したがって,モデル盗難から保護する技術を開発することが重要である。 モデルオーナシップ解決(mor: model ownership resolution)は、モデル盗難を抑止するテクニックのクラスである。 MORスキームにより、被疑者が被疑者モデルに対して、透かしや指紋などの証拠を提示することにより、被疑者が被疑者モデルから盗まれたか、又は被疑者が所有するソースモデルから引き出されたものであることを示す。 既存のmorスキームの多くは、悪意のある容疑者に対して堅牢性を優先し、容疑者モデルが実際に盗まれたモデルであれば、告発者が勝つことを保証している。 本稿では,文学における一般的なMORスキームが,異なる,等しく重要だが不十分な,頑健さの懸念に対して脆弱であることを示す。 我々は、悪質な告発者が、盗まれていない独立した容疑者モデルに対して、いかに偽の主張を行うかを示す。 我々の中核的な考え方は、悪意のある告発者は、独立した被疑者モデルに対する証拠としてうまく機能する(伝達可能な)逆例を見つけることによって、特定されたMORプロセスから(検出なしで)逸脱することができるということです。 この目的のために、まず共通のMORスキームの手順を一般化し、この一般化の下では、偽主張に対する防御は、(伝達可能な)逆例を防ぐのと同じくらい困難であることを示す。 体系的な実証的評価を通じて、偽クレーム攻撃は、実世界のモデルであるamazonのrekognition apiを含む、我々の一般化に従うmorスキームで常に成功することを実証する。

Deep neural network (DNN) models are valuable intellectual property of model owners, constituting a competitive advantage. Therefore, it is crucial to develop techniques to protect against model theft. Model ownership resolution (MOR) is a class of techniques that can deter model theft. A MOR scheme enables an accuser to assert an ownership claim for a suspect model by presenting evidence, such as a watermark or fingerprint, to show that the suspect model was stolen or derived from a source model owned by the accuser. Most of the existing MOR schemes prioritize robustness against malicious suspects, ensuring that the accuser will win if the suspect model is indeed a stolen model. In this paper, we show that common MOR schemes in the literature are vulnerable to a different, equally important but insufficiently explored, robustness concern: a malicious accuser. We show how malicious accusers can successfully make false claims against independent suspect models that were not stolen. Our core idea is that a malicious accuser can deviate (without detection) from the specified MOR process by finding (transferable) adversarial examples that successfully serve as evidence against independent suspect models. To this end, we first generalize the procedures of common MOR schemes and show that, under this generalization, defending against false claims is as challenging as preventing (transferable) adversarial examples. Via systematic empirical evaluation, we demonstrate that our false claim attacks always succeed in the MOR schemes that follow our generalization, including against a real-world model: Amazon's Rekognition API.
翻訳日:2024-02-28 00:48:45 公開日:2024-02-23
# RecMind:リコメンデーションのための大規模言語モデルパワードエージェント

RecMind: Large Language Model Powered Agent For Recommendation ( http://arxiv.org/abs/2308.14296v2 )

ライセンス: Link先を確認
Yancheng Wang, Ziyan Jiang, Zheng Chen, Fan Yang, Yingxue Zhou, Eunah Cho, Xing Fan, Xiaojiang Huang, Yanbin Lu, Yingzhen Yang(参考訳) レコメンデーションシステム(RS)はディープラーニングによって大幅に進歩しているが、現在のRSアプローチは通常、タスク固有のデータセット上で訓練と微調整を行い、新しいレコメンデーションタスクへの一般化可能性と、モデルスケールとデータサイズ制約による外部知識を活用する能力を制限する。 そこで我々は、外部知識を活用して、注意深い計画とツールを活用して、ゼロショットパーソナライズされたレコメンデーションを提供するLLM方式の自律推薦エージェントRecMindを設計した。 計画能力を向上させるための自己インスパイアアルゴリズムを提案する。 各中間段階において、LLMは、以前に検討された全ての状態が次の段階に進むことを自覚する。 このメカニズムは、推薦の計画において歴史的情報を理解・活用するモデルの能力を大幅に向上させる。 様々なレコメンデーションシナリオでRecMindのパフォーマンスを評価する。 実験の結果,RecMind は既存のゼロ/フェーショット LLM ベースのレコメンデーションベースライン手法よりも優れた性能を示し,完全に訓練されたレコメンデーションモデル P5 に匹敵する性能を示した。

While the recommendation system (RS) has advanced significantly through deep learning, current RS approaches usually train and fine-tune models on task-specific datasets, limiting their generalizability to new recommendation tasks and their ability to leverage external knowledge due to model scale and data size constraints. Thus, we designed an LLM-powered autonomous recommender agent, RecMind, which is capable of leveraging external knowledge, utilizing tools with careful planning to provide zero-shot personalized recommendations. We propose a Self-Inspiring algorithm to improve the planning ability. At each intermediate step, the LLM self-inspires to consider all previously explored states to plan for the next step. This mechanism greatly improves the model's ability to comprehend and utilize historical information in planning for recommendation. We evaluate RecMind's performance in various recommendation scenarios. Our experiment shows that RecMind outperforms existing zero/few-shot LLM-based recommendation baseline methods in various tasks and achieves comparable performance to a fully trained recommendation model P5.
翻訳日:2024-02-28 00:41:26 公開日:2024-02-23
# 地下不確かさの定量化と解釈を支援する安定化低次元空間の剛性変換

Rigid Transformations for Stabilized Lower Dimensional Space to Support Subsurface Uncertainty Quantification and Interpretation ( http://arxiv.org/abs/2308.08079v2 )

ライセンス: Link先を確認
Ademide O. Mabadeje and Michael J. Pyrcz(参考訳) 地下データセットは、様々な物理的、工学的、地質学的入力からの次元性の呪いによってさらに複雑化され、膨大な量、多様な特徴、高いサンプリング速度などのビッグデータ特性を持つ。 既存の次元減少法 (DR) では, 非線形次元減少法 (NDR) や, 特に距離-多次元スケーリング法 (MDS) が, その複雑さから地下データセットに好まれる。 MDSは本質的なデータ構造を保持し、不確実性を定量化するが、その制限にはユークリッド変換に不変な不安定な一意解や、オフ・オブ・サンプル・ポイント(OOSP)拡張の欠如が含まれる。 地下推論と機械学習のワークフローを強化するためには、データセットをOOSPに対応する安定で縮小された次元表現に変換する必要がある。 我々の解は LDS の安定ユークリッド不変表現に対して剛変換を用いる。 MDS入力の相似性行列を計算し、多重実現に剛性変換を適用することにより、変換不変性を保証し、OOSPを統合する。 このプロセスは凸船体アルゴリズムを利用し、歪み定量化のために損失関数と正規化応力を組み込む。 我々はDuvernay層から得られた合成データ、様々な距離測定値、および実世界の井戸を用いてアプローチを検証する。 その結果,一貫した LDS 表現の達成における本手法の有効性が確認できた。 さらに,提案する「ストレス比」(sr)指標は不確実性に対する洞察を提供し,モデル調整や推論分析に有用である。 その結果,我々のワークフローは,NDRにおける地下エネルギー資源工学と関連するビッグデータワークフローの再現性とコンパラビリティの向上を約束している。

Subsurface datasets inherently possess big data characteristics such as vast volume, diverse features, and high sampling speeds, further compounded by the curse of dimensionality from various physical, engineering, and geological inputs. Among the existing dimensionality reduction (DR) methods, nonlinear dimensionality reduction (NDR) methods, especially Metric-multidimensional scaling (MDS), are preferred for subsurface datasets due to their inherent complexity. While MDS retains intrinsic data structure and quantifies uncertainty, its limitations include unstabilized unique solutions invariant to Euclidean transformations and an absence of out-of-sample points (OOSP) extension. To enhance subsurface inferential and machine learning workflows, datasets must be transformed into stable, reduced-dimension representations that accommodate OOSP. Our solution employs rigid transformations for a stabilized Euclidean invariant representation for LDS. By computing an MDS input dissimilarity matrix, and applying rigid transformations on multiple realizations, we ensure transformation invariance and integrate OOSP. This process leverages a convex hull algorithm and incorporates loss function and normalized stress for distortion quantification. We validate our approach with synthetic data, varying distance metrics, and real-world wells from the Duvernay Formation. Results confirm our method's efficacy in achieving consistent LDS representations. Furthermore, our proposed "stress ratio" (SR) metric provides insight into uncertainty, beneficial for model adjustments and inferential analysis. Consequently, our workflow promises enhanced repeatability and comparability in NDR for subsurface energy resource engineering and associated big data workflows.
翻訳日:2024-02-28 00:40:21 公開日:2024-02-23
# 粒子物理学のための説明可能な同変ニューラルネットワーク:PELICAN

Explainable Equivariant Neural Networks for Particle Physics: PELICAN ( http://arxiv.org/abs/2307.16506v4 )

ライセンス: Link先を確認
Alexander Bogatskiy, Timothy Hoffman, David W. Miller, Jan T. Offermann, Xiaoyang Liu(参考訳) permutation equivariant and lorentz invariant or covariant aggregator network(ペリカン)は、素粒子物理学問題に適用されるアーキテクチャで見られる共通の制限を克服するために設計された、新しい置換同変および共変アグリゲータネットワークである。 基礎となる物理原理を無視し、非常に多くのパラメータを必要とする非特殊化アーキテクチャを使用する多くのアプローチと比較して、PELICANは、複雑性の低減、解釈可能性の向上、生のパフォーマンスの面でのメリットを示す、根本的に対称なグループベースのアーキテクチャを採用している。 本稿では,ローレンツ型トップクォークのタグ付け(分類)と再構成(回帰)の両面においてPELICANアルゴリズムアーキテクチャを包括的に研究し,ローレンツ型トップクォークの最終状態の密集した環境の中で,$W$ボソンを特定・測定することが困難であることを示す。 また,クォーク開始時とクォーク開始時を識別するタスクへのPELICANの適用も拡張する。 ~グルーオン開始ジェットと、ジェットの5つの異なるカテゴリーにまたがるマルチクラス同定。 Lorentz-boosted top-quarkタグの標準的なタスクでテストすると、PELICANは既存の競合製品よりもはるかに低いモデル複雑さと高いサンプル効率で性能を向上する。 4モーメント回帰のより一般的で複雑なタスクでは、PELICANは手作りの非機械学習アルゴリズムよりも優れている。 物理分野における機械学習の幅広い分野における対称性制限アーキテクチャの意義について論じる。

PELICAN is a novel permutation equivariant and Lorentz invariant or covariant aggregator network designed to overcome common limitations found in architectures applied to particle physics problems. Compared to many approaches that use non-specialized architectures that neglect underlying physics principles and require very large numbers of parameters, PELICAN employs a fundamentally symmetry group-based architecture that demonstrates benefits in terms of reduced complexity, increased interpretability, and raw performance. We present a comprehensive study of the PELICAN algorithm architecture in the context of both tagging (classification) and reconstructing (regression) Lorentz-boosted top quarks, including the difficult task of specifically identifying and measuring the $W$-boson inside the dense environment of the Lorentz-boosted top-quark hadronic final state. We also extend the application of PELICAN to the tasks of identifying quark-initiated vs.~gluon-initiated jets, and a multi-class identification across five separate target categories of jets. When tested on the standard task of Lorentz-boosted top-quark tagging, PELICAN outperforms existing competitors with much lower model complexity and high sample efficiency. On the less common and more complex task of 4-momentum regression, PELICAN also outperforms hand-crafted, non-machine learning algorithms. We discuss the implications of symmetry-restricted architectures for the wider field of machine learning for physics.
翻訳日:2024-02-28 00:39:27 公開日:2024-02-23
# グラフニューラルネットワークのパワーと活性化関数の役割について

On the power of graph neural networks and the role of the activation function ( http://arxiv.org/abs/2307.04661v3 )

ライセンス: Link先を確認
Sammy Khalife, Amitabh Basu(参考訳) 本稿では,グラフニューラルネットワーク(gnns)の表現性に関する新たな結果について述べる。 グラフの入力サイズでアーキテクチャサイズが増大しない部分的な多項式活性化を持つ任意のgnnに対して、gnnが任意の回数の反復までルート頂点を識別できないような深さ2の非同型根木が一対存在することを証明した。 この証明は対称多項式の代数からのツールに依存する。 対照的に、分割多項式アクティベーションを持つ非有界gnn(そのサイズはグラフサイズで変更できる)は、2回の反復でこれらの頂点を区別できることが既に知られていた。 この結果は,[Grohe, 2021]で定式化されたオープンな質問に答え, 有界サイズと非有界サイズのGNNの厳密な分離を示唆する。 次に、分割多項式でない活性化を許容すると、2つの反復で1つのニューロンパーセプトロンが深さ2の任意の非同型な木の根頂点を区別できることを証明する(我々の結果は、sgmoid、双曲的tanなどの活性化をも持つ)。 これは、ニューラルネットワークのアクティベーション関数を変更すると、グラフニューラルネットワークのパワーが劇的に変化することを示している。 この結果の証明は超越数論のリンデマン・ヴァイエルシュトラウスの定理を用いている。

In this article we present new results about the expressivity of Graph Neural Networks (GNNs). We prove that for any GNN with piecewise polynomial activations, whose architecture size does not grow with the graph input sizes, there exists a pair of non-isomorphic rooted trees of depth two such that the GNN cannot distinguish their root vertex up to an arbitrary number of iterations. The proof relies on tools from the algebra of symmetric polynomials. In contrast, it was already known that unbounded GNNs (those whose size is allowed to change with the graph sizes) with piecewise polynomial activations can distinguish these vertices in only two iterations. Our results imply a strict separation between bounded and unbounded size GNNs, answering an open question formulated by [Grohe, 2021]. We next prove that if one allows activations that are not piecewise polynomial, then in two iterations a single neuron perceptron can distinguish the root vertices of any pair of nonisomorphic trees of depth two (our results hold for activations like the sigmoid, hyperbolic tan and others). This shows how the power of graph neural networks can change drastically if one changes the activation function of the neural networks. The proof of this result utilizes the Lindemann-Weierstrauss theorem from transcendental number theory.
翻訳日:2024-02-28 00:37:51 公開日:2024-02-23
# pano-nerf: 低ダイナミックレンジパノラマ画像からの幾何による高ダイナミックレンジ新規ビューの合成

Pano-NeRF: Synthesizing High Dynamic Range Novel Views with Geometry from Sparse Low Dynamic Range Panoramic Images ( http://arxiv.org/abs/2312.15942v2 )

ライセンス: Link先を確認
Zhan Lu, Qian Zheng, Boxin Shi, Xudong Jiang(参考訳) パノラマ画像による幾何回復と高ダイナミックレンジ(HDR)再構成の研究は、拡張現実感(XR)の発展とともにトレンドとなる。 Neural Radiance Fields (NeRF)は、広範囲の事前データを必要とせずに、両方のタスクに有望なシーン表現を提供する。 しかし、スパース低ダイナミックレンジ(LDR)パノラマ画像の入力の場合、NeRFはしばしば非拘束形状で劣化し、LDR入力からHDR放射率を再構成することができない。 パノラマ画像中の各画素からの放射を、シーン照明情報を伝える信号と、他の画素を照らす光源の両方としてモデル化することができる。 そこで本研究では, 忠実な幾何復元のための観測回数を増加させ, HDR再構成のための照度減衰を利用したスパースLDRパノラマ画像からの照度場を提案する。 広汎な実験により、照射場は幾何復元とHDR再構成の両方において最先端の手法より優れ、その効果が検証された。 さらに,空間変動照明推定の有望な副産物を示す。 コードはhttps://github.com/Lu-Zhan/Pano-NeRFで公開されている。

Panoramic imaging research on geometry recovery and High Dynamic Range (HDR) reconstruction becomes a trend with the development of Extended Reality (XR). Neural Radiance Fields (NeRF) provide a promising scene representation for both tasks without requiring extensive prior data. However, in the case of inputting sparse Low Dynamic Range (LDR) panoramic images, NeRF often degrades with under-constrained geometry and is unable to reconstruct HDR radiance from LDR inputs. We observe that the radiance from each pixel in panoramic images can be modeled as both a signal to convey scene lighting information and a light source to illuminate other pixels. Hence, we propose the irradiance fields from sparse LDR panoramic images, which increases the observation counts for faithful geometry recovery and leverages the irradiance-radiance attenuation for HDR reconstruction. Extensive experiments demonstrate that the irradiance fields outperform state-of-the-art methods on both geometry recovery and HDR reconstruction and validate their effectiveness. Furthermore, we show a promising byproduct of spatially-varying lighting estimation. The code is available at https://github.com/Lu-Zhan/Pano-NeRF.
翻訳日:2024-02-28 00:21:00 公開日:2024-02-23
# 移動ナノ粒子の存在下での電磁界量子化

Electromagnetic field quantization in the presence of a moving nano-particle ( http://arxiv.org/abs/2311.18089v3 )

ライセンス: Link先を確認
Vahid Ameri, Alidad Askari, Morteza Rafiee, Mohammad Eghbali-Arani(参考訳) 運動するナノ粒子を半無限空間に含む系に適切なラグランジアンを考慮し、電磁場と物質場を定量化する。 吸収された電力放射の解析により、高速ナノ粒子が経験する量子摩擦は、ナノ粒子の放射能の散逸項として同定できることを示した。 移動ナノ粒子の吸収エネルギー放射を誘導し、静電粒子の吸収エネルギー放射と比較する。 2つの異なる温度シナリオを考慮し、運動するナノ粒子の吸収されたパワー放射が常に負の項を含むことが明確に示され、これは非接触量子摩擦によるパワー損失によるものである。

An appropriate Lagrangian is considered for a system comprising a moving nanoparticle in a semi-infinite space, and the electromagnetic and matter fields are quantized. Through an analysis of the absorbed power radiation, it is demonstrated that the quantum friction experienced by high-velocity nanoparticles can be identified as a dissipative term in the radiation power of the nanoparticle. The absorbed power radiation for a moving nanoparticle is derived and compared with that of a static one. By considering two different temperature scenarios, it is explicitly shown that the absorbed power radiation for a moving nanoparticle always contains a negative term in its power spectrum, which can be attributed to the power lost due to non-contact quantum friction.
翻訳日:2024-02-28 00:19:30 公開日:2024-02-23
# 格子ゲージ理論テンソルネットワークにおける絡み合いと閉じ込め

Entanglement and confinement in lattice gauge theory tensor networks ( http://arxiv.org/abs/2401.01930v2 )

ライセンス: Link先を確認
Johannes Knaute, Matan Feuerstein and Erez Zohar(参考訳) 任意の(すなわち、アーベルおよび非アーベル)純格子ゲージ理論における r\'enyi の絡み合いエントロピーを計算するための転送作用素のアプローチを開発し、2+1次元で絡み合う対状態を投影する。 これらの量の長距離挙動が熱力学限界と連続体の両方における絡み合い領域の法則をいかに引き起こすかを明確に示している。 本手法を$z_2$格子ゲージ理論に適用し, 絡み合い特性と閉じ込め-拘束遷移との関係を数値的に示す。 我々は、R'enyi 絡み合いエントロピーが、ウィルソンループ期待値と他の真の(非局所的な)可観測値とを比べて、(de)畳み込み特性の完全なプローブを提供していないことを示す。

We develop a transfer operator approach for the calculation of R\'enyi entanglement entropies in arbitrary (i.e. Abelian and non-Abelian) pure lattice gauge theory projected entangled pair states in 2+1 dimensions. It is explicitly shown how the long-range behavior of these quantities gives rise to an entanglement area law in both the thermodynamic limit and in the continuum. We numerically demonstrate the applicability of our method to the $Z_2$ lattice gauge theory and relate some entanglement properties to the confinement-deconfinement transition therein. We provide evidence that R\'enyi entanglement entropies in certain cases do not provide a complete probe of (de)confinement properties compared to Wilson loop expectation values as other genuine (nonlocal) observables.
翻訳日:2024-02-28 00:08:20 公開日:2024-02-23
# 集積フォトニクスQCCDデバイスにおけるマルチゾーンイオン量子ビット制御

Multi-zone trapped-ion qubit control in an integrated photonics QCCD device ( http://arxiv.org/abs/2401.18056v2 )

ライセンス: Link先を確認
Carmelo Mordini, Alfredo Ricci Vasquez, Yuto Motohashi, Mose M\"uller, Maciej Malinowski, Chi Zhang, Karan K. Mehta, Daniel Kienzler, Jonathan P. Home(参考訳) 大規模アーキテクチャでは、多重化操作と複数のトラップサイトに対するコヒーレント制御がトラップイオンプロセッサの基本要件である。 本稿では,より多数のゾーンに拡張可能なフォトニックコンポーネントを組み込んだ表面電極トラップを用いて,これらのビルディングブロックを実演する。 375$\mu$mで分離し、パルス間の200$\mu$sで一方のゾーンからもう一方のゾーンへイオンを輸送するラムゼー系列を実装した。 輸送中の低運動励起を実現するために, イオンへの集積光を照射する誘電体表面の効果を測定し, 緩和する手法を開発した。 また,低光クロストーク領域における2つのイオンの同時制御を実証し,これを用いて2つの部位間の場雑音の相関化を行う。 本研究は, 集積型フォトニックイオントラップシステムにおける最初のトランスポートおよびコヒーレントマルチゾーン操作を示し, トラップ型qccdアーキテクチャのさらなるスケーリングの基礎を築いた。

Multiplexed operations and extended coherent control over multiple trapping sites are fundamental requirements for a trapped-ion processor in a large scale architecture. Here we demonstrate these building blocks using a surface electrode trap with integrated photonic components which are scalable to larger numbers of zones. We implement a Ramsey sequence using the integrated light in two zones, separated by 375 $\mu$m, performing transport of the ion from one zone to the other in 200 $\mu$s between pulses. In order to achieve low motional excitation during transport we developed techniques to measure and mitigate the effect of the exposed dielectric surfaces used to deliver the integrated light to the ion. We also demonstrate simultaneous control of two ions in separate zones with low optical crosstalk, and use this to perform simultaneous spectroscopy to correlate field noise between the two sites. Our work demonstrates the first transport and coherent multi-zone operations in integrated photonic ion trap systems, forming the basis for further scaling in the trapped-ion QCCD architecture.
翻訳日:2024-02-27 23:57:32 公開日:2024-02-23
# ダイナミックゲームにおけるデータ駆動プライオリティのブレンディング

Blending Data-Driven Priors in Dynamic Games ( http://arxiv.org/abs/2402.14174v2 )

ライセンス: Link先を確認
Justin Lidard, Haimin Hu, Asher Hancock, Zixu Zhang, Albert Gim\'o Contreras, Vikash Modi, Jonathan DeCastro, Deepak Gopinath, Guy Rosman, Naomi Leonard, Mar\'ia Santos, Jaime Fern\'andez Fisac(参考訳) 自動運転車のようなインテリジェントなロボットが、人々の存在下でますます展開されるようになるにつれ、これらのシステムがモデルベースのゲーム理論プランナーとデータ駆動のポリシーを、安全で対話性のあるモーションプランニングのために活用すべき範囲は、まだ未解決の問題だ。 既存の動的ゲーム定式化は、全てのエージェントがタスク駆動であり、最適に振る舞うと仮定する。 しかし、実際には、人間はこれらのモデルによって規定される決定から逸脱しがちであり、その振る舞いはノイズレーショナルパラダイムの下でよりよく近似される。 本研究では,データ駆動参照ポリシーと最適化に基づくゲーム理論ポリシーを融合する原理的手法について検討する。 kullback-leibler (kl) 正規化を伴う非協力型ダイナミックゲームの一種である klgame を一般, 確率的, 多様参照ポリシーとして定式化する。 本手法は,各意思決定者に対して,タスク駆動行動とデータ駆動行動の変調を可能にする可変パラメータを組み込む。 我々は,KLGameのNash平衡戦略をリアルタイムに計算する効率的なアルゴリズムを提案する。 シミュレーションおよび実世界の自律運転シナリオを通じて、KLGameポリシーは基準ポリシーからのガイダンスをより効果的に取り入れ、非正規化ベースラインよりもノイズの多い人間の振る舞いを説明できることを示した。

As intelligent robots like autonomous vehicles become increasingly deployed in the presence of people, the extent to which these systems should leverage model-based game-theoretic planners versus data-driven policies for safe, interaction-aware motion planning remains an open question. Existing dynamic game formulations assume all agents are task-driven and behave optimally. However, in reality, humans tend to deviate from the decisions prescribed by these models, and their behavior is better approximated under a noisy-rational paradigm. In this work, we investigate a principled methodology to blend a data-driven reference policy with an optimization-based game-theoretic policy. We formulate KLGame, a type of non-cooperative dynamic game with Kullback-Leibler (KL) regularization with respect to a general, stochastic, and possibly multi-modal reference policy. Our method incorporates, for each decision maker, a tunable parameter that permits modulation between task-driven and data-driven behaviors. We propose an efficient algorithm for computing multimodal approximate feedback Nash equilibrium strategies of KLGame in real time. Through a series of simulated and real-world autonomous driving scenarios, we demonstrate that KLGame policies can more effectively incorporate guidance from the reference policy and account for noisily-rational human behaviors versus non-regularized baselines.
翻訳日:2024-02-27 23:52:46 公開日:2024-02-23
# 現実から論理へ: 生データから計画のための象徴的な語彙、行動、モデルを創出する

From Reals to Logic and Back: Inventing Symbolic Vocabularies, Actions, and Models for Planning from Raw Data ( http://arxiv.org/abs/2402.11871v3 )

ライセンス: Link先を確認
Naman Shah, Jayesh Nagpal, Pulkit Verma, Siddharth Srivastava(参考訳) 手作りの論理的状態と行動表現は、タスクや動作計画問題を含む長い水平ロボット計画問題の難解な計算複雑性を克服するために広く用いられている。 しかし、そのような表現を作成するには、ロボットに関する強い直感と詳細な知識を持つ専門家と、特定の環境で達成すべきタスクが必要である。 この人間の直感への依存を取り除くことは、非常に活発な研究分野である。 本稿では,無意味な高次元実数値ロボット軌道から始まる抽象状態と行動に対する論理的関係表現を自律的に学習する最初のアプローチを提案する。 学習された表現は、pddlライクなドメインモデルを構成する。 決定論的設定における経験的な結果は、強力な抽象表現は、ほんの一握りのロボットの軌跡から学べることを示し、学習された関係表現は、古典的な直感的なハイレベルなアクションの概念を含まないこと、そして学習されたモデルは、これまで手作りの抽象化なしで計画のスコープを超えたタスクに計画アルゴリズムをスケールすることを可能にする。

Hand-crafted, logic-based state and action representations have been widely used to overcome the intractable computational complexity of long-horizon robot planning problems, including task and motion planning problems. However, creating such representations requires experts with strong intuitions and detailed knowledge about the robot and the tasks it may need to accomplish in a given setting. Removing this dependency on human intuition is a highly active research area. This paper presents the first approach for autonomously learning generalizable, logic-based relational representations for abstract states and actions starting from unannotated high-dimensional, real-valued robot trajectories. The learned representations constitute auto-invented PDDL-like domain models. Empirical results in deterministic settings show that powerful abstract representations can be learned from just a handful of robot trajectories; the learned relational representations include but go beyond classical, intuitive notions of high-level actions; and that the learned models allow planning algorithms to scale to tasks that were previously beyond the scope of planning without hand-crafted abstractions.
翻訳日:2024-02-27 23:50:39 公開日:2024-02-23
# ディープラーニング潜在特徴空間の安定性の評価

Evaluating the Stability of Deep Learning Latent Feature Spaces ( http://arxiv.org/abs/2402.11404v2 )

ライセンス: Link先を確認
Ademide O. Mabadeje and Michael J. Pyrcz(参考訳) 高次元データセットは、様々な分野にわたる統計的モデリングにおいて重要な課題を示し、効果的な次元削減法を必要とする。 深層学習のアプローチは、複雑なデータから本質的な特徴を抽出し、モデリング、可視化、空間の縮小による圧縮を促進する能力で有名であり、バイオインフォマティクスから地球科学まで幅広い応用がある。 本研究では、これらの潜在空間の安定性を評価し、その後の解析における一貫性と信頼性を保証する新しいワークフローを提案する。 最小データへの潜在空間の不変性、訓練実現、パラメータ摂動といった安定性は重要であり、しばしば見過ごされる。 提案手法は, 3種類の安定型, サンプル, 構造, 推論を潜在空間内に記述し, 包括的評価のための一連の指標を導入する。 私たちはこのワークフローを500のオートエンコーダ実現と3つのデータセットにまたがって実装します。 k-平均クラスタリングと改良されたJonker-Volgenantアルゴリズムを用いて、異方性測定と凸殻解析を行い、新しい安定性指標として調整応力とジャカードの相似性を導入する。 本研究は潜在機能空間における本質的不安定性を強調し,これらの不安定性を定量化し解釈するワークフローの有効性を示す。 この研究は潜在機能空間の理解を促進し、深層学習を活用した多様な分析ワークフローのためのより深い意思決定のためのモデル解釈可能性の向上と品質管理を促進する。

High-dimensional datasets present substantial challenges in statistical modeling across various disciplines, necessitating effective dimensionality reduction methods. Deep learning approaches, notable for their capacity to distill essential features from complex data, facilitate modeling, visualization, and compression through reduced dimensionality latent feature spaces, have wide applications from bioinformatics to earth sciences. This study introduces a novel workflow to evaluate the stability of these latent spaces, ensuring consistency and reliability in subsequent analyses. Stability, defined as the invariance of latent spaces to minor data, training realizations, and parameter perturbations, is crucial yet often overlooked. Our proposed methodology delineates three stability types, sample, structural, and inferential, within latent spaces, and introduces a suite of metrics for comprehensive evaluation. We implement this workflow across 500 autoencoder realizations and three datasets, encompassing both synthetic and real-world scenarios to explain latent space dynamics. Employing k-means clustering and the modified Jonker-Volgenant algorithm for class alignment, alongside anisotropy metrics and convex hull analysis, we introduce adjusted stress and Jaccard dissimilarity as novel stability indicators. Our findings highlight inherent instabilities in latent feature spaces and demonstrate the workflow's efficacy in quantifying and interpreting these instabilities. This work advances the understanding of latent feature spaces, promoting improved model interpretability and quality control for more informed decision-making for diverse analytical workflows that leverage deep learning.
翻訳日:2024-02-27 23:49:28 公開日:2024-02-23
# FSSD:Feature Fusion Single Shot Multibox Detector

FSSD: Feature Fusion Single Shot Multibox Detector ( http://arxiv.org/abs/1712.00960v4 )

ライセンス: Link先を確認
Zuoxin Li, Lu Yang and Fuqiang Zhou(参考訳) ssd(single shot multibox detector)は、高精度と高速の両方のオブジェクト検出アルゴリズムの1つである。 しかし、SSDの特徴ピラミッド検出方法は、異なるスケールの機能を融合させることが難しい。 本稿では,FSSD(Feature Fusion Single Shot Multibox Detector)を提案する。FSSD(Feature Fusion Single Shot Multibox Detector)は,軽量な機能融合モジュールを備えた拡張SSDである。 機能融合モジュールでは、異なるスケールの異なるレイヤからの特徴が結合され、続いていくつかのダウンサンプリングブロックが新しい特徴ピラミッドを生成し、最終検出結果を予測するためにマルチボックス検出器に供給される。 Pascal VOC 2007テストでは,1つのNvidia 1080Ti GPUを使用して,入力サイズ300$\times$300の65.8 FPS(フレーム毎秒)で82.7 mAP(平均精度)を達成した。 さらに、cocoの成果は、従来のssdよりも大きなマージンで良いのです。 fssdは精度と速度の両面で最先端の物体検出アルゴリズムを多く上回っている。 コードはhttps://github.com/lzx1413/CAFFE_SSD/tree/fssdで入手できる。

SSD (Single Shot Multibox Detector) is one of the best object detection algorithms with both high accuracy and fast speed. However, SSD's feature pyramid detection method makes it hard to fuse the features from different scales. In this paper, we proposed FSSD (Feature Fusion Single Shot Multibox Detector), an enhanced SSD with a novel and lightweight feature fusion module which can improve the performance significantly over SSD with just a little speed drop. In the feature fusion module, features from different layers with different scales are concatenated together, followed by some down-sampling blocks to generate new feature pyramid, which will be fed to multibox detectors to predict the final detection results. On the Pascal VOC 2007 test, our network can achieve 82.7 mAP (mean average precision) at the speed of 65.8 FPS (frame per second) with the input size 300$\times$300 using a single Nvidia 1080Ti GPU. In addition, our result on COCO is also better than the conventional SSD with a large margin. Our FSSD outperforms a lot of state-of-the-art object detection algorithms in both aspects of accuracy and speed. Code is available at https://github.com/lzx1413/CAFFE_SSD/tree/fssd.
翻訳日:2024-02-27 21:57:53 公開日:2024-02-23
# PIXAR:Pixel空間における自動回帰言語モデリング

PIXAR: Auto-Regressive Language Modeling in Pixel Space ( http://arxiv.org/abs/2401.03321v2 )

ライセンス: Link先を確認
Yintao Tai, Xiyang Liao, Alessandro Suglia, Antonio Vergari(参考訳) 最近の研究は、ピクセル表現を直接操作するオープン語彙大言語モデル(LLM)を構築する可能性を示した。 これらのモデルは、レンダリングされたテキストのマスクされたパッチを再構成するオートエンコーダとして実装されている。 しかし、これらのピクセルベースのLCMは識別タスク(例えば分類)に限定されており、BERTと同様、テキストを生成するには使用できない。 したがって、自由形式の質問応答のような生成タスクには使用できない。 本研究では,テキスト生成を行う最初のピクセルベースの自動回帰LDMであるPIXARを紹介する。 デコーダのみで構成されたPIXARは、以前のエンコーダ・デコーダモデルと同等のパラメータ数を保ちながら、自由形式の生成タスクを実行できる。 さらに,非ノイズ画像としてテキストを生成する際の課題を強調し,この課題が最大ラピッド目的の使用によるものであることを示す。 この問題を解決するために、LAMBADAでは8.1、bAbIでは8.5のPIXARの可読性と精度を改善し、テキスト生成タスクではGPT-2に匹敵する逆事前学習ステージを提案する。 これにより、知覚入力のみで動作するオープン語彙 LLM を構築し、通常の記号入力表現の必要性、すなわちテキストを (sub) トークンとして問うことができる。

Recent work showed the possibility of building open-vocabulary large language models (LLMs) that directly operate on pixel representations. These models are implemented as autoencoders that reconstruct masked patches of rendered text. However, these pixel-based LLMs are limited to discriminative tasks (e.g., classification) and, similar to BERT, cannot be used to generate text. Therefore, they cannot be used for generative tasks such as free-form question answering. In this work, we introduce PIXAR, the first pixel-based autoregressive LLM that performs text generation. Consisting of only a decoder, PIXAR can perform free-form generative tasks while keeping the number of parameters on par with previous encoder-decoder models. Furthermore, we highlight the challenges of generating text as non-noisy images and show this is due to using a maximum likelihood objective. To overcome this problem, we propose an adversarial pretraining stage that improves the readability and accuracy of PIXAR by 8.1 on LAMBADA and 8.5 on bAbI -- making it comparable to GPT-2 on text generation tasks. This paves the way to build open-vocabulary LLMs that operate on perceptual input only and calls into question the necessity of the usual symbolic input representation, i.e., text as (sub)tokens.
翻訳日:2024-02-27 21:41:21 公開日:2024-02-23
# ge'ez言語の機械翻訳

Machine Translation for Ge'ez Language ( http://arxiv.org/abs/2311.14530v2 )

ライセンス: Link先を確認
Aman Kassahun Wassie(参考訳) もはやコミュニティのネイティブ言語ではない古代言語であるGe'ezのような低リソース言語のための機械翻訳(MT)は、語彙外単語、ドメインミスマッチ、十分なラベル付きトレーニングデータの欠如といった課題に直面している。 本研究では,関連言語からの移動学習,共有語彙とトークンセグメンテーションアプローチの最適化,大規模事前学習モデルの微調整,ファジィマッチングを用いた数ショット翻訳のための大規模言語モデル(LLM)など,ゲエズMTを改善するための様々な手法を検討する。 本研究では,言語関係に基づく多言語ニューラルマシン翻訳(mnmt)モデルを開発し,従来のバイリンガルモデルと比較して約4 bleuの性能向上を実現する。 我々はまた、現在利用可能な最も先進的な翻訳モデルの1つであるnllb-200モデルを微調整しようとしているが、ge'ezの4kトレーニングサンプルだけではうまく機能しないことがわかった。 さらに, ファジィマッチングを用いた数ショット翻訳において, GPT-3.5を用いて並列コーパスからコンテキスト例を見つけることを試みた。 GPT-3.5 は Ge'ez の初歩的な知識を持たない 9.2 の BLEU スコアを達成するが, MNMT の基準値 15.2 よりは低い。 我々の研究は、低リソースおよび古代言語MTに対する様々なアプローチの可能性と限界についての洞察を提供する。

Machine translation (MT) for low-resource languages such as Ge'ez, an ancient language that is no longer the native language of any community, faces challenges such as out-of-vocabulary words, domain mismatches, and lack of sufficient labeled training data. In this work, we explore various methods to improve Ge'ez MT, including transfer-learning from related languages, optimizing shared vocabulary and token segmentation approaches, finetuning large pre-trained models, and using large language models (LLMs) for few-shot translation with fuzzy matches. We develop a multilingual neural machine translation (MNMT) model based on languages relatedness, which brings an average performance improvement of about 4 BLEU compared to standard bilingual models. We also attempt to finetune the NLLB-200 model, one of the most advanced translation models available today, but find that it performs poorly with only 4k training samples for Ge'ez. Furthermore, we experiment with using GPT-3.5, a state-of-the-art LLM, for few-shot translation with fuzzy matches, which leverages embedding similarity-based retrieval to find context examples from a parallel corpus. We observe that GPT-3.5 achieves a remarkable BLEU score of 9.2 with no initial knowledge of Ge'ez, but still lower than the MNMT baseline of 15.2. Our work provides insights into the potential and limitations of different approaches for low-resource and ancient language MT.
翻訳日:2024-02-27 21:40:58 公開日:2024-02-23
# 不正確な勾配をもつランジュバンモンテカルロのユーザフレンドリーな保証

User-friendly guarantees for the Langevin Monte Carlo with inaccurate gradient ( http://arxiv.org/abs/1710.00095v4 )

ライセンス: Link先を確認
Arnak S. Dalalyan and Avetik G. Karagulyan(参考訳) 本稿では,スムーズかつ強い対数対数を持つことが知られている確率密度関数からサンプリングする問題について検討する。 我々は,(過大な)ランゲヴィン拡散の離散化に基づく近似サンプリングのいくつかの手法を解析し,ワッサーシュタイン2距離で測定された誤差の保証を確立する。 我々の保証は、最先端の結果を3方向に改善または拡張します。 まず、最適化されたステップサイズを持つ一階Langevin Monte Carlo(LMC)アルゴリズムの誤差について上限を与える。 この結果は地平線自由である(目標精度を事前に知る必要はない)ことと、対数係数によって一定のステップサイズに対する対応する結果を改善するという利点がある。 第2に, 対数密度の勾配の正確な評価ができない場合について検討するが, 上記の勾配の近似値へのアクセスは可能である。 このような状況下では、勾配の決定論的および確率的近似を考慮し、勾配評価の不正確性の影響を定量化する一階lccのサンプリング誤差の上界を与える。 第3に、ログ密度のヘシアンを利用する2階LCCの2つのバージョンに対する上限を確立する。 これらの2次lmcのサンプリング誤差に対する非漸近的保証を提供する。 これらの保証により、2階LCCアルゴリズムは、条件の悪い環境での1階LCCを改善する。

In this paper, we study the problem of sampling from a given probability density function that is known to be smooth and strongly log-concave. We analyze several methods of approximate sampling based on discretizations of the (highly overdamped) Langevin diffusion and establish guarantees on its error measured in the Wasserstein-2 distance. Our guarantees improve or extend the state-of-the-art results in three directions. First, we provide an upper bound on the error of the first-order Langevin Monte Carlo (LMC) algorithm with optimized varying step-size. This result has the advantage of being horizon free (we do not need to know in advance the target precision) and to improve by a logarithmic factor the corresponding result for the constant step-size. Second, we study the case where accurate evaluations of the gradient of the log-density are unavailable, but one can have access to approximations of the aforementioned gradient. In such a situation, we consider both deterministic and stochastic approximations of the gradient and provide an upper bound on the sampling error of the first-order LMC that quantifies the impact of the gradient evaluation inaccuracies. Third, we establish upper bounds for two versions of the second-order LMC, which leverage the Hessian of the log-density. We provide nonasymptotic guarantees on the sampling error of these second-order LMCs. These guarantees reveal that the second-order LMC algorithms improve on the first-order LMC in ill-conditioned settings.
翻訳日:2024-02-27 19:52:26 公開日:2024-02-23
# 平滑化オンライン学習への応用による近似拒絶サンプリングのサンプル複雑性

The Sample Complexity of Approximate Rejection Sampling with Applications to Smoothed Online Learning ( http://arxiv.org/abs/2302.04658v3 )

ライセンス: Link先を確認
Adam Block and Yury Polyanskiy(参考訳) 分布$\mu$から$n$独立サンプルにアクセスでき、出力をターゲットディストリビューション$\nu$に可能な限り近いものにすることを目標に、その中の1つを出力したいとします。 この研究において、n$ の関数としての最適な全変動距離は、すべての対のクラスに対して$\nu,\mu$ で与えられ、有界な $f$-divergence $d_f(\nu\|\mu)\leq d$ が与えられる。 以前は、この問題は、$\mu$に対する$\nu$のラドン・ニコディム微分が一様有界である場合にのみ研究された。 次に、一見全く異なるスムーズなオンライン学習分野の応用を考えると、ミニマックスの後悔とオラクル効率アルゴリズムの後悔は、(ラドン-ニコディムの有界な微分とは対照的に、$f$-divergenceを有界とする)敵のゆるい制約の下でも保たれていることを示す。 最後に,関数クラス全体に対する平均推定値に対する重要サンプリングの有効性について検討し,また,重要サンプリングと拒絶サンプリングを比較した。

Suppose we are given access to $n$ independent samples from distribution $\mu$ and we wish to output one of them with the goal of making the output distributed as close as possible to a target distribution $\nu$. In this work we show that the optimal total variation distance as a function of $n$ is given by $\tilde\Theta(\frac{D}{f'(n)})$ over the class of all pairs $\nu,\mu$ with a bounded $f$-divergence $D_f(\nu\|\mu)\leq D$. Previously, this question was studied only for the case when the Radon-Nikodym derivative of $\nu$ with respect to $\mu$ is uniformly bounded. We then consider an application in the seemingly very different field of smoothed online learning, where we show that recent results on the minimax regret and the regret of oracle-efficient algorithms still hold even under relaxed constraints on the adversary (to have bounded $f$-divergence, as opposed to bounded Radon-Nikodym derivative). Finally, we also study efficacy of importance sampling for mean estimates uniform over a function class and compare importance sampling with rejection sampling.
翻訳日:2024-02-27 19:47:49 公開日:2024-02-23
# 大規模言語モデルにおける盲点:超言語的言語情報

A blind spot for large language models: Supradiegetic linguistic information ( http://arxiv.org/abs/2306.06794v2 )

ライセンス: Link先を確認
Julia Witte Zimmerman, Denis Hudon, Kathryn Cramer, Jonathan St. Onge, Mikaela Fudolig, Milo Z. Trujillo, Christopher M. Danforth, Peter Sheridan Dodds(参考訳) ChatGPTのような大きな言語モデル(LLM)は、人工知能の分野における大きな変化を反映しており、驚くべきことに、衝撃的にも人間らしく、言語的な流布を達成している。 彼らの現在の能力と潜在能力の範囲は、科学研究者に限らず活発な調査領域である。 LLMのトレーニングデータを「テキスト」あるいは「言語」としてフレーム化することは一般的である。 本稿では,言語学,具体的認知,認知科学,数学,歴史など,いくつかの分野の思想を用いて,この枠組みの詳細について検討する。 我々は,ChatGPTのようなLCMがどのようなものかを考えると,Nagel氏が言うように,言語訓練データへの露出は,言語に符号化されたダイジェティック情報への露出として生産的に再編成可能であり,その欠陥は,相補的言語情報を含む外的情報の無知として再編成可能であることを示唆する。 相補的言語情報は、ChatGPTのようなLLMがアクセス可能な文脈(頻度、隣接性、近接性、共起性)の1次元関係から導出できない物理的な言語の形の任意の側面で構成されている。 おおまかに言えば、単語のダイジェティック部分は、その機能、その意味を、単語の埋め込みにおける理論ベクトルの情報とみなすことができ、その単語の擬態的な部分は、その文字の形状や音節の音のような形として考えることができる。 これらの概念を用いて,ChatGPT などの LLM がパリンドロム処理に苦慮する理由,シンボルの視覚的特徴,シュメール・キュニフォームの翻訳,整数列の継続について検討する。

Large Language Models (LLMs) like ChatGPT reflect profound changes in the field of Artificial Intelligence, achieving a linguistic fluency that is impressively, even shockingly, human-like. The extent of their current and potential capabilities is an active area of investigation by no means limited to scientific researchers. It is common for people to frame the training data for LLMs as "text" or even "language". We examine the details of this framing using ideas from several areas, including linguistics, embodied cognition, cognitive science, mathematics, and history. We propose that considering what it is like to be an LLM like ChatGPT, as Nagel might have put it, can help us gain insight into its capabilities in general, and in particular, that its exposure to linguistic training data can be productively reframed as exposure to the diegetic information encoded in language, and its deficits can be reframed as ignorance of extradiegetic information, including supradiegetic linguistic information. Supradiegetic linguistic information consists of those arbitrary aspects of the physical form of language that are not derivable from the one-dimensional relations of context -- frequency, adjacency, proximity, co-occurrence -- that LLMs like ChatGPT have access to. Roughly speaking, the diegetic portion of a word can be thought of as its function, its meaning, as the information in a theoretical vector in a word embedding, while the supradiegetic portion of the word can be thought of as its form, like the shapes of its letters or the sounds of its syllables. We use these concepts to investigate why LLMs like ChatGPT have trouble handling palindromes, the visual characteristics of symbols, translating Sumerian cuneiform, and continuing integer sequences.
翻訳日:2024-02-27 19:39:36 公開日:2024-02-23
# トップKスパース・ソフトマックス・ゲーティング・ミックスの統計的展望

Statistical Perspective of Top-K Sparse Softmax Gating Mixture of Experts ( http://arxiv.org/abs/2309.13850v2 )

ライセンス: Link先を確認
Huy Nguyen, Pedram Akbarian, Fanqi Yan, Nhat Ho(参考訳) 計算コストを増大させることなく、大規模なディープラーニングアーキテクチャのスケールアップに広く使用されている。 現実世界の応用で人気があるにもかかわらず、そのゲーティング関数の理論的理解は未解決の問題のままである。 主な課題は、入力空間を異なる振る舞いを持つ複数の領域に分割するトップKスパース・ソフトマックスゲーティング関数の構造である。 専門家のガウス混合に焦点を合わせることにより、トップKスパース・ソフトマックスゲーティング関数が密度およびパラメータ推定に与える影響に関する理論的結果を確立する。 その結果,入力領域の異なる振る舞いを捉えるために,パラメータ間の新規な損失関数を定義した。 実数のエキスパート $k_{\ast}$ が知られている場合、密度とパラメータ推定の収束率の両方がサンプルサイズでパラメトリックであることを示す。 しかし、$k_{\ast}$が未知となり、真のモデルが$k$の専門家の混合によって過剰に特定されると、この結果から、上位Kスパースソフトマックスゲーティング関数から選択された専門家の数は、真のパラメータに関連するボロノイセルの総濃度を超えなければならず、密度推定の収束を保証することが示唆された。 さらに, この条件下では, 密度推定速度はパラメトリックのままであるが, ソフトマックスゲーティングとエキスパート関数の内在的相互作用により, パラメータ推定速度は著しく遅くなる。

Top-K sparse softmax gating mixture of experts has been widely used for scaling up massive deep-learning architectures without increasing the computational cost. Despite its popularity in real-world applications, the theoretical understanding of that gating function has remained an open problem. The main challenge comes from the structure of the top-K sparse softmax gating function, which partitions the input space into multiple regions with distinct behaviors. By focusing on a Gaussian mixture of experts, we establish theoretical results on the effects of the top-K sparse softmax gating function on both density and parameter estimations. Our results hinge upon defining novel loss functions among parameters to capture different behaviors of the input regions. When the true number of experts $k_{\ast}$ is known, we demonstrate that the convergence rates of density and parameter estimations are both parametric on the sample size. However, when $k_{\ast}$ becomes unknown and the true model is over-specified by a Gaussian mixture of $k$ experts where $k > k_{\ast}$, our findings suggest that the number of experts selected from the top-K sparse softmax gating function must exceed the total cardinality of a certain number of Voronoi cells associated with the true parameters to guarantee the convergence of the density estimation. Moreover, while the density estimation rate remains parametric under this setting, the parameter estimation rates become substantially slow due to an intrinsic interaction between the softmax gating and expert functions.
翻訳日:2024-02-27 19:18:35 公開日:2024-02-23
# ラウンドアラウンドで作動する自律・人間駆動車:定量的・質的評価

Autonomous and Human-Driven Vehicles Interacting in a Roundabout: A Quantitative and Qualitative Evaluation ( http://arxiv.org/abs/2309.08254v2 )

ライセンス: Link先を確認
Laura Ferrarotti, Massimiliano Luca, Gabriele Santin, Giorgio Previati, Gianpiero Mastinu, Massimiliano Gobbi, Elena Campi, Lorenzo Uccello, Antonino Albanese, Praveen Zalaya, Alessandro Roccasalva, Bruno Lepri(参考訳) 進化する交通環境での交通力学の最適化は、特に自律性レベルが異なる自動運転車(av)が人間駆動車と共存するシナリオにおいて重要である。 このようなシナリオに対する強化学習(rl)ポリシーの最適化がますます一般的になってきているが、そのようなトレーニングされたポリシーの現実的な評価についてはほとんど語られていない。 本稿では, 定量的, 定性的両面を考慮した, 人体運転者に対するAVの浸透効果の評価を行った。 特に,イタリア・ミラノのラウンドアバウンドにおいて,交通渋滞を最小化(シナリオを横断する時間を最小化)し,汚染を最小限にする政策を学ぶ。 実証分析により, AVs の存在が時間と汚染レベルを減少させることを示した。 さらに,最先端のコックピットを用いて学習方針を質的に評価し,実世界に近い条件下での性能を評価する。 政策の実用性と受容性を評価するため,交通のスムーズさや安全知覚などの指標に着目し,シミュレータを用いて人間と評価を行った。 一般的には、人間の運転する車両は、AVのダイナミクスを最適化する利点がある。 また、この研究の参加者は、80% avのシナリオは20%のシナリオよりも安全だと感じていることを強調している。 交通平滑度知覚についても同様の結果が得られた。

Optimizing traffic dynamics in an evolving transportation landscape is crucial, particularly in scenarios where autonomous vehicles (AVs) with varying levels of autonomy coexist with human-driven cars. While optimizing Reinforcement Learning (RL) policies for such scenarios is becoming more and more common, little has been said about realistic evaluations of such trained policies. This paper presents an evaluation of the effects of AVs penetration among human drivers in a roundabout scenario, considering both quantitative and qualitative aspects. In particular, we learn a policy to minimize traffic jams (i.e., minimize the time to cross the scenario) and to minimize pollution in a roundabout in Milan, Italy. Through empirical analysis, we demonstrate that the presence of AVs} can reduce time and pollution levels. Furthermore, we qualitatively evaluate the learned policy using a cutting-edge cockpit to assess its performance in near-real-world conditions. To gauge the practicality and acceptability of the policy, we conduct evaluations with human participants using the simulator, focusing on a range of metrics like traffic smoothness and safety perception. In general, our findings show that human-driven vehicles benefit from optimizing AVs dynamics. Also, participants in the study highlight that the scenario with 80% AVs is perceived as safer than the scenario with 20%. The same result is obtained for traffic smoothness perception.
翻訳日:2024-02-27 19:17:04 公開日:2024-02-23
# 大規模言語モデルに対するユーザ推論攻撃

User Inference Attacks on Large Language Models ( http://arxiv.org/abs/2310.09266v2 )

ライセンス: Link先を確認
Nikhil Kandpal, Krishna Pillutla, Alina Oprea, Peter Kairouz, Christopher A. Choquette-Choo, Zheng Xu(参考訳) 微調整は、特殊なタスクやアプリケーションに大規模言語モデル(llm)を調整するための一般的かつ効果的な方法である。 本稿では,ユーザデータに対する微調整LDMのプライバシーへの影響について検討する。 この目的のために,攻撃者がユーザのデータを微調整に使用しているかどうかを推測する,ユーザ推論と呼ばれる現実的な脅威モデルを検討する。 我々は、微調整LDMへのブラックボックスアクセスのみを必要とするユーザ推論と、微調整データセットから必要のないユーザからのサンプルを設計する。 LLMは、様々な微調整データセットのユーザ推論に影響を受けやすいが、攻撃成功率がほぼ完璧な場合もあります。 さらに,ユーザをユーザ推論に脆弱にする特性を理論的に実証的に検討し,外れたユーザ,実例間で識別可能な共有機能を持つユーザ,微調整データの大部分が攻撃の影響を受けやすいユーザなどについて検討した。 これらの結果から,サンプルレベルの差分プライバシによるトレーニング,ユーザ内重複例の削除,トレーニングデータへのユーザの貢献の低減など,ユーザ推論を緩和するいくつかの手法を同定した。 これらの技術はユーザ推論の一部を緩和するが、このプライバシーリスクに対して微調整LDMを完全に保護する手法を開発する必要性を強調している。

Fine-tuning is a common and effective method for tailoring large language models (LLMs) to specialized tasks and applications. In this paper, we study the privacy implications of fine-tuning LLMs on user data. To this end, we consider a realistic threat model, called user inference, wherein an attacker infers whether or not a user's data was used for fine-tuning. We design attacks for performing user inference that require only black-box access to the fine-tuned LLM and a few samples from a user which need not be from the fine-tuning dataset. We find that LLMs are susceptible to user inference across a variety of fine-tuning datasets, at times with near perfect attack success rates. Further, we theoretically and empirically investigate the properties that make users vulnerable to user inference, finding that outlier users, users with identifiable shared features between examples, and users that contribute a large fraction of the fine-tuning data are most susceptible to attack. Based on these findings, we identify several methods for mitigating user inference including training with example-level differential privacy, removing within-user duplicate examples, and reducing a user's contribution to the training data. While these techniques provide partial mitigation of user inference, we highlight the need to develop methods to fully protect fine-tuned LLMs against this privacy risk.
翻訳日:2024-02-27 19:09:17 公開日:2024-02-23
# 思考の多様性はLLMの推論能力を改善する

Diversity of Thought Improves Reasoning Abilities of LLMs ( http://arxiv.org/abs/2310.07088v2 )

ライセンス: Link先を確認
Ranjita Naik, Varun Chandrasekaran, Mert Yuksekgonul, Hamid Palangi, Besmira Nushi(参考訳) 大規模言語モデル(llm)は複雑な推論を必要とする設定で苦労するように文書化されている。 それでも、モデルを小さな推論ステップに分割するか、デコードステップを変更することで様々な世代をアンサンブルするように指示することで、パフォーマンスが向上する。 しかし、これらの手法は入力プロンプトが固定されていると仮定し、復号戦略がアンサンブルに必要な多様性を導入することを期待する。 本稿では,思考の多様性の手段として,入力プロンプトの多様性をいかに生み出すかについて議論する。 この問題に適応するアプローチを考案するために,LLMからのフィードバックを募り,迅速な多様性を自動改善する手法を提案する。 次に、複数の推論コールにまたがってDIVSE(DIVerse reasoning path Self-Ensemble)の多様なプロンプトをアンサンブルするか、あるいは1つの推論コールで多様なアプローチを使用するか、後者をIDIV-SE(In-call DIVerse reasoning path Self-Ensemble)と呼ぶ。 DIV-SE(特に)は、事前の作業より優れているアプローチとは別に、挑戦的な計画とグラフカラー化ベンチマークで最先端のパフォーマンスを向上します。 われわれの結果は、精度とコストのトレードオフのParetoフロンティアを改善した。

Large language models (LLMs) are documented to struggle in settings that require complex reasoning. Nevertheless, instructing the model to break down the problem into smaller reasoning steps, or ensembling various generations through modifying decoding steps boosts performance. However, these methods assume that the input prompt is fixed and expect the decoding strategies to introduce the diversity needed for ensembling. In this work, we discuss how one can create and leverage variations of the input prompt as a means of diversity of thought. We propose a method that automatically improves prompt diversity by soliciting feedback from the LLM to ideate approaches that are apt for the problem. We then ensemble the diverse prompts in our method DIVSE (DIVerse reasoning path Self-Ensemble) across multiple inference calls, or use diverse approaches within a single inference call; we call the latter IDIV-SE (In-call DIVerse reasoning path Self-Ensemble). Apart from our approaches outperforming prior work, DIV-SE(in particular) advances state-of-the-art performance on the challenging planning and graph coloring benchmarks. Our results improve the Pareto frontier of the accuracy-cost trade-off.
翻訳日:2024-02-27 19:08:35 公開日:2024-02-23
# 長期大言語モデルにおけるトランスフォーマーアーキテクチャの強化:包括的調査

Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey ( http://arxiv.org/abs/2311.12351v2 )

ライセンス: Link先を確認
Yunpeng Huang, Jingwei Xu, Junyu Lai, Zixu Jiang, Taolue Chen, Zenan Li, Yuan Yao, Xiaoxing Ma, Lijuan Yang, Hao Chen, Shupeng Li, Penghao Zhao(参考訳) トランスフォーマーベースの大規模言語モデル(LLM)は、知識ベース、ヒューマンインタフェース、動的エージェントなど様々な分野に適用され、人工知能(AGI)の実現に向けた一歩を踏み出した。 しかし、現在のLLMは主に短いテキストスニペットで事前訓練されており、現実的なシナリオで頻繁に遭遇する長文プロンプトの処理の有効性を損なう。 本稿では,トランスフォーマーに基づくLLMアーキテクチャの最近の進歩について,モデルライフサイクル全体を通じて,事前学習から推論まで,LLMの長期コンテキスト能力の向上を目的とした総合的な調査を行う。 我々はまず,現在の Transformer モデルを用いて,長文入力と出力を扱う際の問題を記述し,解析する。 次に、これらの問題を解決するためにTransformerアーキテクチャの分類とアップグレードの展望を提供する。 その後、データセット、メトリクス、ベースラインモデル、ライブラリ、フレームワーク、コンパイラなどの最適化ツールキットなど、ロングコンテキストllm用に調整された多用な評価の必要性について調査を行い、実行時のさまざまなステージにおけるllmの有効性を高める。 最後に,今後の研究の課題と可能性について論じる。 関連文献のキュレートされたリポジトリは、継続的に更新され、https://github.com/Strivin0311/long-llms-learningで入手できる。

Transformer-based Large Language Models (LLMs) have been applied in diverse areas such as knowledge bases, human interfaces, and dynamic agents, and marking a stride towards achieving Artificial General Intelligence (AGI). However, current LLMs are predominantly pretrained on short text snippets, which compromises their effectiveness in processing the long-context prompts that are frequently encountered in practical scenarios. This article offers a comprehensive survey of the recent advancement in Transformer-based LLM architectures aimed at enhancing the long-context capabilities of LLMs throughout the entire model lifecycle, from pre-training through to inference. We first delineate and analyze the problems of handling long-context input and output with the current Transformer-based models. We then provide a taxonomy and the landscape of upgrades on Transformer architecture to solve these problems. Afterwards, we provide an investigation on wildly used evaluation necessities tailored for long-context LLMs, including datasets, metrics, and baseline models, as well as optimization toolkits such as libraries, frameworks, and compilers to boost the efficacy of LLMs across different stages in runtime. Finally, we discuss the challenges and potential avenues for future research. A curated repository of relevant literature, continuously updated, is available at https://github.com/Strivin0311/long-llms-learning.
翻訳日:2024-02-27 18:59:49 公開日:2024-02-23
# マシンはどのように学習するか? AIcon2abs法の評価

How do machines learn? Evaluating the AIcon2abs method ( http://arxiv.org/abs/2401.07386v2 )

ライセンス: Link先を確認
Rubens Lacerda Queiroz, Cabral Lima, Fabio Ferrentini Sampaio, Priscila Machado Vieira Lima(参考訳) 本稿では,最近提案された機械学習に関する一般大衆の認識を可能にする手法である,コンクリートから抽象的なai(queiroz et al. 2021)を評価する。 これは、容易に理解できる機械学習メカニズムであるWiSARDを使用することで可能であり、ほとんど労力を要せず、ターゲットユーザからの技術的バックグラウンドも必要としない。 WiSARDはデジタルコンピューティングに忠実であり、トレーニングはRAMタイプのメモリへの書き込みから成り、分類はこれらのメモリからの読み込みから成り立っている。 このモデルにより、学習や分類タスクの内部実現を簡単に可視化し、理解することができる。 さらに、WiSARDモデルはトレーニングや分類にインターネット接続を必要としないため、いくつかの例から学ぶことができる。 WiSARDはこれまでに学んだことの「メンタルイメージ」を作成でき、特定のクラスに関連する重要な特徴を識別できる。 AIcon2abs法の有効性は,作業負荷が約6時間である遠隔コースの評価を通じて評価した。 8歳から11歳の子供5人、12歳から17歳の青年5人、21歳から72歳の成人24人であった。 収集したデータは2つの観点から分析された。 (i)(混合的方法の)事前実験の観点から、及び (ii)現象学的な観点から(定性的な性質の) AIcon2absは、研究対象者の約100%によって評価され、収集されたデータは、意図された結果に関して非常に満足な結果を示した。 この研究は、CEP/HUCFF/FM/UFRJ Human Research Ethics Committeeによって承認されている。

This paper evaluates AI from concrete to Abstract (Queiroz et al. 2021), a recently proposed method that enables awareness among the general public on machine learning. Such is possible due to the use of WiSARD, an easily understandable machine learning mechanism, thus requiring little effort and no technical background from the target users. WiSARD is adherent to digital computing; training consists of writing to RAM-type memories, and classification consists of reading from these memories. The model enables easy visualization and understanding of training and classification tasks' internal realization through ludic activities. Furthermore, the WiSARD model does not require an Internet connection for training and classification, and it can learn from a few or one example. WiSARD can also create "mental images" of what it has learned so far, evidencing key features pertaining to a given class. The AIcon2abs method's effectiveness was assessed through the evaluation of a remote course with a workload of approximately 6 hours. It was completed by thirty-four Brazilian subjects: 5 children between 8 and 11 years old; 5 adolescents between 12 and 17 years old; and 24 adults between 21 and 72 years old. The collected data was analyzed from two perspectives: (i) from the perspective of a pre-experiment (of a mixed methods nature) and (ii) from a phenomenological perspective (of a qualitative nature). AIcon2abs was well-rated by almost 100% of the research subjects, and the data collected revealed quite satisfactory results concerning the intended outcomes. This research has been approved by the CEP/HUCFF/FM/UFRJ Human Research Ethics Committee.
翻訳日:2024-02-27 18:51:09 公開日:2024-02-23
# 機械学習のためのクラウドとモバイルの融合

Combining Cloud and Mobile Computing for Machine Learning ( http://arxiv.org/abs/2402.04880v2 )

ライセンス: Link先を確認
Ruiqi Xu and Tianchi Zhang(参考訳) モバイルデバイスのコンピューティング能力は増大しているが、機械学習モデルのサイズも拡大している。 この傾向は、メモリ容量やバッテリー寿命などの制限により、モバイルデバイスに問題を引き起こす。 ChatGPTやMidjourneyといった多くのサービスがクラウド上ですべての推論を実行していますが、柔軟できめ細かいタスク分散の方が望ましいと考えています。 本研究では,データ転送を最小化しつつ,計算量の多いモデルをオフロードする方法で,モバイルデバイスとクラウド間の計算を分割し,ユーザエクスペリエンスを向上させるためのソリューションとしてモデルセグメンテーションを検討する。 この部門は、ユーザの待ち時間を短縮するだけでなく、クラウドのワークロードを最適化するために微調整することもできる。 そこで我々は,ネットワーク品質,クライアントデバイス能力,ジョブ要求に関する情報を収集するスケジューラを設計し,クラウドが実行すべき作業を減らすとともに,デバイス全体の一貫したパフォーマンスを実現するための意思決定を行う。

Although the computing power of mobile devices is increasing, machine learning models are also growing in size. This trend creates problems for mobile devices due to limitations like their memory capacity and battery life. While many services, like ChatGPT and Midjourney, run all the inferences in the cloud, we believe a flexible and fine-grained task distribution is more desirable. In this work, we consider model segmentation as a solution to improving the user experience, dividing the computation between mobile devices and the cloud in a way that offloads the compute-heavy portion of the model while minimizing the data transfer required. We show that the division not only reduces the wait time for users but can also be fine-tuned to optimize the workloads of the cloud. To achieve that, we design a scheduler that collects information about network quality, client device capability, and job requirements, making decisions to achieve consistent performance across a range of devices while reducing the work the cloud needs to perform.
翻訳日:2024-02-27 18:41:12 公開日:2024-02-23
# SelectLLM: LLMはアノテーションに重要な命令を選択できるか?

SelectLLM: Can LLMs Select Important Instructions to Annotate? ( http://arxiv.org/abs/2401.16553v3 )

ライセンス: Link先を確認
Ritik Sachin Parkar, Jaehyung Kim, Jong Inn Park, Dongyeop Kang(参考訳) 命令のチューニングは、大規模で多様なデータセットから得られるが、このようなデータセットの作成には、人間のラベル付けのコストがかかる。 大規模言語モデル(llm)によって生成された合成データセットは、この問題の一部を解決しているが、しばしば低品質のデータを含んでいる。 一つの効果的な解決策は、ラベルなしの命令を選択的にアノテートすることであり、特に様々なソースからラベルなしの命令やテキストを取得するのが比較的容易である。 しかし、特にLLMの文脈では、不正な命令をどうやって選択するかはよく研究されていない。 さらに、入力埋め込み空間密度に依存する従来のデータ選択手法は、命令サンプルの複雑さを過小評価する傾向があるが、モデル予測の不確実性に基づくものは、しばしば合成ラベルの品質に苦しむ。 そこで本稿では,ラベルなし命令をより効果的に選択するための LLM の機能を活用した代替フレームワーク SelectLLM を紹介する。 SelectLLMは2つの重要なステップで構成されている: コアセットベースのクラスタリング 多様性のための未実装の命令。 私たちの実験では、selectllmは命令チューニングベンチマークにおいて、他の最先端のメソッドにマッチするか、より優れています。 DollyデータでトレーニングされたクリーンなAlpacaテストセットの10%のパフォーマンス向上によって証明されたように、人間と合成データセット間の顕著な一貫性と、クロスデータセットの一般化が向上している。 すべてのコードとデータは公開されている(https://github.com/minnesotanlp/select-llm)。

Instruction tuning benefits from large and diverse datasets, however creating such datasets involves a high cost of human labeling. While synthetic datasets generated by large language models (LLMs) have partly solved this issue, they often contain low-quality data. One effective solution is selectively annotating unlabelled instructions, especially given the relative ease of acquiring unlabeled instructions or texts from various sources. However, how to select unlabelled instructions is not well-explored, especially in the context of LLMs. Further, traditional data selection methods, relying on input embedding space density, tend to underestimate instruction sample complexity, whereas those based on model prediction uncertainty often struggle with synthetic label quality. Therefore, we introduce SelectLLM, an alternative framework that leverages the capabilities of LLMs to more effectively select unlabeled instructions. SelectLLM consists of two key steps: Coreset-based clustering of unlabelled instructions for diversity and then prompting a LLM to identify the most beneficial instructions within each cluster. Our experiments demonstrate that SelectLLM matches or outperforms other state-of-the-art methods in instruction tuning benchmarks. It exhibits remarkable consistency across human and synthetic datasets, along with better cross-dataset generalization, as evidenced by a 10% performance improvement on the Cleaned Alpaca test set when trained on Dolly data. All code and data are publicly available (https://github.com/minnesotanlp/select-llm).
翻訳日:2024-02-27 18:37:59 公開日:2024-02-23
# 生成型カレイドスコープネットワーク

Generative Kaleidoscopic Networks ( http://arxiv.org/abs/2402.11793v2 )

ライセンス: Link先を確認
Harsh Shrivastava(参考訳) 我々は、ニューラルネットワーク、特に深部ReLUネットワークが「過剰一般化」現象を実証していることを発見した。 すなわち、トレーニング中に観測されなかった入力の出力値を、学習プロセス中に観測された出力範囲の近くにマッピングする。 言い換えれば、ニューラルネットワークは多対一のマッピングを学習し、この効果は、層数やニューラルネットワークの深さを増加させるにつれて顕著になる。 このニューラルネットの特性を利用して,「生成型カレイドスコープネットワーク」と呼ばれるデータセットカレイドスコープを設計する。 簡単に言えば、入力 $x\in\mathbb{R}^D$ からそれ自身 $f_\mathcal{N}(x)\rightarrow x$ への写像モデルを学ぶと、提案された 'Kaleidoscopic sample' 手順はランダムな入力ノイズ $z\in\mathbb{R}^D$ から始まり、再帰的に $f_\mathcal{N}(\cdots f_\mathcal{N}(z)\cdots )$ を適用できる。 燃焼期間を経過した後, 入力分布から試料を観察し, 回収した試料の質は, モデルの深さを増すにつれて向上する。 \textit{Scope}: 私たちは、CNN、Transformers、U-Netといった他のディープラーニングアーキテクチャに対して、この現象をさまざまな程度に観測しました。

We discovered that the neural networks, especially the deep ReLU networks, demonstrate an `over-generalization' phenomenon. That is, the output values for the inputs that were not seen during training are mapped close to the output range that were observed during the learning process. In other words, the neural networks learn a many-to-one mapping and this effect is more prominent as we increase the number of layers or the depth of the neural network. We utilize this property of neural networks to design a dataset kaleidoscope, termed as `Generative Kaleidoscopic Networks'. Briefly, if we learn a model to map from input $x\in\mathbb{R}^D$ to itself $f_\mathcal{N}(x)\rightarrow x$, the proposed `Kaleidoscopic sampling' procedure starts with a random input noise $z\in\mathbb{R}^D$ and recursively applies $f_\mathcal{N}(\cdots f_\mathcal{N}(z)\cdots )$. After a burn-in period duration, we start observing samples from the input distribution and the quality of samples recovered improves as we increase the depth of the model. \textit{Scope}: We observed this phenomenon to various degrees for the other deep learning architectures like CNNs, Transformers & U-Nets and we are currently investigating them further.
翻訳日:2024-02-27 18:33:42 公開日:2024-02-23
# ディープ・ネットワークが常に成長している理由

Deep Networks Always Grok and Here is Why ( http://arxiv.org/abs/2402.15555v1 )

ライセンス: Link先を確認
Ahmed Imtiaz Humayun, Randall Balestriero, Richard Baraniuk(参考訳) グロクキング(grokking)または遅延一般化(delayed generalization)は、深層ニューラルネットワーク(dnn)における一般化が、ほぼゼロのトレーニングエラーに到達してから長い時間後に発生する現象である。 以前の研究では、大きなノルムパラメータで初期化されたdnnやアルゴリズムデータセットでトレーニングされたトランスフォーマーなど、特定の制御された設定でグロキングが発生すると報告されている。 我々は、CIFAR10上の畳み込みニューラルネットワーク(CNN)のトレーニングやImagenette上のResnetなど、グルーキングが実際にはるかに広く、幅広い実践的な環境で実現されていることを実証した。 補間や一般化から長い年月を経て, DNN が敵の例をつかみ, 頑健になるような, 遅延ロバスト性の概念を導入する。 我々は,DNNの入出力マッピングの局所的複雑さの新しい尺度に基づいて,遅延一般化と遅延ロバスト性の両方の出現を解析的に説明する。 局所的な複雑性は,dnn入力空間をタイル化するいわゆる「線形領域(スプライン分割領域)」の密度を測定し,トレーニングのタイル進行指標として機能する。 分類問題に対する最初の証拠として,訓練中に線形領域が位相遷移を起こし,訓練サンプル(dnnマッピングをスムースにする)から判断境界(dnnマッピングのスムース化)へと移行した。 グロッキングは、トレーニングポイント周辺のDNNマッピングの線形化により、入力空間のロバストな分割が出現するにつれて相転移が起こる。 ウェブサイト:https://bit.ly/grok-adversarial

Grokking, or delayed generalization, is a phenomenon where generalization in a deep neural network (DNN) occurs long after achieving near zero training error. Previous studies have reported the occurrence of grokking in specific controlled settings, such as DNNs initialized with large-norm parameters or transformers trained on algorithmic datasets. We demonstrate that grokking is actually much more widespread and materializes in a wide range of practical settings, such as training of a convolutional neural network (CNN) on CIFAR10 or a Resnet on Imagenette. We introduce the new concept of delayed robustness, whereby a DNN groks adversarial examples and becomes robust, long after interpolation and/or generalization. We develop an analytical explanation for the emergence of both delayed generalization and delayed robustness based on a new measure of the local complexity of a DNN's input-output mapping. Our local complexity measures the density of the so-called 'linear regions' (aka, spline partition regions) that tile the DNN input space, and serves as a utile progress measure for training. We provide the first evidence that for classification problems, the linear regions undergo a phase transition during training whereafter they migrate away from the training samples (making the DNN mapping smoother there) and towards the decision boundary (making the DNN mapping less smooth there). Grokking occurs post phase transition as a robust partition of the input space emerges thanks to the linearization of the DNN mapping around the training points. Website: https://bit.ly/grok-adversarial
翻訳日:2024-02-27 18:13:26 公開日:2024-02-23
# ロボットの形態的対称性

Morphological Symmetries in Robotics ( http://arxiv.org/abs/2402.15552v1 )

ライセンス: Link先を確認
Daniel Ordo\~nez-Apraez, Giulio Turrisi, Vladimir Kostic, Mario Martin, Antonio Agudo, Francesc Moreno-Noguer, Massimiliano Pontil, Claudio Semini, and Carlos Mastalli(参考訳) 本稿では,ロボットシステムにおける形態的対称性の研究と活用のための包括的枠組みを提案する。 これらは、運動構造の複製と質量の対称分布から生じる動物生物学やロボット工学においてしばしば観察されるロボットの形態学の固有の性質である。 これらの対称性がロボットの状態空間にどのように拡張され、固有受容器と外受容器の両方のセンサ測定に拡張され、ロボットの運動方程式と最適制御方針が等しくなるかを説明する。 そこで本研究では, 形態学的な対称性を, ロボット工学におけるモデリング, 制御, 推定, 設計におけるデータ駆動型および解析的手法の両方に有意な意味を持つ, 従来未発見の物理インフォームド幾何学的先行概念として認識する。 データ駆動型手法では, モデルアーキテクチャに等変・不変制約を適用することにより, 機械学習モデルのサンプル効率と一般化を向上できることを実証する。 解析手法の文脈では,ロボットのダイナミクスを低次元で独立なダイナミクスの重ね合わせに分解するために,抽象調和解析を用いる。 二足歩行ロボットと四足歩行ロボットの合成実験と実世界実験の両方で,我々の主張を裏付ける。 最後に,本論文で概説された理論と応用の実用的利用を促進するために,リポジトリモルフォシンムを紹介する。

We present a comprehensive framework for studying and leveraging morphological symmetries in robotic systems. These are intrinsic properties of the robot's morphology, frequently observed in animal biology and robotics, which stem from the replication of kinematic structures and the symmetrical distribution of mass. We illustrate how these symmetries extend to the robot's state space and both proprioceptive and exteroceptive sensor measurements, resulting in the equivariance of the robot's equations of motion and optimal control policies. Thus, we recognize morphological symmetries as a relevant and previously unexplored physics-informed geometric prior, with significant implications for both data-driven and analytical methods used in modeling, control, estimation and design in robotics. For data-driven methods, we demonstrate that morphological symmetries can enhance the sample efficiency and generalization of machine learning models through data augmentation, or by applying equivariant/invariant constraints on the model's architecture. In the context of analytical methods, we employ abstract harmonic analysis to decompose the robot's dynamics into a superposition of lower-dimensional, independent dynamics. We substantiate our claims with both synthetic and real-world experiments conducted on bipedal and quadrupedal robots. Lastly, we introduce the repository MorphoSymm to facilitate the practical use of the theory and applications outlined in this work.
翻訳日:2024-02-27 18:12:57 公開日:2024-02-23
# 量子演算のスパース確率的合成

Sparse Probabilistic Synthesis of Quantum Operations ( http://arxiv.org/abs/2402.15550v1 )

ライセンス: Link先を確認
B\'alint Koczor(参考訳) 量子技術の成功した実装には、可能な限り少ない量子資源を使用するプロトコルとアルゴリズムが必要である。 多くのアプリケーションは、量子コンピューティングにおける回転ゲートやNMRやMRIアプリケーションにおけるブロードバンドパルスのような所望の量子演算を必要とするが、直接実装することは不可能である。 この研究は、測定繰り返し率を緩やかに増加させるコストで、そのような操作の正確な実装を可能にするアプローチを開発する。 まず、多数の異なる近似のライブラリを所望のゲート操作に構築し、予め最適化された確率分布に従ってこれらの演算をランダムに選択することにより、厳密に制御可能な近似誤差で所望の操作を平均化することができる。 このアプローチは、最適確率分布を効率的に見つけるために凸最適化の洗練されたツールに依存する。 様々な応用のスペクトルが示される。 (a)短いt深度回路のみを用いたフォールトトレラント量子コンピュータの正確な回転合成 b)量子最適制御における高性能な広帯域・帯域選択パルスの合成 c)nmrやmriのさらなる応用。 このアプローチは非常に一般的であり、量子技術における幅広い実践的応用が明確に示されている。

Successful implementations of quantum technologies require protocols and algorithms that use as few quantum resources as possible. Many applications require a desired quantum operation, such as rotation gates in quantum computing or broadband pulses in NMR or MRI applications, that is not feasible to directly implement or would require longer coherence times than achievable. This work develops an approach that enables -- at the cost of a modestly increased measurement repetition rate -- the exact implementation of such operations. One proceeds by first building a library of a large number of different approximations to the desired gate operation; by randomly selecting these operations according to a pre-optimised probability distribution, one can on average implement the desired operation with a rigorously controllable approximation error. The approach relies on sophisticated tools from convex optimisation to efficiently find optimal probability distributions. A diverse spectrum of applications are demonstrated as (a) exactly synthesising rotations in fault-tolerant quantum computers using only short T-depth circuits and (b) synthesising broadband and band-selective pulses of superior performance in quantum optimal control with (c) further applications in NMR or MRI. The approach is very general and a broad spectrum of practical applications in quantum technologies are explicitly demonstrated.
翻訳日:2024-02-27 18:12:35 公開日:2024-02-23
# 一般化Lemaitre Tolman Bondi計量について:古典的感度と量子アインシュタイン-ヴァズシェル

On the Generalized Lemaitre Tolman Bondi Metric: Classical Sensitivities and Quantum Einstein-Vaz Shells ( http://arxiv.org/abs/2402.15549v1 )

ライセンス: Link先を確認
Mohammadreza Molaei and Christian Corda(参考訳) 本稿では,古典的枠組みにおいて一般化されたlemaitre tolman bondi計量の感度の下限を評価する。 線形力学系 L_{\frac{\partial}{\partial\theta}}, L_{\frac{\partial}{\partial r}}, L_{\frac{\partial}{\partial\phi}} を通じて計算された下界は、それぞれ -\ln2+\ln|(\dot{R}B)^{2}-(R')^{2}|-2\ln|B|, 2\ln|\dot{B}|-\ln2 および -\ln2-2\ln|B|+\ln|(\dot{R}^{2}B^{2}-R'^{2})\sin^{2}\theta-B^{2}\cos^{2}\theta| である。 また、L_{\frac{\partial}{\partial t}} による感度と低感度はゼロであることを示す。 量子フレームワークでは、2014年にvazによって議論されたlemaitre tolman bondiから生じる量子重力崩壊の最終結果であるアインシュタイン-バズ殻の性質を分析する。 実際、ヴァズ(Vaz)はホイーラー・デウィット方程式の2つの独立解と全解を組み合わせると、特異点への連続的な崩壊が得られることを示した。 そのようなコンビナチンを禁止すると、量子崩壊中のシュワルツシルト表面の物質が自然に凝縮する。 こうして、ブラックホールのための全く新しい枠組み(BHs)が誕生した。 ヴァズのアプローチは、1939年のアインシュタインの薄い球状殻内の崩壊する粒子の局在に関する考えとも一致している。 ここでは、私たち(CC)のオンドのアプローチに従い、我々はシュロディンガーのようなアプローチでBH質量とエネルギースペクトルを導出し、Vazの結論をさらに支持することで、事象の地平線によってカバーされる時空特異点の代わりに、重力崩壊の最終結果は本質的に量子オブジェクトであり、非常にコンパクトな「ダークスター」である、という結論を導出する。 この「重力原子」は縮退圧力ではなく、通常の原子が量子力学によって維持されるのと同じように量子重力によって支えられる。 最後に、アインシュタイン・ヴァズ貝殻の時間進化について論じる。

In this paper, in the classical framework we evaluate the lower bounds for the sensitivities of the generalized Lemaitre Tolman Bondi metric. The calculated lower bounds via the linear dynamical systems L_{\frac{\partial}{\partial\theta}}, L_{\frac{\partial}{\partial r}}, and L_{\frac{\partial}{\partial\phi}} are -\ln2+\ln|(\dot{R}B)^{2}-(R')^{2}|-2\ln|B|, 2\ln|\dot{B}|-\ln2 and -\ln2-2\ln|B|+\ln|(\dot{R}^{2}B^{2}-R'^{2})\sin^{2}\theta-B^{2}\cos^{2}\theta| respectively. We also show that the sensitivities and the lower sensitivities via L_{\frac{\partial}{\partial t}} are zero. In the quantum framework we analyse the properties of the Einstein-Vaz shells which are the final result of the quantum gravitational collapse arising from the Lemaitre Tolman Bondi discussed by Vaz in 2014. In fact, Vaz showed that continued collapse to a singularity can only be obtained if one combines two independent and entire solutions of the Wheeler-DeWitt equation. Forbidding such a combinatin leads naturally to matter condensing on the Schwarzschild surface during quantum collapse. In that way, an entirely new framework for black holes (BHs) has emerged. The approach of Vaz as also consistent with Einstein's idea in 1939 of the localization of the collapsing particles within a thin spherical shell. Here, following an approach of oned of us (CC), we derive the BH mass and energy spectra via a Schrodinger-like approach, by further supporting Vaz's conclusions that instead of a spacetime singularity covered by an event horizon, the final result of the gravitational collapse is an essentially quantum object, an extremely compact "dark star". This "gravitational atom" is held up not by any degeneracy pressure but by quantum gravity in the same way that ordinary atoms are sustained by quantum mechanics. Finally, we discuss the time evolution of the Einstein-Vaz shells
翻訳日:2024-02-27 18:12:17 公開日:2024-02-23
# HiMAP:大規模マルチエージェントパスフィニングのためのヒューリスティックスインフォームドポリシー

HiMAP: Learning Heuristics-Informed Policies for Large-Scale Multi-Agent Pathfinding ( http://arxiv.org/abs/2402.15546v1 )

ライセンス: Link先を確認
Huijie Tang, Federico Berto, Zihan Ma, Chuanbo Hua, Kyuree Ahn, Jinkyoo Park(参考訳) 大規模マルチエージェントパスフィンディング(MAPF)は,いくつかの領域において重要な課題である。 システムが複雑化し、多数の自律エージェントが同時に動作するようになると、効率的で衝突のない協調が最重要となる。 従来のアルゴリズムはスケーラビリティ、特に複雑なシナリオでは不足することが多い。 強化学習(Reinforcement Learning, RL)はMAPFの複雑さに対処する可能性を示しているが、拡張性や複雑な実装の要求、長い訓練、不安定な収束をしばしば示し、実用的応用を制限している。 本稿では,ヒューリスティック誘導を用いた模倣学習を分散的に行う,新しいスケーラブルな手法であるヒューリスティックスインフォームドマルチエージェントパスファイニング(himap)を提案する。 各エージェント観察情報をアクション確率分布にマップする教師として,ヒューリスティックポリシを用いた小規模インスタンスを訓練する。 パスフィニングでは,性能向上のためにいくつかの推論手法を採用する。 簡単なトレーニングスキームと実装により、HiMAPは模倣学習のみのMAPFの分野での成功率とスケーラビリティの点で競合する結果を示し、推論技術を備えた模倣学習のみのMAPFの可能性を示している。

Large-scale multi-agent pathfinding (MAPF) presents significant challenges in several areas. As systems grow in complexity with a multitude of autonomous agents operating simultaneously, efficient and collision-free coordination becomes paramount. Traditional algorithms often fall short in scalability, especially in intricate scenarios. Reinforcement Learning (RL) has shown potential to address the intricacies of MAPF; however, it has also been shown to struggle with scalability, demanding intricate implementation, lengthy training, and often exhibiting unstable convergence, limiting its practical application. In this paper, we introduce Heuristics-Informed Multi-Agent Pathfinding (HiMAP), a novel scalable approach that employs imitation learning with heuristic guidance in a decentralized manner. We train on small-scale instances using a heuristic policy as a teacher that maps each single agent observation information to an action probability distribution. During pathfinding, we adopt several inference techniques to improve performance. With a simple training scheme and implementation, HiMAP demonstrates competitive results in terms of success rate and scalability in the field of imitation-learning-only MAPF, showing the potential of imitation-learning-only MAPF equipped with inference techniques.
翻訳日:2024-02-27 18:11:16 公開日:2024-02-23
# IoTデータと量子エッジのストリーミング: 古典的/量子機械学習のユースケース

Streaming IoT Data and the Quantum Edge: A Classic/Quantum Machine Learning Use Case ( http://arxiv.org/abs/2402.15542v1 )

ライセンス: Link先を確認
Sabrina Herbst, Vincenzo De Maio, Ivona Brandic(参考訳) ムーア時代が到来すると、科学コミュニティは、分散コンピューティングにおける緊急分析の基礎となる、現在のデータ集約型機械学習アプリケーションの要求に対処するという課題に直面している。 量子機械学習は、緊急分析の需要が増大し、理論的なスピードアップと宇宙効率が向上する解決策になり得る。 しかし、(1)古典から量子領域へのデータのエンコーディング、(2)ハイパーパラメータチューニング、(3)量子ハードウェアの分散コンピューティング連続体への統合といった課題は、緊急分析に量子機械学習を採用することを制限している。 本研究では,量子機械学習の分散コンピューティング連続体への統合におけるエッジコンピューティングの利用について検討し,主な課題と可能な解決策を特定する。 さらに、データエンコーディングとハイパーパラメータチューニングの課題を探求し、iotシナリオにおける量子機械学習分析の予備結果を示す。

With the advent of the Post-Moore era, the scientific community is faced with the challenge of addressing the demands of current data-intensive machine learning applications, which are the cornerstone of urgent analytics in distributed computing. Quantum machine learning could be a solution for the increasing demand of urgent analytics, providing potential theoretical speedups and increased space efficiency. However, challenges such as (1) the encoding of data from the classical to the quantum domain, (2) hyperparameter tuning, and (3) the integration of quantum hardware into a distributed computing continuum limit the adoption of quantum machine learning for urgent analytics. In this work, we investigate the use of Edge computing for the integration of quantum machine learning into a distributed computing continuum, identifying the main challenges and possible solutions. Furthermore, exploring the data encoding and hyperparameter tuning challenges, we present preliminary results for quantum machine learning analytics on an IoT scenario.
翻訳日:2024-02-27 18:10:53 公開日:2024-02-23
# 自閉症スペクトラム障害児のための音声コーパス:自動評価システムに向けて

Speech Corpus for Korean Children with Autism Spectrum Disorder: Towards Automatic Assessment Systems ( http://arxiv.org/abs/2402.15539v1 )

ライセンス: Link先を確認
Seonwoo Lee, Jihyun Mun, Sunhee Kim, Minhwa Chung(参考訳) 自閉症スペクトラム障害(ASD)の小児に対するデジタル治療の需要が高まっているが、現在、ASDの韓国人子供向けの音声コーパスは存在しない。 本稿では, 韓国人児童を対象とした音声コーパスについて紹介し, 発音・重度評価などの音声技術の発展を目指している。 音声および言語評価セッションからの音声記録を転写し, 調音および言語特性に注釈を付けた。 音声・言語病理学者3人は,3点類似尺度を用いて,これらの記録を社会コミュニケーション重症度(SCS)と発音能力(PP)に評価した。 参加者の合計は、asd児300名、典型的にはtd児50名である。 また,asd児73名とtd児9名を対象に,音声データから抽出した音響的特徴と言語的特徴を解析し,asd児の特徴と臨床評価との関連性について検討した。 その結果,td児や臨床成績別に分類されたasdの他のサブグループと異なるasd児の発話と言語の特徴が明らかとなり,scsとppの自動評価システムの開発の可能性が示された。

Despite the growing demand for digital therapeutics for children with Autism Spectrum Disorder (ASD), there is currently no speech corpus available for Korean children with ASD. This paper introduces a speech corpus specifically designed for Korean children with ASD, aiming to advance speech technologies such as pronunciation and severity evaluation. Speech recordings from speech and language evaluation sessions were transcribed, and annotated for articulatory and linguistic characteristics. Three speech and language pathologists rated these recordings for social communication severity (SCS) and pronunciation proficiency (PP) using a 3-point Likert scale. The total number of participants will be 300 for children with ASD and 50 for typically developing (TD) children. The paper also analyzes acoustic and linguistic features extracted from speech data collected and completed for annotation from 73 children with ASD and 9 TD children to investigate the characteristics of children with ASD and identify significant features that correlate with the clinical scores. The results reveal some speech and linguistic characteristics in children with ASD that differ from those in TD children or another subgroup of ASD categorized by clinical scores, demonstrating the potential for developing automatic assessment systems for SCS and PP.
翻訳日:2024-02-27 18:10:37 公開日:2024-02-23
# AgentLite:タスク指向LLMエージェントシステムの構築と改善のための軽量ライブラリ

AgentLite: A Lightweight Library for Building and Advancing Task-Oriented LLM Agent System ( http://arxiv.org/abs/2402.15538v1 )

ライセンス: Link先を確認
Zhiwei Liu, Weiran Yao, Jianguo Zhang, Liangwei Yang, Zuxin Liu, Juntao Tan, Prafulla K. Choubey, Tian Lan, Jason Wu, Huan Wang, Shelby Heinecke, Caiming Xiong, Silvio Savarese(参考訳) LLMの爆発的成功により、LLM剤の急速な開発が開始される。 LLMエージェントの基礎は生成モデルであるが、最適な推論戦略とエージェントアーキテクチャを考案することが重要である。 LLMエージェントの研究は、単純なチェーン・オブ・シントから、より複雑なReActおよびReflection推論戦略へと発展し、エージェントアーキテクチャは、シングルエージェント生成からマルチエージェント会話、マルチLLMマルチエージェントグループチャットへと進化する。 しかし、既存の複雑なフレームワークやライブラリにより、新しい推論戦略とエージェントアーキテクチャの作成と評価は複雑な課題となり、LCMエージェントの研究を妨げている。 そこで我々は、LLMエージェント推論、アーキテクチャ、アプリケーションを簡単に革新するための軽量でユーザフレンドリなプラットフォームを提供することで、このプロセスを単純化する新しいAIエージェントライブラリであるAgentLiteをオープンソース化した。 agentliteは、エージェントがタスクを分解し、マルチエージェントシステムの開発を容易にするように設計されたタスク指向フレームワークである。 さらに,その利便性と柔軟性を実証するために, agentlite で開発された複数の実用的応用を紹介する。 まずは次の通り。 \url{https://github.com/SalesforceAIResearch/AgentLite}。

The booming success of LLMs initiates rapid development in LLM agents. Though the foundation of an LLM agent is the generative model, it is critical to devise the optimal reasoning strategies and agent architectures. Accordingly, LLM agent research advances from the simple chain-of-thought prompting to more complex ReAct and Reflection reasoning strategy; agent architecture also evolves from single agent generation to multi-agent conversation, as well as multi-LLM multi-agent group chat. However, with the existing intricate frameworks and libraries, creating and evaluating new reasoning strategies and agent architectures has become a complex challenge, which hinders research investigation into LLM agents. Thus, we open-source a new AI agent library, AgentLite, which simplifies this process by offering a lightweight, user-friendly platform for innovating LLM agent reasoning, architectures, and applications with ease. AgentLite is a task-oriented framework designed to enhance the ability of agents to break down tasks and facilitate the development of multi-agent systems. Furthermore, we introduce multiple practical applications developed with AgentLite to demonstrate its convenience and flexibility. Get started now at: \url{https://github.com/SalesforceAIResearch/AgentLite}.
翻訳日:2024-02-27 18:10:16 公開日:2024-02-23
# スパムメール検出におけるChatGPTの性能評価

Evaluating the Performance of ChatGPT for Spam Email Detection ( http://arxiv.org/abs/2402.15537v1 )

ライセンス: Link先を確認
Yuwei Wu, Shijing Si, Yugui Zhang, Jiawen Gu, Jedrek Wosik(参考訳) eメールは、プロフェッショナルドメインと商用ドメインにおける重要な、広く利用されるコミュニケーション媒体であり続けている。 それでもスパムメールの普及はユーザーにとって大きな課題となり、日々のルーチンを中断し、生産性を低下させる。 したがって、コンテンツに基づくスパムの正確な識別とフィルタリングはサイバーセキュリティにとって不可欠である。 自然言語処理の最近の進歩、特にChatGPTのような大規模言語モデルでは、質問応答やテキスト生成といったタスクにおいて顕著な性能を示している。 しかし、スパム識別のポテンシャルは未解明のままである。 このギャップを埋めるために、英語と中国語の両方の電子メールデータセットにおいてChatGPTのスパム識別能力を評価する。 コンテキスト内学習によるスパムメールの検出にはchatgptを採用している。 また、トレーニングサンプルサイズがChatGPTの性能に与える影響についても検討する。 比較のために、naive bayes、 support vector machines (svm)、logistic regression (lr)、feedforward dense neural networks (dnn)、bert classifiersの5つの人気のあるベンチマーク手法を実装した。 広範な実験ではあるが、chatgptのパフォーマンスは、大規模な英語データセットにおける深い教師付き学習方法よりも著しく悪いが、低リソースの中国データセットでは優れたパフォーマンスを示し、このケースではbertを上回っている。

Email continues to be a pivotal and extensively utilized communication medium within professional and commercial domains. Nonetheless, the prevalence of spam emails poses a significant challenge for users, disrupting their daily routines and diminishing productivity. Consequently, accurately identifying and filtering spam based on content has become crucial for cybersecurity. Recent advancements in natural language processing, particularly with large language models like ChatGPT, have shown remarkable performance in tasks such as question answering and text generation. However, its potential in spam identification remains underexplored. To fill in the gap, this study attempts to evaluate ChatGPT's capabilities for spam identification in both English and Chinese email datasets. We employ ChatGPT for spam email detection using in-context learning, which requires a prompt instruction and a few demonstrations. We also investigate how the training example size affects the performance of ChatGPT. For comparison, we also implement five popular benchmark methods, including naive Bayes, support vector machines (SVM), logistic regression (LR), feedforward dense neural networks (DNN), and BERT classifiers. Though extensive experiments, the performance of ChatGPT is significantly worse than deep supervised learning methods in the large English dataset, while it presents superior performance on the low-resourced Chinese dataset, even outperforming BERT in this case.
翻訳日:2024-02-27 18:09:53 公開日:2024-02-23
# 異種教師による対向ロバスト性蒸留

Distilling Adversarial Robustness Using Heterogeneous Teachers ( http://arxiv.org/abs/2402.15586v1 )

ライセンス: Link先を確認
Jieren Deng, Aaron Palmer, Rigel Mahmood, Ethan Rathbun, Jinbo Bi, Kaleel Mahmood and Derek Aguiar(参考訳) 敵対的攻撃に対する抵抗性を得るためには、誤分類が自動車や医療画像などのかなりのコストを引き起こす領域にニューラルネットワーク分類器を配置する前に必要である。 近年の研究では, 学習指導を受けた教師から, 知識蒸留による学生モデルにロバスト性が移行できることが実証されている。 しかし、現在の方法では、単一の逆数とバニラの教師を用いて蒸留を行い、類似の逆数部分空間の例を誤分類しうる均質なアーキテクチャ(残留ネットワーク)を考える。 本研究では,異種教員(DARHT)を用いた対人攻撃に対する防御枠組みを構築した。 DARHTでは、生徒モデルは生徒-教師の特徴マップにおける教師のロジットを明示的に表現し、低い反対例転送可能性を示す複数の教師を活用する。 CIFAR-10、CIFAR-100、Tiny ImageNetのデータセットと競合する逆行訓練と蒸留法と比較して、DARHTが最先端のクリーンで堅牢な精度を達成することを示す。 等質・異質の教師集合との比較から,教師の対向性低下が生徒モデルの堅牢性を高めることが示唆された。

Achieving resiliency against adversarial attacks is necessary prior to deploying neural network classifiers in domains where misclassification incurs substantial costs, e.g., self-driving cars or medical imaging. Recent work has demonstrated that robustness can be transferred from an adversarially trained teacher to a student model using knowledge distillation. However, current methods perform distillation using a single adversarial and vanilla teacher and consider homogeneous architectures (i.e., residual networks) that are susceptible to misclassify examples from similar adversarial subspaces. In this work, we develop a defense framework against adversarial attacks by distilling adversarial robustness using heterogeneous teachers (DARHT). In DARHT, the student model explicitly represents teacher logits in a student-teacher feature map and leverages multiple teachers that exhibit low adversarial example transferability (i.e., exhibit high performance on dissimilar adversarial examples). Experiments on classification tasks in both white-box and black-box scenarios demonstrate that DARHT achieves state-of-the-art clean and robust accuracies when compared to competing adversarial training and distillation methods in the CIFAR-10, CIFAR-100, and Tiny ImageNet datasets. Comparisons with homogeneous and heterogeneous teacher sets suggest that leveraging teachers with low adversarial example transferability increases student model robustness.
翻訳日:2024-02-27 18:02:27 公開日:2024-02-23
# 非構造データから生じる変数による回帰の推論

Inference for Regression with Variables Generated from Unstructured Data ( http://arxiv.org/abs/2402.15585v1 )

ライセンス: Link先を確認
Laura Battaglia and Timothy Christensen and Stephen Hansen and Szymon Sacher(参考訳) 非構造化データを分析するための主要な戦略には2つのステップがある。 まず、上流情報検索モデルを用いて、経済的関心の潜在変数を推定する。 第二に、推定値は下流の計量モデルで「データ」として扱われる。 この2段階戦略が実験的に実証可能な環境での偏見推論につながる理由を理論的に論じる。 より構成的に、上流モデルと下流モデルとを併用した有効推論のためのワンステップ戦略を提案する。 ワンステップ戦略 i) シミュレーションにおけるバイアスを大幅に減少させる。 (二)CEOタイムユースデータを用いた指導アプリケーションにおいて定量的に重要な効果を有すること。 (iii) 応用研究者が容易に適応できる。

The leading strategy for analyzing unstructured data uses two steps. First, latent variables of economic interest are estimated with an upstream information retrieval model. Second, the estimates are treated as "data" in a downstream econometric model. We establish theoretical arguments for why this two-step strategy leads to biased inference in empirically plausible settings. More constructively, we propose a one-step strategy for valid inference that uses the upstream and downstream models jointly. The one-step strategy (i) substantially reduces bias in simulations; (ii) has quantitatively important effects in a leading application using CEO time-use data; and (iii) can be readily adapted by applied researchers.
翻訳日:2024-02-27 18:01:59 公開日:2024-02-23
# イベントカメラのための状態空間モデル

State Space Models for Event Cameras ( http://arxiv.org/abs/2402.15584v1 )

ライセンス: Link先を確認
Nikola Zubi\'c, Mathias Gehrig, Davide Scaramuzza(参考訳) 今日、イベントカメラデータを処理する最先端のディープニューラルネットワークは、イベントの時間的ウィンドウを、グリッドのような密度の高い入力表現に変換する。 したがって、訓練されたものよりも高い推論周波数(つまり、より小さな時間窓)で展開する場合の一般化性は低い。 イベントベースビジョンに学習可能な時間スケールパラメータを備えた状態空間モデル(SSM)を導入することで、この問題に対処する。 この設計は、異なる周波数でネットワークを再トレーニングすることなく、異なる周波数に適応する。 さらに,高周波数でモデルを展開する場合,エイリアス効果に対処する2つの方法を検討する。 我々は、RNNおよびTransformerアーキテクチャに基づく既存手法に対するアプローチを、Gen1および1 Mpxイベントカメラデータセットを含む様々なベンチマークで包括的に評価する。 以上の結果から,SSMモデルではトレーニングが33%速くなり,トレーニング入力よりも高い周波数でテストした場合の性能劣化が最小となることが示された。 従来のRNNとTransformerモデルは20mAP以上の性能低下を示し、SSMは3.31mAPの低下を示し、イベントベースの視覚タスクにおけるSSMの有効性を強調している。

Today, state-of-the-art deep neural networks that process event-camera data first convert a temporal window of events into dense, grid-like input representations. As such, they exhibit poor generalizability when deployed at higher inference frequencies (i.e., smaller temporal windows) than the ones they were trained on. We address this challenge by introducing state-space models (SSMs) with learnable timescale parameters to event-based vision. This design adapts to varying frequencies without the need to retrain the network at different frequencies. Additionally, we investigate two strategies to counteract aliasing effects when deploying the model at higher frequencies. We comprehensively evaluate our approach against existing methods based on RNN and Transformer architectures across various benchmarks, including Gen1 and 1 Mpx event camera datasets. Our results demonstrate that SSM-based models train 33% faster and also exhibit minimal performance degradation when tested at higher frequencies than the training input. Traditional RNN and Transformer models exhibit performance drops of more than 20 mAP, with SSMs having a drop of 3.31 mAP, highlighting the effectiveness of SSMs in event-based vision tasks.
翻訳日:2024-02-27 18:01:51 公開日:2024-02-23
# Cohere3D:視覚に基づく自律運転の教師なし表現学習のための時間的コヒーレンスを爆発させる

Cohere3D: Exploiting Temporal Coherence for Unsupervised Representation Learning of Vision-based Autonomous Driving ( http://arxiv.org/abs/2402.15583v1 )

ライセンス: Link先を確認
Yichen Xie, Hongge Chen, Gregory P. Meyer, Yong Jae Lee, Eric M. Wolff, Masayoshi Tomizuka, Wei Zhan, Yuning Chai, Xin Huang(参考訳) 画像に奥行きの手がかりがないため、多フレーム入力は視覚に基づく認識、予測、自律運転における計画の成功に重要である。 異なる角度からの観測により、異なる入力フレームで同じインスタンスを識別できれば、2次元画像入力から3次元オブジェクト状態の復元が可能になる。 しかし、自律運転シーンのダイナミックな性質は、異なる時間ステップでカメラが捉えた各インスタンスの外観と形状に大きな変化をもたらす。 そこで本研究では,距離と視点の変化に頑健な長期入力列におけるコヒーレントインスタンス表現を学習するための新しいコントラスト学習アルゴリズムcohere3dを提案する。 学習された表現は、下流タスクにおける複数の入力フレーム間のインスタンスレベルの対応を支援する。 事前訓練段階では、LiDARセンサからの生点雲を利用して、各インスタンスの長期的な時間対応を構築し、視覚に基づく鳥の目視(BEV)特徴マップからインスタンスレベルの表現を抽出するためのガイダンスとして機能する。 Cohere3Dは異なるフレームでの同じインスタンスの一貫性のある表現を奨励するが、異なるインスタンスの表現を区別する。 我々は,様々な下流認識,予測,計画タスクの事前学習モデルを微調整することにより,アルゴリズムを評価する。 その結果,データ効率とタスク性能が著しく向上した。

Due to the lack of depth cues in images, multi-frame inputs are important for the success of vision-based perception, prediction, and planning in autonomous driving. Observations from different angles enable the recovery of 3D object states from 2D image inputs if we can identify the same instance in different input frames. However, the dynamic nature of autonomous driving scenes leads to significant changes in the appearance and shape of each instance captured by the camera at different time steps. To this end, we propose a novel contrastive learning algorithm, Cohere3D, to learn coherent instance representations in a long-term input sequence robust to the change in distance and perspective. The learned representation aids in instance-level correspondence across multiple input frames in downstream tasks. In the pretraining stage, the raw point clouds from LiDAR sensors are utilized to construct the long-term temporal correspondence for each instance, which serves as guidance for the extraction of instance-level representation from the vision-based bird's eye-view (BEV) feature map. Cohere3D encourages a consistent representation for the same instance at different frames but distinguishes between representations of different instances. We evaluate our algorithm by finetuning the pretrained model on various downstream perception, prediction, and planning tasks. Results show a notable improvement in both data efficiency and task performance.
翻訳日:2024-02-27 18:01:32 公開日:2024-02-23
# CI w/o TN: プロシージャ計画のためのタスク名なしコンテキストインジェクション

CI w/o TN: Context Injection without Task Name for Procedure Planning ( http://arxiv.org/abs/2402.15579v1 )

ライセンス: Link先を確認
Xinjie Li(参考訳) 本論文は,映像からの視覚的開始とゴール観察に基づく目標指向の計画を作成する授業ビデオにおける手続き計画の課題を考察する。 従来の研究では、中間的な視覚観察や言語指導からタスククラスの監督に至るまで、徐々に訓練の監督が弱まっている。 しかし、大きな言語モデルが出現し、タスク名のみを与えられたとしても、これらのモデルは詳細な計画を作成することができる。 本研究では,既存の大規模言語モデルでは十分な情報を必要とするため,現在解けていないタスク名を監督として含まない,はるかに弱い設定を提案する。 具体的には、従来の中間監督が文脈情報として機能しうると仮定し、視覚的開始と目標観測のキャプションをより安価な監督形態として利用する。 この手法は、大きな学習済みの視覚言語基礎モデルによりキャプションを容易に取得できるため、ラベリングコストを大幅に削減する。 技術的には、blipを使ってキャプションを生成し、コントラストのある学習損失を伴うコンテキスト機能をトレーニングします。 その後、コンテキスト機能はジェネレータに供給され、プラン生成を支援する。 異なるスケールの2つのデータセットに対する実験により、モデルが複数のメトリクスで同等のパフォーマンスを達成できることが示され、仮説が検証される。

This paper explores the challenge of procedure planning in instructional videos, which involves creating goal-directed plans based on visual start and goal observations from videos. Previous research has tackled this problem with gradually weaker training supervision, from heavy intermediate visual observations or language instructions to task class supervision. However, with the advent of large language models, even given only the task name, these models can produce a detailed plan. In this study, we propose a much weaker setting without task name as supervision, which is not currently solvable by existing large language models since they require good prompts with sufficient information. Specifically, we hypothesize that previous intermediate supervisions can serve as context information, and we use captions of visual start and goal observations as a much cheaper form of supervision. This approach greatly reduces the labeling cost since the captions can be easily obtained by large pre-trained vision-language foundation models. Technically, we apply BLIP to generate captions as supervision to train the context feature with contrastive learning loss. Afterward, the context feature is fed into the generator to aid in plan generation. Our experiments on two datasets with varying scales demonstrate that our model can achieve comparable performance on multiple metrics, which validates our hypothesis.
翻訳日:2024-02-27 18:01:13 公開日:2024-02-23
# テーブル構造認識トランスの自己教師付き事前学習

Self-Supervised Pre-Training for Table Structure Recognition Transformer ( http://arxiv.org/abs/2402.15578v1 )

ライセンス: Link先を確認
ShengYun Peng, Seongmin Lee, Xiaojing Wang, Rajarajeswari Balasubramaniyan and Duen Horng Chau(参考訳) テーブル構造認識(tsr)は、表イメージを機械可読形式に変換することを目的としている。 既存のアプローチでは、ハイブリッド畳み込みニューラルネットワーク(cnn)-トランスフォーマーアーキテクチャが広く使われているが、線形投影トランスフォーマーは、そのシンプルさと効率性から、多くのビジョンタスクにおいてハイブリッドアーキテクチャを上回っている。 しかし、既存の研究により、cnnバックボーンを線形射影に置き換えることで、著しいパフォーマンス低下につながることが示されている。 本研究では,TSRトランスのための自己教師付き事前学習(SSP)手法を提案する。 tsrモデルにおける視覚エンコーダのsspにより線形投影トランスとハイブリッドcnn変換器の性能ギャップを緩和できることを見出した。 我々は再現可能なアブレーション研究を行い、透明性を高め、イノベーションを刺激し、私たちの領域における公正な比較を促進するために、https://github.com/poloclub/unitableでコードをオープンソース化しました。

Table structure recognition (TSR) aims to convert tabular images into a machine-readable format. Although hybrid convolutional neural network (CNN)-transformer architecture is widely used in existing approaches, linear projection transformer has outperformed the hybrid architecture in numerous vision tasks due to its simplicity and efficiency. However, existing research has demonstrated that a direct replacement of CNN backbone with linear projection leads to a marked performance drop. In this work, we resolve the issue by proposing a self-supervised pre-training (SSP) method for TSR transformers. We discover that the performance gap between the linear projection transformer and the hybrid CNN-transformer can be mitigated by SSP of the visual encoder in the TSR model. We conducted reproducible ablation studies and open-sourced our code at https://github.com/poloclub/unitable to enhance transparency, inspire innovations, and facilitate fair comparisons in our domain as tables are a promising modality for representation learning.
翻訳日:2024-02-27 18:00:51 公開日:2024-02-23
# 自動走行車の不確実性による説明可能な物体誘発モデルの改善

Improving Explainable Object-induced Model through Uncertainty for Automated Vehicles ( http://arxiv.org/abs/2402.15572v1 )

ライセンス: Link先を確認
Shihong Ling, Yue Wan, Xiaowei Jia, Na Du(参考訳) 自動運転車(AV)の急速な進化は、より安全で効率的で快適な旅行手段を提供する可能性がある。 しかし、これらのシステムは複雑な運転シナリオにおける信頼性に関する課題に直面している。 最近の説明可能なAVアーキテクチャは、動作の説明を提供しながら、固有の不確実性に関連する重要な情報を無視している。 このような課題を克服するため,本研究では,意思決定場面におけるオブジェクトの役割を優先する"object-induced"モデルアプローチを構築し,確固としたディープラーニングパラダイムを用いた意思決定プロセスに不確実性評価を統合する。 さらに,不確実性に基づくデータ重み付けや拡張など,不確実性に導かれる高度なトレーニング戦略についても検討する。 BDD-OIAデータセットを活用することで、これらの拡張を通じて、モデルがAV決定とその根底にある推論をより明確な理解を提供するだけでなく、さまざまなシナリオにおける既存のベースラインを超越する、ということが分かりました。

The rapid evolution of automated vehicles (AVs) has the potential to provide safer, more efficient, and comfortable travel options. However, these systems face challenges regarding reliability in complex driving scenarios. Recent explainable AV architectures neglect crucial information related to inherent uncertainties while providing explanations for actions. To overcome such challenges, our study builds upon the "object-induced" model approach that prioritizes the role of objects in scenes for decision-making and integrates uncertainty assessment into the decision-making process using an evidential deep learning paradigm with a Beta prior. Additionally, we explore several advanced training strategies guided by uncertainty, including uncertainty-guided data reweighting and augmentation. Leveraging the BDD-OIA dataset, our findings underscore that the model, through these enhancements, not only offers a clearer comprehension of AV decisions and their underlying reasoning but also surpasses existing baselines across a broad range of scenarios.
翻訳日:2024-02-27 18:00:30 公開日:2024-02-23
# ソーシャル・コンボ:ソーシャルメディア上のアジェンダと感情をキャプチャする

Social Convos: Capturing Agendas and Emotions on Social Media ( http://arxiv.org/abs/2402.15571v1 )

ライセンス: Link先を確認
Ankita Bhaumik, Ning Sa, Gregorios Katsios and Tomek Strzalkowski(参考訳) ソーシャルメディアプラットフォームは、選挙やパンデミックのような主要な公共イベント中にターゲット情報を広めるための一般的なツールである。 メッセージトラフィックの体系的分析は、人口の異なるセグメント間の一般的な意見や社会的ダイナミクスに対する貴重な洞察を提供する。 我々は特に、影響の広がり、特に、より故意な影響操作を検出できるかどうかに興味を持っている。 しかし、広範囲でしばしば混乱するソーシャルメディアのトラフィックから、重要なメッセージに意味のある影響指標をフィルタリングすることは大きな課題である。 本稿では,特定の話題を議論するユーザグループ間のメッセージから影響指標を抽出する新しい手法を提案する。 グループ内のトピックに関する特定の議題を積極的に推進している影響力のある著者を特定するために、convoの概念を構築します。 我々は、アジェンダ(制御)と感情言語の使用の2つの影響指標に焦点を当てる。

Social media platforms are popular tools for disseminating targeted information during major public events like elections or pandemics. Systematic analysis of the message traffic can provide valuable insights into prevailing opinions and social dynamics among different segments of the population. We are specifically interested in influence spread, and in particular whether more deliberate influence operations can be detected. However, filtering out the essential messages with telltale influence indicators from the extensive and often chaotic social media traffic is a major challenge. In this paper we present a novel approach to extract influence indicators from messages circulating among groups of users discussing particular topics. We build upon the concept of a convo to identify influential authors who are actively promoting some particular agenda around that topic within the group. We focus on two influence indicators: the (control of) agenda and the use of emotional language.
翻訳日:2024-02-27 18:00:14 公開日:2024-02-23
# GPU1分で言語モデルに対する高速な敵攻撃

Fast Adversarial Attacks on Language Models In One GPU Minute ( http://arxiv.org/abs/2402.15570v1 )

ライセンス: Link先を確認
Vinu Sankar Sadasivan, Shoumik Saha, Gaurang Sriramanan, Priyatham Kattakinda, Atoosa Chegini, Soheil Feizi(参考訳) 本稿では,言語モデル (LM) に対する高速ビームサーチに基づく敵攻撃 (BEAST) の新たなクラスについて紹介する。 BEASTは解釈可能なパラメータを使用し、攻撃者は攻撃速度、成功率、敵のプロンプトの可読性とバランスをとることができる。 BEASTの計算効率は、脱獄、幻覚の誘発、プライバシ攻撃に対するLMの応用を調査するのに役立ちます。 グラデーションフリーのターゲット攻撃は、ldmを1分以内に高い攻撃成功率でアレンジできる。 例えば、BEASTは1分でJailbreak Vicuna-7B-v1.5を実行でき、1つのNvidia RTX A6000 48GB GPUで70%の成功率を達成するのに1時間以上かかる勾配ベースのベースラインと比較して、成功率は89%である。 さらに,目標外の攻撃がlmチャットボットの幻覚を誘発するユニークな結果を見出す。 人体による評価の結果, 標的外攻撃により, Vicuna-7B-v1.5 は攻撃がない場合に LM 出力よりも ~15% 過誤出力を発生させることがわかった。 また、BEASTの22%は、Vicunaが元のプロンプトとは無関係なアウトプットを生成してしまうことを知っています。 さらに、BEASTを用いて、LMの既存のメンバシップ推論攻撃の性能を高めるために、数秒で敵のプロンプトを生成する。 私たちの迅速な攻撃であるBEASTは、LMセキュリティとプライバシの研究を加速する可能性があると考えています。 私たちのコードベースはhttps://github.com/vinusankars/BEASTで公開されています。

In this paper, we introduce a novel class of fast, beam search-based adversarial attack (BEAST) for Language Models (LMs). BEAST employs interpretable parameters, enabling attackers to balance between attack speed, success rate, and the readability of adversarial prompts. The computational efficiency of BEAST facilitates us to investigate its applications on LMs for jailbreaking, eliciting hallucinations, and privacy attacks. Our gradient-free targeted attack can jailbreak aligned LMs with high attack success rates within one minute. For instance, BEAST can jailbreak Vicuna-7B-v1.5 under one minute with a success rate of 89% when compared to a gradient-based baseline that takes over an hour to achieve 70% success rate using a single Nvidia RTX A6000 48GB GPU. Additionally, we discover a unique outcome wherein our untargeted attack induces hallucinations in LM chatbots. Through human evaluations, we find that our untargeted attack causes Vicuna-7B-v1.5 to produce ~15% more incorrect outputs when compared to LM outputs in the absence of our attack. We also learn that 22% of the time, BEAST causes Vicuna to generate outputs that are not relevant to the original prompt. Further, we use BEAST to generate adversarial prompts in a few seconds that can boost the performance of existing membership inference attacks for LMs. We believe that our fast attack, BEAST, has the potential to accelerate research in LM security and privacy. Our codebase is publicly available at https://github.com/vinusankars/BEAST.
翻訳日:2024-02-27 18:00:00 公開日:2024-02-23
# 完全自己監督型マルチピッチ推定に向けて

Toward Fully Self-Supervised Multi-Pitch Estimation ( http://arxiv.org/abs/2402.15569v1 )

ライセンス: Link先を確認
Frank Cwitkowitz and Zhiyao Duan(参考訳) マルチピッチ推定は,マルチストラクチャミックス内の同時音楽イベントに関連するピッチ活動の検出を含む,数十年にわたる研究課題である。 教師付き学習技術は、タスクのより狭い特徴付けにおいて確固たるパフォーマンスを示しているが、マルチピッチアノテーションを備えた大規模多声楽曲データセットの不足に関する制限に苦しめられている。 本稿では,マルチピッチ推定のための自己教師付き学習目標の組について述べる。これは高調波に対する支持の集中,ティンブラル変換への不変性,幾何変換への同分散を促進する。 これらの目的は、完全な畳み込みオートエンコーダを訓練して、微調整なしで直接マルチピッチサリエンスグラムを生成するのに十分である。 合成シングルノート音声サンプルの収集に特化してトレーニングを行ったが、完全自己教師付きフレームワークはポリフォニックなミックスに一般化し、従来のマルチピッチデータセットでトレーニングされた教師付きモデルに匹敵する性能を実現する。

Multi-pitch estimation is a decades-long research problem involving the detection of pitch activity associated with concurrent musical events within multi-instrument mixtures. Supervised learning techniques have demonstrated solid performance on more narrow characterizations of the task, but suffer from limitations concerning the shortage of large-scale and diverse polyphonic music datasets with multi-pitch annotations. We present a suite of self-supervised learning objectives for multi-pitch estimation, which encourage the concentration of support around harmonics, invariance to timbral transformations, and equivariance to geometric transformations. These objectives are sufficient to train an entirely convolutional autoencoder to produce multi-pitch salience-grams directly, without any fine-tuning. Despite training exclusively on a collection of synthetic single-note audio samples, our fully self-supervised framework generalizes to polyphonic music mixtures, and achieves performance comparable to supervised models trained on conventional multi-pitch datasets.
翻訳日:2024-02-27 17:59:33 公開日:2024-02-23
# ヒルベルト表現による基礎政策

Foundation Policies with Hilbert Representations ( http://arxiv.org/abs/2402.15567v1 )

ライセンス: Link先を確認
Seohong Park, Tobias Kreiman, Sergey Levine(参考訳) 次のトークン予測のような教師なしおよび自己管理の目的は、大量のラベルのないデータから事前訓練されたジェネリストモデルを可能にする。 しかし、強化学習(rl)では、オフラインデータからのジェネラリストポリシーのための真に一般的でスケーラブルな事前学習目標を見つけることは、依然として大きな疑問である。 目標条件付きRL、行動クローニング、教師なしスキルラーニングといった原則に基づいて、汎用的な自己教師型RLを実現する方法が提案されているが、そのような手法は、発見された振る舞いの多様性、高品質な実証データの必要性、下流タスクに対する明確なプロンプトや適応メカニズムの欠如といった点で制限されている。 本研究では,ゼロショット方式で任意の新しいタスクに迅速に適応できるように,ラベル付けされていないオフラインデータから多種多様な,最適な,長い水平動作をキャプチャする一般政策を事前訓練するための,教師なしフレームワークを提案する。 私たちの重要な洞察は、基盤となる環境の時間的構造を保存する構造化表現を学習し、学習された潜在空間を方向移動で拡張することで、ダウンストリームタスクのさまざまなゼロショットポリシの“推進”スキームを可能にすることです。 ロボットのロコモーションとマニピュレーションのベンチマークをシミュレートした実験により、教師なしのポリシーが目標条件と一般的なrlタスクをゼロショットで解決できることを示した。 私たちのコードとビデオはhttps://seohong.me/projects/hilp/で閲覧できます。

Unsupervised and self-supervised objectives, such as next token prediction, have enabled pre-training generalist models from large amounts of unlabeled data. In reinforcement learning (RL), however, finding a truly general and scalable unsupervised pre-training objective for generalist policies from offline data remains a major open question. While a number of methods have been proposed to enable generic self-supervised RL, based on principles such as goal-conditioned RL, behavioral cloning, and unsupervised skill learning, such methods remain limited in terms of either the diversity of the discovered behaviors, the need for high-quality demonstration data, or the lack of a clear prompting or adaptation mechanism for downstream tasks. In this work, we propose a novel unsupervised framework to pre-train generalist policies that capture diverse, optimal, long-horizon behaviors from unlabeled offline data such that they can be quickly adapted to any arbitrary new tasks in a zero-shot manner. Our key insight is to learn a structured representation that preserves the temporal structure of the underlying environment, and then to span this learned latent space with directional movements, which enables various zero-shot policy "prompting" schemes for downstream tasks. Through our experiments on simulated robotic locomotion and manipulation benchmarks, we show that our unsupervised policies can solve goal-conditioned and general RL tasks in a zero-shot fashion, even often outperforming prior methods designed specifically for each setting. Our code and videos are available at https://seohong.me/projects/hilp/
翻訳日:2024-02-27 17:59:16 公開日:2024-02-23
# 臨床場面における皮膚科疾患の分布差の調整によるai一般化ギャップの閉鎖

Closing the AI generalization gap by adjusting for dermatology condition distribution differences across clinical settings ( http://arxiv.org/abs/2402.15566v1 )

ライセンス: Link先を確認
Rajeev V. Rikhye, Aaron Loh, Grace Eunhae Hong, Preeti Singh, Margaret Ann Smith, Vijaytha Muralidharan, Doris Wong, Rory Sayres, Michelle Phung, Nicolas Betancourt, Bradley Fong, Rachna Sahasrabudhe, Khoban Nasim, Alec Eschholz, Basil Mustafa, Jan Freyberg, Terry Spitz, Yossi Matias, Greg S. Corrado, Katherine Chou, Dale R. Webster, Peggy Bui, Yuan Liu, Yun Liu, Justin Ko, Steven Lin(参考訳) 近年,臨床写真から皮膚科疾患を分類する人工知能(ai)アルゴリズムが進歩している。 しかし、いくつかの要因が一般化可能性を失う可能性がある実世界において、これらのアルゴリズムの堅牢性についてはほとんど知られていない。 これらの制限を理解し、克服することで、さまざまな臨床環境における皮膚状態の診断を支援する汎用AIの開発が可能になる。 本稿では,これまで見つからなかったデータに基づいてAIアルゴリズムを評価した場合,人口統計や画像キャプチャーモードではなく,皮膚の状態分布の違いがエラーの主な原因であることを実証する。 我々は、この一般化ギャップを埋める一連のステップを実証し、条件分布からトレーニング中にあまり見られないデータに富んだトレーニングデータまで、新たなソースに関する情報を徐々に必要とします。 また, 凍結埋め込みモデル上での分類層のみに比較して, エンドツーエンドの微調整と微調整を比較した。 我々のアプローチは、利用可能な情報とリソースに基づいて、AIアルゴリズムの新たな設定への適応を通知することができる。

Recently, there has been great progress in the ability of artificial intelligence (AI) algorithms to classify dermatological conditions from clinical photographs. However, little is known about the robustness of these algorithms in real-world settings where several factors can lead to a loss of generalizability. Understanding and overcoming these limitations will permit the development of generalizable AI that can aid in the diagnosis of skin conditions across a variety of clinical settings. In this retrospective study, we demonstrate that differences in skin condition distribution, rather than in demographics or image capture mode are the main source of errors when an AI algorithm is evaluated on data from a previously unseen source. We demonstrate a series of steps to close this generalization gap, requiring progressively more information about the new source, ranging from the condition distribution to training data enriched for data less frequently seen during training. Our results also suggest comparable performance from end-to-end fine tuning versus fine tuning solely the classification layer on top of a frozen embedding model. Our approach can inform the adaptation of AI algorithms to new settings, based on the information and resources available.
翻訳日:2024-02-27 17:58:44 公開日:2024-02-23
# 公平な多変量適応回帰スプラインによる等価性と透明性の確保

Fair Multivariate Adaptive Regression Splines for Ensuring Equity and Transparency ( http://arxiv.org/abs/2402.15561v1 )

ライセンス: Link先を確認
Parian Haghighat, Denisa G'andara, Lulu Kang, Hadis Anahideh(参考訳) 予測分析は教育を含む様々な領域で広く使われ、意思決定と成果の改善に使われている。 しかし、多くの予測モデルはプロプライエタリであり、研究者や実践者による評価や修正にはアクセスできない。 さらに、予測モデルはしばしば不透明で、それを使用する役人には理解できないため、信頼と有用性が低下する。 さらに、予測モデルは、社会の多くの部門で行われているように、バイアスや不平等を導入または悪化させる可能性がある。 したがって、異なる利害関係者によって容易に採用され、適応できる透明性、解釈可能、公正な予測モデルが必要である。 本稿では,多変量適応回帰スプライン(MARS)に基づく公正度予測モデルを提案する。 MARSは、特徴選択を行い、非線形関係を扱い、解釈可能な決定ルールを生成し、変数の最適分割基準を導出する非パラメトリック回帰モデルである。 具体的には、公正性を結び目最適化アルゴリズムに統合し、それがどのように公正な結び目配置をもたらすかの理論的および実証的な証拠を提供する。 実世界のデータにfairMARSモデルを適用し、精度とエクイティの観点からその有効性を実証する。 本稿は,社会的善に対する責任と倫理的予測分析の進歩に寄与する。

Predictive analytics is widely used in various domains, including education, to inform decision-making and improve outcomes. However, many predictive models are proprietary and inaccessible for evaluation or modification by researchers and practitioners, limiting their accountability and ethical design. Moreover, predictive models are often opaque and incomprehensible to the officials who use them, reducing their trust and utility. Furthermore, predictive models may introduce or exacerbate bias and inequity, as they have done in many sectors of society. Therefore, there is a need for transparent, interpretable, and fair predictive models that can be easily adopted and adapted by different stakeholders. In this paper, we propose a fair predictive model based on multivariate adaptive regression splines(MARS) that incorporates fairness measures in the learning process. MARS is a non-parametric regression model that performs feature selection, handles non-linear relationships, generates interpretable decision rules, and derives optimal splitting criteria on the variables. Specifically, we integrate fairness into the knot optimization algorithm and provide theoretical and empirical evidence of how it results in a fair knot placement. We apply our fairMARS model to real-world data and demonstrate its effectiveness in terms of accuracy and equity. Our paper contributes to the advancement of responsible and ethical predictive analytics for social good.
翻訳日:2024-02-27 17:58:26 公開日:2024-02-23
# 臨界量子センシングの最適性と雑音耐性

Optimality and Noise-Resilience of Critical Quantum Sensing ( http://arxiv.org/abs/2402.15559v1 )

ライセンス: Link先を確認
Uesli Alushi, Wojciech G\'orecki, Simone Felicetti, Roberto Di Candia(参考訳) 単一モード二次ハミルトニアンの周波数推定を行うために,臨界量子センシングとパッシブ量子戦略を比較した。 ユニタリの場合、どちらの戦略も光子数と精度2次スケーリングを達成するが、散逸の存在下では、これは重要な戦略にのみ当てはまる。 また、例外的なポイントやしきい値を超えて作業することで、サブ最適パフォーマンスが得られます。 この重要な拡張は、開放臨界力学における過渡的レジームの出現によるものであり、温度変化に不変である。 時間とシステムのサイズを資源として考えるとき、両方の戦略について、精度は、基本境界に従って、総時間と光子の数の積と線形にスケールする。 しかし,準備時間と測定時間が無視できない場合,クリティカルプロトコルは最適受動的戦略よりも優れていることを示す。

We compare critical quantum sensing to passive quantum strategies to perform frequency estimation, in the case of single-mode quadratic Hamiltonians. We show that, while in the unitary case both strategies achieve precision scaling quadratic with the number of photons, in the presence of dissipation this is true only for critical strategies. We also establish that working at the exceptional point or beyond threshold provides sub-optimal performance. This critical enhancement is due to the emergence of a transient regime in the open critical dynamics, and is invariant to temperature changes. When considering both time and system size as resources, for both strategies the precision scales linearly with the product of the total time and the number of photons, in accordance with fundamental bounds. However, we show that critical protocols outperform optimal passive strategies if preparation and measurement times are not negligible.
翻訳日:2024-02-27 17:58:07 公開日:2024-02-23
# キラル巨原子によるマルコビアン性制御

Controlling Markovianity with Chiral Giant Atoms ( http://arxiv.org/abs/2402.15556v1 )

ライセンス: Link先を確認
Federico Roccati, Dario Cilluffo(参考訳) 最近の実験では、マイクロ波光導波路に結合した巨大な人工原子のキラル挙動が示されている。 これは、人工原子と導波路の2つの非局所カップリングにおける複素位相のエンジニアリングによって実現される。 結合点間の位相差と結合点間の蓄積光位相が任意に調整されると、最大キラリティが達成される。 パレルでは、導波路に結合した巨大原子は、自己干渉効果による非マルコフ力学を観測するためのパラダイム的設定である。 ここでは、カップリングの複雑な位相のみに依存する巨大原子物理学における新しい効果について報告する。 結合の位相を調節することにより、巨大原子は本質的に時間遅れによらずマルコフ体制に入ることができることを示す。

A recent experimental work has demonstrated the chiral behavior of a giant artificial atom coupled to a microwave photonic waveguide. This is made possible through the engineering of complex phases in the two non-local couplings of the artificial atom to the waveguide. When the phase difference between the couplings and the accumulated optical phase between the coupling points are judiciously tuned, maximal chirality is achieved. In parell, giant atoms coupled to a waveguide are paradigmatic setups to observe non-Markovian dynamics due to self-interference effects. Here we report on a novel effect in giant atom physics that solely depends on the complex phases of the couplings. We show that, by adjusting the couplings' phases, a giant atom can, counterintuitively, enter the Markovian regime irrespectively of any inherent time delay.
翻訳日:2024-02-27 17:57:49 公開日:2024-02-23
# 不完全データから周期因果モデルを学ぶ

Learning Cyclic Causal Models from Incomplete Data ( http://arxiv.org/abs/2402.15625v1 )

ライセンス: Link先を確認
Muralikrishnna G. Sethuraman, Faramarz Fekri(参考訳) 因果学習は統計学と科学の基本的な問題であり、目に見えない治療がシステムに与える影響を予測する洞察を提供する。 このトピックの最近の進歩にもかかわらず、ほとんどの既存の因果発見アルゴリズムは2つの主要な仮定の下で動作している。 i) 基礎となるグラフは非巡回であり、 (ii)利用可能データが完了した。 これらの仮定は、多くの現実世界のシステムがフィードバックループ(例えば、生物学的システム)を含んでいるため問題になりうる。 本研究では、周期因果グラフを部分的に欠落したデータから学習するための新しいフレームワーク、MissNODAGSを提案する。 付加雑音モデルの下で、MissNODAGSは、欠落したデータを入力し、各トレーニングステップにおけるデータの可視部分のログ類似度を最大化することで、予測最大化(EM)フレームワークの原則に従って因果グラフを学習する。 人工実験と実世界の単細胞摂動データを用いて, 一部欠落した介入データに対する因果学習と最先端のインプテーション技術との比較により, 高い性能を示す。

Causal learning is a fundamental problem in statistics and science, offering insights into predicting the effects of unseen treatments on a system. Despite recent advances in this topic, most existing causal discovery algorithms operate under two key assumptions: (i) the underlying graph is acyclic, and (ii) the available data is complete. These assumptions can be problematic as many real-world systems contain feedback loops (e.g., biological systems), and practical scenarios frequently involve missing data. In this work, we propose a novel framework, named MissNODAGS, for learning cyclic causal graphs from partially missing data. Under the additive noise model, MissNODAGS learns the causal graph by alternating between imputing the missing data and maximizing the expected log-likelihood of the visible part of the data in each training step, following the principles of the expectation-maximization (EM) framework. Through synthetic experiments and real-world single-cell perturbation data, we demonstrate improved performance when compared to using state-of-the-art imputation techniques followed by causal learning on partially missing interventional data.
翻訳日:2024-02-27 17:52:04 公開日:2024-02-23
# 推薦のための言語ベースのユーザプロファイル

Language-Based User Profiles for Recommendation ( http://arxiv.org/abs/2402.15623v1 )

ライセンス: Link先を確認
Joyce Zhou, Yijia Dai, Thorsten Joachims(参考訳) 従来の推奨手法(行列分解など)は、ユーザのプロファイルを高次元ベクトルとして表現する。 残念ながら、これらのベクターは解釈性や操縦性に欠けており、コールドスタート設定ではよく機能しない。 これらの欠点に対処するために、人間可読テキストとして表されるユーザプロファイルの使用について検討する。 本稿では,エンコーダとデコーダの両方が大きな言語モデル(LLM)であるエンコーダ/デコーダモデルである言語ベースのファクトリゼーションモデル(LFM)を提案する。 エンコーダLLMは、ユーザの評価履歴から、ユーザの関心事のコンパクトな自然言語プロファイルを生成する。 デコーダLLMは、この要約プロファイルを使用して予測下流タスクを完了します。 我々は,MovieLens データセットに対する LFM のアプローチを,ユーザの評価履歴から直接予測する行列係数化と LLM モデルと比較し,評価を行った。 コールドスタート設定では,本手法は行列分解よりも精度が高いことがわかった。 さらに, コンパクトで可読性の高い要約文の生成は, 解釈性が向上し, モデル入力長が短くなる一方で, 直接的llm予測と相性が良い場合が多いことがわかった。 我々の研究成果は、今後の研究の方向性と潜在的な改善を動機付けている。

Most conventional recommendation methods (e.g., matrix factorization) represent user profiles as high-dimensional vectors. Unfortunately, these vectors lack interpretability and steerability, and often perform poorly in cold-start settings. To address these shortcomings, we explore the use of user profiles that are represented as human-readable text. We propose the Language-based Factorization Model (LFM), which is essentially an encoder/decoder model where both the encoder and the decoder are large language models (LLMs). The encoder LLM generates a compact natural-language profile of the user's interests from the user's rating history. The decoder LLM uses this summary profile to complete predictive downstream tasks. We evaluate our LFM approach on the MovieLens dataset, comparing it against matrix factorization and an LLM model that directly predicts from the user's rating history. In cold-start settings, we find that our method can have higher accuracy than matrix factorization. Furthermore, we find that generating a compact and human-readable summary often performs comparably with or better than direct LLM prediction, while enjoying better interpretability and shorter model input length. Our results motivate a number of future research directions and potential improvements.
翻訳日:2024-02-27 17:51:43 公開日:2024-02-23
# 事前学習によるnlpの効率的なアクティブラーニングに向けて

Towards Efficient Active Learning in NLP via Pretrained Representations ( http://arxiv.org/abs/2402.15613v1 )

ライセンス: Link先を確認
Artem Vysogorets, Achintya Gopal(参考訳) ファインチューニング大型言語モデル(LLM)は、今や幅広いアプリケーションにおけるテキスト分類の一般的なアプローチである。 ラベル付きドキュメントが不足する場合、アクティブラーニングはアノテーションの労力を節約するが、獲得イテレーション毎に巨大なモデルを再トレーニングする必要がある。 能動学習ループ内でのLLMの事前学習表現を用いて、この処理を劇的に高速化し、所望のラベル付きデータを取得すると、このラベル付きデータに対して異なる事前学習されたLLMを微調整し、最高の性能を達成する。 トレーニング済みのBERTとRoBERTaをバックボーンとして、一般的なテキスト分類ベンチマークで検証したように、我々の戦略はアクティブな学習ループを通した微調整と同様のパフォーマンスを得るが、桁違いの計算コストがかかる。 この手順で取得したデータは、事前トレーニングされたネットワークをまたいで一般化され、最終モデルの選択や、新しいバージョンのリリース時に更新の柔軟性が得られます。

Fine-tuning Large Language Models (LLMs) is now a common approach for text classification in a wide range of applications. When labeled documents are scarce, active learning helps save annotation efforts but requires retraining of massive models on each acquisition iteration. We drastically expedite this process by using pretrained representations of LLMs within the active learning loop and, once the desired amount of labeled data is acquired, fine-tuning that or even a different pretrained LLM on this labeled data to achieve the best performance. As verified on common text classification benchmarks with pretrained BERT and RoBERTa as the backbone, our strategy yields similar performance to fine-tuning all the way through the active learning loop but is orders of magnitude less computationally expensive. The data acquired with our procedure generalizes across pretrained networks, allowing flexibility in choosing the final model or updating it as newer versions get released.
翻訳日:2024-02-27 17:51:24 公開日:2024-02-23
# データ/モーメント駆動による集団力学の高速予測制御

Data/moment-driven approaches for fast predictive control of collective dynamics ( http://arxiv.org/abs/2402.15611v1 )

ライセンス: Link先を確認
Giacomo Albi, Sara Bicego, Michael Herty, Yuyang Huang, Dante Kalise, Chiara Segala(参考訳) 大規模粒子系のフィードバック制御合成についてモデル予測制御(mpc)の枠組みで概説する。 集団動力学の高次元特性は、各ステップ毎の高速オンライン動的最適化に基づく従来のmpcアルゴリズムの性能を阻害する。 mpcの代替案が2つ提案されている。 まず,最適フィードバック法則のオフライン近似における教師あり学習手法の利用について述べる。 次に,粒子アンサンブルのマクロ量に基づく力学の逐次線形化に基づく手順について検討する。 どちらのアプローチも、大規模粒子システムのための高速でリアルタイムなフィードバック合成を可能にする最適制御問題のオンラインソリューションを回避する。 提案アルゴリズムの性能を評価する数値実験を行った。

Feedback control synthesis for large-scale particle systems is reviewed in the framework of model predictive control (MPC). The high-dimensional character of collective dynamics hampers the performance of traditional MPC algorithms based on fast online dynamic optimization at every time step. Two alternatives to MPC are proposed. First, the use of supervised learning techniques for the offline approximation of optimal feedback laws is discussed. Then, a procedure based on sequential linearization of the dynamics based on macroscopic quantities of the particle ensemble is reviewed. Both approaches circumvent the online solution of optimal control problems enabling fast, real-time, feedback synthesis for large-scale particle systems. Numerical experiments assess the performance of the proposed algorithms.
翻訳日:2024-02-27 17:51:06 公開日:2024-02-23
# 選択的「選択予測」:視覚言語推論における不要な回避

Selective "Selective Prediction": Reducing Unnecessary Abstention in Vision-Language Reasoning ( http://arxiv.org/abs/2402.15610v1 )

ライセンス: Link先を確認
Tejas Srinivasan, Jack Hessel, Tanmay Gupta, Bill Yuchen Lin, Yejin Choi, Jesse Thomason, Khyathi Raghavi Chandu(参考訳) 選択予測に関する先行研究は、不確実な解答を許容することにより、視覚言語モデル(VLM)からの誤予測を最小限に抑える。 しかし、不正確な予測に対する耐性が低い視覚言語システムを展開する場合、選択的予測は過度に注意され、多くの正しい予測に対しても頻繁に無視される可能性がある。 予測精度を低下させることなく、選択的視覚言語システムの過剰吸収を低減する推論時間アルゴリズムであるrecoverrを提案する。 VLMが低信頼の予測を行う場合、ReCoVERRを控える代わりに、予測のための追加の証拠を提供する画像に関連した手がかりを見つけようとする。 ReCoVERR は LLM を用いて VLM に関連する質問を提起し、高信頼の証拠を収集し、もし十分な証拠があれば、システムが棄権する代わりに予測を行う。 ReCoVERRは、2つのVLM(BLIP2とInstructBLIP)をシステム精度を低下させることなく、バニラ選択予測よりも最大20%多くのA-OKVQAタスクに答えることができる。

Prior work on selective prediction minimizes incorrect predictions from vision-language models (VLMs) by allowing them to abstain from answering when uncertain. However, when deploying a vision-language system with low tolerance for inaccurate predictions, selective prediction may be over-cautious and abstain too frequently, even on many correct predictions. We introduce ReCoVERR, an inference-time algorithm to reduce the over-abstention of a selective vision-language system without decreasing prediction accuracy. When the VLM makes a low-confidence prediction, instead of abstaining ReCoVERR tries to find relevant clues in the image that provide additional evidence for the prediction. ReCoVERR uses an LLM to pose related questions to the VLM, collects high-confidence evidences, and if enough evidence confirms the prediction the system makes a prediction instead of abstaining. ReCoVERR enables two VLMs, BLIP2 and InstructBLIP, to answer up to 20% more questions on the A-OKVQA task than vanilla selective prediction without decreasing system accuracy, thus improving overall system reliability.
翻訳日:2024-02-27 17:50:58 公開日:2024-02-23
# 機械学習に基づく性能最適化のためのコンプリートシーケンス

Machine Learning-Based Completions Sequencing for Well Performance Optimization ( http://arxiv.org/abs/2402.15608v1 )

ライセンス: Link先を確認
Anjie Liu, Jinglang W. Sun, Anh Ngo, Ademide O. Mabadeje, Jose L. Hernandez-Mejia(参考訳) 長期油田生産を最適化するための正確な開発パラメータを確立するには、油田開発が複雑であり、長期油田生産を推定する不確実性のため、時間と労力を要する。 伝統的に石油・ガス会社は、生産予測に本質的に計算コストのかかるシミュレーションソフトウェアを使用している。 このように、機械学習のアプローチは、最近文学において、完了条件の強化による良質な開発を最適化する効率的な代替手段として活用されている。 このプロジェクトの主な目的は、多次元予測変数(すなわち、完了条件)の効果を統合して12ヶ月累積生産を正確に予測できる効果的な機械学習モデルを開発することである。 3つの予測回帰機械学習モデルが、ランダムフォレスト、勾配ブースティング、長期短期記憶モデルによる12ヶ月の累積石油生産を予測するために実装されている。 いずれのモデルも7.35から20.01万バレルの油分を根平均二乗誤差(rmse)値で累積生産予測を行った。 すべてのモデルが正確な予測をもたらすと仮定したが、結果は地下に信頼性と合理的な予測ツールを作成するためのさらなる改良が必要であることを示唆した。 本研究は, 長期生産を最大化するために, 完了シークエンシングのための最適モデルを作成しなかったが, 機械学習モデルだけでは, この問題に対して自己充足性がないことがわかった。 したがって、包括的機能エンジニアリングやハイブリッドまたはサロゲートモデル(例えば、結合物理学で還元されたモデルと機械学習モデル)の使用を探求し、完了シーケンシングワークフローの進行に重要な貢献をすることなど、大幅な改善が期待できる。

Establishing accurate field development parameters to optimize long-term oil production takes time and effort due to the complexity of oil well development, and the uncertainty in estimating long-term well production. Traditionally, oil and gas companies use simulation software that are inherently computationally expensive to forecast production. Thus, machine learning approaches are recently utilized in literature as an efficient alternative to optimize well developments by enhancing completion conditions. The primary goal of this project is to develop effective machine-learning models that can integrate the effects of multidimensional predictive variables (i.e., completion conditions) to predict 12-Month Cumulative Production accurately. Three predictive regression machine learning models are implemented for predicting 12-month cumulative oil production: Random Forest, Gradient Boosting, and Long Short-Term Memory Models. All three models yielded cumulative production predictions with root mean squared error (RMSE ) values ranging from 7.35 to 20.01 thousand barrels of oil. Although we hypothesized that all models would yield accurate predictions, the results indicated a crucial need for further refinement to create reliable and rational predictive tools in the subsurface. While this study did not produce optimal models for completion sequencing to maximize long-term production, we established that machine learning models alone are not self-sufficient for problems of this nature. Hence, there is potential for significant improvement, including comprehensive feature engineering, and a recommendation of exploring the use of hybrid or surrogate models (i.e., coupling physics reduced models and machine learning models), to ascertain significant contribution to the progress of completion sequencing workflows.
翻訳日:2024-02-27 17:50:35 公開日:2024-02-23
# 効率的な文脈学習のための非線形トランスフォーマの訓練--理論的学習と一般化分析

Training Nonlinear Transformers for Efficient In-Context Learning: A Theoretical Learning and Generalization Analysis ( http://arxiv.org/abs/2402.15607v1 )

ライセンス: Link先を確認
Hongkang Li, Meng Wang, Songtao Lu, Xiaodong Cui, Pin-Yu Chen(参考訳) トランスフォーマーベースの大規模言語モデルでは、トレーニング済みのモデルがそのタスクから入力出力の例でクエリを増大させるだけで、微調整なしで新しいタスクを処理できるような、コンテキスト内学習機能が目覚ましい。 実証的な成功にもかかわらず、トランスフォーマーをトレーニングしてICLとそれに対応するICL能力を達成するメカニズムは、トランスフォーマーの非線形自己注意と非線形活性化に起因する非凸トレーニング問題を解析する技術的な課題により、ほとんど解明されている。 本稿では,非線形自己着脱と非線形mlpを持つ変圧器のトレーニングダイナミクスと,得られたモデルのicl一般化能力について,最初の理論的解析を行う。 バイナリ分類タスクのグループに着目し,これらのタスクのサブセットからのデータを用いてトランスフォーマーを訓練し,各要素のICL一般化性能への影響を,データ分散シフトの有無に関わらず,残りの未確認タスクに与える影響を定量化する。 また,学習用トランスフォーマの異なるコンポーネントがicl性能にどのように寄与するかについても分析した。 さらに,モデルプルーニングがicl性能に与える影響を初めて理論的に解析し,適切なマグニチュードに基づくプルーニングがiclに与える影響を最小限に抑えることを証明した。 これらの理論的発見は数値実験によって正当化される。

Transformer-based large language models have displayed impressive in-context learning capabilities, where a pre-trained model can handle new tasks without fine-tuning by simply augmenting the query with some input-output examples from that task. Despite the empirical success, the mechanics of how to train a Transformer to achieve ICL and the corresponding ICL capacity is mostly elusive due to the technical challenges of analyzing the nonconvex training problems resulting from the nonlinear self-attention and nonlinear activation in Transformers. To the best of our knowledge, this paper provides the first theoretical analysis of the training dynamics of Transformers with nonlinear self-attention and nonlinear MLP, together with the ICL generalization capability of the resulting model. Focusing on a group of binary classification tasks, we train Transformers using data from a subset of these tasks and quantify the impact of various factors on the ICL generalization performance on the remaining unseen tasks with and without data distribution shifts. We also analyze how different components in the learned Transformers contribute to the ICL performance. Furthermore, we provide the first theoretical analysis of how model pruning affects the ICL performance and prove that proper magnitude-based pruning can have a minimal impact on ICL while reducing inference costs. These theoretical findings are justified through numerical experiments.
翻訳日:2024-02-27 17:50:06 公開日:2024-02-23
# 個人別フェアバイナリ分類

Differentially Private Fair Binary Classifications ( http://arxiv.org/abs/2402.15603v1 )

ライセンス: Link先を確認
Hrad Ghoukasian, Shahab Asoodeh(参考訳) 本研究では,差分プライバシーと公正性の制約下でのバイナリ分類について検討する。 まず,公平性保証だけで分類器を学習するためのデカップリング手法に基づくアルゴリズムを提案する。 このアルゴリズムは、異なる分類群で訓練された分類器を取り入れ、統計的なパリティを満たす単一の分類器を生成する。 次にこのアルゴリズムを洗練して、差分プライバシーを取り込む。 最終アルゴリズムの性能は、プライバシー、公正性、実用性保証の観点から厳格に検証される。 成人およびクレジットカードデータセットで実施した経験的評価から,当社のアルゴリズムは,公平性保証において,同じレベルのプライバシとユーティリティを維持しつつ,最先端技術よりも優れています。

In this work, we investigate binary classification under the constraints of both differential privacy and fairness. We first propose an algorithm based on the decoupling technique for learning a classifier with only fairness guarantee. This algorithm takes in classifiers trained on different demographic groups and generates a single classifier satisfying statistical parity. We then refine this algorithm to incorporate differential privacy. The performance of the final algorithm is rigorously examined in terms of privacy, fairness, and utility guarantees. Empirical evaluations conducted on the Adult and Credit Card datasets illustrate that our algorithm outperforms the state-of-the-art in terms of fairness guarantees, while maintaining the same level of privacy and utility.
翻訳日:2024-02-27 17:49:40 公開日:2024-02-23
# スコアに基づく拡散モデルのミニマックス最適性:密度下界仮定を超えて

Minimax Optimality of Score-based Diffusion Models: Beyond the Density Lower Bound Assumptions ( http://arxiv.org/abs/2402.15602v1 )

ライセンス: Link先を確認
Kaihong Zhang, Heqi Yin, Feng Liang, Jingbo Liu(参考訳) 非パラメトリック統計の観点から,大規模シナリオにおけるスコアベース拡散モデルサンプリングの漸近誤差について検討した。 カーネルベースのスコア推定器は、$p_0*\mathcal{n}(0,t\boldsymbol{i}_d)$のスコア関数に対して、$\widetilde{o}\left(n^{-1} t^{-\frac{d+2}{2}}(t^{\frac{d}{2}} \vee 1)\right)$の最適平均二乗誤差を達成する。 その結果、拡散モデルによって生成されたサンプルの分布の完全な変動誤差について、わずかな準ガウス的仮定の下で、$\widetilde{o}\left(n^{-1/2} t^{-\frac{d}{4}}\right)$ upperboundが得られる。 さらに、$p_0$ が $\beta$-Sobolev 空間の非パラメトリック族に属し、$\beta\le 2$ が早期停止戦略を採用することにより、拡散モデルはほぼ(対数因子まで)最小値であることがわかる。 これは、非パラメトリック族に対する拡散モデルのミニマックス最適性の以前の証明における$p_0$に対する決定的な下界仮定を除去する。

We study the asymptotic error of score-based diffusion model sampling in large-sample scenarios from a non-parametric statistics perspective. We show that a kernel-based score estimator achieves an optimal mean square error of $\widetilde{O}\left(n^{-1} t^{-\frac{d+2}{2}}(t^{\frac{d}{2}} \vee 1)\right)$ for the score function of $p_0*\mathcal{N}(0,t\boldsymbol{I}_d)$, where $n$ and $d$ represent the sample size and the dimension, $t$ is bounded above and below by polynomials of $n$, and $p_0$ is an arbitrary sub-Gaussian distribution. As a consequence, this yields an $\widetilde{O}\left(n^{-1/2} t^{-\frac{d}{4}}\right)$ upper bound for the total variation error of the distribution of the sample generated by the diffusion model under a mere sub-Gaussian assumption. If in addition, $p_0$ belongs to the nonparametric family of the $\beta$-Sobolev space with $\beta\le 2$, by adopting an early stopping strategy, we obtain that the diffusion model is nearly (up to log factors) minimax optimal. This removes the crucial lower bound assumption on $p_0$ in previous proofs of the minimax optimality of the diffusion model for nonparametric families.
翻訳日:2024-02-27 17:49:29 公開日:2024-02-23
# DeepSet SimCLR: 病理表現学習を改善する自己教師型深層集合

DeepSet SimCLR: Self-supervised deep sets for improved pathology representation learning ( http://arxiv.org/abs/2402.15598v1 )

ライセンス: Link先を確認
David Torpey and Richard Klein(参考訳) 多くの場合、自己教師付き学習の3D医療データへの適用は、成功した2Dネットワークアーキテクチャの3D変種を使用する。 有望なアプローチではあるものの、トレーニングの要求は大幅に大きくなり、これによりこれらの手法の適用性は、控えめな計算資源を持つものから切り離される。 そこで本研究では,これらのデータセット固有の3次元特性を暗黙的にモデル化することで,標準2次元SSLアルゴリズムの改善を目指す。 我々は,強いベースラインモデルに基づく2つの変種を提案し,これら2つの変種が様々な下流タスクにおいてベースラインを上回っていることを示す。 重要な点として,従来の3次元医療データに対する2次元および3次元のアプローチとは対照的に,提案手法はいずれもベースライン上の無視可能な追加オーバーヘッドを導入し,医療応用におけるこれらのアプローチの民主化を改善した。

Often, applications of self-supervised learning to 3D medical data opt to use 3D variants of successful 2D network architectures. Although promising approaches, they are significantly more computationally demanding to train, and thus reduce the widespread applicability of these methods away from those with modest computational resources. Thus, in this paper, we aim to improve standard 2D SSL algorithms by modelling the inherent 3D nature of these datasets implicitly. We propose two variants that build upon a strong baseline model and show that both of these variants often outperform the baseline in a variety of downstream tasks. Importantly, in contrast to previous works in both 2D and 3D approaches for 3D medical data, both of our proposals introduce negligible additional overhead over the baseline, improving the democratisation of these approaches for medical applications.
翻訳日:2024-02-27 17:48:54 公開日:2024-02-23
# ハイブリッドモデルによるWak Triphone/BPEアライメントの交互化による終端ASRの改善

Alternating Weak Triphone/BPE Alignment Supervision from Hybrid Model Improves End-to-End ASR ( http://arxiv.org/abs/2402.15594v1 )

ライセンス: Link先を確認
Jintao Jiang, Yingbo Gao, Mohammad Zeineldeen, Zoltan Tuske(参考訳) 本稿では、エンドツーエンドのモデルトレーニングを改善するために、弱いトリホン/BPEアライメントの監督を交互に行うことを提案する。 この目的のために、既存のハイブリッドASRシステムを用いて、トリフォンとBPEアライメントを抽出する。 そして、これらのアライメント上で計算されたクロスエントロピーに基づく中間補助損失を、三調アライメント用エンコーダ及びBPEアライメント用エンコーダの中間層表現により正規化効果を得る。 弱い監督は、0.5のパラメータで強いラベル平滑化によって達成される。 TED-Lium 2の実験結果から, トリフォンまたはBPEアライメントに基づく弱監視が標準CTC補助損失よりもASR性能を向上させることが示された。 さらに、それらの組み合わせは単語エラー率をさらに下げる。 また,モデルトレーニング中の補助作業の交代について検討し,さらなる性能向上について検討した。 総じて,提案手法は,ctc正規化ベースラインシステム上で10%以上の誤差率削減を実現する。

In this paper, alternating weak triphone/BPE alignment supervision is proposed to improve end-to-end model training. Towards this end, triphone and BPE alignments are extracted using a pre-existing hybrid ASR system. Then, regularization effect is obtained by cross-entropy based intermediate auxiliary losses computed on such alignments at a mid-layer representation of the encoder for triphone alignments and at the encoder for BPE alignments. Weak supervision is achieved through strong label smoothing with parameter of 0.5. Experimental results on TED-LIUM 2 indicate that either triphone or BPE alignment based weak supervision improves ASR performance over standard CTC auxiliary loss. Moreover, their combination lowers the word error rate further. We also investigate the alternation of the two auxiliary tasks during model training, and additional performance gain is observed. Overall, the proposed techniques result in over 10% relative error rate reduction over a CTC-regularized baseline system.
翻訳日:2024-02-27 17:48:37 公開日:2024-02-23
# 経路HJB演算子を用いた確率系のニューラル最適制御

Neural optimal controller for stochastic systems via pathwise HJB operator ( http://arxiv.org/abs/2402.15592v1 )

ライセンス: Link先を確認
Zhe Jiao, Xiaoyan Luo, Xinlei Yi(参考訳) 本研究の目的は,物理学習と動的プログラミングに基づく高次元確率制御問題に対する深層学習に基づくアルゴリズムの開発である。 ハミルトン-ヤコビ-ベルマン方程式(HJB)の解の確率的表現に依存する古典的な深層学習法とは異なり、HJB方程式に付随するパスワイズ作用素を導入し、物理インフォームドラーニングの問題を定義する。 最適制御が明示的な表現を持つかどうかにより、2つの数値解法が提案されている。 提案手法では, トラルニケーション, 近似, 最適化誤差が精度に与える影響について, 誤差解析を行う。 提案アルゴリズムの性能を示すために,様々な応用の数値計算結果を示す。

The aim of this work is to develop deep learning-based algorithms for high-dimensional stochastic control problems based on physics-informed learning and dynamic programming. Unlike classical deep learning-based methods relying on a probabilistic representation of the solution to the Hamilton--Jacobi--Bellman (HJB) equation, we introduce a pathwise operator associated with the HJB equation so that we can define a problem of physics-informed learning. According to whether the optimal control has an explicit representation, two numerical methods are proposed to solve the physics-informed learning problem. We provide an error analysis on how the truncation, approximation and optimization errors affect the accuracy of these methods. Numerical results on various applications are presented to illustrate the performance of the proposed algorithms.
翻訳日:2024-02-27 17:48:18 公開日:2024-02-23
# RecWizard: モジュール的でポータブルなモデルと対話型ユーザインタフェースを備えた対話型レコメンデーションツールキット

RecWizard: A Toolkit for Conversational Recommendation with Modular, Portable Models and Interactive User Interface ( http://arxiv.org/abs/2402.15591v1 )

ライセンス: Link先を確認
Zeyuan Zhang, Tanmay Laud, Zihang He, Xiaojie Chen, Xinshuang Liu, Zhouhang Xie, Julian McAuley, Zhankui He(参考訳) 本稿では,RecWizard for Conversational Recommender Systems (CRS)という新しいPythonツールキットを提案する。 RecWizardは、Huggingfaceエコシステムのベストプラクティスを引き合いに出して、モデルとインタラクティブなユーザーインターフェイスの開発をサポートする。 RecWizardを使ったCRSは、モジュール式でポータブルでインタラクティブで、LLM(Large Language Models)に親しみやすいもので、学習プロセスを合理化し、CRS研究のさらなる労力を削減する。 RecWizardの詳細については、GitHub https://github.com/McAuley-Lab/RecWizardを参照してほしい。

We present a new Python toolkit called RecWizard for Conversational Recommender Systems (CRS). RecWizard offers support for development of models and interactive user interface, drawing from the best practices of the Huggingface ecosystems. CRS with RecWizard are modular, portable, interactive and Large Language Models (LLMs)-friendly, to streamline the learning process and reduce the additional effort for CRS research. For more comprehensive information about RecWizard, please check our GitHub https://github.com/McAuley-Lab/RecWizard.
翻訳日:2024-02-27 17:48:04 公開日:2024-02-23
# 学術書評文からメタレビュー資料を作成するためのLCMのプロンプト

Prompting LLMs to Compose Meta-Review Drafts from Peer-Review Narratives of Scholarly Manuscripts ( http://arxiv.org/abs/2402.15589v1 )

ライセンス: Link先を確認
Shubhra Kanti Karmaker Santu, Sanjeev Kumar Sinha, Naman Bansal, Alex Knipper, Souvika Sarkar, John Salvador, Yash Mahajan, Sri Guttikonda, Mousumi Akter, Matthew Freestone, Matthew C. Williams Jr(参考訳) 学術的ピアレビュープロセスにおいて最も重要なものの1つは、複数の専門家によるピアレビュー物語に基づいた学術的原稿のコアな貢献、強み、弱みを理解し、それらの複数の専門家の視点を簡潔な全体論的概要に要約するメタレビューを作成することである。 生成型AI、特にLarge Language Models(LLMs)の最近の大きな発展を考えると、学術的なピアレビュー環境でそのようなメタレビューを生成する上でのLLMの有用性を厳格に研究することは非常に魅力的である。 本稿では,GPT-3.5,LLaMA2,PaLM2の3種類のLLMを用いて,最近提案されたTELeR分類に基づいて,異なるタイプのプロンプトでメタレビューを自動生成するケーススタディを行う。 最後に,LLMが生み出すメタリビューの質的研究を行い,この複雑なタスクに対してLLMを促進させるための知見と勧告を要約する。

One of the most important yet onerous tasks in the academic peer-reviewing process is composing meta-reviews, which involves understanding the core contributions, strengths, and weaknesses of a scholarly manuscript based on peer-review narratives from multiple experts and then summarizing those multiple experts' perspectives into a concise holistic overview. Given the latest major developments in generative AI, especially Large Language Models (LLMs), it is very compelling to rigorously study the utility of LLMs in generating such meta-reviews in an academic peer-review setting. In this paper, we perform a case study with three popular LLMs, i.e., GPT-3.5, LLaMA2, and PaLM2, to automatically generate meta-reviews by prompting them with different types/levels of prompts based on the recently proposed TELeR taxonomy. Finally, we perform a detailed qualitative study of the meta-reviews generated by the LLMs and summarize our findings and recommendations for prompting LLMs for this complex task.
翻訳日:2024-02-27 17:47:51 公開日:2024-02-23
# 騒音に対する形状モデリングに関する研究

A Study of Shape Modeling Against Noise ( http://arxiv.org/abs/2402.15587v1 )

ライセンス: Link先を確認
Cheng Long, Adrian Barbu(参考訳) 形状モデリングはコンピュータビジョンや医用イメージングに多くの応用が考えられる課題である。 文献には様々な形状モデリング手法があり、それぞれに利点と応用がある。 しかし、多くの形状モデリング手法では、欠片や外れ値を持つ形状を扱うのが困難である。 本稿では,多くのコンピュータビジョンや医用画像の応用の中心であり,文献にはあまり注目されていない形状モデリングの基本的な問題である形状分極について述べる。 本報告では, 形状の摂動に使用できる6種類のノイズと, 騒音レベルの客観的な測定方法, 形状の遮音性能の比較方法を紹介する。 最後に,この課題を達成できる7つの手法について評価し,そのうち6つは深層学習に基づく。

Shape modeling is a challenging task with many potential applications in computer vision and medical imaging. There are many shape modeling methods in the literature, each with its advantages and applications. However, many shape modeling methods have difficulties handling shapes that have missing pieces or outliers. In this regard, this paper introduces shape denoising, a fundamental problem in shape modeling that lies at the core of many computer vision and medical imaging applications and has not received enough attention in the literature. The paper introduces six types of noise that can be used to perturb shapes as well as an objective measure for the noise level and for comparing methods on their shape denoising capabilities. Finally, the paper evaluates seven methods capable of accomplishing this task, of which six are based on deep learning, including some generative models.
翻訳日:2024-02-27 17:47:32 公開日:2024-02-23
# 進化的アルゴリズムによる低周波ブラックボックスバックドア攻撃

Low-Frequency Black-Box Backdoor Attack via Evolutionary Algorithm ( http://arxiv.org/abs/2402.15653v1 )

ライセンス: Link先を確認
Yanqi Qiao, Dazhuang Liu, Rui Wang, Kaitai Liang(参考訳) 畳み込みニューラルネットワーク(cnns)はコンピュータビジョンタスクで成功を収めているが、バックドア攻撃に弱い。 このような攻撃は、特定のトリガーパターンで攻撃者による予測を行うために、被害者モデルを誤解させる可能性がある。 これまでは、既存の攻撃のトリガー注入は主に空間領域に限られていた。 近年の研究は、周波数領域に特定のパターンを植えることの知覚的特性を利用しており、これは画素領域における不明瞭なピクセルの摂動のみを反映している。 しかしながら、ブラックボックスのセットアップでは、トレーニングプロセスのアクセシビリティは、より複雑なトリガー設計をレンダリングすることが多い。 既存の周波数攻撃は単にスペクトルの大きさを手作りし、クリーンデータと有毒データの間の異常な周波数差を導入し、画像処理操作(損失圧縮やフィルタリングなど)によって取り除かれるリスクを負う。 本稿では、周波数スペクトルの低周波成分を最小に摂動させ、空間空間における知覚的類似性を同時に維持するロバストな低周波ブラックボックスバックドア攻撃(lfba)を提案する。 この攻撃の重要な洞察は、高い攻撃効率、画像変換防御に対する堅牢性、双対空間におけるステルス性を実現する低周波領域への最適なトリガーの探索を制限することである。 シミュレーションアニーリング (SA) を用いて, 被害者分類器の知識に頼ることなく, 操作周波数帯数や各周波数成分の摂動を含む周波数トリガの特性を最適化する。 実世界のデータセットに関する大規模な実験は、LFBAの画像処理操作と最先端のバックドアディフェンスに対する有効性と堅牢性、空間空間と周波数空間の両方に固有のステルス性を検証する。

While convolutional neural networks (CNNs) have achieved success in computer vision tasks, it is vulnerable to backdoor attacks. Such attacks could mislead the victim model to make attacker-chosen prediction with a specific trigger pattern. Until now, the trigger injection of existing attacks is mainly limited to spatial domain. Recent works take advantage of perceptual properties of planting specific patterns in the frequency domain, which only reflect indistinguishable pixel-wise perturbations in pixel domain. However, in the black-box setup, the inaccessibility of training process often renders more complex trigger designs. Existing frequency attacks simply handcraft the magnitude of spectrum, introducing anomaly frequency disparities between clean and poisoned data and taking risks of being removed by image processing operations (such as lossy compression and filtering). In this paper, we propose a robust low-frequency black-box backdoor attack (LFBA), which minimally perturbs low-frequency components of frequency spectrum and maintains the perceptual similarity in spatial space simultaneously. The key insight of our attack restrict the search for the optimal trigger to low-frequency region that can achieve high attack effectiveness, robustness against image transformation defenses and stealthiness in dual space. We utilize simulated annealing (SA), a form of evolutionary algorithm, to optimize the properties of frequency trigger including the number of manipulated frequency bands and the perturbation of each frequency component, without relying on the knowledge from the victim classifier. Extensive experiments on real-world datasets verify the effectiveness and robustness of LFBA against image processing operations and the state-of-the-art backdoor defenses, as well as its inherent stealthiness in both spatial and frequency space, making it resilient against frequency inspection.
翻訳日:2024-02-27 17:42:48 公開日:2024-02-23
# 安全臨界応用のための目的抑制型マルチ制約安全RL

Multi-Constraint Safe RL with Objective Suppression for Safety-Critical Applications ( http://arxiv.org/abs/2402.15650v1 )

ライセンス: Link先を確認
Zihan Zhou, Jonathan Booher, Wei Liu, Aleksandr Petiushko, Animesh Garg(参考訳) 複数の制約のある安全な強化学習タスクは、現実世界で非常に一般的であるにもかかわらず、難しい領域です。 そこで本研究では,目的を最大化するタスク報酬を安全評論家に適応的に抑制する新しい手法であるobjective reductionを提案する。 我々は、不正な行動が悲惨な結果をもたらす可能性のある自動運転ドメインを含む、2つのマルチコンストラクション安全ドメインにおける客観的な抑制をベンチマークする。 実験により,提案手法は,既存の安全RLアルゴリズムと組み合わせることで,ベースラインが達成したタスク報酬と極めて少ない制約違反で一致できることを実証した。

Safe reinforcement learning tasks with multiple constraints are a challenging domain despite being very common in the real world. To address this challenge, we propose Objective Suppression, a novel method that adaptively suppresses the task reward maximizing objectives according to a safety critic. We benchmark Objective Suppression in two multi-constraint safety domains, including an autonomous driving domain where any incorrect behavior can lead to disastrous consequences. Empirically, we demonstrate that our proposed method, when combined with existing safe RL algorithms, can match the task reward achieved by our baselines with significantly fewer constraint violations.
翻訳日:2024-02-27 17:42:15 公開日:2024-02-23
# MambaIR: ステートスペースモデルによる画像復元のためのシンプルなベースライン

MambaIR: A Simple Baseline for Image Restoration with State-Space Model ( http://arxiv.org/abs/2402.15648v1 )

ライセンス: Link先を確認
Hang Guo, Jinmin Li, Tao Dai, Zhihao Ouyang, Xudong Ren, Shu-Tao Xia(参考訳) 近年,畳み込みニューラルネットワークやトランスフォーマーなど,最新の深層ニューラルネットワークの進歩により,画像復元が大きな進展を遂げている。 しかしながら、既存の復元バックボーンは通常、固有の局所還元バイアスや二次計算の複雑さのために制限される。 近年、Selective Structured State Space Model(例えばMamba)は、線形複雑性を伴う長距離依存モデリングに大きな可能性を示しているが、まだ低レベルコンピュータビジョンでは未探索である。 本研究では,画像復元のための簡易かつ強固なベンチマークモデルであるmambairを導入する。 具体的には,バニラマンバの能力を高めるために畳み込みとチャネルアテンションを用いた残留状態空間ブロックをコアコンポーネントとして提案する。 このように、我々のMambaIRは、局所的なパッチの再発とチャネル間相互作用を利用して、復元固有の特徴表現を生成する。 例えば、MambaIRはTransformerベースのベースラインSwinIRを0.36dBまで上回り、同様の計算コストを用いるが、大域的な受容場を持つ。 コードは \url{https://github.com/csguoh/MambaIR} で入手できる。

Recent years have witnessed great progress in image restoration thanks to the advancements in modern deep neural networks e.g. Convolutional Neural Network and Transformer. However, existing restoration backbones are usually limited due to the inherent local reductive bias or quadratic computational complexity. Recently, Selective Structured State Space Model e.g., Mamba, has shown great potential for long-range dependencies modeling with linear complexity, but it is still under-explored in low-level computer vision. In this work, we introduce a simple but strong benchmark model, named MambaIR, for image restoration. In detail, we propose the Residual State Space Block as the core component, which employs convolution and channel attention to enhance the capabilities of the vanilla Mamba. In this way, our MambaIR takes advantage of local patch recurrence prior as well as channel interaction to produce restoration-specific feature representation. Extensive experiments demonstrate the superiority of our method, for example, MambaIR outperforms Transformer-based baseline SwinIR by up to 0.36dB, using similar computational cost but with a global receptive field. Code is available at \url{https://github.com/csguoh/MambaIR}.
翻訳日:2024-02-27 17:42:04 公開日:2024-02-23
# 超伝導量子ビットアレイにおけるギャップエンジニアリングによる残留高エネルギー衝撃事象

Resisting high-energy impact events through gap engineering in superconducting qubit arrays ( http://arxiv.org/abs/2402.15644v1 )

ライセンス: Link先を確認
Matt McEwen, Kevin C. Miao, Juan Atalaya, Alex Bilmes, Alex Crook, Jenna Bovaird, John Mark Kreikebaum, Nicholas Zobrist, Evan Jeffrey, Bicheng Ying, Andreas Bengtsson, Hung-Shen Chang, Andrew Dunsworth, Julian Kelly, Yaxing Zhang, Ebrahim Forati, Rajeev Acharya, Justin Iveland, Wayne Liu, Seon Kim, Brian Burkett, Anthony Megrant, Yu Chen, Charles Neill, Daniel Sank, Michel Devoret, Alex Opremcak(参考訳) qec(quantum error correction)は、大規模な量子ビット数へのスケーリングを通じて、フォールトトレラントな量子コンピューティングへの実用的なパスを提供する。 超伝導量子ビットアレイでは、高エネルギー衝突イベントは相関誤差を生じさせ、この主要な仮定に違反する。 このような現象の後、超伝導ギャップの上のエネルギーを持つフォノンはデバイス基板全体に伝播し、アレイ全体を通して準粒子(QP)密度が一時的に上昇する。 これらのQPsが量子ビットのジョセフソン接合をトンネルすると、相関誤差が生じる。 量子ビットのジョセフソン接合の異なる超伝導ギャップは、この形式のqpトンネルに抵抗する方法を提供する。 同じ基板上に強いギャップ工学と弱いギャップ工学を兼ね備えた全アルミニウムトランスモン量子ビットを作製することにより、高エネルギー衝撃イベントにおける真に異なる応答を観測する。 強いギャップエンジニアリングされた量子ビットは衝突イベント中にT1の劣化を示さないが、弱いギャップエンジニアリングされた量子ビットはT1の相関劣化を示さない。 また,強いギャップ工学量子ビットは光照射強度の増加によるqp中毒に対して頑健であり,弱いギャップ工学量子ビットはコヒーレンスが急速に劣化することを示した。 これらの結果に基づき、ギャップエンジニアリングは超伝導量子ビットアレイにおけるQECに対する高エネルギー影響の脅威を取り除く。

Quantum error correction (QEC) provides a practical path to fault-tolerant quantum computing through scaling to large qubit numbers, assuming that physical errors are sufficiently uncorrelated in time and space. In superconducting qubit arrays, high-energy impact events produce correlated errors, violating this key assumption. Following such an event, phonons with energy above the superconducting gap propagate throughout the device substrate, which in turn generate a temporary surge in quasiparticle (QP) density throughout the array. When these QPs tunnel across the qubits' Josephson junctions, they induce correlated errors. Engineering different superconducting gaps across the qubit's Josephson junctions provides a method to resist this form of QP tunneling. By fabricating all-aluminum transmon qubits with both strong and weak gap engineering on the same substrate, we observe starkly different responses during high-energy impact events. Strongly gap engineered qubits do not show any degradation in T1 during impact events, while weakly gap engineered qubits show events of correlated degradation in T1. We also show that strongly gap engineered qubits are robust to QP poisoning from increasing optical illumination intensity, whereas weakly gap engineered qubits display rapid degradation in coherence. Based on these results, gap engineering removes the threat of high-energy impacts to QEC in superconducting qubit arrays.
翻訳日:2024-02-27 17:41:45 公開日:2024-02-23
# マルチタスク学習における公平な資源配分

Fair Resource Allocation in Multi-Task Learning ( http://arxiv.org/abs/2402.15638v1 )

ライセンス: Link先を確認
Hao Ban, Kaiyi Ji(参考訳) 複数のタスクを共同学習することで、マルチタスク学習(mtl)はタスク間の共有知識を活用でき、データ効率と一般化性能が向上する。 しかし、MTLにおける大きな課題は矛盾する勾配の存在であり、これはいくつかのタスクの公平な最適化を妨げ、その結果、MTLの全体的な性能向上を阻害する。 通信ネットワークにおける公平な資源配分に着想を得て,MTLの最適化を実用的最大化問題として定式化し,タスク間の損失の減少を異なる公正度測定で最大化する。 この問題を解決するために,新しいMTL最適化法であるFairGradを提案する。 FairGradは特定のタスクを柔軟に強調するだけでなく、理論的収束を保証する。 大規模実験により,教師付き学習と強化学習におけるマルチタスクベンチマークのスイート上で,勾配操作手法の最先端性能が得られた。 さらに、様々なmtl法の損失関数に$\alpha$-fairnessという概念を取り入れている。 広範な実証研究は、その性能が著しく向上することを示している。 コードは \url{https://github.com/optmn-lab/fairgrad} で提供される。

By jointly learning multiple tasks, multi-task learning (MTL) can leverage the shared knowledge across tasks, resulting in improved data efficiency and generalization performance. However, a major challenge in MTL lies in the presence of conflicting gradients, which can hinder the fair optimization of some tasks and subsequently impede MTL's ability to achieve better overall performance. Inspired by fair resource allocation in communication networks, we formulate the optimization of MTL as a utility maximization problem, where the loss decreases across tasks are maximized under different fairness measurements. To solve this problem, we propose FairGrad, a novel MTL optimization method. FairGrad not only enables flexible emphasis on certain tasks but also achieves a theoretical convergence guarantee. Extensive experiments demonstrate that our method can achieve state-of-the-art performance among gradient manipulation methods on a suite of multi-task benchmarks in supervised learning and reinforcement learning. Furthermore, we incorporate the idea of $\alpha$-fairness into loss functions of various MTL methods. Extensive empirical studies demonstrate that their performance can be significantly enhanced. Code is provided at \url{https://github.com/OptMN-Lab/fairgrad}.
翻訳日:2024-02-27 17:41:22 公開日:2024-02-23
# 因果言語モデルにおける文脈記述例の次数感性への対処

Addressing Order Sensitivity of In-Context Demonstration Examples in Causal Language Models ( http://arxiv.org/abs/2402.15637v1 )

ライセンス: Link先を確認
Yanzheng Xiang, Hanqi Yan, Lin Gui, Yulan He(参考訳) インコンテキスト学習は自然言語処理において一般的なパラダイムとなっている。 しかし、その性能は、インコンテキストのデモンストレーション例の順序に大きく影響することができる。 本稿では,因果言語モデル (CausalLMs) がプレフィックス言語モデル (PrefixLMs) と比較して,この順序に対してより敏感であることを見出した。 この現象をcausallms内の自己回帰的注意マスクに分類し、各トークンがその後のトークンから情報にアクセスすることを制限した。 これにより、異なる位置のサンプルに対する受容野が異なる結果となり、位置間の表現の相違が生じる。 この課題に取り組むために,情報提供型・一貫性強化アプローチと呼ばれる教師なし微調整方式を導入する。 このアプローチはコントラスト学習を利用して、異なる位置にまたがってコンテキスト内例の表現を整列させ、異なる置換を持つ入力に対する同様の表現を確保するために一貫性損失を導入する。 これにより、モデルを置換する予測一貫性が向上する。 4つのベンチマークにおける実験結果から,提案手法は,特にトレーニングフェーズで使用されるものと異なるプールからデモンストレーションが抽出された場合や,トレーニング中に使用するサンプル数が異なる場合において,文脈内サンプルの順序に対する感度を低減し,堅牢な一般化性を示すことが示唆された。

In-context learning has become a popular paradigm in natural language processing. However, its performance can be significantly influenced by the order of in-context demonstration examples. In this paper, we found that causal language models (CausalLMs) are more sensitive to this order compared to prefix language models (PrefixLMs). We attribute this phenomenon to the auto-regressive attention masks within CausalLMs, which restrict each token from accessing information from subsequent tokens. This results in different receptive fields for samples at different positions, thereby leading to representation disparities across positions. To tackle this challenge, we introduce an unsupervised fine-tuning method, termed the Information-Augmented and Consistency-Enhanced approach. This approach utilizes contrastive learning to align representations of in-context examples across different positions and introduces a consistency loss to ensure similar representations for inputs with different permutations. This enhances the model's predictive consistency across permutations. Experimental results on four benchmarks suggest that our proposed method can reduce the sensitivity to the order of in-context examples and exhibit robust generalizability, particularly when demonstrations are sourced from a pool different from that used in the training phase, or when the number of in-context examples differs from what is used during training.
翻訳日:2024-02-27 17:41:05 公開日:2024-02-23
# ジェーク正規化による演算子学習における滑らかさとスパース潜時ダイナミクス

Smooth and Sparse Latent Dynamics in Operator Learning with Jerk Regularization ( http://arxiv.org/abs/2402.15636v1 )

ライセンス: Link先を確認
Xiaoyu Xie, Saviz Mowlavi, Mouhacine Benosman(参考訳) 時空間モデリングは、様々な科学的および工学的な分野にわたる複雑なシステムを理解するために重要であるが、支配方程式は、固有のシステムの複雑さのため、完全には知られておらず、計算的に難解であることが多い。 データ駆動型減数次モデル(roms)は、圧縮潜在空間における計算解による高速で正確な時空間予測に有望なアプローチを提供する。 しかし、これらのモデルはしばしば潜在空間を構築する際に連続的なスナップショット間の時間的相関を無視し、準最適圧縮、ジャグリングされた潜在軌道、時間経過による補間能力の制限に繋がる。 これらの問題に対処するために、圧縮された潜在空間の学習にジャーク正規化を組み込んだ連続演算子学習フレームワークを提案する。 このジャーク正則化は潜在空間ダイナミクスの滑らかさとスパース性を促進し、精度と収束速度の向上だけでなく、固有潜在空間座標の同定にも寄与する。 暗黙的ニューラル表現(INR)ベースのオートエンコーダとニューラルODE潜在力学モデルで構成され、このフレームワークは任意の所望の空間的あるいは時間的解像度での推論を可能にする。 この枠組みの有効性は、navier-stokes方程式に支配される二次元非定常流れ問題を通じて実証され、様々な科学的・工学的応用において高忠実性シミュレーションを迅速に行う可能性を強調した。

Spatiotemporal modeling is critical for understanding complex systems across various scientific and engineering disciplines, but governing equations are often not fully known or computationally intractable due to inherent system complexity. Data-driven reduced-order models (ROMs) offer a promising approach for fast and accurate spatiotemporal forecasting by computing solutions in a compressed latent space. However, these models often neglect temporal correlations between consecutive snapshots when constructing the latent space, leading to suboptimal compression, jagged latent trajectories, and limited extrapolation ability over time. To address these issues, this paper introduces a continuous operator learning framework that incorporates jerk regularization into the learning of the compressed latent space. This jerk regularization promotes smoothness and sparsity of latent space dynamics, which not only yields enhanced accuracy and convergence speed but also helps identify intrinsic latent space coordinates. Consisting of an implicit neural representation (INR)-based autoencoder and a neural ODE latent dynamics model, the framework allows for inference at any desired spatial or temporal resolution. The effectiveness of this framework is demonstrated through a two-dimensional unsteady flow problem governed by the Navier-Stokes equations, highlighting its potential to expedite high-fidelity simulations in various scientific and engineering applications.
翻訳日:2024-02-27 17:40:44 公開日:2024-02-23
# スペックルノイズの有無による画像の復元に先立つタグ付き深度画像

Bagged Deep Image Prior for Recovering Images in the Presence of Speckle Noise ( http://arxiv.org/abs/2402.15635v1 )

ライセンス: Link先を確認
Xi Chen, Zhewen Hou, Christopher A. Metzler, Arian Maleki and Shirin Jalali(参考訳) 本研究では,複数の測定値から複素数値信号を復元する確率に基づく手法の理論的およびアルゴリズム的側面を,スペックルノイズの影響を受けながら検討する。 我々の理論的貢献は、深部画像先行仮説の下で最大極大推定器の平均正方形誤差(MSE)に最初の理論上界を確立することである。 理論的には,mseのパラメータ数は,先行する深部画像のパラメータ数,ルック数,信号次元,ルック当たりの計測値数に依存することがわかった。 アルゴリズム側では,バッグ付き深部画像優先(bagged-dip)の概念を導入し,投影勾配降下と統合する。 さらに,PGD の繰り返しにおける行列逆の計算にNewton-Schulz アルゴリズムを用いると,アルゴリズムの計算複雑性が低下することを示す。 この手法が最先端のパフォーマンスを実現することを示す。

We investigate both the theoretical and algorithmic aspects of likelihood-based methods for recovering a complex-valued signal from multiple sets of measurements, referred to as looks, affected by speckle (multiplicative) noise. Our theoretical contributions include establishing the first existing theoretical upper bound on the Mean Squared Error (MSE) of the maximum likelihood estimator under the deep image prior hypothesis. Our theoretical results capture the dependence of MSE upon the number of parameters in the deep image prior, the number of looks, the signal dimension, and the number of measurements per look. On the algorithmic side, we introduce the concept of bagged Deep Image Priors (Bagged-DIP) and integrate them with projected gradient descent. Furthermore, we show how employing Newton-Schulz algorithm for calculating matrix inverses within the iterations of PGD reduces the computational complexity of the algorithm. We will show that this method achieves the state-of-the-art performance.
翻訳日:2024-02-27 17:40:20 公開日:2024-02-23
# 量子熱状態におけるデータのトポロジー

The topology of data hides in quantum thermal states ( http://arxiv.org/abs/2402.15633v1 )

ライセンス: Link先を確認
Stefano Scali, Chukwudubem Umeano, Oleksandr Kyriienko(参考訳) 量子熱状態の蒸留によるトポロジカルデータ解析(TDA)を行うための量子プロトコルを提供する。 量子熱状態生成アルゴリズムの最近の進歩は、散逸性リンドブレディアンの性質によって定義される特徴的スケーリングを明らかにする。 これは、組合せラプラシアンの性質に依存するスケーリングを持つユニタリ進化に基づくプロトコルとは対照的である。 量子熱状態生成アルゴリズムを活用するために、量子TDAをリアルタイムから虚像に変換し、パラダイムをユニタリなアプローチから散逸的なアプローチにシフトする。 システムの基底状態と重なり合う初期状態から始めると、そのエネルギーはデータセット固有のチャネルを介して散逸し、その情報を自然に蒸留することができる。 したがって、ベッチ数の計算は純度推定に変換される。 あるいは、このことはR\'{e}nyi 2-エントロピー、ウルマン忠実度、あるいは単純錯体の埋め込みトポロジーとの熱状態に対するヒルベルト・シュミット距離の評価と解釈できる。 我々の研究は、データトポロジをより物理的に解釈するためのTDAの分野を開く。

We provide a quantum protocol to perform topological data analysis (TDA) via the distillation of quantum thermal states. Recent developments of quantum thermal state preparation algorithms reveal their characteristic scaling defined by properties of dissipative Lindbladians. This contrasts with protocols based on unitary evolution which have a scaling depending on the properties of the combinatorial Laplacian. To leverage quantum thermal state preparation algorithms, we translate quantum TDA from a real-time to an imaginary-time picture, shifting the paradigm from a unitary approach to a dissipative one. Starting from an initial state overlapping with the ground state of the system, one can dissipate its energy via channels unique to the dataset, naturally distilling its information. Therefore calculating Betti numbers translates into a purity estimation. Alternatively, this can be interpreted as the evaluation of the R\'{e}nyi 2-entropy, Uhlmann fidelity or Hilbert-Schmidt distance relative to thermal states with the embedded topology of simplicial complexes. Our work opens the field of TDA toward a more physical interpretation of the topology of data.
翻訳日:2024-02-27 17:40:05 公開日:2024-02-23
# インフラストラクチャ・アズ・コードの利用限界を静的に推論する

Statically Inferring Usage Bounds for Infrastructure as Code ( http://arxiv.org/abs/2402.15632v1 )

ライセンス: Link先を確認
Feitong Qiao, Aryana Mohammadi, J\"urgen Cito, Mark Santolucito(参考訳) インフラストラクチャ・アズ・コード(IaC)は、クラウドにプロビジョニングされたリソースの複雑なデプロイメントの作成と修正において、クラウド顧客がよりアジリティを持つことを可能にする。 CloudFormationのようなIaC言語で構成を記述することで、ユーザは自身のインフラストラクチャを宣言的に指定でき、CloudFormationはリソースの生成を処理する。 しかし、IaCデプロイメントの複雑さを理解することは未解決の問題として浮上している。 特に、IaCデプロイメントのコストを見積もるには、デプロイメント中のすべてのクラウドリソースの今後の使用状況と価格モデルの推定が必要です。 予測使用量/コストへの透明性の獲得は、クラウド管理における主要な課題である。 既存の作業は、コストを予測するために履歴的利用メトリクスに依存するか、リソース間のインタラクションを無視する粗い粒度の静的分析に依存する。 我々の重要な洞察は、IaCデプロイメントのトポロジが各リソースの使用に制約を課し、SMTソルバを使用して制約の推論を形式化し、自動化できるということです。 これにより、顧客はクラウド利用の限界を正式に保証できる。 本稿では,SMT制約のセットとしてIaCデプロイメントにおけるリソース間相互作用をモデル化し,実世界のIaC構成を1000を超えるベンチマークで評価する,詳細な静的利用分析ツールを提案する。

Infrastructure as Code (IaC) has enabled cloud customers to have more agility in creating and modifying complex deployments of cloud-provisioned resources. By writing a configuration in IaC languages such as CloudFormation, users can declaratively specify their infrastructure and CloudFormation will handle the creation of the resources. However, understanding the complexity of IaC deployments has emerged as an unsolved issue. In particular, estimating the cost of an IaC deployment requires estimating the future usage and pricing models of every cloud resource in the deployment. Gaining transparency into predicted usage/costs is a leading challenge in cloud management. Existing work either relies on historical usage metrics to predict cost or on coarse-grain static analysis that ignores interactions between resources. Our key insight is that the topology of an IaC deployment imposes constraints on the usage of each resource, and we can formalize and automate the reasoning on constraints by using an SMT solver. This allows customers to have formal guarantees on the bounds of their cloud usage. We propose a tool for fine-grained static usage analysis that works by modeling the inter-resource interactions in an IaC deployment as a set of SMT constraints, and evaluate our tool on a benchmark of over 1000 real world IaC configurations.
翻訳日:2024-02-27 17:39:47 公開日:2024-02-23
# ファクチュアリティと推論を改善するファイングラインドセルフエンドルメント

Fine-Grained Self-Endorsement Improves Factuality and Reasoning ( http://arxiv.org/abs/2402.15631v1 )

ライセンス: Link先を確認
Ante Wang, Linfeng Song, Baolin Peng, Ye Tian, Lifeng Jin, Haitao Mi, Jinsong Su and Dong Yu(参考訳) 本研究は,大規模言語モデル (LLM) 世代を推定時間で改善する手法である。 特に,複数のサンプル応答における詳細な事実レベル比較を利用する自己支持フレームワークを提案する。 応答レベル選択を行う事前アンサンブル法(wang et al., 2022;chen et al., 2023)と比較して,特に長文生成タスクにおいて,幻覚を緩和する手法が優れている。 我々のアプローチは、主に単純なコンテンツベースの比較を行うため、小さくてオープンソースのLCMに広く利益をもたらすことができる。 バイオグラフィー実験により, 異なるスケールのLDMにおいて, 簡便かつ直感的なプロンプトにより, 世代間の事実性を効果的に改善できることが示唆された。 さらに、TriviaQA と GSM8K に関する包括的な分析は、より広範な応用のための自己達成の可能性を示している。

This work studies improving large language model (LLM) generations at inference time by mitigating fact-conflicting hallucinations. Particularly, we propose a self-endorsement framework that leverages the fine-grained fact-level comparisons across multiple sampled responses. Compared with prior ensemble methods (Wang et al., 2022;Chen et al., 2023)) that perform response-level selection, our approach can better alleviate hallucinations, especially for longform generation tasks. Our approach can broadly benefit smaller and open-source LLMs as it mainly conducts simple content-based comparisons. Experiments on Biographies show that our method can effectively improve the factuality of generations with simple and intuitive prompts across different scales of LLMs. Besides, comprehensive analyses on TriviaQA and GSM8K demonstrate the potential of self-endorsement for broader application.
翻訳日:2024-02-27 17:39:13 公開日:2024-02-23
# MegaScale: 大規模言語モデルのトレーニングを10,000以上のGPUに拡張

MegaScale: Scaling Large Language Model Training to More Than 10,000 GPUs ( http://arxiv.org/abs/2402.15627v1 )

ライセンス: Link先を確認
Ziheng Jiang, Haibin Lin, Yinmin Zhong, Qi Huang, Yangrui Chen, Zhi Zhang, Yanghua Peng, Xiang Li, Cong Xie, Shibiao Nong, Yulu Jia, Sun He, Hongmin Chen, Zhihao Bai, Qi Hou, Shipeng Yan, Ding Zhou, Yiyao Sheng, Zhuo Jiang, Haohan Xu, Haoran Wei, Zhang Zhang, Pengfei Nie, Leqi Zou, Sida Zhao, Liang Xiang, Zherui Liu, Zhe Li, Xiaoying Jia, Jianxi Ye, Xin Jin, Xin Liu(参考訳) 大規模言語モデル(llms)を1万以上のgpu規模でトレーニングするためのプロダクションシステムであるmegascaleの構築とデプロイにおいて,設計,実装,エンジニアリング経験を紹介する。 この規模でのトレーニングllmは、トレーニング効率と安定性に前例のない課題をもたらします。 我々は,モデルブロックとオプティマイザ設計,計算と通信の重複,オペレータ最適化,データパイプライン,ネットワークパフォーマンスチューニングといったアルゴリズムとシステムコンポーネントを共設計するフルスタックアプローチを採用する。 トレーニングプロセス全体(すなわち安定性)を通して高い効率を維持することは、LLMトレーニングジョブの長期性を考えると、生産において重要な考慮事項である。 多くのハードな安定性の問題が大規模にのみ発生し、その対処の鍵は深い可観測性にある。 システムコンポーネントやイベントをスタックの奥深くで監視し,根本原因を特定し,耐障害性を実現し,トラグラーを緩和する効果的な手法を考案する。 MegaScaleは、12,288GPUで175B LLMモデルをトレーニングする際に55.2%のモデルFLOP(MFU)を実現し、Megatron-LMと比較してMFUを1.34倍改善した。 障害とトラグラーの特定と修正における運用経験を共有しています。 問題を明確にし、システムの観点から経験を共有することで、この研究が将来のLLMシステム研究を刺激することを期待しています。

We present the design, implementation and engineering experience in building and deploying MegaScale, a production system for training large language models (LLMs) at the scale of more than 10,000 GPUs. Training LLMs at this scale brings unprecedented challenges to training efficiency and stability. We take a full-stack approach that co-designs the algorithmic and system components across model block and optimizer design, computation and communication overlapping, operator optimization, data pipeline, and network performance tuning. Maintaining high efficiency throughout the training process (i.e., stability) is an important consideration in production given the long extent of LLM training jobs. Many hard stability issues only emerge at large scale, and in-depth observability is the key to address them. We develop a set of diagnosis tools to monitor system components and events deep in the stack, identify root causes, and derive effective techniques to achieve fault tolerance and mitigate stragglers. MegaScale achieves 55.2% Model FLOPs Utilization (MFU) when training a 175B LLM model on 12,288 GPUs, improving the MFU by 1.34x compared to Megatron-LM. We share our operational experience in identifying and fixing failures and stragglers. We hope by articulating the problems and sharing our experience from a systems perspective, this work can inspire future LLM systems research.
翻訳日:2024-02-27 17:38:46 公開日:2024-02-23
# 公共衛生における動的レスト・マルチアーム・バンドタスクのための意思決定モデル(DLM)

A Decision-Language Model (DLM) for Dynamic Restless Multi-Armed Bandit Tasks in Public Health ( http://arxiv.org/abs/2402.14807v2 )

ライセンス: Link先を確認
Nikhil Behari, Edwin Zhang, Yunfan Zhao, Aparna Taneja, Dheeraj Nagaraj, Milind Tambe(参考訳) 主要な持続可能な開発目標(sdgターゲット3.1)である母子死亡率を下げる努力は、リスクの高い人口に重要な健康情報を広めるための予防医療プログラムに大きく依存している。 これらのプログラムは2つの重要な課題に直面している: 限られた医療資源を大規模な受益者に効率的に割り当てること、そして政策の優先順位を進化させること。 RMAB(Stepless multi-armed bandit)における以前の研究は、公衆衛生割り当てタスクの成功を示したが、進化する政策優先順位に適応する柔軟性に欠けていた。 同時に、ロボット制御やナビゲーションなど、さまざまな領域において、大規模言語モデル(llm)が適切な自動プランナーとして登場した。 本稿では,RMABのための決定言語モデルDLMを提案する。 ヒトの言語コマンドを使って公衆衛生設定に挑戦するRMABポリシーの動的微調整を可能にするため、LLMを自動プランナーとして使用し、(1)人間の政策優先のプロンプトを解釈し、(2)RMABのためのマルチエージェントRL環境のためのコード報酬関数を提案し、(3)RMABシミュレーションのフィードバックを用いて生成された報酬を反復して政策成果を効果的に適応させる。 インドを拠点とする公衆衛生機関ARMMANと共同で妊婦の予防ケアを奨励するシミュレーションを行い、DLMが人間の言語コマンドのみを入力として政策成果を動的に形成できることを示す。

Efforts to reduce maternal mortality rate, a key UN Sustainable Development target (SDG Target 3.1), rely largely on preventative care programs to spread critical health information to high-risk populations. These programs face two important challenges: efficiently allocating limited health resources to large beneficiary populations, and adapting to evolving policy priorities. While prior works in restless multi-armed bandit (RMAB) demonstrated success in public health allocation tasks, they lack flexibility to adapt to evolving policy priorities. Concurrently, Large Language Models (LLMs) have emerged as adept, automated planners in various domains, including robotic control and navigation. In this paper, we propose DLM: a Decision Language Model for RMABs. To enable dynamic fine-tuning of RMAB policies for challenging public health settings using human-language commands, we propose using LLMs as automated planners to (1) interpret human policy preference prompts, (2) propose code reward functions for a multi-agent RL environment for RMABs, and (3) iterate on the generated reward using feedback from RMAB simulations to effectively adapt policy outcomes. In collaboration with ARMMAN, an India-based public health organization promoting preventative care for pregnant mothers, we conduct a simulation study, showing DLM can dynamically shape policy outcomes using only human language commands as input.
翻訳日:2024-02-27 11:45:23 公開日:2024-02-23
# 変分ベイズにおける柔軟後流のバーンスタイン流れ

Bernstein Flows for Flexible Posteriors in Variational Bayes ( http://arxiv.org/abs/2202.05650v2 )

ライセンス: Link先を確認
Oliver D\"urr and Stephan H\"orling and Daniel Dold and Ivonne Kovylov and Beate Sick(参考訳) 変分推論(VI)は、最適化によって後部を計算するのが難しい手法である。 MCMCとは対照的に、VIは多くの観測にスケールする。 しかし、複雑な後肢の場合、最先端のVIアプローチはしばしば不満足な後肢近似をもたらす。 本稿では, 複素多変量後部を近似できるほど柔軟で, 頑健で使いやすいBernstein Flow Variational Inference (BF-VI) を提案する。 bf-viは正規化フローとベルンシュタイン多項式に基づく変換モデルからアイデアを合成する。 ベンチマーク実験では,BF-VI解と正確な後部解,MCMC解,フローベースVIの正規化を含む最先端VI法を比較した。 我々は,BF-VIが真の後部を正確に近似する低次元モデルについて,BF-VIが他のVI法よりも優れていることを示す。 さらに,半構造化メラノーマ挑戦データに対するベイズモデルBF-VIを開発し,画像データに対するCNNモデル部と表型データに対する解釈可能なモデル部とを組み合わせて,半構造化モデルにおけるVIの使用法を初めて示す。

Variational inference (VI) is a technique to approximate difficult to compute posteriors by optimization. In contrast to MCMC, VI scales to many observations. In the case of complex posteriors, however, state-of-the-art VI approaches often yield unsatisfactory posterior approximations. This paper presents Bernstein flow variational inference (BF-VI), a robust and easy-to-use method, flexible enough to approximate complex multivariate posteriors. BF-VI combines ideas from normalizing flows and Bernstein polynomial-based transformation models. In benchmark experiments, we compare BF-VI solutions with exact posteriors, MCMC solutions, and state-of-the-art VI methods including normalizing flow based VI. We show for low-dimensional models that BF-VI accurately approximates the true posterior; in higher-dimensional models, BF-VI outperforms other VI methods. Further, we develop with BF-VI a Bayesian model for the semi-structured Melanoma challenge data, combining a CNN model part for image data with an interpretable model part for tabular data, and demonstrate for the first time how the use of VI in semi-structured models.
翻訳日:2024-02-26 19:03:00 公開日:2024-02-23
# 量子状態と雑音チャネルに対するエンタングルメント触媒

Entanglement catalysis for quantum states and noisy channels ( http://arxiv.org/abs/2202.05228v2 )

ライセンス: Link先を確認
Chandan Datta, Tulja Varun Kondra, Marek Miller, Alexander Streltsov(参考訳) 量子テレポーテーションや量子鍵分布のような新興量子技術の多くの応用は、2つの量子ビットの最大交絡状態である一重項を必要とする。 したがって、リモートパーティ間で一重項を確立するための最適な手順を開発することが最重要となる。 直近で示されているように、一重項は、この過程において変化しない絡み合った量子系である量子触媒を用いて、他の量子状態から得ることができる。 この研究では、このアイデアをさらに進め、絡み合い触媒の性質と量子通信におけるその役割を調査します。 バイパルタイト純状態間の変換については、この構成で可能なすべての変換を可能にする普遍触媒の存在を証明できる。 独立系と同一の分散システムの典型的な仮定を超えて、漸近的な環境での触媒の利点を実証する。 さらに, 絡み合わされた触媒の支援により, 雑音量子チャネルを介して確立できる一重項数を推定する手法の開発を行った。 様々な種類の量子チャネルに対して、我々の結果は最適なプロトコルに導かれ、チャネルの単一使用で最大数のシングルレットを確立することができる。

Many applications of the emerging quantum technologies, such as quantum teleportation and quantum key distribution, require singlets, maximally entangled states of two quantum bits. It is thus of utmost importance to develop optimal procedures for establishing singlets between remote parties. As has been shown very recently, singlets can be obtained from other quantum states by using a quantum catalyst, an entangled quantum system which is not changed in the procedure. In this work we take this idea further, investigating properties of entanglement catalysis and its role for quantum communication. For transformations between bipartite pure states, we prove the existence of a universal catalyst, which can enable all possible transformations in this setup. We demonstrate the advantage of catalysis in asymptotic settings, going beyond the typical assumption of independent and identically distributed systems. We further develop methods to estimate the number of singlets which can be established via a noisy quantum channel when assisted by entangled catalysts. For various types of quantum channels our results lead to optimal protocols, allowing to establish the maximal number of singlets with a single use of the channel.
翻訳日:2024-02-26 19:02:41 公開日:2024-02-23
# 条件付定常時系列からの因果発見

Causal Discovery from Conditionally Stationary Time Series ( http://arxiv.org/abs/2110.06257v2 )

ライセンス: Link先を確認
Carles Balsells-Rodas, Ruibo Tu, Hedvig Kjellstrom, Yingzhen Li(参考訳) 因果発見、すなわち観測データから因果関係を推定することは、AIシステムにとって非常に困難であることが示されている。 時系列モデリングの文脈では、従来の因果探索法は主に、完全に観察された変数や定常的な時系列からのデータを持つ制約されたシナリオを考察する。 条件付き定常である非定常時系列の幅広いクラスを扱う因果的発見手法を開発し,非定常動作を(おそらく隠された)状態変数の集合上で定常性条件としてモデル化する。 名前付き状態依存因果推論(sdci)は、基礎となる因果依存関係を回復し、完全に監視された状態と実証的に隠れた状態とを回復することができる。 後者は合成線形系と非線形粒子相互作用データの実験により確認され、SDCIは基底線因果探索法よりも優れた性能を発揮する。 NBA選手の動きをモデル化した非因果RNNによる結果の改善は、我々の手法の可能性を実証し、因果関係に基づく予測手法の使用を動機づけるものである。

Causal discovery, i.e., inferring underlying causal relationships from observational data, has been shown to be highly challenging for AI systems. In time series modeling context, traditional causal discovery methods mainly consider constrained scenarios with fully observed variables and/or data from stationary time-series. We develop a causal discovery approach to handle a wide class of non-stationary time-series that are conditionally stationary, where the non-stationary behaviour is modeled as stationarity conditioned on a set of (possibly hidden) state variables. Named State-Dependent Causal Inference (SDCI), our approach is able to recover the underlying causal dependencies, provably with fully-observed states and empirically with hidden states. The latter is confirmed by experiments on synthetic linear system and nonlinear particle interaction data, where SDCI achieves superior performance over baseline causal discovery methods. Improved results over non-causal RNNs on modeling NBA player movements demonstrate the potential of our method and motivate the use of causality-driven methods for forecasting.
翻訳日:2024-02-26 19:02:22 公開日:2024-02-23
# ベイズニューラルネットワークによる逆例検出

Adversarial Examples Detection with Bayesian Neural Network ( http://arxiv.org/abs/2105.08620v3 )

ライセンス: Link先を確認
Yao Li, Tongyi Tang, Cho-Jui Hsieh, Thomas C. M. Lee(参考訳) 本稿では,ランダム成分が予測器の滑らかさを向上し,ディープニューラルネットワークの出力分布をシミュレートしやすくするという観測結果に動機づけられた,逆行例を検出する新しい枠組みを提案する。 そこで本研究では,BATerを省略した新しいベイズ対向型サンプル検出器を提案し,対向型サンプル検出の性能向上を図る。 具体的には,実例と逆例の隠れ層出力の分布差について検討し,ベイズニューラルネットワークのランダム性を用いて隠れ層出力分布をシミュレートし,分布分散を利用して逆例を検出する手法を提案する。 ベイズニューラルネットワークの利点は、ランダム成分を持たないディープニューラルネットワークはそのような特性を持たないが、出力が確率的であることである。 ポピュラーアタックに対するいくつかのベンチマークデータセットでの実証結果から、提案するバッターは、敵対的な例検出において最先端の検出器よりも優れていることが分かる。

In this paper, we propose a new framework to detect adversarial examples motivated by the observations that random components can improve the smoothness of predictors and make it easier to simulate the output distribution of a deep neural network. With these observations, we propose a novel Bayesian adversarial example detector, short for BATer, to improve the performance of adversarial example detection. Specifically, we study the distributional difference of hidden layer output between natural and adversarial examples, and propose to use the randomness of the Bayesian neural network to simulate hidden layer output distribution and leverage the distribution dispersion to detect adversarial examples. The advantage of a Bayesian neural network is that the output is stochastic while a deep neural network without random components does not have such characteristics. Empirical results on several benchmark datasets against popular attacks show that the proposed BATer outperforms the state-of-the-art detectors in adversarial example detection.
翻訳日:2024-02-26 19:02:04 公開日:2024-02-23
# フェデレーション学習システムをカバーチャネルに変換する

Turning Federated Learning Systems Into Covert Channels ( http://arxiv.org/abs/2104.10561v3 )

ライセンス: Link先を確認
Gabriele Costa, Fabio Pinelli, Simone Soderi, Gabriele Tolomei(参考訳) フェデレーテッド・ラーニング(FL)は、エッジクライアントの大規模なコレクションにモデルトレーニングを分散することで、従来の集中型機械学習を越えている。 これらのクライアントは、ローカルでプライベートなトレーニングデータを開示することなく、グローバル、例えばクラウドホスト型のモデルを共同でトレーニングする。 グローバルモデルは、ローカルな予測に使用するすべての参加者の間で共有される。 本稿では,ステルス通信インフラを実装するために,FLシステムを隠蔽チャネルにすることを目的とした新たな攻撃モデルを提案する。 直感的には、連合訓練の間、悪意のある送信者は故意に作成した例を提出することでグローバルモデルに毒を盛ることができる。 モデル中毒の影響は他の参加者には無視され、モデル全体のパフォーマンスは変化しないが、悪意のある受信者によって観察され、1ビットの送信に使用される。

Federated learning (FL) goes beyond traditional, centralized machine learning by distributing model training among a large collection of edge clients. These clients cooperatively train a global, e.g., cloud-hosted, model without disclosing their local, private training data. The global model is then shared among all the participants which use it for local predictions. In this paper, we put forward a novel attacker model aiming at turning FL systems into covert channels to implement a stealth communication infrastructure. The main intuition is that, during federated training, a malicious sender can poison the global model by submitting purposely crafted examples. Although the effect of the model poisoning is negligible to other participants, and does not alter the overall model performance, it can be observed by a malicious receiver and used to transmit a single bit.
翻訳日:2024-02-26 19:01:47 公開日:2024-02-23
# 孤立量子多体系の熱化

Thermalization of isolated quantum many-body system \`a la entanglement ( http://arxiv.org/abs/2009.10416v2 )

ライセンス: Link先を確認
Tanmay Saha, Pratik Ghosal, Pratapaditya Bej, Abhishek Banerjee, Prasenjit Deb(参考訳) 孤立量子系の熱化は、量子力学の初期から非自明な問題であった。 一般の孤立量子系では、非平衡力学は熱分解を生じさせ、量子力学からの統計力学の出現を示唆する。 しかし、多体量子系のどんな特徴が量子熱化を促進するかはまだよく分かっていない。 最近の実験的進歩は、絡み合いは普遍的ではなく、特に熱化剤として作用することを示している。 ここでは、多くの自由度を持つ孤立多体量子系における可観測体の温度平均が、系の絡み合ったエネルギー固有状態から現れることを理論的に示す。 特に, エンタングルエネルギー固有状態における観測対象の期待値とその限界値は観測対象のミクロカノニカルおよび標準平均値と等価であることを示す。

Thermalization of an isolated quantum system has been a nontrivial problem since the early days of quantum mechanics. In generic isolated quantum systems, nonequilibrium dynamics is expected to result in thermalization, indicating the emergence of statistical mechanics from quantum dynamics. However, what feature of a many-body quantum system facilitates quantum thermalization is still not well understood. Recent experimental advancements have shown that entanglement may act as a thermalizing agent, not universally but particularly. Here, we theoretically show that the thermal averages of an observable in an isolated many-body quantum system with a large number of degrees of freedom emerge from the entangled energy eigenstates of the system. In particular, we show that the expectation values of an observable in entangled energy eigenstates and its marginals are equivalent to the microcanonical and canonical averages of the observable.
翻訳日:2024-02-26 19:01:33 公開日:2024-02-23
# 増幅ファイバリンクにおける絡み合い支援通信のスケーリング

Scaling of Entanglement-Assisted Communication in Amplified Fiber Links ( http://arxiv.org/abs/2211.13296v3 )

ライセンス: Link先を確認
Simon Sekav\v{c}nik and Janis N\"otzel(参考訳) 量子情報処理技術はいくつかの通信戦略を提供し、古典的技術よりもキャパシティの利点を提供する。 しかし、一般的に利点は公共ネットワークでしか利用できない非常に特殊な通信シナリオに限られる。 最も重要なのは、システムの容量が商業的に興味深い価値をはるかに下回る場合にのみ、キャパシティのアドバンテージを目立たせることにあります。 本研究では,事前共有の絡み合いによって任意に高いキャパシティの利点が得られ,同時にデータレートが将来のネットワーク需要に適合するシナリオを提案する。 提案手法は, 繊維径を維持しながら屈折率を調整することによって, 多モードファイバのモード数を増大させることができることによる。

Quantum information processing technology offers several communication strategies, which offer capacity advantages over classical technologies. However, advantages typically arise only in very particular communication scenarios which are of limited use in public networks. Most importantly, striking capacity advantages have so far been found only for cases where the system capacity is way below commercially interesting values. In this work we present a novel scenario where pre-shared entanglement offers arbitrarily high capacity advantages, and where at the same time data rates are compatible with future network demand. Our approach rests on the observation that the number of modes in multi-mode fiber can be increased solely by tuning of the refractive index, while maintaining the fiber diameter.
翻訳日:2024-02-26 18:59:51 公開日:2024-02-23
# Centaur: 制約のあるエッジデバイスのためのフェデレーション学習

Centaur: Federated Learning for Constrained Edge Devices ( http://arxiv.org/abs/2211.04175v3 )

ライセンス: Link先を確認
Fan Mo, Mohammad Malekzadeh, Soumyajit Chatterjee, Fahim Kawsar, Akhil Mathur(参考訳) フェデレーション学習(federated learning, fl)は、エッジ、特にウェアラブルやiotデバイス向けの新しいアプリケーションを促進する。 このようなデバイスは、大量の多様なデータをキャプチャするが、メモリ、計算、電力、接続の制約があり、FLへの参加を妨げる。 マルチ層FLフレームワークであるCentaurを提案し,超制約デバイスが大規模ニューラルネットワーク上でFLに効率的に参加できるようにする。 centaurは2つの主要なアイデアを組み合わせる。 (i)学習を加速するサンプルの一部を選択するためのデータ選択方式 (ii)同一ユーザが所有する制約されたデバイスと強力なデバイスの両方を統合するパーティションベースのトレーニングアルゴリズム。 4つのベンチマークニューラルネットと3つのデータセットによる評価では、centaurは平均58\%の省エネ率を持つ制約付きデバイスでのローカルトレーニングよりも約10\%高い精度を得ている。 実験の結果,不均衡なデータ,クライアント参加の不均一性,ネットワーク接続確率などを扱う際のCentaurの効率性も向上した。

Federated learning (FL) facilitates new applications at the edge, especially for wearable and Internet-of-Thing devices. Such devices capture a large and diverse amount of data, but they have memory, compute, power, and connectivity constraints which hinder their participation in FL. We propose Centaur, a multitier FL framework, enabling ultra-constrained devices to efficiently participate in FL on large neural nets. Centaur combines two major ideas: (i) a data selection scheme to choose a portion of samples that accelerates the learning, and (ii) a partition-based training algorithm that integrates both constrained and powerful devices owned by the same user. Evaluations, on four benchmark neural nets and three datasets, show that Centaur gains ~10\% higher accuracy than local training on constrained devices with ~58\% energy saving on average. Our experimental results also demonstrate the superior efficiency of Centaur when dealing with imbalanced data, client participation heterogeneity, and various network connection probabilities.
翻訳日:2024-02-26 18:59:40 公開日:2024-02-23
# 連続辞書から発行される混合物の同時学習

Simultaneous off-the-grid learning of mixtures issued from a continuous dictionary ( http://arxiv.org/abs/2210.16311v2 )

ライセンス: Link先を確認
Cristina Butucea (CREST, FAIRPLAY), Jean-Fran\c{c}ois Delmas (CERMICS), Anne Dutfoy (EDF R&D), Cl\'ement Hardy (CERMICS, EDF R&D)(参考訳) 本稿では、ノイズによって劣化した信号の集合、おそらく連続体を観察する。 各信号は連続辞書に属する未知の数の特徴の有限混合である。 連続辞書は実際の非線形パラメータによってパラメータ化される。 信号は、各信号が有限かつスパースな集合に含まれる活動的特徴を持つと仮定して、基礎構造を共有すると仮定する。 我々は正規化最適化問題を定式化し、混合系の線形係数と特徴量の非線形パラメータを同時に推定する。 最適化問題は、データ忠実度項と$(\ell_1,L^p)$-penaltyからなる。 我々はその解をGroup-Nonlinear-Lassoと呼び、証明関数を用いた予測誤差に高い確率境界を与える。 オフ・ザ・グリッド法(英語版)の幾何学に関する最近の研究に続いて、アクティブな特徴のパラメータがリーマン計量に関する定数によって一対に分離された場合に、そのような関数を構成できることを示した。信号の数が有限でノイズがガウス的と仮定された場合、ガウス過程のsupremaと$\chi^2$の無作為過程のテール境界を用いて、結果の精細化を行う。 p=2$の場合、予測誤差はマルチタスク線形回帰モデルで group-lasso estimator によって得られたレートに達する。 さらに、$p=2$の場合、すべての信号が非線形パラメータのほとんどを共有する場合、これらの予測レートは$p=1$よりも速い。

In this paper we observe a set, possibly a continuum, of signals corrupted by noise. Each signal is a finite mixture of an unknown number of features belonging to a continuous dictionary. The continuous dictionary is parametrized by a real non-linear parameter. We shall assume that the signals share an underlying structure by assuming that each signal has its active features included in a finite and sparse set. We formulate regularized optimization problem to estimate simultaneously the linear coefficients in the mixtures and the non-linear parameters of the features. The optimization problem is composed of a data fidelity term and a $(\ell_1,L^p)$-penalty. We call its solution the Group-Nonlinear-Lasso and provide high probability bounds on the prediction error using certificate functions. Following recent works on the geometry of off-the-grid methods, we show that such functions can be constructed provided the parameters of the active features are pairwise separated by a constant with respect to a Riemannian metric.When the number of signals is finite and the noise is assumed Gaussian, we give refinements of our results for $p=1$ and $p=2$ using tail bounds on suprema of Gaussian and $\chi^2$ random processes. When $p=2$, our prediction error reaches the rates obtained by the Group-Lasso estimator in the multi-task linear regression model. Furthermore, for $p=2$ these prediction rates are faster than for $p=1$ when all signals share most of the non-linear parameters.
翻訳日:2024-02-26 18:59:21 公開日:2024-02-23
# タスク駆動特徴選択によるマルチチャネルイメージングの実験設計

Experimental Design for Multi-Channel Imaging via Task-Driven Feature Selection ( http://arxiv.org/abs/2210.06891v3 )

ライセンス: Link先を確認
Stefano B. Blumberg, Paddy J. Slator, Daniel C. Alexander(参考訳) 本稿では,実験設計のためのデータ駆動型タスク特化パラダイムを提案し,取得時間を短縮し,コストを削減し,画像装置の展開を加速する。 実験的な設計における現在のアプローチはモデルパラメータの推定に重点を置いており、特定のモデルの仕様を必要とする。 さらに、このようなアプローチは、実世界のイメージングアプリケーションにおいて、しばしば難解な最適化問題を引き起こす。 本稿では,設計(画像チャネルの集合)を同時に最適化し,ユーザ特定画像解析タスクを実行するために機械学習モデルを訓練する実験設計の新しいパラダイムを提案する。 このアプローチは、少数の取得のために測定空間(多くの画像チャネル)で密にサンプリングされたデータを取得し、そのタスクを最も支援する所定のサイズのチャネルのサブセットを特定する。 本稿では,画像におけるタスク駆動型実験設計のためのtadredを提案し,そのタスクを実行するためにネットワークを訓練しながら最も有益なチャネルサブセットを同定する。 様々な画像応用におけるTADREDの可能性を示す実験は、磁気共鳴イメージングにおけるいくつかの臨床的課題、高スペクトルイメージングのリモートセンシングおよび生理学的応用である。 その結果、古典的実験設計、新しいパラダイムにおける最近の2つのアプリケーション固有の手法、教師付き特徴選択における最先端のアプローチよりも大幅に改善した。 我々は我々のアプローチのさらなる応用を期待する。 https://github.com/sbb-gh/experimental-design-multichannel

This paper presents a data-driven, task-specific paradigm for experimental design, to shorten acquisition time, reduce costs, and accelerate the deployment of imaging devices. Current approaches in experimental design focus on model-parameter estimation and require specification of a particular model, whereas in imaging, other tasks may drive the design. Furthermore, such approaches often lead to intractable optimization problems in real-world imaging applications. Here we present a new paradigm for experimental design that simultaneously optimizes the design (set of image channels) and trains a machine-learning model to execute a user-specified image-analysis task. The approach obtains data densely-sampled over the measurement space (many image channels) for a small number of acquisitions, then identifies a subset of channels of prespecified size that best supports the task. We propose a method: TADRED for TAsk-DRiven Experimental Design in imaging, to identify the most informative channel-subset whilst simultaneously training a network to execute the task given the subset. Experiments demonstrate the potential of TADRED in diverse imaging applications: several clinically-relevant tasks in magnetic resonance imaging; and remote sensing and physiological applications of hyperspectral imaging. Results show substantial improvement over classical experimental design, two recent application-specific methods within the new paradigm, and state-of-the-art approaches in supervised feature selection. We anticipate further applications of our approach. Code is available: https://github.com/sbb-gh/experimental-design-multichannel
翻訳日:2024-02-26 18:58:17 公開日:2024-02-23
# 空間的不規則量子スピン系の緩和ダイナミクスは普遍的か?

Is the relaxation dynamics of spatially disordered quantum spin systems universal? ( http://arxiv.org/abs/2209.08080v3 )

ライセンス: Link先を確認
Titus Franz, Sebastian Geier, Cl\'ement Hainaut, Adrian Braemer, Nithiwadee Thaicharoen, Moritz Hornung, Eduard Braun, Martin G\"arttner, Gerhard Z\"urn, and Matthias Weidem\"uller(参考訳) 量子多体系の平衡ダイナミクスを理解するための主要なゴールは、ダイナミクスがもはやシステムの微視的詳細に依存しないという意味で普遍性の兆候を見つけることである。 我々は、rydberg状態の適切な組み合わせを選択することで、rydberg原子量子シミュレータ上で多体スピン系を広範囲に実現する。 このプラットフォームを用いて、混乱したハイゼンベルク XX-, XXZ-, Ising Hamiltonian の磁化緩和ダイナミクスをスケーラブルな方法で比較する。 進化時間の適切な再スケーリングの後、全てのダイナミクスは単一の曲線に崩壊し、普遍的な緩和行動を示す。 この力学は、局所的なスピン対のみを考える可積分モデルによって、ほぼ捕捉される。 対近似の詳細な検討は、予熱の枠組みにおける実験データの包括的議論を促進するだけでなく、乱れたスピン系の緩和が普遍的であると見なすことができることを立証する。

A major goal toward understanding far-from-equilibrium dynamics of quantum many-body systems consists in finding indications of universality in the sense that the dynamics no longer depends on microscopic details of the system. We realize a large range of many-body spin systems on a Rydberg atom quantum simulator by choosing appropriate Rydberg state combinations. We use this platform to compare the magnetization relaxation dynamics of disordered Heisenberg XX-, XXZ- and Ising Hamiltonians in a scalable fashion. After appropriate rescaling of evolution time, all the dynamics collapse onto a single curve, indicative of universal relaxation behavior. We find that this dynamics is approximately captured by an integrable model that only considers local pairs of spins. A detailed examination of the pair approximation not only facilitates a comprehensive discussion of the experimental data within the framework of prethermalization but also establishes in which sense the relaxation in disordered spin systems can be regarded as universal.
翻訳日:2024-02-26 18:57:34 公開日:2024-02-23
# FP8量子化:指数のパワー

FP8 Quantization: The Power of the Exponent ( http://arxiv.org/abs/2208.09225v2 )

ライセンス: Link先を確認
Andrey Kuzmin, Mart Van Baalen, Yuwei Ren, Markus Nagel, Jorn Peters, Tijmen Blankevoort(参考訳) 効率的な推論のためにニューラルネットワークを量子化する場合、低ビット整数は効率のためのゴーツーフォーマットである。 しかし、低ビット浮動小数点数は余分な自由度を持ち、代わりに指数関数的なスケールで動くビットを割り当てる。 本稿では,ニューラルネットワーク推論における浮動小数点フォーマットの利点について詳細に検討する。 FP8フォーマットで選択できる選択について詳述し、マティーサと指数のビット数の重要な選択を含め、これらの選択がより優れたパフォーマンスをもたらすか分析的に示す。 次に、これらの結果が実際のネットワークにどのように変換されるかを示し、FP8シミュレーションの効率的な実装と、FP8フォーマットのスケールパラメータと指数ビット数の両方の学習を可能にする新しいアルゴリズムを提案する。 主な結論は、広範囲のネットワークに対してトレーニング後の量子化を行う場合、FP8フォーマットは精度においてINT8よりも優れており、指数ビット数の選択はネットワーク内の外れ値の重大さによって引き起こされるということである。 また、ネットワークが異常値の影響を低減させるように訓練されると、フォーマットの違いが消えてしまう量子化アウェアトレーニングの実験も行います。

When quantizing neural networks for efficient inference, low-bit integers are the go-to format for efficiency. However, low-bit floating point numbers have an extra degree of freedom, assigning some bits to work on an exponential scale instead. This paper in-depth investigates this benefit of the floating point format for neural network inference. We detail the choices that can be made for the FP8 format, including the important choice of the number of bits for the mantissa and exponent, and show analytically in which settings these choices give better performance. Then we show how these findings translate to real networks, provide an efficient implementation for FP8 simulation, and a new algorithm that enables the learning of both the scale parameters and the number of exponent bits in the FP8 format. Our chief conclusion is that when doing post-training quantization for a wide range of networks, the FP8 format is better than INT8 in terms of accuracy, and the choice of the number of exponent bits is driven by the severity of outliers in the network. We also conduct experiments with quantization-aware training where the difference in formats disappears as the network is trained to reduce the effect of outliers.
翻訳日:2024-02-26 18:56:50 公開日:2024-02-23
# ランダム行列計算における効率的な誤差・分散推定

Efficient error and variance estimation for randomized matrix computations ( http://arxiv.org/abs/2207.06342v4 )

ライセンス: Link先を確認
Ethan N. Epperly and Joel A. Tropp(参考訳) ランダム化行列アルゴリズムは、科学計算と機械学習のワークホースツールとなっている。 これらのアルゴリズムをアプリケーションで安全に利用するには、出力の品質を評価するために、後続誤差推定と結合する必要がある。 そこで本稿では,ランダム化低ランク近似のための残量ワンアウト誤差推定器と,ランダム化行列計算の出力のばらつきを推定するjackknife再サンプリング法という2つの診断法を提案する。 これら2つの診断は、ランダム化svdやランダム化nystr\"om近似のようなランダム化低ランク近似アルゴリズムを高速に計算でき、計算出力の品質評価やアルゴリズムパラメータ選択のガイドに使用できる有用な情報を提供する。

Randomized matrix algorithms have become workhorse tools in scientific computing and machine learning. To use these algorithms safely in applications, they should be coupled with posterior error estimates to assess the quality of the output. To meet this need, this paper proposes two diagnostics: a leave-one-out error estimator for randomized low-rank approximations and a jackknife resampling method to estimate the variance of the output of a randomized matrix computation. Both of these diagnostics are rapid to compute for randomized low-rank approximation algorithms such as the randomized SVD and randomized Nystr\"om approximation, and they provide useful information that can be used to assess the quality of the computed output and guide algorithmic parameter choices.
翻訳日:2024-02-26 18:56:32 公開日:2024-02-23
# メトリクスの再ロード:画像分析検証の推奨

Metrics reloaded: Recommendations for image analysis validation ( http://arxiv.org/abs/2206.01653v8 )

ライセンス: Link先を確認
Lena Maier-Hein, Annika Reinke, Patrick Godau, Minu D. Tizabi, Florian Buettner, Evangelia Christodoulou, Ben Glocker, Fabian Isensee, Jens Kleesiek, Michal Kozubek, Mauricio Reyes, Michael A. Riegler, Manuel Wiesenfarth, A. Emre Kavur, Carole H. Sudre, Michael Baumgartner, Matthias Eisenmann, Doreen Heckmann-N\"otzel, Tim R\"adsch, Laura Acion, Michela Antonelli, Tal Arbel, Spyridon Bakas, Arriel Benis, Matthew Blaschko, M. Jorge Cardoso, Veronika Cheplygina, Beth A. Cimini, Gary S. Collins, Keyvan Farahani, Luciana Ferrer, Adrian Galdran, Bram van Ginneken, Robert Haase, Daniel A. Hashimoto, Michael M. Hoffman, Merel Huisman, Pierre Jannin, Charles E. Kahn, Dagmar Kainmueller, Bernhard Kainz, Alexandros Karargyris, Alan Karthikesalingam, Hannes Kenngott, Florian Kofler, Annette Kopp-Schneider, Anna Kreshuk, Tahsin Kurc, Bennett A. Landman, Geert Litjens, Amin Madani, Klaus Maier-Hein, Anne L. Martel, Peter Mattson, Erik Meijering, Bjoern Menze, Karel G.M. Moons, Henning M\"uller, Brennan Nichyporuk, Felix Nickel, Jens Petersen, Nasir Rajpoot, Nicola Rieke, Julio Saez-Rodriguez, Clara I. S\'anchez, Shravya Shetty, Maarten van Smeden, Ronald M. Summers, Abdel A. Taha, Aleksei Tiulpin, Sotirios A. Tsaftaris, Ben Van Calster, Ga\"el Varoquaux, Paul F. J\"ager(参考訳) 機械学習(ML)アルゴリズム検証の欠陥が過小評価されているグローバルな問題であることを示す証拠が増加する。 特に自動バイオメディカル画像解析において、選択されたパフォーマンス指標は、しばしばドメインの関心を反映せず、科学的な進歩を適切に測定できず、ML技術の実践的な翻訳を妨げる。 これを解決するために、当社の大手国際専門家コンソーシアムは、メトリクスの選択を問題視する研究者を導く包括的なフレームワークであるmetrics reloadedを作成しました。 アプリケーションドメイン間のML方法論の収束に続いて、Metrics Reloadedは検証方法論の収束を促進する。 このフレームワークは多段階のDelphiプロセスで開発され、問題指紋(問題指紋)という新しい概念に基づいており、ドメインの関心事からターゲット構造の性質、データセット、アルゴリズムの出力まで、メートル法選択に関連するすべての側面をキャプチャする、与えられた問題の構造化された表現である。 問題の指紋に基づいて、ユーザは潜在的な落とし穴を認識しながら適切な検証指標を選択し、適用するプロセスを通じてガイドされる。 Metrics Reloadedは画像、オブジェクト、ピクセルレベルでの分類タスク、すなわち画像レベルの分類、オブジェクト検出、セマンティックセグメンテーション、インスタンスセグメンテーションタスクとして解釈できるイメージ分析の問題をターゲットにしている。 ユーザエクスペリエンスを改善するために、私たちはMetrics Reloadedオンラインツールにフレームワークを実装しました。 各種の生物学的・医学的画像解析症例のインスタンス化により, ドメイン間のフレームワークの広範な適用性を実証した。

Increasing evidence shows that flaws in machine learning (ML) algorithm validation are an underestimated global problem. Particularly in automatic biomedical image analysis, chosen performance metrics often do not reflect the domain interest, thus failing to adequately measure scientific progress and hindering translation of ML techniques into practice. To overcome this, our large international expert consortium created Metrics Reloaded, a comprehensive framework guiding researchers in the problem-aware selection of metrics. Following the convergence of ML methodology across application domains, Metrics Reloaded fosters the convergence of validation methodology. The framework was developed in a multi-stage Delphi process and is based on the novel concept of a problem fingerprint - a structured representation of the given problem that captures all aspects that are relevant for metric selection, from the domain interest to the properties of the target structure(s), data set and algorithm output. Based on the problem fingerprint, users are guided through the process of choosing and applying appropriate validation metrics while being made aware of potential pitfalls. Metrics Reloaded targets image analysis problems that can be interpreted as a classification task at image, object or pixel level, namely image-level classification, object detection, semantic segmentation, and instance segmentation tasks. To improve the user experience, we implemented the framework in the Metrics Reloaded online tool, which also provides a point of access to explore weaknesses, strengths and specific recommendations for the most common validation metrics. The broad applicability of our framework across domains is demonstrated by an instantiation for various biological and medical image analysis use cases.
翻訳日:2024-02-26 18:55:57 公開日:2024-02-23
# 低次元リンク予測のための双曲的階層的知識グラフ埋め込み

Hyperbolic Hierarchical Knowledge Graph Embeddings for Link Prediction in Low Dimensions ( http://arxiv.org/abs/2204.13704v2 )

ライセンス: Link先を確認
Wenjie Zheng, Wenxue Wang, Shu Zhao and Fulan Qian(参考訳) 知識グラフ埋め込み(KGE)は、知識グラフ(KG)に欠落したリンクを推測する強力な方法として検証され、通常はエンティティをユークリッド空間にマッピングし、関係をエンティティの変換として扱う。 近年、いくつかのユークリッドKGE法は、KGでよく見られる意味階層をモデル化するために拡張され、リンク予測の性能が向上した。 階層的なデータを埋め込むために、双曲空間は従来のユークリッド空間に代わる有望な代替として現れ、高い忠実度と低いメモリ消費を提供する。 ユークリッド空間とは異なり、双曲空間は無数の曲率を選べる。 しかし、既存の双曲的kge法では最適な曲率設定を手動で得ることが困難であり、意味階層を効果的にモデル化する能力が制限される。 この制限に対処するため、新しいKGEモデルである $\textbf{Hyp}$erbolic $\textbf{H}$ierarchical $\textbf{KGE}$ (HypHKGE)を提案する。 このモデルは、双曲空間に対する注意に基づく学習可能な曲率を導入し、リッチなセマンティック階層を保存するのに役立つ。 さらに,欠落したリンクを推定するために保存された階層を利用するために,階層的階層変換を,階層間モデリングと階層内モデリングの両方を含む双曲幾何学の理論に基づいて定義する。 実験では、3つのベンチマークデータセット(WN18RR, FB15K-237, YAGO3-10)に対するHypHKGEモデルの有効性が示された。 ソースコードはhttps://github.com/wjzheng96/HypHKGEで公開される。

Knowledge graph embeddings (KGE) have been validated as powerful methods for inferring missing links in knowledge graphs (KGs) that they typically map entities into Euclidean space and treat relations as transformations of entities. Recently, some Euclidean KGE methods have been enhanced to model semantic hierarchies commonly found in KGs, improving the performance of link prediction. To embed hierarchical data, hyperbolic space has emerged as a promising alternative to traditional Euclidean space, offering high fidelity and lower memory consumption. Unlike Euclidean, hyperbolic space provides countless curvatures to choose from. However, it is difficult for existing hyperbolic KGE methods to obtain the optimal curvature settings manually, thereby limiting their ability to effectively model semantic hierarchies. To address this limitation, we propose a novel KGE model called $\textbf{Hyp}$erbolic $\textbf{H}$ierarchical $\textbf{KGE}$ (HypHKGE). This model introduces attention-based learnable curvatures for hyperbolic space, which helps preserve rich semantic hierarchies. Furthermore, to utilize the preserved hierarchies for inferring missing links, we define hyperbolic hierarchical transformations based on the theory of hyperbolic geometry, including both inter-level and intra-level modeling. Experiments demonstrate the effectiveness of the proposed HypHKGE model on the three benchmark datasets (WN18RR, FB15K-237, and YAGO3-10). The source code will be publicly released at https://github.com/wjzheng96/HypHKGE.
翻訳日:2024-02-26 18:55:29 公開日:2024-02-23
# Cluster Algebras: ネットワークサイエンスと機械学習

Cluster Algebras: Network Science and Machine Learning ( http://arxiv.org/abs/2203.13847v2 )

ライセンス: Link先を確認
Pierre-Philippe Dechant, Yang-Hui He, Elli Heyes, Edward Hirst(参考訳) クラスター代数は近年、数学や物理学において重要なプレーヤーとなっている。 本研究では,現代データサイエンスのレンズ,特にネットワークサイエンスと機械学習の手法を用いて,それらを調査する。 ネットワーク解析法は、様々な変異型のクラスター代数の交換グラフに適用される。 分析は、グラフがクラスタ間の置換同値によって識別されずに表現されると、quiver交換グラフ埋め込みにエレガントな対称性が現れることを示している。 この対称性に関連する種数とクインバー数の間の比率は、階数5までの有限ディンキン型代数で計算され、より高い階数で予想される。 単純な機械学習技術は、種子のデータを使ってクラスタ代数を分類することに成功した。 学習性能は、同じ変異型の代数とタイプ間の0.9の精度を超え、人工的に生成されたデータと比較する。

Cluster algebras have recently become an important player in mathematics and physics. In this work, we investigate them through the lens of modern data science, specifically with techniques from network science and machine learning. Network analysis methods are applied to the exchange graphs for cluster algebras of varying mutation types. The analysis indicates that when the graphs are represented without identifying by permutation equivalence between clusters an elegant symmetry emerges in the quiver exchange graph embedding. The ratio between number of seeds and number of quivers associated to this symmetry is computed for finite Dynkin type algebras up to rank 5, and conjectured for higher ranks. Simple machine learning techniques successfully learn to classify cluster algebras using the data of seeds. The learning performance exceeds 0.9 accuracies between algebras of the same mutation type and between types, as well as relative to artificially generated data.
翻訳日:2024-02-26 18:54:58 公開日:2024-02-23
# 画像解析検証におけるメトリクス関連落とし穴の理解

Understanding metric-related pitfalls in image analysis validation ( http://arxiv.org/abs/2302.01790v4 )

ライセンス: Link先を確認
Annika Reinke, Minu D. Tizabi, Michael Baumgartner, Matthias Eisenmann, Doreen Heckmann-N\"otzel, A. Emre Kavur, Tim R\"adsch, Carole H. Sudre, Laura Acion, Michela Antonelli, Tal Arbel, Spyridon Bakas, Arriel Benis, Matthew Blaschko, Florian Buettner, M. Jorge Cardoso, Veronika Cheplygina, Jianxu Chen, Evangelia Christodoulou, Beth A. Cimini, Gary S. Collins, Keyvan Farahani, Luciana Ferrer, Adrian Galdran, Bram van Ginneken, Ben Glocker, Patrick Godau, Robert Haase, Daniel A. Hashimoto, Michael M. Hoffman, Merel Huisman, Fabian Isensee, Pierre Jannin, Charles E. Kahn, Dagmar Kainmueller, Bernhard Kainz, Alexandros Karargyris, Alan Karthikesalingam, Hannes Kenngott, Jens Kleesiek, Florian Kofler, Thijs Kooi, Annette Kopp-Schneider, Michal Kozubek, Anna Kreshuk, Tahsin Kurc, Bennett A. Landman, Geert Litjens, Amin Madani, Klaus Maier-Hein, Anne L. Martel, Peter Mattson, Erik Meijering, Bjoern Menze, Karel G.M. Moons, Henning M\"uller, Brennan Nichyporuk, Felix Nickel, Jens Petersen, Susanne M. Rafelski, Nasir Rajpoot, Mauricio Reyes, Michael A. Riegler, Nicola Rieke, Julio Saez-Rodriguez, Clara I. S\'anchez, Shravya Shetty, Maarten van Smeden, Ronald M. Summers, Abdel A. Taha, Aleksei Tiulpin, Sotirios A. Tsaftaris, Ben Van Calster, Ga\"el Varoquaux, Manuel Wiesenfarth, Ziv R. Yaniv, Paul F. J\"ager, Lena Maier-Hein(参考訳) 検証メトリクスは、科学的進歩の信頼できる追跡と、人工知能(AI)研究とその実践への翻訳の間の現在の亀裂をブリッジするための鍵である。 しかし、画像解析において、基礎となる研究問題に関してメトリクスが不十分に選択されることが証明されている。 個々の強み、弱点、バリデーションメトリクスの制限を考慮に入れることは、教育的な選択を行う上で重要な前提条件であるが、関連する知識は現在分散しており、個々の研究者にはアクセスできない。 本研究は,多分野の専門家コンソーシアムによる多段階Delphiプロセスと広範なコミュニティフィードバックに基づいて,画像解析における検証メトリクスに関連する落とし穴に関する情報への信頼性と包括的な共通点を提供する。 生物医学的な画像解析に焦点をあてるが、他の分野に転移する可能性があり、アドレス付き落とし穴はアプリケーションドメイン全体に一般化し、新しく作成されたドメインに依存しない分類法に従って分類される。 各落とし穴に付随する理解、イラスト、具体例を容易にする。 あらゆるレベルの専門知識を持つ研究者がアクセス可能な構造化された情報体系として、この研究は、画像分析バリデーションにおける重要なトピックのグローバル理解を強化する。

Validation metrics are key for the reliable tracking of scientific progress and for bridging the current chasm between artificial intelligence (AI) research and its translation into practice. However, increasing evidence shows that particularly in image analysis, metrics are often chosen inadequately in relation to the underlying research problem. This could be attributed to a lack of accessibility of metric-related knowledge: While taking into account the individual strengths, weaknesses, and limitations of validation metrics is a critical prerequisite to making educated choices, the relevant knowledge is currently scattered and poorly accessible to individual researchers. Based on a multi-stage Delphi process conducted by a multidisciplinary expert consortium as well as extensive community feedback, the present work provides the first reliable and comprehensive common point of access to information on pitfalls related to validation metrics in image analysis. Focusing on biomedical image analysis but with the potential of transfer to other fields, the addressed pitfalls generalize across application domains and are categorized according to a newly created, domain-agnostic taxonomy. To facilitate comprehension, illustrations and specific examples accompany each pitfall. As a structured body of information accessible to researchers of all levels of expertise, this work enhances global comprehension of a key topic in image analysis validation.
翻訳日:2024-02-26 18:49:33 公開日:2024-02-23
# 深部ReLUニューラルネットワークによる不規則空間データの補間におけるシャープ下界

Sharp Lower Bounds on Interpolation by Deep ReLU Neural Networks at Irregularly Spaced Data ( http://arxiv.org/abs/2302.00834v2 )

ライセンス: Link先を確認
Jonathan W. Siegel(参考訳) 深部ReLUニューラルネットワークの補間力について検討する。 具体的には,パラメータ数の観点からは,深部ReLUネットワークが距離$\delta$で区切られた単位球内の値N$のデータポイントをいかに効率的に補間できるかを考える。 Omega(N)$パラメータは、$\delta$が指数関数的に$N$で小さい状態において必要であり、$O(N)$パラメータが常に十分であることから、この状態において鋭い結果を与える。 これはまた、VC次元の低い境界を証明するために使われるビット抽出技術が不規則に空間化されたデータポイントに適用できないことを示す。 最後に、アプリケーションとして、深いReLUニューラルネットワークが埋め込みエンドポイントのソボレフ空間に対して達成できる近似率の低い値を与える。

We study the interpolation power of deep ReLU neural networks. Specifically, we consider the question of how efficiently, in terms of the number of parameters, deep ReLU networks can interpolate values at $N$ datapoints in the unit ball which are separated by a distance $\delta$. We show that $\Omega(N)$ parameters are required in the regime where $\delta$ is exponentially small in $N$, which gives the sharp result in this regime since $O(N)$ parameters are always sufficient. This also shows that the bit-extraction technique used to prove lower bounds on the VC dimension cannot be applied to irregularly spaced datapoints. Finally, as an application we give a lower bound on the approximation rates that deep ReLU neural networks can achieve for Sobolev spaces at the embedding endpoint.
翻訳日:2024-02-26 18:49:09 公開日:2024-02-23
# CoderEval: 生成事前トレーニングモデルによる実用的コード生成のベンチマーク

CoderEval: A Benchmark of Pragmatic Code Generation with Generative Pre-trained Models ( http://arxiv.org/abs/2302.00288v3 )

ライセンス: Link先を確認
Hao Yu, Bo Shen, Dezhi Ran, Jiaxin Zhang, Qi Zhang, Yuchi Ma, Guangtai Liang, Ying Li, Qianxiang Wang, Tao Xie(参考訳) 事前学習と微調整のパラダイムに基づくコード生成モデルは、学界と産業の両方でますます試みられ、結果としてCodex、CodeGen、PanGu-Coderといった有名な産業モデルが生まれた。 これらのモデルの有効性を評価するために、スタンドアロン関数を生成する場合、すなわち組み込み関数と標準ライブラリのみを起動またはアクセスする関数を含む、複数の既存のベンチマークが提案されている。 しかしながら、既存のベンチマークには含まれない非スタンドアロン関数は、人気のあるオープンソースプロジェクトにおける機能の70%以上を占め、スタンドアロン関数におけるモデルの有効性を評価することは、実用的なコード生成シナリオにおけるモデルの有効性を反映できない。 本稿では,このギャップを埋めるために,人気のある実世界のオープンソースプロジェクトから注意深く収集した230 pythonと230 javaコード生成タスクと,生成コードの機能的正当性を自動的に評価する自己完結型実行プラットフォームからなる,coderevalというベンチマークを提案する。 CoderEvalは、コンテキスト依存の6つのレベルからコード生成タスクをサポートする。コンテキストは、生成中の関数の外で定義された型、API、変数、constなど、依存するサードパーティライブラリ、現在のクラス、ファイル、プロジェクトなどのコード要素を指す。 CoderEvalは、スタンドアロン関数以外のコードを生成する際のモデルの有効性を評価するために使用できる。 CoderEval上で3つのコード生成モデルを評価することにより、スタンドアロン関数の生成におけるこれらのモデルの有効性が非スタンドアロン関数の生成よりも著しく高いことが分かる。 本分析は,現実的なコード生成に文脈情報を活用することにより,モデルの有効性をさらに向上させるための今後の方向性を明らかにする。

Code generation models based on the pre-training and fine-tuning paradigm have been increasingly attempted by both academia and industry, resulting in well-known industrial models such as Codex, CodeGen, and PanGu-Coder. To evaluate the effectiveness of these models, multiple existing benchmarks are proposed, including only cases of generating a standalone function, i.e., a function that may invoke or access only built-in functions and standard libraries. However, non-standalone functions, which typically are not included in the existing benchmarks, constitute more than 70% of the functions in popular open-source projects, and evaluating models' effectiveness on standalone functions cannot reflect these models' effectiveness on pragmatic code generation scenarios. To help bridge the preceding gap, in this paper, we propose a benchmark named CoderEval, consisting of 230 Python and 230 Java code generation tasks carefully curated from popular real-world open-source projects and a self-contained execution platform to automatically assess the functional correctness of generated code. CoderEval supports code generation tasks from six levels of context dependency, where context refers to code elements such as types, APIs, variables, and consts defined outside the function under generation but within the dependent third-party libraries, current class, file, or project. CoderEval can be used to evaluate the effectiveness of models in generating code beyond only standalone functions. By evaluating three code generation models on CoderEval, we find that the effectiveness of these models in generating standalone functions is substantially higher than that in generating non-standalone functions. Our analysis highlights the current progress and pinpoints future directions to further improve a model's effectiveness by leveraging contextual information for pragmatic code generation.
翻訳日:2024-02-26 18:48:54 公開日:2024-02-23
# ゼロショット因果学習

Zero-shot causal learning ( http://arxiv.org/abs/2301.12292v4 )

ライセンス: Link先を確認
Hamed Nilforoshan, Michael Moor, Yusuf Roohani, Yining Chen, Anja \v{S}urina, Michihiro Yasunaga, Sara Oblak, Jure Leskovec(参考訳) パーソナライズされた医療、公共政策、オンラインマーケティングなど様々な分野において、異なる介入が特定の個人に因果的にどのように影響するかを予測することは重要である。 既往の介入の効果を予測する方法は,それを受けた個人からの履歴データに基づいて多数存在する。 しかし、多くの場面において、これらの方法が対処しない新しい介入(例えば、新しく発明された薬物)の効果を予測することが重要である。 ここではゼロショット因果学習を考察し,新しい介入のパーソナライズ効果を予測する。 タスクとして各介入の効果のパーソナライズされた予測を定式化する因果メタラーニングフレームワークであるCaMLを提案する。 camlは、何千ものタスクにまたがる単一のメタモデルを訓練し、それぞれが介入、受取人、および非応答をサンプリングして構築する。 介入情報(例えば、薬物の属性)と個々の特徴(例えば、患者の歴史)の両方を活用することで、CaMLはトレーニング時に存在しない新規介入のパーソナライズされた効果を予測することができる。 大規模医療クレームとセルライン摂動における実世界データセットの実験結果は,本手法の有効性を示している。 最も驚くべきことに、\methodのゼロショット予測は、テスト介入のデータに基づいて直接トレーニングされた強力なベースラインよりも優れています。

Predicting how different interventions will causally affect a specific individual is important in a variety of domains such as personalized medicine, public policy, and online marketing. There are a large number of methods to predict the effect of an existing intervention based on historical data from individuals who received it. However, in many settings it is important to predict the effects of novel interventions (e.g., a newly invented drug), which these methods do not address. Here, we consider zero-shot causal learning: predicting the personalized effects of a novel intervention. We propose CaML, a causal meta-learning framework which formulates the personalized prediction of each intervention's effect as a task. CaML trains a single meta-model across thousands of tasks, each constructed by sampling an intervention, its recipients, and its nonrecipients. By leveraging both intervention information (e.g., a drug's attributes) and individual features~(e.g., a patient's history), CaML is able to predict the personalized effects of novel interventions that do not exist at the time of training. Experimental results on real world datasets in large-scale medical claims and cell-line perturbations demonstrate the effectiveness of our approach. Most strikingly, \method's zero-shot predictions outperform even strong baselines trained directly on data from the test interventions.
翻訳日:2024-02-26 18:48:08 公開日:2024-02-23
# 浅回路サンプリングのための無条件量子アドバンテージ

Unconditional Quantum Advantage for Sampling with Shallow Circuits ( http://arxiv.org/abs/2301.00995v3 )

ライセンス: Link先を確認
Adam Bene Watts, Natalie Parham(参考訳) Bravyi、Gosset、Koenigによる最近の研究は、一定の深さの量子回路で解ける探索問題が存在するが、ファンインが有界な任意の定深さの古典回路では解けないことを示した。 入力非依存のサンプリングタスクに対して、同様の分離の証明を達成できますか? 本稿では,古典回路に与えられるランダムな入力ビットの数が有界である場合に,この疑問に対する答えがイエスであることを示す。 我々は、$\{0,1\}^n$ 以上の分布 $d_{n}$ を導入し、全変動距離において$d_{n}$ に近い分布から$c_n$ のサンプルを得るように、定数深さの均一量子回路ファミリ $\{c_n\}_n$ を構成する。 任意の$\delta < 1$ に対して、無条件に、入力 $kn + n^\delta$ i.i.d.ベルノウリ確率変数のエントロピーが 1/k$ であり、全変動距離が $d_{n}$ に近い出力を生成する任意の古典回路は、深さ $\omega(\log \log n)$ であることも証明する。 これにより、定数深さ量子回路が定数深さ有界ファンイン古典回路では再現できない分布からサンプルできるという無条件の証明を与える。 また、アドバイス付き定数深度量子回路とバウンドファンインとファンアウト付き古典回路との類似の分離を示すが、非バウンド数のi.i.dランダム入力にアクセスする。 分布 $d_n$ と古典回路下限は、ビオラの仕事に触発され、異なる(しかし関連する)分布は、ほぼ一定の深さの有界な古典回路からサンプリングできないことを示した。

Recent work by Bravyi, Gosset, and Koenig showed that there exists a search problem that a constant-depth quantum circuit can solve, but that any constant-depth classical circuit with bounded fan-in cannot. They also pose the question: Can we achieve a similar proof of separation for an input-independent sampling task? In this paper, we show that the answer to this question is yes when the number of random input bits given to the classical circuit is bounded. We introduce a distribution $D_{n}$ over $\{0,1\}^n$ and construct a constant-depth uniform quantum circuit family $\{C_n\}_n$ such that $C_n$ samples from a distribution close to $D_{n}$ in total variation distance. For any $\delta < 1$ we also prove, unconditionally, that any classical circuit with bounded fan-in gates that takes as input $kn + n^\delta$ i.i.d. Bernouli random variables with entropy $1/k$ and produces output close to $D_{n}$ in total variation distance has depth $\Omega(\log \log n)$. This gives an unconditional proof that constant-depth quantum circuits can sample from distributions that can't be reproduced by constant-depth bounded fan-in classical circuits, even up to additive error. We also show a similar separation between constant-depth quantum circuits with advice and classical circuits with bounded fan-in and fan-out, but access to an unbounded number of i.i.d random inputs. The distribution $D_n$ and classical circuit lower bounds are inspired by work of Viola, in which he shows a different (but related) distribution cannot be sampled from approximately by constant-depth bounded fan-in classical circuits.
翻訳日:2024-02-26 18:47:14 公開日:2024-02-23
# マスキング言語モデルにおける不整合

Inconsistencies in Masked Language Models ( http://arxiv.org/abs/2301.00068v3 )

ライセンス: Link先を確認
Tom Young, Yunan Chen, Yang You(参考訳) マスク付きトークンをシーケンスで予測する学習は、PaLM2のような強力な言語モデルにとって有用な事前学習対象であることが示されている。 トレーニング後、このようなマスキング言語モデル(MLM)は、マスキングされた位置におけるトークンの分布をシーケンスで提供することができる。 しかし, 異なるマスキングパターンに対応する分布は, 共に考えるとコヒーレントなジョイント分布から導出することはできない。 MLMのこの根本的な欠陥は、推論中に自己矛盾行動を引き起こす可能性がある。 MMLUを含む様々なベンチマークデータセットでは、MLMは同じ入力問題に対して異なる予測を与えることができる。 BERT-base からUL2-20B まで,様々なサイズや構成の MLM において,このような不整合が至るところに存在することを示す。 そこで本研究では,条件の集合という,MLMの予測時間戦略をさらに提案する。 最終予測のために mlm が直接生成する不整合条件式の選択範囲を共同で考慮し、しばしばかなりの精度向上をもたらす。

Learning to predict masked tokens in a sequence has been shown to be a helpful pretraining objective for powerful language models such as PaLM2. After training, such masked language models (MLMs) can provide distributions of tokens in the masked positions in a sequence. However, this paper shows that distributions corresponding to different masking patterns can demonstrate considerable inconsistencies, i.e., they cannot be derived from a coherent joint distribution when considered together. This fundamental flaw in MLMs can lead to self-contradictory behaviors during inference. On various benchmark datasets including MMLU, MLMs can give different predictions to the same input question. From BERT-base to UL2-20B, we show that such inconsistencies exist ubiquitously in MLMs of diverse sizes and configurations. In light of our observations, we further propose an inference-time strategy for MLMs called Ensemble of Conditionals. It jointly considers a selected range of inconsistent conditionals directly produced by the MLM for the final prediction, which often leads to considerable accuracy improvement.
翻訳日:2024-02-26 18:46:38 公開日:2024-02-23
# レゲット・ガーグマクロリアリズムと時間相関

Leggett-Garg Macrorealism and temporal correlations ( http://arxiv.org/abs/2212.11616v2 )

ライセンス: Link先を確認
Giuseppe Vitagliano and Costantino Budroni(参考訳) leggett と garg は、古典的システムにおける我々の直観をコードするマクロリアリズムモデル、すなわち物理量は、最小の外乱で測定できる一定の値を持ち、マクロ的量子コヒーレンス効果をテストすることを目標としている。 系上の逐次測定の統計を含む関連する不等式は、量子力学的予測と実験的観測によって破られる。 古典的な説明は、測定障害の特定のモデルを想定して復元することができる。 本稿では,マクロリアリズムと量子時間相関を特徴付ける最近の理論および実験の進展と,レゲット・ガーグ試験に関連する閉孔について概説する。 最後に、測定障害の仮定を緩和し、マクロリアリストモデルを超えた非古典的時間相関の最近の定義とそのシーケンシャル量子情報処理への応用について述べる。

Leggett and Garg formulated macrorealist models encoding our intuition on classical systems, i.e., physical quantities have a definite value that can be measured with minimal disturbance, and with the goal of testing macroscopic quantum coherence effects. The associated inequalities, involving the statistics of sequential measurements on the system, are violated by quantum mechanical predictions and experimental observations. Such tests, however, are subject to loopholes: a classical explanation can be recovered assuming specific models of measurement disturbance. We review recent theoretical and experimental progress in characterizing macrorealist and quantum temporal correlations, and in closing loopholes associated with Leggett-Garg tests. Finally, we review recent definitions of nonclassical temporal correlations, which go beyond macrorealist models by relaxing the assumption on the measurement disturbance, and their applications in sequential quantum information processing.
翻訳日:2024-02-26 18:46:22 公開日:2024-02-23
# キーワード生成のための事前学習型言語モデル:詳細な実証研究

Pre-trained Language Models for Keyphrase Generation: A Thorough Empirical Study ( http://arxiv.org/abs/2212.10233v2 )

ライセンス: Link先を確認
Di Wu, Wasi Uddin Ahmad, Kai-Wei Chang(参考訳) 事前トレーニングに依存しないニューラルモデルは、大きな注釈付きデータセットを持つkeyphrase生成タスクに優れている。 一方、新しいアプローチでは、データ効率のために事前学習言語モデル(plm)が組み込まれている。 しかしながら、2つのタイプのアプローチがどのように比較され、異なる設計選択がPLMベースのモデルの性能にどのように影響するかという体系的な研究は欠如している。 この知識ギャップを埋め、キーフレーズ抽出とキーフレーズ生成にPLMのより情報的利用を促進するために、我々は詳細な実験研究を行った。 配列ラベリングとしてのkeyphrase抽出とシーケンシャル・ツー・シーケンス生成のkeyphrase生成を定式化した。 PLMは、高リソース性能と最先端の低リソース性能の競争力を持つことを示した後、ドメイン内PLM、異なる事前学習目標を持つPLM、パラメータ予算を持つPLM、および現在のキーフレーズに対する異なる定式化を含む重要な設計選択について検討する。 さらに,(1)領域内のBERT様PLMは,強大かつデータ効率のよいキーフレーズ生成モデルの構築に利用でき,(2)パラメータ予算の固定化により,エンコーダ内のモデル深度を優先し,より多くの層を割り当てることで,エンコーダ・デコーダモデルの改善,(3)ドメイン内PLMの4つの導入により,科学領域におけるニュースドメインにおける競合性能と最先端のパフォーマンスを実現する。

Neural models that do not rely on pre-training have excelled in the keyphrase generation task with large annotated datasets. Meanwhile, new approaches have incorporated pre-trained language models (PLMs) for their data efficiency. However, there lacks a systematic study of how the two types of approaches compare and how different design choices can affect the performance of PLM-based models. To fill in this knowledge gap and facilitate a more informed use of PLMs for keyphrase extraction and keyphrase generation, we present an in-depth empirical study. Formulating keyphrase extraction as sequence labeling and keyphrase generation as sequence-to-sequence generation, we perform extensive experiments in three domains. After showing that PLMs have competitive high-resource performance and state-of-the-art low-resource performance, we investigate important design choices including in-domain PLMs, PLMs with different pre-training objectives, using PLMs with a parameter budget, and different formulations for present keyphrases. Further results show that (1) in-domain BERT-like PLMs can be used to build strong and data-efficient keyphrase generation models; (2) with a fixed parameter budget, prioritizing model depth over width and allocating more layers in the encoder leads to better encoder-decoder models; and (3) introducing four in-domain PLMs, we achieve a competitive performance in the news domain and the state-of-the-art performance in the scientific domain.
翻訳日:2024-02-26 18:46:04 公開日:2024-02-23
# マルチホップ機械読解理解に基づく薬物・薬物相互作用予測のための医用知識グラフQA

Medical Knowledge Graph QA for Drug-Drug Interaction Prediction based on Multi-hop Machine Reading Comprehension ( http://arxiv.org/abs/2212.09400v3 )

ライセンス: Link先を確認
Peng Gao, Feng Gao, Jian-Cheng Ni, Yu Wang, Fei Wang(参考訳) 薬物と薬物の相互作用予測は分子生物学において重要な問題である。 医学実験を通して薬物と薬物の相互作用を観察する伝統的な方法は、かなりの資源と労力を必要とする。 本稿では,クローズドドメイン文献からの機械読解とオープンドメイン文書からの薬物・タンパク質三重項の知識グラフの構築により,薬物と薬物の相互作用を予測する医用知識グラフ質問応答モデル medkgqa を提案する。 このモデルは、エンティティ埋め込みを用いて、グラフ内の薬物-タンパク質標的属性をベクター化し、人体におけるタンパク質標的の代謝相互作用経路に基づいて、薬物とタンパク質実体間の有向接続を確立する。 これにより、複数の外部知識を整合させ、グラフニューラルネットワークを学ぶことができる。 ベルとホイッスルがなければ、提案モデルは、カンガルーメドホップデータセットの以前の最先端モデルと比較して、薬物と薬物の相互作用予測の精度で4.5%向上した。 実験結果は,モデルの効率性と有効性を示し,機械読解タスクにおける外部知識の統合の可能性を検証する。

Drug-drug interaction prediction is a crucial issue in molecular biology. Traditional methods of observing drug-drug interactions through medical experiments require significant resources and labor. This paper presents a medical knowledge graph question answering model, dubbed MedKGQA, that predicts drug-drug interaction by employing machine reading comprehension from closed-domain literature and constructing a knowledge graph of drug-protein triplets from open-domain documents. The model vectorizes the drug-protein target attributes in the graph using entity embeddings and establishes directed connections between drug and protein entities based on the metabolic interaction pathways of protein targets in the human body. This aligns multiple external knowledge and applies it to learn the graph neural network. Without bells and whistles, the proposed model achieved a 4.5% improvement in terms of drug-drug interaction prediction accuracy compared to previous state-of-the-art models on the Qangaroo MedHop dataset. Experimental results demonstrate the efficiency and effectiveness of the model and verify the feasibility of integrating external knowledge in machine reading comprehension tasks.
翻訳日:2024-02-26 18:45:31 公開日:2024-02-23
# 条件付き生成モデルによる量子系の予測特性

Predicting Properties of Quantum Systems with Conditional Generative Models ( http://arxiv.org/abs/2211.16943v2 )

ライセンス: Link先を確認
Haoxiang Wang, Maurice Weber, Josh Izaac, Cedric Yen-Yu Lin(参考訳) 機械学習は、量子多体システムの特性を予測する強力なツールとして最近登場した。 ガッピングハミルトニアンの多くの基底状態について、生成モデルは単一の量子状態の測定から学び、局所観測可能性を予測するのに十分な正確な状態を再構築することができる。 あるいは、分類と回帰モデルは、異なるが関連する状態の測定から学習することで、局所観測可能性を予測することができる。 本研究では,両手法の利点を統合し,条件付き生成モデルを用いて状態の族を同時に表現し,異なる量子状態の共有構造を計測から学習することを提案する。 トレーニングデータに含まれない状態であっても,新たな観測対象のさらなる訓練を必要とせず,任意の地中状態の局所特性を予測することができる。 まず,45キュービットまでのシミュレーションを用いて2次元ランダムハイゼンベルクモデルに対するアプローチを数値的に検証した。 さらに、中性原子量子コンピュータ上で量子シミュレーションを行い、この手法が13$\times$13 Rydbergの2乗格子の量子位相を正確に予測できることを実証する。

Machine learning has emerged recently as a powerful tool for predicting properties of quantum many-body systems. For many ground states of gapped Hamiltonians, generative models can learn from measurements of a single quantum state to reconstruct the state accurately enough to predict local observables. Alternatively, classification and regression models can predict local observables by learning from measurements on different but related states. In this work, we combine the benefits of both approaches and propose the use of conditional generative models to simultaneously represent a family of states, learning shared structures of different quantum states from measurements. The trained model enables us to predict arbitrary local properties of ground states, even for states not included in the training data, without necessitating further training for new observables. We first numerically validate our approach on 2D random Heisenberg models using simulations of up to 45 qubits. Furthermore, we conduct quantum simulations on a neutral-atom quantum computer and demonstrate that our method can accurately predict the quantum phases of square lattices of 13$\times$13 Rydberg atoms.
翻訳日:2024-02-26 18:45:16 公開日:2024-02-23
# BeGin: 大規模なベンチマークシナリオとグラフ連続学習のための使いやすいフレームワーク

BeGin: Extensive Benchmark Scenarios and An Easy-to-use Framework for Graph Continual Learning ( http://arxiv.org/abs/2211.14568v3 )

ライセンス: Link先を確認
Jihoon Ko, Shinhwan Kang, Taehyung Kwon, Heechan Moon, and Kijung Shin(参考訳) 連続学習(continual learning、cl)は、タスクのシーケンスを無停止に学習するプロセスである。 ほとんどの既存のCLメソッドは独立したデータ(画像やテキストなど)を扱うが、標準の実験環境下で多くのベンチマークフレームワークや結果が利用可能である。 しかし、グラフデータ(グラフCL)のCL法は、それらと比較して、比較的未探索である。 (a) 標準の実験的な設定の欠如、特にインスタンス間の依存関係の扱い方について。 b) ベンチマークデータセットとシナリオの欠如 (c)依存性による実装と評価の複雑さが高い。 本稿では, (a)ノード、リンク、グラフレベルの問題の4つの標準的なインクリメンタル設定(task-、class-、domain-、time-incremental)を定義し、前述のスコープを拡張した。 周辺 (b)実世界の20のグラフに基づく31のベンチマークシナリオを提供する。 周辺 (c) グラフCLのための容易かつ愚かなフレームワークであるBeGinを開発した。 BeGinはデータ処理、アルゴリズム設計、評価のための再利用可能なモジュールでモジュール化されているため、容易に拡張できる。 特に評価モジュールはユーザコードから完全に分離され、潜在的なミスを排除します。 ベンチマーク結果に関しては、最新のベンチマークよりもインクリメンタルな設定と問題レベルの組み合わせを3倍にします。 ベンチマークフレームワークのすべての資産はhttps://github.com/ShinhwanKang/BeGin.comで公開されている。

Continual Learning (CL) is the process of learning ceaselessly a sequence of tasks. Most existing CL methods deal with independent data (e.g., images and text) for which many benchmark frameworks and results under standard experimental settings are available. Compared to them, however, CL methods for graph data (graph CL) are relatively underexplored because of (a) the lack of standard experimental settings, especially regarding how to deal with the dependency between instances, (b) the lack of benchmark datasets and scenarios, and (c) high complexity in implementation and evaluation due to the dependency. In this paper, regarding (a) we define four standard incremental settings (task-, class-, domain-, and time-incremental) for node-, link-, and graph-level problems, extending the previously explored scope. Regarding (b), we provide 31 benchmark scenarios based on 20 real-world graphs. Regarding (c), we develop BeGin, an easy and fool-proof framework for graph CL. BeGin is easily extended since it is modularized with reusable modules for data processing, algorithm design, and evaluation. Especially, the evaluation module is completely separated from user code to eliminate potential mistakes. Regarding benchmark results, we cover 3X more combinations of incremental settings and levels of problems than the latest benchmark. All assets for the benchmark framework are publicly available at https://github.com/ShinhwanKang/BeGin.
翻訳日:2024-02-26 18:44:57 公開日:2024-02-23
# マルチターン対話コンテキストを考慮したドメイン外インテント検出

Out-of-Domain Intent Detection Considering Multi-Turn Dialogue Contexts ( http://arxiv.org/abs/2305.03237v2 )

ライセンス: Link先を確認
Hao Lang, Yinhe Zheng, Binyuan Hui, Fei Huang, Yongbin Li(参考訳) Out-of-Domain (OOD) インテント検出は実用的な対話システムには不可欠であり、通常はマルチターン対話コンテキストを検討する必要がある。 しかし、従来のOODインテント検出手法は単一の対話のみに限られていた。 本稿では,OODインテント検出タスクにおけるマルチターンコンテキストをモデル化するためのコンテキスト認識型OODインテント検出(Caro)フレームワークを提案する。 具体的には,マルチターン対話の文脈からロバスト表現を抽出するための情報ボトルネック原理に従う。 入力サンプル毎に2つの異なるビューを構築し、多視点情報ボトルネック損失を用いて意図検出に関係のない過剰な情報を除去する。 さらに,Caroにおけるラベルなしデータの利用についても検討する。 これらのラベルのないデータからOODサンプルをマイニングするために2段階のトレーニングプロセスを導入し、これらのOODサンプルを使用してブートストラップアプローチによるモデルのトレーニングを行う。 総合的な実験により、CaroはF1-OODのスコアを以前のベストメソッドと比較して29\%以上改善することで、マルチターンOOD検出タスクの最先端性能を確立している。

Out-of-Domain (OOD) intent detection is vital for practical dialogue systems, and it usually requires considering multi-turn dialogue contexts. However, most previous OOD intent detection approaches are limited to single dialogue turns. In this paper, we introduce a context-aware OOD intent detection (Caro) framework to model multi-turn contexts in OOD intent detection tasks. Specifically, we follow the information bottleneck principle to extract robust representations from multi-turn dialogue contexts. Two different views are constructed for each input sample and the superfluous information not related to intent detection is removed using a multi-view information bottleneck loss. Moreover, we also explore utilizing unlabeled data in Caro. A two-stage training process is introduced to mine OOD samples from these unlabeled data, and these OOD samples are used to train the resulting model with a bootstrapping approach. Comprehensive experiments demonstrate that Caro establishes state-of-the-art performances on multi-turn OOD detection tasks by improving the F1-OOD score of over $29\%$ compared to the previous best method.
翻訳日:2024-02-26 18:39:06 公開日:2024-02-23
# 中国語LLaMAとAlpacaの効率的なテキスト符号化

Efficient and Effective Text Encoding for Chinese LLaMA and Alpaca ( http://arxiv.org/abs/2304.08177v3 )

ライセンス: Link先を確認
Yiming Cui, Ziqing Yang, Xin Yao(参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)は、自然言語処理の研究を劇的に変化させ、人工知能(AGI)への有望な一歩を示した。 それでも、LLMの訓練や展開に伴う高コストは、透明でアクセスしやすい学術研究にかなりの障害をもたらす。 LLaMAのようないくつかの大きな言語モデルはコミュニティによってオープンソース化されているが、これらは主に英語のコーパスに焦点を当てており、他の言語に対する有用性を制限している。 本稿では,中国語テキストの理解・生成能力と指示に従う能力を備えたLLaMAの拡張手法を提案する。 LLaMAの既存の語彙を2万の中国語トークンで拡張することで、中国語のエンコーディング効率と意味理解を向上させることができる。 さらに,中国データを用いた2次事前学習を取り入れ,中国語命令データセットを用いてモデルを微調整することで,モデルの理解と実行能力を大幅に向上させる。 実験結果から,新たに提案したモデルは,中国コンテンツの理解と生成におけるLLaMAの能力を高めることが示唆された。 さらに、C-Evalデータセットの結果は、我々の数倍の大きさのモデル間で競合性能が得られる。 トレーニング済みのモデルやトレーニングスクリプト、その他のリソースをgithubを通じて公開し、コミュニティのオープンリサーチを促進しました。 中国語 LLaMA series: \url{https://github.com/ymcui/ Chinese-LLaMA-Alpaca} および中国語 Llama-2 series: \url{https://github.com/ymcui/ Chinese-LLaMA-Alpaca-2}

Large Language Models (LLMs), such as ChatGPT and GPT-4, have dramatically transformed natural language processing research and shown promising strides towards Artificial General Intelligence (AGI). Nonetheless, the high costs associated with training and deploying LLMs present substantial obstacles to transparent, accessible academic research. While several large language models, such as LLaMA, have been open-sourced by the community, these predominantly focus on English corpora, limiting their usefulness for other languages. In this paper, we propose a method to augment LLaMA with capabilities for understanding and generating Chinese text and its ability to follow instructions. We achieve this by extending LLaMA's existing vocabulary with an additional 20,000 Chinese tokens, thereby improving its encoding efficiency and semantic understanding of Chinese. We further incorporate secondary pre-training using Chinese data and fine-tune the model with Chinese instruction datasets, significantly enhancing the model's ability to comprehend and execute instructions. Our experimental results indicate that the newly proposed model markedly enhances the original LLaMA's proficiency in understanding and generating Chinese content. Additionally, the results on the C-Eval dataset yield competitive performance among the models with several times the size of ours. We have made our pre-trained models, training scripts, and other resources available through GitHub, fostering open research for our community. Chinese LLaMA series: \url{https://github.com/ymcui/Chinese-LLaMA-Alpaca} and Chinese Llama-2 series: \url{https://github.com/ymcui/Chinese-LLaMA-Alpaca-2}
翻訳日:2024-02-26 18:38:32 公開日:2024-02-23
# CMOS + 確率ナノマグネット:確率的推論と学習のための異種コンピュータ

CMOS + stochastic nanomagnets: heterogeneous computers for probabilistic inference and learning ( http://arxiv.org/abs/2304.05949v3 )

ライセンス: Link先を確認
Nihal Sanjay Singh, Keito Kobayashi, Qixuan Cao, Kemal Selcuk, Tianrui Hu, Shaila Niazi, Navid Anjum Aadit, Shun Kanai, Hideo Ohno, Shunsuke Fukami, and Kerem Y. Camsari(参考訳) 相補的金属酸化物半導体(CMOS)トランジスタを新規ナノ技術(X)で拡張することでムーアの法則を拡張することがますます重要になっている。 重要な問題の1つは、確率的機械学習、最適化、量子シミュレーションに用いられるサンプリングベースのモンテカルロアルゴリズムである。 ここでは、確率的磁気トンネル接合(sMTJ)に基づく確率的ビット(pビット)とフィールドプログラマブルゲートアレイ(FPGA)を組み合わせて、エネルギー効率の良いCMOS + X(X = sMTJ)プロトタイプを作成する。 このセットアップは,Gibsサンプリングのアルゴリズム的更新順序不変性を利用して,SMTJによって制御されるCMOS回路が確率的推論と学習を行う方法を示す。 sMTJの確率性は,低品質な乱数生成器(RNG)をいかに拡張するかを示す。 詳細なトランジスタレベルの比較では、sMTJベースのpビットは最大1万個のCMOSトランジスタを置き換えることができ、2桁のエネルギーを放出することができる。 我々のアプローチの統合バージョンは、非常に高いスループットとエネルギー効率で、深いボルツマンマシンや他のエネルギーベースの学習アルゴリズムを含む確率論的コンピューティングを前進させることができる。

Extending Moore's law by augmenting complementary-metal-oxide semiconductor (CMOS) transistors with emerging nanotechnologies (X) has become increasingly important. One important class of problems involve sampling-based Monte Carlo algorithms used in probabilistic machine learning, optimization, and quantum simulation. Here, we combine stochastic magnetic tunnel junction (sMTJ)-based probabilistic bits (p-bits) with Field Programmable Gate Arrays (FPGA) to create an energy-efficient CMOS + X (X = sMTJ) prototype. This setup shows how asynchronously driven CMOS circuits controlled by sMTJs can perform probabilistic inference and learning by leveraging the algorithmic update-order-invariance of Gibbs sampling. We show how the stochasticity of sMTJs can augment low-quality random number generators (RNG). Detailed transistor-level comparisons reveal that sMTJ-based p-bits can replace up to 10,000 CMOS transistors while dissipating two orders of magnitude less energy. Integrated versions of our approach can advance probabilistic computing involving deep Boltzmann machines and other energy-based learning algorithms with extremely high throughput and energy efficiency.
翻訳日:2024-02-26 18:37:46 公開日:2024-02-23
# SparDL: 効率的なスパース通信による分散ディープラーニングトレーニング

SparDL: Distributed Deep Learning Training with Efficient Sparse Communication ( http://arxiv.org/abs/2304.00737v2 )

ライセンス: Link先を確認
Minjun Zhao, Yichen Yin, Yuren Mao, Qing Liu, Lu Chen, Yunjun Gao(参考訳) 近年,分散ディープラーニングにおける通信量削減にTop-kスペーシフィケーションが広く用いられている。 しかし、スパースグラディエント累積(SGA)ジレンマのため、トップkスペーリフィケーションの性能には制限がある。 近年,sgaジレンマを扱う手法がいくつか提案されている。 確実に、最先端の手法でさえいくつかの欠点に悩まされている。例えば、非効率な通信アルゴリズムに依存し、追加の伝送ステップを必要とする。 既存の手法の限界に乗じて,SparDLと呼ばれる新しい効率的なスパース通信フレームワークを提案する。 具体的には、SparDLは効率的なReducee-Scatterモデルに基づくSpar-Reduce-Scatterアルゴリズムを使用して、追加の通信操作なしでSGAジレンマを処理する。 また,Spar-All-Gatherアルゴリズムでは,遅延コストをさらに削減し,SparDLの効率を向上する。 さらに,モデル学習の収束性を確保するために,グローバル残差収集アルゴリズムを提案する。 最後に,SparDLの優位性を検証するため,広範な実験を行った。

Top-k sparsification has recently been widely used to reduce the communication volume in distributed deep learning. However, due to the Sparse Gradient Accumulation (SGA) dilemma, the performance of top-k sparsification still has limitations. Recently, a few methods have been put forward to handle the SGA dilemma. Regrettably, even the state-of-the-art method suffers from several drawbacks, e.g., it relies on an inefficient communication algorithm and requires extra transmission steps. Motivated by the limitations of existing methods, we propose a novel efficient sparse communication framework, called SparDL. Specifically, SparDL uses the Spar-Reduce-Scatter algorithm, which is based on an efficient Reduce-Scatter model, to handle the SGA dilemma without additional communication operations. Besides, to further reduce the latency cost and improve the efficiency of SparDL, we propose the Spar-All-Gather algorithm. Moreover, we propose the global residual collection algorithm to ensure fast convergence of model training. Finally, extensive experiments are conducted to validate the superiority of SparDL.
翻訳日:2024-02-26 18:37:25 公開日:2024-02-23
# 意味のある言葉:ネガティブな言葉がニュースセンチメントと株価指数に与える影響

Words that Matter: The Impact of Negative Words on News Sentiment and Stock Market Index ( http://arxiv.org/abs/2304.00468v2 )

ライセンス: Link先を確認
Wonseong Kim(参考訳) 本研究では, ネガティブな単語が感情分析に与える影響と, 韓国株式市場指数KOSPI200への影響について検討した。 この研究は、Word2Vec、コサイン類似性、および拡張辞書を用いて、韓国の日刊経済ニュース記事45,723件のデータセットを分析した。 その結果, ネガティブな単語を取り入れることで, ニュースタイトルの感情スコアの否定性が著しく向上し, 株価指数に影響を及ぼす可能性が示唆された。 本研究は,「クライシス」と類似性が高い上位1000語を含む強化された感情辞書(Sent1000)が,従来の感情辞書(Sent0)よりも,株価指数に対するニュース感情の影響を効果的に捉えていることを明らかにした。 その結果,ニュースコンテンツの分析における否定的ニュアンスや文脈の検討の重要性と,市場動態や世論に与える影響を浮き彫りにした。

This study investigates the impact of negative words on sentiment analysis and its effect on the South Korean stock market index, KOSPI200. The research analyzes a dataset of 45,723 South Korean daily economic news articles using Word2Vec, cosine similarity, and an expanded lexicon. The findings suggest that incorporating negative words significantly increases sentiment scores' negativity in news titles, which can affect the stock market index. The study reveals that an augmented sentiment lexicon (Sent1000), including the top 1,000 negative words with high cosine similarity to 'Crisis,' more effectively captures the impact of news sentiment on the stock market index than the original sentiment lexicon (Sent0). The results underscore the importance of considering negative nuances and context when analyzing news content and its potential impact on market dynamics and public opinion.
翻訳日:2024-02-26 18:37:06 公開日:2024-02-23
# コントラスト学習は類似グラフ上のスペクトルクラスタリング

Contrastive Learning Is Spectral Clustering On Similarity Graph ( http://arxiv.org/abs/2303.15103v4 )

ライセンス: Link先を確認
Zhiquan Tan, Yifan Zhang, Jingqin Yang, Yang Yuan(参考訳) コントラスト学習は強力な自己教師付き学習手法であるが,その動作方法や動作理由に関する理論的な理解は限られている。 本稿では,標準InfoNCE損失を用いたコントラスト学習が類似グラフ上のスペクトルクラスタリングと等価であることを示す。 この等価性をビルディングブロックとして利用し、分析をCLIPモデルに拡張し、類似したマルチモーダルオブジェクトが組み合わさっていることを厳密に特徴付ける。 いくつかの視覚データセット上で標準のガウスカーネルよりも優れたカーネル関数の混合を組み込んだカーネルインフォネッセロス(Kernel-InfoNCE)を導入する。 コードはhttps://github.com/yifanzhang-pro/kernel-infonceで入手できる。

Contrastive learning is a powerful self-supervised learning method, but we have a limited theoretical understanding of how it works and why it works. In this paper, we prove that contrastive learning with the standard InfoNCE loss is equivalent to spectral clustering on the similarity graph. Using this equivalence as the building block, we extend our analysis to the CLIP model and rigorously characterize how similar multi-modal objects are embedded together. Motivated by our theoretical insights, we introduce the Kernel-InfoNCE loss, incorporating mixtures of kernel functions that outperform the standard Gaussian kernel on several vision datasets. The code is available at https://github.com/yifanzhang-pro/Kernel-InfoNCE.
翻訳日:2024-02-26 18:36:06 公開日:2024-02-23
# 画像超解像用再帰一般化変換器

Recursive Generalization Transformer for Image Super-Resolution ( http://arxiv.org/abs/2303.06373v4 )

ライセンス: Link先を確認
Zheng Chen, Yulun Zhang, Jinjin Gu, Linghe Kong, Xiaokang Yang(参考訳) トランスフォーマーアーキテクチャは、画像超解像(SR)において顕著な性能を示した。 トランスフォーマーにおける自己注意(SA)の2次計算複雑性のため、既存の手法ではオーバーヘッドを減らすために局所的にSAを採用する傾向にある。 しかし、局所的な設計は、正確な画像再構成に欠かせないグローバルな文脈利用を制限する。 本研究では,大域空間情報を捕捉し,高解像度画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。 具体的には、再帰的一般化自己注意(RG-SA)を提案する。 入力特徴を代表的特徴マップに再帰的に集約し,グローバル情報抽出にクロスアテンションを利用する。 一方、注意行列(クエリ、キー、値)のチャネル次元は、チャネルドメインの冗長性を軽減するためにさらにスケールされる。 さらに,RG-SAと局所自己意識を組み合わせることで,グローバルコンテキストの活用を促進するとともに,モジュール統合のためのハイブリッド適応統合(HAI)を提案する。 HAIは、異なるレベル(ローカルまたはグローバル)の機能間の直接的で効果的な融合を可能にする。 rgtが最近の最先端手法を定量的に定性的に上回っていることを示す広範な実験を行った。 コードと事前学習されたモデルはhttps://github.com/zhengchen1999/rgtで入手できる。

Transformer architectures have exhibited remarkable performance in image super-resolution (SR). Since the quadratic computational complexity of the self-attention (SA) in Transformer, existing methods tend to adopt SA in a local region to reduce overheads. However, the local design restricts the global context exploitation, which is crucial for accurate image reconstruction. In this work, we propose the Recursive Generalization Transformer (RGT) for image SR, which can capture global spatial information and is suitable for high-resolution images. Specifically, we propose the recursive-generalization self-attention (RG-SA). It recursively aggregates input features into representative feature maps, and then utilizes cross-attention to extract global information. Meanwhile, the channel dimensions of attention matrices (query, key, and value) are further scaled to mitigate the redundancy in the channel domain. Furthermore, we combine the RG-SA with local self-attention to enhance the exploitation of the global context, and propose the hybrid adaptive integration (HAI) for module integration. The HAI allows the direct and effective fusion between features at different levels (local or global). Extensive experiments demonstrate that our RGT outperforms recent state-of-the-art methods quantitatively and qualitatively. Code and pre-trained models are available at https://github.com/zhengchen1999/RGT.
翻訳日:2024-02-26 18:35:43 公開日:2024-02-23
# 大きな言語モデルは因果グラフを構築することができるか?

Can large language models build causal graphs? ( http://arxiv.org/abs/2303.05279v2 )

ライセンス: Link先を確認
Stephanie Long, Tibor Schuster, Alexandre Pich\'e(参考訳) 因果グラフの構築は、面倒なプロセスである。 すべての因果経路を確実に把握するために、研究者はしばしば臨床医や専門家と議論し、関連する医学文献をレビューする必要がある。 共通知識と医学知識をエンコードすることで、大きな言語モデル(llm)は、潜在的なグラフでエッジ(つまり2つの変数間の接続)を自動的にスコアリングすることで、このプロセスを緩和する機会を表している。 しかし、LLMは、ユーザーが使用する単語、文脈、およびプロンプトの選択に弱いことが示されている。 本研究では,LLMが因果グラフ開発を補完する有用なツールであるかどうかを評価する。

Building causal graphs can be a laborious process. To ensure all relevant causal pathways have been captured, researchers often have to discuss with clinicians and experts while also reviewing extensive relevant medical literature. By encoding common and medical knowledge, large language models (LLMs) represent an opportunity to ease this process by automatically scoring edges (i.e., connections between two variables) in potential graphs. LLMs however have been shown to be brittle to the choice of probing words, context, and prompts that the user employs. In this work, we evaluate if LLMs can be a useful tool in complementing causal graph development.
翻訳日:2024-02-26 18:35:25 公開日:2024-02-23
# ディープラーニングにおけるクラス多様体の反転ダイナミクスは、一般化の基礎となるトレードオフを明らかにする

Inversion dynamics of class manifolds in deep learning reveals tradeoffs underlying generalisation ( http://arxiv.org/abs/2303.05161v2 )

ライセンス: Link先を確認
Simone Ciceri, Lorenzo Cassani, Matteo Osella, Pietro Rotondo, Filippo Valle, Marco Gherardi(参考訳) 分類問題において、ゼロに近いトレーニング誤差を達成するために、フィードフォワードネットワークの層は、異なるラベルを持つデータポイントの多様体を分離し、識別を容易にする必要がある。 しかし、良い一般化にはある種の絡み合いを伴う不変な特徴を学ぶ必要があるため、過剰なクラス分離は過剰フィッティングをもたらす可能性がある。 楽観化ダイナミクスが、これらの対立する傾向と非単調な傾向をバランスさせる表現をどのように見つけるかを示す数値実験を報告する。 高速な分離フェーズの後、遅い再配置(データセットとアーキテクチャ間で保存される)によりクラス絡み合いが増大し、インバージョンでのトレーニングエラーはサブサンプリングの下で安定し、ネットワーク初期化とオプティマイザによって、データ構造とアーキテクチャの(非常に弱い)特性として特徴づけられる。 逆転(英: inversion)とは、特に一般化に影響を及ぼす「ストラグラー」と呼ばれるトレーニングセットの明確に定義された最大安定な要素によって引き起こされるトレードオフの顕現である。

To achieve near-zero training error in a classification problem, the layers of a feed-forward network have to disentangle the manifolds of data points with different labels, to facilitate the discrimination. However, excessive class separation can bring to overfitting since good generalisation requires learning invariant features, which involve some level of entanglement. We report on numerical experiments showing how the optimisation dynamics finds representations that balance these opposing tendencies with a non-monotonic trend. After a fast segregation phase, a slower rearrangement (conserved across data sets and architectures) increases the class entanglement.The training error at the inversion is stable under subsampling, and across network initialisations and optimisers, which characterises it as a property solely of the data structure and (very weakly) of the architecture. The inversion is the manifestation of tradeoffs elicited by well-defined and maximally stable elements of the training set, coined ``stragglers'', particularly influential for generalisation.
翻訳日:2024-02-26 18:35:12 公開日:2024-02-23
# 金融時系列予測のためのアニーリングによる特徴選択

Feature Selection with Annealing for Forecasting Financial Time Series ( http://arxiv.org/abs/2303.02223v3 )

ライセンス: Link先を確認
Hakan Pabuccu, Adrian Barbu(参考訳) 株式市場と暗号通貨の予測は投資家にとって非常に重要であり、彼らが利益率を上げるために購入や持株戦略のわずかな改善をも達成したいと考えているからだ。 しかし、正確で信頼性の高い予測を得ることは困難であり、特に金融時系列予測が複雑でカオス的な傾向から適用された場合、正確さは信頼性に等しいものではない。 この複雑さを軽減するために,機械学習(ml)モデルを用いた戦術的入力出力特徴マッピング手法に基づく金融時系列予測手法を提案する。 予測過程において、所望の結果を得るには、関連する指標を選択することが不可欠である。 金融分野では、MLソリューションでこの問題に限定的な注意が払われている。 本研究では, この分野で初めてアニーリング(FSA)を用いた特徴選択法について検討し, 時間と遅延の異なる26の技術的分類器から得られた1,000以上の候補の中から, 最小限の収縮・選択演算子(Lasso)法を適用した。 Boruta(BOR)の特徴選択(ラッパーメソッド)は、比較のベースラインとして使用される。 次に、暗号通貨と株式を含む10の金融データセットを用いて、ロジスティック回帰(LR)、極勾配増強(XGBoost)、長短期記憶(LSTM)を選択して予測する。 依存変数は日次対数回帰と傾向から成っていた。 モデルの性能評価には回帰平均二乗誤差, 動作特性曲線下領域, 分類精度を用い, 予測結果の統計的意義をペアtテストを用いて検証した。 実験の結果、fsaアルゴリズムは問題の種類に関係なくmlモデルの性能を高めた。

Stock market and cryptocurrency forecasting is very important to investors as they aspire to achieve even the slightest improvement to their buy or hold strategies so that they may increase profitability. However, obtaining accurate and reliable predictions is challenging, noting that accuracy does not equate to reliability, especially when financial time-series forecasting is applied owing to its complex and chaotic tendencies. To mitigate this complexity, this study provides a comprehensive method for forecasting financial time series based on tactical input output feature mapping techniques using machine learning (ML) models. During the prediction process, selecting the relevant indicators is vital to obtaining the desired results. In the financial field, limited attention has been paid to this problem with ML solutions. We investigate the use of feature selection with annealing (FSA) for the first time in this field, and we apply the least absolute shrinkage and selection operator (Lasso) method to select the features from more than 1,000 candidates obtained from 26 technical classifiers with different periods and lags. Boruta (BOR) feature selection, a wrapper method, is used as a baseline for comparison. Logistic regression (LR), extreme gradient boosting (XGBoost), and long short-term memory (LSTM) are then applied to the selected features for forecasting purposes using 10 different financial datasets containing cryptocurrencies and stocks. The dependent variables consisted of daily logarithmic returns and trends. The mean-squared error for regression, area under the receiver operating characteristic curve, and classification accuracy were used to evaluate model performance, and the statistical significance of the forecasting results was tested using paired t-tests. Experiments indicate that the FSA algorithm increased the performance of ML models, regardless of problem type.
翻訳日:2024-02-26 18:34:51 公開日:2024-02-23
# コラボレーション型モバイルクラウドソーシングにおける作業者のリクルートの促進:グラフニューラルネットワーク信頼評価アプローチ

Enhancing Worker Recruitment in Collaborative Mobile Crowdsourcing: A Graph Neural Network Trust Evaluation Approach ( http://arxiv.org/abs/2306.04366v2 )

ライセンス: Link先を確認
Zhongwei Zhan, Yingjie Wang, Peiyong Duan, Akshita Maradapu Vera Venkata Sai, Zhaowei Liu, Chaocan Xiang, Xiangrong Tong, Weilong Wang, Zhipeng Cai(参考訳) CMCS(Collaborative Mobile Crowdsourcing)は、複雑なセンシングタスクを協調的に実行するワーカーチームを募集するプラットフォームである。 このようなコラボレーションの効率性は、労働者間の信頼関係に影響される可能性がある。 本稿では,ソーシャルネットワークにおける全作業員の非対称信頼値を得るために,グラフ畳み込みニューラルネットワーク(gcns)に基づく信頼強化評価フレームワーク(tref)を提案する。 本論文では,作業者の能力給付,距離給付,信頼給付を考慮し,タスク完了効果を総合的に算出する。 労働者採用問題は、特定のタブサーチリクルート(TSR)アルゴリズムソリューションが提案される Undirected Complete Recruitment Graph (UCRG) としてモデル化される。 最適な実行チームは、tsrアルゴリズムにより各タスクに採用され、タスクのコラボレーションチームは、プライバシ損失の制約の下で取得される。 大規模かつ広い範囲における採用アルゴリズムの効率を向上させるため、ミニバッチk平均クラスタリングアルゴリズムとエッジコンピューティング技術を導入し、分散ワーカー採用を可能にする。 最後に,本論文で提案した採用アルゴリズムが他のベースラインよりも優れていることを示す。 さらに、TREFは、文献における最先端の信頼評価手法の性能を上回っている。

Collaborative Mobile Crowdsourcing (CMCS) allows platforms to recruit worker teams to collaboratively execute complex sensing tasks. The efficiency of such collaborations could be influenced by trust relationships among workers. To obtain the asymmetric trust values among all workers in the social network, the Trust Reinforcement Evaluation Framework (TREF) based on Graph Convolutional Neural Networks (GCNs) is proposed in this paper. The task completion effect is comprehensively calculated by considering the workers' ability benefits, distance benefits, and trust benefits in this paper. The worker recruitment problem is modeled as an Undirected Complete Recruitment Graph (UCRG), for which a specific Tabu Search Recruitment (TSR) algorithm solution is proposed. An optimal execution team is recruited for each task by the TSR algorithm, and the collaboration team for the task is obtained under the constraint of privacy loss. To enhance the efficiency of the recruitment algorithm on a large scale and scope, the Mini-Batch K-Means clustering algorithm and edge computing technology are introduced, enabling distributed worker recruitment. Lastly, extensive experiments conducted on five real datasets validate that the recruitment algorithm proposed in this paper outperforms other baselines. Additionally, TREF proposed herein surpasses the performance of state-of-the-art trust evaluation methods in the literature.
翻訳日:2024-02-26 18:30:49 公開日:2024-02-23
# Oversmoothing: グラフコントラスト学習のためのナイトマア?

Oversmoothing: A Nightmare for Graph Contrastive Learning? ( http://arxiv.org/abs/2306.02117v2 )

ライセンス: Link先を確認
Jintang Li, Wangbin Sun, Ruofan Wu, Yuchang Zhu, Liang Chen, Zibin Zheng(参考訳) オーバースムーシング(Oversmoothing)は、グラフニューラルネットワーク(GNN)でよく見られる現象であり、ネットワークの深さが増加すると性能が低下する。 グラフコントラスト学習(gcl)は、巨大なラベルのないグラフデータを活用する有望な方法として登場している。 GNNと対照的な学習の結婚として、GCLがGNNから同じ過度な欠陥を継承するかどうかは不明である。 本研究は,まず,過剰なスムーシングの観点から,GCLの基本的な解析を行う。 gclにおけるネットワークの深さの増加は、その深い表現、そして驚くほど浅い表現に過剰な影響をもたらすことを実証的に示します。 我々は、gclにおけるこの現象を「長距離飢餓」と呼び、深層ネットワークの下層層層が、監督からの十分な指導の欠如により劣化に苦しむ。 以上の結果から,GCLが悪名高い過密を防ぎ,極めてシンプルで効果的なブロックワイドトレーニングフレームワークであるBlockGCLを提案する。 ベルとホイッスルがなければ、BlockGCLは複数の実世界のグラフベンチマーク上のレイヤー数の増加とともに、確立されたGCLメソッドの堅牢性と安定性を一貫して改善する。

Oversmoothing is a common phenomenon observed in graph neural networks (GNNs), in which an increase in the network depth leads to a deterioration in their performance. Graph contrastive learning (GCL) is emerging as a promising way of leveraging vast unlabeled graph data. As a marriage between GNNs and contrastive learning, it remains unclear whether GCL inherits the same oversmoothing defect from GNNs. This work undertakes a fundamental analysis of GCL from the perspective of oversmoothing on the first hand. We demonstrate empirically that increasing network depth in GCL also leads to oversmoothing in their deep representations, and surprisingly, the shallow ones. We refer to this phenomenon in GCL as `long-range starvation', wherein lower layers in deep networks suffer from degradation due to the lack of sufficient guidance from supervision. Based on our findings, we present BlockGCL, a remarkably simple yet effective blockwise training framework to prevent GCL from notorious oversmoothing. Without bells and whistles, BlockGCL consistently improves robustness and stability for well-established GCL methods with increasing numbers of layers on several real-world graph benchmarks.
翻訳日:2024-02-26 18:30:10 公開日:2024-02-23
# AIによる意思決定のためのヒューマンアライズドキャリブレーション

Human-Aligned Calibration for AI-Assisted Decision Making ( http://arxiv.org/abs/2306.00074v4 )

ライセンス: Link先を確認
Nina L. Corvelo Benz and Manuel Gomez Rodriguez(参考訳) バイナリ分類器を使用して意思決定支援を行う場合、通常はラベル予測と信頼値の両方を提供する。 次に、意思決定者は、信頼度値を使用して、予測をどれだけ信頼するかを判断する。 この文脈では、信頼度値は、予測されたラベルが基底真理ラベルと一致する確率の十分に校正された推定値に対応するべきであるとしばしば主張されている。 しかし、複数の実証的証拠は、意思決定者がこれらの信頼度値を用いて予測をいつ信頼するかを判断するのに難しいことを示唆している。 本稿では,まずその理由を理解し,より有用な信頼値の構築方法を検討することを目的とする。 我々はまず、広範囲のユーティリティ機能に対して、合理的な意思決定者が一般的に、上記の信頼度値を使って最適な決定方針を発見することができないデータ分布が存在することを論じる。 しかし, 意思決定者自身の予測に対する信頼度に関して, 信頼度値が自然な整合性を満たすならば, 常に, 意思決定者が予測に立たなければならない信頼度が信頼度に単調であり, 発見可能性の向上に寄与する最適決定方針が存在することを示す。 さらに, 意思決定者自身の予測に対する信頼度に対する多重化が, 調整の十分条件であることを示す。 分類器が実際の人間の専門家に意思決定支援を提供する4つのAI支援意思決定タスクの実験は、我々の理論的結果を検証するとともに、アライメントがより良い意思決定につながることを示唆している。

Whenever a binary classifier is used to provide decision support, it typically provides both a label prediction and a confidence value. Then, the decision maker is supposed to use the confidence value to calibrate how much to trust the prediction. In this context, it has been often argued that the confidence value should correspond to a well calibrated estimate of the probability that the predicted label matches the ground truth label. However, multiple lines of empirical evidence suggest that decision makers have difficulties at developing a good sense on when to trust a prediction using these confidence values. In this paper, our goal is first to understand why and then investigate how to construct more useful confidence values. We first argue that, for a broad class of utility functions, there exist data distributions for which a rational decision maker is, in general, unlikely to discover the optimal decision policy using the above confidence values -- an optimal decision maker would need to sometimes place more (less) trust on predictions with lower (higher) confidence values. However, we then show that, if the confidence values satisfy a natural alignment property with respect to the decision maker's confidence on her own predictions, there always exists an optimal decision policy under which the level of trust the decision maker would need to place on predictions is monotone on the confidence values, facilitating its discoverability. Further, we show that multicalibration with respect to the decision maker's confidence on her own predictions is a sufficient condition for alignment. Experiments on four different AI-assisted decision making tasks where a classifier provides decision support to real human experts validate our theoretical results and suggest that alignment may lead to better decisions.
翻訳日:2024-02-26 18:29:51 公開日:2024-02-23
# キャビティQEDシミュレータにおけるBCS超伝導体の動的相観察

Observing dynamical phases of BCS superconductors in a cavity QED simulator ( http://arxiv.org/abs/2306.00066v2 )

ライセンス: Link先を確認
Dylan J. Young, Anjun Chu, Eric Yilun Song, Diego Barberena, David Wellnitz, Zhijing Niu, Vera M. Sch\"afer, Robert J. Lewis-Swan, Ana Maria Rey, James K. Thompson(参考訳) 従来のバルディーン・クーパー・シュリーファー超伝導体では、材料中のフォノンによって媒介される魅力的な相互作用により、反対モータを持つ電子がクーパー対に結合する。 超伝導は自然に熱平衡で現れるが、系のパラメータが突然変化したときには平衡から生じることもある。 結果として生じる平衡状態は、実際の物質や超低温のフェルミオン原子で起こると予測されるが、全てが直接観察されていない。 ここではキャビティ量子電気力学(キャビティQED)を用いて提案した動的位相を生成する代替手法を実現する。 我々のシステムは、光学キャビティに結合した$^{88}$Sr原子の長い電子遷移におけるクーパー対の存在または欠如を符号化し、電子間の相互作用を光子による相互作用として表現する。 位相図を完全探索するため, クエンチ後の単一粒子分散と相互作用の比を演算し, 非破壊測定を用いて超伝導秩序パラメータの追従ダイナミクスのリアルタイム追跡を行う。 順序パラメータがゼロに崩壊する状態(第i相)を観測し、非平衡定常値(第ii相)を仮定するか、持続振動を示す(第iii相)。 これは、従来の超伝導体を設計し、スペクトル形成因子のような平均場効果を越えて探究し、量子センシングのコヒーレンス時間を増やす可能性を含む、量子シミュレーションのエキサイティングな可能性を開く。

In conventional Bardeen-Cooper-Schrieffer (BCS) superconductors, electrons with opposite momenta bind into Cooper pairs due to an attractive interaction mediated by phonons in the material. While superconductivity naturally emerges at thermal equilibrium, it can also emerge out of equilibrium when the system's parameters are abruptly changed. The resulting out-of-equilibrium phases are predicted to occur in real materials and ultracold fermionic atoms but have not yet all been directly observed. Here we realize an alternate way to generate the proposed dynamical phases using cavity quantum electrodynamics (cavity QED). Our system encodes the presence or absence of a Cooper pair in a long-lived electronic transition in $^{88}$Sr atoms coupled to an optical cavity and represents interactions between electrons as photon-mediated interactions through the cavity. To fully explore the phase diagram, we manipulate the ratio between the single-particle dispersion and the interactions after a quench and perform real-time tracking of subsequent dynamics of the superconducting order parameter using non-destructive measurements. We observe regimes where the order parameter decays to zero (phase I), assumes a non-equilibrium steady-state value (phase II), or exhibits persistent oscillations (phase III). This opens up exciting prospects for quantum simulation, including the potential to engineer unconventional superconductors and to probe beyond mean-field effects like the spectral form factor, and for increasing coherence time for quantum sensing.
翻訳日:2024-02-26 18:29:22 公開日:2024-02-23
# 誰がこのコードを書いたのか? コード生成のための透かし

Who Wrote this Code? Watermarking for Code Generation ( http://arxiv.org/abs/2305.15060v3 )

ライセンス: Link先を確認
Taehyun Lee, Seokhee Hong, Jaewoo Ahn, Ilgee Hong, Hwaran Lee, Sangdoo Yun, Jamin Shin, Gunhee Kim(参考訳) 大きな言語モデルの顕著な世代パフォーマンスにより、盗作や著作権問題など、それらの使用に関する倫理的および法的懸念が高まっている。 このような問題に対して,LLM生成テキストを透かし,検出するためのいくつかのアプローチが提案されている。 しかし,コードの構文的・意味的特性から,従来の手法がコード生成タスクと適切に機能しないことがわかった。 そこで本稿では,<kirchenbauer2023watermark>に基づいて,生成時のトークン分布のエントロピーが高い位置においてのみ「緑」トークンを促進するエントロピーしきい値(sweet)による選択的透かし法を提案する。 透かし付きコードは、エントロピー情報に基づいて統計テストとZスコアにより検出される。 HumanEvalとMBPPの実験により,SWEETはコード精度と透かし検出性能の間にパレートフロンティアを著しく改善することが示された。 また, このタスクでは, 注目すべきポストホック検出手法(例: detectiongpt)がうまく動作しないことを示す。 最後に,適切なエントロピーしきい値の設定は,あまり課題ではないことを示す。 コードはhttps://github.com/hongcheki/sweet-watermarkで入手できる。

With the remarkable generation performance of large language models, ethical and legal concerns about using them have been raised, such as plagiarism and copyright issues. For such concerns, several approaches to watermark and detect LLM-generated text have been proposed very recently. However, we discover that the previous methods fail to function appropriately with code generation tasks because of the syntactic and semantic characteristics of code. Based on \citet{Kirchenbauer2023watermark}, we propose a new watermarking method, Selective WatErmarking via Entropy Thresholding (SWEET), that promotes "green" tokens only at the position with high entropy of the token distribution during generation, thereby preserving the correctness of the generated code. The watermarked code is detected by the statistical test and Z-score based on the entropy information. Our experiments on HumanEval and MBPP show that SWEET significantly improves the Pareto Frontier between the code correctness and watermark detection performance. We also show that notable post-hoc detection methods (e.g. DetectGPT) fail to work well in this task. Finally, we show that setting a reasonable entropy threshold is not much of a challenge. Code is available at https://github.com/hongcheki/sweet-watermark.
翻訳日:2024-02-26 18:28:12 公開日:2024-02-23
# 文書画像における少数ショットエンティティ認識に向けて:画像操作にロバストなグラフニューラルネットワークアプローチ

Towards Few-shot Entity Recognition in Document Images: A Graph Neural Network Approach Robust to Image Manipulation ( http://arxiv.org/abs/2305.14828v2 )

ライセンス: Link先を確認
Prashant Krishnan, Zilong Wang, Yangkun Wang and Jingbo Shang(参考訳) 近年,境界ボックス座標を事前学習言語モデルに組み込むことによって,文書画像からの実体認識に顕著な性能が達成されている。 座標を用いることで、各トークンの絶対位置を簡単にモデル化できるが、文書画像(例えば、シフト、回転、スケーリング)の操作に敏感であるかもしれない。 本稿では,トークン間のトポロジカルな隣接関係をさらに紹介し,それらの相対的な位置情報を強調する。 具体的には、文書中のトークンをノードとみなし、k-アネレス境界ボックスの位相的ヒューリスティックに基づいてエッジを定式化する。 このような隣接グラフはシフト、回転、スケーリングを含むアフィン変換に不変である。 言語モデル埋め込みの上にグラフニューラルネットワーク層を追加することにより,これらのグラフを事前学習言語モデルに組み込むことで,新しいモデル LAGER が実現される。 2つのベンチマークデータセットの大規模な実験によると、LAGERは異なる数ショット設定で強いベースラインを著しく上回り、操作に対する堅牢性も向上している。

Recent advances of incorporating layout information, typically bounding box coordinates, into pre-trained language models have achieved significant performance in entity recognition from document images. Using coordinates can easily model the absolute position of each token, but they might be sensitive to manipulations in document images (e.g., shifting, rotation or scaling), especially when the training data is limited in few-shot settings. In this paper, we propose to further introduce the topological adjacency relationship among the tokens, emphasizing their relative position information. Specifically, we consider the tokens in the documents as nodes and formulate the edges based on the topological heuristics from the k-nearest bounding boxes. Such adjacency graphs are invariant to affine transformations including shifting, rotations and scaling. We incorporate these graphs into the pre-trained language model by adding graph neural network layers on top of the language model embeddings, leading to a novel model LAGER. Extensive experiments on two benchmark datasets show that LAGER significantly outperforms strong baselines under different few-shot settings and also demonstrate better robustness to manipulations.
翻訳日:2024-02-26 18:27:48 公開日:2024-02-23
# 反事実生成のための大規模言語モデルの提案--実証的研究

Prompting Large Language Models for Counterfactual Generation: An Empirical Study ( http://arxiv.org/abs/2305.14791v2 )

ライセンス: Link先を確認
Yongqi Li, Mayi Xu, Xin Miao, Shen Zhou, Tieyun Qian(参考訳) 大規模言語モデル(LLM)は、幅広い自然言語理解と生成タスクにおいて顕著な進歩を遂げている。 しかし, 対物生成能力については, 体系的に検討されていない。 このギャップを埋めるために,様々な種類のNLUタスクに関する総合的な評価フレームワークを提案する。 この枠組みに基づいて、我々は 1)LLMの強度と弱さを逆発生剤として検討し、 2) LLMの本質的特性と迅速な設計の両方を含む, 対物生成に影響を及ぼす要因を開示する。 その結果、LLMはたいていの場合有望であるが、タスク固有のパフォーマンス、エンティティ制約、固有の選択バイアスに縛られているため、REのような複雑なタスクでは課題に直面していることがわかった。 また,人間のフィードバックから指導訓練や強化学習などのアライメント技術によって,LLMの反ファクト生成能力が向上する可能性が示唆された。 逆にパラメータサイズを単純に増やしても、望ましい改善は得られない。 さらに、プロンプトデザインの観点からは、当然ながらタスクガイドラインが重要な役割を担っています。 しかし、チェーンオブ思考のアプローチは、矛盾した問題のために必ずしも役に立たない。

Large language models (LLMs) have made remarkable progress in a wide range of natural language understanding and generation tasks. However, their ability to generate counterfactuals has not been examined systematically. To bridge this gap, we present a comprehensive evaluation framework on various types of NLU tasks, which covers all key factors in determining LLMs' capability of generating counterfactuals. Based on this framework, we 1) investigate the strengths and weaknesses of LLMs as the counterfactual generator, and 2) disclose the factors that affect LLMs when generating counterfactuals, including both the intrinsic properties of LLMs and prompt designing. The results show that, though LLMs are promising in most cases, they face challenges in complex tasks like RE since they are bounded by task-specific performance, entity constraints, and inherent selection bias. We also find that alignment techniques, e.g., instruction-tuning and reinforcement learning from human feedback, may potentially enhance the counterfactual generation ability of LLMs. On the contrary, simply increasing the parameter size does not yield the desired improvements. Besides, from the perspective of prompt designing, task guidelines unsurprisingly play an important role. However, the chain-of-thought approach does not always help due to inconsistency issues.
翻訳日:2024-02-26 18:27:27 公開日:2024-02-23
# 生徒の学習水準に対する指導の仕方 : 知識蒸留の促進

Tailoring Instructions to Student's Learning Levels Boosts Knowledge Distillation ( http://arxiv.org/abs/2305.09651v2 )

ライセンス: Link先を確認
Yuxin Ren, Zihan Zhong, Xingjian Shi, Yi Zhu, Chun Yuan, Mu Li(参考訳) 成績のよい教師モデルが必ずしも生徒を強くするとは限らないことがよく知られており、現在の教員養成と効果的な知識伝達の相違が強調されている。 教員養成過程の指導を強化するために,各研修試料からの蒸留の影響が学生の一般化能力に及ぼす影響を判断するために,蒸留の影響の概念を導入する。 本稿では,教師の学習プロセスに蒸留の影響を組み込むための効率的な学習手法であるlearning good teacher matters(lgtm)を提案する。 学生の一般化能力を高めるであろうサンプルの優先順位付けにより,LGTMはGLUEベンチマークの6つのテキスト分類タスクに基づいて,10の共通知識蒸留基準を上回りました。

It has been commonly observed that a teacher model with superior performance does not necessarily result in a stronger student, highlighting a discrepancy between current teacher training practices and effective knowledge transfer. In order to enhance the guidance of the teacher training process, we introduce the concept of distillation influence to determine the impact of distillation from each training sample on the student's generalization ability. In this paper, we propose Learning Good Teacher Matters (LGTM), an efficient training technique for incorporating distillation influence into the teacher's learning process. By prioritizing samples that are likely to enhance the student's generalization ability, our LGTM outperforms 10 common knowledge distillation baselines on 6 text classification tasks in the GLUE benchmark.
翻訳日:2024-02-26 18:27:10 公開日:2024-02-23
# 反復的信念修正における状態の表現

Representing states in iterated belief revision ( http://arxiv.org/abs/2305.09200v2 )

ライセンス: Link先を確認
Paolo Liberatore(参考訳) 反復的信念修正は、現在の信念に関する情報を必要とする。 この情報はドクサスティック状態と呼ばれる数学的構造によって表される。 ほとんどの文学は、ドクサスティックな状態をいかに修正するかに集中し、指数関数的に成長するかもしれないことを無視する。 この問題は、ドキサスティックな状態を保存する最も一般的な方法のために研究されている。 4つのメソッドはすべてドキサスティックな状態を格納できるが、他のメソッドよりも少ないスペースで保存できるものもある。 特に、明示的な表現(現在の信念の列挙)は、空間においてより無駄である。 レベル表現(命題式の一列)と自然表現(自然修正の歴史)は、それよりもコンパクトである。 レキソグラフィー表現(レキソグラフィーのリビジョンの歴史)はそれらよりもさらにコンパクトである。

Iterated belief revision requires information about the current beliefs. This information is represented by mathematical structures called doxastic states. Most literature concentrates on how to revise a doxastic state and neglects that it may exponentially grow. This problem is studied for the most common ways of storing a doxastic state. All four methods are able to store every doxastic state, but some do it in less space than others. In particular, the explicit representation (an enumeration of the current beliefs) is the more wasteful on space. The level representation (a sequence of propositional formulae) and the natural representation (a history of natural revisions) are more compact than it. The lexicographic representation (a history of lexicographic revision) is even more compact than them.
翻訳日:2024-02-26 18:26:56 公開日:2024-02-23
# 重み正規化によるロバスト入射規則化

Robust Implicit Regularization via Weight Normalization ( http://arxiv.org/abs/2305.05448v3 )

ライセンス: Link先を確認
Hung-Hsu Chou, Holger Rauhut, Rachel Ward(参考訳) 過度パラメータ化モデルは多くの補間解を持ち、暗黙の正規化は、多くの間の補間解に対する特定の最適化手法の隠れた選好を指す。 A by now established line of work has shown that (stochastic) gradient descent tends to have an implicit bias towards low rank and/or sparse solutions when used to train deep linear networks, explaining to some extent why overparameterized neural network models trained by gradient descent tend to have good generalization performance in practice.However, existing theory for square-loss objectives often requires very small initialization of the trainable weights, which is at odds with the larger scale at which weights are initialized in practice for faster convergence and better generalization performance. 本稿では,重みベクトルが極座標で再パラメータ化され,極座標に勾配流れが適用されるような,重み正規化を伴う勾配流れ(勾配降下の連続時間バージョン)を組み込んで解析することにより,このギャップを解消することを目的とする。 勾配流の重要な不変量を分析し、lojasiewiczの定理を用いて、重み正規化は対角線形モデルにおける疎解に対する暗黙のバイアスを持つが、平易な勾配流とは対照的に、重み正規化は実際に大規模に初期化されても持続する頑健なバイアスを可能にする。 実験により, 重み正規化を用いた過パラメータ付き対角型線形ネットワークモデルにおいて, 収束速度と暗黙バイアスのロバスト性の両方が劇的に向上することが示唆された。

Overparameterized models may have many interpolating solutions; implicit regularization refers to the hidden preference of a particular optimization method towards a certain interpolating solution among the many. A by now established line of work has shown that (stochastic) gradient descent tends to have an implicit bias towards low rank and/or sparse solutions when used to train deep linear networks, explaining to some extent why overparameterized neural network models trained by gradient descent tend to have good generalization performance in practice.However, existing theory for square-loss objectives often requires very small initialization of the trainable weights, which is at odds with the larger scale at which weights are initialized in practice for faster convergence and better generalization performance. In this paper, we aim to close this gap by incorporating and analyzing gradient flow (continuous-time version of gradient descent) with weight normalization, where the weight vector is reparameterized in terms of polar coordinates, and gradient flow is applied to the polar coordinates. By analyzing key invariants of the gradient flow and using Lojasiewicz Theorem, we show that weight normalization also has an implicit bias towards sparse solutions in the diagonal linear model, but that in contrast to plain gradient flow, weight normalization enables a robust bias that persists even if the weights are initialized at practically large scale. Experiments suggest that the gains in both convergence speed and robustness of the implicit bias are improved dramatically by using weight normalization in overparameterized diagonal linear network models.
翻訳日:2024-02-26 18:26:37 公開日:2024-02-23
# オープン・セットの力を解き放つ : オープン・セット・ラベル学習の新しい視点

Unlocking the Power of Open Set : A New Perspective for Open-Set Noisy Label Learning ( http://arxiv.org/abs/2305.04203v2 )

ライセンス: Link先を確認
Wenhai Wan, Xinrui Wang, Ming-Kun Xie, Shao-Yuan Li, Sheng-Jun Huang, Songcan Chen(参考訳) ノイズデータから学ぶことは多くの注目を集め、ほとんどの方法はクローズドセットのラベルノイズに焦点を当てている。 しかし、現実世界でより一般的なシナリオは、オープンセットとクローズドセットの両方のノイズの存在である。 既存の手法では、これらの2種類のラベルノイズを個別に識別・処理し、それぞれのタイプの特定の戦略を設計する。 しかし、多くの現実のシナリオでは、特にデータセットがひどく破損している場合、オープンセットの例を特定するのは難しいでしょう。 これまでの作品とは異なり、オープンセットの例に直面するとモデルがどのように振る舞うかを調べ、オープンセットの例の一部である \emph{a} が徐々に既知のクラスに統合され、既知のクラス間での分離に有用であることが分かる。 この現象に動機づけられた2段階のコントラスト学習法cecl(class expansion contrastive learning)を提案する。 具体的には、オープンセットの例をクローズドセットクラスに組み込んでパフォーマンスを高め、他の例をデリミタとして扱い、代表能力を高めます。 多様なラベルノイズを持つ合成および実世界のデータセットに関する大規模な実験はCECLの有効性を示す。

Learning from noisy data has attracted much attention, where most methods focus on closed-set label noise. However, a more common scenario in the real world is the presence of both open-set and closed-set noise. Existing methods typically identify and handle these two types of label noise separately by designing a specific strategy for each type. However, in many real-world scenarios, it would be challenging to identify open-set examples, especially when the dataset has been severely corrupted. Unlike the previous works, we explore how models behave when faced with open-set examples, and find that \emph{a part of open-set examples gradually get integrated into certain known classes}, which is beneficial for the separation among known classes. Motivated by the phenomenon, we propose a novel two-step contrastive learning method CECL (Class Expansion Contrastive Learning) which aims to deal with both types of label noise by exploiting the useful information of open-set examples. Specifically, we incorporate some open-set examples into closed-set classes to enhance performance while treating others as delimiters to improve representative ability. Extensive experiments on synthetic and real-world datasets with diverse label noise demonstrate the effectiveness of CECL.
翻訳日:2024-02-26 18:26:08 公開日:2024-02-23
# オフポリティアセスメントのための学習行動埋め込み

Learning Action Embeddings for Off-Policy Evaluation ( http://arxiv.org/abs/2305.03954v2 )

ライセンス: Link先を確認
Matej Cief, Jacek Golebiowski, Philipp Schmidt, Ziawasch Abedjan, Artur Bekasov(参考訳) オフ・ポリティィ・アセスメント(OPE)法では,異なるポリシによって収集されたログデータを用いて,ポリシの期待される報酬を計算することができる。 opeは高価なオンラインa/bテストの代替手段であり、新しいポリシーの開発をスピードアップし、顧客が最適以下の治療を受けるリスクを低減します。 しかし、アクションの数が多ければあるアクションがロギングポリシーによって探索されていない場合、逆正当性スコアリング(IPS)に基づく既存の推定器は、高いあるいは無限のばらつきを持つことができる。 Saito と Joachims (arXiv:2202.06317v2 [cs.LG]) は、代わりにアクション埋め込みを使用する余分な IPS (MIPS) を提案する。 MIPSは、優れたアクション埋め込みは実践者によって定義できると仮定している。 本研究では,ログデータからの学習行動埋め込みについて検討する。 特に、トレーニングされた報酬モデルの中間出力を用いてMIPSのアクション埋め込みを定義する。 このアプローチは、MIPSをより多くのアプリケーションに拡張し、我々の実験では、事前に定義された埋め込みと、合成データと実世界のデータの両方に基づく標準ベースラインでMIPSを改善する。 提案手法では,報酬モデルクラスに関する仮定は行わず,付加的な行動情報を用いて推定をさらに改善する。 提案手法は,dmの低分散とipsの低バイアスを組み合わせた,drの魅力ある代替案を示す。

Off-policy evaluation (OPE) methods allow us to compute the expected reward of a policy by using the logged data collected by a different policy. OPE is a viable alternative to running expensive online A/B tests: it can speed up the development of new policies, and reduces the risk of exposing customers to suboptimal treatments. However, when the number of actions is large, or certain actions are under-explored by the logging policy, existing estimators based on inverse-propensity scoring (IPS) can have a high or even infinite variance. Saito and Joachims (arXiv:2202.06317v2 [cs.LG]) propose marginalized IPS (MIPS) that uses action embeddings instead, which reduces the variance of IPS in large action spaces. MIPS assumes that good action embeddings can be defined by the practitioner, which is difficult to do in many real-world applications. In this work, we explore learning action embeddings from logged data. In particular, we use intermediate outputs of a trained reward model to define action embeddings for MIPS. This approach extends MIPS to more applications, and in our experiments improves upon MIPS with pre-defined embeddings, as well as standard baselines, both on synthetic and real-world data. Our method does not make assumptions about the reward model class, and supports using additional action information to further improve the estimates. The proposed approach presents an appealing alternative to DR for combining the low variance of DM with the low bias of IPS.
翻訳日:2024-02-26 18:25:45 公開日:2024-02-23
# CodeCoT:コード生成のためのCoT推論におけるコード構文エラーの対処

CodeCoT: Tackling Code Syntax Errors in CoT Reasoning for Code Generation ( http://arxiv.org/abs/2308.08784v2 )

ライセンス: Link先を確認
Dong Huang, Qingwen Bu, Yuhao Qing, Heming Cui(参考訳) chain-of-thought (cot) はnlpの画期的なツールとして登場し、特に数学的証明のような複雑な推論タスクにおいて有効である。 しかし、コード生成におけるそのアプリケーションは、CoT推論で生成されたコードは論理的に正しいが、コード実行中の構文エラー(例えば、無効な構文エラーレポート)の問題に直面しているため、HumanEvalのCoT結果のpass@1はゼロショット結果よりもさらに低い。 本稿では,コード生成のための自己検査プロセスとCoTを統合したCode Chain-of-Thought(CodeCoT)を提案する。 CodeCoTは、生成したコードが正しい論理フローに従うことを保証するために、初期コード開発にCoTを使用するLLMから始まる。 次に、CodeCoTは、実行中にコードが構文エラーがあるかどうかを検証するテストケースを生成する。 CodeCoTは自己検査フェーズを使用し、生成されたコードはローカル環境でこれらのテストケースに対して実行される。 ローカル環境がエラー情報(例えば、無効な構文エラー)を上げると、CodeCoTはフィードバック情報に基づいてコードを反復的に洗練する。 このループの中で、codecotは、生成されたコードがコード記述のロジックフローに従うだけでなく、構文エラーも自己検査プロセスで対処できるようにします。 評価の結果,CodeCoTはコード生成の有効性を向上することがわかった。 例えば、CodeCoTは、HumanEvalデータセットのpass@1を75.6%から79.3%に増加させる。

Chain-of-thought (CoT) has emerged as a groundbreaking tool in NLP, notably for its efficacy in complex reasoning tasks, such as mathematical proofs. However, its application in code generation faces a distinct challenge, i.e., although the code generated with CoT reasoning is logically correct, it faces the problem of syntax error (e.g., invalid syntax error report) during code execution, which causes the CoT result's pass@1 in HumanEval even lower than the zero-shot result. In this paper, we present Code Chain-of-Thought (CodeCoT) that integrates CoT with a self-examination process for code generation. CodeCoT begins with the LLMs using CoT for initial code development to ensure the generated code follows the correct logic flow. Then, CodeCoT will generate test cases to validate whether the code has syntax errors during the execution. CodeCoT then employs a self-examination phase, in which the generated code is executed against these test cases in the local environment. If the local environment raises error information (e.g., invalid syntax error), CodeCoT will iteratively refine the code based on the feedback information. Within this loop, CodeCoT can make sure their generated codes not only follow the logic flow of the code description, but the syntax error will also be addressed with the self-examination process. Our evaluation results reveal that CodeCoT improves the effectiveness of code generation. For example, CodeCoT increases pass@1 from 75.6% to 79.3% for the HumanEval dataset.
翻訳日:2024-02-26 18:20:46 公開日:2024-02-23
# ゲート可変インダクタンスパラメトリック増幅器

Gate-tunable kinetic inductance parametric amplifier ( http://arxiv.org/abs/2308.06989v2 )

ライセンス: Link先を確認
Lukas Johannes Splitthoff, Jaap Joachim Wesdorp, Marta Pita-Vidal, Arno Bargerbos, Christian Kraglund Andersen(参考訳) 超伝導パラメトリック増幅器はマイクロ波周波数における量子状態の準備と読み出しにおいて重要な役割を果たし、超伝導量子ビットの高忠実度測定を可能にする。 これらの増幅器の既存の実装のほとんどは、ジョセフソン接合、超伝導量子干渉デバイスまたは乱れた超伝導体からの非線形性に依存している。 さらに、周波数チューナビリティは通常、磁束または電流バイアスから生じる。 対照的に、半導体ベースのパラメトリック増幅器は局所電場によって調整可能であり、電流やフラックスバイアスよりも低温設定に熱負荷が小さくなり、他のオンチップ量子システムへのクロストークが消滅する。 本研究では,ジョセフソン接合を使わずに動作可能なゲート可変パラメトリック増幅器を提案する。 この設計は、20dB以上のゲインと30MHzのゲインバンド幅の製品を備えた、ほぼ量子制限性能を実現する。 ジョセフソン接合の欠如は、-120dbmのかなりの飽和力、500 mtまでの磁場互換性、および15mhzの範囲での周波数可変性などの利点をもたらす。 パラメトリック増幅器の実現は、ゲート制御超伝導エレクトロニクスへの取り組みを補い、半導体および超伝導量子デバイスの高性能量子測定能力をさらに向上させる。

Superconducting parametric amplifiers play a crucial role in the preparation and readout of quantum states at microwave frequencies, enabling high-fidelity measurements of superconducting qubits. Most existing implementations of these amplifiers rely on the nonlinearity from Josephson junctions, superconducting quantum interference devices or disordered superconductors. Additionally, frequency tunability arises typically from either flux or current biasing. In contrast, semiconductor-based parametric amplifiers are tunable by local electric fields, which impose a smaller thermal load on the cryogenic setup than current and flux biasing and lead to vanishing crosstalk to other on-chip quantum systems. In this work, we present a gate-tunable parametric amplifier that operates without Josephson junctions, utilizing a proximitized semiconducting nanowire. This design achieves near-quantum-limited performance, featuring more than 20 dB gain and a 30 MHz gain-bandwidth product. The absence of Josephson junctions allows for advantages, including substantial saturation powers of -120dBm, magnetic field compatibility up to 500 mT and frequency tunability over a range of 15 MHz. Our realization of a parametric amplifier supplements efforts towards gate-controlled superconducting electronics, further advancing the abilities for high-performing quantum measurements of semiconductor-based and superconducting quantum devices.
翻訳日:2024-02-26 18:20:20 公開日:2024-02-23
# 深部演算子ネットワークのためのサイズダウンバウンド

Size Lowerbounds for Deep Operator Networks ( http://arxiv.org/abs/2308.06338v3 )

ライセンス: Link先を確認
Anirbit Mukherjee and Amartya Roy(参考訳) ディープ・オペレーター・ネットワークは無限次元の回帰を解き、従ってPDEの族を1ショットで解くためのパラダイムとして人気が高まっている。 本研究は,ノイズデータに対する経験的誤差を低減できる深層ネットのサイズに対して,最初のデータ依存下限を確立することを目的としている。 特に、$n$のデータポイント上で低トレーニング誤差を得るには、ブランチとトランクネットの共通出力次元を$\Omega \left ( \sqrt[\leftroot{-1}\uproot{-1}4]{n} \right )$とスケーリングする必要がある。 このことがDeepONetsによる実験にインスピレーションを与え、このモデルサイズが固定された場合、この共通出力次元の増加を活用でき、トレーニングエラーの単調な低減を実現するためには、トレーニングデータのサイズが少なくとも2次的にスケールする必要があることを実証する。

Deep Operator Networks are an increasingly popular paradigm for solving regression in infinite dimensions and hence solve families of PDEs in one shot. In this work, we aim to establish a first-of-its-kind data-dependent lowerbound on the size of DeepONets required for them to be able to reduce empirical error on noisy data. In particular, we show that for low training errors to be obtained on $n$ data points it is necessary that the common output dimension of the branch and the trunk net be scaling as $\Omega \left ( \sqrt[\leftroot{-1}\uproot{-1}4]{n} \right )$. This inspires our experiments with DeepONets solving the advection-diffusion-reaction PDE, where we demonstrate the possibility that at a fixed model size, to leverage increase in this common output dimension and get monotonic lowering of training error, the size of the training data might necessarily need to scale at least quadratically with it.
翻訳日:2024-02-26 18:19:57 公開日:2024-02-23
# 逐次的ニューラルネットワーク推定を用いたシミュレーションベース推論

Simulation-based inference using surjective sequential neural likelihood estimation ( http://arxiv.org/abs/2308.01054v2 )

ライセンス: Link先を確認
Simon Dirmeier, Carlo Albert, Fernando Perez-Cruz(参考訳) 本稿では,確率関数の抽出が不可能なモデルにおけるシミュレーションに基づく推論手法であるSurjective Sequential Neural Likelihood (SSNL) の推定について述べる。 SSNL は次元還元型全単射正規化フローモデルに適合し、マルコフ連鎖モンテカルロ法または変分推論を用いて従来のベイズ推定を可能にする代理可能性関数として用いる。 低次元空間にデータを埋め込むことで、ssnlは、例えば、非インフォーマティブなデータ次元を含む高次元データセットに適用される場合や、低次元多様体に沿って横たわる場合、以前の可能性ベース手法が抱えるいくつかの問題を解決する。 例えば、太陽ダイナモモデルを用いて太陽の磁場強度をモデル化する天体物理学からの挑戦的な実世界の例において、シミュレーションベースの推論で用いられる同時代の手法よりも一般的に優れていることを示す。

We present Surjective Sequential Neural Likelihood (SSNL) estimation, a novel method for simulation-based inference in models where the evaluation of the likelihood function is not tractable and only a simulator that can generate synthetic data is available. SSNL fits a dimensionality-reducing surjective normalizing flow model and uses it as a surrogate likelihood function which allows for conventional Bayesian inference using either Markov chain Monte Carlo methods or variational inference. By embedding the data in a low-dimensional space, SSNL solves several issues previous likelihood-based methods had when applied to high-dimensional data sets that, for instance, contain non-informative data dimensions or lie along a lower-dimensional manifold. We evaluate SSNL on a wide variety of experiments and show that it generally outperforms contemporary methods used in simulation-based inference, for instance, on a challenging real-world example from astrophysics which models the magnetic field strength of the sun using a solar dynamo model.
翻訳日:2024-02-26 18:19:36 公開日:2024-02-23
# バックドアの対向的特徴マッププルーニング

Adversarial Feature Map Pruning for Backdoor ( http://arxiv.org/abs/2307.11565v2 )

ライセンス: Link先を確認
Dong Huang, Qingwen Bu(参考訳) 深層ニューラルネットワークは、自動運転車や医療診断など、多くの重要な用途で広く使われている。 しかし、それらのセキュリティは特定のトレーニングデータに人工パターンを追加することで達成されるバックドア攻撃によって脅かされている。 既存の防衛戦略は、主にリバースエンジニアリングを使用して攻撃者が生成したバックドアトリガを再現し、その後、インプットにトリガーを追加してモデルをグランドトラストラベルで微調整することでDNNモデルを修復する。 しかし、攻撃者が生成したトリガーが複雑で目に見えない場合、ディフェンダーはトリガーを正常に再現できないため、トリガーが効果的に除去されないため、dnnモデルは修復されない。 本稿では,DNN からバックドアを緩和する Backdoor (FMP) のための Adversarial Feature Map Pruning を提案する。 バックドアのトリガーを再現する既存の防衛戦略とは異なり、FMPはバックドアの特徴マップを作成し、入力からバックドア情報を抽出する訓練を行っている。 これらのバックドア機能マップを解析した後、FMPはトレーニングデータの安全なサブセットでモデルを微調整する。 我々の実験は、既存の防衛戦略と比較して、FMPは最も複雑で目に見えない攻撃トリガーに対しても攻撃成功率(ASR)を効果的に減少させることができることを示した(例えば、FMPはベースラインよりも19.2\%から65.41\%低いCIFAR10においてASRを2.86\%に減少させる)。 第2に、低ロバストな精度(すなわち有毒データに対するモデルの精度)を示す従来の防御方法とは異なり、FMPは高いRAを達成し、バックドアアタックの効果を軽減しつつ、モデル性能を維持する上で優位性を示す(例えば、FMPはCIFAR10において87.40\%のRAを得る)。 私たちのコードは、https://github.com/retsuh-bqw/FMPで公開されています。

Deep neural networks have been widely used in many critical applications, such as autonomous vehicles and medical diagnosis. However, their security is threatened by backdoor attacks, which are achieved by adding artificial patterns to specific training data. Existing defense strategies primarily focus on using reverse engineering to reproduce the backdoor trigger generated by attackers and subsequently repair the DNN model by adding the trigger into inputs and fine-tuning the model with ground-truth labels. However, once the trigger generated by the attackers is complex and invisible, the defender cannot reproduce the trigger successfully then the DNN model will not be repaired, as the trigger is not effectively removed. In this work, we propose Adversarial Feature Map Pruning for Backdoor (FMP) to mitigate backdoor from the DNN. Unlike existing defense strategies, which focus on reproducing backdoor triggers, FMP attempts to prune backdoor feature maps, which are trained to extract backdoor information from inputs. After pruning these backdoor feature maps, FMP will fine-tune the model with a secure subset of training data. Our experiments demonstrate that, compared to existing defense strategies, FMP can effectively reduce the Attack Success Rate (ASR) even against the most complex and invisible attack triggers (e.g., FMP decreases the ASR to 2.86\% in CIFAR10, which is 19.2\% to 65.41\% lower than baselines). Second, unlike conventional defense methods that tend to exhibit low robust accuracy (that is, the accuracy of the model on poisoned data), FMP achieves a higher RA, indicating its superiority in maintaining model performance while mitigating the effects of backdoor attacks (e.g., FMP obtains 87.40\% RA in CIFAR10). Our code is publicly available at: https://github.com/retsuh-bqw/FMP.
翻訳日:2024-02-26 18:19:02 公開日:2024-02-23
# FedDefender:フェデレートラーニングにおけるバックドア攻撃防御

FedDefender: Backdoor Attack Defense in Federated Learning ( http://arxiv.org/abs/2307.08672v2 )

ライセンス: Link先を確認
Waris Gill (1), Ali Anwar (2), Muhammad Ali Gulzar (1) ((1) Virginia Tech, (2) University of Minnesota Twin Cities)(参考訳) Federated Learning(FL)は、個々のクライアント(ユーザ参加者、エッジデバイス、組織など)が、セキュアな環境でローカルデータ上でモデルをトレーニングし、トレーニングされたモデルをアグリゲータと共有し、グローバルモデルを協調的に構築することを可能にする、プライバシー保護の分散機械学習技術である。 本研究では,feddefenderを提案する。feddefenderは,flにおける標的中毒攻撃に対する防御メカニズムである。 提案手法は,同一入力におけるクライアントモデルのニューロン活性化を識別し,バックドアを含む潜在的に悪意のあるクライアントを特定する。 我々は, mnist と fashionmnist のデータセットを用いて 20 と 30 のクライアントを用いてfeeddefender を評価し, feddefender による攻撃を効果的に軽減し, グローバルモデルの性能を損なうことなく攻撃成功率 (asr) を 10 % に低下させることを示した。

Federated Learning (FL) is a privacy-preserving distributed machine learning technique that enables individual clients (e.g., user participants, edge devices, or organizations) to train a model on their local data in a secure environment and then share the trained model with an aggregator to build a global model collaboratively. In this work, we propose FedDefender, a defense mechanism against targeted poisoning attacks in FL by leveraging differential testing. Our proposed method fingerprints the neuron activations of clients' models on the same input and uses differential testing to identify a potentially malicious client containing a backdoor. We evaluate FedDefender using MNIST and FashionMNIST datasets with 20 and 30 clients, and our results demonstrate that FedDefender effectively mitigates such attacks, reducing the attack success rate (ASR) to 10\% without deteriorating the global model performance.
翻訳日:2024-02-26 18:18:24 公開日:2024-02-23
# 量子コヒーレンスの進化方程式

Evolution equation for quantum coherence ( http://arxiv.org/abs/2307.08454v3 )

ライセンス: Link先を確認
Xinzhi Zhao, Jianwei Shao, Yi Zheng, Wen-Zhao Zhang, Chengjie Zhang(参考訳) 量子コヒーレンス(quantum coherence)は、量子資源理論において重要な役割を果たす。 エンタングルメント発展方程式と同様に、完全かつ厳密に非コヒーレント操作(fsio)チャネルを通じて量子状態のコヒーレンス発展方程式を見つける。 クーディ状態の完全コヒーレンスを定量化するために、GコヒーレンスのGコヒーレンスと凸屋根を定義し、Gコヒーレンスが強いコヒーレンスモノトンであり、Gコヒーレンスの凸屋根がそれぞれFSIOの下でコヒーレンス測度であることを証明する。 さらに、fsioチャネルの下で任意の$d$-次元量子純および混合状態に対するコヒーレンス発展方程式を証明し、二成分純状態の絡み合い発展方程式を一般化する。 この結果は動的コヒーレンス測度の単純化において重要な役割を果たす。

Quantum coherence plays an important role in quantum resource theory, which is strongly related with entanglement. Similar to the entanglement evolution equation, we find the coherence evolution equation of quantum states through fully and strictly incoherent operation (FSIO) channels. In order to quantify the full coherence of qudit states, we define G-coherence and convex roof of G-coherence, and prove that the G-coherence is a strong coherence monotone and the convex roof of G-coherence is a coherence measure under FSIO, respectively. Furthermore, we prove a coherence evolution equation for arbitrary $d$-dimensional quantum pure and mixed states under FSIO channels, which generalizes the entanglement evolution equation for bipartite pure states. Our results will play an important role in the simplification of dynamical coherence measure.
翻訳日:2024-02-26 18:18:03 公開日:2024-02-23
# syntable: 乱雑なテーブルトップシーンのオブジェクトアモーダルインスタンスセグメンテーションのための合成データ生成パイプライン

SynTable: A Synthetic Data Generation Pipeline for Unseen Object Amodal Instance Segmentation of Cluttered Tabletop Scenes ( http://arxiv.org/abs/2307.07333v2 )

ライセンス: Link先を確認
Zhili Ng, Haozhe Wang, Zhengshen Zhang, Francis Tay Eng Hock, and Marcelo H. Ang Jr(参考訳) 本稿では、NVIDIAのIsaac Sim Replicator Composerを使って構築された、統一的で柔軟なPythonベースのデータセットジェネレータであるSynTableを紹介します。 私たちのデータセット生成ツールは、オブジェクトメッシュ、材料、テクスチャ、照明、背景を含む複雑な3dシーンをレンダリングできます。 モーダルやアモーダルインスタンスのセグメンテーションマスク、オクルージョンマスク、深度マップ、バウンディングボックス、マテリアルプロパティなどのメタデータを生成して、ユーザの要求に応じてシーンを自動的にアノテートすることができる。 当社のツールは、データセットの品質と精度を確保しつつ、データセット生成プロセスで手動ラベリングを不要にする。 本稿では,設計目標,フレームワークアーキテクチャ,ツールの性能について論じる。 レイトレーシングによりSynTableを用いて生成されたサンプルデータセットを用いて、最先端モデルのUOAIS-Netをトレーニングする。 その結果, osd-amodalデータセット上で評価した場合, sim-to-real転送の性能は著しく向上した。 私たちはこのツールを、ディープラーニングと合成データ生成の研究を進めるための、オープンソースで使いやすいフォトリアリスティックなデータセットジェネレータとして提供しています。

In this work, we present SynTable, a unified and flexible Python-based dataset generator built using NVIDIA's Isaac Sim Replicator Composer for generating high-quality synthetic datasets for unseen object amodal instance segmentation of cluttered tabletop scenes. Our dataset generation tool can render a complex 3D scene containing object meshes, materials, textures, lighting, and backgrounds. Metadata, such as modal and amodal instance segmentation masks, occlusion masks, depth maps, bounding boxes, and material properties, can be generated to automatically annotate the scene according to the users' requirements. Our tool eliminates the need for manual labeling in the dataset generation process while ensuring the quality and accuracy of the dataset. In this work, we discuss our design goals, framework architecture, and the performance of our tool. We demonstrate the use of a sample dataset generated using SynTable by ray tracing for training a state-of-the-art model, UOAIS-Net. The results show significantly improved performance in Sim-to-Real transfer when evaluated on the OSD-Amodal dataset. We offer this tool as an open-source, easy-to-use, photorealistic dataset generator for advancing research in deep learning and synthetic data generation.
翻訳日:2024-02-26 18:17:45 公開日:2024-02-23
# 不確実性をもつ状態の熱力学的拘束方程式の学習

Learning thermodynamically constrained equations of state with uncertainty ( http://arxiv.org/abs/2306.17004v2 )

ライセンス: Link先を確認
Himanshu Sharma, Jim A. Gaffney, Dimitrios Tsapetis, Michael D. Shields(参考訳) 高エネルギー密度実験の数値シミュレーションでは、物質の熱力学状態変数(特に圧力、体積/密度、エネルギー、温度)を関連付ける状態方程式(EOS)モデルが必要となる。 EOSモデルは典型的には半経験的パラメトリック法を用いて構築され、実験・シミュレーションデータを用いて多くの調整可能なパラメータを調整した物理インフォームド関数形式を仮定する。 キャリブレーションデータ(パラメトリック不確実性)と推定される機能的EOS形式(モデル不確実性)に固有の不確実性があるため、EOS予測の信頼性を向上させるために不確実性定量化(UQ)を実行することが不可欠である。 モデルの不確実性は、物理的に一貫した全ての可能な機能形式の空間を探索する必要があるため、UQ研究にとって困難である。 したがって、熱力学の法則に違反することなく定量化しやすいパラメトリック不確実性を支持するためにしばしば無視される。 本研究は、熱力学的一貫性と安定性の制約を満たしながら、自然にモデルの不確かさを捉えるeosモデルを構築するためのデータ駆動機械学習手法を提案する。 本稿では, eosにおける不確かさを自動計測し, シミュレーションと実験データソースの両方で共同で学習できる, 物理に変形したガウス過程回帰(gpr)に基づく新しい枠組みを提案する。 衝撃ヒューゴニオットのGPRモデルが導出され,その不確実性は提案手法を用いて定量化される。 提案したモデルを用いて, 密度汎関数理論データと実験衝撃ヒューホニオデータの両方を用いて, 炭素のダイヤモンド固体状態のeosを学習し, 熱力学的制約を考慮して予測の不確かさが減少することを示す。

Numerical simulations of high energy-density experiments require equation of state (EOS) models that relate a material's thermodynamic state variables -- specifically pressure, volume/density, energy, and temperature. EOS models are typically constructed using a semi-empirical parametric methodology, which assumes a physics-informed functional form with many tunable parameters calibrated using experimental/simulation data. Since there are inherent uncertainties in the calibration data (parametric uncertainty) and the assumed functional EOS form (model uncertainty), it is essential to perform uncertainty quantification (UQ) to improve confidence in the EOS predictions. Model uncertainty is challenging for UQ studies since it requires exploring the space of all possible physically consistent functional forms. Thus, it is often neglected in favor of parametric uncertainty, which is easier to quantify without violating thermodynamic laws. This work presents a data-driven machine learning approach to constructing EOS models that naturally captures model uncertainty while satisfying the necessary thermodynamic consistency and stability constraints. We propose a novel framework based on physics-informed Gaussian process regression (GPR) that automatically captures total uncertainty in the EOS and can be jointly trained on both simulation and experimental data sources. A GPR model for the shock Hugoniot is derived and its uncertainties are quantified using the proposed framework. We apply the proposed model to learn the EOS for the diamond solid state of carbon, using both density functional theory data and experimental shock Hugoniot data to train the model and show that the prediction uncertainty reduces by considering the thermodynamic constraints.
翻訳日:2024-02-26 18:16:54 公開日:2024-02-23
# バイカラーループモデルとその長距離絡み合い

Bicolor loop models and their long range entanglement ( http://arxiv.org/abs/2306.05464v2 )

ライセンス: Link先を確認
Zhao Zhang(参考訳) 量子ループモデルは格子ゲージ理論と位相量子計算の文脈でよく研究された対象である。 通常は、トポロジカルな絡み合いによって捕獲される長い範囲の絡み合いを持つ。 トリック符号モデルの双色ループモデルへの一般化を考察し、長範囲の絡み合いは、位相不変定数、領域法則に対する部分リード対数補正、領域法則項に対する修正結合次元の3つの異なる方法で反映可能であることを示す。 ハミルトニアンはスペクトル全体に対して正確には解けないが、局所化された頂点欠陥の任意の対を持つループ構成のフラストレーションのない重ね合わせに対応する領域法則の正確な励起状態の塔を認める。 ループに沿った色の連続性はモデルに速度論的制約を課し、隣り合う2つの面を含むプラケット作用素がハミルトニアンに導入されない限り、ヒルベルト空間の断片化をもたらす。

Quantum loop models are well studied objects in the context of lattice gauge theories and topological quantum computing. They usually carry long range entanglement that is captured by the topological entanglement entropy. I consider generalization of the toric code model to bicolor loop models and show that the long range entanglement can be reflected in three different ways: a topologically invariant constant, a sub-leading logarithmic correction to the area law, or a modified bond dimension for the area-law term. The Hamiltonians are not exactly solvable for the whole spectra, but admit a tower of area-law exact excited states corresponding to the frustration free superposition of loop configurations with arbitrary pairs of localized vertex defects. The continuity of color along loops imposes kinetic constraints on the model and results in Hilbert space fragmentation, unless plaquette operators involving two neighboring faces are introduced to the Hamiltonian.
翻訳日:2024-02-26 18:16:01 公開日:2024-02-23
# 行動モデルの評価方法

How to Evaluate Behavioral Models ( http://arxiv.org/abs/2306.04778v2 )

ライセンス: Link先を確認
Greg d'Eon, Sophie Greenwood, Kevin Leyton-Brown, and James R. Wright(参考訳) 行動ゲーム理論家のような行動モデルを構築する研究者は、人間の行動の予測モデルを評価する実験データを使用する。 しかし, 誤差率, 負の対数類似度, クロスエントロピー, ブライアスコア, 正方形L2誤差など, いずれの損失関数を用いるべきかは, ほぼ一致していない。 我々は、損失関数が満足すべきものであると主張する公理を定式化し、このタスクにどの損失関数を使用するべきかという問題に対する原理的な答えを提供しようとする。 我々は損失関数の族を構築し、これら全ての公理を満たす「対角有界ブレグマン発散」を仮定する。 これらは、実際に使用される多くの損失関数を除外するが、特に二乗L2誤差を含む。

Researchers building behavioral models, such as behavioral game theorists, use experimental data to evaluate predictive models of human behavior. However, there is little agreement about which loss function should be used in evaluations, with error rate, negative log-likelihood, cross-entropy, Brier score, and squared L2 error all being common choices. We attempt to offer a principled answer to the question of which loss functions should be used for this task, formalizing axioms that we argue loss functions should satisfy. We construct a family of loss functions, which we dub "diagonal bounded Bregman divergences", that satisfy all of these axioms. These rule out many loss functions used in practice, but notably include squared L2 error; we thus recommend its use for evaluating behavioral models.
翻訳日:2024-02-26 18:15:43 公開日:2024-02-23
# レイリー商グラフニューラルネットワークによるグラフレベルの異常検出

Rayleigh Quotient Graph Neural Networks for Graph-level Anomaly Detection ( http://arxiv.org/abs/2310.02861v3 )

ライセンス: Link先を確認
Xiangyu Dong, Xingyi Zhang, Sibo Wang(参考訳) グラフレベルの異常検出は、がん診断や酵素予測など、さまざまな領域で応用されているため、注目されている。 しかし、既存の手法はグラフ異常のスペクトル特性を捉えず、説明不能なフレームワーク設計と不満足な性能をもたらす。 本稿では,異常グラフと正規グラフのスペクトル差を再検討する。 本研究の主観測は, この2つのクラス間で蓄積されたスペクトルエネルギーに有意差が認められた。 さらに、グラフ信号の蓄積したスペクトルエネルギーがレイリー・クオシエントによって表現できることを証明し、レイリー・クオシエントがグラフの異常特性の背後にある駆動因子であることを示す。 そこで我々は,グラフレベルの異常検出のための異常グラフの固有スペクトル特徴を探索する最初のスペクトルgnnであるrayleigh quotient graph neural network (rqgnn)を提案する。 具体的には、Rayleigh Quotient Learning component (RQL)とChebyshev Wavelet GNN with RQ-pooling (CWGNN-RQ)の2つのコンポーネントからなる新しいフレームワークを紹介する。 RQLはグラフのRayleigh Quotientを明示的にキャプチャし、CWGNN-RQはグラフのスペクトル空間を暗黙的に探索する。 10の実世界のデータセットに対する大規模な実験により、RQGNNはMacro-F1スコアの6.74%、AUCの1.44%で最高のライバルを上回っ、我々のフレームワークの有効性を示している。 私たちのコードはhttps://github.com/xydong127/rqgnnで入手できる。

Graph-level anomaly detection has gained significant attention as it finds applications in various domains, such as cancer diagnosis and enzyme prediction. However, existing methods fail to capture the spectral properties of graph anomalies, resulting in unexplainable framework design and unsatisfying performance. In this paper, we re-investigate the spectral differences between anomalous and normal graphs. Our main observation shows a significant disparity in the accumulated spectral energy between these two classes. Moreover, we prove that the accumulated spectral energy of the graph signal can be represented by its Rayleigh Quotient, indicating that the Rayleigh Quotient is a driving factor behind the anomalous properties of graphs. Motivated by this, we propose Rayleigh Quotient Graph Neural Network (RQGNN), the first spectral GNN that explores the inherent spectral features of anomalous graphs for graph-level anomaly detection. Specifically, we introduce a novel framework with two components: the Rayleigh Quotient learning component (RQL) and Chebyshev Wavelet GNN with RQ-pooling (CWGNN-RQ). RQL explicitly captures the Rayleigh Quotient of graphs and CWGNN-RQ implicitly explores the spectral space of graphs. Extensive experiments on 10 real-world datasets show that RQGNN outperforms the best rival by 6.74% in Macro-F1 score and 1.44% in AUC, demonstrating the effectiveness of our framework. Our code is available at https://github.com/xydong127/RQGNN.
翻訳日:2024-02-26 18:10:31 公開日:2024-02-23
# ポリシーマージによるロボット群学習

Robot Fleet Learning via Policy Merging ( http://arxiv.org/abs/2310.01362v3 )

ライセンス: Link先を確認
Lirui Wang, Kaiqing Zhang, Allan Zhou, Max Simchowitz, Russ Tedrake(参考訳) ロボットの群れは、環境と対話することによって生成される大量の異種ストリーミングデータサイロを、保存したり、簡単に送信したりできるものよりもはるかに多く摂取する。 同時に、ロボットのチームは様々な環境で異種体験を通じて多様なスキルを共用すべきである。 艦隊規模のデータの送信や集中化を必要とせずに、このような艦隊レベルの学習を可能にするにはどうすればいいのか? 本稿では,分散不均質データセットからのポリシマージ(pome)を潜在的なソリューションとして検討する。 FLEET-MERGE(FleET-MERGE)は、繰り返しニューラルネットワークによる制御ポリシのパラメータ化時に発生する変分不変性を考慮した分散学習のインスタンス化である。 本稿では,FLEET-MERGEが,メタワールド環境における50のタスクで訓練されたポリシーの挙動を,ほぼ全てのトレーニングタスクにおいて良好な性能で強化することを示す。 さらに,本ベンチマークにおけるfleet-mergeの有効性を検証するために,合成および接触の多いロボット操作タスクにおけるフリートポリシー学習のための新しいロボットツール利用ベンチマークであるfleet-toolsを提案する。

Fleets of robots ingest massive amounts of heterogeneous streaming data silos generated by interacting with their environments, far more than what can be stored or transmitted with ease. At the same time, teams of robots should co-acquire diverse skills through their heterogeneous experiences in varied settings. How can we enable such fleet-level learning without having to transmit or centralize fleet-scale data? In this paper, we investigate policy merging (PoMe) from such distributed heterogeneous datasets as a potential solution. To efficiently merge policies in the fleet setting, we propose FLEET-MERGE, an instantiation of distributed learning that accounts for the permutation invariance that arises when parameterizing the control policies with recurrent neural networks. We show that FLEET-MERGE consolidates the behavior of policies trained on 50 tasks in the Meta-World environment, with good performance on nearly all training tasks at test time. Moreover, we introduce a novel robotic tool-use benchmark, FLEET-TOOLS, for fleet policy learning in compositional and contact-rich robot manipulation tasks, to validate the efficacy of FLEET-MERGE on the benchmark.
翻訳日:2024-02-26 18:10:04 公開日:2024-02-23
# DataInf: LoRA 調整 LLM と拡散モデルにおけるデータ影響を効率的に推定する

DataInf: Efficiently Estimating Data Influence in LoRA-tuned LLMs and Diffusion Models ( http://arxiv.org/abs/2310.00902v2 )

ライセンス: Link先を確認
Yongchan Kwon, Eric Wu, Kevin Wu, James Zou(参考訳) トレーニングデータポイントの影響の定量化は、機械学習モデルのアウトプットを理解し、AIパイプラインの透明性を改善するために重要である。 影響関数は原則的かつ一般的なデータ帰属法であるが、その計算コストはしばしば使用を困難にしている。 この問題は、大きな言語モデルとテキスト・ツー・イメージモデルの設定でより顕著になる。 本研究では,大規模生成AIモデルに有効な効率的な影響近似手法であるDataInfを提案する。 datainfは計算とメモリ効率の点で既存の影響計算アルゴリズムを上回っている。 理論的解析により,DataInfはLoRAのようなパラメータ効率のよい微調整技術に特に適していることが示された。 系統的実証評価により,datainfは影響スコアを精度良く近似し,既存の手法よりも桁違いに高速であることを示した。 RoBERTa-large、Llama-2-13B-chat、stable-diffusion-v1.5モデルへの適用において、DataInfは、他の近似影響スコアよりも、最も影響力のある微調整例を効果的に識別する。 さらに、どのデータポイントが誤ってラベル付けされているかを識別するのに役立ちます。

Quantifying the impact of training data points is crucial for understanding the outputs of machine learning models and for improving the transparency of the AI pipeline. The influence function is a principled and popular data attribution method, but its computational cost often makes it challenging to use. This issue becomes more pronounced in the setting of large language models and text-to-image models. In this work, we propose DataInf, an efficient influence approximation method that is practical for large-scale generative AI models. Leveraging an easy-to-compute closed-form expression, DataInf outperforms existing influence computation algorithms in terms of computational and memory efficiency. Our theoretical analysis shows that DataInf is particularly well-suited for parameter-efficient fine-tuning techniques such as LoRA. Through systematic empirical evaluations, we show that DataInf accurately approximates influence scores and is orders of magnitude faster than existing methods. In applications to RoBERTa-large, Llama-2-13B-chat, and stable-diffusion-v1.5 models, DataInf effectively identifies the most influential fine-tuning examples better than other approximate influence scores. Moreover, it can help to identify which data points are mislabeled.
翻訳日:2024-02-26 18:09:46 公開日:2024-02-23
# 常にエントロピー生産への微視的貢献:非平衡定常状態から大域的熱化へ

Microscopic contributions to the entropy production at all times: From nonequilibrium steady states to global thermalization ( http://arxiv.org/abs/2309.11812v2 )

ライセンス: Link先を確認
Ayaka Usui, Krzysztof Ptaszy\'nski, Massimiliano Esposito, Philipp Strasberg(参考訳) schr\"odinger方程式の正確な積分に基づいて、自由フェルミオンの2つの浴槽に結合された単一のフェルミ準位トンネルを記述するパラダイムモデルである単一電子トランジスタのエントロピー生成に対する微視的寄与を数値的に研究した。 この目的のために、エントロピー生成を情報理論的な用語の和に分解し、非平衡定常状態のレジームや大域的熱化の最終段階を含むすべての関連する時間スケールで研究する。 エントロピー生成は, 浴槽内の温度と浴槽内部の(内部ではなく)相関関係の微視的偏差により, 多くの場合, 支配的であった。 このような微視的な温度差にもかかわらず、モデルが統合可能であるにもかかわらず、浴槽の温度と化学ポテンシャルは予想通り熱化する。 重要なことに、この観測は初期混合状態と純粋な状態の両方で確認される。 さらに,浴槽間の相関は直観に反するシステムバス結合強度に非常に敏感であることがわかった。 最後に、絶対的な意味では小さいシステム・バス相関は相対的な意味で支配的であり、研究された全てのパラメータレジームに対して純粋な量子相関を示す。

Based on exact integration of the Schr\"odinger equation, we numerically study microscopic contributions to the entropy production for the single electron transistor, a paradigmatic model describing a single Fermi level tunnel coupled to two baths of free fermions. To this end, we decompose the entropy production into a sum of information theoretic terms and study them across all relevant time scales, including the nonequilibrium steady state regime and the final stage of global thermalization. We find that the entropy production is dominated for most times by microscopic deviations from thermality in the baths and the correlation between (but not inside) the baths. Despite these microscopic deviations from thermality, the temperatures and chemical potentials of the baths thermalize as expected, even though our model is integrable. Importantly, this observation is confirmed for both initially mixed and pure states. We further observe that the bath-bath correlations are quite insensitive to the system-bath coupling strength contrary to intuition. Finally, the system-bath correlation, small in an absolute sense, dominates in a relative sense and displays pure quantum correlations for all studied parameter regimes.
翻訳日:2024-02-26 18:09:24 公開日:2024-02-23
# 進化型ディープカーネルマシン

Convolutional Deep Kernel Machines ( http://arxiv.org/abs/2309.09814v2 )

ライセンス: Link先を確認
Edward Milsom, Ben Anson, Laurence Aitchison(参考訳) ニューラルネットワークの標準無限幅制限は、中間層がデータから表現を学ぶ能力を犠牲にする。 最近の研究(表現学習の理論は、表現学習が維持されるようにニューラルネットワークガウス過程(NNGP)の限界を変更したカーネル手法の深い一般化を与える。 さらに、この修正された制限を深いガウス過程に適用すると、ディープカーネルマシン(DKM)と呼ばれる実用的な学習アルゴリズムが得られることがわかった。 しかし、最も単純な設定は、例えば10の入力機能を持つ、小さく完全に接続されたネットワークでの回帰である。 ここでは畳み込み型ディープカーネルマシンを紹介する。 これにより、新しいドメイン間誘導点近似を開発し、バッチ正規化の類似、異なる可能性、異なるトップレイヤーの異なるタイプを含む、これまでDKMで見られなかった多くのテクニックを導入、実験的に評価する必要があった。 その結果、約77gpu時間でトレーニングを行い、mnistでは約99%、cifar-100では72%、cifar-10では92.7%、カーネルメソッドではsotaとなった。

Standard infinite-width limits of neural networks sacrifice the ability for intermediate layers to learn representations from data. Recent work (A theory of representation learning gives a deep generalisation of kernel methods, Yang et al. 2023) modified the Neural Network Gaussian Process (NNGP) limit of Bayesian neural networks so that representation learning is retained. Furthermore, they found that applying this modified limit to a deep Gaussian process gives a practical learning algorithm which they dubbed the deep kernel machine (DKM). However, they only considered the simplest possible setting: regression in small, fully connected networks with e.g. 10 input features. Here, we introduce convolutional deep kernel machines. This required us to develop a novel inter-domain inducing point approximation, as well as introducing and experimentally assessing a number of techniques not previously seen in DKMs, including analogues to batch normalisation, different likelihoods, and different types of top-layer. The resulting model trains in roughly 77 GPU hours, achieving around 99% test accuracy on MNIST, 72% on CIFAR-100, and 92.7% on CIFAR-10, which is SOTA for kernel methods.
翻訳日:2024-02-26 18:08:19 公開日:2024-02-23
# GenDOM:パラメータ対応ポリシーによる汎用的なワンショットデフォルマブルオブジェクト操作

GenDOM: Generalizable One-shot Deformable Object Manipulation with Parameter-Aware Policy ( http://arxiv.org/abs/2309.09051v3 )

ライセンス: Link先を確認
So Kuroki, Jiaxian Guo, Tatsuya Matsushima, Takuya Okubo, Masato Kobayashi, Yuya Ikeda, Ryosuke Takanami, Paul Yoo, Yutaka Matsuo, Yusuke Iwasawa(参考訳) 動作中の変形性に固有の不確実性があるため、ロープや布などの変形可能なオブジェクト操作の以前の方法は、各オブジェクトの操作ポリシーを訓練するために、何百もの実世界のデモンストレーションを必要とした。 この問題に対処するため,1つの実世界の実演だけで異なる変形可能なオブジェクトを操作できるフレームワークであるGenDOMを紹介した。 これを実現するために、変形可能なオブジェクトパラメータに条件付けし、様々な種類の変形可能なオブジェクトでトレーニングすることで、ポリシーを補強し、異なるオブジェクトパラメータに基づいてアクションを調整する。 新しいオブジェクトが推測されたとき、GenDOMは、実世界のデモの点雲の格子密度と微分可能な物理シミュレータのシミュレーションとの差を最小化することにより、単一の実世界のデモだけで変形可能なオブジェクトパラメータを推定できる。 Empirical validations on both simulated and real-world object manipulation setups clearly show that our method can manipulate different objects with a single demonstration and significantly outperforms the baseline in both environments (a 62% improvement for in-domain ropes and a 15% improvement for out-of-distribution ropes in simulation, as well as a 26% improvement for ropes and a 50% improvement for cloths in the real world), demonstrating the effectiveness of our approach in one-shot deformable object manipulation.

Due to the inherent uncertainty in their deformability during motion, previous methods in deformable object manipulation, such as rope and cloth, often required hundreds of real-world demonstrations to train a manipulation policy for each object, which hinders their applications in our ever-changing world. To address this issue, we introduce GenDOM, a framework that allows the manipulation policy to handle different deformable objects with only a single real-world demonstration. To achieve this, we augment the policy by conditioning it on deformable object parameters and training it with a diverse range of simulated deformable objects so that the policy can adjust actions based on different object parameters. At the time of inference, given a new object, GenDOM can estimate the deformable object parameters with only a single real-world demonstration by minimizing the disparity between the grid density of point clouds of real-world demonstrations and simulations in a differentiable physics simulator. Empirical validations on both simulated and real-world object manipulation setups clearly show that our method can manipulate different objects with a single demonstration and significantly outperforms the baseline in both environments (a 62% improvement for in-domain ropes and a 15% improvement for out-of-distribution ropes in simulation, as well as a 26% improvement for ropes and a 50% improvement for cloths in the real world), demonstrating the effectiveness of our approach in one-shot deformable object manipulation.
翻訳日:2024-02-26 18:07:58 公開日:2024-02-23
# 民営化にともなうllmの二重論理能力を無視するな:医療領域におけるデータ集約分析

Don't Ignore Dual Logic Ability of LLMs while Privatizing: A Data-Intensive Analysis in Medical Domain ( http://arxiv.org/abs/2309.04198v3 )

ライセンス: Link先を確認
Yanrui Du, Sendong Zhao, Muzhen Cai, Ming Ma, Danyang Zhao, Jiawei Cao, Bing Qin(参考訳) 汎用言語モデル(LLM)を特定のドメインデータを供給することによって、ドメイン特化LSMとして民営化する研究が盛んである。 しかし、これらの民営化の取り組みは、LLMの中核的な推論能力であるデュアル論理能力(Dual Logic Ability)という重要な側面をしばしば無視した。 llmsの双対論理能力は、同じ事実について正と負の両方のステートメントと向き合うとき、一貫したスタンスを維持することを保証する。 本研究は, LLMの二重論理能力が医療領域の民営化過程にどう影響するかに焦点を当てた。 同じ事実に対するペア質問に対する反応における姿勢の一貫性について検討し,llmの二重論理能力を解析するための実験を行った。 興味深いことに、我々は民営化後の既存のLLMの二重論理能力の大幅な低下を観察した。 さらに, LLMに汎用ドメイン二重論理データを組み込むことにより, LLMの二重論理能力を向上するだけでなく, その精度も向上することを示す。 これらの結果は,民営化過程におけるLLMの二重論理能力の優先順位付けの重要性を浮き彫りにした。 本研究は,LLMの民営化過程における二重論理能力の探索を目的とした将来の研究のためのベンチマークを構築し,実世界のアプリケーションにおける民営化の取り組みに関する貴重なガイダンスを提供する。

Extensive studies have been devoted to privatizing general-domain Large Language Models (LLMs) as Domain-Specific LLMs via feeding specific-domain data. However, these privatization efforts often ignored a critical aspect: Dual Logic Ability, which is a core reasoning ability for LLMs. The dual logic ability of LLMs ensures that they can maintain a consistent stance when confronted with both positive and negative statements about the same fact. Our study focuses on how the dual logic ability of LLMs is affected during the privatization process in the medical domain. We conduct several experiments to analyze the dual logic ability of LLMs by examining the consistency of the stance in responses to paired questions about the same fact. In our experiments, interestingly, we observed a significant decrease in the dual logic ability of existing LLMs after privatization. Besides, our results indicate that incorporating general domain dual logic data into LLMs not only enhances LLMs' dual logic ability but also further improves their accuracy. These findings underscore the importance of prioritizing LLMs' dual logic ability during the privatization process. Our study establishes a benchmark for future research aimed at exploring LLMs' dual logic ability during the privatization process and offers valuable guidance for privatization efforts in real-world applications.
翻訳日:2024-02-26 18:07:33 公開日:2024-02-23
# 位置ラベルのない屋内地域無線マップの構築

Constructing Indoor Region-based Radio Map without Location Labels ( http://arxiv.org/abs/2308.16759v2 )

ライセンス: Link先を確認
Zheng Xing and Junting Chen(参考訳) 無線マップの構築には、位置ラベルによる大量のラジオ計測データが必要であるため、高い展開コストがかかる。 本稿では、位置ラベルを使わずに受信信号強度(RSS)測定から地域無線マップを開発する。 構築は、足跡やタイムスタンプが記録されていない屋内エリアの各地域を正確に1回訪問するデバイスから、盲目的に収集されたRSS測定データに基づいて行われる。 主な課題は、RSSデータをクラスタ化し、物理的なリージョンとクラスタをマッチングすることだ。 古典的なクラスタリングアルゴリズムは、RSSデータが自然にマルチパスとノイズのためにクラスタ化されていないように見えるため、機能しない。 本稿では,rssデータに対して逐次的に先行する信号部分空間モデルを構築し,特別な場合においてグローバル最適解を求めるための統合セグメンテーション・クラスタリングアルゴリズムを開発した。 さらに、グラフベースアプローチを用いて、クラスタ化されたデータを物理領域とマッチングする。 オフィス空間からの実測値に基づいて、提案手法は、重み付きセントロイドローカライゼーション(WCL)ベースラインと比較して、領域のローカライゼーション誤差を約50%削減し、トレーニングにラベル付きデータを必要とするk-nearest neighbor(KNN)、サポートベクターマシン(SVM)、ディープニューラルネットワーク(DNN)など、いくつかの教師付きローカライゼーションスキームよりも優れている。

Radio map construction requires a large amount of radio measurement data with location labels, which imposes a high deployment cost. This paper develops a region-based radio map from received signal strength (RSS) measurements without location labels. The construction is based on a set of blindly collected RSS measurement data from a device that visits each region in an indoor area exactly once, where the footprints and timestamps are not recorded. The main challenge is to cluster the RSS data and match clusters with the physical regions. Classical clustering algorithms fail to work as the RSS data naturally appears as non-clustered due to multipaths and noise. In this paper, a signal subspace model with a sequential prior is constructed for the RSS data, and an integrated segmentation and clustering algorithm is developed, which is shown to find the globally optimal solution in a special case. Furthermore, the clustered data is matched with the physical regions using a graph-based approach. Based on real measurements from an office space, the proposed scheme reduces the region localization error by roughly 50% compared to a weighted centroid localization (WCL) baseline, and it even outperforms some supervised localization schemes, including k-nearest neighbor (KNN), support vector machine (SVM), and deep neural network (DNN), which require labeled data for training.
翻訳日:2024-02-26 18:06:47 公開日:2024-02-23
# 信頼と安全のための機械学習の課題 : 誤情報検出を事例として

The Challenges of Machine Learning for Trust and Safety: A Case Study on Misinformation Detection ( http://arxiv.org/abs/2308.12215v2 )

ライセンス: Link先を確認
Madelyne Xiao, Jonathan Mayer(参考訳) 信頼と安全問題に機械学習を適用する際の奨学金と実践の分離を,誤情報検出を事例として検討する。 フィールドに270の有能な論文からなるコーパスを用いた誤情報の自動検出に関する文献を体系化する。 次に、データおよびコードの可用性、設計ミスステップ、再現性、一般化性のための論文のサブセットを調べます。 論文のコーパスには,セキュリティ,自然言語処理,計算社会科学に関する著作が含まれている。 これらの異なる分野にまたがって、データセットとメソッド設計における一般的なエラーを特定します。 一般的に、検出タスクは、オンラインサービスが実際に直面する課題とは、しばしば意味的に異なる。 データセットとモデル評価は、しばしば実世界のコンテキストに非代表的であり、評価はしばしばモデルトレーニングとは独立ではない。 データとコードの可用性は乏しい。 本稿では,3つの複製研究における電流検出手法の限界について述べる。 これらの分析結果と文献調査に基づいて,マシンラーニングの信頼性および安全性問題への適用性を評価するための推奨事項を提案する。 私たちの目標は、私たちが特定する落とし穴を避けるための将来の作業です。

We examine the disconnect between scholarship and practice in applying machine learning to trust and safety problems, using misinformation detection as a case study. We systematize literature on automated detection of misinformation across a corpus of 270 well-cited papers in the field. We then examine subsets of papers for data and code availability, design missteps, reproducibility, and generalizability. Our paper corpus includes published work in security, natural language processing, and computational social science. Across these disparate disciplines, we identify common errors in dataset and method design. In general, detection tasks are often meaningfully distinct from the challenges that online services actually face. Datasets and model evaluation are often non-representative of real-world contexts, and evaluation frequently is not independent of model training. Data and code availability is poor. We demonstrate the limitations of current detection methods in a series of three replication studies. Based on the results of these analyses and our literature survey, we offer recommendations for evaluating applications of machine learning to trust and safety problems in general. Our aim is for future work to avoid the pitfalls that we identify.
翻訳日:2024-02-26 18:06:00 公開日:2024-02-23
# Spear and Shield:連続時間動的グラフ上でのモデルベースリンク予測のための逆攻撃と防御手法

Spear and Shield: Adversarial Attacks and Defense Methods for Model-Based Link Prediction on Continuous-Time Dynamic Graphs ( http://arxiv.org/abs/2308.10779v2 )

ライセンス: Link先を確認
Dongjin Lee, Juho Lee, Kijung Shin(参考訳) 現実世界のグラフは動的であり、金融ネットワークにおける金融取引のような新しい相互作用によって常に進化している。 動的グラフの進化パターンを効果的に捉えるために時間グラフニューラルネットワーク(TGNN)が開発された。 これらのモデルは、様々な重要な分野で広く採用されているが、敵の攻撃に対する脆弱性はほとんど未解明のままである。 本稿では,TGNNの脆弱性の解明に焦点をあて,連続時間動的グラフ上でのリンク予測をシンプルかつ効果的に行うT-SPEARを提案する。 具体的には,リンク予測のためのtgnnである被害者モデルのトレーニング手順の前に,提案する4つの制約に関して注目されないデータに対してエッジ摂動を注入する。 さらに,敵攻撃の影響を軽減するために,T-SHIELDによる堅牢なトレーニング手法を提案する。 エッジフィルタリングを用い,ノード埋め込みに時間的平滑性を持たせることで,被害者モデルのロバスト性を高める。 実験により,T-SPEARはリンク予測タスクにおいて被害者モデルの性能を著しく低下させ,さらに攻撃者が想定する被害者モデルと異なる他のTGNNに攻撃が転送可能であることが示された。 さらに、T-SHIELDは敵のエッジを効果的にフィルタリングし、敵の攻撃に対して堅牢性を示し、T-SPEARの下では、単純TGNNのリンク予測性能を最大11.2%超えることを示した。

Real-world graphs are dynamic, constantly evolving with new interactions, such as financial transactions in financial networks. Temporal Graph Neural Networks (TGNNs) have been developed to effectively capture the evolving patterns in dynamic graphs. While these models have demonstrated their superiority, being widely adopted in various important fields, their vulnerabilities against adversarial attacks remain largely unexplored. In this paper, we propose T-SPEAR, a simple and effective adversarial attack method for link prediction on continuous-time dynamic graphs, focusing on investigating the vulnerabilities of TGNNs. Specifically, before the training procedure of a victim model, which is a TGNN for link prediction, we inject edge perturbations to the data that are unnoticeable in terms of the four constraints we propose, and yet effective enough to cause malfunction of the victim model. Moreover, we propose a robust training approach T-SHIELD to mitigate the impact of adversarial attacks. By using edge filtering and enforcing temporal smoothness to node embeddings, we enhance the robustness of the victim model. Our experimental study shows that T-SPEAR significantly degrades the victim model's performance on link prediction tasks, and even more, our attacks are transferable to other TGNNs, which differ from the victim model assumed by the attacker. Moreover, we demonstrate that T-SHIELD effectively filters out adversarial edges and exhibits robustness against adversarial attacks, surpassing the link prediction performance of the naive TGNN by up to 11.2% under T-SPEAR.
翻訳日:2024-02-26 18:05:44 公開日:2024-02-23
# AltNeRF: 逐次奥行き最適化によるロバストニューラルネットワークの学習

AltNeRF: Learning Robust Neural Radiance Field via Alternating Depth-Pose Optimization ( http://arxiv.org/abs/2308.10001v2 )

ライセンス: Link先を確認
Kun Wang, Zhiqiang Yan, Huang Tian, Zhenyu Zhang, Xiang Li, Jun Li and Jian Yang(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、スパースシーン画像からリアルな新しいビューを生成することを約束している。 しかし、既存のNeRFアプローチは、明示的な3D監督と不正確なカメラのポーズが欠如しているため、しばしば課題に直面する。 これらの課題に対処するために,モノクラービデオから自己教師付きモノクラー深度推定(SMDE)を用いて、既知のカメラのポーズに頼ることなく、レジリエントなNeRF表現を作成するための新しいフレームワークAltNeRFを提案する。 AltNeRFのSMDEは、NeRFトレーニングを調整するために、奥行きを熟知し、前もってポーズをとる。 奥行きはnerfの正確なシーン幾何描写能力を高める一方、ポーズ先行は後のポーズ洗練のための堅牢な出発点となる。 さらに,NeRF出力をコンデンス駆動機構によりSMDEに調和的に溶接し,深度事前の整合性を向上する交互アルゴリズムを提案する。 この交互化によりAltNeRFはNeRF表現を徐々に洗練させ、現実的な新規なビューを合成する。 大規模な実験では、AltNeRFが現実によく似た高忠実で堅牢な新奇な視点を生み出す能力を示している。

Neural Radiance Fields (NeRF) have shown promise in generating realistic novel views from sparse scene images. However, existing NeRF approaches often encounter challenges due to the lack of explicit 3D supervision and imprecise camera poses, resulting in suboptimal outcomes. To tackle these issues, we propose AltNeRF -- a novel framework designed to create resilient NeRF representations using self-supervised monocular depth estimation (SMDE) from monocular videos, without relying on known camera poses. SMDE in AltNeRF masterfully learns depth and pose priors to regulate NeRF training. The depth prior enriches NeRF's capacity for precise scene geometry depiction, while the pose prior provides a robust starting point for subsequent pose refinement. Moreover, we introduce an alternating algorithm that harmoniously melds NeRF outputs into SMDE through a consistence-driven mechanism, thus enhancing the integrity of depth priors. This alternation empowers AltNeRF to progressively refine NeRF representations, yielding the synthesis of realistic novel views. Extensive experiments showcase the compelling capabilities of AltNeRF in generating high-fidelity and robust novel views that closely resemble reality.
翻訳日:2024-02-26 18:05:16 公開日:2024-02-23
# alquist 5.0: 対話ツリーは生成モデルと出会う。 ソーシャルボットの会話を促進する新しいアプローチ

Alquist 5.0: Dialogue Trees Meet Generative Models. A Novel Approach for Enhancing SocialBot Conversations ( http://arxiv.org/abs/2310.16119v2 )

ライセンス: Link先を確認
Ond\v{r}ej Kobza, Jan \v{C}uhel, Tommaso Gargiani, David Herel, Petr Marek (Faculty of Electrical Engineering, CTU in Prague)(参考訳) Alexa Prize SocialBot Grand Challenge~5のために開発されたSocialBot - Alquist~5.0を紹介します。 従来のシステムに基づいて、NRG Baristaを導入し、社会ボットにバリスタを統合するための革新的なアプローチをいくつか紹介し、全体的な会話体験を改善した。 さらに、SocialBotを拡張してマルチモーダルデバイスをサポートします。 本稿では,多種多様なトピックにまたがる共感的・知識的な会話能力を維持しつつ,ユーザ期待の進展に対応するAlquist~5.0の開発に関する知見を提供する。

We present our SocialBot -- Alquist~5.0 -- developed for the Alexa Prize SocialBot Grand Challenge~5. Building upon previous versions of our system, we introduce the NRG Barista and outline several innovative approaches for integrating Barista into our SocialBot, improving the overall conversational experience. Additionally, we extend our SocialBot to support multimodal devices. This paper offers insights into the development of Alquist~5.0, which meets evolving user expectations while maintaining empathetic and knowledgeable conversational abilities across diverse topics.
翻訳日:2024-02-26 18:00:17 公開日:2024-02-23
# リー代数畳み込みによる概等分散

Almost Equivariance via Lie Algebra Convolutions ( http://arxiv.org/abs/2310.13164v5 )

ライセンス: Link先を確認
Daniel McNeela(参考訳) 近年,機械学習の研究において,集団行動に関するモデルの等価性が重要な話題となっている。 既存のニューラルネットワークアーキテクチャの組込み等価性の解析や、明示的に"bake in"等価性を持つモデルの構築に関する研究は、それ自体で重要な研究領域となっている。 しかし、特定のグループの同値性を持つアーキテクチャを付与することは、モデルが期待するデータ変換のタイプに強く先行する。 厳密な同変モデルは対称性を強制するが、実世界のデータは必ずしもそのような厳密な等式に従わない。 そのような場合、厳密な等分散の事前は実際には強すぎることが証明され、モデルが過小評価される。 そこで本研究では,近縁な話題であるほぼ同値な話題について考察する。 概等分散の定義を提供し、リー群のリー代数に訴えることでモデルの概等分散を符号化する実用的な方法を与える。 具体的には、リー代数の畳み込みを定義し、それらはリー群畳み込みよりもいくつかの利点をもたらすことを証明している。 そこから, 等分散および等化の概念と, 概等分散および概等化の概念との関係を示す。 2つの存在定理を証明し、1つは多様体の等距離の有界距離における概等距離の存在を示し、もう1つはヒルベルト空間の逆を示す。 我々は、これらの定理を拡張して、群作用と関数類に関する一定の制約に従う完全同値な埋め込み関数の有界距離内における概同値多様体埋め込みの存在を証明する。 最後に、完全同値およびほぼ同値な設定でデータセットに対してベンチマークを行うことにより、このアプローチの有効性を実証する。

Recently, the equivariance of models with respect to a group action has become an important topic of research in machine learning. Analysis of the built-in equivariance of existing neural network architectures, as well as the study of building models that explicitly "bake in" equivariance, have become significant research areas in their own right. However, imbuing an architecture with a specific group equivariance imposes a strong prior on the types of data transformations that the model expects to see. While strictly-equivariant models enforce symmetries, real-world data does not always conform to such strict equivariances. In such cases, the prior of strict equivariance can actually prove too strong and cause models to underperform. Therefore, in this work we study a closely related topic, that of almost equivariance. We provide a definition of almost equivariance and give a practical method for encoding almost equivariance in models by appealing to the Lie algebra of a Lie group. Specifically, we define Lie algebra convolutions and demonstrate that they offer several benefits over Lie group convolutions, including being well-defined for non-compact Lie groups having non-surjective exponential map. From there, we demonstrate connections between the notions of equivariance and isometry and those of almost equivariance and almost isometry. We prove two existence theorems, one showing the existence of almost isometries within bounded distance of isometries of a manifold, and another showing the converse for Hilbert spaces. We extend these theorems to prove the existence of almost equivariant manifold embeddings within bounded distance of fully equivariant embedding functions, subject to certain constraints on the group action and the function class. Finally, we demonstrate the validity of our approach by benchmarking against datasets in fully equivariant and almost equivariant settings.
翻訳日:2024-02-26 17:59:51 公開日:2024-02-23
# 最適状態判別に触発された文脈性証人

A contextuality witness inspired by optimal state discrimination ( http://arxiv.org/abs/2310.12716v2 )

ライセンス: Link先を確認
Carles Roch i Carceller and Jonatan Bohr Brask(参考訳) 量子情報科学における多くのプロトコルやタスクは、文脈性の基本的概念に依存して古典的概念よりも優位性を与え、文脈性は量子物理学と古典物理学の主な違いの1つである。 本研究は,最適二状態判別に触発された準備状況の証人を示す。 主なアイデアは、古典モデルと量子モデルの両方において、アクセス可能な平均的な成功とエラー確率を見つけることである。 すると、非文脈性不等式と関連する証人を構成でき、非決定的な事象の形で非分極化ノイズや損失に対して頑健であることが分かる。

Many protocols and tasks in quantum information science rely inherently on the fundamental notion of contextuality to provide advantages over their classical counterparts, and contextuality represents one of the main differences between quantum and classical physics. In this work we present a witness for preparation contextuality inspired by optimal two-state discrimination. The main idea is based on finding the accessible averaged success and error probabilities in both classical and quantum models. We can then construct a noncontextuality inequality and associated witness which we find to be robust against depolarising noise and loss in the form of inconclusive events.
翻訳日:2024-02-26 17:59:23 公開日:2024-02-23
# MaskMA: マスクに基づく協調学習によるゼロショットマルチエージェント意思決定を目指して

MaskMA: Towards Zero-Shot Multi-Agent Decision Making with Mask-Based Collaborative Learning ( http://arxiv.org/abs/2310.11846v2 )

ライセンス: Link先を確認
Jie Liu, Yinmin Zhang, Chuming Li, Chao Yang, Yaodong Yang, Yu Liu, Wanli Ouyang(参考訳) 強力なゼロショット能力を持つ単一のジェネラリストエージェントの構築は、最近大きな進歩をもたらした。 しかし、この機能をマルチエージェントな意思決定シナリオに拡張することは、課題となる。 現在のほとんどの作品は、マルチエージェント設定に関する2つの課題により、ゼロショット転送に苦労している。 (a)集中訓練と分散実行のミスマッチ (b)エージェント数やアクション空間によって様々なタスクにまたがる汎用表現の作成が困難である。 これらの課題を克服するために,マルチエージェント意思決定(MaskMA)のためのMaskベースの協調学習フレームワークを提案する。 まず,ユニットの一部をランダムにマスキングし,そのミスマッチに対処するための非マスクユニットのポリシーを協調的に学習することを提案する。 さらに、MaskMAは、アクション空間を、ユニット自体にのみ関連する固有のアクションと、他のユニットとの相互作用を含む対話的なアクションに分割することで、一般化可能なアクション表現を統合する。 この柔軟性により、MaskMAは様々なエージェント番号と異なるアクション空間でタスクに取り組むことができる。 SMACの大規模な実験では、11のトレーニングマップで訓練された1つのモデルで、分散実行によって60の未確認テストマップ上で77.8%の平均ゼロショットの勝利率を達成すると同時に、他のダウンストリームタスク(例えば、様々なポリシーコラボレーション、アライアンス誤動作、アドホックチームプレイ)で効果的に実行することができる。

Building a single generalist agent with strong zero-shot capability has recently sparked significant advancements. However, extending this capability to multi-agent decision making scenarios presents challenges. Most current works struggle with zero-shot transfer, due to two challenges particular to the multi-agent settings: (a) a mismatch between centralized training and decentralized execution; and (b) difficulties in creating generalizable representations across diverse tasks due to varying agent numbers and action spaces. To overcome these challenges, we propose a Mask-Based collaborative learning framework for Multi-Agent decision making (MaskMA). Firstly, we propose to randomly mask part of the units and collaboratively learn the policies of unmasked units to handle the mismatch. In addition, MaskMA integrates a generalizable action representation by dividing the action space into intrinsic actions solely related to the unit itself and interactive actions involving interactions with other units. This flexibility allows MaskMA to tackle tasks with varying agent numbers and thus different action spaces. Extensive experiments in SMAC reveal MaskMA, with a single model trained on 11 training maps, can achieve an impressive 77.8% average zero-shot win rate on 60 unseen test maps by decentralized execution, while also performing effectively on other types of downstream tasks (e.g., varied policies collaboration, ally malfunction, and ad hoc team play).
翻訳日:2024-02-26 17:59:11 公開日:2024-02-23
# RoboLLM:マルチモーダル大規模言語モデルに基づくロボットビジョンタスク

RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language Models ( http://arxiv.org/abs/2310.10221v2 )

ライセンス: Link先を確認
Zijun Long and George Killick and Richard McCreadie and Gerardo Aragon Camarasa(参考訳) ロボットビジョンアプリケーションは、オブジェクトの検出、セグメンテーション、識別など、幅広い視覚的タスクを必要とすることが多い。 これらの個々のタスクにはかなりの進歩があったが、特殊モデルを統一されたビジョンパイプラインに統合することは、重要なエンジニアリング上の課題とコストをもたらす。 近年,マルチモーダル大規模言語モデル (MLLM) が下流タスクの新しいバックボーンとして登場している。 MLLMの事前学習機能を利用することで、単純化されたフレームワークの作成が可能であり、タスク固有のエンコーダの必要性を軽減できると主張している。 具体的には、MLLMの大規模事前訓練された知識により、下流のロボットビジョンタスクの微調整が容易になり、優れたパフォーマンスが得られる。 我々は,実世界の倉庫シナリオに関する大規模ロボット操作データセットであるARMBench Challengeにおける視覚知覚タスクに,BEiT-3バックボーンを備えたRoboLLMフレームワークを導入する。 RoboLLMは既存のベースラインを上回るだけでなく、モデル選択やチューニングに関連するエンジニアリングの負担を大幅に削減する。 ソースコードはhttps://github.com/longkukuhi/armbenchで公開されている。

Robotic vision applications often necessitate a wide range of visual perception tasks, such as object detection, segmentation, and identification. While there have been substantial advances in these individual tasks, integrating specialized models into a unified vision pipeline presents significant engineering challenges and costs. Recently, Multimodal Large Language Models (MLLMs) have emerged as novel backbones for various downstream tasks. We argue that leveraging the pre-training capabilities of MLLMs enables the creation of a simplified framework, thus mitigating the need for task-specific encoders. Specifically, the large-scale pretrained knowledge in MLLMs allows for easier fine-tuning to downstream robotic vision tasks and yields superior performance. We introduce the RoboLLM framework, equipped with a BEiT-3 backbone, to address all visual perception tasks in the ARMBench challenge-a large-scale robotic manipulation dataset about real-world warehouse scenarios. RoboLLM not only outperforms existing baselines but also substantially reduces the engineering burden associated with model selection and tuning. The source code is publicly available at https://github.com/longkukuhi/armbench.
翻訳日:2024-02-26 17:58:46 公開日:2024-02-23
# unitime:クロスドメイン時系列予測のための言語統合モデル

UniTime: A Language-Empowered Unified Model for Cross-Domain Time Series Forecasting ( http://arxiv.org/abs/2310.09751v3 )

ライセンス: Link先を確認
Xu Liu, Junfeng Hu, Yuan Li, Shizhe Diao, Yuxuan Liang, Bryan Hooi, Roger Zimmermann(参考訳) 多変量時系列予測は、現代のウェブ技術において重要な役割を果たす。 特定の時系列アプリケーションドメイン専用のモデルを作成する従来の手法とは対照的に、本研究ではドメイン境界を超越する統一モデルパラダイムを提唱する。 しかし、効果的なクロスドメインモデルを学ぶことは以下の課題を示している。 まず、様々なドメインはデータ特性の相違、例えば変数の数、これらの要因に柔軟性のない制約を課す既存のモデルのハードルを示す。 第2に、このモデルは様々な領域からデータを区別する上で困難に直面する可能性がある。 第3に、時系列領域の様々な収束率もまた、経験的性能を損なう可能性がある。 これらの課題に対処するため,ドメイン間時系列学習に有効なUniTimeを提案する。 具体的には、UniTimeは様々な特性を持つデータに柔軟に対応できる。 また、ドメイン命令とLanguage-TS Transformerを使用して識別情報を提供し、2つのモダリティを調整する。 さらにUniTimeは、ドメイン収束速度の不均衡の問題を軽減するためにマスキングを使用している。 我々は,UniTimeの最先端予測性能およびゼロショット転送性向上における有効性を示す。

Multivariate time series forecasting plays a pivotal role in contemporary web technologies. In contrast to conventional methods that involve creating dedicated models for specific time series application domains, this research advocates for a unified model paradigm that transcends domain boundaries. However, learning an effective cross-domain model presents the following challenges. First, various domains exhibit disparities in data characteristics, e.g., the number of variables, posing hurdles for existing models that impose inflexible constraints on these factors. Second, the model may encounter difficulties in distinguishing data from various domains, leading to suboptimal performance in our assessments. Third, the diverse convergence rates of time series domains can also result in compromised empirical performance. To address these issues, we propose UniTime for effective cross-domain time series learning. Concretely, UniTime can flexibly adapt to data with varying characteristics. It also uses domain instructions and a Language-TS Transformer to offer identification information and align two modalities. In addition, UniTime employs masking to alleviate domain convergence speed imbalance issues. Our extensive experiments demonstrate the effectiveness of UniTime in advancing state-of-the-art forecasting performance and zero-shot transferability.
翻訳日:2024-02-26 17:58:28 公開日:2024-02-23
# 位置紙:深部時系列予測のためのデータ・メトリクス・方法論の統合的視点

Position Paper: An Integrated Perspective on Data, Metrics, and Methodology for Deep Time-Series Forecasting ( http://arxiv.org/abs/2310.07446v2 )

ライセンス: Link先を確認
Jiawen Zhang, Xumeng Wen, Shun Zheng, Jia Li, Jiang Bian(参考訳) 深層時系列予測は多くの実践的応用において重要な役割を担っている。 しかしながら、既存の研究は、長期的なポイント予測のためのニューラルアーキテクチャ設計か、短期シナリオのための確率モデルに限定して、不足している。 多様なデータシナリオ、評価メトリクス、方法論的焦点を統合する新しいツールであるprobtsによって促進される包括的なフレームワークの提案により、現在の予測手法の限界を超越することを目指している。 厳密な実験は、予測方法論をデータの特徴と整合させることの最大の重要性、点と分布の予測を正確に評価する幅広い指標の必要性、既存の予測手法を幅広いシナリオに適応させることに固有の課題など、重要な洞察を明らかにする。 これらの知見は, 従来のアプローチに挑戦するだけでなく, 将来的な研究の道筋を照らし, 深層時系列予測の分野を推し進めるための, より曖昧で効果的な戦略を示唆している。

Deep time-series forecasting plays an integral role in numerous practical applications. However, existing research fall short by focusing narrowly on either neural architecture designs for long-term point forecasts or probabilistic models for short-term scenarios. By proposing a comprehensive framework, facilitated by a novel tool, ProbTS, that integrates diverse data scenarios, evaluation metrics, and methodological focuses, we aim to transcend the limitations of current forecasting practices. Rigorous experimentation uncovers pivotal insights, including the supreme importance of aligning forecasting methodologies with the unique characteristics of the data; the necessity of a broad spectrum of metrics for accurately assessing both point and distributional forecasts; and the challenges inherent in adapting existing forecasting methods to a wider range of scenarios. These findings not only challenge conventional approaches but also illuminate promising avenues for future research, suggesting a more nuanced and effective strategy for advancing the field of deep time-series forecasting.
翻訳日:2024-02-26 17:58:11 公開日:2024-02-23
# プラズモニックナノキャビティにおけるサブラジアントの絡み合い

Subradiant entanglement in plasmonic nanocavities ( http://arxiv.org/abs/2310.06462v2 )

ライセンス: Link先を確認
Kalun Bedingfield, Benjamin Yuen, Angela Demetriadou(参考訳) プラズモニックナノキャビティは、わずか数ナノメートルのギャップにおける極端磁場の増強とサブ波長光の閉じ込めで知られている。 これを量子エミッターをホストする能力と組み合わせることで、室温で量子状態を制御または設計する非常に有望なプラットフォームを形成する。 ここでは、プラズモニックナノキャビティの損失的な性質を利用して、2つ以上の量子エミッタの間で、プラズモニックの励起よりも100ドル長く持続するサブラジアントの絡み合った状態を形成する。 我々は、量子変数を、絶滅断面積のような実験的に測定可能な量に直接結びつける理論的記述を開発し、以前の研究と異なり、共振的に亜ラジアント状態を形成するのに必要なプラズモニック励起を含む。 この研究は、ラピッド量子メモリ、量子通信、センサーなどの潜在的な用途のために、プラズモニックナノキャビティを持つ環境条件における量子絡み合い状態の工学への道を開く。

Plasmonic nanocavities are known for their extreme field enhancement and sub-wavelength light confinement in gaps of just a few nanometers. Pairing this with the ability to host quantum emitters, they form highly promising platforms to control or engineer quantum states at room temperature. Here, we use the lossy nature of plasmonic nanocavities to form sub-radiant entangled states between two or more quantum emitters, that persist for $\sim 100$ times longer than the plasmonic excitation. We develop a theoretical description that directly links quantum variables to experimentally measurable quantities, such as the extinction cross-section, and unlike previous studies includes plasmonic excitations necessary to resonantly form subradiant states. This work paves the way towards engineering quantum entangled states in ambient conditions with plasmonic nanocavities, for potential applications such as rapid quantum memories, quantum communications and sensors.
翻訳日:2024-02-26 17:57:35 公開日:2024-02-23
# CFDBench:流体力学における機械学習手法の大規模ベンチマーク

CFDBench: A Large-Scale Benchmark for Machine Learning Methods in Fluid Dynamics ( http://arxiv.org/abs/2310.05963v2 )

ライセンス: Link先を確認
Yining Luo, Yingfa Chen, Zhen Zhang(参考訳) 近年,深層学習を物理学問題に適用する動きが注目されている。 データ駆動型ディープラーニングは、偏微分方程式(すなわち代理モデリング)の系全体の近似解を学習できる高速数値演算を生成する。 これらのニューラルネットワークは、従来の数値法よりも精度が低いかもしれないが、一度訓練されると、推論において桁違いに高速になる。 そこで,本稿では,計算流体力学(CFD)問題における学習後のニューラル演算子の一般化能力を評価するためのベンチマークであるCFDBenchを構築する。 古典的なcfd問題として、蓋駆動キャビティフロー、円管内の層境界層フロー、ステップを流れるダム流、周期的なカルマン渦通りがある。 このデータには合計302kフレームの速度と圧力場が含まれており、数値的な手法で739の異なる動作条件パラメータを含む。 CFDBnech上でのフィードフォワードネットワーク,DeepONet,FNO,U-Netなどのニューラルネットワークの有効性を,非周期境界条件のフロー,流体特性,トレーニング中に見えないフロー領域形状の予測により評価した。 CFDBenchに人気のあるディープニューラルネットワークを適用し、より変化する入力の収容を可能にする適切な修正が行われた。 CFDBenchにおける実験結果から,多くのベースラインモデルでは,いくつかの問題において最大300%の誤差があり,自己回帰的推論を行う場合のエラー蓄積が深刻であることがわかった。 CFDBenchは、既存のベンチマークと比較して、CFDの異なるニューラル演算子間のより包括的な比較を容易にする。

In recent years, applying deep learning to solve physics problems has attracted much attention. Data-driven deep learning methods produce fast numerical operators that can learn approximate solutions to the whole system of partial differential equations (i.e., surrogate modeling). Although these neural networks may have lower accuracy than traditional numerical methods, they, once trained, are orders of magnitude faster at inference. Hence, one crucial feature is that these operators can generalize to unseen PDE parameters without expensive re-training.In this paper, we construct CFDBench, a benchmark tailored for evaluating the generalization ability of neural operators after training in computational fluid dynamics (CFD) problems. It features four classic CFD problems: lid-driven cavity flow, laminar boundary layer flow in circular tubes, dam flows through the steps, and periodic Karman vortex street. The data contains a total of 302K frames of velocity and pressure fields, involving 739 cases with different operating condition parameters, generated with numerical methods. We evaluate the effectiveness of popular neural operators including feed-forward networks, DeepONet, FNO, U-Net, etc. on CFDBnech by predicting flows with non-periodic boundary conditions, fluid properties, and flow domain shapes that are not seen during training. Appropriate modifications were made to apply popular deep neural networks to CFDBench and enable the accommodation of more changing inputs. Empirical results on CFDBench show many baseline models have errors as high as 300% in some problems, and severe error accumulation when performing autoregressive inference. CFDBench facilitates a more comprehensive comparison between different neural operators for CFD compared to existing benchmarks.
翻訳日:2024-02-26 17:57:17 公開日:2024-02-23
# lara: 教師なし時系列異常検出のための軽量・オーバーフィット再訓練手法

LARA: A Light and Anti-overfitting Retraining Approach for Unsupervised Time Series Anomaly Detection ( http://arxiv.org/abs/2310.05668v4 )

ライセンス: Link先を確認
Feiyi Chen, Zhen Qin, Yingying Zhang, Shuiguang Deng, Yi Xiao, Guansong Pang and Qingsong Wen(参考訳) 現在の異常検出モデルのほとんどは、通常のパターンは常に同じであると仮定している。 しかし、Webサービスの通常のパターンは劇的に変化します。 古い分散データでトレーニングされたモデルは、そのような変更の後に時代遅れになる。 モデル全体を毎回トレーニングするのは高価です。 また、通常のパターン変化の開始時点では、新しい分布からの観測データが不十分である。 限られたデータで大規模なニューラルネットワークモデルをトレーニングすることは、オーバーフィッティングに弱い。 そこで本研究では,深部変分オートエンコーダに基づく時系列異常検出法 (vaes) のための軽量・過給再訓練法 (lara) を提案する。 この作品は3つの新しい貢献を目指しています 1) 再訓練プロセスは凸問題として定式化され, 高速で収束し, 過度な適合を防止することができる。 2) 履歴データを保存せずに活用するラミネートブロックの設計 3) 潜在ベクトルと再構成データの微調整を行う場合, 線形生成は基底真理と微調整データとの間の誤差を最小に抑えることができることを数学的に証明する。 さらに,新しい分布から43のタイムスロットを持つLARAの再学習が,その競合するF1スコアを,十分なデータで訓練された最先端の異常検出モデルと比較する上で有効であることを示すために,多くの実験を行った。 また、光のオーバーヘッドも確認する。

Most of current anomaly detection models assume that the normal pattern remains same all the time. However, the normal patterns of Web services change dramatically and frequently. The model trained on old-distribution data is outdated after such changes. Retraining the whole model every time is expensive. Besides, at the beginning of normal pattern changes, there is not enough observation data from the new distribution. Retraining a large neural network model with limited data is vulnerable to overfitting. Thus, we propose a Light and Anti-overfitting Retraining Approach (LARA) for deep variational auto-encoder based time series anomaly detection methods (VAEs). This work aims to make three novel contributions: 1) the retraining process is formulated as a convex problem and can converge at a fast rate as well as prevent overfitting; 2) designing a ruminate block, which leverages the historical data without the need to store them; 3) mathematically proving that when fine-tuning the latent vector and reconstructed data, the linear formations can achieve the least adjusting errors between the ground truths and the fine-tuned ones. Moreover, we have performed many experiments to verify that retraining LARA with even 43 time slots of data from new distribution can result in its competitive F1 Score in comparison with the state-of-the-art anomaly detection models trained with sufficient data. Besides, we verify its light overhead.
翻訳日:2024-02-26 17:56:49 公開日:2024-02-23
# ブラックホール蒸発の単位(半)因果量子回路表現

Unitary (semi)causal quantum-circuit representation of black hole evaporation ( http://arxiv.org/abs/2310.04744v4 )

ライセンス: Link先を確認
Bogus{\l}aw Broda(参考訳) 事象の地平線 (semicausality) によって課される因果関係を尊重するブラックホールの一元進化(蒸発)の一般的な構造が導出され、量子回路の言語で表される。 対応する絡み合いエントロピーとエントロピー曲線の進化に対する結果が決定されている。 一般的なスキームの例として、テンソル製品モデルと制御された非製品モデルという2種類のキュービット玩具モデルが議論されている。

A general structure of unitary evolution (evaporation) of the black hole, respecting causality imposed by the event horizon (semicausality), has been derived and presented in the language of quantum circuits. The resulting consequences for the evolution of the corresponding entanglement entropy and the entropy curve have been determined. As an illustration of the general scheme, two families of qubit toy models have been discussed: tensor product models and controlled non-product models.
翻訳日:2024-02-26 17:56:30 公開日:2024-02-23
# 同一骨格を持つマルコフ同値類を数える固定パラメータ扱い可能なアルゴリズム

A Fixed-Parameter Tractable Algorithm for Counting Markov Equivalence Classes with the same Skeleton ( http://arxiv.org/abs/2310.04218v2 )

ライセンス: Link先を確認
Vidya Sagar Sharma(参考訳) 因果DAG(Bayesian Network)は、確率変数間の条件依存を符号化する一般的なツールである。 因果的DAGでは、ランダム変数はDAGの頂点としてモデル化され、全てのランダム変数は両親に条件付けられた祖先とは独立である。 しかし、同じ確率変数の集合上の2つの異なる因果DAGに対して、全く同じ条件依存の集合をエンコードすることが可能である。 そのような因果DAGはマルコフ同値であるとされ、マルコフ同値DAGの同値類はマルコフ同値類(Markov Equivalent Classs、MECs)として知られている。 MECの美しい組合せ的特徴はここ数十年で開発され、特に同じMEC内のすべてのDAGは、同じ「スケルトン」と v-構造($a\rightarrow b \leftarrow c$ という形に誘導される部分グラフ)を持つ必要があることが知られている。 これらの組合せ的特徴付けは、いくつかの自然アルゴリズム的問題も示唆する。 入力として無向グラフ$G$を与えられたとき、マルコフ同値類がスケルトン$G$を持つものはいくつあるか? この数年間、多くの作業が、これや他の密接に関連する問題に費やされてきた。 しかしながら、我々の知る限りでは、問題の多項式時間アルゴリズムは未知である。 本稿では,木幅のパラメータと入力グラフの最大値である$g$を用いて,上記の問題に対する固定パラメータの扱い可能なアルゴリズムを提供することにより,この目標に向けて前進する。 我々の研究の主な技術的要素は、私たちがシャドウと呼ぶ構造であり、MECの組合せ的特徴によって課される長距離制約の「局所的な記述」を作成することができる。

Causal DAGs (also known as Bayesian networks) are a popular tool for encoding conditional dependencies between random variables. In a causal DAG, the random variables are modeled as vertices in the DAG, and it is stipulated that every random variable is independent of its ancestors conditioned on its parents. It is possible, however, for two different causal DAGs on the same set of random variables to encode exactly the same set of conditional dependencies. Such causal DAGs are said to be Markov equivalent, and equivalence classes of Markov equivalent DAGs are known as Markov Equivalent Classes (MECs). Beautiful combinatorial characterizations of MECs have been developed in the past few decades, and it is known, in particular that all DAGs in the same MEC must have the same "skeleton" (underlying undirected graph) and v-structures (induced subgraph of the form $a\rightarrow b \leftarrow c$). These combinatorial characterizations also suggest several natural algorithmic questions. One of these is: given an undirected graph $G$ as input, how many distinct Markov equivalence classes have the skeleton $G$? Much work has been devoted in the last few years to this and other closely related problems. However, to the best of our knowledge, a polynomial time algorithm for the problem remains unknown. In this paper, we make progress towards this goal by giving a fixed parameter tractable algorithm for the above problem, with the parameters being the treewidth and the maximum degree of the input graph $G$. The main technical ingredient in our work is a construction we refer to as shadow, which lets us create a "local description" of long-range constraints imposed by the combinatorial characterizations of MECs.
翻訳日:2024-02-26 17:56:20 公開日:2024-02-23
# 大規模言語モデルのためのMetaToolベンチマーク:ツールの使用と使用方法の決定

MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use ( http://arxiv.org/abs/2310.03128v5 )

ライセンス: Link先を確認
Yue Huang and Jiawen Shi and Yuan Li and Chenrui Fan and Siyuan Wu and Qihui Zhang and Yixin Liu and Pan Zhou and Yao Wan and Neil Zhenqiang Gong and Lichao Sun(参考訳) 大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。 近年,多くの研究がllmのツール活用能力に着目している。 彼らは主に、LLMが特定のツールと効果的に連携する方法を調査した。 しかしながら、AutoGPTやMetaGPTのようなアプリケーションで見られるような、LLMがインテリジェントなエージェントとして機能するシナリオでは、LDMは、ツールを採用するかどうかを決定し、ユーザ要求を満たすために利用可能なツールの集合から最も適切なツールを選択する、複雑な意思決定プロセスに関与することが期待されている。 そこで本稿では,LLM がツール使用意識を持ち,ツールを正しく選択できるかどうかを評価するベンチマークである MetaTool を紹介する。 具体的には、ベンチマーク内でToolEと呼ばれるデータセットを作成します。 このデータセットには、シングルツールとマルチツールの両方のシナリオを含む、LDMがツールを使用するきっかけとなるプロンプトという形で、さまざまなタイプのユーザクエリが含まれている。 その後、ツール使用意識とツール選択の両方にタスクを設定しました。 ツール選択に関して,ツール選択,特定のシナリオにおけるツール選択,信頼性問題のあるツール選択,マルチツール選択など,さまざまな観点から4つのサブタスクを定義した。 我々は8つのLLMを巻き込んだ実験を行い、その大多数は依然としてツールを効果的に選択するのに苦労しており、LLMと真の知的エージェントの既存のギャップを強調しています。 しかし, 誤差解析の結果, 改善の余地は依然として大きいことがわかった。 最後に、ツール開発者がツールが適用する下流のllmに基づいて新しい記述を生成するために、適切な書き直しモデルを選択することを強く推奨します。 私たちのコードはhttps://github.com/HowieHwong/MetaTool.orgにある。

Large language models (LLMs) have garnered significant attention due to their impressive natural language processing (NLP) capabilities. Recently, many studies have focused on the tool utilization ability of LLMs. They primarily investigated how LLMs effectively collaborate with given specific tools. However, in scenarios where LLMs serve as intelligent agents, as seen in applications like AutoGPT and MetaGPT, LLMs are expected to engage in intricate decision-making processes that involve deciding whether to employ a tool and selecting the most suitable tool(s) from a collection of available tools to fulfill user requests. Therefore, in this paper, we introduce MetaTool, a benchmark designed to evaluate whether LLMs have tool usage awareness and can correctly choose tools. Specifically, we create a dataset called ToolE within the benchmark. This dataset contains various types of user queries in the form of prompts that trigger LLMs to use tools, including both single-tool and multi-tool scenarios. Subsequently, we set the tasks for both tool usage awareness and tool selection. We define four subtasks from different perspectives in tool selection, including tool selection with similar choices, tool selection in specific scenarios, tool selection with possible reliability issues, and multi-tool selection. We conduct experiments involving eight popular LLMs and find that the majority of them still struggle to effectively select tools, highlighting the existing gaps between LLMs and genuine intelligent agents. However, through the error analysis, we found there is still significant room for improvement. Finally, we conclude with insights for tool developers -- we strongly recommend that tool developers choose an appropriate rewrite model for generating new descriptions based on the downstream LLM the tool will apply to. Our code is in https://github.com/HowieHwong/MetaTool.
翻訳日:2024-02-26 17:55:48 公開日:2024-02-23
# InteRACT:ロボット行動に基づく人間の意図予測のためのトランスフォーマーモデル

InteRACT: Transformer Models for Human Intent Prediction Conditioned on Robot Actions ( http://arxiv.org/abs/2311.12943v2 )

ライセンス: Link先を確認
Kushal Kedia, Atiksh Bhardwaj, Prithwish Dan, Sanjiban Choudhury(参考訳) 協調的なロボット操作では、ロボットは人間の意図を予測し、タスクを円滑に実行するために行動を調整する必要がある。 しかし、人間の意図はロボットが行う行動に依存し、鶏か卵の問題を引き起こす。 従来の手法は、そのような依存性を無視し、代わりにロボットの動作とは無関係に限界意図予測モデルを訓練する。 これは、人間とロボットのインタラクションデータセットが不足しているため、トレーニング条件モデルが難しいためです。 代わりに、よりアクセスしやすい大規模な人間と人間の対話データを活用することができるだろうか? 私たちの重要な洞察は、人間とロボットのアクションの対応を利用して、人間からロボットデータへの学習の転送を可能にすることです。 InteRACTという,大規模人文データセットの条件付き意図予測モデルと小型人文ロボットデータセットの微細構造を事前学習するアーキテクチャを提案する。 我々は,実世界の人間とロボットの協調操作タスクについて評価し,条件モデルが様々な限界ベースラインに対して改善することを示す。 また,7自由度ロボットアームを遠隔操作し,多種多様な人間とロボットの協調操作データを収集する新しい技術を導入する。

In collaborative human-robot manipulation, a robot must predict human intents and adapt its actions accordingly to smoothly execute tasks. However, the human's intent in turn depends on actions the robot takes, creating a chicken-or-egg problem. Prior methods ignore such inter-dependency and instead train marginal intent prediction models independent of robot actions. This is because training conditional models is hard given a lack of paired human-robot interaction datasets. Can we instead leverage large-scale human-human interaction data that is more easily accessible? Our key insight is to exploit a correspondence between human and robot actions that enables transfer learning from human-human to human-robot data. We propose a novel architecture, InteRACT, that pre-trains a conditional intent prediction model on large human-human datasets and fine-tunes on a small human-robot dataset. We evaluate on a set of real-world collaborative human-robot manipulation tasks and show that our conditional model improves over various marginal baselines. We also introduce new techniques to tele-operate a 7-DoF robot arm and collect a diverse range of human-robot collaborative manipulation data, which we open-source.
翻訳日:2024-02-26 17:49:49 公開日:2024-02-23
# スプリット演算型コヒーレンス熱場ダイナミクスからの有限温度ビブロニックスペクトル

Finite-temperature vibronic spectra from the split-operator coherence thermofield dynamics ( http://arxiv.org/abs/2311.10004v2 )

ライセンス: Link先を確認
Zhan Tong Zhang, Ji\v{r}\'i J. L. Van\'i\v{c}ek(参考訳) 本研究では,コヒーレンス熱場力学を用いて有限温度での振動分解電子スペクトルの評価を行う。 この方法では、コヒーレンスのためにフォン・ノイマン方程式を解くアルゴリズムを実装することを避けるため、熱振動アンサンブルを拡張空間内の純粋な状態のウェーブパケットにまずマッピングし、次に分割演算フーリエ法を用いて、標準のゼロ温度シュリンガー方程式を解くことにより、このウェーブパケットを伝播させる。 モースポテンシャルにおけるコヒーレンス熱場ダイナミクスを用いて得られる有限温度スペクトルは、ボルツマンによる個々の振動レベルのスペクトルの計算と正確に一致することを示す。 フルテンソル積格子上のスプリット演算子熱場ダイナミクスは低次元系に制限されるため、ゼロ温度分割演算フーリエ法のために開発された様々な技術により、アクセス可能な次元がどのように増大するかを簡単に議論する。

We present a numerically exact approach for evaluating vibrationally resolved electronic spectra at finite temperatures using the coherence thermofield dynamics. In this method, which avoids implementing an algorithm for solving the von Neumann equation for coherence, the thermal vibrational ensemble is first mapped to a pure-state wavepacket in an augmented space, and this wavepacket is then propagated by solving the standard, zero-temperature Schr\"odinger equation with the split-operator Fourier method. We show that the finite-temperature spectra obtained with the coherence thermofield dynamics in a Morse potential agree exactly with those computed by Boltzmann-averaging the spectra of individual vibrational levels. Because the split-operator thermofield dynamics on a full tensor-product grid is restricted to low-dimensional systems, we briefly discuss how the accessible dimensionality can be increased by various techniques developed for the zero-temperature split-operator Fourier method.
翻訳日:2024-02-26 17:49:18 公開日:2024-02-23
# 大規模言語モデルの識別能力

Disinformation Capabilities of Large Language Models ( http://arxiv.org/abs/2311.08838v2 )

ライセンス: Link先を確認
Ivan Vykopal, Mat\'u\v{s} Pikuliak, Ivan Srba, Robert Moro, Dominik Macko, Maria Bielikova(参考訳) 自動偽情報生成は、大きな言語モデル(LLM)に関連する重要なリスクとしてしばしば挙げられる。 情報空間を偽情報コンテンツで溢れさせる理論的能力は、世界中の社会に劇的な影響を与えるかもしれない。 本稿では,英語で偽ニュース記事を生成するための現世代のllmの誤情報機能に関する包括的研究を行う。 本研究では,20種類の偽情報を用いた10 llmの能力評価を行った。 LLMのいくつかの側面として,ニュース記事の生成がいかに優れているか,偽情報物語に強く同意するか,反対する傾向があるか,安全警告の発生頻度などを評価した。 また,これらの項目をllm生成として検出する検出モデルの能力についても評価した。 LLMは、危険な偽情報の物語に一致する説得力のあるニュース記事を生成することができると結論付けている。

Automated disinformation generation is often listed as an important risk associated with large language models (LLMs). The theoretical ability to flood the information space with disinformation content might have dramatic consequences for societies around the world. This paper presents a comprehensive study of the disinformation capabilities of the current generation of LLMs to generate false news articles in the English language. In our study, we evaluated the capabilities of 10 LLMs using 20 disinformation narratives. We evaluated several aspects of the LLMs: how good they are at generating news articles, how strongly they tend to agree or disagree with the disinformation narratives, how often they generate safety warnings, etc. We also evaluated the abilities of detection models to detect these articles as LLM-generated. We conclude that LLMs are able to generate convincing news articles that agree with dangerous disinformation narratives.
翻訳日:2024-02-26 17:48:55 公開日:2024-02-23
# 逆選好最適化

Adversarial Preference Optimization ( http://arxiv.org/abs/2311.08045v3 )

ライセンス: Link先を確認
Pengyu Cheng, Yifan Yang, Jian Li, Yong Dai, Tianhao Hu, Peixin Cao, Nan Du(参考訳) 大きな言語モデル(LLM)の相互作用品質を改善するためには、人間の嗜好の調整が不可欠である。 既存のアライメント手法は、LLM最適化方向を導くために手動でアノテートされた好みデータに依存する。 しかし, LLMを継続的に更新すると, モデル生成サンプルと人間優先応答との分布ギャップが増大し, モデル微調整効率が低下する。 この問題を軽減するために、以前の手法では、大量のアノテーションリソースを消費するシフト分布に適応するために、生成されたサンプルに追加の優先アノテーションを必要とする。 より効率的な人間の選好最適化を目標とし,LLMエージェントと選好モデルが代わりにmin-maxゲームを介して更新されるような,逆選好最適化(APO)フレームワークを提案する。 追加のアノテーションがなければ、APO法は逆学習プロセスを通じて生成分布ギャップに自己適応することができる。 包括的実験により,APOは補助性と無害性の観点から,ベースライン手法のアライメント性能をさらに向上することがわかった。 コードはhttps://github.com/Linear95/APOにある。

Human preference alignment is essential to improve the interaction quality of large language models (LLMs). Existing aligning methods depend on manually annotated preference data to guide the LLM optimization directions. However, in practice, continuously updating LLMs raises a distribution gap between model-generated samples and human-preferred responses, which hinders model fine-tuning efficiency. To mitigate this issue, previous methods require additional preference annotation on generated samples to adapt the shifted distribution, which consumes a large amount of annotation resources. Targeting more efficient human preference optimization, we propose an adversarial preference optimization (APO) framework, where the LLM agent and the preference model update alternatively via a min-max game. Without additional annotation, our APO method can make a self-adaption to the generation distribution gap through the adversarial learning process. Based on comprehensive experiments, we find APO further enhances the alignment performance of baseline methods in terms of helpfulness and harmlessness. The code is at https://github.com/Linear95/APO.
翻訳日:2024-02-26 17:48:43 公開日:2024-02-23
# 退化フェルミ気体のアンダーソン局在に関する拡散から何が学べるか。

What can we learn from diffusion about Anderson localization of a degenerate Fermi gas? ( http://arxiv.org/abs/2311.07505v2 )

ライセンス: Link先を確認
Sian Barbosa, Maximilian Kiefer-Emmanouilidis, Felix Lang, Jennifer Koch, Artur Widera(参考訳) 障害はシステムの輸送特性を根本的に変更することができる。 顕著な例はアンダーソン局在であり、伝播経路の破壊的干渉による輸送を抑制する。 不均一多体系では、全ての粒子が有限強度障害に局在しているわけではなく、系は部分的に拡散しうる。 このような拡散から局所化の複雑なシグネチャを解くことは長年の問題である。 ここでは、光スペックルパターンによって形成される障害電位において、縮退したスピン偏極フェルミガスを実験的に研究する。 外部拘束電位から解放された場合の無秩序電位の拡散を記録する。 本研究では, 吸収画像統計量の評価による粒子ダイナミックスを捉えた新しい手法を含む, 種々の密度分布解析法を比較した。 拡散指数や係数、局所分数、局在長といった標準観測値を用いて、臨界障害強度を超える局在への遷移のシグネチャを示すものもあれば、修正された拡散レジームへの滑らかなクロスオーバーを示すものもある。 側方変位障害では、異なる輸送体制を同時に解決し、弱局在化を期待するサブ拡散指数を抽出することができる。 本研究は,システムの拡散を詳細に解析し,指数関数的に減衰する密度分布のシグネチャを超えて局所化効果を明らかにすることにより,局在化への遷移を検証できることを強調する。

Disorder can fundamentally modify the transport properties of a system. A striking example is Anderson localization, suppressing transport due to destructive interference of propagation paths. In inhomogeneous many-body systems, not all particles are localized for finite-strength disorder, and the system can become partially diffusive. Unravelling the intricate signatures of localization from such observed diffusion is a long-standing problem. Here, we experimentally study a degenerate, spin-polarized Fermi gas in a disorder potential formed by an optical speckle pattern. We record the diffusion in the disordered potential upon release from an external confining potential. We compare different methods to analyze the resulting density distributions, including a new method to capture particle dynamics by evaluating absorption-image statistics. Using standard observables, such as diffusion exponent and coefficient, localized fraction, or localization length, we find that some show signatures for a transition to localization above a critical disorder strength, while others show a smooth crossover to a modified diffusion regime. In laterally displaced disorder, we spatially resolve different transport regimes simultaneously which allows us to extract the subdiffusion exponent expected for weak localization. Our work emphasizes that the transition toward localization can be investigated by closely analyzing the system's diffusion, offering ways of revealing localization effects beyond the signature of exponentially decaying density distribution.
翻訳日:2024-02-26 17:48:10 公開日:2024-02-23
# AMBER:MLLMの幻覚評価のためのLLMフリー多次元ベンチマーク

AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination Evaluation ( http://arxiv.org/abs/2311.07397v2 )

ライセンス: Link先を確認
Junyang Wang, Yuhang Wang, Guohai Xu, Jing Zhang, Yukai Gu, Haitao Jia, Jiaqi Wang, Haiyang Xu, Ming Yan, Ji Zhang, Jitao Sang(参考訳) マルチモーダルタスクの大幅な進歩にもかかわらず、現在のMulti-modal Large Language Models (MLLM) は幻覚の重大な課題に遭遇し、有害な結果をもたらす可能性がある。 したがって、MLLMの幻覚を評価することは、モデルの改善と実践的なアプリケーション展開においてますます重要になっている。 従来の作業は、高い評価コスト(例えば、人間や高度なllmに依存する)と不十分な評価次元(例えば、タスクの種類や幻覚)で制限されている。 本稿では, LLMフリーな多次元ベンチマークAMBERを提案し, 生成タスクと, 存在, 属性, 関係幻覚を含む識別タスクの両方を評価する。 AMBERに基づいて低コストで効率的な評価パイプラインを設計する。 また, GPT-4V(ision)を含むMLLMの総合的評価と詳細な分析を行い, 幻覚の緩和のためのガイドラインを提案する。 AMBERのデータとコードはhttps://github.com/junyangwang0410/AMBERで入手できる。

Despite making significant progress in multi-modal tasks, current Multi-modal Large Language Models (MLLMs) encounter the significant challenge of hallucinations, which may lead to harmful consequences. Therefore, evaluating MLLMs' hallucinations is becoming increasingly important in model improvement and practical application deployment. Previous works are limited in high evaluation costs (e.g., relying on humans or advanced LLMs) and insufficient evaluation dimensions (e.g., types of tasks and hallucinations). In this paper, we propose an LLM-free multi-dimensional benchmark AMBER, which can be used to evaluate both generative task and discriminative task including existence, attribute and relation hallucination. Based on AMBER, we design a low-cost and efficient evaluation pipeline. Additionally, we conduct a comprehensive evaluation and detailed analysis of mainstream MLLMs including GPT-4V(ision), and also give guideline suggestions for mitigating hallucinations. The data and code of AMBER are available at https://github.com/junyangwang0410/AMBER.
翻訳日:2024-02-26 17:47:47 公開日:2024-02-23
# スピンオプティカル量子コンピューティングアーキテクチャ

A Spin-Optical Quantum Computing Architecture ( http://arxiv.org/abs/2311.05605v3 )

ライセンス: Link先を確認
Gr\'egoire de Gliniasty and Paul Hilaire and Pierre-Emmanuel Emeriau and Stephen C. Wein and Alexia Salavrakos and Shane Mansfield(参考訳) フォールトトレラント量子コンピューティング用に設計された適応性とモジュール型ハイブリッドアーキテクチャを提案する。 量子エミッタと線形光学的絡み合いゲートを組み合わせることで、物質ベースとフォトニックベースの両方のアプローチの強みを活用できる。 アーキテクチャの重要な特徴は実用性であり、実験的に証明された光学部品の利用に基づいている。 このフレームワークは量子誤り訂正コードの実行を可能にするが、特に遠距離光リンクによる非局所接続を活用し、低密度パリティチェックコードのスケーラビリティを維持している。 その効率を評価するために,物理的モチベーションの誤差モデルを用いてアーキテクチャを評価した。 既存の全フォトニックアーキテクチャに匹敵するロス耐性を示すが、従来のリソース集約型多重化に依存する複雑な線形オプティカルリソース状態生成モジュールは不要である。 アーキテクチャの汎用性は、さらなるパフォーマンス標準を向上するための、未知の道も提供します。

We introduce an adaptable and modular hybrid architecture designed for fault-tolerant quantum computing. It combines quantum emitters and linear-optical entangling gates to leverage the strength of both matter-based and photonic-based approaches. A key feature of the architecture is its practicality, grounded in the utilisation of experimentally proven optical components. Our framework enables the execution of any quantum error correcting code, but in particular maintains scalability for low-density parity check codes by exploiting built-in non-local connectivity through distant optical links. To gauge its efficiency, we evaluated the architecture using a physically motivated error model. It exhibits loss tolerance comparable to existing all-photonic architecture but without the need for intricate linear-optical resource-state-generation modules that conventionally rely on resource-intensive multiplexing. The versatility of the architecture also offers uncharted avenues for further advancing performance standards.
翻訳日:2024-02-26 17:47:31 公開日:2024-02-23
# 思考のすべて:思考生成のためのペンローズ三角形の法則の否定

Everything of Thoughts: Defying the Law of Penrose Triangle for Thought Generation ( http://arxiv.org/abs/2311.04254v3 )

ライセンス: Link先を確認
Ruomeng Ding, Chaoyun Zhang, Lu Wang, Yong Xu, Minghua Ma, Wei Zhang, Si Qin, Saravan Rajmohan, Qingwei Lin and Dongmei Zhang(参考訳) 大規模言語モデル(LLM)の最近の進歩は、複雑な問題をより管理可能な言語シーケンスに分割することで、意思決定に革命をもたらした。 効果的な思考設計は、パフォーマンス、効率、柔軟性の3つの重要な観点を考慮するべきです。 しかし、現存する思想には2つの属性がある。 これらの制約に対処するため,既存の思考パラダイムの「ペンローズ三角形」の法則に反する「思考のすべて」と呼ばれる新しい思考促進手法を導入する。 XoTは、事前訓練された強化学習とモンテカルロ木探索(MCTS)を活用して、外部のドメイン知識を思考に組み込むことにより、LLMの能力を向上し、問題の発見を効率的に一般化できるようにする。 MCTS-LLM協調思考修正フレームワークの利用により、最小限のLLM相互作用を伴う高品質な包括的認知マッピングを自律的に作成する。 さらに、XoTはLLMに制約のない思考を強制し、複数のソリューションの問題に対する柔軟な認知マッピングを可能にする。 我々は,ゲーム24,8-Puzzle,Pocket Cubeなど,難解な複数解問題に対するXoTの評価を行った。 以上の結果から,XoTは既存手法よりも大幅に優れていた。 特に、XoT は 1 つの LLM コールで複数のソリューションを生成できるため、様々な領域にまたがる複雑な問題に対処する卓越した能力を示している。

Recent advancements in Large Language Models (LLMs) have revolutionized decision-making by breaking down complex problems into more manageable language sequences referred to as "thoughts". An effective thought design should consider three key perspectives: performance, efficiency, and flexibility. However, existing thought can at most exhibit two of these attributes. To address these limitations, we introduce a novel thought prompting approach called "Everything of Thoughts" (XoT) to defy the law of "Penrose triangle of existing thought paradigms. XoT leverages pretrained reinforcement learning and Monte Carlo Tree Search (MCTS) to incorporate external domain knowledge into thoughts, thereby enhancing LLMs' capabilities and enabling them to generalize to unseen problems efficiently. Through the utilization of the MCTS-LLM collaborative thought revision framework, this approach autonomously produces high-quality comprehensive cognitive mappings with minimal LLM interactions. Additionally, XoT empowers LLMs to engage in unconstrained thinking, allowing for flexible cognitive mappings for problems with multiple solutions. We evaluate XoT on several challenging multi-solution problem-solving tasks, including Game of 24, 8-Puzzle, and Pocket Cube. Our results demonstrate that XoT significantly outperforms existing approaches. Notably, XoT can yield multiple solutions with just one LLM call, showcasing its remarkable proficiency in addressing complex problems across diverse domains.
翻訳日:2024-02-26 17:47:16 公開日:2024-02-23
# ガウス井戸の弱結合状態:重陽子の結合エネルギーから量子ドットの電子構造へ

The Weakly Bound States in Gaussian Wells: From the Binding Energy of Deuteron to the Electronic Structure of Quantum Dots ( http://arxiv.org/abs/2311.03404v2 )

ライセンス: Link先を確認
G. Rodriguez-Espejo, J. Segura-Landa, J. Ortiz-Monfil and D. J. Nader(参考訳) ガウスポテンシャルは、原子核物理学から量子ドット内の電子の人工的な閉じ込めまで、短距離相互作用の包括的なモデリングに有用な道具である。 本研究は,ガウス井戸内の最低状態,特に弱結合状態に着目して検討することに焦点を当てた。 解析は、小距離と大距離の両方における厳密な波動関数の漸近的挙動に分解し、局所的に正確で高速な収束基底集合に導く数パラメトリックなアンサッツの開発を動機付ける。 有効性を検証するため,核物理学のトイモデル,特にDeuteronを用いて収束率を評価する。 さらに, 等価パラメータが臨界値に近づくにつれて精度が向上する重陽子の結合エネルギーの解析式を導出するために, しきい値に近いエネルギーの膨張を利用する。 本研究の結論として,2電子量子ドットの電子構造探索におけるアンザッツの軌道としての性能を評価する。

Gaussian potentials serve as a valuable tool for the comprehensive modeling of short-range interactions, spanning applications from nuclear physics to the artificial confinement of electrons within quantum dots. This study focuses on examining the lowest states within Gaussian wells, with particular emphasis on the weakly bound regime. The analysis delves into the asymptotic behavior of the exact wave function at both small and large distances, motivating the development of a few-parametric Ansatz which is locally accurate and yields to a fast convergent basis set. To validate its efficacy, we assess its convergence rate using a toy model of Nuclear Physics, specifically for Deuteron. Furthermore, we employ the expansion of the energy close to the threshold to derive an analytical formula for the binding energy of the deuteron whose accuracy improves as the effective parameter approaches the critical. In concluding our investigation, we evaluate the performance of our Ansatz as an orbital in the exploration of the electronic structure of a two-electron quantum dot.
翻訳日:2024-02-26 17:46:50 公開日:2024-02-23
# 複数力学系学習における連立問題

Joint Problems in Learning Multiple Dynamical Systems ( http://arxiv.org/abs/2311.02181v2 )

ライセンス: Link先を確認
Mengjia Niu and Xiaoyu He and Petr Ry\v{s}av\'y and Quan Zhou and Jakub Marecek(参考訳) 時系列のクラスタリングはよく研究された問題であり、代謝物濃度から得られた代謝の量的、パーソナライズされたモデルから量子情報理論における状態識別まで応用されている。 我々は,一組のトラジェクトリと複数のパーツを与えられた場合,各パーツのトラジェクトリと線形力学系(LDS)モデルを共同で分割し,全てのモデルにおける最大誤差を最小化するために検討する。 我々は,計算結果の有望性を伴い,グローバル収束法とemヒューリスティックスを提案する。

Clustering of time series is a well-studied problem, with applications ranging from quantitative, personalized models of metabolism obtained from metabolite concentrations to state discrimination in quantum information theory. We consider a variant, where given a set of trajectories and a number of parts, we jointly partition the set of trajectories and learn linear dynamical system (LDS) models for each part, so as to minimize the maximum error across all the models. We present globally convergent methods and EM heuristics, accompanied by promising computational results.
翻訳日:2024-02-26 17:46:32 公開日:2024-02-23
# 医療における創造的人工知能 : 倫理的考察と評価チェックリスト

Generative Artificial Intelligence in Healthcare: Ethical Considerations and Assessment Checklist ( http://arxiv.org/abs/2311.02107v2 )

ライセンス: Link先を確認
Yilin Ning, Salinelat Teixayavong, Yuqing Shang, Julian Savulescu, Vaishaanth Nagaraj, Di Miao, Mayli Mertens, Daniel Shu Wei Ting, Jasmine Chiat Ling Ong, Mingxuan Liu, Jiuwen Cao, Michael Dunn, Roger Vaughan, Marcus Eng Hock Ong, Joseph Jao-Yiu Sung, Eric J Topol, Nan Liu(参考訳) 生成人工知能(GenAI)を利用したChatGPTやその他の新興技術の普及は、特に医療などの高度な応用において、潜在的な倫理的問題に多くの注意を払っている。 さらに、進行中の倫理的議論は、研究や実践目的のためにデータ(例えば画像)を合成するために使われてきた他の種類のGenAIを無視し、倫理的な問題を解決し、他を露出させることが多い。 我々は、現在の研究におけるギャップを包括的に分析するために、医療におけるGenAIに関する倫理的議論のスコーピングレビューを行い、また、GenAI研究における倫理的議論の総合的な評価のためのチェックリストと透明な文書を作成することにより、ギャップを減らすことを提案する。 チェックリストは、GenAI研究を強化するために、現在のピアレビューおよび出版システムに簡単に統合することができ、GenAI搭載製品の倫理関連の開示、これらの製品の医療応用などに使われる。

The widespread use of ChatGPT and other emerging technology powered by generative artificial intelligence (GenAI) has drawn much attention to potential ethical issues, especially in high-stakes applications such as healthcare, but ethical discussions are yet to translate into operationalisable solutions. Furthermore, ongoing ethical discussions often neglect other types of GenAI that have been used to synthesise data (e.g., images) for research and practical purposes, which resolved some ethical issues and exposed others. We conduct a scoping review of ethical discussions on GenAI in healthcare to comprehensively analyse gaps in the current research, and further propose to reduce the gaps by developing a checklist for comprehensive assessment and transparent documentation of ethical discussions in GenAI research. The checklist can be readily integrated into the current peer review and publication system to enhance GenAI research, and may be used for ethics-related disclosures for GenAI-powered products, healthcare applications of such products and beyond.
翻訳日:2024-02-26 17:46:22 公開日:2024-02-23
# 強化学習のための拡散モデル:調査

Diffusion Models for Reinforcement Learning: A Survey ( http://arxiv.org/abs/2311.01223v4 )

ライセンス: Link先を確認
Zhengbang Zhu, Hanye Zhao, Haoran He, Yichao Zhong, Shenyu Zhang, Haoquan Guo, Tingting Chen, Weinan Zhang(参考訳) 拡散モデルは、サンプル品質とトレーニング安定性において、以前の生成モデルを超える。 最近の研究は、強化学習(RL)ソリューションの改善における拡散モデルの利点を示している。 この調査は、この新興分野の概要を提供し、新たな研究の道を開くことを目的としている。 まず,RLアルゴリズムが抱えるいくつかの課題について検討する。 次に, rlにおける拡散モデルの役割に基づく既存手法の分類を行い, 今後の課題について考察する。 さらに,様々なRL関連タスクにおける拡散モデルの適用について概説する。 最後に,調査を終了し,今後の研究方向性に関する洞察を提供する。 rlの拡散モデルを利用するため、論文やその他の関連リソースのためのgithubリポジトリを積極的にメンテナンスしています。

Diffusion models surpass previous generative models in sample quality and training stability. Recent works have shown the advantages of diffusion models in improving reinforcement learning (RL) solutions. This survey aims to provide an overview of this emerging field and hopes to inspire new avenues of research. First, we examine several challenges encountered by RL algorithms. Then, we present a taxonomy of existing methods based on the roles of diffusion models in RL and explore how the preceding challenges are addressed. We further outline successful applications of diffusion models in various RL-related tasks. Finally, we conclude the survey and offer insights into future research directions. We are actively maintaining a GitHub repository for papers and other related resources in utilizing diffusion models in RL: https://github.com/apexrl/Diff4RLSurvey.
翻訳日:2024-02-26 17:46:03 公開日:2024-02-23
# 消散アンシラによる量子電池の定常充電

Steady-state charging of quantum batteries via dissipative ancillas ( http://arxiv.org/abs/2310.17174v3 )

ライセンス: Link先を確認
F. H. Kamin, S. Salimi and M. B. Arjmandi(参考訳) 量子ビットのNセル星ネットワークに埋め込まれた単一セル量子電池の定常帯電過程について検討し、それぞれがフェルミオン貯水池と相互作用し、それぞれ平衡シナリオと非平衡シナリオを個別に行う。 両シナリオで最適な定常電荷が得られ、貯水池の化学的ポテンシャルと化学的ポテンシャルの差により単調に成長する。 貯水池の高温は、全てのパラメーター状態において破壊的な役割を果たす。 非平衡状態の強度にかかわらず、電池の対応する貯水池の高塩基性化学ポテンシャルは帯電過程を著しく向上できることを示す。 一方、弱い結合強度は帯電を強く抑制することができる。 その結果, 自己放電による有害な効果に対処でき, 外部充電場がない場合に, オープン量子電池の安定充電性を高めるための貴重なガイドラインを提供することができた。

We investigate the steady-state charging process of a single-cell quantum battery embedded in an N-cell star network of qubits, each interacting with a fermion reservoir, collectively and individually in equilibrium and non-equilibrium scenarios, respectively. We find an optimal steady-state charging in both scenarios, which grows monotonically with the reservoirs' chemical potential and chemical potential difference. Where the high base temperature of the reservoirs has a destructive role in all parameter regimes. We indicate that regardless of the strength of the non-equilibrium condition, the high base chemical potential of the battery's corresponding reservoir can significantly enhance the charging process. On the other hand, a weak coupling strength can strongly suppress the charging. Consequently, our results could counteract the detrimental effects of self-discharging and provide valuable guidelines for enhancing the stable charging of open quantum batteries in the absence of an external charging field.
翻訳日:2024-02-26 17:45:54 公開日:2024-02-23
# 神経因果抽象化

Neural Causal Abstractions ( http://arxiv.org/abs/2401.02602v2 )

ライセンス: Link先を確認
Kevin Xia, Elias Bareinboim(参考訳) 原因と効果の関係から世界を理解する能力と、情報を抽象概念に圧縮する能力は、人間の知性の2つの特徴である。 これら2つのトピックは、因果抽象理論のルーブリックの下で、文献のタンデムで研究されている。 実際には、実際の因果推論タスクにおいて、真のメカニズムが不明で限られたデータしか利用できない抽象理論を最大限に活用する方法は、未解決の問題である。 本稿では,変数とそのドメインをクラスタリングすることで,新たな因果抽象のファミリーを構築する。 このアプローチは、パールの因果階層が生み出す個々の因果分布をよりよく適応するために、従来の抽象概念を洗練・一般化する。 このような抽象化は,神経因果モデル(xia et al., 2021)を通じて実践的な環境で学習可能であることを示し,さまざまな粒度レベルにおいて,さまざまな難解な因果推論タスク - 同定,推定,サンプリング -- を解決するためのディープラーニングツールキットの利用を可能にした。 最後に,これらの結果を表現学習と統合することで,より柔軟な抽象化を実現します。 本実験は、画像データを含む高次元設定に因果推論をスケールする方法を説明する。

The abilities of humans to understand the world in terms of cause and effect relationships, as well as to compress information into abstract concepts, are two hallmark features of human intelligence. These two topics have been studied in tandem in the literature under the rubric of causal abstractions theory. In practice, it remains an open problem how to best leverage abstraction theory in real-world causal inference tasks, where the true mechanisms are unknown and only limited data is available. In this paper, we develop a new family of causal abstractions by clustering variables and their domains. This approach refines and generalizes previous notions of abstractions to better accommodate individual causal distributions that are spawned by Pearl's causal hierarchy. We show that such abstractions are learnable in practical settings through Neural Causal Models (Xia et al., 2021), enabling the use of the deep learning toolkit to solve various challenging causal inference tasks -- identification, estimation, sampling -- at different levels of granularity. Finally, we integrate these results with representation learning to create more flexible abstractions, moving these results closer to practical applications. Our experiments support the theory and illustrate how to scale causal inferences to high-dimensional settings involving image data.
翻訳日:2024-02-26 17:41:05 公開日:2024-02-23
# 古代中国語翻訳におけるChatGPTの機能探索と人名認識

Exploring the Capabilities of ChatGPT in Ancient Chinese Translation and Person Name Recognition ( http://arxiv.org/abs/2312.15304v2 )

ライセンス: Link先を確認
Shijing Si, Siqing Zhou, Le Tang, Xiaoqing Cheng, Yugui Zhang(参考訳) ChatGPTの現代標準言語を扱う能力は、古代中国語を理解するのにその可能性を示している。 本稿では,古代中国語から現代中国語への翻訳と古代中国語の認識という,古代中国語におけるChatGPTの能力について考察する。 ChatGPTの出力と人間の翻訳を比較することは、古代中国語の理解を評価するのに役立つ。 その結果, (1.) ChatGPTによる古代中国語の習熟度はまだ満足のいくレベルに達しておらず, (2.) ChatGPTは3つの文脈文を摂食する際に, 現代語訳において最善を尽くしていることがわかった。 この研究で使われているpythonのコードスニペットを表示します。

ChatGPT's proficiency in handling modern standard languages suggests potential for its use in understanding ancient Chinese. This paper explores ChatGPT's capabilities on ancient Chinese via two tasks: translating ancient Chinese to modern Chinese and recognizing ancient Chinese names. A comparison of ChatGPT's output with human translations serves to evaluate its comprehension of ancient Chinese. The findings indicate that: (1.)the proficiency of ancient Chinese by ChatGPT is yet to reach a satisfactory level; (2.) ChatGPT performs the best on ancient-to-modern translation when feeding with three context sentences. To help reproduce our work, we display the python code snippets used in this study.
翻訳日:2024-02-26 17:40:38 公開日:2024-02-23
# 森林自動在庫:3次元深層学習による高密度空中LiDAR点雲の解析

Automated forest inventory: analysis of high-density airborne LiDAR point clouds with 3D deep learning ( http://arxiv.org/abs/2312.15084v2 )

ライセンス: Link先を確認
Binbin Xiang and Maciej Wielgosz and Theodora Kontogianni and Torben Peters and Stefano Puliti and Rasmus Astrup and Konrad Schindler(参考訳) 詳細な森林在庫は、森林資源の持続的かつ柔軟な管理、様々な生態系の維持に不可欠である。 現代の空中レーザースキャナーは、高密度の点雲を微細な森林の在庫と分析に大いに活用するが、点雲を個々の木や木の構成要素のような有意義な実体に自動的に分割することは課題である。 本研究では,このギャップを埋めることを目的として,多種多様な森林タイプや地理的領域にまたがるセグメンテーションを実現する,ForAINetと呼ばれるディープラーニングフレームワークを導入する。 区分けされたデータから、個々の木の生物物理学的パラメータとスタンドを導出する。 このシステムは、調査ドローンを使って5つの国で買収されたポイントクラウドのデータセットであるfor-instanceでテストされている。 セグメンテーションのバックエンドは、各木の85%以上のFスコアを達成しており、それぞれ73%以上は、地上、低植生、茎、生きた枝、枯れた枝の5つの意味カテゴリーでIoUの平均値である。 セグメンテーションの結果に基づいて、パイプラインは個々の木の生物物理特性(直径、クラウン径、クラウン体積、dbh、位置)とスタンドごとの特性(デジタル地形モデルとスタンド密度)を密に計算します。 特にクラウン関連の特徴は,ほとんどの場合高い精度で回収されるが,DBHと位置推定の信頼性は低い。

Detailed forest inventories are critical for sustainable and flexible management of forest resources, to conserve various ecosystem services. Modern airborne laser scanners deliver high-density point clouds with great potential for fine-scale forest inventory and analysis, but automatically partitioning those point clouds into meaningful entities like individual trees or tree components remains a challenge. The present study aims to fill this gap and introduces a deep learning framework, termed ForAINet, that is able to perform such a segmentation across diverse forest types and geographic regions. From the segmented data, we then derive relevant biophysical parameters of individual trees as well as stands. The system has been tested on FOR-Instance, a dataset of point clouds that have been acquired in five different countries using surveying drones. The segmentation back-end achieves over 85% F-score for individual trees, respectively over 73% mean IoU across five semantic categories: ground, low vegetation, stems, live branches and dead branches. Building on the segmentation results our pipeline then densely calculates biophysical features of each individual tree (height, crown diameter, crown volume, DBH, and location) and properties per stand (digital terrain model and stand density). Especially crown-related features are in most cases retrieved with high accuracy, whereas the estimates for DBH and location are less reliable, due to the airborne scanning setup.
翻訳日:2024-02-26 17:40:16 公開日:2024-02-23
# 構造化確率符号化

Structured Probabilistic Coding ( http://arxiv.org/abs/2312.13933v4 )

ライセンス: Link先を確認
Dou Hu, Lingwei Wei, Yaxin Liu, Wei Zhou, Songlin Hu(参考訳) 本稿では,対象タスクに関連する入力からコンパクトで情報的な表現を学ぶための新しい教師あり表現学習フレームワークであるstructured probabilistic coding (spc)を提案する。 SPCはエンコーダのみの確率的符号化技術であり、ターゲット空間から構造化正規化される。 事前訓練された言語モデルの一般化能力を高め、言語理解を向上させることができる。 具体的には,1つのモジュールで情報符号化とタスク予測を同時に行い,入力データから有効な情報をより完全に活用する。 出力空間における変分推論を用いてランダム性と不確実性を低減する。 さらに、確率的表現の学習過程をよりよく制御するために、潜在空間におけるクラス間の均一性を促進するために構造化正規化を提案する。 正規化項により、spcは潜在コードのガウス構造を保存でき、クラスが一様である隠れ空間をよりよくカバーすることができる。 12の自然言語理解タスクに関する実験結果から,SPCが事前学習した言語モデルの性能を効果的に向上することが示された。 大規模な実験により、SPCは出力表現の一般化能力、ラベルノイズに対する堅牢性、クラスタリング品質を向上させることができることが示された。

This paper presents a new supervised representation learning framework, namely structured probabilistic coding (SPC), to learn compact and informative representations from input related to the target task. SPC is an encoder-only probabilistic coding technology with a structured regularization from the target space. It can enhance the generalization ability of pre-trained language models for better language understanding. Specifically, our probabilistic coding simultaneously performs information encoding and task prediction in one module to more fully utilize the effective information from input data. It uses variational inference in the output space to reduce randomness and uncertainty. Besides, to better control the learning process of probabilistic representations, a structured regularization is proposed to promote uniformity across classes in the latent space. With the regularization term, SPC can preserve the Gaussian structure of the latent code and achieve better coverage of the hidden space with class uniformly. Experimental results on 12 natural language understanding tasks demonstrate that our SPC effectively improves the performance of pre-trained language models for classification and regression. Extensive experiments show that SPC can enhance the generalization capability, robustness to label noise, and clustering quality of output representations.
翻訳日:2024-02-26 17:39:46 公開日:2024-02-23
# 負の蒸留による極端に騒がしい顧客によるフェデレーション学習

Federated Learning with Extremely Noisy Clients via Negative Distillation ( http://arxiv.org/abs/2312.12703v2 )

ライセンス: Link先を確認
Yang Lu, Lin Chen, Yonggang Zhang, Yiliang Zhang, Bo Han, Yiu-ming Cheung, Hanzi Wang(参考訳) 連合学習 (federated learning, fl) は、一般的にノイズの多いラベルに苦しむ一方で、深層モデルの協調訓練において顕著な成功を示している。 先進的な研究は、弱いラベルノイズという強い仮定を持つ再重み付け戦略によってラベルノイズに取り組むことを提案する。 しかし、多くの現実世界のFLシナリオでは、高度に汚染されたクライアントが極端なノイズ比(例えば$>90%)をもたらすため、違反する可能性がある。 極端に騒がしいクライアントに取り組むために、我々は再重み付け戦略の堅牢性を調査し、悲観的な結論を示した: ノイズデータ上でトレーニングされたクライアントの重み付けを最小化することは再重み付け戦略を上回っている。 ノイズの多いクライアントで訓練されたモデルを活用するために,負蒸留(FedNed)と呼ばれる新しい手法を提案する。 fednedはまず、騒がしいクライアントを特定し、騒がしいクライアントを知識蒸留方式で捨てる代わりに雇用する。 特に、騒がしいと特定されたクライアントは、グローバルモデルによって得られた騒がしいラベルや擬似ラベルを使ってモデルを訓練する必要がある。 ノイズラベルで訓練されたモデルは知識蒸留における「悪い教師」として機能し、誤った情報を提供するリスクを減らすことを目的としている。 一方、擬似ラベルで訓練されたモデルは、ノイズの多いクライアントとして特定されない場合、モデル集約に関与します。 その結果、FedNedは疑似ラベル付けにより、ノイズの多いクライアントで訓練されたモデルの信頼性を徐々に向上させ、負の蒸留を通じてモデル集約にすべてのクライアントを活用する。 FedNedの有効性を検証するために,FedNedはベースラインを一貫して上回り,最先端の性能を達成することができることを示す。 私たちのコードはhttps://github.com/linchen99/fednedで利用可能です。

Federated learning (FL) has shown remarkable success in cooperatively training deep models, while typically struggling with noisy labels. Advanced works propose to tackle label noise by a re-weighting strategy with a strong assumption, i.e., mild label noise. However, it may be violated in many real-world FL scenarios because of highly contaminated clients, resulting in extreme noise ratios, e.g., $>$90%. To tackle extremely noisy clients, we study the robustness of the re-weighting strategy, showing a pessimistic conclusion: minimizing the weight of clients trained over noisy data outperforms re-weighting strategies. To leverage models trained on noisy clients, we propose a novel approach, called negative distillation (FedNed). FedNed first identifies noisy clients and employs rather than discards the noisy clients in a knowledge distillation manner. In particular, clients identified as noisy ones are required to train models using noisy labels and pseudo-labels obtained by global models. The model trained on noisy labels serves as a `bad teacher' in knowledge distillation, aiming to decrease the risk of providing incorrect information. Meanwhile, the model trained on pseudo-labels is involved in model aggregation if not identified as a noisy client. Consequently, through pseudo-labeling, FedNed gradually increases the trustworthiness of models trained on noisy clients, while leveraging all clients for model aggregation through negative distillation. To verify the efficacy of FedNed, we conduct extensive experiments under various settings, demonstrating that FedNed can consistently outperform baselines and achieve state-of-the-art performance. Our code is available at https://github.com/linChen99/FedNed.
翻訳日:2024-02-26 17:39:27 公開日:2024-02-23
# 多エージェントpomdpにおけるファクタド・オンライン・プランニング

Factored Online Planning in Many-Agent POMDPs ( http://arxiv.org/abs/2312.11434v3 )

ライセンス: Link先を確認
Maris F.L. Galesloot, Thiago D. Sim\~ao, Sebastian Junges, Nils Jansen(参考訳) 集中型マルチエージェントシステムでは、しばしばマルチエージェント部分観測可能なマルコフ決定プロセス (MPOMDPs) としてモデル化され、アクションと観測空間はエージェントの数とともに指数関数的に増加し、単一エージェントのオンライン計画の価値と信念を効果的に見積もる。 事前作業は、いわゆるコーディネーショングラフを通じて、マルチエージェント設定の固有の構造を利用して、部分的に価値見積もりに取り組む。 さらに, 観測の可能性を近似値に組み込むことにより, 信念推定法が改善されている。 しかし、価値推定と信念推定の課題は個別にのみ取り組まれており、既存のメソッドが多くのエージェントで設定にスケールするのを防ぐことができる。 したがって、これらの課題を同時に解決する。 まず,MPOMDPのサンプルベースオンラインプランナに重み付き粒子フィルタリングを導入する。 第二に、我々はその信念をスケーラブルに近似する。 第3に, エージェントインタラクションの典型的な局所性を活用した手法を, スパース粒子フィルタツリー上で動作させるmpomdpsの新しいオンライン計画アルゴリズムに適用する。 いくつかの最先端のベースラインに対する実験的な評価は、(1)手法が少数のエージェントと競合し、(2)多数のエージェントが存在する場合のベースラインよりも改善されていることを示している。

In centralized multi-agent systems, often modeled as multi-agent partially observable Markov decision processes (MPOMDPs), the action and observation spaces grow exponentially with the number of agents, making the value and belief estimation of single-agent online planning ineffective. Prior work partially tackles value estimation by exploiting the inherent structure of multi-agent settings via so-called coordination graphs. Additionally, belief estimation methods have been improved by incorporating the likelihood of observations into the approximation. However, the challenges of value estimation and belief estimation have only been tackled individually, which prevents existing methods from scaling to settings with many agents. Therefore, we address these challenges simultaneously. First, we introduce weighted particle filtering to a sample-based online planner for MPOMDPs. Second, we present a scalable approximation of the belief. Third, we bring an approach that exploits the typical locality of agent interactions to novel online planning algorithms for MPOMDPs operating on a so-called sparse particle filter tree. Our experimental evaluation against several state-of-the-art baselines shows that our methods (1) are competitive in settings with only a few agents and (2) improve over the baselines in the presence of many agents.
翻訳日:2024-02-26 17:38:57 公開日:2024-02-23
# 解釈可能なオーディオタギングのための知覚音楽的特徴

Perceptual Musical Features for Interpretable Audio Tagging ( http://arxiv.org/abs/2312.11234v3 )

ライセンス: Link先を確認
Vassilis Lyberatos, Spyridon Kantarelis, Edmund Dervakos and Giorgos Stamou(参考訳) 音楽ストリーミングプラットフォームの時代において、音楽オーディオを自動的にタグ付けするタスクは大きな注目を集め、研究者は標準データセットのパフォーマンス指標を向上する手法を考案した。 最近のアプローチのほとんどがディープニューラルネットワークに依存しており、そのパフォーマンスは素晴らしいが、不透明性があり、入力に対する出力の解明が困難である。 解釈の問題は医学など他の分野でも強調されているが、音楽関連の課題には注目されていない。 本研究では,音楽の自動タグ付けにおける解釈可能性の関連について検討した。 3つの異なる情報抽出技術を組み込んだワークフローを構築した。 a) 象徴的知識の活用 ロ 補助深部神経回路網の利用、及び c) 音声ファイルから知覚的特徴を抽出するために信号処理を利用する。 これらの特徴はその後、タグ予測のための解釈可能な機械学習モデルをトレーニングするために使用された。 MTG-JamendoデータセットとGTZANデータセットの2つのデータセットについて実験を行った。 提案手法は,両タスクにおけるベースラインモデルの性能を上回っており,その場合,現状との競合性を示した。 性能劣化が解釈可能性の値によって上回っているユースケースが存在すると結論付けている。

In the age of music streaming platforms, the task of automatically tagging music audio has garnered significant attention, driving researchers to devise methods aimed at enhancing performance metrics on standard datasets. Most recent approaches rely on deep neural networks, which, despite their impressive performance, possess opacity, making it challenging to elucidate their output for a given input. While the issue of interpretability has been emphasized in other fields like medicine, it has not received attention in music-related tasks. In this study, we explored the relevance of interpretability in the context of automatic music tagging. We constructed a workflow that incorporates three different information extraction techniques: a) leveraging symbolic knowledge, b) utilizing auxiliary deep neural networks, and c) employing signal processing to extract perceptual features from audio files. These features were subsequently used to train an interpretable machine-learning model for tag prediction. We conducted experiments on two datasets, namely the MTG-Jamendo dataset and the GTZAN dataset. Our method surpassed the performance of baseline models in both tasks and, in certain instances, demonstrated competitiveness with the current state-of-the-art. We conclude that there are use cases where the deterioration in performance is outweighed by the value of interpretability.
翻訳日:2024-02-26 17:38:35 公開日:2024-02-23
# 数学的言語モデル:サーベイ

Mathematical Language Models: A Survey ( http://arxiv.org/abs/2312.07622v3 )

ライセンス: Link先を確認
Wentao Liu, Hanglei Hu, Jie Zhou, Yuyang Ding, Junsong Li, Jiayi Zeng, Mengliang He, Qin Chen, Bo Jiang, Aimin Zhou and Liang He(参考訳) 近年,Language Models (LM) の活用が目覚ましい進歩を遂げており,数学分野においてPLM (Pre-trained Language Models) とLLM (Large-scale Language Models) を包含している。 本稿では,2つの異なる視点 – タスクと方法論 – から重要な研究成果を体系的に分類する,数学的 LM の総合的な調査を行う。 ランドスケープでは、多くの数学的LLMが提案されており、さらに命令学習、ツールベースの手法、基本的なCoT技術、高度なCoT方法論に展開されている。 さらに,トレーニングデータセット,ベンチマークデータセット,拡張データセットなど,60以上の数学的データセットのコンパイルも行った。 この調査は、数学のlms分野における主要な課題と将来の軌跡を整理し、この領域の発展に投資した研究者の間で将来のイノベーションを促進・促進するための貴重な資源として位置づけられている。

In recent years, there has been remarkable progress in leveraging Language Models (LMs), encompassing Pre-trained Language Models (PLMs) and Large-scale Language Models (LLMs), within the domain of mathematics. This paper conducts a comprehensive survey of mathematical LMs, systematically categorizing pivotal research endeavors from two distinct perspectives: tasks and methodologies. The landscape reveals a large number of proposed mathematical LLMs, which are further delineated into instruction learning, tool-based methods, fundamental CoT techniques, and advanced CoT methodologies. In addition, our survey entails the compilation of over 60 mathematical datasets, including training datasets, benchmark datasets, and augmented datasets. Addressing the primary challenges and delineating future trajectories within the field of mathematical LMs, this survey is positioned as a valuable resource, poised to facilitate and inspire future innovation among researchers invested in advancing this domain.
翻訳日:2024-02-26 17:38:21 公開日:2024-02-23
# テキスト感情分類におけるラベル平滑化の役割の再検討

Revisiting the Role of Label Smoothing in Enhanced Text Sentiment Classification ( http://arxiv.org/abs/2312.06522v2 )

ライセンス: Link先を確認
Yijie Gao, Shijing Si, Hua Luo, Haixia Sun, Yugui Zhang(参考訳) ラベルスムーシングは、テキスト分類、画像分類、音声認識など、様々な領域で広く使われている技法であり、モデルオーバーフィッティングと効果的に戦うことで知られている。 しかし、ラベルの平滑化がテキストの感情分類をいかに強化するかについて、詳細な分析はほとんどない。 このギャップを埋めるために、本論文では、テキスト感情分類のための8つのデータセットと、テキストCNN、BERT、RoBERTaの3つのディープラーニングアーキテクチャについて、スクラッチからのトレーニングと微調整の2つの学習スキームに基づいて、詳細な分析を行う。 平滑化パラメータをチューニングすることで、各モデルアーキテクチャのほぼすべてのデータセットのパフォーマンスが向上する。 さらに,ラベル平滑化の利点について検討し,ラベル平滑化が深層モデルの収束を加速し,異なるラベルのサンプルを容易に識別できるようにする。

Label smoothing is a widely used technique in various domains, such as text classification, image classification and speech recognition, known for effectively combating model overfitting. However, there is little fine-grained analysis on how label smoothing enhances text sentiment classification. To fill in the gap, this article performs a set of in-depth analyses on eight datasets for text sentiment classification and three deep learning architectures: TextCNN, BERT, and RoBERTa, under two learning schemes: training from scratch and fine-tuning. By tuning the smoothing parameters, we can achieve improved performance on almost all datasets for each model architecture. We further investigate the benefits of label smoothing, finding that label smoothing can accelerate the convergence of deep models and make samples of different labels easily distinguishable.
翻訳日:2024-02-26 17:38:03 公開日:2024-02-23
# 公平であることを思い出す: 連続的な意思決定における非マルコフ的公平性

Remembering to Be Fair: Non-Markovian Fairness in Sequential Decision Making ( http://arxiv.org/abs/2312.04772v3 )

ライセンス: Link先を確認
Parand A. Alamdari, Toryn Q. Klassen, Elliot Creager, Sheila A. McIlraith(参考訳) 公正な意思決定は、主に単一の決定に関して研究されている。 本稿では,複数の利害関係者が意思決定の結果に影響を及ぼせる逐次意思決定の文脈において,公平性の概念を検討する。 公平性は逐次的な意思決定過程の歴史にしばしば依存し、この意味では本質的に非マルコフ的である。 さらに、フェアネスはプロセスの終わりに限らず、プロセス内のタイムポイントで評価される必要があることもしばしば観察します。 このような公平性問題に対する理解を深めるために, 逐次的意思決定の文脈において, 非マルコフ的公平性の概念を探求する。 非マルコフ的フェアネスの性質を同定し、長期的、時空的、周期的、有界公正の概念を含む。 我々はさらに,非マルコフ的公平性と記憶との相互作用と,これが逐次的な決定を行うための公正な政策の構築にどのように役立つかについて検討する。

Fair decision making has largely been studied with respect to a single decision. In this paper we investigate the notion of fairness in the context of sequential decision making where multiple stakeholders can be affected by the outcomes of decisions. We observe that fairness often depends on the history of the sequential decision-making process, and in this sense that it is inherently non-Markovian. We further observe that fairness often needs to be assessed at time points within the process, not just at the end of the process. To advance our understanding of this class of fairness problems, we explore the notion of non-Markovian fairness in the context of sequential decision making. We identify properties of non-Markovian fairness, including notions of long-term, anytime, periodic, and bounded fairness. We further explore the interplay between non-Markovian fairness and memory, and how this can support construction of fair policies for making sequential decisions.
翻訳日:2024-02-26 17:37:47 公開日:2024-02-23
# LLMの本質的応答傾向の分析:実世界の命令駆動ジェイルブレイク

Analyzing the Inherent Response Tendency of LLMs: Real-World Instructions-Driven Jailbreak ( http://arxiv.org/abs/2312.04127v2 )

ライセンス: Link先を確認
Yanrui Du, Sendong Zhao, Ming Ma, Yuhan Chen, Bing Qin(参考訳) 大規模言語モデル(llm)の安全性向上に多大な取り組みがなされている。 しかし、LSMは「ジェイルブレイク・アタック(Jailbreak Attack)」と呼ばれる悪質な指示に直面すると有害な反応を生じる傾向にある。 本研究では,LDMの可能性を増幅し,肯定応答を生成することにより,セキュリティ機構をバイパスする新しい自動ジェイルブレイク手法RADIALを提案する。 本手法のジェイルブレイクの考え方は,LLMを自然に誘導して肯定応答を生成できる実世界の命令を識別する「インヒーレント・レスポンス・テンデンシー・アナリティクス」であり,それに対応するジェイルブレイク戦略は「Real-World Instructions-Driven Jailbreak」である。 提案手法は,5つのオープンソースのLLMを用いて,英語の悪意のある命令に対する攻撃性能を良好に向上すると同時に,中国語の悪意のある命令に対するクロス言語攻撃の実行において堅牢な攻撃性能を維持する。 脱獄の考え方の有効性と脱獄戦略設計の合理性を検証する実験を行った。 特に,本手法は,llmの潜在的なリスクを浮き彫りにした,意味的に一貫性のある攻撃プロンプトを設計した。 我々の研究は、脱獄攻撃に関する詳細な知見を提供し、より安全なLSMの開発のための基盤を確立する。

Extensive work has been devoted to improving the safety mechanism of Large Language Models (LLMs). However, LLMs still tend to generate harmful responses when faced with malicious instructions, a phenomenon referred to as "Jailbreak Attack". In our research, we introduce a novel automatic jailbreak method RADIAL, which bypasses the security mechanism by amplifying the potential of LLMs to generate affirmation responses. The jailbreak idea of our method is "Inherent Response Tendency Analysis" which identifies real-world instructions that can inherently induce LLMs to generate affirmation responses and the corresponding jailbreak strategy is "Real-World Instructions-Driven Jailbreak" which involves strategically splicing real-world instructions identified through the above analysis around the malicious instruction. Our method achieves excellent attack performance on English malicious instructions with five open-source advanced LLMs while maintaining robust attack performance in executing cross-language attacks against Chinese malicious instructions. We conduct experiments to verify the effectiveness of our jailbreak idea and the rationality of our jailbreak strategy design. Notably, our method designed a semantically coherent attack prompt, highlighting the potential risks of LLMs. Our study provides detailed insights into jailbreak attacks, establishing a foundation for the development of safer LLMs.
翻訳日:2024-02-26 17:37:31 公開日:2024-02-23
# コンタクトエネルギーをベースとした直視経験優先化

Contact Energy Based Hindsight Experience Prioritization ( http://arxiv.org/abs/2312.02677v2 )

ライセンス: Link先を確認
Erdi Sayar, Zhenshan Bing, Carlo D'Eramo, Ozgur S. Oguz, Alois Knoll(参考訳) 強化学習(rl)アルゴリズムでは,成功事例の収集に非効率性があるため,スパース報酬を伴うマルチゴールロボット操作タスクは困難である。 近年のHER(Hindsight Experience Replay)のようなアルゴリズムは、失敗軌跡を利用して目標を達成された状態の1つに置き換えることで学習を高速化し、失敗軌跡を学習への貢献として活用する。 しかし、彼女は、学習に最も価値のあるものについて考慮せずに、失敗した軌道を均一に選択する。 本稿では,この課題に対処し,接触によるリッチな情報に基づいてリプレイバッファからサンプルを選択し,ロボットのグリップ内のタッチセンサと物体の変位を活用するための,接触エネルギーに基づく優先順位付け(CEBP)手法を提案する。 当社の優先順位付け方式では,最も多くの情報を提供するコンタクトリッチなエクスペリエンスのサンプリングが推奨されている。 そこで本研究では,ロボットの課題に対して提案手法を評価し,最新手法と比較する。 本手法は,ロボット操作タスクにおいて,これらの手法に匹敵する性能あるいは性能を示す。 最後に,本手法から実物のフランカロボットに訓練されたポリシーを配置し,選択・配置作業を行う。 我々はロボットがその課題をうまく解決できることを観察する。 ビデオとコードは、https://erdiphd.github.io/HER_force.comで公開されている。

Multi-goal robot manipulation tasks with sparse rewards are difficult for reinforcement learning (RL) algorithms due to the inefficiency in collecting successful experiences. Recent algorithms such as Hindsight Experience Replay (HER) expedite learning by taking advantage of failed trajectories and replacing the desired goal with one of the achieved states so that any failed trajectory can be utilized as a contribution to learning. However, HER uniformly chooses failed trajectories, without taking into account which ones might be the most valuable for learning. In this paper, we address this problem and propose a novel approach Contact Energy Based Prioritization~(CEBP) to select the samples from the replay buffer based on rich information due to contact, leveraging the touch sensors in the gripper of the robot and object displacement. Our prioritization scheme favors sampling of contact-rich experiences, which are arguably the ones providing the largest amount of information. We evaluate our proposed approach on various sparse reward robotic tasks and compare them with the state-of-the-art methods. We show that our method surpasses or performs on par with those methods on robot manipulation tasks. Finally, we deploy the trained policy from our method to a real Franka robot for a pick-and-place task. We observe that the robot can solve the task successfully. The videos and code are publicly available at: https://erdiphd.github.io/HER_force
翻訳日:2024-02-26 17:37:02 公開日:2024-02-23
# 合成データを用いたLLMの蒸留自己批判:ベイズ的視点

Distilled Self-Critique of LLMs with Synthetic Data: a Bayesian Perspective ( http://arxiv.org/abs/2312.01957v2 )

ライセンス: Link先を確認
Victor Gallego(参考訳) 本稿では,RLAIFを蒸留した自己臨界(dSC)を導入してベイズ推論として解釈し,後に微調整モデルに蒸留したギブスサンプリング器を用いてLCMの出力を精製する手法を提案する。 合成データのみを必要とするため、dSCは安全性、感情、プライバシコントロールに関する実験で実施されており、LCMの整列のための実用的で安価な代替手段であることを示している。 コードは \url{https://github.com/vicgalle/distilled-self-critique}。

This paper proposes an interpretation of RLAIF as Bayesian inference by introducing distilled Self-Critique (dSC), which refines the outputs of a LLM through a Gibbs sampler that is later distilled into a fine-tuned model. Only requiring synthetic data, dSC is exercised in experiments regarding safety, sentiment, and privacy control, showing it can be a viable and cheap alternative to align LLMs. Code released at \url{https://github.com/vicgalle/distilled-self-critique}.
翻訳日:2024-02-26 17:36:39 公開日:2024-02-23
# 白色非ガウス浴槽と相互作用する量子系のダイナミクス:ポアソンノイズマスター方程式

Dynamics of a quantum system interacting with white non-Gaussian baths: Poisson noise master equation ( http://arxiv.org/abs/2312.00376v2 )

ライセンス: Link先を確認
Ken Funo and Akihito Ishizaki(参考訳) 量子系は必然的に周囲の自由度に開放される。 したがって、開量子系の理論は、興味ある量子系のゆらぎ、散逸、および非コヒーレンスを理解するために重要である。 通常、浴槽は調和振動子のアンサンブルとしてモデル化され、量子系への浴槽の影響のガウス統計を導出する。 しかし、風呂が二状態系、スピン、または無調波発振器から構成される現象もあり、ガウスの非ガウス的な性質が重要となる。 しかしながら、そのような非ガウス浴の影響下で量子系を記述する理論的枠組みは十分に確立されていない。 ここでは,浴槽のポアソンノイズ特性に影響を受ける量子散逸系を記述する理論を,L\'evi-It\^o分解定理は,ポアソンノイズがガウス特性以外の任意の白色雑音を記述する上で基本的なものであると主張する。 浴を古典的確率的ノイズ源としてモデル化した過去の研究とは対照的に、散逸量子システムの一貫した記述を可能にする量子浴モデルを導入する。 得られたマスター方程式は、白色雑音領域における非ガウス浴効果を明らかにし、一般浴場の影響下での開量子力学を記述するための重要なステップを提供する。

Quantum systems are unavoidably open to their surrounding degrees of freedom. The theory of open quantum systems is thus crucial to understanding the fluctuations, dissipation, and decoherence of a quantum system of interest. Typically, the bath is modeled as an ensemble of harmonic oscillators, which yields Gaussian statistics of the bath influence on the quantum systems. However, there are also phenomena in which the bath consists of two-state systems, spins, or anharmonic oscillators; therefore, the non-Gaussian properties of the bath become important. Nevertheless, a theoretical framework to describe quantum systems under the influence of such non-Gaussian baths is not well established. Here, we develop a theory to describe quantum dissipative systems affected by Poisson noise properties of the bath, because the L\'evi-It\^o decomposition theorem asserts that Poisson noise is fundamental in describing arbitrary white noise beyond Gaussian properties. In contrast to past studies in which the bath is modeled as a classical stochastic noise source, we introduce a quantum bath model that allows for the consistent description of dissipative quantum systems. The obtained master equation reveals non-Gaussian bath effects in the white noise regime, and provides an essential step toward describing open quantum dynamics under the influence of generic baths.
翻訳日:2024-02-26 17:36:25 公開日:2024-02-23
# モバイルエッジコンピューティングのための年齢ベースのスケジューリング:深層強化学習アプローチ

Age-Based Scheduling for Mobile Edge Computing: A Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2312.00279v2 )

ライセンス: Link先を確認
Xingqiu He, Chaoqun You, Tony Q. S. Quek(参考訳) モバイルエッジコンピューティング(MEC)の急速な開発により、人々の日常生活に利益をもたらすために、様々なリアルタイムアプリケーションがデプロイされた。 これらのアプリケーションの性能は、収集された環境情報の鮮度に大きく依存しており、情報時代(AoI)によって定量化することができる。 AoIの従来の定義では、ステータス情報を積極的にサンプリングして直接使用することができる。 しかし、多くのMEC対応アプリケーションでは、望ましいステータス情報はイベント駆動方式で更新され、データ処理が必要になる。 これらの応用をよりよくするために、我々はAoIの新たな定義を提案し、再定義されたAoIに基づいて、MECシステムに対するオンラインAoI最小化問題を定式化する。 特に、この問題はマルコフ決定過程(MDP)と解釈することができ、強化学習(RL)アルゴリズムによる解法を可能にする。 しかしながら、従来のRLアルゴリズムは完全に未知のシステムダイナミクスを持つMDP向けに設計されているため、通常は長い収束時間がかかる。 学習プロセスを加速するために,システムダイナミクスの部分的知識を活用すべく,pdss(post-decision states)を導入する。 PDSと深いRLを組み合わせることで、アルゴリズムの適用性、スケーラビリティ、堅牢性をさらに向上します。 数値計算の結果,提案アルゴリズムは様々なシナリオにおいてベンチマークよりも優れていた。

With the rapid development of Mobile Edge Computing (MEC), various real-time applications have been deployed to benefit people's daily lives. The performance of these applications relies heavily on the freshness of collected environmental information, which can be quantified by its Age of Information (AoI). In the traditional definition of AoI, it is assumed that the status information can be actively sampled and directly used. However, for many MEC-enabled applications, the desired status information is updated in an event-driven manner and necessitates data processing. To better serve these applications, we propose a new definition of AoI and, based on the redefined AoI, we formulate an online AoI minimization problem for MEC systems. Notably, the problem can be interpreted as a Markov Decision Process (MDP), thus enabling its solution through Reinforcement Learning (RL) algorithms. Nevertheless, the traditional RL algorithms are designed for MDPs with completely unknown system dynamics and hence usually suffer long convergence times. To accelerate the learning process, we introduce Post-Decision States (PDSs) to exploit the partial knowledge of the system's dynamics. We also combine PDSs with deep RL to further improve the algorithm's applicability, scalability, and robustness. Numerical results demonstrate that our algorithm outperforms the benchmarks under various scenarios.
翻訳日:2024-02-26 17:36:01 公開日:2024-02-23
# 反復最適化ヒューリスティックスのための説明可能なベンチマーク

Explainable Benchmarking for Iterative Optimization Heuristics ( http://arxiv.org/abs/2401.17842v2 )

ライセンス: Link先を確認
Niki van Stein, Diederick Vermetten, Anna V. Kononova, Thomas B\"ack(参考訳) ヒューリスティックアルゴリズムのベンチマークは、どの条件下でどのアルゴリズムがうまく機能するかを理解するのに不可欠である。 ヒューリスティック最適化アルゴリズムに関する最近のほとんどの研究では、非常に限られたシナリオ、アルゴリズムの設定、ハイパーパラメータ設定が探索され、不完全でしばしばバイアスのある洞察と結果をもたらす。 本稿では、説明可能なベンチマークと呼ばれる新しいアプローチを提案する。 IOH-Xplainerソフトウェアフレームワークを導入し、様々な最適化アルゴリズムのパフォーマンスを分析し、理解し、異なるコンポーネントとハイパーパラメータの影響を理解する。 このフレームワークを2つのモジュール化最適化フレームワークのコンテキストで紹介する。 このフレームワークを通じて、さまざまなアルゴリズムコンポーネントと構成の影響を調べ、さまざまなシナリオにおけるパフォーマンスに関する洞察を提供する。 より透明で理解しやすい方法で反復最適化ヒューリスティックスの振る舞いと効率を評価・解釈し、より良いベンチマークとアルゴリズム設計を可能にする体系的な方法を提案する。

Benchmarking heuristic algorithms is vital to understand under which conditions and on what kind of problems certain algorithms perform well. In most current research into heuristic optimization algorithms, only a very limited number of scenarios, algorithm configurations and hyper-parameter settings are explored, leading to incomplete and often biased insights and results. This paper presents a novel approach we call explainable benchmarking. Introducing the IOH-Xplainer software framework, for analyzing and understanding the performance of various optimization algorithms and the impact of their different components and hyper-parameters. We showcase the framework in the context of two modular optimization frameworks. Through this framework, we examine the impact of different algorithmic components and configurations, offering insights into their performance across diverse scenarios. We provide a systematic method for evaluating and interpreting the behaviour and efficiency of iterative optimization heuristics in a more transparent and comprehensible manner, allowing for better benchmarking and algorithm design.
翻訳日:2024-02-26 17:30:55 公開日:2024-02-23
# 位置符号化のないグラフトランスフォーマ

Graph Transformers without Positional Encodings ( http://arxiv.org/abs/2401.17791v2 )

ライセンス: Link先を確認
Ayush Garg(参考訳) 近年,グラフ表現学習用トランスフォーマーが普及し,メッセージパッシンググラフニューラルネットワーク(MP-GNN)と組み合わせて,多種多様なデータセット上で最先端のパフォーマンスを実現している。 構造的あるいは位置的エンコーディング(PE)の形で、自然に構造に依存しないトランスフォーマーアーキテクチャにグラフインダクティブビアーゼを注入することが、これらの印象的な結果を達成する鍵となる。 しかし、そのようなエンコーディングの設計は難易度が高く、ラプラシア固有ベクトル、相対ランダムウォーク確率(RRWP)、空間エンコーディング、集中エンコーディング、エッジエンコーディングなど、様々な試みがなされている。 本研究では,注意機構自体にグラフ構造に関する情報が組み込まれているため,このようなエンコーディングは不要である可能性がある。 グラフのラプラシアンスペクトルを認識する新しいスペクトル対応アテンション機構を採用したグラフトランスフォーマーであるEigenformerを導入し、いくつかのデータセットでSOTAを上回り、いくつかの標準GNNベンチマークデータセット上でSOTAグラフトランスフォーマーに匹敵する性能を実証的に示す。 また、よりシンプルな注意機構により、パラメータ予算のより広いモデルやより深いモデルをトレーニングすることができます。

Recently, Transformers for graph representation learning have become increasingly popular, achieving state-of-the-art performance on a wide-variety of datasets, either alone or in combination with message-passing graph neural networks (MP-GNNs). Infusing graph inductive-biases in the innately structure-agnostic transformer architecture in the form of structural or positional encodings (PEs) is key to achieving these impressive results. However, designing such encodings is tricky and disparate attempts have been made to engineer such encodings including Laplacian eigenvectors, relative random-walk probabilities (RRWP), spatial encodings, centrality encodings, edge encodings etc. In this work, we argue that such encodings may not be required at all, provided the attention mechanism itself incorporates information about the graph structure. We introduce Eigenformer, a Graph Transformer employing a novel spectrum-aware attention mechanism cognizant of the Laplacian spectrum of the graph, and empirically show that it achieves performance comparable to SOTA Graph Transformers on a number of standard GNN benchmark datasets, even surpassing the SOTA on some datasets. The simpler attention mechanism also allows us to train wider and deeper models for a given parameter budget.
翻訳日:2024-02-26 17:30:39 公開日:2024-02-23
# 多変量時系列予測におけるチャネル依存性の再考:先行指標からの学習

Rethinking Channel Dependence for Multivariate Time Series Forecasting: Learning from Leading Indicators ( http://arxiv.org/abs/2401.17548v2 )

ライセンス: Link先を確認
Lifan Zhao, Yanyan Shen(参考訳) 近年,多変量時系列(MTS)予測において,チャネル非依存の手法が最先端の性能を達成した。 過度に適合するリスクを減らすにもかかわらず、これらの手法は正確な予測のためにチャネル依存を利用する機会を逃している。 変数間では局所的に定常的な鉛-ラグ関係が存在する,すなわち,短時間で先行指標を追従できる,という議論がある。 このようなチャネル依存の活用は、先行指標が遅延変動の予測困難さを低減できる先行情報を提供するため、有益である。 本稿では,まず,先導指標とその先導ステップを各時間ステップごとに効率的に推定し,その後,先導指標からの先行情報を活用することができるliftという新しい手法を提案する。 LIFTは任意の時系列予測メソッドとシームレスに協調できるプラグインとして機能する。 6つの実世界のデータセットに対する大規模な実験により、LIFTは平均予測性能を5.5%改善した。

Recently, channel-independent methods have achieved state-of-the-art performance in multivariate time series (MTS) forecasting. Despite reducing overfitting risks, these methods miss potential opportunities in utilizing channel dependence for accurate predictions. We argue that there exist locally stationary lead-lag relationships between variates, i.e., some lagged variates may follow the leading indicators within a short time period. Exploiting such channel dependence is beneficial since leading indicators offer advance information that can be used to reduce the forecasting difficulty of the lagged variates. In this paper, we propose a new method named LIFT that first efficiently estimates leading indicators and their leading steps at each time step and then judiciously allows the lagged variates to utilize the advance information from leading indicators. LIFT plays as a plugin that can be seamlessly collaborated with arbitrary time series forecasting methods. Extensive experiments on six real-world datasets demonstrate that LIFT improves the state-of-the-art methods by 5.5% in average forecasting performance.
翻訳日:2024-02-26 17:30:15 公開日:2024-02-23
# accesslens: 日常オブジェクトのアクセス不能を自動的に検出する

AccessLens: Auto-detecting Inaccessibility of Everyday Objects ( http://arxiv.org/abs/2401.15996v2 )

ライセンス: Link先を確認
Nahyun Kwon, Qian Lu, Muhammad Hasham Qazi, Joanne Liu, Changhoon Oh, Shu Kong, Jeeeun Kim(参考訳) ますます多様な社会では、日常的な物理的インターフェースが障壁をしばしば提示し、様々な状況の個人に影響を与えます。 この見落としは、小さなキャビネットのノブから、異なる状況に挑戦できる同じ壁のスイッチまで、ソリューションの必要性を強調するものだ。 ノブ拡大器や触覚ラベルなどの低コストな3dプリントによる拡張を活用することは有望だが、障害がコンテキスト依存であるため、認識できない障壁を発見するプロセスは依然として困難である。 我々は,アクセシビリティ向上のために3dプリント可能な拡張化を推奨し,日常オブジェクトのアクセス不能なインターフェースを識別するエンドツーエンドシステムであるaccesslensを紹介する。 このアプローチでは、6つの共通オブジェクトカテゴリ(ハンドルやノブなど)で21の異なる到達不能クラス(バーサイズやラウンドローテーションなど)を自動的に認識するように設計された新しいAccessDBデータセットを使用して、検出器をトレーニングする。 AccessMetaは、これらのアクセシビリティクラスをオープンソースの3D拡張設計にリンクする包括的な辞書を構築するための堅牢な方法である。 実験では、到達不能物体の検出における検出器の性能を実証した。

In our increasingly diverse society, everyday physical interfaces often present barriers, impacting individuals across various contexts. This oversight, from small cabinet knobs to identical wall switches that can pose different contextual challenges, highlights an imperative need for solutions. Leveraging low-cost 3D-printed augmentations such as knob magnifiers and tactile labels seems promising, yet the process of discovering unrecognized barriers remains challenging because disability is context-dependent. We introduce AccessLens, an end-to-end system designed to identify inaccessible interfaces in daily objects, and recommend 3D-printable augmentations for accessibility enhancement. Our approach involves training a detector using the novel AccessDB dataset designed to automatically recognize 21 distinct Inaccessibility Classes (e.g., bar-small and round-rotate) within 6 common object categories (e.g., handle and knob). AccessMeta serves as a robust way to build a comprehensive dictionary linking these accessibility classes to open-source 3D augmentation designs. Experiments demonstrate our detector's performance in detecting inaccessible objects.
翻訳日:2024-02-26 17:29:38 公開日:2024-02-23
# 超低消費電力ナノドロネスを用いた高効率視覚ポーズ推定のための適応型ディープラーニング

Adaptive Deep Learning for Efficient Visual Pose Estimation aboard Ultra-low-power Nano-drones ( http://arxiv.org/abs/2401.15236v2 )

ライセンス: Link先を確認
Beatrice Alessandra Motetti, Luca Crupi, Mustafa Omer Mohammed Elamin Elshaigi, Matteo Risso, Daniele Jahier Pagliari, Daniele Palossi, Alessio Burrello(参考訳) 直径10cm以下のナノドロンは、狭い環境や人間に近いような大型の飛行ドローンに適用できないシナリオの適用性によって勢いを増している。 しかし、その小さなフォームファクタも大きな欠点をもたらしている。超制約のメモリと、その知覚パイプラインのオンボード実行のためのプロセッサだ。 そのため、軽量なディープラーニングベースのアプローチがますます普及し、完全に動作するクローズドループシステムとフェールループシステムとの差を生じさせるため、計算効率と省エネルギーがいかに重要かを強調している。 本研究では,ナノドロネスを用いた超限られた資源の活用を最大限に活用するために,視覚に基づく人物ポーズ推定タスクの効率的な実行のための適応型深層学習機構を提案する。 我々は、回帰性能と計算コストのトレードオフが異なる2つの最先端(soa)畳み込みニューラルネットワーク(cnns)を活用する。 これらのCNNを、出力の時間的一貫性に基づく3つの新しい適応戦略と組み合わせ、CNNを積極的に置き換える補助的なタスクと組み合わせることで、6つの異なるシステムを示す。 実世界のデータセットと実際のナノドロンのハードウェアでは、より大きく、最も正確なSoAモデルのみの実行と比較して、平均絶対誤差(MAE)を維持しながら28%のレイテンシ削減、イソレイテンシーにおける3%のMAE削減、絶対ピーク性能、すなわちSoAモデルよりも6%優れたことを示しています。

Sub-10cm diameter nano-drones are gaining momentum thanks to their applicability in scenarios prevented to bigger flying drones, such as in narrow environments and close to humans. However, their tiny form factor also brings their major drawback: ultra-constrained memory and processors for the onboard execution of their perception pipelines. Therefore, lightweight deep learning-based approaches are becoming increasingly popular, stressing how computational efficiency and energy-saving are paramount as they can make the difference between a fully working closed-loop system and a failing one. In this work, to maximize the exploitation of the ultra-limited resources aboard nano-drones, we present a novel adaptive deep learning-based mechanism for the efficient execution of a vision-based human pose estimation task. We leverage two State-of-the-Art (SoA) convolutional neural networks (CNNs) with different regression performance vs. computational costs trade-offs. By combining these CNNs with three novel adaptation strategies based on the output's temporal consistency and on auxiliary tasks to swap the CNN being executed proactively, we present six different systems. On a real-world dataset and the actual nano-drone hardware, our best-performing system, compared to executing only the bigger and most accurate SoA model, shows 28% latency reduction while keeping the same mean absolute error (MAE), 3% MAE reduction while being iso-latency, and the absolute peak performance, i.e., 6% better than SoA model.
翻訳日:2024-02-26 17:29:16 公開日:2024-02-23
# スコアに基づく構造的事前値を用いたガウス図形モデルの推定

Estimation of partially known Gaussian graphical models with score-based structural priors ( http://arxiv.org/abs/2401.14340v3 )

ライセンス: Link先を確認
Mart\'in Sevilla, Antonio Garc\'ia Marques, Santiago Segarra(参考訳) 本稿では,基礎となるグラフに関する事前情報を含む部分既知のガウス図形モデルの支持推定のための新しいアルゴリズムを提案する。 精度行列上の(単純)先行値を用いた最大極大あるいは最大後値基準に基づく点推定を提供する古典的アプローチとは対照的に、我々はグラフの先行を考慮し、後続分布からサンプルを生成するためにアニールランゲイン拡散に依存する。 Langevinサンプルは、基礎となるグラフのスコア関数にアクセスする必要があるため、グラフニューラルネットワークを使用して、グラフデータセットからスコアを効果的に推定する(事前に利用できるか、既知の分布から生成されるか)。 数値実験は我々のアプローチの利点を実証する。

We propose a novel algorithm for the support estimation of partially known Gaussian graphical models that incorporates prior information about the underlying graph. In contrast to classical approaches that provide a point estimate based on a maximum likelihood or a maximum a posteriori criterion using (simple) priors on the precision matrix, we consider a prior on the graph and rely on annealed Langevin diffusion to generate samples from the posterior distribution. Since the Langevin sampler requires access to the score function of the underlying graph prior, we use graph neural networks to effectively estimate the score from a graph dataset (either available beforehand or generated from a known distribution). Numerical experiments demonstrate the benefits of our approach.
翻訳日:2024-02-26 17:28:50 公開日:2024-02-23
# スパースグラフを用いた平均場ゲーム学習:ハイブリッドグラフexアプローチ

Learning Mean Field Games on Sparse Graphs: A Hybrid Graphex Approach ( http://arxiv.org/abs/2401.12686v2 )

ライセンス: Link先を確認
Christian Fabian, Kai Cui, Heinz Koeppl(参考訳) 大規模エージェント集団の行動学習は多くの研究分野において重要な課題である。 マルチエージェント強化学習(MARL)の分野はこれらのシステムを解くために大きな進歩を遂げてきたが、多くのエージェントに対する解はしばしば計算不可能であり、理論的な保証がない。 Mean Field Games (MFGs) はこれらの問題に対処し、エージェント間のネットワーク構造を含むようにGraphon MFGs (GMFGs) に拡張することができる。 これらの利点にもかかわらず、GMFGの現実の応用性は、グラフトンが高密度グラフのみをキャプチャするという事実によって制限されている。 多くの経験的観測ネットワークは、電力法則グラフのようなある程度の空間性を示すため、GMFGフレームワークはこれらのネットワークトポロジを捉えるには不十分である。 そこで我々は,グラフ理論のグラフ理論的概念に基づくグラフMFG(GXMFGs)の新たな概念を紹介した。 グラフは、小さな世界の性質のような他の望ましい特徴を持つスパースグラフシーケンスに制限されるオブジェクトである。 これらのゲームにおける学習均衡は、基礎となるグラフの豊かでスパースな構造のために困難である。 これらの課題に対処するため、GXMFGの設定に合わせて新しい学習アルゴリズムを設計する。 このハイブリッドgraphex学習手法は、システムが主に高結合コアとスパース周辺からなることを活用している。 システムを定義し,理論解析を行った後,我々は学習アプローチを述べ,その学習能力を合成グラフと実世界のネットワークの両方で実証する。 この比較から,本アルゴリズムはmfgを,現行のmarl法やmfg法では正しく対応できない難解で現実的な学習問題のクラスに拡張することに成功した。

Learning the behavior of large agent populations is an important task for numerous research areas. Although the field of multi-agent reinforcement learning (MARL) has made significant progress towards solving these systems, solutions for many agents often remain computationally infeasible and lack theoretical guarantees. Mean Field Games (MFGs) address both of these issues and can be extended to Graphon MFGs (GMFGs) to include network structures between agents. Despite their merits, the real world applicability of GMFGs is limited by the fact that graphons only capture dense graphs. Since most empirically observed networks show some degree of sparsity, such as power law graphs, the GMFG framework is insufficient for capturing these network topologies. Thus, we introduce the novel concept of Graphex MFGs (GXMFGs) which builds on the graph theoretical concept of graphexes. Graphexes are the limiting objects to sparse graph sequences that also have other desirable features such as the small world property. Learning equilibria in these games is challenging due to the rich and sparse structure of the underlying graphs. To tackle these challenges, we design a new learning algorithm tailored to the GXMFG setup. This hybrid graphex learning approach leverages that the system mainly consists of a highly connected core and a sparse periphery. After defining the system and providing a theoretical analysis, we state our learning approach and demonstrate its learning capabilities on both synthetic graphs and real-world networks. This comparison shows that our GXMFG learning algorithm successfully extends MFGs to a highly relevant class of hard, realistic learning problems that are not accurately addressed by current MARL and MFG methods.
翻訳日:2024-02-26 17:28:37 公開日:2024-02-23
# SeeClick: 高度なビジュアルGUIエージェントのためのハーネスングGUIグラウンド

SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents ( http://arxiv.org/abs/2401.10935v2 )

ライセンス: Link先を確認
Kanzhi Cheng, Qiushi Sun, Yougang Chu, Fangzhi Xu, Yantao Li, Jianbing Zhang, Zhiyong Wu(参考訳) グラフィカルユーザインタフェース(GUI)エージェントは、スマートフォンやデスクトップなどのデジタルデバイス上の複雑なタスクを自動化するように設計されている。 既存のGUIエージェントは、抽出された構造化データを通じて環境と対話し、特に長め(HTMLなど)で、時にはアクセスできない(デスクトップなど)。 この問題を軽減するために、新しいビジュアルGUIエージェント、SeeeClickを提案する。タスク自動化のためのスクリーンショットのみに依存する。予備研究では、ビジュアルGUIエージェントを開発する上で重要な課題を発見した。GUIグラウンド -- 命令に基づいてスクリーン要素を正確に特定する能力。 この課題に対処するため,GUIグラウンディングによるSeeClickの改良を提案し,GUIグラウンディングデータのキュレーションを自動化する手法を考案した。 上記の取り組みに加えて、モバイル、デスクトップ、Web環境を含む初めての現実的なGUIグラウンドティングベンチマークであるScreenSpotも作成しました。 事前トレーニング後、seeclickはさまざまなベースラインに対するscreenspotの大幅な改善を示す。 さらに、広く使用されている3つのベンチマークの包括的な評価は、GUIの進歩が下流GUIエージェントタスクのパフォーマンス向上と直接相関していることの発見を一貫してサポートしています。 モデル、データ、コードはhttps://github.com/njucckevin/seeclickで入手できる。

Graphical User Interface (GUI) agents are designed to automate complex tasks on digital devices, such as smartphones and desktops. Most existing GUI agents interact with the environment through extracted structured data, which can be notably lengthy (e.g., HTML) and occasionally inaccessible (e.g., on desktops). To alleviate this issue, we propose a novel visual GUI agent -- SeeClick, which only relies on screenshots for task automation. In our preliminary study, we have discovered a key challenge in developing visual GUI agents: GUI grounding -- the capacity to accurately locate screen elements based on instructions. To tackle this challenge, we propose to enhance SeeClick with GUI grounding pre-training and devise a method to automate the curation of GUI grounding data. Along with the efforts above, we have also created ScreenSpot, the first realistic GUI grounding benchmark that encompasses mobile, desktop, and web environments. After pre-training, SeeClick demonstrates significant improvement in ScreenSpot over various baselines. Moreover, comprehensive evaluations on three widely used benchmarks consistently support our finding that advancements in GUI grounding directly correlate with enhanced performance in downstream GUI agent tasks. The model, data and code are available at https://github.com/njucckevin/SeeClick.
翻訳日:2024-02-26 17:28:07 公開日:2024-02-23
# 白血球の自己学習再設計による半教師付きセマンティクスセグメンテーション

Semi-Supervised Semantic Segmentation using Redesigned Self-Training for White Blood Cells ( http://arxiv.org/abs/2401.07278v3 )

ライセンス: Link先を確認
Vinh Quoc Luu, Duy Khanh Le, Huy Thanh Nguyen, Minh Thanh Nguyen, Thinh Tien Nguyen, Vinh Quang Dinh(参考訳) 医療における人工知能(AI)は、特に白血球がんの診断において、2つの主要な課題によって妨げられている: 白血球セグメンテーションのための大規模ラベル付きデータセットの欠如と、時代遅れのセグメンテーション方法である。 これらの課題は、白血球に関連する癌を診断するためのより正確で現代的な技術の開発を阻害する。 最初の課題に対処するために、利用可能なデータセットの不足を効率的に活用するために、半教師付き学習フレームワークを考案する必要がある。 本稿では,fixmatchを組み込んだ新しい自己学習パイプラインを提案することで,この問題に対処した。 セルフトレーニング(self-training)は、ラベル付きデータでトレーニングされたモデルを使用して、ラベル付きデータに対して擬似ラベルを生成し、その両方で再トレーニングするテクニックである。 FixMatchは、入力画像の変動に対してモデルの堅牢性を強制する一貫性規則化アルゴリズムである。 自己学習パイプラインにFixMatchを組み込むことで、ほとんどのケースでパフォーマンスが向上することがわかった。 DeepLab-V3アーキテクチャの一貫性を備えた自己学習スキームとResNet-50で、Zheng 1, Zheng 2, LISCデータセットでそれぞれ90.69%、87.37%、76.49%に達した。

Artificial Intelligence (AI) in healthcare, especially in white blood cell cancer diagnosis, is hindered by two primary challenges: the lack of large-scale labeled datasets for white blood cell (WBC) segmentation and outdated segmentation methods. These challenges inhibit the development of more accurate and modern techniques to diagnose cancer relating to white blood cells. To address the first challenge, a semi-supervised learning framework should be devised to efficiently capitalize on the scarcity of the dataset available. In this work, we address this issue by proposing a novel self-training pipeline with the incorporation of FixMatch. Self-training is a technique that utilizes the model trained on labeled data to generate pseudo-labels for the unlabeled data and then re-train on both of them. FixMatch is a consistency-regularization algorithm to enforce the model's robustness against variations in the input image. We discover that by incorporating FixMatch in the self-training pipeline, the performance improves in the majority of cases. Our performance achieved the best performance with the self-training scheme with consistency on DeepLab-V3 architecture and ResNet-50, reaching 90.69%, 87.37%, and 76.49% on Zheng 1, Zheng 2, and LISC datasets, respectively.
翻訳日:2024-02-26 17:27:46 公開日:2024-02-23
# クン氏:中国語の自己調整にバックトランスレーションを指示

Kun: Answer Polishment for Chinese Self-Alignment with Instruction Back-Translation ( http://arxiv.org/abs/2401.06477v2 )

ライセンス: Link先を確認
Tianyu Zheng, Shuyue Guo, Xingwei Qu, Jiawei Guo, Weixu Zhang, Xinrun Du, Qi Jia, Chenghua Lin, Wenhao Huang, Wenhu Chen, Jie Fu, and Ge Zhang(参考訳) 本稿では,手動アノテーションを使わずに,大規模言語モデル(llm)向けの高品質な命令チューニングデータセットを作成するための新しいアプローチであるkunを紹介する。 命令のバックトランスレーションと回答の洗練に基づいて自己学習アルゴリズムを適用することで、KunはWudao、Wanjuan、SkyPileといったさまざまなソースから収集された、100万以上の中国語の命令データポイントのデータセットを生成する。 このアプローチは、最も効果的な命令出力対を洗練し選択するために自己キュレーションプロセスを使用することで、従来の方法から大きく逸脱する。 様々なベンチマークを用いた6BパラメータYiモデルによる実験は、Kunの堅牢性とスケーラビリティを実証する。 提案手法の中核となる貢献は,データの保持と明快さを高めるアルゴリズムの進歩と,コストと時間のかかる手動アノテーションへの依存を著しく低減する革新的なデータ生成アプローチにある。 本手法は,LLMの命令追従能力を向上させるためのスケーラブルで効率的なソリューションを提供する。 コードとデータセットはhttps://github.com/Zheng0428/COIG-Kunで確認できる。

In this paper, we introduce Kun, a novel approach for creating high-quality instruction-tuning datasets for large language models (LLMs) without relying on manual annotations. Adapting a self-training algorithm based on instruction back-translation and answer polishment, Kun leverages unlabelled data from diverse sources such as Wudao, Wanjuan, and SkyPile to generate a substantial dataset of over a million Chinese instructional data points. This approach significantly deviates from traditional methods by using a self-curation process to refine and select the most effective instruction-output pairs. Our experiments with the 6B-parameter Yi model across various benchmarks demonstrate Kun's robustness and scalability. Our method's core contributions lie in its algorithmic advancement, which enhances data retention and clarity, and its innovative data generation approach that substantially reduces the reliance on costly and time-consuming manual annotations. This methodology presents a scalable and efficient solution for improving the instruction-following capabilities of LLMs, with significant implications for their application across diverse fields. The code and dataset can be found at https://github.com/Zheng0428/COIG-Kun
翻訳日:2024-02-26 17:27:18 公開日:2024-02-23
# きめ細かいモデルパラメータ摂動による機械学習

Machine unlearning through fine-grained model parameters perturbation ( http://arxiv.org/abs/2401.04385v2 )

ライセンス: Link先を確認
Zhiwei Zuo, Zhuo Tang, Kenli Li, Anwitaman Datta(参考訳) データレコードの抽出とトレーニングされたモデルへの影響の低減を含む機械学習技術は、ユーザのプライバシ保護の目標に役立ちながら、計算コストを大幅に削減する。 重度摂動に基づくアンラーニングは一般的なアプローチであるが、通常はグローバルなパラメータの変更を伴う。 我々は,計算コストを扱いやすく保ちながら,プライバシニーズに対処し得る,不規則なマシンアンラーニング戦略を乱用した,きめ細かいトップkパラメータとランダムkパラメータを提案する。 また,本手法の有効性を実証するために,学習データと学習データの両方にまたがるモデルの一般化性能を考慮し,機械学習の有効性を評価する。 非学習効果とモデル一般化をよりよく評価するために,記憶保持率と記憶保持率という新しい指標を提案する。 しかし、不正確な機械学習では、未学習戦略の適用後に発生する忘れの程度を定量化するには、現在のメトリクスが不十分である。 そこで本研究では,学習対象データの分布を微妙に乱すSPD-GANを提案する。 そして、未学習プロセスの前後における混乱した未学習データのモデルの性能差を計測し、未学習の程度を評価する。 これらの革新的な技術とメトリクスを実装することで、モデル性能を犠牲にすることなく、機械学習アプリケーションにおける計算効率の高いプライバシー保護を実現する。 さらに,このアプローチは,未学習の程度を評価する新しい手法を提供する。

Machine unlearning techniques, which involve retracting data records and reducing influence of said data on trained models, help with the user privacy protection objective but incur significant computational costs. Weight perturbation-based unlearning is a general approach, but it typically involves globally modifying the parameters. We propose fine-grained Top-K and Random-k parameters perturbed inexact machine unlearning strategies that address the privacy needs while keeping the computational costs tractable. In order to demonstrate the efficacy of our strategies we also tackle the challenge of evaluating the effectiveness of machine unlearning by considering the model's generalization performance across both unlearning and remaining data. To better assess the unlearning effect and model generalization, we propose novel metrics, namely, the forgetting rate and memory retention rate. However, for inexact machine unlearning, current metrics are inadequate in quantifying the degree of forgetting that occurs after unlearning strategies are applied. To address this, we introduce SPD-GAN, which subtly perturbs the distribution of data targeted for unlearning. Then, we evaluate the degree of unlearning by measuring the performance difference of the models on the perturbed unlearning data before and after the unlearning process. By implementing these innovative techniques and metrics, we achieve computationally efficacious privacy protection in machine learning applications without significant sacrifice of model performance. Furthermore, this approach provides a novel method for evaluating the degree of unlearning.
翻訳日:2024-02-26 17:26:32 公開日:2024-02-23
# PythonSaga: LLMを生成するためのベンチマークを再定義

PythonSaga: Redefining the Benchmark to Evaluate Code Generating LLM ( http://arxiv.org/abs/2401.03855v2 )

ライセンス: Link先を確認
Ankit Yadav, Mayank Singh(参考訳) 大きな言語モデル(LLM)を使用したコード生成の急増によって、これらのLLM機能を評価するために多くのベンチマークが登場した。 我々はHumanEvalとMBPPの大規模評価を行い、Pythonコード生成の2つの人気のあるベンチマークを行い、その多様性と難易度を分析した。 我々の発見は、限られたプログラミング概念に対する批判的な偏見を示し、他の概念のほとんどを無視した。 さらに,簡単な作業が懸念される傾向を明らかにし,モデル性能の推定を膨らませる可能性がある。 これらの制約に対処するため,様々な難易度にまたがる38のプログラミング概念のバランスのとれた表現を手作りで185のプロンプトを特徴とする,PythonSagaという新しいベンチマークを提案する。

Driven by the surge in code generation using large language models (LLMs), numerous benchmarks have emerged to evaluate these LLMs capabilities. We conducted a large-scale human evaluation of HumanEval and MBPP, two popular benchmarks for Python code generation, analyzing their diversity and difficulty. Our findings unveil a critical bias towards a limited set of programming concepts, neglecting most of the other concepts entirely. Furthermore, we uncover a worrying prevalence of easy tasks, potentially inflating model performance estimations. To address these limitations, we propose a novel benchmark, PythonSaga, featuring 185 hand-crafted prompts on a balanced representation of 38 programming concepts across diverse difficulty levels.
翻訳日:2024-02-26 17:26:08 公開日:2024-02-23
# 監査カウンセリング エビデンスとスタイルによる高度な反論生成の評価

Auditing Counterfire: Evaluating Advanced Counterargument Generation with Evidence and Style ( http://arxiv.org/abs/2402.08498v2 )

ライセンス: Link先を確認
Preetika Verma, Kokil Jaidka, Svetlana Churina(参考訳) 本稿では, 議論の精錬, マイニング, 評価のさらなる応用のために設計された, 対置文の制御構成のための新しいデータセットを提案する。 我々のデータセットはReddit ChangeMyViewデータセットの投稿に対して、高品質な情報源から取得した証拠と統合され、ユーザの好みに基づいて生成され、エビデンスと議論スタイルの臨界属性を調整した豊富な反論を構成する。 結果の対火コーパスは、GPT-3.5ターボ、コアラ、PALM 2モデルと2つの微調整された派生型(N = 32,000)から生成される議論を含む。 モデル評価は,多種多様なスタイルを同化させるLLMの能力を示すとともに,高いスタイルの統合(0.9682は「相互性」)を示した。 全てのモデルにおいて、GPT-3.5ターボは引数の品質評価において最高スコアを示し、一貫した精度(スコア >0.8)を示した。 さらなる分析では、相互主義的な逆説は、ほとんどのカテゴリーにおいてより高い数を示し、おそらくはより創造的に説得力のある証拠の使用を示す。 対照的に、人文による反論は、カテゴリー間でより議論的な豊かさと多様性を示した。 人文による評論が最も説得力に富むものとして好まれているにもかかわらず、「無様」のテキストは驚くほど高いスコアを示し、事実や様式の世代におけるトレードオフのさらなる調査と調査を促した。

We present a novel dataset for the controlled composition of counterarguments designed for further applications in argument refining, mining, and evaluation. Our dataset constitutes enriched counter-arguments to posts in the Reddit ChangeMyView dataset that are integrated with evidence retrieved from high-quality sources and generated based on user preferences, adjusting the critical attributes of evidence and argument style. The resultant Counterfire corpus comprises arguments generated from GPT-3.5 turbo, Koala, and PaLM 2 models and two of their finetuned variants (N = 32,000). Model evaluation indicates strong paraphrasing abilities with evidence, albeit limited word overlap, while demonstrating high style integration (0.9682 for 'reciprocity'), showing the ability of LLM to assimilate diverse styles. Of all models, GPT-3.5 turbo showed the highest scores in argument quality evaluation, showing consistent accuracy (score >0.8). In further analyses, reciprocity-style counterarguments display higher counts in most categories, possibly indicating a more creatively persuasive use of evidence. In contrast, human-written counterarguments exhibited greater argumentative richness and diversity across categories. Despite human-written arguments being favored as the most persuasive in human evaluation, the 'No Style' generated text surprisingly exhibited the highest score, prompting further exploration and investigation on the trade-offs in generation for facts and style.
翻訳日:2024-02-26 17:21:23 公開日:2024-02-23
# スコアベース生成モデルによる部分ガウス確率分布の族学習における次元の呪いを破る

Score-based generative models break the curse of dimensionality in learning a family of sub-Gaussian probability distributions ( http://arxiv.org/abs/2402.08082v3 )

ライセンス: Link先を確認
Frank Cole, Yulong Lu(参考訳) スコアベース生成モデル(SGM)は膨大な画像生成タスクにおいて大きな成功を収めてきたが、その数学的基礎はまだ限られている。 本稿では,sgmの近似と一般化を,サブガウジアン確率分布の族を学習するために解析する。 標準ガウス測度に対する相対密度の観点から、確率分布の複雑性の概念を導入する。 パラメータが適切に有界なニューラルネットワークによって対数相対密度を局所的に近似できるなら、経験的スコアマッチングによって生成された分布は、全分布を次元非依存の速度で近似する。 ガウスのある種の混合を含む例を通して、我々の理論を説明する。 本証明の必須成分は、フォワード過程に関連する真のスコア関数に対する次元自由深層ニューラルネットワーク近似率を導出することであり、それ自体は興味深い。

While score-based generative models (SGMs) have achieved remarkable success in enormous image generation tasks, their mathematical foundations are still limited. In this paper, we analyze the approximation and generalization of SGMs in learning a family of sub-Gaussian probability distributions. We introduce a notion of complexity for probability distributions in terms of their relative density with respect to the standard Gaussian measure. We prove that if the log-relative density can be locally approximated by a neural network whose parameters can be suitably bounded, then the distribution generated by empirical score matching approximates the target distribution in total variation with a dimension-independent rate. We illustrate our theory through examples, which include certain mixtures of Gaussians. An essential ingredient of our proof is to derive a dimension-free deep neural network approximation rate for the true score function associated with the forward process, which is interesting in its own right.
翻訳日:2024-02-26 17:20:55 公開日:2024-02-23
# UFO: Windows OSインタラクションのためのUI指向エージェント

UFO: A UI-Focused Agent for Windows OS Interaction ( http://arxiv.org/abs/2402.07939v3 )

ライセンス: Link先を確認
Chaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, Qi Zhang(参考訳) GPT-Vision の機能を活用し,Windows OS 上のアプリケーションに適したユーザ要求を満たす,革新的な UI フォーカスエージェントである UFO を紹介する。 UFOはデュアルエージェントフレームワークを使用して、グラフィカルユーザインタフェース(GUI)を注意深く観察し、分析し、Windowsアプリケーションの情報を制御する。 これによってエージェントは、複数のアプリケーションにまたがる場合でも、個々のアプリケーション内でシームレスにナビゲートし、操作し、ユーザ要求を満たすことができます。 このフレームワークにはコントロールインタラクションモジュールが組み込まれており、人間の介入なしにアクションのグラウンディングを容易にし、完全に自動化された実行を可能にする。 その結果、UFOは困難で時間のかかるプロセスを自然言語コマンドでのみ達成可能な単純なタスクに変換する。 我々は9つの人気のあるWindowsアプリケーションでUFOのテストを行い、ユーザの日々の使用を反映したさまざまなシナリオを網羅した。 その結果,UFOによるユーザ要求の達成効果は,定量的な測定値と実例調査の両方から得られた。 私たちの知る限りでは、ufoはwindows os環境でタスク完了用に特別に調整された最初のuiエージェントです。 ufoのオープンソースコードはhttps://github.com/microsoft/ufoで入手できる。

We introduce UFO, an innovative UI-Focused agent to fulfill user requests tailored to applications on Windows OS, harnessing the capabilities of GPT-Vision. UFO employs a dual-agent framework to meticulously observe and analyze the graphical user interface (GUI) and control information of Windows applications. This enables the agent to seamlessly navigate and operate within individual applications and across them to fulfill user requests, even when spanning multiple applications. The framework incorporates a control interaction module, facilitating action grounding without human intervention and enabling fully automated execution. Consequently, UFO transforms arduous and time-consuming processes into simple tasks achievable solely through natural language commands. We conducted testing of UFO across 9 popular Windows applications, encompassing a variety of scenarios reflective of users' daily usage. The results, derived from both quantitative metrics and real-case studies, underscore the superior effectiveness of UFO in fulfilling user requests. To the best of our knowledge, UFO stands as the first UI agent specifically tailored for task completion within the Windows OS environment. The open-source code for UFO is available on https://github.com/microsoft/UFO.
翻訳日:2024-02-26 17:20:40 公開日:2024-02-23
# qacp:中国のpythonプログラミング学習者を支援する注釈付き質問応答データセット

QACP: An Annotated Question Answering Dataset for Assisting Chinese Python Programming Learners ( http://arxiv.org/abs/2402.07913v2 )

ライセンス: Link先を確認
Rui Xiao, Lu Han, Xiaoying Zhou, Jiong Wang, Na Zong, Pengyu Zhang(参考訳) オンライン学習プラットフォーム、特に急速に成長するコンピュータプログラミングコースでは、何千もの学生の学習クエリに対処するにはかなりの人的コストが必要となる。 プログラミング教育に適したインテリジェントアシスタント大言語モデル(LLM)の作成は、異なるデータサポートを必要とする。 しかし、実際のアプリケーションシナリオでは、そのようなLLMをトレーニングするデータリソースは比較的少ない。 そこで本稿では,プログラミングのための知的教育システムにおけるデータ不足に対処するために,python学習者のための新しい中国語問答データセットを提案する。 質問の情報源の信頼性と信頼性を確保するため,実際の学生の質問から質問を収集し,質問の種類や学習者のタイプなど,様々な次元に分類した。 このアノテーション原則は、オンラインプログラミング教育の有効性と品質を高めるために設計され、プログラミング指導支援(ta)を開発するための堅固なデータ基盤を提供する。 さらに,中国語内容の処理・生成に長けた各種LLMの総合的な評価を行い,コンピュータプログラミングコースにおける知的指導支援としての一般LLMの潜在的な限界を強調した。

In online learning platforms, particularly in rapidly growing computer programming courses, addressing the thousands of students' learning queries requires considerable human cost. The creation of intelligent assistant large language models (LLMs) tailored for programming education necessitates distinct data support. However, in real application scenarios, the data resources for training such LLMs are relatively scarce. Therefore, to address the data scarcity in intelligent educational systems for programming, this paper proposes a new Chinese question-and-answer dataset for Python learners. To ensure the authenticity and reliability of the sources of the questions, we collected questions from actual student questions and categorized them according to various dimensions such as the type of questions and the type of learners. This annotation principle is designed to enhance the effectiveness and quality of online programming education, providing a solid data foundation for developing the programming teaching assists (TA). Furthermore, we conducted comprehensive evaluations of various LLMs proficient in processing and generating Chinese content, highlighting the potential limitations of general LLMs as intelligent teaching assistants in computer programming courses.
翻訳日:2024-02-26 17:20:21 公開日:2024-02-23
# 未知の遅延を伴うオンラインシークエンシャル意思決定

Online Sequential Decision-Making with Unknown Delays ( http://arxiv.org/abs/2402.07703v3 )

ライセンス: Link先を確認
Ping Wu and Heyan Huang and Zhengyang Liu(参考訳) オンライン・シーケンシャルな意思決定の分野では、オンライン・凸最適化(oco)の枠組みを利用して遅延の問題に対処し、決定のフィードバックが未知の遅延で届くようにする。 ユークリッドノルムや勾配情報に限定された従来の研究とは異なり、様々な種類のフィードバックを処理する近似解に基づく遅延アルゴリズムの3つのファミリーを提案する。 提案アルゴリズムは万能であり,普遍規範にも適用可能である。 具体的には、損失関数の完全な情報によるフィードバックのための遅延正規化リーダアルゴリズムのファミリーと、損失関数の勾配情報によるフィードバックのための遅延ミラーDescentアルゴリズムのファミリーと、損失関数の勾配の値情報によるフィードバックのための単純化された遅延ミラーDescentアルゴリズムのファミリーを紹介する。 各アルゴリズムに対して、一般凸性および相対的強凸性の場合の対応する後悔境界を提供する。 また,具体的な例によって,各アルゴリズムの効率性を異なる規範で示す。 さらに, 理論結果は, 標準設定に分解した場合の現在の最適境界値と一致している。

In the field of online sequential decision-making, we address the problem with delays utilizing the framework of online convex optimization (OCO), where the feedback of a decision can arrive with an unknown delay. Unlike previous research that is limited to Euclidean norm and gradient information, we propose three families of delayed algorithms based on approximate solutions to handle different types of received feedback. Our proposed algorithms are versatile and applicable to universal norms. Specifically, we introduce a family of Follow the Delayed Regularized Leader algorithms for feedback with full information on the loss function, a family of Delayed Mirror Descent algorithms for feedback with gradient information on the loss function and a family of Simplified Delayed Mirror Descent algorithms for feedback with the value information of the loss function's gradients at corresponding decision points. For each type of algorithm, we provide corresponding regret bounds under cases of general convexity and relative strong convexity, respectively. We also demonstrate the efficiency of each algorithm under different norms through concrete examples. Furthermore, our theoretical results are consistent with the current best bounds when degenerated to standard settings.
翻訳日:2024-02-26 17:20:03 公開日:2024-02-23
# 大規模コードモデルはプログラミングの概念を理解するか? ブラックボックスアプローチ

Do Large Code Models Understand Programming Concepts? A Black-box Approach ( http://arxiv.org/abs/2402.05980v2 )

ライセンス: Link先を確認
Ashish Hooda, Mihai Christodorescu, Miltiadis Allamanis, Aaron Wilson, Kassem Fawaz, Somesh Jha(参考訳) テキスト生成における大きな言語モデルの成功は、コード生成とコーディングタスクをより良くしました。 多くの作業がコード補完や編集などのタスクで顕著なパフォーマンスを示しているが、その理由についてはいまだにはっきりしていない。 このギャップを埋めるためには、基礎となるプログラムの論理構造をどの程度の自己回帰モデルで理解するかを探索する。 本稿では,大規模コードモデルがプログラミング概念を理解するかどうかを評価するために,CACP(Counterfactual Analysis for Programming Concept Predicates)を提案する。 モデルへのブラックボックスアクセスのみを使用して、CACPを使用して、4つの異なるプログラミング概念に対して10の人気のあるLarge Code Modelを評価します。 その結果,現在のモデルではデータフローや制御フローといった概念の理解が欠如していることが示唆された。

Large Language Models' success on text generation has also made them better at code generation and coding tasks. While a lot of work has demonstrated their remarkable performance on tasks such as code completion and editing, it is still unclear as to why. We help bridge this gap by exploring to what degree auto-regressive models understand the logical constructs of the underlying programs. We propose Counterfactual Analysis for Programming Concept Predicates (CACP) as a counterfactual testing framework to evaluate whether Large Code Models understand programming concepts. With only black-box access to the model, we use CACP to evaluate ten popular Large Code Models for four different programming concepts. Our findings suggest that current models lack understanding of concepts such as data flow and control flow.
翻訳日:2024-02-26 17:19:44 公開日:2024-02-23
# ファクトの融合, 偽造: 長期世代における集合的事実の矛盾性の評価

Merging Facts, Crafting Fallacies: Evaluating the Contradictory Nature of Aggregated Factual Claims in Long-Form Generations ( http://arxiv.org/abs/2402.05629v2 )

ライセンス: Link先を確認
Cheng-Han Chiang, Hung-yi Lee(参考訳) 大規模言語モデル(llm)からの長期世代は、事実性と非事実性が混在しており、事実性の評価が困難である。 よりきめ細かい方法で長方形世代の事実精度を評価するために、先行研究は長方形世代を複数の検証可能な事実に分解し、それらの事実を独立に検証することを提案する。 生成の事実は、すべての事実の中で検証可能な事実の割合である。 このような方法は、事実クレームの組み合わせが事実クレームを形成すると仮定する。 本稿では,エンティティのあいまいさから仮定を破ることができることを示す。 LLMは、検証可能な事実を含む段落を生成することができるが、実体的曖昧さのため、事実が組み合わさって非事実的段落を形成する。 さらに、FActScoreや引用リコールを含む既存の事実精度指標が、これらの非事実項の事実性を適切に評価できないことも明らかにした。 そこで本研究では,不明瞭なエンティティを持つコンテンツを対象とした拡張メトリックD-FActScoreを提案する。 検索増強世代(RAG)で生成された人物のD-FActScoresを評価する。 D-FActScore は FActScore よりもエンティティの曖昧さで段落の事実性を評価することができることを示す。 また,4つのオープンソース LLM が,異なるエンティティの情報を混合して非実数項を形成する傾向にあることも確認した。

Long-form generations from large language models (LLMs) contains a mix of factual and non-factual claims, making evaluating factuality difficult. To evaluate factual precision of long-form generations in a more fine-grained way, prior works propose to decompose long-form generations into multiple verifiable facts and verify those facts independently. The factuality of the generation is the proportion of verifiable facts among all the facts. Such methods assume that combining factual claims forms a factual paragraph. This paper shows that the assumption can be violated due to entity ambiguity. We show that LLMs can generate paragraphs that contain verifiable facts, but the facts are combined to form a non-factual paragraph due to entity ambiguity. We further reveal that existing factual precision metrics, including FActScore and citation recall, cannot properly evaluate the factuality of these non-factual paragraphs. To address this, we introduce an enhanced metric, D-FActScore, specifically designed for content with ambiguous entities. We evaluate the D-FActScores of people biographies generated with retrieval-augmented generation (RAG). We show that D-FActScore can better assess the factuality of paragraphs with entity ambiguity than FActScore. We also find that four widely used open-source LLMs tend to mix information of distinct entities to form non-factual paragraphs.
翻訳日:2024-02-26 17:19:31 公開日:2024-02-23
# m\\ullerの定理の2つの単純な証明

Two Simple Proofs of M\"uller's Theorem ( http://arxiv.org/abs/2402.05328v2 )

ライセンス: Link先を確認
Samuel Epstein(参考訳) M\"{u}ller の定理により、弦のコルモゴロフ複雑性はその量子コルモゴロフ複雑性と等しいことが示されている。 したがって、量子力学を使って古典情報を圧縮する利点はない。 古典的な情報源の量的な情報は、使用する物理モデルに不変である。 これらの結果から、この定理はアルゴリズム情報理論と物理学の交叉において最も重要な結果となっている。 元々の証明は非常に広範である。 本論文はこの定理の2つの単純な証明を含む。

Due to M\"{u}ller's theorem, the Kolmogorov complexity of a string was shown to be equal to its quantum Kolmogorov complexity. Thus there are no benefits to using quantum mechanics to compress classical information. The quantitative amount of information in classical sources is invariant to the physical model used. These consequences make this theorem arguably the most important result in the intersection of algorithmic information theory and physics. The original proof is quite extensive. This paper contains two simple proofs of this theorem.
翻訳日:2024-02-26 17:19:07 公開日:2024-02-23
# 超伝導量子ビットアレイにおける宇宙線誘起相関誤差の直接的証拠

Direct evidence for cosmic-ray-induced correlated errors in superconducting qubit array ( http://arxiv.org/abs/2402.04245v2 )

ライセンス: Link先を確認
Xue-Gang Li, Jun-Hua Wang, Yao-Yao Jiang, Guang-Ming Xue, Xiao-Xia Cai, Jun Zhou, Ming Gong, Zhao-Feng Liu, Shuang-Yu Zheng, Deng-Ke Ma, Mo Chen, Wei-Jie Sun, Shuang Yang, Fei Yan, Yi-Rong Jin, Xue-Feng Ding and Hai-Feng Yu(参考訳) 相関誤差は量子誤差補正に大きな影響を与え、空間と時間の両方において異なる量子ビットでエラーが発生するという仮定に挑戦する。 超伝導量子ビットは複数の量子ビットにまたがる相関誤差に悩まされ、これは電離放射線や宇宙線に起因する可能性がある。 しかしながら、この関係に関する直接的な証拠と定量的な理解は、現在不足している。 本研究では,マルチキュービット同時充電パリティジャンプを連続的に監視し,相関誤差を検出し,マルチキュービット同時ビットフリップよりも頻度の高い値を求める。 次に, 希釈冷凍機において試料箱直下に2つの宇宙線ミューオン検出器を配置し, ミューオンによって引き起こされた超伝導キュービットアレイ内の相関誤差を良好に観測する。 また,冷蔵庫に鉛遮蔽層を導入することで,他の相関誤差のほとんどがガンマ線によって引き起こされることを明らかにした。 さらに, クビット中の準粒子の組換え速度が高い超伝導膜は, 相関誤差の持続時間を削減するのに有効であることがわかった。 本研究は,ガンマ線とミューオンが超伝導量子計算に与える影響を実験的に証明し,量子誤差補正のための緩和戦略に関する実践的知見を提供する。 さらに,我々のプロセッサにおけるミューオン誘起相関誤差の平均発生率は約0.40 min$^{-1}$cm$^{-2}$であり,0.506 min$^{-1}$cm$^{-2}$のミューオン検出器で検出されたミューオン事象率に匹敵する。 これは、超伝導量子ビットアレイを高エネルギー物理学の分野における低エネルギーしきい値センサとしての可能性を示す。

Correlated errors can significantly impact the quantum error correction, which challenges the assumption that errors occur in different qubits independently in both space and time. Superconducting qubits have been found to suffer correlated errors across multiple qubits, which could be attributable to ionizing radiations and cosmic rays. Nevertheless, the direct evidence and a quantitative understanding of this relationship are currently lacking. In this work, we propose to continuously monitor multi-qubit simultaneous charge-parity jumps to detect correlated errors and find that occur more frequently than multi-qubit simultaneous bit flips. Then, we propose to position two cosmic-ray muon detectors directly beneath the sample box in a dilution refrigerator and successfully observe the correlated errors in a superconducting qubit array triggered by muons. By introducing a lead shielding layer on the refrigerator, we also reveal that the majority of other correlated errors are primarily induced by gamma rays. Furthermore, we find the superconducting film with a higher recombination rate of quasiparticles used in the qubits is helpful in reducing the duration of correlated errors. Our results provide experimental evidence of the impact of gamma rays and muons on superconducting quantum computation and offer practical insights into mitigation strategies for quantum error correction. In addition, we observe the average occurrence rate of muon-induced correlated errors in our processor is approximately 0.40 min$^{-1}$cm$^{-2}$, which is comparable to the muon event rate detected by the muon detector with 0.506 min$^{-1}$cm$^{-2}$. This demonstrates the potential applications of superconducting qubit arrays as low-energy threshold sensors in the field of high-energy physics.
翻訳日:2024-02-26 17:19:01 公開日:2024-02-23
# sdemg : スコアに基づく表面筋電図信号の拡散モデル

SDEMG: Score-based Diffusion Model for Surface Electromyographic Signal Denoising ( http://arxiv.org/abs/2402.03808v2 )

ライセンス: Link先を確認
Yu-Tung Liu, Kuan-Chen Wang, Kai-Chun Liu, Sheng-Yu Peng, Yu Tsao(参考訳) 表面筋電図(sEMG)記録は、監視される筋肉が心臓に近いときに心電図(ECG)信号に影響される。 既存のいくつかの手法では、ハイパスフィルタやテンプレートサブトラクションなどの信号処理に基づくアプローチが採用されているが、ノイズの多いsEMG(ECG干渉付きsEMG)からクリーンなsEMG信号を復元する関数が導出されている。 近年,ノイズの多い入力データを用いた高品質で正確なサンプルを生成するために,スコアベース拡散モデルが導入された。 本研究では,SDEMGと呼ばれる新しい手法を提案し,SEMG信号デノージングのためのスコアベース拡散モデルを提案する。 提案手法を評価するために,mit-bih正規正弦波リズムデータベースからのecg信号とオープンアクセス可能な非侵襲適応義手データベースのデータを用いて,semg信号のノイズを低減する実験を行った。 その結果,SDEMGは比較法より優れ,高品質なsEMG試料が得られた。 SDEMGのソースコードは、https://github.com/tonyliu0910/SDEMGで入手できる。

Surface electromyography (sEMG) recordings can be influenced by electrocardiogram (ECG) signals when the muscle being monitored is close to the heart. Several existing methods use signal-processing-based approaches, such as high-pass filter and template subtraction, while some derive mapping functions to restore clean sEMG signals from noisy sEMG (sEMG with ECG interference). Recently, the score-based diffusion model, a renowned generative model, has been introduced to generate high-quality and accurate samples with noisy input data. In this study, we proposed a novel approach, termed SDEMG, as a score-based diffusion model for sEMG signal denoising. To evaluate the proposed SDEMG approach, we conduct experiments to reduce noise in sEMG signals, employing data from an openly accessible source, the Non-Invasive Adaptive Prosthetics database, along with ECG signals from the MIT-BIH Normal Sinus Rhythm Database. The experiment result indicates that SDEMG outperformed comparative methods and produced high-quality sEMG samples. The source code of SDEMG the framework is available at: https://github.com/tonyliu0910/SDEMG
翻訳日:2024-02-26 17:18:32 公開日:2024-02-23
# KICGPT:知識グラフ補完のための文脈における知識付き大規模言語モデル

KICGPT: Large Language Model with Knowledge in Context for Knowledge Graph Completion ( http://arxiv.org/abs/2402.02389v2 )

ライセンス: Link先を確認
Yanbin Wei, Qiushi Huang, James T. Kwok, Yu Zhang(参考訳) 知識グラフ補完(KGC)は、知識グラフの不完全性と下流アプリケーションのサポートに不可欠である。 KGC向けに多くのモデルが提案されている。 それらは、トリプルベースとテキストベースという2つの主要なクラスに分類できる。 トリプルベースの手法は、構造情報と不均衡なエンティティ分布のため、ロングテールエンティティに苦しむ。 テキストベースの手法はこの問題を軽減するが、言語モデルのコストのかかるトレーニングと、その効率を制限した知識グラフの特定の微調整が必要である。 本稿では,これらの制約を緩和するために,大規模言語モデル(LLM)と3次元KGCレトリバーを統合したKICGPTを提案する。 追加のトレーニングオーバーヘッドを伴わずに、ロングテール問題を軽減する。 KICGPTはKnowledge Promptと呼ばれるコンテキスト内学習戦略を使用しており、LLMを導くために構造的知識をデモにエンコードする。 ベンチマークデータセットの実証結果は、KICGPTの有効性を示し、トレーニングオーバーヘッドは小さく、微調整はない。

Knowledge Graph Completion (KGC) is crucial for addressing knowledge graph incompleteness and supporting downstream applications. Many models have been proposed for KGC. They can be categorized into two main classes: triple-based and text-based approaches. Triple-based methods struggle with long-tail entities due to limited structural information and imbalanced entity distributions. Text-based methods alleviate this issue but require costly training for language models and specific finetuning for knowledge graphs, which limits their efficiency. To alleviate these limitations, in this paper, we propose KICGPT, a framework that integrates a large language model (LLM) and a triple-based KGC retriever. It alleviates the long-tail problem without incurring additional training overhead. KICGPT uses an in-context learning strategy called Knowledge Prompt, which encodes structural knowledge into demonstrations to guide the LLM. Empirical results on benchmark datasets demonstrate the effectiveness of KICGPT with smaller training overhead and no finetuning.
翻訳日:2024-02-26 17:18:10 公開日:2024-02-23
# 教室対話の分析における大規模言語モデルの評価

Evaluating Large Language Models in Analysing Classroom Dialogue ( http://arxiv.org/abs/2402.02380v3 )

ライセンス: Link先を確認
Yun Long, Haifeng Luo, Yu Zhang(参考訳) 本研究は,大規模言語モデル(LLM),特に GPT-4 を教室内対話の分析に適用し,診断と品質改善の両面において重要な研究課題である。 教育研究における伝統的質的手法の知識集約的かつ労働集約的性質を認識し,llmが分析プロセスを合理化し,強化する可能性について検討した。 この研究は、数学と中国語の授業を通して教室の対話を包含する中学のデータセットを含んでいる。 これらの対話は、教育専門家が手作業でコーディングし、カスタマイズされたGPT-4モデルを用いて分析した。 本研究は,手動アノテーションとGPT-4の出力を比較し,教育対話の分析の有効性を評価することを目的とした。 人間のコーダとGPT-4間の時間効率、コーダ間合意、およびコーダ間信頼性を評価する。 結果から、gpt-4による時間節約と、モデルと人間のコーダ間のコーディングの一貫性の高まりが示され、特定のコードに多少の相違がある。 これらの知見は、LLMの教育評価とファシリテーションにおける強みを浮き彫りにした。

This study explores the application of Large Language Models (LLMs), specifically GPT-4, in the analysis of classroom dialogue, a crucial research task for both teaching diagnosis and quality improvement. Recognizing the knowledge-intensive and labor-intensive nature of traditional qualitative methods in educational research, this study investigates the potential of LLM to streamline and enhance the analysis process. The study involves datasets from a middle school, encompassing classroom dialogues across mathematics and Chinese classes. These dialogues were manually coded by educational experts and then analyzed using a customised GPT-4 model. This study focuses on comparing manual annotations with the outputs of GPT-4 to evaluate its efficacy in analyzing educational dialogues. Time efficiency, inter-coder agreement, and inter-coder reliability between human coders and GPT-4 are evaluated. Results indicate substantial time savings with GPT-4, and a high degree of consistency in coding between the model and human coders, with some discrepancies in specific codes. These findings highlight the strong potential of LLM in teaching evaluation and facilitation.
翻訳日:2024-02-26 17:17:55 公開日:2024-02-23
# 暗黙的神経表現を用いた没入型ビデオ圧縮

Immersive Video Compression using Implicit Neural Representations ( http://arxiv.org/abs/2402.01596v2 )

ライセンス: Link先を確認
Ho Man Kwan, Fan Zhang, Andrew Gower, David Bull(参考訳) 暗黙的ニューラルネットワーク表現(inrs)に関する最近の研究は、従来のビデオコンテンツを効率的に表現しエンコーディングする可能性を示している。 本稿では,新しいINRベースの没入型ビデオコーデックであるMV-HiNeRVを提案することにより,初めて没入型(マルチビュー)ビデオにアプリケーションを拡張した。 MV-HiNeRVは、シングルビュービデオ圧縮用に開発された最先端のINRベースのビデオコーデック、HiNeRVの拡張版である。 ビュー毎に異なる機能グリッドのグループを学習するためにモデルを修正し、学習したネットワークパラメータをすべてのビューで共有しました。 これにより、モデルがマルチビュービデオに存在する時空間とビュー間の冗長性を効果的に活用することができる。 提案コーデックはMPEG Immersive Video (MIV) Common Test Conditionsのマルチビューテクスチャと深度ビデオシーケンスを圧縮するために用いられ、VVenCビデオコーデックを用いたMIVテストモデル(TMIV)に対してテストされた。 その結果、MV-HiNeRV は TMIV よりも 72.33\% 高い符号ゲイン(最大72.33\%)で優れた性能を示した。 MV-HiNeRVの実装は、さらなる開発と評価のために公表されている。

Recent work on implicit neural representations (INRs) has evidenced their potential for efficiently representing and encoding conventional video content. In this paper we, for the first time, extend their application to immersive (multi-view) videos, by proposing MV-HiNeRV, a new INR-based immersive video codec. MV-HiNeRV is an enhanced version of a state-of-the-art INR-based video codec, HiNeRV, which was developed for single-view video compression. We have modified the model to learn a different group of feature grids for each view, and share the learnt network parameters among all views. This enables the model to effectively exploit the spatio-temporal and the inter-view redundancy that exists within multi-view videos. The proposed codec was used to compress multi-view texture and depth video sequences in the MPEG Immersive Video (MIV) Common Test Conditions, and tested against the MIV Test model (TMIV) that uses the VVenC video codec. The results demonstrate the superior performance of MV-HiNeRV, with significant coding gains (up to 72.33\%) over TMIV. The implementation of MV-HiNeRV is published for further development and evaluation.
翻訳日:2024-02-26 17:17:37 公開日:2024-02-23
# 言語モデルアライメントの効率的かつ厳密な最適化に向けて

Towards Efficient and Exact Optimization of Language Model Alignment ( http://arxiv.org/abs/2402.00856v3 )

ライセンス: Link先を確認
Haozhe Ji, Cheng Lu, Yilin Niu, Pei Ke, Hongning Wang, Jun Zhu, Jie Tang, Minlie Huang(参考訳) 言語モデルと人間の好みのアライメントは、現実世界のタスクでの使用には不可欠である。 この問題は、初期方針からの逸脱を最小限に抑えた人間の嗜好を反映した期待される報酬を最大化するために、モデルのポリシーを最適化するものとして定式化される。 素直な解決と見なされているが、強化学習(RL)は、効率的な政策改善を妨げる政策更新のばらつきに悩まされている。 近年、嗜好データからポリシーを直接最適化するために、直接選好最適化(DPO)が提案されている。 実装は簡単だが、DPOは、実際に達成されることが保証されていない最適ポリシーに基づいて導出され、意図された解への収束を損なう。 本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。 我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを保証し,RLアルゴリズムに関連する複雑さを回避し,効率的な最適化を可能にすることを証明した。 本手法をdpoと比較し,理論解析と実証分析の両方と比較し,現実的人間嗜好データに対する既存のアプローチよりも,この手法の利点を実証する。 コードはhttps://github.com/haozheji/exact-optimizationで入手できる。

The alignment of language models with human preferences is vital for their application in real-world tasks. The problem is formulated as optimizing the model's policy to maximize the expected reward that reflects human preferences with minimal deviation from the initial policy. While considered as a straightforward solution, reinforcement learning (RL) suffers from high variance in policy updates, which impedes efficient policy improvement. Recently, direct preference optimization (DPO) was proposed to directly optimize the policy from preference data. Though simple to implement, DPO is derived based on the optimal policy that is not assured to be achieved in practice, which undermines its convergence to the intended solution. In this paper, we propose efficient exact optimization (EXO) of the alignment objective. We prove that EXO is guaranteed to optimize in the same direction as the RL algorithms asymptotically for arbitary parametrization of the policy, while enables efficient optimization by circumventing the complexities associated with RL algorithms. We compare our method to DPO with both theoretical and empirical analyses, and further demonstrate the advantages of our method over existing approaches on realistic human preference data. Code is available at https://github.com/haozheji/exact-optimization.
翻訳日:2024-02-26 17:17:15 公開日:2024-02-23
# CPT:Few-shot Node分類のためのコンピテンス・プログレッシブトレーニング戦略

CPT: Competence-progressive Training Strategy for Few-shot Node Classification ( http://arxiv.org/abs/2402.00450v2 )

ライセンス: Link先を確認
Qilong Yan, Yufeng Zhang, Jinghao Zhang, Jingpu Duan, Jian Yin(参考訳) グラフニューラルネットワーク(GNN)はノード分類に大きな進歩を遂げているが、その成功はトレーニングデータ内のクラス毎の十分なラベル付きノードに依存している。 実世界のグラフデータはしばしばスパースラベルを持つ長いテール分布を示し、限られたデータで分類するノードの分類においてGNNの能力の重要性を強調している。 伝統的なエピソディックなメタラーニングアプローチは、この領域における有望性を示しているが、それらは固有の制限に直面している。 これはメタ学習者が複雑なタスクに直面するのを早め、適切な学習を妨げる可能性がある。 理想的には、メタ学習は単純な概念から始まり、人間の学習のようなより複雑な概念へと進むべきです。 そこで我々は,メタラーナーのプログレッシブ・コンピテンスにタスクの難易度を合わせる2段階のカリキュラム学習手法であるCPTを導入する。 特に、CPTの初期段階では、より単純なタスクに焦点が当てられ、後に複雑なタスクに取り組むための基礎的なスキルが育まれている。 重要なことに、第2段階はメタラーナーの能力向上に基づいてタスクの難易度を動的に調整し、最適な知識獲得を目指す。 一般的なノード分類データセットに対する大規模な実験は、既存の手法に対する我々の戦略を大幅に改善したことを示している。

Graph Neural Networks (GNNs) have made significant advancements in node classification, but their success relies on sufficient labeled nodes per class in the training data. Real-world graph data often exhibits a long-tail distribution with sparse labels, emphasizing the importance of GNNs' ability in few-shot node classification, which entails categorizing nodes with limited data. Traditional episodic meta-learning approaches have shown promise in this domain, but they face an inherent limitation: it might lead the model to converge to suboptimal solutions because of random and uniform task assignment, ignoring task difficulty levels. This could lead the meta-learner to face complex tasks too soon, hindering proper learning. Ideally, the meta-learner should start with simple concepts and advance to more complex ones, like human learning. So, we introduce CPT, a novel two-stage curriculum learning method that aligns task difficulty with the meta-learner's progressive competence, enhancing overall performance. Specifically, in CPT's initial stage, the focus is on simpler tasks, fostering foundational skills for engaging with complex tasks later. Importantly, the second stage dynamically adjusts task difficulty based on the meta-learner's growing competence, aiming for optimal knowledge acquisition. Extensive experiments on popular node classification datasets demonstrate significant improvements of our strategy over existing methods.
翻訳日:2024-02-26 17:16:54 公開日:2024-02-23
# 大規模言語モデルの知識蒸留に関する調査研究

A Survey on Knowledge Distillation of Large Language Models ( http://arxiv.org/abs/2402.13116v2 )

ライセンス: Link先を確認
Xiaohan Xu, Ming Li, Chongyang Tao, Tao Shen, Reynold Cheng, Jinyang Li, Can Xu, Dacheng Tao, Tianyi Zhou(参考訳) LLM(Large Language Models)の時代において、知識蒸留(KD)は、GPT-4のような主要なプロプライエタリなLCMからLLaMAやMistralといったオープンソースに高度な機能を移行するための重要な方法論として登場した。 さらに、オープンソースのLLMが繁栄するにつれて、KDはこれらのモデルを圧縮し、自らを教師として採用することで自己改善を促進するために重要な役割を果たす。 本稿では,LLM領域におけるKDの役割を包括的に調査し,より小さなモデルに高度な知識を与える上で重要な機能と,モデル圧縮と自己改善における有用性を明らかにする。 本調査は,kd機構の包括的検証,特定の認知能力の強化,多種多様な分野にわたる実践的意義を提供する,<textit{algorithm},<textit{skill},<textit{verticalization}>の3つの基本柱を中心に,細心の注意を払って構成した。 重要な点として、この調査はデータ拡張(DA)とKDの間の複雑な相互作用をナビゲートし、DAがKDフレームワーク内で強力なパラダイムとして出現し、LLMのパフォーマンスを向上する方法について説明している。 daを活用してコンテキスト豊富なスキル固有のトレーニングデータを生成することで、kdは従来のバウンダリを超越し、オープンソースモデルが自身のプロプライエタリなコンテクストの高度さ、倫理的アライメント、深い意味的洞察を近似することができる。 本研究は、KDにおける現在の方法論の概要と今後の研究方向性を提案する、研究者や実践者のための洞察に富んだガイドを提供することを目的としている。 重要なことは、我々は、LLMの使用を規制し、LLMのKDの倫理的かつ合法的な適用を確実にする法的条件の遵守を強く主張する。 Githubリポジトリはhttps://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMsで公開されている。

In the era of Large Language Models (LLMs), Knowledge Distillation (KD) emerges as a pivotal methodology for transferring advanced capabilities from leading proprietary LLMs, such as GPT-4, to their open-source counterparts like LLaMA and Mistral. Additionally, as open-source LLMs flourish, KD plays a crucial role in both compressing these models, and facilitating their self-improvement by employing themselves as teachers. This paper presents a comprehensive survey of KD's role within the realm of LLM, highlighting its critical function in imparting advanced knowledge to smaller models and its utility in model compression and self-improvement. Our survey is meticulously structured around three foundational pillars: \textit{algorithm}, \textit{skill}, and \textit{verticalization} -- providing a comprehensive examination of KD mechanisms, the enhancement of specific cognitive abilities, and their practical implications across diverse fields. Crucially, the survey navigates the intricate interplay between data augmentation (DA) and KD, illustrating how DA emerges as a powerful paradigm within the KD framework to bolster LLMs' performance. By leveraging DA to generate context-rich, skill-specific training data, KD transcends traditional boundaries, enabling open-source models to approximate the contextual adeptness, ethical alignment, and deep semantic insights characteristic of their proprietary counterparts. This work aims to provide an insightful guide for researchers and practitioners, offering a detailed overview of current methodologies in KD and proposing future research directions. Importantly, we firmly advocate for compliance with the legal terms that regulate the use of LLMs, ensuring ethical and lawful application of KD of LLMs. An associated Github repository is available at https://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMs.
翻訳日:2024-02-26 17:12:00 公開日:2024-02-23
# チェックの学習:大規模言語モデルにおける自己補正の可能性

Learning to Check: Unleashing Potentials for Self-Correction in Large Language Models ( http://arxiv.org/abs/2402.13035v2 )

ライセンス: Link先を確認
Che Zhang and Zhenyang Xiao and Chengcheng Han and Yixin Lian and Yuejian Fang(参考訳) 大規模言語モデル(llm)は推論能力を大幅に進歩させ、自己修正を通じて推論を洗練する努力を続けている。 しかし、近年の研究では、自己修正は外部の正確な知識がなければ限定的、あるいは非生産的であり、自己修正の限界と有効性に関する疑問を提起している。 本稿では,LLMの自己検査能力を向上させるために,訓練データを慎重に設計し,自己補正の精度を向上させることを目的とする。 数学的推論におけるエラータイプを詳細に分析し,「ステップコットチェック」と呼ばれる自動プロンプトを開発した。 次に,学習モデルのためのチェック補正データセットを構築する。 学習のためのcotデータとチェック補正データを統合することで,モデルの自己チェック能力が向上し,自己修正能力が向上し,修正のエンドポイントを確認するための外部フィードバックや事実ラベルの不要化が期待できる。 チェック補正データのコンテキスト内の他のプロンプを用いて、微調整されたモデルのパフォーマンスと「ステップコットチェック」プロンプトを比較した。 ステップCoTチェック」は、モデル内の他の2つのチェックフォーマットを遅延パラメータで上回り、より正確なフィードバックを提供し、より高い正確性を達成する。 再現性のために、すべてのデータセットとコードはhttps://github.com/bammt/learn-to-checkで提供される。

Large language models (LLMs) have made significant strides in reasoning capabilities, with ongoing efforts to refine their reasoning through self-correction. However, recent studies suggest that self-correction can be limited or even counterproductive without external accurate knowledge, raising questions about the limits and effectiveness of self-correction. In this paper, we aim to enhance LLM's self-checking capabilities by meticulously designing training data, thereby improving the accuracy of self-correction. We conduct a detailed analysis of error types in mathematical reasoning and develop a tailored prompt, termed "Step CoT Check". Then we construct a checking-correction dataset for training models. After integrating the original CoT data and checking-correction data for training, we observe that models could improve their self-checking capabilities, thereby enhancing their self-correction capacity and eliminating the need for external feedback or ground truth labels to ascertain the endpoint of correction. We compare the performance of models fine-tuned with the "Step CoT Check" prompt against those refined using other promps within the context of checking-correction data. The "Step CoT Check" outperforms the other two check formats in model with lager parameters, providing more precise feedback thus achieving a higher rate of correctness. For reproducibility, all the datasets and codes are provided in https://github.com/bammt/Learn-to-check.
翻訳日:2024-02-26 17:11:27 公開日:2024-02-23
# szcore:脳波に基づく自動発作検出アルゴリズムの検証のための発作コミュニティオープンソース研究評価フレームワーク

SzCORE: A Seizure Community Open-source Research Evaluation framework for the validation of EEG-based automated seizure detection algorithms ( http://arxiv.org/abs/2402.13005v2 )

ライセンス: Link先を確認
Jonathan Dan, Una Pale, Alireza Amirshahi, William Cappelletti, Thorir Mar Ingolfsson, Xiaying Wang, Andrea Cossettini, Adriano Bernini, Luca Benini, S\'andor Beniczky, David Atienza, Philippe Ryvlin(参考訳) 脳波(EEG)に基づく高品質な自動発作検出アルゴリズムの必要性は、脳波モニタリングと長期脳波モニタリングの利用の増加によりますます強まりつつある。 これらのアルゴリズムの検証方法における不均一性は、報告された結果に影響を与え、包括的な評価と比較を困難にする。 この多様性は、特にデータセット、評価方法論、パフォーマンスメトリクスの選択に関するものです。 本稿では,脳波に基づく発作検出アルゴリズムの検証における標準化を確立するために設計された統一フレームワークを提案する。 既存のガイドラインと推奨に基づいて、このフレームワークはデータセット、ファイルフォーマット、脳波データ入力コンテンツ、入力と出力の入力、相互評価戦略、パフォーマンスメトリクスに関する一連の推奨と標準を導入している。 また,公開データセットを標準フォーマットに変換する機械学習ベンチマークである,10~20回の発作検出ベンチマークを提案する。 このベンチマークでは、機械学習タスクとメトリクスのレポートを定義している。 既存の発作検出アルゴリズムのセットを評価することで、ベンチマークの使用について説明する。 SzCORE(Seizure Community Open-source Research Evaluation)フレームワークとベンチマークは、研究を容易にするためのオープンソースソフトウェアライブラリとともに公開され、アルゴリズムの臨床的意義の厳密な評価を可能にし、てんかん患者の生活を改善するために発作をより最適に検出する全体的な取り組みを促進する。

The need for high-quality automated seizure detection algorithms based on electroencephalography (EEG) becomes ever more pressing with the increasing use of ambulatory and long-term EEG monitoring. Heterogeneity in validation methods of these algorithms influences the reported results and makes comprehensive evaluation and comparison challenging. This heterogeneity concerns in particular the choice of datasets, evaluation methodologies, and performance metrics. In this paper, we propose a unified framework designed to establish standardization in the validation of EEG-based seizure detection algorithms. Based on existing guidelines and recommendations, the framework introduces a set of recommendations and standards related to datasets, file formats, EEG data input content, seizure annotation input and output, cross-validation strategies, and performance metrics. We also propose the 10-20 seizure detection benchmark, a machine-learning benchmark based on public datasets converted to a standardized format. This benchmark defines the machine-learning task as well as reporting metrics. We illustrate the use of the benchmark by evaluating a set of existing seizure detection algorithms. The SzCORE (Seizure Community Open-source Research Evaluation) framework and benchmark are made publicly available along with an open-source software library to facilitate research use, while enabling rigorous evaluation of the clinical significance of the algorithms, fostering a collective effort to more optimally detect seizures to improve the lives of people with epilepsy.
翻訳日:2024-02-26 17:11:04 公開日:2024-02-23
# パターン分析と機械学習における文献レビューの文献レビュー

A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence ( http://arxiv.org/abs/2402.12928v2 )

ライセンス: Link先を確認
Penghai Zhao, Xin Zhang, Ming-Ming Cheng, Jian Yang, Xiang Li(参考訳) 散在する知識を集約することにより,研究対象の総合的な理解を提供する。 しかし、特にパターン分析とマシンインテリジェンス(PAMI)の急激な分野における過度なレビューは、研究者とレビュアーの両方に懸念を与えている。 これらの懸念に応えて,本分析は多種多様な視点からPAMI分野のレビューを徹底的にレビューすることを目的としている。 まず,大規模言語モデルを用いた文献評価指標を提案し,文献レビューを自動評価する。 これを容易にするために、PAMIレビューの統計的特徴を得るために、RiPAMIと呼ばれるメタデータデータベースとトピックデータセットを構築した。 従来の文献計測とは違って,提案した論文レベルの指標は,ユーザ定義のキーワードに頼ることなく,レビューのリアルタイムおよびフィールド正規化定量評価を提供する。 第2に、これらの指標に基づき、論文レビューの比較分析を行い、様々な分野、時代、雑誌にまたがる出版物の特徴を明らかにする。 新たなAI生成の文献レビューも評価されており、観察された違いは、ほとんどのAI生成のレビューが、いくつかの面で人間によるレビューより遅れていることを示している。 第3に,代表的なパミレビューを主観的に評価し,文献レビューの書体構造に基づくタイポロジーを紹介する。 このタイポロジーは、レビューの読み書きにおける学者の明快さと有効性を改善しつつ、十分に整理されたレビューを生成するためのAIシステムのガイドとしても機能する。 最後に、この分析は文献レビューの現在の課題に対する洞察を与え、今後の展開を展望する。

By consolidating scattered knowledge, the literature review provides a comprehensive understanding of the investigated topic. However, excessive reviews, especially in the booming field of pattern analysis and machine intelligence (PAMI), raise concerns for both researchers and reviewers. In response to these concerns, this Analysis aims to provide a thorough review of reviews in the PAMI field from diverse perspectives. First, large language model-empowered bibliometric indicators are proposed to evaluate literature reviews automatically. To facilitate this, a meta-data database dubbed RiPAMI, and a topic dataset are constructed, which are utilized to obtain statistical characteristics of PAMI reviews. Unlike traditional bibliometric measurements, the proposed article-level indicators provide real-time and field-normalized quantified assessments of reviews without relying on user-defined keywords. Second, based on these indicators, the study presents comparative analyses of different reviews, unveiling the characteristics of publications across various fields, periods, and journals. The newly emerging AI-generated literature reviews are also appraised, and the observed differences suggest that most AI-generated reviews still lag behind human-authored reviews in several aspects. Third, we briefly provide a subjective evaluation of representative PAMI reviews and introduce a paper structure-based typology of literature reviews. This typology may improve the clarity and effectiveness for scholars in reading and writing reviews, while also serving as a guide for AI systems in generating well-organized reviews. Finally, this Analysis offers insights into the current challenges of literature reviews and envisions future directions for their development.
翻訳日:2024-02-26 17:10:39 公開日:2024-02-23
# 産業環境下におけるエレベータソフトのQoS予測への量子エクストリーム学習マシンの適用

Application of Quantum Extreme Learning Machines for QoS Prediction of Elevators' Software in an Industrial Context ( http://arxiv.org/abs/2402.12777v2 )

ライセンス: Link先を確認
Xinyi Wang, Shaukat Ali, Aitor Arrieta, Paolo Arcaini, Maite Arratibel(参考訳) QELM(Quantum Extreme Learning Machine)は、量子力学と簡単な学習戦略を利用して、分類や回帰などの問題を効率的に解く技術である。 QELMには多くの潜在的な利点があるが、実際の応用は限られている。 この目的のために、エレベータの文脈におけるQELMの産業応用について、QUELLと呼ばれるアプローチを提案する。 quellでは,エレベータのスケジューリングソフトウェアに関連する待ち時間予測にqelmを使用し,ソフトウェア回帰テスト,エレベータディジタルツイン,リアルタイムパフォーマンス予測などの応用を行っている。 このスケジューリングソフトウェアは、エレベーター技術の世界的なリーダーである産業パートナーのOronaによって実装されました。 我々はquellが待ち時間を効率的に予測できることを実証し、予測品質が従来のmlモデルよりもかなり優れていることを示した。 さらに, quell の予測品質は, 少ない機能では低下しないことを示した。 当社の産業応用に基づいて,オローナの他の用途におけるQELMの利用に関する知見を更に提供し,他の産業応用にQELMを適用する方法について論じる。

Quantum Extreme Learning Machine (QELM) is an emerging technique that utilizes quantum dynamics and an easy-training strategy to solve problems such as classification and regression efficiently. Although QELM has many potential benefits, its real-world applications remain limited. To this end, we present QELM's industrial application in the context of elevators, by proposing an approach called QUELL. In QUELL, we use QELM for the waiting time prediction related to the scheduling software of elevators, with applications for software regression testing, elevator digital twins, and real-time performance prediction. The scheduling software has been implemented by our industrial partner Orona, a globally recognized leader in elevator technology. We demonstrate that QUELL can efficiently predict waiting times, with prediction quality significantly better than that of classical ML models employed in a state-of-the-practice approach. Moreover, we show that the prediction quality of QUELL does not degrade when using fewer features. Based on our industrial application, we further provide insights into using QELM in other applications in Orona, and discuss how QELM could be applied to other industrial applications.
翻訳日:2024-02-26 17:10:14 公開日:2024-02-23
# 部分加工したGromov-Wassersteinマッチングを用いた任意サイズグラフのエンドツーエンド予測

End-to-end Supervised Prediction of Arbitrary-size Graphs with Partially-Masked Fused Gromov-Wasserstein Matching ( http://arxiv.org/abs/2402.12269v2 )

ライセンス: Link先を確認
Paul Krzakala, Junjie Yang, R\'emi Flamary, Florence d'Alch\'e-Buc, Charlotte Laclau, Matthieu Labeau(参考訳) 本稿では,SGP(Supervised Graph Prediction)のためのエンドツーエンドの深層学習手法を提案する。 本稿では, 従来の OT (Optimal Transport) に基づく損失, 部分マス付きファステッド・グロモフ・ワッサースタイン損失 (PM-FGW) を導入し, 隣接性や特徴行列などのグラフ表現を直接活用する。 PM-FGW はノード置換不変であり、部分微分可能であり、パッド付き表現とマスキングベクトルを比較して異なる大きさのグラフを扱う。 さらに,異なるタイプの入力データに容易に適応できるフレキシブルトランスフォーマーベースのアーキテクチャを提案する。 実験のセクションでは、新しい挑戦的な合成データセット(image2graph)と2つの実世界のタスク(image2mapとfinger2molecule)の3つの異なるタスクが、競合他社と比較してアプローチの効率と汎用性を示している。

We present a novel end-to-end deep learning-based approach for Supervised Graph Prediction (SGP). We introduce an original Optimal Transport (OT)-based loss, the Partially-Masked Fused Gromov-Wasserstein loss (PM-FGW), that allows to directly leverage graph representations such as adjacency and feature matrices. PM-FGW exhibits all the desirable properties for SGP: it is node permutation invariant, sub-differentiable and handles graphs of different sizes by comparing their padded representations as well as their masking vectors. Moreover, we present a flexible transformer-based architecture that easily adapts to different types of input data. In the experimental section, three different tasks, a novel and challenging synthetic dataset (image2graph) and two real-world tasks, image2map and fingerprint2molecule - showcase the efficiency and versatility of the approach compared to competitors.
翻訳日:2024-02-26 17:09:38 公開日:2024-02-23
# 汎用グラフ学習へのアプローチ : 大規模言語モデルの観点から

Towards Versatile Graph Learning Approach: from the Perspective of Large Language Models ( http://arxiv.org/abs/2402.11641v2 )

ライセンス: Link先を確認
Lanning Wei, Jun Gao, Huan Zhao, Quanming Yao(参考訳) グラフ構造化データは一般的に使われ、現実世界で幅広いアプリケーションシナリオを持つ。 これらの多様なアプリケーションに対して、多種多様な学習タスク、グラフドメイン、複雑なグラフ学習手順は、汎用的なグラフ学習アプローチを設計する際に、人間の専門家に挑戦を与える。 これらの課題に直面した大規模言語モデル(llm)は、広範な知識と人間のような知性のために潜在的な解決策を提供する。 本稿では, LLMを用いた多目的グラフ学習手法を設計するための新しい概念的プロトタイプを提案する。 ここでは,タスク定義,グラフデータの特徴的エンジニアリング,モデル選択と最適化,デプロイメント,サービスなど,4つの重要なグラフ学習手順を要約する。 次に、これらの手順におけるLLMの応用シナリオを幅広いスペクトルにわたって検討する。 ハウ」の観点からは、LLMの能力と各手順の要件を一致させる。 最後に,LLMの強みを多目的グラフ学習法に活用する上で有望な方向性を指摘する。

Graph-structured data are the commonly used and have wide application scenarios in the real world. For these diverse applications, the vast variety of learning tasks, graph domains, and complex graph learning procedures present challenges for human experts when designing versatile graph learning approaches. Facing these challenges, large language models (LLMs) offer a potential solution due to the extensive knowledge and the human-like intelligence. This paper proposes a novel conceptual prototype for designing versatile graph learning methods with LLMs, with a particular focus on the "where" and "how" perspectives. From the "where" perspective, we summarize four key graph learning procedures, including task definition, graph data feature engineering, model selection and optimization, deployment and serving. We then explore the application scenarios of LLMs in these procedures across a wider spectrum. In the "how" perspective, we align the abilities of LLMs with the requirements of each procedure. Finally, we point out the promising directions that could better leverage the strength of LLMs towards versatile graph learning methods.
翻訳日:2024-02-26 17:08:59 公開日:2024-02-23
# Decoding News Narratives: Framing Bias Detectionにおける大規模言語モデルの批判的分析

Decoding News Narratives: A Critical Analysis of Large Language Models in Framing Bias Detection ( http://arxiv.org/abs/2402.11621v2 )

ライセンス: Link先を確認
Valeria Pastorino, Jasivan A. Sivakumar, Nafise Sadat Moosavi(参考訳) 本研究は,GPT-3.5 Turbo, GPT-4, Flan-T5モデルを用いて,ゼロショット, 少数ショット, 説明可能なプロンプト手法によるニュース見出しのフレーミングバイアスを検出することにより, 社会科学におけるLCMの適用性の向上に寄与する。 評価から得られた重要な知見は、これらのモデルの信頼性を高めるための説明可能な効果が顕著であり、フレーミングバイアスに関する社会科学研究における説明可能な設定の重要性を強調している。 特にGPT-4は、関連するドメイン内の様々な例を示す場合、いくつかのシナリオでパフォーマンスが向上した。 FLAN-T5の貧弱な性能は、より小さなモデルではフレーミングバイアスの検出にタスク固有の微調整が必要になることを示している。 また、モデル、特にgpt-4は、しばしば感情言語をフレーミングバイアスの指標として誤解し、真の感情表現を報告することと、意図的にニュース見出しでフレーミングバイアスを使用することを区別することの難しさを強調している。 さらに,フレーミングバイアスの有無が明確か,あるいはより議論された見出しの2つの部分集合について評価を行い,既存のデータセットや新しいデータセット内の潜在的なアノテーション不正確性をフラグ付けする上で,これらのモデルが有効であることを示唆した。 最後に、この研究は、実際の状況(野における)におけるモデルを評価し、米国銃暴力に焦点を当てた最初のデータセットを超えて、幅広いトピックをカバーするフレーム付き見出しでモデルのパフォーマンスを評価する。

This work contributes to the expanding research on the applicability of LLMs in social sciences by examining the performance of GPT-3.5 Turbo, GPT-4, and Flan-T5 models in detecting framing bias in news headlines through zero-shot, few-shot, and explainable prompting methods. A key insight from our evaluation is the notable efficacy of explainable prompting in enhancing the reliability of these models, highlighting the importance of explainable settings for social science research on framing bias. GPT-4, in particular, demonstrated enhanced performance in few-shot scenarios when presented with a range of relevant, in-domain examples. FLAN-T5's poor performance indicates that smaller models may require additional task-specific fine-tuning for identifying framing bias detection. Our study also found that models, particularly GPT-4, often misinterpret emotional language as an indicator of framing bias, underscoring the challenge of distinguishing between reporting genuine emotional expression and intentionally use framing bias in news headlines. We further evaluated the models on two subsets of headlines where the presence or absence of framing bias was either clear-cut or more contested, with the results suggesting that these models' can be useful in flagging potential annotation inaccuracies within existing or new datasets. Finally, the study evaluates the models in real-world conditions ("in the wild"), moving beyond the initial dataset focused on U.S. Gun Violence, assessing the models' performance on framed headlines covering a broad range of topics.
翻訳日:2024-02-26 17:08:41 公開日:2024-02-23
# ロバストエージェントは因果世界モデルを学ぶ

Robust agents learn causal world models ( http://arxiv.org/abs/2402.10877v2 )

ライセンス: Link先を確認
Jonathan Richens, Tom Everitt(参考訳) 因果推論は強固で汎用的な知性において基本的な役割を担っていると長い間仮説されてきた。 しかし、エージェントが新しい領域に一般化するために因果モデルを学ぶ必要があるか、あるいは他の帰納バイアスが十分であるかどうかは不明である。 この問いに答え、分布シフトの大きな集合の下で束縛された後悔を満足できるエージェントは、最適なエージェントの真の因果モデルに収束するデータ生成プロセスの近似因果モデルを学ぶ必要があることを示した。 転校学習や因果推論など,いくつかの研究分野におけるこの結果の意義について考察する。

It has long been hypothesised that causal reasoning plays a fundamental role in robust and general intelligence. However, it is not known if agents must learn causal models in order to generalise to new domains, or if other inductive biases are sufficient. We answer this question, showing that any agent capable of satisfying a regret bound under a large set of distributional shifts must have learned an approximate causal model of the data generating process, which converges to the true causal model for optimal agents. We discuss the implications of this result for several research areas including transfer learning and causal inference.
翻訳日:2024-02-26 17:08:11 公開日:2024-02-23
# 論理の連鎖: 大きな言語モデルによるルールベースの推論

Chain of Logic: Rule-Based Reasoning with Large Language Models ( http://arxiv.org/abs/2402.10400v2 )

ライセンス: Link先を確認
Sergio Servantez, Joe Barrow, Kristian Hammond, Rajiv Jain(参考訳) ルールベース推論(rule-based reasoning)は、一連の事実にルールを正しく適用することにより、結論を導き出す基本的な方法である。 特に,複雑な論理表現を形成する複数の要素からなる規則の構成規則に関して,因果的言語モデルについて検討する。 構成規則に関する推論は、複数の推論ステップが必要であり、要素間の論理的な関係に従わなければならないため、難しい。 本稿では,論理の分解(論理の独立スレッドとして要素を解き明かす)と再分解(これらのサブアンサーを再結合して論理式を解く)を通じて規則に基づく推論を導く新しいプロンプト手法,Chain of Logicを紹介する。 この方法は、弁護士が使用する逐次推論アプローチであるirc(issue, rule, application, conclusion)フレームワークに触発された。 我々は,lawbenchベンチマークと3つの異なる構成規則を含む8つのルールに基づく推論タスクにおける論理の連鎖を評価し,オープンソースおよび商用言語モデルを用いて,ソートチェーンやセルフアスクを含む他のプロンプト手法を一貫して上回っていることを示す。

Rule-based reasoning, a fundamental type of legal reasoning, enables us to draw conclusions by accurately applying a rule to a set of facts. We explore causal language models as rule-based reasoners, specifically with respect to compositional rules - rules consisting of multiple elements which form a complex logical expression. Reasoning about compositional rules is challenging because it requires multiple reasoning steps, and attending to the logical relationships between elements. We introduce a new prompting method, Chain of Logic, which elicits rule-based reasoning through decomposition (solving elements as independent threads of logic), and recomposition (recombining these sub-answers to resolve the underlying logical expression). This method was inspired by the IRAC (Issue, Rule, Application, Conclusion) framework, a sequential reasoning approach used by lawyers. We evaluate chain of logic across eight rule-based reasoning tasks involving three distinct compositional rules from the LegalBench benchmark and demonstrate it consistently outperforms other prompting methods, including chain of thought and self-ask, using open-source and commercial language models.
翻訳日:2024-02-26 17:07:59 公開日:2024-02-23
# 極長文脈のギスト記憶を持つ人型読解エージェント

A Human-Inspired Reading Agent with Gist Memory of Very Long Contexts ( http://arxiv.org/abs/2402.09727v2 )

ライセンス: Link先を確認
Kuang-Huei Lee, Xinyun Chen, Hiroki Furuta, John Canny, Ian Fischer(参考訳) 現在のLarge Language Models (LLM) は、ある最大コンテキスト長に制限されるだけでなく、長い入力を堅牢に消費することができない。 この制限に対処するために,我々は,有効コンテキスト長を最大20倍まで増加させるllmエージェントシステムであるreadagentを提案する。 人間が長い文書を対話的に読み取る方法に着想を得て,LLMの先進的な言語機能を利用した単純なプロンプトシステムとしてReadAgentを実装し,(1)記憶エピソードに格納するコンテンツを決定すること,(2)記憶エピソードをgistメモリと呼ばれる短いエピソード記憶に圧縮すること,(3)ReadAgentがタスクを完了させるために関連する詳細を思い出す必要がある場合,元のテキストのパスを検索するためにアクションを取る。 本稿では,検索手法を用いてベースラインに対するReadAgentの評価を行い,元の長コンテキストを用いて,gistメモリを用いて評価する。 これらの評価は、QuALITY、NarrativeQA、QMSumの3つの長文読解タスクにおいて行われる。 ReadAgentは、有効コンテキストウィンドウを3~20倍拡張しながら、3つのタスクのベースラインを上回ります。

Current Large Language Models (LLMs) are not only limited to some maximum context length, but also are not able to robustly consume long inputs. To address these limitations, we propose ReadAgent, an LLM agent system that increases effective context length up to 20x in our experiments. Inspired by how humans interactively read long documents, we implement ReadAgent as a simple prompting system that uses the advanced language capabilities of LLMs to (1) decide what content to store together in a memory episode, (2) compress those memory episodes into short episodic memories called gist memories, and (3) take actions to look up passages in the original text if ReadAgent needs to remind itself of relevant details to complete a task. We evaluate ReadAgent against baselines using retrieval methods, using the original long contexts, and using the gist memories. These evaluations are performed on three long-document reading comprehension tasks: QuALITY, NarrativeQA, and QMSum. ReadAgent outperforms the baselines on all three tasks while extending the effective context window by 3-20x.
翻訳日:2024-02-26 17:07:39 公開日:2024-02-23
# 教育における適応学習に生成AIを導入する

Bringing Generative AI to Adaptive Learning in Education ( http://arxiv.org/abs/2402.14601v2 )

ライセンス: Link先を確認
Hang Li, Tianlong Xu, Chaoli Zhang, Eason Chen, Jing Liang, Xing Fan, Haoyang Li, Jiliang Tang, Qingsong Wen(参考訳) 近年、大規模な言語モデルや拡散モデルなどの生成AI技術の急増により、科学、金融、教育など、さまざまな分野におけるAIアプリケーションの開発が加速している。 同時に、教育分野に多大な関心を寄せた適応学習は、生徒の学習効率を高める効果を証明している。 本稿では,生成AIと適応学習の概念を組み合わせ,これらの2つの手法の交叉研究に光を当てることを目的とする。 この分野での利益、課題、ポテンシャルに関する議論をすることで、この連合は教育における次の段階の学習形式の発展に大きく貢献するだろうと論じる。

The recent surge in generative AI technologies, such as large language models and diffusion models, have boosted the development of AI applications in various domains, including science, finance, and education. Concurrently, adaptive learning, a concept that has gained substantial interest in the educational sphere, has proven its efficacy in enhancing students' learning efficiency. In this position paper, we aim to shed light on the intersectional studies of these two methods, which combine generative AI with adaptive learning concepts. By presenting discussions about the benefits, challenges, and potentials in this field, we argue that this union will contribute significantly to the development of the next stage learning format in education.
翻訳日:2024-02-26 16:59:22 公開日:2024-02-23
# deepcode ai修正: 大きな言語モデルによるセキュリティ脆弱性の修正

DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language Models ( http://arxiv.org/abs/2402.13291v2 )

ライセンス: Link先を確認
Berkay Berabi, Alexey Gronskiy, Veselin Raychev, Gishor Sivanrupan, Victor Chibotaru, Martin Vechev(参考訳) 自動プログラム修復の分野は長年にわたって大きな関心を集めてきたが、重大な研究努力にもかかわらず、セキュリティ脆弱性のような複雑なセマンティックなバグにうまく対応できるシステムを作ることは困難である。 この課題を解決するための有望な方向は,さまざまなプログラミングタスクの解決にますます使用される大規模言語モデル(LLM)を活用することだ。 本稿では,LLMによるコード修復課題の解法の有効性について検討する。 大量のトレーニングデータに本質的に依存するタスクである長距離コード関係を学習するモデルを必要とするため、このタスクは困難であることを示す。 同時に、複雑なプログラムバグとその修正のための大規模でクリーンなデータセットの作成も簡単ではない。 本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。 プログラム分析を使用して、修正に必要なコードの一部をLCMの注意機構に制限し、必要なトレーニングデータの量を劇的に削減する、という考え方だ。 具体的には、トレーニングと推論のために、LLMにプログラム全体を供給するのではなく、報告された欠陥と必要なコンテキストを含むより短いスニペットにコードを縮小し、代わりにそれを使用します。 評価の結果、このコード削減手法は、GPT-4のような利用可能なモデルを大幅に改善することが示された。 システムのトレーニングと評価のために、我々は156のバグパターン(40のセキュリティルールを含む)を広範囲にラベル付けして包括的なコード修正データセットを作成しました。 Mixtral-8x7Bの最良のシステムは、報告された欠陥の80%以上を取り除き、人間の修正を正確に10から50%のケースでマッチングし、GPT-3.5とGPT-4に基づいてベースラインを上回り、TFixのようなウィンドウベースのモデルでベースラインを上回ります。

The automated program repair field has attracted substantial interest over the years, but despite significant research efforts, creating a system that works well for complex semantic bugs such as security vulnerabilities has proven difficult. A promising direction to solve this challenge is by leveraging large language models (LLMs), which are increasingly used to solve various programming tasks. In this paper, we investigate the effectiveness of LLMs for solving code-repair task. We show that the task is difficult as it requires the model to learn long-range code relationships, a task that inherently relies on extensive amounts of training data. At the same time, creating a large, clean dataset for complex program bugs and their corresponding fixes is non-trivial. We propose a technique to address these challenges with a new approach for querying and fine-tuning LLMs. The idea is to use program analysis to limit the LLM's attention mechanism on the portions of code needed to perform the fix, drastically reducing the amount of required training data. Concretely, for training and inference, rather than feeding the entire program to the LLM, we reduce its code to a much shorter snippet that contains the reported defect together with the necessary context - and use that instead. Our evaluation shows that this code reduction approach substantially improves available models such as GPT-4 using few-shot learning, as well as fine-tuning models. To train and evaluate our system, we created a comprehensive code fixing dataset by extensively labeling 156 bug patterns (including 40 security rules), requiring complex interprocedural dataflow to discover. Our best system with Mixtral-8x7B can remove more than 80% of the reported defects while exactly matching the human fix in between 10 and 50% of cases, outperforming baselines based on GPT-3.5 and GPT-4, or based on window-based models like TFix.
翻訳日:2024-02-26 16:58:45 公開日:2024-02-23
# 医用検索検索生成のベンチマーク

Benchmarking Retrieval-Augmented Generation for Medicine ( http://arxiv.org/abs/2402.13178v2 )

ライセンス: Link先を確認
Guangzhi Xiong and Qiao Jin and Zhiyong Lu and Aidong Zhang(参考訳) 大規模言語モデル(LLM)は、幅広い医学的質問応答(QA)タスクにおいて最先端のパフォーマンスを達成したが、幻覚や時代遅れの知識による課題に直面している。 Retrieval-augmented Generation(RAG)は有望なソリューションであり、広く採用されている。 しかしながら、RAGシステムは複数のフレキシブルなコンポーネントを伴い得るため、様々な医療目的に最適なRAG設定に関するベストプラクティスが欠如している。 このようなシステムを体系的に評価するために、5つの医療QAデータセットから7,663の質問を含む第一種評価であるMIRAGE(Medicical Information Retrieval-Augmented Generation Evaluation)を提案する。 MIRAGEを用いて,MedRAGツールキットを用いて41種類のコーパス,レトリバー,バックボーンLLMの組み合わせに対して,1.8兆以上のプロンプトトークンを用いた大規模実験を行った。 MedRAGは6種類のLDMの精度を最大18%向上させ, GPT-3.5とMixtralをGPT-4レベルに向上させた。 以上の結果から,医療用コーパスとレトリバーの組み合わせが最高の性能を得ることが示された。 さらに,医療用RAGにおいて,ログ線形スケーリング特性とロスト・イン・ザ・ミドル効果が認められた。 包括的評価は、医療のためのRAGシステムを実装するための実践的ガイドラインとして役立つと信じている。

While large language models (LLMs) have achieved state-of-the-art performance on a wide range of medical question answering (QA) tasks, they still face challenges with hallucinations and outdated knowledge. Retrieval-augmented generation (RAG) is a promising solution and has been widely adopted. However, a RAG system can involve multiple flexible components, and there is a lack of best practices regarding the optimal RAG setting for various medical purposes. To systematically evaluate such systems, we propose the Medical Information Retrieval-Augmented Generation Evaluation (MIRAGE), a first-of-its-kind benchmark including 7,663 questions from five medical QA datasets. Using MIRAGE, we conducted large-scale experiments with over 1.8 trillion prompt tokens on 41 combinations of different corpora, retrievers, and backbone LLMs through the MedRAG toolkit introduced in this work. Overall, MedRAG improves the accuracy of six different LLMs by up to 18% over chain-of-thought prompting, elevating the performance of GPT-3.5 and Mixtral to GPT-4-level. Our results show that the combination of various medical corpora and retrievers achieves the best performance. In addition, we discovered a log-linear scaling property and the "lost-in-the-middle" effects in medical RAG. We believe our comprehensive evaluations can serve as practical guidelines for implementing RAG systems for medicine.
翻訳日:2024-02-26 16:57:39 公開日:2024-02-23
# ToMBench: 大規模言語モデルにおける心のベンチマーク理論

ToMBench: Benchmarking Theory of Mind in Large Language Models ( http://arxiv.org/abs/2402.15052v1 )

ライセンス: Link先を確認
Zhuang Chen, Jincenzi Wu, Jinfeng Zhou, Bosi Wen, Guanqun Bi, Gongyao Jiang, Yaru Cao, Mengting Hu, Yunghwei Lai, Zexuan Xiong, Minlie Huang(参考訳) 心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己や他者に対する精神状態の認知能力である。 最近の研究は、大規模言語モデル(LLM)がToMの形式を示すかどうかという議論を巻き起こしている。 しかし、既存のtom評価は、制限されたスコープ、主観的判断、意図しない汚染などの課題によって妨げられ、不十分な評価となる。 このギャップに対処するために,8つのタスクと31の社会的認知能力を含む体系的評価フレームワーク,自動的かつ偏りのない評価を支援するマルチチョイス質問形式,データ漏洩を厳密に回避するためのビルト・トゥ・スクラッチ・バイリンガルインベントリという,3つの重要な特徴を持つトンベンチを紹介する。 ToMBenchをベースとして,タスクや能力にまたがる10のLLMのToM性能を評価するための広範囲な実験を行った。 GPT-4のような最も先進的なLCMでさえ、人間のパフォーマンスの10%以上遅れており、LCMはまだ人間レベルの心の理論を達成できていないことを示している。 ToMBenchの目的は、LLMのToM能力の効率的かつ効果的な評価を可能にすることであり、それによって、固有の社会的知性を備えたLLMの開発を容易にすることである。

Theory of Mind (ToM) is the cognitive capability to perceive and ascribe mental states to oneself and others. Recent research has sparked a debate over whether large language models (LLMs) exhibit a form of ToM. However, existing ToM evaluations are hindered by challenges such as constrained scope, subjective judgment, and unintended contamination, yielding inadequate assessments. To address this gap, we introduce ToMBench with three key characteristics: a systematic evaluation framework encompassing 8 tasks and 31 abilities in social cognition, a multiple-choice question format to support automated and unbiased evaluation, and a build-from-scratch bilingual inventory to strictly avoid data leakage. Based on ToMBench, we conduct extensive experiments to evaluate the ToM performance of 10 popular LLMs across tasks and abilities. We find that even the most advanced LLMs like GPT-4 lag behind human performance by over 10% points, indicating that LLMs have not achieved a human-level theory of mind yet. Our aim with ToMBench is to enable an efficient and effective evaluation of LLMs' ToM capabilities, thereby facilitating the development of LLMs with inherent social intelligence.
翻訳日:2024-02-26 16:02:34 公開日:2024-02-23
# エンティティアライメントのための大規模言語モデルのパワーアンロック

Unlocking the Power of Large Language Models for Entity Alignment ( http://arxiv.org/abs/2402.15048v1 )

ライセンス: Link先を確認
Xuhui Jiang, Yinghan Shen, Zhichao Shi, Chengjin Xu, Wei Li, Zixuan Li, Jian Guo, Huawei Shen, Yuanzhuo Wang(参考訳) エンティティアライメント(EA)は、多様な知識グラフ(KG)データを統合する上で不可欠であり、データ駆動型AIアプリケーションにおいて重要な役割を果たす。 従来のEA手法は主にエンティティ埋め込みの比較に頼っているが、その効果は限られた入力KGデータと表現学習技術の能力によって制約されている。 このような背景から、私たちは大規模な言語モデル(LLM)を取り入れてEAを改善する革新的なフレームワークであるChatEAを紹介します。 限られた入力KGデータの制約に対処するため、ChatEAはKG構造をLLMで理解できるフォーマットに変換するKGコード変換モジュールを導入し、LLMが背景知識を広く活用してEAの精度を向上させる。 エンティティの埋め込み比較の過度な信頼性を克服するため、ChatEAは対話形式における多段階推論のためのLLMの能力を生かした2段階のEA戦略を実装し、効率を保ちながら精度を向上する。 実験の結果,ChatEAの優れた性能を実証し,EAタスクの促進におけるLCMsの可能性を強調した。

Entity Alignment (EA) is vital for integrating diverse knowledge graph (KG) data, playing a crucial role in data-driven AI applications. Traditional EA methods primarily rely on comparing entity embeddings, but their effectiveness is constrained by the limited input KG data and the capabilities of the representation learning techniques. Against this backdrop, we introduce ChatEA, an innovative framework that incorporates large language models (LLMs) to improve EA. To address the constraints of limited input KG data, ChatEA introduces a KG-code translation module that translates KG structures into a format understandable by LLMs, thereby allowing LLMs to utilize their extensive background knowledge to improve EA accuracy. To overcome the over-reliance on entity embedding comparisons, ChatEA implements a two-stage EA strategy that capitalizes on LLMs' capability for multi-step reasoning in a dialogue format, thereby enhancing accuracy while preserving efficiency. Our experimental results affirm ChatEA's superior performance, highlighting LLMs' potential in facilitating EA tasks.
翻訳日:2024-02-26 16:02:08 公開日:2024-02-23
# carbd-ko: 韓国におけるアスペクトレベルの感情分類のための文脈的に注釈付きレビューベンチマークデータセット

CARBD-Ko: A Contextually Annotated Review Benchmark Dataset for Aspect-Level Sentiment Classification in Korean ( http://arxiv.org/abs/2402.15046v1 )

ライセンス: Link先を確認
Dongjun Jang, Jean Seo, Sungjoo Byun, Taekyoung Kim, Minseok Kim, Hyopil Shin(参考訳) 本稿では,事前学習言語モデル (plms) におけるアスペクトベース感情分類 (absc) によって生じる課題について考察する。 これらの課題に対処するために、アスペクト固有とアスペクト非依存の感情分類を区別するためにアスペクトとデュアルタグの極性を組み込んだベンチマークデータセットであるCARBD-Ko(Contextual Annotated Review Benchmark Dataset for Aspect-Based Sentiment Classification, 韓国語)を紹介する。 データセットは、特定のアスペクト、アスペクト極性、アスペクト非依存極性、アスペクトの強度を注釈した文で構成されている。 二重タグ付きアスペクト極性の問題に対処するために,シャムネットワークを用いた新しいアプローチを提案する。 実験結果から,両極性を正確に予測することの難しさを浮き彫りにし,文脈的感情分析モデルの重要性を浮き彫りにした。 CARBD-Koデータセットは、アスペクトレベルの感情分類における将来の研究のための貴重なリソースである。

This paper explores the challenges posed by aspect-based sentiment classification (ABSC) within pretrained language models (PLMs), with a particular focus on contextualization and hallucination issues. In order to tackle these challenges, we introduce CARBD-Ko (a Contextually Annotated Review Benchmark Dataset for Aspect-Based Sentiment Classification in Korean), a benchmark dataset that incorporates aspects and dual-tagged polarities to distinguish between aspect-specific and aspect-agnostic sentiment classification. The dataset consists of sentences annotated with specific aspects, aspect polarity, aspect-agnostic polarity, and the intensity of aspects. To address the issue of dual-tagged aspect polarities, we propose a novel approach employing a Siamese Network. Our experimental findings highlight the inherent difficulties in accurately predicting dual-polarities and underscore the significance of contextualized sentiment analysis models. The CARBD-Ko dataset serves as a valuable resource for future research endeavors in aspect-level sentiment classification.
翻訳日:2024-02-26 16:01:49 公開日:2024-02-23
# カテノイドに拘束された量子粒子の効果的な説明

Effective description of a quantum particle constrained to a catenoid ( http://arxiv.org/abs/2402.15045v1 )

ライセンス: Link先を確認
Guillermo Chacon Acosta, Hector Hernandez Hernandez, Jose Ruvalcaba Rascon(参考訳) カテノイドに制約された量子粒子を記述し、観測可能および量子分散の期待値に基づいて量子力学を効果的に記述する。 量子的挙動の一般的な特徴を示す粒子の半古典的軌道を得る。最も興味深いのは、カテノイドの喉をトンネルで通る粒子である。

We describe a quantum particle constrained on a catenoid, employing an effective description of quantum mechanics based on expected values of observables and quantum dispersions. We obtain semiclassical trajectories for particles, displaying general features of the quantum behaviour; most interestingly, particles present tunneling through the throat of the catenoid, a characteristic having important physical applications
翻訳日:2024-02-26 16:01:29 公開日:2024-02-23
# 顔のランドマーク検出のための焦点強調

Fiducial Focus Augmentation for Facial Landmark Detection ( http://arxiv.org/abs/2402.15044v1 )

ライセンス: Link先を確認
Purbayan Kar, Vishal Chudasama, Naoyuki Onoe, Pankaj Wasnik, Vineeth Balasubramanian(参考訳) ディープラーニング手法は、顔のランドマーク検出(FLD)タスクのパフォーマンスを大幅に改善した。 しかし、頭ポーズの変化、誇張された表現、不均一な照明など、困難な状況におけるランドマークの検出は、高い変動性と不十分なサンプルのため、引き続き課題である。 この不備は、入力画像から適切な顔構造情報を効果的に取得できないモデルに起因することができる。 そこで本研究では,fldタスク用に特別に設計された新しい画像拡張手法を提案する。 新たに提案する拡張手法を効果的に活用するために,dccaベースロスを用いたシアームアーキテクチャに基づく学習機構を用いて,入力画像の2つの異なる視点から高レベル特徴表現の集団学習を実現する。 さらに,Siameseフレームワークの堅牢なバックボーンとして,カスタム時間ガラスモジュールを備えたTransformer+CNNベースのネットワークを採用している。 広範な実験によって、我々のアプローチは様々なベンチマークデータセットで最先端のアプローチよりも優れています。

Deep learning methods have led to significant improvements in the performance on the facial landmark detection (FLD) task. However, detecting landmarks in challenging settings, such as head pose changes, exaggerated expressions, or uneven illumination, continue to remain a challenge due to high variability and insufficient samples. This inadequacy can be attributed to the model's inability to effectively acquire appropriate facial structure information from the input images. To address this, we propose a novel image augmentation technique specifically designed for the FLD task to enhance the model's understanding of facial structures. To effectively utilize the newly proposed augmentation technique, we employ a Siamese architecture-based training mechanism with a Deep Canonical Correlation Analysis (DCCA)-based loss to achieve collective learning of high-level feature representations from two different views of the input images. Furthermore, we employ a Transformer + CNN-based network with a custom hourglass module as the robust backbone for the Siamese framework. Extensive experiments show that our approach outperforms multiple state-of-the-art approaches across various benchmark datasets.
翻訳日:2024-02-26 16:01:22 公開日:2024-02-23
# KIEval: 大規模言語モデルのための知識に基づく対話型評価フレームワーク

KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models ( http://arxiv.org/abs/2402.15043v1 )

ライセンス: Link先を確認
Zhuohao Yu, Chang Gao, Wenjin Yao, Yidong Wang, Wei Ye, Jindong Wang, Xing Xie, Yue Zhang, Shikun Zhang(参考訳) 大規模言語モデル(LLM)の自動評価手法は,データ汚染によって妨げられ,その有効性の評価が膨らむ。 汚染されたテキストの検出を目的とした既存の戦略は、モデル性能を正確に計測するのではなく、汚染状態の定量化に重点を置いている。 本稿では,LLMを用いた対話型評価フレームワークであるKIEvalについて紹介する。 ドメイン固有の知識を含む従来のLLMベンチマークの質問から始め、KIEvalは動的に生成されたマルチラウンド、知識に焦点を当てた対話を利用して、モデルの応答が単にベンチマーク回答のリコールであるかどうかを判断したり、より複雑な会話に知識を適用するための深い理解を示す。 5つのデータセットにわたる7つのLLMの大規模な実験は、KIEvalの有効性と一般化を検証する。 また,データ汚染は実世界の応用性や理解に寄与や悪影響を及ぼさないこと,LLMの既存の汚染検出手法は事前学習時にのみ検出できるが,教師付き微調整中は検出できないことも明らかにした。

Automatic evaluation methods for large language models (LLMs) are hindered by data contamination, leading to inflated assessments of their effectiveness. Existing strategies, which aim to detect contaminated texts, focus on quantifying contamination status instead of accurately gauging model performance. In this paper, we introduce KIEval, a Knowledge-grounded Interactive Evaluation framework, which incorporates an LLM-powered "interactor" role for the first time to accomplish a dynamic contamination-resilient evaluation. Starting with a question in a conventional LLM benchmark involving domain-specific knowledge, KIEval utilizes dynamically generated, multi-round, and knowledge-focused dialogues to determine whether a model's response is merely a recall of benchmark answers or demonstrates a deep comprehension to apply knowledge in more complex conversations. Extensive experiments on seven leading LLMs across five datasets validate KIEval's effectiveness and generalization. We also reveal that data contamination brings no contribution or even negative effect to models' real-world applicability and understanding, and existing contamination detection methods for LLMs can only identify contamination in pre-training but not during supervised fine-tuning.
翻訳日:2024-02-26 16:01:03 公開日:2024-02-23
# 商用連続波多モードレーザーを用いたコヒーレンス長を超える1次干渉周波数の観測:2光子干渉の観測

Observation of the First-Order Interference Fringes Beyond Coherence Length Employing Commercial Continuous-wave Multi-mode Laser Diode: A Sight of Two-photon Interference ( http://arxiv.org/abs/2402.15041v1 )

ライセンス: Link先を確認
Hongmin Liu(参考訳) 2光子干渉の古典的二重スリット干渉縞の観測実験を報告する。 本発明の実験では、モードロックまたは周波数ロックのない商用連続波多モードF−Pレーザーダイオードを光源とし、光子の密度は単光子レベルよりもはるかに高く、長短経路の経路差はレーザーダイオードの長手コヒーレンス長よりもはるかに大きい。 時間的安定かつ明瞭な空間分布パターン,すなわち1次干渉縞が観察された。 単一光子干渉機構の予測とは対照的に、干渉はコヒーレンス長をはるかに超え、干渉縞の発生可能性と時間持続時間はldのモード数の減少とともに減少し、フリンジの消失と光消失の時間差は2つの経路の時間差に等しい。 議論の後、観測された現象は時間分解された2光子干渉機構で理解できるという結論に達した。 我々は、2光子1次干渉を行う新しい方法を明らかにし、これは2光子干渉の性質を理解するのに役立ち、量子情報科学にも有用である。

We report an experiment of observation of classical double-slit interference fringes of two-photon interference. In the experiment, a commercial continuous-wave multi-mode F-P laser diode without either mode-locked or frequency-locked is used as the light source, the density of photons is far more than the single-photon level, and the path difference of the long and short paths is far more than the longitudinal coherence length of the laser diode. The temporal stable and clearly visible spatial-distributed pattern, i.e. first-order interference fringes, was observed .Contradict to the prediction of single-photon interference mechanism, the interference happened far beyond the coherence length, the occurrence possibility and time duration of the interference fringes decrease with the reduction of mode number of the LD, and the time difference between the fringes disappearance and the light vanish is equal to the time difference of the two paths. After discussion, we came to the conclusion that the observed phenomena can be understood in time-resolved two-photon interference mechanism. We reveal a new method to perform two-photon first-order interference, and this help to understand the nature of two-photon interference and also can be useful for quantum information science.
翻訳日:2024-02-26 16:00:41 公開日:2024-02-23
# Descripci\'on autom\'atica de secciones delgadas de rocas: una aplicaci\on Web

Descripci\'on autom\'atica de secciones delgadas de rocas: una aplicaci\'on Web ( http://arxiv.org/abs/2402.15039v1 )

ライセンス: Link先を確認
Stalyn Paucar, Christian Mej\'ia-Escobar y V\'ictor Collaguazo(参考訳) 様々な岩類の識別と特徴付けは, 鉱業, 石油, 環境, 産業, 建設など, 地質学および関連分野の基本的な活動の1つである。 伝統的に、人間の専門家は、実験室で採取された岩石サンプルを用いて、種類、組成、テクスチャ、形状、その他の性質を分析、説明する責任がある。 結果は経験に基づいて主観的になり、時間と労力の大きな投資を消費します。 本提案では,コンピュータビジョンと自然言語処理を組み合わせた人工知能技術を用いて,岩石の薄断面画像からテクスト的・言語的記述を生成する。 我々は,EfficientNetB7 が抽出した画像の特徴と Transformer ネットワークが生成したテキスト記述とを関連づけたモデルのトレーニング用画像データセットとそのテキスト記述を作成し,精度0.892 とBLEU 値 0.71 に到達した。 このモデルは、研究、専門的、学術的な作業に有用なリソースであり、webアプリケーションを通じて公開するためにデプロイされている。

The identification and characterization of various rock types is one of the fundamental activities for geology and related areas such as mining, petroleum, environment, industry and construction. Traditionally, a human specialist is responsible for analyzing and explaining details about the type, composition, texture, shape and other properties using rock samples collected in-situ or prepared in a laboratory. The results become subjective based on experience, in addition to consuming a large investment of time and effort. The present proposal uses artificial intelligence techniques combining computer vision and natural language processing to generate a textual and verbal description from a thin section image of rock. We build a dataset of images and their respective textual descriptions for the training of a model that associates the relevant features of the image extracted by EfficientNetB7 with the textual description generated by a Transformer network, reaching an accuracy value of 0.892 and a BLEU value of 0.71. This model can be a useful resource for research, professional and academic work, so it has been deployed through a Web application for public use.
翻訳日:2024-02-26 16:00:16 公開日:2024-02-23
# ロボットマニピュレータ設計のためのダイナミクス誘導拡散モデル

Dynamics-Guided Diffusion Model for Robot Manipulator Design ( http://arxiv.org/abs/2402.15038v1 )

ライセンス: Link先を確認
Xiaomeng Xu, Huy Ha, Shuran Song(参考訳) 本研究では,データ駆動による操作操作のためのマニピュレータ形状設計生成フレームワークであるDynamics-Guided Diffusion Modelを提案する。 タスク毎に異なる設計モデルをトレーニングするのではなく、タスク間で共有される学習ダイナミクスネットワークを採用しています。 新たな操作タスクのために、まず個別の動作目標の集合に分解し、ターゲット間の相互作用プロファイルと呼び、各動作を共有動的ネットワークでモデル化する。 ターゲットと予測される相互作用プロファイルから構築された設計目的は、タスクのための指形状の洗練を導くための勾配を提供する。 この洗練処理は、設計目的が分類器ガイダンスとして機能する分類器誘導拡散プロセスとして実行される。 開ループ平行顎運動のみを用いて,センサレス環境下での様々な操作作業の枠組みを評価する。 生成した設計は,平均操作成功率の31.5%,45.3%と,最適化ベースラインと非誘導拡散ベースラインを上回った。 0.8秒以内に設計を生成する能力により、我々のフレームワークは迅速な設計のイテレーションを促進し、ロボット機構設計にデータ駆動アプローチを採用することができる。

We present Dynamics-Guided Diffusion Model, a data-driven framework for generating manipulator geometry designs for a given manipulation task. Instead of training different design models for each task, our approach employs a learned dynamics network shared across tasks. For a new manipulation task, we first decompose it into a collection of individual motion targets which we call target interaction profile, where each individual motion can be modeled by the shared dynamics network. The design objective constructed from the target and predicted interaction profiles provides a gradient to guide the refinement of finger geometry for the task. This refinement process is executed as a classifier-guided diffusion process, where the design objective acts as the classifier guidance. We evaluate our framework on various manipulation tasks, under the sensor-less setting using only an open-loop parallel jaw motion. Our generated designs outperform optimization-based and unguided diffusion baselines relatively by 31.5% and 45.3% on average manipulation success rate. With the ability to generate a design within 0.8 seconds, our framework could facilitate rapid design iteration and enhance the adoption of data-driven approaches for robotic mechanism design.
翻訳日:2024-02-26 15:59:53 公開日:2024-02-23
# 正統量子力学の双対力学的基礎

The Dual Dynamical Foundation of Orthodox Quantum Mechanics ( http://arxiv.org/abs/2402.15031v1 )

ライセンス: Link先を確認
Diana Taschetto and Ricardo Correa da Silva(参考訳) 本稿では, 数学的, 哲学的, 歴史的解析を組み合わさって, 正統派量子力学の形式論の動的基礎を包括的に研究する。 結果は以下のとおりである。 (i) 行列力学のテネットから標準交換関係(ccr)を推論すること。 (ii)joas と lehner の 2009 年の調査で改善されるだけでなく、ccr が波動方程式の最初の導出から必要性に従うことを証明し、ccr が行列力学と等価性を追求するために schr\"odinger によってのみ証明されたという一般的な誤解を是正する、シュル=オディンガーの最初の導出の意味に関する議論。 (iii)f.a.ミュラーの主題の古典的扱いを改善する行列と波動力学の等価性に関わる数学的事実と要件に関する議論 (iv) 行列と波動力学の等価性は、正統量子力学の力学的な仮定であるフォン・ノイマンのプロセス1とプロセス2の両方が従う双対作用汎関数の形式的要件によって必要となること。 (v)批判的な評価 (iii)及び (iv) フォン・ノイマンのヒルベルト空間上の統一量子力学の構成について。 ポイント (iv)が主な成果です。 これは、物理理論の動力学が作用関数から従わなければならないという物理学の黄金律に例外なく、正統的な量子力学が例外ではないという事実を無視する。 もし正統的な量子力学が、行列と波動力学の同値性の仮定に基づいているとして、フォン・ノイマンが言うように、この「垂直双対力学」を持つならば、同値が特異な双対作用を仮定しているからである。

This paper combines mathematical, philosophical, and historical analyses in a comprehensive investigation of the dynamical foundations of the formalism of orthodox quantum mechanics. The results obtained include: (i) A deduction of the canonical commutation relations (CCR) from the tenets of Matrix Mechanics; (ii) A discussion of the meaning of Schr\"odinger's first derivation of the wave equation that not only improves on Joas and Lehner's 2009 investigation on the subject but also demonstrates that the CCR follow of necessity from Schr\"odinger's first derivation of the wave equation, thus correcting the common misconception that the CCR were only posited by Schr\"odinger to pursue equivalence with Matrix Mechanics; (iii) A discussion of the mathematical facts and requirements involved in the equivalence of Matrix and Wave Mechanics that improves on F. A. Muller's classical treatment of the subject; (iv) A proof that the equivalence of Matrix and Wave Mechanics is necessitated by the formal requirements of a dual action functional from which both the dynamical postulates of orthodox quantum mechanics, von Neumann's process 1 and process 2, follow; (v) A critical assessment, based on (iii) and (iv), of von Neumann's construction of unified quantum mechanics over Hilbert space. Point (iv) is our main result. It brings to the open the important, but hitherto ignored, fact that orthodox quantum mechanics is no exception to the golden rule of physics that the dynamics of a physical theory must follow from the action functional. If orthodox quantum mechanics, based as it is on the assumption of the equivalence of Matrix and Wave Mechanics, has this "peculiar dual dynamics," as von Neumann called it, this is so because by assuming the equivalence one has been assuming a peculiar dual action.
翻訳日:2024-02-26 15:59:36 公開日:2024-02-23
# 量子アルゴリズムを用いた2段階確率最適化プログラムの期待値関数の計算

Calculating the expected value function of a two-stage stochastic optimization program with a quantum algorithm ( http://arxiv.org/abs/2402.15029v1 )

ライセンス: Link先を確認
Caleb Rotello, Peter Graf, Matthew Reynolds, Cody James Winkleblack, Wesley Jones(参考訳) 確率的最適化問題は不確実性の下でのシステムの操作の強力なモデルであり、一般に計算集約的な解法である。 2段階確率最適化は、目標関数が将来の決定の予測コストを計算し、現在の最良の決定を知らせる問題である。 一般に、この期待値の近似でさえ#pハード問題である。 本稿では,2段階確率最適化問題における期待値関数を,確率変数の複雑性から大きく独立して推定する量子アルゴリズムを提案する。 提案アルゴリズムは,(1) キュービットのレジスタにランダム変数を表現し,このレジスタをコストハミルトニアンがキュービットのプライマリシステムに作用する制御論理として用いることにより,演算子アンサッツ(QAOA)をアニーリングスケジュールに従って演算子アンサッツを用いて,各シナリオの最小決定に並列に収束させる。 次に、量子振幅推定(QAE)を用いて、シナリオごとの最適化波動関数の期待値関数を近似する。 1)における手順のアニール時間は,確率分布のシナリオ数とは無関係であることを示す。 さらに、qaeにおける推定誤差は、従来のモンテカルロサンプリングにおける平方根の逆収束とは対照的に、アルゴリズムの「繰り返し」数で逆線形に収束する。 QAOA と QAE はいずれも,従来の計算法に比べて多項式の優位性が期待されているため,我々のアルゴリズムは期待値関数を計算するために,古典的手法よりも多項式の優位性が期待できる。 我々は,再生可能エネルギーと気象の不確実性を備えた電力網の運用に触発された簡単な最適化問題に対してアルゴリズムを実装し,議論を裏付ける数値的証拠を与える。

Stochastic optimization problems are powerful models for the operation of systems under uncertainty and are in general computationally intensive to solve. Two-stage stochastic optimization is one such problem, where the objective function involves calculating the expected cost of future decisions to inform the best decision in the present. In general, even approximating this expectation value is a #P-Hard problem. We provide a quantum algorithm to estimate the expected value function in a two-stage stochastic optimization problem in time complexity largely independent from the complexity of the random variable. Our algorithm works in two steps: (1) By representing the random variable in a register of qubits and using this register as control logic for a cost Hamiltonian acting on the primary system of qubits, we use the quantum alternating operator ansatz (QAOA) with operator angles following an annealing schedule to converge to the minimal decision for each scenario in parallel. (2) We then use Quantum Amplitude Estimation (QAE) to approximate the expected value function of the per-scenario optimized wavefunction. We show that the annealing time of the procedure in (1) is independent of the number of scenarios in the probability distribution. Additionally, estimation error in QAE converges inverse-linear in the number of "repetitions" of the algorithm, as opposed to converging as the inverse of the square root in traditional Monte Carlo sampling. Because both QAOA and QAE are expected to have polynomial advantage over their classical computing counterparts, we expect our algorithm to have polynomial advantage over classical methods to compute the expected value function. We implement our algorithms for a simple optimization problem inspired by operating the power grid with renewable generation and uncertainty in the weather, and give numerical evidence to support our arguments.
翻訳日:2024-02-26 15:59:00 公開日:2024-02-23
# PEMT:パラメータ効率のよい移動学習を可能にするマルチタスク相関ガイド付きMixture-of-Experts

PEMT: Multi-Task Correlation Guided Mixture-of-Experts Enables Parameter-Efficient Transfer Learning ( http://arxiv.org/abs/2402.15082v1 )

ライセンス: Link先を確認
Zhisheng Lin, Han Fu, Chenghao Liu, Zhuo Li, Jianling Sun(参考訳) パラメータ効率のよい微調整(PEFT)は、事前学習された言語モデルを様々なタスクに効率的に適応するための有効な方法として登場した。 近年,性能向上のために,複数のタスクから下流目標タスクに知識を移すことへの関心が高まっている。 しかし、現在のアプローチでは、個々のタスクに対してアダプタを訓練するか、ソースタスクから共有知識を抽出するか、タスク固有の知識とソースとターゲットタスクの相関を十分に活用できない。 これらの制約を克服するために,マルチタスク変換学習に基づくパラメータ効率の高いファインチューニングフレームワークPEMTを提案する。 PEMTは、Mix-of-experts (MoE)フレームワークを拡張して、ソースタスクでトレーニングされたアダプタの重み付けの組み合わせとして、転送可能な知識をキャプチャする。 これらの重みはゲート単位で決定され、タスク記述プロンプトベクトルを用いてターゲットと各ソースタスク間の相関を測定する。 また,タスク固有の知識を十分に活用するために,ゲートユニットの空き度を改善するタスクスペーサビリティ損失を提案する。 我々は17のデータセットにまたがる幅広いタスクについて実験を行う。 実験の結果,PEMT は完全微調整よりも安定的に改善され,各種タスクにおける知識伝達手法が改良された。 その結果,複数のタスクにまたがる知識と相関機能を十分に活用できる手法の有効性が浮き彫りになった。

Parameter-efficient fine-tuning (PEFT) has emerged as an effective method for adapting pre-trained language models to various tasks efficiently. Recently, there has been a growing interest in transferring knowledge from one or multiple tasks to the downstream target task to achieve performance improvements. However, current approaches typically either train adapters on individual tasks or distill shared knowledge from source tasks, failing to fully exploit task-specific knowledge and the correlation between source and target tasks. To overcome these limitations, we propose PEMT, a novel parameter-efficient fine-tuning framework based on multi-task transfer learning. PEMT extends the mixture-of-experts (MoE) framework to capture the transferable knowledge as a weighted combination of adapters trained on source tasks. These weights are determined by a gated unit, measuring the correlation between the target and each source task using task description prompt vectors. To fully exploit the task-specific knowledge, we also propose the Task Sparsity Loss to improve the sparsity of the gated unit. We conduct experiments on a broad range of tasks over 17 datasets. The experimental results demonstrate our PEMT yields stable improvements over full fine-tuning, and state-of-the-art PEFT and knowledge transferring methods on various tasks. The results highlight the effectiveness of our method which is capable of sufficiently exploiting the knowledge and correlation features across multiple tasks.
翻訳日:2024-02-26 15:52:29 公開日:2024-02-23
# 科学的オープンソースソフトウェアエコシステムを維持するには - astropyプロジェクトから学ぶ

How to Sustain a Scientific Open-Source Software Ecosystem: Learning from the Astropy Project ( http://arxiv.org/abs/2402.15081v1 )

ライセンス: Link先を確認
Jiayi Sun, Aarya Patil, Youhai Li, Jin L.C. Guo, Shurui Zhou(参考訳) 科学オープンソースソフトウェア(OSS)は、透明で協調的な性質を通じて、研究コミュニティに大きな利益をもたらしてきた。 科学的研究におけるその重要な役割を考えると、そのようなソフトウェアの持続可能性を保証することは不可欠である。 初期の研究は、従来の科学ソフトウェアとオープンソースコミュニティのための持続可能性戦略を提案している。 しかし、これらのソリューションが科学OSSとそのより大きなエコシステムの統合フレームワークに容易に適用できるかどうかは不明である。 本研究では,学際的コラボレーション,オープンソースコミュニティ,マルチプロジェクトエコシステムの文脈において,科学ossの持続可能性を高めるための課題と機会について検討する。 我々は,astrophysicsドメインにおいて広く利用されているソフトウェアエコシステムであるastropyプロジェクトについて,混合手法設計手法を用いてケーススタディを行った。 このアプローチには、学際的なチームへの参加に関する中核的な貢献者へのインタビュー、貢献の動機、参加理由、コミュニティを維持するための提案に関する調査、そして最後に、エコシステムレベルでのコラボレーションのためのベストプラクティスを理解するためのクロスリファレンス問題とプルリクエストの分析が含まれる。 本研究は,科学osの維持における大きな課題の意義を明らかにし,これらの課題に取り組むための具体的な提案を提案する。

Scientific open-source software (OSS) has greatly benefited research communities through its transparent and collaborative nature. Given its critical role in scientific research, ensuring the sustainability of such software has become vital. Earlier studies have proposed sustainability strategies for conventional scientific software and open-source communities. However, it remains unclear whether these solutions can be easily adapted to the integrated framework of scientific OSS and its larger ecosystem. This study examines the challenges and opportunities to enhance the sustainability of scientific OSS in the context of interdisciplinary collaboration, open-source community, and multi-project ecosystem. We conducted a case study on a widely-used software ecosystem in the astrophysics domain, the Astropy Project, using a mixed-methods design approach. This approach includes an interview with core contributors regarding their participation in an interdisciplinary team, a survey of disengaged contributors about their motivations for contribution, reasons for disengagement, and suggestions for sustaining the communities, and finally, an analysis of cross-referenced issues and pull requests to understand best practices for collaboration on the ecosystem level. Our study reveals the implications of major challenges for sustaining scientific OSS and proposes concrete suggestions for tackling these challenges.
翻訳日:2024-02-26 15:52:04 公開日:2024-02-23
# プロンプトチューニングに階層的ガイダンスを注入する:多段階インシシット・ディスコリレーション認識のためのパラメータ効率の良いフレームワーク

Infusing Hierarchical Guidance into Prompt Tuning: A Parameter-Efficient Framework for Multi-level Implicit Discourse Relation Recognition ( http://arxiv.org/abs/2402.15080v1 )

ライセンス: Link先を確認
Haodong Zhao, Ruifang He, Mengnan Xiao and Jing Xu(参考訳) マルチレベル暗黙的談話関係認識(MIDRR)は,議論間の階層的談話関係の同定を目的とする。 従来の方法は微調整plmによるプロモーションを実現する。 しかし、データ不足とタスクギャップのため、事前訓練された特徴空間はタスク固有の空間に正確に調整できないため、バニラ空間の崩壊を悪化させることもある。 さらに、MDDRRの階層的意味論の理解は変換をはるかに困難にする。 本稿では,上記の問題を解決するためのプロンプトベースパラメータ効率の高いマルチレベルidrr(pemi)フレームワークを提案する。 まず、パラメータ効率の良いプロンプトチューニングを利用して入力された引数を駆動し、事前学習した空間と一致させ、パラメータの少ない近似を実現する。 さらに,階層型ラベル精錬 (hlr) 法を提案し,階層型ガイドを高速調律に深く統合する手法を提案する。 最後に,ベースラインと比較して約0.1%のトレーニング可能なパラメータを用いてPDTB 2.0と3.0で比較結果を得た。

Multi-level implicit discourse relation recognition (MIDRR) aims at identifying hierarchical discourse relations among arguments. Previous methods achieve the promotion through fine-tuning PLMs. However, due to the data scarcity and the task gap, the pre-trained feature space cannot be accurately tuned to the task-specific space, which even aggravates the collapse of the vanilla space. Besides, the comprehension of hierarchical semantics for MIDRR makes the conversion much harder. In this paper, we propose a prompt-based Parameter-Efficient Multi-level IDRR (PEMI) framework to solve the above problems. First, we leverage parameter-efficient prompt tuning to drive the inputted arguments to match the pre-trained space and realize the approximation with few parameters. Furthermore, we propose a hierarchical label refining (HLR) method for the prompt verbalizer to deeply integrate hierarchical guidance into the prompt tuning. Finally, our model achieves comparable results on PDTB 2.0 and 3.0 using about 0.1% trainable parameters compared with baselines and the visualization demonstrates the effectiveness of our HLR method.
翻訳日:2024-02-26 15:51:42 公開日:2024-02-23
# LLM-CompDroid: 事前訓練された大規模言語モデルによるAndroidアプリの構成互換性バグの修復

LLM-CompDroid: Repairing Configuration Compatibility Bugs in Android Apps with Pre-trained Large Language Models ( http://arxiv.org/abs/2402.15078v1 )

ライセンス: Link先を確認
Zhijie Liu, Yutian Tang, Meiyun Li, Xin Jin, Yunfei Long, Liang Feng Zhang, Xiapu Luo(参考訳) XML設定は、特にUIディスプレイの領域において、Android開発フレームワークに不可欠なものである。 しかし、これらの構成は互換性の問題(バグ)を導入し、その結果、さまざまなAndroid APIバージョン(レベル)で視覚的な結果とシステムがクラッシュする。 本研究では,LCMに基づく構成互換性バグの検出と修復のためのアプローチを系統的に検討する。 我々の研究は、これらのバグを効果的に識別し解決する上でのLLMのある種の制限を強調し、また従来のツールが抱える複雑で不適切な問題に対処する可能性を明らかにした。 これらの知見を生かして,LLMの長所と従来のバグ解決ツールを組み合わせたLLM-CompDroidフレームワークを導入する。 LLM-CompDroid-GPT-3.5 と LLM-CompDroid-GPT-4 は最先端ツールConfFix を9.8%以上,Correct@k は10.4%以上上回った。 この革新的なアプローチは、androidアプリケーションの信頼性と堅牢性の向上を約束し、ソフトウェア開発の分野に貴重な貢献をしている。

XML configurations are integral to the Android development framework, particularly in the realm of UI display. However, these configurations can introduce compatibility issues (bugs), resulting in divergent visual outcomes and system crashes across various Android API versions (levels). In this study, we systematically investigate LLM-based approaches for detecting and repairing configuration compatibility bugs. Our findings highlight certain limitations of LLMs in effectively identifying and resolving these bugs, while also revealing their potential in addressing complex, hard-to-repair issues that traditional tools struggle with. Leveraging these insights, we introduce the LLM-CompDroid framework, which combines the strengths of LLMs and traditional tools for bug resolution. Our experimental results demonstrate a significant enhancement in bug resolution performance by LLM-CompDroid, with LLM-CompDroid-GPT-3.5 and LLM-CompDroid-GPT-4 surpassing the state-of-the-art tool, ConfFix, by at least 9.8% and 10.4% in both Correct and Correct@k metrics, respectively. This innovative approach holds promise for advancing the reliability and robustness of Android applications, making a valuable contribution to the field of software development.
翻訳日:2024-02-26 15:51:25 公開日:2024-02-23
# ハイブリッドベイズネットワークモデルにおける分割表現を分解するスタック化因子

Stacking Factorizing Partitioned Expressions in Hybrid Bayesian Network Models ( http://arxiv.org/abs/2402.15075v1 )

ライセンス: Link先を確認
Peng Lin, Martin Neil and Norman Fenton(参考訳) ハイブリッドベイズネットワーク(HBN)は、離散変数および連続変数上の分割式として定義された複素条件確率分布(CPD)を含む。 これらのcpdのサイズは、離散的推論を使用する場合の親ノード数で指数関数的に増大し、結果として著しい非効率をもたらす。 通常、CDDのサイズを減らす効果的な方法は、二分分解(BF)アルゴリズムを使用して、CPDの統計関数や算術関数を分解し、接続された親ノードの数をサイズ2の集合に分解することである。 しかし、BFアルゴリズムは分割式を扱うように設計されていない。 そこで本研究では,分割式を分解する積み重ね係数分解法(SF)を提案する。 SFアルゴリズムは、元の分割式における密度を漸進的に再構成する中間ノードを生成し、その結果のHBNにおいて、各子ノードに2つ以上の連続親ノードが接続されないようにする。 SFは独立して、またはBFアルゴリズムと組み合わせることができる。 SF+BF アルゴリズムは CPD サイズを大幅に削減し,モデルのツリー幅の低減に寄与し,効率を向上することを示した。

Hybrid Bayesian networks (HBN) contain complex conditional probabilistic distributions (CPD) specified as partitioned expressions over discrete and continuous variables. The size of these CPDs grows exponentially with the number of parent nodes when using discrete inference, resulting in significant inefficiency. Normally, an effective way to reduce the CPD size is to use a binary factorization (BF) algorithm to decompose the statistical or arithmetic functions in the CPD by factorizing the number of connected parent nodes to sets of size two. However, the BF algorithm was not designed to handle partitioned expressions. Hence, we propose a new algorithm called stacking factorization (SF) to decompose the partitioned expressions. The SF algorithm creates intermediate nodes to incrementally reconstruct the densities in the original partitioned expression, allowing no more than two continuous parent nodes to be connected to each child node in the resulting HBN. SF can be either used independently or combined with the BF algorithm. We show that the SF+BF algorithm significantly reduces the CPD size and contributes to lowering the tree-width of a model, thus improving efficiency.
翻訳日:2024-02-26 15:50:58 公開日:2024-02-23
# Adaptive Preference Elicitation によるコスト適応型レコメンデーション

Cost-Adaptive Recourse Recommendation by Adaptive Preference Elicitation ( http://arxiv.org/abs/2402.15073v1 )

ライセンス: Link先を確認
Duy Nguyen, Bao Nguyen, Viet Anh Nguyen(参考訳) algorithmic recourseは、不利な機械学習分類決定を覆すために、被験者にコスト効率の良いアクションを推奨する。 文献における既存の手法の多くは、コスト関数に関する完全な知識の仮定の下でリコースを生成する。 実世界の実践では、被験者は異なる好みを持ち、対象の原価関数に関する不完全な情報をもたらす可能性がある。 本稿では,選好学習をリコース生成問題に統合する2段階アプローチを提案する。 最初のステップでは、被験者のマハラノビス行列コストの信頼性セットを逐次改善するための質問応答フレームワークを設計する。 次に,コストマトリックスの信頼度集合全体を考慮しつつ,妥当性を保証するグラデーションベースとグラフベースコスト適応リコースという2つの手法を用いてリコースを生成する。 この数値評価は,コスト効率の高いリコースレコメンデーションの提供において,最先端のベースラインに対するアプローチの利点を示すものである。

Algorithmic recourse recommends a cost-efficient action to a subject to reverse an unfavorable machine learning classification decision. Most existing methods in the literature generate recourse under the assumption of complete knowledge about the cost function. In real-world practice, subjects could have distinct preferences, leading to incomplete information about the underlying cost function of the subject. This paper proposes a two-step approach integrating preference learning into the recourse generation problem. In the first step, we design a question-answering framework to refine the confidence set of the Mahalanobis matrix cost of the subject sequentially. Then, we generate recourse by utilizing two methods: gradient-based and graph-based cost-adaptive recourse that ensures validity while considering the whole confidence set of the cost matrix. The numerical evaluation demonstrates the benefits of our approach over state-of-the-art baselines in delivering cost-efficient recourse recommendations.
翻訳日:2024-02-26 15:50:39 公開日:2024-02-23
# データとアンサンブルによるワンショットフェデレーション学習の強化

Enhancing One-Shot Federated Learning Through Data and Ensemble Co-Boosting ( http://arxiv.org/abs/2402.15070v1 )

ライセンス: Link先を確認
Rong Dai, Yonggang Zhang, Ang Li, Tongliang Liu, Xun Yang, Bo Han(参考訳) ワンショットフェデレートラーニング(OFL)は,単一のコミュニケーションラウンドを通じてグローバルサーバモデルのトレーニングを可能にする,有望な学習パラダイムとなっている。 OFLでは、サーバモデルは、すべてのクライアントモデル(アンサンブル)から知識を蒸留することで集約される。 本稿では,サーバモデルの性能が,合成データとアンサンブルモデルの質と本質的に関連していることを示す。 oflを促進するために,合成データとアンサンブルモデルが相互に相互に強化する新しい枠組みである共ブースティングを提案する。 特に、Co-Boostingは現在のアンサンブルモデルを利用して、高品質なサンプルを対角的に合成する。 これらの硬いサンプルを用いて、各クライアントモデルに対する感性重みを調整することにより、アンサンブルモデルの品質を高める。 その結果、Co-Boostingは定期的に高品質のデータとアンサンブルモデルを達成する。 大規模な実験により、Co-Boostingは様々な設定下で既存のベースラインを大幅に上回ることを示した。 さらに、コブースティングは、クライアントのローカルトレーニングへの調整の必要性をなくし、追加のデータやモデル送信を必要とせず、クライアントモデルに異種アーキテクチャを持たせることができる。

One-shot Federated Learning (OFL) has become a promising learning paradigm, enabling the training of a global server model via a single communication round. In OFL, the server model is aggregated by distilling knowledge from all client models (the ensemble), which are also responsible for synthesizing samples for distillation. In this regard, advanced works show that the performance of the server model is intrinsically related to the quality of the synthesized data and the ensemble model. To promote OFL, we introduce a novel framework, Co-Boosting, in which synthesized data and the ensemble model mutually enhance each other progressively. Specifically, Co-Boosting leverages the current ensemble model to synthesize higher-quality samples in an adversarial manner. These hard samples are then employed to promote the quality of the ensemble model by adjusting the ensembling weights for each client model. Consequently, Co-Boosting periodically achieves high-quality data and ensemble models. Extensive experiments demonstrate that Co-Boosting can substantially outperform existing baselines under various settings. Moreover, Co-Boosting eliminates the need for adjustments to the client's local training, requires no additional data or model transmission, and allows client models to have heterogeneous architectures.
翻訳日:2024-02-26 15:50:25 公開日:2024-02-23
# 常温における光ファイバ中のネオジムイオンからの単一光子生成

Single-photon generation from a neodymium ion in optical fiber at room temperature ( http://arxiv.org/abs/2402.15064v1 )

ライセンス: Link先を確認
Kaito Shimizu, Kai Inoue, Kazutaka Katsumata, Ayumu Naruki, Mark Sadgrove, Kaoru Sanaka(参考訳) 単一光子生成の実現は、様々な量子情報技術を実装する上で重要である。 光ファイバーにおける希土類イオンの使用は、室温での操作能力とコストの低いため、期待できる単一光子生成法である。 ネオジムイオンは、現在の業界で最も商業的に手頃な価格のレアアース材料であるため、特に興味深い。 ネオジムイオンは豊富なエネルギー準位構造を持つ利点もあり、可視光から準電気通信波長まで放射される単一光子にいくつかの波長を与えることができる。 本研究では, テープ状シリカ繊維の室温単一ネオジムイオンを用いた単一光子生成実験を行った。 本研究は、低コストの波長選択可能な単一光子源およびフォトニック量子応用のためのプラットフォームとして重要な意味を持つ。

The realization of single-photon generation is important for implementing various quantum information technologies. The use of rare-earth ions in an optical fiber is a promising single photon generation method due to its ability to operate at room temperature as well as the low cost involved. Neodymium ions are especially interesting because the ions are one of the most commercially affordable rare-earth materials in the current industry. The neodymium ion also has the advantage of having a rich energy level structure, which offers several possible wavelengths for emitted single photons from visible to near-telecommunication wavelengths. In this paper, we experimentally demonstrated single-photon generation using an isolated single neodymium ion in tapered silica fiber at room temperature. Our results have significant implications as a platform for low-cost wavelength-selectable single-photon sources and photonic quantum applications.
翻訳日:2024-02-26 15:50:05 公開日:2024-02-23
# ゴッチャ! 答えられない質問で私を騙すな! 未知の質問に対する自己調整型大規模言語モデル

Gotcha! Don't trick me with unanswerable questions! Self-aligning Large Language Models for Responding to Unknown Questions ( http://arxiv.org/abs/2402.15062v1 )

ライセンス: Link先を確認
Yang Deng, Yong Zhao, Moxin Li, See-Kiong Ng, Tat-Seng Chua(参考訳) 大きな言語モデル(LLM)が疑問に答える驚くべき能力があるにもかかわらず、疑問が決定的な答えを持っていなくても、しばしばかなりのレベルの自信を示す。 これらの未知の質問に対して幻覚的な回答を与えるのを避けるため、既存の研究は通常、これらの質問に答えることを拒否したアプローチを調査する。 そこで本研究では,様々な未知の質問に対する応答性を高めるために,llm自体を活用するための新しいスケーラブルな自己調整手法を提案する。 具体的には、まず2段階のクラス認識型自己提示手法を用いて、未知の質問応答データを大量に生成する。 次に, LLM自体を微調整し, 未知の質問に対する応答を所望の通りに調整するために, 偏差駆動による自己計算を行い, 有資格データを選択する。 未知の4種類の質問にまたがる2つのデータセットの実験結果は、3種類のタスク定式化の観点から、既存のベースラインよりも自己鎮静法が優れていることを検証している。

Despite the remarkable abilities of Large Language Models (LLMs) to answer questions, they often display a considerable level of overconfidence even when the question does not have a definitive answer. To avoid providing hallucinated answers to these unknown questions, existing studies typically investigate approaches to refusing to answer these questions. In this work, we propose a novel and scalable self-alignment method to utilize the LLM itself to enhance its response-ability to different types of unknown questions, being capable of not only refusing to answer but also providing explanation to the unanswerability of unknown questions. Specifically, the Self-Align method first employ a two-stage class-aware self-augmentation approach to generate a large amount of unknown question-response data. Then we conduct disparity-driven self-curation to select qualified data for fine-tuning the LLM itself for aligning the responses to unknown questions as desired. Experimental results on two datasets across four types of unknown questions validate the superiority of the Self-Align method over existing baselines in terms of three types of task formulation.
翻訳日:2024-02-26 15:49:51 公開日:2024-02-23
# ドメイン固有機械翻訳のための微調整大言語モデル

Fine-tuning Large Language Models for Domain-specific Machine Translation ( http://arxiv.org/abs/2402.15061v1 )

ライセンス: Link先を確認
Jiawei Zheng, Hanghai Hong, Xiaoli Wang, Jingsong Su, Yonggui Liang and Shikai Wu(参考訳) 大規模言語モデル(LLM)は機械翻訳(MT)に大きな進歩をもたらした。 しかし、ドメイン特異的MTのポテンシャルはいまだ未解明のままである。 現在、LLMベースのMTシステムはいくつかの課題に直面している。 まず、文脈内学習のLLMにおいて、その効果は入力翻訳例に非常に敏感であり、その処理により推論コストが増大する可能性がある。 しばしば過剰な世代のために余分な後処理を必要とする。 第二に、ドメイン固有のデータを微調整するLLMは、ドメイン適応のための高いトレーニングコストを必要とすることが多く、特殊化の過度により、LLMのゼロショットMT能力を弱める可能性がある。 上記の方法はドメイン転送のシナリオで稀な単語を翻訳するのに苦労する。 これらの課題に対処するために,LlamaIT と呼ばれる,ドメイン固有の MT タスクのための汎用 LLM を効果的かつ効率的に微調整する,プロンプト指向の微調整手法を提案する。 まず、タスク固有のミックスドメインデータセットを構築し、LLMをLoRAで微調整する。 これにより、入力翻訳例、後処理、過剰特殊化の必要性がなくなる。 命令によるゼロショットプロンプトにより、MTタスクを推論時にターゲット領域に適応させる。 希少語に対するmt能力をさらに高めるため、ドメイン固有のバイリンガル語彙を組み込んだ新しいプロンプトを構築した。 また、公開データセットと自己構築データセットの両方について広範な実験を行います。 その結果,LlamaITはゼロショットMT能力を保ちながら,LLMのドメイン固有MT能力を著しく向上させることができることがわかった。

Large language models (LLMs) have made significant progress in machine translation (MT). However, their potential in domain-specific MT remains under-explored. Current LLM-based MT systems still face several challenges. First, for LLMs with in-context learning, their effectiveness is highly sensitive to input translation examples, and processing them can increase inference costs. They often require extra post-processing due to over-generation. Second, LLMs with fine-tuning on domain-specific data often require high training costs for domain adaptation, and may weaken the zero-shot MT capabilities of LLMs due to over-specialization. The aforementioned methods can struggle to translate rare words in domain transfer scenarios. To address these challenges, this paper proposes a prompt-oriented fine-tuning method, denoted as LlamaIT, to effectively and efficiently fine-tune a general-purpose LLM for domain-specific MT tasks. First, we construct a task-specific mix-domain dataset, which is then used to fine-tune the LLM with LoRA. This can eliminate the need for input translation examples, post-processing, or over-specialization. By zero-shot prompting with instructions, we adapt the MT tasks to the target domain at inference time. To further elicit the MT capability for rare words, we construct new prompts by incorporating domain-specific bilingual vocabulary. We also conduct extensive experiments on both publicly available and self-constructed datasets. The results show that our LlamaIT can significantly enhance the domain-specific MT capabilities of the LLM, meanwhile preserving its zero-shot MT capabilities.
翻訳日:2024-02-26 15:49:32 公開日:2024-02-23
# ColBERT-XM:ゼロショット多言語情報検索のためのモジュール型マルチベクトル表現モデル

ColBERT-XM: A Modular Multi-Vector Representation Model for Zero-Shot Multilingual Information Retrieval ( http://arxiv.org/abs/2402.15059v1 )

ライセンス: Link先を確認
Antoine Louis, Vageesh Saxena, Gijs van Dijck, Gerasimos Spanakis(参考訳) 最先端のニューラルレトリバーは、主に英語のような高リソース言語に焦点を当てており、他の言語を含む検索シナリオへの導入を妨げる。 現在のアプローチでは、言語間転送が可能な多言語事前学習言語モデルを利用することで、非英語言語における高品質なラベル付きデータの欠如を回避する。 しかし、これらのモデルは、複数の言語にまたがるタスク固有の微調整を必要とし、しばしば事前訓練されたコーパスにおいて最小限の表現を持つ言語では性能が悪く、事前訓練後の新しい言語の導入に苦慮している。 本稿では,1つの高リソース言語のリッチデータから学習し,多種多様な言語へのゼロショット転送を効果的に実現し,言語固有のラベル付きデータの必要性を解消した,新しいモジュール型高密度検索モデルを提案する。 我々のモデルであるColBERT-XMは、様々な言語でより広範なデータセットで訓練された既存の最先端の多言語検索と競合する性能を示す。 さらに分析したところ、我々のモジュラーアプローチはデータ効率が高く、分配外データに効果的に適応し、エネルギー消費と二酸化炭素排出量を著しく削減することがわかった。 ColBERT-XMはその性能をゼロショットシナリオで示すことで、より持続的で包括的な検索システムへとシフトし、多くの言語で効果的な情報アクセスを可能にした。 コミュニティ向けのコードとモデルを公開しています。

State-of-the-art neural retrievers predominantly focus on high-resource languages like English, which impedes their adoption in retrieval scenarios involving other languages. Current approaches circumvent the lack of high-quality labeled data in non-English languages by leveraging multilingual pretrained language models capable of cross-lingual transfer. However, these models require substantial task-specific fine-tuning across multiple languages, often perform poorly in languages with minimal representation in the pretraining corpus, and struggle to incorporate new languages after the pretraining phase. In this work, we present a novel modular dense retrieval model that learns from the rich data of a single high-resource language and effectively zero-shot transfers to a wide array of languages, thereby eliminating the need for language-specific labeled data. Our model, ColBERT-XM, demonstrates competitive performance against existing state-of-the-art multilingual retrievers trained on more extensive datasets in various languages. Further analysis reveals that our modular approach is highly data-efficient, effectively adapts to out-of-distribution data, and significantly reduces energy consumption and carbon emissions. By demonstrating its proficiency in zero-shot scenarios, ColBERT-XM marks a shift towards more sustainable and inclusive retrieval systems, enabling effective information accessibility in numerous languages. We publicly release our code and models for the community.
翻訳日:2024-02-26 15:49:07 公開日:2024-02-23
# mixup barcodes: 点雲間の幾何学的位相的相互作用の定量化

Mixup Barcodes: Quantifying Geometric-Topological Interactions between Point Clouds ( http://arxiv.org/abs/2402.15058v1 )

ライセンス: Link先を確認
Hubert Wagner, Nickolas Arustamyan, Matthew Wheeler, Peter Bubenik(参考訳) 標準持続ホモロジーと画像永続ホモロジーを組み合わせることで、形状やそれらの相互作用を特徴付ける新しい方法を定義する。 特に,(1)任意の次元の2つの点集合間の幾何学的トポロジカル相互作用(ミックスアップ)をキャプチャするミキシングバーコード,(2)単純な要約統計,総ミキシングアップ,および合計パーセンテージのミキシングアップ,(3)これらの相互作用の複雑さを1つの数として定量化するソフトウェアツールを紹介する。 概念実証として、このツールを機械学習から発生する問題に適用する。 特に,異なるクラスの埋め込みにおける絡み合いについて検討する。 その結果, 位相混合は低次元データと高次元データの相互作用を特徴付ける有用な手法であることが示唆された。 持続的ホモロジーの典型的な使用法と比較して、この新しいツールは、しばしば望ましい位相的特徴の幾何学的位置に敏感である。

We combine standard persistent homology with image persistent homology to define a novel way of characterizing shapes and interactions between them. In particular, we introduce: (1) a mixup barcode, which captures geometric-topological interactions (mixup) between two point sets in arbitrary dimension; (2) simple summary statistics, total mixup and total percentage mixup, which quantify the complexity of the interactions as a single number; (3) a software tool for playing with the above. As a proof of concept, we apply this tool to a problem arising from machine learning. In particular, we study the disentanglement in embeddings of different classes. The results suggest that topological mixup is a useful method for characterizing interactions for low and high-dimensional data. Compared to the typical usage of persistent homology, the new tool is sensitive to the geometric locations of the topological features, which is often desirable.
翻訳日:2024-02-26 15:48:41 公開日:2024-02-23
# 対話型webエージェントのマルチターン命令追従について

On the Multi-turn Instruction Following for Conversational Web Agents ( http://arxiv.org/abs/2402.15057v1 )

ライセンス: Link先を確認
Yang Deng, Xuan Zhang, Wenxuan Zhang, Yifei Yuan, See-Kiong Ng, Tat-Seng Chua(参考訳) 大規模言語モデル(llm)を活用したwebエージェントは、複雑なwebベースの環境でのマルチステップインタラクションの計画と実行に際し、幅広いwebナビゲーションタスクを実現している。 これらの進歩にもかかわらず、LLMを利用したエージェントが現実のシナリオでシーケンシャルなユーザー命令を効果的に扱える可能性については、完全には研究されていない。 本研究では,マルチトゥルンマインド2Web(MT-Mind2Web)という特別に開発されたデータセットによって,ユーザと環境の両方で複数回にまたがる高度なインタラクションを必要とする,会話型Webナビゲーションのタスクを紹介する。 さらに,LLMのコンテキスト長と会話タスクのコンテキスト依存性の問題に対処するために,メモリ利用と自己回帰技術を用いた自己反射型メモリ拡張計画(Self-MAP)という新しいフレームワークを提案する。 MT-Mind2Webデータセットのベンチマークを行い,提案手法の有効性を検証する。

Web agents powered by Large Language Models (LLMs) have demonstrated remarkable abilities in planning and executing multi-step interactions within complex web-based environments, fulfilling a wide range of web navigation tasks. Despite these advancements, the potential for LLM-powered agents to effectively engage with sequential user instructions in real-world scenarios has not been fully explored. In this work, we introduce a new task of Conversational Web Navigation, which necessitates sophisticated interactions that span multiple turns with both the users and the environment, supported by a specially developed dataset named Multi-Turn Mind2Web (MT-Mind2Web). To tackle the limited context length of LLMs and the context-dependency issue of the conversational tasks, we further propose a novel framework, named self-reflective memory-augmented planning (Self-MAP), which employs memory utilization and self-reflection techniques. Extensive experiments are conducted to benchmark the MT-Mind2Web dataset, and validate the effectiveness of the proposed method.
翻訳日:2024-02-26 15:48:23 公開日:2024-02-23
# トランスフォーマーにおけるコンテキストルックアップの解釈:注意-mlp相互作用の検討

Interpreting Context Look-ups in Transformers: Investigating Attention-MLP Interactions ( http://arxiv.org/abs/2402.15055v1 )

ライセンス: Link先を確認
Clement Neo, Shay B. Cohen, Fazl Barez(参考訳) 本稿では,特定のトークンを予測する多層パーセプトロンにおいて,アテンションヘッドと「次世代」ニューロンとの相互作用について検討する。 GPT-4のようなLCMにこれらのモデル内部を説明することで、次のニューロンを活性化する注意機構を解明することができる。 分析により、特定のトークンの予測に関連する文脈を認識し、残りの接続を介して関連するニューロンを活性化する注意ヘッドが特定される。 我々は、同じプロンプトで同じnext-tokenニューロンを一貫して活性化する以前の層において、特に頭に焦点を当てている。 これらの異なるアクティベーションパターンを探索すると、異なる言語文脈に特化する頭部が特定のトークンを生成することに結びついていることが分かる。 本手法は,LLMにおける文脈依存の特殊処理を実現するために,ニューラルネットワークと孤立成分の探索を組み合わせる。

In this paper, we investigate the interplay between attention heads and specialized "next-token" neurons in the Multilayer Perceptron that predict specific tokens. By prompting an LLM like GPT-4 to explain these model internals, we can elucidate attention mechanisms that activate certain next-token neurons. Our analysis identifies attention heads that recognize contexts relevant to predicting a particular token, activating the associated neuron through the residual connection. We focus specifically on heads in earlier layers consistently activating the same next-token neuron across similar prompts. Exploring these differential activation patterns reveals that heads that specialize for distinct linguistic contexts are tied to generating certain tokens. Overall, our method combines neural explanations and probing isolated components to illuminate how attention enables context-dependent, specialized processing in LLMs.
翻訳日:2024-02-26 15:48:04 公開日:2024-02-23
# 対数ソボレフ不等式を用いた非線形ベイズ最適実験設計

Nonlinear Bayesian optimal experimental design using logarithmic Sobolev inequalities ( http://arxiv.org/abs/2402.15053v1 )

ライセンス: Link先を確認
Fengyi Li, Ayoub Belhadji, Youssef Marzouk(参考訳) 本研究では,選択したサブセットと基礎となるパラメータ間の相互情報(mi)を最大化することを目的とした,より大きな候補プールから$k$実験を選択する問題を検討する。 この組合せ最適化問題に対する正確な解を見つけることは、組合せ探索の複雑さだけでなく、非線形/非ガウス的な設定でMIを評価することの難しさから計算的にコストがかかる。 本稿では,log-sobolev不等式を用いた新しい計算量的に安価なmi下限法を提案する。 提案手法は, ランダム選択法, ガウス近似, ネストしたMIのモンテカルロ推定器(NMC)を, 非加法雑音をもつ非線形モデルに対する最適設計を含む様々な設定で上回ることを示す。

We study the problem of selecting $k$ experiments from a larger candidate pool, where the goal is to maximize mutual information (MI) between the selected subset and the underlying parameters. Finding the exact solution is to this combinatorial optimization problem is computationally costly, not only due to the complexity of the combinatorial search but also the difficulty of evaluating MI in nonlinear/non-Gaussian settings. We propose greedy approaches based on new computationally inexpensive lower bounds for MI, constructed via log-Sobolev inequalities. We demonstrate that our method outperforms random selection strategies, Gaussian approximations, and nested Monte Carlo (NMC) estimators of MI in various settings, including optimal design for nonlinear models with non-additive noise.
翻訳日:2024-02-26 15:47:49 公開日:2024-02-23
# 大規模マルチモーダルエージェント:調査

Large Multimodal Agents: A Survey ( http://arxiv.org/abs/2402.15116v1 )

ライセンス: Link先を確認
Junlin Xie and Zhihong Chen and Ruifei Zhang and Xiang Wan and Guanbin Li(参考訳) 大規模言語モデル(LLM)は、テキストベースのAIエージェントをパワーアップし、人間に似た意思決定と推論能力を持つ。 同時に、これらのLLMベースのAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。 この拡張により、AIエージェントは多様なマルチモーダルユーザクエリを解釈し、応答し、より複雑でニュアンスなタスクを処理できるようになる。 本稿では,LLM駆動型マルチモーダルエージェントの系統的レビューを行い,これを大規模マルチモーダルエージェント(略してLMA)と呼ぶ。 まず,LMAの開発に係わる重要な要素について紹介し,研究対象を4つの異なるタイプに分類する。 次に,複数のlmasを統合した協調フレームワークをレビューし,協調的有効性を高める。 この分野で重要な課題の1つは、既存の研究で使われている多様な評価方法であり、異なるLMA間の効果的な比較を妨げている。 そこで我々は,これらの評価手法をコンパイルし,ギャップを埋める包括的な枠組みを確立する。 このフレームワークは評価を標準化し、より意味のある比較を促進することを目的としている。 本総説では,LMAの広範な応用を概説し,今後の研究方向性を提案する。 私たちの議論は、この急速に発展する分野における今後の研究に有用な洞察とガイドラインを提供することを目的としています。 最新のリソースリストはhttps://github.com/jun0wanan/awesome-large-multimodal-agentsで入手できる。

Large language models (LLMs) have achieved superior performance in powering text-based AI agents, endowing them with decision-making and reasoning abilities akin to humans. Concurrently, there is an emerging research trend focused on extending these LLM-powered AI agents into the multimodal domain. This extension enables AI agents to interpret and respond to diverse multimodal user queries, thereby handling more intricate and nuanced tasks. In this paper, we conduct a systematic review of LLM-driven multimodal agents, which we refer to as large multimodal agents ( LMAs for short). First, we introduce the essential components involved in developing LMAs and categorize the current body of research into four distinct types. Subsequently, we review the collaborative frameworks integrating multiple LMAs , enhancing collective efficacy. One of the critical challenges in this field is the diverse evaluation methods used across existing studies, hindering effective comparison among different LMAs . Therefore, we compile these evaluation methodologies and establish a comprehensive framework to bridge the gaps. This framework aims to standardize evaluations, facilitating more meaningful comparisons. Concluding our review, we highlight the extensive applications of LMAs and propose possible future research directions. Our discussion aims to provide valuable insights and guidelines for future research in this rapidly evolving field. An up-to-date resource list is available at https://github.com/jun0wanan/awesome-large-multimodal-agents.
翻訳日:2024-02-26 15:44:02 公開日:2024-02-23
# 物理制約付き多項式カオス展開による科学機械学習と不確実性定量化

Physics-constrained polynomial chaos expansion for scientific machine learning and uncertainty quantification ( http://arxiv.org/abs/2402.15115v1 )

ライセンス: Link先を確認
Himanshu Sharma, Luk\'a\v{s} Nov\'ak, Michael D. Shields(参考訳) 本稿では,科学的機械学習(sciml)と不確実性定量化(uq)の両タスクを実行できるサロゲートモデリング手法として,新しい物理制約付き多項式カオス展開を提案する。 提案手法は,SciMLをUQにシームレスに統合し,SciMLタスクの不確かさを効果的に定量化し,SciMLを利用してUQ関連タスクにおける不確実性評価を改善する。 提案するサロゲートモデルでは,初期条件および境界条件の制約を伴う偏微分方程式(pdes)の制御,不等式型制約(単調性,凸性,非ネガティリティなど),限定データ補完のための訓練過程における事前情報の追加など,様々な物理制約を効果的に取り入れることができる。 これにより、物理的に現実的な予測が保証され、サロゲートモデルをトレーニングするための高価な計算モデル評価の必要性が大幅に低減される。 さらに,本手法は,出力の不確かさを効率的に推定するuq機能を備えている。 提案手法の有効性を示すために,決定論的・確率的パラメータを持つ線形・非線形PDE,複雑な物理系のデータ駆動サロゲートモデリング,確率場としてモデル化されたパラメータを持つ確率系のUQなど,多種多様な問題に適用する。

We present a novel physics-constrained polynomial chaos expansion as a surrogate modeling method capable of performing both scientific machine learning (SciML) and uncertainty quantification (UQ) tasks. The proposed method possesses a unique capability: it seamlessly integrates SciML into UQ and vice versa, which allows it to quantify the uncertainties in SciML tasks effectively and leverage SciML for improved uncertainty assessment during UQ-related tasks. The proposed surrogate model can effectively incorporate a variety of physical constraints, such as governing partial differential equations (PDEs) with associated initial and boundary conditions constraints, inequality-type constraints (e.g., monotonicity, convexity, non-negativity, among others), and additional a priori information in the training process to supplement limited data. This ensures physically realistic predictions and significantly reduces the need for expensive computational model evaluations to train the surrogate model. Furthermore, the proposed method has a built-in uncertainty quantification (UQ) feature to efficiently estimate output uncertainties. To demonstrate the effectiveness of the proposed method, we apply it to a diverse set of problems, including linear/non-linear PDEs with deterministic and stochastic parameters, data-driven surrogate modeling of a complex physical system, and UQ of a stochastic system with parameters modeled as random fields.
翻訳日:2024-02-26 15:43:41 公開日:2024-02-23
# MSPipe: 静的認識パイプラインによる効率的な時間的GNNトレーニング

MSPipe: Efficient Temporal GNN Training via Staleness-aware Pipeline ( http://arxiv.org/abs/2402.15113v1 )

ライセンス: Link先を確認
Guangming Sheng, Junwei Su, Chao Huang, Chuan Wu(参考訳) メモリベースの時間グラフニューラルネットワーク(MTGNN)は、ノードメモリモジュールを使用して長期の時間依存を捕捉し保持する時間グラフニューラルネットワークのクラスである。 しかし、MTGNNにおけるメモリモジュールの反復読み込みと更新プロセスにより、最新の情報を得るには、時間的依存関係に従う必要がある。 これによって大きなオーバーヘッドが発生し、トレーニングスループットが制限される。 トレーニングパラダイム、モデルアーキテクチャ、メモリモジュールの欠如などにより、既存の静的GNNの最適化はMTGNNに直接適用できない。 さらに、時間的依存による課題に効果的に対応せず、MTGNNのトレーニングには効果がない。 本稿では,モデル精度を維持しながらトレーニングのスループットを最大化するMTGNNの汎用的で効率的なフレームワークであるMSPipeを提案する。 本設計では, MTGNNにおけるノードメモリ状態のフェッチと更新に, メモリモジュールに安定化を組み込むことで, ユニークな課題に対処する。 しかし、時間依存を壊すためにメモリモジュールに予め定義された固定性を導入するだけで、最適でない性能と異なるモデルやデータセットにまたがる一般化性の欠如に繋がる可能性がある。 これを解決するため,MSPipe にオンラインパイプラインスケジューリングアルゴリズムを導入し,時間依存性を最小限の安定化で戦略的に破壊し,メモリフェッチを遅らせて新たなメモリ状態を得る。 さらに,トレーニングの収束とモデルの精度を高めるため,定常緩和機構を設計する。 収束解析を行い,MSPipeがバニラサンプルベースGNNトレーニングと同じ収束率を維持していることを示す。 実験の結果,MSPipeは精度を犠牲にすることなく最大2.45倍のスピードアップを実現し,MTGNNの効率的なトレーニングに有効であることがわかった。

Memory-based Temporal Graph Neural Networks (MTGNNs) are a class of temporal graph neural networks that utilize a node memory module to capture and retain long-term temporal dependencies, leading to superior performance compared to memory-less counterparts. However, the iterative reading and updating process of the memory module in MTGNNs to obtain up-to-date information needs to follow the temporal dependencies. This introduces significant overhead and limits training throughput. Existing optimizations for static GNNs are not directly applicable to MTGNNs due to differences in training paradigm, model architecture, and the absence of a memory module. Moreover, they do not effectively address the challenges posed by temporal dependencies, making them ineffective for MTGNN training. In this paper, we propose MSPipe, a general and efficient framework for MTGNNs that maximizes training throughput while maintaining model accuracy. Our design addresses the unique challenges associated with fetching and updating node memory states in MTGNNs by integrating staleness into the memory module. However, simply introducing a predefined staleness bound in the memory module to break temporal dependencies may lead to suboptimal performance and lack of generalizability across different models and datasets. To solve this, we introduce an online pipeline scheduling algorithm in MSPipe that strategically breaks temporal dependencies with minimal staleness and delays memory fetching to obtain fresher memory states. Moreover, we design a staleness mitigation mechanism to enhance training convergence and model accuracy. We provide convergence analysis and prove that MSPipe maintains the same convergence rate as vanilla sample-based GNN training. Experimental results show that MSPipe achieves up to 2.45x speed-up without sacrificing accuracy, making it a promising solution for efficient MTGNN training.
翻訳日:2024-02-26 15:43:13 公開日:2024-02-23
# chu-ko-nu : フェデレーション学習におけるマルチラウンドセキュアアグリゲーションのための信頼性,効率的,匿名認証対応の実現

Chu-ko-nu: A Reliable, Efficient, and Anonymously Authentication-Enabled Realization for Multi-Round Secure Aggregation in Federated Learning ( http://arxiv.org/abs/2402.15111v1 )

ライセンス: Link先を確認
Kaiping Cui, Xia Feng, Liangmin Wang, Haiqin Wu, Xiaoyu Zhang and Boris D\"udder(参考訳) セキュアアグリゲーションにより、フェデレーション学習(fl)は、生データを露呈することなく、ローカル勾配更新からクライアントの協調トレーニングを実行することができる。 しかし、既存のセキュアアグリゲーションスキームは、各クライアントが異なるラウンドに対して新しいインプット非依存のシークレットを確立する必要があるため、必然的に1ラウンドあたりの高価なフレッシュセットアップを実行する。 最新の研究であるFlamingo (S&P 2023)は、複数のアグリゲーションを継続的に実行するサーバをサポートするために、共有転送ベースの再利用可能なシークレットキーを設計した。 それでも、提案した共有転送機構は、信頼性に限界があるP確率でしか達成できない。 上記の問題に対処するため,複数ラウンドのセキュアアグリゲーションのための,より信頼性の高い匿名認証方式であるchu-ko-nuを提案する。 具体的には、共有転送の面では、秘密鍵成分の再分配過程(すべての成分の和が秘密鍵である)を補足することにより、確率P障壁を破り、秘密鍵の再利用性を確保する。 この再利用可能な秘密鍵に基づき、チュコヌは以下のラウンドで効率的に連続集計を行うことができる。 さらに,クライアント認証とプライバシ保護の問題がほとんど無視されていることから,Chu-ko-nuはゼロ知識証明に基づく認証機構を導入している。 FLトレーニングに参加するクライアントを匿名でサポートし、さまざまな攻撃がある場合、サーバがクライアントを効果的に認証することができる。 厳密なセキュリティ証明と広範囲な実験により、中古ぬは低い集約コストでFLに対して信頼性と匿名で認証されたアグリゲーションを提供できることを示した。

Secure aggregation enables federated learning (FL) to perform collaborative training of clients from local gradient updates without exposing raw data. However, existing secure aggregation schemes inevitably perform an expensive fresh setup per round because each client needs to establish fresh input-independent secrets over different rounds. The latest research, Flamingo (S&P 2023), designed a share-transfer-based reusable secret key to support the server continuously performing multiple rounds of aggregation. Nevertheless, the share transfer mechanism it proposed can only be achieved with P probability, which has limited reliability. To tackle the aforementioned problems, we propose a more reliable and anonymously authenticated scheme called Chu-ko-nu for multi-round secure aggregation. Specifically, in terms of share transfer, Chu-ko-nu breaks the probability P barrier by supplementing a redistribution process of secret key components (the sum of all components is the secret key), thus ensuring the reusability of the secret key. Based on this reusable secret key, Chu-ko-nu can efficiently perform consecutive aggregation in the following rounds. Furthermore, considering the client identity authentication and privacy protection issue most approaches ignore, Chu-ko-nu introduces a zero-knowledge proof-based authentication mechanism. It can support clients anonymously participating in FL training and enables the server to authenticate clients effectively in the presence of various attacks. Rigorous security proofs and extensive experiments demonstrated that Chu-ko-nu can provide reliable and anonymously authenticated aggregation for FL with low aggregation costs, at least a 21.02% reduction compared to the state-of-the-art schemes.
翻訳日:2024-02-26 15:42:44 公開日:2024-02-23
# サンプル貢献を抑制した機械学習

Machine Unlearning by Suppressing Sample Contribution ( http://arxiv.org/abs/2402.15109v1 )

ライセンス: Link先を確認
Xinwen Cheng and Zhehao Huang and Xiaolin Huang(参考訳) 機械学習(mu)とは、よく訓練されたモデルからデータを忘れることであり、これは事実上「忘れられる権利」のために重要である。 本稿では、トレーニングデータと、そのモデルへの貢献に関する未確認データとの根本的な区別から、トレーニングデータが最終モデルに寄与する一方で、未確認データには寄与しないことを示す。 理論上は,入力感度が寄与度を近似的に測定し,mu-misと呼ばれるアルゴリズムを実際に設計することで,忘れられたデータの寄与を抑制できることを見出している。 実験の結果,MU-Misは最先端のMU法よりも優れていた。 さらにMU-Misは、残ったデータを必要としないため、MUの適用とより密に連携する。

Machine Unlearning (MU) is to forget data from a well-trained model, which is practically important due to the "right to be forgotten". In this paper, we start from the fundamental distinction between training data and unseen data on their contribution to the model: the training data contributes to the final model while the unseen data does not. We theoretically discover that the input sensitivity can approximately measure the contribution and practically design an algorithm, called MU-Mis (machine unlearning via minimizing input sensitivity), to suppress the contribution of the forgetting data. Experimental results demonstrate that MU-Mis outperforms state-of-the-art MU methods significantly. Additionally, MU-Mis aligns more closely with the application of MU as it does not require the use of remaining data.
翻訳日:2024-02-26 15:42:09 公開日:2024-02-23
# メッセージパッシングニューラルネットワークを用いたサンプリング型分散トレーニング

Sampling-based Distributed Training with Message Passing Neural Network ( http://arxiv.org/abs/2402.15106v1 )

ライセンス: Link先を確認
Priyesh Kakka, Sheel Nidhan, Rishikesh Ranade and Jonathan F. MacArt(参考訳) 本研究では,ドメイン分割に基づくメッセージパッシングニューラルネットワーク(MPNN)のための分散トレーニングと推論手法を提案する。 私たちの目標は、ノード数の増加に伴ってエッジベースのグラフニューラルネットワークをスケールすることの課題に対処することです。 分散トレーニングアプローチを通じて、Nystr\"om-approximation sample techniqueと組み合わせて、DS-MPNN(DとSはそれぞれ分散用とサンプル用)と呼ばれるスケーラブルなグラフニューラルネットワークを提案し、最大$O(10^5)のノードをスケールアップできる。 サンプリングと分散トレーニングのアプローチを2つのケースで検証する。 (a)ダーシーフローデータセット及び b) 単一GPU実装とノードベースグラフ畳み込みネットワーク(GCN)を比較した2次元翼のRANSシミュレーションを行った。 DS-MPNNモデルはシングルGPU実装に匹敵する精度を示し、シングルGPU変種(S-MPNN)と比較してノード数が大幅に増加し、ノードベースGCNよりも大幅に向上する。

In this study, we introduce a domain-decomposition-based distributed training and inference approach for message-passing neural networks (MPNN). Our objective is to address the challenge of scaling edge-based graph neural networks as the number of nodes increases. Through our distributed training approach, coupled with Nystr\"om-approximation sampling techniques, we present a scalable graph neural network, referred to as DS-MPNN (D and S standing for distributed and sampled, respectively), capable of scaling up to $O(10^5)$ nodes. We validate our sampling and distributed training approach on two cases: (a) a Darcy flow dataset and (b) steady RANS simulations of 2-D airfoils, providing comparisons with both single-GPU implementation and node-based graph convolution networks (GCNs). The DS-MPNN model demonstrates comparable accuracy to single-GPU implementation, can accommodate a significantly larger number of nodes compared to the single-GPU variant (S-MPNN), and significantly outperforms the node-based GCN.
翻訳日:2024-02-26 15:41:56 公開日:2024-02-23
# GPTアプリの初見:ランドスケープと脆弱性

A First Look at GPT Apps: Landscape and Vulnerability ( http://arxiv.org/abs/2402.15105v1 )

ライセンス: Link先を確認
Zejun Zhang, Li Zhang, Xin Yuan, Anlan Zhang, Mengwei Xu, Feng Qian(参考訳) LLM(Large Language Models)の進歩に伴い、より高度で強力なGPTが市場に参入している。 その人気にもかかわらず、llmエコシステムはまだ未調査のままである。 さらに、LSMの攻撃に対する感受性は、安全と盗作に対する懸念を高める。 そこで本研究では,GPT ストアの先駆的な探索を行い,GPT アプリケーションにおける脆弱性や盗作について検討する。 まず、私たちの知るところでは、2つの店舗、非公式のgptstore.ai、公式のopenai gptストアの大規模な監視と分析を行います。 次に,GPT内部抽出のためのTriLevel GPT Reversing(T-GR)戦略を提案する。 これら2つのタスクを効率的に完了するために,Webスクレイピングのためのツールと,GPTをプログラム的に操作するためのツールを開発する。 以上の結果から,GPTとクリエーターの急速な増加が示すように,GPTインタラクションと創造に対するユーザと開発者の大きな熱意が明らかになった。 しかし,GPT内部の保護が困難であることや,システム全体の90%近くが容易にアクセスでき,GPT間にかなりの盗作や重複が生じていることも判明した。

With the advancement of Large Language Models (LLMs), increasingly sophisticated and powerful GPTs are entering the market. Despite their popularity, the LLM ecosystem still remains unexplored. Additionally, LLMs' susceptibility to attacks raises concerns over safety and plagiarism. Thus, in this work, we conduct a pioneering exploration of GPT stores, aiming to study vulnerabilities and plagiarism within GPT applications. To begin with, we conduct, to our knowledge, the first large-scale monitoring and analysis of two stores, an unofficial GPTStore.AI, and an official OpenAI GPT Store. Then, we propose a TriLevel GPT Reversing (T-GR) strategy for extracting GPT internals. To complete these two tasks efficiently, we develop two automated tools: one for web scraping and another designed for programmatically interacting with GPTs. Our findings reveal a significant enthusiasm among users and developers for GPT interaction and creation, as evidenced by the rapid increase in GPTs and their creators. However, we also uncover a widespread failure to protect GPT internals, with nearly 90% of system prompts easily accessible, leading to considerable plagiarism and duplication among GPTs.
翻訳日:2024-02-26 15:41:37 公開日:2024-02-23
# 自動入札のための軌道対応反復強化学習フレームワーク

Trajectory-wise Iterative Reinforcement Learning Framework for Auto-bidding ( http://arxiv.org/abs/2402.15102v1 )

ライセンス: Link先を確認
Haoming Li, Yusen Huo, Shuai Dou, Zhenzhe Zheng, Zhilin Zhang, Chuan Yu, Jian Xu, Fan Wu(参考訳) オンライン広告では、広告主は広告機会を得るために広告オークションに参加し、しばしば需要側プラットフォーム(DSP)が提供する自動入札ツールを利用する。 現在の自動入札アルゴリズムは一般的に強化学習(RL)を用いる。 しかし、安全上の懸念から、ほとんどのRLベースの自動入札ポリシーはシミュレーションで訓練されており、オンライン環境にデプロイすると性能が低下する。 このギャップを狭めるために、複数の自動入札エージェントを並行してデプロイして、大きなインタラクションデータセットを収集できる。 オフラインのRLアルゴリズムを使用して、新しいポリシーをトレーニングすることができる。 トレーニングされたポリシはその後,さらなるデータ収集のためにデプロイされるため,反復的オフラインRLと呼ばれる反復的トレーニングフレームワークが生成される。 本研究では,オフラインrlアルゴリズムの固有保守性に起因する非効率な探索と悪用から生じる,この反復的オフラインrlフレームワークの性能ボトルネックを明らかにする。 本稿では,このボトルネックを克服するために,トラジェクティブ・ワイド・エクスプロレーション(TEE)を提案する。 さらに,teeのデータセット品質を維持しつつ,オンライン探索の安全性を確保するために,適応行動選択(seas)による安全な探索を提案する。 alibabaディスプレイ広告プラットフォームにおけるオフライン実験と実世界の実験の両方が,提案手法の有効性を実証している。

In online advertising, advertisers participate in ad auctions to acquire ad opportunities, often by utilizing auto-bidding tools provided by demand-side platforms (DSPs). The current auto-bidding algorithms typically employ reinforcement learning (RL). However, due to safety concerns, most RL-based auto-bidding policies are trained in simulation, leading to a performance degradation when deployed in online environments. To narrow this gap, we can deploy multiple auto-bidding agents in parallel to collect a large interaction dataset. Offline RL algorithms can then be utilized to train a new policy. The trained policy can subsequently be deployed for further data collection, resulting in an iterative training framework, which we refer to as iterative offline RL. In this work, we identify the performance bottleneck of this iterative offline RL framework, which originates from the ineffective exploration and exploitation caused by the inherent conservatism of offline RL algorithms. To overcome this bottleneck, we propose Trajectory-wise Exploration and Exploitation (TEE), which introduces a novel data collecting and data utilization method for iterative offline RL from a trajectory perspective. Furthermore, to ensure the safety of online exploration while preserving the dataset quality for TEE, we propose Safe Exploration by Adaptive Action Selection (SEAS). Both offline experiments and real-world experiments on Alibaba display advertising platform demonstrate the effectiveness of our proposed method.
翻訳日:2024-02-26 15:41:19 公開日:2024-02-23
# オープンソースおよびクローズドデータにおけるllm性能の研究

Studying LLM Performance on Closed- and Open-source Data ( http://arxiv.org/abs/2402.15100v1 )

ライセンス: Link先を確認
Toufique Ahmed, Christian Bird, Premkumar Devanbu, Saikat Chakraborty(参考訳) 大規模言語モデル(llm)は、ソフトウェア工学の実践で広く使われている。 これらのモデルは極めてデータ不足であり、主に寛容なライセンスで配布されるオープンソース(OSS)コードに基づいて訓練されている。 しかし、実際の使用という点では、開発中のコードがパブリックドメインでは存在せず、決して存在していない営利的/プロプライエタリな領域において、モデルが開発中のコードに馴染みのないような設定で、多くの開発者が自分たちの仕事をし、LLMを使用する。 このような設定では、LSMはOSSコードと同様に機能しますか? そうでなければ、違いは何でしょう? パフォーマンスが違う場合、原因は何か、回避策はあるのか? 本稿では、ほとんどのプロプライエタリコードがc#とc++にあるmicrosoftのプロプライエタリでクローズドソースなソフトウェアデータを用いてこの問題を調べる。 C#のパフォーマンスはOSS -->プロプライエタリなコードとほとんど変わらないが、C++では大幅に低下している。 また、いくつかの性能劣化は、場合によっては、文脈内学習によって効率的に改善することができる。

Large Language models (LLMs) are finding wide use in software engineering practice. These models are extremely data-hungry, and are largely trained on open-source (OSS) code distributed with permissive licenses. In terms of actual use however, a great deal of software development still occurs in the for-profit/proprietary sphere, where the code under development is not, and never has been, in the public domain; thus, many developers, do their work, and use LLMs, in settings where the models may not be as familiar with the code under development. In such settings, do LLMs work as well as they do for OSS code? If not, what are the differences? When performance differs, what are the possible causes, and are there work-arounds? In this paper, we examine this issue using proprietary, closed-source software data from Microsoft, where most proprietary code is in C# and C++. We find that performance for C# changes little from OSS --> proprietary code, but does significantly reduce for C++; we find that this difference is attributable to differences in identifiers. We also find that some performance degradation, in some cases, can be ameliorated efficiently by in-context learning.
翻訳日:2024-02-26 15:40:57 公開日:2024-02-23
# MIONetによる各種ドメイン上で定義されたPDEの学習解演算子

Learning solution operators of PDEs defined on varying domains via MIONet ( http://arxiv.org/abs/2402.15097v1 )

ライセンス: Link先を確認
Shanshan Xiao, Pengzhan Jin, Yifa Tang(参考訳) そこで本研究では,MIONetを用いて様々なドメイン上で定義されたPDEの解演算子を学習し,理論的に正当化する手法を提案する。 まず、MIONet の近似理論を拡張して距離空間にさらに対処し、MIONet が距離空間内の複数の入力で写像を近似できることを示す。 その後、いくつかの適当な領域からなる集合を構築し、この集合上の計量を与えて計量空間とし、MIONetの近似条件を満たす。 理論的基礎に基づいて、微分作用素のパラメータ、右辺項、境界条件、およびドメインを含む全てのパラメータでPDEの解写像を学習することができる。 例えば、一般性を失うことなく、2-dポアソン方程式の実験を行い、ドメインと右辺の項が変化する。 その結果, 凸多角形, 滑らかな境界を持つ極域, 一つのタスクにおける異なるレベルの離散化の予測における, この手法の性能に関する知見が得られた。 理論的には、これはメッシュレス法であるため、PDEの一種の一般解法として柔軟に使用できる。

In this work, we propose a method to learn the solution operators of PDEs defined on varying domains via MIONet, and theoretically justify this method. We first extend the approximation theory of MIONet to further deal with metric spaces, establishing that MIONet can approximate mappings with multiple inputs in metric spaces. Subsequently, we construct a set consisting of some appropriate regions and provide a metric on this set thus make it a metric space, which satisfies the approximation condition of MIONet. Building upon the theoretical foundation, we are able to learn the solution mapping of a PDE with all the parameters varying, including the parameters of the differential operator, the right-hand side term, the boundary condition, as well as the domain. Without loss of generality, we for example perform the experiments for 2-d Poisson equations, where the domains and the right-hand side terms are varying. The results provide insights into the performance of this method across convex polygons, polar regions with smooth boundary, and predictions for different levels of discretization on one task. Reasonably, we point out that this is a meshless method, hence can be flexibly used as a general solver for a type of PDE.
翻訳日:2024-02-26 15:40:38 公開日:2024-02-23
# 低コスト保証付きマルチモーダル変圧器

Multimodal Transformer With a Low-Computational-Cost Guarantee ( http://arxiv.org/abs/2402.15096v1 )

ライセンス: Link先を確認
Sungjin Park and Edward Choi(参考訳) トランスフォーマーベースのモデルは、視覚的質問応答やアクション認識など、さまざまなマルチモーダル理解タスクでパフォーマンスが大幅に向上した。 しかし、マルチモーダルトランスフォーマーは、特にモダリティの数が増えるにつれて、入力シーケンス長によるマルチヘッドアテンションの2次複雑さに著しく悩まされる。 そこで我々はLoCoMT(Lo-Cost Multimodal Transformer)を導入する。LoCoMTは,トレーニング中の計算コストを低減し,性能損失を最小限に抑えることを目的とした,新しいマルチモーダルアテンション機構である。 具体的には、各アテンションヘッドに異なるマルチモーダルアテンションパターンを割り当てることで、LoCoMTは柔軟にマルチモーダル信号を制御でき、理論上は既存のマルチモーダルトランスフォーマーの変種と比較して計算コストを削減できる。 AudiosetとMedVidCLという2つのマルチモーダルデータセットの実験結果から、LoCoMTはGFLOPsを削減できるだけでなく、確立されたモデルにマッチしたり、性能に優れることを示した。

Transformer-based models have significantly improved performance across a range of multimodal understanding tasks, such as visual question answering and action recognition. However, multimodal Transformers significantly suffer from a quadratic complexity of the multi-head attention with the input sequence length, especially as the number of modalities increases. To address this, we introduce Low-Cost Multimodal Transformer (LoCoMT), a novel multimodal attention mechanism that aims to reduce computational cost during training and inference with minimal performance loss. Specifically, by assigning different multimodal attention patterns to each attention head, LoCoMT can flexibly control multimodal signals and theoretically ensures a reduced computational cost compared to existing multimodal Transformer variants. Experimental results on two multimodal datasets, namely Audioset and MedVidCL demonstrate that LoCoMT not only reduces GFLOPs but also matches or even outperforms established models.
翻訳日:2024-02-26 15:40:17 公開日:2024-02-23
# 低次元状態における相関ガウス幾何モデルと一致する梅山アルゴリズム

The Umeyama algorithm for matching correlated Gaussian geometric models in the low-dimensional regime ( http://arxiv.org/abs/2402.15095v1 )

ライセンス: Link先を確認
Shuyang Gong and Zhangsong Li(参考訳) 2つの相関したランダムな幾何グラフのマッチングの問題に触発され、潜在ノード置換によって相関した2つのガウス幾何学モデルのマッチング問題を研究する。 具体的には、未知の置換である$\pi^*$ on $\{1,\ldots,n\}$ と、相関関係を持つガウスベクトルの対 $n$ i.i.d. が与えられたとき、ノイズパラメータ $\sigma$ とともに$\mathbb{r}^d$ で$\{x_{\pi^*(i)},y_i\}$ in$\sigma{r}^d$ に対して、2種類の(関連する)重み付き完全グラフを、$a_{i,j}=\langle x_i,x_j \rangle$, $b_{i,j}=\langle y_i,y_j \rangle$ で与える。 目標は、観測された行列 $a$ と $b$ に基づいて、隠れた頂点対応 $\pi^*$ を回復することである。 d=O(\log n)$, Wang, Wu, Xu, および Yolou [WWXY22+] が一致するガウス幾何学モデルにおいて, 精度とほぼ正確に回復するための情報しきい値を確立した。 また、古典的梅山アルゴリズムの数値実験も行った。 本研究では,ノイズパラメータ$\sigma=o(d^{-3}n^{-2/d})$の場合に$\pi^*$を,$\sigma=o(d^{-3}n^{-1/d})$の場合にはほぼ正確に回復できることを実証する。 我々の結果は、低次元状態における$\operatorname{poly}(d)$ factorまでの情報しきい値にアプローチする。

Motivated by the problem of matching two correlated random geometric graphs, we study the problem of matching two Gaussian geometric models correlated through a latent node permutation. Specifically, given an unknown permutation $\pi^*$ on $\{1,\ldots,n\}$ and given $n$ i.i.d. pairs of correlated Gaussian vectors $\{X_{\pi^*(i)},Y_i\}$ in $\mathbb{R}^d$ with noise parameter $\sigma$, we consider two types of (correlated) weighted complete graphs with edge weights given by $A_{i,j}=\langle X_i,X_j \rangle$, $B_{i,j}=\langle Y_i,Y_j \rangle$. The goal is to recover the hidden vertex correspondence $\pi^*$ based on the observed matrices $A$ and $B$. For the low-dimensional regime where $d=O(\log n)$, Wang, Wu, Xu, and Yolou [WWXY22+] established the information thresholds for exact and almost exact recovery in matching correlated Gaussian geometric models. They also conducted numerical experiments for the classical Umeyama algorithm. In our work, we prove that this algorithm achieves exact recovery of $\pi^*$ when the noise parameter $\sigma=o(d^{-3}n^{-2/d})$, and almost exact recovery when $\sigma=o(d^{-3}n^{-1/d})$. Our results approach the information thresholds up to a $\operatorname{poly}(d)$ factor in the low-dimensional regime.
翻訳日:2024-02-26 15:39:55 公開日:2024-02-23
# コヒーレントアイシングマシンにおける有効光スピンのフラストレーション除去

Frustration elimination for effective optical spins in coherent Ising machines ( http://arxiv.org/abs/2402.15090v1 )

ライセンス: Link先を確認
Zheng-Yang Zhou, Clemens Gneiting, J. Q. You, and Franco Nori(参考訳) すなわち、すべてのスピン対間のエネルギー的選好を同時に満たすことができないというフラストレーションは、その基底状態を決定する計算硬度を含むスピン系の多くの基本的な性質の複雑さの根底にある。 コヒーレントイジングマシン(cim)は、大規模で複雑なイジングモデルの異なる退化基底状態を効率的に見つけるための、有望なアナログ計算手法として提案されている。 しかし、CIMはフラストレーションのあるIsingモデルの解決にも課題に直面している: フラストレーションは良い解を見つける確率を減らすだけでなく、それを行う際の量子効果の活用も禁止している。 フラストレーションによるこれらの有害な影響を回避するため, フラストレーションのないIsingモデルが, 現在のCIM設計で用いられる結合プロトコルを改良して, フラストレーションのないCIM構成にどのようにマッピングできるかを示す。 提案では,退化光パラメトリック発振器(dopo)モードは検討したイジングモデルの基底状態候補を符号化し,補助モードはドポモードに符号化された基底状態を保存するフラストレーションフリーイジングモデルへの自律変換を可能にする。 このようなフラストレーション除去は、現在のCIMに精度の向上とフラストレーションのあるイジングモデルを扱う際の量子効果の恩恵を与える可能性がある。

Frustration, that is, the impossibility to satisfy the energetic preferences between all spin pairs simultaneously, underlies the complexity of many fundamental properties in spin systems, including the computational hardness to determine their ground states. Coherent Ising machines (CIM) have been proposed as a promising analog computational approach to efficiently find different degenerate ground states of large and complex Ising models. However, CIMs also face challenges in solving frustrated Ising models: Frustration not only reduces the probability to find good solutions, but it also prohibits to leverage quantum effects in doing so. To circumvent these detrimental effects of frustration, we show how frustrated Ising models can be mapped to frustration-free CIM configurations by including ancillary modes and modifying the coupling protocol used in current CIM designs. In our proposal, degenerate optical parametric oscillator (DOPO) modes encode the ground state candidates of the studied Ising model, while the ancillary modes enable the autonomous transformation to a frustration-free Ising model that preserves the ground states encoded in the DOPO modes. Such frustration elimination may empower current CIMs to improve precision and to benefit from quantum effects in dealing with frustrated Ising models.
翻訳日:2024-02-26 15:38:53 公開日:2024-02-23
# AttributionBench: 自動属性評価はどの程度難しいか?

AttributionBench: How Hard is Automatic Attribution Evaluation? ( http://arxiv.org/abs/2402.15089v1 )

ライセンス: Link先を確認
Yifei Li, Xiang Yue, Zeyi Liao, Huan Sun(参考訳) 現代の生成検索エンジンは、引用された証拠を提供することで、大規模言語モデル(LLM)応答の信頼性を高める。 しかし、回答の帰属性、すなわち、生成された応答内のすべての主張が、その引用された証拠によって完全に支持されているかどうかを評価することは、まだ未解決の問題である。 この検証は、伝統的にコストのかかる人的評価に依存しており、自動帰属評価手法の必要性を浮き彫りにしている。 これらの手法の標準ベンチマークが存在しないことのギャップを埋めるために、既存の様々なアトリビューションデータセットからコンパイルされた包括的なベンチマークであるattributionbenchを提案する。 attributionbenchに関する広範な実験により,最先端llmにおいても自動帰属評価の課題が明らかになった。 特に,細調整GPT-3.5でも,二項分類法では80%程度しかマクロF1を達成できないことがわかった。 300件以上のエラー事例を詳細に分析した結果、多くの障害は、モデルがニュアンス情報を処理できないことと、モデルがアクセスする情報と人間の注釈装置との相違が原因であることが示された。

Modern generative search engines enhance the reliability of large language model (LLM) responses by providing cited evidence. However, evaluating the answer's attribution, i.e., whether every claim within the generated responses is fully supported by its cited evidence, remains an open problem. This verification, traditionally dependent on costly human evaluation, underscores the urgent need for automatic attribution evaluation methods. To bridge the gap in the absence of standardized benchmarks for these methods, we present AttributionBench, a comprehensive benchmark compiled from various existing attribution datasets. Our extensive experiments on AttributionBench reveal the challenges of automatic attribution evaluation, even for state-of-the-art LLMs. Specifically, our findings show that even a fine-tuned GPT-3.5 only achieves around 80% macro-F1 under a binary classification formulation. A detailed analysis of more than 300 error cases indicates that a majority of failures stem from the model's inability to process nuanced information, and the discrepancy between the information the model has access to and that human annotators do.
翻訳日:2024-02-26 15:38:27 公開日:2024-02-23
# ハンズフリーvr

Hands-Free VR ( http://arxiv.org/abs/2402.15083v1 )

ライセンス: Link先を確認
Jorge Askur Vazquez Fernandez, Jae Joong Lee, Santiago Andr\'es Serrano Vacca, Alejandra Magana, Bedrich Benes, Voicu Popescu(参考訳) 本稿は、VRのための音声ベースの自然言語インタフェースであるHands-Free VRを紹介する。 ユーザは音声を用いてコマンドを与え、音声音声データを音声からテキストへの深層学習モデルを用いてテキストに変換し、音声の類似性や音声英語のアクセントに頑健に調整し、自然言語の多様性に頑健な大言語モデルを用いて実行可能なVRコマンドにマッピングする。 ハンズフリーVRは、参加者に特定の物体を見つけ、様々な構成に配置するよう依頼する制御された内物体調査(N = 22)で評価された。 コントロール条件では、参加者は従来のVRユーザーインターフェースを使用して、ハンドヘルドコントローラーを使用してオブジェクトをつかみ、持ち運び、配置した。 実験では、被験者はハンズフリーvrを使用した。 The results confirm that: (1) Hands-Free VR is robust to spoken English accents, as for 20 of our participants English was not their first language, and to word phonetic similarity, correctly transcribing the voice command 96.71% of the time; (2) Hands-Free VR is robust to natural language diversity, correctly mapping the transcribed command to an executable command in 97.83% of the time; (3) Hands-Free VR had a significant efficiency advantage over the conventional VR interface in terms of task completion time, total viewpoint translation, total view direction rotation, and total left and right hand translations; (4) Hands-Free VR received high user preference ratings in terms of ease of use, intuitiveness, ergonomics, reliability, and desirability.

The paper introduces Hands-Free VR, a voice-based natural-language interface for VR. The user gives a command using their voice, the speech audio data is converted to text using a speech-to-text deep learning model that is fine-tuned for robustness to word phonetic similarity and to spoken English accents, and the text is mapped to an executable VR command using a large language model that is robust to natural language diversity. Hands-Free VR was evaluated in a controlled within-subjects study (N = 22) that asked participants to find specific objects and to place them in various configurations. In the control condition participants used a conventional VR user interface to grab, carry, and position the objects using the handheld controllers. In the experimental condition participants used Hands-Free VR. The results confirm that: (1) Hands-Free VR is robust to spoken English accents, as for 20 of our participants English was not their first language, and to word phonetic similarity, correctly transcribing the voice command 96.71% of the time; (2) Hands-Free VR is robust to natural language diversity, correctly mapping the transcribed command to an executable command in 97.83% of the time; (3) Hands-Free VR had a significant efficiency advantage over the conventional VR interface in terms of task completion time, total viewpoint translation, total view direction rotation, and total left and right hand translations; (4) Hands-Free VR received high user preference ratings in terms of ease of use, intuitiveness, ergonomics, reliability, and desirability.
翻訳日:2024-02-26 15:38:07 公開日:2024-02-23
# TREC:Few-Shot Provenance Subgraph LearningによるATT戦術/技術認識

TREC: APT Tactic / Technique Recognition via Few-Shot Provenance Subgraph Learning ( http://arxiv.org/abs/2402.15147v1 )

ライセンス: Link先を確認
Mingqi Lv, HongZhe Gao, Xuebo Qiu, Tieming Chen and Tiantian Zhu(参考訳) APT(Advanced Persistent Threat)の永続性、ステルス性、多様性は、サイバーインフラ構造に対する最大の脅威の1つである。 対策として、既存の研究では、実測グラフを利用してホスト内のシステムエンティティ間の複雑な関係を捕捉し、効果的なAPT検出を行う。 既存の作業と同じように単一の攻撃イベントを検出することに加えて、APT攻撃キャンペーンの組織化と達成に適用される戦術/技術(例えばキル・チェイン、ATT&CK)を理解することは、セキュリティ運用においてより重要である。 既存の研究では、低レベルのシステムイベントを高レベルのAPT戦術/テクニックにマッピングする一連のルールを手動で設計しようとしています。 しかし、ルールベース手法は粗粒度であり、一般化能力に欠けており、APT戦術を認識でき、APTの細粒度技術や変異APT攻撃を識別できない。 本稿では,深層学習技術を活用して,証明グラフからAPT戦術/テクニックを識別する最初の試みであるTRECを提案する。 ヘイスタックの必要」問題に対処するため、trecセグメントは悪質なノード検出モデルとサブグラフサンプリングアルゴリズムに基づいて、大きなプロヴァンスグラフから個々のaptテクニックインスタンスをカバーする小さくてコンパクトなサブグラフを生成する。 トレーニングサンプル不足」問題に対処するため、TRECはシームズニューラルネットワークを採用して、APT戦術/技術認識モデルを数ショットの学習方法で訓練する。 チームによって収集・公開されているカスタマイズデータセットに基づいてTRECを評価した。 実験の結果,TRECはAPT戦術認識において最先端システムよりも優れており,TRECはAPT手法を効果的に識別できることがわかった。

APT (Advanced Persistent Threat) with the characteristics of persistence, stealth, and diversity is one of the greatest threats against cyber-infrastructure. As a countermeasure, existing studies leverage provenance graphs to capture the complex relations between system entities in a host for effective APT detection. In addition to detecting single attack events as most existing work does, understanding the tactics / techniques (e.g., Kill-Chain, ATT&CK) applied to organize and accomplish the APT attack campaign is more important for security operations. Existing studies try to manually design a set of rules to map low-level system events to high-level APT tactics / techniques. However, the rule based methods are coarse-grained and lack generalization ability, thus they can only recognize APT tactics and cannot identify fine-grained APT techniques and mutant APT attacks. In this paper, we propose TREC, the first attempt to recognize APT tactics / techniques from provenance graphs by exploiting deep learning techniques. To address the "needle in a haystack" problem, TREC segments small and compact subgraphs covering individual APT technique instances from a large provenance graph based on a malicious node detection model and a subgraph sampling algorithm. To address the "training sample scarcity" problem, TREC trains the APT tactic / technique recognition model in a few-shot learning manner by adopting a Siamese neural network. We evaluate TREC based on a customized dataset collected and made public by our team. The experiment results show that TREC significantly outperforms state-of-the-art systems in APT tactic recognition and TREC can also effectively identify APT techniques.
翻訳日:2024-02-26 15:33:13 公開日:2024-02-23
# ブラリング平均シフトの収束解析

Convergence Analysis of Blurring Mean Shift ( http://arxiv.org/abs/2402.15146v1 )

ライセンス: Link先を確認
Ryoya Yamasaki, Toshiyuki Tanaka(参考訳) 平均シフトアルゴリズムの変種であるbowling mean shift(bms)アルゴリズムはカーネルベースのデータクラスタリングのための反復的手法であり、反復的なぼかしによってデータポイントが収束点に従ってクラスタ化される。 本稿では,BMSアルゴリズムの収束特性を,その解釈を最適化手法として活用することで解析する。 多次元データに適用可能な収束特性の既存の結果は、すべてのぼやけたデータ点列が1つの点に収束する場合のみをカバーするが、本研究は、これらの列が複数の点に収束し、複数のクラスターが得られる場合にも収束保証を提供する。 また, BMSアルゴリズムの収束は, 収束点の幾何的特性のさらなる活用により高速であることを示す。

Blurring mean shift (BMS) algorithm, a variant of the mean shift algorithm, is a kernel-based iterative method for data clustering, where data points are clustered according to their convergent points via iterative blurring. In this paper, we analyze convergence properties of the BMS algorithm by leveraging its interpretation as an optimization procedure, which is known but has been underutilized in existing convergence studies. Whereas existing results on convergence properties applicable to multi-dimensional data only cover the case where all the blurred data point sequences converge to a single point, this study provides a convergence guarantee even when those sequences can converge to multiple points, yielding multiple clusters. This study also shows that the convergence of the BMS algorithm is fast by further leveraging geometrical characterization of the convergent points.
翻訳日:2024-02-26 15:32:41 公開日:2024-02-23
# 並列化ブースティングのコスト

The Cost of Parallelizing Boosting ( http://arxiv.org/abs/2402.15145v1 )

ライセンス: Link先を確認
Xin Lyu, Hongxun Wu, Junzhao Yang(参考訳) 本稿では,Karbasi と Larsen の最近の研究に続き,学習のための弱強強化アルゴリズムの並列化コストについて検討する。 第一に、我々は厳密な下界を証明し、ブースティングの"明るい"並列化でさえ、トレーニングの複雑さを指数関数的に膨らませる必要があることを示します。 具体的には、$\gamma$をランダムな推測よりも弱い学習者の利点とする。 有名な \textsc{AdaBoost} アルゴリズムは、各ラウンドが多項式時間で走るような$\tilde{O}(1 / \gamma^2)$ラウンドで弱い学習者と相互作用することで正確な仮説を生成する。 どのようなブースティングアルゴリズムも$\omega(1 / \gamma)$ rounds の弱い学習者と相互作用するか、あるいは$\exp(d / \gamma)$ のブローアップをトレーニングの複雑さで発生させるかのいずれかで、$d$ は仮説クラスのvc次元である。 任意のブースティングアルゴリズムが$\Omega(1 / \gamma^2)$の相互作用のラウンドを持つか、より小さな指数的な$\exp(d)$を発生させることでギャップを埋める。 -下界を補完すると、$\tilde{O}(1/(t \gamma^2))$ rounds のブーピングアルゴリズムが存在し、$\exp(d \cdot t^2)$ の爆発しか起こらないことを示す。 これは、$t = \omega(1)$を差し込むと、下限の小さなブローアップがきついことを示す。 より興味深いことに、これは並列性とブースティングに必要な全作業の間の最初のトレードオフを提供する。

We study the cost of parallelizing weak-to-strong boosting algorithms for learning, following the recent work of Karbasi and Larsen. Our main results are two-fold: - First, we prove a tight lower bound, showing that even "slight" parallelization of boosting requires an exponential blow-up in the complexity of training. Specifically, let $\gamma$ be the weak learner's advantage over random guessing. The famous \textsc{AdaBoost} algorithm produces an accurate hypothesis by interacting with the weak learner for $\tilde{O}(1 / \gamma^2)$ rounds where each round runs in polynomial time. Karbasi and Larsen showed that "significant" parallelization must incur exponential blow-up: Any boosting algorithm either interacts with the weak learner for $\Omega(1 / \gamma)$ rounds or incurs an $\exp(d / \gamma)$ blow-up in the complexity of training, where $d$ is the VC dimension of the hypothesis class. We close the gap by showing that any boosting algorithm either has $\Omega(1 / \gamma^2)$ rounds of interaction or incurs a smaller exponential blow-up of $\exp(d)$. -Complementing our lower bound, we show that there exists a boosting algorithm using $\tilde{O}(1/(t \gamma^2))$ rounds, and only suffer a blow-up of $\exp(d \cdot t^2)$. Plugging in $t = \omega(1)$, this shows that the smaller blow-up in our lower bound is tight. More interestingly, this provides the first trade-off between the parallelism and the total work required for boosting.
翻訳日:2024-02-26 15:32:27 公開日:2024-02-23
# puad:ロバスト異常検出のためのフラストレーションに簡素な方法

PUAD: Frustratingly Simple Method for Robust Anomaly Detection ( http://arxiv.org/abs/2402.15143v1 )

ライセンス: Link先を確認
Shota Sugawara, Ryuji Imamura(参考訳) リアルタイムコンピュータビジョンアプリケーションでは,正確で高速な異常検出モデルの開発が重要な課題である。 構造的または論理的異常を検出する単一のモデルを開発するための多くの研究がなされている。 既存のアプローチの大半は、異常な位置を特定することで異常を表現できると暗黙的に仮定している。 しかし,対象物の誤数などの論理的異常は空間的特徴写像によってうまく表現できず,代替的なアプローチが要求される。 さらに,特徴空間上の分布外検出手法を用いて,特徴マップの空間情報を集約することで,論理異常を検出する可能性に着目した。 実演として, 特徴空間に簡単な分布検出手法を組み込んだ, 最先端の再構築手法を提案する。 提案手法の単純さにもかかわらず,提案手法のPUAD(Picturable and Unpicturable Anomaly Detection)はMVTec LOCO ADデータセットの最先端性能を実現する。

Developing an accurate and fast anomaly detection model is an important task in real-time computer vision applications. There has been much research to develop a single model that detects either structural or logical anomalies, which are inherently distinct. The majority of the existing approaches implicitly assume that the anomaly can be represented by identifying the anomalous location. However, we argue that logical anomalies, such as the wrong number of objects, can not be well-represented by the spatial feature maps and require an alternative approach. In addition, we focused on the possibility of detecting logical anomalies by using an out-of-distribution detection approach on the feature space, which aggregates the spatial information of the feature map. As a demonstration, we propose a method that incorporates a simple out-of-distribution detection method on the feature space against state-of-the-art reconstruction-based approaches. Despite the simplicity of our proposal, our method PUAD (Picturable and Unpicturable Anomaly Detection) achieves state-of-the-art performance on the MVTec LOCO AD dataset.
翻訳日:2024-02-26 15:31:55 公開日:2024-02-23
# 神経常微分方程式ネットワークの随伴法に関する一考察

A note on the adjoint method for neural ordinary differential equation network ( http://arxiv.org/abs/2402.15141v1 )

ライセンス: Link先を確認
Pipi Hu(参考訳) 摂動と演算子随伴法は、厳密に右随伴形を与えるために使用される。 導出から、以下の結果が得られる。 1)損失勾配はODEではなく、積分であり、その理由を示す。 2) 従来の随伴形式は逆伝播結果と等価ではない。 3) 随伴演算子解析は、離散随伴が離散神経odeと同一のスキームを持つ場合に限り、随伴形式はbpと同じ結果を与える。

Perturbation and operator adjoint method are used to give the right adjoint form rigourously. From the derivation, we can have following results: 1) The loss gradient is not an ODE, it is an integral and we shows the reason; 2) The traditional adjoint form is not equivalent with the back propagation results. 3) The adjoint operator analysis shows that if and only if the discrete adjoint has the same scheme with the discrete neural ODE, the adjoint form would give the same results as BP does.
翻訳日:2024-02-26 15:31:40 公開日:2024-02-23
# ハイパーリレーショナル知識グラフにおけるメッセージパッシングに対する関係-対話的アプローチ

A Relation-Interactive Approach for Message Passing in Hyper-relational Knowledge Graphs ( http://arxiv.org/abs/2402.15140v1 )

ライセンス: Link先を確認
Yonglin Jing(参考訳) hyper-relational knowledge graphs (kgs) には追加のキーと値のペアが含まれており、関係に関するさらなる情報を提供している。 多くのシナリオにおいて、同じ関係は異なるキーと値のペアを持つことができ、元の三重項事実をより認識可能かつ特定することができる。 ハイパーリレーショナルKGの先行研究は、ハイパーリレーショナルグラフ符号化の標準標準法を確立した。 本稿では,グローバルリレーション構造認識機能を有するメッセージパッシングベースのグラフエンコーダを提案し,これをresaeと呼ぶ。 従来の最先端アプローチと比較して、ReSaEはメッセージパッシングプロセス中の関係の相互作用を強調し、リンク予測タスクの読み出し構造を最適化する。 全体として、ReSaEはハイパーリレーショナルなKGのエンコーディングソリューションを提供し、下流リンク予測タスクにおけるより強力なパフォーマンスを保証する。 実験により、ReSaEは複数のリンク予測ベンチマークで最先端の性能を達成することを示した。 さらに,異なるモデル構造がモデル性能に与える影響についても分析する。

Hyper-relational knowledge graphs (KGs) contain additional key-value pairs, providing more information about the relations. In many scenarios, the same relation can have distinct key-value pairs, making the original triple fact more recognizable and specific. Prior studies on hyper-relational KGs have established a solid standard method for hyper-relational graph encoding. In this work, we propose a message-passing-based graph encoder with global relation structure awareness ability, which we call ReSaE. Compared to the prior state-of-the-art approach, ReSaE emphasizes the interaction of relations during message passing process and optimizes the readout structure for link prediction tasks. Overall, ReSaE gives a encoding solution for hyper-relational KGs and ensures stronger performance on downstream link prediction tasks. Our experiments demonstrate that ReSaE achieves state-of-the-art performance on multiple link prediction benchmarks. Furthermore, we also analyze the influence of different model structures on model performance.
翻訳日:2024-02-26 15:31:31 公開日:2024-02-23
# 右検閲実験データを用いたベンチマーク観測

Benchmarking Observational Studies with Experimental Data under Right-Censoring ( http://arxiv.org/abs/2402.15137v1 )

ライセンス: Link先を確認
Ilker Demirel, Edward De Brouwer, Zeshan Hussain, Michael Oberst, Anthony Philippakis and David Sontag(参考訳) 観測研究(os)から因果推論を引き出すには検証不能な妥当性仮定が必要となるが、ランダム化制御試験(rct)による実験データを用いてosをベンチマークすることにより、これらの仮定を偽ることもできる。 既存の手続きの大きな制限は検閲の責任を負わないことであるが、rctやosは、適切な検閲された時間対事象の結果を報告している。 検閲時間(1)がイベントの時間に依存しない場合と,(2)osとrctでも同様にイベントの時間に依存する場合について考察する。 前者は条件付き平均治療効果(cate)に対する検閲二重ロバスト信号を採用し、osおよびrctにおける猫の等価性テストを容易にし、有効性仮説が成り立つかどうかをテストするためのプロキシとして機能する。 後者では, 偏りのないCATE推定が不可能な場合でも, 同じテストが引き続き使用できることを示す。 半合成実験による検閲アウェアテストの有効性を検証し,女性の健康イニシアチブ研究からrctおよびosデータを分析した。

Drawing causal inferences from observational studies (OS) requires unverifiable validity assumptions; however, one can falsify those assumptions by benchmarking the OS with experimental data from a randomized controlled trial (RCT). A major limitation of existing procedures is not accounting for censoring, despite the abundance of RCTs and OSes that report right-censored time-to-event outcomes. We consider two cases where censoring time (1) is independent of time-to-event and (2) depends on time-to-event the same way in OS and RCT. For the former, we adopt a censoring-doubly-robust signal for the conditional average treatment effect (CATE) to facilitate an equivalence test of CATEs in OS and RCT, which serves as a proxy for testing if the validity assumptions hold. For the latter, we show that the same test can still be used even though unbiased CATE estimation may not be possible. We verify the effectiveness of our censoring-aware tests via semi-synthetic experiments and analyze RCT and OS data from the Women's Health Initiative study.
翻訳日:2024-02-26 15:31:16 公開日:2024-02-23
# コムギ頭部分節用試料の合成のための改良サイクルGAN

Modified CycleGAN for the synthesization of samples for wheat head segmentation ( http://arxiv.org/abs/2402.15135v1 )

ライセンス: Link先を確認
Jaden Myers, Keyhan Najafian, Farhad Maleki, and Katie Ovens(参考訳) ディープラーニングモデルは、さまざまな画像処理タスクに使用されている。 しかし、これらのモデルのほとんどは、大規模アノテートデータセットの可用性に大きく依存する教師付き学習アプローチによって開発されている。 このようなデータセットの開発は面倒で費用がかかる。 注釈付きデータセットが存在しない場合、合成データはモデル開発に使用できるが、シミュレーションデータと実データの間に大きな違いがあるため、ドメインギャップと呼ばれる現象があり、実際のデータに適用すると結果のモデルの性能が低下することが多い。 本研究では,まず大規模アノテートデータセットを計算的にシミュレートし,次にGANを用いてシミュレーション画像と実画像のギャップを埋めることにより,この問題に対処することを目的とする。 このアプローチは、ディープラーニングモデルのトレーニングに効果的に使用できる合成データセットを生成する。 この手法を用いて,小麦頭部セグメンテーションのためのリアルな注釈合成データセットを開発した。 このデータセットは、セマンティックセグメンテーションのためのディープラーニングモデルの開発に使用された。 その結果、内部データセットで83.4\%、外部の小麦ヘッド検出データセットで79.6%、83.6%のサイススコアが得られた。 本手法はコムギの頭部分画の文脈において提案されているが、他の作物種や、より広範に、細胞画像に見られるような高密度かつ反復的なパターンの画像に一般化することができる。

Deep learning models have been used for a variety of image processing tasks. However, most of these models are developed through supervised learning approaches, which rely heavily on the availability of large-scale annotated datasets. Developing such datasets is tedious and expensive. In the absence of an annotated dataset, synthetic data can be used for model development; however, due to the substantial differences between simulated and real data, a phenomenon referred to as domain gap, the resulting models often underperform when applied to real data. In this research, we aim to address this challenge by first computationally simulating a large-scale annotated dataset and then using a generative adversarial network (GAN) to fill the gap between simulated and real images. This approach results in a synthetic dataset that can be effectively utilized to train a deep-learning model. Using this approach, we developed a realistic annotated synthetic dataset for wheat head segmentation. This dataset was then used to develop a deep-learning model for semantic segmentation. The resulting model achieved a Dice score of 83.4\% on an internal dataset and Dice scores of 79.6% and 83.6% on two external Global Wheat Head Detection datasets. While we proposed this approach in the context of wheat head segmentation, it can be generalized to other crop types or, more broadly, to images with dense, repeated patterns such as those found in cellular imagery.
翻訳日:2024-02-26 15:30:54 公開日:2024-02-23
# 多変量時系列予測のための深結合ネットワーク

Deep Coupling Network For Multivariate Time Series Forecasting ( http://arxiv.org/abs/2402.15134v1 )

ライセンス: Link先を確認
Kun Yi, Qi Zhang, Hui He, Kaize Shi, Liang Hu, Ning An, Zhendong Niu(参考訳) 多変量時系列(mts)予測は多くの実世界のアプリケーションで不可欠である。 正確なmts予測を実現するためには,時系列データ間の時系列間関係を同時に考慮する必要がある。 しかし、従来の研究はシリーズ内関係とシリーズ間関係を別々にモデル化しており、時系列データ内および時系列データ間の多重順序相互作用を無視しており、予測精度を著しく低下させる可能性がある。 本稿では,相互情報の観点から,系列間関係を再検討し,複雑な多階間結合と系列間結合を同時に捉えるように調整した包括的関係学習機構を構築する。 この機構に基づき,時系列データ間の多階間および系列間関係を明示的に探索する結合機構と,多様な可変パターンの符号化を目的とした結合型変数表現モジュールと,1つのフォワードステップで予測を容易にする推論モジュールとからなる,mts予測のための新しい深結合ネットワークであるdeepcnを提案する。 7つの実世界のデータセットで広範な実験を行った結果、deepcnは最先端のベースラインよりも優れた性能を実現していることが分かった。

Multivariate time series (MTS) forecasting is crucial in many real-world applications. To achieve accurate MTS forecasting, it is essential to simultaneously consider both intra- and inter-series relationships among time series data. However, previous work has typically modeled intra- and inter-series relationships separately and has disregarded multi-order interactions present within and between time series data, which can seriously degrade forecasting accuracy. In this paper, we reexamine intra- and inter-series relationships from the perspective of mutual information and accordingly construct a comprehensive relationship learning mechanism tailored to simultaneously capture the intricate multi-order intra- and inter-series couplings. Based on the mechanism, we propose a novel deep coupling network for MTS forecasting, named DeepCN, which consists of a coupling mechanism dedicated to explicitly exploring the multi-order intra- and inter-series relationships among time series data concurrently, a coupled variable representation module aimed at encoding diverse variable patterns, and an inference module facilitating predictions through one forward step. Extensive experiments conducted on seven real-world datasets demonstrate that our proposed DeepCN achieves superior performance compared with the state-of-the-art baselines.
翻訳日:2024-02-26 15:30:31 公開日:2024-02-23
# 自動生成NLIデータセットによる文埋め込みの改善

Improving Sentence Embeddings with an Automatically Generated NLI Dataset ( http://arxiv.org/abs/2402.15132v1 )

ライセンス: Link先を確認
Soma Sato, Hayato Tsukagoshi, Ryohei Sasano, Koichi Takeda(参考訳) デコーダベースの大規模言語モデル(llms)は、自然言語処理において多くのタスクで高いパフォーマンスを示している。 これは文埋め込み学習にも当てはまり、デコーダベースのモデルであるPromptEOLは、セマンティックテキスト類似性(STS)タスクで最高のパフォーマンスを達成した。 しかし、PromptEOLは手動で注釈付き自然言語推論(NLI)データセットを使った微調整を大いに活用している。 我々は,LLMを用いてNLIデータセットを自動生成し,PromptEOLを微調整することにより,教師なし環境で学習した文の埋め込みを改善することを目的とする。 stsタスク実験において,提案手法は人的評価に関して平均82.21のスピアマンランク相関係数を達成し,手作業で注釈付きデータセットを使わずに既存の手法よりも優れていた。

Decoder-based large language models (LLMs) have shown high performance on many tasks in natural language processing. This is also true for sentence embedding learning, where a decoder-based model, PromptEOL, has achieved the best performance on semantic textual similarity (STS) tasks. However, PromptEOL makes great use of fine-tuning with a manually annotated natural language inference (NLI) dataset. We aim to improve sentence embeddings learned in an unsupervised setting by automatically generating an NLI dataset with an LLM and using it to fine-tune PromptEOL. In experiments on STS tasks, the proposed method achieved an average Spearman's rank correlation coefficient of 82.21 with respect to human evaluation, thus outperforming existing methods without using large, manually annotated datasets.
翻訳日:2024-02-26 15:30:09 公開日:2024-02-23
# 対話型KBQA:大規模言語モデルを用いた知識ベース質問応答のための多段階インタラクション

Interactive-KBQA: Multi-Turn Interactions for Knowledge Base Question Answering with Large Language Models ( http://arxiv.org/abs/2402.15131v1 )

ライセンス: Link先を確認
Guanming Xiong, Junwei Bao, Wen Zhao(参考訳) 本研究は,知識ベース質問応答(kbqa)の領域を考察する。 kbqaは難しい課題であり、特に複雑な質問を実行可能な論理形式に解析する。 従来の意味解析(SP)ベースの手法は広範なデータアノテーションを必要とするため、かなりのコストがかかる。 近年,大規模言語モデル (LLM) を利用した数発のインコンテキスト学習が出現し,有望な能力を示した。 しかし、LLMを十分に活用して、低リソースシナリオで質問を論理形式に解析することは、大きな課題となる。 このようなハードルに対処するために,知識ベース(KB)と直接対話することで論理形式を生成するためのフレームワークであるInteractive-KBQAを導入する。 本フレームワークでは,KBインタラクションのための3つの汎用APIを開発した。 複雑な質問のカテゴリ毎に,LLMを推論プロセスを通じてガイドする例を考案した。 提案手法は,WebQuestionsSP, ComplexWebQuestions, KQA Pro, MetaQAデータセットを最小限の例(ショット)で比較した結果を得た。 重要なこととして,本手法は手動介入をサポートし,LCM出力の反復的改善を可能にする。 ステップワイズ推論プロセスでデータセットに注釈を付けることで、モデルの適応性を示し、フィールドに重要な拡張をもたらす可能性を強調します。

This study explores the realm of knowledge-base question answering (KBQA). KBQA is considered a challenging task, particularly in parsing intricate questions into executable logical forms. Traditional semantic parsing (SP)-based methods require extensive data annotations, which result in significant costs. Recently, the advent of few-shot in-context learning, powered by large language models (LLMs), has showcased promising capabilities. Yet, fully leveraging LLMs to parse questions into logical forms in low-resource scenarios poses a substantial challenge. To tackle these hurdles, we introduce Interactive-KBQA, a framework designed to generate logical forms through direct interaction with knowledge bases (KBs). Within this framework, we have developed three generic APIs for KB interaction. For each category of complex question, we devised exemplars to guide LLMs through the reasoning processes. Our method achieves competitive results on the WebQuestionsSP, ComplexWebQuestions, KQA Pro, and MetaQA datasets with a minimal number of examples (shots). Importantly, our approach supports manual intervention, allowing for the iterative refinement of LLM outputs. By annotating a dataset with step-wise reasoning processes, we showcase our model's adaptability and highlight its potential for contributing significant enhancements to the field.
翻訳日:2024-02-26 15:29:56 公開日:2024-02-23
# 留置用多関節バンド

Multi-Armed Bandits with Abstention ( http://arxiv.org/abs/2402.15127v1 )

ライセンス: Link先を確認
Junwen Yang, Tianyuan Jin, Vincent Y. F. Tan(参考訳) 我々は,新たな戦略要素を組み込んだ,正準多武装バンディット問題の新たな拡張を提案する。 この強化されたフレームワークでは、エージェントは各時間ステップでアームを選択することだけでなく、観察する前に確率的な瞬間的な報酬を受け取ることを拒否するオプションを持っている。 棄権を選択した場合、エージェントは一定の後悔に苦しむか、保証された報酬を得る。 この付加的な複雑性層を考えると、漸近的かつミニマックス最適である効率的なアルゴリズムを開発できるかどうかを問う。 我々は,後悔が対応する情報理論下限を満たすアルゴリズムを設計・分析することで,この疑問に肯定的に答える。 以上の結果から,提案オプションのメリットを定量的に把握し,他のオンライン意思決定問題へのさらなる探究の基盤となるものと考えられる。 数値的な結果は我々の理論的な結果をさらに裏付ける。

We introduce a novel extension of the canonical multi-armed bandit problem that incorporates an additional strategic element: abstention. In this enhanced framework, the agent is not only tasked with selecting an arm at each time step, but also has the option to abstain from accepting the stochastic instantaneous reward before observing it. When opting for abstention, the agent either suffers a fixed regret or gains a guaranteed reward. Given this added layer of complexity, we ask whether we can develop efficient algorithms that are both asymptotically and minimax optimal. We answer this question affirmatively by designing and analyzing algorithms whose regrets meet their corresponding information-theoretic lower bounds. Our results offer valuable quantitative insights into the benefits of the abstention option, laying the groundwork for further exploration in other online decision-making problems with such an option. Numerical results further corroborate our theoretical findings.
翻訳日:2024-02-26 15:29:35 公開日:2024-02-23
# 深い展開によるスタイン変分勾配降下の加速収束

Accelerating Convergence of Stein Variational Gradient Descent via Deep Unfolding ( http://arxiv.org/abs/2402.15125v1 )

ライセンス: Link先を確認
Yuya Kawamura and Satoshi Takabe(参考訳) スタイン変分勾配勾配(SVGD)は、ターゲット分布をサンプリングするために用いられる顕著な粒子ベースの変分勾配推定法である。 SVGDはベイズ推論のような機械学習技術への応用に関心を寄せている。 本稿では,深層展開と呼ばれる深層学習手法をSVGDに組み込んだ新しいトレーニング可能なアルゴリズムを提案する。 このアプローチにより,SVGDの内部パラメータの学習が容易になり,収束速度が向上する。 学習可能なsvgdアルゴリズムを評価するために,1次元ガウス混合のサンプリング,ベイズロジスティック回帰の実行,ベイズニューラルネットワークの学習という3つのタスクの数値シミュレーションを行った。 その結果,提案アルゴリズムは従来のSVGDよりも高速な収束を示すことがわかった。

Stein variational gradient descent (SVGD) is a prominent particle-based variational inference method used for sampling a target distribution. SVGD has attracted interest for application in machine-learning techniques such as Bayesian inference. In this paper, we propose novel trainable algorithms that incorporate a deep-learning technique called deep unfolding,into SVGD. This approach facilitates the learning of the internal parameters of SVGD, thereby accelerating its convergence speed. To evaluate the proposed trainable SVGD algorithms, we conducted numerical simulations of three tasks: sampling a one-dimensional Gaussian mixture, performing Bayesian logistic regression, and learning Bayesian neural networks. The results show that our proposed algorithms exhibit faster convergence than the conventional variants of SVGD.
翻訳日:2024-02-26 15:29:12 公開日:2024-02-23
# 2段階パラフレーズを用いた微調整CLIPテキストエンコーダ

Fine-tuning CLIP Text Encoders with Two-step Paraphrasing ( http://arxiv.org/abs/2402.15120v1 )

ライセンス: Link先を確認
Hyunjae Kim, Seunghyun Yoon, Trung Bui, Handong Zhao, Quan Tran, Franck Dernoncourt, Jaewoo Kang(参考訳) 対照的な言語画像事前学習(CLIP)モデルは、テキストから画像への検索など、様々な視覚言語タスクでかなりの成功を収めており、このモデルでは、自然言語入力を効果的に処理して正確な視覚出力を生成する必要がある。 しかし、現在のモデルは、パラフレーズのような入力クエリの言語的バリエーションを扱う際にも制限に直面しており、現実世界のアプリケーションで幅広いユーザクエリを扱うことは困難である。 本研究では,パラフレーズに対するCLIPモデルの表現性を高めるための簡単な微調整手法を提案する。 提案手法では,2段階のパラフレーズ生成プロセスを用いて,大規模画像キャプションから2種類のパラフレーズを自動生成する。 その後、生成したパラフレーズを用いてCLIPテキストエンコーダを微調整し、画像エンコーダを凍結する。 ParaCLIPと呼ばれる結果のモデルは、パラフレーズ検索(ランク類似度スコアが最大2.0%および5.6%向上)、Visual Genome Relation and Attribution、セマンティックテキスト類似度タスクなど、様々なタスクのベースラインCLIPモデルよりも大幅に改善されている。

Contrastive language-image pre-training (CLIP) models have demonstrated considerable success across various vision-language tasks, such as text-to-image retrieval, where the model is required to effectively process natural language input to produce an accurate visual output. However, current models still face limitations in dealing with linguistic variations in input queries, such as paraphrases, making it challenging to handle a broad range of user queries in real-world applications. In this study, we introduce a straightforward fine-tuning approach to enhance the representations of CLIP models for paraphrases. Our approach involves a two-step paraphrase generation process, where we automatically create two categories of paraphrases from web-scale image captions by leveraging large language models. Subsequently, we fine-tune the CLIP text encoder using these generated paraphrases while freezing the image encoder. Our resulting model, which we call ParaCLIP, exhibits significant improvements over baseline CLIP models across various tasks, including paraphrased retrieval (with rank similarity scores improved by up to 2.0% and 5.6%), Visual Genome Relation and Attribution, as well as seven semantic textual similarity tasks.
翻訳日:2024-02-26 15:28:50 公開日:2024-02-23
# 双対的対立論におけるボットの多能性解消のための多分野の枠組み

A multidisciplinary framework for deconstructing bots' pluripotency in dualistic antagonism ( http://arxiv.org/abs/2402.15119v1 )

ライセンス: Link先を確認
Wentao Xu, Kazutoshi Sasahara, Jianxun Chu, Bin Wang, Wenlu Fan, Zhiwen Hu(参考訳) 人為的社会ボットは、人間の言語コミュニケーションをエミュレートし、ソーシャルネットワークサービス(SNS)全体で有毒または炎症性コンテンツを生成するために設計されている。 ボットの拡散した誤報は、繰り返しの偽情報の暴露、政治的分極の増幅、民主的健康の妥協された指標、民族的アイデンティティの認識の変化、虚偽の社会的規範の伝播、時間の経過とともに集団記憶の操作といった複雑な要素を織り交ぜることで、社会的過程を微妙に再形成する可能性がある。 しかし、孤立したsns分析から、ハイブリダイゼーション、多言語、異種メディアにまたがるボットの多能性は、ほとんど不明であり、ボットの市民の会話に対する緊急のリスクを特徴付ける包括的な枠組みの必要性を裏付けている。 本稿では,影響の定量化,ネットワークダイナミクスのモニタリング,言語間特徴分析など,ボットの多能性を特徴付ける学際的枠組みを提案する。 ロシア・ウクライナ紛争に関する地政学的談話に適用すると、言語間毒性のプロファイリングとネットワーク分析の結果、ハイブリッドSNSにおける親ロシア人および親ウクライナ人およびボットの時空間軌跡が解明された。 兵器化されたボットは主にXに住み、人間は主にソーシャルメディア戦争でRedditに住んでいた。 この厳密な枠組みは、ボットの多能性行動における言語間同質性と異質性を解明し、情報操作、エコーチャンバーの形成、およびアルゴリズム的に構造化された社会における集合記憶の現示の基礎となる相乗的人間ボット機構を明らかにする。

Anthropomorphic social bots are engineered to emulate human verbal communication and generate toxic or inflammatory content across social networking services (SNSs). Bot-disseminated misinformation could subtly yet profoundly reshape societal processes by complexly interweaving factors like repeated disinformation exposure, amplified political polarization, compromised indicators of democratic health, shifted perceptions of national identity, propagation of false social norms, and manipulation of collective memory over time. However, extrapolating bots' pluripotency across hybridized, multilingual, and heterogeneous media ecologies from isolated SNS analyses remains largely unknown, underscoring the need for a comprehensive framework to characterise bots' emergent risks to civic discourse. Here we propose an interdisciplinary framework to characterise bots' pluripotency, incorporating quantification of influence, network dynamics monitoring, and interlingual feature analysis. When applied to the geopolitical discourse around the Russo-Ukrainian conflict, results from interlanguage toxicity profiling and network analysis elucidated spatiotemporal trajectories of pro-Russian and pro-Ukrainian human and bots across hybrid SNSs. Weaponized bots predominantly inhabited X, while human primarily populated Reddit in the social media warfare. This rigorous framework promises to elucidate interlingual homogeneity and heterogeneity in bots' pluripotent behaviours, revealing synergistic human-bot mechanisms underlying regimes of information manipulation, echo chamber formation, and collective memory manifestation in algorithmically structured societies.
翻訳日:2024-02-26 15:28:13 公開日:2024-02-23
# LLM用2次ファインチューニング:ヘッセンインフォームドゼロ階最適化器

Second-Order Fine-Tuning without Pain for LLMs:A Hessian Informed Zeroth-Order Optimizer ( http://arxiv.org/abs/2402.15173v1 )

ライセンス: Link先を確認
Yanjun Zhao, Sizhe Dang, Haishan Ye, Guang Dai, Yi Qian, Ivor W.Tsang(参考訳) 古典的な1次オプティマイザを備えた微調整大型言語モデル(LLM)は、バックプロパゲーションプロセスのため、禁止的なGPUメモリを必要とする。 最近の作業は、微調整のためのゼロオーダーオプティマイザに変わり、2つのフォワードパスを使用することで、かなりのメモリを節約している。 しかし、これらのオプティマイザは異なる次元のパラメータ曲率の不均一性に悩んでいる。 本研究は, 対角型ヘッセン情報ゼロ階最適化器であるHiZOOを提案し, 直交型ヘッセン情報ゼロ階最適化器を初めて活用し, 微調整用ゼロ階最適化器を改良する。 さらに、HiZOOは高価なメモリコストを回避し、ステップ毎に1回のフォワードパスしか増加しません。 各種モデル(350M~66Bパラメータ)の大規模な実験により、HiZOOはモデル収束を改善し、トレーニングステップを大幅に削減し、モデル精度を効果的に向上することが示された。 さらに,テスト関数上でのhizooの最適化軌跡を可視化し,異種曲率の取り扱いにおけるその効果を示す。 最後に、HiZOO に対する収束の理論的証明を提供する。 コードはhttps://anonymous.4open.science/r/HiZOO27F8で公開されている。

Fine-tuning large language models (LLMs) with classic first-order optimizers entails prohibitive GPU memory due to the backpropagation process. Recent works have turned to zeroth-order optimizers for fine-tuning, which save substantial memory by using two forward passes. However, these optimizers are plagued by the heterogeneity of parameter curvatures across different dimensions. In this work, we propose HiZOO, a diagonal Hessian informed zeroth-order optimizer which is the first work to leverage the diagonal Hessian to enhance zeroth-order optimizer for fine-tuning LLMs. What's more, HiZOO avoids the expensive memory cost and only increases one forward pass per step. Extensive experiments on various models (350M~66B parameters) indicate that HiZOO improves model convergence, significantly reducing training steps and effectively enhancing model accuracy. Moreover, we visualize the optimization trajectories of HiZOO on test functions, illustrating its effectiveness in handling heterogeneous curvatures. Lastly, we provide theoretical proofs of convergence for HiZOO. Code is publicly available at https://anonymous.4open.science/r/HiZOO27F8.
翻訳日:2024-02-26 15:22:52 公開日:2024-02-23
# 画像表現学習のための注意誘導マスク自動エンコーダ

Attention-Guided Masked Autoencoders For Learning Image Representations ( http://arxiv.org/abs/2402.15172v1 )

ライセンス: Link先を確認
Leon Sick, Dominik Engel, Pedro Hermosilla, Timo Ropinski(参考訳) Masked Autoencoders (MAE) はコンピュータビジョンタスクの教師なし事前訓練のための強力な方法として確立されている。 バニラMAEは画像の個々の部分の再構築に等しく重点を置いている一方で、注意誘導損失関数を用いて復元過程を通知することを提案する。 教師なしオブジェクト発見の進歩を活かして,損失関数に用いたシーンの注意マップを取得し,関連するオブジェクトの再構築に重きを置くことにより,確立されたマスキング戦略を損なうことなく,よりオブジェクト指向表現を学ぶためのモデルに効果的にインセンティブを与える。 評価の結果, 事前学習したモデルでは, 線形探索とk-NN分類の改善により, ベニラMAEよりも潜時表現の精度が向上し, 同時に, 様々な背景に対してより堅牢であることがわかった。

Masked autoencoders (MAEs) have established themselves as a powerful method for unsupervised pre-training for computer vision tasks. While vanilla MAEs put equal emphasis on reconstructing the individual parts of the image, we propose to inform the reconstruction process through an attention-guided loss function. By leveraging advances in unsupervised object discovery, we obtain an attention map of the scene which we employ in the loss function to put increased emphasis on reconstructing relevant objects, thus effectively incentivizing the model to learn more object-focused representations without compromising the established masking strategy. Our evaluations show that our pre-trained models learn better latent representations than the vanilla MAE, demonstrated by improved linear probing and k-NN classification results on several benchmarks while at the same time making ViTs more robust against varying backgrounds.
翻訳日:2024-02-26 15:22:31 公開日:2024-02-23
# 確率的組合せ半バンドに対する共分散適応最小二乗アルゴリズム

Covariance-Adaptive Least-Squares Algorithm for Stochastic Combinatorial Semi-Bandits ( http://arxiv.org/abs/2402.15171v1 )

ライセンス: Link先を確認
Julien Zhou (Thoth, STATIFY), Pierre Gaillard (Thoth), Thibaud Rahier, Houssam Zenati (SODA, PREMEDICAL), Julyan Arbel (STATIFY)(参考訳) 確率的組合せ半帯域の問題に対処し、プレイヤーは d 個の基本項目を含む集合の P 部分集合から選択できる。 ほとんどの既存のアルゴリズム(CUCB, ESCB, OLS-UCB)は報酬分布に関する事前知識を必要とする。 本研究では,OLS-UCBの分散適応バージョンを設計し,共分散構造をオンラインで推定する。 共分散行列の係数の推定は、実際的な設定ではずっと管理可能であり、プロキシ分散ベースのアルゴリズムと比較して、後悔の上限が改善される。 共分散係数がすべて非負である場合、我々の手法は半帯域フィードバックを効率よく利用し、P$\gg$ d の指数的状態だけでなく、P$\le$ d の指数的状態においてもバンドフィードバックアプローチを確実に上回ることを示す。

We address the problem of stochastic combinatorial semi-bandits, where a player can select from P subsets of a set containing d base items. Most existing algorithms (e.g. CUCB, ESCB, OLS-UCB) require prior knowledge on the reward distribution, like an upper bound on a sub-Gaussian proxy-variance, which is hard to estimate tightly. In this work, we design a variance-adaptive version of OLS-UCB, relying on an online estimation of the covariance structure. Estimating the coefficients of a covariance matrix is much more manageable in practical settings and results in improved regret upper bounds compared to proxy variance-based algorithms. When covariance coefficients are all non-negative, we show that our approach efficiently leverages the semi-bandit feedback and provably outperforms bandit feedback approaches, not only in exponential regimes where P $\gg$ d but also when P $\le$ d, which is not straightforward from most existing analyses.
翻訳日:2024-02-26 15:22:08 公開日:2024-02-23
# 拡散サンプリングにおけるスキップチューニングのサプライズ効果

The Surprising Effectiveness of Skip-Tuning in Diffusion Sampling ( http://arxiv.org/abs/2402.15170v1 )

ライセンス: Link先を確認
Jiajun Ma, Shuchen Xue, Tianyang Hu, Wenjia Wang, Zhaoqiang Liu, Zhenguo Li, Zhi-Ming Ma, Kenji Kawaguchi(参考訳) UNetアーキテクチャの導入により、拡散確率モデルは画像生成タスクにおいて支配的な力となっている。 UNetの鍵となる設計は、エンコーダとデコーダブロックの間のスキップ接続である。 スキップ接続はトレーニングの安定性とモデル性能を改善することが示されているが、このようなショートカットは変換の複雑さの制限要因となる可能性がある。 サンプリングステップが減少するにつれて、UNetの生成プロセスとUNetの役割はガウス分布からターゲットへのプッシュフォワード変換に近づき、ネットワークの複雑さに挑戦する。 この課題に対処するために,スキップ接続に対する単純かつ驚くほど効果的なトレーニングフリーチューニング手法であるskip-tuningを提案する。 NFE (1.75) が19個しかなく, ImageNet 64 で事前訓練された EDM に対して100% FID 改善を達成でき, サンプリングステップにかかわらず ODE サンプルの制限を破ることができる。 驚くべきことに、サンプリングステップの数を増やして、39 NFE (1.57) しか持たないEDM-2 (1.58) の最良の結果を超えることができると、改善は継続する。 意外な効果を明かすため、総合的な探索実験が行われた。 また,Skip-Tuningは画素空間におけるスコアマッチング損失を増大させるが,特に画像品質改善の最も効果的な範囲である中間雑音レベルにおいて,特徴空間の損失を減少させる。

With the incorporation of the UNet architecture, diffusion probabilistic models have become a dominant force in image generation tasks. One key design in UNet is the skip connections between the encoder and decoder blocks. Although skip connections have been shown to improve training stability and model performance, we reveal that such shortcuts can be a limiting factor for the complexity of the transformation. As the sampling steps decrease, the generation process and the role of the UNet get closer to the push-forward transformations from Gaussian distribution to the target, posing a challenge for the network's complexity. To address this challenge, we propose Skip-Tuning, a simple yet surprisingly effective training-free tuning method on the skip connections. Our method can achieve 100% FID improvement for pretrained EDM on ImageNet 64 with only 19 NFEs (1.75), breaking the limit of ODE samplers regardless of sampling steps. Surprisingly, the improvement persists when we increase the number of sampling steps and can even surpass the best result from EDM-2 (1.58) with only 39 NFEs (1.57). Comprehensive exploratory experiments are conducted to shed light on the surprising effectiveness. We observe that while Skip-Tuning increases the score-matching losses in the pixel space, the losses in the feature space are reduced, particularly at intermediate noise levels, which coincide with the most effective range accounting for image quality improvement.
翻訳日:2024-02-26 15:21:47 公開日:2024-02-23
# $\widetilde{O}(N^2)$ 一般連続反対称関数の表現

$\widetilde{O}(N^2)$ Representation of General Continuous Anti-symmetric Function ( http://arxiv.org/abs/2402.15167v1 )

ライセンス: Link先を確認
Haotian Ye, Ruichen Li, Yuntian Gu, Yiping Lu, Di He, Liwei Wang(参考訳) 量子力学において、多体電子系のようなフェルミオン系の波動関数は反対称(as)かつ連続であり、それらを表現するアンサッツを見つけることは極めて困難である。 本稿では、置換同変関数に基づく${\widetilde O}(N^2)$ ansatzを提示することにより、この問題に対処する。 我々は、我々のアンサッツが任意の AS 連続函数を表現でき、Hutter [14] によって提案された行列式に基づく構造に対応できることを証明し、${O}(N)$ Slater 行列式が AS 連続函数の普遍表現を提供するのに十分であることを示す。 共に、AS連続関数を表現するための一般化可能かつ効率的なアプローチを提供し、波動関数を学習するためのニューラルネットワークの設計に光を当てる。

In quantum mechanics, the wave function of fermion systems such as many-body electron systems are anti-symmetric (AS) and continuous, and it is crucial yet challenging to find an ansatz to represent them. This paper addresses this challenge by presenting an ${\widetilde O}(N^2)$ ansatz based on permutation-equivariant functions. We prove that our ansatz can represent any AS continuous functions, and can accommodate the determinant-based structure proposed by Hutter [14], solving the proposed open problems that ${O}(N)$ Slater determinants are sufficient to provide universal representation of AS continuous functions. Together, we offer a generalizable and efficient approach to representing AS continuous functions, shedding light on designing neural networks to learn wave functions.
翻訳日:2024-02-26 15:21:22 公開日:2024-02-23
# 不均一データに基づく分散フェデレーション学習の収束解析

Convergence Analysis of Split Federated Learning on Heterogeneous Data ( http://arxiv.org/abs/2402.15166v1 )

ライセンス: Link先を確認
Pengchao Han, Chao Huang, Geng Tian, Ming Tang, Xin Liu(参考訳) Split Federated Learning (SFL)は、複数のクライアント間で協調的なモデルトレーニングを行うための分散アプローチである。 SFLでは、グローバルモデルは通常、クライアントが並列なフェデレーションで一方を訓練し、メインサーバがもう一方を訓練する2つの部分に分けられる。 SFLアルゴリズムの最近の研究にもかかわらず、本論文ではSFLの収束解析が欠落しており、このギャップを埋めることを目的としている。 SFLの分析は、クライアントとメインサーバで二重ペースで更新される可能性があるため、フェデレートドラーニング(FL)よりも難しい場合がある。 我々は,異種データに対する強凸および一般凸対象に対するsflの収束解析を行う。 収束率は、それぞれ$O(1/T)$と$O(1/\sqrt[3]{T})$である。 分析をさらに非凸目的に拡張し、トレーニング中に一部のクライアントが利用できないようにします。 数値実験により,sfl が fl と split learning (sl) を上回っており,多くのクライアント間でデータが非常に不均一である場合,sfl が fl とスプリット学習 (sl) を上回っていることが示された。

Split federated learning (SFL) is a recent distributed approach for collaborative model training among multiple clients. In SFL, a global model is typically split into two parts, where clients train one part in a parallel federated manner, and a main server trains the other. Despite the recent research on SFL algorithm development, the convergence analysis of SFL is missing in the literature, and this paper aims to fill this gap. The analysis of SFL can be more challenging than that of federated learning (FL), due to the potential dual-paced updates at the clients and the main server. We provide convergence analysis of SFL for strongly convex and general convex objectives on heterogeneous data. The convergence rates are $O(1/T)$ and $O(1/\sqrt[3]{T})$, respectively, where $T$ denotes the total number of rounds for SFL training. We further extend the analysis to non-convex objectives and where some clients may be unavailable during training. Numerical experiments validate our theoretical results and show that SFL outperforms FL and split learning (SL) when data is highly heterogeneous across a large number of clients.
翻訳日:2024-02-26 15:21:03 公開日:2024-02-23
# 自発超放射光子電流

Spontaneous superradiant photon current ( http://arxiv.org/abs/2402.15165v1 )

ライセンス: Link先を確認
Lei Qiao and Jiangbin Gong(参考訳) この研究は、スピンキャビティ系における光子電流の自然発生を報告し、そこでは、量子エミッタの集合がトンネル結合キャビティに閉じ込められた異なる光子モードと相互作用する。 特に、必要な対称性の破れにより、コヒーレントな光子-エミッター相互作用によって得られる超ラジアント相の光子は、低い共鳴周波数でキャビティから高い共鳴周波数で異なるキャビティに自発的に流れる。 理論的解析により、空洞の散逸がスピンキャビティコヒーレンスを変える鍵であり、それによって光子を抽出し、後に空洞から空洞に戻すことができることが明らかになった。 フォトン損失とエミッタコヒーレンスとの相互作用により、外部のポンプ磁場のないキャビティ間の光子の直感的に安定した電流が保たれる。

This work reports the spontaneous emergence of a photon current in a class of spin-cavity systems, where an assemble of quantum emitters interact with distinct photon modes confined in tunneling-coupled cavities. Specifically, with necessary symmetry breaking, photons in a superradiant phase afforded by coherent photon-emitter interaction spontaneously flow from a cavity with a lower resonance frequency to a different cavity with a higher resonance frequency. Theoretical analysis reveals that cavity dissipation is the key to alter spin-cavity coherence, which then makes it possible to extract photons from, and later return photons to the vaccum through the cavities. The interplay between photon loss and emitter coherence hence sustains a counter-intuitive steady current of photons between cavities without an external pumping field.
翻訳日:2024-02-26 15:20:41 公開日:2024-02-23
# EasyRL4Rec: 強化学習に基づくレコメンダシステムのためのユーザフレンドリーなコードライブラリ

EasyRL4Rec: A User-Friendly Code Library for Reinforcement Learning Based Recommender Systems ( http://arxiv.org/abs/2402.15164v1 )

ライセンス: Link先を確認
Yuanqing Yu, Chongming Gao, Jiawei Chen, Heng Tang, Yuefeng Sun, Qian Chen, Weizhi Ma, Min Zhang(参考訳) 強化学習(rl)ベースのレコメンダシステム(rss)は、長期ユーザエンゲージメントを改善する能力として認識されるようになっている。 しかしこの分野は、アクセシブルフレームワークの欠如、一貫性のない評価基準、事前の作業の複製の複雑さといった課題に悩まされている。 これらの障害に対処するため,ユーザフレンドリで効率的なライブラリであるEasyRL4Recを提案する。 EasyRL4Recは5つの広く使用されているパブリックデータセット上に構築された軽量で多様なRL環境を備え、モデルの開発を容易にするための豊富なオプションを提供する包括的なコアモジュールを備えている。 長期的影響に焦点を当てた一貫した評価基準を確立し、レコメンデーションシステムに適した状態モデリングとアクション表現のためのカスタマイズされたソリューションを導入する。 さらに、現在の手法による広範な実験から得られた貴重な洞察を共有します。 EasyRL4Recは、RLベースのRSのドメインにおけるモデル開発と実験プロセスを容易にすることを目的としている。 ライブラリはhttps://github.com/chongminggao/EasyRL4Recで公開されている。

Reinforcement Learning (RL)-Based Recommender Systems (RSs) are increasingly recognized for their ability to improve long-term user engagement. Yet, the field grapples with challenges such as the absence of accessible frameworks, inconsistent evaluation standards, and the complexity of replicating prior work. Addressing these obstacles, we present EasyRL4Rec, a user-friendly and efficient library tailored for RL-based RSs. EasyRL4Rec features lightweight, diverse RL environments built on five widely-used public datasets, and is equipped with comprehensive core modules that offer rich options to ease the development of models. It establishes consistent evaluation criteria with a focus on long-term impacts and introduces customized solutions for state modeling and action representation tailored to recommender systems. Additionally, we share valuable insights gained from extensive experiments with current methods. EasyRL4Rec aims to facilitate the model development and experimental process in the domain of RL-based RSs. The library is openly accessible at https://github.com/chongminggao/EasyRL4Rec.
翻訳日:2024-02-26 15:20:27 公開日:2024-02-23
# 森林火災予測のための深部ニューラルネットワーク評価における確率の影響に関する研究

Studying the Impact of Stochasticity on the Evaluation of Deep Neural Networks for Forest-Fire Prediction ( http://arxiv.org/abs/2402.15163v1 )

ライセンス: Link先を確認
Harshit Kumar, Biswadeep Chakraborty, Beomseok Kang, Saibal Mukhopadhyay(参考訳) 本稿では,確率的仮定に基づく離散力学系に対するディープニューラルネットワーク (DNN) の評価に関する最初の体系的研究を行い,山火事予測に着目した。 本研究では,2種類の評価指標に対する確率性の影響を研究する枠組みを開発する。分類に基づく評価指標は,観測された基底真理(GT)に対する忠実性を評価するもので,正解度を統計的に検証する適切なスコアリングルールである。 その結果,確率論的シナリオにおいて,信頼度から統計への評価が信頼性の高い代替手段であることが判明した。 我々は解析を実世界のワイルドファイアデータに拡張し、従来のワイルドファイア予測評価手法の限界を強調し、解釈可能な確率的代替案を提案する。

This paper presents the first systematic study of the evaluation of Deep Neural Networks (DNNs) for discrete dynamical systems under stochastic assumptions, with a focus on wildfire prediction. We develop a framework to study the impact of stochasticity on two classes of evaluation metrics: classification-based metrics, which assess fidelity to observed ground truth (GT), and proper scoring rules, which test fidelity-to-statistic. Our findings reveal that evaluating for fidelity-to-statistic is a reliable alternative in highly stochastic scenarios. We extend our analysis to real-world wildfire data, highlighting limitations in traditional wildfire prediction evaluation methods, and suggest interpretable stochasticity-compatible alternatives.
翻訳日:2024-02-26 15:20:07 公開日:2024-02-23
# ファインチューニングに基づく抽象要約モデルのエンティティレベルFactual Adaptiveness

Entity-level Factual Adaptiveness of Fine-tuning based Abstractive Summarization Models ( http://arxiv.org/abs/2402.15162v1 )

ライセンス: Link先を確認
Jongyoon Song, Nohil Park, Bongkyu Hwang, Jaewoong Yun, Seongho Joe, Youngjune L. Gwon, Sungroh Yoon(参考訳) 抽象的要約モデルは、特にモデルのパラメトリックな知識が入力文書の知識と矛盾する場合、事実的に一貫性のないコンテンツを生成する。 本稿では,ファインチューニングに基づく要約モデルの知識衝突に対するロバスト性を解析し,これを事実適応性( factual adaptness)と呼ぶ。 事前学習された言語モデルを用いて評価セットを構築し,実際の適応性はオリジナルデータセットの事実整合性と強く相関しないことを示す。 さらに,拡張データ内の知識衝突の程度を調整可能な,制御可能な対実データ拡張手法を提案する。 事前学習された2つの言語モデル(PEGASUSとBART)と2つの微調整データセット(XSumとCNN/DailyMail)による実験結果から,本手法は,比較学習ベースラインと同等の精度で,実際の適応性を向上させる。

Abstractive summarization models often generate factually inconsistent content particularly when the parametric knowledge of the model conflicts with the knowledge in the input document. In this paper, we analyze the robustness of fine-tuning based summarization models to the knowledge conflict, which we call factual adaptiveness. We utilize pre-trained language models to construct evaluation sets and find that factual adaptiveness is not strongly correlated with factual consistency on original datasets. Furthermore, we introduce a controllable counterfactual data augmentation method where the degree of knowledge conflict within the augmented data can be adjustable. Our experimental results on two pre-trained language models (PEGASUS and BART) and two fine-tuning datasets (XSum and CNN/DailyMail) demonstrate that our method enhances factual adaptiveness while achieving factual consistency on original datasets on par with the contrastive learning baseline.
翻訳日:2024-02-26 15:19:53 公開日:2024-02-23
# エンボディエージェント用空間認識トランスメモリ

Spatially-Aware Transformer Memory for Embodied Agents ( http://arxiv.org/abs/2402.15160v1 )

ライセンス: Link先を確認
Junmo Cho, Jaesik Yoon, Sungjin Ahn(参考訳) エピソード記憶は、過去の出来事を精神的に思い出す能力など、様々な認知過程において重要な役割を果たす。 認知科学は、エピソード記憶の形成と検索における空間コンテキストの重要性を強調する一方で、AIシステムでエピソード記憶を実装するための現在の主要なアプローチは、時間的に秩序づけられた体験を記憶するトランスフォーマーを通じて、空間次元を見渡すことである。 その結果, 空間軸を時間的秩序だけに包含し, どのような利点が得られるか, 基礎構造をどのように拡張できるかは明らかでない。 そこで本稿では,空間情報を組み込んだ空間認識トランスフォーマーモデルについて検討する。 これらのモデルにより、時空間次元と空間次元の両方を考慮する場所中心のエピソディックメモリが作成できる。 このアプローチを採用すると、メモリ利用効率が向上し、様々な場所中心の下流タスクにおいて精度が向上することを示す。 さらに,メモリ利用効率の最適化を目的とした強化学習に基づくメモリ管理手法であるadaptive memory allocatorを提案する。 本実験は, 予測, 生成, 推論, 強化学習など, 様々な環境における提案モデルの利点を実証するものである。 私たちのモデルと実験のソースコードは、https://github.com/junmokane/spatially-aware-transformerで閲覧できます。

Episodic memory plays a crucial role in various cognitive processes, such as the ability to mentally recall past events. While cognitive science emphasizes the significance of spatial context in the formation and retrieval of episodic memory, the current primary approach to implementing episodic memory in AI systems is through transformers that store temporally ordered experiences, which overlooks the spatial dimension. As a result, it is unclear how the underlying structure could be extended to incorporate the spatial axis beyond temporal order alone and thereby what benefits can be obtained. To address this, this paper explores the use of Spatially-Aware Transformer models that incorporate spatial information. These models enable the creation of place-centric episodic memory that considers both temporal and spatial dimensions. Adopting this approach, we demonstrate that memory utilization efficiency can be improved, leading to enhanced accuracy in various place-centric downstream tasks. Additionally, we propose the Adaptive Memory Allocator, a memory management method based on reinforcement learning that aims to optimize efficiency of memory utilization. Our experiments demonstrate the advantages of our proposed model in various environments and across multiple downstream tasks, including prediction, generation, reasoning, and reinforcement learning. The source code for our models and experiments will be available at https://github.com/junmokane/spatially-aware-transformer.
翻訳日:2024-02-26 15:19:33 公開日:2024-02-23
# 事前学習型大規模言語モデルの機械学習

Machine Unlearning of Pre-trained Large Language Models ( http://arxiv.org/abs/2402.15159v1 )

ライセンス: Link先を確認
Jin Yao, Eli Chien, Minxin Du, Xinyao Niu, Tianhao Wang, Zezhou Cheng, Xiang Yue(参考訳) 本研究では,大規模言語モデル (LLM) の文脈における「忘れられる権利」の概念について検討する。 私たちは機械学習を重要なソリューションとして探求し、事前学習されたモデルに焦点を当てます。 本研究は,7種類の未学習手法の批判的分析を含む,事前学習型LLMにおける機械学習の包括的枠組みを概説する。 arXiv、書籍、GitHubのキュレートされたデータセットを使用した厳密な評価を通じて、未学習のパフォーマンスの堅牢なベンチマークを確立し、これらの手法が再トレーニングよりも10^5$以上の計算効率を持つことを示した。 その結果,分布データに勾配上昇と勾配降下を統合すると,ハイパーパラメータのロバスト性が向上することがわかった。 また、未学習プロセスにおける効率的なハイパーパラメータチューニングのための詳細なガイドラインも提供する。 我々の発見は、倫理的AIの実践に関する議論を前進させ、事前訓練されたLLMのための機械学習のメカニズムに関する実質的な洞察を提供し、AI開発に責任がある可能性を強調した。

This study investigates the concept of the `right to be forgotten' within the context of large language models (LLMs). We explore machine unlearning as a pivotal solution, with a focus on pre-trained models--a notably under-researched area. Our research delineates a comprehensive framework for machine unlearning in pre-trained LLMs, encompassing a critical analysis of seven diverse unlearning methods. Through rigorous evaluation using curated datasets from arXiv, books, and GitHub, we establish a robust benchmark for unlearning performance, demonstrating that these methods are over $10^5$ times more computationally efficient than retraining. Our results show that integrating gradient ascent with gradient descent on in-distribution data improves hyperparameter robustness. We also provide detailed guidelines for efficient hyperparameter tuning in the unlearning process. Our findings advance the discourse on ethical AI practices, offering substantive insights into the mechanics of machine unlearning for pre-trained LLMs and underscoring the potential for responsible AI development.
翻訳日:2024-02-26 15:19:13 公開日:2024-02-23
# 教師なし文埋め込みのためのコントラスト学習による自己適応型再構成

Self-Adaptive Reconstruction with Contrastive Learning for Unsupervised Sentence Embeddings ( http://arxiv.org/abs/2402.15153v1 )

ライセンス: Link先を確認
Junlong Liu, Xichen Shang, Huawen Feng, Junhao Zheng, Qianli Ma(参考訳) 教師なし文埋め込みタスクは、文を意味ベクトル表現に変換することを目的としている。 以前の作品の多くは、事前学習された言語モデルから派生した文表現を直接使用する。 しかし、事前訓練された言語モデルのトークンバイアスのため、モデルは文の細粒度のセマンティクスをキャプチャできないため、予測は不十分である。 この問題に対処するために,AutoEncoderを用いて文中のすべてのトークンを再構成し,トークン集約中によりきめ細かなセマンティクスを保持するための,新しい自己適応型コントラスト文埋め込み(SARCSE)フレームワークを提案する。 さらに,周波数に対するトークンバイアスを軽減するための自己適応的再構成損失を提案する。 実験の結果,SARCSEは7つのSTSタスクの強いベースラインであるSimCSEに比べて大幅に改善された。

Unsupervised sentence embeddings task aims to convert sentences to semantic vector representations. Most previous works directly use the sentence representations derived from pretrained language models. However, due to the token bias in pretrained language models, the models can not capture the fine-grained semantics in sentences, which leads to poor predictions. To address this issue, we propose a novel Self-Adaptive Reconstruction Contrastive Sentence Embeddings (SARCSE) framework, which reconstructs all tokens in sentences with an AutoEncoder to help the model to preserve more fine-grained semantics during tokens aggregating. In addition, we proposed a self-adaptive reconstruction loss to alleviate the token bias towards frequency. Experimental results show that SARCSE gains significant improvements compared with the strong baseline SimCSE on the 7 STS tasks.
翻訳日:2024-02-26 15:18:55 公開日:2024-02-23
# シャープネス認識最小化と敵意訓練の双対性について

On the Duality Between Sharpness-Aware Minimization and Adversarial Training ( http://arxiv.org/abs/2402.15152v1 )

ライセンス: Link先を確認
Yihao Zhang, Hangzhou He, Jingyu Zhu, Huanran Chen, Yifei Wang, Zeming Wei(参考訳) 対人訓練(AT)は、対人攻撃に対する最も効果的な防御の1つとして認識されているが、必然的にクリーンな精度を低下させる基本的なトレードオフに悩まされている。 サンプルを摂動する代わりに、Sharpness-Aware Minimization (SAM) はトレーニング中にモデルの重量を摂動させ、より平坦な損失ランドスケープを見つけ、一般化を改善する。 しかし、SAMはより清潔な精度で設計されているため、敵の堅牢性を高める効果は未解明のままである。 本研究では,SAM と AT の双対性を考慮し,SAM から得られる対角的堅牢性について検討する。 興味深いことに、SAMだけでは敵の堅牢性を向上させることができる。 このSAMの予期せぬ性質を理解するために、まずSAMがより頑健な特徴を暗黙的に学習する方法に関する経験的および理論的知見を提供し、SAMが特にクリーンな精度を犠牲にすることなく敵の堅牢性を向上できることを示す包括的な実験を行い、精度の高いATの代替となる可能性に光を当てる。 コードはhttps://github.com/weizeming/SAM_ATで入手できる。

Adversarial Training (AT), which adversarially perturb the input samples during training, has been acknowledged as one of the most effective defenses against adversarial attacks, yet suffers from a fundamental tradeoff that inevitably decreases clean accuracy. Instead of perturbing the samples, Sharpness-Aware Minimization (SAM) perturbs the model weights during training to find a more flat loss landscape and improve generalization. However, as SAM is designed for better clean accuracy, its effectiveness in enhancing adversarial robustness remains unexplored. In this work, considering the duality between SAM and AT, we investigate the adversarial robustness derived from SAM. Intriguingly, we find that using SAM alone can improve adversarial robustness. To understand this unexpected property of SAM, we first provide empirical and theoretical insights into how SAM can implicitly learn more robust features, and conduct comprehensive experiments to show that SAM can improve adversarial robustness notably without sacrificing any clean accuracy, shedding light on the potential of SAM to be a substitute for AT when accuracy comes at a higher priority. Code is available at https://github.com/weizeming/SAM_AT.
翻訳日:2024-02-26 15:18:39 公開日:2024-02-23
# 視覚音声が言語に合致する場所 - vsp-llmフレームワークによる効率的・文脈対応視覚音声処理

Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing ( http://arxiv.org/abs/2402.15151v1 )

ライセンス: Link先を確認
Jeong Hun Yeo, Seunghee Han, Minsu Kim, Yong Man Ro(参考訳) 視覚音声処理における文脈モデリング能力は、唇運動のあいまいさに起因する最も重要な要件の1つである。 例えば、同じ唇の動きを共有し、異なる音を産み出す語であるホモフェネスは、文脈を考慮して区別することができる。 本稿では,llms (vsp-llm) を組み込んだ視覚音声処理という新しい枠組みを提案する。 具体的には、VSP-LLMは、与えられた指示がタスクの種類を制御する視覚音声認識と翻訳のマルチタスクを実行するように設計されている。 自己教師付き視覚音声モデルを用いて、入力映像をLSMの入力潜時空間にマッピングする。 入力フレームに冗長な情報が存在することに着目し、視覚音声ユニットを用いることで、埋め込み型視覚特徴を減少させる新しい重複法を提案する。 提案手法とローランク適応器 (LoRA) を用いて, VSP-LLM を効率よく訓練することができる。 翻訳データセットであるmuavicベンチマークでは,ラベル付きデータ433時間でトレーニングされた最近の翻訳モデルと比較して,vsp-llmが15時間のラベル付きデータで唇の動きをより効果的に認識し,翻訳できることが示されている。

In visual speech processing, context modeling capability is one of the most important requirements due to the ambiguous nature of lip movements. For example, homophenes, words that share identical lip movements but produce different sounds, can be distinguished by considering the context. In this paper, we propose a novel framework, namely Visual Speech Processing incorporated with LLMs (VSP-LLM), to maximize the context modeling ability by bringing the overwhelming power of LLMs. Specifically, VSP-LLM is designed to perform multi-tasks of visual speech recognition and translation, where the given instructions control the type of task. The input video is mapped to the input latent space of a LLM by employing a self-supervised visual speech model. Focused on the fact that there is redundant information in input frames, we propose a novel deduplication method that reduces the embedded visual features by employing visual speech units. Through the proposed deduplication and Low Rank Adaptors (LoRA), VSP-LLM can be trained in a computationally efficient manner. In the translation dataset, the MuAViC benchmark, we demonstrate that VSP-LLM can more effectively recognize and translate lip movements with just 15 hours of labeled data, compared to the recent translation model trained with 433 hours of labeld data.
翻訳日:2024-02-26 15:18:15 公開日:2024-02-23
# (ほとんど)全てはディックモデルであり、相関した光マター系を正確に解けるディックモデルにマッピングする

(Almost) Everything is a Dicke model -- Mapping correlated light-matter systems to the exactly solvable Dicke model ( http://arxiv.org/abs/2402.15209v1 )

ライセンス: Link先を確認
Andreas Schellenberger, Kai Phillip Schmidt(参考訳) ディッケカップリングを持つ単一モードキャビティにおける相互作用量子スピン系のクラスを、強相関光マッター系のパラダイム的例として検討する。 弱い光物質結合と多数の物質実体の極限から、幅広いクラスのモデルの関連する低エネルギーセクターを、正確に解けるディックモデルにマッピングする。 この結果は、平均場理論によって得られた結果と一致して、パラダイム的例としてディッケライジングモデルに適用する。 さらに, 完全対角化法と直列展開法pcst++を用いて, 有限サイズの計算を行い, 検証を行った。

We investigate classes of interacting quantum spin systems in a single-mode cavity with a Dicke coupling, as a paradigmatic example of strongly correlated light-matter systems. Coming from the limit of weak light-matter couplings and large number of matter entities, we map the relevant low-energy sector of a broad class of models onto the exactly solvable Dicke model. We apply the outcomes to the Dicke-Ising model as a paradigmatic example, in agreement with results obtained by mean-field theory. We further accompany and verify our findings with finite-size calculations, using exact diagonalization and the series expansion method pcst++.
翻訳日:2024-02-26 15:12:21 公開日:2024-02-23
# オンライン人物再識別のためのソースガイド型類似性保存

Source-Guided Similarity Preservation for Online Person Re-Identification ( http://arxiv.org/abs/2402.15206v1 )

ライセンス: Link先を確認
Hamza Rami, Jhony H. Giraldo, Nicolas Winckler, St\'ephane Lathuili\`ere(参考訳) online unsupervised domain adaptation (ouda) for person re-id (re-id) は、よくアノテーションされたソースドメインデータセットでトレーニングされたモデルを、データストリームとして観察されるターゲットドメインに継続的に適用するタスクである。 OUDAでは、人物Re-IDモデルは、破滅的な忘れとドメインシフトという、2つの大きな課題に直面しています。 本稿では,これら2つの問題を緩和するための新しいソース誘導類似性保存(S2P)フレームワークを提案する。 本フレームワークは,対象データとの類似性を最大化するソースイメージからなるサポートセットの抽出に基づいている。 このサポートセットは、学習プロセス中に保存しなければならない特徴の類似性を特定するために使用される。 S2Pは、破滅的な忘れを緩和するために、既存の複数のUDAメソッドを組み込むことができる。 実験の結果、s2pは、複数の実対実および合成対実の挑戦的なoudaベンチマークにおいて、以前の最先端の手法よりも優れていることがわかった。

Online Unsupervised Domain Adaptation (OUDA) for person Re-Identification (Re-ID) is the task of continuously adapting a model trained on a well-annotated source domain dataset to a target domain observed as a data stream. In OUDA, person Re-ID models face two main challenges: catastrophic forgetting and domain shift. In this work, we propose a new Source-guided Similarity Preservation (S2P) framework to alleviate these two problems. Our framework is based on the extraction of a support set composed of source images that maximizes the similarity with the target data. This support set is used to identify feature similarities that must be preserved during the learning process. S2P can incorporate multiple existing UDA methods to mitigate catastrophic forgetting. Our experiments show that S2P outperforms previous state-of-the-art methods on multiple real-to-real and synthetic-to-real challenging OUDA benchmarks.
翻訳日:2024-02-26 15:12:08 公開日:2024-02-23
# ICU患者回復の促進 : LLMを用いた看護婦の日記作成支援

Enhancing ICU Patient Recovery: Using LLMs to Assist Nurses in Diary Writing ( http://arxiv.org/abs/2402.15205v1 )

ライセンス: Link先を確認
Samuel Kernan Freire, Margo MC van Mol, Carola Schol, Elif \"Ozcan Vieira(参考訳) 集中治療室(ICU)患者は、長期回復において新しい健康問題を引き起こすことが多い。 患者の滞在の日記を残す医療専門家は、この問題に取り組むための実証済みの戦略であるが、時間不足や書き方を知ることの難しさなど、いくつかの採用障壁に直面している。 大きな言語モデル(LLM)は、人間に似たテキストと適応性を生成する能力を持ち、これらの課題を解決することができる。 しかし、このビジョンを実現するには、いくつかの社会技術的および実践的な研究課題に取り組む必要がある。 本稿では、これらの課題を論じ、ICU日記作成におけるLCMの可能性を活用するための今後の研究指針を提案し、最終的にICU患者の長期回復の成果を改善する。

Intensive care unit (ICU) patients often develop new health-related problems in their long-term recovery. Health care professionals keeping a diary of a patient's stay is a proven strategy to tackle this but faces several adoption barriers, such as lack of time and difficulty in knowing what to write. Large language models (LLMs), with their ability to generate human-like text and adaptability, could solve these challenges. However, realizing this vision involves addressing several socio-technical and practical research challenges. This paper discusses these challenges and proposes future research directions to utilize the potential of LLMs in ICU diary writing, ultimately improving the long-term recovery outcomes for ICU patients.
翻訳日:2024-02-26 15:11:46 公開日:2024-02-23
# 大規模言語モデルに対するインスタンスレベルプレフィックスによる微粒化デトックス化

Fine-Grained Detoxification via Instance-Level Prefixes for Large Language Models ( http://arxiv.org/abs/2402.15202v1 )

ライセンス: Link先を確認
Xin Yi and Linlin Wang and Xiaoling Wang and Liang He(参考訳) 自然言語処理(NLP)タスクにおいて,大規模言語モデル(LLM)の学習を通じて印象的な結果が得られた。 しかし、これらのモデルは時々特定のプロンプトに反応して侮辱、脅し、暴言などの有害な内容を生成し、それによって実用性を制限する。 この問題に対処するために,様々な微調整ベースおよび復号化ベースのアプローチが,毒性の緩和に利用されている。 しかし、これらの手法は通常、高品質なトレーニングデータや補助モデルなどの追加コストを必要とする。 本稿では, 有害テキストを余分なコストで軽減するために, インスタンスレベルのプレフィックス(FGDILP)による微粒化デトキシ化を提案する。 具体的には、FGDILPは、インスタンスレベルでの複数の負のプレフィックス前プロンプトと、正のプレフィックス前プロンプトを用いて、注意空間における文脈的表現を対比する。 これにより、微粒な亜毒性ベクターの構築が可能となり、生のプロンプトが提供されると、それらを融合して通常の生成プロセスを修正できる。 fgdilpは発話レベルと文脈レベルでの毒性に関して、制御されたテキスト生成を可能にすることを検証した。 本手法は, 脱毒剤の急激なベースラインを超過するが, 拡散率や多様性はわずかである。

Impressive results have been achieved in natural language processing (NLP) tasks through the training of large language models (LLMs). However, these models occasionally produce toxic content such as insults, threats, and profanity in response to certain prompts, thereby constraining their practical utility. To tackle this issue, various finetuning-based and decoding-based approaches have been utilized to mitigate toxicity. However, these methods typically necessitate additional costs such as high-quality training data or auxiliary models. In this paper, we propose fine-grained detoxification via instance-level prefixes (FGDILP) to mitigate toxic text without additional cost. Specifically, FGDILP contrasts the contextualized representation in attention space using a positive prefix-prepended prompt against multiple negative prefix-prepended prompts at the instance level. This allows for constructing fine-grained subtoxicity vectors, which enables collaborative detoxification by fusing them to correct the normal generation process when provided with a raw prompt. We validate that FGDILP enables controlled text generation with regard to toxicity at both the utterance and context levels. Our method surpasses prompt-based baselines in detoxification, although at a slight cost to generation fluency and diversity.
翻訳日:2024-02-26 15:11:34 公開日:2024-02-23
# DeMPT:LLMをコンテクスト対応トランスレータにするための復号化マルチフェーズプロンプトチューニング

DeMPT: Decoding-enhanced Multi-phase Prompt Tuning for Making LLMs Be Better Context-aware Translators ( http://arxiv.org/abs/2402.15200v1 )

ライセンス: Link先を確認
Xinglin Lyu, Junhui Li, Yanqing Zhao, Min Zhang, Daimeng Wei, Shimin Tao, Hao Yang and Min Zhang(参考訳) 一般に、デコーダのみの大規模言語モデル(LLM)は、コンカレント対応のニューラルネットワーク翻訳(NMT)に適応し、LLMはソース文(例えば、文内コンテキスト)と文間コンテキストの結合を入力として取り、次にターゲットトークンを逐次生成する。 この適応戦略、すなわち連結モードは、2種類の文脈の間に明らかな違いがあるにもかかわらず、文内コンテキストと文間コンテキストを同じ優先順位で考える。 本稿では,復号化マルチフェーズ・プロンプト・チューニング (DeMPT) という代替手法を提案し,LLMを識別モデルにし,文間・文間コンテキストを有効利用し,文脈認識型NMTにLLMをより効果的に適用する。 まず、DeMPTはコンテキスト対応のNMTプロセスを3つのフェーズに分割する。 各フェーズで異なる連続プロンプトを導入し、LLMを様々な情報を識別的にモデル化する。 第二に、DeMPTは最終復号フェーズにおけるソース側間および文内情報のさらなる利用を識別するためにヒューリスティックな方法を採用している。 実験により,本手法は連結法を著しく上回り,談話モデルにおけるLLMの性能をさらに向上することが示された。

Generally, the decoder-only large language models (LLMs) are adapted to context-aware neural machine translation (NMT) in a concatenating way, where LLMs take the concatenation of the source sentence (i.e., intra-sentence context) and the inter-sentence context as the input, and then to generate the target tokens sequentially. This adaptation strategy, i.e., concatenation mode, considers intra-sentence and inter-sentence contexts with the same priority, despite an apparent difference between the two kinds of contexts. In this paper, we propose an alternative adaptation approach, named Decoding-enhanced Multi-phase Prompt Tuning (DeMPT), to make LLMs discriminately model and utilize the inter- and intra-sentence context and more effectively adapt LLMs to context-aware NMT. First, DeMPT divides the context-aware NMT process into three separate phases. During each phase, different continuous prompts are introduced to make LLMs discriminately model various information. Second, DeMPT employs a heuristic way to further discriminately enhance the utilization of the source-side inter- and intra-sentence information at the final decoding phase. Experiments show that our approach significantly outperforms the concatenation method, and further improves the performance of LLMs in discourse modeling.
翻訳日:2024-02-26 15:11:12 公開日:2024-02-23
# オープンセットアノテーションのための双方向不確実性に基づくアクティブラーニング

Bidirectional Uncertainty-Based Active Learning for Open Set Annotation ( http://arxiv.org/abs/2402.15198v1 )

ライセンス: Link先を確認
Chen-Chen Zong, Ye-Wen Wang, Kun-Peng Ning, Haibo Ye, Sheng-Jun Huang(参考訳) オープンセットシナリオにおけるアクティブラーニング(al)は、既知のクラスと未知のクラスの両方のデータを含むラベルのないデータプールの最も価値のある例を特定するという、新しい挑戦を示している。 従来の手法では、信頼度の低い有益な例の選択を優先し、同様に信頼度の低い未知のクラスの例を誤って選択するリスクを負う。 最近のメソッドは最も可能性の高い既知の例を好んでおり、既にマスター済みの単純な例を選ぶリスクがある。 本稿では、既知のクラスと高情報の両方の可能性のあるサンプルを問合せし、buAL (textit{Bidirectional Uncertainty-based Active Learning}) フレームワークを提案する。 具体的には,提案する \textit{random label negative learning} 法を用いて,未知のクラス例を高信頼予測領域にプッシュすることで,これを実現する。 そこで我々は,正と負の両方の学習によって生じる不確実性を共同で推定し,一貫した,安定したサンプリングを行うことによって,‘textit{Bidirectional Uncertainty sample} 戦略を提案する。 BUALは既存の不確実性ベースのALメソッドを複雑なオープンセットシナリオに拡張することに成功した。 さまざまなオープン性を持つ複数のデータセットに対する大規模な実験は、BUALが最先端のパフォーマンスを達成することを示す。

Active learning (AL) in open set scenarios presents a novel challenge of identifying the most valuable examples in an unlabeled data pool that comprises data from both known and unknown classes. Traditional methods prioritize selecting informative examples with low confidence, with the risk of mistakenly selecting unknown-class examples with similarly low confidence. Recent methods favor the most probable known-class examples, with the risk of picking simple already mastered examples. In this paper, we attempt to query examples that are both likely from known classes and highly informative, and propose a \textit{Bidirectional Uncertainty-based Active Learning} (BUAL) framework. Specifically, we achieve this by first pushing the unknown class examples toward regions with high-confidence predictions with our proposed \textit{Random Label Negative Learning} method. Then, we propose a \textit{Bidirectional Uncertainty sampling} strategy by jointly estimating uncertainty posed by both positive and negative learning to perform consistent and stable sampling. BUAL successfully extends existing uncertainty-based AL methods to complex open-set scenarios. Extensive experiments on multiple datasets with varying openness demonstrate that BUAL achieves state-of-the-art performance.
翻訳日:2024-02-26 15:10:47 公開日:2024-02-23
# 多目的政策最適化による安全最適化強化学習

Safety Optimized Reinforcement Learning via Multi-Objective Policy Optimization ( http://arxiv.org/abs/2402.15197v1 )

ライセンス: Link先を確認
Homayoun Honari, Mehran Ghafarian Tamizi, Homayoun Najjaran(参考訳) 安全強化学習(safe reinforcement learning、safe rl)は、rlアルゴリズムが試行錯誤の過程における意思決定と探索の過程の制約に違反することを防ぐための手法である。 本稿では,多目的政策最適化フレームワークに基づいて定式化した新しいモデルフリー・セーフ・rlアルゴリズムを導入し,ポリシーの最適性と安全性を同時に最適化する。 最適性は、その後安全評論家を用いて形づくられる環境報酬関数によって達成される。 従来のSafe RLアルゴリズムと比較して、Safe Optimized RL (SORL)アルゴリズムの利点は、ポリシー検索空間を制限する必要がなくなることである。 これによりSORLは、厳密な検索空間の制約により、安全性と最適性の両方の観点から性能を損なうことなく、安全性と最適性の間の自然なトレードオフを見つけることができる。 SORLの理論的解析を通じて、安全を保証するためのSORLの収束ポリシーの条件を提案し、それを用いて、上記トレードオフを微調整できる攻撃性パラメータを導入する。 7つの異なるロボット環境で得られた実験結果は、6つの最先端のSafe RL法と比較して、安全性違反の数と、より高い、または競争力のあるポリシーリターンを著しく減少させることを示している。 その結果,安全クリティカルな応用におけるSORLアルゴリズムの有意な優位性を示した。

Safe reinforcement learning (Safe RL) refers to a class of techniques that aim to prevent RL algorithms from violating constraints in the process of decision-making and exploration during trial and error. In this paper, a novel model-free Safe RL algorithm, formulated based on the multi-objective policy optimization framework is introduced where the policy is optimized towards optimality and safety, simultaneously. The optimality is achieved by the environment reward function that is subsequently shaped using a safety critic. The advantage of the Safety Optimized RL (SORL) algorithm compared to the traditional Safe RL algorithms is that it omits the need to constrain the policy search space. This allows SORL to find a natural tradeoff between safety and optimality without compromising the performance in terms of either safety or optimality due to strict search space constraints. Through our theoretical analysis of SORL, we propose a condition for SORL's converged policy to guarantee safety and then use it to introduce an aggressiveness parameter that allows for fine-tuning the mentioned tradeoff. The experimental results obtained in seven different robotic environments indicate a considerable reduction in the number of safety violations along with higher, or competitive, policy returns, in comparison to six different state-of-the-art Safe RL methods. The results demonstrate the significant superiority of the proposed SORL algorithm in safety-critical applications.
翻訳日:2024-02-26 15:10:28 公開日:2024-02-23
# AffectToolbox:Affect Analysis for Everyone

The AffectToolbox: Affect Analysis for Everyone ( http://arxiv.org/abs/2402.15195v1 )

ライセンス: Link先を確認
Silvan Mertes, Dominik Schiller, Michael Dietz, Elisabeth Andr\'e, Florian Lingenfelser(参考訳) 研究が急速に進んでいる情緒的コンピューティングの分野では、ユーザフレンドリーなツールの需要がますます顕在化している。 本稿では,研究者が感情に敏感な研究やプロトタイプを開発することを支援する,新しいソフトウェアシステムである affecttoolbox を提案する。 提案システムでは,既存のフレームワークが生み出す課題に対処する。プログラミングの知識が深く,主にパワーユーザや熟練した開発者を対象とする場合が多い。 使いやすくするために、AffectToolboxはプログラミングの知識を必要とせず、アクセス可能なグラフィカルユーザインタフェースを通じてユーザーの感情状態を確実に分析する機能を提供する。 このアーキテクチャは、複数の感情チャネルとモダリティに対する感情認識のための様々なモデルと、マルチモーダルアセスメントを統合された結果にマージする精巧な融合システムを含んでいる。 システム全体がオープンソースであり、十分に構造化されたpythonベースのコードベースを通じて、より複雑なアプリケーションへの容易に統合できるようにするために、公開される予定だ。

In the field of affective computing, where research continually advances at a rapid pace, the demand for user-friendly tools has become increasingly apparent. In this paper, we present the AffectToolbox, a novel software system that aims to support researchers in developing affect-sensitive studies and prototypes. The proposed system addresses the challenges posed by existing frameworks, which often require profound programming knowledge and cater primarily to power-users or skilled developers. Aiming to facilitate ease of use, the AffectToolbox requires no programming knowledge and offers its functionality to reliably analyze the affective state of users through an accessible graphical user interface. The architecture encompasses a variety of models for emotion recognition on multiple affective channels and modalities, as well as an elaborate fusion system to merge multi-modal assessments into a unified result. The entire system is open-sourced and will be publicly available to ensure easy integration into more complex applications through a well-structured, Python-based code base - therefore marking a substantial contribution toward advancing affective computing research and fostering a more collaborative and inclusive environment within this interdisciplinary field.
翻訳日:2024-02-26 15:10:03 公開日:2024-02-23
# エントロピー規則制御による連続時間拡散モデルの微調整

Fine-Tuning of Continuous-Time Diffusion Models as Entropy-Regularized Control ( http://arxiv.org/abs/2402.15194v1 )

ライセンス: Link先を確認
Masatoshi Uehara, Yulai Zhao, Kevin Black, Ehsan Hajiramezanali, Gabriele Scalia, Nathaniel Lee Diamant, Alex M Tseng, Tommaso Biancalani, Sergey Levine(参考訳) 拡散モデルは、自然画像やタンパク質のような複雑なデータ分布を捉えるのに優れている。 拡散モデルはトレーニングデータセットの分布を表現するために訓練されるが、私たちはしばしば、生成された画像の美的品質や生成されたタンパク質の機能的性質といった他の特性により関心を持っている。 拡散モデルは、ある報酬関数の値(例えば画像の美的品質)を最大化することにより、ゴール指向の方法で微調整することができる。 しかし,これらの手法は,不完全な報酬関数の活用により,サンプルの多様性の低減,トレーニングデータ分布の大幅なずれ,さらにはサンプル品質の低下につながる可能性がある。 最後の問題は、多くの実践的応用の場合と同様に、報酬関数が基底の「ゲヌイネ」報酬を近似する学習モデルであるときにしばしば発生する。 これらの課題は集合的に「後退崩壊」と呼ばれ、大きな障害となる。 この報酬の崩壊に対処するため,我々は,事前学習された拡散モデルに対するエントロピー正規化制御,すなわち神経sdesによるエントロピーエンハンスド報酬の直接最適化として,微調整問題を構成する。 提案手法は,不完全報酬モデルの過剰最適化を緩和し,純正報酬の高い多種多様なサンプルを効率的に生成できることを実証する理論的・実証的証拠を示す。

Diffusion models excel at capturing complex data distributions, such as those of natural images and proteins. While diffusion models are trained to represent the distribution in the training dataset, we often are more concerned with other properties, such as the aesthetic quality of the generated images or the functional properties of generated proteins. Diffusion models can be finetuned in a goal-directed way by maximizing the value of some reward function (e.g., the aesthetic quality of an image). However, these approaches may lead to reduced sample diversity, significant deviations from the training data distribution, and even poor sample quality due to the exploitation of an imperfect reward function. The last issue often occurs when the reward function is a learned model meant to approximate a ground-truth "genuine" reward, as is the case in many practical applications. These challenges, collectively termed "reward collapse," pose a substantial obstacle. To address this reward collapse, we frame the finetuning problem as entropy-regularized control against the pretrained diffusion model, i.e., directly optimizing entropy-enhanced rewards with neural SDEs. We present theoretical and empirical evidence that demonstrates our framework is capable of efficiently generating diverse samples with high genuine rewards, mitigating the overoptimization of imperfect reward models.
翻訳日:2024-02-26 15:09:44 公開日:2024-02-23
# 複数の質問に対するバイオメディカルエンティティリンク

Biomedical Entity Linking as Multiple Choice Question Answering ( http://arxiv.org/abs/2402.15189v1 )

ライセンス: Link先を確認
Zhenxi Lin, Ziheng Zhang, Xian Wu, Yefeng Zheng(参考訳) バイオメディカルエンティティリンク(bioel)は事前学習された言語モデルで大きな進歩を遂げているが、細粒度で長い尾を持つエンティティには依然として課題が存在する。 これらの課題に対処するために,BioELQAという,バイオメディカルエンティティリンクを複数問合せ回答として扱う新しいモデルを提案する。 BioELQAはまず、高速検索器で候補エンティティを取得し、参照と候補エンティティを共同でジェネレータに提示し、選択したエンティティに関連する予測シンボルを出力する。 この定式化により、異なる候補エンティティの明示的な比較が可能になり、参照エンティティとエンティティ間のきめ細かいインタラクションをキャプチャできる。 長い尾を持つエンティティの一般化を改善するため、類似したラベル付きトレーニングインスタンスを手がかりとして検索し、取得したインスタンスとジェネレータの入力を結合する。 大規模な実験結果から、BioELQAはいくつかのデータセットで最先端のベースラインを上回ります。

Although biomedical entity linking (BioEL) has made significant progress with pre-trained language models, challenges still exist for fine-grained and long-tailed entities. To address these challenges, we present BioELQA, a novel model that treats Biomedical Entity Linking as Multiple Choice Question Answering. BioELQA first obtains candidate entities with a fast retriever, jointly presents the mention and candidate entities to a generator, and then outputs the predicted symbol associated with its chosen entity. This formulation enables explicit comparison of different candidate entities, thus capturing fine-grained interactions between mentions and entities, as well as among entities themselves. To improve generalization for long-tailed entities, we retrieve similar labeled training instances as clues and concatenate the input with retrieved instances for the generator. Extensive experimental results show that BioELQA outperforms state-of-the-art baselines on several datasets.
翻訳日:2024-02-26 15:09:21 公開日:2024-02-23
# 決定依存分布におけるパラメータフリー回帰最小化アルゴリズム

Parameter-Free Algorithms for Performative Regret Minimization under Decision-Dependent Distributions ( http://arxiv.org/abs/2402.15188v1 )

ライセンス: Link先を確認
Sungwoo Park, Junyeop Kwon, Byeongnoh Kim, Suhyun Chae, Jeeyong Lee, Dabeen Lee(参考訳) 本稿では,決定依存分布下での確率的最適化の定式化である performative risk minimization について述べる。 本稿では,パラメータフリーな楽観的最適化手法を開発するために,性能リスクが非凸である場合を考える。 提案アルゴリズムは,既存のリプシッツ帯域幅法を多くの点で改善した。 特に、分布マップの感度パラメータや損失関数のリプシッツ定数に関する知識は不要である。 これにより、効率的な最適化ベースのツリー検索機構とともに、フレームワークが実質的に有利になります。 既存の手法やブラックボックスの楽観的最適化手法よりもアルゴリズムの数値的優越性を示す実験結果を提供する。

This paper studies performative risk minimization, a formulation of stochastic optimization under decision-dependent distributions. We consider the general case where the performative risk can be non-convex, for which we develop efficient parameter-free optimistic optimization-based methods. Our algorithms significantly improve upon the existing Lipschitz bandit-based method in many aspects. In particular, our framework does not require knowledge about the sensitivity parameter of the distribution map and the Lipshitz constant of the loss function. This makes our framework practically favorable, together with the efficient optimistic optimization-based tree-search mechanism. We provide experimental results that demonstrate the numerical superiority of our algorithms over the existing method and other black-box optimistic optimization methods.
翻訳日:2024-02-26 15:09:02 公開日:2024-02-23
# GraphEdit: グラフ構造学習のための大規模言語モデル

GraphEdit: Large Language Models for Graph Structure Learning ( http://arxiv.org/abs/2402.15183v1 )

ライセンス: Link先を確認
Zirui Guo, Lianghao Xia, Yanhua Yu, Yuling Wang, Zixuan Yang, Wei Wei, Liang Pang, Tat-Seng Chua, Chao Huang(参考訳) グラフ構造学習(GSL)は、新しいグラフ構造を生成することにより、グラフ構造データ中のノード間の固有の依存関係と相互作用をキャプチャすることに焦点を当てる。 グラフニューラルネットワーク(GNN)は、ノード単位の依存性をエンコードするために再帰的なメッセージパッシングを利用する、有望なGSLソリューションとして登場した。 しかし、既存のGSL法の多くは、データノイズやスパーシリティといった課題に対して、監督信号として明示的なグラフ構造情報に大きく依存している。 本研究では,大規模言語モデル(LLM)を利用したグラフ構造化データの複雑なノード関係の学習手法であるGraphEditを提案する。 グラフ構造上の命令チューニングによるLCMの推論能力の向上により、明示的なグラフ構造情報に関連する制約を克服し、グラフ構造学習の信頼性を高めることを目指す。 このアプローチはノイズの多いコネクションを効果的に解消するだけでなく、グローバルの観点からノード毎の依存関係を識別し、グラフ構造を包括的に理解する。 複数のベンチマークデータセットに対する広範な実験を行い、さまざまな設定でグラフ編集の有効性と堅牢性を示す。 私たちは、モデル実装をhttps://github.com/HKUDS/GraphEdit.comで公開しました。

Graph Structure Learning (GSL) focuses on capturing intrinsic dependencies and interactions among nodes in graph-structured data by generating novel graph structures. Graph Neural Networks (GNNs) have emerged as promising GSL solutions, utilizing recursive message passing to encode node-wise inter-dependencies. However, many existing GSL methods heavily depend on explicit graph structural information as supervision signals, leaving them susceptible to challenges such as data noise and sparsity. In this work, we propose GraphEdit, an approach that leverages large language models (LLMs) to learn complex node relationships in graph-structured data. By enhancing the reasoning capabilities of LLMs through instruction-tuning over graph structures, we aim to overcome the limitations associated with explicit graph structural information and enhance the reliability of graph structure learning. Our approach not only effectively denoises noisy connections but also identifies node-wise dependencies from a global perspective, providing a comprehensive understanding of the graph structure. We conduct extensive experiments on multiple benchmark datasets to demonstrate the effectiveness and robustness of GraphEdit across various settings. We have made our model implementation available at: https://github.com/HKUDS/GraphEdit.
翻訳日:2024-02-26 15:08:53 公開日:2024-02-23
# break the breakout: 自己定義による脱獄攻撃に対するlm防御の再発明

Break the Breakout: Reinventing LM Defense Against Jailbreak Attacks with Self-Refinement ( http://arxiv.org/abs/2402.15180v1 )

ライセンス: Link先を確認
Heegyu Kim, Sehyun Yuk, Hyunsouk Cho(参考訳) 注意:この論文には不快感を引き起こす可能性のある攻撃的な言葉が含まれている。 言語モデル(LM)は敵の誤用に対する悪用に対して脆弱である。 安全アライメントのための訓練用LMは広く、ジェイルブレイクのような迅速な開発攻撃にすぐに対応しにくくなっている。 非セーフティアライメントのlmsにおいても優れた安全性を実現する自己定義方式を提案し,複数の防御ベースラインとともに本手法を評価し,ジェイルブレイク攻撃に対する最も安全なトレーニングフリーな方法であることを実証する。 さらに,より少ないイテレーションで攻撃成功率を低減しつつ,自己抑制プロセスの効率を向上するフォーマッティング手法を提案する。 非セーフティアライメントのlmsは、より有益で安全な応答を提供することで、安全アライメントされたlmsよりも安全タスクにおいて優れています。 結論として,本研究は計算コストを少なくして安全リスクを低減し,非安全lmを現実のサービスで容易に活用できることを示す。

Caution: This paper includes offensive words that could potentially cause unpleasantness. Language models (LMs) are vulnerable to exploitation for adversarial misuse. Training LMs for safety alignment is extensive and makes it hard to respond to fast-developing attacks immediately, such as jailbreaks. We propose self-refine with formatting that achieves outstanding safety even in non-safety-aligned LMs and evaluate our method alongside several defense baselines, demonstrating that it is the safest training-free method against jailbreak attacks. Additionally, we proposed a formatting method that improves the efficiency of the self-refine process while reducing attack success rates in fewer iterations. We've also observed that non-safety-aligned LMs outperform safety-aligned LMs in safety tasks by giving more helpful and safe responses. In conclusion, our findings can achieve less safety risk with fewer computational costs, allowing non-safety LM to be easily utilized in real-world service.
翻訳日:2024-02-26 15:08:32 公開日:2024-02-23
# 表現編集による微調整におけるパラメータ効率の向上

Advancing Parameter Efficiency in Fine-tuning via Representation Editing ( http://arxiv.org/abs/2402.15179v1 )

ライセンス: Link先を確認
Muling Wu, Wenhao Liu, Xiaohua Wang, Tianlong Li, Changze Lv, Zixuan Ling, Jianhao Zhu, Cenyuan Zhang, Xiaoqing Zheng, Xuanjing Huang(参考訳) パラメータ効率の良いファインチューニング(PEFT)は、トレーニング可能なパラメータの小さなサブセットだけを更新しながら、競争結果を達成する能力において大きな注目を集めている。 現在のPEFT手法の有望な性能にもかかわらず、彼らはLoRAやAdapterのランクの決定やソフトプロンプトの長さの指定など、ハイパーパラメータ選択の課題を提示している。 これらの課題に対処するために、我々はRepresentation EDiting (RED)と呼ばれる、各層で生成された表現をスケールしバイアスする微調整ニューラルモデルに対する新しいアプローチを提案する。 REDはトレーニング可能なパラメータの数を、完全なパラメータの微調整に比べて25,700ドル、LoRAに比べて32ドルと大幅に削減している。 注目すべきは、REDは完全なパラメータの微調整や他のPEFTメソッドに匹敵する結果または優れた結果が得られることである。 実験はRoBERTa, GPT-2, T5, Llama-2など, 様々なアーキテクチャやスケールのモデルで実施され, REDの有効性と有効性を示し, 大規模ニューラルモデルに対して有望なPEFTアプローチとして位置づけた。

Parameter Efficient Fine-Tuning (PEFT) has gained significant attention for its ability to achieve competitive results while updating only a small subset of trainable parameters. Despite the promising performance of current PEFT methods, they present challenges in hyperparameter selection, such as determining the rank of LoRA or Adapter, or specifying the length of soft prompts. In addressing these challenges, we propose a novel approach to fine-tuning neural models, termed Representation EDiting (RED), which scales and biases the representation produced at each layer. RED substantially reduces the number of trainable parameters by a factor of $25,700$ compared to full parameter fine-tuning, and by a factor of $32$ compared to LoRA. Remarkably, RED achieves comparable or superior results to full parameter fine-tuning and other PEFT methods. Extensive experiments were conducted across models of varying architectures and scales, including RoBERTa, GPT-2, T5, and Llama-2, and the results demonstrate the efficiency and efficacy of RED, positioning it as a promising PEFT approach for large neural models.
翻訳日:2024-02-26 15:08:16 公開日:2024-02-23
# グローキング, ダブルディフレッシュ, 創発的能力の統一的視点:回路コンペティションの視点から

Unified View of Grokking, Double Descent and Emergent Abilities: A Perspective from Circuits Competition ( http://arxiv.org/abs/2402.15175v1 )

ライセンス: Link先を確認
Yufei Huang, Shengding Hu, Xu Han, Zhiyuan Liu, Maosong Sun(参考訳) 近年の研究では、人間の直観に挑戦し、神経モデルのより深い理解に不可欠である、大規模言語モデルにおけるグロッキング、ダブル降下、創発能力など、ディープラーニングにおける興味深い現象が発見されている。 本稿では,記憶回路と一般化回路の競合に着目し,これら3つの現象の統一的なビューを提供する包括的枠組みを提案する。 このアプローチは、当初グラッキングを説明するために使用されていたが、より広い範囲のモデルサイズとトレーニングデータボリュームを含むよう、我々の作業で拡張されている。 本フレームワークでは,モデルサイズとトレーニングデータ量の違いに応じて,4つの異なるトレーニングダイナミクスを記述している。 この枠組みを利用して, 二重降下現象の詳細な解析を行い, その発生に関する2つの検証可能な予測を提案する。 さらに、我々のフレームワークをマルチタスク学習パラダイムに拡張し、アルゴリズムタスクを創発的な能力にする方法を実証する。 これは、大規模言語モデルにおける創発的能力を理解するための新しい視点を提供する。

Recent studies have uncovered intriguing phenomena in deep learning, such as grokking, double descent, and emergent abilities in large language models, which challenge human intuition and are crucial for a deeper understanding of neural models. In this paper, we present a comprehensive framework that provides a unified view of these three phenomena, focusing on the competition between memorization and generalization circuits. This approach, initially employed to explain grokking, is extended in our work to encompass a wider range of model sizes and training data volumes. Our framework delineates four distinct training dynamics, each depending on varying combinations of model size and training data quantity. Utilizing this framework, we provide a detailed analysis of the double descent phenomenon and propose two verifiable predictions regarding its occurrence, both substantiated by our experimental results. Moreover, we expand our framework to the multi-task learning paradigm, demonstrating how algorithm tasks can be turned into emergent abilities. This offers a novel perspective to understand emergent abilities in Large Language Models.
翻訳日:2024-02-26 15:07:55 公開日:2024-02-23
# バイオメディカルイメージングにおける深部畳み込みニューラルネットワークの人工蜂コロニー最適化

Artificial Bee Colony optimization of Deep Convolutional Neural Networks in the context of Biomedical Imaging ( http://arxiv.org/abs/2402.15246v1 )

ライセンス: Link先を確認
Adri Gomez Martin, Carlos Fernandez del Cerro, Monica Abella Garcia and Manuel Desco Menendez(参考訳) コンピュータビジョンにおけるほとんどの取り組みは自然画像やアートワークに焦点を当てており、サイズも内容も、バイオメディカル画像処理の種類とは大きく異なる。 したがって、転送学習モデルは、手動で微調整した後でも、これらのタスクに最適でないことがしばしば証明される。 スクラッチからのアーキテクチャの開発は、しばしばハイパーパラメータ空間の広さと時間の不足、計算資源、多くの生物医学研究所におけるディープラーニングの専門家のために実現不可能である。 モデルを手動で定義する別の方法として、ディープラーニングアーキテクチャの最適化にメタヒューリスティック技術を使用するNeuroevolutionがある。 しかし、神経電気学の文献で提案された多くのアルゴリズムは、信頼できないか、ハイパーパラメータ空間の小さな未定義領域に限られている。 これらの欠点を克服するため,我々は,人工ビーコロニーアルゴリズムと進化計算ツールを統合した新しいハイブリッドニューロ進化アルゴリズムであるChimera Algorithmを提案する。 chimeraアルゴリズムは、自然画像と医学画像の2つのデータセットで検証され、転送学習から得られるデータのパフォーマンスを上回るモデルを生成する。

Most efforts in Computer Vision focus on natural images or artwork, which differ significantly both in size and contents from the kind of data biomedical image processing deals with. Thus, Transfer Learning models often prove themselves suboptimal for these tasks, even after manual finetuning. The development of architectures from scratch is oftentimes unfeasible due to the vastness of the hyperparameter space and a shortage of time, computational resources and Deep Learning experts in most biomedical research laboratories. An alternative to manually defining the models is the use of Neuroevolution, which employs metaheuristic techniques to optimize Deep Learning architectures. However, many algorithms proposed in the neuroevolutive literature are either too unreliable or limited to a small, predefined region of the hyperparameter space. To overcome these shortcomings, we propose the Chimera Algorithm, a novel, hybrid neuroevolutive algorithm that integrates the Artificial Bee Colony Algorithm with Evolutionary Computation tools to generate models from scratch, as well as to refine a given previous architecture to better fit the task at hand. The Chimera Algorithm has been validated with two datasets of natural and medical images, producing models that surpassed the performance of those coming from Transfer Learning.
翻訳日:2024-02-26 15:05:08 公開日:2024-02-23
# 離散量子系における非バイアス耐性推定器の存在について

On the existence of unbiased resilient estimators in discrete quantum systems ( http://arxiv.org/abs/2402.15242v1 )

ライセンス: Link先を確認
Javier Navarro, Ricard Ravell Rodr\'iguez, and Mikel Sanz(参考訳) Cram\'er-Rao は、推定対象パラメータの高精度な事前知識をパラドックス的に要求するにもかかわらず、頻繁なパラメータ推定における推定器の平均二乗誤差に対する決定的な下界を構成する。 実際、この情報はパラメータに大きく依存する最適な非バイアス推定器を構築するために必要である。 逆に、Bhattacharyya 境界は、推定器に追加の制約を課すことにより、事前精度に関するより弾力的な推定をもたらす。 まず, パラメータの事前知識が理想的でない場合に, cram\'er-rao と bhattacharyya の境界の性能を定量的に比較した。 さらに、$n^{th}$order classical and quantum Bhattacharyya bounds -- 制約を満たす推定器が存在しないことを考えると -- は離散系の次元$m$に結びついた特定の条件下では計算できないことを実証する。 興味深いことに、同じ次元 $m$ を持つ系では、古典の場合の最大非自明な順序 $n$ は $m-1$ であり、量子領域では $m(m+1)/2-1$ に拡張される。 したがって、与えられた系次元に対して、事前の無知に対するロバスト性を高める量子系における推定器を構築することができる。

Cram\'er-Rao constitutes a crucial lower bound for the mean squared error of an estimator in frequentist parameter estimation, albeit paradoxically demanding highly accurate prior knowledge of the parameter to be estimated. Indeed, this information is needed to construct the optimal unbiased estimator, which is highly dependent on the parameter. Conversely, Bhattacharyya bounds result in a more resilient estimation about prior accuracy by imposing additional constraints on the estimator. Initially, we conduct a quantitative comparison of the performance between Cram\'er-Rao and Bhattacharyya bounds when faced with less-than-ideal prior knowledge of the parameter. Furthermore, we demonstrate that the $n^{th}$order classical and quantum Bhattacharyya bounds cannot be computed -- given the absence of estimators satisfying the constraints -- under specific conditions tied to the dimension $m$ of the discrete system. Intriguingly, for a system with the same dimension $m$, the maximum non-trivial order $n$ is $m-1$ in the classical case, while in the quantum realm, it extends to $m(m+1)/2-1$. Consequently, for a given system dimension, one can construct estimators in quantum systems that exhibit increased robustness to prior ignorance.
翻訳日:2024-02-26 15:04:45 公開日:2024-02-23
# GS-EMA:大動脈瘤分節の領域一般化のための境界認識型コントラスト学習と平均移動平均値の統合

GS-EMA: Integrating Gradient Surgery Exponential Moving Average with Boundary-Aware Contrastive Learning for Enhanced Domain Generalization in Aneurysm Segmentation ( http://arxiv.org/abs/2402.15239v1 )

ライセンス: Link先を確認
Fengming Lin, Yan Xia, Michael MacRaild, Yash Deo, Haoran Dou, Qiongyao Liu, Nina Cheng, Nishant Ravikumar, Alejandro F. Frangi(参考訳) 脳動脈瘤の自動分割は正確な診断と治療計画に不可欠である。 各種医療機関の3次元回転式血管造影(3DRA)データにおいて,大きなドメインシフトとクラス不均衡が相まって,課題が解決される。 これらのシフトには、画像の出現、強度分布、解像度、動脈瘤の大きさの違いが含まれており、これらすべてがセグメンテーション過程を複雑にしている。 そこで本研究では,グラデーション手術指数移動平均法(gs-ema)と境界認識コントラスト学習法(bacl)を組み合わせた新しい領域一般化手法を提案する。 このアプローチはドメイン不変な特徴を学習することで、新しい未知の領域に適応し、様々な臨床データセットにわたる動脈瘤セグメンテーションのロバスト性と正確性を向上させる能力において異なる。 以上の結果から,提案手法はより領域不変な特徴を抽出し,過剰セグメンテーションを最小化し,より完全な動脈瘤構造を捉えることができることが示された。

The automated segmentation of cerebral aneurysms is pivotal for accurate diagnosis and treatment planning. Confronted with significant domain shifts and class imbalance in 3D Rotational Angiography (3DRA) data from various medical institutions, the task becomes challenging. These shifts include differences in image appearance, intensity distribution, resolution, and aneurysm size, all of which complicate the segmentation process. To tackle these issues, we propose a novel domain generalization strategy that employs gradient surgery exponential moving average (GS-EMA) optimization technique coupled with boundary-aware contrastive learning (BACL). Our approach is distinct in its ability to adapt to new, unseen domains by learning domain-invariant features, thereby improving the robustness and accuracy of aneurysm segmentation across diverse clinical datasets. The results demonstrate that our proposed approach can extract more domain-invariant features, minimizing over-segmentation and capturing more complete aneurysm structures.
翻訳日:2024-02-26 15:04:23 公開日:2024-02-23
# GPT-HateCheck:LLMはヘイト音声検出のためのより良い機能テストを書けるか?

GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? ( http://arxiv.org/abs/2402.15238v1 )

ライセンス: Link先を確認
Yiping Jin, Leo Wanner, Alexander Shvets(参考訳) オンラインヘイト検出は、データサンプリング、アノテーション、モデル事前トレーニングで発生するバイアスに悩まされる。 したがって、ホールドアウトテストデータの全例に対する平均パフォーマンスの測定は不十分である。 その代わり、特定のモデルの弱点を特定し、失敗する可能性が高まると知らせる必要があります。 この方向の最近の提案は、"you are just a [slur] to me"のようなテンプレートを使って生成された合成データ上で、きめ細かいモデルの機能をテストするためのスイートであるhatcheckである。 しかし、より詳細な診断の洞察が可能であるにもかかわらず、HateCheckテストケースは多くの場合、現実のデータと一致しない単純な文構造を持つ。 この制限に対処するため,GPT-HateCheckを提案する。GPT-HateCheckは,大規模言語モデル(LLM)を指導することにより,より多様で現実的な機能テストを生成するフレームワークである。 我々は、世代を検証するために追加の自然言語推論(NLI)モデルを用いる。 クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。 新しい機能テストを使用することで、オリジナルのhattcheckデータセットで見過ごされるモデルの弱点を明らかにすることができる。

Online hate detection suffers from biases incurred in data sampling, annotation, and model pre-training. Therefore, measuring the averaged performance over all examples in held-out test data is inadequate. Instead, we must identify specific model weaknesses and be informed when it is more likely to fail. A recent proposal in this direction is HateCheck, a suite for testing fine-grained model functionalities on synthesized data generated using templates of the kind "You are just a [slur] to me." However, despite enabling more detailed diagnostic insights, the HateCheck test cases are often generic and have simplistic sentence structures that do not match the real-world data. To address this limitation, we propose GPT-HateCheck, a framework to generate more diverse and realistic functional tests from scratch by instructing large language models (LLMs). We employ an additional natural language inference (NLI) model to verify the generations. Crowd-sourced annotation demonstrates that the generated test cases are of high quality. Using the new functional tests, we can uncover model weaknesses that would be overlooked using the original HateCheck dataset.
翻訳日:2024-02-26 15:04:03 公開日:2024-02-23
# トランスワープコントラスト学習による脳血管セグメンテーションのための教師なしドメイン適応

Unsupervised Domain Adaptation for Brain Vessel Segmentation through Transwarp Contrastive Learning ( http://arxiv.org/abs/2402.15237v1 )

ライセンス: Link先を確認
Fengming Lin, Yan Xia, Michael MacRaild, Yash Deo, Haoran Dou, Qiongyao Liu, Kun Wu, Nishant Ravikumar, Alejandro F. Frangi(参考訳) unsupervised domain adaptation (uda) はラベル付きソース分布をラベルなしターゲット分布と整合させることを目標とし、ドメイン不変予測モデルを得る。 クロスモダリティ医療データはドメイン内およびドメイン間の大きなシフトを示しており、ほとんどは遅延しないため、UDAは医用画像解析においてより重要である。 本稿では,ラベル付きソースと非ラベル付きターゲット分布の領域間ギャップを狭めるための,UDAのための簡易かつ強力なコントラスト学習フレームワークを提案する。 この方法は脳血管データセットで検証される。 実験の結果,ラベル付き3draモダリティデータから潜伏特徴を学習し,ラベル付きmraモダリティデータにおける血管セグメンテーション性能を向上させることができた。

Unsupervised domain adaptation (UDA) aims to align the labelled source distribution with the unlabelled target distribution to obtain domain-invariant predictive models. Since cross-modality medical data exhibit significant intra and inter-domain shifts and most are unlabelled, UDA is more important while challenging in medical image analysis. This paper proposes a simple yet potent contrastive learning framework for UDA to narrow the inter-domain gap between labelled source and unlabelled target distribution. Our method is validated on cerebral vessel datasets. Experimental results show that our approach can learn latent features from labelled 3DRA modality data and improve vessel segmentation performance in unlabelled MRA modality data.
翻訳日:2024-02-26 15:03:43 公開日:2024-02-23
# 野生におけるフォント印象推定

Font Impression Estimation in the Wild ( http://arxiv.org/abs/2402.15236v1 )

ライセンス: Link先を確認
Kazuki Kitajima, Daichi Haraguchi, Seiichi Uchida(参考訳) 本稿では,実際のフォント画像からフォント印象を推定する課題について述べる。 このタスクにはフォントインプレッションに関するアノテーション付きフォントデータセットと畳み込みニューラルネットワーク(cnn)フレームワークを使用します。 しかし、個々のフォントに付随する印象は、フォント印象アノテーションの主観的特徴のため、しばしば欠落しうる。 このようなデータセットであっても安定した印象推定を実現するために,入力画像に類似したフォントの印象をアンサンブルする戦略に依存する,模範的な印象推定手法を提案する。 さらに,スキャンされた単語画像を模倣した合成フォント画像を用いてcnnを訓練し,野生のフォント画像の印象をcnnが推定する。 提案手法の基本性能を定量的に定量的に評価した。 次に本書カバー画像における本ジャンルとフォント印象の相関分析を行い,本分析は印象推定法でのみ可能であることに留意する必要がある。 この事実は、ブックカバーデザイナーがフォントが与える印象を考慮して、ブックカバーのフォントを慎重に選択する、という仮説を支持している。

This paper addresses the challenging task of estimating font impressions from real font images. We use a font dataset with annotation about font impressions and a convolutional neural network (CNN) framework for this task. However, impressions attached to individual fonts are often missing and noisy because of the subjective characteristic of font impression annotation. To realize stable impression estimation even with such a dataset, we propose an exemplar-based impression estimation approach, which relies on a strategy of ensembling impressions of exemplar fonts that are similar to the input image. In addition, we train CNN with synthetic font images that mimic scanned word images so that CNN estimates impressions of font images in the wild. We evaluate the basic performance of the proposed estimation method quantitatively and qualitatively. Then, we conduct a correlation analysis between book genres and font impressions on real book cover images; it is important to note that this analysis is only possible with our impression estimation method. The analysis reveals various trends in the correlation between them - this fact supports a hypothesis that book cover designers carefully choose a font for a book cover considering the impression given by the font.
翻訳日:2024-02-26 15:03:28 公開日:2024-02-23
# 弱いコインをひっくり返すための構成可能なセキュリティについて

On the composable security of weak coin flipping ( http://arxiv.org/abs/2402.15233v1 )

ライセンス: Link先を確認
Jiawei Wu and Yanglin Hu and Akshay Bansal and Marco Tomamichel(参考訳) 弱コインフリップ(英: Weak coin flipping)は、2つの不信な当事者が相互にランダムなビットを生成し、遠隔通信を通じて勝者に同意する暗号プリミティブである。 単独でセキュアな弱いコインフリッププロトコルは、ノイズレス通信チャネルから構築できるが、その構成性は検討されていない。 本研究では,弱いコインフリッププロトコルを,構成可能なセキュリティを備えたブラックボックスリソースに抽象化することはできないことを示す。 それにもかかわらず、我々はシーケンシャルな構成の下で、弱いコインフリッププロトコルの単独のセキュリティを確立する。

Weak coin flipping is a cryptographic primitive in which two mutually distrustful parties generate a shared random bit to agree on a winner via remote communication. While a stand-alone secure weak coin flipping protocol can be constructed from noiseless communication channels, its composability has not been explored. In this work, we demonstrate that no weak coin flipping protocol can be abstracted into a black box resource with composable security. Despite this, we also establish the overall stand-alone security of weak coin flipping protocols under sequential composition.
翻訳日:2024-02-26 15:03:12 公開日:2024-02-23
# 教師付き機械学習による銀河面のコンパクト電波源の分類

Classification of compact radio sources in the Galactic plane with supervised machine learning ( http://arxiv.org/abs/2402.15232v1 )

ライセンス: Link先を確認
S. Riggi, G. Umana, C. Trigilio, C. Bordiu, F. Bufano, A. Ingallinera, F. Cavallaro, Y. Gordon, R.P. Norris, G. G\"urkan, P. Leto, C. Buemi, S. Loru, A.M. Hopkins, M.D. Filipovi\'c, T. Cecconello(参考訳) 処理されたデータ製品から科学対応データを生成することは、期待されるデータ量と高度な自動化処理を実現する必要性から、平方キロメートルアレイ(ska)とその前駆体を用いた次世代電波連続体調査における大きな課題の1つである。 ソース抽出、キャラクタリゼーション、分類は、このプロセスに関わる主要な段階である。 本研究では,無線画像と赤外線画像の両方を入力として,ギャラクティック平面における小型電波源の分類に着目する。 そこで我々は,過去の電波および赤外探査から得られた,異なる天文学クラスのコンパクトなソースの約20,000枚の画像と,オーストラリアSKAパスファインダー(ASKAP)によるパイロット調査から得られた新しい無線データを用いて,そのデータを収集した。 電波スペクトルインデックス情報もデータのサブセットとして取得された。 次に、生成されたデータセットで2つの異なる分類器をトレーニングしました。 第1モデルは勾配ブースト決定木を使用し、無線赤外色指数や電波スペクトル指数を含むデータから導かれる事前計算された特徴のセットに基づいて訓練される。 第2のモデルは、畳み込みニューラルネットワークを用いて、マルチチャネルイメージを直接トレーニングする。 完全に教師ありの手順を用いて銀河系外の背景から銀河系天体を分離する高い分類精度(f1-score>90%)を得た。 個体の識別性能は60%から75%で、遠赤外線とスペクトルの指標情報を追加すると10%上昇し、銀河系外天体、pneおよびhii領域は高い確率で識別された。 実装されたツールと訓練されたモデルは公開され、新しい無線データへの将来の応用のために、ラジオ天文学コミュニティで利用可能になった。

Generation of science-ready data from processed data products is one of the major challenges in next-generation radio continuum surveys with the Square Kilometre Array (SKA) and its precursors, due to the expected data volume and the need to achieve a high degree of automated processing. Source extraction, characterization, and classification are the major stages involved in this process. In this work we focus on the classification of compact radio sources in the Galactic plane using both radio and infrared images as inputs. To this aim, we produced a curated dataset of ~20,000 images of compact sources of different astronomical classes, obtained from past radio and infrared surveys, and novel radio data from pilot surveys carried out with the Australian SKA Pathfinder (ASKAP). Radio spectral index information was also obtained for a subset of the data. We then trained two different classifiers on the produced dataset. The first model uses gradient-boosted decision trees and is trained on a set of pre-computed features derived from the data, which include radio-infrared colour indices and the radio spectral index. The second model is trained directly on multi-channel images, employing convolutional neural networks. Using a completely supervised procedure, we obtained a high classification accuracy (F1-score>90%) for separating Galactic objects from the extragalactic background. Individual class discrimination performances, ranging from 60% to 75%, increased by 10% when adding far-infrared and spectral index information, with extragalactic objects, PNe and HII regions identified with higher accuracies. The implemented tools and trained models were publicly released, and made available to the radioastronomical community for future application on new radio data.
翻訳日:2024-02-26 15:03:01 公開日:2024-02-23
# どのモデルに移行するか? 伝達可能性推定に関する調査

Which Model to Transfer? A Survey on Transferability Estimation ( http://arxiv.org/abs/2402.15231v1 )

ライセンス: Link先を確認
Yuhe Ding, Bo Jiang, Aijing Yu, Aihua Zheng, Jian Liang(参考訳) トランスファーラーニングメソッドは、既存のソーストレーニング済みモデルやデータセットから関連する知識を活用して、下流のターゲットタスクを解決する。 近年、利用可能な事前学習モデルの規模や量の増加に伴い、特定の目標タスクに適したものかどうかを事前に評価することが重要である。 モデル転送可能性の推定は、個々にトレーニングすることなく、この適合性を定量化するためのメトリックを提案することを目的とした、新興かつ成長中の関心領域である。 この領域にはすでに大規模な進歩があったが、カスタム用語の定義と実験的な設定がある。 本稿では,この領域における既存の進歩を初めて概観し,ソースフリーモデル転送可能性推定とソース依存モデル転送可能性推定の2つの領域に分類する。 各カテゴリーは体系的に定義され、包括的分類が伴う。 さらに,課題に対処し,研究者や実践者を支援する包括的なガイドを提供することを目的として,今後の研究方向性を概説する。

Transfer learning methods endeavor to leverage relevant knowledge from existing source pre-trained models or datasets to solve downstream target tasks. With the increase in the scale and quantity of available pre-trained models nowadays, it becomes critical to assess in advance whether they are suitable for a specific target task. Model transferability estimation is an emerging and growing area of interest, aiming to propose a metric to quantify this suitability without training them individually, which is computationally prohibitive. Despite extensive recent advances already devoted to this area, they have custom terminological definitions and experimental settings. In this survey, we present the first review of existing advances in this area and categorize them into two separate realms: source-free model transferability estimation and source-dependent model transferability estimation. Each category is systematically defined, accompanied by a comprehensive taxonomy. Besides, we address challenges and outline future research directions, intending to provide a comprehensive guide to aid researchers and practitioners.
翻訳日:2024-02-26 15:02:30 公開日:2024-02-23
# Open Energy Services -- 大規模エネルギー管理アプリケーションのためのサービスとしての予測と最適化

Open Energy Services -- Forecasting and Optimization as a Service for Energy Management Applications at Scale ( http://arxiv.org/abs/2402.15230v1 )

ライセンス: Link先を確認
David W\"olfle, Kevin F\"orderer, Tobias Riedel, Lukas Landwich, Ralf Mikut, Veit Hagenmeyer, Hartmut Schmeck(参考訳) 機器の運転スケジュールを最適化したコンピューティングという意味では、エネルギー効率と柔軟性の可能性の解放を可能にするため、将来の炭素中性エネルギーシステムにおいて、エネルギー管理は重要な役割を果たす可能性が高い。 しかし、エネルギー管理システムは、望ましい効果を実現するために大規模な適用が必要であり、個々のアプリケーションのセットアップと運用のためのコストの最小化が明らかに必要である。 後者を推し進めるために、我々は、エネルギー管理システムが採用する複雑な最適化アルゴリズムを標準化されたコンポーネントに分割するアプローチを推進している。 この作業は、そのような予測および最適化サービスの効率的な実装と運用をサポートするフレームワークの体系的設計に重点を置いている。 さらに、フリーでオープンソースなリポジトリとして、\emph{energy service generics}という名前でリリースする設計概念の実装についても述べています。 最後に,本稿は,大規模エネルギー管理アプリケーションのためのサービスの開発と運用を継続的に推進し,研究者や実践者が参加することを目的とした,emph{Open Energy Services}コミュニティの出発点となる。

Energy management, in sense of computing optimized operation schedules for devices, will likely play a vital role in future carbon neutral energy systems, as it allows unlocking energy efficiency and flexibility potentials. However, energy management systems need to be applied at large scales to realize the desired effect, which clearly requires minimization of costs for setup and operation of the individual applications. In order to push the latter forward, we promote an approach to split the complex optimization algorithms employed by energy management systems into standardized components, which can be provided as a service with marginal costs at scale. This work is centered around the systematic design of a framework supporting the efficient implementation and operation of such forecasting and optimization services. Furthermore, it describes the implementation of the design concept which we release under the name \emph{Energy Service Generics} as a free and open source repository. Finally, this paper marks the starting point of the \emph{Open Energy Services} community, our effort to continuously push the development and operation of services for energy management applications at scale, for which we invite researchers and practitioners to participate.
翻訳日:2024-02-26 15:02:15 公開日:2024-02-23
# 連続学習のための固定ランダム分類器再構成

Fixed Random Classifier Rearrangement for Continual Learning ( http://arxiv.org/abs/2402.15227v1 )

ライセンス: Link先を確認
Shengyang Huang and Jianwen Mo(参考訳) データの爆発的な成長により、ニューラルネットワークにとって継続的な学習能力はますます重要である。 破滅的な忘れ物のため、ニューラルネットワークは必然的に古いタスクの知識を忘れてしまう。 視覚分類シナリオでは、忘れたことを緩和する一般的なプラクティスは、バックボーンを制約することである。 しかし、分類器の影響は過小評価されている。 本稿では,逐次二分分類タスクにおけるモデル予測のばらつきを分析し,等価な一分分類器のノルムが忘れるレベルに大きく影響することを示す。 そこで本研究では,Fixed Random Classifier Rearrangement (FRCR) という2段階連続学習アルゴリズムを提案する。 最初の段階では、FRCRは学習可能な分類器を固定ランダム分類器に置き換え、等価な1クラス分類器のノルムをネットワークの性能に影響を与えることなく制限する。 第2段階では、FRCRは、古い潜伏表現の漂流を暗黙的に減少させるために、新しい分類器のエントリを並べ替える。 複数のデータセットに対する実験結果から、FRCRはモデル忘れを著しく軽減し、その後の実験的分析によりアルゴリズムの有効性がさらに検証された。

With the explosive growth of data, continual learning capability is increasingly important for neural networks. Due to catastrophic forgetting, neural networks inevitably forget the knowledge of old tasks after learning new ones. In visual classification scenario, a common practice of alleviating the forgetting is to constrain the backbone. However, the impact of classifiers is underestimated. In this paper, we analyze the variation of model predictions in sequential binary classification tasks and find that the norm of the equivalent one-class classifiers significantly affects the forgetting level. Based on this conclusion, we propose a two-stage continual learning algorithm named Fixed Random Classifier Rearrangement (FRCR). In first stage, FRCR replaces the learnable classifiers with fixed random classifiers, constraining the norm of the equivalent one-class classifiers without affecting the performance of the network. In second stage, FRCR rearranges the entries of new classifiers to implicitly reduce the drift of old latent representations. The experimental results on multiple datasets show that FRCR significantly mitigates the model forgetting; subsequent experimental analyses further validate the effectiveness of the algorithm.
翻訳日:2024-02-26 15:01:43 公開日:2024-02-23
# ChunkAttention: プリフィックス対応KVキャッシュと2相分割による効率的な自己認識

ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition ( http://arxiv.org/abs/2402.15220v1 )

ライセンス: Link先を確認
Lu Ye, Ze Tao, Yong Huang and Yang Li(参考訳) 自己注意は、大規模言語モデル(LLM)の重要な構成要素であるが、長いシーケンスに対する推論遅延の重要な原因である。 マルチテナント LLM サービスシナリオでは、複数の LLM 要求がプレフィックス内で共有システムプロンプトを持つ確率を用いて、自己アテンションの計算とメモリ操作のコストを最適化することができる。 本稿では,複数の要求にまたがる一致したプロンプトプレフィックスを検出し,そのキー/値テンソルを実行時にメモリ上で共有し,KVキャッシュのメモリ使用率を向上させるための,プレフィックス対応セルフアテンションモジュールであるChunkAttentionを紹介する。 これは、モノリシックなキー/値テンソルを小さなチャンクに分割し、それらを予備のプレフィックスツリーに構造化することで実現される。 その結果,プレフィックスツリーをベースとしたKVキャッシュ上に,2相分割アルゴリズムを実装した効率的な自己アテンションカーネルを設計し,共有システムプロンプトが存在する場合の自己アテンション計算におけるデータの局所性を改善する。 実験の結果、ChunkAttentionは1024年から4096年までのシステムプロンプトで、最先端の実装と比較して3.2-4.8$\times$を高速化できることがわかった。

Self-attention is an essential component of large language models(LLMs) but a significant source of inference latency for long sequences. In multi-tenant LLMs serving scenarios, the compute and memory operation cost of self-attention can be optimized by using the probability that multiple LLM requests have shared system prompts in prefixes. In this paper, we introduce ChunkAttention, a prefix-aware self-attention module that can detect matching prompt prefixes across multiple requests and share their key/value tensors in memory at runtime to improve the memory utilization of KV cache. This is achieved by breaking monolithic key/value tensors into smaller chunks and structuring them into the auxiliary prefix tree. Consequently, on top of the prefix-tree based KV cache, we design an efficient self-attention kernel, where a two-phase partition algorithm is implemented to improve the data locality during self-attention computation in the presence of shared system prompts. Experiments show that ChunkAttention can speed up the self-attention kernel by 3.2-4.8$\times$ compared to the start-of-the-art implementation, with the length of the system prompt ranging from 1024 to 4096.
翻訳日:2024-02-26 15:01:12 公開日:2024-02-23
# BSPA:画像発生器に対するブラックボックスステルスな攻撃を調査中

BSPA: Exploring Black-box Stealthy Prompt Attacks against Image Generators ( http://arxiv.org/abs/2402.15218v1 )

ライセンス: Link先を確認
Yu Tian, Xiao Yang, Yinpeng Dong, Heming Yang, Hang Su, Jun Zhu(参考訳) 極端に大きな画像生成装置は、様々な分野に大きな変革をもたらす。 ユーザーはブラックボックスAPIを通じてリアルな画像を生成するための特定のプロンプトを設計できる。 しかしながら、画像生成装置は、手動で設計された毒素のテキストによって、特に人間の観察者には受け入れ難い攻撃や不適切な作業(NSFW)のコンテンツを生成することが明らかに示されている。 我々は、画像生成装置、特にブラックボックスリリースAPIの安全性を向上させるために、緊急に多数の普遍的で転送可能なプロンプトが必要である。 それでも労働集約的な設計プロセスに制約されており、与えられた指示の質に大きく依存している。 そこで我々は,APIユーザからの攻撃をシミュレートするためにレトリバーを採用するブラックボックスステルスシープロンプトアタック(BSPA)を導入する。 フィルタスコアを利用して、入力プロンプトにマッチするセンシティブな単語の検索空間を調整し、画像ジェネレータ用に調整されたステルスシープロンプトを作成することができる。 重要なことに、このアプローチはモデルに依存しず、モデルの機能の内部アクセスを必要としないため、幅広い画像生成装置に適用可能である。 BSPAをベースとして,自動プロンプトツールと包括的プロンプトアタックデータセット(NSFWeval)を構築した。 BSPAは、Stable Diffusion XL、Midjourney、DALL-E 2/3など、最先端のさまざまなブラックボックスモデルのセキュリティ脆弱性を効果的に調査している。 さらに,レジリエントなテキストフィルタを開発し,今後,画像生成器のセキュリティを確保するための推奨事項を提供する。

Extremely large image generators offer significant transformative potential across diverse sectors. It allows users to design specific prompts to generate realistic images through some black-box APIs. However, some studies reveal that image generators are notably susceptible to attacks and generate Not Suitable For Work (NSFW) contents by manually designed toxin texts, especially imperceptible to human observers. We urgently need a multitude of universal and transferable prompts to improve the safety of image generators, especially black-box-released APIs. Nevertheless, they are constrained by labor-intensive design processes and heavily reliant on the quality of the given instructions. To achieve this, we introduce a black-box stealthy prompt attack (BSPA) that adopts a retriever to simulate attacks from API users. It can effectively harness filter scores to tune the retrieval space of sensitive words for matching the input prompts, thereby crafting stealthy prompts tailored for image generators. Significantly, this approach is model-agnostic and requires no internal access to the model's features, ensuring its applicability to a wide range of image generators. Building on BSPA, we have constructed an automated prompt tool and a comprehensive prompt attack dataset (NSFWeval). Extensive experiments demonstrate that BSPA effectively explores the security vulnerabilities in a variety of state-of-the-art available black-box models, including Stable Diffusion XL, Midjourney, and DALL-E 2/3. Furthermore, we develop a resilient text filter and offer targeted recommendations to ensure the security of image generators against prompt attacks in the future.
翻訳日:2024-02-26 15:00:31 公開日:2024-02-23
# 拡散モデルを用いたラベル効率のよい多臓器分割法

Label-efficient Multi-organ Segmentation Method with Diffusion Model ( http://arxiv.org/abs/2402.15216v1 )

ライセンス: Link先を確認
Yongzhi Huang, Jinxin Zhu, Haseeb Hassan, Liyilei Su, Jingyu Li, and Binding Huang(参考訳) CT画像における複数の臓器の正確なセグメンテーションは,コンピュータ支援診断システムにおいて重要な役割を担っている。 近年,様々な教師付き学習手法が提案されている。 しかし、これらの手法は大量の高品質なラベル付きデータに大きく依存しており、実際に入手するには高価である。 本研究では,ct画像におけるマルチオーガンセグメンテーションタスクのための事前学習拡散モデルを用いたラベル効率のよい学習手法を提案する。 まず,ラベルのないCTデータを用いて2次元(2次元)CT画像を生成するデノナイジング拡散モデルを訓練した。 そして、事前学習した分発拡散ネットワークを下流のマルチオーガンセグメンテーションタスクに転送し、少量のラベル付きデータしか必要としない半教師付き学習モデルを効果的に作成する。 さらに、ネットワークのセグメンテーション性能を高めるために線形分類と微調整デコーダ戦略を採用した。 256x256解像度での生成モデルは、Fr'echet開始距離、空間Fr'echet開始距離、F1スコアにおいて、それぞれ11.32, 46.93, 73.1\%の値で印象的な性能を達成する。 これらの結果は拡散モデルが多様で現実的な2次元ct画像を生成する能力を証明する。 さらに,本手法は,FLARE 2022データセット,特にラベル付きデータシナリオにおいて,最先端の手法と比較して,競合するマルチ組織セグメンテーション性能を実現する。 驚くべきことに, 1\% と 10\% のラベル付きデータであっても, 微調整後の dice 類似度係数 (dscs) はそれぞれ 71.56\% と 78.51\% である。 本手法は, わずか4個のCTスキャンを用いてDSCスコアを51.81\%とする。 これらの結果は,大規模ラベル付きデータに強く依存する教師あり学習の限界を克服する手法の有効性を示す。

Accurate segmentation of multiple organs in Computed Tomography (CT) images plays a vital role in computer-aided diagnosis systems. Various supervised-learning approaches have been proposed recently. However, these methods heavily depend on a large amount of high-quality labeled data, which is expensive to obtain in practice. In this study, we present a label-efficient learning approach using a pre-trained diffusion model for multi-organ segmentation tasks in CT images. First, a denoising diffusion model was trained using unlabeled CT data, generating additional two-dimensional (2D) CT images. Then the pre-trained denoising diffusion network was transferred to the downstream multi-organ segmentation task, effectively creating a semi-supervised learning model that requires only a small amount of labeled data. Furthermore, linear classification and fine-tuning decoder strategies were employed to enhance the network's segmentation performance. Our generative model at 256x256 resolution achieves impressive performance in terms of Fr\'echet inception distance, spatial Fr\'echet inception distance, and F1-score, with values of 11.32, 46.93, and 73.1\%, respectively. These results affirm the diffusion model's ability to generate diverse and realistic 2D CT images. Additionally, our method achieves competitive multi-organ segmentation performance compared to state-of-the-art methods on the FLARE 2022 dataset, particularly in limited labeled data scenarios. Remarkably, even with only 1\% and 10\% labeled data, our method achieves Dice similarity coefficients (DSCs) of 71.56\% and 78.51\% after fine-tuning, respectively. The method achieves a DSC score of 51.81\% using just four labeled CT scans. These results demonstrate the efficacy of our approach in overcoming the limitations of supervised learning heavily reliant on large-scale labeled data.
翻訳日:2024-02-26 14:59:38 公開日:2024-02-23
# 統計的非依存回帰:回帰モデルを検証する機械学習手法

Statistical Agnostic Regression: a machine learning method to validate regression models ( http://arxiv.org/abs/2402.15213v1 )

ライセンス: Link先を確認
Juan M Gorriz, J. Ramirez, F. Segovia, F. J. Martinez-Murcia, C. Jim\'enez-Mesa and J. Suckling(参考訳) 回帰分析は統計モデルにおいて中心的なトピックであり、従属変数(一般に応答変数と呼ばれる)と1つ以上の独立変数(説明変数)の関係を推定することを目的としている。 線形回帰は、予測、予測、因果推論などいくつかの研究分野において、このタスクを実行するための最も一般的な方法である。 通常のリースト・スクエア、リッジ、ラッソ・レグレッションといった、より高度な機械学習(ML)技術の基礎となる、線形回帰問題を解決する様々な古典的な方法の他に、後者は統計的重要性の正式な定義なしにこのシナリオでうまく適用されている。 実験的な尺度(残差や精度など)に基づく置換あるいは古典的解析は、ml推定による検出能力の向上を反映して実施されている。 本稿では,統計的回帰(Agnostic Regression, SAR)と呼ばれる手法を紹介し, 最悪のケースの分析を用いて, 実際のリスクの濃度不等式に基づいて, MLに基づく線形回帰の統計的意義を評価する。 この目的を達成するために、分類問題と同様に、少なくとも1-etaの確率で十分な証拠が存在することを保証するしきい値を定義し、説明的(機能)変数と反応(ラベル)変数の間には、集団に線形な関係があることを結論付ける。 2次元のシミュレーションは、スロープパラメータの古典的$f$テストによって与えられる分散の類似の分析を提供するために提案された無知なテストの能力を示している。

Regression analysis is a central topic in statistical modeling, aiming to estimate the relationships between a dependent variable, commonly referred to as the response variable, and one or more independent variables, i.e., explanatory variables. Linear regression is by far the most popular method for performing this task in several fields of research, such as prediction, forecasting, or causal inference. Beyond various classical methods to solve linear regression problems, such as Ordinary Least Squares, Ridge, or Lasso regressions - which are often the foundation for more advanced machine learning (ML) techniques - the latter have been successfully applied in this scenario without a formal definition of statistical significance. At most, permutation or classical analyses based on empirical measures (e.g., residuals or accuracy) have been conducted to reflect the greater ability of ML estimations for detection. In this paper, we introduce a method, named Statistical Agnostic Regression (SAR), for evaluating the statistical significance of an ML-based linear regression based on concentration inequalities of the actual risk using the analysis of the worst case. To achieve this goal, similar to the classification problem, we define a threshold to establish that there is sufficient evidence with a probability of at least 1-eta to conclude that there is a linear relationship in the population between the explanatory (feature) and the response (label) variables. Simulations in only two dimensions demonstrate the ability of the proposed agnostic test to provide a similar analysis of variance given by the classical $F$ test for the slope parameter.
翻訳日:2024-02-26 14:58:54 公開日:2024-02-23
# emiff: 車・インフラ協調3次元物体検出のためのマルチスケール画像特徴融合

EMIFF: Enhanced Multi-scale Image Feature Fusion for Vehicle-Infrastructure Cooperative 3D Object Detection ( http://arxiv.org/abs/2402.15272v1 )

ライセンス: Link先を確認
Zhe Wang, Siqi Fan, Xiaoliang Huo, Tongda Xu, Yan Wang, Jingjing Liu, Yilun Chen, Ya-Qin Zhang(参考訳) 自動運転において、協調認識は、車両とインフラの両方からのマルチビューカメラを使用し、単一の車両の視点を超えて、道路条件の豊かなセマンティックコンテキストを持つグローバルバンテージポイントを提供する。 現在、車両とインフラの協調3D(VIC3D)オブジェクト検出において、2つの大きな課題が続いている。 そこで本稿では,vic3dタスクのためのカメラベース3d検出フレームワークであるenhanced multi-scale image feature fusion (emiff)を提案する。 車両とインフラの両面から総合的な視点をフル活用するために,カメラ同期によるポーズエラーを補正するために,大規模クロスアテンション (MCA) とカメラ対応チャネルマスキング (CCM) モジュールを提案する。 また、伝送効率を高めるために、チャネルと空間圧縮ブロックを備えた特徴圧縮(FC)モジュールも導入する。 実験により、EMIFFはDAIR-V2X-Cデータセット上でSOTAを達成し、従来のアーリーフュージョン法とレイトフュージョン法を同等の伝送コストで大幅に上回った。

In autonomous driving, cooperative perception makes use of multi-view cameras from both vehicles and infrastructure, providing a global vantage point with rich semantic context of road conditions beyond a single vehicle viewpoint. Currently, two major challenges persist in vehicle-infrastructure cooperative 3D (VIC3D) object detection: $1)$ inherent pose errors when fusing multi-view images, caused by time asynchrony across cameras; $2)$ information loss in transmission process resulted from limited communication bandwidth. To address these issues, we propose a novel camera-based 3D detection framework for VIC3D task, Enhanced Multi-scale Image Feature Fusion (EMIFF). To fully exploit holistic perspectives from both vehicles and infrastructure, we propose Multi-scale Cross Attention (MCA) and Camera-aware Channel Masking (CCM) modules to enhance infrastructure and vehicle features at scale, spatial, and channel levels to correct the pose error introduced by camera asynchrony. We also introduce a Feature Compression (FC) module with channel and spatial compression blocks for transmission efficiency. Experiments show that EMIFF achieves SOTA on DAIR-V2X-C datasets, significantly outperforming previous early-fusion and late-fusion methods with comparable transmission costs.
翻訳日:2024-02-26 14:53:51 公開日:2024-02-23
# シームレス近接積分による平滑化グラフコントラスト学習

Smoothed Graph Contrastive Learning via Seamless Proximity Integration ( http://arxiv.org/abs/2402.15270v1 )

ライセンス: Link先を確認
Maysam Behmanesh, Maks Ovsjanikov(参考訳) グラフコントラスト学習(GCL)は、ノードペアを正と負に分類することでノード表現を整列する。 従来のgclアプローチでは、負のサンプルをコントラスト損失に均一に取り入れており、正の正の値に近づいたとしても、同じ扱いの負のノードとなる。 本稿では, グラフの幾何学的構造を利用して, 相対的損失における正/負のペアに付随する近接情報を注入し, 学習過程を著しく規則化するSGCL(Smoothed Graph Contrastive Learning Model)を提案する。 提案したSGCLは, ノード対に付随するペナルティを, 近接認識正と負の3つの異なる平滑化手法によって調整する。 大規模グラフのスケーラビリティを向上させるため,提案フレームワークでは,与えられたグラフを複数のサブグラフに分割するグラフバッチ生成戦略が組み込まれている。 様々なベンチマーク,特に大規模ベンチマークの教師なし環境での広範な実験を通じて,提案するフレームワークの最近のベースラインに対する優位性を実証した。

Graph contrastive learning (GCL) aligns node representations by classifying node pairs into positives and negatives using a selection process that typically relies on establishing correspondences within two augmented graphs. The conventional GCL approaches incorporate negative samples uniformly in the contrastive loss, resulting in the equal treatment negative nodes, regardless of their proximity to the true positive. In this paper, we present a Smoothed Graph Contrastive Learning model (SGCL), which leverages the geometric structure of augmented graphs to inject proximity information associated with positive/negative pairs in the contrastive loss, thus significantly regularizing the learning process. The proposed SGCL adjusts the penalties associated with node pairs in the contrastive loss by incorporating three distinct smoothing techniques that result in proximity aware positives and negatives. To enhance scalability for large-scale graphs, the proposed framework incorporates a graph batch-generating strategy that partitions the given graphs into multiple subgraphs, facilitating efficient training in separate batches. Through extensive experimentation in the unsupervised setting on various benchmarks, particularly those of large scale, we demonstrate the superiority of our proposed framework against recent baselines.
翻訳日:2024-02-26 14:53:25 公開日:2024-02-23
# MemoryPrompt: トレーニング済み言語モデルのコンテキストトラッキングを改善するライトラッパー

MemoryPrompt: A Light Wrapper to Improve Context Tracking in Pre-trained Language Models ( http://arxiv.org/abs/2402.15268v1 )

ライセンス: Link先を確認
Nathana\"el Carraz Rakotonirina, Marco Baroni(参考訳) トランスフォーマーベースの言語モデル(lms)は、大きなハードコード入力ウィンドウを通じてコンテキスト情報を追跡する。 本稿では,LM の微細化を必要とせず,その正規入力をソフトプロンプトに類似した一連のベクトルでプレフィックスすることで,LM に情報を伝える小さな補助的再帰ネットワークによって LM を補完する MemoryPrompt を提案する。 複数のファクト更新を追跡するlmの能力を調べるために設計されたタスクでテストされたmemoryprompt-augmented lmは、完全な入力履歴にアクセス可能なずっと大きなlmsよりも優れている。 また,会話履歴全体に基づくモデルと同等の性能を持つ長距離対話データセット上でメモリプロンプトをテストした。 どちらの実験においても、フルファインタニングアプローチとは異なり、MemoryPromptは新しいタスクに適応しても破滅的な忘れを伴わないため、基盤となるLMの一般化能力を損なうことはない。

Transformer-based language models (LMs) track contextual information through large, hard-coded input windows. We introduce MemoryPrompt, a leaner approach in which the LM is complemented by a small auxiliary recurrent network that passes information to the LM by prefixing its regular input with a sequence of vectors, akin to soft prompts, without requiring LM finetuning. Tested on a task designed to probe a LM's ability to keep track of multiple fact updates, a MemoryPrompt-augmented LM outperforms much larger LMs that have access to the full input history. We also test MemoryPrompt on a long-distance dialogue dataset, where its performance is comparable to that of a model conditioned on the entire conversation history. In both experiments we also observe that, unlike full-finetuning approaches, MemoryPrompt does not suffer from catastrophic forgetting when adapted to new tasks, thus not disrupting the generalist capabilities of the underlying LM.
翻訳日:2024-02-26 14:53:02 公開日:2024-02-23
# De)Randomized Smoothingを用いたDeep Learning-based Malware Detectorの逆ロバスト性

Adversarial Robustness of Deep Learning-based Malware Detectors via (De)Randomized Smoothing ( http://arxiv.org/abs/2402.15267v1 )

ライセンス: Link先を確認
Daniel Gibert, Giulio Zizzo, Quan Le, Jordi Planes(参考訳) ディープラーニングベースのマルウェア検出装置は、敵のマルウェアの例、すなわち検出を避けるために意図的に操作されたマルウェアの例に影響を受けやすいことが示されている。 深層学習検出装置による微妙な入力ファイル修正の脆弱性を考慮して, ランダム化平滑化に触発された敵のマルウェアに対する実用的な防御法を提案する。 本研究では,コンピュータビジョン(cv)領域などの入力をランダム化するためにガウス雑音を用いるのではなく,バイトの相関部分集合を選択することにより,マルウェア作者が挿入した敵コンテンツのサンプリングを減少させる。 トレーニング中、アブレーションベースの平滑化スキームはベース分類器を訓練し、連続したバイトまたはバイトのチャンクのサブセットに分類を行う。 テスト時には、多数のチャンクがベース分類器によって分類され、これらの分類のコンセンサスが最終予測として報告される。 本研究では,(1)チャンクの位置をランダムに選択すること,(2)隣接チャンクを連続的に選択すること,の2つの分類方法を提案する。 このアプローチの有効性を示すために,我々はbodmasデータセット上でチャンクベースアブレーションスキームを用いた2つの分類器を訓練した。 その結果,チャンク型スムースティング分類器は,非スムースな分類器とランダム化されたスムースな分類器を大きなマージンで上回り,回避攻撃によって発生した敵のマルウェアに対して高いレジリエンスを示した。

Deep learning-based malware detectors have been shown to be susceptible to adversarial malware examples, i.e. malware examples that have been deliberately manipulated in order to avoid detection. In light of the vulnerability of deep learning detectors to subtle input file modifications, we propose a practical defense against adversarial malware examples inspired by (de)randomized smoothing. In this work, we reduce the chances of sampling adversarial content injected by malware authors by selecting correlated subsets of bytes, rather than using Gaussian noise to randomize inputs like in the Computer Vision (CV) domain. During training, our ablation-based smoothing scheme trains a base classifier to make classifications on a subset of contiguous bytes or chunk of bytes. At test time, a large number of chunks are then classified by a base classifier and the consensus among these classifications is then reported as the final prediction. We propose two strategies to determine the location of the chunks used for classification: (1) randomly selecting the locations of the chunks and (2) selecting contiguous adjacent chunks. To showcase the effectiveness of our approach, we have trained two classifiers with our chunk-based ablation schemes on the BODMAS dataset. Our findings reveal that the chunk-based smoothing classifiers exhibit greater resilience against adversarial malware examples generated with state-of-the-are evasion attacks, outperforming a non-smoothed classifier and a randomized smoothing-based classifier by a great margin.
翻訳日:2024-02-26 14:52:43 公開日:2024-02-23
# fNIRSにおけるディープラーニング分類モデルの校正

Calibration of Deep Learning Classification Models in fNIRS ( http://arxiv.org/abs/2402.15266v1 )

ライセンス: Link先を確認
Zhihao Cao, Zizhou Luo(参考訳) 機能近赤外分光法(FNIRS)は脳活動を監視する貴重な非侵襲的ツールである。 意識活動に関連するfNIRSデータの分類は、脳の理解を深め、脳-コンピュータインターフェース(BCI)の開発を促進する上で重要である。 多くの研究者は、その強い一般化と堅牢性のために、fNIRSデータに固有の分類問題に取り組むためにディープラーニングに目を向けている。 fNIRSの適用においては、信頼性が非常に重要であり、信頼性の信頼性の数学的定式化はキャリブレーションである。 しかし、多くの研究者は校正の重要な問題を見落としている。 このギャップに対処するために,fnirsフィールドへのキャリブレーションの統合と既存モデルの信頼性評価を提案する。 驚くべきことに,提案モデルではキャリブレーション性能が低かった。 fnirs分野におけるキャリブレーション開発を進めるために,3つの実践的コツをまとめる。 本稿では,fNIRS研究における校正の重要な役割を強調し,fNIRS分類タスクにおける深層学習に基づく予測の信頼性向上を論じる。 実験プロセスのすべてのデータはGitHubで公開されています。

Functional near-infrared spectroscopy (fNIRS) is a valuable non-invasive tool for monitoring brain activity. The classification of fNIRS data in relation to conscious activity holds significance for advancing our understanding of the brain and facilitating the development of brain-computer interfaces (BCI). Many researchers have turned to deep learning to tackle the classification challenges inherent in fNIRS data due to its strong generalization and robustness. In the application of fNIRS, reliability is really important, and one mathematical formulation of the reliability of confidence is calibration. However, many researchers overlook the important issue of calibration. To address this gap, we propose integrating calibration into fNIRS field and assess the reliability of existing models. Surprisingly, our results indicate poor calibration performance in many proposed models. To advance calibration development in the fNIRS field, we summarize three practical tips. Through this letter, we hope to emphasize the critical role of calibration in fNIRS research and argue for enhancing the reliability of deep learning-based predictions in fNIRS classification tasks. All data from our experimental process are openly available on GitHub.
翻訳日:2024-02-26 14:52:14 公開日:2024-02-23
# clochat: 大きな言語モデルでペルソナをカスタマイズし、対話し、経験する方法を理解する

CloChat: Understanding How People Customize, Interact, and Experience Personas in Large Language Models ( http://arxiv.org/abs/2402.15265v1 )

ライセンス: Link先を確認
Juhye Ha, Hyeon Jeon, DaEun Han, Jinwook Seo, Changhoon Oh(参考訳) 大規模言語モデル(llm)は会話エージェントの生成において大きな進歩をもたらし、様々なトピックにわたるシームレスでコンテキスト的に関連する対話を可能にした。 しかしながら、既存のllm駆動の会話エージェントはパーソナリティと機能を固定しており、個々のユーザニーズへの適応性を制限している。 異なる専門知識や特性を持つパーソナライズされたエージェントペルソナを作成することで、この問題に対処できる。 それでも私たちは,エージェントペルソナのカスタマイズやインタラクションの方法に関する知識を持っていません。 本研究では,エージェントペルソナのカスタマイズとインタラクション品質,多様性,ダイナミクスへの影響について検討した。 そこで我々は,LLMにおけるエージェントペルソナの簡易かつ正確なカスタマイズを支援するインタフェースであるCloChatを開発した。 参加者がclochatやchatgptと対話する方法を比較検討した。 その結果、参加者はカスタマイズされたエージェントと感情結合を形成し、よりダイナミックな対話を行い、相互作用の持続に関心を示した。 これらの知見は,LLMを用いた対話エージェントを用いた未来のシステムの設計に寄与する。

Large language models (LLMs) have facilitated significant strides in generating conversational agents, enabling seamless, contextually relevant dialogues across diverse topics. However, the existing LLM-driven conversational agents have fixed personalities and functionalities, limiting their adaptability to individual user needs. Creating personalized agent personas with distinct expertise or traits can address this issue. Nonetheless, we lack knowledge of how people customize and interact with agent personas. In this research, we investigated how users customize agent personas and their impact on interaction quality, diversity, and dynamics. To this end, we developed CloChat, an interface supporting easy and accurate customization of agent personas in LLMs. We conducted a study comparing how participants interact with CloChat and ChatGPT. The results indicate that participants formed emotional bonds with the customized agents, engaged in more dynamic dialogues, and showed interest in sustaining interactions. These findings contribute to design implications for future systems with conversational agents using LLMs.
翻訳日:2024-02-26 14:51:58 公開日:2024-02-23
# deem: スタンス検出のための動的経験型エキスパートモデリング

DEEM: Dynamic Experienced Expert Modeling for Stance Detection ( http://arxiv.org/abs/2402.15264v1 )

ライセンス: Link先を確認
Xiaolong Wang, Yile Wang, Sijie Cheng, Peng Li, Yang Liu(参考訳) 近年,大規模言語モデル(llms)を用いて姿勢検出課題を解決する予備的試みが行われ,有望な結果が得られた。 しかしながら、姿勢検出は通常詳細な背景知識を必要とするため、バニラ推論法は専門的かつ正確な分析を行うためにドメイン知識を無視する可能性がある。 したがって、LSMの推論を改善する余地は残っており、特にLSMの生成能力を利用して特定の専門家(マルチエージェント)をシミュレートして姿勢を検出する。 本稿では, 詳細な説明を必要とする既存のマルチエージェントワークと異なり, 得られた経験者を利用した動的経験者モデリング(DEEM)手法を提案し, LLMを半パラメトリックな手法で推論し, 専門家をより一般化し信頼性の高いものにする。 実験結果から,DEMは3つの標準ベンチマークにおいて常に最良の結果を得ることができ,自己整合性推論による手法よりも優れ,LCMのバイアスを低減できることがわかった。

Recent work has made a preliminary attempt to use large language models (LLMs) to solve the stance detection task, showing promising results. However, considering that stance detection usually requires detailed background knowledge, the vanilla reasoning method may neglect the domain knowledge to make a professional and accurate analysis. Thus, there is still room for improvement of LLMs reasoning, especially in leveraging the generation capability of LLMs to simulate specific experts (i.e., multi-agents) to detect the stance. In this paper, different from existing multi-agent works that require detailed descriptions and use fixed experts, we propose a Dynamic Experienced Expert Modeling (DEEM) method which can leverage the generated experienced experts and let LLMs reason in a semi-parametric way, making the experts more generalizable and reliable. Experimental results demonstrate that DEEM consistently achieves the best results on three standard benchmarks, outperforms methods with self-consistency reasoning, and reduces the bias of LLMs.
翻訳日:2024-02-26 14:51:43 公開日:2024-02-23
# 動的メモリに基づく適応最適化

Dynamic Memory Based Adaptive Optimization ( http://arxiv.org/abs/2402.15262v1 )

ライセンス: Link先を確認
Bal\'azs Szegedy, Domonkos Czifra, P\'eter K\H{o}r\"osi-Szab\'o(参考訳) パラメータ空間内で動的に変化するベクトルを$k$に格納すると、メモリ$k$を持つようにオプティマイザを定義する。 古典的なSGDはメモリ0ドル、運動量SGDオプティマイザは1ドル、Adamオプティマイザは2ドルだ。 オプティマイザは、より多くのメモリユニットをどのように利用できるのか? その中にどんな情報を保存すべきですか。 学習にどのように使うのか? 最後の質問に対するアプローチとして,レトロスペクティブ学習法則(Retrospective Learning Law Correction)と呼ばれる一般的な手法を導入する。 この方法は、メモリユニットの動的に変化する線形結合(学習法則と呼ばれる)を計算するために設計され、それ自体が任意に進化する可能性がある。 メモリ単位が線形更新ルールと小さなメモリ(\leq 4$ メモリ単位)を持つオプティマイザ上で RLLC を実証する。 実験の結果,これらのオプティマイザは上記の3つの古典的オプティマイザよりも優れていた。 RLLCは、多くのメモリユニットを追加し、より適応的にすることで、既知のオプティマイザの性能を高めるための有望なフレームワークである。

Define an optimizer as having memory $k$ if it stores $k$ dynamically changing vectors in the parameter space. Classical SGD has memory $0$, momentum SGD optimizer has $1$ and Adam optimizer has $2$. We address the following questions: How can optimizers make use of more memory units? What information should be stored in them? How to use them for the learning steps? As an approach to the last question, we introduce a general method called "Retrospective Learning Law Correction" or shortly RLLC. This method is designed to calculate a dynamically varying linear combination (called learning law) of memory units, which themselves may evolve arbitrarily. We demonstrate RLLC on optimizers whose memory units have linear update rules and small memory ($\leq 4$ memory units). Our experiments show that in a variety of standard problems, these optimizers outperform the above mentioned three classical optimizers. We conclude that RLLC is a promising framework for boosting the performance of known optimizers by adding more memory units and by making them more adaptive.
翻訳日:2024-02-26 14:51:24 公開日:2024-02-23
# 協調ゲーム理論を用いたオープンアドホックチームワーク

Open Ad Hoc Teamwork with Cooperative Game Theory ( http://arxiv.org/abs/2402.15259v1 )

ライセンス: Link先を確認
Jianhong Wang and Yang Li and Yuan Zhang and Wei Pan and Samuel Kaski(参考訳) アドホックなチームワークは、事前の調整や共同トレーニングなしに、チームメイトと協力するエージェントの設計を必要とする、困難な問題を引き起こします。 オープンアドホックチームワークは、オープンチームと呼ばれるチームメイトの数が増える環境を考えることで、この課題をさらに複雑にします。 この問題に対する最先端のソリューションは、グラフベースのポリシ学習(gpl)であり、グラフニューラルネットワークの汎用性を活用して、制限のないエージェント数を処理し、オープンチームに対処する。 GPLの性能は他の方法よりも優れているが、その共同のQ値表現は解釈の課題を示し、この研究のさらなる発展と適用性を妨げる。 本稿では,協調ゲーム理論の観点から,gpl で採用されている合同 q-値表現の解釈を行うための新しい理論を確立する。 本稿では,GPL フレームワークをベースとした新しいアルゴリズムを提案し,学習を容易にする重要な特徴を補完するが,GPL では見落とされてしまう。 実験により,結果のアルゴリズムの性能を動的チーム構成のGPLと比較することにより,理論の正しさを実証する。

Ad hoc teamwork poses a challenging problem, requiring the design of an agent to collaborate with teammates without prior coordination or joint training. Open ad hoc teamwork further complicates this challenge by considering environments with a changing number of teammates, referred to as open teams. The state-of-the-art solution to this problem is graph-based policy learning (GPL), leveraging the generalizability of graph neural networks to handle an unrestricted number of agents and effectively address open teams. GPL's performance is superior to other methods, but its joint Q-value representation presents challenges for interpretation, hindering further development of this research line and applicability. In this paper, we establish a new theory to give an interpretation for the joint Q-value representation employed in GPL, from the perspective of cooperative game theory. Building on our theory, we propose a novel algorithm based on GPL framework, to complement the critical features that facilitate learning, but overlooked in GPL. Through experiments, we demonstrate the correctness of our theory by comparing the performance of the resulting algorithm with GPL in dynamic team compositions.
翻訳日:2024-02-26 14:51:01 公開日:2024-02-23
# ドメイン適応による高分解能ギター転写

High Resolution Guitar Transcription via Domain Adaptation ( http://arxiv.org/abs/2402.15258v1 )

ライセンス: Link先を確認
Xavier Riley, Drew Edwards, Simon Dixon(参考訳) 自動音楽転写(AMT)はMAESTROやMAPSのような大規模で高品質なデータセットが利用できるため、ピアノの精度が高いが、他の楽器では同等のデータセットが利用できない。 しかし、近年の研究では、楽譜と転写モデルのアクティベーションの整合が、ピアノ以外の楽器の高品質なAMTトレーニングデータを生み出すことが示されている。 ギターに焦点をあてて,市販のスコア-オーディオペアのデータセットを用いて,スコアデータのトレーニングに関するこのアプローチを洗練する。 そこで本研究では,高分解能ピアノ転写モデルを用いて新しいギター転写モデルを訓練する。 得られたモデルは、ゼロショットコンテキストでギターセットの最先端の書き起こし結果を取得し、以前公開された方法を改善した。

Automatic music transcription (AMT) has achieved high accuracy for piano due to the availability of large, high-quality datasets such as MAESTRO and MAPS, but comparable datasets are not yet available for other instruments. In recent work, however, it has been demonstrated that aligning scores to transcription model activations can produce high quality AMT training data for instruments other than piano. Focusing on the guitar, we refine this approach to training on score data using a dataset of commercially available score-audio pairs. We propose the use of a high-resolution piano transcription model to train a new guitar transcription model. The resulting model obtains state-of-the-art transcription results on GuitarSet in a zero-shot context, improving on previously published methods.
翻訳日:2024-02-26 14:50:42 公開日:2024-02-23
# システム・オブ・システムのためのモデル駆動型ダッシュボード生成に向けて

Towards Model-Driven Dashboard Generation for Systems-of-Systems ( http://arxiv.org/abs/2402.15257v1 )

ライセンス: Link先を確認
Maria Teresa Rossi and Alessandro Tundo and Leonardo Mariani(参考訳) 複雑で大規模システム(sos)におけるダッシュボードの構成と進化は、通常収集され、多くの視覚化に配置される多くの重要なパフォーマンスインジケータ(kpi)のため、高価で面倒な作業である。 残念ながら、ダッシュボードのセットアップはいまだに手作業でエラーを起こしやすい作業であり、人間の介入を必要とする。 本稿では、KPIの単純なリストをダッシュボードモデルに自動変換し、ターゲットダッシュボード技術のための実際のダッシュボードに変換するモデル駆動技術に依存しないアプローチの定義に関する、新たな結果について述べる。 ダッシュボードのカスタマイズは、抽象モデル表現を単に修正するだけで、オペレータを実際のダッシュボードとの高価なインタラクションから解放することができる。

Configuring and evolving dashboards in complex and large-scale Systems-of-Systems (SoS) can be an expensive and cumbersome task due to the many Key Performance Indicators (KPIs) that are usually collected and have to be arranged in a number of visualizations. Unfortunately, setting up dashboards is still a largely manual and error-prone task requiring extensive human intervention. This short paper describes emerging results about the definition of a model-driven technology-agnostic approach that can automatically transform a simple list of KPIs into a dashboard model, and then translate the model into an actual dashboard for a target dashboard technology. Dashboard customization can be efficiently obtained by solely modifying the abstract model representation, freeing operators from expensive interactions with actual dashboards.
翻訳日:2024-02-26 14:50:28 公開日:2024-02-23
# 欠測データに基づく構造学習のための最適輸送

Optimal Transport for Structure Learning Under Missing Data ( http://arxiv.org/abs/2402.15255v1 )

ライセンス: Link先を確認
Vy Vo, He Zhao, Trung Le, Edwin V. Bonilla, Dinh Phung(参考訳) 欠落データの存在下での因果発見はニワトリと卵のジレンマを引き起こす。 目的は真の因果構造を取り戻すことであるが、頑健な計算には変数間の依存関係や好ましくは因果関係を考慮する必要がある。 欠落した値を既存のインプテーションメソッドで満たし、その後、完全なデータに構造学習を適用するだけで、サブ最適であることが実証的に示される。 そこで本稿では,誤りデータから因果構造を学習するための最適なトランスポートに基づくスコアベースアルゴリズムを提案する。 この最適輸送視点は、EMに基づいて支配的なスコアベースのアプローチから分岐する。 そこで我々は,最小ワッサースタイン距離の分布を観測データ上の分布に導く因果モデルを求めることを目的として,密度適合問題として構造学習を計画する。 シミュレーションや実データ実験により,本フレームワークは様々なシミュレーションや実データ実験のベースラインよりも効率的に真の因果グラフを復元する。 実証的な証拠は、我々のアプローチの優れたスケーラビリティと、既製の因果発見手法を完全なデータに組み込む柔軟性も示しています。

Causal discovery in the presence of missing data introduces a chicken-and-egg dilemma. While the goal is to recover the true causal structure, robust imputation requires considering the dependencies or preferably causal relations among variables. Merely filling in missing values with existing imputation methods and subsequently applying structure learning on the complete data is empirical shown to be sub-optimal. To this end, we propose in this paper a score-based algorithm, based on optimal transport, for learning causal structure from missing data. This optimal transport viewpoint diverges from existing score-based approaches that are dominantly based on EM. We project structure learning as a density fitting problem, where the goal is to find the causal model that induces a distribution of minimum Wasserstein distance with the distribution over the observed data. Through extensive simulations and real-data experiments, our framework is shown to recover the true causal graphs more effectively than the baselines in various simulations and real-data experiments. Empirical evidences also demonstrate the superior scalability of our approach, along with the flexibility to incorporate any off-the-shelf causal discovery methods for complete data.
翻訳日:2024-02-26 14:50:12 公開日:2024-02-23
# 外部磁場中におけるduffin-kemmer-petiau振動子(2+1$)について

Remarks on the ($2+1$)-dimensional Duffin-Kemmer-Petiau oscillator in an external magnetic field ( http://arxiv.org/abs/2402.15252v1 )

ライセンス: Link先を確認
Andr\'es G. Jir\'on, Luis B. Castro, Angel E. Obispo, Antonio S. de Castro(参考訳) この研究は、外部磁場の存在下でのDKPO(Duffin-Kemmer-Petiau oscillator)のスピン-$1$粒子の問題を再検討する。 Duffin-Kemmer-Petiau (DKP) 理論のスピン-$1$セクターの適切な手順に従うことにより、文献の6ドル6ドル表現は3ドル3ドル既約表現に還元可能であることが示されている。 このアプローチにより,近年,様々な研究で流布した結果の新たな側面や,見落としや修正を要する他の考察を見出すことができた。 最後に, 凝縮体系, 特にリーブ格子における二次元dkp理論の応用について述べる。

This work re-examines the issue of spin-$1$ particles in a ($2+1$)-dimensional Duffin-Kemmer-Petiau oscillator (DKPO) in the presence of an external magnetic field. By following the appropriate procedure for the spin-$1$ sector of the Duffin-Kemmer-Petiau (DKP) theory, the previously used $6\times 6$ representation in the literature is shown to be reducible to a $3\times 3$ irreducible representation. This approach enabled us to find new aspects of the results recently disseminated in various studies, as well as other considerations overlooked and requiring revision. Finally, we present some applications of two-dimensional DKP theory in condensed matter systems, particularly in Lieb lattices.
翻訳日:2024-02-26 14:49:53 公開日:2024-02-23
# Chitchat as Interference:タスク指向対話にユーザバックストリーを追加する

Chitchat as Interference: Adding User Backstories to Task-Oriented Dialogues ( http://arxiv.org/abs/2402.15248v1 )

ライセンス: Link先を確認
Armand Stricker, Patrick Paroubek(参考訳) タスク指向対話(TOD)において、人間のユーザは、会話の流れに干渉して、タスクの即時範囲を超えているchitchatを自然に導入する。 この問題を解決するために、高価な手動データ作成を必要とせずに、Llama-2-70Bを使って、TODにおけるchitchat干渉の典型的な例であるユーザバックストリーによるMultiWOZデータセットを強化する。 この追加が与える影響を、2つのモデルで評価する。1つはTODで、もう1つはTODで、もう1つは事前のchitchatインタラクションで、TODで訓練された。 分析の結果、豊富なデータセットがこれらのシステムに重大な課題をもたらすことが明らかとなった。 さらに,我々のデータセットをトレーニング目的に効果的に活用できることを示し,人間の評価によって確認されたように,ユーザの背景を継続的に認識しつつ,タスクを同じ方向に前進させることに成功した。 これらの知見は、TODシステムをより徹底的にテストし、自然なユーザ干渉に対するレジリエンスを向上させるために、新しいchitchat-TODシナリオを生成する利点を強調している。

During task-oriented dialogues (TODs), human users naturally introduce chitchat that is beyond the immediate scope of the task, interfering with the flow of the conversation. To address this issue without the need for expensive manual data creation, we use few-shot prompting with Llama-2-70B to enhance the MultiWOZ dataset with user backstories, a typical example of chitchat interference in TODs. We assess the impact of this addition by testing two models: one trained solely on TODs and another trained on TODs with a preliminary chitchat interaction. Our analysis reveals that our enriched dataset poses a significant challenge to these systems. Moreover, we demonstrate that our dataset can be effectively used for training purposes, enabling a system to consistently acknowledge the user's backstory while also successfully moving the task forward in the same turn, as confirmed by human evaluation. These findings highlight the benefits of generating novel chitchat-TOD scenarios to test TOD systems more thoroughly and improve their resilience to natural user interferences.
翻訳日:2024-02-26 14:49:37 公開日:2024-02-23
# 垂直的フェデレーション学習における特徴量取引の一手法

A Bargaining-based Approach for Feature Trading in Vertical Federated Learning ( http://arxiv.org/abs/2402.15247v1 )

ライセンス: Link先を確認
Yue Cui, Liuyi Yao, Zitao Li, Yaliang Li, Bolin Ding, Xiaofang Zhou(参考訳) Vertical Federated Learning(VFL)は一般的な機械学習パラダイムとして登場し、データプライバシを維持しながら、同じユーザセットに関する異なる機能を持つデータとタスクパーティ間のモデルトレーニングを可能にする。 運用環境では、VFLは通常、1つのタスクパーティと1つのデータパーティを含む。 公正かつ経済的に効率的な機能取引は、タスクパーティがデータパーティの機能を購入するデータコンシューマと見なされるvflの商業化に不可欠である。 しかしながら、現在のVFLフィーチャートレーディングのプラクティスは、データパーティのデータを全体として価格付けし、実行前にトランザクションが発生すると仮定することが多い。 トレーディング機能によるパフォーマンス向上の無視は、過払いや過払い問題につながる可能性がある。 本研究では,VFLにおける取引量に基づく特徴取引手法を提案する。 当社のモデルでは,収益ベース最適化の目的を考慮し,パフォーマンスゲインベースの価格設定を取り入れている。 提案手法を完全かつ不完全な性能情報設定下で解析し,相手の目的を最適化する均衡が存在することを証明した。 さらに,不完全な性能情報シナリオに対するパフォーマンスゲイン推定に基づく交渉戦略を開発し,潜在的なセキュリティ問題と解決策について論じる。 実世界の3つのデータセットに対する実験により,提案モデルの有効性が示された。

Vertical Federated Learning (VFL) has emerged as a popular machine learning paradigm, enabling model training across the data and the task parties with different features about the same user set while preserving data privacy. In production environment, VFL usually involves one task party and one data party. Fair and economically efficient feature trading is crucial to the commercialization of VFL, where the task party is considered as the data consumer who buys the data party's features. However, current VFL feature trading practices often price the data party's data as a whole and assume transactions occur prior to the performing VFL. Neglecting the performance gains resulting from traded features may lead to underpayment and overpayment issues. In this study, we propose a bargaining-based feature trading approach in VFL to encourage economically efficient transactions. Our model incorporates performance gain-based pricing, taking into account the revenue-based optimization objectives of both parties. We analyze the proposed bargaining model under perfect and imperfect performance information settings, proving the existence of an equilibrium that optimizes the parties' objectives. Moreover, we develop performance gain estimation-based bargaining strategies for imperfect performance information scenarios and discuss potential security issues and solutions. Experiments on three real-world datasets demonstrate the effectiveness of the proposed bargaining model.
翻訳日:2024-02-26 14:49:15 公開日:2024-02-23
# 画素密度分布モデルによる半教師付き計数

Semi-supervised Counting via Pixel-by-pixel Density Distribution Modelling ( http://arxiv.org/abs/2402.15297v1 )

ライセンス: Link先を確認
Hui Lin and Zhiheng Ma and Rongrong Ji and Yaowei Wang and Zhou Su and Xiaopeng Hong and Deyu Meng(参考訳) 本稿では,トレーニングデータのごく一部をラベル付けした半教師付き群集カウントに着目した。 画素毎の密度値を確率分布として定式化し, 1 つの決定論的値に代えて回帰する。 そこで本研究では,半教師付きクラウドカウントモデルを提案する。 まず,予測と基底真理の間の画素単位密度分布の違いを測定するために画素単位分布マッチング損失を設計,次に密度トークンを用いて密度間隔の異なるデコーダのフォワードを特殊化することによりトランスフォーマデコーダを強化し,第3にラベル付きデータから効率的に学習するための相互学習型一貫性自己教師付き学習機構を設計する。 4つのデータセットに対する大規模な実験により,提案手法は様々なラベル付き比率設定の下で,競争相手よりも明らかに優れていた。 コードはhttps://github.com/LoraLinH/Semi-supervised-Counting-via-Pixel-by-pixel-Density-Distribution-Modelli ngでリリースされる。

This paper focuses on semi-supervised crowd counting, where only a small portion of the training data are labeled. We formulate the pixel-wise density value to regress as a probability distribution, instead of a single deterministic value. On this basis, we propose a semi-supervised crowd-counting model. Firstly, we design a pixel-wise distribution matching loss to measure the differences in the pixel-wise density distributions between the prediction and the ground truth; Secondly, we enhance the transformer decoder by using density tokens to specialize the forwards of decoders w.r.t. different density intervals; Thirdly, we design the interleaving consistency self-supervised learning mechanism to learn from unlabeled data efficiently. Extensive experiments on four datasets are performed to show that our method clearly outperforms the competitors by a large margin under various labeled ratio settings. Code will be released at https://github.com/LoraLinH/Semi-supervised-Counting-via-Pixel-by-pixel-Density-Distribution-Modelli ng.
翻訳日:2024-02-26 14:44:20 公開日:2024-02-23
# インタラクションの文脈における音楽生成に関する調査

A Survey of Music Generation in the Context of Interaction ( http://arxiv.org/abs/2402.15294v1 )

ライセンス: Link先を確認
Ismael Agchar, Ilja Baumann, Franziska Braun, Paula Andrea Perez-Toro, Korbinian Riedhammer, Sebastian Trump, Martin Ullrich(参考訳) 近年、機械学習、特にgans(generative adversarial neural networks)とtransformers(augmented-based neural networks)は、メロディとポリフォニーの両方の楽曲の作曲と生成に成功している。 現在の研究では、録音された音楽や録音された音楽に基づいて、スタイルレプリケーション(例えばバッハスタイルの振付を生成する)やスタイル転送(クラシックからジャズへ)に焦点を当てており、これによって、かなりストレートな「パフォーマンス」の評価も可能になっている。 しかし、これらのモデルのほとんどは、ライブインタラクションによる人間と機械の共作には適していない。 本稿では,音楽表現,特徴分析,ヒューリスティックアルゴリズム,統計的・パラメトリックなモデリング,人的・自動評価尺度の徹底的なレビューと,ライブインタラクションに最も適したアプローチとモデルについて述べる。

In recent years, machine learning, and in particular generative adversarial neural networks (GANs) and attention-based neural networks (transformers), have been successfully used to compose and generate music, both melodies and polyphonic pieces. Current research focuses foremost on style replication (eg. generating a Bach-style chorale) or style transfer (eg. classical to jazz) based on large amounts of recorded or transcribed music, which in turn also allows for fairly straight-forward "performance" evaluation. However, most of these models are not suitable for human-machine co-creation through live interaction, neither is clear, how such models and resulting creations would be evaluated. This article presents a thorough review of music representation, feature analysis, heuristic algorithms, statistical and parametric modelling, and human and automatic evaluation measures, along with a discussion of which approaches and models seem most suitable for live interaction.
翻訳日:2024-02-26 14:44:01 公開日:2024-02-23
# 線形ダイナミクス埋め込みニューラルネットワークによる時系列モデリング

Linear Dynamics-embedded Neural Network for Long-Sequence Modeling ( http://arxiv.org/abs/2402.15290v1 )

ライセンス: Link先を確認
Tongyi Liang and Han-Xiong Li(参考訳) ロングシーケンスモデリングにおける性能と計算効率のトレードオフは、既存のモデルのボトルネックとなる。 制御理論におけるマルチインプットとマルチアウトプットを備えた連続状態空間モデル(SSM)に着想を得て,線形ダイナミクス埋め込みニューラルネットワーク(LDNN)と呼ばれる新しいニューラルネットワークを提案する。 SSMの連続的、離散的、畳み込み的特性により、LDNNはパラメータがほとんどなく、フレキシブルな推論が可能である。 対角化と$'\text{Disentanglement then Fast Fourier Transform (FFT)}'$という2つの効率的な戦略が開発され、畳み込みの時間的複雑さを$O(LNH\max\{L, N\})$から$O(LN\max \{H, \log L\})$へと減少させる。 我々は、広範囲のアプリケーションに対応するために、双方向の非因果設定とマルチヘッド設定により、LDNNをさらに改善する。 LRA(Long Range Arena)の大規模な実験は、LDNNの有効性と最先端の性能を示す。

The trade-off between performance and computational efficiency in long-sequence modeling becomes a bottleneck for existing models. Inspired by the continuous state space models (SSMs) with multi-input and multi-output in control theory, we propose a new neural network called Linear Dynamics-embedded Neural Network (LDNN). SSMs' continuous, discrete, and convolutional properties enable LDNN to have few parameters, flexible inference, and efficient training in long-sequence tasks. Two efficient strategies, diagonalization and $'\text{Disentanglement then Fast Fourier Transform (FFT)}'$, are developed to reduce the time complexity of convolution from $O(LNH\max\{L, N\})$ to $O(LN\max \{H, \log L\})$. We further improve LDNN through bidirectional noncausal and multi-head settings to accommodate a broader range of applications. Extensive experiments on the Long Range Arena (LRA) demonstrate the effectiveness and state-of-the-art performance of LDNN.
翻訳日:2024-02-26 14:43:42 公開日:2024-02-23
# ステップバイステップの定式化:拡散モデルによるアスペクトベース感性分析の改善

Let's Rectify Step by Step: Improving Aspect-based Sentiment Analysis with Diffusion Models ( http://arxiv.org/abs/2402.15289v1 )

ライセンス: Link先を確認
Shunyu Liu, Jie Zhou, Qunxi Zhu, Qin Chen, Qingchun Bai, Jun Xiao, Liang He(参考訳) Aspect-Based Sentiment Analysis (ABSA) は、テキスト内の特定アスペクトに関連する感情極性を予測する重要なタスクである。 しかし、absaにおける注目すべき課題は、特に、ユーザの口語表現のために、アスペクトの境界(開始と終了の指標)を正確に決定することである。 本稿では,段階的に段階的にアスペクトを抽出する新しい拡散モデルDiffusionABSAを提案する。 特にDiffusionABSAは、訓練過程におけるアスペクト項に徐々にノイズを加え、その後、これらの項を逆の方法で徐々に復元する認知過程を学ぶ。 境界を推定するために,構文認識の時間的注意機構により拡張された雑音付きニューラルネットワークを設計し,アスペクトと周辺テキスト間の対話を時系列的に捉える。 8つのベンチマークデータセットで実施した経験的評価は、distributedabsaが堅牢なベースラインモデルと比較した場合の強みを浮き彫りにしている。 私たちのコードはhttps://github.com/qlb6x/diffusionabsaで公開されています。

Aspect-Based Sentiment Analysis (ABSA) stands as a crucial task in predicting the sentiment polarity associated with identified aspects within text. However, a notable challenge in ABSA lies in precisely determining the aspects' boundaries (start and end indices), especially for long ones, due to users' colloquial expressions. We propose DiffusionABSA, a novel diffusion model tailored for ABSA, which extracts the aspects progressively step by step. Particularly, DiffusionABSA gradually adds noise to the aspect terms in the training process, subsequently learning a denoising process that progressively restores these terms in a reverse manner. To estimate the boundaries, we design a denoising neural network enhanced by a syntax-aware temporal attention mechanism to chronologically capture the interplay between aspects and surrounding text. Empirical evaluations conducted on eight benchmark datasets underscore the compelling advantages offered by DiffusionABSA when compared against robust baseline models. Our code is publicly available at https://github.com/Qlb6x/DiffusionABSA.
翻訳日:2024-02-26 14:43:20 公開日:2024-02-23
# 光通信のためのANNに基づく等化の実時間FPGAデモ

Real-Time FPGA Demonstrator of ANN-Based Equalization for Optical Communications ( http://arxiv.org/abs/2402.15288v1 )

ライセンス: Link先を確認
Jonas Ney, Patrick Matalla, Vincent Lauinger, Laurent Schmalen, Sebastian Randel, Norbert Wehn(参考訳) 本研究では,ニューラルネットワーク(ANN)を用いた等化器のFPGA実証器について述べる。 30GBdの2レベルパルス振幅変調(PAM2)光通信システムにおいて、等化を行い、リアルタイムに図示する。

In this work, we present a high-throughput field programmable gate array (FPGA) demonstrator of an artificial neural network (ANN)-based equalizer. The equalization is performed and illustrated in real-time for a 30 GBd, two-level pulse amplitude modulation (PAM2) optical communication system.
翻訳日:2024-02-26 14:43:03 公開日:2024-02-23
# ハミルトン-ヤコビ-ベルマン方程式のテンソルトレイン近似による生成モデル

Generative Modelling with Tensor Train approximations of Hamilton--Jacobi--Bellman equations ( http://arxiv.org/abs/2402.15285v1 )

ライセンス: Link先を確認
David Sommer, Robert Gruhlke, Max Kirstein, Martin Eigel, Claudia Schillings(参考訳) 確率密度からのサンプリングは、不確実量化(UQ)や生成モデル(GM)といった分野において一般的な課題である。 特にGMでは、Ornstein-Uhlenbeckフォワードプロセスの対数密度に依存する逆時間拡散プロセスの使用が一般的なサンプリングツールである。 バーナーとアルで 2022] 著者らは、これらの対数密度は、確率的最適制御から知られている \textit{Hamilton-Jacobi-Bellman} (HJB) 方程式の解によって得られることを指摘した。 このHJB方程式は通常、ポリシーイテレーションやニューラルネットワークのようなブラックボックスアーキテクチャの教師なしトレーニングのような間接的手法で扱われるが、代わりに、空間離散化のためにテンソルトレイン(TT)形式で表される圧縮多項式を用いて直接時間積分によりHJB方程式を解くことを提案する。 この方法はサンプルフリーであり、正規化定数とは無関係であり、tt圧縮による次元の呪いを避けることができる。 本研究では, テンソルトレイン多項式に対するHJB方程式の作用の完全な導出を行い, 20次元の非線形サンプリングタスクにおける時間ステップ, ランク, 等級適応積分法の性能を示す。

Sampling from probability densities is a common challenge in fields such as Uncertainty Quantification (UQ) and Generative Modelling (GM). In GM in particular, the use of reverse-time diffusion processes depending on the log-densities of Ornstein-Uhlenbeck forward processes are a popular sampling tool. In Berner et al. [2022] the authors point out that these log-densities can be obtained by solution of a \textit{Hamilton-Jacobi-Bellman} (HJB) equation known from stochastic optimal control. While this HJB equation is usually treated with indirect methods such as policy iteration and unsupervised training of black-box architectures like Neural Networks, we propose instead to solve the HJB equation by direct time integration, using compressed polynomials represented in the Tensor Train (TT) format for spatial discretization. Crucially, this method is sample-free, agnostic to normalization constants and can avoid the curse of dimensionality due to the TT compression. We provide a complete derivation of the HJB equation's action on Tensor Train polynomials and demonstrate the performance of the proposed time-step-, rank- and degree-adaptive integration method on a nonlinear sampling task in 20 dimensions.
翻訳日:2024-02-26 14:42:58 公開日:2024-02-23
# 高次元データの予測学習のための時空間観測者設計

Spatiotemporal Observer Design for Predictive Learning of High-Dimensional Data ( http://arxiv.org/abs/2402.15284v1 )

ライセンス: Link先を確認
Tongyi Liang and Han-Xiong Li(参考訳) 深層学習に基づく手法は時空間予測学習において大きな成功を収めているが、これらのモデルの枠組みは主に直観によって設計されている。 理論的保証による時空間予測の作り方はまだ難しい課題である。 本研究では、動的システムからのドメイン知識をディープラーニングモデルのフレームワーク設計に適用することにより、この問題に対処する。 時空間オブザーバ(Spatiotemporal Observer)と呼ばれる観測者理論に基づくディープラーニングアーキテクチャは、高次元データの予測学習のために設計されている。 提案フレームワークの特徴は2つある: まず, 時空間予測のための一般化誤差境界と収束保証を提供する; 次に, モデルが訓練中にシステムダイナミクスをよりよく学習できるようにするために, 動的正規化を導入する。 さらに実験結果から,このフレームワークは時空間のダイナミクスを捉えることができ,一段階予測と多段階予測の両方のシナリオで正確な予測を行うことができることがわかった。

Although deep learning-based methods have shown great success in spatiotemporal predictive learning, the framework of those models is designed mainly by intuition. How to make spatiotemporal forecasting with theoretical guarantees is still a challenging issue. In this work, we tackle this problem by applying domain knowledge from the dynamical system to the framework design of deep learning models. An observer theory-guided deep learning architecture, called Spatiotemporal Observer, is designed for predictive learning of high dimensional data. The characteristics of the proposed framework are twofold: firstly, it provides the generalization error bound and convergence guarantee for spatiotemporal prediction; secondly, dynamical regularization is introduced to enable the model to learn system dynamics better during training. Further experimental results show that this framework could capture the spatiotemporal dynamics and make accurate predictions in both one-step-ahead and multi-step-ahead forecasting scenarios.
翻訳日:2024-02-26 14:42:36 公開日:2024-02-23
# 疑わしいとき、ゆっくり考える: 潜在的な想像力を持つ反復的推論

When in Doubt, Think Slow: Iterative Reasoning with Latent Imagination ( http://arxiv.org/abs/2402.15283v1 )

ライセンス: Link先を確認
Martin Benfeghoul, Umais Zahid, Qinghai Guo, Zafeirios Fountas(参考訳) 不慣れな環境では、モデルベースの強化学習エージェントはその世界モデルの精度によって制限される。 本稿では,このようなエージェントのパフォーマンスを計画や学習とは別に改善するための,新しいトレーニングフリーアプローチを提案する。 我々は、意思決定時に反復推論を適用し、将来の状態表現のコヒーレンスに基づいて推論されたエージェント状態を微調整する。 本手法は,視覚的3dナビゲーションタスクに適用することで,再構成精度とタスク性能の両立が図れる。 今後の状態を考えると、部分的に観測可能な環境ではエージェントの性能が向上するが、完全に観測可能な環境では改善しないことを示す。 最後に,学習前評価の少ないエージェントが,私たちのアプローチのメリットを最大限に発揮できることを実証する。

In an unfamiliar setting, a model-based reinforcement learning agent can be limited by the accuracy of its world model. In this work, we present a novel, training-free approach to improving the performance of such agents separately from planning and learning. We do so by applying iterative inference at decision-time, to fine-tune the inferred agent states based on the coherence of future state representations. Our approach achieves a consistent improvement in both reconstruction accuracy and task performance when applied to visual 3D navigation tasks. We go on to show that considering more future states further improves the performance of the agent in partially-observable environments, but not in a fully-observable one. Finally, we demonstrate that agents with less training pre-evaluation benefit most from our approach.
翻訳日:2024-02-26 14:42:21 公開日:2024-02-23
# アンタングルメントからの次元独立ディスタングルとその応用

Dimension Independent Disentanglers from Unentanglement and Applications ( http://arxiv.org/abs/2402.15282v1 )

ライセンス: Link先を確認
Fernando G. Jeronimo and Pei Wu(参考訳) 量子絡み合いは様々な応用において重要な要素である。 しかし、望ましくない敵の絡み合いの存在は、多くのアプリケーションで問題を引き起こす。 本稿では,量子エンタングルメントを「破る」手法について検討する。 具体的には,次元非依存なk-partite disentangler (like) チャネルを2成分非エンタングル入力から構築する。 すべての$d,\ell\ge k$に対して、効率的なチャネル $\Lambda: \mathbb{C}^{d\ell} \otimes \mathbb{C}^{d\ell} \to \mathbb{C}^{dk}$ が存在し、すべての二部分体分離状態 $\rho_1\otimes \rho_2$ に対して出力 $\Lambda(\rho_1\otimes\rho_2)$ は k-分体分離状態に近い。 具体的には、ある分布に対する$\mu$は、$\mathbb{C}^d$, $$ \left\|\Lambda(\rho_1 \otimes \rho_2) - \int | \psi \rangle \langle \psi |^{\otimes k} d\mu(\psi)\right\|_1 \le \tilde O \left(\left(\frac{k^{3}}{\ell}\right)^{1/4}\rightである。 さらに$$$\lambda(| \psi \rangle \langle \psi |^{\otimes \ell}\otimes | \psi \rangle \langle \psi |^{\otimes \ell}) = | \psi \rangle \langle \psi |^{\otimes k}$である。 二部共役仮定がなければ、上記の境界は不可能であると推測される。 その結果, ほぼ一般の実振幅の非絡み合い量子証明がnexpを捕捉し, qma^+(2)=nexpの最近の研究における非負振幅の仮定を大いに緩和することを示した。 具体的には、nexpをキャプチャするには、$| \psi \rangle = \sqrt{a} | \psi_+ \rangle + \sqrt{1-a} | \psi_\rangle$ ここで$| \psi_+ \rangle$は非負の振幅を持ち、$| \psi_\rangle$は負の振幅しか持たず、$| a-(1-a) | \ge 1/poly(n)$は$a \in [0,1]$である。 さらに、QMA^R(k)=NEXP$、すなわち、このギャップに対する1/poly(n)付加的な改善を得る前に、ほぼ最大のギャップを達成するプロトコルを提案する。

Quantum entanglement is a key enabling ingredient in diverse applications. However, the presence of unwanted adversarial entanglement also poses challenges in many applications. In this paper, we explore methods to "break" quantum entanglement. Specifically, we construct a dimension-independent k-partite disentangler (like) channel from bipartite unentangled input. We show: For every $d,\ell\ge k$, there is an efficient channel $\Lambda: \mathbb{C}^{d\ell} \otimes \mathbb{C}^{d\ell} \to \mathbb{C}^{dk}$ such that for every bipartite separable state $\rho_1\otimes \rho_2$, the output $\Lambda(\rho_1\otimes\rho_2)$ is close to a k-partite separable state. Concretely, for some distribution $\mu$ on states from $\mathbb{C}^d$, $$ \left\|\Lambda(\rho_1 \otimes \rho_2) - \int | \psi \rangle \langle \psi |^{\otimes k} d\mu(\psi)\right\|_1 \le \tilde O \left(\left(\frac{k^{3}}{\ell}\right)^{1/4}\right). $$ Moreover, $\Lambda(| \psi \rangle \langle \psi |^{\otimes \ell}\otimes | \psi \rangle \langle \psi |^{\otimes \ell}) = | \psi \rangle \langle \psi |^{\otimes k}$. Without the bipartite unentanglement assumption, the above bound is conjectured to be impossible. Leveraging our disentanglers, we show that unentangled quantum proofs of almost general real amplitudes capture NEXP, greatly relaxing the nonnegative amplitudes assumption in the recent work of QMA^+(2)=NEXP. Specifically, our findings show that to capture NEXP, it suffices to have unentangled proofs of the form $| \psi \rangle = \sqrt{a} | \psi_+ \rangle + \sqrt{1-a} | \psi_- \rangle$ where $| \psi_+ \rangle$ has non-negative amplitudes, $| \psi_- \rangle$ only has negative amplitudes and $| a-(1-a) | \ge 1/poly(n)$ with $a \in [0,1]$. Additionally, we present a protocol achieving an almost largest possible gap before obtaining QMA^R(k)=NEXP$, namely, a 1/poly(n) additive improvement to the gap results in this equality.
翻訳日:2024-02-26 14:42:10 公開日:2024-02-23
# 高速衝突検出のためのニューラルネットワーク暗黙的sweeptボリュームモデル

Neural Implicit Swept Volume Models for Fast Collision Detection ( http://arxiv.org/abs/2402.15281v1 )

ライセンス: Link先を確認
Dominik Joho, Jonas Schwinn, Kirill Safronov(参考訳) 衝突検出は、移動計画において最も時間を要する操作の1つである。 このように、衝突検出とサンプリングベースのモーションプランニングをスピードアップするための機械学習技術の探求への関心が高まっている。 最近の研究は、ロボットの形状またはロボットの動きの渦巻量のいずれかの神経符号付き距離関数を活用することに焦点を当てている。 そこで本研究では,その開始と目標設定によってパラメータ化された任意の動きを連続的に表現するニューラル暗黙的sweeptボリュームモデルを提案する。 これにより、ロボットの動きに対するタスク空間の任意の点の符号付き距離を素早く計算することができる。 さらに,深層学習に基づく符号付き距離計算の高速化と,幾何学的衝突チェッカーの高精度保証を組み合わせたアルゴリズムを提案する。 シミュレーションおよび実世界のロボット実験において、我々のアプローチを検証するとともに、商用ビンピッキングアプリケーションを高速化できることを実証する。

Collision detection is one of the most time-consuming operations during motion planning. Thus, there is an increasing interest in exploring machine learning techniques to speed up collision detection and sampling-based motion planning. A recent line of research focuses on utilizing neural signed distance functions of either the robot geometry or the swept volume of the robot motion. Building on this, we present a novel neural implicit swept volume model that is the first to continuously represent arbitrary motions parameterized by their start and goal configurations. This allows to quickly compute signed distances for any point in the task space to the robot motion. Further, we present an algorithm combining the speed of the deep learning-based signed distance computations with the strong accuracy guarantees of geometric collision checkers. We validate our approach in simulated and real-world robotic experiments, and demonstrate that it is able to speed up a commercial bin picking application.
翻訳日:2024-02-26 14:40:52 公開日:2024-02-23
# 誰が映し出すのか?

Whose Projection Postulate? ( http://arxiv.org/abs/2402.15280v1 )

ライセンス: Link先を確認
Anthony Sudbery(参考訳) 投影法(英: projection postulate)は、非相対論的量子力学において、離散スペクトルを持つ観測可能な測定の純粋な状態にあると仮定された量子系に対する効果の記述である。 しばしば"von neumann's projection postulate"や"the l\"uders rule"と呼ばれる。 本稿は、ディラック、フォン・ノイマン、L\ "uders" によるこの仮定のバージョンについて検討する。 1930年、ディラックは現在の射影仮定(英語版)として知られるものを提案した。 1932年、フォン・ノイマンは特別なケースのみに適用する別の理論を提唱した。 L\ "uders" は1951年にこの理論を否定し、ディラックと同じ理論を提示した。 ディラックとフォン・ノイマンによる連続スペクトルによる可観測物の処理は批判され、この場合の射影仮説の一般化版の可能性を考える。 この論文は、プロジェクションの仮定(様々な形で)の状態を別の仮定(量子力学の他の仮定とは無関係)として、また時間発展の別の形式として(時間依存シュリンガー方程式に加えて)議論することで締めくくられる。

The projection postulate is a description of the effect on a quantum system, assumed to be in a pure state, of a measurement of an observable with a discrete spectrum, in nonrelativistic quantum mechanics. It is often called "von Neumann's projection postulate" or "the L\"uders rule". This paper is an examination of the versions of this postulate due to Dirac, von Neumann and L\"uders. It is shown that Dirac, in 1930, proposed what is now generally known as the projection postulate. Von Neumann, in 1932, gave a different theory which only applies in special and rather unusual cases. L\"uders, in 1951, rejected this theory and presented one which is the same as Dirac's. Treatments of observables with continuous spectra by both Dirac and von Neumann are criticised, and the possibility of a generalised version of the projection postulate for this case is considered. The paper concludes with a discussion of the status of the projection postulate (in its various forms) as a separate postulate (independent of the other postulates of quantum mechanics) and as a separate form of time development (in addition to the time-dependent Schr\"odinger equation).
翻訳日:2024-02-26 14:40:36 公開日:2024-02-23
# 人工知能を用いた経済・金融学習 : ChatGPTの混合手法による研究

Economic and Financial Learning with Artificial Intelligence: A Mixed-Methods Study on ChatGPT ( http://arxiv.org/abs/2402.15278v1 )

ライセンス: Link先を確認
Holger Arndt(参考訳) デジタル教育の進化の中で、チャットボットは潜在的なゲームチェンジャーとして登場し、パーソナライズされた適応的な学習体験を約束している。 本研究は,ChatGPTの教育ツールとしての可能性を探究し,ユーザ認識,経験,学習成果に着目した。 混合メソッドアプローチを通じて、ChatGPTに関わった102人の多様なグループによって、事前および後相互作用の洞察が提供される。 この研究は、ChatGPTの有効性を裏付ける暴露後の認知の顕著な変化を明らかにした。 しかし、有効性の促進や情報の正確性といった課題が重要な懸念として浮上した。 この研究は「AI学習能力」の概念を導入し、フォーマルなトレーニングの必要性とAIツールの教育的な統合を強調し、今後の研究の基盤となる。

In the evolving landscape of digital education, chatbots have emerged as potential game-changers, promising personalized and adaptive learning experiences. This research undertook an in-depth exploration of ChatGPT's potential as an educational tool, focusing on user perceptions, experiences and learning outcomes. Through a mixed-methods approach, a diverse group of 102 participants engaged with ChatGPT, providing insights pre- and postinteraction. The study reveals a notable positive shift in perceptions after exposure, underscoring the efficacy of ChatGPT. However, challenges such as prompting effectiveness and information accuracy emerged as pivotal concerns. Introducing the concept of 'AI-learning-competence', this study lays the groundwork for future research, emphasizing the need for formal training and pedagogical integration of AI tools.
翻訳日:2024-02-26 14:40:16 公開日:2024-02-23
# Text2Pic Swift: 大規模ライブラリの長文検索と画像検索

Text2Pic Swift: Enhancing Long-Text to Image Retrieval for Large-Scale Libraries ( http://arxiv.org/abs/2402.15276v1 )

ライセンス: Link先を確認
Zijun Long and Xuri Ge and Richard Mccreadie and Joemon Jose(参考訳) テキスト検索は,デジタルライブラリや電子商取引プラットフォーム,マルチメディアデータベースなど,さまざまなアプリケーションにおいて重要な役割を担っている。 先進的な性能を提供するマルチモーダル大規模言語モデル(MLLM)の進歩にもかかわらず、大規模で多様であいまいな検索シナリオの適用性は、膨大な計算要求とインジェクティブ埋め込みの生成によって制限されている。 本稿では,膨大なデータセットのテキスト記述に対応する画像の効率的かつ堅牢な検索に適したText2Pic Swiftフレームワークを提案する。 最初のentity-based ranking (er)ステージは、長いテキストクエリに固有のあいまいさをマルチクエリからマルチプルターゲット戦略を通じて解決し、その後の分析のために潜在的な候補を効果的に絞り込みます。 これに続いて、概要に基づく再ランク付け(SR)ステージは、簡潔なクエリ要約に基づいてこれらの選択をさらに洗練する。 さらに,曖昧なクエリの課題に対処し,検索プロセスの両段階を容易にし,ベクトルに基づく類似度評価による計算効率を大幅に向上させる,新たなデカップリングbeit-3エンコーダを提案する。 AToMiCデータセットで実施した評価では、Text2Pic Swiftは、トレーニングと検索期間をそれぞれ68.75%、99.79%削減し、Recall@1000を最大11.06%増加させることで、現在のMLLMよりも優れたパフォーマンスを示している。

Text-to-image retrieval plays a crucial role across various applications, including digital libraries, e-commerce platforms, and multimedia databases, by enabling the search for images using text queries. Despite the advancements in Multimodal Large Language Models (MLLMs), which offer leading-edge performance, their applicability in large-scale, varied, and ambiguous retrieval scenarios is constrained by significant computational demands and the generation of injective embeddings. This paper introduces the Text2Pic Swift framework, tailored for efficient and robust retrieval of images corresponding to extensive textual descriptions in sizable datasets. The framework employs a two-tier approach: the initial Entity-based Ranking (ER) stage addresses the ambiguity inherent in lengthy text queries through a multiple-queries-to-multiple-targets strategy, effectively narrowing down potential candidates for subsequent analysis. Following this, the Summary-based Re-ranking (SR) stage further refines these selections based on concise query summaries. Additionally, we present a novel Decoupling-BEiT-3 encoder, specifically designed to tackle the challenges of ambiguous queries and to facilitate both stages of the retrieval process, thereby significantly improving computational efficiency via vector-based similarity assessments. Our evaluation, conducted on the AToMiC dataset, demonstrates that Text2Pic Swift outperforms current MLLMs by achieving up to an 11.06% increase in Recall@1000, alongside reductions in training and retrieval durations by 68.75% and 99.79%, respectively.
翻訳日:2024-02-26 14:40:00 公開日:2024-02-23
# 戦略的自己選択に基づく分類

Classification Under Strategic Self-Selection ( http://arxiv.org/abs/2402.15274v1 )

ライセンス: Link先を確認
Guy Horowitz, Yonatan Sommer, Moran Koren and Nir Rosenfeld(参考訳) 特定の予測から得られると、ユーザーは戦略的に行動し、好ましい予測結果を得る傾向にある。 戦略的分類に関するほとんどの研究は、機能修正として表されるユーザアクションを考慮しているが、学習された分類器に応答してユーザーが決定する新しい設定について研究している。 戦略的意識を高めるための学習アプローチとして, 自己選択が学習に及ぼす影響, 学習が自己選択集団の構成に及ぼす影響について検討した。 次に,自己選択行動下での学習を効果的に最適化できる,識別可能なフレームワークを提案する。 分析を補完し,提案手法の有用性を実証する実データとシミュレーション行動について実験を行った。

When users stand to gain from certain predictions, they are prone to act strategically to obtain favorable predictive outcomes. Whereas most works on strategic classification consider user actions that manifest as feature modifications, we study a novel setting in which users decide -- in response to the learned classifier -- whether to at all participate (or not). For learning approaches of increasing strategic awareness, we study the effects of self-selection on learning, and the implications of learning on the composition of the self-selected population. We then propose a differentiable framework for learning under self-selective behavior, which can be optimized effectively. We conclude with experiments on real data and simulated behavior that both complement our analysis and demonstrate the utility of our approach.
翻訳日:2024-02-26 14:39:31 公開日:2024-02-23
# ナノドロンの視覚電位推定のためのディープニューラルネットワークの最適配置

Optimized Deployment of Deep Neural Networks for Visual Pose Estimation on Nano-drones ( http://arxiv.org/abs/2402.15273v1 )

ライセンス: Link先を確認
Matteo Risso, Francesco Daghero, Beatrice Alessandra Motetti, Daniele Jahier Pagliari, Enrico Macii, Massimo Poncino, and Alessio Burrello(参考訳) 小型無人無人航空機(uavs)はその小型化により人気が高まり、屋内ナビゲーションや監視などの新しいタスクが可能になっている。 それでも、そのサイズと単純な電子機器は、高度なオンボードインテリジェンスを実装する上で大きな課題を生じさせる。 本研究では,Deep Neural Networks (DNN) を用いた視覚的ポーズ推定タスクの自動最適化パイプラインを提案する。 このパイプラインは、2つの異なるニューラルネットワークサーチ(NAS)アルゴリズムを活用して、DNNのアーキテクチャ領域における膨大な複雑性駆動の探索を追求する。 得られたネットワークは、クリティカルdnn層配列の効率的な融合実行のために、一連の新しいソフトウェアカーネルを活用する並列超低電力システムオンチップを備えた市販のナノドローンにデプロイされる。 その結果,アイソエラー時の予測遅延を最大3.22倍改善した。

Miniaturized autonomous unmanned aerial vehicles (UAVs) are gaining popularity due to their small size, enabling new tasks such as indoor navigation or people monitoring. Nonetheless, their size and simple electronics pose severe challenges in implementing advanced onboard intelligence. This work proposes a new automatic optimization pipeline for visual pose estimation tasks using Deep Neural Networks (DNNs). The pipeline leverages two different Neural Architecture Search (NAS) algorithms to pursue a vast complexity-driven exploration in the DNNs' architectural space. The obtained networks are then deployed on an off-the-shelf nano-drone equipped with a parallel ultra-low power System-on-Chip leveraging a set of novel software kernels for the efficient fused execution of critical DNN layer sequences. Our results improve the state-of-the-art reducing inference latency by up to 3.22x at iso-error.
翻訳日:2024-02-26 14:39:19 公開日:2024-02-23
# マルチタスク学習のための原則的タスクグループ化に向けて

Towards Principled Task Grouping for Multi-Task Learning ( http://arxiv.org/abs/2402.15328v1 )

ライセンス: Link先を確認
Chenguang Wang, Xuanhao Pan, Tianshu Yu(参考訳) 本稿では,MTL(Multitask Learning)におけるタスクグループ化への新たなアプローチを提案する。 先行研究とは異なり,本手法はより理論的に基礎づけられた手法であり,転送ゲインを構成するための制限的な仮定に依存しない。 また,多種多様な資源制約を満たし,その汎用性を高める柔軟な数理計画式を提案する。 コンピュータビジョンデータセット,コンビネート最適化ベンチマーク,時系列タスクなど,様々な領域にわたる実験結果から,本手法が広範なベースラインよりも優れていることを示し,mtlでの有効性と汎用性を検証する。

This paper presents a novel approach to task grouping in Multitask Learning (MTL), advancing beyond existing methods by addressing key theoretical and practical limitations. Unlike prior studies, our approach offers a more theoretically grounded method that does not rely on restrictive assumptions for constructing transfer gains. We also propose a flexible mathematical programming formulation which can accommodate a wide spectrum of resource constraints, thus enhancing its versatility. Experimental results across diverse domains, including computer vision datasets, combinatorial optimization benchmarks and time series tasks, demonstrate the superiority of our method over extensive baselines, validating its effectiveness and general applicability in MTL.
翻訳日:2024-02-26 14:35:34 公開日:2024-02-23
# 作用素半群理論から見た拡散型GNNの過平滑化理解

Understanding Oversmoothing in Diffusion-Based GNNs From the Perspective of Operator Semigroup Theory ( http://arxiv.org/abs/2402.15326v1 )

ライセンス: Link先を確認
Weichen Zhao, Chenguang Wang, Xinyan Wang, Congying Han, Tiande Guo, Tianshu Yu(参考訳) 本稿では,拡散型グラフニューラルネットワーク(gnns)におけるオーバーモーシング問題に関する新しい研究について述べる。 ランダムウォーク解析や粒子系に基づく既存手法から分岐し、作用素半群理論によりこの問題にアプローチする。 この理論の枠組みは、過平滑化が拡散作用素のエルゴード性に本質的に結びついていることの厳密な証明を可能にする。 この発見は、これまで提供されていた様々な特定の解を包含し、拡散に基づくGNNにおける過密化を緩和するより普遍的で理論的に基礎的なアプローチを示す、一般的で穏やかなエルゴード性破壊状態をさらに引き起こす。 さらに,我々の理論を確率論的に解釈し,先行研究との関係を創り出し,理論の地平線を広げる。 実験結果から, このエルゴディクティの破壊的用語は, ダイリクレエネルギーで測定した過飽和を効果的に緩和し, ノード分類タスクの性能も同時に向上することが明らかとなった。

This paper presents a novel study of the oversmoothing issue in diffusion-based Graph Neural Networks (GNNs). Diverging from extant approaches grounded in random walk analysis or particle systems, we approach this problem through operator semigroup theory. This theoretical framework allows us to rigorously prove that oversmoothing is intrinsically linked to the ergodicity of the diffusion operator. This finding further poses a general and mild ergodicity-breaking condition, encompassing the various specific solutions previously offered, thereby presenting a more universal and theoretically grounded approach to mitigating oversmoothing in diffusion-based GNNs. Additionally, we offer a probabilistic interpretation of our theory, forging a link with prior works and broadening the theoretical horizon. Our experimental results reveal that this ergodicity-breaking term effectively mitigates oversmoothing measured by Dirichlet energy, and simultaneously enhances performance in node classification tasks.
翻訳日:2024-02-26 14:35:23 公開日:2024-02-23
# 共有価値に基づくマルチエージェント強化学習:理論,方法とエネルギーネットワークへの応用

Shapley Value Based Multi-Agent Reinforcement Learning: Theory, Method and Its Application to Energy Network ( http://arxiv.org/abs/2402.15324v1 )

ライセンス: Link先を確認
Jianhong Wang(参考訳) マルチエージェント強化学習は、人工知能と機械学習の急速な進歩の分野である。 答えるべき重要な質問の1つは、マルチエージェントシステムにおけるクレジット割り当ての方法である。 マルチエージェント強化学習アルゴリズムによる信用割当を行うためのスキームが数多く存在する。 これらの信用割当スキームは多エージェント強化学習の性能向上に有用であることが証明されているが、そのほとんどは厳密な理論的基礎を持たないヒューリスティックに設計されており、エージェントがどのように協力するかを理解することは不可能である。 本論では,協調ゲーム理論によるマルチエージェント強化学習における信用割当の基盤を検討することを目的とする。 まず,共同ゲーム理論において,convex game と呼ばれるゲームモデルと shapley value と呼ばれるペイオフ分布スキームをそれぞれ markov convex game と markov shapley value と名づけた markov decision process に拡張した。 我々は,大連立の下でのマルコフ凸ゲームとして,世界的な報奨ゲームを表現する。 その結果、グローバル報酬ゲームにおいて、Markov Shapley値がクレジット代入スキームとして合理的に使用できる。 マルコフ・シャプリの価値は以下の美徳を持っている。 (i)効率性 (ii)ダミーエージェントの識別性 (iii)貢献の反映及び (iv)公平なクレジット割り当てを形成する対称性。 Markov Shapley値に基づいて,SHAQ,SQDDPG,SMFPPOという3つのマルチエージェント強化学習アルゴリズムを提案する。 さらに,markov convex game を部分可観測性に拡張し,部分可観測性問題(部分可観測性markov convex game)に対処した。 本研究では,エネルギーネットワークにおける実世界の問題に対するSQDDPGとSMFPPOの評価を行う。

Multi-agent reinforcement learning is an area of rapid advancement in artificial intelligence and machine learning. One of the important questions to be answered is how to conduct credit assignment in a multi-agent system. There have been many schemes designed to conduct credit assignment by multi-agent reinforcement learning algorithms. Although these credit assignment schemes have been proved useful in improving the performance of multi-agent reinforcement learning, most of them are designed heuristically without a rigorous theoretic basis and therefore infeasible to understand how agents cooperate. In this thesis, we aim at investigating the foundation of credit assignment in multi-agent reinforcement learning via cooperative game theory. We first extend a game model called convex game and a payoff distribution scheme called Shapley value in cooperative game theory to Markov decision process, named as Markov convex game and Markov Shapley value respectively. We represent a global reward game as a Markov convex game under the grand coalition. As a result, Markov Shapley value can be reasonably used as a credit assignment scheme in the global reward game. Markov Shapley value possesses the following virtues: (i) efficiency; (ii) identifiability of dummy agents; (iii) reflecting the contribution and (iv) symmetry, which form the fair credit assignment. Based on Markov Shapley value, we propose three multi-agent reinforcement learning algorithms called SHAQ, SQDDPG and SMFPPO. Furthermore, we extend Markov convex game to partial observability to deal with the partially observable problems, named as partially observable Markov convex game. In application, we evaluate SQDDPG and SMFPPO on the real-world problem in energy networks.
翻訳日:2024-02-26 14:35:03 公開日:2024-02-23
# ロート翻訳のリー群における最適輸送

Optimal Transport on the Lie Group of Roto-translations ( http://arxiv.org/abs/2402.15322v1 )

ライセンス: Link先を確認
Daan Bon, Gautam Pai, Gijs Bellaard, Olga Mula, Remco Duits(参考訳) ロト翻訳群SE2は、画像データをこのリー群で定義された多方向表現に引き上げる手法により、画像解析に積極的に関心を寄せている。 このことは、画像デノイズ、測地線追跡、ロト翻訳同変深層学習のための横断保存流の衝撃的な応用につながった。 本稿では,SE2に特に焦点をあてた,リー群上での最適輸送のための計算フレームワークを開発する。 輸送写像としての群作用の非最適性、最適輸送の不変性と等式、測地線距離近似を用いたエントロピック-正則化された最適輸送計画の品質など、いくつかの理論的貢献をする。 リー群の高速かつ高精度な距離近似とgpuフレンドリーなグループ畳み込みを用いて効率的に実装できるシンクホーン型アルゴリズムを開発した。 実験の貴重な進歩を報告します 1)画像バリセンタ, 2)平面配向場の補間,及び 3) ワッサーシュタイン勾配はSE2上に流れる。 画像からse2に画像を持ち上げ,左不変の異方性指標を用いた最適輸送の枠組みは,画像内の優等な輪郭に沿って等変輸送を導く。 これにより、$\mathbb{r}^2$ に対してより鋭く有意義な補間が得られる。

The roto-translation group SE2 has been of active interest in image analysis due to methods that lift the image data to multi-orientation representations defined on this Lie group. This has led to impactful applications of crossing-preserving flows for image de-noising, geodesic tracking, and roto-translation equivariant deep learning. In this paper, we develop a computational framework for optimal transportation over Lie groups, with a special focus on SE2. We make several theoretical contributions (generalizable to matrix Lie groups) such as the non-optimality of group actions as transport maps, invariance and equivariance of optimal transport, and the quality of the entropic-regularized optimal transport plan using geodesic distance approximations. We develop a Sinkhorn like algorithm that can be efficiently implemented using fast and accurate distance approximations of the Lie group and GPU-friendly group convolutions. We report valuable advancements in the experiments on 1) image barycenters, 2) interpolation of planar orientation fields, and 3) Wasserstein gradient flows on SE2. We observe that our framework of lifting images to SE2 and optimal transport with left-invariant anisotropic metrics leads to equivariant transport along dominant contours and salient line structures in the image. This yields sharper and more meaningful interpolations compared to their counterparts on $\mathbb{R}^2$
翻訳日:2024-02-26 14:34:20 公開日:2024-02-23
# OpenSUN3D: 1st Workshop Challenge on Open-Vocabulary 3D Scene Understanding

OpenSUN3D: 1st Workshop Challenge on Open-Vocabulary 3D Scene Understanding ( http://arxiv.org/abs/2402.15321v1 )

ライセンス: Link先を確認
Francis Engelmann, Ayca Takmaz, Jonas Schult, Elisabetta Fedele, Johanna Wald, Songyou Peng, Xi Wang, Or Litany, Siyu Tang, Federico Tombari, Marc Pollefeys, Leonidas Guibas, Hongbo Tian, Chunjie Wang, Xiaosheng Yan, Bingwen Wang, Xuanyang Zhang, Xiao Liu, Phuc Nguyen, Khoi Nguyen, Anh Tran, Cuong Pham, Zhening Huang, Xiaoyang Wu, Xi Chen, Hengshuang Zhao, Lei Zhu, Joan Lasenby(参考訳) 本報告では,ICCV 2023と共同で開かれたOpenSUN3D Workshop on Open-Vocabulary 3D Scene Understandingにおける課題の概要を紹介する。 このワークショップシリーズの目的は、セグメンテーション、検出、マッピングに限らず、オープンな3Dシーン理解タスクの探索と議論のためのプラットフォームを提供することである。 本稿では,ワークショップで開催されている課題の概要,課題データセット,評価手法,優勝方法の簡潔な説明について紹介する。 詳細はhttps://opensun3d.github.io/index_iccv23.htmlを参照。

This report provides an overview of the challenge hosted at the OpenSUN3D Workshop on Open-Vocabulary 3D Scene Understanding held in conjunction with ICCV 2023. The goal of this workshop series is to provide a platform for exploration and discussion of open-vocabulary 3D scene understanding tasks, including but not limited to segmentation, detection and mapping. We provide an overview of the challenge hosted at the workshop, present the challenge dataset, the evaluation methodology, and brief descriptions of the winning methods. For additional details, please see https://opensun3d.github.io/index_iccv23.html.
翻訳日:2024-02-26 14:33:43 公開日:2024-02-23
# GPTVQ: LLM量子化のための次元の祝福

GPTVQ: The Blessing of Dimensionality for LLM Quantization ( http://arxiv.org/abs/2402.15319v1 )

ライセンス: Link先を確認
Mart van Baalen, Andrey Kuzmin, Markus Nagel, Peter Couperus, Cedric Bastoul, Eric Mahurin, Tijmen Blankevoort, Paul Whatmough(参考訳) 本研究では,量子化次元を増大させることで,ニューラルネットワークの量子化の大きさと精度のトレードオフを大幅に改善できることを示す。 本稿では,Large Language Models (LLMs) によく適合するベクトル量子化(VQ)の高速化手法であるGPTVQ法を提案する。 本手法は,各層ごとの出力再構成MSEのヘシアン情報を用いて,残量重みを更新した1列以上の列の量子化をインターリーブする。 量子化コードブックは、EMアルゴリズムの効率的なデータ認識バージョンを用いて初期化される。 コードブックは更新され、整数量子化とSVDベースの圧縮によってさらに圧縮される。 GPTVQは、Llama-v2 や Mistral など、幅広い LLM におけるサイズ対精度トレードオフの新たな最先端技術を確立している。 一つのH100では、量子化設定に応じてLlamav2-70Bモデルを処理するのに3時間から11時間を要する。 最後に、モバイルCPU上でのVQ減圧のオンデバイスタイミングにより、VQは4ビット整数フォーマットよりもレイテンシが向上することを示す。

In this work we show that the size versus accuracy trade-off of neural network quantization can be significantly improved by increasing the quantization dimensionality. We propose the GPTVQ method, a new fast method for post-training vector quantization (VQ) that scales well to Large Language Models (LLMs). Our method interleaves quantization of one or more columns with updates to the remaining unquantized weights, using information from the Hessian of the per-layer output reconstruction MSE. Quantization codebooks are initialized using an efficient data-aware version of the EM algorithm. The codebooks are then updated, and further compressed by using integer quantization and SVD-based compression. GPTVQ establishes a new state-of-the art in the size vs accuracy trade-offs on a wide range of LLMs such as Llama-v2 and Mistral. Furthermore, our method is efficient: on a single H100 it takes between 3 and 11 hours to process a Llamav2-70B model, depending on quantization setting. Lastly, with on-device timings for VQ decompression on a mobile CPU we show that VQ leads to improved latency compared to using a 4-bit integer format.
翻訳日:2024-02-26 14:33:25 公開日:2024-02-23
# ニューラルネットワークの最小深さについて

On Minimal Depth in Neural Networks ( http://arxiv.org/abs/2402.15315v1 )

ライセンス: Link先を確認
Juan L. Valerdi(参考訳) ニューラルネットワークの表現可能性の特徴は、人工知能での成功を理解するのに関係している。 本研究では, ReLU ニューラルネットワークの表現性と, 連続的ピースワイド線形関数 (CPWL) の表現に必要な最小深度に関する予想との関係について検討した。 トピックは、和演算と最大演算の最小深さ表現と、ポリトープニューラルネットワークの探索である。 和演算では、オペランドの最小深さについて十分条件を定め、操作の最小深さを求める。 対照的に、最大演算については、オペランドの深さのみに依存する十分な条件がなければ、操作の深さが最小になることを示す包括的な例が提示される。 また,凸CPWL関数間の最小深度関係についても検討した。 ポリトープニューラルネットワークでは,深度包摂や頂点からの深度計算など,ReLUネットワークに匹敵するいくつかの基本特性について検討する。 特に、ReLUネットワークにおける最小深度予想と厳密に関係している最小限の単純化深度を計算する。

A characterization of the representability of neural networks is relevant to comprehend their success in artificial intelligence. This study investigate two topics on ReLU neural network expressivity and their connection with a conjecture related to the minimum depth required for representing any continuous piecewise linear function (CPWL). The topics are the minimal depth representation of the sum and max operations, as well as the exploration of polytope neural networks. For the sum operation, we establish a sufficient condition on the minimal depth of the operands to find the minimal depth of the operation. In contrast, regarding the max operation, a comprehensive set of examples is presented, demonstrating that no sufficient conditions, depending solely on the depth of the operands, would imply a minimal depth for the operation. The study also examine the minimal depth relationship between convex CPWL functions. On polytope neural networks, we investigate several fundamental properties, deriving results equivalent to those of ReLU networks, such as depth inclusions and depth computation from vertices. Notably, we compute the minimal depth of simplices, which is strictly related to the minimal depth conjecture in ReLU networks.
翻訳日:2024-02-26 14:32:52 公開日:2024-02-23
# アラビア・GPT:アラビア語のGPTに基づく言語

ArabianGPT: Native Arabic GPT-based Large Language ( http://arxiv.org/abs/2402.15313v1 )

ライセンス: Link先を確認
Anis Koubaa, Adel Ammar, Lahouari Ghouti, Omar Najar, Serry Sibaee(参考訳) 英語とラテン系大規模言語モデル(LLM)の優位性は、アラビア語のLLMに顕著な欠陥をもたらしている。 この違いは、既存のアラビア語のモデルに英語のトークンが広く含まれていることで強調され、ネイティブアラビア語の複雑な形態と構文を処理する際に効果が減っている。 したがって、アラビア語の言語要素に主に焦点をあてたLLMの開発には理論的かつ実践的な衝動がある。 このギャップに対処するため,本稿では,アラビアンルムスイート内でアラビア語用に明示的に設計されたトランスフォーマーベースのモデルであるアラビアンプットを提案する。 アラビアンGPT-0.1BやアラビアンGPT-0.3Bを含むこれらのモデルのサイズと複雑さは、アラビア語のニュアンスな言語特性と一致している。 これらのモデルに不可欠なAraNizerトークンはアラビア文字のユニークな形態的側面に対処し、より正確なテキスト処理を保証する。 感情分析や要約といったタスクでモデルを微調整した経験的結果は、大幅な改善を示している。 感情分析では、微調整されたアラビアのGPT-0.1Bモデルは95%の顕著な精度を達成し、ベースモデルの56%から大幅に増加した。 同様に、要約タスクでは、微調整されたモデルではF1スコアが向上し、簡潔な要約を生成する際の精度とリコールが改善された。 様々なベンチマークでベースバージョンに対する微調整アラビアンGPTモデルの比較分析により、微調整は質問応答や要約のような特定のタスクに肯定的な影響を与えながら、パフォーマンスの微調整の違いが明らかになった。 これらの知見は、アラビアンGPTモデルと特定のNLPタスクをより緊密に連携させるための微調整の有効性を強調し、アラビアNLPの進行において、カスタマイズされたトランスフォーマーアーキテクチャの可能性を強調した。

The predominance of English and Latin-based large language models (LLMs) has led to a notable deficit in native Arabic LLMs. This discrepancy is accentuated by the prevalent inclusion of English tokens in existing Arabic models, detracting from their efficacy in processing native Arabic's intricate morphology and syntax. Consequently, there is a theoretical and practical imperative for developing LLMs predominantly focused on Arabic linguistic elements. To address this gap, this paper proposes ArabianGPT, a series of transformer-based models within the ArabianLLM suite designed explicitly for Arabic. These models, including ArabianGPT-0.1B and ArabianGPT-0.3B, vary in size and complexity, aligning with the nuanced linguistic characteristics of Arabic. The AraNizer tokenizer, integral to these models, addresses the unique morphological aspects of Arabic script, ensuring more accurate text processing. Empirical results from fine-tuning the models on tasks like sentiment analysis and summarization demonstrate significant improvements. For sentiment analysis, the fine-tuned ArabianGPT-0.1B model achieved a remarkable accuracy of 95%, a substantial increase from the base model's 56%. Similarly, in summarization tasks, fine-tuned models showed enhanced F1 scores, indicating improved precision and recall in generating concise summaries. Comparative analysis of fine-tuned ArabianGPT models against their base versions across various benchmarks reveals nuanced differences in performance, with fine-tuning positively impacting specific tasks like question answering and summarization. These findings underscore the efficacy of fine-tuning in aligning ArabianGPT models more closely with specific NLP tasks, highlighting the potential of tailored transformer architectures in advancing Arabic NLP.
翻訳日:2024-02-26 14:31:55 公開日:2024-02-23
# Identifiability Guarantees によるファクトファクトジェネレーション

Counterfactual Generation with Identifiability Guarantees ( http://arxiv.org/abs/2402.15309v1 )

ライセンス: Link先を確認
Hanqi Yan, Lingjing Kong, Lin Gui, Yuejie Chi, Eric Xing, Yulan He, Kun Zhang(参考訳) counterfactual generationは、画像翻訳や制御可能なテキスト生成など、さまざまな機械学習タスクの中核にある。 この生成プロセスは、通常、観測されたデータの基盤となる内容やスタイルなどの非絡み合った潜在表現を識別する必要がある。 しかし、ペアデータやラベル情報の不足に直面した場合には、さらに困難になる。 既存の非絡み合ったメソッドは、独立したコンテンツやスタイル変数を仮定するなど、過度に単純化された仮定に依存して、複雑なデータ分布には当てはまらないが、潜伏変数を識別する。 例えば、フードレビューは美味しい言葉を含む傾向があるが、映画レビューは概して同じポジティブな感情に対するスリルのような言葉を含んでいる。 コンテンツとスタイル間の依存性がドメインによって大きく異なる可能性があるため、複数のドメインからデータがサンプリングされると、この問題は悪化する。 本研究では,コンテンツと,反事実生成タスクに内在するスタイル変数間のドメイン変動の依存性について検討する。 このような潜伏変数モデルに対する識別保証は、異なる潜伏変数からの影響の相対的空間性を利用する。 我々の理論的な洞察は、doMain AdapTive counTerfactual gEneration model(MATTE)の開発を可能にする。 理論上は,4つの大規模データセットにおいて,ペアデータもスタイルラベルも使用せず,教師なし型転送タスクの最先端性能を実現する。 コードはhttps://github.com/hanqi-qi/Matte.gitで入手できる。

Counterfactual generation lies at the core of various machine learning tasks, including image translation and controllable text generation. This generation process usually requires the identification of the disentangled latent representations, such as content and style, that underlie the observed data. However, it becomes more challenging when faced with a scarcity of paired data and labeling information. Existing disentangled methods crucially rely on oversimplified assumptions, such as assuming independent content and style variables, to identify the latent variables, even though such assumptions may not hold for complex data distributions. For instance, food reviews tend to involve words like tasty, whereas movie reviews commonly contain words such as thrilling for the same positive sentiment. This problem is exacerbated when data are sampled from multiple domains since the dependence between content and style may vary significantly over domains. In this work, we tackle the domain-varying dependence between the content and the style variables inherent in the counterfactual generation task. We provide identification guarantees for such latent-variable models by leveraging the relative sparsity of the influences from different latent variables. Our theoretical insights enable the development of a doMain AdapTive counTerfactual gEneration model, called (MATTE). Our theoretically grounded framework achieves state-of-the-art performance in unsupervised style transfer tasks, where neither paired data nor style labels are utilized, across four large-scale datasets. Code is available at https://github.com/hanqi-qi/Matte.git
翻訳日:2024-02-26 14:31:21 公開日:2024-02-23
# 先進航法における量子アニールのカーブフィッティング

Curve fitting on a quantum annealer for an advanced navigation method ( http://arxiv.org/abs/2402.15308v1 )

ライセンス: Link先を確認
Philipp Isserstedt, Daniel Jaroszewski, Wolfgang Mergenthaler, Felix Paul, Bastian Harrach(参考訳) 曲線フィッティングの近似タスクに対する量子アニーリングの適用性について検討する。 この目的のために、与えられたデータ点の集合を近似し、例えば直交多項式のような標準関数の有限線型結合として記述する関数を考える。 したがって、最適化される決定変数はその拡張の係数である。 この課題は古典的に達成できるが、量子アニーリングで解くのに適した二次的非拘束二元最適化問題としても定式化できる。 問題の規模が一定のしきい値以下であることを考えると、量子アニールは古典解に匹敵する結果をもたらす。 実単語のユースケースについて,動的プログラミングのフレームワークを用いて容器の速度プロファイルを最適化することの問題点を考察し,上記の近似タスクがどのように機能するかを概説する。

We explore the applicability of quantum annealing to the approximation task of curve fitting. To this end, we consider a function that shall approximate a given set of data points and is written as a finite linear combination of standardized functions, e.g., orthogonal polynomials. Consequently, the decision variables subject to optimization are the coefficients of that expansion. Although this task can be accomplished classically, it can also be formulated as a quadratic unconstrained binary optimization problem, which is suited to be solved with quantum annealing. Given the size of the problem stays below a certain threshold, we find that quantum annealing yields comparable results to the classical solution. Regarding a real-word use case, we discuss the problem to find an optimized speed profile for a vessel using the framework of dynamic programming and outline how the aforementioned approximation task can be put into play.
翻訳日:2024-02-26 14:30:53 公開日:2024-02-23
# 大規模視覚言語モデルにおける認識のためのオンライン手書き表現

Representing Online Handwriting for Recognition in Large Vision-Language Models ( http://arxiv.org/abs/2402.15307v1 )

ライセンス: Link先を確認
Anastasiia Fadeeva, Philippe Schlattner, Andrii Maksai, Mark Collier, Efi Kokiopoulou, Jesse Berent, Claudiu Musat(参考訳) タッチスクリーンとスタイラスを備えたタブレットの採用が増加し、手書き文字をテキストに変換することで、検索、インデックス、AIアシストが実現されている。 一方、視覚言語モデル(VLM)は、様々なタスクにまたがる最先端のパフォーマンスと、トレーニング、微調整、推論に対する統一されたアプローチの単純さのおかげで、画像理解のためのゴーツーソリューションになった。 VLMは画像ベースのタスクで高いパフォーマンスを得るが、画像として手書きを描画し、光学文字認識(OCR)を行うなど、手書き文字認識では不適当である。 本稿では,VLMを用いたオンライン手書き文字認識について検討する。 本稿では,テキストとして,画像として,時間順のストローク列を含む新しいデジタルインク(オンライン手書き)のトークン化表現を提案する。 この表現は、最先端のオンライン筆跡認識器に匹敵する結果が得られることを示す。 複数のパブリックデータセット上で、2つの異なるVLMファミリーによる結果を通じて、広範な適用性を示す。 我々のアプローチは市販のVLMに適用でき、アーキテクチャの変更は一切必要とせず、微調整とパラメータ効率の両面で使用することができる。 提案する表現の重要な要素を特定するための詳細なアブレーション研究を行う。

The adoption of tablets with touchscreens and styluses is increasing, and a key feature is converting handwriting to text, enabling search, indexing, and AI assistance. Meanwhile, vision-language models (VLMs) are now the go-to solution for image understanding, thanks to both their state-of-the-art performance across a variety of tasks and the simplicity of a unified approach to training, fine-tuning, and inference. While VLMs obtain high performance on image-based tasks, they perform poorly on handwriting recognition when applied naively, i.e., by rendering handwriting as an image and performing optical character recognition (OCR). In this paper, we study online handwriting recognition with VLMs, going beyond naive OCR. We propose a novel tokenized representation of digital ink (online handwriting) that includes both a time-ordered sequence of strokes as text, and as image. We show that this representation yields results comparable to or better than state-of-the-art online handwriting recognizers. Wide applicability is shown through results with two different VLM families, on multiple public datasets. Our approach can be applied to off-the-shelf VLMs, does not require any changes in their architecture, and can be used in both fine-tuning and parameter-efficient tuning. We perform a detailed ablation study to identify the key elements of the proposed representation.
翻訳日:2024-02-26 14:30:40 公開日:2024-02-23
# llmの(非倫理的な)命令中心の反応はどのようなものか? safe guardrailsの脆弱性を有害なクエリに公開

How (un)ethical are instruction-centric responses of LLMs? Unveiling the vulnerabilities of safety guardrails to harmful queries ( http://arxiv.org/abs/2402.15302v1 )

ライセンス: Link先を確認
Somnath Banerjee, Sayan Layek, Rima Hazra, Animesh Mukherjee(参考訳) 本研究では,大規模言語モデル(LLM)の安全性と倫理的利用に関する懸念が高まっている。 その可能性にもかかわらず、これらのモデルは「ジェイルブレイク」技術や標的操作を含む様々な洗練された方法によって有害または非倫理的なコンテンツを生み出すように騙すことができる。 我々の研究は、特定の問題についてゼロにしている: どの程度まで LLM は、バニラテキストではなく、擬似コード、プログラムまたはソフトウェアスニペットのような命令中心の応答を生成することで、アストレイを導くことができるか。 そこで本研究では、テキストと命令中心の形式(擬似コードなど)の両方で答えるべき複雑なクエリを含むデータセットであるTechHazardQAを紹介し、非倫理的応答のトリガを特定することを目的とした。 LLM - Llama-2-13b, Llama-2-7b, Mistral-V2, Mistral 8X7B - をクエリして,テキストと命令中心の応答を生成する。 評価のために,GPT-4およびヒトの有害度測定値と判定値について報告する。 全体として、LLMに命令中心の応答を要求すれば、モデル全体で約2~38%の非倫理的応答が生成される。 さらに, ROME技術を用いたモデル編集の影響について検討し, 好ましくないコンテンツを生成するための妥当性をさらに高めている。 特に、編集されたLSMに命令中心の応答を生成するよう要求すると、異なるモデル間で、非倫理的な応答生成が3-16%増加する。

In this study, we tackle a growing concern around the safety and ethical use of large language models (LLMs). Despite their potential, these models can be tricked into producing harmful or unethical content through various sophisticated methods, including 'jailbreaking' techniques and targeted manipulation. Our work zeroes in on a specific issue: to what extent LLMs can be led astray by asking them to generate responses that are instruction-centric such as a pseudocode, a program or a software snippet as opposed to vanilla text. To investigate this question, we introduce TechHazardQA, a dataset containing complex queries which should be answered in both text and instruction-centric formats (e.g., pseudocodes), aimed at identifying triggers for unethical responses. We query a series of LLMs -- Llama-2-13b, Llama-2-7b, Mistral-V2 and Mistral 8X7B -- and ask them to generate both text and instruction-centric responses. For evaluation we report the harmfulness score metric as well as judgements from GPT-4 and humans. Overall, we observe that asking LLMs to produce instruction-centric responses enhances the unethical response generation by ~2-38% across the models. As an additional objective, we investigate the impact of model editing using the ROME technique, which further increases the propensity for generating undesirable content. In particular, asking edited LLMs to generate instruction-centric responses further increases the unethical response generation by ~3-16% across the different models.
翻訳日:2024-02-26 14:30:17 公開日:2024-02-23
# 検索型大規模言語モデルを用いた因果グラフ探索

Causal Graph Discovery with Retrieval-Augmented Generation based Large Language Models ( http://arxiv.org/abs/2402.15301v1 )

ライセンス: Link先を確認
Yuzhe Zhang, Yipeng Zhang, Yidong Gan, Lina Yao, Chen Wang(参考訳) 因果グラフの回復は因果推論の分野において不可欠である。 従来の手法は一般に知識ベースや統計的推定ベースであり、データ収集バイアスや個人の関心変数間の関係に影響する要因に関する知識によって制限される。 大規模言語モデル(LLM)の進歩は、これらの問題に対処する機会を提供する。 本研究では,科学文献の大規模なコーパスに含まれる膨大な知識を活用し,因果関係を推定する新しい手法を提案する。 本手法は,RAG(Retrieval Augmented-Generation)に基づくLLMを用いて,総合的な研究論文コレクションから関連する情報を体系的に分析・抽出する。 本手法は,まず文献から関連するテキストチャンクを検索する。 次に、LSMは因子間の潜在的な関連を識別しラベル付けする。 最後に,関係関係を集約して因果グラフを構築する手法を提案する。 本手法は,文献のみでよく知られたサックスデータセット上に高品質な因果グラフを構築できることを実証する。

Causal graph recovery is essential in the field of causal inference. Traditional methods are typically knowledge-based or statistical estimation-based, which are limited by data collection biases and individuals' knowledge about factors affecting the relations between variables of interests. The advance of large language models (LLMs) provides opportunities to address these problems. We propose a novel method that utilizes the extensive knowledge contained within a large corpus of scientific literature to deduce causal relationships in general causal graph recovery tasks. This method leverages Retrieval Augmented-Generation (RAG) based LLMs to systematically analyze and extract pertinent information from a comprehensive collection of research papers. Our method first retrieves relevant text chunks from the aggregated literature. Then, the LLM is tasked with identifying and labelling potential associations between factors. Finally, we give a method to aggregate the associational relationships to build a causal graph. We demonstrate our method is able to construct high quality causal graphs on the well-known SACHS dataset solely from literature.
翻訳日:2024-02-26 14:29:49 公開日:2024-02-23
# 理解する:CLIPガイドによる大規模視覚言語モデルにおける幻覚の緩和

Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding ( http://arxiv.org/abs/2402.15300v1 )

ライセンス: Link先を確認
Ailin Deng, Zhirui Chen, Bryan Hooi(参考訳) 大きな視覚言語モデル(lvlms)は、その生成したテキストが存在しないオブジェクトを含む問題であるオブジェクト幻覚(object hallucination)に影響を受けやすく、信頼性と実用性を著しく制限している。 現在のアプローチは、しばしばモデルのトークン可能性やその他の内部情報に依存し、追加のデータセットのチューニングを指示したり、複雑な外部ツールを組み込んだりします。 文レベルのLVLM幻覚に関する実証分析を行い,CLIPと画像との類似性はトークンの確率よりも強く,より堅牢な幻覚の指標として機能することを発見した。 そこで本研究では,クリップガイドによる復号化(cgd)アプローチについて紹介する。 CGDはCLIPを使用して、生成されたテキストを画像で視覚的にグラウンド化することで、モデルのデコードプロセスをガイドする。 実験により、CGDはテキスト生成の有用性を保ちながら、複数のLVLMファミリーにまたがるオブジェクト幻覚を効果的に緩和することが示された。

Large Vision-Language Models (LVLMs) are susceptible to object hallucinations, an issue in which their generated text contains non-existent objects, greatly limiting their reliability and practicality. Current approaches often rely on the model's token likelihoods or other internal information, instruction tuning on additional datasets, or incorporating complex external tools. We first perform empirical analysis on sentence-level LVLM hallucination, finding that CLIP similarity to the image acts as a stronger and more robust indicator of hallucination compared to token likelihoods. Motivated by this, we introduce our CLIP-Guided Decoding (CGD) approach, a straightforward but effective training-free approach to reduce object hallucination at decoding time. CGD uses CLIP to guide the model's decoding process by enhancing visual grounding of generated text with the image. Experiments demonstrate that CGD effectively mitigates object hallucination across multiple LVLM families while preserving the utility of text generation.
翻訳日:2024-02-26 14:29:33 公開日:2024-02-23
# 時間変調非エルミタン系における断熱状態の回復

Restoring Adiabatic State Transfer in Time-Modulated Non-Hermitian Systems ( http://arxiv.org/abs/2402.15298v1 )

ライセンス: Link先を確認
Ievgen I. Arkhipov, Fabrizio Minganti, Adam Miranowicz, \c{S}ahin K. \"Ozdemir, Franco Nori(参考訳) 非エルミート系は、系の進化作用素の次元が減少する例外点 (EPs) と呼ばれる異種スペクトル特異点の存在によって、ここ数十年で多くの関心を集めている。 様々な興味深い応用の中で、EPの発見はシステムパラメータ空間を囲む際に対称モードスイッチを実装する可能性を示唆している。 しかし、その後の理論的および実験的研究により、EPの循環が不規則に非対称なモード変換をもたらすことが明らかとなった。 このキラリティは、非エルミート系の複素スペクトルによる断熱性の失敗から生じる。 キラリティーは明らかにこの分野に大きな影響を与えたが、EPを持つ非エルミート系における元々求められていた対称断熱通路の実現は、その後解明されてきた。 本研究では,このギャップを橋渡しし,EPを動的に巻き回すと,断熱性,すなわち対称状態移動が達成可能であることを理論的に証明する。 これは、対応する進化作用素が実スペクトルに達するような系パラメータ空間の軌跡を具体的に選択することで実現可能である。 そこで本研究では,量子領域と古典領域の両方において,様々な波動操作プロトコルの進歩を約束する。

Non-Hermitian systems have attracted much interest in recent decades, driven partly by the existence of exotic spectral singularities, known as exceptional points (EPs), where the dimensionality of the system evolution operator is reduced. Among various intriguing applications, the discovery of EPs has suggested the potential for implementing a symmetric mode switch, when encircling them in a system parameter space. However, subsequent theoretical and experimental works have revealed that {\it dynamical} encirclement of EPs invariably results in asymmetric mode conversion; namely, the mode switching depends only on the winding direction but not on the initial state. This chirality arises from the failure of adiabaticity due to the complex spectrum of non-Hermitian systems. Although the chirality revealed has undoubtedly made a significant impact in the field, a realization of the originally sought symmetric adiabatic passage in non-Hermitian systems with EPs has since been elusive. In this work, we bridge this gap and theoretically demonstrate that adiabaticity, and therefore a symmetric state transfer, is achievable when dynamically winding around an EP. This becomes feasible by specifically choosing a trajectory in the system parameter space along which the corresponding evolution operator attains a real spectrum. Our findings, thus, offer a promise for advancing various wave manipulation protocols in both quantum and classical domains.
翻訳日:2024-02-26 14:29:15 公開日:2024-02-23
# モデルは、そのコンピュータ実装と同等か?

Is a model equivalent to its computer implementation? ( http://arxiv.org/abs/2402.15364v1 )

ライセンス: Link先を確認
Beatrix C. Hiesmayr and Marc-Thorsten H\"utt(参考訳) 最近の数学モデリングのトレンドは、コンピュータコードを研究結果とともに公開することである。 ここでは、コンピュータの実装が数学的モデルと異なる意味を持つかどうかという形式的な疑問を探求する。 我々は、実装モデルの利便性にもかかわらず、広く使われているモデルでも(形式的)数学モデルと結果の集合との因果関係がもはや確実ではない程度まで、暗黙の仮定のセットは実装によって永続的であると主張する。 さらに、コードパブリッシングは再現可能な研究に重要な貢献者と見なされることが多いが、その逆が真である場合もあることを示唆する。 このトピックに関する新しい見解は、いくつかの研究の分野において、人工知能(AI)など、実装されたモデルのみを使用するという加速傾向に起因している。 量子コンピュータの出現により、モデルと実装の区別において全く新しい課題が発生すると主張する。

A recent trend in mathematical modeling is to publish the computer code together with the research findings. Here we explore the formal question, whether and in which sense a computer implementation is distinct from the mathematical model. We argue that, despite the convenience of implemented models, a set of implicit assumptions is perpetuated with the implementation to the extent that even in widely used models the causal link between the (formal) mathematical model and the set of results is no longer certain. Moreover, code publication is often seen as an important contributor to reproducible research, we suggest that in some cases the opposite may be true. A new perspective on this topic stems from the accelerating trend that in some branches of research only implemented models are used, e.g., in artificial intelligence (AI). With the advent of quantum computers we argue that completely novel challenges arise in the distinction between models and implementations.
翻訳日:2024-02-26 14:24:22 公開日:2024-02-23
# バイオ音響データにおけるコール密度の直接推定

All Thresholds Barred: Direct Estimation of Call Density in Bioacoustic Data ( http://arxiv.org/abs/2402.15360v1 )

ライセンス: Link先を確認
Amanda K. Navine, Tom Denton, Matthew J. Weldy, Patrick J. Hart(参考訳) パッシブ・アコースティック・モニタリング(PAM)研究は、特定の動物の個体群をモニターしたり、幅広い生物多様性の調査を行ったり、密猟者などの脅威を検出するために数千時間のオーディオを生成する。 種識別のための機械学習分類器は、バイオ音響サーベイによって生成される膨大な量のオーディオ処理、分析の迅速化、管理ツールとしてのPAMの有用性の向上にますます利用されている。 一般的には、分類器出力スコアにしきい値を適用し、しきい値以上のスコアを検出カウントに集約する。 しきい値の選択は、データセットのサブセットによって異なるかもしれない偽陽性/負のレートの発声のバイアス数を生成する。 本研究は, 呼密度の直接推定を提唱する: 分類器のスコアによらず, 対象の発声を含む検出窓の割合。 我々のアプローチは、望ましい生態学的推定器を目標とし、データ分散の変化の定義特性が変化するときに、分散シフトによって引き起こされるコア問題を特定するためのより厳密な基盤を提供する。 本研究では,データ単位内の呼密度を推定し,ベイズ的推論により,正と負の両方の信頼度スコアの確率分布を求める検証手法を提案する。 我々はこれらの分布を用いて、分布シフトの対象となるサイトレベルの密度を予測する。 提案手法をハワイ鳥の実世界実験で検証し,既存の完全注釈データセットを活用したシミュレーション結果を提供し,呼密度と分類器モデル品質の変動に対するロバスト性を示す。

Passive acoustic monitoring (PAM) studies generate thousands of hours of audio, which may be used to monitor specific animal populations, conduct broad biodiversity surveys, detect threats such as poachers, and more. Machine learning classifiers for species identification are increasingly being used to process the vast amount of audio generated by bioacoustic surveys, expediting analysis and increasing the utility of PAM as a management tool. In common practice, a threshold is applied to classifier output scores, and scores above the threshold are aggregated into a detection count. The choice of threshold produces biased counts of vocalizations, which are subject to false positive/negative rates that may vary across subsets of the dataset. In this work, we advocate for directly estimating call density: The proportion of detection windows containing the target vocalization, regardless of classifier score. Our approach targets a desirable ecological estimator and provides a more rigorous grounding for identifying the core problems caused by distribution shifts -- when the defining characteristics of the data distribution change -- and designing strategies to mitigate them. We propose a validation scheme for estimating call density in a body of data and obtain, through Bayesian reasoning, probability distributions of confidence scores for both the positive and negative classes. We use these distributions to predict site-level densities, which may be subject to distribution shifts. We test our proposed methods on a real-world study of Hawaiian birds and provide simulation results leveraging existing fully annotated datasets, demonstrating robustness to variations in call density and classifier model quality.
翻訳日:2024-02-26 14:24:04 公開日:2024-02-23
# ストリーミングガウス型ディリクレ確率場による高次元カテゴリー観測の空間予測

Streaming Gaussian Dirichlet Random Fields for Spatial Predictions of High Dimensional Categorical Observations ( http://arxiv.org/abs/2402.15359v1 )

ライセンス: Link先を確認
J. E. San Soucie, H. M. Sosik, Y. Girdhar(参考訳) 本稿では,時空間分布,疎度,高次元のカテゴリー分布をモデル化する新しい手法であるStreaming Gaussian Dirichlet Random Field (S-GDRF) モデルを提案する。 提案手法は時空間データのグローバルパターンと局所パターンを効率的に学習し,時間的制約のある高速な推論とクエリを可能にする。 ニューラルネットワークによって分類されたプランクトン画像の高分解能データ列を用いて,変動ガウス過程(vgp)と比較してより正確な予測を行い,ストリーミングカテゴリデータから観測の予測分布を学習する手法の能力を示す。 S-GDRFは、高次元の分類学的観察による効率的な情報経路計画を可能にするための扉を開く。

We present the Streaming Gaussian Dirichlet Random Field (S-GDRF) model, a novel approach for modeling a stream of spatiotemporally distributed, sparse, high-dimensional categorical observations. The proposed approach efficiently learns global and local patterns in spatiotemporal data, allowing for fast inference and querying with a bounded time complexity. Using a high-resolution data series of plankton images classified with a neural network, we demonstrate the ability of the approach to make more accurate predictions compared to a Variational Gaussian Process (VGP), and to learn a predictive distribution of observations from streaming categorical data. S-GDRFs open the door to enabling efficient informative path planning over high-dimensional categorical observations, which until now has not been feasible.
翻訳日:2024-02-26 14:23:34 公開日:2024-02-23
# 希少データと雑音データからのスパース非線形ダイナミクスの高速ベイズ同定

Rapid Bayesian identification of sparse nonlinear dynamics from scarce and noisy data ( http://arxiv.org/abs/2402.15357v1 )

ライセンス: Link先を確認
Lloyd Fung, Urban Fasel, Matthew P. Juniper(参考訳) 本研究では,観測データのダイナミクスを規定する微分方程式を高速確率的に同定する枠組みを提案する。 我々は,sindy法をベイズフレームワーク内で再キャストし,計算の高速化のためにガウス近似を用いる。 その結果、ベイズ・シンディ法は推定パラメータの不確かさを定量化するだけでなく、限定データや雑音データから正しいモデルを学ぶ際により頑健になる。 我々は,Lynx-Hare集団力学のような合成と実生活の例を用いて,正しいモデル方程式の学習における新しいフレームワークの有効性を示し,その計算とデータ効率を既存手法と比較する。 Bayesian-SINDy はデータを素早く同化でき、ノイズに対して堅牢であるため、生物学的データやリアルタイムシステム識別に特に適している。 その確率的フレームワークは情報エントロピーの計算を可能にし、アクティブな学習戦略の基礎を築いた。

We propose a fast probabilistic framework for identifying differential equations governing the dynamics of observed data. We recast the SINDy method within a Bayesian framework and use Gaussian approximations for the prior and likelihood to speed up computation. The resulting method, Bayesian-SINDy, not only quantifies uncertainty in the parameters estimated but also is more robust when learning the correct model from limited and noisy data. Using both synthetic and real-life examples such as Lynx-Hare population dynamics, we demonstrate the effectiveness of the new framework in learning correct model equations and compare its computational and data efficiency with existing methods. Because Bayesian-SINDy can quickly assimilate data and is robust against noise, it is particularly suitable for biological data and real-time system identification in control. Its probabilistic framework also enables the calculation of information entropy, laying the foundation for an active learning strategy.
翻訳日:2024-02-26 14:23:20 公開日:2024-02-23
# 教師付きおよび教師なし分別法の正規化同分散性について:調査

On normalization-equivariance properties of supervised and unsupervised denoising methods: a survey ( http://arxiv.org/abs/2402.15352v1 )

ライセンス: Link先を確認
S\'ebastien Herbreteau and Charles Kervrann(参考訳) 画像処理はおそらく最も古く、今でも最も活発な研究トピックの1つである。 過去数十年の間に多くの方法論的概念が導入され、特に畳み込みニューラルネットワークの出現と教師付きディープラーニングにより、近年はパフォーマンスが大幅に向上している。 本稿では,教師付き学習法と教師なし学習法のガイド付きツアーについて,近年の教師付き学習の発展に特に関心を寄せて,この進化の過程で具体化された原則を分類する。 これは、現在の包括的なフレームワークのアプローチを組織化するチュートリアルとして考えられている。 我々は,文献における最もパフォーマンスの高い手法の理論的根拠と限界について考察し,その多くが共通する特徴を強調する。 最後に,教師あり手法のほとんどでは保証されない正規化等分散特性に着目した。 入力画像に適用された強度シフトやスケーリングが、対応するデノイザー出力の変化をもたらすことは極めて重要である。

Image denoising is probably the oldest and still one of the most active research topic in image processing. Many methodological concepts have been introduced in the past decades and have improved performances significantly in recent years, especially with the emergence of convolutional neural networks and supervised deep learning. In this paper, we propose a survey of guided tour of supervised and unsupervised learning methods for image denoising, classifying the main principles elaborated during this evolution, with a particular concern given to recent developments in supervised learning. It is conceived as a tutorial organizing in a comprehensive framework current approaches. We give insights on the rationales and limitations of the most performant methods in the literature, and we highlight the common features between many of them. Finally, we focus on on the normalization equivariance properties that is surprisingly not guaranteed with most of supervised methods. It is of paramount importance that intensity shifting or scaling applied to the input image results in a corresponding change in the denoiser output.
翻訳日:2024-02-26 14:23:03 公開日:2024-02-23
# AutoMMLab: コンピュータビジョンタスクのための言語命令からデプロイ可能なモデルを自動的に生成する

AutoMMLab: Automatically Generating Deployable Models from Language Instructions for Computer Vision Tasks ( http://arxiv.org/abs/2402.15351v1 )

ライセンス: Link先を確認
Zekang Yang, Wang Zeng, Sheng Jin, Chen Qian, Ping Luo, Wentao Liu(参考訳) Automated Machine Learning (AutoML)は、機械学習開発プロセスを自動化するために設計されたテクニックの集合である。 従来のAutoMLアプローチは、モデル開発のいくつかの重要なステップ(ハイパーパラメータ最適化など)でうまく適用されているが、エンドツーエンドモデルのプロダクションワークフロー全体を自動化するAutoMLシステムがない。 この空白を埋めるために,コンピュータビジョンタスクのためのモデル生成ワークフロー全体を自動化するために,ユーザの言語命令に従う汎用LLMを活用したAutoMLシステムであるAutoMMLabを提案する。 提案する AutoMMLab システムは,AutoML と OpenMMLab コミュニティを接続するブリッジとして LLM を効果的に利用する。 具体的には、ユーザの要求を理解し、パイプライン全体をスケジュールするRU-LLaMAを提案し、HPO-LLaMAと呼ばれる新しいLLMベースのハイパーパラメータオプティマイザを提案し、最適なハイパーパラメータを効率的に検索する。 実験の結果,AutoMMLabシステムは汎用的で,分類,検出,セグメンテーション,キーポイント推定など,幅広いタスクをカバーしていることがわかった。 我々はさらに、エンドツーエンドのプロンプトベースのモデルトレーニングパイプラインで重要なコンポーネントを研究するための新しいベンチマーク、lampを開発しました。 コード、モデル、データはリリースされる予定だ。

Automated machine learning (AutoML) is a collection of techniques designed to automate the machine learning development process. While traditional AutoML approaches have been successfully applied in several critical steps of model development (e.g. hyperparameter optimization), there lacks a AutoML system that automates the entire end-to-end model production workflow. To fill this blank, we present AutoMMLab, a general-purpose LLM-empowered AutoML system that follows user's language instructions to automate the whole model production workflow for computer vision tasks. The proposed AutoMMLab system effectively employs LLMs as the bridge to connect AutoML and OpenMMLab community, empowering non-expert individuals to easily build task-specific models via a user-friendly language interface. Specifically, we propose RU-LLaMA to understand users' request and schedule the whole pipeline, and propose a novel LLM-based hyperparameter optimizer called HPO-LLaMA to effectively search for the optimal hyperparameters. Experiments show that our AutoMMLab system is versatile and covers a wide range of mainstream tasks, including classification, detection, segmentation and keypoint estimation. We further develop a new benchmark, called LAMP, for studying key components in the end-to-end prompt-based model training pipeline. Code, model, and data will be released.
翻訳日:2024-02-26 14:22:48 公開日:2024-02-23
# farsight: aiアプリケーションのプロトタイピング中に責任あるai意識を育む

Farsight: Fostering Responsible AI Awareness During AI Application Prototyping ( http://arxiv.org/abs/2402.15350v1 )

ライセンス: Link先を確認
Zijie J. Wang, Chinmay Kulkarni, Lauren Wilcox, Michael Terry, Michael Madaio(参考訳) LLM(Large Language Models)のためのプロンプトベースのインターフェイスは、AIを使ったアプリケーションのプロトタイピングと構築をこれまで以上に容易にした。 しかし、特にプロンプトベースのプロトタイピングにおいて、aiアプリケーションから発生する潜在的な危害を特定することは課題である。 これに対処するために、私たちは、プロトタイピング中のaiアプリケーションから潜在的な害を識別するのに役立つ、新しいin situインタラクティブツールであるfarsightを紹介します。 ユーザのプロンプトに基づいて、farsightは関連するaiインシデントに関するニュース記事を強調し、ユーザがllm生成のユースケース、利害関係者、損害を探索し、編集できるようにする。 10人のAIプロトタイプを用いた共同設計研究と42人のAIプロトタイプを用いたユーザ調査から得られた知見を報告する。 Farsightを使用した後、私たちのユーザー研究におけるAIプロトタイプは、プロンプトに関連する潜在的な害を独立して識別し、既存のリソースよりも便利なツールを見つけることができます。 彼らの質的なフィードバックはまた、farsightがエンドユーザに集中し、即時の害を超えて考えることを奨励している点を強調している。 これらの知見を議論し、AI害に有意義に関与するAIプロトタイピング体験を設計することの意味を反映する。 Farsightは、https://PAIR-code.github.io/farsight.comで公開されている。

Prompt-based interfaces for Large Language Models (LLMs) have made prototyping and building AI-powered applications easier than ever before. However, identifying potential harms that may arise from AI applications remains a challenge, particularly during prompt-based prototyping. To address this, we present Farsight, a novel in situ interactive tool that helps people identify potential harms from the AI applications they are prototyping. Based on a user's prompt, Farsight highlights news articles about relevant AI incidents and allows users to explore and edit LLM-generated use cases, stakeholders, and harms. We report design insights from a co-design study with 10 AI prototypers and findings from a user study with 42 AI prototypers. After using Farsight, AI prototypers in our user study are better able to independently identify potential harms associated with a prompt and find our tool more useful and usable than existing resources. Their qualitative feedback also highlights that Farsight encourages them to focus on end-users and think beyond immediate harms. We discuss these findings and reflect on their implications for designing AI prototyping experiences that meaningfully engage with AI harms. Farsight is publicly accessible at: https://PAIR-code.github.io/farsight.
翻訳日:2024-02-26 14:22:24 公開日:2024-02-23
# 情報理論型安全なベイズ最適化

Information-Theoretic Safe Bayesian Optimization ( http://arxiv.org/abs/2402.15347v1 )

ライセンス: Link先を確認
Alessandro G. Bottero, Carlos E. Luis, Julia Vinogradska, Felix Berkenkamp, Jan Peters(参考訳) そこでは,未知の(安全でない)制約に違反するパラメータを評価することなく,未知の関数を最適化することが目的である。 一般的なアプローチは、未知の関数に先立ってガウス過程を配置し、高い確率で安全な領域にのみ評価を行うことである。 現在のほとんどのメソッドはドメインの離散化に依存しており、連続ケースに直接拡張することはできない。 さらに、制約に関する規則性仮定を利用する方法は、追加の臨界ハイパーパラメータをもたらす。 本稿では,GP後部を直接利用して,最も情報に富む安全なパラメータを識別する情報理論的安全な探索基準を提案する。 この探索基準とよく知られたベイズ最適化取得関数の組み合わせは、新しい安全なベイズ最適化選択基準をもたらす。 このアプローチは、自然に連続ドメインに適用でき、追加の明示的なハイパーパラメータを必要としない。 提案手法を理論的に解析し,高い確率で安全性制約に違反せず,任意の精度で最適な安全性の値を知ることを実証した。 実証的な評価により、データ効率とスケーラビリティが向上した。

We consider a sequential decision making task, where the goal is to optimize an unknown function without evaluating parameters that violate an a~priori unknown (safety) constraint. A common approach is to place a Gaussian process prior on the unknown functions and allow evaluations only in regions that are safe with high probability. Most current methods rely on a discretization of the domain and cannot be directly extended to the continuous case. Moreover, the way in which they exploit regularity assumptions about the constraint introduces an additional critical hyperparameter. In this paper, we propose an information-theoretic safe exploration criterion that directly exploits the GP posterior to identify the most informative safe parameters to evaluate. The combination of this exploration criterion with a well known Bayesian optimization acquisition function yields a novel safe Bayesian optimization selection criterion. Our approach is naturally applicable to continuous domains and does not require additional explicit hyperparameters. We theoretically analyze the method and show that we do not violate the safety constraint with high probability and that we learn about the value of the safe optimum up to arbitrary precision. Empirical evaluations demonstrate improved data-efficiency and scalability.
翻訳日:2024-02-26 14:22:01 公開日:2024-02-23
# フーリエ基底密度モデル

Fourier Basis Density Model ( http://arxiv.org/abs/2402.15345v1 )

ライセンス: Link先を確認
Alfredo De la Fuente, Saurabh Singh, Johannes Ball\'e(参考訳) 制約されたフーリエ基底によりパラメータ化される軽量でフレキシブルでエンドツーエンドのトレーニング可能な確率密度モデルを導入する。 一般に適合が難しいマルチモーダル1次元密度を近似する際の性能を評価する。 [1]で導入された深部因子化モデルと比較すると, 同様の計算予算でより低いクロスエントロピーが得られる。 また,玩具圧縮タスクにおける提案手法を評価し,学習圧縮におけるその有用性を示した。

We introduce a lightweight, flexible and end-to-end trainable probability density model parameterized by a constrained Fourier basis. We assess its performance at approximating a range of multi-modal 1D densities, which are generally difficult to fit. In comparison to the deep factorized model introduced in [1], our model achieves a lower cross entropy at a similar computational budget. In addition, we also evaluate our method on a toy compression task, demonstrating its utility in learned compression.
翻訳日:2024-02-26 14:21:46 公開日:2024-02-23
# 定値および減衰学習率を用いた確率勾配の反復と確率的1次オラクル複雑度

Iteration and Stochastic First-order Oracle Complexities of Stochastic Gradient Descent using Constant and Decaying Learning Rates ( http://arxiv.org/abs/2402.15344v1 )

ライセンス: Link先を確認
Kento Imaizumi, Hideaki Iiduka(参考訳) 深層ニューラルネットワークをトレーニングするための最も単純な一階最適化器である確率勾配降下(SGD)の性能は、学習速度だけでなく、バッチサイズにも依存する。 どちらもイテレーションの数と、トレーニングに必要な確率的な1次オラクル(SFO)の複雑さに影響します。 特に, 前回の数値計算の結果から, 一定の学習率を用いたSGDでは, バッチサイズが大きくなると, 学習に必要な反復回数が減少し, 学習に必要なSFOの複雑さが限界バッチサイズで最小化され, バッチサイズがそのサイズを超えると増大することがわかった。 本稿では,sgdを用いた深層学習における非凸最適化に必要なバッチサイズとsfoの複雑度との関係について検討し,臨界バッチサイズを用いたsgdがsfoの複雑さを最小化することを示す。 また、SGDと既存の一階最適化器の数値比較を行い、臨界バッチサイズを用いてSGDの有用性を示す。 さらに, 評価された臨界バッチサイズは, 理論結果から推定したサイズに近いことがわかった。

The performance of stochastic gradient descent (SGD), which is the simplest first-order optimizer for training deep neural networks, depends on not only the learning rate but also the batch size. They both affect the number of iterations and the stochastic first-order oracle (SFO) complexity needed for training. In particular, the previous numerical results indicated that, for SGD using a constant learning rate, the number of iterations needed for training decreases when the batch size increases, and the SFO complexity needed for training is minimized at a critical batch size and that it increases once the batch size exceeds that size. Here, we study the relationship between batch size and the iteration and SFO complexities needed for nonconvex optimization in deep learning with SGD using constant or decaying learning rates and show that SGD using the critical batch size minimizes the SFO complexity. We also provide numerical comparisons of SGD with the existing first-order optimizers and show the usefulness of SGD using a critical batch size. Moreover, we show that measured critical batch sizes are close to the sizes estimated from our theoretical results.
翻訳日:2024-02-26 14:21:38 公開日:2024-02-23
# NuNER: LLMアノテーションデータによるエンティティ認識エンコーダ事前トレーニング

NuNER: Entity Recognition Encoder Pre-training via LLM-Annotated Data ( http://arxiv.org/abs/2402.15343v1 )

ライセンス: Link先を確認
Sergei Bogdanov, Alexandre Constantin, Timoth\'ee Bernard, Benoit Crabb\'e, Etienne Bernard(参考訳) 大規模言語モデル(LLM)は、古典的なNLP問題を解決する新しいアプローチの道を開く、データアノテーションにおける印象的な能力を示している。 本稿では,名前付きエンティティ認識(NER)タスクに特化したコンパクト言語表現モデルであるNuNERの作成にLLMを使用する方法を示す。 NuNERは、データ効率のよい方法で下流のNER問題を解決するように微調整できる。 トレーニング済みデータセットのサイズとエンティティタイプの多様性が、優れたパフォーマンスを達成する上で重要であることが分かりました。 我々はNuNERを、最近LLMによってアンロックされたタスク固有基盤モデルの幅広いファミリーの一員であると考えている。

Large Language Models (LLMs) have shown impressive abilities in data annotation, opening the way for new approaches to solve classic NLP problems. In this paper, we show how to use LLMs to create NuNER, a compact language representation model specialized in the Named Entity Recognition (NER) task. NuNER can be fine-tuned to solve downstream NER problems in a data-efficient way, outperforming similar-sized foundation models in the few-shot regime and competing with much larger LLMs. We find that the size and entity-type diversity of the pre-training dataset are key to achieving good performance. We view NuNER as a member of the broader family of task-specific foundation models, recently unlocked by LLMs.
翻訳日:2024-02-26 14:21:13 公開日:2024-02-23
# LLMを用いた概念空間次元のランク付け:微調整戦略の解析

Ranking Entities along Conceptual Space Dimensions with LLMs: An Analysis of Fine-Tuning Strategies ( http://arxiv.org/abs/2402.15337v1 )

ライセンス: Link先を確認
Nitesh Kumar, Usashi Chatterjee, and Steven Schockaert(参考訳) 概念空間は、その原始的な意味的特徴の観点から実体を表す。 このような表現は非常に価値が高いが、特に知覚的特徴と主観的特徴のモデリングに関して学ぶのが難しいことで悪名高い。 概念空間をLLM(Large Language Models)から拡張することは、最近、有望な戦略として浮上した。 しかし、既存の作業は、比較的単純なゼロショット戦略を用いて事前訓練されたllmの探索に限定されている。 特に、与えられた概念空間次元に従ってエンティティをランク付けするタスクに注目します。 残念なことに、概念空間次元の基底真理ランキングは稀であるため、このタスクでは直接微調整はできない。 したがって、より容易に利用できる機能をトレーニングデータとして使用し、結果のモデルのランキング能力が知覚的および主観的特徴に移行するかどうかを分析する。 しかし、トレーニングデータに知覚的、主観的な特徴を持つことは、最高の結果を得るためには不可欠であると思います。 さらに, ポイントワイズランキング戦略は, 共通知識に反し, ペアワイズアプローチと競合していることがわかった。

Conceptual spaces represent entities in terms of their primitive semantic features. Such representations are highly valuable but they are notoriously difficult to learn, especially when it comes to modelling perceptual and subjective features. Distilling conceptual spaces from Large Language Models (LLMs) has recently emerged as a promising strategy. However, existing work has been limited to probing pre-trained LLMs using relatively simple zero-shot strategies. We focus in particular on the task of ranking entities according to a given conceptual space dimension. Unfortunately, we cannot directly fine-tune LLMs on this task, because ground truth rankings for conceptual space dimensions are rare. We therefore use more readily available features as training data and analyse whether the ranking capabilities of the resulting models transfer to perceptual and subjective features. We find that this is indeed the case, to some extent, but having perceptual and subjective features in the training data seems essential for achieving the best results. We furthermore find that pointwise ranking strategies are competitive against pairwise approaches, in defiance of common wisdom.
翻訳日:2024-02-26 14:21:00 公開日:2024-02-23
# 低ランク表現と深部展開:ハイパースペクトル異常検出のための一般化・解釈可能なネットワーク

Low-Rank Representations Meets Deep Unfolding: A Generalized and Interpretable Network for Hyperspectral Anomaly Detection ( http://arxiv.org/abs/2402.15335v1 )

ライセンス: Link先を確認
Chenyu Li and Bing Zhang and Danfeng Hong and Jing Yao and Jocelyn Chanussot(参考訳) 現在のハイパースペクトル異常検出(had)ベンチマークデータセットは、解像度が低く、背景が単純で、検出データのサイズが小さい。 これらの要因はまた、背景特徴と対象特徴の分離と手動パラメータ選択に依存した堅牢性の観点から、よく知られた低ランク表現(LRR)モデルの性能を制限する。 そこで我々は,複雑なシナリオにおけるhadアルゴリズムのロバスト性を改善するために,hadベンチマークデータセットを新たに構築した。 そこで本研究では,LRR-Net$+$という辞書学習可能なLLRモデルを,より一般化された方法で背景構造とオブジェクト特性をスペクトル的に分離し,同時に重要な干渉対象から生じるバイアスを除去し,汎用的で解釈可能なHADネットワークを提案する。 さらに、LRR-Net$^+$は、alternating Direction Method of Multipliers(ADMM)オプティマイザの解法をディープネットワークに統合し、その探索プロセスを導出し、パラメータ最適化に解釈可能性のレベルを与える。 さらに、物理モデルとDL技術の統合により、手動パラメータチューニングが不要になる。 手動で調整したパラメータは、ディープニューラルネットワークのトレーニング可能なパラメータにシームレスに変換され、より効率的で自動化された最適化プロセスが容易になる。 AIR-HADデータセットで行った大規模な実験は、LRR-Net$+$が上位のライバルに比べて検出性能と一般化能力に優れていることを示している。 さらに、この論文のコンパイル可能なコードとair-hadベンチマークデータセットは、 \url{https://sites.google.com/view/danfeng-hong} で自由に公開されます。

Current hyperspectral anomaly detection (HAD) benchmark datasets suffer from low resolution, simple background, and small size of the detection data. These factors also limit the performance of the well-known low-rank representation (LRR) models in terms of robustness on the separation of background and target features and the reliance on manual parameter selection. To this end, we build a new set of HAD benchmark datasets for improving the robustness of the HAD algorithm in complex scenarios, AIR-HAD for short. Accordingly, we propose a generalized and interpretable HAD network by deeply unfolding a dictionary-learnable LLR model, named LRR-Net$^+$, which is capable of spectrally decoupling the background structure and object properties in a more generalized fashion and eliminating the bias introduced by vital interference targets concurrently. In addition, LRR-Net$^+$ integrates the solution process of the Alternating Direction Method of Multipliers (ADMM) optimizer with the deep network, guiding its search process and imparting a level of interpretability to parameter optimization. Additionally, the integration of physical models with DL techniques eliminates the need for manual parameter tuning. The manually tuned parameters are seamlessly transformed into trainable parameters for deep neural networks, facilitating a more efficient and automated optimization process. Extensive experiments conducted on the AIR-HAD dataset show the superiority of our LRR-Net$^+$ in terms of detection performance and generalization ability, compared to top-performing rivals. Furthermore, the compilable codes and our AIR-HAD benchmark datasets in this paper will be made available freely and openly at \url{https://sites.google.com/view/danfeng-hong}.
翻訳日:2024-02-26 14:20:39 公開日:2024-02-23
# 量子状態忠実性に基づく量子古典的協調学習アーキテクチャ

A Quantum-Classical Collaborative Training Architecture Based on Quantum State Fidelity ( http://arxiv.org/abs/2402.15333v1 )

ライセンス: Link先を確認
Ryan L'Abbate, Anthony D'Onofrio Jr., Samuel Stein, Samuel Yen-Chi Chen, Ang Li, Pin-Yu Chen, Juntao Chen, Ying Mao(参考訳) 最近の進歩は、現在の量子システムの限界、特に短期量子デバイスで利用可能な量子ビット数の制限を強調している。 この制約は量子コンピュータを利用するアプリケーションの範囲を大幅に制限する。 さらに、利用可能な量子ビットが増加するにつれて、計算複雑性は指数関数的に増加し、さらなる課題が生じる。 そのため、qubitsを効率的に使用し、現在の制限と将来の複雑さを緩和する必要がある。 これを解決するために、既存の量子アプリケーションは古典的および量子的システムをハイブリッドフレームワークに統合しようとする。 本研究では,量子深層学習に集中し,コ・テンクと呼ばれる協調古典量子アーキテクチャを導入する。 古典的なコンポーネントは圧縮と特徴抽出のためにテンソルネットワークを使用し、高次元データを限定量子ビットを持つ論理量子回路に符号化することができる。 量子側では,両面間のフィードバックループを通じてネットワークを反復的に訓練する量子状態忠実度に基づく評価関数を提案する。 co-TenQuはシミュレータとIBM-Qプラットフォームの両方で実装および評価されている。 最先端のアプローチと比較して、Co-TenQuは古典的なディープニューラルネットワークを41.72%向上させる。 さらに、他の量子ベースの手法を最大1.9倍に上回り、70.59%少ない量子ビットを使用しながら同様の精度を達成する。

Recent advancements have highlighted the limitations of current quantum systems, particularly the restricted number of qubits available on near-term quantum devices. This constraint greatly inhibits the range of applications that can leverage quantum computers. Moreover, as the available qubits increase, the computational complexity grows exponentially, posing additional challenges. Consequently, there is an urgent need to use qubits efficiently and mitigate both present limitations and future complexities. To address this, existing quantum applications attempt to integrate classical and quantum systems in a hybrid framework. In this study, we concentrate on quantum deep learning and introduce a collaborative classical-quantum architecture called co-TenQu. The classical component employs a tensor network for compression and feature extraction, enabling higher-dimensional data to be encoded onto logical quantum circuits with limited qubits. On the quantum side, we propose a quantum-state-fidelity-based evaluation function to iteratively train the network through a feedback loop between the two sides. co-TenQu has been implemented and evaluated with both simulators and the IBM-Q platform. Compared to state-of-the-art approaches, co-TenQu enhances a classical deep neural network by up to 41.72% in a fair setting. Additionally, it outperforms other quantum-based methods by up to 1.9 times and achieves similar accuracy while utilizing 70.59% fewer qubits.
翻訳日:2024-02-26 14:20:06 公開日:2024-02-23
# カテゴリ的ディープラーニング: アーキテクチャの代数的理論

Categorical Deep Learning: An Algebraic Theory of Architectures ( http://arxiv.org/abs/2402.15332v1 )

ライセンス: Link先を確認
Bruno Gavranovi\'c, Paul Lessard, Andrew Dudzik, Tamara von Glehn, Jo\~ao G. M. Ara\'ujo, Petar Veli\v{c}kovi\'c(参考訳) 本稿では,ディープラーニングアーキテクチャの特定と研究のための汎用フレームワークの探索について述べる。 我々の意見では、これまでになされた重要な試みは、モデルが満たさなければならない制約と実装を規定することの間の一貫性のある橋渡しを欠いている。 このような橋を構築することに焦点を当て,パラメトリック写像の2-カテゴリで評価されるモナドの普遍代数学を,ニューラルネットワーク設計のこれら両方のフレーバーをエレガントに合成する単一理論として適用することを提案する。 我々の立場を守るために、この理論は幾何学的深層学習によって引き起こされる制約を回復し、RNNのような多様なニューラルネットワークの風景から引き出された多くのアーキテクチャの実装を示す。 また、この理論はコンピュータ科学やオートマトン理論における多くの標準構造を自然にエンコードしている。

We present our position on the elusive quest for a general-purpose framework for specifying and studying deep learning architectures. Our opinion is that the key attempts made so far lack a coherent bridge between specifying constraints which models must satisfy and specifying their implementations. Focusing on building a such a bridge, we propose to apply category theory -- precisely, the universal algebra of monads valued in a 2-category of parametric maps -- as a single theory elegantly subsuming both of these flavours of neural network design. To defend our position, we show how this theory recovers constraints induced by geometric deep learning, as well as implementations of many architectures drawn from the diverse landscape of neural networks, such as RNNs. We also illustrate how the theory naturally encodes many standard constructs in computer science and automata theory.
翻訳日:2024-02-26 14:19:47 公開日:2024-02-23
# NeuralThink: 一般的なタスクで外挿するアルゴリズム合成

NeuralThink: Algorithm Synthesis that Extrapolates in General Tasks ( http://arxiv.org/abs/2402.15393v1 )

ライセンス: Link先を確認
Bernardo Esteves, Miguel Vasco, Francisco S. Melo(参考訳) 機械学習手法はパターン認識に優れているが、スケーラブルでアルゴリズム的な方法で複雑な推論タスクに苦労する。 最近の深層思考の手法は、より小さな環境での学習と、より大きな環境での学習アルゴリズムの実行を推定する学習アルゴリズムにおいて、有望であることを示している。 しかしこれらの研究は、入力次元と出力次元が同じ対称的なタスクに限定されている。 このギャップに対処するために、我々は、入力と出力の次元が異なる対称タスクと非対称タスクの両方に一貫して外挿することができる新しいリカレントアーキテクチャであるneuralthinkを提案する。 我々は外挿のための非対称タスクの新しいベンチマークで貢献する。 我々は,neuralthinkが,より小さなトレーニングサイズからの大きな観察まで,安定した外挿に関して,最先端の深層思考アーキテクチャを一貫して上回っていることを示す。

While machine learning methods excel at pattern recognition, they struggle with complex reasoning tasks in a scalable, algorithmic manner. Recent Deep Thinking methods show promise in learning algorithms that extrapolate: learning in smaller environments and executing the learned algorithm in larger environments. However, these works are limited to symmetrical tasks, where the input and output dimensionalities are the same. To address this gap, we propose NeuralThink, a new recurrent architecture that can consistently extrapolate to both symmetrical and asymmetrical tasks, where the dimensionality of the input and output are different. We contribute with a novel benchmark of asymmetrical tasks for extrapolation. We show that NeuralThink consistently outperforms the prior state-of-the-art Deep Thinking architectures, in regards to stable extrapolation to large observations from smaller training sizes.
翻訳日:2024-02-26 14:13:57 公開日:2024-02-23
# オフライン逆rl:新しいソリューション概念と有効なアルゴリズム

Offline Inverse RL: New Solution Concepts and Provably Efficient Algorithms ( http://arxiv.org/abs/2402.15392v1 )

ライセンス: Link先を確認
Filippo Lazzati, Mirco Mutti, Alberto Maria Metelli(参考訳) 逆強化学習(IRL)は、行動の実証から専門家の報酬機能を回復することを目的としている。 IRL問題は基本的に不備であり、多くの報酬関数が実演を説明することができることが知られている。 このため、IRLは最近、実現可能な報酬セットを見積もることによって再編成され、単一の報酬の選択を延期した。 しかし,これまでに利用可能な定式化やアルゴリズムによる解法は,学習者が環境と対話し,専門家に自由に問い合わせることのできるオンライン設定を中心に提案され,分析されている。 これは、オフラインデータセットの可用性がより一般的なシナリオである、ほとんどの実用的なアプリケーションでは明らかに非現実的です。 本稿では,オフライン設定の機会と限界を捉えた,実現可能な報酬セットの新たな概念を提案し,その複雑さを分析する。 これは、データカバレッジが制御されていない設定の本質的な困難に対処する独自の学習フレームワークを導入する必要がある。 そこで我々は,その問題に対処する2つの計算的,統計的に効率的なアルゴリズムIRLOとPIRLOを提案する。 特に、後者は特定の形態の悲観主義を採用し、納品可能な集合の包含単調性という新しい望ましい性質を強制する。 この作業では,オフラインirlの課題とその対処方法に関するパノラマを提供することを目的としています。

Inverse reinforcement learning (IRL) aims to recover the reward function of an expert agent from demonstrations of behavior. It is well known that the IRL problem is fundamentally ill-posed, i.e., many reward functions can explain the demonstrations. For this reason, IRL has been recently reframed in terms of estimating the feasible reward set, thus, postponing the selection of a single reward. However, so far, the available formulations and algorithmic solutions have been proposed and analyzed mainly for the online setting, where the learner can interact with the environment and query the expert at will. This is clearly unrealistic in most practical applications, where the availability of an offline dataset is a much more common scenario. In this paper, we introduce a novel notion of feasible reward set capturing the opportunities and limitations of the offline setting and we analyze the complexity of its estimation. This requires the introduction an original learning framework that copes with the intrinsic difficulty of the setting, for which the data coverage is not under control. Then, we propose two computationally and statistically efficient algorithms, IRLO and PIRLO, for addressing the problem. In particular, the latter adopts a specific form of pessimism to enforce the novel desirable property of inclusion monotonicity of the delivered feasible set. With this work, we aim to provide a panorama of the challenges of the offline IRL problem and how they can be fruitfully addressed.
翻訳日:2024-02-26 14:13:42 公開日:2024-02-23
# Genie: インタラクティブな生成環境

Genie: Generative Interactive Environments ( http://arxiv.org/abs/2402.15391v1 )

ライセンス: Link先を確認
Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Steigerwald, Chris Apps, Yusuf Aytar, Sarah Bechtle, Feryal Behbahani, Stephanie Chan, Nicolas Heess, Lucy Gonzalez, Simon Osindero, Sherjil Ozair, Scott Reed, Jingwei Zhang, Konrad Zolna, Jeff Clune, Nando de Freitas, Satinder Singh, Tim Rockt\"aschel(参考訳) 我々は、未学習のインターネットビデオから教師なしで訓練された最初の生成インタラクティブ環境Genieを紹介する。 このモデルは、テキスト、合成画像、写真、スケッチを通して記述された、無限に多様なアクション制御可能な仮想世界を生成するよう促すことができる。 11Bパラメータでは、Genieは基礎世界モデルと見なすことができる。 時空間ビデオトークン化器、自己回帰ダイナミクスモデル、単純でスケーラブルな潜在アクションモデルで構成されている。 Genieは、ワールドモデル文献で典型的に見られる基本的なアクションラベルやその他のドメイン固有の要件を使わずに、生成された環境をフレーム単位で動作させることができる。 さらに、学習された潜在活動空間は、未発見の動画からの行動を模倣する訓練エージェントを容易にし、未来のジェネラリストエージェントを訓練するための道を開く。

We introduce Genie, the first generative interactive environment trained in an unsupervised manner from unlabelled Internet videos. The model can be prompted to generate an endless variety of action-controllable virtual worlds described through text, synthetic images, photographs, and even sketches. At 11B parameters, Genie can be considered a foundation world model. It is comprised of a spatiotemporal video tokenizer, an autoregressive dynamics model, and a simple and scalable latent action model. Genie enables users to act in the generated environments on a frame-by-frame basis despite training without any ground-truth action labels or other domain-specific requirements typically found in the world model literature. Further the resulting learned latent action space facilitates training agents to imitate behaviors from unseen videos, opening the path for training generalist agents of the future.
翻訳日:2024-02-26 14:13:19 公開日:2024-02-23
# 言語モデルにおける自己修復の探求

Explorations of Self-Repair in Language Models ( http://arxiv.org/abs/2402.15390v1 )

ライセンス: Link先を確認
Cody Rushing, Neel Nanda(参考訳) 狭い分布を研究する以前の解釈可能性の研究は、大規模な言語モデルにおけるコンポーネントが廃止されると、後のコンポーネントがその振る舞いを変えて補う現象である自己修復を予め特定している。 私たちの研究は、過去の文献から成り立っており、個々の注意をトレーニングの完全な分布に向けると、さまざまなモデルの家族やサイズに自己修復が存在することを実証しています。 また、頭部の本来の直接効果が完全には回復せず、また、自己修復の程度が異なるプロンプト(時には元の効果を超えて過大に補正される)によって大きく異なるため、完全なトレーニング分布において自己修復は不完全であることを示す。 本稿では, 自己修復に寄与する2つのメカニズムを強調し, 最終因子であるLayerNormのスケーリング因子の変化(直接効果の最大30%を修復できる)と, アンチ・エラジャーを実装した神経細胞のスパースセットについて述べる。 さらに、これらの結果が解釈可能性実践者に与える影響についても論じ、また、これらのモデルになぜ自己修復が起こるのかというミステリーに関するより投機的な議論に近づき、自己修復を予測するフレームワークである言語モデルにおける反復推論仮説の証拠を強調した。

Prior interpretability research studying narrow distributions has preliminarily identified self-repair, a phenomena where if components in large language models are ablated, later components will change their behavior to compensate. Our work builds off this past literature, demonstrating that self-repair exists on a variety of models families and sizes when ablating individual attention heads on the full training distribution. We further show that on the full training distribution self-repair is imperfect, as the original direct effect of the head is not fully restored, and noisy, since the degree of self-repair varies significantly across different prompts (sometimes overcorrecting beyond the original effect). We highlight two different mechanisms that contribute to self-repair, including changes in the final LayerNorm scaling factor (which can repair up to 30% of the direct effect) and sparse sets of neurons implementing Anti-Erasure. We additionally discuss the implications of these results for interpretability practitioners and close with a more speculative discussion on the mystery of why self-repair occurs in these models at all, highlighting evidence for the Iterative Inference hypothesis in language models, a framework that predicts self-repair.
翻訳日:2024-02-26 14:13:07 公開日:2024-02-23
# ハニカム格子と三角形格子上の平行場におけるトーリック符号の量子ロバスト性

Quantum robustness of the toric code in a parallel field on the honeycomb and triangular lattice ( http://arxiv.org/abs/2402.15389v1 )

ライセンス: Link先を確認
V. Kott, M. M\"uhlhauser, J.A. Koziol, K.P. Schmidt(参考訳) 本研究では,一様平行場の存在下でのハニカム格子上のトーリック符号における位相秩序の量子ロバスト性について検討する。 z$-direction の体に対して、低エネルギー物理学はフラックスフリーセクターにあり、ハニカム格子上の横フィールドイジングモデルに写像することができる。 場の両方の符号に対する3D Ising$^\star$普遍性クラスにおいて、2階量子相転移が見つかる。 電荷のないセクターにおけるアナログ写像が三角格子上の強磁性横場イジングモデルを生み出し、相転移がまだ 3D Ising$^\star$ であるような$x$-direction の体に対しても同様である。 対照的に、負のx$-フィールドに対しては、電荷フリーセクタは3d xy$^\star$ 普遍性クラスで量子相転移を持つことが知られている三角格子上の非常にフラストレーションの反強磁性横磁場イジングモデルにマッピングされる。 さらに、電荷フリーセクターは負の$x$-フィールドに対する低エネルギー物理学を常に含んでおらず、電荷フルセクターにおける偏極相への1次位相遷移はより大きな負のフィールド値で起こる。 量子モンテカルロシミュレーションと高磁場級数展開を比較することにより, この遷移の位置を定量化する。 x$- および $z$-フィールドの存在下で位相相の完全な拡張は、全グラフ分解を用いた摂動連結クラスター展開によって決定される。 電荷の高次級数とフラックスギャップを外挿することで、ギャップ閉じの臨界指数を推定することができる。 この分析は、3D Ising$^\star$ と 3D XY$^\star$ の臨界線によって位相的順序が破られることを示している。 さらに, ハニカム格子上のトーリック符号のすべての発見が, 三角形格子上のトーリック符号に正確に転送可能であることを示す。

We investigate the quantum robustness of the topological order in the toric code on the honeycomb lattice in the presence of a uniform parallel field. For a field in $z$-direction, the low-energy physics is in the flux-free sector and can be mapped to the transverse-field Ising model on the honeycomb lattice. One finds a second-order quantum phase transition in the 3D Ising$^\star$ universality class for both signs of the field. The same is true for a postive field in $x$-direction where an analogue mapping in the charge-free sector yields a ferromagnetic transverse-field Ising model on the triangular lattice and the phase transition is still 3D Ising$^\star$. In contrast, for negative $x$-field, the charge-free sector is mapped to the highly frustrated antiferromagnetic transverse-field Ising model on the triangular lattice which is known to host a quantum phase transition in the 3D XY$^\star$ universality class. Further, the charge-free sector does not always contain the low-energy physics for negative $x$-fields and a first-order phase transition to the polarized phase in the charge-full sector takes place at larger negative field values. We quantify the location of this transition by comparing quantum Monte Carlo simulations and high-field series expansions. The full extension of the topological phase in the presence of $x$- and $z$-fields is determined by perturbative linked-cluster expansions using a full graph decomposition. Extrapolating the high-order series of the charge and the flux gap allows to estimate critical exponents of the gap closing. This analysis indicates that the topological order breaks down by critical lines of 3D Ising$^\star$ and 3D XY$^\star$ type with interesting potential multi-critical crossing points. We further demonstrate that all findings for the toric code on the honeycomb lattice can be transferred exactly to the toric code on a triangular lattice.
翻訳日:2024-02-26 14:12:43 公開日:2024-02-23
# 低ウェイト高距離誤り訂正フェルミオン符号化

Low-Weight High-Distance Error Correcting Fermionic Encodings ( http://arxiv.org/abs/2402.15386v1 )

ライセンス: Link先を確認
Fedor Simkovic IV, Martin Leib, Francisco Revson F. Pereira(参考訳) 誤り訂正特性を持つ実効的なフェルミオン・ツー・キュービット符号化のための拡張数値探索を行う。 理想的には、エンコーディングは、高最小距離、低重フェルミオン論理演算子、小さなクォービットからフェルミオンモード比、安定化器の測定のためのアンシラキュービットを含む単純なクォービット接続グラフなど、相容れないいくつかの属性のバランスをとるべきである。 まず、ブルートフォース列挙法によって最大$d\leq4$のエンコーディングを生成し、その後、これらのエンコーディングを出発点としてクリフォード変形を適用し、$d\leq7$で高距離符号を識別できるようにし、最後に、グラフの厚さとキュービット当たりの接続数で、結果のエンコーディングのハードウェア接続グラフを最適化する。 従来報告した代替案と比較して,安定器や論理演算子の重みが大幅に向上する,複数の有望な高距離符号化について報告する。

We perform an extended numerical search for practical fermion-to-qubit encodings with error correcting properties. Ideally, encodings should strike a balance between a number of the seemingly incompatible attributes, such as having a high minimum distance, low-weight fermionic logical operators, a small qubit to fermionic mode ratio and a simple qubit connectivity graph including ancilla qubits for the measurement of stabilizers. Our strategy consists of a three-step procedure in which we: first generate encodings with code distances up to $d\leq4$ by a brute-force enumeration technique; subsequently, we use these encodings as starting points and apply Clifford deformations to them which allows us to identify higher-distance codes with $d\leq7$; finally, we optimize the hardware connectivity graphs of resulting encodings in terms of the graph thickness and the number of connections per qubit. We report multiple promising high-distance encodings which significantly improve the weights of stabilizers and logical operators compared to previously reported alternatives.
翻訳日:2024-02-26 14:12:07 公開日:2024-02-23
# ゼプト秒スケール単光ジャイロスコープ

Zeptosecond-scale single-photon gyroscope ( http://arxiv.org/abs/2402.15385v1 )

ライセンス: Link先を確認
Fabrizio Sgobba, Danilo Triggiani, Vincenzo Tamma, Paolo De Natale, Gianluca Gagliardi, Saverio Avino, Luigi Santamaria Amato(参考訳) 本稿では, 自発パラメトリックダウン変換結晶を用いた全ファイバーテレコムレンジ光ジャイロスコープを用いて, 超低強度熱光を発生させる。 試作機は、平均時間72$ sで光子遅延測定の249$ zs、平均時間26$ zsで差分遅延測定の$t=10^4$ sで検出限界を示す。 検出方法は最も資源効率が良いことを示し、Cram\'er-Rao 境界の$>99.5\%を飽和させる。 これらの結果は、低光子レジーム量子メトロロジーの文脈において画期的であり、アストロメトリや、量子光学と特殊あるいは一般相対性理論を橋渡しするための新しい実験的な構成への道を開くことを大きな約束している。

This paper presents an all-fiber telecom-range optical gyroscope employing a spontaneous parametric down conversion crystal to produce ultra-low intensity thermal light by tracing-out one of the heralded photons. The prototype exhibits a detection limit on photon delay measurements of $249$ zs over a $72$ s averaging time and $26$ zs in differential delay measurements at $t=10^4$ s averaging. The detection scheme proves to be the most resource-efficient possible, saturating $>99.5\%$ of the Cram\'er-Rao bound. These results are groundbreaking in the context of low-photon regime quantum metrology, holding great promise for astrometry and paving the way to novel experimental configurations to bridge quantum optics with special or general relativity.
翻訳日:2024-02-26 14:11:47 公開日:2024-02-23
# 自然界の物理知識を取り入れたホメオスタティック・モーションプランニング

Homeostatic motion planning with innate physics knowledge ( http://arxiv.org/abs/2402.15384v1 )

ライセンス: Link先を確認
Giulia Lafratta, Bernd Porr, Christopher Chandler, Alice Miller(参考訳) 生物は閉じたループで周囲の環境と相互作用し、感覚入力が行動の開始と終了を決定づける。 単純な動物でさえ、純粋なクローズドループ入力制御を使用してロボット工学ではまだ複製されていない複雑な計画を開発し実行することができる。 そこで我々は,各閉ループ動作を表す個別かつ一時的な閉ループ制御器"tasks"を定義し,この問題に対する解決策を提案する。 さらに,物理と因果関係を内在的に理解するスーパーバイザリーモジュールを導入し,タスクシーケンスの実行を時間とともにシミュレートし,その結果を環境のモデルに格納する。 このモデルに基づいて、仮閉ループコントローラをチェーンすることで計画を立てることができる。 提案するフレームワークは実際のロボット向けに実装され、概念実証として2つのシナリオでテストされた。

Living organisms interact with their surroundings in a closed-loop fashion, where sensory inputs dictate the initiation and termination of behaviours. Even simple animals are able to develop and execute complex plans, which has not yet been replicated in robotics using pure closed-loop input control. We propose a solution to this problem by defining a set of discrete and temporary closed-loop controllers, called "tasks", each representing a closed-loop behaviour. We further introduce a supervisory module which has an innate understanding of physics and causality, through which it can simulate the execution of task sequences over time and store the results in a model of the environment. On the basis of this model, plans can be made by chaining temporary closed-loop controllers. The proposed framework was implemented for a real robot and tested in two scenarios as proof of concept.
翻訳日:2024-02-26 14:11:28 公開日:2024-02-23
# 一般化カダノフ・バイム・アンザッツの平面バンド系における相互作用電子

Interacting electrons in a flat-band system within the Generalized Kadanoff-Baym Ansatz ( http://arxiv.org/abs/2402.15378v1 )

ライセンス: Link先を確認
F. Cosco, R. Tuovinen, N. Lo Gullo(参考訳) 本研究は, 単一粒子密度行列に対する一般化カダノフ・バイム・アンサッツ(GKBA)マスター方程式を解くことにより, 開相互作用系のスペクトル特性の研究を報告する。 有効性を評価するため、GKBAで得られた解は定常におけるダイソン方程式の解と比較される。 どちらの手法においても、相互作用は自己整合2階ボルン近似内で扱われるが、GKBAはハーツリー・フォックと広帯域極限近似レベルで計算された遅延プロパゲータを保っている。 選択された2つの鉛は、粒子が相互作用し、接合境界における定常粒子電流を系のスペクトル特性のプローブとして利用できる中央相関領域を介して接続される。 中央領域は、平坦なバンドを持つ縮退した基底状態を含む最も単純なモデルとして選択される。 主な結果は、gkbaマスター方程式の解は、そのような系のスペクトル特徴をよく捉え、特に相互作用が増大するにつれて、フラットバンドの分散性から分散性へ遷移する。 したがって, GBKA溶液は, プロパゲータがハーツリー・フォックレベルであっても, 自己エネルギーの主なスペクトル特性を保持する。

This work reports the study of the spectral properties of an open interacting system by solving the Generalized Kadanoff-Baym Ansatz (GKBA) master equation for the single-particle density matrix, namely the time-diagonal lesser Green function. To benchmark its validity, the solution obtained within the GKBA is compared with the solution of the Dyson equation at stationarity. In both approaches, the interaction is treated within the self-consistent second-order Born approximation, whereas the GKBA still retains the retarded propagator calculated at the Hartree-Fock and wide-band limit approximation level. The model chosen is that of two leads connected through a central correlated region where particles can interact and utilize the stationary particle current at the boundary of the junction as a probe of the spectral features of the system. The central region is chosen as the simplest model featuring a degenerate ground state with a flat band. The main result is that the solution of the GKBA master equation captures well the spectral feature of such system and specifically the transition from dispersionless to dispersive behavior of the flat-band as the interaction is increased. Therefore the GBKA solution retains the main spectral features of the self-energy used even when the propagator is at the Hartree-Fock level.
翻訳日:2024-02-26 14:11:14 公開日:2024-02-23
# 原子アレイを用いたオープン量子システムにおける臨界現象の探索

Probing critical phenomena in open quantum systems using atom arrays ( http://arxiv.org/abs/2402.15376v1 )

ライセンス: Link先を確認
Fang Fang, Kenneth Wang, Vincent S. Liu, Yu Wang, Ryan Cimmino, Julia Wei, Marcus Bintz, Avery Parr, Jack Kemp, Kang-Kuen Ni and Norman Y. Yao(参考訳) 連続相転移では、量子多体系はスケール不変性と複雑で創発的な普遍的な振る舞いを示す。 最も驚くべきことに、量子臨界点において、相関は力の法則として崩壊し、指数は普遍的なスケーリング次元の集合によって決定される。 このようなパワーロー相関を実験的に探究することは、デコヒーレンス、消滅するエネルギーギャップ、境界効果の間の複雑な相互作用のために非常に困難である。 ここでは、rydberg量子シミュレータを用いて、1次元環と2次元正方格子の両方の臨界基底状態を生成する。 単一の現象学的長さスケールの導入により, 量子システムの開度を計算・調整することにより, パワーロー相関を直接観測し, 対応するスケーリング次元を抽出することができる。 さらに, 2次元においてバルク相転移と境界相転移の分離を観測し, 2つの異なる境界普遍性クラスを識別できることを示した。 本研究では,量子シミュレータにおける臨界状態の直接断熱合成が,kibble-zurek機構やディジタル量子回路を用いた最近の量子臨界性研究手法を補完できることを実証する。

At continuous phase transitions, quantum many-body systems exhibit scale-invariance and complex, emergent universal behavior. Most strikingly, at a quantum critical point, correlations decay as a power law, with exponents determined by a set of universal scaling dimensions. Experimentally probing such power-law correlations is extremely challenging, owing to the complex interplay between decoherence, the vanishing energy gap, and boundary effects. Here, we employ a Rydberg quantum simulator to adiabatically prepare critical ground states of both a one-dimensional ring and a two-dimensional square lattice. By accounting for and tuning the openness of our quantum system, which is well-captured by the introduction of a single phenomenological length scale, we are able to directly observe power-law correlations and extract the corresponding scaling dimensions. Moreover, in two dimensions, we observe a decoupling between phase transitions in the bulk and on the boundary, allowing us to identify two distinct boundary universality classes. Our work demonstrates that direct adiabatic preparation of critical states in quantum simulators can complement recent approaches to studying quantum criticality using the Kibble-Zurek mechanism or digital quantum circuits.
翻訳日:2024-02-26 14:10:50 公開日:2024-02-23
# 負の客観性を持つ不確かさをアンサンブルする外乱検出

Outlier detection by ensembling uncertainty with negative objectness ( http://arxiv.org/abs/2402.15374v1 )

ライセンス: Link先を確認
Anja Deli\'c, Matej Grci\'c and Sini\v{s}a \v{S}egvi\'c(参考訳) 外乱検出は、教師付き視覚認識の安全クリティカルな応用に欠かせない能力である。 既存の手法のほとんどは、標準のクローズドセットモデルに負のトレーニングデータで低信頼の予測を奨励することで、最高の結果を提供する。 しかし、このアプローチは負のクラスを認識することで予測の不確かさを和らげる。 したがって、K の基底クラスと 1 の外れ値クラスに対応する K+1 の対数を直接予測する。 この設定により、非分布不確実性のアンサンブルとして新しい異常スコアを定式化し、負の客観性(英語版)と称する外れ値クラスの後部を定式化することができる。 現在、アウトリーチは独立して検出できる 一 高い予測の不確実性又は 二 負のデータとの類似性 K+2クラスにマスクレベルの認識を組み込んだ高密度予測アーキテクチャに本手法を組み込む。 トレーニング手順は、新しいK+2クラスがペーストされた負のインスタンスで負のオブジェクト性を学ぶことを奨励する。 我々のモデルは、実際の負のデータをトレーニングすることなく、画像全体および画素レベルの異常検出のための標準ベンチマークの最先端技術より優れている。

Outlier detection is an essential capability in safety-critical applications of supervised visual recognition. Most of the existing methods deliver best results by encouraging standard closed-set models to produce low-confidence predictions in negative training data. However, that approach conflates prediction uncertainty with recognition of the negative class. We therefore reconsider direct prediction of K+1 logits that correspond to K groundtruth classes and one outlier class. This setup allows us to formulate a novel anomaly score as an ensemble of in-distribution uncertainty and the posterior of the outlier class which we term negative objectness. Now outliers can be independently detected due to i) high prediction uncertainty or ii) similarity with negative data. We embed our method into a dense prediction architecture with mask-level recognition over K+2 classes. The training procedure encourages the novel K+2-th class to learn negative objectness at pasted negative instances. Our models outperform the current state-of-the art on standard benchmarks for image-wide and pixel-level outlier detection with and without training on real negative data.
翻訳日:2024-02-26 14:10:29 公開日:2024-02-23
# 量子コンピュータ上のフェルミオン部分空間展開アルゴリズムを用いた非断熱量子力学

Non-adiabatic quantum dynamics with fermionic subspace-expansion algorithms on quantum computers ( http://arxiv.org/abs/2402.15371v1 )

ライセンス: Link先を確認
Anthony Gandon, Alberto Baiardi, Pauline Ollitrault, Ivano Tavernelli(参考訳) 量子計算に基づく電子構造計算により駆動される励起状態分子量子動力学シミュレーションのための新しい計算フレームワークを提案する。 このフレームワークは、原子核力学をシミュレートする最も少ない表面ホッピング法を利用し、量子部分空間展開と量子方程式の異なるフレーバーで必要な励起状態遷移特性を計算する。 我々は水素原子と水素分子との衝突反応をシミュレートするために本手法を適用した。 本システムでは,異なる量子部分空間展開と運動方程式アルゴリズムの精度と効率を批判的に比較し,弱い電子相関効果と強い電子相関効果の両方を捉える方法だけが反応事象を調節する非断熱効果を適切に記述できることを示す。

We introduce a novel computational framework for excited-states molecular quantum dynamics simulations driven by quantum computing-based electronic-structure calculations. This framework leverages the fewest-switches surface-hopping method for simulating the nuclear dynamics, and calculates the required excited-state transition properties with different flavors of the quantum subspace expansion and quantum equation-of-motion algorithms. We apply our method to simulate the collision reaction between a hydrogen atom and a hydrogen molecule. For this system, we critically compare the accuracy and efficiency of different quantum subspace expansion and equation-of-motion algorithms and show that only methods that can capture both weak and strong electron correlation effects can properly describe the non-adiabatic effects that tune the reactive event.
翻訳日:2024-02-26 14:10:12 公開日:2024-02-23
# dual encoder: アスペクト感情三重項抽出のための構文と意味の可能性を活用

Dual Encoder: Exploiting the Potential of Syntactic and Semantic for Aspect Sentiment Triplet Extraction ( http://arxiv.org/abs/2402.15370v1 )

ライセンス: Link先を確認
Xiaowei Zhao, Yong Zhou, Xiujuan Xu(参考訳) Aspect Sentiment Triple extract (ASTE)は、微粒な感情分析における新たな課題である。 近年、グラフニューラルネットワーク(GNN)を用いて、三重項要素に固有の構文-意味関係をモデル化している。 しかし、ASTEタスク内の構文情報や意味情報の膨大な可能性を十分に把握できていない。 本研究では,単語間の統語的・意味的関係を最大化する「emph{Dual Encoder: Exploiting the potential of Syntactic and Semantic} model」(D2E2S)を提案する。 具体的には、BERTチャネルを持つデュアルチャネルエンコーダを用いて意味情報をキャプチャし、LSTMチャネルを拡張して総合構文情報キャプチャを行う。 次に,係り受け構文とアテンションセマンティクスの複雑な相互作用を捉え,重要なノードを動的に選択する異種機能相互作用モジュールを提案する。 我々はこれらのモジュールのシナジーを活用して、ASTEタスクにおける構文情報と意味情報の重要な可能性を活用する。 公開ベンチマークを用いて、我々のD2E2Sモデルは現在の最先端技術(SOTA)を超え、その有効性を示す。

Aspect Sentiment Triple Extraction (ASTE) is an emerging task in fine-grained sentiment analysis. Recent studies have employed Graph Neural Networks (GNN) to model the syntax-semantic relationships inherent in triplet elements. However, they have yet to fully tap into the vast potential of syntactic and semantic information within the ASTE task. In this work, we propose a \emph{Dual Encoder: Exploiting the potential of Syntactic and Semantic} model (D2E2S), which maximizes the syntactic and semantic relationships among words. Specifically, our model utilizes a dual-channel encoder with a BERT channel to capture semantic information, and an enhanced LSTM channel for comprehensive syntactic information capture. Subsequently, we introduce the heterogeneous feature interaction module to capture intricate interactions between dependency syntax and attention semantics, and to dynamically select vital nodes. We leverage the synergy of these modules to harness the significant potential of syntactic and semantic information in ASTE tasks. Testing on public benchmarks, our D2E2S model surpasses the current state-of-the-art(SOTA), demonstrating its effectiveness.
翻訳日:2024-02-26 14:09:55 公開日:2024-02-23
# コンフォーマル予測を用いた言語指示型マルチロボットシステムの安全タスク計画

Safe Task Planning for Language-Instructed Multi-Robot Systems using Conformal Prediction ( http://arxiv.org/abs/2402.15368v1 )

ライセンス: Link先を確認
Jun Wang, Guocheng He, Yiannis Kantaros(参考訳) 本稿では,ロボットチームにおけるタスク計画問題について述べる。 タスクは自然言語(NL)で表現され、ロボットはその能力(移動性、操作、センシングなど)を様々な場所や意味オブジェクトに適用する必要がある。 最近のいくつかの研究は、事前訓練された大規模言語モデル(llm)を利用して効果的なマルチロボット計画を設計することで、同様の計画の問題に対処している。 しかし、これらのアプローチにはミッション性能と安全性の保証がない。 この課題に対処するため,我々は,ミッション成功率の高い分散LDMベースのプランナを新たに導入する。 これは、分布のない不確実性定量化ツールである共形予測(CP)をブラックボックスモデルで活用することで達成される。 CPにより、提案されたマルチロボットプランナーは、その固有の不確実性を分散的に推論することができ、ロボットが十分な確証があれば個々の決定をし、それ以外は助けを求めることができる。 我々は,提案するプランナーがユーザ特定タスク成功率を達成できると同時に,ヘルプ要求の総数を最小化できることを理論的および実証的に示す。 マルチロボットホームサービスアプリケーションにおける我々のアプローチの性能を実証する。 また,本手法は,最近の集中型・分散型マルチロボットLCMベースのプランナよりも,正確な計画設計能力に優れることを示す。 ベースラインを超えるアルゴリズムの利点は、ミッションの複雑さとロボットチームサイズの増加によってより顕著になる。

This paper addresses task planning problems for language-instructed robot teams. Tasks are expressed in natural language (NL), requiring the robots to apply their capabilities (e.g., mobility, manipulation, and sensing) at various locations and semantic objects. Several recent works have addressed similar planning problems by leveraging pre-trained Large Language Models (LLMs) to design effective multi-robot plans. However, these approaches lack mission performance and safety guarantees. To address this challenge, we introduce a new decentralized LLM-based planner that is capable of achieving high mission success rates. This is accomplished by leveraging conformal prediction (CP), a distribution-free uncertainty quantification tool in black-box models. CP allows the proposed multi-robot planner to reason about its inherent uncertainty in a decentralized fashion, enabling robots to make individual decisions when they are sufficiently certain and seek help otherwise. We show, both theoretically and empirically, that the proposed planner can achieve user-specified task success rates while minimizing the overall number of help requests. We demonstrate the performance of our approach on multi-robot home service applications. We also show through comparative experiments, that our method outperforms recent centralized and decentralized multi-robot LLM-based planners in terms of in terms of its ability to design correct plans. The advantage of our algorithm over baselines becomes more pronounced with increasing mission complexity and robot team size.
翻訳日:2024-02-26 14:09:35 公開日:2024-02-23
# ケースコントロール研究におけるロジスティック回帰の効率的な半教師付き推論

Efficient semi-supervised inference for logistic regression under case-control studies ( http://arxiv.org/abs/2402.15365v1 )

ライセンス: Link先を確認
Zhuojun Quan, Yuanyuan Lin, Kani Chen, Wen Yu(参考訳) 半教師付き学習は統計学と機械学習にますます注目を集めている。 半教師付き学習設定では、結果と共変量の両方のラベル付きデータセットと、共変量のみのラベル付きデータセットとを収集する。 ラベル付きデータの結果がバイナリであり、ラベル付きデータがケースコントロールサンプリングによって収集される半教師付き設定における推論問題を考える。 ケースコントロールサンプリングは、バイナリデータの不均衡構造を緩和するための効果的なサンプリングスキームである。 ロジスティックモデル仮定の下では、ケースコントロールデータは回帰モデルの傾斜パラメータに対して一貫した推定子を提供できる。 しかし、インターセプトパラメータは特定できない。 これにより、ケース制御データから限界ケース比を推定できない。 ラベルなしのデータが利用可能になると、インターセプトパラメータが半教師あり学習設定で識別できることが分かる。 観測されたラベル付きおよびラベルなしデータの確率関数を構築し,反復アルゴリズムを用いて最大確率推定値を求める。 提案する推定器は一貫性があり、漸近的に正規であり、半パラメトリックに効率的である。 提案手法の有限サンプル性能を示すため, 広範囲なシミュレーション実験を行った。 その結果、ラベルのないデータはインターセプトを識別するだけでなく、傾斜パラメータの推定効率を向上させることが示唆された。 一方,提案手法では,限界ケースの割合を精度良く推定できる。

Semi-supervised learning has received increasingly attention in statistics and machine learning. In semi-supervised learning settings, a labeled data set with both outcomes and covariates and an unlabeled data set with covariates only are collected. We consider an inference problem in semi-supervised settings where the outcome in the labeled data is binary and the labeled data is collected by case-control sampling. Case-control sampling is an effective sampling scheme for alleviating imbalance structure in binary data. Under the logistic model assumption, case-control data can still provide consistent estimator for the slope parameter of the regression model. However, the intercept parameter is not identifiable. Consequently, the marginal case proportion cannot be estimated from case-control data. We find out that with the availability of the unlabeled data, the intercept parameter can be identified in semi-supervised learning setting. We construct the likelihood function of the observed labeled and unlabeled data and obtain the maximum likelihood estimator via an iterative algorithm. The proposed estimator is shown to be consistent, asymptotically normal, and semiparametrically efficient. Extensive simulation studies are conducted to show the finite sample performance of the proposed method. The results imply that the unlabeled data not only helps to identify the intercept but also improves the estimation efficiency of the slope parameter. Meanwhile, the marginal case proportion can be estimated accurately by the proposed method.
翻訳日:2024-02-26 14:09:12 公開日:2024-02-23
# 大規模言語モデルを用いた忠実で高品質な患者要約作成のためのデータ中心アプローチ

A Data-Centric Approach To Generate Faithful and High Quality Patient Summaries with Large Language Models ( http://arxiv.org/abs/2402.15422v1 )

ライセンス: Link先を確認
Stefan Hegselmann, Shannon Zejiang Shen, Florian Gierse, Monica Agrawal, David Sontag, Xiaoyi Jiang(参考訳) 患者は入院の理解が困難になることが多いが、医療従事者は説明を提供するリソースが限られている。 本研究では,医師のノートに基づいて患者要約を生成するための大規模言語モデルの可能性について検討し,トレーニングデータが生成した要約の忠実度と質に及ぼす影響について検討する。 この目的のために,幻覚のための厳密なラベリングプロトコルを開発し,医療専門家2名に対して,実世界のサマリー100点,生成サマリー100点を注釈する。 幻覚のないデータの微調整はLlama 2の要約1回あたりの幻覚を2.60から1.55に効果的に低減し,関連する情報を保存する。 この効果はまだ存在するが、5つの例(0.70から0.40)で誘導される場合、GPT-4の方がはるかに小さい。 また,幻覚のない学習データを用いて定性評価を行う。 GPT-4はゼロショット設定でも非常に良い結果を示す。 共通の定量的指標は、誠実さや品質とよく相関しないことがわかった。 最後に,自動幻覚検出のためのGPT-4を試験し,有望な結果を得た。

Patients often face difficulties in understanding their hospitalizations, while healthcare workers have limited resources to provide explanations. In this work, we investigate the potential of large language models to generate patient summaries based on doctors' notes and study the effect of training data on the faithfulness and quality of the generated summaries. To this end, we develop a rigorous labeling protocol for hallucinations, and have two medical experts annotate 100 real-world summaries and 100 generated summaries. We show that fine-tuning on hallucination-free data effectively reduces hallucinations from 2.60 to 1.55 per summary for Llama 2, while preserving relevant information. Although the effect is still present, it is much smaller for GPT-4 when prompted with five examples (0.70 to 0.40). We also conduct a qualitative evaluation using hallucination-free and improved training data. GPT-4 shows very good results even in the zero-shot setting. We find that common quantitative metrics do not correlate well with faithfulness and quality. Finally, we test GPT-4 for automatic hallucination detection, which yields promising results.
翻訳日:2024-02-26 14:05:23 公開日:2024-02-23
# 強化学習におけるゼロショット言語に基づく推論による選好

PREDILECT: Preferences Delineated with Zero-Shot Language-based Reasoning in Reinforcement Learning ( http://arxiv.org/abs/2402.15420v1 )

ライセンス: Link先を確認
Simon Holk, Daniel Marta, Iolanda Leite(参考訳) 選好に基づく強化学習(rl)はロボット学習の新しい分野として登場し、人間は状態とアクションのペアの異なるシーケンスの選好を表現することによって、ロボットの振る舞いを形作る上で重要な役割を果たす。 しかし、ロボットの現実的なポリシーの定式化は、人間の反応を広範囲のクエリーに要求する。 本研究では,クエリ毎に収集した情報を拡張し,好みと任意のテキストプロンプトの両方を含むようにすることで,サンプル効率の課題にアプローチする。 これを実現するために,大型言語モデル(LLM)のゼロショット機能を活用し,人間の提供するテキストから推論する。 追加のクエリ情報に対応するため、報奨学習目標を、比較的高い情報を含むフレキシブルハイライト-状態-アクションペアを含むように再構成し、事前訓練されたLCMからゼロショットで処理された特徴と関連付ける。 シミュレーションシナリオとユーザスタディの両方において,フィードバックとその影響を分析することにより,我々の作業の有効性を明らかにする。 さらに、収集された集団フィードバックは、シミュレーションされたソーシャルナビゲーション環境で、社会的に準拠した軌道上でロボットを訓練するのに役立つ。 トレーニング済みポリシーのビデオ例はhttps://sites.google.com/view/rl-predilectで公開しています。

Preference-based reinforcement learning (RL) has emerged as a new field in robot learning, where humans play a pivotal role in shaping robot behavior by expressing preferences on different sequences of state-action pairs. However, formulating realistic policies for robots demands responses from humans to an extensive array of queries. In this work, we approach the sample-efficiency challenge by expanding the information collected per query to contain both preferences and optional text prompting. To accomplish this, we leverage the zero-shot capabilities of a large language model (LLM) to reason from the text provided by humans. To accommodate the additional query information, we reformulate the reward learning objectives to contain flexible highlights -- state-action pairs that contain relatively high information and are related to the features processed in a zero-shot fashion from a pretrained LLM. In both a simulated scenario and a user study, we reveal the effectiveness of our work by analyzing the feedback and its implications. Additionally, the collective feedback collected serves to train a robot on socially compliant trajectories in a simulated social navigation landscape. We provide video examples of the trained policies at https://sites.google.com/view/rl-predilect
翻訳日:2024-02-26 14:04:51 公開日:2024-02-23
# 評価アルゴリズムの回避

Reputational Algorithm Aversion ( http://arxiv.org/abs/2402.15418v1 )

ライセンス: Link先を確認
Gregory Weitzner(参考訳) 人々はしばしばアルゴリズムによって生成された情報を自分の決定に組み込むことに消極的である。 本稿では,アルゴリズムに従う選択が人間の能力に関する情報を伝える際に,アルゴリズムの逆転が生じることを示す。 私は、労働者が自分の個人情報とアルゴリズムの信号に基づいてランダムな結果を予測するモデルを開発した。 低スキル労働者はアルゴリズムよりも悪い情報を受け取り、それゆえ常にアルゴリズムの信号に従うべきであるが、高スキル労働者はアルゴリズムよりも優れた情報を受け取り、時にはオーバーライドすべきである。 しかし、評判の懸念から、低スキル労働者はアルゴリズムを非効率にオーバーライドし、高いスキルと見なされる可能性を高める。 このモデルは、AIシステムが多くの種類の労働者を置き換えるという幅広い懸念に沿うアルゴリズム回避のための、完全に合理的なマイクロファウンドを提供する。

People are often reluctant to incorporate information produced by algorithms into their decisions, a phenomenon called "algorithm aversion". This paper shows how algorithm aversion arises when the choice to follow an algorithm conveys information about a human's ability. I develop a model in which workers make forecasts of a random outcome based on their own private information and an algorithm's signal. Low-skill workers receive worse information than the algorithm and hence should always follow the algorithm's signal, while high-skill workers receive better information than the algorithm and should sometimes override it. However, due to reputational concerns, low-skill workers inefficiently override the algorithm to increase the likelihood they are perceived as high-skill. The model provides a fully rational microfoundation for algorithm aversion that aligns with the broad concern that AI systems will displace many types of workers.
翻訳日:2024-02-26 14:04:05 公開日:2024-02-23
# 変圧器のクラスター発生に及ぼすLoRAの影響

The Impact of LoRA on the Emergence of Clusters in Transformers ( http://arxiv.org/abs/2402.15415v1 )

ライセンス: Link先を確認
Hugo Koubbi, Matthieu Boussard and Louis Hernandez(参考訳) 本稿では, 注意パラメータと初期トークン値の変化がトークンクラスタの構造ダイナミクスにどのように影響するかを検討するために, 変圧器に関する数学的枠組みを用いた。 分析の結果,修正アテンション行列の力学系内のクラスターは,従来と大きく異なる傾向を示すが,パラメータの差により,短い間隔で類似性が保たれることがわかった。 この研究は、LoRAアルゴリズムであるcite{hu2021lora,peft} への実践的応用による微調整分野に寄与し、LoRA強化トランスフォーマーモデルの振る舞いの理解を深める。

In this paper, we employ the mathematical framework on Transformers developed by \citet{sander2022sinkformers,geshkovski2023emergence,geshkovski2023mathematical} to explore how variations in attention parameters and initial token values impact the structural dynamics of token clusters. Our analysis demonstrates that while the clusters within a modified attention matrix dynamics can exhibit significant divergence from the original over extended periods, they maintain close similarities over shorter intervals, depending on the parameter differences. This work contributes to the fine-tuning field through practical applications to the LoRA algorithm \cite{hu2021lora,peft}, enhancing our understanding of the behavior of LoRA-enhanced Transformer models.
翻訳日:2024-02-26 14:03:50 公開日:2024-02-23
# パラメータ効率のよいモジュールの組み合わせはショット転送精度を向上するか?

Does Combining Parameter-efficient Modules Improve Few-shot Transfer Accuracy? ( http://arxiv.org/abs/2402.15414v1 )

ライセンス: Link先を確認
Nader Asadi, Mahdi Beitollahi, Yasser Khalil, Yinchuan Li, Guojun Zhang, Xi Chen(参考訳) パラメータ効率の良い微調整は、下流タスクで大規模言語や視覚モデルを効率的に微調整するための標準である。 特に、低ランク適応の効率により、数百のカスタムloraモジュールの作成と共有が容易になり、それぞれが下流のさまざまなタスクから異なるデータに基づいてトレーニングされた。 本稿では,LoRAモジュールの構成可能性について検討し,これらの事前学習モジュールを組み合わせることで,下流タスクに対する一般化が促進されるかどうかを検討する。 我々の調査は2つのアプローチを評価します (a)同じ重量で上流のLoRAモジュールを平均化する均一な構成 (b)各上流モジュールの重みを学習し,重み付け平均化を行う構成法を学習した。 視覚モデルと言語モデルの両方の実験結果から,ダウンストリームタスクに限られたサンプルしか使用できない場合,均一な構成法と学習された構成法の両方で,転送精度が向上すること,LoRAをスクラッチから完全に微調整し,トレーニングすること,などが判明した。 さらに、フルショット設定では、学習されたコンポジションは通常のLoRAトレーニングと互換性があり、トレーニング可能なパラメータの数は著しく少ない。 本研究は,学習可能なパラメータを付加することなく,低ショット環境での転送性を向上させるための一様構成の可能性を明らかにする。

Parameter-efficient fine-tuning stands as the standard for efficiently fine-tuning large language and vision models on downstream tasks. Specifically, the efficiency of low-rank adaptation has facilitated the creation and sharing of hundreds of custom LoRA modules, each trained on distinct data from various downstream tasks. In this paper, we explore the composability of LoRA modules, examining if combining these pre-trained modules enhances generalization to unseen downstream tasks. Our investigation involves evaluating two approaches: (a) uniform composition, involving averaging upstream LoRA modules with equal weights, and (b) learned composition, where we learn the weights for each upstream module and perform weighted averaging. Our experimental results on both vision and language models reveal that in few-shot settings, where only a limited number of samples are available for the downstream task, both uniform and learned composition methods result in better transfer accuracy; outperforming full fine-tuning and training a LoRA from scratch. Moreover, in full-shot settings, learned composition performs comparably to regular LoRA training with significantly fewer number of trainable parameters. Our research unveils the potential of uniform composition for enhancing transferability in low-shot settings, without introducing additional learnable parameters.
翻訳日:2024-02-26 14:03:34 公開日:2024-02-23
# G-RepsNet:任意行列群に対する同変ネットワークの高速かつ一般構築

G-RepsNet: A Fast and General Construction of Equivariant Networks for Arbitrary Matrix Groups ( http://arxiv.org/abs/2402.15413v1 )

ライセンス: Link先を確認
Sourya Basu, Suhas Lohit, Matthew Brand(参考訳) グループ同分散は、幅広いディープラーニングタスクで有用な強い帰納的バイアスである。 しかし、一般群と領域に対する効率的な同変ネットワークの構築は困難である。 Finzi et al. (2021) による最近の研究は、任意の行列群に対する等式制約を直接解き、同変 MLP (EMLP) を得る。 しかし、この方法はうまくスケールせず、ディープラーニングではスケーリングが不可欠です。 本稿では、テンソル多項式を用いて表現される特徴を持つ任意の行列群に対する軽量同変ネットワークであるグループ表現ネットワーク(G-RepsNets)を紹介する。 我々の設計における重要な直観は、ニューラルネットワークの隠れた層におけるテンソル表現と単純な安価なテンソル演算が表現可能な普遍的同変ネットワークに繋がる可能性があることである。 g-repsnet は o(5), o(1, 3), o(3) などの群対称性を持つ複数のタスクでemlp と競合し、スカラー、ベクトル、二階テンソルをデータ型とする。 画像分類タスクにおいて、二階表現を用いたG-RepsNetは競争力があり、GCNN(Cohen & Welling, 2016a)やE(2)-CNN(Weiler & Cesa, 2019)のような最先端の同変モデルよりも優れています。 さらに,本手法の汎用性を示すために,g-repsnet は n-body 予測と pdes の解法において g-fno (helwig et al., 2023) と egnn (satorras et al., 2021) と競合することを示した。

Group equivariance is a strong inductive bias useful in a wide range of deep learning tasks. However, constructing efficient equivariant networks for general groups and domains is difficult. Recent work by Finzi et al. (2021) directly solves the equivariance constraint for arbitrary matrix groups to obtain equivariant MLPs (EMLPs). But this method does not scale well and scaling is crucial in deep learning. Here, we introduce Group Representation Networks (G-RepsNets), a lightweight equivariant network for arbitrary matrix groups with features represented using tensor polynomials. The key intuition for our design is that using tensor representations in the hidden layers of a neural network along with simple inexpensive tensor operations can lead to expressive universal equivariant networks. We find G-RepsNet to be competitive to EMLP on several tasks with group symmetries such as O(5), O(1, 3), and O(3) with scalars, vectors, and second-order tensors as data types. On image classification tasks, we find that G-RepsNet using second-order representations is competitive and often even outperforms sophisticated state-of-the-art equivariant models such as GCNNs (Cohen & Welling, 2016a) and E(2)-CNNs (Weiler & Cesa, 2019). To further illustrate the generality of our approach, we show that G-RepsNet is competitive to G-FNO (Helwig et al., 2023) and EGNN (Satorras et al., 2021) on N-body predictions and solving PDEs, respectively, while being efficient.
翻訳日:2024-02-26 14:03:11 公開日:2024-02-23
# サンプリングによる最適情報

Optimisic Information Directed Sampling ( http://arxiv.org/abs/2402.15411v1 )

ライセンス: Link先を確認
Gergely Neu, Matteo Papini, Ludovic Schwartz(参考訳) 本研究では、損失関数が既知のパラメトリック関数クラスに属すると仮定された文脈的バンディット問題におけるオンライン学習の問題について検討する。 そこで本研究では,ルッソとファン・ロイ(2018)による情報指向サンプリングのベイズ理論と,決定推定係数に基づくフォスター,カカデ,キアン,ラークリン(2021)の最悪の場合の理論を橋渡しする新たな解析枠組みを提案する。 両者の作業線から,楽観的情報指向サンプリングと呼ばれるアルゴリズムテンプレートを提案し,従来のベイズ型ids法で実現可能なものと類似したインスタンス依存の後悔保証を実現するが,ベイズ型仮定を必要としないという大きな利点があることを示す。 我々の分析の重要な技術的革新は、後悔に対する楽観的な代理モデルを導入し、それを使って、RussoとVan RoyのInformation Ratio(2018)の頻繁なバージョンと、FosterらのDecision Estimation Coefficient(2021)のより保守的なバージョンを定義することです。 キーワード:コンテキストバンディット、情報指向サンプリング、決定推定係数、一階の後悔境界。

We study the problem of online learning in contextual bandit problems where the loss function is assumed to belong to a known parametric function class. We propose a new analytic framework for this setting that bridges the Bayesian theory of information-directed sampling due to Russo and Van Roy (2018) and the worst-case theory of Foster, Kakade, Qian, and Rakhlin (2021) based on the decision-estimation coefficient. Drawing from both lines of work, we propose a algorithmic template called Optimistic Information-Directed Sampling and show that it can achieve instance-dependent regret guarantees similar to the ones achievable by the classic Bayesian IDS method, but with the major advantage of not requiring any Bayesian assumptions. The key technical innovation of our analysis is introducing an optimistic surrogate model for the regret and using it to define a frequentist version of the Information Ratio of Russo and Van Roy (2018), and a less conservative version of the Decision Estimation Coefficient of Foster et al. (2021). Keywords: Contextual bandits, information-directed sampling, decision estimation coefficient, first-order regret bounds.
翻訳日:2024-02-26 14:02:38 公開日:2024-02-23
# lasso with latents:効率的な推定、共変量再スケーリング、計算統計的ギャップ

Lasso with Latents: Efficient Estimation, Covariate Rescaling, and Computational-Statistical Gaps ( http://arxiv.org/abs/2402.15409v1 )

ライセンス: Link先を確認
Jonathan Kelner, Frederic Koehler, Raghu Meka, Dhruv Rohatgi(参考訳) ラッソの統計性能は、興味の共変分が強い相関関係を持つ場合、著しく低下することが知られている。 特に、Lassoの予測誤差は、Best Subset Selectionのような計算的に非効率な代替よりもはるかに悪化する。 疎線型回帰問題における計算統計学の大規模なトレードオフのため、このギャップを一般に埋めることは不可能である。 本研究では,非観測潜伏変数から共変量間の強い相関が生じる自然なスパース線形回帰設定を提案する。 この設定では,強い相関に起因する問題を分析し,驚くほど簡単な修正をデザインする。 共変量体の標準正規化を伴うラッソは失敗するが、ラッソが突然、推定の証明可能な強い保証を得るような共変量体の異種スケーリングが存在する。 さらに、我々は「スマートスケーリング」のような単純な効率的な計算手順を設計する。結果として生じる「再スケールラッソ」アルゴリズムのサンプル複雑さは、基礎となる信号の空間性に二次的に依存する(最悪の場合)。 この依存は情報理論上は必要ないが、低次多項式の手法によって多項式時間アルゴリズムのクラスの中で最適であることが証明される。 この議論は、スパース線形回帰と、ほぼ負の負のスパイクを持つスパースPCAの特別なバージョンとの新たな接続を明らかにする。 後者の問題はスパースパリティを学習する実数値のアナログと考えることができる。 また,ガウス図形モデルを学習する際の密接に関連する問題に対して,最初の計算統計的ギャップを確立する。

It is well-known that the statistical performance of Lasso can suffer significantly when the covariates of interest have strong correlations. In particular, the prediction error of Lasso becomes much worse than computationally inefficient alternatives like Best Subset Selection. Due to a large conjectured computational-statistical tradeoff in the problem of sparse linear regression, it may be impossible to close this gap in general. In this work, we propose a natural sparse linear regression setting where strong correlations between covariates arise from unobserved latent variables. In this setting, we analyze the problem caused by strong correlations and design a surprisingly simple fix. While Lasso with standard normalization of covariates fails, there exists a heterogeneous scaling of the covariates with which Lasso will suddenly obtain strong provable guarantees for estimation. Moreover, we design a simple, efficient procedure for computing such a "smart scaling." The sample complexity of the resulting "rescaled Lasso" algorithm incurs (in the worst case) quadratic dependence on the sparsity of the underlying signal. While this dependence is not information-theoretically necessary, we give evidence that it is optimal among the class of polynomial-time algorithms, via the method of low-degree polynomials. This argument reveals a new connection between sparse linear regression and a special version of sparse PCA with a near-critical negative spike. The latter problem can be thought of as a real-valued analogue of learning a sparse parity. Using it, we also establish the first computational-statistical gap for the closely related problem of learning a Gaussian Graphical Model.
翻訳日:2024-02-26 14:02:14 公開日:2024-02-23
# Conformalized-DeepONet:Deep Operator Networksにおける不確実性定量化のための分散フリーフレームワーク

Conformalized-DeepONet: A Distribution-Free Framework for Uncertainty Quantification in Deep Operator Networks ( http://arxiv.org/abs/2402.15406v1 )

ライセンス: Link先を確認
Christian Moya, Amirhossein Mollaali, Zecheng Zhang, Lu Lu, Guang Lin(参考訳) 本稿では,分散のない不確実性定量化(UQ)フレームワークであるコンフォメーション予測を採用し,DeepONet(DeepONet)回帰のカバレッジ保証を伴う信頼度予測間隔を求める。 当初,筆者らが提案した不確実性定量化フレームワーク (B-DeepONet と Prob-DeepONet) を分割共形予測を用いて拡張した。 共形予測とProb-およびB-DeepONetsを組み合わせることで、DeepONet予測のための厳密な信頼区間を生成することにより、不確実性を効果的に定量化する。 さらに、分割共形予測をより自然に利用できるQuantile-DeepONetを設計する。 この分布のない有効不確実性定量化フレームワークを、分割共形量子-DeepONet回帰と呼ぶ。 最後に,様々な常微分方程式の数値例と多要素学習を用いて提案手法の有効性を実証する。

In this paper, we adopt conformal prediction, a distribution-free uncertainty quantification (UQ) framework, to obtain confidence prediction intervals with coverage guarantees for Deep Operator Network (DeepONet) regression. Initially, we enhance the uncertainty quantification frameworks (B-DeepONet and Prob-DeepONet) previously proposed by the authors by using split conformal prediction. By combining conformal prediction with our Prob- and B-DeepONets, we effectively quantify uncertainty by generating rigorous confidence intervals for DeepONet prediction. Additionally, we design a novel Quantile-DeepONet that allows for a more natural use of split conformal prediction. We refer to this distribution-free effective uncertainty quantification framework as split conformal Quantile-DeepONet regression. Finally, we demonstrate the effectiveness of the proposed methods using various ordinary, partial differential equation numerical examples, and multi-fidelity learning.
翻訳日:2024-02-26 14:01:45 公開日:2024-02-23
# United We Pretrain, Divided We Fail! 75データセットの事前学習による時系列表現学習

United We Pretrain, Divided We Fail! Representation Learning for Time Series by Pretraining on 75 Datasets at Once ( http://arxiv.org/abs/2402.15404v1 )

ライセンス: Link先を確認
Maurice Kraus and Felix Divo and David Steinmann and Devendra Singh Dhami and Kristian Kersting(参考訳) 自然言語処理と視覚では、事前学習を用いて効果的な表現を学習する。 残念ながら、事前訓練の成功は、ソースとターゲット間の潜在的なミスマッチのために、容易に時系列に受け継がれない。 実際、マルチデータセット事前トレーニングは時系列では機能しない、というのが一般的な信念です! Au とは対照的に,多数のラベルのない,多種多様な時系列データセットから1つのエンコーディングを学習するために,新たな自己教師型コントラスト事前学習手法を導入し,学習された表現を複数の対象領域(例えば分類)で再利用できるようにする。 具体的には,XD-MixUp補間法とSoft Interpolation Contextual Contrasting (SICC)損失を提案する。 これは、低データ体制を微調整する際、教師付きトレーニングやその他の自己監督型事前訓練方法よりも優れている。 同時に75からでも、複数の時系列データセットから実際に学習することができます。

In natural language processing and vision, pretraining is utilized to learn effective representations. Unfortunately, the success of pretraining does not easily carry over to time series due to potential mismatch between sources and target. Actually, common belief is that multi-dataset pretraining does not work for time series! Au contraire, we introduce a new self-supervised contrastive pretraining approach to learn one encoding from many unlabeled and diverse time series datasets, so that the single learned representation can then be reused in several target domains for, say, classification. Specifically, we propose the XD-MixUp interpolation method and the Soft Interpolation Contextual Contrasting (SICC) loss. Empirically, this outperforms both supervised training and other self-supervised pretraining methods when finetuning on low-data regimes. This disproves the common belief: We can actually learn from multiple time series datasets, even from 75 at once.
翻訳日:2024-02-26 14:01:29 公開日:2024-02-23
# Grasp, See and Place: 政策構造を持つ効率的な未知のオブジェクト再構成

Grasp, See and Place: Efficient Unknown Object Rearrangement with Policy Structure Prior ( http://arxiv.org/abs/2402.15402v1 )

ライセンス: Link先を確認
Kechun Xu, Zhongxiang Zhou, Jun Wu, Haojian Lu, Rong Xiong, Yue Wang(参考訳) ロボットがオブジェクトをRGB-D画像で指定された目標設定に再構成することを想定する、未知のオブジェクト再構成のタスクに焦点をあてる。 最近の研究は、学習に基づく知覚モジュールを組み込んだ未知のオブジェクト再配置システムについて研究している。 しかし、それらは認識エラーに敏感であり、タスクレベルのパフォーマンスにはあまり注意を払わない。 本稿では,知覚雑音下での未知物体再構成に有効なシステムを開発することを目的とする。 理論的には, 雑音知覚が把握・配置に与える影響を分離して明らかにし, タスク最適性を向上させるために, このような分離構造が非自明であることを示す。 本稿では,結合構造を持つ二重ループシステム GSP を提案する。 インナーループでは,自己信頼オブジェクトマッチングのためのアクティブな視聴ポリシーを学習し,場所認識を改善する。 外部ループでは,タスクレベルの報酬によって誘導されるオブジェクトマッチングと把握能力に配慮した把握ポリシーを学習する。 基本モデルCLIPをオブジェクトマッチング、ポリシー学習、自己終了に活用する。 一連の実験により、GSPは高い完成率と少ないステップで未知の物体再構成を行うことができることが示された。

We focus on the task of unknown object rearrangement, where a robot is supposed to re-configure the objects into a desired goal configuration specified by an RGB-D image. Recent works explore unknown object rearrangement systems by incorporating learning-based perception modules. However, they are sensitive to perception error, and pay less attention to task-level performance. In this paper, we aim to develop an effective system for unknown object rearrangement amidst perception noise. We theoretically reveal the noisy perception impacts grasp and place in a decoupled way, and show such a decoupled structure is non-trivial to improve task optimality. We propose GSP, a dual-loop system with the decoupled structure as prior. For the inner loop, we learn an active seeing policy for self-confident object matching to improve the perception of place. For the outer loop, we learn a grasp policy aware of object matching and grasp capability guided by task-level rewards. We leverage the foundation model CLIP for object matching, policy learning and self-termination. A series of experiments indicate that GSP can conduct unknown object rearrangement with higher completion rate and less steps.
翻訳日:2024-02-26 14:01:17 公開日:2024-02-23
# 干渉計のない散逸ダイナミクスのシミュレーション

Simulation of Dissipative Dynamics Without Interferometers ( http://arxiv.org/abs/2402.15401v1 )

ライセンス: Link先を確認
Fabr\'icio Lustosa, Roberto M. Serra, Luciano S. Cruz and Breno Marques(参考訳) 実験の複雑さを低減し、誤差を最小限に抑える技術の開発は、量子チャネルのモデリングにおいて最も重要である。 一般に量子シミュレータは、量子演算を制御するために余分な量子ビットを必要とする普遍的アルゴリズムに焦点を当てている。 対照的に、我々の手法はクラウス作用素を最適に和する方法を見つけることに基づいている。 これらの演算子は、任意の1量子ビット量子チャネルを実装するために、自由度のみを必要とする実験的に単純化されたセットアップを提供する。 そこで, エンタングルメント偏光子対と後処理技術を用いて, クラウス写像を実験的に構築し, ユニタリおよび射影演算を行った。

The development of techniques that reduce experimental complexity and minimize errors is an utmost importance for modeling quantum channels. In general, quantum simulators are focused on universal algorithms, whose practical implementation requires extra qubits necessary to control the quantum operations. In contrast, our technique is based on finding a way to optimally sum Kraus operators. These operators provide us with an experimentally simplified setup where only a degree of freedom is needed to implement any one-qubit quantum channel. Therefore, using entanglement polarized photon pairs and post-processing techniques, we experimentally built the Kraus maps, carrying out unitary and projection operations.
翻訳日:2024-02-26 14:01:01 公開日:2024-02-23
# 不均質な情報源に対する忠実な時間的質問

Faithful Temporal Question Answering over Heterogeneous Sources ( http://arxiv.org/abs/2402.15400v1 )

ライセンス: Link先を確認
Zhen Jia, Philipp Christmann, Gerhard Weikum(参考訳) 時間的質問応答(qa)には時間的制約があり、"... in 2019" や "... before covid" といったフレーズがある。 前者では、時間は明示的な条件であり、後者では暗黙的である。 最先端の手法は3次元に制限がある。 第一に、神経推論では、時間制約は単にソフトマッチングであり、無効または説明不能な回答の余地を与える。 第二に、暗黙の時間を持つ質問は不十分である。 第3に、答えは単一のソースから得られる:知識ベース(KB)またはテキストコーパスである。 これらの欠点に対処する時間的QAシステムを提案する。 まず、具体的な証拠を忠実に答えるために時間的制約を課す。 第二に、暗黙の質問を適切に処理する。 第3に、KB、テキスト、Webテーブルを統一的にカバーする異種ソース上で動作する。 方法には3つの段階があります (i)問題とその時間的条件を理解すること。 (ii)すべての資料から証拠を回収すること、及び (iii)その質問に忠実に答える。 先行ベンチマークでは暗黙の質問が乏しいため,様々な質問を生成するための原則的な方法を導入する。 実験は、一連のベースラインよりも優れたパフォーマンスを示す。

Temporal question answering (QA) involves time constraints, with phrases such as "... in 2019" or "... before COVID". In the former, time is an explicit condition, in the latter it is implicit. State-of-the-art methods have limitations along three dimensions. First, with neural inference, time constraints are merely soft-matched, giving room to invalid or inexplicable answers. Second, questions with implicit time are poorly supported. Third, answers come from a single source: either a knowledge base (KB) or a text corpus. We propose a temporal QA system that addresses these shortcomings. First, it enforces temporal constraints for faithful answering with tangible evidence. Second, it properly handles implicit questions. Third, it operates over heterogeneous sources, covering KB, text and web tables in a unified manner. The method has three stages: (i) understanding the question and its temporal conditions, (ii) retrieving evidence from all sources, and (iii) faithfully answering the question. As implicit questions are sparse in prior benchmarks, we introduce a principled method for generating diverse questions. Experiments show superior performance over a suite of baselines.
翻訳日:2024-02-26 14:00:48 公開日:2024-02-23
# 分散ロバストなオフダイナミックス強化学習:線形関数近似による確率効率

Distributionally Robust Off-Dynamics Reinforcement Learning: Provable Efficiency with Linear Function Approximation ( http://arxiv.org/abs/2402.15399v1 )

ライセンス: Link先を確認
Zhishuai Liu, Pan Xu(参考訳) 我々は、動的でない強化学習(rl)を研究し、そこでポリシーをソースドメインでトレーニングし、異なるターゲットドメインにデプロイする。 我々は,学習アルゴリズムがソースドメインの遷移カーネルの不確実なセット内にある可能な限り最悪のダイナミックスの下で,最適性能を求めながら,ソースドメインと積極的に対話する,オンライン分散ロバストなマルコフ決定プロセス(DRMDP)を通じてこの問題を解決することを目的とする。 オフダイナミックスRLの関数近似を用いたオンラインDRMDPに関する最初の研究を行った。 DRMDPの双対定式化は、名目遷移カーネルが線形である場合でも非線形性を誘導し、エラーの伝播を引き起こす。 全変動距離を用いて$d$-rectangular 不確かさ集合を設計することにより、この追加の非線形性を取り除き、誤差伝播をバイパスする。 DR-LSVI-UCBは,関数近似を用いたオフダイナミックス RL のオンラインDRMDPアルゴリズムであり,状態と動作空間の大きさに依存しない多項式準最適境界を確立する。 我々の研究は、線形関数近似によるオンラインDRMDPの証明可能な効率をより深く理解するための第一歩となる。 最後に, DR-LSVI-UCBの性能とロバスト性を, 異なる数値実験により検証した。

We study off-dynamics Reinforcement Learning (RL), where the policy is trained on a source domain and deployed to a distinct target domain. We aim to solve this problem via online distributionally robust Markov decision processes (DRMDPs), where the learning algorithm actively interacts with the source domain while seeking the optimal performance under the worst possible dynamics that is within an uncertainty set of the source domain's transition kernel. We provide the first study on online DRMDPs with function approximation for off-dynamics RL. We find that DRMDPs' dual formulation can induce nonlinearity, even when the nominal transition kernel is linear, leading to error propagation. By designing a $d$-rectangular uncertainty set using the total variation distance, we remove this additional nonlinearity and bypass the error propagation. We then introduce DR-LSVI-UCB, the first provably efficient online DRMDP algorithm for off-dynamics RL with function approximation, and establish a polynomial suboptimality bound that is independent of the state and action space sizes. Our work makes the first step towards a deeper understanding of the provable efficiency of online DRMDPs with linear function approximation. Finally, we substantiate the performance and robustness of DR-LSVI-UCB through different numerical experiments.
翻訳日:2024-02-26 14:00:32 公開日:2024-02-23
# transflower: 流速予測のための流れから流れへの注意を伴う説明可能なトランスベースモデル

TransFlower: An Explainable Transformer-Based Model with Flow-to-Flow Attention for Commuting Flow Prediction ( http://arxiv.org/abs/2402.15398v1 )

ライセンス: Link先を確認
Yan Luo, Zhuoyue Wan, Yuzhong Chen, Gengchen Mai, Fu-lai Chung, Kent Larson(参考訳) 都市計画と通勤フローの関連を理解することは、都市開発と政策立案の導出に不可欠である。 この研究は、コンピュータ科学と都市研究を橋渡しし、これらの分野をそれぞれの焦点と統合するという課題に対処する。 重力や放射線モデルのような伝統的な都市研究手法は、多変数の扱いが制限され、空間等方性のような過度に単純で非現実的な仮定に依存するため、複雑なシナリオでは過小評価されることが多い。 ディープラーニングモデルは精度の向上を提供するが、そのブラックボックスの性質は、パフォーマンスと説明可能性の間にトレードオフをもたらし、どちらも通勤フローのような複雑な社会現象を分析するのに不可欠である。 そこで我々は,都市交通パターンの予測にフロー・ツー・フロー・アテンションを用いた,説明可能なトランスフォーマーモデルTransFlowerを紹介する。 異方性対応の相対位置エンコーダを備えた地理空間エンコーダを特徴とする。 これに続いて、変圧器に基づく流れ予測器は、注意機構を利用して流れの相互作用を効率的に捉えることにより、これを強化する。 我々のモデルは、都市計画と政策決定に不可欠な移動力学に関する洞察を提供する、通勤者の共通部分の最大30.8%で既存の手法より優れている。

Understanding the link between urban planning and commuting flows is crucial for guiding urban development and policymaking. This research, bridging computer science and urban studies, addresses the challenge of integrating these fields with their distinct focuses. Traditional urban studies methods, like the gravity and radiation models, often underperform in complex scenarios due to their limited handling of multiple variables and reliance on overly simplistic and unrealistic assumptions, such as spatial isotropy. While deep learning models offer improved accuracy, their black-box nature poses a trade-off between performance and explainability -- both vital for analyzing complex societal phenomena like commuting flows. To address this, we introduce TransFlower, an explainable, transformer-based model employing flow-to-flow attention to predict urban commuting patterns. It features a geospatial encoder with an anisotropy-aware relative location encoder for nuanced flow representation. Following this, the transformer-based flow predictor enhances this by leveraging attention mechanisms to efficiently capture flow interactions. Our model outperforms existing methods by up to 30.8% Common Part of Commuters, offering insights into mobility dynamics crucial for urban planning and policy decisions.
翻訳日:2024-02-26 14:00:10 公開日:2024-02-23
# 超伝導クビットアレイにおけるフォノンを介する準粒子ポゾンのモデル化

Modeling Phonon-mediated Quasiparticle Poisoning in Superconducting Qubit Arrays ( http://arxiv.org/abs/2402.15471v1 )

ライセンス: Link先を確認
Eric Yelton, Clayton P. Larson, Vito Iaia, Kenneth Dodge, Guglielmo La Magna, Paul G. Baity, Ivan V. Pechenezhskiy, Robert McDermott, Noah Kurinsky, Gianluigi Catelani, Britton L. T. Plourde(参考訳) 超伝導量子ビットチップに衝突する電離放射線による相関誤差は、量子誤り訂正に問題となる。 このような影響は、クビット電極に準粒子(QP)励起を生成し、クビットコヒーレンスを一時的に減少させる。 粒子衝突によって生成される多くのエネルギーフォノンは、デバイス基板を通して効率的に移動し、高い確率で準粒子を生成し、配列内の多くの量子ビットに同時にエラーを引き起こす。 衝撃の余波におけるフォノンおよび準粒子動力学の数値シミュレーションのための総合的戦略について述べる。 本実験は, フォノンを媒介とするqp中毒のシミュレーションと比較し, qp中毒の空間的および時間的足跡を, 様々な形態のフォノンダウンコンバージョン構造で捉えることを実証する。 そこで我々は、イオン化放射線の存在下での超伝導量子プロセッサの動作に向けた経路を提案する。

Correlated errors caused by ionizing radiation impacting superconducting qubit chips are problematic for quantum error correction. Such impacts generate quasiparticle (QP) excitations in the qubit electrodes, which temporarily reduce qubit coherence significantly. The many energetic phonons produced by a particle impact travel efficiently throughout the device substrate and generate quasiparticles with high probability, thus causing errors on a large fraction of the qubits in an array simultaneously. We describe a comprehensive strategy for the numerical simulation of the phonon and quasiparticle dynamics in the aftermath of an impact. We compare the simulations with experimental measurements of phonon-mediated QP poisoning and demonstrate that our modeling captures the spatial and temporal footprint of the QP poisoning for various configurations of phonon downconversion structures. We thus present a path forward for the operation of superconducting quantum processors in the presence of ionizing radiation.
翻訳日:2024-02-26 13:54:17 公開日:2024-02-23
# 自動走行におけるパノプティックセグメンテーションのロバスト性評価

Benchmarking the Robustness of Panoptic Segmentation for Automated Driving ( http://arxiv.org/abs/2402.15469v1 )

ライセンス: Link先を確認
Yiting Wang, Haonan Zhao, Daniel Gummadi, Mehrdad Dianati, Kurt Debattista and Valentina Donzella(参考訳) AAD(Assisted and automated driving)機能の安全な意思決定には,正確な状況認識が必要である。 パンオプティカルセグメンテーション(panoptic segmentation)は、物体を識別し分類し、危険を回避し、ピクセルレベルで駆動可能な空間を作る、有望な知覚技術である。 セグメンテーションの品質は一般的にカメラデータの品質と関係するが、この関係の包括的理解とモデリングはaadシステム設計者にとって重要である。 このようなニーズに応えて、この研究は、従来の画像品質と相関して、AADのための単視分割モデルの堅牢性を評価する統一パイプラインを提案する。 提案パイプラインの最初のステップは、実世界のノイズ要因を反映した劣化したカメラデータを生成することである。 この結果、19のノイズ要因が特定され、3つの重大度レベルで実装されている。 これらの要因のうち,本研究は,好ましくない光と雪の新しいモデルを提案する。 劣化モデルを適用した後、3つの最先端cnnおよびビジョントランスフォーマ(vit)ベースのパンオプティックセグメンテーションネットワークを用いてロバスト性を分析する。 次に、セグメンテーション性能のバリエーションを、選択した8つの画像品質指標に関連付ける。 この研究は 1) 特定のノイズ要因は, パンオプティカルセグメンテーション, すなわちレンズやガウスノイズに対する液滴に最も影響を及ぼす。 2)vitに基づくパンオプティカルセグメンテーションバックボーンは,検討された雑音要因に対するロバスト性が向上する。 3)いくつかの画像品質指標(LPIPSとCW-SSIM)は、光学的セグメンテーション性能と強く相関しているため、ネットワーク性能の予測指標として使用できる。

Precise situational awareness is required for the safe decision-making of assisted and automated driving (AAD) functions. Panoptic segmentation is a promising perception technique to identify and categorise objects, impending hazards, and driveable space at a pixel level. While segmentation quality is generally associated with the quality of the camera data, a comprehensive understanding and modelling of this relationship are paramount for AAD system designers. Motivated by such a need, this work proposes a unifying pipeline to assess the robustness of panoptic segmentation models for AAD, correlating it with traditional image quality. The first step of the proposed pipeline involves generating degraded camera data that reflects real-world noise factors. To this end, 19 noise factors have been identified and implemented with 3 severity levels. Of these factors, this work proposes novel models for unfavourable light and snow. After applying the degradation models, three state-of-the-art CNN- and vision transformers (ViT)-based panoptic segmentation networks are used to analyse their robustness. The variations of the segmentation performance are then correlated to 8 selected image quality metrics. This research reveals that: 1) certain specific noise factors produce the highest impact on panoptic segmentation, i.e. droplets on lens and Gaussian noise; 2) the ViT-based panoptic segmentation backbones show better robustness to the considered noise factors; 3) some image quality metrics (i.e. LPIPS and CW-SSIM) correlate strongly with panoptic segmentation performance and therefore they can be used as predictive metrics for network performance.
翻訳日:2024-02-26 13:54:01 公開日:2024-02-23
# CLIPPER+:ロバストなグローバル登録のための高速最大斜めアルゴリズム

CLIPPER+: A Fast Maximal Clique Algorithm for Robust Global Registration ( http://arxiv.org/abs/2402.15464v1 )

ライセンス: Link先を確認
Kaveh Fathian, Tyler Summers(参考訳) 未重み付きグラフの最大傾きを求めるアルゴリズムであるCLIPPER+を提案する。 登録問題はグラフとして定式化でき、最大のクランクを見つけることで解くことができる。 この定式化は外れ値に対する極端なロバスト性をもたらすが、最大クランクを求めることはnpハードな問題であり、それゆえ大規模問題には実際に近似が必要となる。 近似アルゴリズムの性能は、その計算複雑性(ランタイムが低いほど良い)と解の精度(解が最大傾きにどの程度近いか)によって評価される。 したがって、CLIPPER+の主なコントリビューションは、比較的低いランタイムを維持しながら、最先端の正確性を上回っている。 CLIPPER+ は以前の作業 (CLIPPER [1] と PMC [2]) に基づいて構築され、小さなコア番号を持ち最大傾きの一部にはならない頂点を削除してグラフをプルークする。 これによりより小さなグラフが得られ、最大傾きをかなり速く推定することができる。 標準グラフベンチマークにおけるCLIPPER+の性能と,合成および実世界のクラウド登録問題を評価する。 これらの評価は、CLIPPER+の精度が最も高く、99セント以上の関連が外れたシナリオでポイントクラウドを登録できることを示している。 コードと評価ベンチマークはhttps://github.com/ariarobotics/clipperp.comで公開されています。

We present CLIPPER+, an algorithm for finding maximal cliques in unweighted graphs for outlier-robust global registration. The registration problem can be formulated as a graph and solved by finding its maximum clique. This formulation leads to extreme robustness to outliers; however, finding the maximum clique is an NP-hard problem, and therefore approximation is required in practice for large-size problems. The performance of an approximation algorithm is evaluated by its computational complexity (the lower the runtime, the better) and solution accuracy (how close the solution is to the maximum clique). Accordingly, the main contribution of CLIPPER+ is outperforming the state-of-the-art in accuracy while maintaining a relatively low runtime. CLIPPER+ builds on prior work (CLIPPER [1] and PMC [2]) and prunes the graph by removing vertices that have a small core number and cannot be a part of the maximum clique. This will result in a smaller graph, on which the maximum clique can be estimated considerably faster. We evaluate the performance of CLIPPER+ on standard graph benchmarks, as well as synthetic and real-world point cloud registration problems. These evaluations demonstrate that CLIPPER+ has the highest accuracy and can register point clouds in scenarios where over $99\%$ of associations are outliers. Our code and evaluation benchmarks are released at https://github.com/ariarobotics/clipperp.
翻訳日:2024-02-26 13:53:31 公開日:2024-02-23
# 量子ネットワークにおける長小経路の重要性

Unveiling the Importance of Longer Paths in Quantum Networks ( http://arxiv.org/abs/2402.15462v1 )

ライセンス: Link先を確認
Xinqi Hu, Gaogao Dong, Renaud Lambiotte, Kim Christensen, Jingfang Fan, Lixin Tian, Shlomo Havlin, Xiangyi Meng(参考訳) 量子通信技術の進歩は、ネットワーク科学を通じてアプローチされた第一原理から量子ネットワーク(QN)設計をよりよく理解することを求めている。 パイオニアリング研究は、QN間の絡み合い伝達のタスクをモデル化する古典的なパーコレーションマッピングを確立した。 しかし、このマッピングは、古典的なパーコレーションによって予測されるよりも効率的な絡み合い伝達を促進するQNで観測される強いが完全には理解されていない接続性を捉えない。 本研究では、この拡張接続性の基礎となる潜在的な統計理論の臨界現象、すなわちコンカレンス・パーコレーションについて考察する。 古典的なパーコレーションと比較すると、コンカレンスパーコレーションマッピングは、経路接続ルールの異なるセットを利用して、経路接続の「スーパーポーシング(superposing)」というユニークなアプローチを採用する。 まず,2つの異なるネットワーク長尺度U$\leq$Vを特徴とする階層的,スケールフリーなネットワーク,特にUVフラワーモデルに対するパーコレーション臨界指数を解析的に導出した。 解析により,超スケーリング関係を満たす古典的および共起的パーコレーションが,それぞれ異なる普遍性クラスに分類されることを確認した。 最も重要なのは、この分離は、接続性全体に対する非短経路の異なる処理に起因している。 特に、長い経路スケールVが大きくなるにつれて、コンカレンスパーコレーションはその臨界しきい値と臨界指数の両方に無視できない依存を保ち、従って古典的なものと比較すると、非ショートパスの弱体化に対する高いレジリエンスを示す。 この高いレジリエンスは、実世界のネットワークトポロジ、例えばインターネットでも観察される。 長いパスは、QNが豊富な限り、QN接続に大きく貢献します。

The advancement of quantum communication technologies is calling for a better understanding of quantum network (QN) design from first principles, approached through network science. Pioneering studies have established a classical percolation mapping to model the task of entanglement transmission across QN. Yet, this mapping does not capture the stronger, yet not fully understood connectivity observed in QNs, which facilitates more efficient entanglement transmission than predicted by classical percolation. In this work, we explore the critical phenomena of the potential statistical theory underlying this enhanced connectivity, known as concurrence percolation. Compared to classical percolation, the concurrence percolation mapping employs a unique approach of "superposing" path connectivities, utilizing a different set of path connectivity rules, thereby boosting the overall network connectivity. Firstly, we analytically derive the percolation critical exponents for hierarchical, scale-free networks, particularly the UV flower model, characterized by two distinct network length scales, U$\leq$V. Our analysis confirms that classical and concurrence percolations, albeit both satisfying the hyperscaling relation, fall into separate universality classes. Most importantly, this separation stems from their different treatment of non-shortest path contributions to overall connectivity. Notably, as the longer path scale V increases, concurrence percolation retains unignorable dependence of both its critical threshold and critical exponents on V and thus, comparing with its classical counterpart, shows a higher resilience to the weakening of non-shortest paths. This higher resilience is also observed in real-world network topology, e.g., the Internet. Our findings reveal a first principle for QN design: longer paths still contribute significantly to QN connectivity -- as long as they are abundant.
翻訳日:2024-02-26 13:53:07 公開日:2024-02-23
# 二次元分光法による非マルコフ浴誘起カップリング

Non-Markovian bath-induced coupling revealed by two-dimensional spectroscopy ( http://arxiv.org/abs/2402.15454v1 )

ライセンス: Link先を確認
Roosmarijn de Wit and Jonathan Keeling and Brendon W. Lovett and Alex W. Chin(参考訳) オープン量子系の分野における問題は、しばしば励起力学に大きな影響を及ぼす環境を含む。 ここでは, 浴槽の非マルコフ的処理においてのみ発生する形態の異なる系状態間のコヒーレントカップリングが存在することを示す。 これはシステムバス状態が絡み合っているため、単純な吸収スペクトルと2次元電子分光法において、この物理学の異なる符号が存在することを示す。 そこで,非マルコフ開量子系の光学スペクトルをシミュレートする数値的手法を提案する。 この手法はプロセステンソルフレームワークを用いて、数値的に正確にマルチタイム相関を効率的に計算する。

Problems in the field of open quantum systems often involve an environment that greatly impacts excitation dynamics. Here we show that there can be coherent coupling between different system states of a form that only occurs in a non-Markovian treatment of the bath. Because this involves entangled system-bath states, we demonstrate that there are distinct signatures of this physics in simple absorption spectra and two-dimensional electronic spectroscopy. To do this we introduce a numerical method to simulate optical spectra of non-Markovian open quantum systems. The method employs a process tensor framework to efficiently compute multi-time correlation in a numerically exact way.
翻訳日:2024-02-26 13:52:37 公開日:2024-02-23
# 繰り返しが言語モデルの埋め込みを改善する

Repetition Improves Language Model Embeddings ( http://arxiv.org/abs/2402.15449v1 )

ライセンス: Link先を確認
Jacob Mitchell Springer, Suhas Kotha, Daniel Fried, Graham Neubig, Aditi Raghunathan(参考訳) 自己回帰型大規模言語モデル(LLM)からテキスト埋め込みを抽出するための最近のアプローチは、主にデータの改善、バックボーン事前学習言語モデルの改善、命令によるタスク差分の改善に焦点を当てている。 本稿では,自己回帰モデルにおけるアーキテクチャ上の制限に対処する。トークン埋め込みは,後から入力に現れるトークンからの情報を含むことができない。 この制限に対処するために、我々は「エコー埋め込み」という単純なアプローチを提案し、入力を文脈で2回繰り返し、埋め込みを第2の発生から抽出する。 初期トークンのエコー埋め込みは、後続トークンに関する情報を符号化することができ、埋め込みに高品質のLCMを最大限活用できることを示す。 MTEBのリーダーボードでは、エコー埋め込みは古典的な埋め込みよりも9%以上ゼロショット、微調整すると約0.7%向上する。 Mistral-7Bモデルによるエコー埋め込みは、合成微調整データを使用しない以前のオープンソースモデルと比較して最先端を実現している。

Recent approaches to improving the extraction of text embeddings from autoregressive large language models (LLMs) have largely focused on improvements to data, backbone pretrained language models, or improving task-differentiation via instructions. In this work, we address an architectural limitation of autoregressive models: token embeddings cannot contain information from tokens that appear later in the input. To address this limitation, we propose a simple approach, "echo embeddings," in which we repeat the input twice in context and extract embeddings from the second occurrence. We show that echo embeddings of early tokens can encode information about later tokens, allowing us to maximally leverage high-quality LLMs for embeddings. On the MTEB leaderboard, echo embeddings improve over classical embeddings by over 9% zero-shot and by around 0.7% when fine-tuned. Echo embeddings with a Mistral-7B model achieve state-of-the-art compared to prior open source models that do not leverage synthetic fine-tuning data.
翻訳日:2024-02-26 13:52:26 公開日:2024-02-23
# 人身売買調査におけるマルチメディア測地のためのコンピュータビジョン:システム文献レビュー

Computer Vision for Multimedia Geolocation in Human Trafficking Investigation: A Systematic Literature Review ( http://arxiv.org/abs/2402.15448v1 )

ライセンス: Link先を確認
Opeyemi Bamigbade and John Sheppard and Mark Scanlon(参考訳) マルチメディア位置情報の課題は、人身売買、児童性的搾取、その他の違法行為と効果的に戦うためのデジタル法医学ツールキットの不可欠な要素になりつつある。 通常、メタデータベースの位置情報情報は、インスタントメッセージやソーシャルメディアを介してマルチメディアコンテンツを共有する場合に削除される。 この内容の位置情報、ジオタグ付け、または地理的手がかりの発見の複雑さは、しばしば調査員にとって過度に重荷となる。 近年の研究では、人工知能の現代的進歩、特にコンピュータビジョンとディープラーニングは、マルチメディア位置情報タスクの迅速化への大きな期待を示している。 この体系的文献レビューは,マルチメディア位置情報のためのコンピュータビジョン技術を活用した最先端の技術を徹底的に検討し,人身売買調査の迅速化の可能性を評価する。 これには、コンピュータビジョンベースのアプローチによるマルチメディアジオロケーションの応用の概要、人身売買との戦いにおける適用可能性の特定、人身売買の訴追におけるマルチメディアジオロケーションの強化がもたらす影響の解明が含まれる。 123の論文がこの体系的な文献レビューを通知する。 この結果から,将来的な影響研究の道筋が多岐にわたることが示唆された。

The task of multimedia geolocation is becoming an increasingly essential component of the digital forensics toolkit to effectively combat human trafficking, child sexual exploitation, and other illegal acts. Typically, metadata-based geolocation information is stripped when multimedia content is shared via instant messaging and social media. The intricacy of geolocating, geotagging, or finding geographical clues in this content is often overly burdensome for investigators. Recent research has shown that contemporary advancements in artificial intelligence, specifically computer vision and deep learning, show significant promise towards expediting the multimedia geolocation task. This systematic literature review thoroughly examines the state-of-the-art leveraging computer vision techniques for multimedia geolocation and assesses their potential to expedite human trafficking investigation. This includes a comprehensive overview of the application of computer vision-based approaches to multimedia geolocation, identifies their applicability in combating human trafficking, and highlights the potential implications of enhanced multimedia geolocation for prosecuting human trafficking. 123 articles inform this systematic literature review. The findings suggest numerous potential paths for future impactful research on the subject.
翻訳日:2024-02-26 13:52:10 公開日:2024-02-23
# 学んだことを忘れられるか? 反復的信念修正におけるドキサスティックな冗長性

Can we forget how we learned? Doxastic redundancy in iterated belief revision ( http://arxiv.org/abs/2402.15445v1 )

ライセンス: Link先を確認
Paolo Liberatore(参考訳) 情報獲得の方法が無関係になるかもしれない。 明らかなケースは、何かを何度も確認することです。 反復的信条改正においては、特定の改定が他者の前では無関係になる可能性がある。 単純な繰り返しが例ですが、これが発生した唯一のケースではありません。 時として、修正が等しくない場合や、それを示すものでさえも、冗長になることがある。 辞書修正のシーケンスの第1の冗長性に必要かつ十分な条件が与えられる。 問題は2つの命題修正だけでcoNP完全である。 複雑性はホーンの場合と同じであるが、リビジョンは無制限であり、2つのリビジョンで多項式となる。 レキシカルリビジョンは、それ自体が関係しているだけでなく、反復リビジョンプロセスの状態を表すのに使用される一般的なメカニズムの中で最もコンパクトである。 辞書リビジョンの短縮シーケンスは、反復的信念リビジョン状態の最もコンパクトな表現を短縮している。

How information was acquired may become irrelevant. An obvious case is when something is confirmed many times. In terms of iterated belief revision, a specific revision may become irrelevant in presence of others. Simple repetitions are an example, but not the only case when this happens. Sometimes, a revision becomes redundant even in presence of none equal, or even no else implying it. A necessary and sufficient condition for the redundancy of the first of a sequence of lexicographic revisions is given. The problem is coNP-complete even with two propositional revisions only. Complexity is the same in the Horn case but only with an unbounded number of revisions: it becomes polynomial with two revisions. Lexicographic revisions are not only relevant by themselves, but also because sequences of them are the most compact of the common mechanisms used to represent the state of an iterated revision process. Shortening sequences of lexicographic revisions is shortening the most compact representations of iterated belief revision states.
翻訳日:2024-02-26 13:51:50 公開日:2024-02-23
# GROS: 一般的なロバスト集約戦略

GROS: A General Robust Aggregation Strategy ( http://arxiv.org/abs/2402.15442v1 )

ライセンス: Link先を確認
Alejandro Cholaquidis, Emilien Joly, Leonardo Moreno(参考訳) 距離空間における推定器を組み合わせるための新しい、非常に一般的な、堅牢な手順がGROSを導入している。 この方法は、よく知られた平均の中央値を想起させるもので、 \cite{devroye2016sub} に記述されている。 まず、サンプルは$k$グループに分割される。 その後、各グループに対する推定値を算出する。 最後に、これらの$K$推定器はロバストな手順で結合される。 この推定器が準ガウジアンであることを証明し、ドノホの意味でそのブレークダウンポイントを得る。 このロバストな手順は、一般計量空間上の最小化問題を含むが、この最小化がサンプルを乗っ取ると、同じ(定数まで)準ガウス性が得られることが示され、実際にGROSが実現可能である。 grosの性能は5つのシミュレーション研究によって評価される: 1つ目は$k$-meansを使った分類、もう1つはマルチアームのバンディット問題、2つ目は回帰問題である。 第4の問題は、ノイズモデルに基づく集合推定問題である。 最後に、grosを堅牢な永続的なダイアグラムに当てはめます。

A new, very general, robust procedure for combining estimators in metric spaces is introduced GROS. The method is reminiscent of the well-known median of means, as described in \cite{devroye2016sub}. Initially, the sample is divided into $K$ groups. Subsequently, an estimator is computed for each group. Finally, these $K$ estimators are combined using a robust procedure. We prove that this estimator is sub-Gaussian and we get its break-down point, in the sense of Donoho. The robust procedure involves a minimization problem on a general metric space, but we show that the same (up to a constant) sub-Gaussianity is obtained if the minimization is taken over the sample, making GROS feasible in practice. The performance of GROS is evaluated through five simulation studies: the first one focuses on classification using $k$-means, the second one on the multi-armed bandit problem, the third one on the regression problem. The fourth one is the set estimation problem under a noisy model. Lastly, we apply GROS to get a robust persistent diagram.
翻訳日:2024-02-26 13:51:13 公開日:2024-02-23
# フェルミオン代数上の半径乗数として作用するいくつかのチャネルの絡み合い支援古典的容量

Entanglement-assisted classical capacities of some channels acting as radial multipliers on fermion algebras ( http://arxiv.org/abs/2402.15440v1 )

ライセンス: Link先を確認
C\'edric Arhancet(参考訳) 有限次元フェルミオン代数により行列代数 $\mathrm{m}_{2^k}$ が同定されたとき、ラジアル乗算器として作用する、$\mathrm{m}_{2^k}$ 上の単位量子チャネルの新しいクラスを調べる。 我々の主な貢献は、ノイズのない絡み合いを無制限に共有するときに、送信者から受信者へこれらのチャネルを通して古典的な情報を伝達できる(最適)レートの正確な計算である。 このアプローチはフェルミオン代数と n$-次元離散超立方体 {\{-1,1\}^n$ およびより一般にカントール群との新たな接続に依存する。 特に、この計算はフェルミオン性オルンシュタイン-ウレンベック半群の作用素に適用できる正確な値を与える。 この進歩は、これらのチャネルの構造と振る舞いに関する深い洞察を与えるだけでなく、次元に依存しない文脈における量子情報理論の理解を深める。

We investigate a new class of unital quantum channels on $\mathrm{M}_{2^k}$, acting as radial multipliers when we identify the matrix algebra $\mathrm{M}_{2^k}$ with a finite-dimensional fermion algebra. Our primary contribution lies in the precise computation of the (optimal) rate at which classical information can be transmitted through these channels from a sender to receiver when they share an unlimited amount of noiseless entanglement. Our approach relies on new connections between fermions algebras with the $n$-dimensional discrete hypercube $\{-1,1\}^n$ and more generally the Cantor group. Significantly, our calculations yield exact values applicable to the operators of the fermionic Ornstein-Uhlenbeck semigroup. This advancement not only provides deeper insights into the structure and behaviour of these channels but also enhances our understanding of Quantum Information Theory in a dimension-independent context.
翻訳日:2024-02-26 13:50:57 公開日:2024-02-23
# 普遍的下界と最適速度:サブ指数混合モデルにおけるミニマックスクラスタリング誤差の達成

Universal Lower Bounds and Optimal Rates: Achieving Minimax Clustering Error in Sub-Exponential Mixture Models ( http://arxiv.org/abs/2402.15432v1 )

ライセンス: Link先を確認
Maximilien Dreveton, Alperen G\"ozeten, Matthias Grossglauser, Patrick Thiran(参考訳) クラスタリングは教師なし機械学習の重要な課題であり、混合モデルのレンズを通してしばしば研究される。 gaussianとsub-gaussian混合モデルにおけるクラスターラベルの回復のための最適誤差率は、アドホック信号対雑音比を含む。 ロイドのアルゴリズムのような単純な反復アルゴリズムはこの最適な誤差率を達成する。 本稿ではまず,任意の混合モデルのクラスタリングにおいて,信号-雑音比よりもモデル情報の多角的尺度であるチェルノフ発散によって表現される誤り率の普遍的下限を確立する。 そこで我々は,ラプラス分布誤差を特徴とする位置スケール混合を特に強調する部分指数尾を持つ混合モデルにおいて,この低境界を実現する反復アルゴリズムを実証した。 さらに,ポアソンあるいは負の2項混合によりモデル化されたデータセットについて,指数関数族に属する分布を持つ混合モデルについて検討する。 このような混合では、ブレグマンの発散を利用したロイドのアルゴリズムの変種であるブレグマンハードクラスタリングがレート最適である。

Clustering is a pivotal challenge in unsupervised machine learning and is often investigated through the lens of mixture models. The optimal error rate for recovering cluster labels in Gaussian and sub-Gaussian mixture models involves ad hoc signal-to-noise ratios. Simple iterative algorithms, such as Lloyd's algorithm, attain this optimal error rate. In this paper, we first establish a universal lower bound for the error rate in clustering any mixture model, expressed through a Chernoff divergence, a more versatile measure of model information than signal-to-noise ratios. We then demonstrate that iterative algorithms attain this lower bound in mixture models with sub-exponential tails, notably emphasizing location-scale mixtures featuring Laplace-distributed errors. Additionally, for datasets better modelled by Poisson or Negative Binomial mixtures, we study mixture models whose distributions belong to an exponential family. In such mixtures, we establish that Bregman hard clustering, a variant of Lloyd's algorithm employing a Bregman divergence, is rate optimal.
翻訳日:2024-02-26 13:50:39 公開日:2024-02-23
# 大きなスケールでのロバストかつ解釈可能な視覚タスクのための階層的不変性

Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales ( http://arxiv.org/abs/2402.15430v1 )

ライセンス: Link先を確認
Shuren Qi, Yushu Zhang, Chao Wang, Zhihua Xia, Jian Weng, Xiaochun Cao(参考訳) 堅牢で解釈可能な視覚システムを開発することは、信頼できる人工知能への重要なステップである。 この点に関して、有望なパラダイムは、基本画像表現におけるタスク要求不変構造(例えば幾何学的不変量)の埋め込みを考える。 しかし、そのような不変表現は一般に限定的な識別可能性を示し、より大規模な信頼できる視覚タスクにおける応用を制限する。 このオープンな問題に対して,階層的不変性の体系的調査を行い,理論的,実用的,応用的観点から考察する。 理論的なレベルでは、畳み込みニューラルネットワーク(cnn)のような階層構造を持ちながら完全に解釈可能な方法で超完全不変量を構築する方法を示す。 一般的な青写真、特定の定義、不変性、数値的な実装を提供する。 実用レベルでは、この理論フレームワークを与えられたタスクにカスタマイズする方法について議論する。 オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成することができる。 本研究では, テクスチャ, ディジット, 寄生虫の分類実験において, 精度, 不変性, 効率性を示す。 さらに、アプリケーションレベルでは、我々の表現は、敵対的摂動とaigc(artificial intelligence generated content)に関する現実世界の鑑識タスクで探求される。 このような応用により,提案手法は理論的に約束された不変性を実現するだけでなく,深層学習の時代においても競争性のある差別性を示すことが明らかとなった。 大きなスケールでのロバストで解釈可能なビジョンタスクでは、階層的不変表現は従来のcnnや不変量に代わる有効な選択肢と見なすことができる。

Developing robust and interpretable vision systems is a crucial step towards trustworthy artificial intelligence. In this regard, a promising paradigm considers embedding task-required invariant structures, e.g., geometric invariance, in the fundamental image representation. However, such invariant representations typically exhibit limited discriminability, limiting their applications in larger-scale trustworthy vision tasks. For this open problem, we conduct a systematic investigation of hierarchical invariance, exploring this topic from theoretical, practical, and application perspectives. At the theoretical level, we show how to construct over-complete invariants with a Convolutional Neural Networks (CNN)-like hierarchical architecture yet in a fully interpretable manner. The general blueprint, specific definitions, invariant properties, and numerical implementations are provided. At the practical level, we discuss how to customize this theoretical framework into a given task. With the over-completeness, discriminative features w.r.t. the task can be adaptively formed in a Neural Architecture Search (NAS)-like manner. We demonstrate the above arguments with accuracy, invariance, and efficiency results on texture, digit, and parasite classification experiments. Furthermore, at the application level, our representations are explored in real-world forensics tasks on adversarial perturbations and Artificial Intelligence Generated Content (AIGC). Such applications reveal that the proposed strategy not only realizes the theoretically promised invariance, but also exhibits competitive discriminability even in the era of deep learning. For robust and interpretable vision tasks at larger scales, hierarchical invariant representation can be considered as an effective alternative to traditional CNN and invariants.
翻訳日:2024-02-26 13:50:20 公開日:2024-02-23
# ProTIP:確率的摂動に対するテキスト・画像拡散モデルの確率的ロバスト性検証

ProTIP: Probabilistic Robustness Verification on Text-to-Image Diffusion Models against Stochastic Perturbation ( http://arxiv.org/abs/2402.15429v1 )

ライセンス: Link先を確認
Yi Zhang, Yun Tang, Wenjie Ruan, Xiaowei Huang, Siddartha Khastgir, Paul Jennings, Xingyu Zhao(参考訳) text-to-image (t2i) diffusion models (dms)は、単純なテキスト記述に基づいて高品質な画像を生成する素晴らしい能力を示している。 しかし、多くのディープラーニング(DL)モデルに共通するように、DMは堅牢性に欠ける。 T2I DMのロバスト性は二分問題や最悪の問題として評価する試みもあるが、逆例(AE)が見つかると、モデルが一般にロバストであることに答えることはできない。 本研究ではまず,T2I DMsの頑健性に関する確率論的概念を導入し,統計的保証により評価するための効率的なフレームワークであるProTIPを確立する。 主な課題は次の通りである。 一 生成プロセスの高い計算コスト、及び 二 摂動入力が ae であるか否かの判定は、2つの出力分布を比較し、ラベルの誤推定により ae が識別される分類のような他の dl タスクと比べ、基本的に難しい。 そこで本研究では,aesを同定するための統計的テストにおいて,有効性と不安定性を早期停止規則として逐次解析し,検証対象が満たされる度に確率的摂動の「正しい」数を動的に決定する適応的濃度不等式を用いる。 実験により、一般的なT2I DMに対するProTIPの有効性と効率が検証された。 最後に、一般的な防御手法のランク付けにProTIPを適用した。

Text-to-Image (T2I) Diffusion Models (DMs) have shown impressive abilities in generating high-quality images based on simple text descriptions. However, as is common with many Deep Learning (DL) models, DMs are subject to a lack of robustness. While there are attempts to evaluate the robustness of T2I DMs as a binary or worst-case problem, they cannot answer how robust in general the model is whenever an adversarial example (AE) can be found. In this study, we first introduce a probabilistic notion of T2I DMs' robustness; and then establish an efficient framework, ProTIP, to evaluate it with statistical guarantees. The main challenges stem from: i) the high computational cost of the generation process; and ii) determining if a perturbed input is an AE involves comparing two output distributions, which is fundamentally harder compared to other DL tasks like classification where an AE is identified upon misprediction of labels. To tackle the challenges, we employ sequential analysis with efficacy and futility early stopping rules in the statistical testing for identifying AEs, and adaptive concentration inequalities to dynamically determine the "just-right" number of stochastic perturbations whenever the verification target is met. Empirical experiments validate the effectiveness and efficiency of ProTIP over common T2I DMs. Finally, we demonstrate an application of ProTIP to rank commonly used defence methods.
翻訳日:2024-02-26 13:49:56 公開日:2024-02-23
# 人間集団におけるエントレインメントの理解:人間-人間協調の授業から学ぶ人間-ロボット協調の最適化

Understanding Entrainment in Human Groups: Optimising Human-Robot Collaboration from Lessons Learned during Human-Human Collaboration ( http://arxiv.org/abs/2402.15427v1 )

ライセンス: Link先を確認
Eike Schneiders, Christopher Fourie, Stanley Celestin, Julie Shah, Malte Jung(参考訳) コラボレーションにおけるトレーニングの成功は、信頼、協力への意欲、協力者への好意に肯定的な影響を及ぼす。 本稿では,ペアおよびグループベースの同期に繋がるエントレインメントの特性を検討するための混合手法を提案する。 産業環境からインスピレーションを得て、高速で短時間の反復的なタスクを設計しました。 動作追跡を用いて,3進的タスク完了時の運動運動について検討した。 さらに,音声映像記録と半構造化インタビューを用いて参加者の体験を文脈化する。 本稿では,HCI/HRI(Human-Computer/Robot Interaction, HCI/HRI)の文献に貢献し,ペアとグループによる協調作業における運動の特徴を同定する。 訓練成功に関する5つの特徴を提示する。 これらは、エントレメントの発生、リーダー・フォロワーパターン、対人コミュニケーション、ポイント・オブ・アセンブリの重要性、音響的フィードバックの価値に関連する。 最後に,ロボットとのコラボレーションに関する今後の研究と設計のための3つの設計考察を行う。

Successful entrainment during collaboration positively affects trust, willingness to collaborate, and likeability towards collaborators. In this paper, we present a mixed-method study to investigate characteristics of successful entrainment leading to pair and group-based synchronisation. Drawing inspiration from industrial settings, we designed a fast-paced, short-cycle repetitive task. Using motion tracking, we investigated entrainment in both dyadic and triadic task completion. Furthermore, we utilise audio-video recordings and semi-structured interviews to contextualise participants' experiences. This paper contributes to the Human-Computer/Robot Interaction (HCI/HRI) literature using a human-centred approach to identify characteristics of entrainment during pair- and group-based collaboration. We present five characteristics related to successful entrainment. These are related to the occurrence of entrainment, leader-follower patterns, interpersonal communication, the importance of the point-of-assembly, and the value of acoustic feedback. Finally, we present three design considerations for future research and design on collaboration with robots.
翻訳日:2024-02-26 13:49:28 公開日:2024-02-23
# Blended Positional Encodings を用いたシームレスヒューマンモーション合成

Seamless Human Motion Composition with Blended Positional Encodings ( http://arxiv.org/abs/2402.15509v1 )

ライセンス: Link先を確認
German Barquero, Sergio Escalera and Cristina Palmero(参考訳) 条件付き人間のモーション生成は、仮想現実、ゲーム、ロボット工学の多くの応用において重要なトピックである。 以前の作品では、テキスト、音楽、シーンによってガイドされた動きを生成することに焦点が当てられていたが、それらは通常、短い期間でのみ孤立した動きをもたらす。 代わりに、様々なテキスト記述の連続によって導かれる長い連続的なシーケンスの生成を扱う。 本研究では, 後処理や冗長な復調処理を伴わずに, シームレスなヒューマン・モーション・コンポジション(HMC)を生成する最初の拡散モデルであるFlowMDMを紹介する。 そこで本研究では,絶対エンコーディングと相対的な位置エンコーディングの両方を活用する手法であるblended positional encodingsを提案する。 より具体的には、グローバルな運動コヒーレンスは絶対的な段階で回復されるが、滑らかで現実的な遷移は相対的な段階で構築される。 その結果、BabelおよびHumanML3Dデータセットの精度、リアリズム、滑らかさの観点から、最先端の結果が得られる。 flowmdmは、ポーズ中心のクロスアテンションのおかげで、モーションシーケンス毎に単一の記述でトレーニングする場合に優れているため、推論時にさまざまなテキスト記述に対して堅牢である。 最後に、既存のHMCメトリクスの限界に対処するため、突発的な遷移を検出するために、ピーク・ジャークとエリア・アンダー・ジャークという2つの新しい指標を提案する。

Conditional human motion generation is an important topic with many applications in virtual reality, gaming, and robotics. While prior works have focused on generating motion guided by text, music, or scenes, these typically result in isolated motions confined to short durations. Instead, we address the generation of long, continuous sequences guided by a series of varying textual descriptions. In this context, we introduce FlowMDM, the first diffusion-based model that generates seamless Human Motion Compositions (HMC) without any postprocessing or redundant denoising steps. For this, we introduce the Blended Positional Encodings, a technique that leverages both absolute and relative positional encodings in the denoising chain. More specifically, global motion coherence is recovered at the absolute stage, whereas smooth and realistic transitions are built at the relative stage. As a result, we achieve state-of-the-art results in terms of accuracy, realism, and smoothness on the Babel and HumanML3D datasets. FlowMDM excels when trained with only a single description per motion sequence thanks to its Pose-Centric Cross-ATtention, which makes it robust against varying text descriptions at inference time. Finally, to address the limitations of existing HMC metrics, we propose two new metrics: the Peak Jerk and the Area Under the Jerk, to detect abrupt transitions.
翻訳日:2024-02-26 13:45:40 公開日:2024-02-23
# AgentOhana: 効果的なエージェント学習のための統一データとトレーニングパイプライン

AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning ( http://arxiv.org/abs/2402.15506v1 )

ライセンス: Link先を確認
Jianguo Zhang, Tian Lan, Rithesh Murthy, Zhiwei Liu, Weiran Yao, Juntao Tan, Thai Hoang, Liangwei Yang, Yihao Feng, Zuxin Liu, Tulika Awalgaonkar, Juan Carlos Niebles, Silvio Savarese, Shelby Heinecke, Huan Wang, Caiming Xiong(参考訳) 大規模言語モデル(LLM)を利用した自律エージェントは、重要な研究の注目を集めている。 しかし、エージェントベースのタスクにLLMの可能性を十分に活用することは、マルチターン軌道を特徴とする多様なデータソースの異種性に起因する固有の課題をもたらす。 本稿では,これらの課題に対処するための包括的ソリューションとして,textbf{AgentOhana}を紹介する。 \textit{AgentOhana}は、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。 エージェントトレーニングに最適化されたジェネリックデータローダの作成を合理化して、これらのトラジェクトリを一貫したフォーマットに慎重に標準化し、統一する。 データ統合を活用することで、トレーニングパイプラインは、さまざまなデータソース間の均衡を維持し、データセット分割とモデルトレーニングの間、デバイス間で独立したランダム性を保持します。 さらに,AIエージェントに適した大規模アクションモデルである‘textbf{xLAM-v0.1} を,様々なベンチマークで異常な性能を示す。

Autonomous agents powered by large language models (LLMs) have garnered significant research attention. However, fully harnessing the potential of LLMs for agent-based tasks presents inherent challenges due to the heterogeneous nature of diverse data sources featuring multi-turn trajectories. In this paper, we introduce \textbf{AgentOhana} as a comprehensive solution to address these challenges. \textit{AgentOhana} aggregates agent trajectories from distinct environments, spanning a wide array of scenarios. It meticulously standardizes and unifies these trajectories into a consistent format, streamlining the creation of a generic data loader optimized for agent training. Leveraging the data unification, our training pipeline maintains equilibrium across different data sources and preserves independent randomness across devices during dataset partitioning and model training. Additionally, we present \textbf{xLAM-v0.1}, a large action model tailored for AI agents, which demonstrates exceptional performance across various benchmarks.
翻訳日:2024-02-26 13:45:17 公開日:2024-02-23
# 共同指導型学習:専門家の階層的混合による弱相関一般化の改善

Co-Supervised Learning: Improving Weak-to-Strong Generalization with Hierarchical Mixture of Experts ( http://arxiv.org/abs/2402.15505v1 )

ライセンス: Link先を確認
Yuejiang Liu, Alexandre Alahi(参考訳) インターネット規模のデータで事前訓練された強固なモデルの振る舞いを操るのは、有能な管理者が不足しているため困難である。 近年の研究では、監督的な騒音にもかかわらず、特定の目的を微調整すると、強力な生徒モデルが弱い教師を上回る可能性があることが示されている。 しかし、そのような弱強一般化の有効性は、特に大きな能力ギャップの存在下では限定的である。 本稿では,一貫した生徒を統括する一貫した一般教師ではなく,多様な専門教員の集合を活用することで,この課題に対処することを提案する。 私たちのアプローチは、古典的な階層的な専門家の混合に似ている。 i) 学生の教育と教員の任命を段階的に交互に交互に行い, 学生の成長を活用して, もっともらしい監督者を特定すること。 (ii)我々は教師・生徒・地域・グローバル一貫性を保守的に強制し、その依存関係を利用して潜在的なアノテーションノイズを拒否する。 提案手法は,OpenAIの弱強度ベンチマークと追加のマルチドメインデータセットを用いた視覚認識タスクにより検証する。 我々のコードは \url{https://github.com/yuejiangliu/csl} で入手できる。

Steering the behavior of a strong model pre-trained on internet-scale data can be difficult due to the scarcity of competent supervisors. Recent studies reveal that, despite supervisory noises, a strong student model may surpass its weak teacher when fine-tuned on specific objectives. Yet, the effectiveness of such weak-to-strong generalization remains limited, especially in the presence of large capability gaps. In this paper, we propose to address this challenge by harnessing a diverse set of specialized teachers, instead of a single generalist one, that collectively supervises the strong student. Our approach resembles the classical hierarchical mixture of experts, with two components tailored for co-supervision: (i) we progressively alternate student training and teacher assignment, leveraging the growth of the strong student to identify plausible supervisions; (ii) we conservatively enforce teacher-student and local-global consistency, leveraging their dependencies to reject potential annotation noises. We validate the proposed method through visual recognition tasks on the OpenAI weak-to-strong benchmark and additional multi-domain datasets. Our code is available at \url{https://github.com/yuejiangliu/csl}.
翻訳日:2024-02-26 13:45:01 公開日:2024-02-23
# Gen4Gen: 生成多概念合成のための生成データパイプライン

Gen4Gen: Generative Data Pipeline for Generative Multi-Concept Composition ( http://arxiv.org/abs/2402.15504v1 )

ライセンス: Link先を確認
Chun-Hsiao Yeh, Ta-Ying Cheng, He-Yen Hsieh, Chuan-En Lin, Yi Ma, Andrew Markham, Niki Trigoni, H.T. Kung, Yubei Chen(参考訳) 最近のテキスト・ツー・イメージ拡散モデルでは、新しい、パーソナライズされた概念(例えば、自分のペットや特定のアイテム)を含むイメージを学習し、合成することができる。 本稿では,テキスト・画像拡散モデルのパーソナライズという領域における2つの相互接続問題に取り組む。 まず、現在のパーソナライズ技術は複数の概念に確実に拡張できない -- 複雑なシーンと事前トレーニングデータセット(LAIONなど)の単純なテキスト記述とのミスマッチによるものだと仮定する。 第二に、複数のパーソナライズされた概念を含むイメージには、パーソナライズされた概念の類似度だけでなく、イメージ内にすべての概念が存在するか、そのイメージが全体のテキスト記述を正確に反映しているかという、全体的な評価基準が欠けている。 これらの問題に対処するために、生成モデルを利用した半自動データセット生成パイプラインであるGen4Genを紹介した。 これを用いて、マルチコンセプトパーソナライゼーションのタスクをベンチマークするために、MyCanvasというデータセットを作成します。 さらに,2つのスコア(CP-CLIPとTI-CLIP)からなる総合的メトリクスを設計し,マルチコンセプト・パーソナライズされたテキスト・ツー・イメージ拡散手法の性能を定量的に評価する。 Custom Diffusion上に構築されたシンプルなベースラインを,将来の研究者がMyCanvasで評価するための実証的な戦略として提供する。 本研究では,データ品質の向上とプロンプト戦略により,モデルアーキテクチャやトレーニングアルゴリズムの変更を必要とせずに,複数概念のパーソナライズされた画像生成品質を大幅に向上できることを示す。

Recent text-to-image diffusion models are able to learn and synthesize images containing novel, personalized concepts (e.g., their own pets or specific items) with just a few examples for training. This paper tackles two interconnected issues within this realm of personalizing text-to-image diffusion models. First, current personalization techniques fail to reliably extend to multiple concepts -- we hypothesize this to be due to the mismatch between complex scenes and simple text descriptions in the pre-training dataset (e.g., LAION). Second, given an image containing multiple personalized concepts, there lacks a holistic metric that evaluates performance on not just the degree of resemblance of personalized concepts, but also whether all concepts are present in the image and whether the image accurately reflects the overall text description. To address these issues, we introduce Gen4Gen, a semi-automated dataset creation pipeline utilizing generative models to combine personalized concepts into complex compositions along with text-descriptions. Using this, we create a dataset called MyCanvas, that can be used to benchmark the task of multi-concept personalization. In addition, we design a comprehensive metric comprising two scores (CP-CLIP and TI-CLIP) for better quantifying the performance of multi-concept, personalized text-to-image diffusion methods. We provide a simple baseline built on top of Custom Diffusion with empirical prompting strategies for future researchers to evaluate on MyCanvas. We show that by improving data quality and prompting strategies, we can significantly increase multi-concept personalized image generation quality, without requiring any modifications to model architecture or training algorithms.
翻訳日:2024-02-26 13:44:42 公開日:2024-02-23
# メカニカル・インフォームドオートエンコーダは予測できない構造損傷の自動検出と局在化を可能にする

Mechanics-Informed Autoencoder Enables Automated Detection and Localization of Unforeseen Structural Damage ( http://arxiv.org/abs/2402.15492v1 )

ライセンス: Link先を確認
Xuyang Li, Hamed Bolandi, Mahdi Masmoudi, Talal Salem, Nizar Lajnef, Vishnu Naresh Boddeti(参考訳) 構造的健康モニタリング(SHM)は、建物や橋などの構造物の安全性と長寿を確保するために不可欠である。 構造物のボリュームと規模と障害の影響が拡大するにつれ、スケーラブルで安価で、人間の介入なしにパッシブに動作し、複雑なベースラインモデルを必要としない各機械構造用にカスタマイズされたscm技術が必要となる。 本稿では,構造物の損傷の自動検出と局所化のための新しい"deploy-and-forget"手法を提案する。 これは、安価なセンサーとメカニックインフォームドオートエンコーダによる完全な受動的測定の相乗的な組み合わせに基づいている。 一度デプロイすると、我々のソリューションは各構造に対して継続的に学習し、その損傷のない状態の応答特性から学習する。 わずか3時間のデータから学習すると、さまざまな種類の予期せぬ損傷を自律的に検出し、ローカライズすることができる。 数値シミュレーションおよび実験の結果, 変分オートエンコーダに機械的特性を組み込むことで, 標準オートエンコーダよりも最大で35%早く損傷の検出と局所化が可能であることが示唆された。 このアプローチは,人的介入と検査コストの大幅な削減を約束し,積極的な予防的維持戦略を可能にし,土木インフラの寿命,信頼性,持続可能性を拡張する。

Structural health monitoring (SHM) is vital for ensuring the safety and longevity of structures like buildings and bridges. As the volume and scale of structures and the impact of their failure continue to grow, there is a dire need for SHM techniques that are scalable, inexpensive, operate passively without human intervention, and customized for each mechanical structure without the need for complex baseline models. We present a novel "deploy-and-forget" approach for automated detection and localization of damages in structures. It is based on a synergistic combination of fully passive measurements from inexpensive sensors and a mechanics-informed autoencoder. Once deployed, our solution continuously learns and adapts a bespoke baseline model for each structure, learning from its undamaged state's response characteristics. After learning from just 3 hours of data, it can autonomously detect and localize different types of unforeseen damage. Results from numerical simulations and experiments indicate that incorporating the mechanical characteristics into the variational autoencoder allows for up to 35\% earlier detection and localization of damage over a standard autoencoder. Our approach holds substantial promise for a significant reduction in human intervention and inspection costs and enables proactive and preventive maintenance strategies, thus extending the lifespan, reliability, and sustainability of civil infrastructures.
翻訳日:2024-02-26 13:44:11 公開日:2024-02-23
# API-BLEND: API LLMのトレーニングとベンチマークのための総合コーパス

API-BLEND: A Comprehensive Corpora for Training and Benchmarking API LLMs ( http://arxiv.org/abs/2402.15491v1 )

ライセンス: Link先を確認
Kinjal Basu, Ibrahim Abdelaziz, Subhajit Chaudhury, Soham Dan, Maxwell Crouse, Asim Munawar, Sadhana Kumaravel, Vinod Muthusamy, Pavan Kapanipathi, Luis A. Lastras(参考訳) ツールと外部アプリケーションプログラミングインターフェース(API)を効果的に利用し、タスクを計画し、完成させるために、LLM(Large Language Models)の必要性はますます高まっている。 そのため、ツールやAPIへの呼び出しを含む十分な量のトレインデータやテストデータを取得する方法には、非常に関心があります。 この課題に対処するための主要な戦略として、2つの研究線が生まれている。 ひとつは合成データ生成技術、もうひとつはapi/ツールベースのタスクに変換可能なタスクに隣接したデータセットのキュレーションに関するものだ。 本稿では,既存のデータセットを特定し,キュレートし,変換するタスクに着目し,ツール拡張LDMのトレーニングと体系的なテストを行うための大規模なコーパスであるAPI-BLENDを導入する。 データセットは、API/ツール検出、スロットフィリング、検出されたAPIのシークエンシングといったAPIタスクを含む現実のシナリオを模倣する。 トレーニングとベンチマークのためのAPI-BLENDデータセットの有用性を実証する。

There is a growing need for Large Language Models (LLMs) to effectively use tools and external Application Programming Interfaces (APIs) to plan and complete tasks. As such, there is tremendous interest in methods that can acquire sufficient quantities of train and test data that involve calls to tools / APIs. Two lines of research have emerged as the predominant strategies for addressing this challenge. The first has focused on synthetic data generation techniques, while the second has involved curating task-adjacent datasets which can be transformed into API / Tool-based tasks. In this paper, we focus on the task of identifying, curating, and transforming existing datasets and, in turn, introduce API-BLEND, a large corpora for training and systematic testing of tool-augmented LLMs. The datasets mimic real-world scenarios involving API-tasks such as API / tool detection, slot filling, and sequencing of the detected APIs. We demonstrate the utility of the API-BLEND dataset for both training and benchmarking purposes.
翻訳日:2024-02-26 13:43:45 公開日:2024-02-23
# 深層学習における畳み込みの包括的調査 : 応用,課題,将来動向

A Comprehensive Survey of Convolutions in Deep Learning: Applications, Challenges, and Future Trends ( http://arxiv.org/abs/2402.15490v1 )

ライセンス: Link先を確認
Abolfazl Younesi, Mohsen Ansari, MohammadAmin Fazli, Alireza Ejlali, Muhammad Shafique, J\"org Henkel(参考訳) 今日のデジタル時代において、ディープラーニング(DL)のサブセットである畳み込みニューラルネットワーク(CNN)は、画像分類、オブジェクト検出、イメージセグメンテーションといった様々なコンピュータビジョンタスクに広く利用されている。 1D、2D、3D CNN、拡張、グループ化、注目、深みのある畳み込み、NASなど、特定のニーズと要求を満たすように設計されたCNNには、数多くの種類がある。 それぞれのタイプのcnnは独特の構造と特性を持ち、特定のタスクに適している。 強みと弱みを理解するために、これらの異なるcnnタイプの詳細な理解と比較分析を行うことが重要です。 さらに、各タイプのCNNの性能、限界、実用性についての研究は、将来新しい改良されたアーキテクチャの開発に役立てることができる。 また、研究者がさまざまな観点から研究や開発に利用するプラットフォームやフレームワークにも目を向けます。 さらに,CNNの6次元視覚,生成モデル,メタラーニングといった研究分野についても検討する。 本稿では,CNNアーキテクチャの総合的な検討と比較を行い,アーキテクチャの違いを強調し,それぞれのメリット,デメリット,アプリケーション,課題,今後の動向を強調する。

In today's digital age, Convolutional Neural Networks (CNNs), a subset of Deep Learning (DL), are widely used for various computer vision tasks such as image classification, object detection, and image segmentation. There are numerous types of CNNs designed to meet specific needs and requirements, including 1D, 2D, and 3D CNNs, as well as dilated, grouped, attention, depthwise convolutions, and NAS, among others. Each type of CNN has its unique structure and characteristics, making it suitable for specific tasks. It's crucial to gain a thorough understanding and perform a comparative analysis of these different CNN types to understand their strengths and weaknesses. Furthermore, studying the performance, limitations, and practical applications of each type of CNN can aid in the development of new and improved architectures in the future. We also dive into the platforms and frameworks that researchers utilize for their research or development from various perspectives. Additionally, we explore the main research fields of CNN like 6D vision, generative models, and meta-learning. This survey paper provides a comprehensive examination and comparison of various CNN architectures, highlighting their architectural differences and emphasizing their respective advantages, disadvantages, applications, challenges, and future trends.
翻訳日:2024-02-26 13:43:28 公開日:2024-02-23
# RoboEXP:ロボットマニピュレーションのためのインタラクティブ探索によるアクションコンディションシーングラフ

RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for Robotic Manipulation ( http://arxiv.org/abs/2402.15487v1 )

ライセンス: Link先を確認
Hanxiao Jiang, Binghao Huang, Ruihai Wu, Zhuoran Li, Shubham Garg, Hooshang Nayyeri, Shenlong Wang, Yunzhu Li(参考訳) ロボットは、未知の環境でタスクに適応し、対処するために周囲を探索する必要がある。 以前の研究では環境のシーングラフの構築が提案されていたが、通常、環境は静的であり、アクティブな相互作用を必要とする領域を省略する。 テーブルをセットアップする前に、ロボットはすべての道具や調味料を見つけるために引き出しやキャビネットを探索しなければならない。 本研究では,ロボットが環境を自律的に探索し,環境の構造を捉えた行動条件付きシーングラフ(ACSG)を作成する,インタラクティブなシーン探索という新たな課題を紹介する。 acsgは、幾何学や意味論などの低レベル情報と、シーン内の異なるエンティティ間のアクション条件付き関係のような高レベル情報の両方を記述している。 そこで本研究では,大規模マルチモーダルモデル (lmm) と明示的なメモリ設計を組み込んだロボット探索 (roboexp) システムを提案する。 ロボットは、オブジェクトの探索方法や、インタラクションプロセスを通じて新しい情報を蓄積し、ACSGを漸進的に構築する。 実世界の様々な環境にゼロショットで適用し、これまで見たことのない環境の探索とモデリングにその効果を実証する。 構築したacsgを活用したroboexpシステムでは,剛性のある関節のある物体,マトリオシュカ人形のようなネストされた物体,布のような変形可能な物体を含む,幅広い実世界の操作作業が容易になる。

Robots need to explore their surroundings to adapt to and tackle tasks in unknown environments. Prior work has proposed building scene graphs of the environment but typically assumes that the environment is static, omitting regions that require active interactions. This severely limits their ability to handle more complex tasks in household and office environments: before setting up a table, robots must explore drawers and cabinets to locate all utensils and condiments. In this work, we introduce the novel task of interactive scene exploration, wherein robots autonomously explore environments and produce an action-conditioned scene graph (ACSG) that captures the structure of the underlying environment. The ACSG accounts for both low-level information, such as geometry and semantics, and high-level information, such as the action-conditioned relationships between different entities in the scene. To this end, we present the Robotic Exploration (RoboEXP) system, which incorporates the Large Multimodal Model (LMM) and an explicit memory design to enhance our system's capabilities. The robot reasons about what and how to explore an object, accumulating new information through the interaction process and incrementally constructing the ACSG. We apply our system across various real-world settings in a zero-shot manner, demonstrating its effectiveness in exploring and modeling environments it has never seen before. Leveraging the constructed ACSG, we illustrate the effectiveness and efficiency of our RoboEXP system in facilitating a wide range of real-world manipulation tasks involving rigid, articulated objects, nested objects like Matryoshka dolls, and deformable objects like cloth.
翻訳日:2024-02-26 13:43:07 公開日:2024-02-23
# システム環境量子情報フロー

System-environment quantum information flow ( http://arxiv.org/abs/2402.15483v1 )

ライセンス: Link先を確認
Taysa M. Mendon\c{c}a, Lucas C. C\'eleri, Mauro Paternostro, Diogo O. Soares-Pinto(参考訳) 環境と相互作用する量子システムの力学のキャラクタリゼーションは、物理的プロセスの動作中に量子資源がどのように変換または消費されるかを明らかにする。 いくつかのシナリオでは、そのような消費は環境が引き起こしたバックアクションによってシステムに情報を返すために逆転する。 この現象は環境における非マルコフ機構の存在と関係があり、そのような資源の変換は量子情報応用に有用である。 したがって、システムの環境情報力学、すなわち量子資源の伝達の詳細を理解することは、ノイズ耐性量子技術を設計する上で重要である。 本研究では,量子コヒーレンス(quantum coherence)と呼ばれる量子資源が,メインシステムから環境へ伝播する様子を示す。 このようにして、メインキュービットを離れ、環境を通り抜ける情報の伝播と、その環境からメインシステムへの回帰を特徴付ける。 最後に、この力学の出現条件と量子ダーウィン論の存在を結びつける。

The characterization of the dynamics of a quantum system that interacts with an environment reveals how quantum resources are transformed or consumed during the action of a physical process. In some scenarios, such consumption is reversed due to an environment-induced back-action that causes the return of the information to the system. This phenomenon can be related to existence of non-Markovian mechanisms in the environment and such transformation of resources can be useful for quantum information applications. Thus, understanding the details of the system-environment information dynamics, i.e., the transference of quantum resources is of key importance to design noise-resilient quantum technologies. In this work, we show how a quantum resource, named quantum coherence, propagates from the main system to an environment, using as model a single qubit coupled to two linear chains of qubits, and also the information dynamics among the environment qubits. In this way, we characterize the propagation of information leaving the main qubit and going through the environment, as well as its return from the environment to the main system. Finally, we connect the conditions for the emergence of this dynamics to the existence of quantum Darwinism.
翻訳日:2024-02-26 13:42:35 公開日:2024-02-23
# prejudiceとcaprice:大規模言語モデルにおける社会的差別を測定するための統計的枠組み

Prejudice and Caprice: A Statistical Framework for Measuring Social Discrimination in Large Language Models ( http://arxiv.org/abs/2402.15481v1 )

ライセンス: Link先を確認
Yiran Liu (1 and 2), Ke Yang (1 and 3), Zehan Qi (2), Xiao Liu (2), Yang Yu (2), Chengxiang Zhai (3) ((1) Equal contributions, (2) Tsinghua University, (3) University of Illinois Urbana-Champaign)(参考訳) 大規模言語モデル(LLM)の社会活動への統合は、経済、法律、教育、医療といった重要な分野における決定に対する影響を増幅し、これらのモデルの差別に関する安全性と信頼性に対する公衆の懸念を高めている。 しかしながら、事前の差別測定フレームワークは LLM の平均的な差別行動のみを評価するものであり、様々な文脈における LLM の予測変動が、追加の差別誘導因子の見落としにより、しばしば不適切であることが証明される。 本研究では,LLMにおける差別を包括的に評価するPrejudice-Caprice Framework(PCF)を提案する。 具体的には、LLMの集合的文脈的識別リスクを、LLMの持続的偏見から生じる偏見リスクと、それらの世代的矛盾から生じるキャプライスリスクに数学的に分解する。 さらに,データマイニング手法を用いて,属性表示のない文骨格から好み検出プローブを収集し,LLMの適用文脈を近似する。 当初 LLM における差別評価を目的としていたが,提案した PCF は,偏見を伴う知識を含むあらゆる帰納バイアスの包括的かつ柔軟な測定を容易にする。 差別計測の枠組みを12の共通LLMに適用し、興味深い結果を得た。 一 現代LPMは、有意な前雄性ステレオタイプを示す。 二 LLMの表示された差別は、いくつかの社会的・経済的要因と相関する。 三 偏見リスクが全体の差別リスクを支配し、正常な分布に従うこと、及び 四 キャプライスリスクは、全体的なリスクに最小限に寄与するが、脂肪分分布に従わなければならず、監視の強化を必要とする危険なリスクである。

The growing integration of large language models (LLMs) into social operations amplifies their impact on decisions in crucial areas such as economics, law, education, and healthcare, raising public concerns about these models' discrimination-related safety and reliability. However, prior discrimination measuring frameworks solely assess the average discriminatory behavior of LLMs, often proving inadequate due to the overlook of an additional discrimination-leading factor, i.e., the LLMs' prediction variation across diverse contexts. In this work, we present the Prejudice-Caprice Framework (PCF) that comprehensively measures discrimination in LLMs by considering both their consistently biased preference and preference variation across diverse contexts. Specifically, we mathematically dissect the aggregated contextualized discrimination risk of LLMs into prejudice risk, originating from LLMs' persistent prejudice, and caprice risk, stemming from their generation inconsistency. In addition, we utilize a data-mining approach to gather preference-detecting probes from sentence skeletons, devoid of attribute indications, to approximate LLMs' applied contexts. While initially intended for assessing discrimination in LLMs, our proposed PCF facilitates the comprehensive and flexible measurement of any inductive biases, including knowledge alongside prejudice, across various modality models. We apply our discrimination-measuring framework to 12 common LLMs, yielding intriguing findings: i) modern LLMs demonstrate significant pro-male stereotypes, ii) LLMs' exhibited discrimination correlates with several social and economic factors, iii) prejudice risk dominates the overall discrimination risk and follows a normal distribution, and iv) caprice risk contributes minimally to the overall risk but follows a fat-tailed distribution, suggesting that it is wild risk requiring enhanced surveillance.
翻訳日:2024-02-26 13:42:04 公開日:2024-02-23
# retinotopic mappingは畳み込みニューラルネットワークのロバスト性を高める

Retinotopic Mapping Enhances the Robustness of Convolutional Neural Networks ( http://arxiv.org/abs/2402.15480v1 )

ライセンス: Link先を確認
Jean-Nicolas J\'er\'emie and Emmanuel Dauc\'e and Laurent U Perrinet(参考訳) 人間を含む多くの動物が共有するfoveated visionは、生物学的視覚機能に重要な貢献をしているにもかかわらず、機械学習アプリケーションで完全には使われていない。 本研究では,foveated visionの重要な構成要素であるレチノトピーマッピングが,深層畳み込みニューラルネットワーク(cnns)に統合された場合の画像分類と局所化性能を向上させることができるかを検討する。 レチノトピックマッピングは、標準の既製の畳み込みニューラルネットワーク(CNN)の入力に統合され、ImageNetタスクで再トレーニングされた。 予想通り、対数極マッピングはネットワークの任意のズームや回転、特に孤立した物体を扱う能力を改善した。 驚くべきことに、retinotoply mapping networkは分類において同等のパフォーマンスを達成した。 さらに, ネットワークは, 変形の中心がずれた場合に, 分類の局所化が向上することを示した。 これは、典型的な畳み込みニューラルネットワーク(cnns)にはない人間の視覚システムの重要な能力を再現する。 これらの結果から,レチノトピーマッピングは重要な先行視覚過程の基本である可能性が示唆された。

Foveated vision, a trait shared by many animals, including humans, has not been fully utilized in machine learning applications, despite its significant contributions to biological visual function. This study investigates whether retinotopic mapping, a critical component of foveated vision, can enhance image categorization and localization performance when integrated into deep convolutional neural networks (CNNs). Retinotopic mapping was integrated into the inputs of standard off-the-shelf convolutional neural networks (CNNs), which were then retrained on the ImageNet task. As expected, the logarithmic-polar mapping improved the network's ability to handle arbitrary image zooms and rotations, particularly for isolated objects. Surprisingly, the retinotopically mapped network achieved comparable performance in classification. Furthermore, the network demonstrated improved classification localization when the foveated center of the transform was shifted. This replicates a crucial ability of the human visual system that is absent in typical convolutional neural networks (CNNs). These findings suggest that retinotopic mapping may be fundamental to significant preattentive visual processes.
翻訳日:2024-02-26 13:41:35 公開日:2024-02-23
# トランスフォーマーは表現力があるが、回帰には十分表現力があるか?

Transformers are Expressive, But Are They Expressive Enough for Regression? ( http://arxiv.org/abs/2402.15478v1 )

ライセンス: Link先を確認
Swaroop Nath, Harshad Khadilkar, Pushpak Bhattacharyya(参考訳) トランスフォーマーは自然言語処理において重要となり、機械翻訳や要約といったアプリケーションで顕著な成功を収めている。 広く採用されていることから、トランスフォーマーの表現性を分析しようとする研究がいくつかある。 ニューラルネットワークの表現性は、近似可能な関数のクラスである。 ニューラルネットワークが普遍関数近似器として機能できることは、完全に表現力がある。 トランスフォーマーについても同様の分析を試みる。 既存の主張とは対照的に,我々は変換器が連続関数を確実に近似するのに苦労していることを明らかにした。 中心的な疑問は、"\textit{Are Transformers really Universal Function Approximators}? これに対処するため、我々は徹底的な調査を行い、理論的洞察を提供し、実験を通じて証拠を支持する。 我々の貢献には、関数近似におけるトランスフォーマーの極限の根元を示す理論的解析と、その限界を検証するための広範な実験が含まれる。 これらの課題に光を当てることで、トランスフォーマーの能力に関する洗練された理解を提唱する。

Transformers have become pivotal in Natural Language Processing, demonstrating remarkable success in applications like Machine Translation and Summarization. Given their widespread adoption, several works have attempted to analyze the expressivity of Transformers. Expressivity of a neural network is the class of functions it can approximate. A neural network is fully expressive if it can act as a universal function approximator. We attempt to analyze the same for Transformers. Contrary to existing claims, our findings reveal that Transformers struggle to reliably approximate continuous functions, relying on piecewise constant approximations with sizable intervals. The central question emerges as: "\textit{Are Transformers truly Universal Function Approximators}?" To address this, we conduct a thorough investigation, providing theoretical insights and supporting evidence through experiments. Our contributions include a theoretical analysis pinpointing the root of Transformers' limitation in function approximation and extensive experiments to verify the limitation. By shedding light on these challenges, we advocate a refined understanding of Transformers' capabilities.
翻訳日:2024-02-26 13:41:17 公開日:2024-02-23
# 弱教師付き学習による機械学習モデルの偏差化

Debiasing Machine Learning Models by Using Weakly Supervised Learning ( http://arxiv.org/abs/2402.15477v1 )

ライセンス: Link先を確認
Renan D. B. Brotto, Jean-Michel Loubes, Laurent Risser, Jean-Pierre Florens, Kenji Nose-Filho and Jo\~ao M. T. Romano(参考訳) アルゴリズムの出力と感度変数の両方が連続的な設定において、アルゴリズム決定のバイアス軽減の問題に取り組む。 事前の作業の多くは、離散的な敏感な変数を扱い、つまり、バイアスはラベルで定義された人のサブグループで測定され、敏感な変数が連続している重要なアルゴリズム的バイアスケースを除外する。 典型的な例は、年齢や財務状況に関する不公平な判断である。 そこで本研究では,計量学の分野から派生した内在性の概念に基づいて,連続感度変数に対するバイアス緩和戦略を提案する。 この新しい問題を解決することに加えて、バイアス緩和戦略は、データのごく一部を公平な方法で測定することを要求する、弱い教師付き学習手法である。 予測モデルについて仮説を立てないという意味では、モデル非依存である。 また、かなりの量の入力観測とそれに対応する予測を用いている。 真の出力予測のごく一部しか知られていない。 したがって、専門的な介入の必要性は制限される。 合成データから得られた結果は,econometricsにおける実生活への適用に可能な限り近づいた例に対して,本手法の有効性を示す。

We tackle the problem of bias mitigation of algorithmic decisions in a setting where both the output of the algorithm and the sensitive variable are continuous. Most of prior work deals with discrete sensitive variables, meaning that the biases are measured for subgroups of persons defined by a label, leaving out important algorithmic bias cases, where the sensitive variable is continuous. Typical examples are unfair decisions made with respect to the age or the financial status. In our work, we then propose a bias mitigation strategy for continuous sensitive variables, based on the notion of endogeneity which comes from the field of econometrics. In addition to solve this new problem, our bias mitigation strategy is a weakly supervised learning method which requires that a small portion of the data can be measured in a fair manner. It is model agnostic, in the sense that it does not make any hypothesis on the prediction model. It also makes use of a reasonably large amount of input observations and their corresponding predictions. Only a small fraction of the true output predictions should be known. This therefore limits the need for expert interventions. Results obtained on synthetic data show the effectiveness of our approach for examples as close as possible to real-life applications in econometrics.
翻訳日:2024-02-26 13:41:00 公開日:2024-02-23
# RLHFにおける効率的なリワードモデリングのためのドメイン知識の活用:Eコマースオピニオン要約におけるケーススタディ

Leveraging Domain Knowledge for Efficient Reward Modelling in RLHF: A Case-Study in E-Commerce Opinion Summarization ( http://arxiv.org/abs/2402.15473v1 )

ライセンス: Link先を確認
Swaroop Nath, Tejpalsingh Siledar, Sankara Sri Raghava Ravindra Muddu, Rupasai Rangaraju, Harshad Khadilkar, Pushpak Bhattacharyya, Suman Banerjee, Amey Patil, Sudhanshu Shekhar Singh, Muthusamy Chelliah, Nikesh Garera(参考訳) Reinforcement Learning from Human Feedback (RLHF) は、人間の価値観や目標に対する言語モデル(LM)の運営において支配的な戦略となっている。 この戦略の鍵は、人間の潜在報酬モデルを反映した報酬モデル({$\varphi$})を採用することである。 この戦略は効果的であることが証明されているが、訓練方法は{$\varphi$} を訓練するには多くの人間の好みのアノテーション(通常数万のオーダー)を必要とする。 このような大規模な選好アノテーションは,報奨モデルがユビキタスに利用できれば実現可能だ。 しかし、人間の価値観/ゴールは主観的であり、タスクの性質に依存する。 これは下流アプリケーションに対する多様な好みを集める上で課題となる。 そこで本研究では,ドメイン知識を$\varphi$}に注入する手法を提案する。 E-Commerce Opinion Summarizationにおける我々のアプローチを検証すると同時に、データセットサイズ(わずか940ドルのサンプル)を大幅に削減し、最先端の最先端を推し進めています。 我々の貢献には、新しいリワードモデリング技術、オピニオン要約のための新しいデータセット(PromptOpinSumm)、人間の好みデータセット(OpinPref)が含まれる。 提案手法は、効率的なRLHFの道を開き、異なる人的価値を持つ多様なアプリケーションに適応できるようにする。 私たちはMITライセンス下で使用するアーティファクトをリリースします。

Reinforcement Learning from Human Feedback (RLHF) has become a dominating strategy in steering Language Models (LMs) towards human values/goals. The key to the strategy is employing a reward model ({$\varphi$}) which can reflect a latent reward model with humans. While this strategy has proven to be effective, the training methodology requires a lot of human preference annotation (usually of the order of tens of thousands) to train {$\varphi$}. Such large-scale preference annotations can be achievable if the reward model can be ubiquitously used. However, human values/goals are subjective and depend on the nature of the task. This poses a challenge in collecting diverse preferences for downstream applications. To address this, we propose a novel methodology to infuse domain knowledge into {$\varphi$}, which reduces the size of preference annotation required. We validate our approach in E-Commerce Opinion Summarization, with a significant reduction in dataset size (just $940$ samples) while advancing the state-of-the-art. Our contributions include a novel Reward Modelling technique, a new dataset (PromptOpinSumm) for Opinion Summarization, and a human preference dataset (OpinPref). The proposed methodology opens avenues for efficient RLHF, making it more adaptable to diverse applications with varying human values. We release the artifacts for usage under MIT License.
翻訳日:2024-02-26 13:40:43 公開日:2024-02-23
# FAIR: 自動帰納規則のフィルタリング

FAIR: Filtering of Automatically Induced Rules ( http://arxiv.org/abs/2402.15472v1 )

ライセンス: Link先を確認
Divya Jyoti Bajpai, Ayush Maheshwari, Manjesh Kumar Hanawal, Ganesh Ramakrishnan(参考訳) 大規模な注釈付きデータの可用性は、機械学習アルゴリズムのトレーニングにおいて、特に多様なドメインに適用した場合、重要なボトルネックとなる可能性がある。 弱監督は、ドメイン固有のルールを使用してラベル付きトレーニングデータの作成を加速することで、有望な代替手段を提供する。 しかし、ラベルのないデータにラベルを割り当てるために、ユーザは様々な高品質のルールを書く必要がある。 自動ルール誘導(ARI)は、小さなラベル付きセット上の機能からルールを自動生成し、最終的なルールセットをフィルタリングすることで、この問題を回避する。 ARIアプローチでは、重要なステップは、自動化されたルールの大きなセットから、高品質な有用なルールのサブセットをフィルタリングすることです。 本稿では,ルール集合の集合的精度,カバレッジ,コンフリクトを考慮に入れた準モジュラー目的関数を用いて,多数のルールからルールをフィルタリングするアルゴリズム(自動帰納規則のフィルタリング)を提案する。 3つのariアプローチと5つのテキスト分類データセットを用いて、複数の半教師付きラベルアグリゲーション手法に対するアルゴリズムの優れた性能を検証する。 さらに,既存のルールフィルタリング手法と比較して統計的に有意な結果が得られることを示す。

The availability of large annotated data can be a critical bottleneck in training machine learning algorithms successfully, especially when applied to diverse domains. Weak supervision offers a promising alternative by accelerating the creation of labeled training data using domain-specific rules. However, it requires users to write a diverse set of high-quality rules to assign labels to the unlabeled data. Automatic Rule Induction (ARI) approaches circumvent this problem by automatically creating rules from features on a small labeled set and filtering a final set of rules from them. In the ARI approach, the crucial step is to filter out a set of a high-quality useful subset of rules from the large set of automatically created rules. In this paper, we propose an algorithm (Filtering of Automatically Induced Rules) to filter rules from a large number of automatically induced rules using submodular objective functions that account for the collective precision, coverage, and conflicts of the rule set. We experiment with three ARI approaches and five text classification datasets to validate the superior performance of our algorithm with respect to several semi-supervised label aggregation approaches. Further, we show that achieves statistically significant results in comparison to existing rule-filtering approaches.
翻訳日:2024-02-26 13:40:03 公開日:2024-02-23
# 超解像深度マップのためのシーン事前フィルタリング

Scene Prior Filtering for Depth Map Super-Resolution ( http://arxiv.org/abs/2402.13876v2 )

ライセンス: Link先を確認
Zhengxue Wang and Zhiqiang Yan and Ming-Hsuan Yang and Jinshan Pan and Jian Yang and Ying Tai and Guangwei Gao(参考訳) マルチモーダル融合は深度マップの超解像の成功に不可欠である。 しかし、加法や連結といった一般的な融合戦略は、モーダルギャップを効果的に埋めるには不十分である。 その結果,この問題を軽減するため,ガイド画像フィルタリング手法が導入された。 それにもかかわらず、それらのフィルタカーネルは通常、重要なテクスチャ干渉とエッジ不正確さに遭遇する。 これら2つの課題に対処すべく,大規模モデルからの事前面正規化と意味マップを利用したシーン優先フィルタリングネットワークspfnetを導入する。 具体的には,マルチモーダルシーン,すなわちRGB,正規性,意味性,深さの類似性を計算し,テクスチャ干渉を低減するオールインワン優先伝搬を設計する。 さらに,Multual Guided Filtering を用いて,各単一モードの先行を連続的に奥行きに埋め込む1対1のプリエンベディングを提案し,エッジを拡大しながらテクスチャ干渉を緩和する。 我々のSPFNetは、実データと合成データの両方で広く評価され、最先端のパフォーマンスを実現しています。

Multi-modal fusion is vital to the success of super-resolution of depth maps. However, commonly used fusion strategies, such as addition and concatenation, fall short of effectively bridging the modal gap. As a result, guided image filtering methods have been introduced to mitigate this issue. Nevertheless, it is observed that their filter kernels usually encounter significant texture interference and edge inaccuracy. To tackle these two challenges, we introduce a Scene Prior Filtering network, SPFNet, which utilizes the priors surface normal and semantic map from large-scale models. Specifically, we design an All-in-one Prior Propagation that computes the similarity between multi-modal scene priors, i.e., RGB, normal, semantic, and depth, to reduce the texture interference. In addition, we present a One-to-one Prior Embedding that continuously embeds each single-modal prior into depth using Mutual Guided Filtering, further alleviating the texture interference while enhancing edges. Our SPFNet has been extensively evaluated on both real and synthetic datasets, achieving state-of-the-art performance.
翻訳日:2024-02-26 11:54:06 公開日:2024-02-23
# オフライン政策学習のための深層生成モデル--チュートリアル,調査,今後の方向性の展望

Deep Generative Models for Offline Policy Learning: Tutorial, Survey, and Perspectives on Future Directions ( http://arxiv.org/abs/2402.13777v3 )

ライセンス: Link先を確認
Jiayu Chen, Bhargav Ganguly, Yang Xu, Yongsheng Mei, Tian Lan, Vaneet Aggarwal(参考訳) deep generative models(dgms)は、オフラインデータからトレーニングされたモデルを使用してテキスト、画像、ビデオを生成することで、さまざまなドメインで大きな成功を収めています。 同様に、データ駆動意思決定とロボット制御は、オフラインデータからジェネレータ関数を学習し、戦略やポリシーとして機能する必要がある。 この場合、オフライン政策学習に深い生成モデルを適用することは大きな可能性を示し、この方向に多くの研究がなされている。 しかし、この分野には包括的なレビューがないため、異なるブランチの開発は比較的独立している。 そこで本研究では,オフラインポリシ学習における深層生成モデルの応用について,初めて体系的なレビューを行う。 特に, 変分自動エンコーダ, 生成適応ネットワーク, 正規化フロー, トランスフォーマー, 拡散モデル, オフライン強化学習(オフラインRL) と模倣学習(IL)の5つの主要な深層生成モデルについて述べる。 オフラインRLとILは、オフラインポリシー学習の2つの主要な分野であり、シーケンシャルな意思決定のための広く採用されている技術である。 具体的には、DGMをベースとしたオフライン政策学習において、基本スキームを精算し、DGMの使用状況に基づいて関連研究を分類し、その分野におけるアルゴリズムの開発プロセスを整理する。 そこで本研究では,本研究では,本研究の今後の方向性を概観した,深層生成モデルとオフライン政策学習に関する詳細な議論を要約として提示する。 この研究は、オフラインポリシー学習のための深い生成モデルの研究の進展をハンズオンで参照し、改良されたDGMベースのオフラインRLまたはILアルゴリズムを刺激することを目的としている。 便利のために、私たちはhttps://github.com/LucasCJYSDL/DGMs-for-Offline-Policy-Learningのペーパーリストを保持します。

Deep generative models (DGMs) have demonstrated great success across various domains, particularly in generating texts, images, and videos using models trained from offline data. Similarly, data-driven decision-making and robotic control also necessitate learning a generator function from the offline data to serve as the strategy or policy. In this case, applying deep generative models in offline policy learning exhibits great potential, and numerous studies have explored in this direction. However, this field still lacks a comprehensive review and so developments of different branches are relatively independent. Thus, we provide the first systematic review on the applications of deep generative models for offline policy learning. In particular, we cover five mainstream deep generative models, including Variational Auto-Encoders, Generative Adversarial Networks, Normalizing Flows, Transformers, and Diffusion Models, and their applications in both offline reinforcement learning (offline RL) and imitation learning (IL). Offline RL and IL are two main branches of offline policy learning and are widely-adopted techniques for sequential decision-making. Specifically, for each type of DGM-based offline policy learning, we distill its fundamental scheme, categorize related works based on the usage of the DGM, and sort out the development process of algorithms in that field. Subsequent to the main content, we provide in-depth discussions on deep generative models and offline policy learning as a summary, based on which we present our perspectives on future research directions. This work offers a hands-on reference for the research progress in deep generative models for offline policy learning, and aims to inspire improved DGM-based offline RL or IL algorithms. For convenience, we maintain a paper list on https://github.com/LucasCJYSDL/DGMs-for-Offline-Policy-Learning.
翻訳日:2024-02-26 11:53:46 公開日:2024-02-23
# CriticBench: 大規模言語モデルを批判として評価する

CriticBench: Evaluating Large Language Models as Critic ( http://arxiv.org/abs/2402.13764v3 )

ライセンス: Link先を確認
Tian Lan, Wenwei Zhang, Chen Xu, Heyan Huang, Dahua Lin, Kai Chen, Xian-ling Mao(参考訳) 批判能力は、大規模言語モデル(LLM)のスケーラブルな監視と自己改善に不可欠である。 近年の多くの研究でllmの欠陥を判断し洗練するための批判的能力が研究されているが、llmの批判的能力を包括的かつ確実に測定する方法は未検討である。 本稿では,LLMの4つの重要な批判能力次元(フィードバック,比較,洗練,メタフィードバック)を包括的かつ確実に評価する新しいベンチマークであるCryticBenchを紹介する。 CriticBenchは9つの多様なタスクを含み、それぞれがLLMの応答を様々な品質の粒度で批判する能力を評価する。 オープンソースおよびクローズドソースllmの広範な評価から,批判的能力とタスク,応答性,モデルスケールの関係が明らかとなった。 CriticBenchのデータセット、リソース、評価ツールキットはhttps://github.com/open-compass/CriticBenchで公開される。

Critique ability are crucial in the scalable oversight and self-improvement of Large Language Models (LLMs). While many recent studies explore the critique ability of LLMs to judge and refine flaws in generations, how to comprehensively and reliably measure the critique abilities of LLMs is under-explored. This paper introduces CriticBench, a novel benchmark designed to comprehensively and reliably evaluate four key critique ability dimensions of LLMs: feedback, comparison, refinement and meta-feedback. CriticBench encompasses nine diverse tasks, each assessing the LLMs' ability to critique responses at varying levels of quality granularity. Our extensive evaluations of open-source and closed-source LLMs reveal intriguing relationships between the critique ability and tasks, response qualities, and model scales. Datasets, resources and evaluation toolkit for CriticBench will be publicly released at https://github.com/open-compass/CriticBench.
翻訳日:2024-02-26 11:53:12 公開日:2024-02-23
# dslr:リハーサルベースグラフ連続学習のための多様性向上と構造学習

DSLR: Diversity Enhancement and Structure Learning for Rehearsal-based Graph Continual Learning ( http://arxiv.org/abs/2402.13711v3 )

ライセンス: Link先を確認
Seungyoon Choi, Wonjoong Kim, Sungwon Kim, Yeonjun In, Sein Kim, Chanyoung Park(参考訳) グラフ連続学習法(GCL)におけるリハーサルベースアプローチにおけるリプレイバッファの検討を行った。 既存のリハーサルベースのGCLメソッドは、各クラスの最も代表的なノードを選択し、後続のタスクをトレーニングするためにリプレイバッファに保存する。 しかし,各リプレイノードのクラス代表性のみを考慮すれば,リプレイノードが各クラスの中心に集中することになり,その領域に存在するノードに過度に適合する可能性があり,破滅的な忘れが悪化することがわかった。 さらに、リハーサルベースのアプローチは、過去のタスクから得られた知識を保持するために、いくつかのリプレイノードに大きく依存しているため、モデルトレーニングに非関連な隣人を持つリプレイノードは、モデルパフォーマンスに重大な有害な影響を及ぼす可能性がある。 本稿では,dslrと呼ばれるgclモデルを提案する。具体的には,各ノードのクラスにおけるクラス代表性と多様性を検討するためのカバレッジベース多様性(cd)アプローチを考案する。 さらに, グラフ構造学習(GSL)を用いて, 再生ノードが真に情報のある隣人に接続されていることを保証する。 実験の結果,DSLRの有効性と有効性を示した。 ソースコードはhttps://github.com/seungyoon-choi/dslr_officialで入手できます。

We investigate the replay buffer in rehearsal-based approaches for graph continual learning (GCL) methods. Existing rehearsal-based GCL methods select the most representative nodes for each class and store them in a replay buffer for later use in training subsequent tasks. However, we discovered that considering only the class representativeness of each replayed node makes the replayed nodes to be concentrated around the center of each class, incurring a potential risk of overfitting to nodes residing in those regions, which aggravates catastrophic forgetting. Moreover, as the rehearsal-based approach heavily relies on a few replayed nodes to retain knowledge obtained from previous tasks, involving the replayed nodes that have irrelevant neighbors in the model training may have a significant detrimental impact on model performance. In this paper, we propose a GCL model named DSLR, specifically, we devise a coverage-based diversity (CD) approach to consider both the class representativeness and the diversity within each class of the replayed nodes. Moreover, we adopt graph structure learning (GSL) to ensure that the replayed nodes are connected to truly informative neighbors. Extensive experimental results demonstrate the effectiveness and efficiency of DSLR. Our source code is available at https://github.com/seungyoon-Choi/DSLR_official.
翻訳日:2024-02-26 11:52:58 公開日:2024-02-23
# 量子ドットデバイス計測のための説明可能な分類手法

Explainable Classification Techniques for Quantum Dot Device Measurements ( http://arxiv.org/abs/2402.13699v2 )

ライセンス: Link先を確認
Daniel Schug, Tyler J. Kovach, M. A. Wolfe, Jared Benson, Sanghyeok Park, J. P. Dodson, J. Corrigan, M. A. Eriksson, Justyna P. Zwolak(参考訳) 物理科学では、画像データのロバストな特徴表現の必要性が増大している: 2次元データの一般的な意味での画像取得は、我々がここで考慮している量子情報科学を含む、多くの分野にまたがっている。 このような場合、従来の画像の特徴は広く活用されているが、その利用はニューラルネットワークベースの技術に取って代わられている。 このトレードオフを改善するために,説明可能な特徴をもたらす合成データベース手法を提案する。 本手法は,説明可能なブースティングマシン (ebms) を用いて, 精度を犠牲にすることなく, 優れた説明性が得られることを示す。 具体的には,現在の発達段階において人間の介入が必要となる量子ドットチューニングの文脈において,この手法には有意義なメリットがあることを示す。

In the physical sciences, there is an increased need for robust feature representations of image data: image acquisition, in the generalized sense of two-dimensional data, is now widespread across a large number of fields, including quantum information science, which we consider here. While traditional image features are widely utilized in such cases, their use is rapidly being supplanted by Neural Network-based techniques that often sacrifice explainability in exchange for high accuracy. To ameliorate this trade-off, we propose a synthetic data-based technique that results in explainable features. We show, using Explainable Boosting Machines (EBMs), that this method offers superior explainability without sacrificing accuracy. Specifically, we show that there is a meaningful benefit to this technique in the context of quantum dot tuning, where human intervention is necessary at the current stage of development.
翻訳日:2024-02-26 11:52:35 公開日:2024-02-23
# KetGPT -- 変圧器を用いた量子回路のデータセット拡張

KetGPT -- Dataset Augmentation of Quantum Circuits using Transformers ( http://arxiv.org/abs/2402.13352v3 )

ライセンス: Link先を確認
Boran Apak, Medina Bandic, Aritra Sarkar and Sebastian Feld(参考訳) 量子回路として表される量子アルゴリズムは、量子システムの性能を評価するベンチマークとして使用できる。 この分野で広く利用されている既存のデータセットはサイズと汎用性に制限があり、研究者はランダムに生成された回路を採用するようになった。 しかし、ランダム回路は、量子システムが製造される実際の量子アルゴリズム固有の性質を欠いているため、代表的なベンチマークではない。 この 'useful' 量子ベンチマークの不足は、量子コンパイラとハードウェアの開発と比較を進める上での課題である。 本研究の目的は,Transformer 機械学習アーキテクチャを用いて,私たちが「現実的な」回路と呼ぶものを生成することによって,既存の量子回路データセットを強化することである。 この目的のために,OpenQASM言語で合成回路を生成するツールであるKetGPTを紹介した。その構造は既存の量子アルゴリズムから派生した量子回路に基づいており,人間の書き起こしたアルゴリズムベースコード(ゲートとキュービットの順序など)の典型的なパターンに従う。 マニュアルインスペクションとqiskitフレームワークの実行,トランスフォーマーベースの分類,構造解析を含む3次元検証プロセスは,アルゴリズムベースの構造と密接に一致する大量の追加回路を生成する上で,ketgptの有効性を示す。 ベンチマーク以外にも、KetGPTはAI駆動の量子コンパイラやシステムに大きく貢献すると考えています。

Quantum algorithms, represented as quantum circuits, can be used as benchmarks for assessing the performance of quantum systems. Existing datasets, widely utilized in the field, suffer from limitations in size and versatility, leading researchers to employ randomly generated circuits. Random circuits are, however, not representative benchmarks as they lack the inherent properties of real quantum algorithms for which the quantum systems are manufactured. This shortage of `useful' quantum benchmarks poses a challenge to advancing the development and comparison of quantum compilers and hardware. This research aims to enhance the existing quantum circuit datasets by generating what we refer to as `realistic-looking' circuits by employing the Transformer machine learning architecture. For this purpose, we introduce KetGPT, a tool that generates synthetic circuits in OpenQASM language, whose structure is based on quantum circuits derived from existing quantum algorithms and follows the typical patterns of human-written algorithm-based code (e.g., order of gates and qubits). Our three-fold verification process, involving manual inspection and Qiskit framework execution, transformer-based classification, and structural analysis, demonstrates the efficacy of KetGPT in producing large amounts of additional circuits that closely align with algorithm-based structures. Beyond benchmarking, we envision KetGPT contributing substantially to AI-driven quantum compilers and systems.
翻訳日:2024-02-26 11:52:21 公開日:2024-02-23
# スケーラブルなヒューマンマシンポイントクラウド圧縮

Scalable Human-Machine Point Cloud Compression ( http://arxiv.org/abs/2402.12532v3 )

ライセンス: Link先を確認
Mateen Ulhaq, Ivan V. Baji\'c(参考訳) エッジデバイスの計算能力が限られているため、ディープラーニング推論は非常に高価である。 一つの対策は、サーバ側処理のためにネットワーク上でポイントクラウドデータを圧縮して送信することである。 残念ながら、このアプローチは利用可能なビットレートを含むネットワーク要因に敏感である。 幸運にも、マシンタスク特化コーデックを使用することで、推論精度を犠牲にすることなく、ビットレート要件を削減できる。 本稿では,分類の機械的タスクに特化する点クラウドデータのためのスケーラブルなコーデックを提案するとともに,人間の視聴のメカニズムも提供する。 提案するスケーラブルコーデックでは、"ベース"ビットストリームがマシンタスクをサポートし、"エンハンスメント"ビットストリームが人間の視聴における入力再構成のパフォーマンス向上に使用できる。 当社のアーキテクチャはPointNet++に基づいており、その有効性をModelNet40データセットでテストしています。 先行する非特化コーデックに対する大幅な改善を示す。

Due to the limited computational capabilities of edge devices, deep learning inference can be quite expensive. One remedy is to compress and transmit point cloud data over the network for server-side processing. Unfortunately, this approach can be sensitive to network factors, including available bitrate. Luckily, the bitrate requirements can be reduced without sacrificing inference accuracy by using a machine task-specialized codec. In this paper, we present a scalable codec for point-cloud data that is specialized for the machine task of classification, while also providing a mechanism for human viewing. In the proposed scalable codec, the "base" bitstream supports the machine task, and an "enhancement" bitstream may be used for better input reconstruction performance for human viewing. We base our architecture on PointNet++, and test its efficacy on the ModelNet40 dataset. We show significant improvements over prior non-specialized codecs.
翻訳日:2024-02-26 11:51:57 公開日:2024-02-23
# 表は画像? 表データのマルチモーダル表現におけるllmの強みと限界の検討

Tables as Images? Exploring the Strengths and Limitations of LLMs on Multimodal Representations of Tabular Data ( http://arxiv.org/abs/2402.12424v3 )

ライセンス: Link先を確認
Naihao Deng, Zhenjie Sun, Ruiqi He, Aman Sikka, Yulong Chen, Lin Ma, Yue Zhang, Rada Mihalcea(参考訳) 本稿では,様々なプロンプト戦略とデータ形式を通して表データ解釈における様々なllmの有効性について検討する。 分析は質問応答やファクトチェックなどのテーブル関連タスクの6つのベンチマークにまたがる。 画像に基づく表表現におけるLLMの性能評価を初めて紹介する。 具体的には,5つのテキストベースと3つの画像ベーステーブル表現を比較し,LLM性能に対する表現とプロンプトの影響を示す。 本研究は、テーブル関連タスクにおけるLLMの有効利用に関する知見を提供する。

In this paper, we investigate the effectiveness of various LLMs in interpreting tabular data through different prompting strategies and data formats. Our analysis extends across six benchmarks for table-related tasks such as question-answering and fact-checking. We introduce for the first time the assessment of LLMs' performance on image-based table representations. Specifically, we compare five text-based and three image-based table representations, demonstrating the influence of representation and prompting on LLM performance. Our study provides insights into the effective use of LLMs on table-related tasks.
翻訳日:2024-02-26 11:51:44 公開日:2024-02-23
# Rumour Verificationのためのゼロショット抽象記述の生成

Generating Zero-shot Abstractive Explanations for Rumour Verification ( http://arxiv.org/abs/2401.12713v3 )

ライセンス: Link先を確認
Iman Munire Bilal, Preslav Nakov, Rob Procter, Maria Liakata(参考訳) ソーシャルメディアにおける噂検証の課題は、それに起因する会話スレッドに基づいてクレームの正確性を評価することである。 これまでの研究では、veracityラベルの予測に重点を置いてきたが、ここでは、噂のveracityのモデル中心のフリーテキスト説明を生成するタスクを再構成する。 アプローチはモデル非依存であり、任意のモデルに一般化する。 本稿では,新しいGNNに基づく噂検証モデルを提案する。 まず、スレッド内で最も重要なポストをスコアするためにポストホックな説明可能性法を適用し、次にこれらのポストを使用して意見誘導要約を用いて情報的説明を生成する。 説明要約のインフォメーション性を評価するために,大規模言語モデル(llm)の少数学習能力を活用した。 実験の結果,LLMは要約評価において人間と類似の一致を示すことができた。 重要な点として,説明的要約がより有益で,スレッドの上位ランクのポストを単に使うよりも,予測された噂の有効性を反映することを示す。

The task of rumour verification in social media concerns assessing the veracity of a claim on the basis of conversation threads that result from it. While previous work has focused on predicting a veracity label, here we reformulate the task to generate model-centric free-text explanations of a rumour's veracity. The approach is model agnostic in that it generalises to any model. Here we propose a novel GNN-based rumour verification model. We follow a zero-shot approach by first applying post-hoc explainability methods to score the most important posts within a thread and then we use these posts to generate informative explanations using opinion-guided summarisation. To evaluate the informativeness of the explanatory summaries, we exploit the few-shot learning capabilities of a large language model (LLM). Our experiments show that LLMs can have similar agreement to humans in evaluating summaries. Importantly, we show explanatory abstractive summaries are more informative and better reflect the predicted rumour veracity than just using the highest ranking posts in the thread.
翻訳日:2024-02-26 11:51:36 公開日:2024-02-23
# GNNShap: シェープ値を用いたスケーラブルで正確なGNN説明

GNNShap: Scalable and Accurate GNN Explanation using Shapley Values ( http://arxiv.org/abs/2401.04829v3 )

ライセンス: Link先を確認
Selahattin Akkas and Ariful Azad(参考訳) グラフニューラルネットワーク(GNN)は、科学領域にまたがる多くの応用を持つグラフのための一般的な機械学習モデルである。 しかし、GNNはブラックボックスモデルと考えられており、モデルがどのように予測を行うかを理解するのは難しい。 game theoric shapley value approachは、他の領域での一般的な説明方法であるが、グラフについてはよく研究されていない。 シャプリー値に基づくgnnの説明を提唱する研究もあるが、いくつかの制限がある: シャプリー値の近似に限定されたサンプルを考える; 主に小さな結合サイズと大きな結合サイズに焦点を当てる; それらは他の説明法よりも桁違いに遅く、中程度のグラフにも適用できない。 本稿では,グラフの自然な説明や細かな説明を提供するため,エッジの説明を提供するgnnshapを提案する。 この制限を克服するために,すべての結合サイズからサンプリングし,gpu上でサンプリングを並列化し,バッチ処理によるモデル予測を高速化する。 GNNShapは、実世界のデータセットのベースラインよりも優れた忠実度スコアと高速な説明を提供する。 コードはhttps://github.com/HipGraph/GNNShapで公開されている。

Graph neural networks (GNNs) are popular machine learning models for graphs with many applications across scientific domains. However, GNNs are considered black box models, and it is challenging to understand how the model makes predictions. Game theoric Shapley value approaches are popular explanation methods in other domains but are not well-studied for graphs. Some studies have proposed Shapley value based GNN explanations, yet they have several limitations: they consider limited samples to approximate Shapley values; some mainly focus on small and large coalition sizes, and they are an order of magnitude slower than other explanation methods, making them inapplicable to even moderate-size graphs. In this work, we propose GNNShap, which provides explanations for edges since they provide more natural explanations for graphs and more fine-grained explanations. We overcome the limitations by sampling from all coalition sizes, parallelizing the sampling on GPUs, and speeding up model predictions by batching. GNNShap gives better fidelity scores and faster explanations than baselines on real-world datasets. The code is available at https://github.com/HipGraph/GNNShap.
翻訳日:2024-02-26 11:51:19 公開日:2024-02-23
# Coffee: フィードバックでバグを修正することでコードLLMを強化

Coffee: Boost Your Code LLMs by Fixing Bugs with Feedback ( http://arxiv.org/abs/2311.07215v3 )

ライセンス: Link先を確認
Seungjun Moon, Hyungjoo Chae, Yongho Song, Taeyoon Kwon, Dongjin Kang, Kai Tzu-iunn Ong, Seung-won Hwang, Jinyoung Yeo(参考訳) コード編集は、コードLLMから生成された臨界エラーを自動的に修正する、信頼性の高いプログラム合成への重要なステップである。 近年の研究では、ChatGPT や GPT-4 といったクローズドソース LLM が、誤った入力を編集する修正フィードバックを生成できることが示されている。 しかし、これらのモデルは表面的なフィードバック形式に固執し、誤解を招く情報を提供する傾向があるため、オープンソースのLLMがコード編集のためのフィードバックを生成することは依然として困難である。 したがって、我々の研究の焦点は、オープンソースのLLMを活用して、コード編集のための正しいガイダンスで有益なフィードバックを生成することである。 この目的のために、フィードバックによるコード修正に特化したデータセットであるCoffeeを紹介します。 このデータセットを用いて、Preference-Optimized Tuning and Selectionを介して、FEEdbackによるCOde FixingのためのフレームワークであるCoffeePotsを構築する。 提案フレームワークは,表面的フィードバックのリスクを最小限に抑えつつ,コード編集に有用なフィードバックを自動的に生成することを目的としている。 コーヒーとコーヒーポットの組み合わせは重要な進歩を示し、humanevalfixベンチマークで最先端のパフォーマンスを達成した。 コードとモデルチェックポイントはhttps://github.com/lune-blue/coffeeで公開されている。

Code editing is an essential step towards reliable program synthesis to automatically correct critical errors generated from code LLMs. Recent studies have demonstrated that closed-source LLMs (i.e., ChatGPT and GPT-4) are capable of generating corrective feedback to edit erroneous inputs. However, it remains challenging for open-source code LLMs to generate feedback for code editing, since these models tend to adhere to the superficial formats of feedback and provide feedback with misleading information. Hence, the focus of our work is to leverage open-source code LLMs to generate helpful feedback with correct guidance for code editing. To this end, we present Coffee, a collected dataset specifically designed for code fixing with feedback. Using this dataset, we construct CoffeePots, a framework for COde Fixing with FEEdback via Preference-Optimized Tuning and Selection. The proposed framework aims to automatically generate helpful feedback for code editing while minimizing the potential risk of superficial feedback. The combination of Coffee and CoffeePots marks a significant advancement, achieving state-of-the-art performance on HumanEvalFix benchmark. Codes and model checkpoints are publicly available at https://github.com/Lune-Blue/COFFEE.
翻訳日:2024-02-26 11:50:58 公開日:2024-02-23
# 語彙単純化のためのLLM強化逆編集システム

An LLM-Enhanced Adversarial Editing System for Lexical Simplification ( http://arxiv.org/abs/2402.14704v2 )

ライセンス: Link先を確認
Keren Tan, Kangyang Luo, Yunshi Lan, Zheng Yuan, Jinlong Shu(参考訳) Lexical Simplification (LS) は、語彙レベルでのテキストの簡略化を目的としている。 既存のメソッドはアノテーション付きデータに大きく依存しており、低リソースのシナリオでは適用が難しい。 本稿では,並列コーパスを含まない新しいLS法を提案する。 本手法では,原文の語彙的編集を予測するために,混乱損失と不変損失から導出する逆編集システムを用いる。 一方,大規模言語モデル(LLM)からの知識の蒸留を小型LSシステムに導入するために,革新的なLLM強化損失を導入する。 そこから、文中の複雑な単語はマスクされ、難易度対応の充填モジュールはマスクされた位置を単純な単語に置き換える。 最後に,3つのベンチマークLSデータセットの広範な実験結果と解析を行い,提案手法の有効性を示した。

Lexical Simplification (LS) aims to simplify text at the lexical level. Existing methods rely heavily on annotated data, making it challenging to apply in low-resource scenarios. In this paper, we propose a novel LS method without parallel corpora. This method employs an Adversarial Editing System with guidance from a confusion loss and an invariance loss to predict lexical edits in the original sentences. Meanwhile, we introduce an innovative LLM-enhanced loss to enable the distillation of knowledge from Large Language Models (LLMs) into a small-size LS system. From that, complex words within sentences are masked and a Difficulty-aware Filling module is crafted to replace masked positions with simpler words. At last, extensive experimental results and analyses on three benchmark LS datasets demonstrate the effectiveness of our proposed method.
翻訳日:2024-02-26 11:47:08 公開日:2024-02-23
# ConceptMath: 大規模言語モデルの数学的推論計測のためのバイリンガル概念的ベンチマーク

ConceptMath: A Bilingual Concept-wise Benchmark for Measuring Mathematical Reasoning of Large Language Models ( http://arxiv.org/abs/2402.14660v2 )

ライセンス: Link先を確認
Yanan Wu, Jie Liu, Xingyuan Bu, Jiaheng Liu, Zhanhui Zhou, Yuanxing Zhang, Chenchen Zhang, Zhiqi Bai, Haibin Chen, Tiezheng Ge, Wanli Ouyang, Wenbo Su, Bo Zheng(参考訳) 本稿では,大言語モデル(llm)の概念的推論を評価する,バイリンガル(英語と中国語)なきめ細かなベンチマークであるconceptmathを紹介する。 一般的な数学的推論を平均精度で評価する従来のベンチマークとは異なり、conceptmathは数学の概念の階層の下に数学問題を体系的に整理する。 従来のベンチマークでは高い平均精度を達成でき、様々な数学概念に有意な性能変化を示し、また、最も基本的なものでも破滅的に失敗する可能性さえあるが、この概念に基づいてLLMを幅広い範囲で評価し、既存のLLMを観察する。 また,既存のLLMの弱点を高めるために,効率的な微調整戦略を導入する。 最後に、ConceptMathは、開発者がモデルのきめ細かい数学的能力を理解し、基礎モデルの成長を促進することができることを願っている。

This paper introduces ConceptMath, a bilingual (English and Chinese), fine-grained benchmark that evaluates concept-wise mathematical reasoning of Large Language Models (LLMs). Unlike traditional benchmarks that evaluate general mathematical reasoning with an average accuracy, ConceptMath systematically organizes math problems under a hierarchy of math concepts, so that mathematical reasoning can be evaluated at different granularity with concept-wise accuracies. Based on our ConcepthMath, we evaluate a broad range of LLMs, and we observe existing LLMs, though achieving high average accuracies on traditional benchmarks, exhibit significant performance variations across different math concepts and may even fail catastrophically on the most basic ones. Besides, we also introduce an efficient fine-tuning strategy to enhance the weaknesses of existing LLMs. Finally, we hope ConceptMath could guide the developers to understand the fine-grained mathematical abilities of their models and facilitate the growth of foundation models.
翻訳日:2024-02-26 11:46:56 公開日:2024-02-23
# OmniPred:Universal Regressorsとしての言語モデル

OmniPred: Language Models as Universal Regressors ( http://arxiv.org/abs/2402.14547v2 )

ライセンス: Link先を確認
Xingyou Song, Oscar Li, Chansoo Lee, Bangding Yang, Daiyi Peng, Sagi Perel, Yutian Chen(参考訳) 実験設計の広い視野において、回帰は、パラメータのセットが与えられたシステムやモデルの結果メトリクスを正確に予測する強力なツールであるが、伝統的に特定のタスクにのみ適用可能なメソッドに限られてきた。 本稿では,多種多様な実世界実験から得られた$(x,y)$の評価データに対して,汎用的なエンドツーエンドレグレッサとして言語モデルをトレーニングするためのフレームワークであるomnipredを提案する。 世界最大のブラックボックス最適化データベースであるGoogle Vizierからソースされたデータを用いて、我々の広範な実験は、数学的パラメータと値のテキスト表現のみによって、言語モデルは非常に正確な数値回帰が可能であり、複数のタスクをトレーニングする機会が与えられれば、従来の回帰モデルよりも大幅に向上することを示した。

Over the broad landscape of experimental design, regression has been a powerful tool to accurately predict the outcome metrics of a system or model given a set of parameters, but has been traditionally restricted to methods which are only applicable to a specific task. In this paper, we propose OmniPred, a framework for training language models as universal end-to-end regressors over $(x,y)$ evaluation data from diverse real world experiments. Using data sourced from Google Vizier, one of the largest blackbox optimization databases in the world, our extensive experiments demonstrate that through only textual representations of mathematical parameters and values, language models are capable of very precise numerical regression, and if given the opportunity to train over multiple tasks, can significantly outperform traditional regression models.
翻訳日:2024-02-26 11:46:38 公開日:2024-02-23
# ChatGPTは因果テキストマイニングの未来か? 総合的な評価と分析

Is ChatGPT the Future of Causal Text Mining? A Comprehensive Evaluation and Analysis ( http://arxiv.org/abs/2402.14484v2 )

ライセンス: Link先を確認
Takehiro Takayanagi and Masahiro Suzuki and Ryotaro Kobayashi and Hiroki Sakaji and Kiyoshi Izumi(参考訳) 因果性は人間の認知の基本であり、様々な研究分野で注目を集めている。 テキストデータの量の増加に伴い,テキストデータの因果関係の識別が重要となり,因果関係の抽出に重要な役割を担っている。 本研究はChatGPTの因果テキストマイニング機能に関する総合的な評価を行う。 まず、ドメイン固有および非英語データセットを含む一般的な英語データセットを超えて拡張されるベンチマークを紹介する。 また、ChatGPTと従来のアプローチとの公正な比較を保証するための評価フレームワークも提供する。 最後に,ChatGPTを用いた因果テキストマイニングにおける限界と今後の課題について概説する。 具体的には,ChatGPTが各種データセットの出発点として有効であることを示す。 しかし、十分な量のトレーニングデータを備えている場合、以前のモデルは依然としてChatGPTの性能を上回っている。 さらに、ChatGPTは非因果配列を因果配列と誤認識する傾向がある。 これらの問題は、GPT-4のような高度なモデルでさらに顕著になる。 さらに,ChatGPTの複雑な因果関係の扱いにおける制約を強調し,その内容は内因果関係と暗黙的因果関係の両方を含む。 このモデルは、コンテキスト内学習とドメイン適応を効果的に活用するという課題にも直面する。 この分野でのさらなる研究と開発を支援するために、コードをリリースします。

Causality is fundamental in human cognition and has drawn attention in diverse research fields. With growing volumes of textual data, discerning causalities within text data is crucial, and causal text mining plays a pivotal role in extracting meaningful patterns. This study conducts comprehensive evaluations of ChatGPT's causal text mining capabilities. Firstly, we introduce a benchmark that extends beyond general English datasets, including domain-specific and non-English datasets. We also provide an evaluation framework to ensure fair comparisons between ChatGPT and previous approaches. Finally, our analysis outlines the limitations and future challenges in employing ChatGPT for causal text mining. Specifically, our analysis reveals that ChatGPT serves as a good starting point for various datasets. However, when equipped with a sufficient amount of training data, previous models still surpass ChatGPT's performance. Additionally, ChatGPT suffers from the tendency to falsely recognize non-causal sequences as causal sequences. These issues become even more pronounced with advanced versions of the model, such as GPT-4. In addition, we highlight the constraints of ChatGPT in handling complex causality types, including both intra/inter-sentential and implicit causality. The model also faces challenges with effectively leveraging in-context learning and domain adaptation. We release our code to support further research and development in this field.
翻訳日:2024-02-26 11:46:23 公開日:2024-02-23
# Langevin Monte Carlo の並列化中点ランダム化

Parallelized Midpoint Randomization for Langevin Monte Carlo ( http://arxiv.org/abs/2402.14434v2 )

ライセンス: Link先を確認
Lu Yu, Arnak Dalalyan(参考訳) 本稿では,対数密度の勾配を並列に評価できるフレームワークにおけるサンプリング問題を検討する。 本研究は,スムーズな対数凹凸密度を特徴とするターゲット分布に着目した。 本研究では,並列化乱数点法を再検討し,その純粋逐次解析法として最近開発された証明手法を用いた。 これらの手法を用いることで、サンプリングとターゲット密度の間のワッサーシュタイン距離の上限を導出する。 これらの境界は並列処理ユニットを利用することで実行時の改善を定量化する。

We explore the sampling problem within the framework where parallel evaluations of the gradient of the log-density are feasible. Our investigation focuses on target distributions characterized by smooth and strongly log-concave densities. We revisit the parallelized randomized midpoint method and employ proof techniques recently developed for analyzing its purely sequential version. Leveraging these techniques, we derive upper bounds on the Wasserstein distance between the sampling and target densities. These bounds quantify the runtime improvement achieved by utilizing parallel processing units, which can be considerable.
翻訳日:2024-02-26 11:46:05 公開日:2024-02-23
# ビジュアルオブジェクト追跡のためのグローバル表現メモリから関連機能を読み取る

Reading Relevant Feature from Global Representation Memory for Visual Object Tracking ( http://arxiv.org/abs/2402.14392v2 )

ライセンス: Link先を確認
Xinyu Zhou, Pinxue Guo, Lingyi Hong, Jinglun Li, Wei Zhang, Weifeng Ge, Wenqiang Zhang(参考訳) テンプレートや過去のフレームからの参照機能は、ビジュアルオブジェクト追跡に不可欠である。 以前の作業では、固定テンプレートやメモリのすべての機能を視覚オブジェクト追跡に利用していた。 しかし,動画のダイナミックな性質から,異なる時間ステップにおける検索領域の参照履歴情報も一致しない。 したがって、テンプレートとメモリのすべての機能を使用することで冗長性とトラッキング性能が損なわれる可能性がある。 この問題を軽減するために,参照特徴から最も関連性の高い歴史的情報を選択する際に,検索領域を適応的に支援する,関連注意機構とグローバル表現メモリからなる新しい追跡パラダイムを提案する。 具体的には,従来の手法と異なり,クロスフレーム情報をグローバルにアクセスすることで,現在のフレームに対して最適なグローバル表現メモリを動的に選択・構築することができる。 さらに、構築されたメモリから関連する履歴情報を柔軟に読み取ることができ、冗長性を低減し、有害な情報のネガティブな影響に対処することができる。 拡張実験により提案手法の有効性が検証され,71 FPSの5つの挑戦データセット上での競合性能が得られた。

Reference features from a template or historical frames are crucial for visual object tracking. Prior works utilize all features from a fixed template or memory for visual object tracking. However, due to the dynamic nature of videos, the required reference historical information for different search regions at different time steps is also inconsistent. Therefore, using all features in the template and memory can lead to redundancy and impair tracking performance. To alleviate this issue, we propose a novel tracking paradigm, consisting of a relevance attention mechanism and a global representation memory, which can adaptively assist the search region in selecting the most relevant historical information from reference features. Specifically, the proposed relevance attention mechanism in this work differs from previous approaches in that it can dynamically choose and build the optimal global representation memory for the current frame by accessing cross-frame information globally. Moreover, it can flexibly read the relevant historical information from the constructed memory to reduce redundancy and counteract the negative effects of harmful information. Extensive experiments validate the effectiveness of the proposed method, achieving competitive performance on five challenging datasets with 71 FPS.
翻訳日:2024-02-26 11:45:56 公開日:2024-02-23
# novi jezi\v{c}ki modeli za srpski jezik

Novi jezi\v{c}ki modeli za srpski jezik ( http://arxiv.org/abs/2402.14379v2 )

ライセンス: Link先を確認
Mihailo \v{S}kori\'c(参考訳) 本稿では,セルビア語におけるトランスフォーマーに基づく言語モデルの開発史について概説する。 テキスト生成とベクトル化のためのいくつかの新しいモデルも、言語資源および技術協会のリソースに基づいてトレーニングされている。 セルビアで選択された10のベクタ化モデルは、2つの新しいベクタ化を含む4つの自然言語処理タスクで比較される。 Paperは、選択されたタスクごとにどのモデルが最適か、そのサイズとトレーニングセットのサイズがそれらのタスクのパフォーマンスにどのように影響するか、そしてセルビア語で最高の言語モデルをトレーニングするのに最適な設定は何か、を分析します。

The paper will briefly present the development history of transformer-based language models for the Serbian language. Several new models for text generation and vectorization, trained on the resources of the Society for Language Resources and Technologies, will also be presented. Ten selected vectorization models for Serbian, including two new ones, will be compared on four natural language processing tasks. Paper will analyze which models are the best for each selected task, how does their size and the size of their training sets affect the performance on those tasks, and what is the optimal setting to train the best language models for the Serbian language.
翻訳日:2024-02-26 11:45:39 公開日:2024-02-23
# 心臓表層組織分別のための不確かさ駆動・逆境校正学習

Uncertainty-driven and Adversarial Calibration Learning for Epicardial Adipose Tissue Segmentation ( http://arxiv.org/abs/2402.14349v2 )

ライセンス: Link先を確認
Kai Zhao, Zhiming Liu, Jiaqi Liu, Jingbiao Zhou, Bihong Liao, Huifang Tang, Qiuyu Wang, Chunquan Li(参考訳) 心膜脂肪組織(EAT)は、大量のアディポカインを分泌し心筋や冠動脈に影響を及ぼすことのできる内臓脂肪の一種である。 EATの体積と密度は、非侵襲的な磁気共鳴画像による体積の独立したリスクマーカーとして利用することができる。 しかし, EATと心膜灌流の低コントラストと運動人工物の存在により, EATのセグメンテーションは困難である。 より正確なEATボリューム推定のためのセグメンテーションを強化するために,不確実性駆動・対角校正学習を備えた新しい特徴量空間多レベル監視ネットワーク(SPDNet)を提案する。 このネットワークは、まず、そのベイズ推定を正規化制約としてSwinUNETRを最適化する機能潜在空間におけるガウス分布として、不確実性をモデル化することにより、医療環境における医療画像の質の低下や分布外によるEATエッジのぼやけに対処する。 第二に、セグメント化特徴マップを校正し、不確実性誘導予測セグメンテーションと基底真理セグメンテーションのマルチスケール特徴差を考察し、マルチスケールの敵損失を直接合成することにより、組織間の類似性を識別する能力を向上させる。 心的MRIデータセット(ACDC)と実世界の臨床コホートEATデータセットの両方の実験により、提案されたネットワークは主流モデルよりも優れており、不確実性駆動および対角校正学習がマルチスケールの曖昧さをモデル化するための追加情報を提供することができることが検証された。

Epicardial adipose tissue (EAT) is a type of visceral fat that can secrete large amounts of adipokines to affect the myocardium and coronary arteries. EAT volume and density can be used as independent risk markers measurement of volume by noninvasive magnetic resonance images is the best method of assessing EAT. However, segmenting EAT is challenging due to the low contrast between EAT and pericardial effusion and the presence of motion artifacts. we propose a novel feature latent space multilevel supervision network (SPDNet) with uncertainty-driven and adversarial calibration learning to enhance segmentation for more accurate EAT volume estimation. The network first addresses the blurring of EAT edges due to the medical images in the open medical environments with low quality or out-of-distribution by modeling the uncertainty as a Gaussian distribution in the feature latent space, which using its Bayesian estimation as a regularization constraint to optimize SwinUNETR. Second, an adversarial training strategy is introduced to calibrate the segmentation feature map and consider the multi-scale feature differences between the uncertainty-guided predictive segmentation and the ground truth segmentation, synthesizing the multi-scale adversarial loss directly improves the ability to discriminate the similarity between organizations. Experiments on both the cardiac public MRI dataset (ACDC) and the real-world clinical cohort EAT dataset show that the proposed network outperforms mainstream models, validating that uncertainty-driven and adversarial calibration learning can be used to provide additional information for modeling multi-scale ambiguities.
翻訳日:2024-02-26 11:45:28 公開日:2024-02-23
# REPOFUSE: 融合デュアルコンテキストによるリポジトリレベルのコード補完

REPOFUSE: Repository-Level Code Completion with Fused Dual Context ( http://arxiv.org/abs/2402.14323v2 )

ライセンス: Link先を確認
Ming Liang, Xiaoheng Xie, Gehao Zhang, Xunjin Zheng, Peng Di, wei jiang, Hongwei Chen, Chengpeng Wang, Gang Fan(参考訳) コードアシストにおける言語モデルの成功は、コードベース全体のコンテキストを活用して、予測精度を高める手段としてのリポジトリレベルのコード補完の提案を促した。 しかしながら、この増幅されたコンテキストは、必然的に推論遅延を増大させ、開発者エクスペリエンスを損なう可能性があり、ツールの採用を妨げます。 本稿では,遅延トレードオフを伴わずにリポジトリレベルのコード補完を向上する手法であるREPOFUSEを紹介する。 repofuseは、コードアナロジーに根ざしたアナロジーコンテキストと、深い意味関係を包含するrationaleコンテキストという、2つのタイプのコンテキストを一意に融合させる。 本稿では,これらの文脈を制限された大きさのプロンプトに効率的に凝縮するRTG手法を提案する。 これにより、REPOFUSEは推論効率を維持しながら正確なコード補完を提供することができる。 CrossCodeEvalスイートのテストを通じて、REPOFUSEは既存のモデルよりも大幅に飛躍し、コード補完の正確なマッチング(EM)精度が40.90%から59.75%向上し、推論速度が26.8%向上した。 実験的な検証以外にも、REPOFUSEは大企業のワークフローに統合されており、様々なコーディングタスクを積極的にサポートしている。

The success of language models in code assistance has spurred the proposal of repository-level code completion as a means to enhance prediction accuracy, utilizing the context from the entire codebase. However, this amplified context can inadvertently increase inference latency, potentially undermining the developer experience and deterring tool adoption - a challenge we termed the Context-Latency Conundrum. This paper introduces REPOFUSE, a pioneering solution designed to enhance repository-level code completion without the latency trade-off. REPOFUSE uniquely fuses two types of context: the analogy context, rooted in code analogies, and the rationale context, which encompasses in-depth semantic relationships. We propose a novel rank truncated generation (RTG) technique that efficiently condenses these contexts into prompts with restricted size. This enables REPOFUSE to deliver precise code completions while maintaining inference efficiency. Through testing with the CrossCodeEval suite, REPOFUSE has demonstrated a significant leap over existing models, achieving a 40.90% to 59.75% increase in exact match (EM) accuracy for code completions and a 26.8% enhancement in inference speed. Beyond experimental validation, REPOFUSE has been integrated into the workflow of a large enterprise, where it actively supports various coding tasks.
翻訳日:2024-02-26 11:44:53 公開日:2024-02-23
# 非微分規則誘導拡散によるシンボリック音楽生成

Symbolic Music Generation with Non-Differentiable Rule Guided Diffusion ( http://arxiv.org/abs/2402.14285v2 )

ライセンス: Link先を確認
Yujia Huang, Adishree Ghatare, Yuanzhe Liu, Ziniu Hu, Qinsheng Zhang, Chandramouli S Sastry, Siddharth Gururani, Sageev Oore, Yisong Yue(参考訳) 独創的音楽生成の問題(ピアノロール生成など)について,非微分的ルール指導に技術的に焦点をあてて検討する。 音楽の規則はしばしば音符密度や和音の進行といった音符の特徴を象徴的に表現されるが、それらの多くは微分不能であり、それらを誘導拡散に使用する際に問題となる。 そこで,本研究では,事前学習した拡散モデルをプラグ・アンド・プレイで操作可能なルール関数の前方評価のみを必要とする新しい誘導法である確率制御ガイダンス(scg)を提案する。 さらに,SCGをプラグ・アンド・プレイ方式で構成可能な,高分解能のシンボリック音楽生成のための潜時拡散アーキテクチャを提案する。 シンボリック音楽生成の標準的な強固なベースラインと比較すると、このフレームワークは音楽の品質とルールベースの制御性が著しく向上し、様々な設定において現在の最先端のジェネレータよりも優れています。 詳細なデモ、コード、モデルチェックポイントについては、プロジェクトのWebサイトを参照してください。

We study the problem of symbolic music generation (e.g., generating piano rolls), with a technical focus on non-differentiable rule guidance. Musical rules are often expressed in symbolic form on note characteristics, such as note density or chord progression, many of which are non-differentiable which pose a challenge when using them for guided diffusion. We propose Stochastic Control Guidance (SCG), a novel guidance method that only requires forward evaluation of rule functions that can work with pre-trained diffusion models in a plug-and-play way, thus achieving training-free guidance for non-differentiable rules for the first time. Additionally, we introduce a latent diffusion architecture for symbolic music generation with high time resolution, which can be composed with SCG in a plug-and-play fashion. Compared to standard strong baselines in symbolic music generation, this framework demonstrates marked advancements in music quality and rule-based controllability, outperforming current state-of-the-art generators in a variety of settings. For detailed demonstrations, code and model checkpoints, please visit our project website: https://scg-rule-guided-music.github.io/.
翻訳日:2024-02-26 11:44:30 公開日:2024-02-23
# 支援データの存在下でのフレーミング--米国経済ニュースを事例として

Framing in the Presence of Supporting Data: A Case Study in U.S. Economic News ( http://arxiv.org/abs/2402.14224v2 )

ライセンス: Link先を確認
Alexandria Leto, Elliot Pickens, Coen D. Needell, David Rothschild, Maria Leonor Pacheco(参考訳) メインストリームメディアは、そのカバー方法とカバー方法に多くの自由がある。 これらの選択は、人々が知っていることとその後の行動に実際の影響をもたらす。 しかし、編集選択を評価する客観的尺度の欠如は、この分野の研究を特に困難にしている。 本稿では,データ支援という形で客観的な尺度が存在するという話題を取り上げ,この設定における編集選択を分析するための計算フレームワークを提案する。 経済指標の報告は、様々な出版物の選択とフレーミングの両方を決定する比較的簡単な方法をもたらすため、経済に焦点を当てています。 彼らの価値観は、出版物がそれをどうカバーするかに関して、経済がどのように行っているかという基礎的な真実を提供する。 これを実現するために,フレーム予測を相互依存タスクの集合として定義する。 この記事のレベルでは、経済全般に対する報告されたスタンスを特定することを学ぶ。 そして,本論文で報告されている数値について,その数値が経済指標と一致するか,あるいは正あるいは負の形で報告されているかを知る。 分析を行うために、2015年から2023年にかけて、アメリカの出版社6社とランディングページのトップ10に登場した各記事を追跡しました。

The mainstream media has much leeway in what it chooses to cover and how it covers it. These choices have real-world consequences on what people know and their subsequent behaviors. However, the lack of objective measures to evaluate editorial choices makes research in this area particularly difficult. In this paper, we argue that there are newsworthy topics where objective measures exist in the form of supporting data and propose a computational framework to analyze editorial choices in this setup. We focus on the economy because the reporting of economic indicators presents us with a relatively easy way to determine both the selection and framing of various publications. Their values provide a ground truth of how the economy is doing relative to how the publications choose to cover it. To do this, we define frame prediction as a set of interdependent tasks. At the article level, we learn to identify the reported stance towards the general state of the economy. Then, for every numerical quantity reported in the article, we learn to identify whether it corresponds to an economic indicator and whether it is being reported in a positive or negative way. To perform our analysis, we track six American publishers and each article that appeared in the top 10 slots of their landing page between 2015 and 2023.
翻訳日:2024-02-26 11:44:09 公開日:2024-02-23
# フェアテキスト埋め込みのためのコンテンツ条件デバイアス

Content Conditional Debiasing for Fair Text Embedding ( http://arxiv.org/abs/2402.14208v2 )

ライセンス: Link先を確認
Wenlong Deng, Blair Chen, Xiaoxiao Li, Christos Thrampoulidis(参考訳) 機械学習モデルにおけるバイアスの緩和は自然言語処理(NLP)において注目を集めている。 しかし、公正なテキスト埋め込みにフォーカスする研究はごくわずかで、現実のアプリケーションでは極めて困難である。 本稿では,公正なテキスト埋め込みを学習するための新しい手法を提案する。 コンテンツに条件付きテキスト埋め込みとセンシティブ属性の条件独立性を確保することで,ユーティリティトレードオフを維持しつつ公平性を実現する。 具体的には、異なる機密属性を持つテキストの埋め込みを強制するが、同一のコンテンツは、対応する中性テキストの埋め込みに対して同じ距離を維持する。 さらに,Large Language Models (LLMs) を用いてテキストを異なるセンシティブなグループに拡張することで,適切なトレーニングデータ不足に対処する。 提案手法は, 組込みの実用性を維持しつつ, 公平性を効果的に向上することを示し, 組込みの条件独立化に向けた先駆的な取り組みを示す。

Mitigating biases in machine learning models has gained increasing attention in Natural Language Processing (NLP). Yet, only a few studies focus on fair text embeddings, which are crucial yet challenging for real-world applications. In this paper, we propose a novel method for learning fair text embeddings. We achieve fairness while maintaining utility trade-off by ensuring conditional independence between sensitive attributes and text embeddings conditioned on the content. Specifically, we enforce that embeddings of texts with different sensitive attributes but identical content maintain the same distance toward the embedding of their corresponding neutral text. Furthermore, we address the issue of lacking proper training data by using Large Language Models (LLMs) to augment texts into different sensitive groups. Our extensive evaluations demonstrate that our approach effectively improves fairness while preserving the utility of embeddings, representing a pioneering effort in achieving conditional independence for fair text embeddings.
翻訳日:2024-02-26 11:43:50 公開日:2024-02-23
# ニューラルネットワークと摩擦:スライド,ホールド,学習

Neural Networks and Friction: Slide, Hold, Learn ( http://arxiv.org/abs/2402.14148v2 )

ライセンス: Link先を確認
Joaquin Garcia-Suarez(参考訳) 本研究では,RNN(Recurrent Neural Networks),特にGRU(Gated Recurrent Unit)アーキテクチャを利用するものは,合成データから速度と状態の摩擦則の複雑な力学を学習する能力を有することを示した。 ネットワークのトレーニングに使用されるデータは、従来の速度と状態の摩擦方程式を、状態進化の老化則と組み合わせることで生成される。 我々のアプローチの新たな側面は、初期条件、直接効果、および訓練中の状態変数の進化を明示的に説明する損失関数の定式化である。 実験結果から, rnnは, gruアーキテクチャを用いて, 速度ジャンプによる摩擦係数の変化を効果的に予測し, 摩擦過程の物理の理解とシミュレーションにおいて機械学習モデルの可能性を示した。

In this study, it is demonstrated that Recurrent Neural Networks (RNNs), specifically those utilizing Gated Recurrent Unit (GRU) architecture, possess the capability to learn the complex dynamics of rate-and-state friction laws from synthetic data. The data employed for training the network is generated through the application of traditional rate-and-state friction equations coupled with the aging law for state evolution. A novel aspect of our approach is the formulation of a loss function that explicitly accounts for initial conditions, the direct effect, and the evolution of state variables during training. It is found that the RNN, with its GRU architecture, effectively learns to predict changes in the friction coefficient resulting from velocity jumps, thereby showcasing the potential of machine learning models in understanding and simulating the physics of frictional processes.
翻訳日:2024-02-26 11:43:32 公開日:2024-02-23
# eyetrans: ニューラルコード要約のための人間と機械の注意の融合

EyeTrans: Merging Human and Machine Attention for Neural Code Summarization ( http://arxiv.org/abs/2402.14096v2 )

ライセンス: Link先を確認
Yifan Zhang, Jiliang Li, Zachary Karas, Aakash Bansal, Toby Jia-Jun Li, Collin McMillan, Kevin Leach, Yu Huang(参考訳) ニューラルネットワークの要約はディープラーニングモデルを利用して、コードスニペットの簡単な自然言語要約を自動的に生成する。 トランスフォーマーモデルの開発は、モデル設計中に広範囲に注意を向ける結果となった。 既存の作業は主にソースコードの静的な特性とAST(Abstract Syntax Tree)のような関連する構造表現に重点を置いているが、プログラマがコードを調べて理解しながら注目する研究はほとんどない。 本稿では,人間の注意を機械の注意に取り入れ,ニューラルネットワークの要約を強化する手法を開発する。 To facilitate this incorporation and vindicate this hypothesis, we introduce EyeTrans, which consists of three steps: (1) we conduct an extensive eye-tracking human study to collect and pre-analyze data for model training, (2) we devise a data-centric approach to integrate human attention with machine attention in the Transformer architecture, and (3) we conduct comprehensive experiments on two code summarization tasks to demonstrate the effectiveness of incorporating human attention into Transformers. 人間の注意を組み込むことで、関数的要約の最大29.91%、一般コード要約のパフォーマンスの最大6.39%が改善され、この組み合わせの実質的な利点が示される。 我々はさらに,eyetransが興味深い特性を示すような難解な要約シナリオを作成することにより,ロバスト性と効率性の観点からパフォーマンスを探求する。 また、人間の注意を取り入れることで、トランスフォーマーにおける機械的注意の簡易化効果を可視化する。 この研究は、より人間中心のアプローチとデータを導入することで、ソフトウェアエンジニアリングにおけるAI研究を促進する可能性がある。

Neural code summarization leverages deep learning models to automatically generate brief natural language summaries of code snippets. The development of Transformer models has led to extensive use of attention during model design. While existing work has primarily and almost exclusively focused on static properties of source code and related structural representations like the Abstract Syntax Tree (AST), few studies have considered human attention, that is, where programmers focus while examining and comprehending code. In this paper, we develop a method for incorporating human attention into machine attention to enhance neural code summarization. To facilitate this incorporation and vindicate this hypothesis, we introduce EyeTrans, which consists of three steps: (1) we conduct an extensive eye-tracking human study to collect and pre-analyze data for model training, (2) we devise a data-centric approach to integrate human attention with machine attention in the Transformer architecture, and (3) we conduct comprehensive experiments on two code summarization tasks to demonstrate the effectiveness of incorporating human attention into Transformers. Integrating human attention leads to an improvement of up to 29.91% in Functional Summarization and up to 6.39% in General Code Summarization performance, demonstrating the substantial benefits of this combination. We further explore performance in terms of robustness and efficiency by creating challenging summarization scenarios in which EyeTrans exhibits interesting properties. We also visualize the attention map to depict the simplifying effect of machine attention in the Transformer by incorporating human attention. This work has the potential to propel AI research in software engineering by introducing more human-centered approaches and data.
翻訳日:2024-02-26 11:43:18 公開日:2024-02-23
# 推論事項の作成:思考連鎖の忠実性の測定と改善

Making Reasoning Matter: Measuring and Improving Faithfulness of Chain-of-Thought Reasoning ( http://arxiv.org/abs/2402.13950v2 )

ライセンス: Link先を確認
Debjit Paul, Robert West, Antoine Bosselut and Boi Faltings(参考訳) 大きな言語モデル(LLM)は、質問に答える前にステップバイステップの推論を求めると、よりよいパフォーマンスを示すことが示されている。 しかし、モデルの最終回答が、述べられた推論ステップにどの程度忠実であるかは不明である。 本稿では,12個のLCMの因果媒介分析を行い,LLMが生成する中間推論ステップが最終結果にどのように影響するかを検証し,回答を生成する際に,その中間推論ステップを確実に利用しないことを確かめる。 この問題に対処するため、我々は、小規模のlmsを調整して正しい推論ステップを生成し、これらのステップに対してロバストに推論するフレームワーク frodo を紹介します。 FRODOは、暗黙の因果報酬関数を用いて正しい推論ステップを生成することを学ぶ推論モジュールと、反事実的および因果選好目的を用いてこれらの中間推論を忠実に推論することを学ぶ推論モジュールからなる。 実験の結果,FRODOは4つの競争基準を著しく上回っていることがわかった。 さらに、FRODOは、推理LMの堅牢性と一般化能力を向上し、分布外テストセットの性能を向上させる。 最後に、FRODOの理性は、標準的な教師付き微調整よりも最終的な答え予測に忠実であることが分かる。

Large language models (LLMs) have been shown to perform better when asked to reason step-by-step before answering a question. However, it is unclear to what degree the model's final answer is faithful to the stated reasoning steps. In this paper, we perform a causal mediation analysis on twelve LLMs to examine how intermediate reasoning steps generated by the LLM influence the final outcome and find that LLMs do not reliably use their intermediate reasoning steps when generating an answer. To address this issue, we introduce FRODO, a framework to tailor small-sized LMs to generate correct reasoning steps and robustly reason over these steps. FRODO consists of an inference module that learns to generate correct reasoning steps using an implicit causal reward function and a reasoning module that learns to faithfully reason over these intermediate inferences using a counterfactual and causal preference objective. Our experiments show that FRODO significantly outperforms four competitive baselines. Furthermore, FRODO improves the robustness and generalization ability of the reasoning LM, yielding higher performance on out-of-distribution test sets. Finally, we find that FRODO's rationales are more faithful to its final answer predictions than standard supervised fine-tuning.
翻訳日:2024-02-26 11:42:51 公開日:2024-02-23