このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240210となっている論文です。

PDF登録状況(公開日: 20240210)

TitleAuthorsAbstract論文公表日・翻訳日
# ストリーミングデバイスのデジタルフットプリント

Digital Footprints of Streaming Devices ( http://arxiv.org/abs/2402.06869v1 )

ライセンス: Link先を確認
Sundar Krishnan, William Bradley Glisson, (参考訳) 最近では、テレビでストリーミングビデオを見る方法がいろいろある。 スタンドアローンのスマートテレビと比較すると、RokuやAmazon Fire Stickのようなストリーミングデバイスには、多くのアプリ選択がある。 これらのデバイスはプラットフォームに依存しないスマートフォンと互換性があるが、プライバシー、セキュリティ、および法医学的問題を引き起こす可能性のある機密データを大量に残すことができる。 本稿では,ネットワークトラフィックやモバイルの法医学からデジタルフットプリントを確認するために,ストリーミングデバイスを用いた実験を行った。

These days, there are many ways to watch streaming videos on television. When compared to a standalone smart television, streaming devices such as Roku and Amazon Fire Stick have a plethora of app selections. While these devices are platform agnostic and compatible with smartphones, they can still leave behind crumbs of sensitive data that can cause privacy, security, and forensic issues. In this paper, the authors conduct an experiment with streaming devices to ascertain digital footprints from network traffic and mobile forensics that they leave behind.
翻訳日:2024-03-25 11:29:11 公開日:2024-02-10
# 制御領域ネットワーク(CAN)侵入検知システムにおけるベンチマークフレームワークと比較研究

Benchmarking Frameworks and Comparative Studies of Controller Area Network (CAN) Intrusion Detection Systems: A Review ( http://arxiv.org/abs/2402.06904v1 )

ライセンス: Link先を確認
Shaila Sharmin, Hafizah Mansor, Andi Fitriah Abdul Kadir, Normaziah A. Aziz, (参考訳) 車両内制御エリアネットワーク(CAN)バスの侵入検知システム(IDS)の開発は、車両の故障や危険な事故の原因となる可能性のある、様々なサイバー攻撃に対する車両内ネットワークの確保に向けた主要な取り組みの1つである。 これらのCAN IDSは、使用した作業量、使用した特徴、報告したメトリクスなどによって異なる実験条件で評価され、直接比較が困難になる。 そのため、CAN IDSの相対的な性能を理解し、自動車ネットワークにおける実装に最適なCAN IDSの選択を容易にするために、同様の実験条件でCAN IDSを評価するためのベンチマークフレームワークや比較研究がいくつか存在する。 この研究は、CAN IDSベンチマークフレームワークと、現在の文献における比較研究の包括的な調査を提供する。 CAN IDS 評価設計空間も提案され,より広範な CAN IDS 文献を参考にしている。 これはCAN IDS評価実験を設計するためのガイドとして機能するだけでなく、現在のベンチマーク作業の分類にも使用される。 本研究は, IDS タイプ, 攻撃モデル, 評価タイプ, ワークロード生成, 評価指標の5つの側面に基づいて検討され, 今後の作業に対する推奨事項が明らかになった。

The development of intrusion detection systems (IDS) for the in-vehicle Controller Area Network (CAN) bus is one of the main efforts being taken to secure the in-vehicle network against various cyberattacks, which have the potential to cause vehicles to malfunction and result in dangerous accidents. These CAN IDS are evaluated in disparate experimental conditions that vary in terms of the workload used, the features used, the metrics reported, etc., which makes direct comparison difficult. Therefore, there have been several benchmarking frameworks and comparative studies designed to evaluate CAN IDS in similar experimental conditions to understand their relative performance and facilitate the selection of the best CAN IDS for implementation in automotive networks. This work provides a comprehensive survey of CAN IDS benchmarking frameworks and comparative studies in the current literature. A CAN IDS evaluation design space is also proposed in this work, which draws from the wider CAN IDS literature. This is not only expected to serve as a guide for designing CAN IDS evaluation experiments but is also used for categorizing current benchmarking efforts. The surveyed works have been discussed on the basis of the five aspects in the design space-namely IDS type, attack model, evaluation type, workload generation, and evaluation metrics-and recommendations for future work have been identified.
翻訳日:2024-03-25 11:29:11 公開日:2024-02-10
# HNMblock:ブロックチェーン技術を活用した疫学モニタリング、医療システムセキュリティ、ウェルネスのためのヘルスケアネットワークモデル

HNMblock: Blockchain technology powered Healthcare Network Model for epidemiological monitoring, medical systems security, and wellness ( http://arxiv.org/abs/2402.07054v1 )

ライセンス: Link先を確認
Naresh Kshetri, Rahul Mishra, Mir Mehedi Rahman, Tanja Steigner, (参考訳) 発展を続ける医療分野では、IoT(Internet of Things)とウェアラブル技術が広く採用され、遠隔患者の監視が容易になっている。 しかし、既存のクライアント/サーバインフラストラクチャは、セキュリティとプライバシの重大な課題を生じさせ、医療データ規制に厳格に準拠する必要がある。 これらの問題に対処するためには、分散型アプローチが不可欠であり、モノのインターネットと医療システムのセキュリティを強化するための魅力的なソリューションとしてブロックチェーン技術が登場します。 本稿では,疫学モニタリング,医療システムセキュリティ,ウェルネス向上の領域を増大させるモデルであるHNMblockを紹介する。 ブロックチェーン固有の透明性と不変性を活用することで、HNMblockは、疫学データのリアルタイムで改ざん防止的なトラッキングを可能にし、病気の発生に対する迅速な応答を可能にする。 さらに、高度な暗号技術やスマートコントラクトを通じて医療システムのセキュリティを強化し、患者のプライバシ保護に重点を置いている。 HNMblockはまた、パーソナライズされたヘルスケアを促進し、患者の関与とデータインフォームド意思決定を促進する。 HNMblockが示すように、ヘルスケア領域におけるブロックチェーンの統合は、データ管理、疫学的監視、ウェルネスに革命をもたらす可能性がある。

In the ever-evolving healthcare sector, the widespread adoption of Internet of Things and wearable technologies facilitates remote patient monitoring. However, the existing client/server infrastructure poses significant security and privacy challenges, necessitating strict adherence to healthcare data regulations. To combat these issues, a decentralized approach is imperative, and blockchain technology emerges as a compelling solution for strengthening Internet of Things and medical systems security. This paper introduces HNMblock, a model that elevates the realms of epidemiological monitoring, medical system security, and wellness enhancement. By harnessing the transparency and immutability inherent in blockchain, HNMblock empowers real-time, tamper-proof tracking of epidemiological data, enabling swift responses to disease outbreaks. Furthermore, it fortifies the security of medical systems through advanced cryptographic techniques and smart contracts, with a paramount focus on safeguarding patient privacy. HNMblock also fosters personalized healthcare, encouraging patient involvement and data-informed decision-making. The integration of blockchain within the healthcare domain, as exemplified by HNMblock, holds the potential to revolutionize data management, epidemiological surveillance, and wellness, as meticulously explored in this research article.
翻訳日:2024-03-25 11:29:11 公開日:2024-02-10
# セマンティックマッチングによる教育トピックの進展の理解

Understanding the Progression of Educational Topics via Semantic Matching ( http://arxiv.org/abs/2403.05553v1 )

ライセンス: Link先を確認
Tamador Alkhidir, Edmond Awad, Aamena Alshamsi, (参考訳) 教育システムは、技術進歩、工業的、社会的なニーズに対応し、学生の学習行動を強化するために、動的に変化している。 カリキュラムスペシャリストや教育者は、学年ごとの教科を常に改訂し、ギャップを特定し、新しい学習トピックを導入し、学習結果を強化する。 このプロセスは通常、同じ科目(例えば数学)または関連する科目(例えば数学と物理学)で同じレベルと異なる教育レベルを考慮して行われ、大規模な多層比較に繋がる。 データセット内に構築された主題、トピック、学習結果に関する微妙なデータを持つことで、データサイエンスを活用して、さまざまな学習トピックの進捗をよりよく理解することが可能になる。 本稿では,変換器による双方向エンコーダ表現を用いてカリキュラムからトピックを抽出し,対象者間の関係の同定,進行の追跡,概念的ギャップの同定に利用した。 共通トピックによる学習結果のグルーピングは,専門家の冗長性を低減し,カリキュラムに新たな概念を導入するのに役立った。 カリキュラム専門に方法論を活用するためのダッシュボードを構築しました。 最後に,本手法の有効性を課題の専門家で検証した。

Education systems are dynamically changing to accommodate technological advances, industrial and societal needs, and to enhance students' learning journeys. Curriculum specialists and educators constantly revise taught subjects across educational grades to identify gaps, introduce new learning topics, and enhance the learning outcomes. This process is usually done within the same subjects (e.g. math) or across related subjects (e.g. math and physics) considering the same and different educational levels, leading to massive multi-layer comparisons. Having nuanced data about subjects, topics, and learning outcomes structured within a dataset, empowers us to leverage data science to better understand the progression of various learning topics. In this paper, Bidirectional Encoder Representations from Transformers (BERT) topic modeling was used to extract topics from the curriculum, which were then used to identify relationships between subjects, track their progression, and identify conceptual gaps. We found that grouping learning outcomes by common topics helped specialists reduce redundancy and introduce new concepts in the curriculum. We built a dashboard to avail the methodology to curriculum specials. Finally, we tested the validity of the approach with subject matter experts.
翻訳日:2024-03-25 08:36:53 公開日:2024-02-10
# MOOCにおけるサブグループ発見: 学習者のタイプ別記述のためのビッグデータアプリケーション

Subgroup Discovery in MOOCs: A Big Data Application for Describing Different Types of Learners ( http://arxiv.org/abs/2403.05555v1 )

ライセンス: Link先を確認
J. M. Luna, H. M. Fardoun, F. Padillo, C. Romero, S. Ventura, (参考訳) 本研究の目的は,MapReduceに基づくサブグループ発見手法を用いて,大規模オープンオンラインコース(MOOC)における学習者の種類を分類し,記述することである。 最後の目的は、異なるMOOCに現れるIF-THEN規則を発見することである。 提案されたサブグループ発見アプローチは、よく知られたFP-Growthアルゴリズムの拡張であり、MapReduceのような新しい並列手法が極めて大きなデータセットに対処できると考えている。 追加機能として、提案には、各発見ルールが満たすべきコース数を示すしきい値が含まれている。 後処理のステップも含むので、冗長なサブグループを削除することができる。 実験段階は、EDXプラットフォーム上の16のMITxコースとHarvardXコースの初年度の特定されていないデータを考慮することで行われる。 実験の結果,提案手法は従来の逐次サブグループ発見手法よりも優れており,異なるコースでほぼ一定な実行環境を実現することができることがわかった。 さらに、最後の後処理のステップのおかげで、興味深いルールと非冗長なルールのみが発見され、従って1、2桁のサブグループの数が減少する。 最後に、発見されたサブグループは、説明目的だけでなく、推薦やパーソナライゼーションといった追加のタスクにも、コースのインストラクターが容易に利用できる。

The aim of this paper is to categorize and describe different types of learners in massive open online courses (MOOCs) by means of a subgroup discovery approach based on MapReduce. The final objective is to discover IF-THEN rules that appear in different MOOCs. The proposed subgroup discovery approach, which is an extension of the well-known FP-Growth algorithm, considers emerging parallel methodologies like MapReduce to be able to cope with extremely large datasets. As an additional feature, the proposal includes a threshold value to denote the number of courses that each discovered rule should satisfy. A post-processing step is also included so redundant subgroups can be removed. The experimental stage is carried out by considering de-identified data from the first year of 16 MITx and HarvardX courses on the edX platform. Experimental results demonstrate that the proposed MapReduce approach outperforms traditional sequential subgroup discovery approaches, achieving a runtime that is almost constant for different courses. Additionally, thanks to the final post-processing step, only interesting and not-redundant rules are discovered, hence reducing the number of subgroups in one or two orders of magnitude. Finally, the discovered subgroups are easily used by courses' instructors not only for descriptive purposes but also for additional tasks such as recommendation or personalization.
翻訳日:2024-03-25 08:36:53 公開日:2024-02-10
# 混合マルコフモデルを用いた学生のエンゲージメント行動のモデル化と予測

Modeling and predicting students' engagement behaviors using mixture Markov models ( http://arxiv.org/abs/2403.05556v1 )

ライセンス: Link先を確認
R. Maqsood, P. Ceravolo, C. Romero, S. Ventura, (参考訳) 学生のエンゲージメントは、コンピュータベースの学習や評価システムとのインタラクションを通じて推定できる、進行中の学習プロセスへの関与のレベルを反映している。 学生エンゲージメントを刺激する事前条件は、生徒の多様な(非)エンゲージメント行動を理解するための近似表現モデルを持つことにある。 そこで本研究では,K混合マルコフモデルを生成するモデルベースクラスタリングを用いて,学習者の学習行動パターンを含むトレースをグループ化する。 また,K-EMと呼ばれるK平均値に基づく初期化手法も導入した。 EMアルゴリズムの3つの変種(オリジナルのEM, EmEM, K-EM, および両者の混合ベースラインモデル)を用いて、2つの実データに対して実験を行った。 提案したK-EMは非常に有望な結果を示し、特にデータセットを用いた他の手法と比較して大きな性能差が得られた。 そこで本研究では,大規模データセットを用いてさらなる実験を行い,本手法の有効性を検証することを提案する。 さらに、一階のマルコフ連鎖を通した結果のクラスタの可視化は、学生が描いた(非)エンゲージメント行動に関する非常に有用な洞察を明らかにしている。 本稿は,本研究のアプローチの有用性,限界,潜在的な拡張性について論じて締めくくった。

Students' engagements reflect their level of involvement in an ongoing learning process which can be estimated through their interactions with a computer-based learning or assessment system. A pre-requirement for stimulating student engagement lies in the capability to have an approximate representation model for comprehending students' varied (dis)engagement behaviors. In this paper, we utilized model-based clustering for this purpose which generates K mixture Markov models to group students' traces containing their (dis)engagement behavioral patterns. To prevent the Expectation-Maximization (EM) algorithm from getting stuck in a local maxima, we also introduced a K-means-based initialization method named as K-EM. We performed an experimental work on two real datasets using the three variants of the EM algorithm: the original EM, emEM, K-EM; and, non-mixture baseline models for both datasets. The proposed K-EM has shown very promising results and achieved significant performance difference in comparison with the other approaches particularly using the Dataset. Hence, we suggest to perform further experiments using large dataset(s) to validate our method. Additionally, visualization of the resultant clusters through first-order Markov chains reveals very useful insights about (dis)engagement behaviors depicted by the students. We conclude the paper with a discussion on the usefulness of our approach, limitations and potential extensions of this work.
翻訳日:2024-03-25 08:36:53 公開日:2024-02-10
# 属性選択と異なるマルチモーダルデータソースのアンサンブルを用いた知的学習システムにおける生徒のパフォーマンス予測の改善

Improving prediction of students' performance in intelligent tutoring systems using attribute selection and ensembles of different multimodal data sources ( http://arxiv.org/abs/2403.07194v1 )

ライセンス: Link先を確認
W. Chango, R. Cerezo, M. Sanchez-Santillan, R. Azevedo, C. Romero, (参考訳) 本研究の目的は,Intelligent Tutoring Systemの異なるデータソースを用いて,大学生の学習成績を予測することである。 システムログからの学習戦略,顔記録ビデオからの感情,視線追跡からのインタラクションゾーン,最終知識評価によるテストパフォーマンスなど,さまざまなマルチモーダルソースからの40人の学生のデータを収集し,前処理した。 本研究の目的は,属性選択と分類アンサンブルを用いて予測を改善できるかどうかを検証することであった。 我々は6つの分類アルゴリズムを数値化および離散化したマルチモーダルデータに適用して3つの実験を行った。 その結果, アンサンブルを用いて最適な予測を行い, 数値データを用いた最適属性選択を行った。

The aim of this study was to predict university students' learning performance using different sources of data from an Intelligent Tutoring System. We collected and preprocessed data from 40 students from different multimodal sources: learning strategies from system logs, emotions from face recording videos, interaction zones from eye tracking, and test performance from final knowledge evaluation. Our objective was to test whether the prediction could be improved by using attribute selection and classification ensembles. We carried out three experiments by applying six classification algorithms to numerical and discretized preprocessed multimodal data. The results show that the best predictions were produced using ensembles and selecting the best attributes approach with numerical data.
翻訳日:2024-03-25 08:27:08 公開日:2024-02-10
# 深層Q-Learningと5G負荷分散

Federated Deep Q-Learning and 5G load balancing ( http://arxiv.org/abs/2403.08813v1 )

ライセンス: Link先を確認
Hsin Lin, Yi-Kang Su, Hong-Qi Chen, La-Fei Ko, (参考訳) セルラーネットワーク技術の進歩にもかかわらず、基地局(BS)の負荷分散は永続的な問題である。 集中資源割当手法は負荷分散問題に対処できるが、まだNPハード問題である。 本研究では,各BSの負荷条件について,各ユーザ機器(UE)に対して,連合型深度Q学習を用いて情報伝達を行う方法について検討した。 フェデレートされたディープラーニングのロードバランシングにより、インテリジェントなUEは、ネットワークに露出するプライベート情報の量を制限するとともに、最高のBSを独立して選択することができる。 本研究では,Open-RAN xAPPフレームワークと準リアルタイム無線インタフェースコントローラ(近RT RIC)を用いて実装した,深層学習負荷分散システムを提案する。 シミュレーションの結果,現在UEsで使用されている最大信号量比 (MAX-SINR) 法と比較して,提案した深部Q学習モデルは高い平均UE品質を継続的に提供できることが示唆された。

Despite advances in cellular network technology, base station (BS) load balancing remains a persistent problem. Although centralized resource allocation methods can address the load balancing problem, it still remains an NP-hard problem. In this research, we study how federated deep Q learning can be used to inform each user equipment (UE) of the each BS's load conditions. Federated deep Q learning's load balancing enables intelligent UEs to independently select the best BS while also limiting the amount of private information exposed to the network. In this study, we propose and analyze a federated deep Q learning load balancing system, which is implemented using the Open-RAN xAPP framework and the near-Real Time Radio Interface Controller (near-RT RIC). Our simulation results indicate that compared to the maximum Signal-To-Noise-Ratio (MAX-SINR) method currently used by UEs, our proposed deep Q learning model can consistently provide better High average UE quality of service
翻訳日:2024-03-25 08:16:13 公開日:2024-02-10
# SportsNGEN: マルチプレイヤースポーツゲームプレイの持続的世代

SportsNGEN: Sustained Generation of Multi-player Sports Gameplay ( http://arxiv.org/abs/2403.12977v1 )

ライセンス: Link先を確認
Lachlan Thorpe, Lewis Bawden, Karanjot Vendal, John Bronskill, Richard E. Turner, (参考訳) 本研究では,スポーツ選手とボール追跡シーケンスをトレーニングし,現実的で持続的なゲームプレイを生成可能なトランスフォーマーデコーダモデルであるSportsNGENを提案する。 本研究では,プロテニス追跡データの大規模データベース上でSportsNGENを訓練・評価し,生成したシミュレーションをショット分類器と論理と組み合わせてアラリーの開始と終了を図り,テニスの試合全体をシミュレートできることを示した。 さらに、SportsNGENの汎用バージョンは、そのプレイヤーを含むマッチデータを微調整することで、特定のプレイヤーにカスタマイズすることができる。 我々は,我々のモデルが十分に校正されていることを示し,正当性や選択肢があるかどうかを評価することによって,コーチや放送局の洞察を導き出すことができることを示した。 最後に,同じアプローチがサッカーに有効であることを示す定性的な結果を示す。

We present a transformer decoder based model, SportsNGEN, that is trained on sports player and ball tracking sequences that is capable of generating realistic and sustained gameplay. We train and evaluate SportsNGEN on a large database of professional tennis tracking data and demonstrate that by combining the generated simulations with a shot classifier and logic to start and end rallies, the system is capable of simulating an entire tennis match. In addition, a generic version of SportsNGEN can be customized to a specific player by fine-tuning on match data that includes that player. We show that our model is well calibrated and can be used to derive insights for coaches and broadcasters by evaluating counterfactual or what if options. Finally, we show qualitative results indicating the same approach works for football.
翻訳日:2024-03-25 07:27:10 公開日:2024-02-10
# エピストラルネットワーク:分散化によるメディアキュレーションと消費の革命

Epistral Network: Revolutionizing Media Curation and Consumption through Decentralization ( http://arxiv.org/abs/2402.04881v2 )

ライセンス: Link先を確認
Dipankar Sarkar, Shubham Upadhyay, (参考訳) ブロックチェーン技術は、デジタル時代のメディア消費と流通に革命をもたらし、クリエイター、消費者、規制機関が分散的で公正で魅力的なメディア環境に参加することを可能にする。 ブロックチェーン技術を活用した革新的なメディアネットワークであるEpistralは、今日のデジタルメディアの世界で直面する中核的な課題、すなわちクリエーターとマニピュティブ・コンシューマー・アルゴリズムの不公平な扱い、効果的な規制の複雑なタスクに対処する、世界初の反軍事メディアキュレーションと消費ネットワークを目指している。 本稿では、エピストラルの概念化、設計、潜在的影響を掘り下げ、ブロックチェーン技術の領域内でマクルハンとジラールの理論を具現化し、ヘイデンの民主的表現に対する批判から引き出す方法について考察する。 本稿は,この新ネットワークがもたらす課題と機会を分析し,メディア消費,流通,規制の将来についてより広範な議論を提供する。

Blockchain technology has revolutionized media consumption and distribution in the digital age, allowing creators, consumers, and regulators to participate in a decentralized, fair, and engaging media environment. Epistral, an innovative media network that leverages blockchain technology, aims to be the world's first anti-mimetic media curation and consumption network, addressing the core challenges facing today's digital media landscape: unfair treatment of creators and manipulative consumer algorithms, and the complex task of effective regulation. This paper delves into the conceptualization, design, and potential impact of epistral and explores how it embodies McLuhan's and Girard's theories within the realm of blockchain technology and draws from Hayden's critique of democratic representation. The paper analyzes the challenges and opportunities presented by this new network, providing a broader discourse on the future of media consumption, distribution, and regulation.
翻訳日:2024-03-18 07:38:15 公開日:2024-02-10
# ウィンドウ選択とノード最適化による妊娠と労働の子宮同期解析の最適化

Optimizing Uterine Synchronization Analysis in Pregnancy and Labor through Window Selection and Node Optimization ( http://arxiv.org/abs/2402.14827v1 )

ライセンス: Link先を確認
Kamil Bader El Dine, Noujoud Nader, Mohamad Khalil and Catherine Marque(参考訳) 妊娠前労働(pl)は5歳未満の子供の死因として世界中で主要なものとなっている。 そこで本研究では,母親の腹部に記録されたEHG信号を,労働・妊娠中に分析し,新しいアプローチを提案する。 EHGシグナルは、子宮筋の機械的収縮を引き起こす電気活性を反映する。 EHGは非定常的な信号であることが知られており、契約中の接続変更を期待するので、実際の信号にウィンドウ化アプローチを適用して、分類に最も重要なデータを持つ最良のウィンドウと最適なノードを特定するのに役立てる。 提案するパイプラインには 一 妊婦の腹部から記録した16個のEHG信号をN窓に分割すること。 二 各窓に接続行列を適用すること。 三 各窓の連結行列に関するグラフ理論に基づく測度を適用すること。 iv) 最良ウィンドウと最良ノードを取得するために、各ウィンドウのコンセンサスマトリックスを適用すること。 その後、さまざまな入力パラメータ(接続方法のみ、接続方法、グラフパラメータ、最良ノード、全ノード、最良ウィンドウ、全ウィンドウ)に基づいて、妊娠と労働の収縮を分類するために、ベストウィンドウとベストノードにいくつかのニューラルネットワークと機械学習手法が適用される。 その結果,最良ノードはノード8,9,10,11,12であり,最良ウィンドウは2,4,5であることがわかった。 これらの最良ノードのみを用いて得られる分類結果は、全ノードを使用する場合よりも優れている。 選択したノードが何であれ、フルバーストを使用する場合、結果は常に良好です。 このように、ウィンドウリングアプローチは、労働と妊娠のEHG信号の区別を改善する革新的な手法であることが判明した。

Preterm labor (PL) has globally become the leading cause of death in children under the age of 5 years. To address this problem, this paper will provide a new approach by analyzing the EHG signals, which are recorded on the abdomen of the mother during labor and pregnancy. The EHG signal reflects the electrical activity that induces the mechanical contraction of the myometrium. Because EHGs are known to be non-stationary signals, and because we anticipate connectivity to alter during contraction, we applied the windowing approach on real signals to help us identify the best windows and the best nodes with the most significant data to be used for classification. The suggested pipeline includes i) divide the 16 EHG signals that are recorded from the abdomen of pregnant women in N windows; ii) apply the connectivity matrices on each window; iii) apply the Graph theory-based measures on the connectivity matrices on each window; iv) apply the consensus Matrix on each window in order to retrieve the best windows and the best nodes. Following that, several neural network and machine learning methods are applied to the best windows and best nodes to categorize pregnancy and labor contractions, based on the different input parameters (connectivity method alone, connectivity method plus graph parameters, best nodes, all nodes, best windows, all windows). Results showed that the best nodes are nodes 8, 9, 10, 11, and 12; while the best windows are 2, 4, and 5. The classification results obtained by using only these best nodes are better than when using the whole nodes. The results are always better when using the full burst, whatever the chosen nodes. Thus, the windowing approach proved to be an innovative technique that can improve the differentiation between labor and pregnancy EHG signals.
翻訳日:2024-03-03 19:36:05 公開日:2024-02-10
# DAEDRA:受動薬物移動レポートにおける結果予測のための言語モデル

DAEDRA: A language model for predicting outcomes in passive pharmacovigilance reporting ( http://arxiv.org/abs/2402.10951v1 )

ライセンス: Link先を確認
Chris von Csefalvay(参考訳) 近年,言語モデル (LLM) の出現により, 言語コンテキストや内容の特質を反映したドメイン固有モデルが, 起源ドメインの相関関係として出現しつつある。 本稿では,パッシブ・レポーティング(PR)による有害事象報告における規制関連結果(死亡,ER参加,入院)の検出を目的とした,DAEDRAの概念,設計,トレーニング,評価について述べる。 PRは、医師や医療提供者だけでなく、患者、家族、その他の利害関係者を含む、幅広い多様な聴衆から情報を引き出す非常にコスト効率の高い方法であるが、この多様性はPRコーパスの分析を困難にしている。 ジェネリック言語モデルは複雑な臨床次元を捉えないが、特定の臨床モデルや生体医学モデルでは、在来報告ではうまく機能しない。 サブドメイン固有言語モデルの有用性を評価するために、コーパスのサブセットで基本言語モデル候補を評価し、コーパス全体において最善のパフォーマーを訓練した適応型学習アプローチが適用された。 この結果、f_1$ (+1%)、精度 (+2.5%)、リコール (+3.8%) は、比較的低い訓練コストと1日の訓練時間で改善した。 サブドメイン固有のLSMは、高度に専門化されたコーパスを分析する際に、より良い結果を得るための選択肢であり続けている。

Over the recent years, the emergence of large language models (LLMs) has given rise to a proliferation of domain-specific models that are intended to reflect the particularities of linguistic context and content as a correlate of the originating domain. This paper details the conception, design, training and evaluation of DAEDRA, a LLM designed to detect regulatory-relevant outcomes (mortality, ER attendance and hospitalisation) in adverse event reports elicited through passive reporting (PR). While PR is a highly cost-efficient way of eliciting information from a wide and diverse audience -- typically including not only physicians and healthcare providers but also patients, family members and other lay stakeholders --, this diversity makes PR corpora difficult to analyse. Generic language models may not capture the complex clinical dimensions while specific clinical or biomedical models may not perform well on lay reports. To evaluate the utility of a subdomain-specific language model, an adaptive training approach was adapted, wherein base language model candidates were evaluated on a subset of the corpus, and the best performer was trained on the entire corpus. This yielded a small but significant improvement in $F_1$ (+1%), precision (+2.5%) and recall (+3.8%), at a relatively low training cost and a single-day training time. Subdomain-specific LLMs continue to be viable options for better results when analysing highly specialised corpora.
翻訳日:2024-02-25 17:07:27 公開日:2024-02-10
# 共進化サンゴ礁最適化アルゴリズムを用いた調整質量減衰器による構造振動制御

Structures vibration control via tuned mass dampers using a co-evolution coral reefs optimization algorithm ( http://arxiv.org/abs/2402.06981v1 )

ライセンス: Link先を確認
S Salcedo-Sanz, C Camacho-G\'omez, A Magdaleno, E Pereira, A Lorenzana(参考訳) 本稿では,新しいメタヒューリスティックアルゴリズムを用いて,地震動を受ける構造物の最適設計と調整型マスダンパ(tmds)の位置について検討する。 具体的には,単一溶液群内で異なる探索手順を持つ競合共進化アルゴリズムとして,基盤層(cro-sl)を有するサンゴ礁最適化(cro)を提案する。 提案手法は, 異なるタイプの探索機構の組み合わせを利用して, TMD設計と位置問題を解くことができる。 これにより、最適化問題に対する強力な進化的アルゴリズムが推進され、TMDチューニングのこの特定の問題に非常に効果的であることが示されている。 提案アルゴリズムの性能評価と,2階と4階の2つの建物モデルにおける複数の参照アルゴリズムとの比較を行った。

In this paper we tackle a problem of optimal design and location of Tuned Mass Dampers (TMDs) for structures subjected to earthquake ground motions, using a novel meta-heuristic algorithm. Specifically, the Coral Reefs Optimization (CRO) with Substrate Layer (CRO-SL) is proposed as a competitive co-evolution algorithm with different exploration procedures within a single population of solutions. The proposed approach is able to solve the TMD design and location problem, by exploiting the combination of different types of searching mechanisms. This promotes a powerful evolutionary-like algorithm for optimization problems, which is shown to be very effective in this particular problem of TMDs tuning. The proposed algorithm's performance has been evaluated and compared with several reference algorithms in two building models with two and four floors, respectively.
翻訳日:2024-02-15 18:36:28 公開日:2024-02-10
# 深層学習の創造性:概念化と評価

Creativity of Deep Learning: Conceptualization and Assessment ( http://arxiv.org/abs/2012.02282v3 )

ライセンス: Link先を確認
Marcus Basalla and Johannes Schneider and Jan vom Brocke(参考訳) 単純なタスクを自動化するためのディープラーニング(DL)の可能性はすでによく研究されているが、最近の研究は、完全な人工物作成と創造プロセスにおける人のサポートの両方にディープラーニングを創造設計に利用することの研究を始めている。 本稿では,文献レビューで特定された創造的領域における生成的深層学習の現在の応用を概念化し,評価するために,計算的創造性からの洞察を用いる。 我々は、現在のシステムと人間の創造性の異なるモデルとそれらの欠点の類似点を強調している。 ディープラーニングは高品質画像などの高価値な結果をもたらすが、トレーニングデータによって定義される概念空間に結びつくなど、さまざまな理由により、その新しさは制限される。 現在のDL法では、内部の問題表現の変更も許可されておらず、どちらも人間の創造性の主要な要因と見なされる、非常に異なるドメイン間の接続を識別する能力が欠如している。

While the potential of deep learning (DL) for automating simple tasks is already well explored, recent research has started investigating the use of deep learning for creative design, both for complete artifact creation and supporting humans in the creation process. In this paper, we use insights from computational creativity to conceptualize and assess current applications of generative deep learning in creative domains identified in a literature review. We highlight parallels between current systems and different models of human creativity as well as their shortcomings. While deep learning yields results of high value, such as high-quality images, their novelty is typically limited due to multiple reasons such as being tied to a conceptual space defined by training data. Current DL methods also do not allow for changes in the internal problem representation, and they lack the capability to identify connections across highly different domains, both of which are seen as major drivers of human creativity.
翻訳日:2024-02-14 20:30:51 公開日:2024-02-10
# Meta Co-Training: 2つのビューは1より優れている

Meta Co-Training: Two Views are Better than One ( http://arxiv.org/abs/2311.18083v3 )

ライセンス: Link先を確認
Jay C. Rothenberger, Dimitrios I. Diochnos(参考訳) 多くの実用的なコンピュータビジョンシナリオでは、ラベルのないデータは豊富だが、ラベルは乏しく入手が難しい。 その結果,教師付き分類器の性能を高めるためにラベル付きデータを活用した半教師付き学習が近年注目されている。 半教師付きアルゴリズムの主要なクラスはコトレーニングである。 共同トレーニングでは、2つの異なるモデルが異なる独立性と十分なデータ"ビュー"を活用して、より優れた予測を行う。 共トレーニングの間、各モデルは他のモデルを改善するために使用されるラベルのない点に擬似ラベルを作成する。 独立ビューが利用できない一般的なケースでは、事前学習したモデルを使って安価にビューを構築することができる。 構築されたビューを共同トレーニングすることで、構築した個々のビューよりもパフォーマンスが向上し、セミ教師付き学習のアプローチに匹敵するパフォーマンスになりますが、望ましくない特性がいくつかあります。 共同学習に伴う問題を軽減するため,Meta Pseudo Labels アプローチの拡張である Meta Co-Training を2つの視点で紹介する。 提案手法は,ImageNet-10%において,トレーニングリソースの少ない新たな最先端性能を実現するとともに,他の細粒度画像分類データセットに対する半教師付き作業よりも優れる。

In many practical computer vision scenarios unlabeled data is plentiful, but labels are scarce and difficult to obtain. As a result, semi-supervised learning which leverages unlabeled data to boost the performance of supervised classifiers have received significant attention in recent literature. One major class of semi-supervised algorithms is co-training. In co-training two different models leverage different independent and sufficient "views" of the data to jointly make better predictions. During co-training each model creates pseudo labels on unlabeled points which are used to improve the other model. We show that in the common case when independent views are not available we can construct such views inexpensively using pre-trained models. Co-training on the constructed views yields a performance improvement over any of the individual views we construct and performance comparable with recent approaches in semi-supervised learning, but has some undesirable properties. To alleviate the issues present with co-training we present Meta Co-Training which is an extension of the successful Meta Pseudo Labels approach to two views. Our method achieves new state-of-the-art performance on ImageNet-10% with very few training resources, as well as outperforming prior semi-supervised work on several other fine-grained image classification datasets.
翻訳日:2024-02-14 19:22:02 公開日:2024-02-10
# ストリームのセンチネル: ソフトウェア定義ネットワークにおける動的パケット分類のための大きな言語モデルを解き放つ -- 位置論文

Sentinels of the Stream: Unleashing Large Language Models for Dynamic Packet Classification in Software Defined Networks -- Position Paper ( http://arxiv.org/abs/2402.07950v1 )

ライセンス: Link先を確認
Shariq Murtuza(参考訳) OpenAIのChatGPTのリリースにより、大規模言語モデル(LLM)の分野はGPTベースのチャットアシスタントへの学術的関心が高まった。 続く数ヶ月で、metaのllamaモデルとmistral aiのmistralモデルとmixtral moeモデルを含む複数のaccesible large languageモデルがリリースされた。 これらのモデルは、幅広いライセンスを持つ幅広い目的のためにオープンに利用可能である。 これらのLLMは、コード開発やSQL生成など、さまざまな分野で使用されています。 本研究では,ネットワークセキュリティ分野における大規模言語モデルの適用可能性について検討する。 我々は,LLMであるSentinelを作成し,ネットワークパケットの内容を分析し,その脅威レベルを判断する。 この研究は、我々の将来の取り組みの計画を立案する予備的な報告書です。

With the release of OpenAI's ChatGPT, the field of large language models (LLM) saw an increase of academic interest in GPT based chat assistants. In the next few months multiple accesible large language models were released that included Meta's LLama models and Mistral AI's Mistral and Mixtral MoE models. These models are available openly for a wide array of purposes with a wide spectrum of licenses. These LLMs have found their use in a different number of fields like code development, SQL generation etc. In this work we propose our plan to explore the applicability of large language model in the domain of network security. We plan to create Sentinel, a LLM, to analyse network packet contents and pass a judgment on it's threat level. This work is a preliminary report that will lay our plan for our future endeavors.
翻訳日:2024-02-14 18:20:48 公開日:2024-02-10
# 教育データマイニングと学習分析:最新の調査

Educational data mining and learning analytics: An updated survey ( http://arxiv.org/abs/2402.07956v1 )

ライセンス: Link先を確認
C. Romero, S. Ventura(参考訳) この調査は、2013年にこのジャーナルで公表された、教育におけるデータマイニングというタイトルで更新され、改善されたバージョンである。 教育データマイニングと学習分析が教育データに対してどのように適用されてきたかを理解し、非常に一般的な方法でレビューする。 この10年間で、この研究領域は大きく発展し、学術分析、機関分析、教育分析、データ駆動教育、教育におけるデータ駆動意思決定、教育におけるビッグデータ、教育データサイエンスなどの書誌学において、幅広い関連用語が使われている。 本稿では, 主要な出版物, 重要なマイルストーン, 知識発見サイクル, 主な教育環境, 特定のツール, 無料のデータセット, 最もよく使われる方法, 主な目的, 研究領域における今後のトレンドを概観して, 芸術の現況について述べる。

This survey is an updated and improved version of the previous one published in 2013 in this journal with the title data mining in education. It reviews in a comprehensible and very general way how Educational Data Mining and Learning Analytics have been applied over educational data. In the last decade, this research area has evolved enormously and a wide range of related terms are now used in the bibliography such as Academic Analytics, Institutional Analytics, Teaching Analytics, Data-Driven Education, Data-Driven Decision-Making in Education, Big Data in Education, and Educational Data Science. This paper provides the current state of the art by reviewing the main publications, the key milestones, the knowledge discovery cycle, the main educational environments, the specific tools, the free available datasets, the most used methods, the main objectives, and the future trends in this research area.
翻訳日:2024-02-14 18:07:47 公開日:2024-02-10
# ProtIR:RetrieverとPredictorsによるタンパク質機能アノテーションの反復的リファインメント

ProtIR: Iterative Refinement between Retrievers and Predictors for Protein Function Annotation ( http://arxiv.org/abs/2402.07955v1 )

ライセンス: Link先を確認
Zuobai Zhang, Jiarui Lu, Vijil Chenthamarakshan, Aur\'elie Lozano, Payel Das, Jian Tang(参考訳) タンパク質機能アノテーションは、生物学において重要なが難しい課題である。 近年の深層学習の進歩は,タンパク質配列や構造から学ぶことによって,正確な機能予測に有意な可能性を示唆している。 しかしながら、これらの予測子に基づく手法は、しばしば、配列や構造検索ツールを用いた伝統的なアプローチでよく使われるタンパク質類似性のモデリングを見落としている。 このギャップを埋めるために、まず、タンパク質機能アノテーションタスクに対する予測子に対する検索手法のベンチマークによるタンパク質間類似性モデリングの効果について検討する。 以上の結果から,レトリバーは,大規模事前学習を行わずに,予測器にマッチしたり,性能を上回ったりできることがわかった。 これらの知見に基づいて,タンパク質間類似性モデリングを取り入れた関数予測器の改良を目的とした,新しい変分擬似類似性フレームワークProtIRを導入する。 このフレームワークは、関数予測器とレトリバーの間の知識を反復的に洗練し、予測器とレトリバーの両方の強みを結合する。 ProtIRは、バニラ予測方式よりも約10%改善されている。 さらに,タンパク言語モデルに基づく手法と同等の性能を発揮するが,大規模な事前学習は必要とせず,フレームワークの有効性を強調している。 コードは受理時にリリースされる。

Protein function annotation is an important yet challenging task in biology. Recent deep learning advancements show significant potential for accurate function prediction by learning from protein sequences and structures. Nevertheless, these predictor-based methods often overlook the modeling of protein similarity, an idea commonly employed in traditional approaches using sequence or structure retrieval tools. To fill this gap, we first study the effect of inter-protein similarity modeling by benchmarking retriever-based methods against predictors on protein function annotation tasks. Our results show that retrievers can match or outperform predictors without large-scale pre-training. Building on these insights, we introduce a novel variational pseudo-likelihood framework, ProtIR, designed to improve function predictors by incorporating inter-protein similarity modeling. This framework iteratively refines knowledge between a function predictor and retriever, thereby combining the strengths of both predictors and retrievers. ProtIR showcases around 10% improvement over vanilla predictor-based methods. Besides, it achieves performance on par with protein language model-based methods, yet without the need for massive pre-training, highlighting the efficacy of our framework. Code will be released upon acceptance.
翻訳日:2024-02-14 18:07:31 公開日:2024-02-10
# dirac重畳連続時間信号におけるスパイクトレイン量子化演算子としての漏洩積分と火災について

On Leaky-Integrate-and Fire as Spike-Train-Quantization Operator on Dirac-Superimposed Continuous-Time Signals ( http://arxiv.org/abs/2402.07954v1 )

ライセンス: Link先を確認
Bernhard A. Moser, Michael Lunglmayr(参考訳) Leaky-integrate-and-fire (LIF) は、積分可能な信号$f$を離散事象のシーケンス$\eta_f$にマッピングする非線形演算子として研究される。 入力にディラックパルスが存在しない場合、ニューロンの電位を0にするか、スパイクトリガーイベントの直後に閾値を$\vartheta$に減らすかは変わらない。 しかし、重畳されたディラックパルスの場合、状況は異なるため、提案された各リセット変種に対する数学的正当性の疑問が提起される。 ゼロ屈折時間の極限の場合、閾値サブトラクションに基づく標準リセットスキームは、重み付きAlexiewiczノルム$\|に基づいてLIFを量子化演算子として特徴づけることができるモジュロベースのリセットスキームである。 リークパラメータ $\alpha$ を持つ \|_{a, \alpha}$ である。 局所可積分性の一般条件下での量子化公式 $\|\eta_f - f\|_{A, \alpha} < \vartheta$, ほぼ至るところの有界性および局所的に有限な重畳重み付きディラックパルスを証明し、従来の信号処理よりもはるかに大きな信号空間とより柔軟なスパース信号表現を提供する。

Leaky-integrate-and-fire (LIF) is studied as a non-linear operator that maps an integrable signal $f$ to a sequence $\eta_f$ of discrete events, the spikes. In the case without any Dirac pulses in the input, it makes no difference whether to set the neuron's potential to zero or to subtract the threshold $\vartheta$ immediately after a spike triggering event. However, in the case of superimpose Dirac pulses the situation is different which raises the question of a mathematical justification of each of the proposed reset variants. In the limit case of zero refractory time the standard reset scheme based on threshold subtraction results in a modulo-based reset scheme which allows to characterize LIF as a quantization operator based on a weighted Alexiewicz norm $\|.\|_{A, \alpha}$ with leaky parameter $\alpha$. We prove the quantization formula $\|\eta_f - f\|_{A, \alpha} < \vartheta$ under the general condition of local integrability, almost everywhere boundedness and locally finitely many superimposed weighted Dirac pulses which provides a much larger signal space and more flexible sparse signal representation than manageable by classical signal processing.
翻訳日:2024-02-14 18:07:12 公開日:2024-02-10
# 糖尿病管理改善のための人工膵設計の最適化

Optimizing the Design of an Artificial Pancreas to Improve Diabetes Management ( http://arxiv.org/abs/2402.07949v1 )

ライセンス: Link先を確認
Ashok Khanna, Olivier Francon, Risto Miikkulainen(参考訳) 糖尿病は、身体が食物をエネルギーに変える、すなわち血糖値に障害を与える慢性疾患であり、米国だけでも3800万人に影響を及ぼす。 標準的な治療法は、炭水化物摂取を人工膵臓、すなわち連続的なインスリンポンプ(基底ショット)と時折のインスリン注射(ボールショット)で補うことである。 この治療の目的は、連続したグルコースメーターで測定されるように、血糖値を許容範囲の中央に保持することである。 第二の目標は、一部の患者が実施するのが不快で難しい注射を最小化することである。 本研究では,神経進化を治療の最適な戦略の発見に用いた。 1人の患者の30日間の治療と測定のデータセットに基づいて、ランダムな森林が最初に訓練され、将来の血糖値を予測した。 その後、ニューラルネットワークが進化し、炭水化物、玄武体ポンプレベル、骨注入を処方した。 進化によってパレートフロントが発見され、元のデータに比べてターゲットと注射回数のずれが減少し、患者の生活の質が向上した。 システムの採用を容易にするため、大きな言語モデルで言語インターフェースが開発された。 したがって、これらの技術は患者のケアを改善するだけでなく、より広い人口で採用される。

Diabetes, a chronic condition that impairs how the body turns food into energy, i.e. blood glucose, affects 38 million people in the US alone. The standard treatment is to supplement carbohydrate intake with an artificial pancreas, i.e. a continuous insulin pump (basal shots), as well as occasional insulin injections (bolus shots). The goal of the treatment is to keep blood glucose at the center of an acceptable range, as measured through a continuous glucose meter. A secondary goal is to minimize injections, which are unpleasant and difficult for some patients to implement. In this study, neuroevolution was used to discover an optimal strategy for the treatment. Based on a dataset of 30 days of treatment and measurements of a single patient, a random forest was first trained to predict future glucose levels. A neural network was then evolved to prescribe carbohydrates, basal pumping levels, and bolus injections. Evolution discovered a Pareto front that reduced deviation from the target and number of injections compared to the original data, thus improving patients' quality of life. To make the system easier to adopt, a language interface was developed with a large language model. Thus, these technologies not only improve patient care but also adoption in a broader population.
翻訳日:2024-02-14 18:06:44 公開日:2024-02-10
# ホモロジー量子力学

Homological Quantum Mechanics ( http://arxiv.org/abs/2112.11495v2 )

ライセンス: Link先を確認
Christoph Chiaffrino, Olaf Hohm and Allison F. Pinto(参考訳) 我々は、バタリン・ヴィルコフスキー代数(BV)のコホモロジーに基づく量子力学の定式化を提供する。 ゲージ対称性を持たない量子力学系に着目し、調和振動子の鎖複体から有限次元位相空間へのホモトピーレトラクションを導入する。 これにより、BV代数から位相空間上の函数の代数へのホモトピー転移が誘導される。 与えられた作用素や関数に対する量子期待値は、引き戻しが同じコホモロジークラスで関数を与える関数によって計算される。 この主張は摂動論において、摂動補題をウィックの定理に関連付けることで証明される。 位置固有状態とコヒーレント状態に対する調和発振器の2点関数を演算して本手法をテストする。 最後に、これらの方法が場の量子論に適用できることを示すunruh効果を導出する。

We provide a formulation of quantum mechanics based on the cohomology of the Batalin-Vilkovisky (BV) algebra. Focusing on quantum-mechanical systems without gauge symmetry we introduce a homotopy retract from the chain complex of the harmonic oscillator to finite-dimensional phase space. This induces a homotopy transfer from the BV algebra to the algebra of functions on phase space. Quantum expectation values for a given operator or functional are computed by the function whose pullback gives a functional in the same cohomology class. This statement is proved in perturbation theory by relating the perturbation lemma to Wick's theorem. We test this method by computing two-point functions for the harmonic oscillator for position eigenstates and coherent states. Finally, we derive the Unruh effect, illustrating that these methods are applicable to quantum field theory.
翻訳日:2024-02-14 01:40:10 公開日:2024-02-10
# 多目的最適化のための明示的マルチモーダルベンチマーク

Explicitly Multi-Modal Benchmarks for Multi-Objective Optimization ( http://arxiv.org/abs/2110.03196v3 )

ライセンス: Link先を確認
Ryosuke Ota and Reiya Hagiwara and Naoki Hamada and Likun Liu and Takahiro Yamamoto and Daisuke Sakurai(参考訳) 多目的最適化において、優れたベンチマーク問題を設計することは、解法を改善する上で重要な問題である。 既存のベンチマーク問題におけるパレート・オプティマのグローバル位置の制御は問題であり、可視化が極めて困難であるため、設計空間が高次元である場合にはさらに困難である。 明示的な局所的なParetoフロントによるベンチマークとして,アトラクションの盆地を用いた流域接続(3BC)に基づくベンチマークを導入する。 3BCは、盆地グラフと呼ばれるトポロジ解析によってマルチモーダルランドスケープの仕様化を可能にし、このグラフから最適化問題を効果的に生成する。 グローバルパレートオプティマを探索する際の解法の性能は,様々な既知の指標によって測定されているが,3BCを用いることで各パレートフロントに局所化することができる。 3BCの数学的定式化は、指定された最適化ランドスケープの正確な表現を保証し、意図された局所的およびグローバルなパレート最適化の存在を保証する。

In multi-objective optimization, designing good benchmark problems is an important issue for improving solvers. Controlling the global location of Pareto optima in existing benchmark problems has been problematic, and it is even more difficult when the design space is high-dimensional since visualization is extremely challenging. As a benchmarking with explicit local Pareto fronts, we introduce a benchmarking based on basin connectivity (3BC) by using basins of attraction. The 3BC allows for the specification of a multimodal landscape through a kind of topological analysis called the basin graph, effectively generating optimization problems from this graph. Various known indicators measure the performance of a solver in searching global Pareto optima, but using 3BC can make us localize them for each local Pareto front by restricting it to its basin. 3BC's mathematical formulation ensures the accurate representation of the specified optimization landscape, guaranteeing the existence of intended local and global Pareto optima.
翻訳日:2024-02-14 01:39:08 公開日:2024-02-10
# 非理想キャビティにおける散逸光物質結合と異常分散

Dissipative light-matter coupling and anomalous dispersion in nonideal cavities ( http://arxiv.org/abs/2301.02221v2 )

ライセンス: Link先を確認
Olivier Bleu, Kenneth Choo, Jesper Levinsen and Meera M. Parish(参考訳) 非理想的キャビティに埋め込まれたエミッタのシナリオを考察する。 オープンシステムを記述するために入出力方式を用いることで,エミッタとキャビティの効果的な散逸結合は,共通のフォトニック環境との相互作用により実現可能であることを示す。 このメカニズムはエミッタの性質とは無関係であり、ゼロ温度でも存在するため、様々な光・物質結合系において、非エルミート現象の範囲にアクセスする経路を提供する。 特に, 放射崩壊速度が従来のラビカップリングを超える場合, 発振器とキャビティモードの間のレベルアトラクション現象が効果的に発散カップリングされることが示唆された。 このモデルにより、半導体マイクロキャビティにおける最近の発光測定で観測された異常分散と負の質量について説明できる。 最後に、実効的な非エルミート系は連続体におけるハイブリッド光マター例外点と有界状態を生成することができることを示す。

We consider the scenario of an emitter embedded in a nonideal cavity. Using an input-output approach to describe the open system, we show that an effective dissipative coupling between the emitter and the cavity can emerge because of their interaction with a common photonic environment. The underlying mechanism is independent of the nature of the emitter and exists even at zero temperature; hence our results provide a pathway for accessing a range of non-Hermitian phenomena in a variety of light-matter coupled systems. In particular, we show that the effective dissipative coupling can lead to the phenomenon of level attraction between the emitter and cavity mode when the radiative decay rates exceed the conventional Rabi coupling. Our model thus provides a possible explanation for the anomalous dispersions and negative mass observed in recent photoluminescence measurements in semiconductor microcavities. Finally, we show that our effective non-Hermitian system can produce hybrid light-matter exceptional points and bound states in the continuum.
翻訳日:2024-02-14 01:30:41 公開日:2024-02-10
# 自然言語指導による検索に基づく異方性表現学習

Retrieval-based Disentangled Representation Learning with Natural Language Supervision ( http://arxiv.org/abs/2212.07699v2 )

ライセンス: Link先を確認
Jiawei Zhou, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Lei Chen(参考訳) データのばらつきの根本的な要因が自然に存在しないため、乱れのある表現学習は依然として困難である。 実世界のデータの本質的な複雑さは、すべての変動を有限個の要素に包含することができない。 しかし、ほとんどの現実世界のデータは、典型的にはテキスト記述の形で、言語的等価性を持っていることに注意する必要がある。 これらの言語対応語はデータを表現することができ、無益に異なるトークンに分解される。 そこで本研究では,自然言語を基盤となるデータ変動のプロキシとして活用し,異種表現学習を駆動する検索フレームワークであるvdr(words disentangled retrieval)を提案する。 本手法では,語彙空間におけるデータと自然言語の両方を表現するために,バイエンコーダモデルを用いる。 我々は,15の検索ベンチマークデータセットにおけるvdrの性能を広範囲に評価し,テキスト対テキストおよびクロスモーダル検索シナリオを網羅し,人間による評価を行った。 実験の結果,従来のモデルサイズとトレーニングコストに匹敵するVDRよりも優れており,BEIRベンチマークではNDCG@10が8.7%,MS COCOが5.3%,Flickr30kが6.0%向上した。 また,人間による評価の結果,SOTAキャプションモデルと同等の解釈可能性を示した。

Disentangled representation learning remains challenging as the underlying factors of variation in the data do not naturally exist. The inherent complexity of real-world data makes it unfeasible to exhaustively enumerate and encapsulate all its variations within a finite set of factors. However, it is worth noting that most real-world data have linguistic equivalents, typically in the form of textual descriptions. These linguistic counterparts can represent the data and effortlessly decomposed into distinct tokens. In light of this, we present Vocabulary Disentangled Retrieval (VDR), a retrieval-based framework that harnesses natural language as proxies of the underlying data variation to drive disentangled representation learning. Our approach employ a bi-encoder model to represent both data and natural language in a vocabulary space, enabling the model to distinguish dimensions that capture intrinsic characteristics within data through its natural language counterpart, thus facilitating disentanglement. We extensively assess the performance of VDR across 15 retrieval benchmark datasets, covering text-to-text and cross-modal retrieval scenarios, as well as human evaluation. Our experimental results compellingly demonstrate the superiority of VDR over previous bi-encoder retrievers with comparable model size and training costs, achieving an impressive 8.7% improvement in NDCG@10 on the BEIR benchmark, a 5.3% increase on MS COCO, and a 6.0% increase on Flickr30k in terms of mean recall in the zero-shot setting. Moreover, The results from human evaluation indicate that interpretability of our method is on par with SOTA captioning models.
翻訳日:2024-02-14 01:29:51 公開日:2024-02-10
# 対称量子センサにおける有限ラウンド量子誤差補正

Finite-round quantum error correction on symmetric quantum sensors ( http://arxiv.org/abs/2212.06285v3 )

ライセンス: Link先を確認
Yingkai Ouyang and Gavin K. Brennen(参考訳) ハイゼンベルクの極限は、標準量子限界よりも2次的に改善され、線形量子センサが古典的な方法よりも得る最大量子優位性である。 しかし、ノイズデコヒーリング量子センサーの存在は避けられないため、まだ解明されていない。 すなわち、無限ラウンドの量子誤差補正が量子センサーの信号の任意の部分を修正すると、no-goの結果は標準の量子限界スケーリングが超過できないことを示唆する。 このno-go結果は、信号の一部が修正されても、削除誤差の線形率に直面してハイゼンベルク限界に近づくように、最適な有限個の量子誤差補正を用いて回避する。 ここでは、対称部分空間内の量子誤り訂正符号に注目する。 集合角運動量の対称状態は、準備が容易で、個々のアドレナビリティを必要とせずに制御できるため、量子センサーのマルチキュービットプローブ状態のよい候補である。 対称群の表現論が、置換不変符号に対する実用的な復号アルゴリズムにどのように役立つかを示す。 これらの復号アルゴリズムは、全角運動量、量子シュール変換、論理状態テレポーテーション、幾何パルスゲートの測定を含む。 置換不変符号の理論の完成により、簡単な量子制御技術を用いた量子誤り訂正の短期的な実装が可能となる。

The Heisenberg limit provides a quadratic improvement over the standard quantum limit, and is the maximum quantum advantage that linear quantum sensors could provide over classical methods. It remains elusive, however, because of the inevitable presence of noise decohering quantum sensors. Namely, if infinite rounds of quantum error correction corrects any part of a quantum sensor's signal, a no-go result purports that the standard quantum limit scaling can not be exceeded. We side-step this no-go result by using an optimal finite number of rounds of quantum error correction, such that even if part of the signal is corrected away, our quantum field sensing protocol can approach the Heisenberg limit in the face of a linear rate of deletion errors. Here, we focus on quantum error correction codes within the symmetric subspace. Symmetric states of collective angular momentum are good candidates for multi-qubit probe states in quantum sensors because they are easy to prepare and can be controlled without requiring individual addressability. We show how the representation theory of the symmetric group can inform practical decoding algorithms for permutation-invariant codes. These decoding algorithms involve measurements of total angular momentum, quantum Schur transforms or logical state teleportations, and geometric pulse gates. Our completion of the theory of permutation-invariant codes allows near-term implementation of quantum error correction using simple quantum control techniques.
翻訳日:2024-02-14 01:29:23 公開日:2024-02-10
# 非線形コンテキスト帯域とマルコフ決定過程に対する不確かさ重み付き破壊ロバストアルゴリズム

Corruption-Robust Algorithms with Uncertainty Weighting for Nonlinear Contextual Bandits and Markov Decision Processes ( http://arxiv.org/abs/2212.05949v4 )

ライセンス: Link先を確認
Chenlu Ye, Wei Xiong, Quanquan Gu, Tong Zhang(参考訳) 敵の汚職に伴う強化学習(RL)問題への大きな関心と進展にもかかわらず、現在の作業は線形設定に限られるか、望ましくない$\tilde{O}(\sqrt{T}\zeta)$ regret boundにつながり、$T$はラウンド数、$\zeta$は総汚職数である。 本稿では,一般関数近似を用いた文脈的帯域幅を考慮し,$\tilde{O}(\sqrt{T}+\zeta)$の後悔を実現するための計算効率の良いアルゴリズムを提案する。 提案手法は,最近開発された線形文脈バンディットによる不確実性重み付き最小二乗回帰と,一般関数クラスに対する不確実性重み付き推定器に依存する。 線形構造に大きく依存する既存の解析とは対照的に,重み付き不確実性の総和を制御する新しい手法を開発し,最終的な後悔境界を確立する。 次に、このアルゴリズムをエピソディックmdp設定に一般化し、一般関数近似のシナリオにおいて、まず汚職レベル$\zeta$に対する加法依存を達成する。 特に、我々のアルゴリズムは、すべての汚職レベルと未知の$\zeta$のケースにおいて、パフォーマンスの低いバウンダリにほぼ一致するか、既存のメソッドを改善している。

Despite the significant interest and progress in reinforcement learning (RL) problems with adversarial corruption, current works are either confined to the linear setting or lead to an undesired $\tilde{O}(\sqrt{T}\zeta)$ regret bound, where $T$ is the number of rounds and $\zeta$ is the total amount of corruption. In this paper, we consider the contextual bandit with general function approximation and propose a computationally efficient algorithm to achieve a regret of $\tilde{O}(\sqrt{T}+\zeta)$. The proposed algorithm relies on the recently developed uncertainty-weighted least-squares regression from linear contextual bandit and a new weighted estimator of uncertainty for the general function class. In contrast to the existing analysis that heavily relies on the linear structure, we develop a novel technique to control the sum of weighted uncertainty, thus establishing the final regret bounds. We then generalize our algorithm to the episodic MDP setting and first achieve an additive dependence on the corruption level $\zeta$ in the scenario of general function approximation. Notably, our algorithms achieve regret bounds either nearly match the performance lower bound or improve the existing methods for all the corruption levels and in both known and unknown $\zeta$ cases.
翻訳日:2024-02-14 01:28:54 公開日:2024-02-10
# Flow: 動的ルーティングによる個人化フェデレーション学習

Flow: Per-Instance Personalized Federated Learning Through Dynamic Routing ( http://arxiv.org/abs/2211.15281v2 )

ライセンス: Link先を確認
Kunjal Panchal, Sunav Choudhary, Nisarg Parikh, Lijun Zhang, Hui Guan(参考訳) フェデレートラーニング(FL)におけるパーソナライゼーションは、クライアントごとに協調的に訓練されたグローバルモデルを変更することを目的としている。 FLにおけるパーソナライズへの現在のアプローチは、粗い粒度、すなわち、クライアントのすべての入力インスタンスは同じパーソナライズされたモデルを使っている。 これは、いくつかのインスタンスがより正確なグローバルモデルによって扱われているという事実を無視している。 この課題に対処するために、この研究は、きめ細かいステートレスパーソナライズされたFLアプローチであるFlowを提案する。 Flowは、入力インスタンスがローカルパラメータを好むかどうかを判断するルーティングメカニズムを学習することで、動的パーソナライズされたモデルを生成する。 このようにflowは、クライアント毎のパーソナライズを活用して、各クライアントのアキュラビリティを向上させることに加えて、インスタンス毎のルーティングを導入する。 さらに、Flowはステートレスであるため、クライアントがFLラウンド全体でパーソナライズされた状態を維持する必要がなくなる。 これにより、Flowは大規模FL設定で実用的になり、新しく加入したクライアントと親しみやすくなります。 Stackoverflow、Reddit、EMNISTデータセットの評価は、FLに対する最先端の非個人化とクライアント毎のパーソナライズされたアプローチよりも、Flowの予測精度が優れていることを示している。

Personalization in Federated Learning (FL) aims to modify a collaboratively trained global model according to each client. Current approaches to personalization in FL are at a coarse granularity, i.e. all the input instances of a client use the same personalized model. This ignores the fact that some instances are more accurately handled by the global model due to better generalizability. To address this challenge, this work proposes Flow, a fine-grained stateless personalized FL approach. Flow creates dynamic personalized models by learning a routing mechanism that determines whether an input instance prefers the local parameters or its global counterpart. Thus, Flow introduces per-instance routing in addition to leveraging per-client personalization to improve accuracies at each client. Further, Flow is stateless which makes it unnecessary for a client to retain its personalized state across FL rounds. This makes Flow practical for large-scale FL settings and friendly to newly joined clients. Evaluations on Stackoverflow, Reddit, and EMNIST datasets demonstrate the superiority in prediction accuracy of Flow over state-of-the-art non-personalized and only per-client personalized approaches to FL.
翻訳日:2024-02-14 01:28:27 公開日:2024-02-10
# 運動量はいつ最適か? 多項式に基づく解析

When is Momentum Extragradient Optimal? A Polynomial-Based Analysis ( http://arxiv.org/abs/2211.04659v3 )

ライセンス: Link先を確認
Junhyung Lyle Kim, Gauthier Gidel, Anastasios Kyrillidis, Fabian Pedregosa(参考訳) 微分可能ゲームに対する頑健な収束特性により、過次法が人気を博した。 単目的最適化とは異なり、ゲーム力学は複素平面に散在するゲームベクトル場の固有値に反映される複雑な相互作用を含む。 この複雑さは、単純勾配法が双線型ゲームであっても分岐し、一方、過次法は収束する。 最近証明された双線型ゲームにおける運動量外進法の加速収束を基盤として、多項式解析を用いて、この手法がさらなる加速収束を示す3つの異なるシナリオを同定する。 これらのシナリオは、固有値が(正の)実数直線上に存在する場合や、複素共役と並んで実数直線上にある場合、あるいは単に複素共役として存在する場合を含む。 さらに,高速な収束率を達成する各シナリオのハイパーパラメータを導出する。

The extragradient method has gained popularity due to its robust convergence properties for differentiable games. Unlike single-objective optimization, game dynamics involve complex interactions reflected by the eigenvalues of the game vector field's Jacobian scattered across the complex plane. This complexity can cause the simple gradient method to diverge, even for bilinear games, while the extragradient method achieves convergence. Building on the recently proven accelerated convergence of the momentum extragradient method for bilinear games \citep{azizian2020accelerating}, we use a polynomial-based analysis to identify three distinct scenarios where this method exhibits further accelerated convergence. These scenarios encompass situations where the eigenvalues reside on the (positive) real line, lie on the real line alongside complex conjugates, or exist solely as complex conjugates. Furthermore, we derive the hyperparameters for each scenario that achieve the fastest convergence rate.
翻訳日:2024-02-14 01:27:48 公開日:2024-02-10
# 学習に基づく適応最適化による誤差緩和量子近似最適化

Error-mitigated Quantum Approximate Optimization via Learning-based Adaptive Optimization ( http://arxiv.org/abs/2303.14877v2 )

ライセンス: Link先を確認
Lixue Cheng, Yu-Qin Chen, Shi-Xin Zhang, Shengyu Zhang(参考訳) 組合せ最適化問題はユビキタスであり、一般には計算が難しい。 量子コンピューティングは、これらの問題のいくつかを解決するための潜在的な計算上の利点を提供する強力なツールとして考えられている。 最も代表的な量子古典ハイブリッドアルゴリズムの1つである量子近似最適化アルゴリズム(QAOA)は、離散最適化問題を連続回路パラメータ領域上の古典最適化問題に変換することにより、ある種の組合せ最適化問題を解決するように設計されている。 パラメータ変数に対するQAOAの客観的な展望は、広範に局所的な最小値と不規則なプラトーに対して悪名高く、訓練におけるその生存性は古典的最適化アルゴリズムの有効性に大きく依存している。 QAOAの性能を向上させるため,QAOAの適応型古典最適化器であるDARBOを設計した。 実験の結果,アルゴリズムは速度,精度,安定性の点で従来の勾配・勾配のない最適化よりも大幅に優れていた。 また,超伝導量子プロセッサ上での完全な最適化ループを成功させることで,測定効率と量子ノイズの抑制の問題にも対処した。 この研究はqaoaの全力を解き放ち、実用的な古典的タスクにおいて量子優位を達成する道を開くのに役立つ。

Combinatorial optimization problems are ubiquitous and computationally hard to solve in general. Quantum computing is envisioned as a powerful tool offering potential computational advantages for solving some of these problems. Quantum approximate optimization algorithm (QAOA), one of the most representative quantum-classical hybrid algorithms, is designed to solve certain combinatorial optimization problems by transforming a discrete optimization problem into a classical optimization problem over a continuous circuit parameter domain. QAOA objective landscape over the parameter variables is notorious for pervasive local minima and barren plateaus, and its viability in training significantly relies on the efficacy of the classical optimization algorithm. To enhance the performance of QAOA, we design double adaptive-region Bayesian optimization (DARBO), an adaptive classical optimizer for QAOA. Our experimental results demonstrate that the algorithm greatly outperforms conventional gradient-based and gradient-free optimizers in terms of speed, accuracy, and stability. We also address the issues of measurement efficiency and the suppression of quantum noise by successfully conducting the full optimization loop on the superconducting quantum processor. This work helps to unlock the full power of QAOA and paves the way toward achieving quantum advantage in practical classical tasks.
翻訳日:2024-02-14 01:19:33 公開日:2024-02-10
# 光媒体におけるコヒーレントおよびフォック状態符号化による量子ステレオグラフィ

Quantum Steganography via Coherent and Fock State Encoding in an Optical Medium ( http://arxiv.org/abs/2303.02307v3 )

ライセンス: Link先を確認
Bruno Avritzer and Todd Brun(参考訳) ステガノグラフィーは暗号の代替手段であり、情報が秘密裏に保護され、無実のコミュニケーションやノイズに変装される。 本研究では,光通信におけるフォックとコヒーレント状態を用いたステガノグラフィー通信のスキームを開発した。 我々は,全能な盗聴器の場合の効率の限界を導出し,ノイズレスチャネルの場合の符号化と誤り訂正の明確な方法を提供する。

Steganography is an alternative to cryptography, where information is protected by secrecy -- being disguised as innocent communication or noise -- rather than being scrambled. In this work we develop schemes for steganographic communication using Fock and coherent states in optical channels based on disguising the communications as thermal noise. We derive bounds on their efficiency in the case of an all-powerful eavesdropper, and provide explicit methods of encoding and error correction for the noiseless channel case.
翻訳日:2024-02-14 01:18:08 公開日:2024-02-10
# 四角形uav追跡制御系の信頼性強化学習

Trustworthy Reinforcement Learning for Quadrotor UAV Tracking Control Systems ( http://arxiv.org/abs/2302.11694v3 )

ライセンス: Link先を確認
Yanran Wang and David Boyle(参考訳) 複雑な動的環境における四重項の同時的かつ信頼性の高い追跡制御は困難である。 抵抗力やモーメントの変動から導かれる空気力学はカオス的であり、正確に識別することは困難であるため、現在の四重項追跡システムは従来の制御手法では単純な「乱」として扱う。 確率モデル予測制御器 (SMPC) を用いて, 未知の空力効果に対する分散強化学習障害推定器を統合した新しいトラジェクタを提案する。 提案手法は空力効果の真の値と推定値の間の不確かさを正確に同定するものである。 単純なアフィン外乱フィードバックは、凸性を保証するために制御パラメータ化に使われ、SMPCと統合する。 ニューラルネットワークの幅と層が増加するにつれて、制約が誤差に反した場合、ConsDREDが少なくとも最適な大域収束率と一定のサブ線形レートを達成することを理論的に保証する。 実用性を示すため,シミュレーションおよび実世界の実験において収束トレーニングを行い,ConsDREDが標準制約RLアプローチに比べてハイパーパラメータ設定に敏感でないことを実証的に検証した。 本システムは,最近の技術と比較して,累積追尾誤差を少なくとも70%改善することを示した。 重要なことは、提案されたフレームワークであるConsDRED-SMPCは、高性能の追求と実用的な実装に対する保守的な制約に従うというトレードオフのバランスをとることである。

Simultaneously accurate and reliable tracking control for quadrotors in complex dynamic environments is challenging. As aerodynamics derived from drag forces and moment variations are chaotic and difficult to precisely identify, most current quadrotor tracking systems treat them as simple `disturbances' in conventional control approaches. We propose a novel, interpretable trajectory tracker integrating a Distributional Reinforcement Learning disturbance estimator for unknown aerodynamic effects with a Stochastic Model Predictive Controller (SMPC). The proposed estimator `Constrained Distributional Reinforced disturbance estimator' (ConsDRED) accurately identifies uncertainties between true and estimated values of aerodynamic effects. Simplified Affine Disturbance Feedback is used for control parameterization to guarantee convexity, which we then integrate with a SMPC. We theoretically guarantee that ConsDRED achieves at least an optimal global convergence rate and a certain sublinear rate if constraints are violated with an error decreases as the width and the layer of neural network increase. To demonstrate practicality, we show convergent training in simulation and real-world experiments, and empirically verify that ConsDRED is less sensitive to hyperparameter settings compared with canonical constrained RL approaches. We demonstrate our system improves accumulative tracking errors by at least 70% compared with the recent art. Importantly, the proposed framework, ConsDRED-SMPC, balances the tradeoff between pursuing high performance and obeying conservative constraints for practical implementations
翻訳日:2024-02-14 01:17:34 公開日:2024-02-10
# 一次元におけるコンパクトワニエ関数

Compact Wannier Functions in One Dimension ( http://arxiv.org/abs/2302.11608v2 )

ライセンス: Link先を確認
Pratik Sathe, Rahul Roy(参考訳) ワニエ関数は凝縮物物理学などにおいて広く有用である。 一方、トポロジカル物理学は、平面バンドに自然に現れるコンパクトなワニエ型函数の関連概念に大きく関わっている。 本稿では、コンパクトワニエ函数が一次元に存在する必要十分条件を見つけることによって、これらの2つの概念間の接続を確立する。 本稿では,コンパクトなワニエ関数を持つモデルの徹底的な構成を示し,ワニエ関数が一意的かつ一般に対応する極大局所化ワニエ関数とは異なることを示す。

Wannier functions have widespread utility in condensed matter physics and beyond. Topological physics, on the other hand, has largely involved the related notion of compactly-supported Wannier-type functions, which arise naturally in flat bands. In this paper, we establish a connection between these two notions, by finding the necessary and sufficient conditions under which compact Wannier functions exist in one dimension. We present an exhaustive construction of models with compact Wannier functions and show that the Wannier functions are unique, and in general, distinct from the corresponding maximally-localized Wannier functions.
翻訳日:2024-02-14 01:16:37 公開日:2024-02-10
# STERling: 両部グラフによる相乗的表現学習

STERLING: Synergistic Representation Learning on Bipartite Graphs ( http://arxiv.org/abs/2302.05428v3 )

ライセンス: Link先を確認
Baoyu Jing, Yuchen Yan, Kaize Ding, Chanyoung Park, Yada Zhu, Huan Liu and Hanghang Tong(参考訳) 二部グラフ表現学習の基本的な課題は、情報的ノード埋め込みの抽出方法である。 自己監視学習(SSL)はこの課題に対処するための有望なパラダイムです。 最近の2部グラフssl法は、正のノード対と負のノード対を区別することで埋め込みを学習するコントラスト学習に基づいている。 対照的学習は通常、多くの負のノードペアを必要とするため、計算負荷や意味的誤りにつながる可能性がある。 本稿では,負のノード対を使わずにノード埋め込みを学ぶための新しい相乗的表現学習モデル(sterling)を提案する。 STERlingは二部グラフにおけるユニークな局所的および大域的シナジーを保存する。 局所的な相乗効果は、中間型および内型正のノード対の類似度を最大化し、大域的な相乗効果は、共クラスターの相互情報を最大化する。 理論的解析により、STERlingは埋め込み空間における異なるノードタイプ間の接続性を改善することができることを示した。 各種ベンチマークデータセットとタスクに対する広範囲な実験評価は,ノード埋め込み抽出における STERling の有効性を示す。

A fundamental challenge of bipartite graph representation learning is how to extract informative node embeddings. Self-Supervised Learning (SSL) is a promising paradigm to address this challenge. Most recent bipartite graph SSL methods are based on contrastive learning which learns embeddings by discriminating positive and negative node pairs. Contrastive learning usually requires a large number of negative node pairs, which could lead to computational burden and semantic errors. In this paper, we introduce a novel synergistic representation learning model (STERLING) to learn node embeddings without negative node pairs. STERLING preserves the unique local and global synergies in bipartite graphs. The local synergies are captured by maximizing the similarity of the inter-type and intra-type positive node pairs, and the global synergies are captured by maximizing the mutual information of co-clusters. Theoretical analysis demonstrates that STERLING could improve the connectivity between different node types in the embedding space. Extensive empirical evaluation on various benchmark datasets and tasks demonstrates the effectiveness of STERLING for extracting node embeddings.
翻訳日:2024-02-14 01:16:26 公開日:2024-02-10
# 事前学習した埋め込みと文の袋を用いた効率的かつ柔軟なトピックモデリング

Efficient and Flexible Topic Modeling using Pretrained Embeddings and Bag of Sentences ( http://arxiv.org/abs/2302.03106v3 )

ライセンス: Link先を確認
Johannes Schneider(参考訳) 事前訓練された言語モデルは、多くのNLPタスクにおいて新しい最先端技術をもたらした。 しかし、トピックモデリングでは、LDAのような統計的生成モデルがまだ一般的であり、文脈的単語ベクトルを容易に組み込むことはできない。 人間の判断に合致しない話題を産み出すかもしれない。 本研究では,新しいトピックモデリングと推論アルゴリズムを提案する。 分析単位として文を用いた文の袋(bos)アプローチを提案する。 我々は,生成過程モデルとクラスタリングを組み合わせることで,事前学習文の埋め込みを活用する。 我々は、期待最大化、ハード割り当て、アニーリングプロセスに基づく高速な推論アルゴリズムを導出する。 評価の結果,本手法は比較的少ない計算要求で最先端の成果が得られることがわかった。 提案手法は,先行手法を用いてトピック文書分布をカスタマイズできるので,単語埋め込みを利用した先行手法よりも柔軟である。 コードとデータは \url{https://github.com/John Tailor/BertSenClu} にある。

Pre-trained language models have led to a new state-of-the-art in many NLP tasks. However, for topic modeling, statistical generative models such as LDA are still prevalent, which do not easily allow incorporating contextual word vectors. They might yield topics that do not align well with human judgment. In this work, we propose a novel topic modeling and inference algorithm. We suggest a bag of sentences (BoS) approach using sentences as the unit of analysis. We leverage pre-trained sentence embeddings by combining generative process models and clustering. We derive a fast inference algorithm based on expectation maximization, hard assignments, and an annealing process. The evaluation shows that our method yields state-of-the art results with relatively little computational demands. Our method is also more flexible compared to prior works leveraging word embeddings, since it provides the possibility to customize topic-document distributions using priors. Code and data is at \url{https://github.com/JohnTailor/BertSenClu}.
翻訳日:2024-02-14 01:16:11 公開日:2024-02-10
# 非定常環境におけるオンライン強化学習

Online Reinforcement Learning in Non-Stationary Context-Driven Environments ( http://arxiv.org/abs/2302.02182v2 )

ライセンス: Link先を確認
Pouya Hamadanian, Arash Nasr-Esfahany, Malte Schwarzkopf, Siddartha Sen, Mohammad Alizadeh(参考訳) 本研究では,非定常環境におけるオンライン強化学習(rl)について検討する。 このような環境では、オンラインrlは "catastrophic forgetting" (cf) によって困難である。 エージェントは新しい経験を訓練するとき、事前の知識を忘れがちです。 この問題を軽減するための以前のアプローチでは、タスクラベル(実際には利用できないことが多い)や、不安定でパフォーマンスの悪いオフポリシーメソッドを想定している。 ローカル制約付き政策最適化(LCPO, Locally Constrained Policy Optimization)は, 古い経験にポリシー出力を固定し, 現在の経験への回帰を最適化し, CFと戦うオンラインRLアプローチである。 このアンカリングを行うため、LCPOは現在のコンテキスト分布の外にある経験からのサンプルを使用してポリシー最適化を局所的に制約する。 mujoco,classic control,computer systems環境においてlcpoを評価し,非定常環境では最先端のオン・ポリシーおよびオフ・ポリシーのrlメソッドよりも優れており,すべてのコンテキストトレースでオフラインでトレーニングされた"oracle"エージェントとほぼ同等の結果が得られた。

We study online reinforcement learning (RL) in non-stationary environments, where a time-varying exogenous context process affects the environment dynamics. Online RL is challenging in such environments due to "catastrophic forgetting" (CF). The agent tends to forget prior knowledge as it trains on new experiences. Prior approaches to mitigate this issue assume task labels (which are often not available in practice) or use off-policy methods that suffer from instability and poor performance. We present Locally Constrained Policy Optimization (LCPO), an online RL approach that combats CF by anchoring policy outputs on old experiences while optimizing the return on current experiences. To perform this anchoring, LCPO locally constrains policy optimization using samples from experiences that lie outside of the current context distribution. We evaluate LCPO in Mujoco, classic control and computer systems environments with a variety of synthetic and real context traces, and find that it outperforms state-of-the-art on-policy and off-policy RL methods in the non-stationary setting, while achieving results on-par with an "oracle" agent trained offline across all context traces.
翻訳日:2024-02-14 01:15:56 公開日:2024-02-10
# 視覚トランスフォーマーにおける知識蒸留 : 批判的レビュー

Knowledge Distillation in Vision Transformers: A Critical Review ( http://arxiv.org/abs/2302.02108v2 )

ライセンス: Link先を確認
Gousia Habib, Tausifa Jan Saleem, Brejesh Lall(参考訳) 自然言語処理(nlp)では、トランスフォーマーはすでに注意に基づくエンコーダ・デコーダモデルを利用してこの分野に革命をもたらしている。 近年,コンピュータビジョン(CV)にトランスフォーマーのようなアーキテクチャを採用し,画像分類やオブジェクト検出,セマンティックセグメンテーションといったタスクにおいて,これらのアーキテクチャの優れた性能を報告している。 ビジョントランスフォーマー(ViT)は、競合するモデリング能力のために、畳み込みニューラルネットワーク(CNN)よりも優れたパフォーマンスを誇示している。 しかし、これらのアーキテクチャは膨大な計算資源を必要とするため、リソース制約されたアプリケーションにこれらのモデルをデプロイすることは困難である。 圧縮変圧器や拡張畳み込み、min-maxプール、1D畳み込みなどの圧縮関数など、この問題に対処する多くのソリューションが開発されている。 モデル圧縮は最近、潜在的な治療としてかなりの研究の注目を集めている。 重み量子化,重み多重化,プルーニング,知識蒸留 (kd) などの文献において,モデル圧縮法が提案されている。 しかしながら、重み量子化、プルーニング、重み多重化といったテクニックは、圧縮を実行するための複雑なパイプラインを必要とする。 KDは、比較的単純なモデルが複雑なモデルと同じくらい正確にタスクを実行できる、シンプルで効果的なモデル圧縮技術であることが分かってきた。 本稿では,vitモデルの効果的圧縮のためのkdに基づく様々な手法について述べる。 この論文は、kdがこれらのモデルの計算とメモリ要求を減らす上で果たす役割を解明している。 本稿は、まだ解決されていないViTが直面する様々な課題についても述べる。

In Natural Language Processing (NLP), Transformers have already revolutionized the field by utilizing an attention-based encoder-decoder model. Recently, some pioneering works have employed Transformer-like architectures in Computer Vision (CV) and they have reported outstanding performance of these architectures in tasks such as image classification, object detection, and semantic segmentation. Vision Transformers (ViTs) have demonstrated impressive performance improvements over Convolutional Neural Networks (CNNs) due to their competitive modelling capabilities. However, these architectures demand massive computational resources which makes these models difficult to be deployed in the resource-constrained applications. Many solutions have been developed to combat this issue, such as compressive transformers and compression functions such as dilated convolution, min-max pooling, 1D convolution, etc. Model compression has recently attracted considerable research attention as a potential remedy. A number of model compression methods have been proposed in the literature such as weight quantization, weight multiplexing, pruning and Knowledge Distillation (KD). However, techniques like weight quantization, pruning and weight multiplexing typically involve complex pipelines for performing the compression. KD has been found to be a simple and much effective model compression technique that allows a relatively simple model to perform tasks almost as accurately as a complex model. This paper discusses various approaches based upon KD for effective compression of ViT models. The paper elucidates the role played by KD in reducing the computational and memory requirements of these models. The paper also presents the various challenges faced by ViTs that are yet to be resolved.
翻訳日:2024-02-14 01:15:31 公開日:2024-02-10
# 位相欠陥幾何におけるフラックス場下の擬似ハーモニック型ポテンシャルと相互作用する非相対論的量子粒子

Non-relativistic quantum particles interacting with pseudoharmonic-type potential under flux field in a topological defect geometry ( http://arxiv.org/abs/2302.01438v2 )

ライセンス: Link先を確認
Prabir Rudra, Faizuddin Ahmed, Houcine Aounallah(参考訳) 本研究では,位相的欠陥幾何学におけるアハロノフ・ボーム(ab)フラックス場の存在下で電位と相互作用する非相対論的粒子の量子運動,例えば鉛直直線の歪を鉛直スパイラルに変換する時空について検討する。 まず放射状schr\"odinger波動方程式を導出し、調和振動子と逆二乗ポテンシャルの重ね合わせであるアンハーモニック振動子ポテンシャルと定数項を組み込んだ。 固有値解は、例えばラジアルモード $n=1$ の基底状態エネルギーレベルとラジアル波動関数に焦点を当てたconfluent heun方程式を用いて得られ、結果を解析する。 その後、擬調和およびシフト擬調和ポテンシャルを考慮した分子ポテンシャルモデルにこれらの結果を用いた。 導出固有値解は、これらのポテンシャル内の粒子の挙動に関する洞察を与える。 探索をさらに拡大し、同じ幾何背景の量子束場の存在下での逆二乗ポテンシャルのみを特徴とする量子系の研究を行った。 同じ手法を用いて、基底状態エネルギーレベルと放射波関数を決定する。 特に,固有値解は,パラメータ $\beta$ と量子束場 $\phi_{ab}$ によって特徴づけられる位相的欠陥の影響を強く受けていることが明らかとなった。 この影響はエネルギースペクトルのシフトとして現れ、アハロノフ-ボーム効果の重力アナログと平行している。

In this work, we investigate the quantum motions of non-relativistic particles interacting with a potential in the presence of the Aharonov-Bohm (AB) flux field within a topological defect geometry, for example, space-time with a distortion of a vertical line into a vertical spiral. We begin by deriving the radial Schr\"odinger wave equation, incorporating an anharmonic oscillator potential, which is a superposition of a harmonic oscillator and an inverse square potential, along with a constant term. The eigenvalue solution is obtained through the confluent Heun equation focusing on the ground state energy level and the radial wave function for the radial mode $n=1$ as an example and analyze the results. Subsequently, we use these results in molecular potential models, considering pseudoharmonic and shifted pseudoharmonic potentials. The derived eigenvalue solutions provide insights into the behavior of particles within these potentials. Expanding our exploration, we study the quantum system featuring only an inverse square potential in the presence of the quantum flux field in the same geometry background. Employing the same procedure, we determine the ground state energy level and the radial wave function. Notably, our findings reveal that the eigenvalue solutions are significantly influenced by the topological defect characterized by the parameter $\beta$, and the quantum flux field $\Phi_{AB}$. This influence manifests as a shift in the energy spectrum, drawing parallels to the gravitational analog of the Aharonov-Bohm effect.
翻訳日:2024-02-14 01:15:04 公開日:2024-02-10
# ディープラーニングに関するサーベイ:活性化からトランスフォーマーへ

A Survey of Deep Learning: From Activations to Transformers ( http://arxiv.org/abs/2302.00722v3 )

ライセンス: Link先を確認
Johannes Schneider and Michalis Vlachos(参考訳) ディープラーニングは過去10年間、大きな進歩を遂げてきた。 重要な成功要因は、大量のアーキテクチャ、レイヤ、目的、最適化技術である。 その中には、注意、正規化、スキップ接続、トランスフォーマー、自己教師付き学習スキームに関連する無数の変種が含まれている。 深層学習の基本的な理解をすでに持っている人に、これらの領域で最も重要な最近の研究の概観を提供する。 我々は、影響力のある、総合的で統一された治療が、研究者が様々な深層学習領域の間に新しいつながりを形成するのに役立つことを願っている。 私たちはこの10年で成功したイノベーションの多くの主要な戦略をまとめた複数のパターンを特定し、議論しています。 また,OpenAI の GPT-4 や Google の PaLM 2.0 など,最近開発されたクローズドソースモデルについても議論する。

Deep learning has made tremendous progress in the last decade. A key success factor is the large amount of architectures, layers, objectives, and optimization techniques. They include a myriad of variants related to attention, normalization, skip connections, transformers and self-supervised learning schemes -- to name a few. We provide a comprehensive overview of the most important, recent works in these areas to those who already have a basic understanding of deep learning. We hope that a holistic and unified treatment of influential, recent works helps researchers to form new connections between diverse areas of deep learning. We identify and discuss multiple patterns that summarize the key strategies for many of the successful innovations over the last decade as well as works that can be seen as rising stars. We also include a discussion on recent commercially built, closed-source models such as OpenAI's GPT-4 and Google's PaLM 2.
翻訳日:2024-02-14 01:14:34 公開日:2024-02-10
# 実行フィードバックによる学習者のための言語モデルの構築

Making Language Models Better Tool Learners with Execution Feedback ( http://arxiv.org/abs/2305.13068v2 )

ライセンス: Link先を確認
Shuofei Qiao, Honghao Gui, Chengfei Lv, Qianghuai Jia, Huajun Chen, Ningyu Zhang(参考訳) ツールは、人間が環境を理解し、作り直すための重要なインターフェースとして機能します。 基礎モデルの出現により、AIシステムはツールを使用して能力を拡張し、現実世界と対話することができる。 既存のツール学習手法は、教師付き微調整と迅速なエンジニアリングアプローチを含んでおり、複雑なタスクが自身の能力を超える場合が多いため、しばしば大きな言語モデルにツールを無差別に活用させる。 しかし、モデル自身が容易に解決できる単純なタスクのためのツールを導入することは、パフォーマンスを向上させるよりも、誤ってエラーを伝播させることができる。 言語モデルにいつ、どのようにツールを使うかを教えることができるか? このニーズを満たすために,2段階のエンドツーエンドフレームワークであるツール・ラーニング・ア・実行フィードバック(trice)を提案する。 さらなる分析を裏付けた実験結果から, TRICEはツールの精度を向上し, ツール学習の不十分さを軽減し, ツールへの過剰依存を軽減することで, 大規模言語モデルをツールを選択的に活用できることが示唆された。 コードとデータセットはhttps://github.com/zjunlp/trice.comで入手できる。

Tools serve as pivotal interfaces that enable humans to understand and reshape the environment. With the advent of foundation models, AI systems can utilize tools to expand their capabilities and interact with the real world. Existing tool learning methodologies, encompassing supervised fine-tuning and prompt engineering approaches, often induce large language models to utilize tools indiscriminately, as complex tasks often exceed their own competencies. However, introducing tools for simple tasks, which the models themselves can readily resolve, can inadvertently propagate errors rather than enhance performance. This leads to the research question: can we teach language models when and how to use tools? To meet this need, we propose Tool leaRning wIth exeCution fEedback (TRICE), a two-stage end-to-end framework that enables the model to continually learn through feedback derived from tool execution, thereby learning when and how to use tools effectively. Experimental results, backed by further analysis, show that TRICE can make the large language model selectively use tools by improving the accuracy of tool usage while enhancing insufficient tool learning and mitigating excessive reliance on tools. Code and datasets are available in https://github.com/zjunlp/trice.
翻訳日:2024-02-14 01:07:51 公開日:2024-02-10
# MESSY推定:最大エントロピーに基づく確率的および記号的デンシット推定

MESSY Estimation: Maximum-Entropy based Stochastic and Symbolic densitY Estimation ( http://arxiv.org/abs/2306.04120v2 )

ライセンス: Link先を確認
Tony Tohme, Mohsen Sadr, Kamal Youcef-Toumi, Nicolas G. Hadjiconstantinou(参考訳) 最大エントロピーに基づく確率および記号密度推定法であるMESSY推定を導入する。 提案手法は,アンザッツが駆動力となるグラディエント流のモーメントを用いて,サンプルから確率密度関数を記号的に復元する。 特に,未知分布関数のサンプルと推測記号表現を接続する勾配に基づくドリフト拡散プロセスを構築した。 次に, 推定分布が最大エントロピー形式を持つ場合, 与えられたサンプルのモーメントを用いて構築した方程式の線形系を解いて, この分布のパラメータを効率的に求めることができることを示す。 さらに、シンボリック回帰を用いて滑らかな関数の空間を探索し、最大エントロピー汎関数の指数に対する最適な基底関数を見つけ、良好な条件付けへと導く。 選択基底関数の各集合に対する提案手法のコストは、サンプル数で線形であり、基底関数の数で二次である。 しかし、最適かつ良く条件づけされたベースを見つけるための受け入れ/削除手順は計算コストを増加させる。 提案手法は,bi-modalと不連続密度,および物理的実現可能性の限界における密度について,他のベンチマーク手法に対する乱雑な推定手法の有効性を検証する。 基本関数の記号探索を追加することで, 推定精度を合理的な計算コストで向上することがわかった。 提案手法は, 有効な計算コストで未知密度の低バイアスかつ従順な記号記述を提供することにより, 既存の密度回復法を, 少量から中程度のサンプル数に上回っていることを示唆する。

We introduce MESSY estimation, a Maximum-Entropy based Stochastic and Symbolic densitY estimation method. The proposed approach recovers probability density functions symbolically from samples using moments of a Gradient flow in which the ansatz serves as the driving force. In particular, we construct a gradient-based drift-diffusion process that connects samples of the unknown distribution function to a guess symbolic expression. We then show that when the guess distribution has the maximum entropy form, the parameters of this distribution can be found efficiently by solving a linear system of equations constructed using the moments of the provided samples. Furthermore, we use Symbolic regression to explore the space of smooth functions and find optimal basis functions for the exponent of the maximum entropy functional leading to good conditioning. The cost of the proposed method for each set of selected basis functions is linear with the number of samples and quadratic with the number of basis functions. However, the underlying acceptance/rejection procedure for finding optimal and well-conditioned bases adds to the computational cost. We validate the proposed MESSY estimation method against other benchmark methods for the case of a bi-modal and a discontinuous density, as well as a density at the limit of physical realizability. We find that the addition of a symbolic search for basis functions improves the accuracy of the estimation at a reasonable additional computational cost. Our results suggest that the proposed method outperforms existing density recovery methods in the limit of a small to moderate number of samples by providing a low-bias and tractable symbolic description of the unknown density at a reasonable computational cost.
翻訳日:2024-02-14 00:54:47 公開日:2024-02-10
# 人間-AIストーリー執筆におけるEFL学生の迅速なエンジニアリングの探求--アクティビティ理論の視点から

Exploring EFL students' prompt engineering in human-AI story writing: an Activity Theory perspective ( http://arxiv.org/abs/2306.01798v2 )

ライセンス: Link先を確認
David James Woo, Kai Guo, Hengky Susanto(参考訳) 本研究では,外国語(EFL)の学生が,短編執筆中に生成人工知能(AI)ツールをどのように促すかを検討するために,活動理論を適用した。 香港中学生67人が、オープンソースの言語モデルを用いて生成AIツールを作成し、それらを手書きした。 この研究は、学生の生成AIツール、短編小説、そして彼らの状況や目的について書かれたリフレクションを収集し、分析した。 この研究は、学生が短編執筆中に生成AIツールを促進させる目的、すなわち、目的の認識の欠如、作家のブロックを克服し、ストーリーの開発、拡大、改善の3つの主要なテーマを特定した。 また, 児童生徒の活動システムの特徴として, 生成型AIツールの高度化, 物語の質, 学校全体の学業成績などを明らかにし, 短編執筆における3つの目的のための生成型AIツールの推進について検討した。 本研究の成果は,教師が生成型AIツールの指導や足場指導を行うための学生の目的を意識すべきであることを示唆している。 この発見は、生成AIツールを使用する際に、様々なレベルのストーリー開発を行うユーザに対して、デザイナが区別された指示を提供するのに役立つかもしれない。

This study applies Activity Theory to investigate how English as a foreign language (EFL) students prompt generative artificial intelligence (AI) tools during short story writing. Sixty-seven Hong Kong secondary school students created generative-AI tools using open-source language models and wrote short stories with them. The study collected and analyzed the students' generative-AI tools, short stories, and written reflections on their conditions or purposes for prompting. The research identified three main themes regarding the purposes for which students prompt generative-AI tools during short story writing: a lack of awareness of purposes, overcoming writer's block, and developing, expanding, and improving the story. The study also identified common characteristics of students' activity systems, including the sophistication of their generative-AI tools, the quality of their stories, and their school's overall academic achievement level, for their prompting of generative-AI tools for the three purposes during short story writing. The study's findings suggest that teachers should be aware of students' purposes for prompting generative-AI tools to provide tailored instructions and scaffolded guidance. The findings may also help designers provide differentiated instructions for users at various levels of story development when using a generative-AI tool.
翻訳日:2024-02-14 00:54:21 公開日:2024-02-10
# MLMプレトレーニングのための動的マスキング速度スケジューリング

Dynamic Masking Rate Schedules for MLM Pretraining ( http://arxiv.org/abs/2305.15096v3 )

ライセンス: Link先を確認
Zachary Ankner, Naomi Saphra, Davis Blalock, Jonathan Frankle, and Matthew L. Leavitt(参考訳) Masked Language Modeling (MLM) で訓練されたトランスフォーマーのほとんどの研究は、オリジナルのBERTモデルの固定マスキングレート15%を使用している。 学習中にマスキング率を動的にスケジュールすることを提案する。 プレトレーニング期間中のマスキング率を直線的に低下させることで, 平均GLUE精度は, BERTベースとBERTラージでそれぞれ0.46%, 0.25%向上することがわかった。 これらの利益は、高いマスキングレートと低いマスキングレートのレギュレーションの両方に曝露され、両方の設定から恩恵を受けている。 その結果,マスクレートスケジューリングは,BERTベースでの事前学習における最大1.89倍の高速化と,BERT大でのParetoの改善を実現し,マスキング言語モデルの品質向上の簡単な方法であることが示された。

Most works on transformers trained with the Masked Language Modeling (MLM) objective use the original BERT model's fixed masking rate of 15%. We propose to instead dynamically schedule the masking rate throughout training. We find that linearly decreasing the masking rate over the course of pretraining improves average GLUE accuracy by up to 0.46% and 0.25% in BERT-base and BERT-large, respectively, compared to fixed rate baselines. These gains come from exposure to both high and low masking rate regimes, providing benefits from both settings. Our results demonstrate that masking rate scheduling is a simple way to improve the quality of masked language models, achieving up to a 1.89x speedup in pretraining for BERT-base as well as a Pareto improvement for BERT-large.
翻訳日:2024-02-14 00:50:52 公開日:2024-02-10
# 機械学習にはより良いランダム性標準が必要だ:ランダムな平滑化とprngベースの攻撃

Machine Learning needs Better Randomness Standards: Randomised Smoothing and PRNG-based attacks ( http://arxiv.org/abs/2306.14043v2 )

ライセンス: Link先を確認
Pranav Dahiya, Ilia Shumailov, Ross Anderson(参考訳) ランダム性は、最適化、データ選択、プライバシ、セキュリティなど、機械学習(ml)の分野で多くの重要な機能をサポートする。 MLシステムは、ツールチェーン内のコンパイラやクラウドサービスプロバイダなどに対してランダム性の生成または取得のタスクをアウトソースする。 Yet there is a long history of attackers exploiting poor randomness, or even creating it -- as when the NSA put backdoors in random number generators to break cryptography. In this paper we consider whether attackers can compromise an ML system using only the randomness on which they commonly rely. We focus our effort on Randomised Smoothing, a popular approach to train certifiably robust models, and to certify specific input datapoints of an arbitrary model. We choose Randomised Smoothing since it is used for both security and safety -- to counteract adversarial examples and quantify uncertainty respectively. 内部では、ガウスノイズをサンプリングしてデータポイント周辺の体積を探索し、モデルが敵の例に対して脆弱でないことを証明する。 我々は、攻撃者が供給されたランダム性をバックドアし、過大評価または過小評価のいずれかを最大81回誤認する全く新しい攻撃を示す。 このような攻撃は可能であり、ランダム性に非常に小さな変更が必要であり、検出が困難であることを示す。 例えば、乱数生成器に攻撃を隠蔽し、NISTが提案したランダムネステストが検出できないことを示す。 我々は、安全クリティカルでセキュリティクリティカルな機械学習アプリケーションにもっと適するように、乱数テストに関するNISTガイドラインの更新を推奨する。

Randomness supports many critical functions in the field of machine learning (ML) including optimisation, data selection, privacy, and security. ML systems outsource the task of generating or harvesting randomness to the compiler, the cloud service provider or elsewhere in the toolchain. Yet there is a long history of attackers exploiting poor randomness, or even creating it -- as when the NSA put backdoors in random number generators to break cryptography. In this paper we consider whether attackers can compromise an ML system using only the randomness on which they commonly rely. We focus our effort on Randomised Smoothing, a popular approach to train certifiably robust models, and to certify specific input datapoints of an arbitrary model. We choose Randomised Smoothing since it is used for both security and safety -- to counteract adversarial examples and quantify uncertainty respectively. Under the hood, it relies on sampling Gaussian noise to explore the volume around a data point to certify that a model is not vulnerable to adversarial examples. We demonstrate an entirely novel attack, where an attacker backdoors the supplied randomness to falsely certify either an overestimate or an underestimate of robustness for up to 81 times. We demonstrate that such attacks are possible, that they require very small changes to randomness to succeed, and that they are hard to detect. As an example, we hide an attack in the random number generator and show that the randomness tests suggested by NIST fail to detect it. We advocate updating the NIST guidelines on random number testing to make them more appropriate for safety-critical and security-critical machine-learning applications.
翻訳日:2024-02-14 00:43:46 公開日:2024-02-10
# アメリカ合衆国国勢調査局のプライバシー保護方法によるバイアスと騒音の評価

Evaluating Bias and Noise Induced by the U.S. Census Bureau's Privacy Protection Methods ( http://arxiv.org/abs/2306.07521v3 )

ライセンス: Link先を確認
Christopher T. Kenny, Cory McCartan, Shiro Kuriwaki, Tyler Simko, Kosuke Imai(参考訳) アメリカ合衆国国勢調査局は、国勢調査統計の正確さと個々の情報の保護との間に難しいトレードオフに直面している。 本研究では,2020年国勢調査に採用したTopDownアルゴリズムと,以前の3つの国勢調査に実装されたスワッピングアルゴリズムの2つの主要な開示回避システムによるバイアスとノイズの独立性評価を行う。 本評価は,2010年度国勢調査に適用したtopdownアルゴリズムの2つの独立実行に加えて,ノイズ測定ファイル(nmf)を活用する。 NMFには、特にヒスパニック系および多人種集団にとって、直接的に役立つノイズが多すぎることが判明した。 TopDownのポストプロセッシングはNMFノイズを劇的に低減し、スワップの精度に類似したデータを生成する。 TopDownアルゴリズムとスワップアルゴリズムの両方の推定誤差は、通常、国勢調査誤差の他の源ほど大きくはないが、人口が少ない地理学では比較的重要なものである。

The United States Census Bureau faces a difficult trade-off between the accuracy of Census statistics and the protection of individual information. We conduct the first independent evaluation of bias and noise induced by the Bureau's two main disclosure avoidance systems: the TopDown algorithm employed for the 2020 Census and the swapping algorithm implemented for the three previous Censuses. Our evaluation leverages the Noisy Measure File (NMF) as well as two independent runs of the TopDown algorithm applied to the 2010 decennial Census. We find that the NMF contains too much noise to be directly useful, especially for Hispanic and multiracial populations. TopDown's post-processing dramatically reduces the NMF noise and produces data whose accuracy is similar to that of swapping. While the estimated errors for both TopDown and swapping algorithms are generally no greater than other sources of Census error, they can be relatively substantial for geographies with small total populations.
翻訳日:2024-02-14 00:40:20 公開日:2024-02-10
# 大規模言語モデルを用いた深度検索のためのソフトプロンプトチューニング

Soft Prompt Tuning for Augmenting Dense Retrieval with Large Language Models ( http://arxiv.org/abs/2307.08303v4 )

ライセンス: Link先を確認
Zhiyuan Peng, Xuyang Wu, Qifan Wang, Yi Fang(参考訳) Dense Search (DR) はクエリとドキュメントを密埋め込みに変換し、ベクトル空間におけるクエリとドキュメント間の類似度を測定する。 DRの課題のひとつは、ドメイン固有のトレーニングデータがないことだ。 drモデルは、転送学習を通じてms marcoのような大規模な公開データセットから学べるが、すべてのdrモデルとドメインが等しく転送学習の恩恵を受けるわけではない。 近年、一部の研究者はゼロショットと少数ショットのDRモデルを改善するために大規模言語モデル(LLM)を活用している。 しかし、これらの作業で使われるハードプロンプトや人書きプロンプトは、生成された弱いクエリの質を保証できない。 タスク毎にソフトプロンプトチューニングを利用して、限られた基底真理データに対してタスク固有のソフトプロンプトを最適化し、llmに弱いクエリでラベルなしの文書にタグを付けるように促し、タスク固有の密集したレトリバーを訓練するのに十分な弱いドキュメントクエリペアを得る。 我々は,弱いタグ付きクエリの品質をさらに向上させるために,高品質な文書クエリペアを選択するフィルタを設計した。 私たちの知る限りでは、drモデルの強化にソフトプロンプトチューニングを利用する先行作業はありません。 この実験は、sptarが教師なしのベースラインbm25と最近提案された dr の llms ベースの拡張法よりも優れていることを示している。

Dense retrieval (DR) converts queries and documents into dense embeddings and measures the similarity between queries and documents in vector space. One of the challenges in DR is the lack of domain-specific training data. While DR models can learn from large-scale public datasets like MS MARCO through transfer learning, evidence shows that not all DR models and domains can benefit from transfer learning equally. Recently, some researchers have resorted to large language models (LLMs) to improve the zero-shot and few-shot DR models. However, the hard prompts or human-written prompts utilized in these works cannot guarantee the good quality of generated weak queries. To tackle this, we propose soft prompt tuning for augmenting DR (SPTAR): For each task, we leverage soft prompt-tuning to optimize a task-specific soft prompt on limited ground truth data and then prompt the LLMs to tag unlabeled documents with weak queries, yielding enough weak document-query pairs to train task-specific dense retrievers. We design a filter to select high-quality example document-query pairs in the prompt to further improve the quality of weak tagged queries. To the best of our knowledge, there is no prior work utilizing soft prompt tuning to augment DR models. The experiments demonstrate that SPTAR outperforms the unsupervised baselines BM25 and the recently proposed LLMs-based augmentation method for DR.
翻訳日:2024-02-14 00:30:21 公開日:2024-02-10
# Harpa: 旅行時間ニューラルフィールドと高次フェーズアソシエーション

Harpa: High-Rate Phase Association with Travel Time Neural Fields ( http://arxiv.org/abs/2307.07572v2 )

ライセンス: Link先を確認
Cheng Shi, Maarten V. de Hoop, and Ivan Dokmani\'c(参考訳) マルチステーション地震計からの地域地震活動の理解は,到着段階と震源の地震を関連付ける能力に依存している。 深層学習に基づく位相検出は、たとえ負のマグニチュードでも、地震雲から小さな高速の到達を検知する。 この新しいデータは、地震のダイナミクスに関する重要な洞察を与えるかもしれないが、これは難しい関連課題である。 粗大に近似された固定波速度モデルに依存する既存の手法は、未知の波速度の複雑さを無視できない未探索の高密度な状態において失敗する。 我々は、深層生成モデリングとニューラルフィールドに基づくハイレートアソシエーションフレームワークであるHarpaを紹介した。 harpaは、到着列の比較に最適な輸送を用いて波動物理学を取り入れている。 したがって、未知の波速に頑健であり、結合の副産物として波速モデルを推定する。 現実的な複雑な合成モデルを用いた実験では、ハルパは高次構造において正確な最初の地震相関連フレームワークであり、探査地球科学の新しい道のりを開拓し、地震の理解を改善した。

Our understanding of regional seismicity from multi-station seismograms relies on the ability to associate arrival phases with their originating earthquakes. Deep-learning-based phase detection now detects small, high-rate arrivals from seismicity clouds, even at negative magnitudes. This new data could give important insight into earthquake dynamics, but it is presents a challenging association task. Existing techniques relying on coarsely approximated, fixed wave speed models fail in this unexplored dense regime where the complexity of unknown wave speed cannot be ignored. We introduce Harpa, a high-rate association framework built on deep generative modeling and neural fields. Harpa incorporates wave physics by using optimal transport to compare arrival sequences. It is thus robust to unknown wave speeds and estimates the wave speed model as a by-product of association. Experiments with realistic, complex synthetic models show that Harpa is the first seismic phase association framework which is accurate in the high-rate regime, paving the way for new avenues in exploratory Earth science and improved understanding of seismicity.
翻訳日:2024-02-14 00:29:53 公開日:2024-02-10
# Wasserstein変分推論としての安全な強化学習:解釈可能性のための形式的手法

Safe Reinforcement Learning as Wasserstein Variational Inference: Formal Methods for Interpretability ( http://arxiv.org/abs/2307.07084v3 )

ライセンス: Link先を確認
Yanran Wang, Qiuchen Qian, David Boyle(参考訳) 強化学習は、変動力学を用いた逐次決定問題に対する効果的な推論を提供することができる。 しかし、実際の実施におけるこのような推論は、報酬機能と対応する最適方針を解釈する上で、永続的な課題となる。 したがって、逐次的な意思決定問題を確率論的推論として表すことは、原理的には、理論的力学を推論し、政策最適化の確率論的解釈を示唆しながら、多種多様な強力な数学的ツールを提供する。 本研究では,これらの解釈可能性の課題に取り組むために,新しい適応型ワッサースタイン変分最適化 awavo を提案する。 提案手法は,収束保証,透明性のトレーニング,内在的決定解釈の解釈可能性を達成するために形式的手法を用いる。 その実用性を示すために,シミュレーションおよび実運用4次タスクにおいて,最適な大域収束率で解釈可能性を示す。 TRPO-IPO、PCPO、CRPOといった最先端のベンチマークと比較して、AWaVOがハイパフォーマンスと十分な解釈可能性の間に合理的なトレードオフをもたらすことを実証的に検証する。

Reinforcement learning can provide effective reasoning for sequential decision-making problems with variable dynamics. Such reasoning in practical implementation, however, poses a persistent challenge in interpreting the reward function and the corresponding optimal policy. Consequently, representing sequential decision-making problems as probabilistic inference can have considerable value, as, in principle, the inference offers diverse and powerful mathematical tools to infer the stochastic dynamics whilst suggesting a probabilistic interpretation of policy optimization. In this study, we propose a novel Adaptive Wasserstein Variational Optimization, namely AWaVO, to tackle these interpretability challenges. Our approach uses formal methods to achieve the interpretability for convergence guarantee, training transparency, and intrinsic decision-interpretation. To demonstrate its practicality, we showcase guaranteed interpretability with an optimal global convergence rate in simulation and in practical quadrotor tasks. In comparison with state-of-the-art benchmarks including TRPO-IPO, PCPO and CRPO, we empirically verify that AWaVO offers a reasonable trade-off between high performance and sufficient interpretability.
翻訳日:2024-02-14 00:29:34 公開日:2024-02-10
# 普遍量子ゲートにおける$ZZ$クロストークを緩和するスケーラブルプロトコル

Scalable protocol to mitigate $ZZ$ crosstalk in universal quantum gates ( http://arxiv.org/abs/2307.05566v2 )

ライセンス: Link先を確認
Yan Liang, Ming-Jie Liang, Sai Li, Z. D. Wang, and Zheng-Yuan Xue(参考訳) 高忠実性ユニバーサル量子ゲートはスケーラブルな量子計算に必須であると広く認識されている。 しかし、量子計算の物理実装プラットフォームとして約束される固体量子系では、量子ビット間相互作用による$ZZ$のクロストークは量子演算性能を著しく損なう。 本稿では、ユニバーサル量子ゲートにおけるZZ$-クロストーク緩和を実現するスケーラブルなプロトコルを提案する。 この方法は、ノイズの多いハミルトニアンを$zz$クロストークに変換し、$zz$-クロストーク効果を効果的に抑制し、理想的なターゲット量子演算へと導く。 具体的には,まず,ZZ$-クロストーク緩和条件を解析的に導出し,対象量子ゲートの性能を向上させる。 さらに,複数キュービットゲートの同時動作時のZZ$クロストーク緩和の有効性を数値シミュレーションにより検証した。 その結果,本プロトコルは大規模量子計算シナリオにおいて,実用的な並列量子ゲートを実現するための有望なアプローチを示す。

High-fidelity universal quantum gates are widely acknowledged as essential for scalable quantum computation. However, in solid-state quantum systems, which hold promise as physical implementation platforms for quantum computation, the inevitable $ZZ$ crosstalk resulting from interqubit interactions significantly impairs quantum operation performance. Here we propose a scalable protocol to achieve $ZZ$-crosstalk mitigation in universal quantum gates. This method converts the noisy Hamiltonian with $ZZ$ crosstalk into a framework that efficiently suppresses all $ZZ$-crosstalk effects, leading to ideal target quantum operations. Specifically, we first analytically derive the $ZZ$-crosstalk mitigation conditions and then apply them to enhance the performance of target universal quantum gates. Moreover, numerical simulations validate the effectiveness of $ZZ$-crosstalk mitigation when multiple qubit gates operate concurrently. As a result, our protocol presents a promising approach for implementing practical parallel quantum gates in large-scale quantum computation scenarios.
翻訳日:2024-02-14 00:29:06 公開日:2024-02-10
# 乱数生成器としてのプログラム可能な量子アニーラの解析

Analysis of a Programmable Quantum Annealer as a Random Number Generator ( http://arxiv.org/abs/2307.02573v4 )

ライセンス: Link先を確認
Elijah Pelofske(参考訳) 量子デバイスは、量子状態の測定が決定論的ではないため、非決定論的に乱数を生成する非常に有用な関数を提供する。 これは、量子デバイスが一様重ね合わせで量子ビットを生成し、その量子ビットの状態を測定することができることを意味する。 均一な重ね合わせにおける量子ビットの準備が不偏であれば、量子コンピュータは高エントロピーでセキュアな乱数を生成するのに使うことができる。 量子アニーリング(quantum annealing, qa)は、アディアバティック量子計算の緩和形であり、プログラム可能なイジングモデルの基底状態解を探索するために量子揺らぎを用いるアナログ量子計算の一種である。 ここでは、d-wave 2000q量子アニーラによる広範囲な実験的な乱数結果を示し、200億ビット以上のqa測定を行い、これは従来のd-wave qa乱数生成器の研究よりもはるかに大きい。 現在の量子アニーラは環境からのノイズや校正誤差に影響を受けやすく、一般に偏りのないサンプリング器ではない。 したがって、ノイズ量子アニールが非バイアスQRNGとして効果的に機能できるかどうかを定量化することは興味深い。 量子アニール器から収集されたデータの量は、NIST SP 800-22 Rev 1aテストスーツとNIST SP 800-90Bのミンエントロピー推定を用いてランダムビットの包括的な分析を可能にする。 ランダムネステストは、D-Wave 2000Qから生成されたランダムビットがバイアスを受けており、予測不可能なランダムビットシーケンスではないことを示す。 サーバー側のサンプリング後処理がなく、マイクロ秒のアニーリング時間の測定値は0.824ドルであった。

Quantum devices offer a highly useful function - that is generating random numbers in a non-deterministic way since the measurement of a quantum state is not deterministic. This means that quantum devices can be constructed that generate qubits in a uniform superposition and then measure the state of those qubits. If the preparation of the qubits in a uniform superposition is unbiased, then quantum computers can be used to create high entropy, secure random numbers. Quantum annealing (QA) is a type of analog quantum computation that is a relaxed form of adiabatic quantum computation and uses quantum fluctuations in order to search for ground state solutions of a programmable Ising model. Here we present extensive experimental random number results from a D-Wave 2000Q quantum annealer, totaling over 20 billion bits of QA measurements, which is significantly larger than previous D-Wave QA random number generator studies. Current quantum annealers are susceptible to noise from environmental sources and calibration errors, and are not in general unbiased samplers. Therefore, it is of interest to quantify whether noisy quantum annealers can effectively function as an unbiased QRNG. The amount of data that was collected from the quantum annealer allows a comprehensive analysis of the random bits to be performed using the NIST SP 800-22 Rev 1a testsuite, as well as min-entropy estimates from NIST SP 800-90B. The randomness tests show that the generated random bits from the D-Wave 2000Q are biased, and not unpredictable random bit sequences. With no server-side sampling post-processing, the $1$ microsecond annealing time measurements had a min-entropy of $0.824$.
翻訳日:2024-02-14 00:28:10 公開日:2024-02-10
# コードLLMのための高リソースから低リソースプログラミング言語への知識伝達

Knowledge Transfer from High-Resource to Low-Resource Programming Languages for Code LLMs ( http://arxiv.org/abs/2308.09895v5 )

ライセンス: Link先を確認
Federico Cassano, John Gouwar, Francesca Lucchetti, Claire Schlesinger, Anders Freeman, Carolyn Jane Anderson, Molly Q Feldman, Michael Greenberg, Abhinav Jangda, Arjun Guha(参考訳) ここ数年、Large Language Models of Code (Code LLM) はプログラミングの実践に大きな影響を与え始めています。 プログラミング言語やソフトウェア工学の研究のためのビルディングブロックとして、コードLLMが登場している。 しかし、Code LLMはトレーニングデータ(例えば、Java、Python、JavaScript)でよく表現されているが、トレーニングデータに制限のある低リソースの言語では苦労しているプログラミング言語に対して印象的な結果をもたらす。 低リソース言語にはOCaml、Racket、その他いくつかのものがある。 本稿では,半合成データを用いた低リソース言語におけるコードLLMの性能向上に有効な手法を提案する。 我々のアプローチであるMultiPL-Tは、ハイソース言語からのトレーニングデータを、以下の方法で低リソース言語のトレーニングデータに変換する。 1) Code LLMを使用して、高ソース言語からのコメント付きコードのテストを合成し、テストカバレッジの低い欠陥テストとコードをフィルタリングします。 2) コードLLMを使用してPythonコードをターゲットとする低リソース言語に翻訳し,テストを使用して翻訳を検証する。 このアプローチを適用して,Julia,Lua,OCaml,R,Racketの各トレーニング項目を数万個生成する。 さらに、オープンモデル(starcoderbase)とオープントレーニングデータ(スタック)を使用して、ベンチマークを廃止し、ライセンスに違反することなくモデルをトレーニングし、さもなければできない実験を実行します。 MultiPL-T 生成データを用いて,Julia,Lua,OCaml,R,Racket 用の StarCoderBase と Code Llama の微調整版を提示する。 確立されたベンチマーク(MultiPL-E)では、これらのモデルは他のオープンコードLLMよりも優れている。 MultiPL-Tアプローチは、新しい言語に簡単に適用でき、トレーニングのような代替手段よりもはるかに効率的で効果的である。

Over the past few years, Large Language Models of Code (Code LLMs) have started to have a significant impact on programming practice. Code LLMs are also emerging as building blocks for research in programming languages and software engineering. However, Code LLMs produce impressive results on programming languages that are well represented in their training data (e.g., Java, Python, or JavaScript), but struggle with low-resource languages that have limited training data available. Low resource languages include OCaml, Racket, and several others. This paper presents an effective approach for boosting the performance of Code LLMs on low-resource languages using semi-synthetic data. Our approach, MultiPL-T, translates training data from high-resource languages into training data for low-resource languages in the following way. 1) We use a Code LLM to synthesize tests for commented code from a high-resource language, filtering out faulty tests and code with low test coverage. 2) We use a Code LLM to translate Python code to a target low-resource language, and use tests to validate the translation. We apply this approach to generate tens of thousands of validated training items for Julia, Lua, OCaml, R, and Racket. Furthermore, we use an open model (StarCoderBase) with open training data (The Stack), which allows us to decontaminate benchmarks, train models without violating licenses, and run experiments that could not otherwise be done. With MultiPL-T generated data, we present fine-tuned versions of StarCoderBase and Code Llama for Julia, Lua, OCaml, R, and Racket. On established benchmarks (MultiPL-E), these models outperform other open Code LLMs. The MultiPL-T approach is easy to apply to new languages, and is significantly more efficient and effective than alternatives such as training longer.
翻訳日:2024-02-13 22:42:38 公開日:2024-02-10
# Follow Anything: リアルタイムでオープンセットの検出、追跡、追跡

Follow Anything: Open-set detection, tracking, and following in real-time ( http://arxiv.org/abs/2308.05737v2 )

ライセンス: Link先を確認
Alaa Maalouf and Ninad Jadhav and Krishna Murthy Jatavallabhula and Makram Chahine and Daniel M.Vogt and Robert J. Wood and Antonio Torralba and Daniela Rus(参考訳) 産業自動化から物流や倉庫、医療やセキュリティまで、いくつかのロボティクスのユースケースにおいて、関心事の追跡と追跡は重要である。 本稿では,物体をリアルタイムで検出,追跡,追跡するロボットシステムを提案する。 私たちのアプローチは 'follow anything'' (FAn) と呼ばれ、オープンな語彙とマルチモーダルモデルです -- トレーニング時に見られる概念に制限されず、テキスト、イメージ、クェリを使用して推論時に新しいクラスに適用できます。 大規模な事前訓練モデル(基礎モデル)からリッチなビジュアル記述子を活用することで、FAnは入力画像シーケンスに対してマルチモーダルクエリ(テキスト、画像、クリック)をマッチングすることでオブジェクトを検出し、セグメント化することができる。 これらの検出およびセグメンテーションされたオブジェクトは、画像フレーム全体で追跡される。 我々は、実世界のロボットシステム(マイクロエアロ車両)でFAnを実証し、リアルタイム制御ループで関心のある物体をシームレスに追跡する能力を報告した。 ファンは軽量(6-8gb)のグラフィックカードでラップトップに展開でき、毎秒6〜20フレームのスループットを実現している。 迅速な採用、デプロイメント、拡張性を実現するため、プロジェクトのWebページにあるすべてのコードをhttps://github.com/alaamaalouf/FollowAnything.comでオープンソース化しました。 また、読者は5分間の解説ビデオをこのhttps://www.youtube.com/watch? v=6mgt3epytrw。

Tracking and following objects of interest is critical to several robotics use cases, ranging from industrial automation to logistics and warehousing, to healthcare and security. In this paper, we present a robotic system to detect, track, and follow any object in real-time. Our approach, dubbed ``follow anything'' (FAn), is an open-vocabulary and multimodal model -- it is not restricted to concepts seen at training time and can be applied to novel classes at inference time using text, images, or click queries. Leveraging rich visual descriptors from large-scale pre-trained models (foundation models), FAn can detect and segment objects by matching multimodal queries (text, images, clicks) against an input image sequence. These detected and segmented objects are tracked across image frames, all while accounting for occlusion and object re-emergence. We demonstrate FAn on a real-world robotic system (a micro aerial vehicle) and report its ability to seamlessly follow the objects of interest in a real-time control loop. FAn can be deployed on a laptop with a lightweight (6-8 GB) graphics card, achieving a throughput of 6-20 frames per second. To enable rapid adoption, deployment, and extensibility, we open-source all our code on our project webpage at https://github.com/alaamaalouf/FollowAnything . We also encourage the reader to watch our 5-minutes explainer video in this https://www.youtube.com/watch?v=6Mgt3EPytrw .
翻訳日:2024-02-13 22:41:14 公開日:2024-02-10
# 1次元離散時間量子ウォーク回路の複雑性

Complexity for one-dimensional discrete time quantum walk circuits ( http://arxiv.org/abs/2307.13450v2 )

ライセンス: Link先を確認
Aranya Bhattacharya, Himanshu Sahu, Ahmadullah Zahed and Kallol Sen(参考訳) 1次元離散時間量子ウォーク(DTQW)から導かれる混合状態密度演算子の複雑性を計算する。 この複雑さは、混合状態を正則に浄化した2量子ビット量子回路を用いて計算される。 我々は、ユニタリ進化のニールソン複雑性が平均回路深さの1k$で振動することを示す。 さらに、ステップワイズ進化作用素の複雑さは、ステップとともに累積的に線形的に増大する。 量子回路の観点からすると、これは最終状態に達するために適用すべき(ほぼ)定数深さの回路の連続を意味する。

We compute the complexity for the mixed state density operator derived from a one-dimensional discrete-time quantum walk (DTQW). The complexity is computed using a two-qubit quantum circuit obtained from canonically purifying the mixed state. We demonstrate that the Nielson complexity for the unitary evolution oscillates around a mean circuit depth of $k$. Further, the complexity of the step-wise evolution operator grows cumulatively and linearly with the steps. From a quantum circuit perspective, this implies a succession of circuits of (near) constant depth to be applied to reach the final state.
翻訳日:2024-02-13 22:39:48 公開日:2024-02-10
# 分布包含仮説と定量化:機能分布意味論におけるハイパーニーミーの探索

Distributional Inclusion Hypothesis and Quantifications: Probing for Hypernymy in Functional Distributional Semantics ( http://arxiv.org/abs/2309.08325v2 )

ライセンス: Link先を確認
Chun Hei Lo, Wai Lam, Hong Cheng, and Guy Emerson(参考訳) 関数分布意味論(FDS)は、真理条件関数による単語の意味をモデル化する。 これはhypernymyの自然な表現を提供するが、fdsモデルがコーパスでトレーニングされた時に学習できる保証はない。 本稿では,FDSモデルを探索し,学習した表現,定量化,分布包摂仮説(DIH),およびFDSモデルトレーニングの変分自動符号化の目的について検討する。 合成データセットを用いて、FDSモデルは、厳密なDIHに従う制限されたコーパスのクラスでハイパーネミーを学ぶ。 さらに,dihの反転下でのハイパーニーミー学習を可能にし,実コーパスからのハイパーニーミー検出を改善するトレーニング目標についても紹介する。

Functional Distributional Semantics (FDS) models the meaning of words by truth-conditional functions. This provides a natural representation for hypernymy but no guarantee that it can be learnt when FDS models are trained on a corpus. In this paper, we probe into FDS models and study the representations learnt, drawing connections between quantifications, the Distributional Inclusion Hypothesis (DIH), and the variational-autoencoding objective of FDS model training. Using synthetic data sets, we reveal that FDS models learn hypernymy on a restricted class of corpus that strictly follows the DIH. We further introduce a training objective that both enables hypernymy learning under the reverse of the DIH and improves hypernymy detection from real corpora.
翻訳日:2024-02-13 22:34:41 公開日:2024-02-10
# Market-GAN:セマンティックコンテキストによる金融市場データ生成の制御

Market-GAN: Adding Control to Financial Market Data Generation with Semantic Context ( http://arxiv.org/abs/2309.07708v2 )

ライセンス: Link先を確認
Haochong Xia, Shuo Sun, Xinrun Wang, Bo An(参考訳) 金融シミュレーターは、予測精度の向上、リスク管理、戦略的金融決定の促進に重要な役割を果たしている。 金融市場シミュレーション手法の開発にもかかわらず、既存のフレームワークは、しばしば特殊なシミュレーションコンテキストへの適応に苦しむ。 私たちは課題を指摘します 一 現在の金融データセットには、文脈ラベルを含まないもの 二 現行の技術は、文脈を制御として金融データを生成するように設計されていず、他の形態に比べて高い精度を要求する。 三 金融データの非定常かつ騒がしい性質を前提として、コンテキスト整合で高忠実なデータの生成に固有の困難があること。 これらの課題に対処するために、私たちの貢献は 一 線形回帰と動的時間ワープクラスタリングを組み合わせて市場ダイナミクスを抽出する市場ダイナミクスモデリング手法を活用して、市場ダイナミクス、株式ティッカー、歴史状態を文脈とするコンテキスト市場データセットを提案した。 二 低次元の特徴を学習するためのオートエンコーダ、知識伝達のための監督者等を、制御可能な世代にGAN(Generative Adversarial Networks)を組み込んだ新しいアーキテクチャであるMarket-GANを提案する。 三 我々は、市場GANが本質的な市場分布を複数の目的で捉えるための二段階のトレーニングスキームを導入する。 関連する段階では、オートエンコーダとスーパーバイザを用いることで、敵の訓練段階により良い初期化を施したジェネレータを作成する。 本稿では,下流タスクにおけるアライメント,忠実度,データ使用性,市場事実を考慮した総合評価指標を提案する。 我々は2000年から2023年までのダウ・ジョーンズ工業平均データを用いて市場GANを評価し、4つの最先端時系列生成モデルと比較して優れた性能を示した。

Financial simulators play an important role in enhancing forecasting accuracy, managing risks, and fostering strategic financial decision-making. Despite the development of financial market simulation methodologies, existing frameworks often struggle with adapting to specialized simulation context. We pinpoint the challenges as i) current financial datasets do not contain context labels; ii) current techniques are not designed to generate financial data with context as control, which demands greater precision compared to other modalities; iii) the inherent difficulties in generating context-aligned, high-fidelity data given the non-stationary, noisy nature of financial data. To address these challenges, our contributions are: i) we proposed the Contextual Market Dataset with market dynamics, stock ticker, and history state as context, leveraging a market dynamics modeling method that combines linear regression and Dynamic Time Warping clustering to extract market dynamics; ii) we present Market-GAN, a novel architecture incorporating a Generative Adversarial Networks (GAN) for the controllable generation with context, an autoencoder for learning low-dimension features, and supervisors for knowledge transfer; iii) we introduce a two-stage training scheme to ensure that Market-GAN captures the intrinsic market distribution with multiple objectives. In the pertaining stage, with the use of the autoencoder and supervisors, we prepare the generator with a better initialization for the adversarial training stage. We propose a set of holistic evaluation metrics that consider alignment, fidelity, data usability on downstream tasks, and market facts. We evaluate Market-GAN with the Dow Jones Industrial Average data from 2000 to 2023 and showcase superior performance in comparison to 4 state-of-the-art time-series generative models.
翻訳日:2024-02-13 22:34:07 公開日:2024-02-10
# 多様なポートフォリオにおけるトレーディングのための強化学習手法の評価

Evaluation of Reinforcement Learning Techniques for Trading on a Diverse Portfolio ( http://arxiv.org/abs/2309.03202v3 )

ライセンス: Link先を確認
Ishan S. Khare, Tarun K. Martheswaran, Akshana Dassanaike-Perera(参考訳) 本研究は,S&P500指数上での強化学習の実現可能性に関する重要な研究課題に答えようとしている。 価値反復(vi)のオンポリシー手法と、q-learningのオフポリシー手法とともに、状態-アクション-reward-state-action(sarsa)が実装されている。 モデルは2000年から2023年までの数年間の株式市場データからなるデータセット上でトレーニングされ、テストされる。 この分析は、covid-19パンデミックの年数を含む2つの異なる期間を使ってモデルをトレーニングし、テストした結果と結果を提示する。 その結果、トレーニングデータセットにおけるCOVID-19期間の市場データを含めると、ベースライン戦略よりも優れたパフォーマンスが得られることが示唆された。 テスト中、オンラインアプローチ(VIとSARSA)はQラーニングを上回っ、バイアス分散トレードオフの影響とより単純なポリシーの一般化能力を強調した。 しかし,Q-ラーニングのパフォーマンスは,今後の市場環境の安定性によって異なる可能性がある。 今後の取り組みとして、さまざまな株式の試験および取引におけるqラーニングポリシーの更新を含む実験が提案されている。 また,モデル訓練のための代替経済指標の探索も提案している。

This work seeks to answer key research questions regarding the viability of reinforcement learning over the S&P 500 index. The on-policy techniques of Value Iteration (VI) and State-action-reward-state-action (SARSA) are implemented along with the off-policy technique of Q-Learning. The models are trained and tested on a dataset comprising multiple years of stock market data from 2000-2023. The analysis presents the results and findings from training and testing the models using two different time periods: one including the COVID-19 pandemic years and one excluding them. The results indicate that including market data from the COVID-19 period in the training dataset leads to superior performance compared to the baseline strategies. During testing, the on-policy approaches (VI and SARSA) outperform Q-learning, highlighting the influence of bias-variance tradeoff and the generalization capabilities of simpler policies. However, it is noted that the performance of Q-learning may vary depending on the stability of future market conditions. Future work is suggested, including experiments with updated Q-learning policies during testing and trading diverse individual stocks. Additionally, the exploration of alternative economic indicators for training the models is proposed.
翻訳日:2024-02-13 22:32:49 公開日:2024-02-10
# マヨラナフェルミオンと分数トポロジーと乱れを持つ量子情報

Majorana fermions and quantum information with fractional topology and disorder ( http://arxiv.org/abs/2309.03127v2 )

ライセンス: Link先を確認
Ephraim Bernhardt, Brian Chung Hang Cheung, Karyn Le Hur(参考訳) 物理学や凝縮物質系におけるマヨラナフェルミオンの同定と観測の探求は依然として重要な課題である。 ここでは、分数半の位相状態におけるブロッホ球面上の2つのスピン1/2のモデルにおいて、2つの非局在化されたゼロエネルギーマヨルダナフェルミオンの発生から量子ビット(スピン1/2)を導入する。 我々は、円偏光と量子情報プロトコルに関連するスピン1/2状態の保護により、時間内の特定のプロトコルに対処する。 我々はまた、障害が一重項-三重項遷移を許容し、分数相に対する追加の伸長領域を生じさせ、このプラットフォームがトポロジ的に保護された量子情報に応用される可能性を示す。

The quest to identify and observe Majorana fermions in physics and condensed-matter systems remains an important challenge. Here, we introduce a qubit (spin-1/2) from the occurrence of two delocalized zero-energy Majorana fermions in a model of two spins-1/2 on the Bloch sphere within the fractional one-half topological state. We address specific protocols in time with circularly polarized light and the protection of this spin-1/2 state related to quantum information protocols. We also show how disorder can play a positive and important role allowing singlet-triplet transitions and resulting in an additional elongated region for the fractional phase, demonstrating the potential of this platform related to applications in topologically protected quantum information.
翻訳日:2024-02-13 22:32:31 公開日:2024-02-10
# 階層型マルチマルジナル最適輸送によるネットワークアライメント

Hierarchical Multi-Marginal Optimal Transport for Network Alignment ( http://arxiv.org/abs/2310.04470v2 )

ライセンス: Link先を確認
Zhichen Zeng, Boxin Du, Si Zhang, Yinglong Xia, Zhining Liu, Hanghang Tong(参考訳) ネットワーク間のノード対応、すなわちマルチネットワークアライメントを見つけることは、複数のネットワークで共同学習する上で必須の前提条件である。 ペアでのネットワークの整合に大きな成功を収めたにもかかわらず、指数関数的に増加する解空間と高次差分対策の欠如により、マルチネットワークアライメントに関する文献は少ない。 このギャップを埋めるために,マルチネットワークアライメントのためのHOTという階層的マルチマージ最適トランスポートフレームワークを提案する。 大きな解空間を扱うために、複数のネットワークは、融合したgromov-wasserstein (fgw) barycenterを介してより小さなアライメントクラスタに分解される。 複数のネットワークにまたがる高次関係を記述するために、fgw距離は、ネットワークを協調的にアライメントできるマルチマルジナル設定に一般化される。 局所最適点への収束を保証する高速近点法をさらに発展させる。 広範な実験と分析により,提案手法は実効性と拡張性の両方において最先端よりも大幅な改善が得られた。

Finding node correspondence across networks, namely multi-network alignment, is an essential prerequisite for joint learning on multiple networks. Despite great success in aligning networks in pairs, the literature on multi-network alignment is sparse due to the exponentially growing solution space and lack of high-order discrepancy measures. To fill this gap, we propose a hierarchical multi-marginal optimal transport framework named HOT for multi-network alignment. To handle the large solution space, multiple networks are decomposed into smaller aligned clusters via the fused Gromov-Wasserstein (FGW) barycenter. To depict high-order relationships across multiple networks, the FGW distance is generalized to the multi-marginal setting, based on which networks can be aligned jointly. A fast proximal point method is further developed with guaranteed convergence to a local optimum. Extensive experiments and analysis show that our proposed HOT achieves significant improvements over the state-of-the-art in both effectiveness and scalability.
翻訳日:2024-02-13 22:21:27 公開日:2024-02-10
# 量子ディック電池の「バウンド光度」状態におけるスーパーチャージ

Quantum Dicke battery supercharging in the "bound luminocity" state ( http://arxiv.org/abs/2309.12433v2 )

ライセンス: Link先を確認
S.S. Seidov and S.I. Mukhin(参考訳) 量子電池は、エネルギーの貯蔵と変換に使用される量子システムであり、近年研究の関心を集めている。 彼らの研究の有望な候補はディッケモデルであり、共振器共振器内の単一モード電磁波と相互作用する2レベル系のアンサンブルを記述する。 電池を充電するには、2レベル系のアンサンブルと共振器キャビティの結合を一定時間内にオフにする必要がある。この瞬間を2レベル系のアンサンブルにエネルギーが完全に蓄積されるように選択する。 In our previous works we have investigated a ``bound luminosity'' superradiant state of the extended Dicke model and found analytical expressions for dynamics of coherent energy transfer between superradiant condensate and the ensemble of the two--level systems. Here, using our previous results, we have derived analytically the superlinear law for the quantum battery charging power $P\sim N^{3/2}$ as function of the number $N$ of the two--level systems in the battery, and also $N$-dependence for the charging time $t_c\sim N^{-1/2}$. チャージパワーの$n$--指数の$/2$は、他の著者によって数値的に得られた最近の${1.541}$と定量的に一致している。 ディッケ量子バッテリ充電の物理は、詳細に検討されている。

Quantum batteries, which are quantum systems to be used for storage and transformation of energy, are attracting research interest recently. A promising candidate for their investigation is the Dicke model, which describes an ensemble of two--level systems interacting with a single--mode electromagnetic wave in a resonator cavity. In order to charge the battery, a coupling between the ensemble of two--level systems and resonator cavity should be turned off at a certain moment of time. This moment of time is chosen in such a way, that the energy gets fully stored in the ensemble of two--level systems. In our previous works we have investigated a ``bound luminosity'' superradiant state of the extended Dicke model and found analytical expressions for dynamics of coherent energy transfer between superradiant condensate and the ensemble of the two--level systems. Here, using our previous results, we have derived analytically the superlinear law for the quantum battery charging power $P\sim N^{3/2}$ as function of the number $N$ of the two--level systems in the battery, and also $N$-dependence for the charging time $t_c\sim N^{-1/2}$. The $N$--exponent $3/2$ of the charging power is in quantitative correspondence with the recent result ${1.541}$ obtained numerically by other authors. The physics of the Dicke quantum battery charging is considered in detail.
翻訳日:2024-02-13 22:17:11 公開日:2024-02-10
# 雑音運動における空間情報と時間情報の最適統合学習

Learning optimal integration of spatial and temporal information in noisy chemotaxis ( http://arxiv.org/abs/2310.10531v2 )

ライセンス: Link先を確認
Albert Alonso and Julius B. Kirkegaard(参考訳) 勾配の空間的推定によるケモトキシーと時間的推定によるケモトキシーの境界について検討した。 空間的ケモトキシーが騒音の高い小生物にとって不利になることはよく知られているが、最適戦略の不連続なスイッチが存在するか、連続的な遷移が存在するかは定かではない。 本稿では,a prei unconstrained 方式による空間情報と時間情報の統合の可能性について,深層強化学習を用いて検討する。 そこで我々は, 再帰型ニューラルネットワークによる協調型ケモティックポリシーをパラメータ化し, チェモティックセルの最小理論モデルを用いて評価する。 ポリシーの制約された変種と比較することにより,小細胞サイズと大細胞サイズで,純粋に時間戦略と空間戦略に収束することを示した。 我々は,レジーム間の遷移が連続的であること,制約付き変種と空間的情報と時間的情報を明示的に統合するモデルの両方において,トランジッション領域における戦略が優れていることを見出した。 最後に, 統合勾配の帰属法を用いて, ケモティックトラジェクタにおいて動的に変化する, 空間的および時間的に導出される勾配情報の非自明な組み合わせに依存することを示す。

We investigate the boundary between chemotaxis driven by spatial estimation of gradients and chemotaxis driven by temporal estimation. While it is well known that spatial chemotaxis becomes disadvantageous for small organisms at high noise levels, it is unclear whether there is a discontinuous switch of optimal strategies or a continuous transition exists. Here, we employ deep reinforcement learning to study the possible integration of spatial and temporal information in an a priori unconstrained manner. We parameterize such a combined chemotactic policy by a recurrent neural network and evaluate it using a minimal theoretical model of a chemotactic cell. By comparing with constrained variants of the policy, we show that it converges to purely temporal and spatial strategies at small and large cell sizes, respectively. We find that the transition between the regimes is continuous, with the combined strategy outperforming in the transition region both the constrained variants as well as models that explicitly integrate spatial and temporal information. Finally, by utilizing the attribution method of integrated gradients, we show that the policy relies on a non-trivial combination of spatially and temporally derived gradient information in a ratio that varies dynamically during the chemotactic trajectories.
翻訳日:2024-02-13 22:10:02 公開日:2024-02-10
# 時間差学習の認識

Discerning Temporal Difference Learning ( http://arxiv.org/abs/2310.08091v2 )

ライセンス: Link先を確認
Jianfei Ma(参考訳) 時間差分学習(TD)は、政策の価値関数を効率的に評価することを目的とした強化学習(RL)の基本概念である。 強力な変種であるtd($\lambda$)は、メモリトレースを組み込んで、予測エラーを歴史的なコンテキストに分散する。 しかし、この手法は歴史的状態の重要性や、訪問不均衡や結果ノイズといった課題の影響を受けて、TDエラーを伝播する相対的な重要性を無視することが多い。 そこで本研究では,TDラーニング(DTD)と呼ばれる新しいTDアルゴリズムを提案する。 特定の強調関数のクラス内で,本手法の収束特性を確立し,深部RL文脈への適応の可能性を示す。 実証的な結果は、偏重関数を用いることで価値の推定が向上するだけでなく、さまざまなシナリオでの学習が迅速になることを示している。

Temporal difference learning (TD) is a foundational concept in reinforcement learning (RL), aimed at efficiently assessing a policy's value function. TD($\lambda$), a potent variant, incorporates a memory trace to distribute the prediction error into the historical context. However, this approach often neglects the significance of historical states and the relative importance of propagating the TD error, influenced by challenges such as visitation imbalance or outcome noise. To address this, we propose a novel TD algorithm named discerning TD learning (DTD), which allows flexible emphasis functions$-$predetermined or adapted during training$-$to allocate efforts effectively across states. We establish the convergence properties of our method within a specific class of emphasis functions and showcase its promising potential for adaptation to deep RL contexts. Empirical results underscore that employing a judicious emphasis function not only improves value estimation but also expedites learning across diverse scenarios.
翻訳日:2024-02-13 22:07:26 公開日:2024-02-10
# 外乱検出のためのQuantile-based Maximum Likelihood Training

Quantile-based Maximum Likelihood Training for Outlier Detection ( http://arxiv.org/abs/2310.06085v2 )

ライセンス: Link先を確認
Masoud Taghikhah, Nishant Kumar, Sini\v{s}a \v{S}egvi\'c, Abouzar Eslami, Stefan Gumhold(参考訳) 判別学習は、画像分類のための真のオブジェクトクラスを効果的に予測する。 しかし、これは多くの場合、自動走行やビデオ監視システムといったアプリケーションに重大な懸念を呈する、オフレーヤに対する偽陽性をもたらす。 この課題に対処する以前の試みは、実際のアウトレイアデータを使用したコントラスト学習や、自己教師型学習のためのアウトレイアの合成によるイメージ分類器の訓練であった。 さらに、画素空間における不整合の教師なし生成モデリングは、外乱検出に限られた成功を示してきた。 そこで本研究では,不規則分布を学習し,推論中の外れ値分離を改善するために,分位数に基づく最大度目標を提案する。 本手法は,事前学習した判別特徴に正規化フローを適合させ,評価したログ類似度に応じて外れ値を検出する。 実験評価は, 異常検出のための最先端の教師なし手法の性能を上回って, 提案手法の有効性を実証する。 結果はまた、最近の自己教師付きアプローチによる異常検出と比べても競争力がある。 私たちの研究は、医学診断やリモートセンシングといった領域において特に重要な、十分にサンプリングされた負のトレーニングデータへの依存を減らすことが可能です。

Discriminative learning effectively predicts true object class for image classification. However, it often results in false positives for outliers, posing critical concerns in applications like autonomous driving and video surveillance systems. Previous attempts to address this challenge involved training image classifiers through contrastive learning using actual outlier data or synthesizing outliers for self-supervised learning. Furthermore, unsupervised generative modeling of inliers in pixel space has shown limited success for outlier detection. In this work, we introduce a quantile-based maximum likelihood objective for learning the inlier distribution to improve the outlier separation during inference. Our approach fits a normalizing flow to pre-trained discriminative features and detects the outliers according to the evaluated log-likelihood. The experimental evaluation demonstrates the effectiveness of our method as it surpasses the performance of the state-of-the-art unsupervised methods for outlier detection. The results are also competitive compared with a recent self-supervised approach for outlier detection. Our work allows to reduce dependency on well-sampled negative training data, which is especially important for domains like medical diagnostics or remote sensing.
翻訳日:2024-02-13 22:06:21 公開日:2024-02-10
# 文脈ルールと役割相関を利用した文書レベルのイベント調停抽出

Utilizing Contextual Clues and Role Correlations for Enhancing Document-level Event Argument Extraction ( http://arxiv.org/abs/2310.05116v2 )

ライセンス: Link先を確認
Wanlong Liu, Dingyi Zeng, Li Zhou, Malu Zhang, Shaohuan Cheng, Weishan Kong, Yichen Xiao, Hongyang Zhao, Wenyu Chen(参考訳) 文書レベルのイベント引数抽出(EAE)は、情報抽出において不可欠だが挑戦的なサブタスクである。 既存のほとんどのアプローチは、議論とイベントトリガーの相互作用に焦点を当てており、文脈的手がかりの情報と議論の役割間の意味的相関という2つの重要なポイントを無視している。 本稿では,CARLGモデルを提案する。CCA (Contextual Clues Aggregation) とRLIG (Role-based Latent Information Guidance) の2つのモジュールから構成される。 CCAモジュールは、事前訓練されたエンコーダからのコンテキストアテンション重みを利用して、コンテキストヒントを適応的にキャプチャし、統合する。 RLIGモジュールはロール間エンコーディングを通じて意味的相関をキャプチャし、潜在ロール表現を伴う貴重な情報ガイダンスを提供する。 特に,我々のCCAおよびRLIGモジュールはコンパクトで移植可能で効率的であり,1%以上の新しいパラメータを導入せず,性能が著しく向上した他のスパンベース法に容易に対応できる。 RAMS、WikiEvents、MLEEデータセットに関する大規模な実験は、提案したCARLGモデルの優位性を示している。 従来の1.26 f1, 1.22 f1, 1.98 f1よりも優れており、推論時間は31%削減されている。 さらに,性能向上に基づく詳細な実験解析を行い,モデルの解釈可能性を示す。

Document-level event argument extraction (EAE) is a vital but challenging subtask in information extraction. Most existing approaches focus on the interaction between arguments and event triggers, ignoring two critical points: the information of contextual clues and the semantic correlations among argument roles. In this paper, we propose the CARLG model, which consists of two modules: Contextual Clues Aggregation (CCA) and Role-based Latent Information Guidance (RLIG), effectively leveraging contextual clues and role correlations for improving document-level EAE. The CCA module adaptively captures and integrates contextual clues by utilizing context attention weights from a pre-trained encoder. The RLIG module captures semantic correlations through role-interactive encoding and provides valuable information guidance with latent role representation. Notably, our CCA and RLIG modules are compact, transplantable and efficient, which introduce no more than 1% new parameters and can be easily equipped on other span-base methods with significant performance boost. Extensive experiments on the RAMS, WikiEvents, and MLEE datasets demonstrate the superiority of the proposed CARLG model. It outperforms previous state-of-the-art approaches by 1.26 F1, 1.22 F1, and 1.98 F1, respectively, while reducing the inference time by 31%. Furthermore, we provide detailed experimental analyses based on the performance gains and illustrate the interpretability of our model.
翻訳日:2024-02-13 22:05:06 公開日:2024-02-10
# 制約付きアクター批判アルゴリズムと制約付き自然アクター批判アルゴリズムの有限時間解析

Finite Time Analysis of Constrained Actor Critic and Constrained Natural Actor Critic Algorithms ( http://arxiv.org/abs/2310.16363v2 )

ライセンス: Link先を確認
Prashansa Panda, Shalabh Bhatnagar(参考訳) アクターの批判手法は、特に状態-アクション空間が大きい場合、幅広い強化学習タスクで膨大な応用を見出している。 本稿では,不等式制約を含む制約付きマルコフ決定過程(C-MDP)の関数近似を用いたアクター評論家および自然なアクター評論家アルゴリズムについて考察し,これらのアルゴリズムを非i.d(マルコフアン)環境で非漸近解析する。 目的関数と制約関数の両方が所定コスト関数の政策依存の長期平均となるような長期平均コスト基準を考察する。 我々はラグランジュ乗算法を用いて不等式制約を扱う。 これらのアルゴリズムが性能(ラグランジュ)関数 $l(\theta,\gamma)$ の1次定常点 ($\vert \nabla l(\theta,\gamma)\vert_2^2 \leq \epsilon$) を見つけることが保証されていることを証明し、制約付きアクター批判 (c-ac) と制約付き自然アクター批判 (c-nac) の2つの異なる安全性ジャム環境における実験結果を示す。

Actor Critic methods have found immense applications on a wide range of Reinforcement Learning tasks especially when the state-action space is large. In this paper, we consider actor critic and natural actor critic algorithms with function approximation for constrained Markov decision processes (C-MDP) involving inequality constraints and carry out a non-asymptotic analysis for both of these algorithms in a non-i.i.d (Markovian) setting. We consider the long-run average cost criterion where both the objective and the constraint functions are suitable policy-dependent long-run averages of certain prescribed cost functions. We handle the inequality constraints using the Lagrange multiplier method. We prove that these algorithms are guaranteed to find a first-order stationary point (i.e., $\Vert \nabla L(\theta,\gamma)\Vert_2^2 \leq \epsilon$) of the performance (Lagrange) function $L(\theta,\gamma)$, with a sample complexity of $\mathcal{\tilde{O}}(\epsilon^{-2.5})$ in the case of both Constrained Actor Critic (C-AC) and Constrained Natural Actor Critic (C-NAC) algorithms.We also show the results of experiments on three different Safety-Gym environments.
翻訳日:2024-02-13 21:55:57 公開日:2024-02-10
# 固体イオン輸送のための新しい準粒子法

A Novel Quasiparticle Method for Solid State Ion Transport ( http://arxiv.org/abs/2310.14405v2 )

ライセンス: Link先を確認
Jiaming Hu(参考訳) 固体電子工学と結晶格子振動で大きな成功を収めた準粒子法を固体イオン輸送の研究に応用した。 従来の固体イオン系と短距離イオンイオン反発を準粒子量子系にマッピングするための一般的なレシピが提案され、そこでは一般的な固体イオン問題を研究するための単純な密結合モデルが設定されている。 誘導されるイオン固有状態と輸送は、自然に結合した挙動を組み込むことができる。 イオン伝導性に及ぼす移動イオンドーピングの影響をイオン-イオンクーロン相互作用の平均場式で明らかにし,超イオン伝導機構を明らかにする。 同様のトリックはイオン電子干渉に由来するオンサーガー輸送の研究にも応用される。 いわゆる高エントロピー機構(high-entropy mechanism)も研究され、格子乱れや多点パーコレーションがイオン伝導度を増加させる効果を示す。 本手法は固体イオン輸送の理解と研究のための新しい枠組みを提供することが期待される。

The quasiparticle method, which has achieved a great success in solid state electronics and crystal lattice vibration, is adopted to study the solid state ion transport. A general recipe is put forward to map the classical solid state ion system together with the short-range ion-ion repulsion to a quasiparticle quantum system based on which simple tight-binding models are set up to study popular solid state ionic issues. The derived ionic eigen-states and transport can naturally incorporate the concerted behavior. The influence of mobile ion doping to ionic conductivity is investigated by an explicit mean-field expression of ion-ion Coulomb interaction to reveal the mechanism of super-ionic conduction. Similar trick is also applied to study the the Onsager transport originated from ion-electron interference. The so called high-entropy mechanism is also explored where the lattice random distorsion and multi-site percolation exhibit positive influence to increase ionic conductivity. Our method is expected to provide a novel framework to understand and study the solid state ion transport.
翻訳日:2024-02-13 21:53:52 公開日:2024-02-10
# 知識ベース質問応答のための文脈内スキーマ理解手法

An In-Context Schema Understanding Method for Knowledge Base Question Answering ( http://arxiv.org/abs/2310.14174v2 )

ライセンス: Link先を確認
Yantao Liu, Zixuan Li, Xiaolong Jin, Yucan Guo, Long Bai, Saiping Guan, Jiafeng Guo and Xueqi Cheng(参考訳) 知識ベース質問回答(KBQA)タスクは、与えられた知識ベースに基づいて自然言語質問に回答することを目的としている。 近年,Large Language Models (LLM) は言語理解において強力な能力を示しており,この課題の解決に利用することができる。 そこで, LLMの課題は, 知識ベーススキーマの不均一性と不均一性を克服することであり, 既存の手法は, LLMを当初, スキーマ固有の詳細を伴わずに論理形式のドラフトを生成することで, この課題を回避し, これらのドラフトにスキーマ情報を注入するために余分なモジュールを用いる。これに対し, 本論文では, LLMが文脈内学習を利用してスキーマを直接理解できるようにするシンプルなインコンテキストスキーマ理解法を提案する。 具体的には、ICSUはスキーマ関連アノテーションの例を使ってLCMにスキーマ情報を提供する。 本稿では、生の質問、匿名の質問、SPARQLクエリ生成に基づく3つのサンプル検索戦略について検討する。 実験の結果,ICSU は KQA Pro と WebQSP の両方のデータセットのベースライン手法と比較して,競合性能を示すことがわかった。

The Knowledge Base Question Answering (KBQA) task aims to answer natural language questions based on a given knowledge base. Recently, Large Language Models (LLMs) have shown strong capabilities in language understanding and can be used to solve this task. In doing so, a major challenge for LLMs is to overcome the immensity and heterogeneity of knowledge base schemas.Existing methods bypass this challenge by initially employing LLMs to generate drafts of logic forms without schema-specific details.Then, an extra module is used to inject schema information to these drafts.In contrast, in this paper, we propose a simple In-Context Schema Understanding (ICSU) method that enables LLMs to directly understand schemas by leveraging in-context learning. Specifically, ICSU provides schema information to LLMs using schema-related annotated examples. We investigate three example retrieval strategies based on raw questions, anonymized questions, and generated SPARQL queries. Experimental results show that ICSU demonstrates competitive performance compared to baseline methods on both the KQA Pro and WebQSP datasets.
翻訳日:2024-02-13 21:53:13 公開日:2024-02-10
# 自然言語説明の忠実性または自己矛盾性の測定について

On Measuring Faithfulness or Self-consistency of Natural Language Explanations ( http://arxiv.org/abs/2311.07466v2 )

ライセンス: Link先を確認
Letitia Parcalabescu and Anette Frank(参考訳) 大規模言語モデル(LLM)は、ポストホックまたはチェーン・オブ・ソート(CoT)の説明を通じて予測を説明することができる。 しかしLLMは、その根底にある理由に反する合理的な説明を作ることができる。 最近の研究は、ポストホックやCoTの説明の忠実さを判断する試験を設計している。 この研究では、これらの忠実度テストはモデルの内部動作への忠実度を測定するのではなく、出力レベルでの自己整合性を測定する。 私たちの貢献は3倍です。 一 モデル説明可能性の観点から忠実度テストの現状を明らかにし、代わりに自己整合性テストとして特徴づける。 この評価は下記の通りです 211のオープンllmと5つのタスクの共通スイートにおける既存のテストとを初めて比較した自己矛盾テストのための比較一貫性バンクの構築 iii)我々は,cc-shapの新たな自己整合性尺度を考案した。 CC-SHAP(CC-SHAP)は、LCM自己整合性の詳細な尺度(テストではない)である。 モデルの入力が予測された答えにどのように寄与するかを比較し、説明を生成する。 きめ細かいCC-SHAP測定でわかる 三 予測を行う際のLCMの挙動を比較し、他の整合性テストの効果をより深く分析するために、厳密な出力指向テストよりもモデルの内部に近づき、忠実度を測定するための一歩を踏み出した。 我々のコードは \url{https://github.com/Heidelberg-NLP/CC-SHAP} で入手できる。

Large language models (LLMs) can explain their predictions through post-hoc or Chain-of-Thought (CoT) explanations. But an LLM could make up reasonably sounding explanations that are unfaithful to its underlying reasoning. Recent work has designed tests that aim to judge the faithfulness of post-hoc or CoT explanations. In this work we argue that these faithfulness tests do not measure faithfulness to the models' inner workings -- but rather their self-consistency at output level. Our contributions are three-fold: i) We clarify the status of faithfulness tests in view of model explainability, characterising them as self-consistency tests instead. This assessment we underline by ii) constructing a Comparative Consistency Bank for self-consistency tests that for the first time compares existing tests on a common suite of 11 open LLMs and 5 tasks -- including iii) our new self-consistency measure CC-SHAP. CC-SHAP is a fine-grained measure (not a test) of LLM self-consistency. It compares how a model's input contributes to the predicted answer and to generating the explanation. Our fine-grained CC-SHAP metric allows us iii) to compare LLM behaviour when making predictions and to analyse the effect of other consistency tests at a deeper level, which takes us one step further towards measuring faithfulness by bringing us closer to the internals of the model than strictly surface output-oriented tests. Our code is available at \url{https://github.com/Heidelberg-NLP/CC-SHAP}
翻訳日:2024-02-13 21:44:50 公開日:2024-02-10
# データ汚染クイズ:大規模言語モデルにおける汚染の検出と推定ツール

Data Contamination Quiz: A Tool to Detect and Estimate Contamination in Large Language Models ( http://arxiv.org/abs/2311.06233v5 )

ライセンス: Link先を確認
Shahriar Golchin, Mihai Surdeanu(参考訳) 本研究では,大規模言語モデル(LLM)におけるデータ汚染の簡易かつ効果的な検出手法であるData Contamination Quiz (DCQ)を提案する。 具体的には、データの汚染検出を複数の質問の連続としてフレーム化し、各データセットインスタンスの3つの摂動バージョンを作成するクイズフォーマットを考案する。 これらの変更は単語レベルの摂動のみを含む。 生成された摂動バージョンは、元のインスタンスとともにDCQのオプションを形成し、提供された選択が正しくない可能性を調整した追加オプションを提供する。 選択の中で唯一区別される信号が、元のインスタンスに対する正確なワード処理であることを考えると、LLMは、選択から元のインスタンスを識別するタスクを課されたとき、前訓練フェーズでそのインスタンスに露呈された場合、元のインスタンスへ誘導する。 GPT-4/3.5を用いて複数のデータセットで検証した結果、LCMの事前学習データと内部パラメータへのアクセスが完全に欠如しているにもかかわらず、DCQは既存の検出方法と比較して汚染レベルが大きいことを明らかにし、特に著作権のあるコンテンツの生成を避けるためのセットを適切に回避している。

We propose the Data Contamination Quiz (DCQ), a simple and effective approach to detect data contamination in large language models (LLMs) and estimate the amount of it. Specifically, we frame data contamination detection as a series of multiple-choice questions and devise a quiz format wherein three perturbed versions of each dataset instance are created. These changes only include word-level perturbations. The generated perturbed versions, along with the original instance, form the options in the DCQ, with an extra option accommodating the possibility that none of the provided choices is correct. Given that the only distinguishing signal among the choices is the exact wording relative to the original instance, an LLM, when tasked with identifying the original instance from the choices, gravitates towards the original one if it has been exposed to it in its pre-training phase--a trait intrinsic to LLMs. Tested over several datasets with GPT-4/3.5, our findings--while fully lacking access to LLMs' pre-training data and internal parameters--suggest that DCQ uncovers greater contamination levels compared to existing detection methods and proficiently bypasses more safety filters, especially those set to avoid generating copyrighted contents.
翻訳日:2024-02-13 21:44:00 公開日:2024-02-10
# 逆強化学習は標準強化学習よりも難しいか? 理論的な視点

Is Inverse Reinforcement Learning Harder than Standard Reinforcement Learning? A Theoretical Perspective ( http://arxiv.org/abs/2312.00054v2 )

ライセンス: Link先を確認
Lei Zhao, Mengdi Wang, Yu Bai(参考訳) インバース強化学習(irl) -- \emph{expert policy}のデモンストレーションから報酬関数を学ぶ問題は、インテリジェントなシステムを開発する上で重要な役割を果たす。 アプリケーションで広く使われているが、IRLの理論的理解には固有の課題があり、標準のRLに比べて開発が遅れている。 例えば、標準的な 'emph{offline} 設定でIRLを効率的に行う方法については、事前に収集したデータで、状態は \emph{behavior policy} (これは専門家ポリシーそのものかもしれない)から取得され、アクションは専門家ポリシーからサンプリングされる。 本稿では,バニラのオフラインおよびオンライン設定において,多項式サンプルと実行時を用いた効率的なIRL結果の最初の行を提供する。 我々のアルゴリズムと分析は、オフラインのRLでよく使われる悲観主義の原理をシームレスに適用し、既存の作業よりも強力なメトリクスでIRLを保証する。 サンプルの複雑さがほぼ最適であることを示す下界を提供する。 応用として、学習した報酬は、対象のMDPが元の(ソース)MDPと一定の類似性仮定を満たす場合、適切な保証で、他のターゲットMDPに \emph{transfer} を付与できることを示す。

Inverse Reinforcement Learning (IRL) -- the problem of learning reward functions from demonstrations of an \emph{expert policy} -- plays a critical role in developing intelligent systems. While widely used in applications, theoretical understandings of IRL present unique challenges and remain less developed compared with standard RL. For example, it remains open how to do IRL efficiently in standard \emph{offline} settings with pre-collected data, where states are obtained from a \emph{behavior policy} (which could be the expert policy itself), and actions are sampled from the expert policy. This paper provides the first line of results for efficient IRL in vanilla offline and online settings using polynomial samples and runtime. Our algorithms and analyses seamlessly adapt the pessimism principle commonly used in offline RL, and achieve IRL guarantees in stronger metrics than considered in existing work. We provide lower bounds showing that our sample complexities are nearly optimal. As an application, we also show that the learned rewards can \emph{transfer} to another target MDP with suitable guarantees when the target MDP satisfies certain similarity assumptions with the original (source) MDP.
翻訳日:2024-02-13 21:32:48 公開日:2024-02-10
# トーリック符号とゲージヒッグスモデルにおけるバルク測定誘起境界相転移

Bulk-Measurement-Induced Boundary Phase Transition in Toric Code and Gauge-Higgs Model ( http://arxiv.org/abs/2311.16651v2 )

ライセンス: Link先を確認
Yoshihito Kuno, Takahiro Orito, Ikuo Ichinose(参考訳) 筒状形状下のトーリック符号におけるバルク射影測定による境界位相遷移の研究を報告する。 バルク量子ビットの局所測定頻度が増加すると、境界上のスピングラス型長距離秩序が出現し、z_2$対称性の自発的対称性破れ(ssb)を示す。 格子ゲージ理論の観点から、このSSBは対称性が保護された位相秩序を持つヒッグス相への遷移の信号である。 我々は、この相転移の性質、特に臨界度を数値的に解明し、非局所ゲージ不変対称性作用素を用いて物理像を与える。 バルク中の相転移についても検討し, 境界遷移との関係について考察した。

Study of boundary phase transition in toric code under cylinder geometry via bulk projective measurement is reported. As the frequency of local measurement for bulk qubits is increased, spin-glass type long-range order on the boundaries emerges indicating spontaneous-symmetry breaking (SSB) of $Z_2$ symmetry. From the lattice-gauge-theory viewpoint, this SSB is a signal of a transition to Higgs phase with symmetry protected topological order. We numerically elucidate the properties of this phase transition in detail, especially its criticality, and give a physical picture using non-local gauge-invariant symmetry operators. Phase transition in the bulk is also studied and its relationship to the boundary transition is discussed.
翻訳日:2024-02-13 21:31:49 公開日:2024-02-10
# 強靭なオーバーフィッティング--逆行訓練による分布問題

On robust overfitting: adversarial training induced distribution matters ( http://arxiv.org/abs/2311.16526v2 )

ライセンス: Link先を確認
Runzhi Tian, Yongyi Mao(参考訳) 敵の訓練は、修正された損失関数を持つ標準訓練と見なすことができる。 しかし、その一般化誤差は標準損失下での標準訓練よりもはるかに大きいように見える。 この現象は強固な過剰フィッティングとして知られるが、大きな研究の注目を集め、ほとんどが謎のままである。 本稿では,強靭なオーバーフィッティングが,逆行訓練(特にPGDに基づく逆行訓練)の軌跡に沿った摂動誘起分布の一般化困難度の増加と相関することを示す。 次に,摂動誘起分布に対する一般化誤差に対する新しい上限を与え,摂動作用素の概念を「局所分散」と呼ぶことが重要な役割を果たす。 境界の有用性を検証する実験結果が提示され,さらに様々な知見が得られた。

Adversarial training may be regarded as standard training with a modified loss function. But its generalization error appears much larger than standard training under standard loss. This phenomenon, known as robust overfitting, has attracted significant research attention and remains largely as a mystery. In this paper, we first show empirically that robust overfitting correlates with the increasing generalization difficulty of the perturbation-induced distributions along the trajectory of adversarial training (specifically PGD-based adversarial training). We then provide a novel upper bound for generalization error with respect to the perturbation-induced distributions, in which a notion of the perturbation operator, referred to "local dispersion", plays an important role. Experimental results are presented to validate the usefulness of the bound and various additional insights are provided.
翻訳日:2024-02-13 21:31:14 公開日:2024-02-10
# ニューラル・ネットワーク・アルゴリズムを用いたキプロスのギリシャ人幼児の発達言語障害の検出

Detection of developmental language disorder in Cypriot Greek children using a neural network algorithm ( http://arxiv.org/abs/2311.15054v2 )

ライセンス: Link先を確認
Georgios P. Georgiou and Elena Theodorou(参考訳) 発達言語障害児(dld)は、様々な言語構造を取得するのが困難である。 早期発見と介入は、子どもの学術的、社会的、感情的な発達に影響を及ぼす負の長期的な結果を防ぐために不可欠である。 本研究は,人工知能,特にニューラルネットワーク機械学習アルゴリズムを用いたDLDの自動識別手法の開発を目的とする。 このプロトコルは、DLDを持つキプロス系ギリシャ人の子供に初めて適用される。 ニューラルネットワークモデルは、DLDを持つ15人の子供と7;10歳から10;4歳までの健常者15人の知覚・生産データを用いて訓練された。 kフォールド法はアルゴリズムのクロスバリデーションに使われた。 モデルの性能を精度,精度,リコール,F1スコア,ROC/AUC曲線などの指標を用いて評価し,未知のデータに対して正確な予測を行う能力を評価する。 その結果,すべての指標に対して高い分類値が示され,dld児の分類における神経モデルの精度が示された。 さらに, 可変重要度分析により, 子どもの言語生産能力は, 知覚能力と比較して, モデルの性能に有意な影響を与えていることが明らかとなった。 機械学習のパラダイムは、DLDを持つ子供とTDを持つ子供の間で効果的な識別を提供し、臨床評価を高め、疾患の早期かつより効率的な検出を促進する可能性がある。

Children with developmental language disorder (DLD) encounter difficulties in acquiring various language structures. Early identification and intervention are crucial to prevent negative long-term outcomes impacting the academic, social, and emotional development of children. The study aims to develop an automated method for the identification of DLD using artificial intelligence, specifically a neural network machine learning algorithm. This protocol is applied for the first time in a Cypriot Greek child population with DLD. The neural network model was trained using perceptual and production data elicited from 15 children with DLD and 15 healthy controls in the age range of 7;10 until 10;4. The k-fold technique was used to crossvalidate the algorithm. The performance of the model was evaluated using metrics such as accuracy, precision, recall, F1 score, and ROC/AUC curve to assess its ability to make accurate predictions on a set of unseen data. The results demonstrated high classification values for all metrics, indicating the high accuracy of the neural model in classifying children with DLD. Additionally, the variable importance analysis revealed that the language production skills of children had a more significant impact on the performance of the model compared to perception skills. Machine learning paradigms provide effective discrimination between children with DLD and those with TD, with the potential to enhance clinical assessment and facilitate earlier and more efficient detection of the disorder.
翻訳日:2024-02-13 21:30:18 公開日:2024-02-10
# 言語モデルによるプログレッシブトレーニングのための準備

Preparing Lessons for Progressive Training on Language Models ( http://arxiv.org/abs/2401.09192v3 )

ライセンス: Link先を確認
Yu Pan, Ye Yuan, Yichun Yin, Jiaxin Shi, Zenglin Xu, Ming Zhang, Lifeng Shang, Xin Jiang, Qun Liu(参考訳) 人工知能におけるトランスフォーマーの急速な進歩は、モデルサイズの増加による資源消費の増大と温室効果ガス排出の増大によるコストを伴っている。 事前の作業は、トレーニング効率を改善するために事前訓練された小さなモデルを使うことを推奨するが、このアプローチは新しいモデル構造には適さないかもしれない。 一方、スクラッチからのトレーニングは遅くなり、層を段階的に積み重ねることはしばしば大きな加速を達成できない。 これらの課題に対処するために、我々は、低層トレーニング中の高テキストbf{l}ayer functi\textbf{o}nality によるex\textbf{p}anding \textbf{o}perationの授業をprep\textbf{a}resするapolloという新しい手法を提案する。 提案手法では,低値優先サンプリング (lvps) を用いて異なる深さと重み付けを訓練し,効率的な拡張を促進する。 また,安定なモデル深度拡張のための補間法を提案する。 実験の結果、アポロ計画が最先端の加速比を達成し、事前訓練されたモデルを使った方法に匹敵する結果となり、時間、財政、環境コストを削減しながら深層モデルのトレーニングを行うための普遍的で効率的なソリューションとなった。

The rapid progress of Transformers in artificial intelligence has come at the cost of increased resource consumption and greenhouse gas emissions due to growing model sizes. Prior work suggests using pretrained small models to improve training efficiency, but this approach may not be suitable for new model structures. On the other hand, training from scratch can be slow, and progressively stacking layers often fails to achieve significant acceleration. To address these challenges, we propose a novel method called Apollo, which prep\textbf{a}res lessons for ex\textbf{p}anding \textbf{o}perations by \textbf{l}earning high-\textbf{l}ayer functi\textbf{o}nality during training of low layers. Our approach involves low-value-prioritized sampling (LVPS) to train different depths and weight sharing to facilitate efficient expansion. We also introduce an interpolation method for stable model depth extension. Experiments demonstrate that Apollo achieves state-of-the-art acceleration ratios, even rivaling methods using pretrained models, making it a universal and efficient solution for training deep models while reducing time, financial, and environmental costs.
翻訳日:2024-02-13 21:10:38 公開日:2024-02-10
# beyond extraction: 言語モデルによる効率的な要約のための表データコンテキスト化

Beyond Extraction: Contextualising Tabular Data for Efficient Summarisation by Language Models ( http://arxiv.org/abs/2401.02333v3 )

ライセンス: Link先を確認
Uday Allu, Biddwan Ahmed, Vishesh Tripathi(参考訳) Retrieval-Augmented Generation (RAG) アーキテクチャの従来の利用は、様々な文書から情報を取得するのに有効であることが証明されている。 しかしながら,複雑なテーブルクエリを扱う場合,特に複雑な表構造を含むPDF文書では,RAGベースのシステムにおいて複雑なテーブルクエリの精度を高めるための革新的なアプローチが提案されている。 本手法では,検索データベースにPDFを格納し,タブ状コンテンツを別々に抽出する。 抽出されたテーブルはコンテキストエンリッチメントのプロセスに入り、ヘッダを対応する値に結合する。 強化されたデータの包括的理解を確保するため、ragアーキテクチャ内で要約するためにllama-2-chat言語モデルの微調整バージョンを用いる。 さらに,ChatGPT 3.5 APIをワンショットプロンプトで使用して,文脈感覚で表データを拡張する。 このリッチなデータは、他のPDFと並んで検索データベースに送られる。 提案手法は,複雑なテーブルクエリの精度を大幅に向上し,情報検索における長年の課題に対して有望な解決策を提供することを目的としている。

The conventional use of the Retrieval-Augmented Generation (RAG) architecture has proven effective for retrieving information from diverse documents. However, challenges arise in handling complex table queries, especially within PDF documents containing intricate tabular structures.This research introduces an innovative approach to enhance the accuracy of complex table queries in RAG-based systems. Our methodology involves storing PDFs in the retrieval database and extracting tabular content separately. The extracted tables undergo a process of context enrichment, concatenating headers with corresponding values. To ensure a comprehensive understanding of the enriched data, we employ a fine-tuned version of the Llama-2-chat language model for summarisation within the RAG architecture. Furthermore, we augment the tabular data with contextual sense using the ChatGPT 3.5 API through a one-shot prompt. This enriched data is then fed into the retrieval database alongside other PDFs. Our approach aims to significantly improve the precision of complex table queries, offering a promising solution to a longstanding challenge in information retrieval.
翻訳日:2024-02-13 21:09:30 公開日:2024-02-10
# Beyond mirkwood: コンフォーマル予測によるSEDモデリングの強化

Beyond mirkwood: Enhancing SED Modeling with Conformal Predictions ( http://arxiv.org/abs/2312.14212v2 )

ライセンス: Link先を確認
Sankalp Gilda(参考訳) 従来のスペクトルエネルギー分布(SED)フィッティング技術は、星形成史や塵の減衰曲線の仮定によって不確実性に直面している。 本稿では、SEDフィッティングにおける柔軟性と不確実性を向上する高度な機械学習ベースのアプローチを提案する。 mirkwoodで使われる固定ngboostモデルとは異なり、このアプローチは決定論的モデルを含む任意のsklearn互換モデルを可能にする。 我々は,点予測を誤りバーに変換し,解釈可能性と信頼性を高めるために,等角化分位回帰(conformalized quantile regression)を導入する。 catboostをベース予測器として使用し,コンフォーメーション予測の有無と結果を比較し,カバレッジや間隔幅といった指標によるパフォーマンス向上を実証した。 本手法は観測データから銀河の物理的性質を導出するためのより汎用的で正確なツールを提供する。

Traditional spectral energy distribution (SED) fitting techniques face uncertainties due to assumptions in star formation histories and dust attenuation curves. We propose an advanced machine learning-based approach that enhances flexibility and uncertainty quantification in SED fitting. Unlike the fixed NGBoost model used in mirkwood, our approach allows for any sklearn-compatible model, including deterministic models. We incorporate conformalized quantile regression to convert point predictions into error bars, enhancing interpretability and reliability. Using CatBoost as the base predictor, we compare results with and without conformal prediction, demonstrating improved performance using metrics such as coverage and interval width. Our method offers a more versatile and accurate tool for deriving galaxy physical properties from observational data.
翻訳日:2024-02-13 21:06:41 公開日:2024-02-10
# 自発4光波混合における原子アンサンブル密度の増大による高相関性2光子の観察

Observation of Highly Correlated Ultrabright Biphotons Through Increased Atomic Ensemble Density in Spontaneous Four-Wave Mixing ( http://arxiv.org/abs/2312.12758v3 )

ライセンス: Link先を確認
Jiun-Shiuan Shiu, Zi-Yu Liu, Chin-Yao Cheng, Yu-Chiao Huang, Ite A. Yu, Ying-Cheng Chen, Chih-Sung Chuu, Che-Ming Li, Shiang-Yu Wang, Yong-Fan Chen(参考訳) 双光子源が相関する光子対を生成する能力を評価する重要な指標であるペアリング比は、理論的な予測にもかかわらず未探索のままである。 本研究は、コールド原子中の2-$\lambda$自発的4波混合二光子源を用いたペアリング比に関する実験結果を示す。 20の光学深度(OD)では、超高2光子生成速度が1.3\times10^7$/秒となり、ペアリング比が6.1\%$で成功した。 ODを120に増やすことでペアリング比が89\%$に向上し、一貫した双光子生成率を維持した。 この成果は、高い生成速度と堅牢な二光子ペアリングによって特徴づけられ、量子通信と情報処理における効率の進歩に大きな期待を抱いている。 さらに、biphoton生成率が5.0 \times 10^4$ per secondのシナリオでは、biphoton wavepacketの信号対バックグランド比が241で、コーシー・シュワルツ基準を約1.5\times10^4$で上回った。

The pairing ratio, a crucial metric assessing a biphoton source's ability to generate correlated photon pairs, remains underexplored despite theoretical predictions. This study presents experimental findings on the pairing ratio, utilizing a double-$\Lambda$ spontaneous four-wave mixing biphoton source in cold atoms. At an optical depth (OD) of 20, we achieved an ultrahigh biphoton generation rate of up to $1.3\times10^7$ per second, with a successful pairing ratio of $61\%$. Increasing the OD to 120 significantly improved the pairing ratio to $89\%$, while maintaining a consistent biphoton generation rate. This achievement, marked by high generation rates and robust biphoton pairing, holds great promise for advancing efficiency in quantum communication and information processing. Additionally, in a scenario with a lower biphoton generation rate of $5.0 \times 10^4$ per second, we attained an impressive signal-to-background ratio of 241 for the biphoton wavepacket, surpassing the Cauchy-Schwarz criterion by approximately $1.5\times10^4$ times.
翻訳日:2024-02-13 21:05:52 公開日:2024-02-10
# 高次元ゲームへの対物形状のスケーリング

Scaling Opponent Shaping to High Dimensional Games ( http://arxiv.org/abs/2312.12568v3 )

ライセンス: Link先を確認
Akbir Khan and Timon Willi and Newton Kwan and Andrea Tacchetti and Chris Lu and Edward Grefenstette and Tim Rockt\"aschel and Jakob Foerster(参考訳) 混合インセンティブを持つマルチエージェント設定では、ゼロサムゲーム用に開発された手法が有害な結果をもたらすことが示されている。 この問題に対処するため、相手のシェーピング(os)メソッドは、コプレイヤの学習ダイナミクスに影響を与えるように明示的に学習し、経験的に個人と集団の成果を改善する。 しかし,高次導関数の推定やモデルフリーなメタラーニングのスケーリングといった課題があるため,低次元環境においてのみos手法が評価されている。 より複雑な設定にスケールする別の方法は、望ましくないソリューションに収束するか、環境や共同プレイヤに関する非現実的な仮定に依存する。 本稿では,時間的拡張動作と長時間の地平線を持つ汎用ゲームへのOSベースのアプローチを初めて実現した。 従来のアルゴリズムが用いたメタ状態と履歴の表現を分析した後、Shaperと呼ばれる簡易バージョンを提案する。 文献からの挑戦的な状況において、Shaperが個人的および集団的成果を改善することを実証的に示す。 さらに文献に暗黙的な手法を定式化し,その相手の形状に対する寄与を分析した。 本手法は,特定の環境下での先行手法の機能向上に有効であることを示す。 最後に、CoinGameのような従来の環境は、時間的に拡張された一般サム相互作用を分析するのに不十分であることを示す。

In multi-agent settings with mixed incentives, methods developed for zero-sum games have been shown to lead to detrimental outcomes. To address this issue, opponent shaping (OS) methods explicitly learn to influence the learning dynamics of co-players and empirically lead to improved individual and collective outcomes. However, OS methods have only been evaluated in low-dimensional environments due to the challenges associated with estimating higher-order derivatives or scaling model-free meta-learning. Alternative methods that scale to more complex settings either converge to undesirable solutions or rely on unrealistic assumptions about the environment or co-players. In this paper, we successfully scale an OS-based approach to general-sum games with temporally-extended actions and long-time horizons for the first time. After analysing the representations of the meta-state and history used by previous algorithms, we propose a simplified version called Shaper. We show empirically that Shaper leads to improved individual and collective outcomes in a range of challenging settings from literature. We further formalize a technique previously implicit in the literature, and analyse its contribution to opponent shaping. We show empirically that this technique is helpful for the functioning of prior methods in certain environments. Lastly, we show that previous environments, such as the CoinGame, are inadequate for analysing temporally-extended general-sum interactions.
翻訳日:2024-02-13 21:05:27 公開日:2024-02-10
# Vision Mamba: 双方向状態モデルによる効率的な視覚表現学習

Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model ( http://arxiv.org/abs/2401.09417v2 )

ライセンス: Link先を確認
Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu, Xinggang Wang(参考訳) 近年、効率的なハードウェア対応設計、すなわちMambaディープラーニングモデルを持つ状態空間モデル(SSM)は、長いシーケンスモデリングに大きな可能性を示している。 一方、SSM上に効率的で汎用的な視覚バックボーンを構築することは魅力的な方向である。 しかし,視覚データの位置感応性や視覚理解のためのグローバルコンテキストの必要性から,ssmでは視覚的データの表現が困難である。 本稿では,視覚表現学習における自己注意への依存が不要であることを示すとともに,画像列を位置埋め込みでマークし,視覚表現を双方向状態空間モデルで圧縮する,双方向マンバブロック(Vim)を用いた視覚バックボーンを提案する。 ImageNet分類、COCOオブジェクト検出、ADE20kセマンティックセグメンテーションタスクにおいて、VimはDeiTのような確立されたビジョントランスフォーマーよりも高いパフォーマンスを実現し、計算とメモリ効率を大幅に改善した。 例えば、VimはDeiTより2.8$\times$高速で、1248$\times$1248の解像度で画像上の特徴を抽出するバッチ推論を実行すると86.8%のGPUメモリを節約する。 その結果、vimは高解像度画像のトランスフォーマースタイルの理解を行う際の計算とメモリの制約を克服でき、vision foundationモデルの次世代バックボーンとなる可能性を秘めている。 コードはhttps://github.com/hustvl/vimで入手できる。

Recently the state space models (SSMs) with efficient hardware-aware designs, i.e., the Mamba deep learning model, have shown great potential for long sequence modeling. Meanwhile building efficient and generic vision backbones purely upon SSMs is an appealing direction. However, representing visual data is challenging for SSMs due to the position-sensitivity of visual data and the requirement of global context for visual understanding. In this paper, we show that the reliance on self-attention for visual representation learning is not necessary and propose a new generic vision backbone with bidirectional Mamba blocks (Vim), which marks the image sequences with position embeddings and compresses the visual representation with bidirectional state space models. On ImageNet classification, COCO object detection, and ADE20k semantic segmentation tasks, Vim achieves higher performance compared to well-established vision transformers like DeiT, while also demonstrating significantly improved computation & memory efficiency. For example, Vim is 2.8$\times$ faster than DeiT and saves 86.8% GPU memory when performing batch inference to extract features on images with a resolution of 1248$\times$1248. The results demonstrate that Vim is capable of overcoming the computation & memory constraints on performing Transformer-style understanding for high-resolution images and it has great potential to be the next-generation backbone for vision foundation models. Code is available at https://github.com/hustvl/Vim.
翻訳日:2024-02-13 20:57:22 公開日:2024-02-10
# 維持か 投げるか? 雑音ICAの解を評価する非パラメトリックスコア

Keep or toss? A nonparametric score to evaluate solutions for noisy ICA ( http://arxiv.org/abs/2401.08468v2 )

ライセンス: Link先を確認
Syamantak Kumar, Purnamrita Sarkar, Peter Bickel, and Derek Bean(参考訳) 独立成分分析(Independent Component Analysis, ICA)は、1980年代にブラインド音源分離(BSS)のモデルとして導入された。 推定には多くの高度なアルゴリズムがあるが、異なる手法には異なる欠点がある。 本稿では,任意のガウス雑音を持つICAの正しいアルゴリズムを適応的に選択する非パラメトリックスコアを開発する。 このスコアの目新しさは、データの有限秒のモーメントを仮定し、ノイズ分布のパラメータを知らずに推定混合行列の品質を評価するために特性関数を使用するという事実に起因している。 さらに、fasticaやjadeのような既存のアルゴリズムと同じ高速計算性を持つが、前者が失敗する可能性がある領域で動作する新しいコントラスト関数とアルゴリズムを提案する。 それらにも弱点があるかもしれないが、我々のシミュレーションが示すように、我々の提案した診断はそれらを治療することができる。 最後に,アルゴリズムの局所的および大域的収束特性を解析するための理論的枠組みを提案する。

Independent Component Analysis (ICA) was introduced in the 1980's as a model for Blind Source Separation (BSS), which refers to the process of recovering the sources underlying a mixture of signals, with little knowledge about the source signals or the mixing process. While there are many sophisticated algorithms for estimation, different methods have different shortcomings. In this paper, we develop a nonparametric score to adaptively pick the right algorithm for ICA with arbitrary Gaussian noise. The novelty of this score stems from the fact that it just assumes a finite second moment of the data and uses the characteristic function to evaluate the quality of the estimated mixing matrix without any knowledge of the parameters of the noise distribution. In addition, we propose some new contrast functions and algorithms that enjoy the same fast computability as existing algorithms like FASTICA and JADE but work in domains where the former may fail. While these also may have weaknesses, our proposed diagnostic, as shown by our simulations, can remedy them. Finally, we propose a theoretical framework to analyze the local and global convergence properties of our algorithms.
翻訳日:2024-02-13 20:55:58 公開日:2024-02-10
# チェスの改善のために、専門家とmctの混合を組み合わせる

Checkmating One, by Using Many: Combining Mixture of Experts with MCTS to Improve in Chess ( http://arxiv.org/abs/2401.16852v2 )

ライセンス: Link先を確認
Felix Helfenstein, Jannis Bl\"uml, Johannes Czech and Kristian Kersting(参考訳) 本稿では,Mixture of Experts (MoE) 法とMonte-Carlo Tree Search (MCTS) を用いて,ディープラーニングと計算チェスを統合した新しい手法を提案する。 本手法は,ゲームの入力データの変化に対応するように設計した,一連の特殊モデルを用いている。 この結果、わずかに活性化されたモデルを持つフレームワークが実現し、計算上の大きな利点をもたらす。 我々のフレームワークは,MoE法とMCTS法を組み合わせることで,チェスの戦略段階と整合し,従来の 'one-for-all' モデルから離脱する。 代わりに、異なるゲームフェーズ定義を使用して、複数のエキスパートニューラルネットワークに計算タスクを効果的に分配する。 私たちの経験的研究は、従来のシングルモデルフレームワークを抜いて、演奏力を大幅に改善したことを示している。 これは、我々の統合アプローチの有効性を検証し、ニューラルネットワーク設計に専門知識と戦略原則を組み込む可能性を強調します。 moeとmctsの融合は、機械学習アーキテクチャの進歩に有望な道を提供する。

This paper presents a new approach that integrates deep learning with computational chess, using both the Mixture of Experts (MoE) method and Monte-Carlo Tree Search (MCTS). Our methodology employs a suite of specialized models, each designed to respond to specific changes in the game's input data. This results in a framework with sparsely activated models, which provides significant computational benefits. Our framework combines the MoE method with MCTS, in order to align it with the strategic phases of chess, thus departing from the conventional ``one-for-all'' model. Instead, we utilize distinct game phase definitions to effectively distribute computational tasks across multiple expert neural networks. Our empirical research shows a substantial improvement in playing strength, surpassing the traditional single-model framework. This validates the efficacy of our integrated approach and highlights the potential of incorporating expert knowledge and strategic principles into neural network design. The fusion of MoE and MCTS offers a promising avenue for advancing machine learning architectures.
翻訳日:2024-02-13 20:46:30 公開日:2024-02-10
# ACCESS: 自動Webアクセシビリティ違反訂正のためのプロンプトエンジニアリング

ACCESS: Prompt Engineering for Automated Web Accessibility Violation Corrections ( http://arxiv.org/abs/2401.16450v2 )

ライセンス: Link先を確認
Calista Huang, Alyssa Ma, Suchir Vyasamudri, Eugenie Puype, Sayem Kamal, Juan Belza Garcia, Salar Cheema, Michael Lutz(参考訳) 包括的かつユーザフレンドリな技術の必要性が高まる中、Webアクセシビリティは、視覚、聴覚、認知、運動障害を含む、障害のある個人に対するオンラインコンテンツへの平等なアクセスを確保するために不可欠である。 Web Content Accessibility Guidelines (WCAG) や Web Accessibility Initiative (W3C) のようなアクセシビリティガイドラインや標準が存在するにもかかわらず、ウェブサイトの90%以上が必要なアクセシビリティ要件を満たしていない。 障害のあるWebユーザに対しては、Webページアクセシビリティエラーを自動的に修正するツールが必要である。 研究はアクセシビリティエラーを発見し、ターゲットにする方法を実証しているが、そのような違反を効果的に修正する研究は行われていない。 本稿では,ドキュメントオブジェクトモデル(dom)を基礎モデルでリアルタイムに修正することにより,web上のアクセシビリティ侵害を修正する新しい手法を提案する。 アクセシビリティエラー情報、大規模言語モデル(LLMs)、および迅速なエンジニアリング技術を活用し、新しいベンチマークであるACCESSの修正後のアクセシビリティ違反エラーを51%以上削減した。 本研究は,インクルーシブWebコンテンツの方向性に対する価値あるアプローチを示し,Webアクセシビリティの自動化に向けた先進的な手法を探るための方向性を提供する。

With the increasing need for inclusive and user-friendly technology, web accessibility is crucial to ensuring equal access to online content for individuals with disabilities, including visual, auditory, cognitive, or motor impairments. Despite the existence of accessibility guidelines and standards such as Web Content Accessibility Guidelines (WCAG) and the Web Accessibility Initiative (W3C), over 90% of websites still fail to meet the necessary accessibility requirements. For web users with disabilities, there exists a need for a tool to automatically fix web page accessibility errors. While research has demonstrated methods to find and target accessibility errors, no research has focused on effectively correcting such violations. This paper presents a novel approach to correcting accessibility violations on the web by modifying the document object model (DOM) in real time with foundation models. Leveraging accessibility error information, large language models (LLMs), and prompt engineering techniques, we achieved greater than a 51% reduction in accessibility violation errors after corrections on our novel benchmark: ACCESS. Our work demonstrates a valuable approach toward the direction of inclusive web content, and provides directions for future research to explore advanced methods to automate web accessibility.
翻訳日:2024-02-13 20:46:12 公開日:2024-02-10
# クロススペース適応フィルタ:グラフトポロジとノード属性の統合によるオーバー・スムーシング問題の軽減

Cross-Space Adaptive Filter: Integrating Graph Topology and Node Attributes for Alleviating the Over-smoothing Problem ( http://arxiv.org/abs/2401.14876v2 )

ライセンス: Link先を確認
Chen Huang, Haoyang Li, Yifan Zhang, Wenqiang Lei, Jiancheng Lv(参考訳) バニラグラフ畳み込みネットワーク(gcn)は低パスフィルタを使用してグラフトポロジーから低周波信号を抽出する。 この目的のために、グラフトポロジから抽出した追加フィルタ(例えば、ハイパスフィルタ)を組み込んで適応フィルタを作成するための様々な手法が提案されている。 しかし、これらの手法は位相情報に強く依存し、特に非因果グラフを扱う場合、深いGCNの表現力を著しく犠牲にするノード属性空間を無視する。 本稿では,位相空間と属性空間の両方から抽出した適応周波数情報を生成するために,csfと呼ばれるクロススペース適応フィルタを提案する。 具体的には, 半教師付きカーネルリッジ回帰の最小化として理論的に解釈可能な属性に基づく高パスフィルタを導出する。 次に、トポロジーベースのローパスフィルタをマーサーのカーネルとしてgcnsのコンテキストにキャストした。 これはアダプティブ周波数情報をキャプチャするために属性ベースのフィルタと組み合わせる基盤となる。 最後に、属性に基づくハイパスフィルタとトポロジに基づくローパスフィルタを統一する効果的なマルチカーネル学習戦略により、クロススペースフィルタを導出する。 これにより、効率を保ちながら過度にスムースな問題に対処できます。 大規模な実験により、CSFは過度に平滑な問題を緩和するだけでなく、ノード分類タスクの有効性も促進することが示された。

The vanilla Graph Convolutional Network (GCN) uses a low-pass filter to extract low-frequency signals from graph topology, which may lead to the over-smoothing problem when GCN goes deep. To this end, various methods have been proposed to create an adaptive filter by incorporating an extra filter (e.g., a high-pass filter) extracted from the graph topology. However, these methods heavily rely on topological information and ignore the node attribute space, which severely sacrifices the expressive power of the deep GCNs, especially when dealing with disassortative graphs. In this paper, we propose a cross-space adaptive filter, called CSF, to produce the adaptive-frequency information extracted from both the topology and attribute spaces. Specifically, we first derive a tailored attribute-based high-pass filter that can be interpreted theoretically as a minimizer for semi-supervised kernel ridge regression. Then, we cast the topology-based low-pass filter as a Mercer's kernel within the context of GCNs. This serves as a foundation for combining it with the attribute-based filter to capture the adaptive-frequency information. Finally, we derive the cross-space filter via an effective multiple-kernel learning strategy, which unifies the attribute-based high-pass filter and the topology-based low-pass filter. This helps to address the over-smoothing problem while maintaining effectiveness. Extensive experiments demonstrate that CSF not only successfully alleviates the over-smoothing problem but also promotes the effectiveness of the node classification task.
翻訳日:2024-02-13 20:43:33 公開日:2024-02-10
# VIALM:大規模モデルによる視覚障害者支援に関する調査とベンチマーク

VIALM: A Survey and Benchmark of Visually Impaired Assistance with Large Models ( http://arxiv.org/abs/2402.01735v2 )

ライセンス: Link先を確認
Yi Zhao, Yilin Zhang, Rong Xiang, Jing Li, Hillming Li(参考訳) 視覚障害者支援(VIA)は、視覚障害者(VI)が日常的な活動に自動的に対応できるようにする。 VIAの進歩は主にコンピュータビジョン(CV)と自然言語処理(NLP)の発展に依存しており、どちらも大きなモデル(LM)を持つ最先端のパラダイムを示している。 さらに、lmsは体格ロボットのような身体的な課題に取り組むための特別なマルチモーダル能力を示している。 本研究では,VIAアプリケーションにおけるSOTA (State-of-the-art) LMsの機能の可能性と限界を明らかにするために,VIA with LMs (VIALM) のタスクについて広範な研究を行う。 このタスクでは、物理的環境とviユーザからの言語要求を図解した画像と、viユーザへのステップ・バイ・ステップのガイダンスの出力を目標とし、環境に接する要求を満たすviユーザを支援する。 この研究は、最近のLM研究のレビューと、VIAにおける選択されたLMの能力を調べるベンチマーク実験から成っている。 結果は、LMはVIAの恩恵を受ける可能性があるが、その出力は環境に順応する(25.7% GPT-4の応答)ことができず、きめ細かいガイダンス(32.1% GPT-4の応答)を欠いていることを示している。

Visually Impaired Assistance (VIA) aims to automatically help the visually impaired (VI) handle daily activities. The advancement of VIA primarily depends on developments in Computer Vision (CV) and Natural Language Processing (NLP), both of which exhibit cutting-edge paradigms with large models (LMs). Furthermore, LMs have shown exceptional multimodal abilities to tackle challenging physically-grounded tasks such as embodied robots. To investigate the potential and limitations of state-of-the-art (SOTA) LMs' capabilities in VIA applications, we present an extensive study for the task of VIA with LMs (VIALM). In this task, given an image illustrating the physical environments and a linguistic request from a VI user, VIALM aims to output step-by-step guidance to assist the VI user in fulfilling the request grounded in the environment. The study consists of a survey reviewing recent LM research and benchmark experiments examining selected LMs' capabilities in VIA. The results indicate that while LMs can potentially benefit VIA, their output cannot be well environment-grounded (i.e., 25.7% GPT-4's responses) and lacks fine-grained guidance (i.e., 32.1% GPT-4's responses).
翻訳日:2024-02-13 20:34:17 公開日:2024-02-10
# 縦型電子健康記録データを用いたゼロショット臨床予測のための大規模言語モデルの提案

Prompting Large Language Models for Zero-Shot Clinical Prediction with Structured Longitudinal Electronic Health Record Data ( http://arxiv.org/abs/2402.01713v2 )

ライセンス: Link先を確認
Yinghao Zhu, Zixiang Wang, Junyi Gao, Yuning Tong, Jingkun An, Weibin Liao, Ewen M. Harrison, Liantao Ma, Chengwei Pan(参考訳) 構造化された縦型電子健康記録(EHR)データの本質的な複雑さは、伝統的に自然言語処理に適したLarge Language Models(LLM)との統合において、大きな課題となる。 本研究は, 従来の予測モデルは, 過去のデータ不足によりしばしば失敗する新たな疾患発生時の迅速な意思決定の必要性から, GPT-4などのLCMのEHRデータへの適応性について検討した。 特にゼロショット機能に重点を置いており、明示的にトレーニングされていないシナリオで予測することが可能です。 EHRデータの長手性、スパース性、知識注入性に対応するため、本研究では、単位や基準範囲などの特定のEHR特性を考慮し、臨床状況に合わせてコンテキスト内学習戦略を採用する。 MIMIC-IVとTJHデータセットに関する包括的な実験は、精巧に設計されたプロンプトフレームワークにより、LSMは、死亡率、待ち時間、30日間の読み出しといった重要なタスクにおける予測性能を、数ショット設定でMLモデルを上回る約35倍改善できることを示した。 我々の研究は、臨床意思決定の強化、特にラベル付きデータのない新興疾患の発生のような緊急医療状況におけるLSMsの可能性を明らかにする。 コードはhttps://github.com/yhzhu99/llm4healthcare for reproducibilityで公開されている。

The inherent complexity of structured longitudinal Electronic Health Records (EHR) data poses a significant challenge when integrated with Large Language Models (LLMs), which are traditionally tailored for natural language processing. Motivated by the urgent need for swift decision-making during new disease outbreaks, where traditional predictive models often fail due to a lack of historical data, this research investigates the adaptability of LLMs, like GPT-4, to EHR data. We particularly focus on their zero-shot capabilities, which enable them to make predictions in scenarios in which they haven't been explicitly trained. In response to the longitudinal, sparse, and knowledge-infused nature of EHR data, our prompting approach involves taking into account specific EHR characteristics such as units and reference ranges, and employing an in-context learning strategy that aligns with clinical contexts. Our comprehensive experiments on the MIMIC-IV and TJH datasets demonstrate that with our elaborately designed prompting framework, LLMs can improve prediction performance in key tasks such as mortality, length-of-stay, and 30-day readmission by about 35\%, surpassing ML models in few-shot settings. Our research underscores the potential of LLMs in enhancing clinical decision-making, especially in urgent healthcare situations like the outbreak of emerging diseases with no labeled data. The code is publicly available at https://github.com/yhzhu99/llm4healthcare for reproducibility.
翻訳日:2024-02-13 20:33:51 公開日:2024-02-10
# 量子エネルギーテレポーテーションにおける量子相関のロバスト性

Robustness of quantum correlation in quantum energy teleportation ( http://arxiv.org/abs/2402.00479v3 )

ライセンス: Link先を確認
Kazuki Ikeda and Adam Lowe(参考訳) 本稿では、従来のエンタングルメントエントロピーではなく、量子不協和を用いた量子エネルギーテレポーテーション(QET)プロトコルにおける量子相関の進化について述べる。 局所的な観測と条件付き操作を繰り返し行うQETプロトコルでは、混合状態の統計的生成のために量子相関は非自明になる。 本稿では,混合状態における量子相関の尺度として量子ディスコードを用い,そのテレポーティングエネルギーと相転移との関係について検討する。 QETを実行するアリスとボブの過程において、アリスとボブの間の絡み合いはアリスの量子状態の測定によって完全に崩壊し、量子相関が消えると予想される。 しかし、この予想に反して、量子不協和を用いて量子相関がQETの全過程中に消失しないことが示されている。 種々の相構造におけるQETの量子相関のロバスト性を示すために, キラル化学ポテンシャルと化学ポテンシャルの両方を持つナムブ・ジョナ・ラシーノ(NJL)モデルを含むいくつかのベンチマークモデルを用いて数値解析を行い, キラル密度演算子に結合した左クォークと右クォークのキラル不均衡を模した相構造の研究に有用である。 研究した全てのケースにおいて、量子不協和は相転移の秩序パラメータとして振る舞う。

We present the evolution of quantum correlation in the quantum energy teleportation (QET) protocol using quantum discord, instead of the traditionally used entanglement entropy. In the QET protocol, where local observations and conditional operations are repeated, quantum correlations become nontrivial because of the statistical creation of mixed states. In this paper, we use quantum discord as a measure of quantum correlation in mixed states and investigate its relationship to teleported energy and phase transitions. During the process of Alice and Bob performing QET, one would expect that the entanglement between Alice and Bob is completely broken by Alice's measurement of the quantum state, and thus the quantum correlation disappears. However, contrary to this expectation, it is shown using quantum discord that the quantum correlation does not disappear during the entire process of QET. To demonstrate the robustness of the quantum correlation in QET at various phase structures, we perform the numerical analysis using several benchmark models including the Nambu-Jona-Lasino (NJL) model with both the chiral chemical potential and the chemical potential, which are useful to study the phase structures mimicking the chiral imbalance between left- and right- quarks coupled to the chirality density operator. In all cases we studied, the quantum discord behaved as an order parameter of the phase transition.
翻訳日:2024-02-13 20:31:30 公開日:2024-02-10
# 機械学習における擬似乱数生成器の再現性、エネルギー効率、性能:python, numpy, tensorflow, pytorchの実装の比較研究

Reproducibility, energy efficiency and performance of pseudorandom number generators in machine learning: a comparative study of python, numpy, tensorflow, and pytorch implementations ( http://arxiv.org/abs/2401.17345v2 )

ライセンス: Link先を確認
Benjamin Antunes, David R.C Hill(参考訳) Pseudo-Random Number Generators (PRNGs) は、機械学習技術において多くの手法に興味深いため、ユビキタスになった。 機械学習の分野は、近年の大規模言語モデル(llm)のブレークスルーの例のように、さまざまな領域で大きく進歩する可能性を秘めている。 しかしながら、関心が高まっているにもかかわらず、持続的な懸念は再現性やエネルギー消費に関する問題を含んでいる。 再現性は、堅牢な科学的調査と説明可能性に不可欠であり、エネルギー効率は有限な地球資源の保存を必須とする。 本研究は,Pseudo-Random Number Generators (PRNGs) が,各PRNGアルゴリズムのオリジナルのC実装と比較して,統計的品質と数値再現性を裏付ける機械学習言語,ライブラリ,フレームワークに採用されているかどうかを考察する。 さらに, 各種実装の時間効率とエネルギー消費を評価することを目的とする。 我々の実験にはPython、NumPy、TensorFlow、PyTorchが含まれており、Mersenne Twister、PCG、Philoxアルゴリズムを利用している。 注目すべきは、機械学習技術の時間的性能がCベースの実装と密接に一致していることであり、さらに優れたパフォーマンスを達成する事例である。 一方で、ml技術がc実装技術よりも10%のエネルギーを消費していることは注目に値する。 しかし, 統計的品質は同等であることがわかったが, 同一の種とアルゴリズムの異なるプラットフォーム間で数値再現性は得られなかった。

Pseudo-Random Number Generators (PRNGs) have become ubiquitous in machine learning technologies because they are interesting for numerous methods. The field of machine learning holds the potential for substantial advancements across various domains, as exemplified by recent breakthroughs in Large Language Models (LLMs). However, despite the growing interest, persistent concerns include issues related to reproducibility and energy consumption. Reproducibility is crucial for robust scientific inquiry and explainability, while energy efficiency underscores the imperative to conserve finite global resources. This study delves into the investigation of whether the leading Pseudo-Random Number Generators (PRNGs) employed in machine learning languages, libraries, and frameworks uphold statistical quality and numerical reproducibility when compared to the original C implementation of the respective PRNG algorithms. Additionally, we aim to evaluate the time efficiency and energy consumption of various implementations. Our experiments encompass Python, NumPy, TensorFlow, and PyTorch, utilizing the Mersenne Twister, PCG, and Philox algorithms. Remarkably, we verified that the temporal performance of machine learning technologies closely aligns with that of C-based implementations, with instances of achieving even superior performances. On the other hand, it is noteworthy that ML technologies consumed only 10% more energy than their C-implementation counterparts. However, while statistical quality was found to be comparable, achieving numerical reproducibility across different platforms for identical seeds and algorithms was not achieved.
翻訳日:2024-02-13 20:30:25 公開日:2024-02-10
# 6つの簡単なステップにおける非定常拡散確率モデル

Denoising Diffusion Probabilistic Models in Six Simple Steps ( http://arxiv.org/abs/2402.04384v2 )

ライセンス: Link先を確認
Richard E. Turner, Cristiana-Diana Diaconu, Stratis Markou, Aliaksandra Shysheya, Andrew Y. K. Foong and Bruno Mlodozeniec(参考訳) Denoising Diffusion Probabilistic Models (DDPM) は、画像およびビデオ生成、タンパク質と物質合成、天気予知、偏微分方程式のニューラルネットワークサロゲートといった様々な問題にうまく適用された、非常に一般的な深層生成モデルである。 その普及にもかかわらず、単純で包括的でクリーンで明確であるddpmsの紹介を見つけるのは難しい。 研究論文で必要とされるコンパクトな説明は、DDPMを定式化するための様々な設計手順の全てを解明することができず、提示されるステップの理性はしばしば空間を節約するために省略される。 さらに、展示は典型的には、その方法がなぜ機能するのかを曖昧にし、実際にうまく機能しない一般化を示唆するため、不必要でおそらく有害な変分下界の視点から提示される。 一方、連続的な時間制限を取る視点は美しく一般的であるが、確率微分方程式や確率フローの背景知識を必要とするため、参入への障壁が高い。 本稿では、DDPMの定式化を6つの単純なステップに分割し、それぞれに明確な理論的根拠を与える。 読者は、基本的な確率的モデリング、ガウス分布、最大確率推定、ディープラーニングを含む機械学習の基本トピックに精通していると仮定する。

Denoising Diffusion Probabilistic Models (DDPMs) are a very popular class of deep generative model that have been successfully applied to a diverse range of problems including image and video generation, protein and material synthesis, weather forecasting, and neural surrogates of partial differential equations. Despite their ubiquity it is hard to find an introduction to DDPMs which is simple, comprehensive, clean and clear. The compact explanations necessary in research papers are not able to elucidate all of the different design steps taken to formulate the DDPM and the rationale of the steps that are presented is often omitted to save space. Moreover, the expositions are typically presented from the variational lower bound perspective which is unnecessary and arguably harmful as it obfuscates why the method is working and suggests generalisations that do not perform well in practice. On the other hand, perspectives that take the continuous time-limit are beautiful and general, but they have a high barrier-to-entry as they require background knowledge of stochastic differential equations and probability flow. In this note, we distill down the formulation of the DDPM into six simple steps each of which comes with a clear rationale. We assume that the reader is familiar with fundamental topics in machine learning including basic probabilistic modelling, Gaussian distributions, maximum likelihood estimation, and deep learning.
翻訳日:2024-02-13 20:22:01 公開日:2024-02-10
# MOOCsグレーダーとしての大規模言語モデル

Large Language Models As MOOCs Graders ( http://arxiv.org/abs/2402.03776v2 )

ライセンス: Link先を確認
Shahriar Golchin, Nikhil Garuda, Christopher Impey, Matthew Wenger(参考訳) 大規模なオープン・オンライン・コース(moocs)は、世界中の誰でもコンピュータとインターネットにアクセスできる自由教育の扉を開ける。 このような学習の民主化にもかかわらず、これらのコースの大規模な入学は、一人の教官が生徒全員の筆記課題を評価することはほぼ不可能であることを意味する。 結果として、単純なルーブリックによって導かれるピアグレーティングが選択方法である。 便利だが、ピアグレーディングは信頼性と妥当性の点で不足することが多い。 本研究では18の異なる設定を用いて,MOOCにおけるピアグレーディングを代替する大規模言語モデル(LLM)の実現可能性を検討する。 具体的には,GPT-4 と GPT-3.5 の3つの異なるコース,すなわち導入天文学,天文学,天文学史と哲学に焦点をあてる。 LLMを指導するためには、ゼロショットチェーン・オブ・シークレット (Zero-shot-CoT) の変種に基づく3つの異なるプロンプトを使用する: ゼロショット-CoTとインストラクターが提案した正解を組み合わせ、ゼロショット-CoTとインストラクターが生成した正解とLLMを併用するゼロショット-CoT。 その結果,Zero-shot-CoTはインストラクターが提供する回答やルーブリックと統合された場合,ピアグレーティングよりもインストラクターが割り当てたものとより整合した成績が得られた。 しかし、天文学コースの歴史と哲学は、他のコースとは対照的に、成績付けの点でより困難であることが証明されている。 最後に,本研究は,特にルーブリックをよく定義した被験者において,moocのグレーティングシステムを自動化するための有望な方向性を示す。

Massive open online courses (MOOCs) unlock the doors to free education for anyone around the globe with access to a computer and the internet. Despite this democratization of learning, the massive enrollment in these courses means it is almost impossible for one instructor to assess every student's writing assignment. As a result, peer grading, often guided by a straightforward rubric, is the method of choice. While convenient, peer grading often falls short in terms of reliability and validity. In this study, using 18 distinct settings, we explore the feasibility of leveraging large language models (LLMs) to replace peer grading in MOOCs. Specifically, we focus on two state-of-the-art LLMs: GPT-4 and GPT-3.5, across three distinct courses: Introductory Astronomy, Astrobiology, and the History and Philosophy of Astronomy. To instruct LLMs, we use three different prompts based on a variant of the zero-shot chain-of-thought (Zero-shot-CoT) prompting technique: Zero-shot-CoT combined with instructor-provided correct answers; Zero-shot-CoT in conjunction with both instructor-formulated answers and rubrics; and Zero-shot-CoT with instructor-offered correct answers and LLM-generated rubrics. Our results show that Zero-shot-CoT, when integrated with instructor-provided answers and rubrics, produces grades that are more aligned with those assigned by instructors compared to peer grading. However, the History and Philosophy of Astronomy course proves to be more challenging in terms of grading as opposed to other courses. Finally, our study reveals a promising direction for automating grading systems for MOOCs, especially in subjects with well-defined rubrics.
翻訳日:2024-02-13 20:21:37 公開日:2024-02-10
# RL-VLM-F:ビジョン言語モデルからの強化学習

RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback ( http://arxiv.org/abs/2402.03681v2 )

ライセンス: Link先を確認
Yufei Wang, Zhanyi Sun, Jesse Zhang, Zhou Xian, Erdem Biyik, David Held, Zackory Erickson(参考訳) 報酬工学は強化学習(rl)研究において長年の課題であり、効果的な報酬機能を設計するには、人間の努力と試行錯誤の反復プロセスがしばしば必要となる。 本稿では,視覚言語基礎モデル(VLM)からのフィードバックを利用して,タスク目標のテキスト記述とエージェントの視覚観察のみを用いて,エージェントが新しいタスクを学習するための報酬関数を自動的に生成する手法であるRL-VLM-Fを提案する。 提案手法の鍵となるのは,タスクゴールのテキスト記述に基づいて,エージェントのイメージ観察のペアよりも好みを与えるためにこれらのモデルをクエリし,そのモデルに生の報酬スコアを出力させるのではなく,好みラベルから報酬関数を学習することである。 我々は、RL-VLM-Fが、古典的な制御を含む様々な領域にまたがる効果的な報酬とポリシー、および、厳密で明瞭で変形可能な物体の操作を、人間の監督なしに実現できることを実証した。

Reward engineering has long been a challenge in Reinforcement Learning (RL) research, as it often requires extensive human effort and iterative processes of trial-and-error to design effective reward functions. In this paper, we propose RL-VLM-F, a method that automatically generates reward functions for agents to learn new tasks, using only a text description of the task goal and the agent's visual observations, by leveraging feedbacks from vision language foundation models (VLMs). The key to our approach is to query these models to give preferences over pairs of the agent's image observations based on the text description of the task goal, and then learn a reward function from the preference labels, rather than directly prompting these models to output a raw reward score, which can be noisy and inconsistent. We demonstrate that RL-VLM-F successfully produces effective rewards and policies across various domains - including classic control, as well as manipulation of rigid, articulated, and deformable objects - without the need for human supervision, outperforming prior methods that use large pretrained models for reward generation under the same assumptions.
翻訳日:2024-02-13 20:20:57 公開日:2024-02-10
# bge m3-embedding: 自己認識蒸留による多言語多機能多粒テキスト埋め込み

BGE M3-Embedding: Multi-Lingual, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation ( http://arxiv.org/abs/2402.03216v3 )

ライセンス: Link先を確認
Jianlv Chen, Shitao Xiao, Peitian Zhang, Kun Luo, Defu Lian, Zheng Liu(参考訳) 本稿では,多言語性,多機能性,多言語性,多言語性において,m3-embeddingと呼ばれる新しい埋め込みモデルを提案する。 100以上の作業言語をサポートすることができ、マルチ言語およびクロス言語検索タスクにおける最先端のパフォーマンス向上に繋がる。 組込みモデルの3つの共通検索機能 – 密集検索,マルチベクトル検索,スパース検索 – を同時に実行し,現実世界のIRアプリケーションに統一されたモデル基盤を提供する。 短い文から最大8192トークンの長いドキュメントまで、さまざまな粒度の入力を処理することができる。 M3-Embeddingの効果的なトレーニングには、以下の技術貢献が含まれる。 そこで本研究では, 異なる検索機能による関連性スコアを教師信号として統合し, 学習品質を高めるための自己知識蒸留手法を提案する。 また、バッチ処理戦略を最適化し、大規模なバッチサイズと高いトレーニングスループットを実現し、埋め込みの識別性を確保します。 私たちの知る限り、M3-Embeddingはそのような強力な汎用性を実現する最初の埋め込みモデルです。 モデルとコードはhttps://github.com/FlagOpen/FlagEmbedding.comで公開される。

In this paper, we present a new embedding model, called M3-Embedding, which is distinguished for its versatility in Multi-Linguality, Multi-Functionality, and Multi-Granularity. It can support more than 100 working languages, leading to new state-of-the-art performances on multi-lingual and cross-lingual retrieval tasks. It can simultaneously perform the three common retrieval functionalities of embedding model: dense retrieval, multi-vector retrieval, and sparse retrieval, which provides a unified model foundation for real-world IR applications. It is able to process inputs of different granularities, spanning from short sentences to long documents of up to 8192 tokens. The effective training of M3-Embedding involves the following technical contributions. We propose a novel self-knowledge distillation approach, where the relevance scores from different retrieval functionalities can be integrated as the teacher signal to enhance the training quality. We also optimize the batching strategy, enabling a large batch size and high training throughput to ensure the discriminativeness of embeddings. To the best of our knowledge, M3-Embedding is the first embedding model which realizes such a strong versatility. The model and code will be publicly available at https://github.com/FlagOpen/FlagEmbedding.
翻訳日:2024-02-13 20:20:05 公開日:2024-02-10
# 効率的な検索増産のための財務報告チャンキング

Financial Report Chunking for Effective Retrieval Augmented Generation ( http://arxiv.org/abs/2402.05131v2 )

ライセンス: Link先を確認
Antonio Jimeno Yepes, Yao You, Jan Milczek, Sebastian Laverde, and Renyu Li(参考訳) チャンキング情報は、検索拡張生成(RAG)の重要なステップである。 現在の研究は主に段落レベルのチャンキングに焦点を当てている。 このアプローチは全てのテキストを等しく扱い、文書の構造に含まれる情報を無視する。 本稿では,文書の構造的要素によって,単に段落レベルのチャンクを超えて文書をチャンクする手法を提案する。 これらの構成要素に文書を分割すると、チューニングせずに最高のチャンクサイズとなる文書をチャンクする新しい方法が生成される。 本稿では,文書理解モデルによって注釈付けされた要素タイプに基づくチャンキングが,検索した情報の全体的なコンテキストと精度にどのように貢献するかを評価する新しいフレームワークを提案する。 また、このアプローチがRAG支援質問&回答タスクのパフォーマンスにどのように影響するかを示す。 本研究は, 各種要素の包括的分析, 有効情報検索における役割, RAG出力の品質への影響について検討した。 要素タイプベースのチャンキングのサポートを見つけることは、財務報告のRAG結果を大幅に改善します。 本研究により,高精度RAGの発見方法についても答えることができた。

Chunking information is a key step in Retrieval Augmented Generation (RAG). Current research primarily centers on paragraph-level chunking. This approach treats all texts as equal and neglects the information contained in the structure of documents. We propose an expanded approach to chunk documents by moving beyond mere paragraph-level chunking to chunk primary by structural element components of documents. Dissecting documents into these constituent elements creates a new way to chunk documents that yields the best chunk size without tuning. We introduce a novel framework that evaluates how chunking based on element types annotated by document understanding models contributes to the overall context and accuracy of the information retrieved. We also demonstrate how this approach impacts RAG assisted Question & Answer task performance. Our research includes a comprehensive analysis of various element types, their role in effective information retrieval, and the impact they have on the quality of RAG outputs. Findings support that element type based chunking largely improve RAG results on financial reporting. Through this research, we are also able to answer how to uncover highly accurate RAG.
翻訳日:2024-02-13 20:07:25 公開日:2024-02-10
# 光格子における大規模原子配列の連続操作

Continuous operation of large-scale atom arrays in optical lattices ( http://arxiv.org/abs/2402.04994v2 )

ライセンス: Link先を確認
Flavien Gyger, Maximilian Ammenwerth, Renhao Tao, Hendrik Timme, Stepan Snigirev, Immanuel Bloch, Johannes Zeiher(参考訳) 集積された中性原子配列のサイズを光学格子や光トワイザーに閉じ込めるスケーリングは、量子シミュレーションから量子メトロロジーまで、多くのアプリケーションで実現可能なステップである。 しかし、準備時間はシステムサイズとともに増加し、確率的に装填された光学トラップからの大型配列のボトムアップアセンブリにおいて深刻なボトルネックとなる。 そこで本研究では,原子を連続的にリロードし,配列に付加しながら,実験走行中の原子をリサイクルすることで,このボトルネックを回避する新しい手法を示す。 このアプローチを用いて,1000以上の原子を光学格子に格納し,2.5秒周期で連続的に再充填し,各周期で約130個の原子を再ロードした密充填配列を実現する。 さらに,1サイクルから次サイクルに失われる原子をリロードするだけで,そのような大きな配列を連続的に維持できることを示す。 我々のアプローチは、数千個の原子を連続操作で含む大きな秩序原子配列を持つ量子科学への道を開く。

Scaling the size of assembled neutral-atom arrays trapped in optical lattices or optical tweezers is an enabling step for a number of applications ranging from quantum simulations to quantum metrology. However, preparation times increase with system size and constitute a severe bottleneck in the bottom-up assembly of large ordered arrays from stochastically loaded optical traps. Here, we demonstrate a novel method to circumvent this bottleneck by recycling atoms from one experimental run to the next, while continuously reloading and adding atoms to the array. Using this approach, we achieve densely-packed arrays with more than 1000 atoms stored in an optical lattice, continuously refilled with a net 2.5 seconds cycle time and about 130 atoms reloaded during each cycle. Furthermore, we show that we can continuously maintain such large arrays by simply reloading atoms that are lost from one cycle to the next. Our approach paves the way towards quantum science with large ordered atomic arrays containing thousands of atoms in continuous operation.
翻訳日:2024-02-13 20:06:35 公開日:2024-02-10
# ClickSAM: 超音波画像分割のためのクリックプロンプトを用いた微調整セグメンテーションモデル

ClickSAM: Fine-tuning Segment Anything Model using click prompts for ultrasound image segmentation ( http://arxiv.org/abs/2402.05902v2 )

ライセンス: Link先を確認
Aimee Guo, Gace Fei, Hemanth Pasupuletic, and Jing Wang(参考訳) 新たにリリースされたsegment anything model(sam)は、セグメンテーション精度、入力プロンプトの多様性、トレーニング能力、効率的なモデル設計のため、画像処理で使用される一般的なツールである。 しかし、現在のモデルは医療画像、特に超音波画像に適合しない多様なデータセットで訓練されている。 超音波画像にはノイズが多く、重要な構造を分割することは困難である。 このプロジェクトでは,超音波画像のクリックプロンプトを用いて,セグメンテーションモデル(Segment Anything Model)を微調整するClickSAMを開発した。 ClickSAMには2つのトレーニングステージがある。第1ステージは、接地輪郭を中心としたワンクリックプロンプトでトレーニングされ、第2ステージは、追加のプラスクリックプロンプトと負クリックプロンプトによるモデルパフォーマンスの改善に焦点を当てている。 第1段階の予測を地対面と比較することにより、真正、偽正、偽負のセグメントを算出する。 正の正負のセグメントと偽の負のセグメントで正のクリックを生成し、偽の正のセグメントで負のクリックを生成する。 次に,Centroidal Voronoi Tessellationアルゴリズムを用いて,第2段階のトレーニングにおいてモデル性能を向上させるために使用するセグメント毎に,正および負のクリックプロンプトを収集する。 クリックトレイン法では、ClickSAMは他の超音波画像分割モデルと比較して優れた性能を示す。

The newly released Segment Anything Model (SAM) is a popular tool used in image processing due to its superior segmentation accuracy, variety of input prompts, training capabilities, and efficient model design. However, its current model is trained on a diverse dataset not tailored to medical images, particularly ultrasound images. Ultrasound images tend to have a lot of noise, making it difficult to segment out important structures. In this project, we developed ClickSAM, which fine-tunes the Segment Anything Model using click prompts for ultrasound images. ClickSAM has two stages of training: the first stage is trained on single-click prompts centered in the ground-truth contours, and the second stage focuses on improving the model performance through additional positive and negative click prompts. By comparing the first stage predictions to the ground-truth masks, true positive, false positive, and false negative segments are calculated. Positive clicks are generated using the true positive and false negative segments, and negative clicks are generated using the false positive segments. The Centroidal Voronoi Tessellation algorithm is then employed to collect positive and negative click prompts in each segment that are used to enhance the model performance during the second stage of training. With click-train methods, ClickSAM exhibits superior performance compared to other existing models for ultrasound image segmentation.
翻訳日:2024-02-13 19:54:17 公開日:2024-02-10
# 生成型Echoチャンバー? llmを用いた検索システムが多様な情報検索に与える影響

Generative Echo Chamber? Effects of LLM-Powered Search Systems on Diverse Information Seeking ( http://arxiv.org/abs/2402.05880v2 )

ライセンス: Link先を確認
Nikhil Sharma, Q. Vera Liao, Ziang Xiao(参考訳) 大規模言語モデル(llms)による対話型検索システムは、すでに数億人の人々が使用しており、従来の検索に多くの利点をもたらすと考えられている。 しかし、何十年にもわたっての研究と公衆の議論は、選択的な露出の増加とエコーチャンバーの作成において、検索システムのリスクを疑問視し、様々な意見への露出を制限し、意見の偏化につながる一方で、LLMによる会話検索のリスクについてはほとんど知られていない。 調査する実験は2つある。 1)従来の検索と比較してLLMによる会話検索が選択的露出を増加させるか否か 2) LLM の意見バイアスは, ユーザの見解を補強するか, 異議を唱えるかによって影響が変化する。 全体として、参加者はllmによる会話検索でより偏りのある情報クエリに取り組み、見解を補強する意見のllmがこのバイアスを悪化させたことが分かりました。 これらの結果は,llmおよび対話型検索システムの開発,およびこれらの技術を管理する政策に重要な意味を持つ。

Large language models (LLMs) powered conversational search systems have already been used by hundreds of millions of people, and are believed to bring many benefits over conventional search. However, while decades of research and public discourse interrogated the risk of search systems in increasing selective exposure and creating echo chambers -- limiting exposure to diverse opinions and leading to opinion polarization, little is known about such a risk of LLM-powered conversational search. We conduct two experiments to investigate: 1) whether and how LLM-powered conversational search increases selective exposure compared to conventional search; 2) whether and how LLMs with opinion biases that either reinforce or challenge the user's view change the effect. Overall, we found that participants engaged in more biased information querying with LLM-powered conversational search, and an opinionated LLM reinforcing their views exacerbated this bias. These results present critical implications for the development of LLMs and conversational search systems, and the policy governing these technologies.
翻訳日:2024-02-13 19:53:47 公開日:2024-02-10
# UrbanKGent: 都市知識グラフ構築のための統合型大規模言語モデルエージェントフレームワーク

UrbanKGent: A Unified Large Language Model Agent Framework for Urban Knowledge Graph Construction ( http://arxiv.org/abs/2402.06861v1 )

ライセンス: Link先を確認
Yansong Ning, Hao Liu(参考訳) 都市知識グラフは近年,多様な都市アプリケーションシナリオのための多ソースの都市データから重要な知識を抽出するためのビルディングブロックとして機能している。 その有望な利益にもかかわらず、都市知識グラフ構築(UrbanKGC)は依然として手作業に大きく依存しており、その潜在的な進歩を妨げる。 本稿では,都市知識グラフ構築のための統合大規模言語モデルエージェントフレームワークであるurbankgentを提案する。 具体的には,まずヘテロジニティ・アウェアと地理空間注入型インストラクション生成を用いて,UrbanKGCタスク(リレーショナルトリプルト抽出やナレッジグラフ補完など)の知識可能な命令セットを構築する。 さらに, gpt-4から蒸留した軌跡を改良・精製するための反復軌道改良モジュールを提案する。 Llama-2-13Bを併用したハイブリッドインストラクション微調整により,UrbanKGCエージェントであるUrbanKGent-13Bを得る。 我々は、人間とGPT-4の自己評価を用いて、2つの実世界のデータセットを総合的に評価する。 実験の結果,UrbanKGent-13BはUrbanKGCタスクにおいて21のベースラインを大幅に上回るだけでなく,最先端のLCMであるGPT-4を約20倍のコストで10倍以上上回ることができることがわかった。 我々はUrbanKGent-13Bをオンラインサービスを提供するためにデプロイし、既存のベンチマークに比べてデータの5分の1しか利用せずに、何千倍もリッチな関係を持つUrbanKGを構築することができる。 我々のデータ、コード、オープンソースのUrbanKGCエージェントはhttps://github.com/usail-hkust/UrbanKGent.comで入手できる。

Urban knowledge graph has recently worked as an emerging building block to distill critical knowledge from multi-sourced urban data for diverse urban application scenarios. Despite its promising benefits, urban knowledge graph construction (UrbanKGC) still heavily relies on manual effort, hindering its potential advancement. This paper presents UrbanKGent, a unified large language model agent framework, for urban knowledge graph construction. Specifically, we first construct the knowledgeable instruction set for UrbanKGC tasks (such as relational triplet extraction and knowledge graph completion) via heterogeneity-aware and geospatial-infused instruction generation. Moreover, we propose a tool-augmented iterative trajectory refinement module to enhance and refine the trajectories distilled from GPT-4. Through hybrid instruction fine-tuning with augmented trajectories on Llama-2-13B, we obtain the UrbanKGC agent, UrbanKGent-13B. We perform a comprehensive evaluation on two real-world datasets using both human and GPT-4 self-evaluation. The experimental results demonstrate that UrbanKGent-13B not only can significantly outperform 21 baselines in UrbanKGC tasks, but also surpass the state-of-the-art LLM, GPT-4, by more than 10\% with approximately 20 times lower cost. We deploy UrbanKGent-13B to provide online services, which can construct an UrbanKG with thousands of times richer relationships using only one-fifth of the data compared with the existing benchmark. Our data, code, and opensource UrbanKGC agent are available at https://github.com/usail-hkust/UrbanKGent.
翻訳日:2024-02-13 19:11:00 公開日:2024-02-10
# 点雲による心spect mpiとctaの登録と画像融合

Point cloud-based registration and image fusion between cardiac SPECT MPI and CTA ( http://arxiv.org/abs/2402.06841v1 )

ライセンス: Link先を確認
Shaojie Tang, Penpen Miao, Xingyu Gao, Yu Zhong, Dantong Zhu, Haixing Wen, Zhihui Xu, Qiuyue Wei, Hongping Yao, Xin Huang, Rui Gao, Chen Zhao, Weihua Zhou(参考訳) 心筋灌流画像 (MPI) と心電図血管造影 (CTA) との間には, 点雲による画像の登録と画像融合を行う方法が提案された。 まず、SPECTおよびCTA画像における左心室(LV)心室領域(LVER)を、LV心室輪郭(LVEC)の点群を生成するために訓練された異なるU-Netニューラルネットワークを用いて分割した。 第2に, 心解剖学的特徴から, SPECT像とCTA像の両方に, 心室中溝(APIG)の特別な点を手動で印付けした。 第3に, SPECT 画像と CTA 画像の適切な心方向アライメントを確保するために, APIG の特別な点を粗大に登録する社内プログラムを開発した。 第4に、SPECTおよびCTA画像におけるLV心表面(LVER)の点雲(APIGの特別な点を含む)の微細な登録を実現するために、ICP、SICP、CPDアルゴリズムを用いた。 最後に, SPECT と CTA との画像融合が, 微細登録後に実現された。 実験の結果,心向きは良好に整列し,アフィン変換による最適位置決め法(cpd)の平均距離誤差は3mm以下であった。 提案手法は心CTAおよびSPECT機能画像から構造を効果的に融合させ,2つの画像の相補的利点を組み合わせ,心疾患の正確な診断を支援する可能性を示した。

A method was proposed for the point cloud-based registration and image fusion between cardiac single photon emission computed tomography (SPECT) myocardial perfusion images (MPI) and cardiac computed tomography angiograms (CTA). Firstly, the left ventricle (LV) epicardial regions (LVERs) in SPECT and CTA images were segmented by using different U-Net neural networks trained to generate the point clouds of the LV epicardial contours (LVECs). Secondly, according to the characteristics of cardiac anatomy, the special points of anterior and posterior interventricular grooves (APIGs) were manually marked in both SPECT and CTA image volumes. Thirdly, we developed an in-house program for coarsely registering the special points of APIGs to ensure a correct cardiac orientation alignment between SPECT and CTA images. Fourthly, we employed ICP, SICP or CPD algorithm to achieve a fine registration for the point clouds (together with the special points of APIGs) of the LV epicardial surfaces (LVERs) in SPECT and CTA images. Finally, the image fusion between SPECT and CTA was realized after the fine registration. The experimental results showed that the cardiac orientation was aligned well and the mean distance error of the optimal registration method (CPD with affine transform) was consistently less than 3 mm. The proposed method could effectively fuse the structures from cardiac CTA and SPECT functional images, and demonstrated a potential in assisting in accurate diagnosis of cardiac diseases by combining complementary advantages of the two imaging modalities.
翻訳日:2024-02-13 19:10:30 公開日:2024-02-10
# 自己教師付き学習における構造冗長性の低ランク近似

Low-Rank Approximation of Structural Redundancy for Self-Supervised Learning ( http://arxiv.org/abs/2402.06884v1 )

ライセンス: Link先を確認
Kang Du and Yu Xiang(参考訳) 本研究では,その有効性に光を当てるために,再構成SSLのデータ生成機構について検討する。 ラベル付きサンプルの無限の量で、完全線形近似に十分かつ必要な条件を提供する。 この条件は、冗長なコンポーネントとともに、Yのラベルクラスを保存するフルランクコンポーネントを明らかにする。 この条件に動機づけられて, 冗長成分を低ランク因子化により近似し, 因子化の階数 s でパラメータ化された新しい量 $\epsilon_s$ を導入することにより近似品質を測定する。 線形回帰とリッジ回帰の両方の条件下での過剰リスク解析に$\epsilon_s$を組み込む。後者の正規化手法は、学習した特徴の次元が下流タスクのラベル付きサンプルnの数よりもはるかに大きい場合のシナリオを扱う。 我々は,ssl と教師付き学習を異なる条件下で比較し,理論的な知見を裏付ける3つのスタイリズド実験をデザインした。

We study the data-generating mechanism for reconstructive SSL to shed light on its effectiveness. With an infinite amount of labeled samples, we provide a sufficient and necessary condition for perfect linear approximation. The condition reveals a full-rank component that preserves the label classes of Y, along with a redundant component. Motivated by the condition, we propose to approximate the redundant component by a low-rank factorization and measure the approximation quality by introducing a new quantity $\epsilon_s$, parameterized by the rank of factorization s. We incorporate $\epsilon_s$ into the excess risk analysis under both linear regression and ridge regression settings, where the latter regularization approach is to handle scenarios when the dimension of the learned features is much larger than the number of labeled samples n for downstream tasks. We design three stylized experiments to compare SSL with supervised learning under different settings to support our theoretical findings.
翻訳日:2024-02-13 18:58:30 公開日:2024-02-10
# 遠絡型遅延エネルギーベース型翻訳:画像レベル構造MRI高調波化フレームワーク

Disentangled Latent Energy-Based Style Translation: An Image-Level Structural MRI Harmonization Framework ( http://arxiv.org/abs/2402.06875v1 )

ライセンス: Link先を確認
Mengqi Wu, Lintao Zhang, Pew-Thian Yap, Hongtu Zhu, Mingxia Liu(参考訳) 脳MRI(Brain Magnetic resonance Imaging)は、臨床および研究分野で広く用いられているが、多くの場合、磁場強度とスキャナーベンダーの違いなどの非生物学的変異に起因する部位効果に対する感受性を示す。 多数の振り返りMRIハーモニゼーション技術は、画像レベルでのサイト効果を減少させる効果を示す。 しかし、既存の手法は一般に高い計算要求と限定的な一般化性に悩まされ、その適用性は見えないMRIに制限される。 本稿では,(1)site-invariant image generation (sig), (2) site-specific style translation (sst), (3) site-specific mri synthesis (sms) からなる,非ペア画像レベルのmriハーモニゼーションのための新しい不連続潜在エネルギー型変換(dlest)フレームワークを設計する。 具体的には、SIGは潜時オートエンコーダを使用して、MRIを低次元の潜時空間にエンコードし、潜時符号からMRIを再構成する。 sstは、ターゲットドメインのグローバル潜在分布を理解し、ソース潜在コードをターゲットドメインに翻訳するためにエネルギーベースのモデルを使用し、smsはターゲット固有のスタイルでmri合成を可能にする。 遅延空間における画像生成とスタイル翻訳を分離することにより、DLESTは効率的なスタイル翻訳を実現することができる。 提案手法は,T1強調MRI(3,984名,58件の取得サイト/セット)を用いて訓練し,独立したデータセット(11件のサイト/セットでスキャンした9名)を用いて,(1)ヒストグラムとクラスタリングの比較,(2)部位分類,(3)脳組織セグメンテーション,(4)部位特異的MRI合成を行った。 定性的かつ定量的な結果は、いくつかの最先端技術に対する我々の手法の優位性を示している。

Brain magnetic resonance imaging (MRI) has been extensively employed across clinical and research fields, but often exhibits sensitivity to site effects arising from nonbiological variations such as differences in field strength and scanner vendors. Numerous retrospective MRI harmonization techniques have demonstrated encouraging outcomes in reducing the site effects at image level. However, existing methods generally suffer from high computational requirements and limited generalizability, restricting their applicability to unseen MRIs. In this paper, we design a novel disentangled latent energy-based style translation (DLEST) framework for unpaired image-level MRI harmonization, consisting of (1) site-invariant image generation (SIG), (2) site-specific style translation (SST), and (3) site-specific MRI synthesis (SMS). Specifically, the SIG employs a latent autoencoder to encode MRIs into a low-dimensional latent space and reconstruct MRIs from latent codes. The SST utilizes an energy-based model to comprehend the global latent distribution of a target domain and translate source latent codes toward the target domain, while SMS enables MRI synthesis with a target-specific style. By disentangling image generation and style translation in latent space, the DLEST can achieve efficient style translation. Our model was trained on T1-weighted MRIs from a public dataset (with 3,984 subjects across 58 acquisition sites/settings) and validated on an independent dataset (with 9 traveling subjects scanned in 11 sites/settings) in 4 tasks: (1) histogram and clustering comparison, (2) site classification, (3) brain tissue segmentation, and (4) site-specific MRI synthesis. Qualitative and quantitative results demonstrate the superiority of our method over several state-of-the-arts.
翻訳日:2024-02-13 18:58:13 公開日:2024-02-10
# ドップラー拡散原子アンサンブルから発生する光子対の集団双光子時間波形

Collective biphoton temporal waveform of photon-pair generated from Doppler-broadened atomic ensemble ( http://arxiv.org/abs/2402.06872v1 )

ライセンス: Link先を確認
Heewoo Kim, Hansol Jeong and Han Seb Moon(参考訳) 原子アンサンブルから生成されるフォトニック量子状態は、将来の量子ネットワークや長距離量子通信において重要な役割を果たす。 カスケード型2光子遷移から発生する光子対の双光子時間波形(BTW)について,ドップラー拡散型原子アンサンブルにおいて,異なる速度クラスから放出される双光子波動関数の集合的重畳を報告する。 両btwの時間幅の3倍の差は、それぞれ852nm-917nmと852nm-795nmのアイドラーと信号波長に対応するcsの6s_{1/2}-6p_{3/2}-6d_{5/2}および-8s_{1/2}遷移の信号とアイドラー光子の波長に依存することが実験的に証明された。 本研究は,両光子源の特性を温和な原子アンサンブルから理解し,原子-光子相互作用に基づく長距離量子ネットワークや実用的な量子リピータに適用する。

Photonic quantum states generated from atomic ensembles will play important roles in future quantum networks and long-distance quantum communication because their advantages, such as universal identity and narrow spectral bandwidth, are essential for quantum nodes and quantum repeaters based on atomic ensembles. In this study of the biphoton temporal waveform (BTW) of the photon pairs generated from a cascade-type two-photon-transition, we report the collectively coherent superposition of biphoton wavefunction emitted from different velocity classes in a Doppler-broadened cascade-type atomic ensemble. We experimentally demonstrate that the three times difference of temporal width of both BTWs varies dependent on the wavelengths of the signal and idler photons from both 6S_{1/2}-6P_{3/2}-6D_{5/2} and -8S_{1/2} transitions of Cs, corresponding to the idler and signal wavelengths of 852 nm-917 nm and 852 nm-795 nm, respectively. Our results help understand the characteristics of biphoton sources from a warm atomic ensemble and can be applied to long-distance quantum networks and practical quantum repeaters based on atom-photon interactions.
翻訳日:2024-02-13 18:57:37 公開日:2024-02-10
# 再選推薦のための非自己回帰生成モデル

Non-autoregressive Generative Models for Reranking Recommendation ( http://arxiv.org/abs/2402.06871v1 )

ライセンス: Link先を確認
Yuxin Ren, Qiya Yang, Yichun Wu, Wei Xu, Yalong Wang, Zhiqiang Zhang(参考訳) 多段階レコメンデーションシステムでは,アイテム間のリスト内相関をモデル化することにより,再ランキングが重要な役割を果たす。 最近の研究では、ジェネレータが複数の実行可能シーケンスを生成し、評価器が推定リストワイズスコアに基づいて最適なシーケンスを選択するジェネレータ評価学習パラダイムを提案する。 ジェネレータは極めて重要であり、ジェネレータ関数には生成モデルが適している。 現在の生成モデルはシーケンス生成に自己回帰戦略を用いる。 しかし、リアルタイム産業システムにおける自己回帰モデルの導入は困難である。 そこで本研究では,効率と有効性を高めるために設計された非自己回帰生成モデル(nar4rec)を提案する。 モデル収束に影響を及ぼすスパーストレーニングサンプルや動的候補に関連する課題に対処するため,マッチングモデルを提案する。 ユーザフィードバックの多種多様な性質を考慮し, 実現可能なシーケンスと実現不可能なシーケンスを区別する, シーケンスレベルの不一致学習目標を提案する。 さらに,対象項目に関する非自己回帰モデルにおける依存性モデリングの欠如を克服するため,これらの項目間の相関を捉えるためにコントラッシブデコーディングを導入する。 公開データセットに対する大規模なオフライン実験は、既存の最先端の手法と比較して提案手法の優れた性能を実証する。 さらに,本手法は,毎日3億人以上のアクティブユーザを抱える人気ビデオアプリKuaishouに完全デプロイされ,オンラインレコメンデーションの品質を大幅に向上させ,アプローチの有効性と効率性を実証している。

In a multi-stage recommendation system, reranking plays a crucial role by modeling the intra-list correlations among items.The key challenge of reranking lies in the exploration of optimal sequences within the combinatorial space of permutations. Recent research proposes a generator-evaluator learning paradigm, where the generator generates multiple feasible sequences and the evaluator picks out the best sequence based on the estimated listwise score. Generator is of vital importance, and generative models are well-suited for the generator function. Current generative models employ an autoregressive strategy for sequence generation. However, deploying autoregressive models in real-time industrial systems is challenging. Hence, we propose a Non-AutoRegressive generative model for reranking Recommendation (NAR4Rec) designed to enhance efficiency and effectiveness. To address challenges related to sparse training samples and dynamic candidates impacting model convergence, we introduce a matching model. Considering the diverse nature of user feedback, we propose a sequence-level unlikelihood training objective to distinguish feasible from unfeasible sequences. Additionally, to overcome the lack of dependency modeling in non-autoregressive models regarding target items, we introduce contrastive decoding to capture correlations among these items. Extensive offline experiments on publicly available datasets validate the superior performance of our proposed approach compared to the existing state-of-the-art reranking methods. Furthermore, our method has been fully deployed in a popular video app Kuaishou with over 300 million daily active users, significantly enhancing online recommendation quality, and demonstrating the effectiveness and efficiency of our approach.
翻訳日:2024-02-13 18:57:11 公開日:2024-02-10
# 差別的敵対的非学習

Discriminative Adversarial Unlearning ( http://arxiv.org/abs/2402.06864v1 )

ライセンス: Link先を確認
Rohan Sharma, Shijie Zhou, Kaiyi Ji and Changyou Chen(参考訳) 本稿では,min-max最適化パラダイムの確立した原則に基づく新しい機械学習フレームワークを提案する。 我々は、訓練されたモデルから特定のサンプルの学習を容易にするために、強力なメンバーシップ推論攻撃(MIA)の能力を利用する。 我々は、攻撃者の$\mathbf{A}$と訓練されたディフェンダー$\mathbf{D}$の2つのネットワークのシナリオを敵の目的とみなして考える。 アルゴリズムは、アタッカーとディフェンダーを更新するためのよく知られた反復的min-maxアプローチに従って、バックプロパゲーションを使ってエンドツーエンドでトレーニングすることができる。 さらに,returning setとバリデーションセットとの機能空間の相違を効果的に解決し,学習性能を向上させる自己教師付き目標を組み込んだ。 提案するアルゴリズムは,標準機械学習データセットにおけるランダムサンプルのリトレーティングとクラス毎のリトレーティングスキームの両方に対して,スクラッチからリトレーティングする理想的なベンチマークをよく近似する。 特に、クラスアンラーニングスキームにおいて、この手法は最適に近い性能を示し、すべてのメトリクスと複数のネットワークプラニング戦略にわたるランダムサンプルフォーティングスキームよりも既知のメソッドを包括的に克服する。

We introduce a novel machine unlearning framework founded upon the established principles of the min-max optimization paradigm. We capitalize on the capabilities of strong Membership Inference Attacks (MIA) to facilitate the unlearning of specific samples from a trained model. We consider the scenario of two networks, the attacker $\mathbf{A}$ and the trained defender $\mathbf{D}$ pitted against each other in an adversarial objective, wherein the attacker aims at teasing out the information of the data to be unlearned in order to infer membership, and the defender unlearns to defend the network against the attack, whilst preserving its general performance. The algorithm can be trained end-to-end using backpropagation, following the well known iterative min-max approach in updating the attacker and the defender. We additionally incorporate a self-supervised objective effectively addressing the feature space discrepancies between the forget set and the validation set, enhancing unlearning performance. Our proposed algorithm closely approximates the ideal benchmark of retraining from scratch for both random sample forgetting and class-wise forgetting schemes on standard machine-unlearning datasets. Specifically, on the class unlearning scheme, the method demonstrates near-optimal performance and comprehensively overcomes known methods over the random sample forgetting scheme across all metrics and multiple network pruning strategies.
翻訳日:2024-02-13 18:56:47 公開日:2024-02-10
# LiRank: LinkedInの大規模産業ランキングモデル

LiRank: Industrial Large Scale Ranking Models at LinkedIn ( http://arxiv.org/abs/2402.06859v1 )

ライセンス: Link先を確認
Fedor Borisyuk, Mingzhou Zhou, Qingquan Song, Siyu Zhu, Birjodh Tiwana, Ganesh Parameswaran, Siddharth Dangi, Lars Hertel, Qiang Xiao, Xiaochen Hou, Yunbo Ouyang, Aman Gupta, Sheallika Singh, Dan Liu, Hailing Cheng, Lei Le, Jonathan Hung, Sathiya Keerthi, Ruoyan Wang, Fengyu Zhang, Mohit Kothari, Chen Zhu, Daqi Sun, Yun Dai, Xun Luan, Sirou Zhu, Zhiwei Wang, Neil Daftary, Qianqi Shen, Chengming Jiang, Haichao Wei, Maneesh Varshney, Amol Ghoting, Souvik Ghosh(参考訳) これはlinkedinの大規模ランキングフレームワークで、最先端のモデリングアーキテクチャと最適化手法を提供する。 我々は、Residual DCNを含むいくつかのモデリング改善を公開し、有名なDCNv2アーキテクチャへの注意と残留接続を付加した。 sotaアーキテクチャの結合とチューニングに関する洞察を共有し,高密度ゲーティング,トランスフォーマー,残留dcnなど,統一モデルを作成する。 また,新たな校正手法を提案し,Deep Learning based Explor/exploit method の製作方法について述べる。 大規模ランキングモデルの効率的な生産段階提供を可能にするため、量子化と語彙圧縮を用いてモデルを訓練・圧縮する方法を詳述する。 本稿では、フィードランキング、求人推薦、広告クリックスルー率(CTR)予測といった大規模ユースケースに対するデプロイメント設定の詳細について述べる。 様々なA/Bテストから学んだことを,最も効果的な技術的アプローチを解明することによって要約する。 これらのアイデアはLinkedInの取締役会全体の相対的な指標改善に寄与している:+0.5%のフィードのメンバーセッション、+1.76%のジョブアプリケーションとレコメンデーション、+4.3%の広告CTR。 この成果が,大規模な深層ランキングシステムの利用に関心を持つ実践者に対して,実用的な洞察とソリューションを提供することを願っています。

We present LiRank, a large-scale ranking framework at LinkedIn that brings to production state-of-the-art modeling architectures and optimization methods. We unveil several modeling improvements, including Residual DCN, which adds attention and residual connections to the famous DCNv2 architecture. We share insights into combining and tuning SOTA architectures to create a unified model, including Dense Gating, Transformers and Residual DCN. We also propose novel techniques for calibration and describe how we productionalized deep learning based explore/exploit methods. To enable effective, production-grade serving of large ranking models, we detail how to train and compress models using quantization and vocabulary compression. We provide details about the deployment setup for large-scale use cases of Feed ranking, Jobs Recommendations, and Ads click-through rate (CTR) prediction. We summarize our learnings from various A/B tests by elucidating the most effective technical approaches. These ideas have contributed to relative metrics improvements across the board at LinkedIn: +0.5% member sessions in the Feed, +1.76% qualified job applications for Jobs search and recommendations, and +4.3% for Ads CTR. We hope this work can provide practical insights and solutions for practitioners interested in leveraging large-scale deep ranking systems.
翻訳日:2024-02-13 18:56:20 公開日:2024-02-10
# 非平衡エントロピー生成における真の量子効果の証拠

Evidence of genuine quantum effects in nonequilibrium entropy production ( http://arxiv.org/abs/2402.06858v1 )

ライセンス: Link先を確認
Qing-Feng Xue, Xu-Cai Zhuang, De-Yang Duan, Ying-Jie Zhang, Wei-Bin Yan, Yun-Jie Xia, Rosario Lo Franco, Zhong-Xiao Man(参考訳) エントロピー生産は熱力学の第2法則と不可逆性の尺度において重要な役割を果たす基本的な概念である。 熱力学過程において許される変換の種類に厳密な制約を課す。 ここでは, オープン量子系のエントロピー生成を, 集団関連成分とコヒーレンス関連成分に分割し, 過去の理論的予測を検証した。 コヒーレンス関連成分は、古典的でない真の量子寄与を表す。 まず, 入浴温度とシステムの初期コヒーレンスを調整することにより, 集団とコヒーレンスの両方による総エントロピー生成を導出し, システムの全コヒーレンスを除去し, 集団関連貢献のみを得る。 これら2つの結果の違いは、コヒーレンス関連項の分離を可能にする。 この分割に基づき, 量子レベルでの可逆性はエントロピー生成への2つの貢献を適切に活用することで低減できることを示した。

Entropy production is a fundamental concept that plays a crucial role in the second law of thermodynamics and the measure of irreversibility. It imposes rigorous constraints on the kinds of transformations allowed in thermodynamic processes. Using an optical setup, here we experimentally demonstrate the division of entropy production of an open quantum system into a population-related component and a coherence-related component, validating previous theoretical predictions. The coherence-related component represents a genuine quantum contribution with no classical counterpart. By adjusting bath temperatures and initial coherences of the system, we first derive the total entropy production due to both populations and coherences, then remove all the coherences of the system to solely obtain the population-related contribution. The difference between these two results permits to isolate the coherence-related term. Based on this division, our experiment ultimately proves that irreversibility at the quantum level can be reduced through properly harnessing the two contributions to entropy production.
翻訳日:2024-02-13 18:55:58 公開日:2024-02-10
# 良いか悪いか? ラベル拡張による最小分散特徴の学習

For Better or For Worse? Learning Minimum Variance Features With Label Augmentation ( http://arxiv.org/abs/2402.06855v1 )

ライセンス: Link先を確認
Muthu Chidambaram and Rong Ge(参考訳) データの強化は、過去10年間に分類タスクのディープラーニングモデルをトレーニングする上で重要な役割を担ってきた。 データ拡張テクニックの重要なサブクラス - モデルのトレーニング中に、入力データだけでなく入力ラベルも変更可能な、ラベルの平滑化とmixupinvolvesを含む。 本研究では,このような手法のラベル強化の側面が果たす役割を分析する。 ラベル拡張で訓練された線形分離可能データの線形モデルは、データ内の最小分散特性のみを学習し、標準トレーニング(重量減衰を含む)はより高分散特性を学習できることを証明する。 ラベルの平滑化とミックスアップは、標準のトレーニングと比べて、トレーニングデータの敵対的摂動に対する堅牢性が低くなります。 本理論は,合成データと画像分類ベンチマークに関する様々な実験を通して,実践を反映していることを確認する。

Data augmentation has been pivotal in successfully training deep learning models on classification tasks over the past decade. An important subclass of data augmentation techniques - which includes both label smoothing and Mixup - involves modifying not only the input data but also the input label during model training. In this work, we analyze the role played by the label augmentation aspect of such methods. We prove that linear models on linearly separable data trained with label augmentation learn only the minimum variance features in the data, while standard training (which includes weight decay) can learn higher variance features. An important consequence of our results is negative: label smoothing and Mixup can be less robust to adversarial perturbations of the training data when compared to standard training. We verify that our theory reflects practice via a range of experiments on synthetic data and image classification benchmarks.
翻訳日:2024-02-13 18:55:40 公開日:2024-02-10
# ジャイロスコープを用いたモーションデブロアリングネットワーク

Gyroscope-Assisted Motion Deblurring Network ( http://arxiv.org/abs/2402.06854v1 )

ライセンス: Link先を確認
Simin Luan, Cong Yang, Zeyd Boukhers, Xue Qin, Dongfeng Cheng, Wei Sui, Zhijun Li(参考訳) 近年,画像研究はデブラリングネットワークにおいて大きな注目を集めている。 しかし、現実世界のぼやけ、特に動きのぼやけにおける実用的利用は、背景、ぼやけた画像、ぼやけたヒートマップ)とぼやけた画像に固有の制限情報がないため、依然として制限されている。 本稿では,慣性測定単位(imu)データを用いた動きボケ画像の合成と復元のための簡易かつ効率的な枠組みを提案する。 特にこのフレームワークには、三重項生成のトレーニング戦略と、ぼやけた画像復元のためのジャイロスコープ支援モーションデブラリング(gamd)ネットワークが含まれている。 理論的には、IMUデータを利用することで、3次元空間内の各点に対する運動軌跡(つまりぼやけた軌跡)の導出を容易にし、画像露光期間中のカメラポーズの変換を決定することができる。 このように、我々の戦略を用いた合成三重項は、本質的に自然運動のぼやけに近づき、厳密にピクセルアライメントされ、大量生産可能である。 総合的な実験により,提案手法の利点を実証した: 合成と実世界のボケの軌跡間の2ピクセル誤差のみ,ピーク信号対雑音比(psnr)における最先端デブラリング法mimoの顕著な改善(約33.17%)。

Image research has shown substantial attention in deblurring networks in recent years. Yet, their practical usage in real-world deblurring, especially motion blur, remains limited due to the lack of pixel-aligned training triplets (background, blurred image, and blur heat map) and restricted information inherent in blurred images. This paper presents a simple yet efficient framework to synthetic and restore motion blur images using Inertial Measurement Unit (IMU) data. Notably, the framework includes a strategy for training triplet generation, and a Gyroscope-Aided Motion Deblurring (GAMD) network for blurred image restoration. The rationale is that through harnessing IMU data, we can determine the transformation of the camera pose during the image exposure phase, facilitating the deduction of the motion trajectory (aka. blur trajectory) for each point inside the three-dimensional space. Thus, the synthetic triplets using our strategy are inherently close to natural motion blur, strictly pixel-aligned, and mass-producible. Through comprehensive experiments, we demonstrate the advantages of the proposed framework: only two-pixel errors between our synthetic and real-world blur trajectories, a marked improvement (around 33.17%) of the state-of-the-art deblurring method MIMO on Peak Signal-to-Noise Ratio (PSNR).
翻訳日:2024-02-13 18:55:24 公開日:2024-02-10
# 大規模言語モデルの歴史・発展・原理-序論調査-

History, Development, and Principles of Large Language Models-An Introductory Survey ( http://arxiv.org/abs/2402.06853v1 )

ライセンス: Link先を確認
Zhibo Chu, Shiwen Ni, Zichong Wang, Xi Feng, Chengming Li, Xiping Hu, Ruifeng Xu, Min Yang, Wenbin Zhang(参考訳) 言語モデルは自然言語処理(NLP)の基盤となり、予測と生成のための言語法則と知識を一般化するための数学的手法を利用する。 数十年にわたる広範な研究を経て、言語モデリングは初期統計言語モデル(slms)から大規模言語モデル(llms)の現代展望へと発展してきた。 LLMの急速な進化は、人間のレベルのテキストを処理、理解、生成する能力に到達した。 それでも、LLMが仕事と個人の生活の両方を改善する上で大きな利点を提供しているにもかかわらず、これらのモデルの背景と原則に関する一般の実践者の間では、その潜在能力を最大限に発揮している。 特にllmのレビューは、特定の側面に注目し、専門言語を活用し、関連する背景知識を欠いた実践者にとっての課題となっている。 これを踏まえて、この調査はLLMの概要を包括的に提示し、幅広い聴衆を支援することを目的としている。 言語モデルの歴史的背景を探索し、時間とともにその進化を追跡することによって、包括的な理解を促進する。 この調査は、LLMの開発に影響を与える要因をさらに調査し、重要な貢献を強調した。 さらに、LLMの基本原理の解明に集中し、聴衆に本質的な理論的知識を与える。 調査ではまた、既存の作業の限界を強調し、将来有望な方向性を指摘している。

Language models serve as a cornerstone in natural language processing (NLP), utilizing mathematical methods to generalize language laws and knowledge for prediction and generation. Over extensive research spanning decades, language modeling has progressed from initial statistical language models (SLMs) to the contemporary landscape of large language models (LLMs). Notably, the swift evolution of LLMs has reached the ability to process, understand, and generate human-level text. Nevertheless, despite the significant advantages that LLMs offer in improving both work and personal lives, the limited understanding among general practitioners about the background and principles of these models hampers their full potential. Notably, most LLMs reviews focus on specific aspects and utilize specialized language, posing a challenge for practitioners lacking relevant background knowledge. In light of this, this survey aims to present a comprehensible overview of LLMs to assist a broader audience. It strives to facilitate a comprehensive understanding by exploring the historical background of language models and tracing their evolution over time. The survey further investigates the factors influencing the development of LLMs, emphasizing key contributions. Additionally, it concentrates on elucidating the underlying principles of LLMs, equipping audiences with essential theoretical knowledge. The survey also highlights the limitations of existing work and points out promising future directions.
翻訳日:2024-02-13 18:54:53 公開日:2024-02-10
# ChemLLM: 化学大言語モデル

ChemLLM: A Chemical Large Language Model ( http://arxiv.org/abs/2402.06852v1 )

ライセンス: Link先を確認
Di Zhang, Wei Liu, Qian Tan, Jingdan Chen, Hang Yan, Yuliang Yan, Jiatong Li, Weiran Huang, Xiangyu Yue, Dongzhan Zhou, Shufei Zhang, Mao Su, Hansen Zhong, Yuqiang Li, Wanli Ouyang(参考訳) 大規模言語モデル(LLM)は、分子特性予測、分子生成、実験的プロトコル設計など、化学応用において顕著な進歩を遂げている。 しかし、コミュニティには化学に特化した対話ベースのモデルがない。 この課題は、ほとんどの化学データと科学知識が主に構造化データベースに格納されているという事実から生じ、これらの構造化データの直接利用は、一貫性のある対話を維持するモデルの能力を損なう。 この問題に対処するために,構造化知識を平易な対話に変換し,言語モデル学習に適したテンプレートベースの命令構築手法を開発した。 このアプローチを活用することで、化学に特化した最初の大規模言語モデルであるChemLLMを開発し、スムーズな対話相互作用を持つ化学分野にまたがる様々なタスクを実行できる。 ChemLLMは化学における3つの主要なタスク、すなわち名前変換、分子キャプション、反応予測においてGPT-3.5を破り、2つでGPT-4を上回っている。 興味深いことに、ChemLLMは、主に化学中心のコーパスで訓練されているにもかかわらず、関連する数学的および物理的タスクに例外的な適応性を示す。 さらに、ChemLLMは、文学翻訳やケミノフォマティックプログラミングのような化学における特殊なNLPタスクの習熟度を示す。 ChemLLMは、化学研究の新たな道を開く一方、構造化化学知識を対話システムに統合する手法は、様々な科学分野にまたがるLSMを開発するための新たなフロンティアとなる。 コード、データセット、モデルウェイトはhf.co/AI4Chem/ChemLLM-7B-Chatで公開されている。

Large language models (LLMs) have made impressive progress in chemistry applications, including molecular property prediction, molecular generation, experimental protocol design, etc. However, the community lacks a dialogue-based model specifically designed for chemistry. The challenge arises from the fact that most chemical data and scientific knowledge are primarily stored in structured databases, and the direct use of these structured data compromises the model's ability to maintain coherent dialogue. To tackle this issue, we develop a novel template-based instruction construction method that transforms structured knowledge into plain dialogue, making it suitable for language model training. By leveraging this approach, we develop ChemLLM, the first large language model dedicated to chemistry, capable of performing various tasks across chemical disciplines with smooth dialogue interaction. ChemLLM beats GPT-3.5 on all three principal tasks in chemistry, i.e., name conversion, molecular caption, and reaction prediction, and surpasses GPT-4 on two of them. Remarkably, ChemLLM also shows exceptional adaptability to related mathematical and physical tasks despite being trained mainly on chemical-centric corpora. Furthermore, ChemLLM demonstrates proficiency in specialized NLP tasks within chemistry, such as literature translation and cheminformatic programming. ChemLLM opens up a new avenue for exploration within chemical studies, while our method of integrating structured chemical knowledge into dialogue systems sets a new frontier for developing LLMs across various scientific fields. Codes, Datasets, and Model weights are publicly accessible at hf.co/AI4Chem/ChemLLM-7B-Chat.
翻訳日:2024-02-13 18:54:33 公開日:2024-02-10
# なぜ正統派理論が提供する量子現実を避けるのが正しいのか?

Why engineers are right to avoid the quantum reality offered by the orthodox theory? ( http://arxiv.org/abs/2402.06851v1 )

ライセンス: Link先を確認
X. Oriols and D. K. Ferry(参考訳) 物理理論の現実に関する適切な知識は、経験的現象を理解するために重要である。 その並外れた予測的な成功にもかかわらず、正統派(コペンハーゲン)理論は量子現実の定義を不可解なものとしており、(電子のような)物体は、明示的に測定されない限り、性質を持たない無害な多粒子波動関数の一部となる。 さらに悪いことに、オルソドックス理論は測定を明確な方法で定義していない。 この現実観は、古典的物体のように、あらゆる測定値とは無関係に常に実性を持つ量子オブジェクトを仮定する現代のエンジニアには異質である。 正統派理論とは対照的に、技術者の直観は観測者が基本的な役割を果たさない他の量子理論と相反するものではない。 優れた量子直観は、使用されている量子論の基本要素の正しい知識に基づく必要がある。 エンジニアは、これらの代替アプローチによって提供される自然の量子現実に実際に導かれています。

A proper knowledge of the reality of a physical theory is important to get an understanding of empirical phenomena. Despite its extraordinary predictive successes, the orthodox (also known as the Copenhagen) theory provides an indigestible definition of quantum reality: objects (such as electrons) become part of a nebulous many-particle wave function with no properties at all, unless the property is explicitly measured. To make matters worse, orthodox theory does not define measurements in a clear way. This view of reality is foreign to most modern engineers who assume that quantum objects, like classical objects, always have real properties, independent of any measurement. Despite being contrary to the orthodox theory, the intuition of engineers is not in conflict with other quantum theories, where the observer plays no fundamental role. Good quantum intuition needs to be based on a correct knowledge of the fundamental elements of the quantum theory that is being used. We argue that engineers are actually led to the natural quantum reality offered by these alternative approaches.
翻訳日:2024-02-13 18:54:05 公開日:2024-02-10
# 世界と世界のエベレット派分枝

Everettian Branching in the World and of the World ( http://arxiv.org/abs/2402.06848v1 )

ライセンス: Link先を確認
Nadia Blackshaw, Nick Huggett, James Ladyman(参考訳) 本稿では,環境との絡み合いによる波動関数「ブランチ」の形成と伝播について検討する。 この過程はユニタリダイナミクスの結果であり、それゆえ量子論のすべてのアプローチにとって重要であるとは限りませんが、エベレット解釈や「マニーワールド」解釈の最近の多くの調音において中心的な役割を果たす。 局所的に相互作用するシステムと環境の高度に理想化されたモデルについて述べ、ベルの不等式を含む分岐が生じるいくつかの状況において検討し、非局所性がダイナミクスの局所性とどのように相容れないかを説明する。 多くの世界の量子論にとって分岐は特に重要であるが、我々は中立的な立場をとり、単にユニタリダイナミクスの結果を追跡するだけである。 全体の目的は、分岐形成の量子物理学の単純な具体的実現、特に分岐と相対性理論との整合性を強調することであり、本論文は基礎研究と非孤立系への量子理論の適用の両方に照らすことを目的としている。

This paper investigates the formation and propagation of wavefunction `branches' through the process of entanglement with the environment. While this process is a consequence of unitary dynamics, and hence significant to many if not all approaches to quantum theory, it plays a central role in many recent articulations of the Everett or `many worlds' interpretation. A highly idealized model of a locally interacting system and environment is described, and investigated in several situations in which branching occurs, including those involving Bell inequality violating correlations; we illustrate how any non-locality is compatible with the locality of the dynamics. Although branching is particularly important for many worlds quantum theory, we take a neutral stance here, simply tracing out the consequences of a unitary dynamics. The overall goals are to provide a simple concrete realization of the quantum physics of branch formation, and especially to emphasise the compatibility of branching with relativity; the paper is intended to illuminate matters both for foundational work, and for the application of quantum theory to non-isolated systems.
翻訳日:2024-02-13 18:53:46 公開日:2024-02-10
# 残差表現における半古典的schr\"odinger 数値

Semi-classical Schr\"odinger numerics in the residual representation ( http://arxiv.org/abs/2402.06847v1 )

ライセンス: Link先を確認
Christoph N\"olle(参考訳) 半古典的状態における量子力学の数値的処理は、波動関数の高振動挙動とその大きな空間拡大のために計算的に要求されることが知られている。 最近提案された古典ハミルトン力学上の残留理論としての量子力学の表現は、半古典的波動関数をゆっくりと変動し、空間的に閉じ込められた残留波動関数に変換する。 したがって、この表現は半古典的量子問題の数値解に適している。 本稿では,理論の定式化について概説し,制約の議論を含む半古典的シナリオの集合に適用可能性を示す。 私は、ガウスビーム近似やルッソとスメレカによるガウス波パケット変換など、確立された数値的アプローチとのつながりを解明する。 この手法のプロトタイプ実装がオープンソースソフトウェアとして公開された。

The numerical treatment of quantum mechanics in the semi-classical regime is known to be computationally demanding, due to the highly oscillatory behaviour of the wave function and its large spatial extension. A recently proposed representation of quantum mechanics as a residual theory on top of classical Hamiltonian mechanics transforms a semi-classical wave function into a slowly-fluctuating, spatially confined residual wave function. This representation is therefore well-suited for the numerical solution of semi-classical quantum problems. In this note I outline the formulation of the theory and demonstrate its applicability to a set of semi-classical scenarios, including a discussion of limitations. I work out the connection to established numerical approaches, such as the Gaussian beam approximation and the Gaussian wave packet transform by Russo and Smereka. A prototypical implementation of the method has been published as open-source software.
翻訳日:2024-02-13 18:53:27 公開日:2024-02-10
# CochCeps-Augment: Cochlear Cepstrum-based Masking を用いた自己監督型コントラスト学習

CochCeps-Augment: A Novel Self-Supervised Contrastive Learning Using Cochlear Cepstrum-based Masking for Speech Emotion Recognition ( http://arxiv.org/abs/2402.06923v1 )

ライセンス: Link先を確認
Ioannis Ziogas, Hessa Alfalahi, Ahsan H. Khandoker, Leontios J. Hadjileontiadis(参考訳) 自動音声認識のための自己教師あり学習 (ssl) は, 音声の時間的, スペクトル的インフォメーション構造をモデル化する効率に影響を与え, 存在雑音によって大きく劣化する。 近年,大規模な音声データセット上のSSLや,時間と周波数のマスキングなどの新たな音声固有のSSLプロキシタスクが出現し,画像拡張領域から引き出された古典的アプローチよりも優れたパフォーマンスを実現している。 提案手法は,音声表現の自己教師付きコントラスト学習のための新しいマスキング強化タスクであるcochceps-augmentを導入することで,このパラダイムを生かした。 具体的には,新たに導入されたバイオインスパイアされたchlear cepstrogram(CCGRAM)を用いて,入力音声の雑音の頑健な表現を導出し,さらに自己教師付き学習手法により洗練する。 後者はSimCLRを使用して、CCGRAMの角度と待ち行列次元をマスキングすることで、コントラスト的なビューを生成する。 感情認識k-emoconベンチマークデータセットに関する実験的なアプローチと検証は,話者に依存しないアプローチで,教師なし事前学習,線形探索,微調整を特徴とする。 本研究は,コクセプ・オーグメンメントを音声感情認識分析の標準ツールとして活用し,バイオインスパイアされたマスキングを自己スーパービジョンのための情報強化タスクとして取り入れる付加価値を示した。 CochCeps-Augmentを実装するためのコードは、https://github.com/GiannisZgs/CochCepsAugmentで利用可能になります。

Self-supervised learning (SSL) for automated speech recognition in terms of its emotional content, can be heavily degraded by the presence noise, affecting the efficiency of modeling the intricate temporal and spectral informative structures of speech. Recently, SSL on large speech datasets, as well as new audio-specific SSL proxy tasks, such as, temporal and frequency masking, have emerged, yielding superior performance compared to classic approaches drawn from the image augmentation domain. Our proposed contribution builds upon this successful paradigm by introducing CochCeps-Augment, a novel bio-inspired masking augmentation task for self-supervised contrastive learning of speech representations. Specifically, we utilize the newly introduced bio-inspired cochlear cepstrogram (CCGRAM) to derive noise robust representations of input speech, that are then further refined through a self-supervised learning scheme. The latter employs SimCLR to generate contrastive views of a CCGRAM through masking of its angle and quefrency dimensions. Our experimental approach and validations on the emotion recognition K-EmoCon benchmark dataset, for the first time via a speaker-independent approach, features unsupervised pre-training, linear probing and fine-tuning. Our results potentiate CochCeps-Augment to serve as a standard tool in speech emotion recognition analysis, showing the added value of incorporating bio-inspired masking as an informative augmentation task for self-supervision. Our code for implementing CochCeps-Augment will be made available at: https://github.com/GiannisZgs/CochCepsAugment.
翻訳日:2024-02-13 18:46:28 公開日:2024-02-10
# 機械のウィスパー:LLM統合システムにおける信頼性

Whispers in the Machine: Confidentiality in LLM-integrated Systems ( http://arxiv.org/abs/2402.06922v1 )

ライセンス: Link先を確認
Jonathan Evertz, Merlin Chlosta, Lea Sch\"onherr, Thorsten Eisenhofer(参考訳) 大きな言語モデル(LLM)は、ますます外部ツールと統合されている。 これらの統合はLLMの機能を大幅に改善するが、異なるコンポーネント間で機密データを開示する新たなアタックサーフェスも生成する。 具体的には、悪意のあるツールがLLM自体の脆弱性を利用してモデルを操作し、他のサービスのデータを侵害し、LLM統合のコンテキストでプライベートデータを保護できるかどうかという疑問を提起する。 本研究では,LLM統合システムにおける機密性を評価する体系的な方法を提案する。 そこで我々は,プライベート情報を隠蔽するモデルの能力を捉える「秘密鍵」ゲームを定式化した。 これにより、機密性攻撃に対するモデルの脆弱性と、異なる防衛戦略の有効性を比較することができる。 本研究では,これまでに公表された8つの攻撃と4つの防御効果を評価する。 現在の防御は攻撃戦略の一般化に欠ける。 そこで本研究では,本解析に基づくロバストネスの微調整手法を提案する。 このアプローチは攻撃者の成功率の低下と未知の攻撃に対するシステムのレジリエンス向上に有効である。

Large Language Models (LLMs) are increasingly integrated with external tools. While these integrations can significantly improve the functionality of LLMs, they also create a new attack surface where confidential data may be disclosed between different components. Specifically, malicious tools can exploit vulnerabilities in the LLM itself to manipulate the model and compromise the data of other services, raising the question of how private data can be protected in the context of LLM integrations. In this work, we provide a systematic way of evaluating confidentiality in LLM-integrated systems. For this, we formalize a "secret key" game that can capture the ability of a model to conceal private information. This enables us to compare the vulnerability of a model against confidentiality attacks and also the effectiveness of different defense strategies. In this framework, we evaluate eight previously published attacks and four defenses. We find that current defenses lack generalization across attack strategies. Building on this analysis, we propose a method for robustness fine-tuning, inspired by adversarial training. This approach is effective in lowering the success rate of attackers and in improving the system's resilience against unknown attacks.
翻訳日:2024-02-13 18:45:55 公開日:2024-02-10
# ハイブリッド回帰モデルのためのクラスタリング手法の選択:太陽熱システムに基づくケーススタディ

Clustering Techniques Selection for a Hybrid Regression Model: A Case Study Based on a Solar Thermal System ( http://arxiv.org/abs/2402.06921v1 )

ライセンス: Link先を確認
Mar\'ia Teresa Garc\'ia-Ord\'as, H\'ector Alaiz-Moret\'on, Jos\'e-Luis Casteleiro-Roca, Esteban Jove, Jos\'e Alberto Ben\'itez-Andrades, Isa\'ias Garc\'ia-Rodr\'iguez, H\'ector Quinti\'an and Jos\'e Luis Calvo-Rolle(参考訳) 本稿では,教師付き学習タスクにおける強力なハイブリッドモデルの実現を目的として,4つのクラスタリング手法の性能比較を行う。 実験ウィンドファームに置かれ、ガリシアのxermade (lugo) にあるソタヴェント(sotavento)という生物気候の家の実際のデータセットが収集された。 著者らは、いくつかのクラスター法の適用方法と、システムの出力温度を予測する回帰手法を研究するために、太陽熱発電システムを選んだ。 各クラスタリング手法の品質を定義する目的で、2つの可能なソリューションが実装されている。 1つは教師なしの3つの学習指標(Silhouette、Carinski-Harabasz、Davies-Bouldin)に基づいており、もう1つはMulti Layer Perceptronのような回帰アルゴリズムに最も一般的な誤差測定を使用している。

This work addresses the performance comparison between four clustering techniques with the objective of achieving strong hybrid models in supervised learning tasks. A real dataset from a bio-climatic house named Sotavento placed on experimental wind farm and located in Xermade (Lugo) in Galicia (Spain) has been collected. Authors have chosen the thermal solar generation system in order to study how works applying several cluster methods followed by a regression technique to predict the output temperature of the system. With the objective of defining the quality of each clustering method two possible solutions have been implemented. The first one is based on three unsupervised learning metrics (Silhouette, Calinski-Harabasz and Davies-Bouldin) while the second one, employs the most common error measurements for a regression algorithm such as Multi Layer Perceptron.
翻訳日:2024-02-13 18:45:39 公開日:2024-02-10
# TREET: TransformerによるTRansferエントロピー推定

TREET: TRansfer Entropy Estimation via Transformer ( http://arxiv.org/abs/2402.06919v1 )

ライセンス: Link先を確認
Omer Luxembourg, Dor Tsur, Haim Permuter(参考訳) 伝達エントロピー(英: Transfer entropy, TE)は、プロセス間の情報の流れを明らかにする情報理論における計測であり、幅広い現実世界の応用に有用な洞察を提供する。 本研究は,変圧器を用いた定常過程のTE推定手法であるTransfer Entropy Estimation via Transformers (TREET)を提案する。 提案手法では, TE にDonsker-Vardhan (DV) 表現を用い, 神経推定のタスクに注意機構を利用する。 本稿では,TREETの理論的および実証的研究を,既存の手法と比較して提案する。 その適用性を高めるために,関数表現補題に動機づけられた推定te最適化スキームを設計する。 その後、情報理論における正準最適化問題であるメモリを用いた通信チャネルの容量を最適化するために、共同最適化方式を利用して、推定器のメモリ能力を示す。 最後に,実世界の特徴分析にTREETを適用した。 最先端のディープラーニング手法を適用した我々の研究は、まだ解決されていないコミュニケーション問題の新たな扉を開く。

Transfer entropy (TE) is a measurement in information theory that reveals the directional flow of information between processes, providing valuable insights for a wide range of real-world applications. This work proposes Transfer Entropy Estimation via Transformers (TREET), a novel transformer-based approach for estimating the TE for stationary processes. The proposed approach employs Donsker-Vardhan (DV) representation to TE and leverages the attention mechanism for the task of neural estimation. We propose a detailed theoretical and empirical study of the TREET, comparing it to existing methods. To increase its applicability, we design an estimated TE optimization scheme that is motivated by the functional representation lemma. Afterwards, we take advantage of the joint optimization scheme to optimize the capacity of communication channels with memory, which is a canonical optimization problem in information theory, and show the memory capabilities of our estimator. Finally, we apply TREET to real-world feature analysis. Our work, applied with state-of-the-art deep learning methods, opens a new door for communication problems which are yet to be solved.
翻訳日:2024-02-13 18:45:23 公開日:2024-02-10
# 最も有望な中間的思考を探索する直接対比較アプローチによる思考連鎖の生成

Generating Chain-of-Thoughts with a Direct Pairwise-Comparison Approach to Searching for the Most Promising Intermediate Thought ( http://arxiv.org/abs/2402.06918v1 )

ライセンス: Link先を確認
Zhen-Yu Zhang, Siwei Han, Huaxiu Yao, Gang Niu, Masashi Sugiyama(参考訳) 複雑な推論問題に対処する大規模言語モデル(LLM)の能力を改善するために,LLMをステップバイステップで推論するためのチェーン・オブ・思想(CoT)手法が提案された。 このような連鎖を生成するための最先端のアプローチは、対話的なコラボレーションであり、学習者は、llmによって評価され、次の思考の生成を導く候補中間思考を生成する。 しかし、広く研究されている問題は、llmの評価が通常、ノイズで信頼性が低く、有望な中間思考を選択する際に生成プロセスが誤解される可能性があることである。 本稿では,Vapnik の原理をベースとして,LLM からのノイズフィードバックによって最も有望な思考を直接識別する新しい比較ベース CoT 生成アルゴリズムを提案する。 各ラウンドにおいて、中間思考をランダムにペアリングし、LSMに直接、各ペアからより有望な思考を選択するように促し、反復的なプロセスを通じて最も有望な思考を識別できるようにする。 比較においてさらにノイズをモデル化するために,アンサンブルとデュエルバンディットの手法を活用し,提案アルゴリズムの2つの変種を提案する。 3つの実世界の数学的および推論タスクの実験は、提案アルゴリズムの有効性を示し、直接対比較の理論的根拠を検証する。

To improve the ability of the large language model (LLMs) to handle complex reasoning problems, chain-of-thoughts (CoT) methods were proposed to guide LLMs to reason step-by-step, facilitating problem solving from simple to complex tasks. State-of-the-art approaches for generating such a chain involve interactive collaboration, where the learner generates candidate intermediate thoughts, evaluated by the LLM, guiding the generation of subsequent thoughts. However, a widespread yet understudied problem is that the evaluation from the LLM is typically noisy and unreliable, potentially misleading the generation process in selecting promising intermediate thoughts. In this paper, motivated by Vapnik's principle, we propose a novel comparison-based CoT generation algorithm that directly identifies the most promising thoughts with the noisy feedback from the LLM. In each round, we randomly pair intermediate thoughts and directly prompt the LLM to select the more promising one from each pair, allowing us to identify the most promising thoughts through an iterative process. To further model the noise in the comparison, we resort to the techniques of ensemble and dueling bandits and propose two variants of the proposed algorithm. Experiments on three real-world mathematical and reasoning tasks demonstrate the effectiveness of our proposed algorithm and verify the rationale of the direct pairwise comparison.
翻訳日:2024-02-13 18:45:02 公開日:2024-02-10
# フリーなオープンソースコミュニティの持続性: ソフトウェア品質の違いはあるか?

Free Open Source Communities Sustainability: Does It Make a Difference in Software Quality? ( http://arxiv.org/abs/2402.06916v1 )

ライセンス: Link先を確認
Adam Alami, Ra\'ul Pardo and Johan Lin\r{a}ker(参考訳) コンテキスト: FOSS(Free and Open Source Software)コミュニティは、デジタルインフラストラクチャや製品、サービスが依存するビルディングブロックを維持しているため、時間とともに実用的かつ生産的に維持できる能力を持っている。 しかし、サステナビリティは複数の側面から特徴づけられる可能性があり、これらの側面がコミュニティのアウトプットとソフトウェア品質にどのように影響するかは分かっていない。 目的: 本研究は,fossサステナビリティのさまざまな側面がソフトウェア品質に与える影響を実証的に検討することを目的とする。 メソッド: 4つのカテゴリにわたる16のサステナビリティメトリクスをサンプリングし、Apache Software Foundation Incubatorプログラムからソースされた217のOSSプロジェクトに適用した。 持続可能性メトリクスの低下の影響を8つのソフトウェア品質指標に対して,回帰係数とインターセプトを表す確率分布を組み込んだベイズデータ分析を用いて分析した。 結果: サステナビリティ指標の選択は欠陥密度やコードカバレッジに大きく影響しないことが示唆された。 しかし、コミュニティ年齢の肯定的な影響は、リスク複雑性、非常に大きなファイルの数、コードの重複率など、特定のコード品質指標に見られた。 興味深いことに、コミュニティが持続可能性を経験したとしても、コード品質の指標には負の影響がある。 結論: コード品質のプラクティスが持続可能性と一貫して結びついていないこと,欠陥管理と防止が前者よりも優先されていること,などが分かる。 結果として、成長はより複雑で大規模なコードベースとなり、おそらくコード品質標準の理解の欠如と相まって、コード品質の特定の面における劣化を説明することになる。

Context: Free and Open Source Software (FOSS) communities' ability to stay viable and productive over time is pivotal for society as they maintain the building blocks that digital infrastructure, products, and services depend on. Sustainability may, however, be characterized from multiple aspects, and less is known how these aspects interplay and impact community outputs, and software quality specifically. Objective: This study, therefore, aims to empirically explore how the different aspects of FOSS sustainability impact software quality. Method: 16 sustainability metrics across four categories were sampled and applied to a set of 217 OSS projects sourced from the Apache Software Foundation Incubator program. The impact of a decline in the sustainability metrics was analyzed against eight software quality metrics using Bayesian data analysis, which incorporates probability distributions to represent the regression coefficients and intercepts. Results: Findings suggest that selected sustainability metrics do not significantly affect defect density or code coverage. However, a positive impact of community age was observed on specific code quality metrics, such as risk complexity, number of very large files, and code duplication percentage. Interestingly, findings show that even when communities are experiencing sustainability, certain code quality metrics are negatively impacted. Conclusion: Findings imply that code quality practices are not consistently linked to sustainability, and defect management and prevention may be prioritized over the former. Results suggest that growth, resulting in a more complex and large codebase, combined with a probable lack of understanding of code quality standards, may explain the degradation in certain aspects of code quality.
翻訳日:2024-02-13 18:44:36 公開日:2024-02-10
# TL;DRプログレス:テキスト要約における多面的文献探索

TL;DR Progress: Multi-faceted Literature Exploration in Text Summarization ( http://arxiv.org/abs/2402.06913v1 )

ライセンス: Link先を確認
Shahbaz Syed, Khalid Al-Khatib, Martin Potthast(参考訳) 本稿では,ニューラルテキスト要約に関する文献を探索する新しいツールであるtl;dr progressを提案する。 テキスト要約アプローチのための包括的なアノテーションスキームに基づいて514の論文を整理し、きめ細かな顔付き検索を可能にする。 各論文は手動でアノテートされ、評価指標、品質次元、学習パラダイム、対処すべき課題、データセット、ドキュメントドメインなどの側面をキャプチャした。 また,各論文に対して,自動抽出された文脈因子,問題,提案する解からなる簡潔な要約を提供する。 このツールはhttps://www.tldr-progress.deでオンラインで公開されている。

This paper presents TL;DR Progress, a new tool for exploring the literature on neural text summarization. It organizes 514~papers based on a comprehensive annotation scheme for text summarization approaches and enables fine-grained, faceted search. Each paper was manually annotated to capture aspects such as evaluation metrics, quality dimensions, learning paradigms, challenges addressed, datasets, and document domains. In addition, a succinct indicative summary is provided for each paper, consisting of automatically extracted contextual factors, issues, and proposed solutions. The tool is available online at https://www.tldr-progress.de, a demo video at https://youtu.be/uCVRGFvXUj8
翻訳日:2024-02-13 18:44:08 公開日:2024-02-10
# リニアポリシネットワークを用いた深層強化学習ベンチマークの解法

Solving Deep Reinforcement Learning Benchmarks with Linear Policy Networks ( http://arxiv.org/abs/2402.06912v1 )

ライセンス: Link先を確認
Annie Wong, Jacob de Nobel, Thomas B\"ack, Aske Plaat, Anna V. Kononova(参考訳) 深層強化学習(DRL)手法は,アタリゲームやロボティクスタスクなどの課題に対する効果的なポリシを学習することができるが,アルゴリズムは複雑であり,トレーニング時間は長いことが多い。 本研究では,勾配に基づく深層強化学習法と比較して,進化戦略(es)がどのように機能するかを検討する。 我々はESを用いて神経進化を通じてニューラルネットワークの重みを最適化し、直接ポリシー探索を行う。 我々は、観測から行動までの1つの線形層からなる正規ネットワークとポリシーネットワークの両方をベンチマークし、古典ES法とPPOのような勾配に基づく3つの手法についてベンチマークを行った。 その結果,多くのRLベンチマークタスクに対して,ESが有効な線形ポリシーを見出すことができることが明らかとなった。 興味深いことに、より複雑なタスクのために、ESは勾配ベースのDRLアルゴリズムに匹敵する結果を得る。 さらに、ゲームのメモリ状態に直接アクセスすることで、esはatariで成功したポリシーを見つけることができ、dqnよりも優れています。 近年、勾配に基づく手法がこの分野を支配しているが、ESは実装、並列化、理解、チューニングが容易な代替手段を提供している。

Although Deep Reinforcement Learning (DRL) methods can learn effective policies for challenging problems such as Atari games and robotics tasks, algorithms are complex and training times are often long. This study investigates how evolution strategies (ES) perform compared to gradient-based deep reinforcement learning methods. We use ES to optimize the weights of a neural network via neuroevolution, performing direct policy search. We benchmark both regular networks and policy networks consisting of a single linear layer from observations to actions; for three classical ES methods and for three gradient-based methods such as PPO. Our results reveal that ES can find effective linear policies for many RL benchmark tasks, in contrast to DRL methods that can only find successful policies using much larger networks, suggesting that current benchmarks are easier to solve than previously assumed. Interestingly, also for higher complexity tasks, ES achieves results comparable to gradient-based DRL algorithms. Furthermore, we find that by directly accessing the memory state of the game, ES are able to find successful policies in Atari, outperforming DQN. While gradient-based methods have dominated the field in recent years, ES offers an alternative that is easy to implement, parallelize, understand, and tune.
翻訳日:2024-02-13 18:43:57 公開日:2024-02-10
# トポロジカルニューラルネットワーク:高次相互作用によるグラフニューラルネットワークのボトルネック緩和

Topological Neural Networks: Mitigating the Bottlenecks of Graph Neural Networks via Higher-Order Interactions ( http://arxiv.org/abs/2402.06908v1 )

ライセンス: Link先を確認
Lorenzo Giusti(参考訳) 自然現象の既約複雑性により、グラフ構造化データ上で表現学習タスクを実行するための標準モデルとしてグラフニューラルネットワークが採用された。 ローカルおよびグローバルパターンをキャプチャする能力は注目に値するが、長距離および高次依存関係に関連する影響は、そのようなモデルにとって大きな課題となる。 この研究は、メッセージパッシングニューラルネットワークにおいて、ネットワークの幅、深さ、グラフトポロジがオーバーカッシング現象に与える影響を明らかにする理論的枠組みから始まる。 そして、この研究はトポロジカルニューラルネットワークを通して高次相互作用と多関係帰納バイアスへと流れていく。 このようなモデルは高次元構造を通してメッセージを伝達し、情報の流れのショートカットや追加ルートを提供する。 この構成により、基礎となる計算グラフは入力グラフ構造と結合しなくなり、上記のボトルネックを軽減し、高次相互作用も考慮する。 グラフ注意ネットワークにヒントを得た2つのトポロジ的注意ネットワークが提案されている。 これらのアーキテクチャの背景にある理論的根拠は、単体あるいは細胞複合体内のノードのグループの配置によって提供される近傍の概念の拡張を利用して、ドメインの異なる領域から来る情報の重要性を測定することができる異方性集約を設計することである。 そうすることで、従来のグラフニューラルネットワークが見逃す可能性のある依存関係をキャプチャする。 最後に,環状構造に配置されたノード群間の直接的相互作用を可能にするトポロジカルメッセージパッシングスキームを拡張した拡張セル型等方性ネットワークを導入し,マルチウェイ通信方式を提案する。

The irreducible complexity of natural phenomena has led Graph Neural Networks to be employed as a standard model to perform representation learning tasks on graph-structured data. While their capacity to capture local and global patterns is remarkable, the implications associated with long-range and higher-order dependencies pose considerable challenges to such models. This work starts with a theoretical framework to reveal the impact of network's width, depth, and graph topology on the over-squashing phenomena in message-passing neural networks. Then, the work drifts towards, higher-order interactions and multi-relational inductive biases via Topological Neural Networks. Such models propagate messages through higher-dimensional structures, providing shortcuts or additional routes for information flow. With this construction, the underlying computational graph is no longer coupled with the input graph structure, thus mitigating the aforementioned bottlenecks while accounting also for higher-order interactions. Inspired by Graph Attention Networks, two topological attention networks are proposed: Simplicial and Cell Attention Networks. The rationale behind these architecture is to leverage the extended notion of neighbourhoods provided by the arrangement of groups of nodes within a simplicial or cell complex to design anisotropic aggregations able to measure the importance of the information coming from different regions of the domain. By doing so, they capture dependencies that conventional Graph Neural Networks might miss. Finally, a multi-way communication scheme is introduced with Enhanced Cellular Isomorphism Networks, which augment topological message passing schemes to enable a direct interactions among groups of nodes arranged in ring-like structures.
翻訳日:2024-02-13 18:43:36 公開日:2024-02-10
# クエリベースミーティング要約における一貫性の検討--異なる埋め込み方法の比較研究

Investigating Consistency in Query-Based Meeting Summarization: A Comparative Study of Different Embedding Methods ( http://arxiv.org/abs/2402.06907v1 )

ライセンス: Link先を確認
Chen Jia-Chen (Oscar), Guillem Senabre, Allane Caron(参考訳) より高度なデータ分析技術が出現するにつれ、これらの技術がより複雑なタスクに応用され、日々の問題を解決することが期待されます。 テキスト要約は自然言語処理(NLP)分野における有名な応用の1つである。 これは、文書の山を扱う必要があるときに重要なコンテキストに基づいて、重要な情報で自動的に要約を生成することを目的としています。 要約技術は、キーポイントを短時間でキャプチャし、作業に利便性をもたらすのに役立つ。 適用可能な状況の1つは要約のミーティングであり、特に、長く、複雑で、多面的、多人数的な重要なミーティングである。 したがって、ミーティングから特定のコンテンツをレビューしたい場合、ミーティングの書き起こしで関連するスパンを見つけるのは難しく時間がかかるでしょう。 しかし、以前の作品のほとんどは、明確な文書構造と公式フォーマットを持つニュースレター、科学論文...etcの要約に重点を置いている。 書き起こしのような複雑な構造を持つ文書の場合、これらの文書は要約にはあまり適していないと思います。 さらに、要約の整合性は、NLPフィールドで議論されるのが一般的である。 提案する「qmsum: a new benchmark for query-based multi-domain meeting summarization」(qmsum: a new benchmark for query-based multi-domain meeting summarization)に着想を得た。 さらに,要約整合性を改善するために異なる単語埋め込み手法を適用して比較研究を行う。

With more and more advanced data analysis techniques emerging, people will expect these techniques to be applied in more complex tasks and solve problems in our daily lives. Text Summarization is one of famous applications in Natural Language Processing (NLP) field. It aims to automatically generate summary with important information based on a given context, which is important when you have to deal with piles of documents. Summarization techniques can help capture key points in a short time and bring convenience in works. One of applicable situation is meeting summarization, especially for important meeting that tend to be long, complicated, multi-topic and multi-person. Therefore, when people want to review specific content from a meeting, it will be hard and time-consuming to find the related spans in the meeting transcript. However, most of previous works focus on doing summarization for newsletters, scientific articles...etc, which have a clear document structure and an official format. For the documents with complex structure like transcripts, we think those works are not quite suitable for meeting summarization. Besides, the consistency of summary is another issue common to be discussed in NLP field. To conquer challenges of meeting summarization, we are inspired by "QMSum: A New Benchmark for Query-based Multi-domain Meeting Summarization" proposed by Microsoft and we also propose our Locater model designed to extract relevant spans based on given transcript and query, which are then summarized by Summarizer model. Furthermore, we perform a comparative study by applying different word embedding techniques to improve summary consistency.
翻訳日:2024-02-13 18:43:07 公開日:2024-02-10
# LLMは毒性を認識するか? 構造的毒性調査フレームワークと意味論的基準

Can LLMs Recognize Toxicity? Structured Toxicity Investigation Framework and Semantic-Based Metric ( http://arxiv.org/abs/2402.06900v1 )

ライセンス: Link先を確認
Hyukhun Koh, Dohyung Kim, Minwoo Lee, and Kyomin Jung(参考訳) 社会標準に準拠した大規模言語モデル (LLM) の開発において, 生成したテキストの毒性の存在を識別することが不可欠である。 既存の毒性指標の大部分は、特定の毒性データセットに基づいてトレーニングされたエンコーダモデルに依存している。 しかし、これらのエンコーダはout-of-distribution (ood)問題に影響を受けやすく、データセットで想定される毒性の定義に依存する。 本稿では, モデル応答が有害かどうかを識別するために, LLMを基盤とした自動ロバスト計量を導入する。 まず, 毒性因子を解析し, その後, LLMの内因性毒性特性を調べ, その妥当性を確認した。 その後, 評価データセット上では, llmsを毒性評価装置(latte)として評価し, 実験結果から, f1スコアの12ポイント向上, 有毒度測定において有意な成績を示した。 また、上流の毒性が下流の指標に影響を及ぼすことを示す。

In the pursuit of developing Large Language Models (LLMs) that adhere to societal standards, it is imperative to discern the existence of toxicity in the generated text. The majority of existing toxicity metrics rely on encoder models trained on specific toxicity datasets. However, these encoders are susceptible to out-of-distribution (OOD) problems and depend on the definition of toxicity assumed in a dataset. In this paper, we introduce an automatic robust metric grounded on LLMs to distinguish whether model responses are toxic. We start by analyzing the toxicity factors, followed by examining the intrinsic toxic attributes of LLMs to ascertain their suitability as evaluators. Subsequently, we evaluate our metric, LLMs As ToxiciTy Evaluators (LATTE), on evaluation datasets.The empirical results indicate outstanding performance in measuring toxicity, improving upon state-of-the-art metrics by 12 points in F1 score without training procedure. We also show that upstream toxicity has an influence on downstream metrics.
翻訳日:2024-02-13 18:42:39 公開日:2024-02-10
# GenTranslate: 大規模言語モデルは生成型多言語音声と機械翻訳器である

GenTranslate: Large Language Models are Generative Multilingual Speech and Machine Translators ( http://arxiv.org/abs/2402.06894v1 )

ライセンス: Link先を確認
Yuchen Hu, Chen Chen, Chao-Han Huck Yang, Ruizhe Li, Dong Zhang, Zhehuai Chen, Eng Siong Chng(参考訳) 大規模言語モデル(LLM)の最近の進歩は、表現誤りの低減と外部知識の組み込みによる多言語音声と機械翻訳の開発を前進させてきた。 しかし、どちらの翻訳タスクも一般的にビームサーチ復号とトップ1仮説選択を用いる。 これらの手法は、多種多様なN-best仮説の豊富な情報を十分に活用することができず、単一の高品質な出力シーケンスを必要とする翻訳タスクには適さない。 本稿では,N-best リストの多種多様な翻訳バージョンからより良い結果を生成するために LLM をベースとした,翻訳タスクのための新しい生成パラダイム "GenTranslate" を提案する。 LLMの豊かな言語知識と強力な推論能力を活用することで、我々の新しいパラダイムは、より高品質な翻訳結果を生成するために、Nベスト候補の豊かな情報を統合することができる。 さらに、LLM微調整をサポートするために、11言語で592K以上の仮説翻訳ペアを含むHypoTranslateデータセットを構築し、リリースする。 様々な音声および機械翻訳ベンチマーク(FLEURS、CoVoST-2、WMT)の実験により、我々のGenTranslateは最先端のモデルよりも大幅に優れていることが示された。

Recent advances in large language models (LLMs) have stepped forward the development of multilingual speech and machine translation by its reduced representation errors and incorporated external knowledge. However, both translation tasks typically utilize beam search decoding and top-1 hypothesis selection for inference. These techniques struggle to fully exploit the rich information in the diverse N-best hypotheses, making them less optimal for translation tasks that require a single, high-quality output sequence. In this paper, we propose a new generative paradigm for translation tasks, namely "GenTranslate", which builds upon LLMs to generate better results from the diverse translation versions in N-best list. Leveraging the rich linguistic knowledge and strong reasoning abilities of LLMs, our new paradigm can integrate the rich information in N-best candidates to generate a higher-quality translation result. Furthermore, to support LLM finetuning, we build and release a HypoTranslate dataset that contains over 592K hypotheses-translation pairs in 11 languages. Experiments on various speech and machine translation benchmarks (e.g., FLEURS, CoVoST-2, WMT) demonstrate that our GenTranslate significantly outperforms the state-of-the-art model.
翻訳日:2024-02-13 18:42:22 公開日:2024-02-10
# テスト時間拡張の理解

Understanding Test-Time Augmentation ( http://arxiv.org/abs/2402.06892v1 )

ライセンス: Link先を確認
Masanari Kimura(参考訳) テスト時間拡張(TTA)は、テスト中にデータ拡張を利用して平均出力を生成する非常に強力なヒューリスティックである。 TTAの実験的有効性にもかかわらず、その理論的側面についての議論は不十分である。 本稿では,TTAの理論的保証を与え,その挙動を明らかにすることを目的とする。

Test-Time Augmentation (TTA) is a very powerful heuristic that takes advantage of data augmentation during testing to produce averaged output. Despite the experimental effectiveness of TTA, there is insufficient discussion of its theoretical aspects. In this paper, we aim to give theoretical guarantees for TTA and clarify its behavior.
翻訳日:2024-02-13 18:42:03 公開日:2024-02-10
# 二段階強化学習とrlhfのための原理的ペナルティベース手法

Principled Penalty-based Methods for Bilevel Reinforcement Learning and RLHF ( http://arxiv.org/abs/2402.06886v1 )

ライセンス: Link先を確認
Han Shen, Zhuoran Yang, Tianyi Chen(参考訳) 最近、多くの機械学習タスクにバイレベル最適化が適用されている。 しかし、それらの応用は、良性構造を持つ静的目的関数が考慮される教師付き学習設定に制限されている。 しかし、インセンティブ設計、逆強化学習(RL)、人間からのフィードバック(RLHF)といった二段階問題は、しばしば、単純な静的な対象構造を超えた動的対象関数としてモデル化され、既存の二段階解を使用する上で重大な課題が生じる。 この新しい二レベル問題に取り組むために,我々は,ペナルティ定式化のレンズを通して二レベルrl問題を解決するための最初の原理付きアルゴリズムフレームワークを提案する。 我々は,問題景観とペナルティに基づく(政治)勾配アルゴリズムに関する理論的研究を行う。 シミュレーションによるアルゴリズムの有効性を,Stackelberg Markovゲーム,人間からのフィードバックとインセンティブ設計によるRLで実証する。

Bilevel optimization has been recently applied to many machine learning tasks. However, their applications have been restricted to the supervised learning setting, where static objective functions with benign structures are considered. But bilevel problems such as incentive design, inverse reinforcement learning (RL), and RL from human feedback (RLHF) are often modeled as dynamic objective functions that go beyond the simple static objective structures, which pose significant challenges of using existing bilevel solutions. To tackle this new class of bilevel problems, we introduce the first principled algorithmic framework for solving bilevel RL problems through the lens of penalty formulation. We provide theoretical studies of the problem landscape and its penalty-based (policy) gradient algorithms. We demonstrate the effectiveness of our algorithms via simulations in the Stackelberg Markov game, RL from human feedback and incentive design.
翻訳日:2024-02-13 18:41:57 公開日:2024-02-10
# DimVis: 説明可能なブースティングマシンによる視覚クラスタの次元化の解釈

DimVis: Interpreting Visual Clusters in Dimensionality Reduction With Explainable Boosting Machine ( http://arxiv.org/abs/2402.06885v1 )

ライセンス: Link先を確認
Parisa Salmanian, Angelos Chatzimparmpas, Ali Can Karaca, Rafael M. Martins(参考訳) t-SNEやUMAPのようなDR技術は、複雑なデータセットを単純な視覚表現に変換するのに人気がある。 しかし、一般的なデータセットパターンを明らかにするのに効果的であるが、これらの方法はアーティファクトを導入し、解釈可能性の問題に苦しむ可能性がある。 本稿では, drプロジェクションの解釈アシスタントとして, 教師付き説明可能ブースティングマシン(ebm)モデル(ユーザ選択データに基づく学習)を用いた可視化ツールdimvisを提案する。 UMAPプロジェクションのインタラクティブな探索により,視覚クラスタの特徴的関連性を解釈し,高次元データ解析を容易にする。 具体的には、DimVisはコントラストのあるEMMモデルを使用して、リアルタイムにトレーニングされ、関心のクラスタ内と外部のデータを区別する。 EBMの本質的に説明可能な性質を生かして、このモデルを用いて、ESMモデルの特徴的重要性に基づいたランキングにおいて、クラスタ自体をシングルとペアの特徴比較によって解釈する。 DimVisの適用性と有効性は,実世界のデータセットを含む2つのユースケースを通じて実証され,今後の研究の限界と可能性についても論じる。

Dimensionality Reduction (DR) techniques such as t-SNE and UMAP are popular for transforming complex datasets into simpler visual representations. However, while effective in uncovering general dataset patterns, these methods may introduce artifacts and suffer from interpretability issues. This paper presents DimVis, a visualization tool that employs supervised Explainable Boosting Machine (EBM) models (trained on user-selected data of interest) as an interpretation assistant for DR projections. Our tool facilitates high-dimensional data analysis by providing an interpretation of feature relevance in visual clusters through interactive exploration of UMAP projections. Specifically, DimVis uses a contrastive EBM model that is trained in real time to differentiate between the data inside and outside a cluster of interest. Taking advantage of the inherent explainable nature of the EBM, we then use this model to interpret the cluster itself via single and pairwise feature comparisons in a ranking based on the EBM model's feature importance. The applicability and effectiveness of DimVis are demonstrated through two use cases involving real-world datasets, and we also discuss the limitations and potential directions for future research.
翻訳日:2024-02-13 18:41:40 公開日:2024-02-10
# OpenFedLLM: フェデレートラーニングによる分散プライベートデータによる大規模言語モデルのトレーニング

OpenFedLLM: Training Large Language Models on Decentralized Private Data via Federated Learning ( http://arxiv.org/abs/2402.06954v1 )

ライセンス: Link先を確認
Rui Ye, Wenhao Wang, Jingyi Chai, Dihan Li, Zexi Li, Yinda Xu, Yaxin Du, Yanfeng Wang, Siheng Chen(参考訳) 大規模な公開データに基づいてトレーニングされた大規模言語モデル(LLM)は、さまざまな分野で大きな成功を収めている。 より多くのデータがパフォーマンス向上に寄与する一方で、数年のうちに高品質な公開データが枯渇する、という不満の現実がある。 本稿では,複数のデータ所有者が生データを送信せずに協調的に共有モデルを訓練するFederated Learning (FL) を通じて,未利用の分散プライベートデータに対する協調的・プライバシ保護LDMトレーニングを行う。 そこで我々はOpenFedLLMという,簡潔で統合された,研究に優しいフレームワーク/コードベースを構築した。 命令追従能力を高めるためのフェデレーション命令チューニング、人間の値に合わせるためのフェデレーション値アライメント、および7つの代表FLアルゴリズムをカバーする。 さらに、openfedllmは、8つのトレーニングデータセットをカバーするさまざまなドメインのトレーニングをサポートし、30以上の評価メトリクスをカバーする総合的な評価を提供する。 広範にわたる実験により、全てのFLアルゴリズムがLLMの訓練において局所的な訓練よりも優れており、様々な環境において明らかな性能改善が示されている。 特に、金融ベンチマークにおいて、FLアルゴリズムを適用することで微調整されたLlama2-7Bは、個別のトレーニングで得られたモデルは不可能であり、クライアントがFLに参加する強い動機を示す。 コードはhttps://github.com/rui-ye/openfedllmで入手できる。

Trained on massive publicly available data, large language models (LLMs) have demonstrated tremendous success across various fields. While more data contributes to better performance, a disconcerting reality is that high-quality public data will be exhausted in a few years. In this paper, we offer a potential next step for contemporary LLMs: collaborative and privacy-preserving LLM training on the underutilized distributed private data via federated learning (FL), where multiple data owners collaboratively train a shared model without transmitting raw data. To achieve this, we build a concise, integrated, and research-friendly framework/codebase, named OpenFedLLM. It covers federated instruction tuning for enhancing instruction-following capability, federated value alignment for aligning with human values, and 7 representative FL algorithms. Besides, OpenFedLLM supports training on diverse domains, where we cover 8 training datasets; and provides comprehensive evaluations, where we cover 30+ evaluation metrics. Through extensive experiments, we observe that all FL algorithms outperform local training on training LLMs, demonstrating a clear performance improvement across a variety of settings. Notably, in a financial benchmark, Llama2-7B fine-tuned by applying any FL algorithm can outperform GPT-4 by a significant margin while the model obtained through individual training cannot, demonstrating strong motivation for clients to participate in FL. The code is available at https://github.com/rui-ye/OpenFedLLM.
翻訳日:2024-02-13 18:35:59 公開日:2024-02-10
# 雑音中規模量子デバイスを用いたクロストーク誤差の回路忠実性への影響評価

Estimating the Effect of Crosstalk Error on Circuit Fidelity Using Noisy Intermediate-Scale Quantum Devices ( http://arxiv.org/abs/2402.06952v1 )

ライセンス: Link先を確認
Sovanmonynuth Heng, Myeongseong Go, Youngsun Han(参考訳) 現在の技術の進歩は、量子コンピューティングコミュニティの関心を、コンピュータのパワーが実用的応用において古典的コンピュータに勝る、短期的デバイスの可能性に向けている。 未解決の問題は、これらのデバイスに固有のノイズが克服できるかどうか、あるいは潜在的な量子的優位性が制限されるかどうかに関するものである。 クロストークは、ノイズの多い中間スケール量子 (NISQ) システムの主要なノイズ源の1つであり、ハードウェア設計において根本的な課題であることは間違いない。 並列命令間のクロストークは量子状態を破損させ、不正なプログラム実行を引き起こす。 本研究では,NISQコンピュータにおけるクロストーク誤り効果の包括的解析を行う。 提案手法は,マルチキュービットデバイスにおけるクロストークエラーを特徴付けるための極めて単純かつ実用的な手法である。 特に、ランダム化ベンチマーク(RB)と同時ランダム化ベンチマーク(SRB)プロトコルを組み合わせて、相関制御NOT(CNOT)ゲートからクロストークエラーを特徴付ける。 このプロトコルを実験的に5- \, 7-qubit デバイス上で実証する。 実験の結果,2つの異なるibm量子デバイスのクロストーク誤りモデルが実証され,マシン,量子ビット数,量子ボリューム,プロセッサ,トポロジーと誤差変動を比較した。 次に、命令障壁を挿入することで、異なるベンチマークにおける回路の忠実度を最大3.06倍に向上させることを確認し、実際にほぼ最適のクロストークを緩和するIBMの量子ノイズデバイスと比較する。 最も重要なことは、量子演算が量子魔法を乱すことなく実行できることを保証するための洞察を与えることだ。

Current advancements in technology have focused the attention of the quantum computing community toward exploring the potential of near-term devices whose computing power surpasses that of classical computers in practical applications. An unresolved central question revolves around whether the inherent noise in these devices can be overcome or whether any potential quantum advantage would be limited. There is no doubt that crosstalk is one of the main sources of noise in noisy intermediate-scale quantum (NISQ) systems, and it poses a fundamental challenge to hardware designs. Crosstalk between parallel instructions can corrupt quantum states and cause incorrect program execution. In this study, we present a comprehensive analysis of the crosstalk error effect on NISQ computers. Our approach is extremely straightforward and practical for characterizing the crosstalk error of various multi-qubit devices. In particular, we combine the randomized benchmarking (RB) and simultaneous randomized benchmarking (SRB) protocol to characterize the crosstalk error from the correlation controlled-NOT (CNOT) gate. We demonstrate this protocol experimentally on 5- \& 7-qubit devices. Our results demonstrate the crosstalk error model of two different IBM quantum devices over the experimental week and compare the error variation against the machine, number of qubits, quantum volume, processor, and topology of the IBM quantum devices. We then confirm the improvement in the circuit fidelity on different benchmarks by up to 3.06x via inserting an instruction barrier, as compared with an IBM quantum noisy device which offers near-optimal crosstalk mitigation in practice. Most importantly, we provide insight to ensure that the quantum operation can perform its quantum magic undisturbed.
翻訳日:2024-02-13 18:35:15 公開日:2024-02-10
# ロバストな視覚カメラ再局在のためのセマンティックオブジェクトレベルモデリング

Semantic Object-level Modeling for Robust Visual Camera Relocalization ( http://arxiv.org/abs/2402.06951v1 )

ライセンス: Link先を確認
Yifan Zhu, Lingjuan Miao, Haitao Wu, Zhiqiang Zhou, Weiyi Chen, Longwen Wu(参考訳) 視覚の再ローカライズは、移動ロボットの自律的な視覚ローカライズとナビゲーションに不可欠である。 CNNに基づくオブジェクト検出アルゴリズムの改善により、特に古典的手法が失敗する視点において、視覚的再局在の堅牢性が大幅に向上する。 しかし、軸方向の物体検出によって生成される楕円体(クワッドリック)は、オブジェクトレベルの表現の精度を制限し、視覚的再局在システムの性能を低下させる可能性がある。 本稿では,オブジェクトの楕円形表現のためのオブジェクトレベルの自動ボクセルモデリング手法を提案する。 視覚的再局在化については,2次元装着楕円体と3次元正確な楕円体の投影特性をフル活用するために,カメラポーズ回復のためのより良いポーズ最適化戦略を設計する。 これらのモジュールはすべて、ビジュアルSLAMシステムに完全に介在している。 実験結果から,我々の意味的オブジェクトレベルマッピングとオブジェクトベースの視覚的再局在化手法は,新しい視点へのロバスト性の観点から視覚的再局在化の性能を著しく向上させることが示された。

Visual relocalization is crucial for autonomous visual localization and navigation of mobile robotics. Due to the improvement of CNN-based object detection algorithm, the robustness of visual relocalization is greatly enhanced especially in viewpoints where classical methods fail. However, ellipsoids (quadrics) generated by axis-aligned object detection may limit the accuracy of the object-level representation and degenerate the performance of visual relocalization system. In this paper, we propose a novel method of automatic object-level voxel modeling for accurate ellipsoidal representations of objects. As for visual relocalization, we design a better pose optimization strategy for camera pose recovery, to fully utilize the projection characteristics of 2D fitted ellipses and the 3D accurate ellipsoids. All of these modules are entirely intergrated into visual SLAM system. Experimental results show that our semantic object-level mapping and object-based visual relocalization methods significantly enhance the performance of visual relocalization in terms of robustness to new viewpoints.
翻訳日:2024-02-13 18:33:50 公開日:2024-02-10
# NLPタスク用にトレーニング済みのトランスフォーマーを微調整する場合、複数のオプティマイザを試すべきだろうか? ハイパーパラメータをチューニングすべきか?

Should I try multiple optimizers when fine-tuning pre-trained Transformers for NLP tasks? Should I tune their hyperparameters? ( http://arxiv.org/abs/2402.06948v1 )

ライセンス: Link先を確認
Nefeli Gkouti, Prodromos Malakasiotis, Stavros Toumpis, Ion Androutsopoulos(参考訳) nlp researchは、さまざまなニューラルモデルアーキテクチャとサイズ、データセット、トレーニング目標、転送学習技術を調査している。 しかし、トレーニング中のオプティマイザの選択は、それほど広く調査されていない。 典型的には、いくつかの確率勾配降下 (sgd) の変種が採用され、多くの変種の中から選択され、不明瞭な基準を使い、しばしば最適化器のハイパーパラメータを最小または全く調整しない。 5つのGLUEデータセットと2つのモデル(DistilBERTとDistilRoBERTa)と7つの人気のあるオプティマイザ(SGD、SGD、Momentum、Adam、AdaMax、Nadam、AdamW、AdaBound)を実験した結果、オプティマイザのハイパーパラメータがチューニングされると、トレーニング損失の違いにもかかわらず、5つのより詳細な(適応的な)オプティマイザ間でテストパフォーマンスに実質的な違いはないことがわかった。 さらに、学習率だけをチューニングすることは、ほとんどの場合、すべてのハイパーパラメータをチューニングするのと同じくらいよい。 したがって、最適な最適化(例えばAdam)を選択して、学習率のみを調整することを推奨します。 ハイパーパラメータを調整できない場合、Momentum を用いた SGD が最適である。

NLP research has explored different neural model architectures and sizes, datasets, training objectives, and transfer learning techniques. However, the choice of optimizer during training has not been explored as extensively. Typically, some variant of Stochastic Gradient Descent (SGD) is employed, selected among numerous variants, using unclear criteria, often with minimal or no tuning of the optimizer's hyperparameters. Experimenting with five GLUE datasets, two models (DistilBERT and DistilRoBERTa), and seven popular optimizers (SGD, SGD with Momentum, Adam, AdaMax, Nadam, AdamW, and AdaBound), we find that when the hyperparameters of the optimizers are tuned, there is no substantial difference in test performance across the five more elaborate (adaptive) optimizers, despite differences in training loss. Furthermore, tuning just the learning rate is in most cases as good as tuning all the hyperparameters. Hence, we recommend picking any of the best-behaved adaptive optimizers (e.g., Adam) and tuning only its learning rate. When no hyperparameter can be tuned, SGD with Momentum is the best choice.
翻訳日:2024-02-13 18:32:59 公開日:2024-02-10
# ibmの量子コンピュータ上の普遍的絡み合いゲートのフル量子プロセストモグラフィー

Full Quantum Process Tomography of a Universal Entangling Gate on an IBM's Quantum Computer ( http://arxiv.org/abs/2402.06946v1 )

ライセンス: Link先を確認
Muhammad AbuGhanem(参考訳) 量子力学の特徴付けは、量子物理学、量子情報科学、量子計算の要点である。 入力基底状態とそれらの複雑な重ね合わせを操作する量子ゲートの精度はパラマウントである。 本研究では、実量子ハードウェアを用いて、普遍的な2量子エンタングゲートであるSQSCZゲートを徹底的に解析する。 このゲートはスワップの平方根(\sqrt{swap}$)と制御されたzの平方根(\sqrt{cz}$)の融合であり、制御されていないゲートを含むユニバーサルゲートを構築するための基本的な要素である。 まず、量子過程トモグラフィー(qpt)の背後にある理論を説明し、choi表現を利用したqptアルゴリズムとともに、量子過程の \textit{choi-jamiolkowski}同型あるいはchoi行列表現を探索する。 その後、トランスモンベースの超伝導量子ビットコンピュータを用いて、SQSCZゲートの実験的実現に関する詳細な知見を提供する。 ノイズの多い中規模量子コンピュータ(NISQ)上でゲートの性能を総合的に評価するために、IBM QuantumのシミュレータとIBM Quantumの実際の量子コンピュータの両方を用いて、様々な環境でQPT実験を行う。 QPT実験でChoi行列を活用することで、量子演算の包括的特徴付けが可能になる。 解析の結果,SQSCZゲートの圧縮性およびノイズ特性が明らかになり,プロセスの忠実度はそれぞれ97.27098.%,8.99383.%となった。 これらの発見は、量子計算の領域における理論的理解と実践的応用の進展に有望な意味を持っている。

Characterizing quantum dynamics is a cornerstone pursuit across quantum physics, quantum information science, and quantum computation. The precision of quantum gates in manipulating input basis states and their intricate superpositions is paramount. In this study, we conduct a thorough analysis of the SQSCZ gate, a universal two-qubit entangling gate, using real quantum hardware. This gate is a fusion of the square root of SWAP ($\sqrt{SWAP}$) and the square root of controlled-Z ($\sqrt{CZ}$) gates, serves as a foundational element for constructing universal gates, including the controlled-NOT gate. we begin by explaining the theory behind quantum process tomography (QPT), exploring the \textit{Choi-Jamiolkowski} isomorphism or the Choi matrix representation of the quantum process, along with a QPT algorithm utilizing Choi representation. Subsequently, we provide detailed insights into the experimental realization of the SQSCZ gate using a transmon-based superconducting qubit quantum computer. To comprehensively assess the gate's performance on a noisy intermediate-scale quantum (NISQ) computer, we conduct QPT experiments across diverse environments, employing both IBM Quantum's simulators and IBM Quantum's real quantum computer. Leveraging the Choi matrix in our QPT experiments allows for a comprehensive characterization of our quantum operations. Our analysis unveils commendable fidelities and noise properties of the SQSCZ gate, with process fidelities reaching $97.27098\%$ and $88.99383\%$, respectively. These findings hold promising implications for advancing both theoretical understanding and practical applications in the realm of quantum computation.
翻訳日:2024-02-13 18:32:27 公開日:2024-02-10
# 自動タイポグラフィポスター生成のための評価指標

Evaluation Metrics for Automated Typographic Poster Generation ( http://arxiv.org/abs/2402.06945v1 )

ライセンス: Link先を確認
S\'ergio M. Rebelo, J. J. Merelo, Jo\~ao Bicker, Penousal Machado(参考訳) 計算設計アプローチはタイポグラフィーデザインの生成を促進するが、これらの設計を評価することは難しい課題である。 本稿では,テキストの可視性,デザインの視覚的品質を評価する美学,コンテンツ意味論を効果的に伝達する意味的特徴を評価できる,タイポグラフィーデザイン評価のためのヒューリスティックな指標のセットを提案する。 我々は,タイポグラフィポスター生成のための制約付き進化的アプローチを試し,提案する評価指標を様々な設定に取り入れ,妥当性指標を制約として扱う。 また、感情認識を統合してテキスト意味を自動識別し、そのアプローチの性能と視覚特性の分析を行う。

Computational Design approaches facilitate the generation of typographic design, but evaluating these designs remains a challenging task. In this paper, we propose a set of heuristic metrics for typographic design evaluation, focusing on their legibility, which assesses the text visibility, aesthetics, which evaluates the visual quality of the design, and semantic features, which estimate how effectively the design conveys the content semantics. We experiment with a constrained evolutionary approach for generating typographic posters, incorporating the proposed evaluation metrics with varied setups, and treating the legibility metrics as constraints. We also integrate emotion recognition to identify text semantics automatically and analyse the performance of the approach and the visual characteristics outputs.
翻訳日:2024-02-13 18:31:56 公開日:2024-02-10
# 重み付き仮想観測による高能率インクリメンタルリーフ更新

Efficient Incremental Belief Updates Using Weighted Virtual Observations ( http://arxiv.org/abs/2402.06940v1 )

ライセンス: Link先を確認
David Tolpin(参考訳) 本稿では,確率的プログラムで表されるベイズ統計モデルにおけるモンテカルロ推論の文脈における漸進的信念更新問題に対するアルゴリズム的解を提案する。 モデルとサンプル近似後部が与えられた場合,提案手法は重み付けされた観測の集合を構築し,推論が同じ後部となるようにモデルを条件付ける。 この問題は,マルチレベルモデリングやインクリメンタル推論,プライバシ制約の存在下での推論などにおいて発生します。 まず、仮想観測のセットを選択し、その後、再構成された後方が元の後方と一致するか、あるいは近いように、計算効率のよい最適化手順を通じて観測重みを求める。 このアプローチの効率性と堅牢性を示すために,多くの実践例とケーススタディにソリューションを実装し,適用する。 提案した参照実装は確率的プログラミング言語や推論アルゴリズムに非依存であり、ほとんどの主流の確率的プログラミング環境に適用することができる。

We present an algorithmic solution to the problem of incremental belief updating in the context of Monte Carlo inference in Bayesian statistical models represented by probabilistic programs. Given a model and a sample-approximated posterior, our solution constructs a set of weighted observations to condition the model such that inference would result in the same posterior. This problem arises e.g. in multi-level modelling, incremental inference, inference in presence of privacy constraints. First, a set of virtual observations is selected, then, observation weights are found through a computationally efficient optimization procedure such that the reconstructed posterior coincides with or closely approximates the original posterior. We implement and apply the solution to a number of didactic examples and case studies, showing efficiency and robustness of our approach. The provided reference implementation is agnostic to the probabilistic programming language or the inference algorithm, and can be applied to most mainstream probabilistic programming environments.
翻訳日:2024-02-13 18:31:42 公開日:2024-02-10
# ネゴシエーション機能を用いた分散インフラストラクチャの効率的なリソーススケジューリング

Efficient Resource Scheduling for Distributed Infrastructures Using Negotiation Capabilities ( http://arxiv.org/abs/2402.06938v1 )

ライセンス: Link先を確認
Junjie Chu and Prashant Singh and Salman Toor(参考訳) 過去数十年間、情報とインターネット技術の急速な発展は大量のデータと情報を生み出してきた。 情報爆発は、多くの企業や個人がクラウドにアプリケーションを置くためにクラウドコンピューティングのインフラを借りようとするきっかけとなる。 しかし、クラウドコンピューティングプロバイダとクライアントの間の合意は、しばしば効率的ではない。 プロバイダのクラウドコンピューティングインフラストラクチャのアイドルネスや、クライアントへの追加コストなど、多くの要因が効率に影響を与える。 可能な解決策の1つは、交渉結果に応じて包括的な交渉ゲーム(交渉の一種)とスケジュールリソースを導入することである。 ファジィ論理に基づく資源スケジューリングのためのエージェント型自動交渉システムを提案する。 提案手法は,1対1の自動交渉プロセスを完了し,プロバイダとクライアントに最適なオファーを生成することができる。 異なるメンバ関数,ファジィルールセット,ネゴシエーションシナリオがシステム最適化オファーに与える影響を比較した。 提案手法は,より効率的に資源を活用でき,解釈可能であり,柔軟性が高く,カスタマイズ可能であることを結論付けることができる。 ファジィネゴシエーションシステムに代わる機械学習モデルのトレーニングに成功し,処理速度を向上した。 この記事では、提案されたシステムと機械学習モデルの将来的な改善についても強調する。 すべてのコードとデータは、オープンソースリポジトリから入手できる。

In the past few decades, the rapid development of information and internet technologies has spawned massive amounts of data and information. The information explosion drives many enterprises or individuals to seek to rent cloud computing infrastructure to put their applications in the cloud. However, the agreements reached between cloud computing providers and clients are often not efficient. Many factors affect the efficiency, such as the idleness of the providers' cloud computing infrastructure, and the additional cost to the clients. One possible solution is to introduce a comprehensive, bargaining game (a type of negotiation), and schedule resources according to the negotiation results. We propose an agent-based auto-negotiation system for resource scheduling based on fuzzy logic. The proposed method can complete a one-to-one auto-negotiation process and generate optimal offers for the provider and client. We compare the impact of different member functions, fuzzy rule sets, and negotiation scenario cases on the offers to optimize the system. It can be concluded that our proposed method can utilize resources more efficiently and is interpretable, highly flexible, and customizable. We successfully train machine learning models to replace the fuzzy negotiation system to improve processing speed. The article also highlights possible future improvements to the proposed system and machine learning models. All the codes and data are available in the open-source repository.
翻訳日:2024-02-13 18:31:27 公開日:2024-02-10
# 分布シフト下における3次元画像分割の不確かさ推定手法の評価

Assessing Uncertainty Estimation Methods for 3D Image Segmentation under Distribution Shifts ( http://arxiv.org/abs/2402.06937v1 )

ライセンス: Link先を確認
Masoumeh Javanbakhat, Md Tasnimul Hasan, Cristoph Lippert(参考訳) 近年、機械学習は様々な分野で広く採用されているが、医療画像に基づく疾患の検出と診断への応用は、実世界のデータの分散シフトのために依然として困難である。 実際の設定では、デプロイされたモデルはトレーニングデータセット、特に健康領域で大きく異なるサンプルに遭遇し、潜在的なパフォーマンス上の問題を引き起こす。 この制限は、健康アプリケーションにおけるディープラーニングモデルの表現性と信頼性を妨げる。 したがって、保健部門における分布シフトの文脈において、信頼性の高い不確実性推定を行える方法を特定することが重要となる。 本稿では,切削エッジベイズ法と非ベイズ法を用いて分布シフトサンプルの検出を行い,セグメント化タスクにおける信頼性と信頼性の確保を目指す。 具体的には、3つの異なる不確かさ推定法を比較し、それぞれが後方分布のユニモーダルあるいはマルチモーダルな側面を捉えるように設計した。 本研究は, 後方分布におけるマルチモーダル特性に対処できる手法が, 信頼性の高い不確実性推定を提供することを示した。 この研究は、医療におけるディープラーニングの有用性の向上に寄与し、診断予測をより堅牢で信頼性の高いものにする。

In recent years, machine learning has witnessed extensive adoption across various sectors, yet its application in medical image-based disease detection and diagnosis remains challenging due to distribution shifts in real-world data. In practical settings, deployed models encounter samples that differ significantly from the training dataset, especially in the health domain, leading to potential performance issues. This limitation hinders the expressiveness and reliability of deep learning models in health applications. Thus, it becomes crucial to identify methods capable of producing reliable uncertainty estimation in the context of distribution shifts in the health sector. In this paper, we explore the feasibility of using cutting-edge Bayesian and non-Bayesian methods to detect distributionally shifted samples, aiming to achieve reliable and trustworthy diagnostic predictions in segmentation task. Specifically, we compare three distinct uncertainty estimation methods, each designed to capture either unimodal or multimodal aspects in the posterior distribution. Our findings demonstrate that methods capable of addressing multimodal characteristics in the posterior distribution, offer more dependable uncertainty estimates. This research contributes to enhancing the utility of deep learning in healthcare, making diagnostic predictions more robust and trustworthy.
翻訳日:2024-02-13 18:31:08 公開日:2024-02-10
# occluded画像分類のための潜在強調オートエンコーダ

Latent Enhancing AutoEncoder for Occluded Image Classification ( http://arxiv.org/abs/2402.06936v1 )

ライセンス: Link先を確認
Ketan Kotwal, Tanay Deshmukh, and Preeti Gopal(参考訳) 大きなオクルージョンにより、画像の分類精度が著しく低下する。 推論中、様々な種類の未発見のオクルージョンが分類モデルに分散データを導入し、精度が50%まで低下する。 閉塞は空間的に連結した領域を包含するので、特徴再構成を含む従来の手法は分類性能を高めるには不十分である。 LEARN: Latent Enhancing feature Reconstruction Network - 分類モデルの重みを変更することなく、分類モデルに組み込むことができる自動エンコーダベースのネットワーク。 再構築と分類の損失に加えて、LEARNのトレーニングは、潜伏空間上で計算されたクラス内およびクラス間損失を効果的に組み合わせている。 OccludedPASCAL3D+データセットでは、提案されたLEARNは標準的な分類モデル(VGG16とResNet-50)を、最先端の手法よりも最大2%高いマージンで上回っている。 クロスデータセットテストでは,最先端手法に比べて平均分類精度が5%以上向上した。 全ての実験において、我々のモデルは、分配データに対する優れた精度を一貫して維持する。

Large occlusions result in a significant decline in image classification accuracy. During inference, diverse types of unseen occlusions introduce out-of-distribution data to the classification model, leading to accuracy dropping as low as 50%. As occlusions encompass spatially connected regions, conventional methods involving feature reconstruction are inadequate for enhancing classification performance. We introduce LEARN: Latent Enhancing feAture Reconstruction Network -- An auto-encoder based network that can be incorporated into the classification model before its classifier head without modifying the weights of classification model. In addition to reconstruction and classification losses, training of LEARN effectively combines intra- and inter-class losses calculated over its latent space -- which lead to improvement in recovering latent space of occluded data, while preserving its class-specific discriminative information. On the OccludedPASCAL3D+ dataset, the proposed LEARN outperforms standard classification models (VGG16 and ResNet-50) by a large margin and up to 2% over state-of-the-art methods. In cross-dataset testing, our method improves the average classification accuracy by more than 5% over the state-of-the-art methods. In every experiment, our model consistently maintains excellent accuracy on in-distribution data.
翻訳日:2024-02-13 18:30:48 公開日:2024-02-10
# learning attributed graphlets:trainable attributeを用いたgraphletsによる予測グラフマイニング

Learning Attributed Graphlets: Predictive Graph Mining by Graphlets with Trainable Attribute ( http://arxiv.org/abs/2402.06932v1 )

ライセンス: Link先を確認
Tajima Shinji, Ren Sugihara, Ryota Kitahara and Masayuki Karasuyama(参考訳) グラフ分類問題は広く研究されてきたが、高い予測性能を持つ解釈可能なモデルの実現は依然として課題である。 本稿では,RAGRA(Learning Attributed GRAphlets)と呼ばれる属性付きグラフデータの解釈可能な分類アルゴリズムを提案する。 LAGRAは、属性グラフレット(AG)と呼ばれる小さな属性グラフの重み付けを同時に学習し、属性ベクトルを最適化する。 これにより、異なるクラスを識別するのに強く寄与する部分グラフ構造とその属性ベクトルの組み合わせを得ることができる。 LAGRAの重要な特徴は、トレーニングデータセットのすべてのサブグラフ構造がAGの候補構造とみなすことができることである。 このアプローチは、潜在的に重要な部分グラフをすべて網羅的に調べることができるが、明らかに、単純な実装は大量の計算を必要とする。 そこで本研究では,近位勾配降下とグラフマイニングツリー探索を組み合わせた効率的な刈り取り戦略を提案する。 我々のプルーニング戦略は、プルーニングなしでソリューションの品質が結果と比べて維持されることを保証する。 我々は、グラフニューラルネットワークを含む既存の標準アルゴリズムに比較してlagraの予測性能が優れているか、同等であることを示すとともに、少数のagsのみを解釈可能な方法で使用することを示した。

The graph classification problem has been widely studied; however, achieving an interpretable model with high predictive performance remains a challenging issue. This paper proposes an interpretable classification algorithm for attributed graph data, called LAGRA (Learning Attributed GRAphlets). LAGRA learns importance weights for small attributed subgraphs, called attributed graphlets (AGs), while simultaneously optimizing their attribute vectors. This enables us to obtain a combination of subgraph structures and their attribute vectors that strongly contribute to discriminating different classes. A significant characteristics of LAGRA is that all the subgraph structures in the training dataset can be considered as a candidate structures of AGs. This approach can explore all the potentially important subgraphs exhaustively, but obviously, a naive implementation can require a large amount of computations. To mitigate this issue, we propose an efficient pruning strategy by combining the proximal gradient descent and a graph mining tree search. Our pruning strategy can ensure that the quality of the solution is maintained compared to the result without pruning. We empirically demonstrate that LAGRA has superior or comparable prediction performance to the standard existing algorithms including graph neural networks, while using only a small number of AGs in an interpretable manner.
翻訳日:2024-02-13 18:30:26 公開日:2024-02-10
# ORIENT: 6Gにおける遅延感度応用のための優先度を考慮したエネルギー効率向上手法

ORIENT: A Priority-Aware Energy-Efficient Approach for Latency-Sensitive Applications in 6G ( http://arxiv.org/abs/2402.06931v1 )

ライセンス: Link先を確認
Masoud Shokrnezhad and Tarik Taleb(参考訳) 6Gの到来予想は、コンピューティングとネットワークにおけるエネルギー消費の増加に対する懸念が高まっている。 接続デバイスやリソース要求アプリケーションの増加は、エネルギー資源にとって前例のない課題である。 持続可能なリソース割り当て戦略は過去にも議論されてきたが、これらの取り組みは主に単一ドメインのオーケストレーションに焦点を当てている。 このギャップに対処するために、PIRAと呼ばれるサービスインスタンス配置と割り当て、経路選択、リクエスト優先順位付けの連立問題を調査する。 目的関数は、システム全体の利益を同時支援要求数の関数として最大化するとともに、長期間にわたってエネルギー消費を最小化することである。 さらに、エンド・ツー・エンドのレイテンシ要件とリソース容量の制約がコンピューティングとネットワークリソースに考慮され、キューイング理論を用いて要求に対する情報年齢(aoi)を推定する。 非線型な方法で問題を定式化した後、NPの硬さを証明し、ORIENTと呼ばれる方法を提案する。 この方法はDouble Dueling Deep Q-Learning(D3QL)メカニズムに基づいており、状態符号化にグラフニューラルネットワーク(GNN)を利用する。 大規模な数値シミュレーションにより、ORIENTは様々なシステムサイズと要求数に対して、ほぼ最適解が得られることを示した。

Anticipation for 6G's arrival comes with growing concerns about increased energy consumption in computing and networking. The expected surge in connected devices and resource-demanding applications presents unprecedented challenges for energy resources. While sustainable resource allocation strategies have been discussed in the past, these efforts have primarily focused on single-domain orchestration or ignored the unique requirements posed by 6G. To address this gap, we investigate the joint problem of service instance placement and assignment, path selection, and request prioritization, dubbed PIRA. The objective function is to maximize the system's overall profit as a function of the number of concurrently supported requests while simultaneously minimizing energy consumption over an extended period of time. In addition, end-to-end latency requirements and resource capacity constraints are considered for computing and networking resources, where queuing theory is utilized to estimate the Age of Information (AoI) for requests. After formulating the problem in a non-linear fashion, we prove its NP-hardness and propose a method, denoted ORIENT. This method is based on the Double Dueling Deep Q-Learning (D3QL) mechanism and leverages Graph Neural Networks (GNNs) for state encoding. Extensive numerical simulations demonstrate that ORIENT yields near-optimal solutions for varying system sizes and request counts.
翻訳日:2024-02-13 18:30:05 公開日:2024-02-10
# lifi: きめ細かな制御コードによる軽量なテキスト生成

LiFi: Lightweight Controlled Text Generation with Fine-Grained Control Codes ( http://arxiv.org/abs/2402.06930v1 )

ライセンス: Link先を確認
Chufan Shi, Deng Cai, Yujiu Yang(参考訳) テキスト生成の急速に発展する分野では、より正確な制御機構の需要がますます高まっている。 そこで本研究では,制御テキスト生成のための微粒化制御による軽量な手法であるLIFIを提案する。 事前訓練された言語モデルを個別、分類的、排他的な制御コードに従うように訓練する以前の研究とは異なり、LIFIは連続的、相対的、非排他的な制御コードの指導の下で制御されたテキスト生成を学ぶ。 これらのきめ細かいコードは属性分類器から自動的に派生し、最初は少量のラベル付きデータで訓練され、その後、豊富なラベル付きデータをラベル付けするために使われる。 さらに, より効率的な制御を実現するために, パラメータと計算効率を向上し, 事前学習した言語モデルを操る微粒化制御符号をアダプタに組み込む。 我々は、感情制御とトピック制御という従来の2つのタスクと、新たに提案された1つのタスク-スティリスティック・ノベルライティングに基づいてLIFIを評価する。 提案手法の有効性を総合実験により検証し,既存のベースラインに対する性能向上を実証した。

In the rapidly evolving field of text generation, the demand for more precise control mechanisms has become increasingly apparent. To address this need, we present a novel methodology, LIFI, which offers a lightweight approach with fine-grained control for controlled text generation. Unlike previous studies that train pre-trained language models to follow discrete, categorical, and exclusive control codes, LIFI learns controlled text generation under the guidance of continuous, relative, and nonexclusive control codes. These fine-grained codes are automatically derived from an attribute classifier, initially trained with a small amount of labeled data and subsequently employed to label abundant unlabeled data, thus garnering more extensive supervision signals. Moreover, to achieve efficient control, we incorporate the fine-grained control codes with adapters, a parameter- and compute-efficient way to steer a pre-trained language model. We evaluate LIFI on two conventional tasks -- sentiment control and topic control -- and one newly proposed task -- stylistic novel writing. Comprehensive experimental results validate the effectiveness of our proposed methods, demonstrating substantial performance improvements over existing baselines.
翻訳日:2024-02-13 18:29:43 公開日:2024-02-10
# langchainを用いたソウルの歴史チャットボットのプロトタイプ作成

Making a prototype of Seoul historical sites chatbot using Langchain ( http://arxiv.org/abs/2402.06929v1 )

ライセンス: Link先を確認
Jae Young Suh, Minsoo Kwak, Soo Yong Kim, Hyoungseo Cho(参考訳) 本稿では,ソウルに所在する史跡に関する情報を広めるための対話型エージェントの開発について,その草案について述べる。 本研究の主な目的は, ソウル市を知らない来訪者に対して, 貴重な文化財の存在と正確な位置について, 意識を高めることである。 朝鮮の豊かで多様な文化史の基本的な理解を促進することを目的としている。 このエージェントは、英語のアクセシビリティを念頭に設計されており、ソウル大都市圏政府によって提供されたデータを利用している。 限られたデータ量にもかかわらず、信頼性と正確な応答を一貫して提供し、利用可能な情報とシームレスに連携する。 我々はこのエージェントの作成に用いられた方法論を細心の注意を払って詳述し,その基盤となる構造について概説した。 さらに、当社のプロンプトを通じて利用可能なデータを拡張することに重点を置いて、この初期バージョンのシステムを強化するための潜在的な改善について検討しています。 結論として,このエージェントが史跡の共有を促進・促進する上での今後の影響について,我々の期待を深く議論する。

In this paper, we are going to share a draft of the development of a conversational agent created to disseminate information about historical sites located in the Seoul. The primary objective of the agent is to increase awareness among visitors who are not familiar with Seoul, about the presence and precise locations of valuable cultural heritage sites. It aims to promote a basic understanding of Korea's rich and diverse cultural history. The agent is thoughtfully designed for accessibility in English and utilizes data generously provided by the Seoul Metropolitan Government. Despite the limited data volume, it consistently delivers reliable and accurate responses, seamlessly aligning with the available information. We have meticulously detailed the methodologies employed in creating this agent and provided a comprehensive overview of its underlying structure within the paper. Additionally, we delve into potential improvements to enhance this initial version of the system, with a primary emphasis on expanding the available data through our prompting. In conclusion, we provide an in-depth discussion of our expectations regarding the future impact of this agent in promoting and facilitating the sharing of historical sites.
翻訳日:2024-02-13 18:29:21 公開日:2024-02-10
# LLMにおける復号法の検討

A Thorough Examination of Decoding Methods in the Era of LLMs ( http://arxiv.org/abs/2402.06925v1 )

ライセンス: Link先を確認
Chufan Shi, Haoran Yang, Deng Cai, Zhisong Zhang, Yifan Wang, Yujiu Yang, Wai Lam(参考訳) 復号化手法は、言語モデルを次の予測器から実用的なタスクソルバに変換する上で欠かせない役割を担っている。 主にタスク固有モデルに焦点を当てた復号法に関する先行研究は、汎用大規模言語モデル(LLM)の現在まで及ばない可能性がある。 さらに、最近のデコード戦略の流入は、この状況をさらに複雑にしている。 本稿では,LLMのコンテキスト内での様々なデコード手法の包括的かつ多面的解析を行い,その性能,ハイパーパラメータ変化に対する堅牢性,幅広いタスク,モデル,デプロイメント環境におけるデコード速度を評価する。 その結果,復号法の性能は特にタスク依存であり,アライメント,モデルサイズ,量子化などの要因に影響されていることがわかった。 興味深いことに、感度分析は、特定の方法が広範囲のハイパーパラメータチューニングのコストで優れたパフォーマンスを達成できることを明らかにし、最適な結果を得るためのトレードオフと、様々な文脈における実装の実用性を強調している。

Decoding methods play an indispensable role in converting language models from next-token predictors into practical task solvers. Prior research on decoding methods, primarily focusing on task-specific models, may not extend to the current era of general-purpose large language models (LLMs). Moreover, the recent influx of decoding strategies has further complicated this landscape. This paper provides a comprehensive and multifaceted analysis of various decoding methods within the context of LLMs, evaluating their performance, robustness to hyperparameter changes, and decoding speeds across a wide range of tasks, models, and deployment environments. Our findings reveal that decoding method performance is notably task-dependent and influenced by factors such as alignment, model size, and quantization. Intriguingly, sensitivity analysis exposes that certain methods achieve superior performance at the cost of extensive hyperparameter tuning, highlighting the trade-off between attaining optimal results and the practicality of implementation in varying contexts.
翻訳日:2024-02-13 18:29:07 公開日:2024-02-10
# フェデレーション学習における非線形融合--フェデレーションドメイン一般化へのハイパーネットワークアプローチ

Non-linear Fusion in Federated Learning: A Hypernetwork Approach to Federated Domain Generalization ( http://arxiv.org/abs/2402.06974v1 )

ライセンス: Link先を確認
Marc Bartholet, Taehyeon Kim, Ami Beuret, Se-Young Yun, Joachim M. Buhmann(参考訳) フェデレートラーニング(FL)は、データプライバシを保持しながら、複数のクライアントが共同で共有グローバルモデルをトレーニングする、有望なパラダイムとして登場した。 堅牢で実践可能なFLフレームワークを構築するためには、未確認領域(FDG(Federated Domain Generalization)と呼ばれる問題)にうまく一般化する能力を拡張することが不可欠である。 本稿では,一般化とパーソナライズの間の性能ギャップを橋渡しし,様々な領域シフトに対応可能なhfedfと呼ばれる,革新的なフェデレーションアルゴリズムを提案する。 本質的には、ハイパーネットワークはクライアントモデルの非線形融合をサポートし、基盤となるデータ分散の包括的理解を可能にする。 FLにおけるパーソナライゼーションと一般化のトレードオフについて,広範な議論を包括し,新たな知見を提供する。 提案アルゴリズムは,DGの広範に使用されている3つのデータセットに対して,多数のケースで強いベンチマークを達成している。

Federated Learning (FL) has emerged as a promising paradigm in which multiple clients collaboratively train a shared global model while preserving data privacy. To create a robust and practicable FL framework, it is crucial to extend its ability to generalize well to unseen domains - a problem referred to as federated Domain Generalization (FDG), being still under-explored. We propose an innovative federated algorithm, termed hFedF for hypernetwork-based Federated Fusion, designed to bridge the performance gap between generalization and personalization, capable of addressing various degrees of domain shift. Essentially, the hypernetwork supports a non-linear fusion of client models enabling a comprehensive understanding of the underlying data distribution. We encompass an extensive discussion and provide novel insights into the tradeoff between personalization and generalization in FL. The proposed algorithm outperforms strong benchmarks on three widely-used data sets for DG in an exceeding number of cases.
翻訳日:2024-02-13 18:21:27 公開日:2024-02-10
# イベントキーによる要約

Event-Keyed Summarization ( http://arxiv.org/abs/2402.06973v1 )

ライセンス: Link先を確認
William Gantt and Alexander Martin and Pavlo Kuchmiichuk and Aaron Steven White(参考訳) 本稿では、従来の要約と文書レベルのイベント抽出を融合させる新しいタスクであるイベント鍵要約(EKS)を紹介し、文書と抽出されたイベント構造を与えられた特定のイベントのコンテキスト化された要約を生成することを目的とする。 我々は,従来のMUC-4データセットのすべての事象の要約と,要約文学における事前学習されたLM標準と,より大きなフロンティアモデルの両方を含むベースラインからなるMUCSUM(MUCSUM)を提案する。 我々は,eksを従来の要約や構造からテキストへ還元するアブレーションは,対象イベントの劣る要約を生じさせ,mucsumはこのタスクのロバストなベンチマークであることを示す。 最後に,参照要約とモデル要約の両方について人間による評価を行い,その結果を詳細に分析する。

We introduce event-keyed summarization (EKS), a novel task that marries traditional summarization and document-level event extraction, with the goal of generating a contextualized summary for a specific event, given a document and an extracted event structure. We introduce a dataset for this task, MUCSUM, consisting of summaries of all events in the classic MUC-4 dataset, along with a set of baselines that comprises both pretrained LM standards in the summarization literature, as well as larger frontier models. We show that ablations that reduce EKS to traditional summarization or structure-to-text yield inferior summaries of target events and that MUCSUM is a robust benchmark for this task. Lastly, we conduct a human evaluation of both reference and model summaries, and provide some detailed analysis of the results.
翻訳日:2024-02-13 18:21:10 公開日:2024-02-10
# グラテヘの不純物とそのカシミール相互作用への影響

Impurities in graphehe and their influence on the Casimir interaction ( http://arxiv.org/abs/2402.06972v1 )

ライセンス: Link先を確認
N. Khusnutdinov and D. Vassilevich(参考訳) グラフェンと理想導体とのカシミール相互作用や, 温度0のグラフェンと化学的ポテンシャルにおける2つの同一シート間の相互作用に及ぼすグラフェン中の不純物の影響について検討した。 この目的のために、グラフェン中の準粒子の偏極テンソルと、TEおよびTMチャネルの対応する導電率を計算する。 カシミールエネルギー密度はリフシッツの公式の助けを借りて評価される。 質量ギャップパラメータの値によって、$\gamma$の存在はわずかな減衰またはカシミール相互作用の大幅な強化につながる可能性がある。

We study the influence of impurities in graphene described by a scattering rate $\Gamma$ on the Casimir interaction between graphene and an ideal conductor or between two identical sheets of graphene at zero temperature and chemical potential. To this end, we compute the polarization tensor of quasiparticles in graphene and corresponding conductivities for TE and TM channels. The Casimir energy density is evaluated with the help of the Lifshitz formula. We find that depending on the value of mass gap parameter the presence of $\Gamma$ may lead to a slight damping or to a considerable enhancement of the Casimir interaction.
翻訳日:2024-02-13 18:20:56 公開日:2024-02-10
# TabPFNを用いたインコンテキストデータ蒸留

In-Context Data Distillation with TabPFN ( http://arxiv.org/abs/2402.06971v1 )

ライセンス: Link先を確認
Junwei Ma, Valentin Thomas, Guangwei Yu, Anthony Caterini(参考訳) 基礎モデルはコンピュータビジョンと自然言語処理のタスクに革命をもたらした。 しかし、表データの分野では、xgboostのような木ベースのモデルが支配を続けている。 TabPFNは、表形式のデータ用に調整されたトランスフォーマーモデルであり、タスク固有のトレーニングやハイパーパラメータチューニングを必要とせずに、XGBoostのパフォーマンスと競合し、最近の基礎モデルをその例外的なコンテキスト内学習能力で反映している。 その約束にもかかわらず、TabPFNの適用性はデータサイズの制約によって妨げられ、実際のシナリオでの使用を制限する。 そこで本研究では,TabPFNのコンテキストを最適化することにより,これらの制約を効果的に解消する新しい手法であるICDを提案する。 ICDにより、TabPFNは固定メモリ予算ではるかに大きなデータセットを処理でき、TabPFNの二次メモリの複雑さは向上するが、多くのチューニングステップのコストがかかる。 特に、ICDで強化されたTabPFNは、既存のツリーベースモデルと、OpenMLから48の大きな表層データセット上の現代的なディープラーニングメソッドに対して、非常に強力なパフォーマンスを示している。

Foundation models have revolutionized tasks in computer vision and natural language processing. However, in the realm of tabular data, tree-based models like XGBoost continue to dominate. TabPFN, a transformer model tailored for tabular data, mirrors recent foundation models in its exceptional in-context learning capability, being competitive with XGBoost's performance without the need for task-specific training or hyperparameter tuning. Despite its promise, TabPFN's applicability is hindered by its data size constraint, limiting its use in real-world scenarios. To address this, we present in-context data distillation (ICD), a novel methodology that effectively eliminates these constraints by optimizing TabPFN's context. ICD efficiently enables TabPFN to handle significantly larger datasets with a fixed memory budget, improving TabPFN's quadratic memory complexity but at the cost of a linear number of tuning steps. Notably, TabPFN, enhanced with ICD, demonstrates very strong performance against established tree-based models and modern deep learning methods on 48 large tabular datasets from OpenML.
翻訳日:2024-02-13 18:20:44 公開日:2024-02-10
# 安定拡散モデルを用いたB型大動脈解離に対するCTA画像データの合成

Synthesizing CTA Image Data for Type-B Aortic Dissection using Stable Diffusion Models ( http://arxiv.org/abs/2402.06969v1 )

ライセンス: Link先を確認
Ayman Abaid, Muhammad Ali Farooq, Niamh Hynes, Peter Corcoran, and Ihsan Ullah(参考訳) 安定拡散(SD)は、ジェネレーティブAI(Generative AI)の分野で近年注目を集めており、異なる特徴を持つ医用画像データの合成に役立っている。 目的は、データ不足の限界を克服し、心臓血管画像処理のためのMLアルゴリズムの能力を改善することに焦点を当てた継続的な取り組みに貢献することである。 そこで本研究では,少数のCTA画像のみを入力として,ユーザの定義したテキストプロンプトに基づく安定拡散モデルの微調整により,人工心臓CTA画像の生成の可能性を検討した。 臨床医が生成したデータの品質を評価するために,定量的分析と質的評価の両方を取り入れた総合的な合成データ評価を行った。 心電図CTA画像はテキスト・トゥ・イメージ(T2I)の安定拡散モデルを用いて生成できることが示されている。 以上の結果から,T2I CTA拡散モデルでは,急性B型大動脈解離(TBAD)の病態に特有の特徴を持つ画像が得られた。

Stable Diffusion (SD) has gained a lot of attention in recent years in the field of Generative AI thus helping in synthesizing medical imaging data with distinct features. The aim is to contribute to the ongoing effort focused on overcoming the limitations of data scarcity and improving the capabilities of ML algorithms for cardiovascular image processing. Therefore, in this study, the possibility of generating synthetic cardiac CTA images was explored by fine-tuning stable diffusion models based on user defined text prompts, using only limited number of CTA images as input. A comprehensive evaluation of the synthetic data was conducted by incorporating both quantitative analysis and qualitative assessment, where a clinician assessed the quality of the generated data. It has been shown that Cardiac CTA images can be successfully generated using using Text to Image (T2I) stable diffusion model. The results demonstrate that the tuned T2I CTA diffusion model was able to generate images with features that are typically unique to acute type B aortic dissection (TBAD) medical conditions.
翻訳日:2024-02-13 18:20:24 公開日:2024-02-10
# タイムウインドウを用いたコンテクスト確率車両ルーティング

Contextual Stochastic Vehicle Routing with Time Windows ( http://arxiv.org/abs/2402.06968v1 )

ライセンス: Link先を確認
Breno Serrano, Alexandre M. Florio, Stefan Minner, Maximilian Schiffer, Thibaut Vidal(参考訳) 時間窓 (vrptw) と確率的走行時間 (stochastic travel time) を用いて, 経路決定を行う前に, 特徴変数として表現される関連する文脈情報を監視する。 確率的VRPに関する広範な文献にもかかわらず、この文脈では特徴変数の統合は限定的な注目を集めている。 我々は,観測された特徴に照らして,輸送コストと到着遅れの罰則を最小化する,文脈確率的VRPTWを導入する。 旅行時間と特徴の同時分布は未知であるため,過去のデータを用いた新しいデータ駆動規範モデルを提案する。 確率的移動時間と特徴を扱う上で異なる視点をとっており, 先行モデルとして, 点ベース近似, サンプル平均近似, ペナルティベース近似を区別する。 我々は,これらのデータ駆動規範モデルを解くために,特別な分岐価格・カットアルゴリズムを開発した。 計算実験では、最大100の顧客を持つインスタンスにおける異なるメソッドのアウトオブサンプルコストパフォーマンスを比較した。 その結果,機能に依存したサンプル平均近似は,既存の手法や新しい手法よりも優れていることがわかった。

We study the vehicle routing problem with time windows (VRPTW) and stochastic travel times, in which the decision-maker observes related contextual information, represented as feature variables, before making routing decisions. Despite the extensive literature on stochastic VRPs, the integration of feature variables has received limited attention in this context. We introduce the contextual stochastic VRPTW, which minimizes the total transportation cost and expected late arrival penalties conditioned on the observed features. Since the joint distribution of travel times and features is unknown, we present novel data-driven prescriptive models that use historical data to provide an approximate solution to the problem. We distinguish the prescriptive models between point-based approximation, sample average approximation, and penalty-based approximation, each taking a different perspective on dealing with stochastic travel times and features. We develop specialized branch-price-and-cut algorithms to solve these data-driven prescriptive models. In our computational experiments, we compare the out-of-sample cost performance of different methods on instances with up to one hundred customers. Our results show that, surprisingly, a feature-dependent sample average approximation outperforms existing and novel methods in most settings.
翻訳日:2024-02-13 18:20:05 公開日:2024-02-10
# インストラクション チャットを複数ラウンドで一貫して行う - 対話のための効率的なチューニングフレームワーク

Instruct Once, Chat Consistently in Multiple Rounds: An Efficient Tuning Framework for Dialogue ( http://arxiv.org/abs/2402.06967v1 )

ライセンス: Link先を確認
Jian Wang, Chak Tou Leong, Jiashuo Wang, Dongding Lin, Wenjie Li, Xiao-Yong Wei(参考訳) 対話生成のための事前学習された言語モデルのチューニングは、有能な対話エージェントを構築するための一般的なパラダイムである。 しかし、従来のチューニングでは、対話生成は他の言語生成タスクと似ており、2人の話者と対話するべきマルチラウンドの対話プロセスとの間の役割の相違を無視している。 このようなやり方は、構築されたエージェントの満足できないチャット一貫性につながる。 本稿では対話の対話的、コミュニケーション的性質を強調し、エージェントとユーザの話者の役割を個別にモデル化することがより可能であり、エージェントがその役割に一貫して従うことができると論じる。 マルチラウンド対話チューニング(Midi-Tuning)フレームワークを提案する。 エージェントとユーザを、大きな言語モデル上に構築された2つのアダプタで個別にモデル化する。 広範な実験によって、我々のフレームワークは従来の微調整よりも優れており、対話の一貫性を改善する大きな可能性を秘めています。

Tuning pretrained language models for dialogue generation has been a prevalent paradigm for building capable dialogue agents. Yet, traditional tuning narrowly views dialogue generation as resembling other language generation tasks, ignoring the role disparities between two speakers and the multi-round interactive process that dialogues ought to be. Such a manner leads to unsatisfactory chat consistency of the built agent. In this work, we emphasize the interactive, communicative nature of dialogue and argue that it is more feasible to model the speaker roles of agent and user separately, enabling the agent to adhere to its role consistently. We propose an efficient Multi-round Interactive Dialogue Tuning (Midi-Tuning) framework. It models the agent and user individually with two adapters built upon large language models, where they utilize utterances round by round in alternating order and are tuned via a round-level memory caching mechanism. Extensive experiments demonstrate that, our framework performs superior to traditional fine-tuning and harbors the tremendous potential for improving dialogue consistency.
翻訳日:2024-02-13 18:19:46 公開日:2024-02-10
# DeepCover: ステートマシン抽出によるRNNテストカバレッジとオンラインエラー予測の改善

DeepCover: Advancing RNN Test Coverage and Online Error Prediction using State Machine Extraction ( http://arxiv.org/abs/2402.06966v1 )

ライセンス: Link先を確認
Pouria Golshanrad and Fathiyeh Faghih(参考訳) リカレントニューラルネットワーク(RNN)は、自然言語処理や音声認識など、さまざまな分野でシーケンシャルなデータを処理するための強力なツールとして登場した。 しかしながら、RNNモデルにおける説明可能性の欠如は解釈可能性に制限を与え、内部動作を理解する上での課題を提起している。 本稿では,RNNモデルから状態マシン(SM)を抽出し,内部機能に関する洞察を提供する手法を提案する。 提案したSM抽出アルゴリズムは,Purity, Richness, Goodness, Scaleの4つの新しい指標を用いて評価した。 提案手法は,その評価指標とともに,抽出したSMによる内部決定過程の明確な表現を提供することにより,RNNモデルの説明可能性の向上に寄与する。 RNNの説明性の向上に加えて,抽出したSMを用いて,RNNベースモデルの試験およびモニタリングを行うことができる。 RNNテストを強化するために,抽出したSMに基づく6つのモデルカバレッジ基準を導入し,プライマリモデルを解析するために設計されたテストスイートの有効性を評価する指標として機能する。 また,抽出したSMに基づいて,各入力に対する一次モデルの誤差確率を予測する木モデルを提案する。 MNISTデータセットとMini Speech Commandsデータセットを用いて,提案したオンライン誤り予測手法を評価し,受信機動作特性(ROC)チャートにおいて,曲線(AUC)以下の領域を80%以上達成した。

Recurrent neural networks (RNNs) have emerged as powerful tools for processing sequential data in various fields, including natural language processing and speech recognition. However, the lack of explainability in RNN models has limited their interpretability, posing challenges in understanding their internal workings. To address this issue, this paper proposes a methodology for extracting a state machine (SM) from an RNN-based model to provide insights into its internal function. The proposed SM extraction algorithm was assessed using four newly proposed metrics: Purity, Richness, Goodness, and Scale. The proposed methodology along with its assessment metrics contribute to increasing explainability in RNN models by providing a clear representation of their internal decision making process through the extracted SM. In addition to improving the explainability of RNNs, the extracted SM can be used to advance testing and and monitoring of the primary RNN-based model. To enhance RNN testing, we introduce six model coverage criteria based on the extracted SM, serving as metrics for evaluating the effectiveness of test suites designed to analyze the primary model. We also propose a tree-based model to predict the error probability of the primary model for each input based on the extracted SM. We evaluated our proposed online error prediction approach using the MNIST dataset and Mini Speech Commands dataset, achieving an area under the curve (AUC) exceeding 80\% for the receiver operating characteristic (ROC) chart.
翻訳日:2024-02-13 18:19:28 公開日:2024-02-10
# エネルギーコーパスからの知識発見と情報抽出のためのNLP

NLP for Knowledge Discovery and Information Extraction from Energetics Corpora ( http://arxiv.org/abs/2402.06964v1 )

ライセンス: Link先を確認
Francis G. VanGessel, Efrem Perry, Salil Mohan, Oliver M. Barham, Mark Cavolowsky(参考訳) 本稿では,エネルギー材料および関連システムの研究を支援するnlpの有用性の実証を行う。 NLP法はテキストデータの機械的理解を可能にし、知識発見のための自動経路とエネルギーテキストからの情報抽出を提供する。 我々は,Latent Dirichlet Allocation,Word2Vec,Transformerの3つの確立された非教師付きNLPモデルを適用した。 我々は,各NLPアルゴリズムが高エネルギーな話題や概念を識別し,課題知識と整合した言語モデルを生成することを実証した。 さらに,エネルギクステキストのための文書分類パイプラインを提案する。 分類パイプラインは使用したNLPモデルによって59-76 %の精度を達成し,アノテータ間の合意基準に匹敵する高い性能のTransformerモデルを実現した。 この研究で研究されたNLPアプローチは、ドイツのエネルギティクスの概念を識別し、エネルギティクス研究とエネルギティクス材料開発を加速するためのツールとして約束する。

We present a demonstration of the utility of NLP for aiding research into energetic materials and associated systems. The NLP method enables machine understanding of textual data, offering an automated route to knowledge discovery and information extraction from energetics text. We apply three established unsupervised NLP models: Latent Dirichlet Allocation, Word2Vec, and the Transformer to a large curated dataset of energetics-related scientific articles. We demonstrate that each NLP algorithm is capable of identifying energetic topics and concepts, generating a language model which aligns with Subject Matter Expert knowledge. Furthermore, we present a document classification pipeline for energetics text. Our classification pipeline achieves 59-76\% accuracy depending on the NLP model used, with the highest performing Transformer model rivaling inter-annotator agreement metrics. The NLP approaches studied in this work can identify concepts germane to energetics and therefore hold promise as a tool for accelerating energetics research efforts and energetics material development.
翻訳日:2024-02-13 18:19:03 公開日:2024-02-10
# コンテキストバンドのためのツリーアンサンブル

Tree Ensembles for Contextual Bandits ( http://arxiv.org/abs/2402.06963v1 )

ライセンス: Link先を確認
Hannes Nilsson and Rikard Johansson and Niklas {\AA}kerblom and Morteza Haghir Chehreghani(参考訳) 木アンサンブルに基づくコンテキスト型マルチアームバンディットのための新しいフレームワークを提案する。 本フレームワークは,標準設定と組合せ設定の両方に,アッパー信頼境界とトンプソンサンプリングという2つの広範に使用されている帯域幅法を統合する。 木アンサンブル手法であるXGBoostを応用した実験により,本フレームワークの有効性を実証した。 ニューラルネットワークに基づく最先端手法と比較して,提案手法は,ベンチマークデータセットに適用した場合の,後悔の最小化と計算ランタイムの両方の観点から,優れた性能を示す。

We propose a novel framework for contextual multi-armed bandits based on tree ensembles. Our framework integrates two widely used bandit methods, Upper Confidence Bound and Thompson Sampling, for both standard and combinatorial settings. We demonstrate the effectiveness of our framework via several experimental studies, employing XGBoost, a popular tree ensemble method. Compared to state-of-the-art methods based on neural networks, our methods exhibit superior performance in terms of both regret minimization and computational runtime, when applied to benchmark datasets and the real-world application of navigation over road networks.
翻訳日:2024-02-13 18:18:45 公開日:2024-02-10
# 単一光子の周波数連続変数を用いたフォトニック量子情報処理

Photonic quantum information processing using the frequency continuous-variable of single photons ( http://arxiv.org/abs/2402.06962v1 )

ライセンス: Link先を確認
Nicolas Fabre and Ulysse Chabaud(参考訳) 有名なHong-Ou--Mandel効果は、2光子干渉計の豊かさを示している。 本研究では,このリッチさが時間周波数干渉計の領域にまで及んでいることを示す。 各補助モードに1つの光子が存在するとき、周波数と4次自由度の間に引き出すことができる数学的類似性を利用して、周波数領域におけるHong-Ou--Mandel効果の等価性を考える。 この設定では、$n$-Fock状態は、$n^{th}$ Hermite-Gauss関数によって与えられるスペクトル波関数を持つ単一光子状態と等価となり、破壊的干渉は、1つのHermite-Gaussスペクトルプロファイルで単一光子を検出する確率に一致する。 この興味深いアナロジーは、位相推定のためにハイゼンベルクスケールに到達するために周波数工学された2光子状態を用いて干渉計戦略を導入し、ガウスボソンサンプリングモデルを単一光子の時間周波数自由度に一般化する。

The celebrated Hong--Ou--Mandel effect illustrates the richness of two-photon interferometry. In this work, we show that this richness extends to the realm of time-frequency interferometry. Taking advantage of the mathematical analogy which can be drawn between the frequency and quadrature degrees of freedom of light when there is a single photon in each auxiliary mode, we consider the equivalent of the Hong--Ou--Mandel effect in the frequency domain. In this setting, the $n$-Fock state becomes equivalent to a single-photon state with a spectral wave function given by the $n^{th}$ Hermite--Gauss function and destructive interference corresponds to vanishing probability of detecting single photons with an order one Hermite--Gauss spectral profile. This intriguing analogy leads us to introduce an interferometric strategy using a frequency engineered two-photon state allowing to reach Heisenberg scaling for phase estimation, and to generalise the Gaussian Boson Sampling model to time-frequency degrees of freedom of single photons.
翻訳日:2024-02-13 18:18:35 公開日:2024-02-10
# SpeechCLIP+:CLIPと音声画像データによる音声のマルチタスク表現学習

SpeechCLIP+: Self-supervised multi-task representation learning for speech via CLIP and speech-image data ( http://arxiv.org/abs/2402.06959v1 )

ライセンス: Link先を確認
Hsuan-Fu Wang, Yi-Jen Shih, Heng-Jui Chang, Layne Berry, Puyuan Peng, Hung-yi Lee, Hsin-Min Wang, David Harwath(参考訳) 最近提案された音声モデルSpeechCLIPは、テキストの書き起こしに頼ることなく、CLIPを介して音声とテキストをブリッジする革新的なフレームワークである。 そこで本稿では, speechclip の拡張を2つ紹介する。 まず、CIF(Continuous Integrate-and-Fire)モジュールを使用して、カスケードアーキテクチャにおける固定数のCLSトークンを置き換える。 第2に,speechclipのカスケードおよび並列アーキテクチャをマルチタスク学習フレームワークに統合する,新たなハイブリッドアーキテクチャを提案する。 Flickr8kおよびSpkenCOCOデータセットを用いて実験を行った。 その結果, 音声キーワード抽出タスクにおいて, CIFをベースとしたcascaded SpeechCLIPモデルは, 一定数のCLSトークンを用いて, 従来のcascaded SpeechCLIPモデルよりも優れていることがわかった。 さらに,我々のハイブリッドアーキテクチャにより,画像音声検索タスクにおける並列分岐の性能が向上する。

The recently proposed visually grounded speech model SpeechCLIP is an innovative framework that bridges speech and text through images via CLIP without relying on text transcription. On this basis, this paper introduces two extensions to SpeechCLIP. First, we apply the Continuous Integrate-and-Fire (CIF) module to replace a fixed number of CLS tokens in the cascaded architecture. Second, we propose a new hybrid architecture that merges the cascaded and parallel architectures of SpeechCLIP into a multi-task learning framework. Our experimental evaluation is performed on the Flickr8k and SpokenCOCO datasets. The results show that in the speech keyword extraction task, the CIF-based cascaded SpeechCLIP model outperforms the previous cascaded SpeechCLIP model using a fixed number of CLS tokens. Furthermore, through our hybrid architecture, cascaded task learning boosts the performance of the parallel branch in image-speech retrieval tasks.
翻訳日:2024-02-13 18:18:14 公開日:2024-02-10
# 深部強結合における超伝導量子ビットの量子ラビモデルシミュレーション

Simulating the Quantum Rabi Model in Superconducting Qubits at Deep Strong Coupling ( http://arxiv.org/abs/2402.06958v1 )

ライセンス: Link先を確認
Noureddine Rochdi, Atta ur Rahman, Rachid Ahl Laamara, Mohamed Bennai(参考訳) 量子ラビモデル(quantum rabi model)は、光と物質の間のニュアンス相互作用を解明するための重要な理論的枠組みである。 半導体上の回路量子電磁力学を利用して、量子空洞電磁力学(cqed)における強結合の実現の課題を解決する。 超伝導回路と閉じ込められたイオンの進歩にもかかわらず、実験的実現は分光に限られている。 我々の焦点は、複雑なユニタリハミルトニアンを分解するために、さらに多くのステップでトロタライズを利用する変換デジタル量子シミュレーションである。 このアプローチは超伝導回路におけるデジタル技術の利点を示し、普遍性、柔軟性、スケーラビリティ、高忠実性を提供する。 我々の目標は、cqedにおける深い結合を示し、特に共振器内の光子数を変化させた時間発展におけるコヒーレントな測定において、ディジタル手法の利点を理解することである。 これは、ハードウェアの限界を克服するために量子力学を活用する道を開く。

The Quantum Rabi model serves as a pivotal theoretical framework for elucidating the nuanced interplay between light and matter. Utilizing circuit quantum electrodynamics on a chip, we address the challenge of achieving deep strong coupling in Quantum Cavity Electrodynamics (cQED). Despite progress in superconducting circuits and trapped ions, experimental realization has been limited to spectroscopy. Our focus is on a transformative digital quantum simulation, employing Trotterization with an augmented number of steps to deconstruct a complex unitary Hamiltonian. This approach showcases the benefits of digital techniques within superconducting circuits, offering universality, flexibility, scalability, and high fidelity. Our goal is to demonstrate deep strong coupling in cQED and understand the advantages of digital methods, particularly in coherent measurement during time evolution with varying photon counts in resonators. This opens avenues to leverage quantum mechanics for overcoming hardware limitations.
翻訳日:2024-02-13 18:17:57 公開日:2024-02-10
# first principlesによるアーキテクチャニューラルバックドア

Architectural Neural Backdoors from First Principles ( http://arxiv.org/abs/2402.06957v1 )

ライセンス: Link先を確認
Harry Langford, Ilia Shumailov, Yiren Zhao, Robert Mullins, Nicolas Papernot(参考訳) これまでの研究では、パラメータを変更することでニューラルネットワークをバックドアにしたが、最近の研究でより不可解な脅威が明らかになった:ネットワークアーキテクチャの定義に埋め込まれたバックドア。 これはアクティベーション関数やプーリング層といった一般的なアーキテクチャコンポーネントを注入することで、(再)トレーニング後も持続するバックドアの振る舞いを微妙に導入する。 しかし、建築のバックドアの完全なスコープと影響はほとんど未調査のままである。 Bober-Irizarら。 2023]は最初のアーキテクチャバックドアを導入し、チェッカーボードパターンのバックドアの作成方法を示したが、任意のトリガーパターンをターゲットにする方法は説明しなかった。 この作業では、人間の監督なしにアーキテクチャのバックドアとして使用できる任意のトリガー検出器を構築します。 これにより、アーキテクチャのバックドアの概念を再検討し、それらを分類し、12の異なるタイプを記述します。 このようなバックドア検出の難しさを評価するために,機械学習開発者が共通モデル定義における疑わしいコンポーネントを37%のケースでバックドアとして特定できるのに対して,その33%のケースでは驚くほどバックドアモデルを好むことがわかった。 これらの結果を文脈化するために、言語モデルはバックドアの検出において人間よりも優れています。 最後に,アーキテクチャのバックドアに対する防御について論じ,MLシステムの完全性を保護するための堅牢で包括的な戦略の必要性を強調した。

While previous research backdoored neural networks by changing their parameters, recent work uncovered a more insidious threat: backdoors embedded within the definition of the network's architecture. This involves injecting common architectural components, such as activation functions and pooling layers, to subtly introduce a backdoor behavior that persists even after (full re-)training. However, the full scope and implications of architectural backdoors have remained largely unexplored. Bober-Irizar et al. [2023] introduced the first architectural backdoor; they showed how to create a backdoor for a checkerboard pattern, but never explained how to target an arbitrary trigger pattern of choice. In this work we construct an arbitrary trigger detector which can be used to backdoor an architecture with no human supervision. This leads us to revisit the concept of architecture backdoors and taxonomise them, describing 12 distinct types. To gauge the difficulty of detecting such backdoors, we conducted a user study, revealing that ML developers can only identify suspicious components in common model definitions as backdoors in 37% of cases, while they surprisingly preferred backdoored models in 33% of cases. To contextualize these results, we find that language models outperform humans at the detection of backdoors. Finally, we discuss defenses against architectural backdoors, emphasizing the need for robust and comprehensive strategies to safeguard the integrity of ML systems.
翻訳日:2024-02-13 18:17:41 公開日:2024-02-10
# 特徴マッピングを用いた物理形ニューラルネットワークの学習ダイナミクス

Training dynamics in Physics-Informed Neural Networks with feature mapping ( http://arxiv.org/abs/2402.06955v1 )

ライセンス: Link先を確認
Chengxi Zeng, Tilo Burghardt, Alberto M Gambaruto(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、部分微分方程式(PDE)を解くための象徴的な機械学習手法として登場した。 その変種は大きな進歩を遂げているが、より広範なインプリシットニューラル表現研究から特徴マッピングを利用する経験的な成功は無視されている。 モデル収束と一般化に光を当てる Conjugate Kernel と Neural Tangent Kernel の制限による特徴マッピング層を用いた PINN の訓練力学について検討する。 また、いくつかのシナリオでよく使われるフーリエ型特徴写像が不十分であることを示し、より良い代替として条件付き正定根基関数を提案する。 実験の結果, 様々な前方および逆問題集合において, 本手法の有効性が示された。 この単純な手法は入力ネットワークのコーディネートで容易に実装でき、幅広いPINNの研究に役立てることができる。

Physics-Informed Neural Networks (PINNs) have emerged as an iconic machine learning approach for solving Partial Differential Equations (PDEs). Although its variants have achieved significant progress, the empirical success of utilising feature mapping from the wider Implicit Neural Representations studies has been substantially neglected. We investigate the training dynamics of PINNs with a feature mapping layer via the limiting Conjugate Kernel and Neural Tangent Kernel, which sheds light on the convergence and generalisation of the model. We also show the inadequacy of commonly used Fourier-based feature mapping in some scenarios and propose the conditional positive definite Radial Basis Function as a better alternative. The empirical results reveal the efficacy of our method in diverse forward and inverse problem sets. This simple technique can be easily implemented in coordinate input networks and benefits the broad PINNs research.
翻訳日:2024-02-13 18:17:17 公開日:2024-02-10
# AIのコーディネート公開 - セキュリティ脆弱性を超えて

Coordinated Disclosure for AI: Beyond Security Vulnerabilities ( http://arxiv.org/abs/2402.07039v1 )

ライセンス: Link先を確認
Sven Cattell, Avijit Ghosh(参考訳) Harm Report in the field of Artificial Intelligence (AI) は現在、アルゴリズムの欠陥を開示または対処するための構造化プロセスが欠如している。 対照的に、CVD(Coordinated Vulnerability Disclosure)の倫理とエコシステムは、ソフトウェアセキュリティと透明性において重要な役割を果たす。 アメリカの文脈では、コンピュータ詐欺・虐待法(英語版)から安全な港を確立するための、法と政策の長期的闘争があり、誠実に行動するセキュリティ研究者の制度的支援を促進することを目的としている。 特に、機械学習(ML)モデルにおけるアルゴリズム上の欠陥は、従来のソフトウェア脆弱性とは異なる課題を示し、特殊なアプローチを保証する。 このギャップに対処するため、機械学習と人工知能の問題の複雑さに合わせたCFD(Coordinated Flaw Disclosure)フレームワークの実装を提案する。 本稿では,MLにおける情報開示の歴史的背景を考察し,害の報告や参加型監査の出現を包括する。 これらのプラクティスをサイバーセキュリティにおける確立された開示基準と結びつけることで、cfdの広範な採用は、組織とコミュニティの両方の利益を慎重にバランスさせる透明なプロセスを通じて、公共の信頼を高める可能性を秘めている。

Harm reporting in the field of Artificial Intelligence (AI) currently operates on an ad hoc basis, lacking a structured process for disclosing or addressing algorithmic flaws. In contrast, the Coordinated Vulnerability Disclosure (CVD) ethos and ecosystem play a pivotal role in software security and transparency. Within the U.S. context, there has been a protracted legal and policy struggle to establish a safe harbor from the Computer Fraud and Abuse Act, aiming to foster institutional support for security researchers acting in good faith. Notably, algorithmic flaws in Machine Learning (ML) models present distinct challenges compared to traditional software vulnerabilities, warranting a specialized approach. To address this gap, we propose the implementation of a dedicated Coordinated Flaw Disclosure (CFD) framework tailored to the intricacies of machine learning and artificial intelligence issues. This paper delves into the historical landscape of disclosures in ML, encompassing the ad hoc reporting of harms and the emergence of participatory auditing. By juxtaposing these practices with the well-established disclosure norms in cybersecurity, we argue that the broader adoption of CFD has the potential to enhance public trust through transparent processes that carefully balance the interests of both organizations and the community.
翻訳日:2024-02-13 18:11:41 公開日:2024-02-10
# GeminiがMed Schoolへ:医療問題と幻覚に関する多モーダル大言語モデルの能力を探る

Gemini Goes to Med School: Exploring the Capabilities of Multimodal Large Language Models on Medical Challenge Problems & Hallucinations ( http://arxiv.org/abs/2402.07023v1 )

ライセンス: Link先を確認
Ankit Pal, Malaikannan Sankarasubbu(参考訳) 大きな言語モデルは医療業界で価値のある可能性があるが、厳格な評価を通じて安全性と有効性を検証することが重要である。 この目的のために,オープンソースのllmと,医学的推論,幻覚検出,医学的視覚的質問応答タスクにまたがる,googleの新しいマルチモーダルllmであるgeminiを総合的に評価した。 Geminiは能力を示したが、診断精度はMedPaLM 2やGPT-4といった最先端モデルに遅れを取っていた。 さらに、geminiは医療用vqaデータセットで61.45\%の精度を達成し、gpt-4vのスコア88\%を大きく下回った。 分析の結果,geminiは幻覚や自信過剰,知識ギャップに強い影響を受けやすいことが明らかとなった。 また, 被験者と検査タイプによる詳細な分析を行い, 開発者と臨床医に実用的なフィードバックを提供した。 リスクを軽減するため、私たちはパフォーマンスを向上させるプロンプト戦略を適用しました。 さらに,医療用LLM評価のためのPythonモジュールをリリースし,医療用LLMのためのHugging Face専用のリーダーボードを確立することにより,今後の研究開発を促進する。 Pythonモジュールはhttps://github.com/promptslab/RosettaEvalにある。

Large language models have the potential to be valuable in the healthcare industry, but it's crucial to verify their safety and effectiveness through rigorous evaluation. For this purpose, we comprehensively evaluated both open-source LLMs and Google's new multimodal LLM called Gemini across Medical reasoning, hallucination detection, and Medical Visual Question Answering tasks. While Gemini showed competence, it lagged behind state-of-the-art models like MedPaLM 2 and GPT-4 in diagnostic accuracy. Additionally, Gemini achieved an accuracy of 61.45\% on the medical VQA dataset, significantly lower than GPT-4V's score of 88\%. Our analysis revealed that Gemini is highly susceptible to hallucinations, overconfidence, and knowledge gaps, which indicate risks if deployed uncritically. We also performed a detailed analysis by medical subject and test type, providing actionable feedback for developers and clinicians. To mitigate risks, we applied prompting strategies that improved performance. Additionally, we facilitated future research and development by releasing a Python module for medical LLM evaluation and establishing a dedicated leaderboard on Hugging Face for medical domain LLMs. Python module can be found at https://github.com/promptslab/RosettaEval
翻訳日:2024-02-13 18:11:16 公開日:2024-02-10
# 強化学習における報酬関数の有益性

Informativeness of Reward Functions in Reinforcement Learning ( http://arxiv.org/abs/2402.07019v1 )

ライセンス: Link先を確認
Rati Devidze, Parameswaran Kamalaruban, Adish Singla(参考訳) リワード機能は、強化学習エージェントが実行するタスクを特定する上で中心的な役割です。 課題と最適な行動が与えられた場合、設計した報酬がエージェントの収束を早めるように、情報的報酬関数を設計する問題を考察する。 特に,専門家や教師が学習者に対して情報的かつ解釈可能な報酬を提示しようとする,専門家主導の報酬設計について考察する。 既存の作品はいくつかの異なる報酬設計の定式化を検討してきたが、重要な課題は、エージェントの現在のポリシーに適応し、解釈可能な報酬を得るために特定の構造的制約の下で最適化できる報奨情報量基準を定式化することである。 本稿では,特定の報酬関数から報酬を受け取れば,エージェントの現在の政策がどう改善するかを定量的に把握する,新たな報奨情報量基準を提案する。 エージェントの報酬を適応的に設計するための情報量基準の提案の有用性を理論的に示す。 2つのナビゲーションタスクにおける実験結果から,適応報酬情報量基準の有効性が示された。

Reward functions are central in specifying the task we want a reinforcement learning agent to perform. Given a task and desired optimal behavior, we study the problem of designing informative reward functions so that the designed rewards speed up the agent's convergence. In particular, we consider expert-driven reward design settings where an expert or teacher seeks to provide informative and interpretable rewards to a learning agent. Existing works have considered several different reward design formulations; however, the key challenge is formulating a reward informativeness criterion that adapts w.r.t. the agent's current policy and can be optimized under specified structural constraints to obtain interpretable rewards. In this paper, we propose a novel reward informativeness criterion, a quantitative measure that captures how the agent's current policy will improve if it receives rewards from a specific reward function. We theoretically showcase the utility of the proposed informativeness criterion for adaptively designing rewards for an agent. Experimental results on two navigation tasks demonstrate the effectiveness of our adaptive reward informativeness criterion.
翻訳日:2024-02-13 18:10:52 公開日:2024-02-10
# REALM: RAGによる大規模言語モデルによるマルチモーダル電子健康記録解析の強化

REALM: RAG-Driven Enhancement of Multimodal Electronic Health Records Analysis via Large Language Models ( http://arxiv.org/abs/2402.07016v1 )

ライセンス: Link先を確認
Yinghao Zhu, Changyu Ren, Shiyun Xie, Shukai Liu, Hangyuan Ji, Zixiang Wang, Tao Sun, Long He, Zhoujun Li, Xi Zhu, Chengwei Pan(参考訳) マルチモーダル電子健康記録(EHR)データの統合は臨床予測能力を大幅に改善した。 臨床ノートと多変量時系列 EHR を活用することで、既存のモデルは臨床業務への医療的文脈の再発明を欠くことが多く、特に知識グラフ(KG)からの外部知識の取り込みを促す。 KG知識に関するこれまでのアプローチは、構造化された知識抽出、構造化されていないデータモダリティの無視、意味的な高次元医療知識に焦点を当ててきた。 そこで我々は,これらの制約に対応するマルチモーダルehr表現を強化するための検索型生成(rag)駆動フレームワークであるrealmを提案する。 まず,Large Language Model (LLM) を用いて長期臨床ノートを符号化し,GRUモデルを用いて時系列EHRデータを符号化する。 第2に,職業的ラベル付き外部知識グラフ(PrimeKG)におけるタスク関連医療エンティティの抽出と,それに対応する医療知識とのマッチングをLCMに促す。 臨床標準に適合し整合させることにより,幻覚を排除し,整合性を確保する。 最後に,抽出された知識をマルチモーダルehrデータと統合する適応型マルチモーダル融合ネットワークを提案する。 MIMIC-III 死亡率と可読性タスクに関する広範囲な実験により,REALM フレームワークのベースラインよりも優れた性能を示し,各モジュールの有効性を強調した。 REALMフレームワークは、医療におけるマルチモーダル EHR データの使用を洗練し、情報的臨床予測に不可欠な医療コンテキストとのギャップを埋めることに貢献している。

The integration of multimodal Electronic Health Records (EHR) data has significantly improved clinical predictive capabilities. Leveraging clinical notes and multivariate time-series EHR, existing models often lack the medical context relevent to clinical tasks, prompting the incorporation of external knowledge, particularly from the knowledge graph (KG). Previous approaches with KG knowledge have primarily focused on structured knowledge extraction, neglecting unstructured data modalities and semantic high dimensional medical knowledge. In response, we propose REALM, a Retrieval-Augmented Generation (RAG) driven framework to enhance multimodal EHR representations that address these limitations. Firstly, we apply Large Language Model (LLM) to encode long context clinical notes and GRU model to encode time-series EHR data. Secondly, we prompt LLM to extract task-relevant medical entities and match entities in professionally labeled external knowledge graph (PrimeKG) with corresponding medical knowledge. By matching and aligning with clinical standards, our framework eliminates hallucinations and ensures consistency. Lastly, we propose an adaptive multimodal fusion network to integrate extracted knowledge with multimodal EHR data. Our extensive experiments on MIMIC-III mortality and readmission tasks showcase the superior performance of our REALM framework over baselines, emphasizing the effectiveness of each module. REALM framework contributes to refining the use of multimodal EHR data in healthcare and bridging the gap with nuanced medical context essential for informed clinical predictions.
翻訳日:2024-02-13 18:10:34 公開日:2024-02-10
# FedImpro: フェデレートラーニングにおけるクライアントアップデートの測定と改善

FedImpro: Measuring and Improving Client Update in Federated Learning ( http://arxiv.org/abs/2402.07011v1 )

ライセンス: Link先を確認
Zhenheng Tang, Yonggang Zhang, Shaohuai Shi, Xinmei Tian, Tongliang Liu, Bo Han, Xiaowen Chu(参考訳) フェデレートラーニング(FL)モデルは、クライアント間でデータの分散が異なる異種データによって引き起こされるクライアントのドリフトを経験することが多い。 この問題に対処するため、advanced researchは、より一貫したクライアントモデルを達成するために、既存の勾配を操作することに重点を置いている。 本稿では,クライアントのドリフトに関する別の視点を示し,改良したローカルモデルの生成による緩和を目標とする。 まず,ローカルトレーニングの一般化貢献を分析し,この一般化貢献は,異なるクライアントのデータ分布間の条件付きワッサースタイン距離によって制限されていると結論づける。 次に,局所学習のための条件分布を構築するfedimproを提案する。 具体的には、FedImproはモデルを高レベルかつ低レベルなコンポーネントに分離し、再建された特徴分布について高レベルな部分を訓練する。 このアプローチは一般化の寄与を高め、FLの勾配の相同性を減少させる。 実験結果から,FedImproはFLがデータ不均一性を防御し,モデルの一般化性能を向上させることができることがわかった。

Federated Learning (FL) models often experience client drift caused by heterogeneous data, where the distribution of data differs across clients. To address this issue, advanced research primarily focuses on manipulating the existing gradients to achieve more consistent client models. In this paper, we present an alternative perspective on client drift and aim to mitigate it by generating improved local models. First, we analyze the generalization contribution of local training and conclude that this generalization contribution is bounded by the conditional Wasserstein distance between the data distribution of different clients. Then, we propose FedImpro, to construct similar conditional distributions for local training. Specifically, FedImpro decouples the model into high-level and low-level components, and trains the high-level portion on reconstructed feature distributions. This approach enhances the generalization contribution and reduces the dissimilarity of gradients in FL. Experimental results show that FedImpro can help FL defend against data heterogeneity and enhance the generalization performance of the model.
翻訳日:2024-02-13 18:10:07 公開日:2024-02-10
# 脳腫瘍セグメンテーションのための処理と伝達学習のための最適化フレームワーク

An Optimization Framework for Processing and Transfer Learning for the Brain Tumor Segmentation ( http://arxiv.org/abs/2402.07008v1 )

ライセンス: Link先を確認
Tianyi Ren, Ethan Honey, Harshitha Rebala, Abhishek Sharma, Agamdeep Chopra, Mehmet Kurt(参考訳) マルチモーダル脳MRI画像からの腫瘍のセグメンテーションは、限られたサンプル、形状のばらつき、腫瘍形態の不均一な分布のために難しい課題である。 近年の深層学習の進歩により, 医用画像の自動セグメンテーションの性能が大幅に向上した。 しかし, モデル予測は, 精度と一般化性の観点からは, 臨床応用に期待できるレベルに達していない。 そこで我々は,BraTS 2023のチャレンジ1,2,3で提示された課題に対処するため,脳腫瘍セグメンテーションのための3次元U-Netモデルに基づく最適化フレームワークを構築した。 このフレームワークは、様々な前処理や後処理技術、転送学習を含む、様々なテクニックを取り入れている。 検証データセット上で、この多モード脳腫瘍セグメンテーションフレームワークは、それぞれチャレンジ1、2、3におけるDiceスコア平均0.79、0.72、0.74を達成する。

Tumor segmentation from multi-modal brain MRI images is a challenging task due to the limited samples, high variance in shapes and uneven distribution of tumor morphology. The performance of automated medical image segmentation has been significant improvement by the recent advances in deep learning. However, the model predictions have not yet reached the desired level for clinical use in terms of accuracy and generalizability. In order to address the distinct problems presented in Challenges 1, 2, and 3 of BraTS 2023, we have constructed an optimization framework based on a 3D U-Net model for brain tumor segmentation. This framework incorporates a range of techniques, including various pre-processing and post-processing techniques, and transfer learning. On the validation datasets, this multi-modality brain tumor segmentation framework achieves an average lesion-wise Dice score of 0.79, 0.72, 0.74 on Challenges 1, 2, 3 respectively.
翻訳日:2024-02-13 18:09:50 公開日:2024-02-10
# クライアントとのコラボレーション - ユーティリティ-プライバシートレードオフの改善を保証した,フレキシブルな差分型federated learning

Clients Collaborate: Flexible Differentially Private Federated Learning with Guaranteed Improvement of Utility-Privacy Trade-off ( http://arxiv.org/abs/2402.07002v1 )

ライセンス: Link先を確認
Yuecheng Li, Tong Wang, Chuan Chen, Jian Lou, Bin Chen, Lei Yang, Zibin Zheng(参考訳) ユーザデータのプライバシー漏洩を防ぐために、差分プライバシーは連邦学習で広く使われているが、無料ではない。 ノイズの追加はモデルの意味的整合性をランダムに乱し、この乱れは通信ラウンドの増加によって蓄積される。 本稿では,モデルユーティリティとユーザプライバシのトレードオフを打つために,クライアントに"互いに協力する"ことを目的とした,厳格なプライバシ保証を備えた新しいフェデレーション学習フレームワークについて紹介する。 具体的には,サーバのスタック付き局所モデルパラメータに対する効率的なテンソル低ランク近位最適化を行い,スペクトル空間内の高周波成分を柔軟に切り離す能力を示す。 これは、Fed CEOがさまざまなプライバシー設定と継続的なトレーニングプロセスのためにグローバルなセマンティックスペースをスムーズにすることで、破壊されたセマンティック情報を効果的に回復できることを意味しています。 さらに、$d$ が入力次元である$\sqrt{d}$ という順序で sota ユーティリティ-プライバシートレードオフを改善する。 代表的な画像データセットを用いた実験により, 理論的な結果を示す。 異なるプライバシ設定の下で、大幅なパフォーマンス改善と厳格なプライバシ保証を観察する。

To defend against privacy leakage of user data, differential privacy is widely used in federated learning, but it is not free. The addition of noise randomly disrupts the semantic integrity of the model and this disturbance accumulates with increased communication rounds. In this paper, we introduce a novel federated learning framework with rigorous privacy guarantees, named FedCEO, designed to strike a trade-off between model utility and user privacy by letting clients ''Collaborate with Each Other''. Specifically, we perform efficient tensor low-rank proximal optimization on stacked local model parameters at the server, demonstrating its capability to flexibly truncate high-frequency components in spectral space. This implies that our FedCEO can effectively recover the disrupted semantic information by smoothing the global semantic space for different privacy settings and continuous training processes. Moreover, we improve the SOTA utility-privacy trade-off bound by an order of $\sqrt{d}$, where $d$ is the input dimension. We illustrate our theoretical results with experiments on representative image datasets. It observes significant performance improvements and strict privacy guarantees under different privacy settings.
翻訳日:2024-02-13 18:09:27 公開日:2024-02-10
# 変化検出現実チェック

A Change Detection Reality Check ( http://arxiv.org/abs/2402.06994v1 )

ライセンス: Link先を確認
Isaac Corley, Caleb Robinson, Anthony Ortiz(参考訳) 近年,リモートセンシング文学における変化検出深層学習アーキテクチャの提案が爆発的に増えている。 これらのアプローチは、異なる標準ベンチマークデータセットで最先端のパフォーマンスを提供すると主張している。 しかし、この分野は本当に大きな進歩を遂げたのだろうか? 本稿では、簡単なu-netセグメンテーションベースラインを訓練や複雑なアーキテクチャの変更を伴わずに結論づける実験を行う。

In recent years, there has been an explosion of proposed change detection deep learning architectures in the remote sensing literature. These approaches claim to offer state-of the-art performance on different standard benchmark datasets. However, has the field truly made significant progress? In this paper we perform experiments which conclude a simple U-Net segmentation baseline without training tricks or complicated architectural changes is still a top performer for the task of change detection.
翻訳日:2024-02-13 18:08:53 公開日:2024-02-10
# 音声から音声への錯覚の合理的解析

A Rational Analysis of the Speech-to-Song Illusion ( http://arxiv.org/abs/2402.06992v1 )

ライセンス: Link先を確認
Raja Marjieh, Pol van Rijn, Ilia Sucholutsky, Harin Lee, Thomas L. Griffiths, Nori Jacoby(参考訳) 音声から歌への錯覚は強固な心理学的現象であり、話し言葉が繰り返されるにつれてより音楽的になる。 数十年にわたる研究にもかかわらず、この変換の完全な公式な説明はいまだに欠けており、いくつかのニュアンスな特徴、すなわち、あるフレーズが変化しているように見える一方で、他のフレーズが変化していないという特徴はよく理解されていない。 ここでは,この現象を統計的推論として再キャストすることにより,有理エージェントが歌や音声において発話のシーケンスが生成される確率が高いか否かを判断する。 このアプローチを用いて歌と音声のコーパスを解析し、純粋にテキストに基づく新しい散文と歌詞の錯覚を導入する。 この錯覚の中では、単に文章を複製するだけで歌の歌詞のように見える。 我々は、この新たな錯覚を人間の参加者と大きな言語モデルの両方で証明する。

The speech-to-song illusion is a robust psychological phenomenon whereby a spoken sentence sounds increasingly more musical as it is repeated. Despite decades of research, a complete formal account of this transformation is still lacking, and some of its nuanced characteristics, namely, that certain phrases appear to transform while others do not, is not well understood. Here we provide a formal account of this phenomenon, by recasting it as a statistical inference whereby a rational agent attempts to decide whether a sequence of utterances is more likely to have been produced in a song or speech. Using this approach and analyzing song and speech corpora, we further introduce a novel prose-to-lyrics illusion that is purely text-based. In this illusion, simply duplicating written sentences makes them appear more like song lyrics. We provide robust evidence for this new illusion in both human participants and large language models.
翻訳日:2024-02-13 18:08:43 公開日:2024-02-10
# 相互可視性

Reciprocal Visibility ( http://arxiv.org/abs/2402.06991v1 )

ライセンス: Link先を確認
Rakesh John Amala Arokia Nathan, Sigrid Strand, Dmitriy Shutin, and Oliver Bimber(参考訳) そこで本研究では,実時間合成開口サンプリングの最適化手法を提案する。 深度情報は、空中の個々のドローンの位置の地上の点の可視性を計算するために使用できる。 ヘルムホルツの相互性に触発されて,地上の任意の地点から空気中の潜在的なサンプリング位置を視認する2つの状況を決定するために相互視認性を導入する。 得られた可視マップは、地上のどの点が空気中の任意の位置からどの大きさで見えるかを符号化する。 このようなマップに基づいて,最初のグリーディサンプリング最適化を示す。

We propose a guidance strategy to optimize real-time synthetic aperture sampling for occlusion removal with drones by pre-scanned point-cloud data. Depth information can be used to compute visibility of points on the ground for individual drone positions in the air. Inspired by Helmholtz reciprocity, we introduce reciprocal visibility to determine the dual situation - the visibility of potential sampling position in the air from given points of interest on the ground. The resulting visibility map encodes which point on the ground is visible by which magnitude from any position in the air. Based on such a map, we demonstrate a first greedy sampling optimization.
翻訳日:2024-02-13 18:08:15 公開日:2024-02-10
# 探索勾配によるスケッチ型プログラムインダクション

Guided Sketch-Based Program Induction by Search Gradients ( http://arxiv.org/abs/2402.06990v1 )

ライセンス: Link先を確認
Ahmad Ayaz Amin(参考訳) 多くのタスクは機械学習技術を使って簡単に解決できる。 しかし、いくつかのタスクは統計モデルを使って簡単には解決できず、代わりにシンボリックアプローチが必要となる。 プログラム誘導は、トレーニングを通じて解釈可能で一般化可能なアルゴリズムをキャプチャすることで、そのようなタスクを解く方法の1つである。 しかしながら、プログラム誘導の現代的アプローチは、ニューラルネットワークによってパラメータ化される単一の全通過モデルとして定式化される傾向があるため、様々なタスクに容易に適用できるほど洗練されていない。 プログラム誘導を多くのシナリオで実現可能とする試みとして,進化戦略を用いた探索勾配によるパラメータ化プログラムの学習フレームワークを提案する。 この定式化は、プログラマがプログラムの「スケッチ」にタスク固有のコードを付与できる一方で、エンドツーエンドの勾配に基づく最適化による加速学習の利点を享受できるため、従来のプログラム帰納法から外れている。

Many tasks can be easily solved using machine learning techniques. However, some tasks cannot readily be solved using statistical models, requiring a symbolic approach instead. Program induction is one of the ways that such tasks can be solved by means of capturing an interpretable and generalizable algorithm through training. However, contemporary approaches to program induction are not sophisticated enough to readily be applied to various types of tasks as they tend to be formulated as a single, all-encompassing model, usually parameterized by neural networks. In an attempt to make program induction a viable solution for many scenarios, we propose a framework for learning parameterized programs via search gradients using evolution strategies. This formulation departs from traditional program induction as it allows for the programmer to impart task-specific code to the program 'sketch', while also enjoying the benefits of accelerated learning through end-to-end gradient-based optimization.
翻訳日:2024-02-13 18:07:58 公開日:2024-02-10
# OSSAR:ロボット支援手術におけるオープンセット手術活動認識を目指して

OSSAR: Towards Open-Set Surgical Activity Recognition in Robot-assisted Surgery ( http://arxiv.org/abs/2402.06985v1 )

ライセンス: Link先を確認
Long Bai, Guankun Wang, Jie Wang, Xiaoxiao Yang, Huxin Gao, Xin Liang, An Wang, Mobarakol Islam, Hongliang Ren(参考訳) ロボット手術とコンピュータ支援の分野では、ロボット外科活動を理解することが最重要である。 外科的活動認識に特化した既存のアルゴリズムは、主に定義済みのクローズドセットパラダイムに対応しており、現実世界のオープンセットシナリオの課題を無視している。 このようなアルゴリズムは、トレーニングフェーズ中に見つからないクラスから派生したテストサンプルの存在にしばしば干渉する。 そこで本研究では,ossar(open-set surgical activity recognition)フレームワークを提案する。 我々の解は超球面逆点戦略を利用して、特徴空間における既知のクラスと未知のクラスを区別する。 さらに,モデルキャリブレーションを精錬し,未知のクラスを既知のクラスとして誤分類することを避けることで,閉集合における過剰信頼の問題に対処する。 このアサーションをサポートするために,jigsawsデータセットを用いたオープンセットの手術活動ベンチマークを構築した。 また,内視鏡下粘膜下郭清の手術活動に関する新しいデータも収集した。 これらのデータセットにおける広範囲な比較とアブレーション実験は、既存の最先端のアプローチよりも優れた性能を示す。 提案手法は実世界の手術シナリオの課題を効果的に解決できる。 私たちのコードはhttps://github.com/longbai1006/OSSARで公開されています。

In the realm of automated robotic surgery and computer-assisted interventions, understanding robotic surgical activities stands paramount. Existing algorithms dedicated to surgical activity recognition predominantly cater to pre-defined closed-set paradigms, ignoring the challenges of real-world open-set scenarios. Such algorithms often falter in the presence of test samples originating from classes unseen during training phases. To tackle this problem, we introduce an innovative Open-Set Surgical Activity Recognition (OSSAR) framework. Our solution leverages the hyperspherical reciprocal point strategy to enhance the distinction between known and unknown classes in the feature space. Additionally, we address the issue of over-confidence in the closed set by refining model calibration, avoiding misclassification of unknown classes as known ones. To support our assertions, we establish an open-set surgical activity benchmark utilizing the public JIGSAWS dataset. Besides, we also collect a novel dataset on endoscopic submucosal dissection for surgical activity tasks. Extensive comparisons and ablation experiments on these datasets demonstrate the significant outperformance of our method over existing state-of-the-art approaches. Our proposed solution can effectively address the challenges of real-world surgical scenarios. Our code is publicly accessible at https://github.com/longbai1006/OSSAR.
翻訳日:2024-02-13 18:06:57 公開日:2024-02-10
# タグ付きMRIによる4次元運動場のクロスモーダル翻訳による音声動作異常検出

Speech motion anomaly detection via cross-modal translation of 4D motion fields from tagged MRI ( http://arxiv.org/abs/2402.06984v1 )

ライセンス: Link先を確認
Xiaofeng Liu, Fangxu Xing, Jiachen Zhuo, Maureen Stone, Jerry L. Prince, Georges El Fakhri, Jonghye Woo(参考訳) 発話中の舌の動きパターンとその発声音声の音響的結果(すなわち調音-音響的関係)の関係を理解することは、音声品質の評価と革新的な治療とリハビリテーション戦略の開発において非常に重要である。 音声関連疾患における異常な関節機能の評価と検出には特に重要である。 そこで本研究では,対応する音声音響と連動して,音声の動作異常を検出する枠組みを開発することを目的とする。 これは、音声音響データから得られた4次元の運動場と2次元のスペクトルとのギャップを埋める、健康な個人のみのデータに基づいて訓練された深いクロスモーダルトランスレータを使用することによって達成される。 訓練された翻訳者は、健常者または患者に対するスペクトログラムの再構成品質を測定することにより、異常検出器として使用される。 特に、クロスモーダルトランスレーターは、患者データに限定された一般化能力をもたらす可能性が高い。 次に、健康な人のスペクトルを患者と区別するために、一級SVMを使用します。 その結果, 健常者36名, 舌癌3名を対象に, 39種類のタグ付きmriおよび音声波形を収集した。 3D畳み込みモデルとトランスフォーマーベースの深層翻訳モデルを用いて、健康的なトレーニングセットでトレーニングし、健康なテストセットと患者のテストセットの両方に適用しました。 本枠組みは, 健常者および健常者双方の調音・音響的関係の理解を深める上で, 異常な患者データを検出する能力を示すものである。

Understanding the relationship between tongue motion patterns during speech and their resulting speech acoustic outcomes -- i.e., articulatory-acoustic relation -- is of great importance in assessing speech quality and developing innovative treatment and rehabilitative strategies. This is especially important when evaluating and detecting abnormal articulatory features in patients with speech-related disorders. In this work, we aim to develop a framework for detecting speech motion anomalies in conjunction with their corresponding speech acoustics. This is achieved through the use of a deep cross-modal translator trained on data from healthy individuals only, which bridges the gap between 4D motion fields obtained from tagged MRI and 2D spectrograms derived from speech acoustic data. The trained translator is used as an anomaly detector, by measuring the spectrogram reconstruction quality on healthy individuals or patients. In particular, the cross-modal translator is likely to yield limited generalization capabilities on patient data, which includes unseen out-of-distribution patterns and demonstrates subpar performance, when compared with healthy individuals.~A one-class SVM is then used to distinguish the spectrograms of healthy individuals from those of patients. To validate our framework, we collected a total of 39 paired tagged MRI and speech waveforms, consisting of data from 36 healthy individuals and 3 tongue cancer patients. We used both 3D convolutional and transformer-based deep translation models, training them on the healthy training set and then applying them to both the healthy and patient testing sets. Our framework demonstrates a capability to detect abnormal patient data, thereby illustrating its potential in enhancing the understanding of the articulatory-acoustic relation for both healthy individuals and patients.
翻訳日:2024-02-13 18:06:14 公開日:2024-02-10
# マルチパラメトリックmriによるglioblastomaの生存率推定

Treatment-wise Glioblastoma Survival Inference with Multi-parametric Preoperative MRI ( http://arxiv.org/abs/2402.06982v1 )

ライセンス: Link先を確認
Xiaofeng Liu, Nadya Shusharina, Helen A Shih, C.-C. Jay Kuo, Georges El Fakhri, Jonghye Woo(参考訳) 本研究は,術前磁気共鳴法(MR)を用いて異なる治療を施行したGlioblastoma (GBM)患者の生存時間(ST)を予測することを目的とする。 パーソナライズされた正確な治療計画は、異なる治療のSTを比較することで達成できる。 It is well established that both the current status of the patient (as represented by the MR scans) and the choice of treatment are the cause of ST. While previous related MR-based glioblastoma ST studies have focused only on the direct mapping of MR scans to ST, they have not included the underlying causal relationship between treatments and ST. To address this limitation, we propose a treatment-conditioned regression model for glioblastoma ST that incorporates treatment information in addition to MR scans. このアプローチにより,各治療のモデルを個別に訓練するのではなく,全治療のデータを統一的に効果的に活用することができる。 さらに,我々が採用する適応型インスタンス正規化により,各畳み込み層に効果的に処理を注入することができる。 我々はBraTS20ST予測タスクにおけるフレームワークの評価を行った。 Gross Total Resection (GTR) , Subtotal Resection (STR) , no Resection の3つの治療法が検討されている。 以上の結果から, GBM生存率を推定するための治療効果が示された。

In this work, we aim to predict the survival time (ST) of glioblastoma (GBM) patients undergoing different treatments based on preoperative magnetic resonance (MR) scans. The personalized and precise treatment planning can be achieved by comparing the ST of different treatments. It is well established that both the current status of the patient (as represented by the MR scans) and the choice of treatment are the cause of ST. While previous related MR-based glioblastoma ST studies have focused only on the direct mapping of MR scans to ST, they have not included the underlying causal relationship between treatments and ST. To address this limitation, we propose a treatment-conditioned regression model for glioblastoma ST that incorporates treatment information in addition to MR scans. Our approach allows us to effectively utilize the data from all of the treatments in a unified manner, rather than having to train separate models for each of the treatments. Furthermore, treatment can be effectively injected into each convolutional layer through the adaptive instance normalization we employ. We evaluate our framework on the BraTS20 ST prediction task. Three treatment options are considered: Gross Total Resection (GTR), Subtotal Resection (STR), and no resection. The evaluation results demonstrate the effectiveness of injecting the treatment for estimating GBM survival.
翻訳日:2024-02-13 18:05:43 公開日:2024-02-10
# 量子オットー熱エンジンをシミュレートするトラップイオンツールボックス

Trapped-ion toolbox to simulate quantum Otto heat engines ( http://arxiv.org/abs/2402.06979v1 )

ライセンス: Link先を確認
Rog\'erio Jorge de Assis, Ciro Micheletti Diniz, Norton Gomes de Almeida, and Celso Jorge Villas-B\^oas(参考訳) 本稿では, 2次元トラップ内に閉じ込められたイオンを用いて, 作動物質が2レベル系である量子オットー熱エンジンをシミュレートする手法を提案する。 この方法では、イオンの電子成分(二レベル系)は異なる種類の有効熱貯水池と相互作用することができる。 具体的には, 有効熱貯水池(正温度), 明らかな負温度の有効熱貯水池, 有効加圧熱貯水池に着目した。 提案手法の適用性を示すために,これらの効果的な貯水池の生成方法と数値的な結果を示す。 最後に, 量子調和振動子が作用物質として機能する量子オットー熱エンジンのシミュレーションについて, 同じ種類の有効熱貯水池を考察した。

We present a scheme that utilizes an ion confined within a bi-dimensional trap to simulate a quantum Otto heat engine whose working substance is a two-level system. In this scheme, the electronic component of the ion (the two-level system) can interact with effective heat reservoirs of different types. We specifically focus on effective thermal reservoirs (those with positive temperatures), effective heat reservoirs with apparent negative temperatures, and effective squeezed thermal reservoirs. We show how to generate these effective reservoirs and provide numerical results to illustrate the applicability of the presented scheme. Finally, considering the same types of effective heat reservoirs, we briefly discuss the simulation of a quantum Otto heat engine where a quantum harmonic oscillator serves as the working substance.
翻訳日:2024-02-13 18:05:27 公開日:2024-02-10
# 近似損失によるサンプリングからトレーニングスピードアップを理解する

Understanding the Training Speedup from Sampling with Approximate Losses ( http://arxiv.org/abs/2402.07052v1 )

ライセンス: Link先を確認
Rudrajit Das, Xi Chen, Bertram Ieong, Parikshit Bansal, Sujay Sanghavi(参考訳) 大きなロス/グレードを持つサンプルを選択することで、トレーニングステップの数を大幅に削減できることはよく知られている。 しかし、選択オーバヘッドは多くの場合、全体的なトレーニング時間の観点から有意義な成果を得るには高すぎる。 本研究では,選択のオーバーヘッドを減らすために,正確な損失ではなく,大きな \textit{approximate loss} を持つサンプルを選択するという,欲深いアプローチに着目する。 滑らかな凸損失に対して,このような欲望戦略は,ランダム選択の標準的なアプローチよりも少ないイテレーションで平均損失の最小値の定数係数に収束することを示した。 また、近似レベルの効果を理論的に定量化する。 次に,早期退避を利用してサンプル選択のための中間層表現を用いて近似損失を求めるSIFTを開発する。 我々は,110Mパラメータ12層BERTベースモデルのトレーニング作業におけるSIFTの評価を行い,バニラトレーニングに対する最適化実装を伴わずに,(トレーニング時間やバックプロパゲーションステップ数の観点から)有意な利得を示した。 例えば、検証精度が64%に達するためには、第1層の出口を持つSIFTは、バニラトレーニングの約57時間に比べて43時間かかる。

It is well known that selecting samples with large losses/gradients can significantly reduce the number of training steps. However, the selection overhead is often too high to yield any meaningful gains in terms of overall training time. In this work, we focus on the greedy approach of selecting samples with large \textit{approximate losses} instead of exact losses in order to reduce the selection overhead. For smooth convex losses, we show that such a greedy strategy can converge to a constant factor of the minimum value of the average loss in fewer iterations than the standard approach of random selection. We also theoretically quantify the effect of the approximation level. We then develop SIFT which uses early exiting to obtain approximate losses with an intermediate layer's representations for sample selection. We evaluate SIFT on the task of training a 110M parameter 12-layer BERT base model and show significant gains (in terms of training hours and number of backpropagation steps) without any optimized implementation over vanilla training. For e.g., to reach 64% validation accuracy, SIFT with exit at the first layer takes ~43 hours compared to ~57 hours of vanilla training.
翻訳日:2024-02-13 17:57:06 公開日:2024-02-10
# L^*LM$:自然言語によるOracleの例からオートマタを学ぶ

$L^*LM$: Learning Automata from Examples using Natural Language Oracles ( http://arxiv.org/abs/2402.07051v1 )

ライセンス: Link先を確認
Marcell Vazquez-Chanlatte, Karim Elmaaroufi, Stefan J. Witwicki, Sanjit A. Seshia(参考訳) 専門家によるデモンストレーションは、複雑なタスクを間接的に指定する簡単な方法が証明された。 最近のアルゴリズムは、デモから決定論的有限オートマトン(DFA)のような曖昧な形式仕様の抽出までサポートしている。 残念ながら、これらの技術は一般的にサンプル効率が良くない。 本稿では,実演と自然言語の両方からDFAを学習するアルゴリズムである$L^*LM$を紹介する。 自然言語の表現性から,専門家によるDFAの学習におけるデータ効率の大幅な向上が観察された。 技術的には、$L^*LM$は大きな言語モデルを利用して、基礎となるタスクに関するメンバシップクエリに答える。 これは、デモから学習をラベル付きサンプル学習問題の列に変換する最近の技術と組み合わされる。 実験では,2つのモダリティが相互に補完し,強力な数発の学習者が得られることを示した。

Expert demonstrations have proven an easy way to indirectly specify complex tasks. Recent algorithms even support extracting unambiguous formal specifications, e.g. deterministic finite automata (DFA), from demonstrations. Unfortunately, these techniques are generally not sample efficient. In this work, we introduce $L^*LM$, an algorithm for learning DFAs from both demonstrations and natural language. Due to the expressivity of natural language, we observe a significant improvement in the data efficiency of learning DFAs from expert demonstrations. Technically, $L^*LM$ leverages large language models to answer membership queries about the underlying task. This is then combined with recent techniques for transforming learning from demonstrations into a sequence of labeled example learning problems. In our experiments, we observe the two modalities complement each other, yielding a powerful few-shot learner.
翻訳日:2024-02-13 17:56:46 公開日:2024-02-10
# 協調型マルチエージェントシステムのための信頼度因子グラフモデル

A Factor Graph Model of Trust for a Collaborative Multi-Agent System ( http://arxiv.org/abs/2402.07049v1 )

ライセンス: Link先を確認
Behzad Akbari, Mingfeng Yuan, Hao Wang, Haibin Zhu, Jinjun Shan(参考訳) オープン性、ダイナミズム、協調性で知られるマルチエージェントシステム(MAS)の分野では、他のエージェントのリソースやサービスを信頼する能力が不可欠である。 この環境での信頼とは、エージェントがシステム内の他の人の情報、行動、意図、真実性、能力に依存し、信頼することである。 本稿では,因子グラフを用いてエージェント間の相互依存的行動や信頼性を表現する新しいグラフィカルアプローチを提案する。 これには、ロボットの振る舞いを、滑らかさ、障害物回避、信頼に関連する要因を考慮し、ガウス過程因子グラフを用いて行動の軌跡としてモデル化することが含まれる。 信頼度評価手法は分散化され, 近接安全性, 一貫性, 協調といった重要な相互依存サブファクタを考察する。 システム全体は信頼関連因子を介して相互作用する因子グラフのネットワークから構成されており、ベイズ推定法を用いて情報的同意で信頼に基づく決定を動的に評価する。 本手法の有効性は,無信号交差点を走行する自律ロボットによるシミュレーションおよび実証実験により検証した。

In the field of Multi-Agent Systems (MAS), known for their openness, dynamism, and cooperative nature, the ability to trust the resources and services of other agents is crucial. Trust, in this setting, is the reliance and confidence an agent has in the information, behaviors, intentions, truthfulness, and capabilities of others within the system. Our paper introduces a new graphical approach that utilizes factor graphs to represent the interdependent behaviors and trustworthiness among agents. This includes modeling the behavior of robots as a trajectory of actions using a Gaussian process factor graph, which accounts for smoothness, obstacle avoidance, and trust-related factors. Our method for evaluating trust is decentralized and considers key interdependent sub-factors such as proximity safety, consistency, and cooperation. The overall system comprises a network of factor graphs that interact through trust-related factors and employs a Bayesian inference method to dynamically assess trust-based decisions with informed consent. The effectiveness of this method is validated via simulations and empirical tests with autonomous robots navigating unsignalized intersections.
翻訳日:2024-02-13 17:56:36 公開日:2024-02-10
# ベータ限界を持つ確率依存確率のモデリングのためのロジスティックベータプロセス

Logistic-beta processes for modeling dependent random probabilities with beta marginals ( http://arxiv.org/abs/2402.07048v1 )

ライセンス: Link先を確認
Changwoo J. Lee, Alessandro Zito, Huiyan Sang, David B. Dunson(参考訳) ベータ分布は確率をモデル化する標準的なツールであり、統計学や機械学習、特にベイズ非パラメトリックスの分野で広く使われている。 広く使われているにもかかわらず、従属確率をモデル化するためのフレキシブルで計算に便利な確率過程拡張には制限がある。 我々はロジスティック-ベータ過程と呼ばれる新しい確率過程を提案し、ロジスティック変換は共通のベータマージンを持つ確率過程をもたらす。 ガウス過程と同様に、ロジスティック-ベータ過程は空間や時間のような離散領域と連続領域の両方の依存をモデル化することができ、相関核を通じて非常に柔軟な依存構造を持つ。 さらに、その正規分散-平均混合表現は、高い効率の後方推論アルゴリズムをもたらす。 ロジスティックベータプロセスの柔軟性と計算上の利点は、非パラメトリック二元回帰シミュレーション研究によって証明される。 さらに,ロジスティックベータ過程を依存ディリクレ過程のモデル化に適用し,毒性学研究においてベイズ密度回帰問題を通じてその応用と利点を説明する。

The beta distribution serves as a canonical tool for modeling probabilities and is extensively used in statistics and machine learning, especially in the field of Bayesian nonparametrics. Despite its widespread use, there is limited work on flexible and computationally convenient stochastic process extensions for modeling dependent random probabilities. We propose a novel stochastic process called the logistic-beta process, whose logistic transformation yields a stochastic process with common beta marginals. Similar to the Gaussian process, the logistic-beta process can model dependence on both discrete and continuous domains, such as space or time, and has a highly flexible dependence structure through correlation kernels. Moreover, its normal variance-mean mixture representation leads to highly effective posterior inference algorithms. The flexibility and computational benefits of logistic-beta processes are demonstrated through nonparametric binary regression simulation studies. Furthermore, we apply the logistic-beta process in modeling dependent Dirichlet processes, and illustrate its application and benefits through Bayesian density regression problems in a toxicology study.
翻訳日:2024-02-13 17:56:18 公開日:2024-02-10
# 尾の物語: スケーリング法則の変化としてのモデル崩壊

A Tale of Tails: Model Collapse as a Change of Scaling Laws ( http://arxiv.org/abs/2402.07043v1 )

ライセンス: Link先を確認
Elvis Dohmatob, Yunzhen Feng, Pu Yang, Francois Charton and Julia Kempe(参考訳) AIモデルのサイズが大きくなるにつれて、ニューラルスケーリング法則は、容量とオリジナルの(人間または自然)トレーニングデータのサイズを増大させるときに、大きなモデルの改善を予測する重要なツールとなっている。 しかし、人気モデルの広範な利用は、オンラインデータとテキストのエコシステムが、徐々に大量の合成データを含むように共進化することを意味する。 本稿では, 合成データが学習コーパスに導入される必然的体制において, スケーリング法則はどのように変化するのかを問う。 将来のモデルはまだ改善されるのか、それとも全体(モデル)の崩壊に至る運命にあるのか? 我々は、スケーリング法則のレンズを通してモデル崩壊の理論的枠組みを開発する。 本研究では, 多様な崩壊現象を発見し, スケーリングの損失を分析し, 数世代でスケーリングをシフトし, スキルの「アンラーニング」を行い, 混合データと合成データを用いてグロッキングを行う。 本理論は,算術タスクにおけるトランスフォーマーを用いた大規模実験と,大言語モデルllama2を用いたテキスト生成によって検証される。

As AI model size grows, neural scaling laws have become a crucial tool to predict the improvements of large models when increasing capacity and the size of original (human or natural) training data. Yet, the widespread use of popular models means that the ecosystem of online data and text will co-evolve to progressively contain increased amounts of synthesized data. In this paper we ask: How will the scaling laws change in the inevitable regime where synthetic data makes its way into the training corpus? Will future models, still improve, or be doomed to degenerate up to total (model) collapse? We develop a theoretical framework of model collapse through the lens of scaling laws. We discover a wide range of decay phenomena, analyzing loss of scaling, shifted scaling with number of generations, the ''un-learning" of skills, and grokking when mixing human and synthesized data. Our theory is validated by large-scale experiments with a transformer on an arithmetic task and text generation using the large language model Llama2.
翻訳日:2024-02-13 17:56:01 公開日:2024-02-10
# 投影代数と量子論理

Projection-algebras and quantum logic ( http://arxiv.org/abs/2402.07042v1 )

ライセンス: Link先を確認
Daniel Lehmann(参考訳) P-代数(P-algebras)は、古典論理学におけるブール代数とは何か、量子論理学におけるブール代数の非可換な非連想的一般化である。 P-代数 (P-algebras) は格子ではない直交正則ポーズである。 原子代数が定義され、その主な性質が研究される。 シークエントのサブ構造論理は健全であり、p-代数の論理に対して完全であることが証明されている。

P-algebras are a non-commutative, non-associative generalization of Boolean algebras that are for Quantum Logic what Boolean algebras are for Classical Logic.The closed subspaces of a separable Hilbert space form a P-algebra under orthogonal complementation and projection of a subspace onto another one. P-algebras are complemented orthomodular posets that are not lattices. Atomic algebras are defined and their main properties are studied. A substructural logic of sequents is proved to be sound and complete for the logic of P-algebras.
翻訳日:2024-02-13 17:55:42 公開日:2024-02-10
# ニューラルネットワークへの概念学習のためのシンボリック事前の蒸留

Distilling Symbolic Priors for Concept Learning into Neural Networks ( http://arxiv.org/abs/2402.07035v1 )

ライセンス: Link先を確認
Ioana Marinescu, R. Thomas McCoy, Thomas L. Griffiths(参考訳) 人間は、誘導バイアスに基づいて、少数の例から新しい概念を学ぶことができる。 これらの帰納バイアスは、以前は記号的仮説空間上で定義されたベイズモデルを用いて捉えられている。 同じ誘導バイアスを示すニューラルネットワークを作成することは可能か? 本研究では,概念学習の迅速化を可能にする帰納的バイアスを,メタラーニングを通じてシンボルベイズモデルから事前分布を蒸留することで,人工ニューラルネットワークでインスタンス化できることを示す。 ベイズモデルの事前分布からメタラーニングで使われるタスクの集合を生成することで、それをニューラルネットワークに転送することができる。 このアプローチを用いて、短い論理式として表現された概念に対する誘導バイアスを持つニューラルネットワークを作成する。 いくつかの例から論理的概念を学習した過去の行動実験の結果を分析し、メタ学習モデルが人間のパフォーマンスと高度に一致していることを発見した。

Humans can learn new concepts from a small number of examples by drawing on their inductive biases. These inductive biases have previously been captured by using Bayesian models defined over symbolic hypothesis spaces. Is it possible to create a neural network that displays the same inductive biases? We show that inductive biases that enable rapid concept learning can be instantiated in artificial neural networks by distilling a prior distribution from a symbolic Bayesian model via meta-learning, an approach for extracting the common structure from a set of tasks. By generating the set of tasks used in meta-learning from the prior distribution of a Bayesian model, we are able to transfer that prior into a neural network. We use this approach to create a neural network with an inductive bias towards concepts expressed as short logical formulas. Analyzing results from previous behavioral experiments in which people learned logical concepts from a few examples, we find that our meta-trained models are highly aligned with human performance.
翻訳日:2024-02-13 17:55:32 公開日:2024-02-10
# Fiddler: ベンチマークモデルの高速推論のためのCPU-GPUオーケストレーション

Fiddler: CPU-GPU Orchestration for Fast Inference of Mixture-of-Experts Models ( http://arxiv.org/abs/2402.07033v1 )

ライセンス: Link先を確認
Keisuke Kamahori, Yile Gu, Kan Zhu, Baris Kasikci(参考訳) Mixture-of-Experts (MoE)アーキテクチャに基づくLarge Language Models (LLM)は、様々なタスクで有望なパフォーマンスを示している。 しかし、GPUメモリリソースが豊富でないリソース制約された環境でそれらを実行することは、巨大なモデルサイズのために難しい。 モデルウェイトをCPUメモリにオフロードする既存のシステムは、CPUとGPUの間で頻繁にデータを移動させるという大きなオーバーヘッドに悩まされている。 本稿では,MoEモデルのためのCPU-GPUオーケストレーションを備えた資源効率の高い推論エンジンであるFiddlerを提案する。 Fiddlerの主なアイデアは、CPUの計算能力を使用して、CPUとGPU間のデータ移動を最小限にすることである。 評価の結果,パラメータが90gbを超えるuncompressed mixtral-8x7bモデルを実行して,24gbのメモリを持つシングルgpu上で毎秒3ドル以上のトークンを生成することができた。 Fiddlerのコードは \url{https://github.com/efeslab/fiddler} で公開されている。

Large Language Models (LLMs) based on Mixture-of-Experts (MoE) architecture are showing promising performance on various tasks. However, running them on resource-constrained settings, where GPU memory resources are not abundant, is challenging due to huge model sizes. Existing systems that offload model weights to CPU memory suffer from the significant overhead of frequently moving data between CPU and GPU. In this paper, we propose Fiddler, a resource-efficient inference engine with CPU-GPU orchestration for MoE models. The key idea of Fiddler is to use the computation ability of the CPU to minimize the data movement between the CPU and GPU. Our evaluation shows that Fiddler can run the uncompressed Mixtral-8x7B model, which exceeds 90GB in parameters, to generate over $3$ tokens per second on a single GPU with 24GB memory, showing an order of magnitude improvement over existing methods. The code of Fiddler is publicly available at \url{https://github.com/efeslab/fiddler}
翻訳日:2024-02-13 17:55:18 公開日:2024-02-10
# ケースレベル安全対応型合成データの忠実度とその校正

Instance-Level Safety-Aware Fidelity of Synthetic Data and Its Calibration ( http://arxiv.org/abs/2402.07031v1 )

ライセンス: Link先を確認
Chih-Hong Cheng, Paul St\"ockel, Xingyu Zhao(参考訳) 現実世界のデータ収集に代わるコスト効率とスケーラブルな代替手段を提供することで、安全で信頼性の高い自動運転技術の未来を形作る上で、合成データの忠実さのモデリングと調整が最重要となる。 安全クリティカルなアプリケーションにおけるその役割に注目し、視覚的な入力特性を超える4種類のインスタンスレベルの忠実さを導入します。 目的は、合成データを現実世界の安全問題に合わせることだ。 本稿では,合成データ生成装置を洗練するための最適化手法を提案する。 このチューニングは,合成画像と実画像の安全性-クリティカルエラーの相関性を高める。

Modeling and calibrating the fidelity of synthetic data is paramount in shaping the future of safe and reliable self-driving technology by offering a cost-effective and scalable alternative to real-world data collection. We focus on its role in safety-critical applications, introducing four types of instance-level fidelity that go beyond mere visual input characteristics. The aim is to align synthetic data with real-world safety issues. We suggest an optimization method to refine the synthetic data generator, reducing fidelity gaps identified by the DNN-based component. Our findings show this tuning enhances the correlation between safety-critical errors in synthetic and real images.
翻訳日:2024-02-13 17:55:00 公開日:2024-02-10
# バイリンガル語彙誘導のための半教師付き学習

Semi-Supervised Learning for Bilingual Lexicon Induction ( http://arxiv.org/abs/2402.07028v1 )

ライセンス: Link先を確認
Paul Garnier and Gauthier Guinet(参考訳) 本稿では,言語に対応する2つの連続語表現の集合を共通空間に整列させてバイリンガル語彙を推論する問題を考察する。 近年、単言語データで訓練された単語埋め込みを整合させることで、並列データを用いずに、そのようなレキシコンを推測できることが示されている。 このような作業は教師なしバイリンガル誘導 (unsupervised bilingual induction) と呼ばれる。 いくつかの言語のプログレッシブ学習で経験を積むことができるかどうか疑問に思うことで、我々は、ある言語セットの知識を、新しい言語を学習する際にどの程度統合できるかを、後者の並列データなしで、自問自答した。 言い換えれば、教師なし学習の核となる問題を最新の段階に保ちながら、私たちは他のコーパスのイディオムへのアクセスを可能にしました。 そこで我々は,この機械学習分野の最近のツールを用いたランキング問題として,レキシコン誘導を考慮した新しい定式化を提案する。 標準ベンチマークに関する実験では、英語から20以上の言語に辞書を推論することで、既存の技術ベンチマークを一貫して上回っています。 さらに、この新たなシナリオから、アライメント現象をよりよく理解できるいくつかの関連する結論を導き出す。

We consider the problem of aligning two sets of continuous word representations, corresponding to languages, to a common space in order to infer a bilingual lexicon. It was recently shown that it is possible to infer such lexicon, without using any parallel data, by aligning word embeddings trained on monolingual data. Such line of work is called unsupervised bilingual induction. By wondering whether it was possible to gain experience in the progressive learning of several languages, we asked ourselves to what extent we could integrate the knowledge of a given set of languages when learning a new one, without having parallel data for the latter. In other words, while keeping the core problem of unsupervised learning in the latest step, we allowed the access to other corpora of idioms, hence the name semi-supervised. This led us to propose a novel formulation, considering the lexicon induction as a ranking problem for which we used recent tools of this machine learning field. Our experiments on standard benchmarks, inferring dictionary from English to more than 20 languages, show that our approach consistently outperforms existing state of the art benchmark. In addition, we deduce from this new scenario several relevant conclusions allowing a better understanding of the alignment phenomenon.
翻訳日:2024-02-13 17:54:50 公開日:2024-02-10
# クロネッカー製品のスペクトル近似のための量子スピードアップ

Quantum Speedup for Spectral Approximation of Kronecker Products ( http://arxiv.org/abs/2402.07027v1 )

ライセンス: Link先を確認
Yeqi Gao, Zhao Song, Ruizhe Zhang(参考訳) 機械学習と最適化に広く応用されていることから、クロネッカー積は中心線型代数作用素として現れる。 しかし、その計算要求により高価な演算となり、従来の計算アルゴリズムによるスペクトル近似のコストが増大した。 既存のスペクトル近似の古典的手法は、大きさ$A_1 \in \mathbb{R}^{n \times d}$と$A_2 \in \mathbb{R}^{n \times d}$を考えると、$n$で表される行列次元に線形依存を示す。 本研究は,Kronecker 積 $A_1 \otimes A_2$ のスペクトル近似を量子法で効率的に解くための革新的な手法を提案する。 行列を量子状態として扱うことにより、スペクトル近似の時間的複雑さを$O_{d,\epsilon}(\sqrt{n})$に大幅に低減する。

Given its widespread application in machine learning and optimization, the Kronecker product emerges as a pivotal linear algebra operator. However, its computational demands render it an expensive operation, leading to heightened costs in spectral approximation of it through traditional computation algorithms. Existing classical methods for spectral approximation exhibit a linear dependency on the matrix dimension denoted by $n$, considering matrices of size $A_1 \in \mathbb{R}^{n \times d}$ and $A_2 \in \mathbb{R}^{n \times d}$. Our work introduces an innovative approach to efficiently address the spectral approximation of the Kronecker product $A_1 \otimes A_2$ using quantum methods. By treating matrices as quantum states, our proposed method significantly reduces the time complexity of spectral approximation to $O_{d,\epsilon}(\sqrt{n})$.
翻訳日:2024-02-13 17:54:30 公開日:2024-02-10
# 外側カシミール-ポルダー力のレジームに及ぼす遅延面と分散面の影響

Influence of retardation and dispersive surfaces on the regimes of the lateral Casimir-Polder force ( http://arxiv.org/abs/2402.07026v1 )

ライセンス: Link先を確認
Lucas Queiroz(参考訳) 本研究では,中性異方性偏光粒子と現実的な材料からなる波形表面とのカシミール-ポルダー相互作用を散乱法を用いて検討する。 横力(表面の波形の存在から推定される)に着目して、粒子が最寄りの波形ピーク、谷、あるいはピークと谷の間の中間点に惹かれる条件を調べ、ピーク、谷および中間レジームと呼ばれる挙動について検討する。 このような横力のレジームは最近の文献で予測されているが、ファン・デル・ワールス相互作用の文脈では、理想的な物質(完全導電性または非分散誘電体)の表面を考える。 本稿では,表面の現実的な誘電特性と相互作用の遅延を考慮に入れて,上記のレジームの発生がどう影響するかについて検討する。 この文脈では、上記の理想化された材料と比較して分散面の考察が谷や中間的な状態の発生を増幅できることを示す。 さらに,レターデションを考慮に入れれば,バレーレジームの発生に少なからぬ影響を及ぼすが,中間のレジームの場合,それらを増幅あるいは抑制することができる。 このような研究は異方性粒子と波形表面との相互作用の正確な説明を提供し、横カシミール・ポルダー力の非自明な側面をよりよく理解する。

We investigate, by means of the scattering approach, the Casimir-Polder interaction between a neutral anisotropic polarizable particle and a corrugated surface made of a realistic material. By focusing on the lateral force (arising from the presence of corrugation on the surface), we investigate the conditions for the particle to be attracted to the nearest corrugation peak, valley, or to an intermediate point between a peak and a valley, with such behaviors called peak, valley and intermediate regimes, respectively. Such regimes of the lateral force were recently predicted in the literature, but in the context of the van der Waals interaction and considering the surface made of some ideal material (a perfectly conducting or a nondispersive dielectric). Here, we investigate how the occurrence of the mentioned regimes is affected by the consideration of realistic dielectric properties for the surface and also of the retardation in the interaction. In this context, we show that the consideration of a dispersive surface, when compared to the mentioned idealized materials, can amplify the occurrence of the valley and intermediate regimes. Moreover, regarding the consideration of retardation, we show that it has a small influence on the occurrence of the valley regime, but, for the intermediate ones, can either amplify or inhibit them. Such investigation provides a preciser description of the interaction between an anisotropic particle and a corrugated surface, giving a better understanding of the nontrivial aspects of the lateral Casimir-Polder force.
翻訳日:2024-02-13 17:54:12 公開日:2024-02-10
# 平均場レジームにおけるグラフニューラルネットワークの一般化誤差

Generalization Error of Graph Neural Networks in the Mean-field Regime ( http://arxiv.org/abs/2402.07025v1 )

ライセンス: Link先を確認
Gholamali Aminian, Yixuan He, Gesine Reinert, {\L}ukasz Szpruch, Samuel N. Cohen(参考訳) この研究は、パラメータの数がデータポイントの量を超える過パラメータ化状態におけるグラフニューラルネットワークによるグラフ分類タスクの一般化誤差を評価する理論的枠組みを提供する。 グラフ畳み込みニューラルネットワークとメッセージパッシンググラフニューラルネットワークという,広く利用されている2種類のグラフニューラルネットワークについて検討する。 この研究の前には、過パラメータ化状態における一般化誤差の既定限界は予測不能であり、過パラメータ化ネットワーク性能の理解を制限した。 提案手法では,グラフニューラルネットワークの一般化誤差を評価するために平均場領域内の上限を導出する。 我々は収束率$O(1/n)$で上限を確立し、$n$はグラフサンプルの数である。 これらの上限は、挑戦的な過度パラメータ化体制における未確認データに対するネットワークの性能を理論的に保証し、その性能に対する我々の理解に貢献する。

This work provides a theoretical framework for assessing the generalization error of graph classification tasks via graph neural networks in the over-parameterized regime, where the number of parameters surpasses the quantity of data points. We explore two widely utilized types of graph neural networks: graph convolutional neural networks and message passing graph neural networks. Prior to this study, existing bounds on the generalization error in the over-parametrized regime were uninformative, limiting our understanding of over-parameterized network performance. Our novel approach involves deriving upper bounds within the mean-field regime for evaluating the generalization error of these graph neural networks. We establish upper bounds with a convergence rate of $O(1/n)$, where $n$ is the number of graph samples. These upper bounds offer a theoretical assurance of the networks' performance on unseen data in the challenging over-parameterized regime and overall contribute to our understanding of their performance.
翻訳日:2024-02-13 17:53:45 公開日:2024-02-10
# 厳密な凸確率協調ゲームにおける期待コアの学習

Learning the Expected Core of Strictly Convex Stochastic Cooperative Games ( http://arxiv.org/abs/2402.07067v1 )

ライセンス: Link先を確認
Nam Phuong Tran, The Anh Ta, Shuqing Shi, Debmalya Mandal, Yali Du, Long Tran-Thanh(参考訳) 報酬の割り当ては、クレジット割り当て問題としても知られ、経済学、工学、機械学習において重要なトピックとなっている。 信用割当における重要な概念は中核であり、大連立から逸脱する動機を持つエージェントがいない安定した割当の集合である。 本稿では,確率的協調ゲームにおいて,報酬関数を未知の分布を持つランダム変数として特徴付ける安定なアロケーション学習問題を考察する。 要求された連立に対する確率的な報酬を各ラウンド毎に返すオラクルを考えると、私たちの目標は期待されたコア、すなわち期待どおりの割り当てのセットを学ぶことです。 厳密な凸ゲームのクラス内では、高確率で多項式数の標本が与えられたときの安定なアロケーションを返す「texttt{Common-Points-Picking}」というアルゴリズムを提案する。 このアルゴリズムの解析は、複数の凸集合に対する分離超平面定理の拡張を含む凸幾何学におけるいくつかの新しい結果の開発を伴い、独立した興味を持つかもしれない。

Reward allocation, also known as the credit assignment problem, has been an important topic in economics, engineering, and machine learning. An important concept in credit assignment is the core, which is the set of stable allocations where no agent has the motivation to deviate from the grand coalition. In this paper, we consider the stable allocation learning problem of stochastic cooperative games, where the reward function is characterised as a random variable with an unknown distribution. Given an oracle that returns a stochastic reward for an enquired coalition each round, our goal is to learn the expected core, that is, the set of allocations that are stable in expectation. Within the class of strictly convex games, we present an algorithm named \texttt{Common-Points-Picking} that returns a stable allocation given a polynomial number of samples, with high probability. The analysis of our algorithm involves the development of several new results in convex geometry, including an extension of the separation hyperplane theorem for multiple convex sets, and may be of independent interest.
翻訳日:2024-02-13 17:43:17 公開日:2024-02-10
# 入力摂動を考慮した差分プライベートレンジクエリ

Differentially Private Range Queries with Correlated Input Perturbation ( http://arxiv.org/abs/2402.07066v1 )

ライセンス: Link先を確認
Prathamesh Dharangutte, Jie Gao, Ruobin Gong, Guanyang Wang(参考訳) 本研究では,線形クエリの局所的微分プライベートなメカニズム,特にレンジクエリのクラスを提案し,相関入力の摂動を利用して不偏性,一貫性,統計透過性,実用性要件の制御を,あるクエリマージンで表現された精度目標,あるいは階層データベース構造によって示唆された精度目標の観点から同時に行う。 提案するカスケードサンプリングアルゴリズムは, この機構を正確かつ効率的にインスタンス化する。 我々の限界は、出力摂動法と経験的に競合しながら、ほぼ最適効用が得られることを示している。

This work proposes a class of locally differentially private mechanisms for linear queries, in particular range queries, that leverages correlated input perturbation to simultaneously achieve unbiasedness, consistency, statistical transparency, and control over utility requirements in terms of accuracy targets expressed either in certain query margins or as implied by the hierarchical database structure. The proposed Cascade Sampling algorithm instantiates the mechanism exactly and efficiently. Our bounds show that we obtain near-optimal utility while being empirically competitive against output perturbation methods.
翻訳日:2024-02-13 17:42:59 公開日:2024-02-10
# 重度・超重度対称雑音をもつ確率帯域に対する高速UCB型アルゴリズム

Fast UCB-type algorithms for stochastic bandits with heavy and super heavy symmetric noise ( http://arxiv.org/abs/2402.07062v1 )

ライセンス: Link先を確認
Yuriy Dorn, Aleksandr Katrutsa, Ilgam Latypov, Andrey Pudovikov(参考訳) 本研究では,不正確なオラクルを用いた一般凸最適化法に基づいて,確率的マルチアームバンディットのためのUCB型アルゴリズムを構築する手法を提案する。 我々は最適化手法の収束率に対応する後悔境界を導出する。 We propose a new algorithm Clipped-SGD-UCB and show, both theoretically and empirically, that in the case of symmetric noise in the reward, we can achieve an $O(\log T\sqrt{KT\log T})$ regret bound instead of $O\left (T^{\frac{1}{1+\alpha}} K^{\frac{\alpha}{1+\alpha}} \right)$ for the case when the reward distribution satisfies $\mathbb{E}_{X \in D}[|X|^{1+\alpha}] \leq \sigma^{1+\alpha}$ ($\alpha \in (0, 1])$, i.e. perform better than it is assumed by the general lower bound for bandits with heavy-tails. さらに、報酬分布が期待値を持っていない場合、すなわち$\alpha<0$であるときでも、同じバウンドが成り立つ。

In this study, we propose a new method for constructing UCB-type algorithms for stochastic multi-armed bandits based on general convex optimization methods with an inexact oracle. We derive the regret bounds corresponding to the convergence rates of the optimization methods. We propose a new algorithm Clipped-SGD-UCB and show, both theoretically and empirically, that in the case of symmetric noise in the reward, we can achieve an $O(\log T\sqrt{KT\log T})$ regret bound instead of $O\left (T^{\frac{1}{1+\alpha}} K^{\frac{\alpha}{1+\alpha}} \right)$ for the case when the reward distribution satisfies $\mathbb{E}_{X \in D}[|X|^{1+\alpha}] \leq \sigma^{1+\alpha}$ ($\alpha \in (0, 1])$, i.e. perform better than it is assumed by the general lower bound for bandits with heavy-tails. Moreover, the same bound holds even when the reward distribution does not have the expectation, that is, when $\alpha<0$.
翻訳日:2024-02-13 17:42:43 公開日:2024-02-10
# ドメイン適応型微調整蒸留フレームワークによる農業監視の促進

Domain Adaptable Fine-Tune Distillation Framework For Advancing Farm Surveillance ( http://arxiv.org/abs/2402.07059v1 )

ライセンス: Link先を確認
Raza Imam, Muhammad Huzaifa, Nabil Mansour, Shaher Bano Mirza, Fouad Lamghari(参考訳) 本研究では,ラクダ群集モニタリングのための自動フレームワークを提案し,統一型自動アノテーションフレームワークとファインチューン蒸留フレームワークの2つの重要な貢献点を紹介した。 Unified Auto-Annotationアプローチは、GD(GoldingDINO)とSAM(Segment-Anything-Model)という2つのモデルを組み合わせて、監視ビデオから抽出された生のデータセットを自動的にアノテートする。 この基礎に基づいて、微調整蒸留フレームワークは、自動注釈データセットを使用して学生モデルの微調整を行う。 このプロセスは、大きな教師モデルから学生モデルに知識を移し、知識蒸留の変種に似ている。 Fine-Tune Distillationフレームワークは特定のユースケースに適応することを目的としており、大きなモデルから小さなモデルへの知識の伝達を可能にし、ドメイン固有のアプリケーションに適している。 UAEのドバイにあるAl-Marmoom Camel Farmから収集した生のデータセットと、事前訓練された教師モデルであるGroundingDinoを利用して、ファインチューン蒸留フレームワークは、軽量なデプロイ可能なモデルYOLOv8を生成する。 このフレームワークは高い性能と計算効率を示し、効率的なリアルタイムオブジェクト検出を容易にする。 我々のコードは \href{https://github.com/Razaimam45/Fine-Tune-Distillation}{https://github.com/Razaimam45/Fine-Tune-Distillation} で入手できる。

In this study, we propose an automated framework for camel farm monitoring, introducing two key contributions: the Unified Auto-Annotation framework and the Fine-Tune Distillation framework. The Unified Auto-Annotation approach combines two models, GroundingDINO (GD), and Segment-Anything-Model (SAM), to automatically annotate raw datasets extracted from surveillance videos. Building upon this foundation, the Fine-Tune Distillation framework conducts fine-tuning of student models using the auto-annotated dataset. This process involves transferring knowledge from a large teacher model to a student model, resembling a variant of Knowledge Distillation. The Fine-Tune Distillation framework aims to be adaptable to specific use cases, enabling the transfer of knowledge from the large models to the small models, making it suitable for domain-specific applications. By leveraging our raw dataset collected from Al-Marmoom Camel Farm in Dubai, UAE, and a pre-trained teacher model, GroundingDINO, the Fine-Tune Distillation framework produces a lightweight deployable model, YOLOv8. This framework demonstrates high performance and computational efficiency, facilitating efficient real-time object detection. Our code is available at \href{https://github.com/Razaimam45/Fine-Tune-Distillation}{https://github.com/Razaimam45/Fine-Tune-Distillation}
翻訳日:2024-02-13 17:42:11 公開日:2024-02-10