このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240503となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 教育における積極的責任を負うAIのマニフェスト
A Manifesto for a Pro-Actively Responsible AI in Education ( http://arxiv.org/abs/2407.05423v1 ) ライセンス: Link先を確認 | Kaska Porayska-Pomsta, | (参考訳) 本稿では、より広範なAI実践におけるAIED(Artificial Intelligence in Education)の歴史的基礎、現在の実践、そして新たな課題について検討する。
これはAIEDの、特に責任あるAIのコンテキストにおいて、現在のAIポリシーとプラクティスに貢献する、ユニークで豊富なポテンシャルを強調している。
また、コテージ産業からAI研究と実践的応用の推進の鍵となるべきレベルまで、分野を拡大するためにコミュニティが取り組む必要があるAIED分野における重要なギャップについても論じている。
この論文は、AIEDの教育と幅広いAIコミュニティへの貢献を活性化することを目的とした5点マニフェストを提供し、学際的なコラボレーションの強化、AIの人間機能への影響の理解の拡大、人間中心の教育革新の課題の設定へのコミットメントを提案する。このアプローチは、AIEDが教育技術に大きく影響し、多様な社会セグメントにまたがる実質的なポジティブな影響を達成するためのものである。
This paper examines the historical foundations, current practices, and emerging challenges for Artificial Intelligence in Education (AIED) within broader AI practices. It highlights AIED's unique and rich potential for contributing to the current AI policy and practices, especially in the context of responsible AI. It also discusses the key gaps in the AIED field, which need to be addressed by the community to elevate the field from a cottage industry to the level where it will deservedly be seen as key to advancin AI research and practical applications. The paper offers a five-point manifesto aimed to revitalise AIED' contributions to education and broader AI community, suggesting enhanced interdisciplinary collaboration, a broadened understanding of AI's impact on human functioning, and commitment to setting agendas for human-centred educational innovations.This approach positions AIED to significantly influence educational technologies to achieve genuine positive impact across diverse societal segments. | 翻訳日:2024-07-22 14:29:03 公開日:2024-05-03 |
# 学生のパフォーマンス予測へのオンラインインクリメンタルアプローチ
Towards An Online Incremental Approach to Predict Students Performance ( http://arxiv.org/abs/2407.10256v1 ) ライセンス: Link先を確認 | Chahrazed Labba, Anne Boyer, | (参考訳) 準備済みデータを用いたオフライン環境で開発された分析モデルは、通常、生徒のパフォーマンスを予測するために使用される。
しかし、時間が経つにつれてデータが利用できるようになると、この学習方法はもはや適切ではない。
オンライン学習は、ストリームデータからオンラインモデルを更新するためにますます使われています。
リハーサル技法は一般的に使われ、新しいデータが受信されるたびに更新される小さなトレーニングセットでモデルを再トレーニングする。
この点における主な課題は、優れたモデル性能を維持するための適切なデータサンプルによるトレーニングセットの構築である。
通常、サンプルのランダムな選択が行われ、モデルの性能が低下する可能性がある。
本稿では,学習者のパフォーマンスをストリームデータを用いて予測するオンライン分類器を更新するための,メモリベースのオンラインインクリメンタル学習手法を提案する。
このアプローチは、メモリ空間の制約とクラスラベルのバランスを尊重しながら、遺伝的アルゴリズムヒューリスティックの使用に基づいている。
ランダム選択とは対照的に,本手法はトレーニングセットを作成する際の多様性を促進することにより,解析モデルの安定性を向上させる。
概念実証として,オープンデータセットOULADに適用した。
提案手法は, 精度が1%から2.1%の比較的低い標準偏差を維持しながら, 現在の最先端技術と比較して10%近く向上し, モデル精度の顕著な向上を実現している。
Analytical models developed in offline settings with pre-prepared data are typically used to predict students' performance. However, when data are available over time, this learning method is not suitable anymore. Online learning is increasingly used to update the online models from stream data. A rehearsal technique is typically used, which entails re-training the model on a small training set that is updated each time new data is received. The main challenge in this regard is the construction of the training set with appropriate data samples to maintain good model performance. Typically, a random selection of samples is made, which can deteriorate the model's performance. In this paper, we propose a memory-based online incremental learning approach for updating an online classifier that predicts student performance using stream data. The approach is based on the use of the genetic algorithm heuristic while respecting the memory space constraints as well as the balance of class labels. In contrast to random selection, our approach improves the stability of the analytical model by promoting diversity when creating the training set. As a proof of concept, we applied it to the open dataset OULAD. Our approach achieves a notable improvement in model accuracy, with an enhancement of nearly 10% compared to the current state-of-the-art, while maintaining a relatively low standard deviation in accuracy, ranging from 1% to 2.1%. | 翻訳日:2024-07-22 12:59:07 公開日:2024-05-03 |
# コンフォーマル化量子回帰を用いたオンチップモニタによる最小動作電圧の信頼区間予測
Reliable Interval Prediction of Minimum Operating Voltage Based on On-chip Monitors via Conformalized Quantile Regression ( http://arxiv.org/abs/2406.18536v1 ) ライセンス: Link先を確認 | Yuxuan Yin, Xiaoxiao Wang, Rebecca Chen, Chen He, Peng Li, | (参考訳) チップの最小動作電圧(V_{min}$)を予測することは、製造試験フローを改善するとともに、フィールドシステムの長期的な信頼性と安全性を確保するための重要な手法の1つである。
現状の$V_{min}$予測法は、しばしば点推定のみを提供し、異なる変化源によって生じる不確実性をカバーするために予測信頼区間を構築するための追加の技術を必要とする。
既存の手法は地域予測を提供するが、特定の分布仮定に依存したり、カバレッジ保証を提供しない。
これらの制約に対応するために,理論的なカバレッジ保証を有する分布自由な$V_{min}$間隔推定手法を提案する。
提案手法は、共形量子レグレッションとオンチップモニタを利用して、信頼性の高い予測間隔を生成する。
産業用5nm自動車チップデータセットにおける提案手法の有効性を実証する。
さらに,オンチップモニタを用いることで,V_{min}$予測の間隔を著しく短縮できることを示す。
Predicting the minimum operating voltage ($V_{min}$) of chips is one of the important techniques for improving the manufacturing testing flow, as well as ensuring the long-term reliability and safety of in-field systems. Current $V_{min}$ prediction methods often provide only point estimates, necessitating additional techniques for constructing prediction confidence intervals to cover uncertainties caused by different sources of variations. While some existing techniques offer region predictions, but they rely on certain distributional assumptions and/or provide no coverage guarantees. In response to these limitations, we propose a novel distribution-free $V_{min}$ interval estimation methodology possessing a theoretical guarantee of coverage. Our approach leverages conformalized quantile regression and on-chip monitors to generate reliable prediction intervals. We demonstrate the effectiveness of the proposed method on an industrial 5nm automotive chip dataset. Moreover, we show that the use of on-chip monitors can reduce the interval length significantly for $V_{min}$ prediction. | 翻訳日:2024-07-01 06:12:00 公開日:2024-05-03 |
# X-ベクトルとベイジアンバッチアクティブラーニングを組み合わせる:音声認識のための2段階アクティブラーニングパイプライン
Combining X-Vectors and Bayesian Batch Active Learning: Two-Stage Active Learning Pipeline for Speech Recognition ( http://arxiv.org/abs/2406.02566v1 ) ライセンス: Link先を確認 | Ognjen Kundacina, Vladimir Vincan, Dragisa Miskovic, | (参考訳) 本稿では、データ中心型AIアプローチを強調し、教師なしと教師なしのAL手法を組み合わせた、自動音声認識(ASR)のための新しい2段階アクティブラーニング(AL)パイプラインを提案する。
第1段階では、ラベル付き音声データから多様なサンプル選択を行うためにxベクトルクラスタリングを用いて教師なしALを利用する。
第2段階では、教師付きAL戦略と、ASR用に特別に開発されたバッチAL手法が組み込まれており、多種多様で情報に富んだサンプルのバッチを選択することを目的としている。
ここでは、サンプルの多様性をxベクトルクラスタリングを用いて達成し、最も有益なサンプルは、モンテカルロのドロップアウトを近似ベイズ推定に適応させたASRに適したベイズAL法を用いて同定する。
この手法により、精度の高い不確実性推定が可能となり、データ要求を大幅に削減したASRモデルトレーニングが向上する。
提案手法は, 同種, 異種およびOODテストセットの競合手法と比較して優れた性能を示し, 戦略サンプル選択と革新的ベイズモデルにより, 深層学習に基づくASRアプリケーションにおいて, ラベル付け作業とデータ利用の両方を効果的に最適化できることを実証した。
Emphasizing a data-centric AI approach, this paper introduces a novel two-stage active learning (AL) pipeline for automatic speech recognition (ASR), combining unsupervised and supervised AL methods. The first stage utilizes unsupervised AL by using x-vectors clustering for diverse sample selection from unlabeled speech data, thus establishing a robust initial dataset for the subsequent supervised AL. The second stage incorporates a supervised AL strategy, with a batch AL method specifically developed for ASR, aimed at selecting diverse and informative batches of samples. Here, sample diversity is also achieved using x-vectors clustering, while the most informative samples are identified using a Bayesian AL method tailored for ASR with an adaptation of Monte Carlo dropout to approximate Bayesian inference. This approach enables precise uncertainty estimation, thereby enhancing ASR model training with significantly reduced data requirements. Our method has shown superior performance compared to competing methods on homogeneous, heterogeneous, and OOD test sets, demonstrating that strategic sample selection and innovative Bayesian modeling can substantially optimize both labeling effort and data utilization in deep learning-based ASR applications. | 翻訳日:2024-06-09 15:49:54 公開日:2024-05-03 |
# 一般化同期に基づく一般読み出し型貯留層計算
Reservoir Computing with Generalized Readout based on Generalized Synchronization ( http://arxiv.org/abs/2405.14885v1 ) ライセンス: Link先を確認 | Akane Ookubo, Masanobu Inubushi, | (参考訳) 貯留層コンピューティング(Reservoir computing)は、非線形力学を利用する機械学習フレームワークであり、重要な計算能力を示す。
貯水池計算の特徴の1つは、低コストで簡単な訓練アルゴリズム、すなわち、貯水池変数の線形結合によって与えられる読み出しのみを訓練することである。
動的システム理論に基づく最近の数学的研究,特に一般化された同期に着想を得て,貯水池変数の非線形結合を含む一般化された読み出しを伴う新しい貯水池計算フレームワークを提案する。
一般化された読み出しを用いた最初の重要な利点は、情報処理能力を改善するための数学的基礎である。
第二に、このフレームワークは依然として線形学習フレームワーク内にあり、貯水池コンピューティングの本来の強みを保っている。
要約すると、一般化された読み出しは自然に数学的理論から派生し、単純さを犠牲にすることなく貯水池の力学から有用な基底関数を抽出することができる。
数値計算において,一般化された読み出しの導入は,ローレンツカオスの短期的・長期的予測において,精度の大幅な向上と予期せぬ強靭性の向上につながり,特に低次元貯水池力学の活用に焦点が当てられている。
一般化された読み出しを伴う貯水池計算の物理実装に対する新しい方法とその利点を概説する。
Reservoir computing is a machine learning framework that exploits nonlinear dynamics, exhibiting significant computational capabilities. One of the defining characteristics of reservoir computing is its low cost and straightforward training algorithm, i.e. only the readout, given by a linear combination of reservoir variables, is trained. Inspired by recent mathematical studies based on dynamical system theory, in particular generalized synchronization, we propose a novel reservoir computing framework with generalized readout, including a nonlinear combination of reservoir variables. The first crucial advantage of using the generalized readout is its mathematical basis for improving information processing capabilities. Secondly, it is still within a linear learning framework, which preserves the original strength of reservoir computing. In summary, the generalized readout is naturally derived from mathematical theory and allows the extraction of useful basis functions from reservoir dynamics without sacrificing simplicity. In a numerical study, we find that introducing the generalized readout leads to a significant improvement in accuracy and an unexpected enhancement in robustness for the short- and long-term prediction of Lorenz chaos, with a particular focus on how to harness low-dimensional reservoir dynamics. A novel way and its advantages for physical implementations of reservoir computing with generalized readout are briefly discussed. | 翻訳日:2024-06-02 14:47:20 公開日:2024-05-03 |
# 通信効率の良いフェデレーションレコメンダシステムにおける公平性を目指して
Towards Fairness in Provably Communication-Efficient Federated Recommender Systems ( http://arxiv.org/abs/2405.15788v1 ) ライセンス: Link先を確認 | Kirandeep Kaur, Sujit Gujar, Shweta Jain, | (参考訳) 複数のクライアントの並列トレーニングによる通信オーバヘッドを低減するため、さまざまなフェデレートラーニング(FL)技術はランダムなクライアントサンプリングを使用する。
にもかかわらず、ランダムサンプリングの有効性の確保と、フェデレーションレコメンデータシステム(FRS)におけるクライアントの最適な数の決定は、それぞれのユーザが独立したクライアントとして孤立していることから、依然として困難である。
この課題は、パブリック機能とプライベート機能を分離可能なモデルで悪化し、FLはパブリック機能のみ(テム勾配)の通信を可能にする。
本研究では,通信効率の向上とそれらのモデルの精度維持に要するクライアントの理想的な数を決定するために,サンプル複雑性境界を確立する。
その結果,RS-FairFRSが通信コスト(約47%)を削減できることが実証された。
第2に、FRSに対する実質的な株式の関心を喚起する顧客間のクラス不均衡の存在を実証する。
集中型機械学習とは異なり、FRSのクライアントは機密属性を含む生データを共有できない。
そこで我々は,ランダムサンプリングに基づくFRSに基づいて構築された未知のFRSの下での最初のフェアネスであるRS-FairFRSを紹介する。
ランダムサンプリングにより通信効率は向上するが,本研究では,トレーニングに参加するアクティブクライアントの保護属性を明らかにすることなく,公平性を実現するために,新しい二相二相更新手法を提案する。
実世界のデータセットと異なる繊細な特徴に対する我々の結果は、FRSの全体的な精度を損なうことなく、FRSにおける公平性とコミュニケーション効率を達成するための有望な経路を提供する、人口統計バイアス(~approx40\%)の顕著な減少を示している。
To reduce the communication overhead caused by parallel training of multiple clients, various federated learning (FL) techniques use random client sampling. Nonetheless, ensuring the efficacy of random sampling and determining the optimal number of clients to sample in federated recommender systems (FRSs) remains challenging due to the isolated nature of each user as a separate client. This challenge is exacerbated in models where public and private features can be separated, and FL allows communication of only public features (item gradients). In this study, we establish sample complexity bounds that dictate the ideal number of clients required for improved communication efficiency and retained accuracy in such models. In line with our theoretical findings, we empirically demonstrate that RS-FairFRS reduces communication cost (~47%). Second, we demonstrate the presence of class imbalance among clients that raises a substantial equity concern for FRSs. Unlike centralized machine learning, clients in FRS can not share raw data, including sensitive attributes. For this, we introduce RS-FairFRS, first fairness under unawareness FRS built upon random sampling based FRS. While random sampling improves communication efficiency, we propose a novel two-phase dual-fair update technique to achieve fairness without revealing protected attributes of active clients participating in training. Our results on real-world datasets and different sensitive features illustrate a significant reduction in demographic bias (~approx40\%), offering a promising path to achieving fairness and communication efficiency in FRSs without compromising the overall accuracy of FRS. | 翻訳日:2024-06-02 14:39:48 公開日:2024-05-03 |
# 意味的目的関数:ディープラーニングにおける論理的制約を付加する分布認識法
Semantic Objective Functions: A distribution-aware method for adding logical constraints in deep learning ( http://arxiv.org/abs/2405.15789v1 ) ライセンス: Link先を確認 | Miguel Angel Mendez-Lucero, Enrique Bojorquez Gallardo, Vaishak Belle, | (参考訳) 安全性、説明可能性、効率性の問題は、ハードおよびソフトな制約でデプロイされた学習システムにおいて、関心が高まることである。
シンボリック制約学習と知識蒸留技術は、知識の埋め込みと抽出、ニューラルネットワークトレーニング中の論理的制約の提供によって、この分野で有望な結果を示している。
現在までに多くのフレームワークが存在するが、論理学と情報幾何学の統合により、我々はこれらのタスクの構築と理論的枠組みを提供し、多くのアプローチを一般化している。
本稿では,確率分布を出力する機械学習モデルに,知識を付加した論理的制約を組み込むロスベース手法を提案する。
これは、外部知識・論理式からの分布を構築し、元の損失関数とフィッシャー・ラオ距離またはクルバック・リーブラの制約分布への線形結合として損失関数を構成する。
この構成には、命題公式(ブール変数)の形式における論理的制約、コンパクトな領域を持つモデル(カテゴリー変数と連続変数)上の有限変数を持つ一階言語の式、そして一般に、意味情報で事前訓練された任意の統計モデルに適用可能である。
本稿では,論理制約付き分類タスク,論理式からの知識の伝達,一般分布からの知識蒸留など,様々な学習課題について評価する。
Issues of safety, explainability, and efficiency are of increasing concern in learning systems deployed with hard and soft constraints. Symbolic Constrained Learning and Knowledge Distillation techniques have shown promising results in this area, by embedding and extracting knowledge, as well as providing logical constraints during neural network training. Although many frameworks exist to date, through an integration of logic and information geometry, we provide a construction and theoretical framework for these tasks that generalize many approaches. We propose a loss-based method that embeds knowledge-enforces logical constraints-into a machine learning model that outputs probability distributions. This is done by constructing a distribution from the external knowledge/logic formula and constructing a loss function as a linear combination of the original loss function with the Fisher-Rao distance or Kullback-Leibler divergence to the constraint distribution. This construction includes logical constraints in the form of propositional formulas (Boolean variables), formulas of a first-order language with finite variables over a model with compact domain (categorical and continuous variables), and in general, likely applicable to any statistical model that was pretrained with semantic information. We evaluate our method on a variety of learning tasks, including classification tasks with logic constraints, transferring knowledge from logic formulas, and knowledge distillation from general distributions. | 翻訳日:2024-06-02 14:39:48 公開日:2024-05-03 |
# 機械学習アルゴリズムと深層学習アルゴリズムを用いたバングラ食品レビューの感度極性解析
Sentiment Polarity Analysis of Bangla Food Reviews Using Machine and Deep Learning Algorithms ( http://arxiv.org/abs/2405.06667v1 ) ライセンス: Link先を確認 | Al Amin, Anik Sarkar, Md Mahamodul Islam, Asif Ahammad Miazee, Md Robiul Islam, Md Mahmudul Hoque, | (参考訳) インターネットは現代の人々にとって欠かせないツールになっている。
人間は、すべての生物と同様に、生存に必須の要件を持っている。
これには、大気中の酸素、可溶性水、保護シェルター、サステランスへのアクセスが含まれる。
世界の絶え間ないフラックスは、我々の存在をより複雑にしている。
人口の大部分は、自宅に食事を届けるためにオンライン食品注文サービスを利用している。
食品の注文方法は多々あるが、客は受け取った食品に失望することがある。
我々の努力は、食べ物が良質なのか、それとも良質なのかを判断できるモデルを確立することであった。
我々は、フードパンダやハングリーナキなど、著名な食品注文プラットフォームから1484以上のオンラインレビューの広範なデータセットを収集した。
収集したデータを利用して、食品の品質を予測するための最も正確なアプローチを決定するために、さまざまなディープラーニングおよび機械学習技術の厳密な評価を行った。
評価された全てのアルゴリズムのうち、ロジスティック回帰が最も正確であり、90.91%の精度を達成した。
このレビューは、ユーザーが食べ物を注文するかどうかを決めるための貴重な洞察を提供する。
The Internet has become an essential tool for people in the modern world. Humans, like all living organisms, have essential requirements for survival. These include access to atmospheric oxygen, potable water, protective shelter, and sustenance. The constant flux of the world is making our existence less complicated. A significant portion of the population utilizes online food ordering services to have meals delivered to their residences. Although there are numerous methods for ordering food, customers sometimes experience disappointment with the food they receive. Our endeavor was to establish a model that could determine if food is of good or poor quality. We compiled an extensive dataset of over 1484 online reviews from prominent food ordering platforms, including Food Panda and HungryNaki. Leveraging the collected data, a rigorous assessment of various deep learning and machine learning techniques was performed to determine the most accurate approach for predicting food quality. Out of all the algorithms evaluated, logistic regression emerged as the most accurate, achieving an impressive 90.91% accuracy. The review offers valuable insights that will guide the user in deciding whether or not to order the food. | 翻訳日:2024-05-27 03:27:39 公開日:2024-05-03 |
# フェイクニュースの公開と解説
Exposing and Explaining Fake News On-the-Fly ( http://arxiv.org/abs/2405.06668v1 ) ライセンス: Link先を確認 | Francisco de Arriba-Pérez, Silvia García-Méndez, Fátima Leal, Benedita Malheiro, Juan Carlos Burguillo, | (参考訳) ソーシャルメディアプラットフォームは、情報の迅速な普及と消費を可能にします。
しかし、共有データの信頼性に関わらず、ユーザは即座にそのようなコンテンツを消費する。
これにより、後者のクラウドソーシングモデルは操作に晒される。
この研究は、偽ニュースをリアルタイムで認識するための説明可能なオンライン分類手法に寄与する。
提案手法は、教師なしおよび教師なしの機械学習アプローチとオンライン生成レキシカを組み合わせたものである。
プロファイリングは、自然言語処理技術を使ったクリエーター、コンテンツ、コンテキストベースの機能を使って構築される。
説明可能な分類メカニズムは、分類のために選択された機能と予測信頼度をダッシュボードに表示する。
提案手法の性能はTwitterの実際のデータセットで検証され,その結果は80%精度とマクロF測定値を得た。
この提案は、データストリーム処理、プロファイリング、分類、説明可能性とを共同で提供する最初のものである。
最終的に、提案されたフェイクニュースの早期発見、隔離、説明は、ソーシャルメディアコンテンツの品質と信頼性の向上に寄与する。
Social media platforms enable the rapid dissemination and consumption of information. However, users instantly consume such content regardless of the reliability of the shared data. Consequently, the latter crowdsourcing model is exposed to manipulation. This work contributes with an explainable and online classification method to recognize fake news in real-time. The proposed method combines both unsupervised and supervised Machine Learning approaches with online created lexica. The profiling is built using creator-, content- and context-based features using Natural Language Processing techniques. The explainable classification mechanism displays in a dashboard the features selected for classification and the prediction confidence. The performance of the proposed solution has been validated with real data sets from Twitter and the results attain 80 % accuracy and macro F-measure. This proposal is the first to jointly provide data stream processing, profiling, classification and explainability. Ultimately, the proposed early detection, isolation and explanation of fake news contribute to increase the quality and trustworthiness of social media contents. | 翻訳日:2024-05-27 03:27:39 公開日:2024-05-03 |
# ロングファイナンシャルEarnings Call Transcripts の指示誘導型ブラットポイント要約
Instruction-Guided Bullet Point Summarization of Long Financial Earnings Call Transcripts ( http://arxiv.org/abs/2405.06669v1 ) ライセンス: Link先を確認 | Subhendu Khatuya, Koushiki Sinha, Niloy Ganguly, Saptarshi Ghosh, Pawan Goyal, | (参考訳) 自動要約技術は大きな進歩を遂げてきたが、その主な焦点は、短いニュース記事や、科学記事や政府の報告のような明確な構造パターンを持つ文書の要約である。
複雑な事実や数字を含む金融文書を要約する効率的な方法の開発については、あまり調査が行われていない。
本稿では、最近リリースされたECTSumデータセットを用いて、長大なEarning Call Transcripts(ECT)の弾点要約の問題について検討する。
この課題を解決するために,教師なし質問ベース抽出モジュールとパラメータ効率のよい命令調整抽象モジュールを併用する。
提案するモデルであるFLAN-FinBPSは,14.88%の平均ROUGEスコアゲインで最強のベースラインを達成し,ECTで議論された重要な事実を捉えるために,現実的に一貫した弾丸点要約を生成することができる。
While automatic summarization techniques have made significant advancements, their primary focus has been on summarizing short news articles or documents that have clear structural patterns like scientific articles or government reports. There has not been much exploration into developing efficient methods for summarizing financial documents, which often contain complex facts and figures. Here, we study the problem of bullet point summarization of long Earning Call Transcripts (ECTs) using the recently released ECTSum dataset. We leverage an unsupervised question-based extractive module followed by a parameter efficient instruction-tuned abstractive module to solve this task. Our proposed model FLAN-FinBPS achieves new state-of-the-art performances outperforming the strongest baseline with 14.88% average ROUGE score gain, and is capable of generating factually consistent bullet point summaries that capture the important facts discussed in the ECTs. | 翻訳日:2024-05-27 03:27:39 公開日:2024-05-03 |
# Liouville Flow Importance Smpler
Liouville Flow Importance Sampler ( http://arxiv.org/abs/2405.06672v1 ) ライセンス: Link先を確認 | Yifeng Tian, Nishant Panda, Yen Ting Lin, | (参考訳) 非正規化密度関数からサンプルを生成する革新的なフローベースモデルであるLiouville Flow Importance Sampler(LFIS)を提案する。
LFISは、単純な初期分布から複雑なターゲット分布へサンプルを決定的に輸送する時間依存速度場を学習し、アニール分布の所定の経路で導かれる。
LFISのトレーニングは、導出偏微分方程式の構造を速度場をモデル化するニューラルネットワークに強制するユニークな手法を用いる。
神経速度場を重要なサンプルとして考えることで、サンプル重量は、神経速度場によって駆動されるサンプル軌跡に沿って誤差を蓄積し、統計量の偏りと一貫した推定を確実にすることで計算することができる。
本研究では,LFISが最先端性能を達成したベンチマーク問題に対して,LFISの有効性を実証する。
We present the Liouville Flow Importance Sampler (LFIS), an innovative flow-based model for generating samples from unnormalized density functions. LFIS learns a time-dependent velocity field that deterministically transports samples from a simple initial distribution to a complex target distribution, guided by a prescribed path of annealed distributions. The training of LFIS utilizes a unique method that enforces the structure of a derived partial differential equation to neural networks modeling velocity fields. By considering the neural velocity field as an importance sampler, sample weights can be computed through accumulating errors along the sample trajectories driven by neural velocity fields, ensuring unbiased and consistent estimation of statistical quantities. We demonstrate the effectiveness of LFIS through its application to a range of benchmark problems, on many of which LFIS achieved state-of-the-art performance. | 翻訳日:2024-05-27 03:27:39 公開日:2024-05-03 |
# 鉄道保守点検における列車内振動の利用
Using In-Service Train Vibration for Detecting Railway Maintenance Needs ( http://arxiv.org/abs/2405.09560v1 ) ライセンス: Link先を確認 | Irene Alisjahbana, | (参考訳) 鉄道路線の整備の必要性が高まっている。
現在使われている従来の手法は、不正確、労働力、時間の集中、あるいはシステムの継続的な監視を可能にしない。
その結果、列車内振動は、鉄道線路の監視方法の安価な代替手段であることが判明した。
そこで本研究では,鉄道線路の異なる保守ニーズを単方向通行で検出する手法を提案する。
公開されているDR-Trainデータセットが使用された。
その結果、k-nearest neighbor (k-NN)アルゴリズムのような単純な分類器を用いることで、アクセラレーションデータの信号エネルギー特性が2種類のメンテナンスニーズに対して76倍の精度を達成できることが判明した。
その結果, 横方向はメンテナンスニーズをより正確に検出でき, 三軸加速度計はメンテナンスニーズに関するさらなる情報を提供することができた。
さらに,複数種類のメンテナンスニーズを同時に検出するために,複数ラベル分類を用いることを実証する。
その結果, 複数ラベルの分類は, 単純なバイナリ分類 (72 % の精度) よりもわずかに悪いだけであり, 多くの保守問題の歴史を持つ領域に容易に展開できる簡易な手法であることが示唆された。
The need for the maintenance of railway track systems have been increasing. Traditional methods that are currently being used are either inaccurate, labor and time intensive, or does not enable continuous monitoring of the system. As a result, in-service train vibrations have been shown to be a cheaper alternative for monitoring of railway track systems. In this paper, a method is proposed to detect different maintenance needs of railway track systems using a single pass of train direction. The DR-Train dataset that is publicly available was used. Results show that by using a simple classifier such as the k-nearest neighbor (k-NN) algorithm, the signal energy features of the acceleration data can achieve 76\% accuracy on two types of maintenance needs, tamping and surfacing. The results show that the transverse direction is able to more accurately detect maintenance needs, and triaxial accelerometer can give further information on the maintenance needs. Furthermore, this paper demonstrates the use of multi-label classification to detect multiple types of maintenance needs simultaneously. The results show multi-label classification performs only slightly worse than the simple binary classification (72\% accuracy) and that this can be a simple method that can easily be deployed in areas that have a history of many maintenance issues. | 翻訳日:2024-05-27 03:17:55 公開日:2024-05-03 |
# 産業制御システムにおける異常検出のための注意に基づく深部生成モデル
An Attention-Based Deep Generative Model for Anomaly Detection in Industrial Control Systems ( http://arxiv.org/abs/2405.05277v1 ) ライセンス: Link先を確認 | Mayra Macas, Chunming Wu, Walter Fuertes, | (参考訳) 異常検出は、産業制御システムの安全かつ信頼性の高い運用に不可欠である。
このような複雑なサイバー物理システムへの依存が高まるにつれ、異常を検出し、攻撃を防ぎ、インテリジェントに応答する自動化手法が最重要となる。
2)本論文では,このニーズを満たすための新しい深層生成モデルを提案する。
提案モデルは畳み込みエンコーダとデコーダを備えた変分オートエンコーダアーキテクチャに従って,空間次元と時間次元の両方から特徴を抽出する。
さらに、特定の領域に焦点を向け、関連する特徴の表現を強化し、異常検出精度を向上させるアテンション機構を組み込んだ。
また,再現性の向上とさらなる研究を促進するために,復元確率を利用した動的しきい値アプローチを採用し,ソースコードを一般公開する。
安全水処理(SWaT)試験場の全6段階のデータから総合的な実験解析を行い, 実験結果から, 現状のベースライン技術と比較して, 提案手法の優れた性能を実証した。
Anomaly detection is critical for the secure and reliable operation of industrial control systems. As our reliance on such complex cyber-physical systems grows, it becomes paramount to have automated methods for detecting anomalies, preventing attacks, and responding intelligently. {This paper presents a novel deep generative model to meet this need. The proposed model follows a variational autoencoder architecture with a convolutional encoder and decoder to extract features from both spatial and temporal dimensions. Additionally, we incorporate an attention mechanism that directs focus towards specific regions, enhancing the representation of relevant features and improving anomaly detection accuracy. We also employ a dynamic threshold approach leveraging the reconstruction probability and make our source code publicly available to promote reproducibility and facilitate further research. Comprehensive experimental analysis is conducted on data from all six stages of the Secure Water Treatment (SWaT) testbed, and the experimental results demonstrate the superior performance of our approach compared to several state-of-the-art baseline techniques. | 翻訳日:2024-05-10 15:12:05 公開日:2024-05-03 |
# ラベル特徴を用いた極端多ラベル分類におけるラベル-ラベル相関の学習
Learning label-label correlations in Extreme Multi-label Classification via Label Features ( http://arxiv.org/abs/2405.04545v1 ) ライセンス: Link先を確認 | Siddhant Kharbanda, Devaansh Gupta, Erik Schultheis, Atmadeep Banerjee, Cho-Jui Hsieh, Rohit Babbar, | (参考訳) Extreme Multi-label Text Classification (XMC)は、数百万のラベル選択から最も関連性の高いラベルのサブセットで入力を割り当てることができる分類器を学習する。
この領域における最近の研究は、入力インスタンスとラベル機能の両方が本質的に短文である対称的な問題設定に焦点を当てている。
ラベル機能付き短文XMCは、検索広告におけるクエリ・ツー・アド・フレーズマッチング、タイトルベースの製品推薦、関連する検索の予測など、多くの分野に応用されている。
本稿では,ラベル共起グラフを用いてラベル特徴を付加データポイントとして活用し,トレーニング分布を補完する新しい手法であるガンダルフを提案する。
短文XMC問題の特徴を利用して、ラベル特徴を利用して有効なトレーニングインスタンスを構築し、ラベルグラフを用いて対応するソフトラベルターゲットを生成することにより、ラベルラベル相関を効果的に取得する。
驚くべきことに、これらの新しいトレーニングインスタンスでトレーニングされたモデルは、オリジナルのデータセットの半分以下だが、オリジナルのデータセット、特にテールラベルのSP@kメトリックでトレーニングされたモデルよりも優れている。
この洞察により、私たちは、オリジナルのトレーニングインスタンスと新しいトレーニングインスタンスの両方で既存のXMCアルゴリズムをトレーニングすることを目指しています。
ガンダルフは様々な手法にプラグ・アンド・プレイ方式で適用することができ、計算上のオーバーヘッドを発生させることなく、ドメインの最先端を前進させることができる。
Extreme Multi-label Text Classification (XMC) involves learning a classifier that can assign an input with a subset of most relevant labels from millions of label choices. Recent works in this domain have increasingly focused on a symmetric problem setting where both input instances and label features are short-text in nature. Short-text XMC with label features has found numerous applications in areas such as query-to-ad-phrase matching in search ads, title-based product recommendation, prediction of related searches. In this paper, we propose Gandalf, a novel approach which makes use of a label co-occurrence graph to leverage label features as additional data points to supplement the training distribution. By exploiting the characteristics of the short-text XMC problem, it leverages the label features to construct valid training instances, and uses the label graph for generating the corresponding soft-label targets, hence effectively capturing the label-label correlations. Surprisingly, models trained on these new training instances, although being less than half of the original dataset, can outperform models trained on the original dataset, particularly on the PSP@k metric for tail labels. With this insight, we aim to train existing XMC algorithms on both, the original and new training instances, leading to an average 5% relative improvements for 6 state-of-the-art algorithms across 4 benchmark datasets consisting of up to 1.3M labels. Gandalf can be applied in a plug-and-play manner to various methods and thus forwards the state-of-the-art in the domain, without incurring any additional computational overheads. | 翻訳日:2024-05-09 18:41:08 公開日:2024-05-03 |
# 機械学習を用いた自閉症における音声パターン障害の探索
Exploring Speech Pattern Disorders in Autism using Machine Learning ( http://arxiv.org/abs/2405.05126v1 ) ライセンス: Link先を確認 | Chuanbo Hu, Jacob Thrasher, Wenqi Li, Mindi Ruan, Xiangxu Yu, Lynn K Paul, Shuo Wang, Xin Li, | (参考訳) 自閉症スペクトラム障害 (ASD) の診断は, 患者と患者との対話から異常な発声パターンを同定し, 軽度かつ多彩な発声症状の出現により, 重大な課題を呈している。
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
音声関連特徴を40種類抽出し,周波数,ゼロ交叉速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスを抽出した。
これらの特徴は、ASDにおけるコミュニケーション行動の複雑な性質を反映して、音調、音量、リズム、発話速度などの音声の様々な側面を含んでいる。
我々はこれらの音声特徴を分析するために,分類タスクと回帰タスクの両方に機械学習を用いた。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
回帰モデルは、音声パターンに関連する変数と、すべての変数からの合成スコアを予測し、ASDに関連する音声力学のより深い理解を促進するために開発された。
複雑な音声パターンの解釈における機械学習の有効性と高い分類精度は、ASDの診断プロセスを支援するための計算手法の可能性を示している。
このアプローチは早期発見の助けとなるだけでなく、ASDを持つ個人の音声およびコミュニケーションプロファイルに対する洞察を提供することによって、パーソナライズされた治療計画に寄与する。
Diagnosing autism spectrum disorder (ASD) by identifying abnormal speech patterns from examiner-patient dialogues presents significant challenges due to the subtle and diverse manifestations of speech-related symptoms in affected individuals. This study presents a comprehensive approach to identify distinctive speech patterns through the analysis of examiner-patient dialogues. Utilizing a dataset of recorded dialogues, we extracted 40 speech-related features, categorized into frequency, zero-crossing rate, energy, spectral characteristics, Mel Frequency Cepstral Coefficients (MFCCs), and balance. These features encompass various aspects of speech such as intonation, volume, rhythm, and speech rate, reflecting the complex nature of communicative behaviors in ASD. We employed machine learning for both classification and regression tasks to analyze these speech features. The classification model aimed to differentiate between ASD and non-ASD cases, achieving an accuracy of 87.75%. Regression models were developed to predict speech pattern related variables and a composite score from all variables, facilitating a deeper understanding of the speech dynamics associated with ASD. The effectiveness of machine learning in interpreting intricate speech patterns and the high classification accuracy underscore the potential of computational methods in supporting the diagnostic processes for ASD. This approach not only aids in early detection but also contributes to personalized treatment planning by providing insights into the speech and communication profiles of individuals with ASD. | 翻訳日:2024-05-09 14:14:56 公開日:2024-05-03 |
# ネットワーク制御理論に基づく機能拡張によるグラフ機械学習性能の向上
Improving Graph Machine Learning Performance Through Feature Augmentation Based on Network Control Theory ( http://arxiv.org/abs/2405.03706v1 ) ライセンス: Link先を確認 | Anwar Said, Obaid Ullah Ahmad, Waseem Abbas, Mudassir Shabbir, Xenofon Koutsoukos, | (参考訳) ネットワーク制御理論(NCT)は、ネットワークトポロジが動的行動に与える影響を理解するための堅牢な分析フレームワークを提供する。
他の構造関数手法とは違い、NCTの予測能力はグラフニューラルネットワーク(GNN)の展開と組み合わせることができる。
しかし、GNNの性能はノード機能の表現力に大きく依存しており、ノード機能の欠如はノードの性能を著しく低下させる可能性がある。
さらに,多くの実世界のシステムはノードレベルの情報を欠いているため,GNNの課題となっている可能性がある。この課題に対処するために,GNNのパフォーマンスを高めるために,GNNの性能向上のための機能拡張パイプラインに,他の集中度指標とともに平均制御可能性を同化する,NCTベースの拡張機能拡張(NCT-EFA)という新しいアプローチを導入する。
NCT-EFAを2つの実験環境にわたる6つのベンチマークGNNモデルで評価した。
単に平均的なコントロール可能性と、追加の集中度指標を併用するだけです。
パフォーマンスが11%向上しました
その結果,NCTを機能強化に組み込むことで,ノードレベルの情報が利用できないシナリオにおいて,GNNの適用性を大幅に向上し,GNNの性能を高めることができることがわかった。
Network control theory (NCT) offers a robust analytical framework for understanding the influence of network topology on dynamic behaviors, enabling researchers to decipher how certain patterns of external control measures can steer system dynamics towards desired states. Distinguished from other structure-function methodologies, NCT's predictive capabilities can be coupled with deploying Graph Neural Networks (GNNs), which have demonstrated exceptional utility in various network-based learning tasks. However, the performance of GNNs heavily relies on the expressiveness of node features, and the lack of node features can greatly degrade their performance. Furthermore, many real-world systems may lack node-level information, posing a challenge for GNNs.To tackle this challenge, we introduce a novel approach, NCT-based Enhanced Feature Augmentation (NCT-EFA), that assimilates average controllability, along with other centrality indices, into the feature augmentation pipeline to enhance GNNs performance. Our evaluation of NCT-EFA, on six benchmark GNN models across two experimental setting. solely employing average controllability and in combination with additional centrality metrics. showcases an improved performance reaching as high as 11%. Our results demonstrate that incorporating NCT into feature enrichment can substantively extend the applicability and heighten the performance of GNNs in scenarios where node-level information is unavailable. | 翻訳日:2024-05-08 18:34:09 公開日:2024-05-03 |
# デルタ・テンソル(Delta Tensor) - デルタ湖の効率的なベクトル・テンソル・ストレージ
Delta Tensor: Efficient Vector and Tensor Storage in Delta Lake ( http://arxiv.org/abs/2405.03708v1 ) ライセンス: Link先を確認 | Zhiwei Bao, Liu Liao-Liao, Zhiyu Wu, Yifan Zhou, Dan Fan, Michal Aibin, Yvonne Coady, | (参考訳) 人工知能(AI)と機械学習(ML)のアプリケーションの指数関数的成長は、ベクトルデータとテンソルデータのための効率的なストレージソリューションの開発を必要としている。
本稿では,デルタ湖を用いたレイクハウス建築におけるテンソル貯蔵の新しい手法を提案する。
アレイデータベースからの多次元配列記憶戦略とスパース符号化手法をデルタレイクテーブルに適用することにより、従来のテンソルのシリアライゼーションと比較して、この手法は空間および時間効率の両方において顕著に改善されていることを示す。
これらの結果は、データ集約型アプリケーションにおける最適化ベクターおよびテンソルストレージソリューションの開発と実装のための貴重な洞察を与え、クラウドネイティブ環境におけるAIおよびMLドメインにおける効率的なデータ管理プラクティスの進化に寄与する。
The exponential growth of artificial intelligence (AI) and machine learning (ML) applications has necessitated the development of efficient storage solutions for vector and tensor data. This paper presents a novel approach for tensor storage in a Lakehouse architecture using Delta Lake. By adopting the multidimensional array storage strategy from array databases and sparse encoding methods to Delta Lake tables, experiments show that this approach has demonstrated notable improvements in both space and time efficiencies when compared to traditional serialization of tensors. These results provide valuable insights for the development and implementation of optimized vector and tensor storage solutions in data-intensive applications, contributing to the evolution of efficient data management practices in AI and ML domains in cloud-native environments | 翻訳日:2024-05-08 18:34:09 公開日:2024-05-03 |
# 確率論的シナリオプログラムを自然言語から生成する
Generating Probabilistic Scenario Programs from Natural Language ( http://arxiv.org/abs/2405.03709v1 ) ライセンス: Link先を確認 | Karim Elmaaroufi, Devan Shankar, Ana Cismaru, Marcell Vazquez-Chanlatte, Alberto Sangiovanni-Vincentelli, Matei Zaharia, Sanjit A. Seshia, | (参考訳) ロボティクスや自動運転車を含むサイバー物理システム(CPS)にとって、大量展開は稀な出来事で発生する致命的なエラーによって妨げられている。
車両事故などの稀な出来事を再現するために、多くの企業がログシステムを作成し、これらの貴重な出来事を正確にシミュレーションで再現するためにクラッシュ再構築の専門家を雇った。
しかし、これらの手法では「もし」の質問は簡単に定式化され、答えられるわけではない。
自然言語からシナリオプログラムを作成するためのAIシステムであるScenarioNLを提案する。
具体的には、これらのプログラムを警察の事故報告から生成する。
通常レポートには、確率的プログラミング言語(PPL)を通じて表現されるインシデントの詳細に関する不確実性が含まれています。
Scenicを使用することで、CPSの挙動、特性、相互作用に対する不確実性や変動を明確かつ簡潔に表現することができる。
我々は,最も優れたLarge Language Models (LLM) を用いた一般的なプロンプト技術が,確率的シナリオプログラムの推論や,Scanicのような低リソース言語のためのコード生成が不可能であることを示す。
本システムは,複数のLSMと,複数のプロンプト戦略,コンパイラ,シミュレータから構成される。
われわれは過去5年間、カリフォルニア州で利用可能な自動運転車のクラッシュレポートを評価し、セマンティックに意味があり、構文的に正しいコードを生成する方法に関する洞察を共有した。
For cyber-physical systems (CPS), including robotics and autonomous vehicles, mass deployment has been hindered by fatal errors that occur when operating in rare events. To replicate rare events such as vehicle crashes, many companies have created logging systems and employed crash reconstruction experts to meticulously recreate these valuable events in simulation. However, in these methods, "what if" questions are not easily formulated and answered. We present ScenarioNL, an AI System for creating scenario programs from natural language. Specifically, we generate these programs from police crash reports. Reports normally contain uncertainty about the exact details of the incidents which we represent through a Probabilistic Programming Language (PPL), Scenic. By using Scenic, we can clearly and concisely represent uncertainty and variation over CPS behaviors, properties, and interactions. We demonstrate how commonplace prompting techniques with the best Large Language Models (LLM) are incapable of reasoning about probabilistic scenario programs and generating code for low-resource languages such as Scenic. Our system is comprised of several LLMs chained together with several kinds of prompting strategies, a compiler, and a simulator. We evaluate our system on publicly available autonomous vehicle crash reports in California from the last five years and share insights into how we generate code that is both semantically meaningful and syntactically correct. | 翻訳日:2024-05-08 18:34:09 公開日:2024-05-03 |
# ファンデーションモデルによるエンタープライズの自動化
Automating the Enterprise with Foundation Models ( http://arxiv.org/abs/2405.03710v1 ) ライセンス: Link先を確認 | Michael Wornow, Avanika Narayan, Krista Opsahl-Ong, Quinn McIntyre, Nigam H. Shah, Christopher Re, | (参考訳) エンタープライズワークフローの自動化は、年間4兆ドルの生産性向上を解放する可能性がある。
データ管理コミュニティには何十年も関心があったが、エンドツーエンドのワークフロー自動化という究極のビジョンは、いまだ解明されていない。
現在のソリューションはプロセスマイニングとロボットプロセス自動化(RPA)に依存している。
病院と大規模B2B事業のケーススタディを通じて, RPAの採用は, 高セットアップコスト(12~18ヶ月), 信頼性の低い実行(60%の初期精度), 負担の多いメンテナンス(複数FTEの要求)によって抑制されていることがわかった。
GPT-4のようなマルチモーダル基盤モデル(FM)は、一般的な推論と計画能力を考慮して、エンドツーエンドのワークフロー自動化に有望な新しいアプローチを提供する。
これらの機能を研究するために、最小限の人的監督でエンタープライズワークフローを自動化するシステムであるECLAIRを提案する。
我々は,(1)ワークフローのほぼ人間レベルでの理解(ワークフロー理解タスクにおける93%の精度)と(2)最小限の技術障壁によるインスタントセットアップ(ワークフローの自然言語記述のみに基づく)により,マルチモーダルFMが従来のRPAの限界に対処できることを示す実験を行った。
我々は、オープンな課題として、人間とAIのコラボレーション、検証、自己改善を識別し、データ管理技術で解決できる方法を提案する。
コードは、https://github.com/HazyResearch/eclair-agentsで入手できる。
Automating enterprise workflows could unlock $4 trillion/year in productivity gains. Despite being of interest to the data management community for decades, the ultimate vision of end-to-end workflow automation has remained elusive. Current solutions rely on process mining and robotic process automation (RPA), in which a bot is hard-coded to follow a set of predefined rules for completing a workflow. Through case studies of a hospital and large B2B enterprise, we find that the adoption of RPA has been inhibited by high set-up costs (12-18 months), unreliable execution (60% initial accuracy), and burdensome maintenance (requiring multiple FTEs). Multimodal foundation models (FMs) such as GPT-4 offer a promising new approach for end-to-end workflow automation given their generalized reasoning and planning abilities. To study these capabilities we propose ECLAIR, a system to automate enterprise workflows with minimal human supervision. We conduct initial experiments showing that multimodal FMs can address the limitations of traditional RPA with (1) near-human-level understanding of workflows (93% accuracy on a workflow understanding task) and (2) instant set-up with minimal technical barrier (based solely on a natural language description of a workflow, ECLAIR achieves end-to-end completion rates of 40%). We identify human-AI collaboration, validation, and self-improvement as open challenges, and suggest ways they can be solved with data management techniques. Code is available at: https://github.com/HazyResearch/eclair-agents | 翻訳日:2024-05-08 18:34:09 公開日:2024-05-03 |
# 量子消去器に基づく量子鍵分布
Quantum key distribution based on the quantum eraser ( http://arxiv.org/abs/1907.04221v4 ) ライセンス: Link先を確認 | Tarek A. Elsayed, | (参考訳) 量子情報と量子基礎は、大学院の上級コースで人気のあるトピックになりつつある。
これらの2つの分野における基本的な概念や応用、例えば遅延選択実験や量子暗号は、量子力学の基礎知識を持つ学部生には理解しやすい。
本稿では、通常、波動特性と粒子特性の双対性を研究するために使用される量子消去器が、量子鍵分布の汎用的プラットフォームとしても機能することを示す。
本稿では、量子消去器プラットフォームを用いてランダム鍵を安全に共有するアルゴリズムの系統的な例を示し、その実装を量子回路で提案する。
Quantum information and quantum foundations are becoming popular topics for advanced undergraduate courses. Many of the fundamental concepts and applications in these two fields, such as delayed choice experiments and quantum encryption, are comprehensible to undergraduates with basic knowledge of quantum mechanics. In this paper, we show that the quantum eraser, usually used to study the duality between wave and particle properties, can also serve as a generic platform for quantum key distribution. We present a pedagogical example of an algorithm to securely share random keys using the quantum eraser platform and propose its implementation with quantum circuits. | 翻訳日:2024-05-08 03:57:05 公開日:2024-05-03 |
# EXPアルゴリズムの規則境界と強化学習探索
Regret Bounds and Reinforcement Learning Exploration of EXP-based Algorithms ( http://arxiv.org/abs/2009.09538v3 ) ライセンス: Link先を確認 | Mengfan Xu, Diego Klabjan, | (参考訳) そこでは,実世界のシナリオによって引き起こされ,既存の作業と異なり,報酬がスケールフリーで,潜在的に非有界であるような,包括的および強化的学習における挑戦的な探索インセンティブ問題について検討する。
強化学習における過去の研究は、環境とのコストの高い相互作用を前提とするか、あるいは、潜在的に品質の低い局所的な最大値を求めるアルゴリズムを提案する。
EXP-type method that integrated multiple agent (experts) for exploration in bandits with the assumption that rewards are bounded, we propose new algorithm, EXP4.P and EXP4-RL for exploration in the unbounded reward case, and showed their effective in these new settings。
未拘束の報酬は、後悔は試行回数によって制限できないため、挑戦を招き、最適下腕の選択は無限の後悔につながる可能性がある。
具体的には、有界および非有界な線形および確率的文脈帯域におけるEXP4.Pの後悔の上界を確立する。
驚くことに、十分に有能な専門家であるEXP4.Pを1人含むことで、線形の場合、大域的最適性が達成できる。
この非有界報酬結果は、マルチアームバンディットシナリオにおけるEXP3.Pの改訂版にも適用される。
EXP4-RLでは,EXP4.Pを帯域幅のシナリオから強化学習に拡張し,複数のエージェントによる探索を促進させる。
このアルゴリズムは難解なゲームでテストされ、最先端のゲームと比較して探索の大幅な改善が示されている。
We study the challenging exploration incentive problem in both bandit and reinforcement learning, where the rewards are scale-free and potentially unbounded, driven by real-world scenarios and differing from existing work. Past works in reinforcement learning either assume costly interactions with an environment or propose algorithms finding potentially low quality local maxima. Motivated by EXP-type methods that integrate multiple agents (experts) for exploration in bandits with the assumption that rewards are bounded, we propose new algorithms, namely EXP4.P and EXP4-RL for exploration in the unbounded reward case, and demonstrate their effectiveness in these new settings. Unbounded rewards introduce challenges as the regret cannot be limited by the number of trials, and selecting suboptimal arms may lead to infinite regret. Specifically, we establish EXP4.P's regret upper bounds in both bounded and unbounded linear and stochastic contextual bandits. Surprisingly, we also find that by including one sufficiently competent expert, EXP4.P can achieve global optimality in the linear case. This unbounded reward result is also applicable to a revised version of EXP3.P in the Multi-armed Bandit scenario. In EXP4-RL, we extend EXP4.P from bandit scenarios to reinforcement learning to incentivize exploration by multiple agents, including one high-performing agent, for both efficiency and excellence. This algorithm has been tested on difficult-to-explore games and shows significant improvements in exploration compared to state-of-the-art. | 翻訳日:2024-05-08 03:57:05 公開日:2024-05-03 |
# 最大平均差の最適化景観について
On the Optimization Landscape of Maximum Mean Discrepancy ( http://arxiv.org/abs/2110.13452v2 ) ライセンス: Link先を確認 | Itai Alon, Amir Globerson, Ami Wiesel, | (参考訳) 生成モデルは現実的な信号の生成に成功している。
確率関数は典型的にはこれらのモデルの多くで難解であるため、一般的には「単純な」モデルを用いて、確率計算を避ける。
しかし、そのようなモデルに対する理論的保証を得るのは難しい。
特に,非凸目標をグローバルに最適化する方法については理解されていない。
ここでは、生成モデルの最大平均離散性(MMD)学習について、そのような分析を行う。
我々は、低階共分散(英語版)を持つガウス分布(英語版)(ガウス分布)とガウス分布(英語版)(ガウス分布)の混合を含むいくつかの最適性の結果を証明した。
解析の結果,MDD最適化のランドスケープはこれらの場合の良さが示され,勾配に基づく手法はMDDの目的を極端に最小化することがわかった。
Generative models have been successfully used for generating realistic signals. Because the likelihood function is typically intractable in most of these models, the common practice is to use "implicit" models that avoid likelihood calculation. However, it is hard to obtain theoretical guarantees for such models. In particular, it is not understood when they can globally optimize their non-convex objectives. Here we provide such an analysis for the case of Maximum Mean Discrepancy (MMD) learning of generative models. We prove several optimality results, including for a Gaussian distribution with low rank covariance (where likelihood is inapplicable) and a mixture of Gaussians. Our analysis shows that that the MMD optimization landscape is benign in these cases, and therefore gradient based methods will globally minimize the MMD objective. | 翻訳日:2024-05-08 03:57:05 公開日:2024-05-03 |
# LET-3D-AP: カメラ専用3次元検出のための縦型誤差耐性3次元平均精度
LET-3D-AP: Longitudinal Error Tolerant 3D Average Precision for Camera-Only 3D Detection ( http://arxiv.org/abs/2206.07705v2 ) ライセンス: Link先を確認 | Wei-Chih Hung, Vincent Casser, Henrik Kretzschmar, Jyh-Jing Hwang, Dragomir Anguelov, | (参考訳) 3次元平均精度(3D AP)は、予測と基底真理オブジェクトの結合に依存する。
しかし、カメラのみの検出器は深さの精度が限られており、そうでなければ、このような長手位置決め誤差に悩まされる合理的な予測が偽陽性として扱われる可能性がある。
そこで我々は,深度推定誤差に関して,より許容性の高い3次元APメトリックの変種を提案する。
具体的には, LET-3D-AP と LET-3D-APL という新しい長手誤差耐性指標を用いて, 予測ボックスの長手局所化誤差を許容する。
また、提案手法の評価のために、カメラのみの3D検出法に合わせて、Waymo Open Dataset用の新しいテストセットを構築した。
驚くべきことに、現在最先端のカメラベースの検出器は、私たちの新しい測定基準を10%の深度エラー耐性で過去のLiDARベースの検出器よりも優れており、既存のカメラベースの検出器はすでに下流のアプリケーションでLiDARベースの検出器を上回る可能性があることを示唆している。
提案したメトリクスと新しいベンチマークデータセットは、システムレベルのパフォーマンスをよりよく示すための、より情報的な信号を提供することで、カメラのみの3D検出の分野での進歩を促進するものと信じている。
The 3D Average Precision (3D AP) relies on the intersection over union between predictions and ground truth objects. However, camera-only detectors have limited depth accuracy, which may cause otherwise reasonable predictions that suffer from such longitudinal localization errors to be treated as false positives. We therefore propose variants of the 3D AP metric to be more permissive with respect to depth estimation errors. Specifically, our novel longitudinal error tolerant metrics, LET-3D-AP and LET-3D-APL, allow longitudinal localization errors of the prediction boxes up to a given tolerance. To evaluate the proposed metrics, we also construct a new test set for the Waymo Open Dataset, tailored to camera-only 3D detection methods. Surprisingly, we find that state-of-the-art camera-based detectors can outperform popular LiDAR-based detectors with our new metrics past at 10% depth error tolerance, suggesting that existing camera-based detectors already have the potential to surpass LiDAR-based detectors in downstream applications. We believe the proposed metrics and the new benchmark dataset will facilitate advances in the field of camera-only 3D detection by providing more informative signals that can better indicate the system-level performance. | 翻訳日:2024-05-08 03:49:02 公開日:2024-05-03 |
# LordNet: シミュレーションデータなしでパラメトリック部分微分方程式を解くための効率的なニューラルネットワーク
LordNet: An Efficient Neural Network for Learning to Solve Parametric Partial Differential Equations without Simulated Data ( http://arxiv.org/abs/2206.09418v2 ) ライセンス: Link先を確認 | Xinquan Huang, Wenlei Shi, Xiaotian Gao, Xinran Wei, Jia Zhang, Jiang Bian, Mao Yang, Tie-Yan Liu, | (参考訳) ニューラル作用素は、無限次元函数空間間の非線形作用素の強力な近似として、偏微分方程式(PDE)の解の加速に有望であることが証明されている。
しかし、大量のシミュレートされたデータを必要とするため、収集にはコストがかかる。
これは物理に制約された損失から物理学を学習することで回避できるが、これは離散化されたPDEによって構築された平均2乗残留損失(MSR)である。
我々は,長距離絡み(long-range entanglements)と呼ぶMSR損失の物理的情報を調べ,PDEの空間領域における長距離絡み(long-range entanglements)をモデル化するためにニューラルネットワークが必要とする課題を明らかにする。
この課題に対処するために、様々な絡み合いをモデル化するためのチューナブルで効率的なニューラルネットワークであるLordNetを提案する。
従来の解法にインスパイアされたLordNetは、一連の行列乗法で長距離の絡み合いをモデル化し、一般的な完全連結層に対する低ランク近似と見なすことができ、計算コストを削減して支配的なパターンを抽出する。
Poisson方程式と(2Dおよび3D) Navier-Stokes方程式を解く実験により、MSR損失による長距離の絡み合いは LordNet によってうまくモデル化され、他のニューラルネットワークよりも精度と一般化能力が得られることを示した。
その結果、Lordnetは従来のPDEソルバよりも50\times$が高速であることがわかった。
加えて、LordNetは、パラメータサイズが最小の精度と効率で、他の現代的なニューラルネットワークアーキテクチャよりも優れています。
Neural operators, as a powerful approximation to the non-linear operators between infinite-dimensional function spaces, have proved to be promising in accelerating the solution of partial differential equations (PDE). However, it requires a large amount of simulated data, which can be costly to collect. This can be avoided by learning physics from the physics-constrained loss, which we refer to it as mean squared residual (MSR) loss constructed by the discretized PDE. We investigate the physical information in the MSR loss, which we called long-range entanglements, and identify the challenge that the neural network requires the capacity to model the long-range entanglements in the spatial domain of the PDE, whose patterns vary in different PDEs. To tackle the challenge, we propose LordNet, a tunable and efficient neural network for modeling various entanglements. Inspired by the traditional solvers, LordNet models the long-range entanglements with a series of matrix multiplications, which can be seen as the low-rank approximation to the general fully-connected layers and extracts the dominant pattern with reduced computational cost. The experiments on solving Poisson's equation and (2D and 3D) Navier-Stokes equation demonstrate that the long-range entanglements from the MSR loss can be well modeled by the LordNet, yielding better accuracy and generalization ability than other neural networks. The results show that the Lordnet can be $50\times$ faster than traditional PDE solvers. In addition, LordNet outperforms other modern neural network architectures in accuracy and efficiency with the smallest parameter size. | 翻訳日:2024-05-08 03:49:02 公開日:2024-05-03 |
# 多体量子系の測定に基づく冷却
Measurement-based cooling of many-body quantum systems ( http://arxiv.org/abs/2207.11726v2 ) ライセンス: Link先を確認 | Tarek A. Elsayed, | (参考訳) 我々は、未知のハミルトニアンを持つ多体量子系を、高忠実度で基底状態まで効率的に冷却する新しい手法を導入する。
この技術は、最初は強い外部磁場を適用し、続いて1度の自由度(単一量子ビット)測定と高周波(RF)パルスを用いて磁場方向に沿って系を偏光させる。
その後、場は断熱的に切り離され、系は量子断熱定理によって支配される基底状態へと進化する。
本稿では,多体量子システムのプロトタイプとして,長距離および短距離相互作用を持つ量子スピンチェーンに適用した手法の有効性を示す数値シミュレーション結果を提案する。
We introduce a novel technique for efficiently cooling many-body quantum systems with unknown Hamiltonians down to their ground states with a high fidelity. The technique involves initially applying a strong external field followed by a sequence of single-degree-of-freedom (single-qubit) measurements and radiofrequency (RF) pulses to polarize the system along the field direction. Subsequently, the field is adiabatically switched off, allowing the system to evolve towards its ground state as governed by the quantum adiabatic theorem. We present numerical simulation results demonstrating the effectiveness of the technique applied to quantum spin chains with long-range and short-range interactions as prototypes for many-body quantum systems. | 翻訳日:2024-05-08 03:39:14 公開日:2024-05-03 |
# CMGAN: モノラル音声強調のためのコンバータベースメトリックGAN
CMGAN: Conformer-Based Metric-GAN for Monaural Speech Enhancement ( http://arxiv.org/abs/2209.11112v3 ) ライセンス: Link先を確認 | Sherif Abdulatif, Ruizhe Cao, Bin Yang, | (参考訳) 本研究では、時間周波数(TF)領域における音声強調(SE)のためのコンストラクタベース計量生成逆ネットワーク(CMGAN)モデルをさらに発展させる。
本稿では, モデル入力とアーキテクチャ設計の選択について, 広範囲にわたるアブレーション研究を行うことにより, より深く検討する。
ノイズの種類や歪みを未確認にするために,モデルの一般化能力を厳格に検証した。
DNS-MOS測定とリスニングテストを通じて、当社の主張を裏付けました。
音声認識タスクにのみ焦点をあてるのではなく、この作業を拡張して、残響や超解像タスクに対処する。
これは様々なアーキテクチャの変化、特にメートル法判別器のスコアとマスキング技術を探究する必要がある。
これは、複雑なTFドメイン超解像を試みている最も初期の研究の1つであることを強調することが不可欠である。
以上の結果から,CMGANは3つの主要な音声強調課題において,既存の最先端手法よりも優れていた。
例えば、Voice Bank+DEMANDデータセットを用いたデノベーションタスクでは、CMGANはPESQスコアが3.41、SSNRが11.10dBに達した。
オーディオサンプルとCMGANの実装はオンラインで入手できる。
In this work, we further develop the conformer-based metric generative adversarial network (CMGAN) model for speech enhancement (SE) in the time-frequency (TF) domain. This paper builds on our previous work but takes a more in-depth look by conducting extensive ablation studies on model inputs and architectural design choices. We rigorously tested the generalization ability of the model to unseen noise types and distortions. We have fortified our claims through DNS-MOS measurements and listening tests. Rather than focusing exclusively on the speech denoising task, we extend this work to address the dereverberation and super-resolution tasks. This necessitated exploring various architectural changes, specifically metric discriminator scores and masking techniques. It is essential to highlight that this is among the earliest works that attempted complex TF-domain super-resolution. Our findings show that CMGAN outperforms existing state-of-the-art methods in the three major speech enhancement tasks: denoising, dereverberation, and super-resolution. For example, in the denoising task using the Voice Bank+DEMAND dataset, CMGAN notably exceeded the performance of prior models, attaining a PESQ score of 3.41 and an SSNR of 11.10 dB. Audio samples and CMGAN implementations are available online. | 翻訳日:2024-05-08 03:39:13 公開日:2024-05-03 |
# 確率データを用いた作用素方程式の物理インフォームドニューラルネットワーク
Physics-informed neural networks for operator equations with stochastic data ( http://arxiv.org/abs/2211.10344v2 ) ライセンス: Link先を確認 | Paul Escapil-Inchauspé, Gonzalo A. Ruz, | (参考訳) 確率データを用いた演算子方程式に対する統計モーメントの計算について検討する。
TPINNと呼ばれるPINNの応用は、既存のPINNのコードの変更を最小限に抑えて、誘導テンソル演算子の方程式を解くことができ、非線形および時間依存の演算子の処理を可能にする。
本稿では,バニラとマルチアウトプットTPINNという2種類のアーキテクチャを提案し,その利点と限界について検討する。
探索的な数値実験を行い、適用性と性能を示し、様々な新しい研究の道を開く。
We consider the computation of statistical moments to operator equations with stochastic data. We remark that application of PINNs -- referred to as TPINNs -- allows to solve the induced tensor operator equations under minimal changes of existing PINNs code, and enabling handling of non-linear and time-dependent operators. We propose two types of architectures, referred to as vanilla and multi-output TPINNs, and investigate their benefits and limitations. Exhaustive numerical experiments are performed; demonstrating applicability and performance; raising a variety of new promising research avenues. | 翻訳日:2024-05-08 03:39:13 公開日:2024-05-03 |
# ACPO:制約付き平均MDPのポリシー最適化アルゴリズム
ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints ( http://arxiv.org/abs/2302.00808v3 ) ライセンス: Link先を確認 | Akhil Agnihotri, Rahul Jain, Haipeng Luo, | (参考訳) 制約付きMDP(CMDP)のための強化学習(RL)は、様々なアプリケーションにおいてますます重要な問題となっている。
平均基準は割引基準よりも適していることが多い。
しかし、平均CMDP(ACMDP)のRLは依然として難しい問題である。
割引制約付きRL問題のために設計されたアルゴリズムは、平均的なCMDP設定ではうまく機能しないことが多い。
本稿では,制約付きMDPに対する関数近似アルゴリズムを用いた新しいポリシー最適化を提案する。
平均制約ポリシ最適化(ACPO)アルゴリズムは、信頼された地域ベースのポリシ最適化アルゴリズムにインスパイアされている。
我々は,平均CMDPに対する基本感度理論を開発し,それに対応する境界をアルゴリズムの設計に用いた。
我々はその性能に関する理論的保証を提供し、様々な挑戦的なOpenAI Gym環境における広範な実験を通して、ACMDPに適合する他の最先端アルゴリズムと比較して、その優れた経験的性能を示す。
Reinforcement Learning (RL) for constrained MDPs (CMDPs) is an increasingly important problem for various applications. Often, the average criterion is more suitable than the discounted criterion. Yet, RL for average-CMDPs (ACMDPs) remains a challenging problem. Algorithms designed for discounted constrained RL problems often do not perform well for the average CMDP setting. In this paper, we introduce a new policy optimization with function approximation algorithm for constrained MDPs with the average criterion. The Average-Constrained Policy Optimization (ACPO) algorithm is inspired by trust region-based policy optimization algorithms. We develop basic sensitivity theory for average CMDPs, and then use the corresponding bounds in the design of the algorithm. We provide theoretical guarantees on its performance, and through extensive experimental work in various challenging OpenAI Gym environments, show its superior empirical performance when compared to other state-of-the-art algorithms adapted for the ACMDPs. | 翻訳日:2024-05-08 01:45:50 公開日:2024-05-03 |
# PULSNAR (Positive Unlabeled Learning Selected Not At Random) : SCAR仮定が成立しない場合のクラス比推定
Positive Unlabeled Learning Selected Not At Random (PULSNAR): class proportion estimation when the SCAR assumption does not hold ( http://arxiv.org/abs/2303.08269v3 ) ライセンス: Link先を確認 | Praveen Kumar, Christophe G. Lambert, | (参考訳) 正および非ラベル付き学習(英: Positive and Unlabeled learning、PU)とは、機械学習アルゴリズムが正のインスタンス(ラベル付き)と正のインスタンス(ラベルなし)のセットを区別する半教師付きバイナリ分類の一種である。
PU学習は、確認された陰性が入手できない、あるいは入手が難しい設定において広く応用されており、ラベルなし化合物(例えば、未試験化合物中の有効薬物)の正の発見に価値がある。
ほとんどのPU学習アルゴリズムは、正がそれらの特徴から独立して選択されるというSCAR(英語版)の仮定を完全無作為に選択する。
しかし、医療などの現実世界の多くのアプリケーションでは、陽性はSCARではない(例えば、重篤なケースは診断される可能性が高い)。
PU学習アルゴリズムは、ラベル付けされていない集合の正の比率である$\alpha$のみを推定するものと、ラベル付けされていない各インスタンスが正であることの確率を計算したものと、両方を行うことができるものがある。
2つのPU学習アルゴリズムを提案し、$\alpha$を推定し、PUインスタンスの校正確率を計算し、分類基準を改善する。
一 PULSCAR(ランダムに選抜された正の未ラベル学習)及び
ii) PULSNAR(ランダムに選ばない正の未ラベル学習)
PULSNAR は SNAR の正をサブタイプに分類し、各サブタイプに対して$\alpha$ と見積もる。
我々の実験では、PULSNARは、合成および実世界のベンチマークデータセットにおいて最先端のアプローチより優れていた。
Positive and Unlabeled (PU) learning is a type of semi-supervised binary classification where the machine learning algorithm differentiates between a set of positive instances (labeled) and a set of both positive and negative instances (unlabeled). PU learning has broad applications in settings where confirmed negatives are unavailable or difficult to obtain, and there is value in discovering positives among the unlabeled (e.g., viable drugs among untested compounds). Most PU learning algorithms make the \emph{selected completely at random} (SCAR) assumption, namely that positives are selected independently of their features. However, in many real-world applications, such as healthcare, positives are not SCAR (e.g., severe cases are more likely to be diagnosed), leading to a poor estimate of the proportion, $\alpha$, of positives among unlabeled examples and poor model calibration, resulting in an uncertain decision threshold for selecting positives. PU learning algorithms vary; some estimate only the proportion, $\alpha$, of positives in the unlabeled set, while others calculate the probability that each specific unlabeled instance is positive, and some can do both. We propose two PU learning algorithms to estimate $\alpha$, calculate calibrated probabilities for PU instances, and improve classification metrics: i) PULSCAR (positive unlabeled learning selected completely at random), and ii) PULSNAR (positive unlabeled learning selected not at random). PULSNAR employs a divide-and-conquer approach to cluster SNAR positives into subtypes and estimates $\alpha$ for each subtype by applying PULSCAR to positives from each cluster and all unlabeled. In our experiments, PULSNAR outperformed state-of-the-art approaches on both synthetic and real-world benchmark datasets. | 翻訳日:2024-05-08 01:36:04 公開日:2024-05-03 |
# スタンス検出: 政治信念をテキストで分類する実践的ガイド
Stance Detection: A Practical Guide to Classifying Political Beliefs in Text ( http://arxiv.org/abs/2305.01723v2 ) ライセンス: Link先を確認 | Michael Burnham, | (参考訳) スタンス検出は文書内の表現された信念を識別する。
研究者は感情分析を広く使っているが、最近の研究では感情と姿勢が異なることが示されている。
本稿では, 姿勢検出を正確に定義し, 教師付き分類, 自然言語推論, 生成言語モデルを用いた文脈内学習の3つの異なるアプローチを提案することによって, テキスト解析手法を進歩させる。
私は、ドキュメントのコンテキストとリソースとワークロード間のトレードオフがどのようにメソッドを知らせるべきかについて議論します。
3つのアプローチすべてに対して、アプリケーションとバリデーションテクニックのガイダンスと、実装のためのチュートリアルのコーディングを提供しています。
最後に、新しい分類手法が教師付き分類器をいかに複製できるかを示す。
Stance detection is identifying expressed beliefs in a document. While researchers widely use sentiment analysis for this, recent research demonstrates that sentiment and stance are distinct. This paper advances text analysis methods by precisely defining stance detection and presenting three distinct approaches: supervised classification, natural language inference, and in-context learning with generative language models. I discuss how document context and trade-offs between resources and workload should inform your methods. For all three approaches I provide guidance on application and validation techniques, as well as coding tutorials for implementation. Finally, I demonstrate how newer classification approaches can replicate supervised classifiers. | 翻訳日:2024-05-08 01:36:03 公開日:2024-05-03 |
# 相互作用範囲の増大による超伝導量子コンピュータの離散時間-結晶応答の安定化
Stabilization of Discrete Time-Crystaline Response on a Superconducting Quantum Computer by increasing the Interaction Range ( http://arxiv.org/abs/2305.14426v3 ) ライセンス: Link先を確認 | Andrea Solfanelli, Stefano Ruffo, Sauro Succi, Nicolò Defenu, | (参考訳) 複雑な量子多体システムのシミュレーションは、ノイズの多い中間規模量子(NISQ)デバイスの短期的な目標である。
しかし、ネイティブな量子ビットの接続が限られていることは、長距離相互作用を必要とする量子アルゴリズムの実装を妨げる。
NISQデバイスにおける量子ビット接続の限界を克服するデジタル量子シミュレーションの結果を示す。
量子プロセッサネイティブゲートの普遍性を利用して、回路深さを増大させるコストで、物理的に切断された量子ビット間のカップリングの実装方法を示す。
本手法は, 近接する近傍の相互作用を特徴とするFloquet駆動の量子スピンチェーンをシミュレートする。
具体的には、相互作用範囲が増加するにつれて、離散フロケット時間結晶応答の予熱安定化をベンチマークするが、これは実験では観測されなかった現象である。
私たちの量子シミュレーションは、超伝導量子プロセッサ、すなわちデバイス接続の重大な制限の1つに対処します。
その結果, 騒音の影響を理論的モデルで適切に考慮し, 実験データから緩和することで, 近傍の結合を含む非自明な物理を抽出できることが判明した。
The simulation of complex quantum many-body systems is a promising short-term goal of noisy intermediate-scale quantum (NISQ) devices. However, the limited connectivity of native qubits hinders the implementation of quantum algorithms that require long-range interactions. We present the outcomes of a digital quantum simulation where we overcome the limitations of the qubit connectivity in NISQ devices. Utilizing the universality of quantum processor native gates, we demonstrate how to implement couplings among physically disconnected qubits at the cost of increasing the circuit depth. We apply this method to simulate a Floquet-driven quantum spin chain featuring interactions beyond nearest neighbors. Specifically, we benchmark the prethermal stabilization of the discrete Floquet time-crystalline response as the interaction range increases, a phenomenon never observed experimentally. Our quantum simulation addresses one of the significant limitations of superconducting quantum processors, namely, device connectivity. It reveals that nontrivial physics involving couplings beyond nearest neighbors can be extracted after the impact of noise is properly taken into account in the theoretical model and consequently mitigated from the experimental data. | 翻訳日:2024-05-08 01:26:19 公開日:2024-05-03 |
# 擬似経路幾何学による説明多元宇宙の探索
Navigating Explanatory Multiverse Through Counterfactual Path Geometry ( http://arxiv.org/abs/2306.02786v3 ) ライセンス: Link先を確認 | Kacper Sokol, Edward Small, Yueqing Xuan, | (参考訳) 非現実的な説明は、(不透明な)予測モデルの決定を解釈するタスクを行うときのデファクトスタンダードである。
それらの生成は、しばしば、密度ベースの実現可能性や属性(不変性または変化の方向性)のようなアルゴリズム的およびドメイン固有の制約によって、彼らの現実のユーティリティを最大化することを目的としている。
デシダラタ(desiderata)は、デシダラタ(desiderata)と反ファクトのインスタンスそのものに加えて、アルゴリズム的リコース(英語版)として知られる事実データポイントとを繋ぐ実行可能なパスの存在が重要な技術的考慮事項となっている。
これらの要件はどちらも、旅の歩数と目的地が許容可能であることを保証しているが、現在の文献は、そのような反現実的な経路の多重性を無視している。
この欠点に対処するために,実証的多元論という新たな概念を導入する。
次に、これらの軌跡の幾何をベクトル空間とグラフの2つの方法と比較する方法を示す。
この目的のために、親和性、分岐性、発散性、将来の収束の可能性など、それらの空間的性質を概説し、機会ポテンシャルと呼ばれるオールインワン計量を提案してそれらを定量化する。
この(おそらく対話的な)説明プロセスを実装することで、説明官は、その絶対的な違いに加えて、それらにつながる旅の性質に基づいて、反事実を選択できるようになる。
本稿では,ドイツのCreditおよびMNISTデータセットの例と定量的評価を通じて,そのようなアプローチの柔軟性,メリット,有効性を示す。
Counterfactual explanations are the de facto standard when tasked with interpreting decisions of (opaque) predictive models. Their generation is often subject to algorithmic and domain-specific constraints -- such as density-based feasibility, and attribute (im)mutability or directionality of change -- that aim to maximise their real-life utility. In addition to desiderata with respect to the counterfactual instance itself, existence of a viable path connecting it with the factual data point, known as algorithmic recourse, has become an important technical consideration. While both of these requirements ensure that the steps of the journey as well as its destination are admissible, current literature neglects the multiplicity of such counterfactual paths. To address this shortcoming we introduce the novel concept of explanatory multiverse that encompasses all the possible counterfactual journeys. We then show how to navigate, reason about and compare the geometry of these trajectories with two methods: vector spaces and graphs. To this end, we overview their spacial properties -- such as affinity, branching, divergence and possible future convergence -- and propose an all-in-one metric, called opportunity potential, to quantify them. Implementing this (possibly interactive) explanatory process grants explainees agency by allowing them to select counterfactuals based on the properties of the journey leading to them in addition to their absolute differences. We show the flexibility, benefit and efficacy of such an approach through examples and quantitative evaluation on the German Credit and MNIST data sets. | 翻訳日:2024-05-08 01:26:19 公開日:2024-05-03 |
# コントラスト分布モデリングによるオープンドメインテキスト評価
Open-Domain Text Evaluation via Contrastive Distribution Modeling ( http://arxiv.org/abs/2306.11879v2 ) ライセンス: Link先を確認 | Sidi Lu, Hongyi Liu, Asli Celikyilmaz, Tianlu Wang, Nanyun Peng, | (参考訳) 大規模事前学習言語モデル(LLM)のパワーによって駆動されるオープンドメインテキスト生成の最近の進歩は、顕著な性能を示している。
しかし、これらのモデルの生成品質を評価することは依然として困難である。
本稿では,CDM(Contrastive Distribution Methods)と呼ばれるオープンドメインテキスト生成手法を提案する。
モデルパラメータの増加とLLM性能の向上の接続を活用して、CDMは2つの確率分布の_contrast_から品質指標へのマッピングを生成する。
オープンドメインテキスト生成評価のためのCDMを2つのパラダイムで検討する。
1) _Generative_CDMは、2つの言語モデルの分布のコントラストを利用して、識別器ベースのメトリクスを訓練するための合成例を生成する。
2) _Discriminative_CDMは2つの言語モデル間の分布格差を直接利用して評価を行う。
マルチターン対話におけるコヒーレンス評価と,制御可能な生成のためのコモンセンス評価に関する実験は,既存の自動評価指標よりもCDMの方が優れた相関関係を示し,我々のアプローチの強い性能と一般化性を強調した。
Recent advancements in open-domain text generation, driven by the power of large pre-trained language models (LLMs), have demonstrated remarkable performance. However, assessing these models' generation quality remains a challenge. In this paper, we introduce a novel method for evaluating open-domain text generation called Contrastive Distribution Methods (CDM). Leveraging the connection between increasing model parameters and enhanced LLM performance, CDM creates a mapping from the _contrast_ of two probabilistic distributions -- one known to be superior to the other -- to quality measures. We investigate CDM for open-domain text generation evaluation under two paradigms: 1) _Generative_ CDM, which harnesses the contrast of two language models' distributions to generate synthetic examples for training discriminator-based metrics; 2) _Discriminative_ CDM, which directly uses distribution disparities between two language models for evaluation. Our experiments on coherence evaluation for multi-turn dialogue and commonsense evaluation for controllable generation demonstrate CDM's superior correlate with human judgment than existing automatic evaluation metrics, highlighting the strong performance and generalizability of our approach. | 翻訳日:2024-05-08 01:16:13 公開日:2024-05-03 |
# 動的オープン語彙強化型インテリジェンス付き安全着陸(DOVESEI)
Dynamic Open Vocabulary Enhanced Safe-landing with Intelligence (DOVESEI) ( http://arxiv.org/abs/2308.11471v5 ) ライセンス: Link先を確認 | Haechan Mark Bong, Rongge Zhang, Ricardo de Azambuja, Giovanni Beltrame, | (参考訳) この作業は、都市空飛ぶロボットの基本的なステップである、安全な着陸を目指しています。
私たちの関心は、安全な着陸認識スタックの最も重要な側面であるセグメンテーションに向けられている。
本稿では,オープンボキャブラリ画像セグメンテーションの能力を生かして,視覚サーボ機能を利用したリアクティブUAVシステムを提案する。
このアプローチは、そのオープンな語彙方法論のおかげで、内部モデルを洗練するための広範なデータ蓄積の必要性を回避し、最小限の調整で様々なシナリオに適応することができる。
地方自治体が課した制限を踏まえると、当社は高度100mの運用に重点を置いています。
この選択は意図的であり、多くの先行作品が、小型ステレオカメラの能力に合わせて、高度30メートルに対処してきた。
その結果,従来の3次元経路計画法を用いて,残りの20mをナビゲートした。
単眼カメラと画像セグメンテーションを用いて, 高度20mまでの着地操作を成功させた。
しかし,この手法は,映像ストリーム内のフレーム間セグメンテーションにおける断続的かつ時折急激な変動に対して脆弱である。
この課題に対処するために、我々はダイナミックフォーカスと呼ばれる、現在の着陸段階に応じて自己調整するマスキング機構を導入することにより、画像分割出力を強化する。
このダイナミックフォーカスは、制御システムを誘導し、地上に投射されたドローンの安全半径を超える領域を避けることで、変動に伴う問題を緩和する。
この補助層の実装により,グローバルセグメンテーションと比較して,着陸成功率が約10倍に向上した。
ソースコードはすべてオープンソースでオンラインで入手できる(github.com/MISTLab/DOVESEI)。
This work targets what we consider to be the foundational step for urban airborne robots, a safe landing. Our attention is directed toward what we deem the most crucial aspect of the safe landing perception stack: segmentation. We present a streamlined reactive UAV system that employs visual servoing by harnessing the capabilities of open vocabulary image segmentation. This approach can adapt to various scenarios with minimal adjustments, bypassing the necessity for extensive data accumulation for refining internal models, thanks to its open vocabulary methodology. Given the limitations imposed by local authorities, our primary focus centers on operations originating from altitudes of 100 meters. This choice is deliberate, as numerous preceding works have dealt with altitudes up to 30 meters, aligning with the capabilities of small stereo cameras. Consequently, we leave the remaining 20m to be navigated using conventional 3D path planning methods. Utilizing monocular cameras and image segmentation, our findings demonstrate the system's capability to successfully execute landing maneuvers at altitudes as low as 20 meters. However, this approach is vulnerable to intermittent and occasionally abrupt fluctuations in the segmentation between frames in a video stream. To address this challenge, we enhance the image segmentation output by introducing what we call a dynamic focus: a masking mechanism that self adjusts according to the current landing stage. This dynamic focus guides the control system to avoid regions beyond the drone's safety radius projected onto the ground, thus mitigating the problems with fluctuations. Through the implementation of this supplementary layer, our experiments have reached improvements in the landing success rate of almost tenfold when compared to global segmentation. All the source code is open source and available online (github.com/MISTLab/DOVESEI). | 翻訳日:2024-05-08 01:06:19 公開日:2024-05-03 |
# ChainForge: プロンプトエンジニアリングとLLM仮説テストのためのビジュアルツールキット
ChainForge: A Visual Toolkit for Prompt Engineering and LLM Hypothesis Testing ( http://arxiv.org/abs/2309.09128v3 ) ライセンス: Link先を確認 | Ian Arawjo, Chelse Swoopes, Priyan Vaithilingam, Martin Wattenberg, Elena Glassman, | (参考訳) 大規模言語モデル(LLM)のアウトプットを評価することは難しい。
しかし、基本的なプロンプトを超えたツールは、プログラミングAPIの知識、狭いドメインにフォーカスしたり、クローズドソースになる傾向がある。
本稿では,テキスト生成LLMの迅速なエンジニアリングとオンデマンド仮説テストのための,オープンソースのビジュアルツールキットであるChainForgeを紹介する。
ChainForgeは、モデル間でのレスポンスの比較と、変更のプロンプトのためのグラフィカルインターフェースを提供する。
提案システムは,モデル選択,テンプレート設計のプロンプト,仮説テスト(監査など)の3つのタスクをサポートするように設計された。
開発の初期段階でChainForgeをリリースし、学術やオンラインユーザによる設計を反復しました。
インラボやインタビュー研究を通じて、ChainForgeを使って、現実世界の設定を含む、自分たちにとって重要な仮説を調査できることがわかりました。
我々は,3種類の即時エンジニアリングとLLM仮説テスト(機会探索,限られた評価,反復的改善)を同定した。
Evaluating outputs of large language models (LLMs) is challenging, requiring making -- and making sense of -- many responses. Yet tools that go beyond basic prompting tend to require knowledge of programming APIs, focus on narrow domains, or are closed-source. We present ChainForge, an open-source visual toolkit for prompt engineering and on-demand hypothesis testing of text generation LLMs. ChainForge provides a graphical interface for comparison of responses across models and prompt variations. Our system was designed to support three tasks: model selection, prompt template design, and hypothesis testing (e.g., auditing). We released ChainForge early in its development and iterated on its design with academics and online users. Through in-lab and interview studies, we find that a range of people could use ChainForge to investigate hypotheses that matter to them, including in real-world settings. We identify three modes of prompt engineering and LLM hypothesis testing: opportunistic exploration, limited evaluation, and iterative refinement. | 翻訳日:2024-05-08 00:55:03 公開日:2024-05-03 |
# HOH:大きな対象数を持つマーカレスマルチモーダルヒューマンオブジェクト・ヒューマンハンドオーバデータセット
HOH: Markerless Multimodal Human-Object-Human Handover Dataset with Large Object Count ( http://arxiv.org/abs/2310.00723v6 ) ライセンス: Link先を確認 | Noah Wiederhold, Ava Megyeri, DiMaggio Paris, Sean Banerjee, Natasha Kholgade Banerjee, | (参考訳) 本稿では,HOH(Human-Object-Human)ハンドオーバデータセットを提案する。HOH(Human-Object-Human)ハンドオーバデータセットは,ハンドオーバ研究,ヒューマンロボットハンドオーバ実装,人工知能(AI)による人的インタラクションの2次元および3次元データからのハンドオーバパラメータ推定の高速化を目的としている。
HOHには、多視点RGBと深度データ、スケルトン、融合点雲、グリップタイプとハンドネスラベル、オブジェクト、ディペンダーハンド、レシーバハンド2Dと3Dセグメンテーション、ディペンダーとレシーバの快適性評価、および136個のオブジェクトと20個のディペンダー-レシーバペアからなる2,720個のハンドオーバインタラクションのためのペアリングオブジェクトメタデータとアライメント3Dモデルが含まれる。
また、HOHを用いて学習したニューラルネットワークを用いて、把握、向き、軌道予測を行う実験結果を示す。
唯一の完全なマーカーレスハンドオーバキャプチャデータセットとして、HOHは自然な人間と人間のハンドオーバインタラクションを表し、身体追跡に特定の適合を必要とするマーカ付きデータセットによる課題を克服し、高解像度ハンドトラッキングを欠いている。
これまでのHOHは、オブジェクト数、参加者数、役割逆転のペア数、総相互作用数で最大のハンドオーバデータセットである。
We present the HOH (Human-Object-Human) Handover Dataset, a large object count dataset with 136 objects, to accelerate data-driven research on handover studies, human-robot handover implementation, and artificial intelligence (AI) on handover parameter estimation from 2D and 3D data of person interactions. HOH contains multi-view RGB and depth data, skeletons, fused point clouds, grasp type and handedness labels, object, giver hand, and receiver hand 2D and 3D segmentations, giver and receiver comfort ratings, and paired object metadata and aligned 3D models for 2,720 handover interactions spanning 136 objects and 20 giver-receiver pairs-40 with role-reversal-organized from 40 participants. We also show experimental results of neural networks trained using HOH to perform grasp, orientation, and trajectory prediction. As the only fully markerless handover capture dataset, HOH represents natural human-human handover interactions, overcoming challenges with markered datasets that require specific suiting for body tracking, and lack high-resolution hand tracking. To date, HOH is the largest handover dataset in number of objects, participants, pairs with role reversal accounted for, and total interactions captured. | 翻訳日:2024-05-08 00:55:03 公開日:2024-05-03 |
# FT-Shield:テキスト・画像拡散モデルにおける不正な微調整に対する透かし
FT-Shield: A Watermark Against Unauthorized Fine-tuning in Text-to-Image Diffusion Models ( http://arxiv.org/abs/2310.02401v2 ) ライセンス: Link先を確認 | Yingqian Cui, Jie Ren, Yuping Lin, Han Xu, Pengfei He, Yue Xing, Lingjuan Lyu, Wenqi Fan, Hui Liu, Jiliang Tang, | (参考訳) テキスト・ツー・イメージ生成モデル,特に遅延拡散モデル(LDM)に基づくモデルでは,テキスト・プロンプトから高品質で高解像度の画像を生成する能力に優れていた。
この進歩により、芸術的スタイル適応やヒューマン・フェイス・トランスファーといった特定の用途に向け、テキスト・ツー・イメージ・モデルをパーソナライズする様々な微調整手法が開発されている。
しかし、このような進歩は、特にデータを許可なくパーソナライズするために使用する場合、著作権上の懸念を提起している。
例えば、悪意のあるユーザは、微調整のテクニックを使って、アーティストのスタイルを同意なく再現することができる。
そこで本研究では,テキスト・画像拡散モデルの微調整に適した透かし方式であるFT-Shieldを提案する。
FT-Shieldは新しい透かしの生成と検出戦略を設計することで著作権保護の課題に対処する。
特に、透かし生成のための革新的なアルゴリズムを導入する。
これにより、トレーニング画像から生成された出力への透かしのシームレスな転送が保証され、著作権のある素材の使用の識別が容易になる。
微調整法における可変性と透かし検出への影響に対処するため、FT-Shieldは透かし検出のためのMixture of Experts (MoE)アプローチを統合する。
総合実験により提案したFT-Shieldの有効性が検証された。
Text-to-image generative models, especially those based on latent diffusion models (LDMs), have demonstrated outstanding ability in generating high-quality and high-resolution images from textual prompts. With this advancement, various fine-tuning methods have been developed to personalize text-to-image models for specific applications such as artistic style adaptation and human face transfer. However, such advancements have raised copyright concerns, especially when the data are used for personalization without authorization. For example, a malicious user can employ fine-tuning techniques to replicate the style of an artist without consent. In light of this concern, we propose FT-Shield, a watermarking solution tailored for the fine-tuning of text-to-image diffusion models. FT-Shield addresses copyright protection challenges by designing new watermark generation and detection strategies. In particular, it introduces an innovative algorithm for watermark generation. It ensures the seamless transfer of watermarks from training images to generated outputs, facilitating the identification of copyrighted material use. To tackle the variability in fine-tuning methods and their impact on watermark detection, FT-Shield integrates a Mixture of Experts (MoE) approach for watermark detection. Comprehensive experiments validate the effectiveness of our proposed FT-Shield. | 翻訳日:2024-05-08 00:45:15 公開日:2024-05-03 |
# インコンテキスト学生モデリングのための大規模言語モデル:視覚プログラミングにおける学生の行動の合成
Large Language Models for In-Context Student Modeling: Synthesizing Student's Behavior in Visual Programming ( http://arxiv.org/abs/2310.10690v3 ) ライセンス: Link先を確認 | Manh Hung Nguyen, Sebastian Tschiatschek, Adish Singla, | (参考訳) 学生モデリングは多くの教育技術の中心であり、将来の学習成果を予測し、目標とする教育戦略を設計することができる。
しかし、オープンエンドの学習領域は、多様な振る舞いと考えられる誤解の広い空間のために、学生の正確なモデリングに課題を生じさせる。
これらの課題に対処するために、オープンエンド学習領域におけるコンテキスト内学習モデルへの大規模言語モデル(LLM)の適用について検討する。
より具体的には、特定の学生が基準課題を観察として試みることを考えると、その学生の目標課題に対する試みを総合することが目的である。
学生の行動の合成に LLM を利用する新しいフレームワーク LLM for Student Synthesis (LLM-SS) を導入する。
我々のフレームワークは、異なるLLMと組み合わせることができる。さらに、学生のモデリング能力を高めるために、我々は、LLMを微調整する。
LLM-SSフレームワークに基づいて複数の手法をインスタンス化し、既存のベンチマークであるStudioSynを用いて視覚的プログラミング領域における学生の試行合成を行う。
実験結果から,本手法はStudentSynベンチマークのベースライン手法であるNeurSSよりも優れた性能を示した。
さらに, GPT-3.5モデルの微調整版を用いた手法は, 基本型 GPT-3.5 モデルよりもはるかに優れており, チューターの性能に近づいた。
Student modeling is central to many educational technologies as it enables predicting future learning outcomes and designing targeted instructional strategies. However, open-ended learning domains pose challenges for accurately modeling students due to the diverse behaviors and a large space of possible misconceptions. To approach these challenges, we explore the application of large language models (LLMs) for in-context student modeling in open-ended learning domains. More concretely, given a particular student's attempt on a reference task as observation, the objective is to synthesize the student's attempt on a target task. We introduce a novel framework, LLM for Student Synthesis (LLM-SS), that leverages LLMs for synthesizing a student's behavior. Our framework can be combined with different LLMs; moreover, we fine-tune LLMs to boost their student modeling capabilities. We instantiate several methods based on LLM-SS framework and evaluate them using an existing benchmark, StudentSyn, for student attempt synthesis in a visual programming domain. Experimental results show that our methods perform significantly better than the baseline method NeurSS provided in the StudentSyn benchmark. Furthermore, our method using a fine-tuned version of the GPT-3.5 model is significantly better than using the base GPT-3.5 model and gets close to human tutors' performance. | 翻訳日:2024-05-08 00:35:16 公開日:2024-05-03 |
# 5G以上のIoTのためのピアツーピアディープラーニング
Peer-to-Peer Deep Learning for Beyond-5G IoT ( http://arxiv.org/abs/2310.18861v2 ) ライセンス: Link先を確認 | Srinivasa Pranav, José M. F. Moura, | (参考訳) P2PLは,フェデレーション学習パラダイムとは異なり,エッジサーバやクラウドからの調整を必要としない,実用的なマルチデバイスピアツーピア深層学習アルゴリズムである。
これにより、P2PLは、範囲、レイテンシ、帯域幅、フェデレートされたアプローチの単一障害点を生成するスマートシティのような、5Gを超えるコンピューティング環境に適しています。
P2PLは、トレーニングを触媒する最大ノルム同期を導入し、プライバシを保護するためにデバイス上でのディープモデルトレーニングを維持し、ローカルデバイス間通信を活用して分散コンセンサスを実装する。
各デバイスは2つのフェーズを反復的に交互に切り替える。
1)デバイス上での学習
2) モデルパラメータを周辺機器と組み合わせたピアツーピア協調。
すべての参加デバイスが、フェデレートされた集中的なトレーニングによって達成された同じテストパフォーマンスを達成することを実証的に示しています。
我々はこれらの実験結果を、多様なネットワークトポロジ、疎間通信、非IIDデータ分散の設定にまで拡張する。
We present P2PL, a practical multi-device peer-to-peer deep learning algorithm that, unlike the federated learning paradigm, does not require coordination from edge servers or the cloud. This makes P2PL well-suited for the sheer scale of beyond-5G computing environments like smart cities that otherwise create range, latency, bandwidth, and single point of failure issues for federated approaches. P2PL introduces max norm synchronization to catalyze training, retains on-device deep model training to preserve privacy, and leverages local inter-device communication to implement distributed consensus. Each device iteratively alternates between two phases: 1) on-device learning and 2) peer-to-peer cooperation where they combine model parameters with nearby devices. We empirically show that all participating devices achieve the same test performance attained by federated and centralized training -- even with 100 devices and relaxed singly stochastic consensus weights. We extend these experimental results to settings with diverse network topologies, sparse and intermittent communication, and non-IID data distributions. | 翻訳日:2024-05-08 00:35:15 公開日:2024-05-03 |
# 焼成LMGモデルにおけるクリロフ複雑性と動的相転移
Krylov Complexity and Dynamical Phase Transition in the quenched LMG model ( http://arxiv.org/abs/2312.05321v2 ) ライセンス: Link先を確認 | Pedro H. S. Bento, Adolfo del Campo, Lucas C. Céleri, | (参考訳) 量子系における複雑性の時間的進化を研究するには、対応するヒルベルト空間において、系の状態が定義された基底を越えて広がることを評価する必要がある。
近年、クリロフ基底は、この拡散を最小化するものとして特定されている。
本研究では,Lipkin-Meshkov-Glickモデルを用いて量子状態におけるクリロフ複雑性の数値的な探索を行う。
以上の結果から, 長期平均クリロフ複雑性がこのモデルの順序パラメータとして作用することが明らかとなった。
クエンチによって誘導される2つの動的位相を効果的に識別し、従来の順序パラメータと臨界点を共有する。
さらに、クリロフ基底とエネルギー基底の両方における逆参加比とシャノンエントロピーについて検討する。
一致した動的挙動は、初期状態が特定の対称性を持つときに両方の基底で観察される。
この振る舞いは、クリロフ基底とクエンチ前のエネルギー固有基底の間の同値性を確立することによって解析的に説明される。
Investigating the time evolution of complexity in quantum systems entails evaluating the spreading of the system's state across a defined basis in its corresponding Hilbert space. Recently, the Krylov basis has been identified as the one that minimizes this spreading. In this study, we develop a numerical exploration of the Krylov complexity in quantum states following a quench in the Lipkin-Meshkov-Glick model. Our results reveal that the long-term averaged Krylov complexity acts as an order parameter for this model. It effectively discriminates between the two dynamic phases induced by the quench, sharing a critical point with the conventional order parameter. Additionally, we examine the inverse participation ratio and the Shannon entropy in both the Krylov basis and the energy basis. A matching dynamic behavior is observed in both bases when the initial state possesses a specific symmetry. This behavior is analytically explained by establishing the equivalence between the Krylov basis and the pre-quench energy eigenbasis. | 翻訳日:2024-05-08 00:15:17 公開日:2024-05-03 |
# FMGS:ホロスティックな3Dシーン理解のための3Dガウススプレイティングの基礎モデル
FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding ( http://arxiv.org/abs/2401.01970v2 ) ライセンス: Link先を確認 | Xingxing Zuo, Pouya Samangouei, Yunwen Zhou, Yan Di, Mingyang Li, | (参考訳) 現実の3Dオブジェクトの幾何学的および意味的特性を正確に知覚することは、拡張現実とロボットアプリケーションの継続的な進化に不可欠である。
この目的のために,基礎モデルの視覚言語埋め込みを3次元ガウス版(GS)に組み込んだFMGS(Foundation Model Embedded Gaussian Splatting)を提案する。
この研究の重要な貢献は、3次元視覚言語モデルを再構築し、表現するための効率的な方法である。
これは、画像ベース基礎モデルから生成された特徴マップを、我々の3Dモデルからレンダリングしたものに蒸留することで実現される。
高品質なレンダリングと高速なトレーニングを実現するため,GSとマルチレゾリューションハッシュエンコーディング(MHE)の長所を統合することで,新しいシーン表現を導入する。
提案手法では,画素レベルのセマンティック境界に従って,同じセマンティックエンティティの描画特徴距離を近接させる画素アライメント損失も導入する。
提案手法は,提案手法の動作速度が851倍であるにもかかわらず,オープン語彙言語に基づくオブジェクト検出において10.2%の精度で最先端の手法を上回り,マルチビューのセマンティックな一貫性を示す。
本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
コードをプロジェクトページでリリースする予定です。
Precisely perceiving the geometric and semantic properties of real-world 3D objects is crucial for the continued evolution of augmented reality and robotic applications. To this end, we present Foundation Model Embedded Gaussian Splatting (FMGS), which incorporates vision-language embeddings of foundation models into 3D Gaussian Splatting (GS). The key contribution of this work is an efficient method to reconstruct and represent 3D vision-language models. This is achieved by distilling feature maps generated from image-based foundation models into those rendered from our 3D model. To ensure high-quality rendering and fast training, we introduce a novel scene representation by integrating strengths from both GS and multi-resolution hash encodings (MHE). Our effective training procedure also introduces a pixel alignment loss that makes the rendered feature distance of the same semantic entities close, following the pixel-level semantic boundaries. Our results demonstrate remarkable multi-view semantic consistency, facilitating diverse downstream tasks, beating state-of-the-art methods by 10.2 percent on open-vocabulary language-based object detection, despite that we are 851X faster for inference. This research explores the intersection of vision, language, and 3D scene representation, paving the way for enhanced scene understanding in uncontrolled real-world environments. We plan to release the code on the project page. | 翻訳日:2024-05-08 00:05:27 公開日:2024-05-03 |
# スピンによる符号化位置:ボソン・スピンモデルにおける客観性
Encoding position by spins: Objectivity in the boson-spin model ( http://arxiv.org/abs/2401.07690v2 ) ライセンス: Link先を確認 | Tae-Hun Lee, Jarosław K. Korbicz, | (参考訳) 中心調和振動子がスピン-1/2系の熱浴と相互作用するボソン-スピンモデルにおける量子客観性について検討する。
連続位置変数に関する情報を離散有限次元環境に符号化する方法を解析する。
より正確には、このモデルでいわゆるスペクトル放送構造(SBS)が形成される条件について検討する。
これらは多部量子状態構造であり、モード精製されたデコヒーレンスを表す。
リコイルのない極限で作業するため、Floquet理論を用いて、その明らかな単純さにもかかわらず、モデルが中央系の運動に依存する異なる状態を持つリッチな構造を持つことを示す。
そのうちの1つでは、位置の忠実な符号化とそれによる客観性は、使用される資源に関係なく不可能である。
言い換えれば、スピンの集まりが十分に大きいと、位置情報を忠実にエンコードする。
符号化のデコヒーレンスと精度に対応する特徴的長さ尺度を導出する。
We investigate quantum objectivity in the boson-spin model, where a central harmonic oscillator interacts with a thermal bath of spin-1/2 systems. We analyze how information about a continuous position variable can be encoded into discrete, finite-dimensional environments. More precisely, we study conditions under which the so-called Spectrum Broadcast Structures (SBS) can be formed in the model. These are multipartite quantum state structures, representing a mode-refined form of decoherence. Working in the recoil-less limit, we use the Floquet theory to show that despite its apparent simplicity, the model has a rich structure with different regimes, depending on the motion of the central system. In one of them, the faithful encoding of the position and hence objectivity are impossible irrespectively of the resources used. In other, large enough collections of spins will faithfully encode the position information. We derive the characteristic length scales, corresponding to decoherence and precision of the encoding. | 翻訳日:2024-05-07 23:55:35 公開日:2024-05-03 |
# 検証回路の再利用による言語モデルの信頼度向上
Increasing Trust in Language Models through the Reuse of Verified Circuits ( http://arxiv.org/abs/2402.02619v4 ) ライセンス: Link先を確認 | Philip Quirke, Clement Neo, Fazl Barez, | (参考訳) 言語モデル(LM)は、幅広い予測タスクにますます使われていますが、それらのトレーニングは稀なエッジケースを無視し、信頼性を低下させます。
ここでは、タスクアルゴリズムと回路実装を検証し、エッジケースを考慮し、既知の障害モードを含まない、厳格な信頼性基準を定義する。
数学的および論理的に規定されたフレームワークを使用して構築すれば,トランスフォーマーモデルをこの標準を満たすように訓練できることが示される。
本稿では,n桁整数加算モデルを完全に検証する。
検証されたモジュールの再利用性を示すため、トレーニングされた整数加算モデルをトレーニングされていないモデルに挿入し、組み合わせたモデルで加算と減算の両方を行うように訓練する。
両タスクの加算回路を広範囲に再利用し,より複雑な減算器モデルの検証を容易にする。
本稿では,検証済みのタスクモジュールをLMに挿入することで,モデルの再利用を有効活用し,それらを用いた言語モデルの妥当性と信頼性を向上させる方法について論じる。
検証回路の再利用により、言語モデルの安全性に向けた重要なステップであると考えられる、より複雑な複合モデルを検証する労力が削減される。
Language Models (LMs) are increasingly used for a wide range of prediction tasks, but their training can often neglect rare edge cases, reducing their reliability. Here, we define a stringent standard of trustworthiness whereby the task algorithm and circuit implementation must be verified, accounting for edge cases, with no known failure modes. We show that a transformer model can be trained to meet this standard if built using mathematically and logically specified frameworks. In this paper, we fully verify a model for n-digit integer addition. To exhibit the reusability of verified modules, we insert the trained integer addition model into an untrained model and train the combined model to perform both addition and subtraction. We find extensive reuse of the addition circuits for both tasks, easing verification of the more complex subtractor model. We discuss how inserting verified task modules into LMs can leverage model reuse to improve verifiability and trustworthiness of language models built using them. The reuse of verified circuits reduces the effort to verify more complex composite models which we believe to be a significant step towards safety of language models. | 翻訳日:2024-05-07 23:45:49 公開日:2024-05-03 |
# WMDPベンチマーク:アンラーニングによる悪意的使用の測定と削減
The WMDP Benchmark: Measuring and Reducing Malicious Use With Unlearning ( http://arxiv.org/abs/2403.03218v6 ) ライセンス: Link先を確認 | Nathaniel Li, Alexander Pan, Anjali Gopal, Summer Yue, Daniel Berrios, Alice Gatti, Justin D. Li, Ann-Kathrin Dombrowski, Shashwat Goel, Long Phan, Gabriel Mukobi, Nathan Helm-Burger, Rassin Lababidi, Lennart Justen, Andrew B. Liu, Michael Chen, Isabelle Barrass, Oliver Zhang, Xiaoyuan Zhu, Rishub Tamirisa, Bhrugu Bharathi, Adam Khoja, Zhenqi Zhao, Ariel Herbert-Voss, Cort B. Breuer, Samuel Marks, Oam Patel, Andy Zou, Mantas Mazeika, Zifan Wang, Palash Oswal, Weiran Liu, Adam A. Hunt, Justin Tienken-Harder, Kevin Y. Shih, Kemper Talley, John Guan, Russell Kaplan, Ian Steneker, David Campbell, Brad Jokubaitis, Alex Levinson, Jean Wang, William Qian, Kallol Krishna Karmakar, Steven Basart, Stephen Fitz, Mindy Levine, Ponnurangam Kumaraguru, Uday Tupakula, Vijay Varadharajan, Ruoyu Wang, Yan Shoshitaishvili, Jimmy Ba, Kevin M. Esvelt, Alexandr Wang, Dan Hendrycks, | (参考訳) ホワイトハウス人工知能に関する大統領令は、生物、サイバー、化学兵器の開発において悪意あるアクターに力を与える大きな言語モデル(LLM)のリスクを強調している。
悪意のある使用のリスクを測定するために、政府機関と主要なAIラボは、LLMにおける有害な能力の評価を開発している。
しかし、現在の評価は非公開であり、リスク軽減のさらなる研究を妨げている。
さらに、悪意のある使用のための、非常に特殊な経路にのみ焦点をあてている。
これらのギャップを埋めるために、私たちは、バイオセキュリティ、サイバーセキュリティ、化学セキュリティにおける有害な知識のプロキシ測定として機能する、3,668の多重選択質問のデータセットであるWMDP(Weapons of Mass Destruction Proxy)ベンチマークを公開しました。
WMDPは学者と技術コンサルタントのコンソーシアムによって開発され、公開前に機密情報を除去するために厳格にフィルタリングされた。
WMDPは、まず、LLMにおける有害な知識の評価として、そして次に、そのような有害な知識を取り除くための未学習手法のベンチマークとして、2つの役割を果たす。
未学習の進展を導くために,モデル表現の制御に基づく最先端の未学習手法であるRMUを開発した。
RMUは、生物学や計算機科学などの分野における一般的な能力を保ちながら、WMDPのモデル性能を低下させ、LLMから悪意のある使用を減らすための具体的な道である可能性を示唆している。
私たちはベンチマークとコードをhttps://wmdp.aiで公開しています。
The White House Executive Order on Artificial Intelligence highlights the risks of large language models (LLMs) empowering malicious actors in developing biological, cyber, and chemical weapons. To measure these risks of malicious use, government institutions and major AI labs are developing evaluations for hazardous capabilities in LLMs. However, current evaluations are private, preventing further research into mitigating risk. Furthermore, they focus on only a few, highly specific pathways for malicious use. To fill these gaps, we publicly release the Weapons of Mass Destruction Proxy (WMDP) benchmark, a dataset of 3,668 multiple-choice questions that serve as a proxy measurement of hazardous knowledge in biosecurity, cybersecurity, and chemical security. WMDP was developed by a consortium of academics and technical consultants, and was stringently filtered to eliminate sensitive information prior to public release. WMDP serves two roles: first, as an evaluation for hazardous knowledge in LLMs, and second, as a benchmark for unlearning methods to remove such hazardous knowledge. To guide progress on unlearning, we develop RMU, a state-of-the-art unlearning method based on controlling model representations. RMU reduces model performance on WMDP while maintaining general capabilities in areas such as biology and computer science, suggesting that unlearning may be a concrete path towards reducing malicious use from LLMs. We release our benchmark and code publicly at https://wmdp.ai | 翻訳日:2024-05-07 23:16:28 公開日:2024-05-03 |
# TeaMs-RL:強化学習によるより良い指導の教育
TeaMs-RL: Teaching LLMs to Teach Themselves Better Instructions via Reinforcement Learning ( http://arxiv.org/abs/2403.08694v2 ) ライセンス: Link先を確認 | Shangding Gu, Alois Knoll, Ming Jin, | (参考訳) 大規模言語モデル(LLM)の開発は、ヒューマンフィードバック(RLHF)フレームワークによる強化学習において、人間アノテータに強く依存することや、自己インストラクトパラダイムに結びついた頻繁でコストのかかる外部クエリから生じる課題にしばしば直面する。
この作業では、強化学習(RL:Reinforcement Learning)へと方向転換します。
命令データトレーニング後にLLMを洗練させる典型的なRLHFから切り離し、RLを使用して基礎的な命令データセットを直接生成し、微調整だけで十分である。
筆者らのTeaMs-RLはテキスト操作とルールの集合を使い,トレーニングデータセットの多様化を優先する。
外部の高度なモデルに過度に依存することなく、高品質なデータ生成を容易にし、単一の微調整ステップへの道を歩み、その後のRLHFステージの必要性を否定する。
我々の発見は、人間の関与の必要性を減らし、モデルのクエリを減らし(WizardLMの総計5.73セント)、強力なベースラインに比べて複雑な命令を作成・解釈するLLMの機能を強化し、モデルのプライバシ保護を大幅に改善した。
The development of Large Language Models (LLMs) often confronts challenges stemming from the heavy reliance on human annotators in the reinforcement learning with human feedback (RLHF) framework, or the frequent and costly external queries tied to the self-instruct paradigm. In this work, we pivot to Reinforcement Learning (RL) -- but with a twist. Diverging from the typical RLHF, which refines LLMs following instruction data training, we use RL to directly generate the foundational instruction dataset that alone suffices for fine-tuning. Our method, TeaMs-RL, uses a suite of textual operations and rules, prioritizing the diversification of training datasets. It facilitates the generation of high-quality data without excessive reliance on external advanced models, paving the way for a single fine-tuning step and negating the need for subsequent RLHF stages. Our findings highlight key advantages of our approach: reduced need for human involvement and fewer model queries (only $5.73\%$ of WizardLM's total), along with enhanced capabilities of LLMs in crafting and comprehending complex instructions compared to strong baselines, and substantially improved model privacy protection. | 翻訳日:2024-05-07 23:16:28 公開日:2024-05-03 |
# 識別のゼロ知識証明--C-ITSのための標準互換シビル耐性擬似音韻拡張
Zero-Knowledge Proof of Distinct Identity: a Standard-compatible Sybil-resistant Pseudonym Extension for C-ITS ( http://arxiv.org/abs/2403.14020v3 ) ライセンス: Link先を確認 | Ye Tao, Hongyi Wu, Ehsan Javanmardi, Manabu Tsukada, Hiroshi Esaki, | (参考訳) 偽名は、車両の位置プライバシーを保護するために、C-ITS(Cooperative Intelligent Transport Systems)で広く使われている。
しかし、偽名の非リンク性は、悪意のある車両が同時に複数の車両のふりをするシビル攻撃を可能にする。
本稿では,0-knowledge Proof of Distinct Identity(zk-PoDI,zk-PoDI)と呼ばれる新しいプロトコルを提案する。
Zk-PoDIはディオファントイン方程式とzk-SNARKに基づいており、特定の名前の設計やインフラの補助に依存しない。
我々は、zk-PoDIが実用的なSybil-Resistance擬似名詞システムに必要な全ての要件を満たすことを示し、低レイテンシ、調整可能な難易度、適度な計算オーバーヘッド、無視可能な通信コストを有することを示した。
また,現実的な都市規模シミュレーション環境におけるzk-PoDIの実装と評価の今後の課題についても論じる。
Pseudonyms are widely used in Cooperative Intelligent Transport Systems (C-ITS) to protect the location privacy of vehicles. However, the unlinkability nature of pseudonyms also enables Sybil attacks, where a malicious vehicle can pretend to be multiple vehicles at the same time. In this paper, we propose a novel protocol called zero-knowledge Proof of Distinct Identity (zk-PoDI,) which allows a vehicle to prove that it is not the owner of another pseudonym in the local area, without revealing its actual identity. Zk-PoDI is based on the Diophantine equation and zk-SNARK, and does not rely on any specific pseudonym design or infrastructure assistance. We show that zk-PoDI satisfies all the requirements for a practical Sybil-resistance pseudonym system, and it has low latency, adjustable difficulty, moderate computation overhead, and negligible communication cost. We also discuss the future work of implementing and evaluating zk-PoDI in a realistic city-scale simulation environment. | 翻訳日:2024-05-07 23:16:28 公開日:2024-05-03 |
# フルレンジ・ヘッド・ポーズ推定のための数学的基礎と補正
Mathematical Foundation and Corrections for Full Range Head Pose Estimation ( http://arxiv.org/abs/2403.18104v2 ) ライセンス: Link先を確認 | Huei-Chung Hu, Xuyang Wu, Yuan Wang, Yi Fang, Hsin-Tai Wu, | (参考訳) 頭部ポーズ推定(HPE)に関する多くの研究は、顔のキーポイントまたは頭部領域の画像から直接オイラー角を抽出するアルゴリズムまたはニューラルネットワークに基づくアプローチを提供する。
しかし、多くの研究は座標系とオイラーあるいはタイト・ブライアン角の明確な定義を提供しられなかった。
回転行列が座標系に依存することはよく知られている事実であり、ヨー、ロール、ピッチ角はその適用順序に敏感である。
正確な定義がなければ、出力ヘッドポーズの正しさと、先行作業で使用されるルーチンの描画の検証が困難になる。
本稿では,300W-LPデータセットで定義されたEuler角,3DDFA-v2,6D-RepNet,WHENetなどの頭部ポーズ推定,およびEuler角の描画ルーチンの有効性について詳しく検討した。
必要であれば、提供されたコードから座標系とヨー、ロール、ピッチのシーケンスを推測する。
本稿では,(1)提供されたソースコードから座標系を推定するコードとアルゴリズム,(2)正確な回転行列とオイラー角度を抽出するコードとアルゴリズム,(2)回転系から他の回転行列へポーズを変換するコードとアルゴリズム,(3)回転行列を2次元拡張する新しい公式,(4)回転行列とポーズの正しい描画ルーチンの導出とコードを提案する。
本稿では,Wikipedia と SciPy の右利き座標系による回転定義の実現可能性についても論じる。
Numerous works concerning head pose estimation (HPE) offer algorithms or proposed neural network-based approaches for extracting Euler angles from either facial key points or directly from images of the head region. However, many works failed to provide clear definitions of the coordinate systems and Euler or Tait-Bryan angles orders in use. It is a well-known fact that rotation matrices depend on coordinate systems, and yaw, roll, and pitch angles are sensitive to their application order. Without precise definitions, it becomes challenging to validate the correctness of the output head pose and drawing routines employed in prior works. In this paper, we thoroughly examined the Euler angles defined in the 300W-LP dataset, head pose estimation such as 3DDFA-v2, 6D-RepNet, WHENet, etc, and the validity of their drawing routines of the Euler angles. When necessary, we infer their coordinate system and sequence of yaw, roll, pitch from provided code. This paper presents (1) code and algorithms for inferring coordinate system from provided source code, code for Euler angle application order and extracting precise rotation matrices and the Euler angles, (2) code and algorithms for converting poses from one rotation system to another, (3) novel formulae for 2D augmentations of the rotation matrices, and (4) derivations and code for the correct drawing routines for rotation matrices and poses. This paper also addresses the feasibility of defining rotations with right-handed coordinate system in Wikipedia and SciPy, which makes the Euler angle extraction much easier for full-range head pose research. | 翻訳日:2024-05-07 23:06:30 公開日:2024-05-03 |
# コアラ:キーフレームコンディション長ビデオLLM
Koala: Key frame-conditioned long video-LLM ( http://arxiv.org/abs/2404.04346v3 ) ライセンス: Link先を確認 | Reuben Tan, Ximeng Sun, Ping Hu, Jui-hsien Wang, Hanieh Deilamsalehy, Bryan A. Plummer, Bryan Russell, Kate Saenko, | (参考訳) 長時間のビデオ質問応答は、短期活動を認識し、それらのきめ細かい関係を推論する難しいタスクである。
最先端のビデオであるLarge Language Models (vLLMs)は、新しいタスクの創発的な機能を示すため、実現可能なソリューションとして期待されている。
しかし、数百万秒の短いビデオで訓練されているにもかかわらず、vLLMは数分のビデオを理解できず、正確な質問に答えることができない。
この制限に対処するために、より長いビデオに一般化するために、学習可能な時空間クエリを導入し、事前学習したvLLMに適応する、軽量で自己管理的なアプローチ、Key frame-conditioned long video-LLM (Koala)を提案する。
提案手法では,ショート・ビデオ・モーメントとロング・ビデオ・モーメントの理解のために,スパース・ビデオ・キーフレームから計算した視覚トークンを条件とした2つの新しいトークン化手法を提案する。
提案手法をHowTo100Mで学習し、その効果をゼロショット長ビデオ理解ベンチマークで示し、すべてのタスクにおいて3~6%の精度で最先端の大規模モデルより優れていることを示す。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
Long video question answering is a challenging task that involves recognizing short-term activities and reasoning about their fine-grained relationships. State-of-the-art video Large Language Models (vLLMs) hold promise as a viable solution due to their demonstrated emergent capabilities on new tasks. However, despite being trained on millions of short seconds-long videos, vLLMs are unable to understand minutes-long videos and accurately answer questions about them. To address this limitation, we propose a lightweight and self-supervised approach, Key frame-conditioned long video-LLM (Koala), that introduces learnable spatiotemporal queries to adapt pretrained vLLMs for generalizing to longer videos. Our approach introduces two new tokenizers that condition on visual tokens computed from sparse video key frames for understanding short and long video moments. We train our proposed approach on HowTo100M and demonstrate its effectiveness on zero-shot long video understanding benchmarks, where it outperforms state-of-the-art large models by 3 - 6% in absolute accuracy across all tasks. Surprisingly, we also empirically show that our approach not only helps a pretrained vLLM to understand long videos but also improves its accuracy on short-term action recognition. | 翻訳日:2024-05-07 22:56:46 公開日:2024-05-03 |
# コロンビアの地熱勾配予測 : 機械学習によるアプローチ
Predicting the Geothermal Gradient in Colombia: a Machine Learning Approach ( http://arxiv.org/abs/2404.05184v5 ) ライセンス: Link先を確認 | Juan C. Mejía-Fragoso, Manuel A. Florez, Rocío Bernal-Olaya, | (参考訳) 地熱勾配の正確な決定は、所定の地域の地熱エネルギーポテンシャルを評価するために重要である。
特に興味深いのは、豊富な地熱資源を持つコロンビアである。
活発な石油とガスの探査と生産の歴史は、掘削されたボーアホールを異なる地質環境に残し、地熱勾配を直接測定した。
残念なことに、地熱資源が存在する国ではそのような測定方法が欠如している。
間接的な物理測定は、地域規模で行うのに費用がかかり、困難である。
計算熱モデルを構築することもできるが、基礎となる地質について非常に詳細な知識と地下温度の均一なサンプリングが必要である。
我々は,地球規模の地球物理データセットとコース地質知識しか利用できない地域での地熱勾配を予測するために,教師付き機械学習と直接測定の最近の進歩を活用するアプローチを提案する。
グラディエントブースト回帰木アルゴリズムは最適な予測を行い、トレーニングされたモデルを広範囲に検証する。
我々は,本モデルの予測精度が12%以内であり,他の著者による独立測定値が本モデルとよく一致していることを示す。
最後に,コロンビアの地熱勾配図で,深部探査とデータ収集を行うべき地域に焦点を当てた。
Accurate determination of the geothermal gradient is critical for assessing the geothermal energy potential of a given region. Of particular interest is the case of Colombia, a country with abundant geothermal resources. A history of active oil and gas exploration and production has left drilled boreholes in different geological settings, providing direct measurements of the geothermal gradient. Unfortunately, large regions of the country where geothermal resources might exist lack such measurements. Indirect geophysical measurements are costly and difficult to perform at regional scales. Computational thermal models could be constructed, but they require very detailed knowledge of the underlying geology and uniform sampling of subsurface temperatures to be well-constrained. We present an alternative approach that leverages recent advances in supervised machine learning and available direct measurements to predict the geothermal gradient in regions where only global-scale geophysical datasets and course geological knowledge are available. We find that a Gradient Boosted Regression Tree algorithm yields optimal predictions and extensively validate the trained model. We show that predictions of our model are within 12% accuracy and that independent measurements performed by other authors agree well with our model. Finnally, we present a geothermal gradient map for Colombia that highlights regions where futher exploration and data collection should be performed. | 翻訳日:2024-05-07 22:56:46 公開日:2024-05-03 |
# mABC: マイクロサービスアーキテクチャにおける根本原因分析のためのマルチエージェントブロックチェーン-インスパイアされたコラボレーション
mABC: multi-Agent Blockchain-Inspired Collaboration for root cause analysis in micro-services architecture ( http://arxiv.org/abs/2404.12135v2 ) ライセンス: Link先を確認 | Wei Zhang, Hongcheng Guo, Jian Yang, Yi Zhang, Chaoran Yan, Zhoujin Tian, Hangyuan Ji, Zhoujun Li, Tongliang Li, Tieqiao Zheng, Chao Chen, Yi Liang, Xu Shi, Liangfan Zheng, Bo Zhang, | (参考訳) クラウドネイティブなテクノロジにおけるマイクロサービスアーキテクチャのエスカレートする複雑性は、システムの安定性と効率性を維持する上で大きな課題となる。
根本原因分析(RCA)と警告イベントの解決を目的として,マイクロサービスアーキテクチャ(mABC)における根本原因分析のための先駆的フレームワークであるマルチエージェントブロックチェーンによるコラボレーションを提案し,IT運用(AIOps)ドメインに革命をもたらす。
具体的には、Agens Workflowから派生した7つの専門エージェントが、それぞれの専門知識と分散チェーン内で協調するLLMの本質的なソフトウェア知識に基づいて、根本原因分析に関する貴重な洞察を提供する。
LLMの潜在的な不安定性の問題を避け、分散構造に固有の透明性と平等的優位性を完全に活用するために、mABCは、各エージェントの貢献指標と専門指標を考慮して、ブロックチェーンガバナンス原則にインスパイアされた意思決定プロセスを採用する。
公開ベンチマークのAIOpsチャレンジデータセットと作成したトレインチケットデータセットの実験結果から,根本原因を正確に同定し,有効なソリューションを定式化する上で,従来の強力なベースラインと比較して優れたパフォーマンスを示した。
アブレーション調査は、mABC内の各コンポーネントの重要性をさらに強調している。最適なパフォーマンスを達成する上では、Agent Workflow、マルチエージェント、ブロックチェーンにインスパイアされた投票が不可欠である。
mABCは、マイクロサービスアーキテクチャにおける包括的な自動化された根本原因分析と解決を提供し、既存のベースラインと比較してAIOpsドメインの大幅な改善を実現している。
The escalating complexity of micro-services architecture in cloud-native technologies poses significant challenges for maintaining system stability and efficiency. To conduct root cause analysis (RCA) and resolution of alert events, we propose a pioneering framework, multi-Agent Blockchain-inspired Collaboration for root cause analysis in micro-services architecture (mABC), to revolutionize the AI for IT operations (AIOps) domain, where multiple agents based on the powerful large language models (LLMs) perform blockchain-inspired voting to reach a final agreement following a standardized process for processing tasks and queries provided by Agent Workflow. Specifically, seven specialized agents derived from Agent Workflow each provide valuable insights towards root cause analysis based on their expertise and the intrinsic software knowledge of LLMs collaborating within a decentralized chain. To avoid potential instability issues in LLMs and fully leverage the transparent and egalitarian advantages inherent in a decentralized structure, mABC adopts a decision-making process inspired by blockchain governance principles while considering the contribution index and expertise index of each agent. Experimental results on the public benchmark AIOps challenge dataset and our created train-ticket dataset demonstrate superior performance in accurately identifying root causes and formulating effective solutions, compared to previous strong baselines. The ablation study further highlights the significance of each component within mABC, with Agent Workflow, multi-agent, and blockchain-inspired voting being crucial for achieving optimal performance. mABC offers a comprehensive automated root cause analysis and resolution in micro-services architecture and achieves a significant improvement in the AIOps domain compared to existing baselines | 翻訳日:2024-05-07 22:46:58 公開日:2024-05-03 |
# 多光子フーリエ干渉に基づく資源コスト低減型光子蒸留法
Photon distillation schemes with reduced resource costs based on multiphoton Fourier interference ( http://arxiv.org/abs/2404.14262v2 ) ライセンス: Link先を確認 | F. H. B. Somhorst, B. K. Sauër, S. N. van den Hoven, J. J. Renema, | (参考訳) 単一光子の区別不能性を改善することは、大規模なフォトニック量子計算を実現するための重要な前提条件である。
光子蒸留は量子干渉を利用して単一光子の質を高め、複数の光子を犠牲にして1つの光子を生成する。
フーリエ行列における多光子干渉の研究により、最先端の手法と比較して、光子を減らして非識別性の向上を達成できる光子蒸留方式が見つかる。
これらの結果は、大規模フォトニック量子コンピュータのコンポーネントとして応用できるかもしれない。
Improving the indistinguishability of single photons is a crucial prerequisite for achieving large-scale photonic quantum computation. Photon distillation uses quantum interference to enhance the quality of single photons, sacrificing multiple photons to generate one photon with enhanced indistinguishability. By studying multiphoton interference in Fourier matrices, we find photon distillation schemes that require fewer photons to achieve the same improvement in indistinguishability, compared to the state of the art. These results may find application as a component in large-scale photonic quantum computers. | 翻訳日:2024-05-07 22:37:13 公開日:2024-05-03 |
# COBRA-Confidence score based based on shape Regression Analysis for method-independent quality Assessment of object pose Estimation from single image (特集:一般セッション)
COBRA - COnfidence score Based on shape Regression Analysis for method-independent quality assessment of object pose estimation from single images ( http://arxiv.org/abs/2404.16471v2 ) ライセンス: Link先を確認 | Panagiotis Sapoutzoglou, Georgios Giapitzakis Tzintanos, George Terzakis, Maria Pateraki, | (参考訳) 本稿では,単一画像意味解析に依存するポーズ推定手法の一般的なアルゴリズムを提案する。
このアルゴリズムは、複数のガウス過程を組み合わせた軽量な配置形状表現を用いる。
それぞれのガウス過程(GP)は、オブジェクトの座標系内の複数の基準点からその表面への距離正規分布を生成し、予測されたポーズを評価するための幾何学的評価フレームワークを提供する。
我々の信頼度尺度は、形状テンプレートへの画素バックプロジェクションの平均混合確率からなる。
本報告実験では,物体のGPベース表現の精度と実際の幾何モデルとの比較を行い,セグメンテーションとポーズ推定を併用した固有測度と対照的に,アウトレーヤの影響を捉えることができることを示す。
We present a generic algorithm for scoring pose estimation methods that rely on single image semantic analysis. The algorithm employs a lightweight putative shape representation using a combination of multiple Gaussian Processes. Each Gaussian Process (GP) yields distance normal distributions from multiple reference points in the object's coordinate system to its surface, thus providing a geometric evaluation framework for scoring predicted poses. Our confidence measure comprises the average mixture probability of pixel back-projections onto the shape template. In the reported experiments, we compare the accuracy of our GP based representation of objects versus the actual geometric models and demonstrate the ability of our method to capture the influence of outliers as opposed to the corresponding intrinsic measures that ship with the segmentation and pose estimation methods. | 翻訳日:2024-05-07 22:37:13 公開日:2024-05-03 |
# 環境不確かさに直面した実効的ロバスト多エージェント強化学習
Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty ( http://arxiv.org/abs/2404.18909v2 ) ライセンス: Link先を確認 | Laixi Shi, Eric Mazumdar, Yuejie Chi, Adam Wierman, | (参考訳) 強化学習(RL)におけるシモン・トゥ・リアルギャップを克服するためには、学習政策は環境の不確実性に対する堅牢性を維持する必要がある。
頑健なRLは単一エージェント体制、マルチエージェント環境において広く研究されているが、環境の不確実性に起因する問題は戦略的な相互作用によって悪化することが多いにもかかわらず、問題は未検討のままである。
この研究は、標準マルコフゲーム(RMG)の堅牢な変形である分散ロバストなマルコフゲーム(RMG)の学習に焦点を当て、各エージェントは、デプロイされた環境が所定の不確実性セット内で逸脱した場合の最悪のパフォーマンスを最大化するポリシーを学ぶことを目的としている。
この結果、ゲーム理論平衡の古典的な概念と整合する全てのエージェントに対して、堅牢な平衡戦略のセットが得られる。
生成モデルから非適応サンプリング機構を仮定し、ゲーム理論平衡の様々な概念の頑健な変種を学習するための有限サンプル複雑性保証付きサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。
また、状態空間のサイズ、目標精度、地平線長といった問題に依存した要因に関して、DRNVIのほぼ最適サンプル複雑性を確認するための情報理論の下限を確立した。
To overcome the sim-to-real gap in reinforcement learning (RL), learned policies must maintain robustness against environmental uncertainties. While robust RL has been widely studied in single-agent regimes, in multi-agent environments, the problem remains understudied -- despite the fact that the problems posed by environmental uncertainties are often exacerbated by strategic interactions. This work focuses on learning in distributionally robust Markov games (RMGs), a robust variant of standard Markov games, wherein each agent aims to learn a policy that maximizes its own worst-case performance when the deployed environment deviates within its own prescribed uncertainty set. This results in a set of robust equilibrium strategies for all agents that align with classic notions of game-theoretic equilibria. Assuming a non-adaptive sampling mechanism from a generative model, we propose a sample-efficient model-based algorithm (DRNVI) with finite-sample complexity guarantees for learning robust variants of various notions of game-theoretic equilibria. We also establish an information-theoretic lower bound for solving RMGs, which confirms the near-optimal sample complexity of DRNVI with respect to problem-dependent factors such as the size of the state space, the target accuracy, and the horizon length. | 翻訳日:2024-05-07 20:39:25 公開日:2024-05-03 |
# LncRNA放出関連予測のための不均一ネットワークとグラフ注意自動エンコーダ
Heterogeneous network and graph attention auto-encoder for LncRNA-disease association prediction ( http://arxiv.org/abs/2405.02354v1 ) ライセンス: Link先を確認 | Jin-Xing Liu, Wen-Yu Xi, Ling-Yun Dai, Chun-Hou Zheng, Ying-Lian Gao, | (参考訳) 新たな研究は、lncRNAが複雑なヒトの病気と関連していることを示している。
しかし、既存の方法の多くは、非線形lncRNA-disease associations (LDAs) の同定に制限があり、新しいLDAを予測することは大きな課題である。
したがって, LDAの正確な同定は, 疾患の予防と治療に非常に重要である。
本研究は,lncRNAと疾患の特徴を構築するために,複数のバイオメディカルデータソースを十分に利用し,線形および非線形特性を効果的に統合するものである。
さらに,HGATELDAと呼ばれる,グラフアテンション自動エンコーダに基づく新しいディープラーニングモデルを提案する。
まず、mRNA-lncRNA相互作用マトリックスとmRNA-解離相互作用マトリックスによって、lncRNAと疾患の線形特性が生成される。
次に、重要な情報をほとんど保持し、ノードの近傍情報を効果的に集約するグラフアテンションオートエンコーダを用いて、疾患とlncRNAの非線形特徴を抽出する。
最終的に、LDAは病気とlncRNAの線形および非線形特性を融合させることで予測できる。
HGATELDAモデルは、最近の予測モデルと比較して、5倍のクロスバリデーションを用いて、印象的なAUC値0.9692を達成する。
一方,新規LDAの同定におけるHGATELDAの有効性は,ケーススタディによりさらに実証された。
HGATELDAモデルは、LDAを予測するための実行可能な計算モデルである。
The emerging research shows that lncRNAs are associated with a series of complex human diseases. However, most of the existing methods have limitations in identifying nonlinear lncRNA-disease associations (LDAs), and it remains a huge challenge to predict new LDAs. Therefore, the accurate identification of LDAs is very important for the warning and treatment of diseases. In this work, multiple sources of biomedical data are fully utilized to construct characteristics of lncRNAs and diseases, and linear and nonlinear characteristics are effectively integrated. Furthermore, a novel deep learning model based on graph attention automatic encoder is proposed, called HGATELDA. To begin with, the linear characteristics of lncRNAs and diseases are created by the miRNA-lncRNA interaction matrix and miRNA-disease interaction matrix. Following this, the nonlinear features of diseases and lncRNAs are extracted using a graph attention auto-encoder, which largely retains the critical information and effectively aggregates the neighborhood information of nodes. In the end, LDAs can be predicted by fusing the linear and nonlinear characteristics of diseases and lncRNA. The HGATELDA model achieves an impressive AUC value of 0.9692 when evaluated using a 5-fold cross-validation indicating its superior performance in comparison to several recent prediction models. Meanwhile, the effectiveness of HGATELDA in identifying novel LDAs is further demonstrated by case studies. the HGATELDA model appears to be a viable computational model for predicting LDAs. | 翻訳日:2024-05-07 20:29:40 公開日:2024-05-03 |
# CodeGRAG:Retrieval Augmented Cross-Lingual Code Generationのための合成構文グラフの抽出
CodeGRAG: Extracting Composed Syntax Graphs for Retrieval Augmented Cross-Lingual Code Generation ( http://arxiv.org/abs/2405.02355v1 ) ライセンス: Link先を確認 | Kounianhua Du, Renting Rui, Huacan Chai, Lingyue Fu, Wei Xia, Yasheng Wang, Ruiming Tang, Yong Yu, Weinan Zhang, | (参考訳) 大規模な言語モデルを使用してコードを生成することは、ソフトウェア開発革命において有望な意味を示している。
一般的な大規模言語モデルによって示される知性にもかかわらず、構文的ギャップと自然言語と異なるプログラミング言語の間に存在するミスマッチした語彙のために、コード生成の特異性は改善される。
加えて、プログラミング言語は本質的に論理的で複雑であり、正しく生成することは困難である。
既存のメソッドは、より優れたソリューションを探すために、大きな言語モデルへの複数のプロンプトに依存しています。
本稿では,Syntax Graph Retrieval Augmented Code Generation (CodeGRAG)を提案する。
CodeGRAGは、プログラミング言語と自然言語のギャップを埋めるために、コードブロックの制御フローとデータフローを抽出し、要約する。
抽出された外部構造的知識は、コードブロックの固有のフローをモデル化する。
CodeGRAGはLLMのコード生成能力を大幅に改善し、Python用のC++など、言語間コード生成のパフォーマンス向上も実現している。
Utilizing large language models to generate codes has shown promising meaning in software development revolution. Despite the intelligence shown by the general large language models, their specificity in code generation can still be improved due to the syntactic gap and mismatched vocabulary existing among natural language and different programming languages. In addition, programming languages are inherently logical and complex, making them hard to be correctly generated. Existing methods rely on multiple prompts to the large language model to explore better solutions, which is expensive. In this paper, we propose Syntax Graph Retrieval Augmented Code Generation (CodeGRAG) to enhance the performance of LLMs in single-round code generation tasks. CodeGRAG extracts and summarizes the control flow and data flow of code blocks to fill the gap between programming languages and natural language. The extracted external structural knowledge models the inherent flows of code blocks, which can facilitate LLMs for better understanding of code syntax and serve as a bridge among different programming languages. CodeGRAG significantly improves the code generation ability of LLMs and can even offer performance gain for cross-lingual code generation, e.g., C++ for Python. | 翻訳日:2024-05-07 20:29:40 公開日:2024-05-03 |
# 確率的多変量万能有限状態機械:理論的かつ実用的にエレガントな非線形関数近似器
Stochastic Multivariate Universal-Radix Finite-State Machine: a Theoretically and Practically Elegant Nonlinear Function Approximator ( http://arxiv.org/abs/2405.02356v1 ) ライセンス: Link先を確認 | Xincheng Feng, Guodong Shen, Jianhao Hu, Meng Li, Ngai Wong, | (参考訳) 非線形性は、特にディープニューラルネットワークにおいて複雑な入出力関係を捉えるのに不可欠である。
しかし、非線形関数はしばしば様々なハードウェアと計算オーバーヘッドを引き起こす。
一方、確率コンピューティング(SC)は、ハードウェアの単純さのために出力精度を取引することで、この問題に取り組むための有望なアプローチとして現れている。
そこで本研究では,ハードウェア・単純多変量非線形関数生成において,SCを高精度に活用する一級確率的多変量有限状態機械(SMURF)を提案する。
本稿では,SMURFのための有限状態機械(FSM)アーキテクチャと,一般非線形関数を正確に近似するためのサンプリングゲート係数の解析的導出について述べる。
実験では、SMURFの優位性を示し、テイラー系列近似の16.07%の面積と14.45%の消費電力しか必要とせず、ルックアップテーブル(LUT)スキームの2.22%しか必要としていない。
Nonlinearities are crucial for capturing complex input-output relationships especially in deep neural networks. However, nonlinear functions often incur various hardware and compute overheads. Meanwhile, stochastic computing (SC) has emerged as a promising approach to tackle this challenge by trading output precision for hardware simplicity. To this end, this paper proposes a first-of-its-kind stochastic multivariate universal-radix finite-state machine (SMURF) that harnesses SC for hardware-simplistic multivariate nonlinear function generation at high accuracy. We present the finite-state machine (FSM) architecture for SMURF, as well as analytical derivations of sampling gate coefficients for accurately approximating generic nonlinear functions. Experiments demonstrate the superiority of SMURF, requiring only 16.07% area and 14.45% power consumption of Taylor-series approximation, and merely 2.22% area of look-up table (LUT) schemes. | 翻訳日:2024-05-07 20:19:44 公開日:2024-05-03 |
# 交通システムにおけるモビリティのための大規模言語モデル:予測課題に関する調査
Large Language Models for Mobility in Transportation Systems: A Survey on Forecasting Tasks ( http://arxiv.org/abs/2405.02357v1 ) ライセンス: Link先を確認 | Zijian Zhang, Yujie Sun, Zepu Wang, Yuqi Nie, Xiaobo Ma, Peng Sun, Ruolin Li, | (参考訳) モビリティ分析は交通システムの研究領域において重要な要素である。
交通情報の予測は、交通需要の増加と交通インフラの限界の間の対立に対処するための有効な解決策を提供する。
タクシーの発送や都市計画など様々な交通・都市管理業務において,人的移動の予測が重要である。
機械学習とディープラーニングの方法は、その柔軟性と正確性に好まれる。
現在、大規模言語モデル(LLM)の出現に伴い、多くの研究者がこれらのモデルを以前の手法と組み合わせたり、将来の交通情報や人間の旅行行動を直接予測するためにLLMを適用したりしてきた。
しかし、LLMがこの分野にどのように貢献するかに関する包括的な研究は乏しい。
本研究では,移動予測問題に対するLCMを用いた既存手法について検討する。
本稿では,交通システムにおける予測の適用状況について文献レビューを行い,研究者がLLMをどのように活用しているかを解明し,最近の技術進歩を示すとともに,この領域でLLMを完全に活用するために克服すべき課題を特定する。
Mobility analysis is a crucial element in the research area of transportation systems. Forecasting traffic information offers a viable solution to address the conflict between increasing transportation demands and the limitations of transportation infrastructure. Predicting human travel is significant in aiding various transportation and urban management tasks, such as taxi dispatch and urban planning. Machine learning and deep learning methods are favored for their flexibility and accuracy. Nowadays, with the advent of large language models (LLMs), many researchers have combined these models with previous techniques or applied LLMs to directly predict future traffic information and human travel behaviors. However, there is a lack of comprehensive studies on how LLMs can contribute to this field. This survey explores existing approaches using LLMs for mobility forecasting problems. We provide a literature review concerning the forecasting applications within transportation systems, elucidating how researchers utilize LLMs, showcasing recent state-of-the-art advancements, and identifying the challenges that must be overcome to fully leverage LLMs in this domain. | 翻訳日:2024-05-07 20:19:44 公開日:2024-05-03 |
# 時系列基礎モデルに関する調査:大言語モードによる時系列表現の一般化
A Survey of Time Series Foundation Models: Generalizing Time Series Representation with Large Language Mode ( http://arxiv.org/abs/2405.02358v1 ) ライセンス: Link先を確認 | Jiexia Ye, Weiqi Zhang, Ke Yi, Yongzi Yu, Ziyue Li, Jia Li, Fugee Tsung, | (参考訳) 時系列データは様々な領域に分散しており、時系列解析が極めて重要である。
伝統的な時系列モデルはタスク固有であり、特異な機能と限定的な一般化能力を備えている。
近年,大規模言語基盤モデルでは,クロスタスク転送性,ゼロショット/フェーショット学習,意思決定説明性などの特長が明らかにされている。
この成功は、複数の時系列課題を同時に解決する基礎モデルの探求への関心を喚起した。
主な研究線は2つあり、例えば、時系列のスクラッチから得られる \textbf{pre-training foundation model と、時系列の大規模言語基盤モデルに対応する \textbf{adapting large language foundation model である。
これらは共に、高度に一般化可能で、汎用的で、時系列解析のために理解可能な統一モデルの開発に寄与する。
本調査は,関連研究の総合的な調査を行うための3E分析フレームワークを提供する。
具体的には、既存の3次元、すなわち \textbf{Effectiveness} 、 \textbf{Efficiency} 、 \textbf{Explainability} の作品を検証する。
各分野において、時系列の領域におけるユニークな課題を考慮し、関連する作品がどのように適合したソリューションを創出するかを議論することに焦点を当て、さらに、フォロワーがドメイン固有の進歩に追随するのを助けるために、ドメイン分類を提供する。
さらに、データセット、オープンソース、時系列ライブラリなど、フィールドの開発を容易にするための広範なリソースも導入する。
GitHubリポジトリもリソース更新のためにメンテナンスされている(https://github.com/start 2020/Awesome-TimeSeries-LLM-FM)。
Time series data are ubiquitous across various domains, making time series analysis critically important. Traditional time series models are task-specific, featuring singular functionality and limited generalization capacity. Recently, large language foundation models have unveiled their remarkable capabilities for cross-task transferability, zero-shot/few-shot learning, and decision-making explainability. This success has sparked interest in the exploration of foundation models to solve multiple time series challenges simultaneously. There are two main research lines, namely \textbf{pre-training foundation models from scratch for time series} and \textbf{adapting large language foundation models for time series}. They both contribute to the development of a unified model that is highly generalizable, versatile, and comprehensible for time series analysis. This survey offers a 3E analytical framework for comprehensive examination of related research. Specifically, we examine existing works from three dimensions, namely \textbf{Effectiveness}, \textbf{Efficiency} and \textbf{Explainability}. In each dimension, we focus on discussing how related works devise tailored solution by considering unique challenges in the realm of time series.Furthermore, we provide a domain taxonomy to help followers keep up with the domain-specific advancements. In addition, we introduce extensive resources to facilitate the field's development, including datasets, open-source, time series libraries. A GitHub repository is also maintained for resource updates (https://github.com/start2020/Awesome-TimeSeries-LLM-FM). | 翻訳日:2024-05-07 20:19:44 公開日:2024-05-03 |
# CVTGAD:教師なしグラフレベルの異常検出のためのクロスビューアテンション付き簡易変換器
CVTGAD: Simplified Transformer with Cross-View Attention for Unsupervised Graph-level Anomaly Detection ( http://arxiv.org/abs/2405.02359v1 ) ライセンス: Link先を確認 | Jindong Li, Qianli Xing, Qi Wang, Yi Chang, | (参考訳) 教師なしグラフレベルの異常検出(UGAD)は、化学分析やバイオインフォマティクスなど、様々な重要な分野において顕著な性能を発揮している。
既存のUGADパラダイムでは、複数のビューを構築するためにデータ拡張技術を採用し、異なるビューからの表現を得るために異なる戦略を採用することが多い。
しかし、これまでのほとんどの研究は、限定された受容領域からのノード/グラフの関係のみを考慮し、いくつかの重要な構造パターンと特徴情報が無視される結果となった。
さらに、既存のほとんどのメソッドは、異なるビューを並列的に別々に検討しており、異なるビューをまたいだ相互関係を直接探索することはできない。
したがって、異なる視点をまたいで相互関係を探索できる、より広い受容場を持つ手法が求められている。
本稿では,教師なしグラフレベルの異常検出,すなわちCVTGADのためのクロスビューアテンション付き簡易変換器を提案する。
受容場を増大させるために,グラフ内およびグラフ間の両方の観点からノード/グラフ間の関係を利用して,簡易なトランスフォーマベースモジュールを構築する。
さらに、異なるビュー間のビュー共起を直接利用し、ノードレベルとグラフレベルでのビュー間ギャップをブリッジする、クロスビューアテンション機構を設計する。
我々の知る限りでは、これは、グラフニューラルネットワークとトランスフォーマーの協調動作を実現するUGADにトランスフォーマーを適用し、横断的な注意を向ける最初の試みである。
3フィールドの15の実世界のデータセットに対する大規模な実験は、UGADタスクにおけるCVTGADの優位性を実証している。
コードは \url{https://github.com/jindongli-Ai/CVTGAD} で公開されている。
Unsupervised graph-level anomaly detection (UGAD) has received remarkable performance in various critical disciplines, such as chemistry analysis and bioinformatics. Existing UGAD paradigms often adopt data augmentation techniques to construct multiple views, and then employ different strategies to obtain representations from different views for jointly conducting UGAD. However, most previous works only considered the relationship between nodes/graphs from a limited receptive field, resulting in some key structure patterns and feature information being neglected. In addition, most existing methods consider different views separately in a parallel manner, which is not able to explore the inter-relationship across different views directly. Thus, a method with a larger receptive field that can explore the inter-relationship across different views directly is in need. In this paper, we propose a novel Simplified Transformer with Cross-View Attention for Unsupervised Graph-level Anomaly Detection, namely, CVTGAD. To increase the receptive field, we construct a simplified transformer-based module, exploiting the relationship between nodes/graphs from both intra-graph and inter-graph perspectives. Furthermore, we design a cross-view attention mechanism to directly exploit the view co-occurrence between different views, bridging the inter-view gap at node level and graph level. To the best of our knowledge, this is the first work to apply transformer and cross attention to UGAD, which realizes graph neural network and transformer working collaboratively. Extensive experiments on 15 real-world datasets of 3 fields demonstrate the superiority of CVTGAD on the UGAD task. The code is available at \url{https://github.com/jindongli-Ai/CVTGAD}. | 翻訳日:2024-05-07 20:19:44 公開日:2024-05-03 |
# 包括的評価指標:フェデレートラーニングのためのユースケース感性評価指標
Holistic Evaluation Metrics: Use Case Sensitive Evaluation Metrics for Federated Learning ( http://arxiv.org/abs/2405.02360v1 ) ライセンス: Link先を確認 | Yanli Li, Jehad Ibrahim, Huaming Chen, Dong Yuan, Kim-Kwang Raymond Choo, | (参考訳) 様々なアプリケーションや様々な観点から、多数のフェデレートラーニング(FL)アルゴリズムが提案されている。
しかし、そのような手法の評価は単一の計量(例えば精度)に依存することが多い。
このようなプラクティスは、異なるユースケースのユニークな要求と多様な要求を考慮に入れない。
したがって、FLアルゴリズムを包括的に評価し、指定されたユースケースに最も適した候補を決定する方法は未解決の問題である。
この研究ギャップを軽減するため,本研究ではFLのホロスティック評価基準(HEM)を導入する。
具体的には、IoT(Internet of Things)、スマートデバイス、機関の3つの主要なユースケースをまとめて取り上げます。
評価基準は、正確性、収束性、計算効率、公正性、パーソナライゼーションを含む様々な側面を含む。
次に、それぞれのユースケースにそれぞれ重要なベクタを割り当て、それぞれのパフォーマンス要件と優先順位を反映します。
HEM指数は、これらの計量成分をそれぞれの重要ベクトルと統合することによって最終的に生成される。
これらの3つのユースケースで異なるFLアルゴリズムを評価した結果、HEMは特定のシナリオに最も適したFLアルゴリズムを効果的に評価し識別できることを示した。
本研究は,実世界の応用における実用的FLアルゴリズムの評価プロセスに光を当てることが期待できる。
A large number of federated learning (FL) algorithms have been proposed for different applications and from varying perspectives. However, the evaluation of such approaches often relies on a single metric (e.g., accuracy). Such a practice fails to account for the unique demands and diverse requirements of different use cases. Thus, how to comprehensively evaluate an FL algorithm and determine the most suitable candidate for a designated use case remains an open question. To mitigate this research gap, we introduce the Holistic Evaluation Metrics (HEM) for FL in this work. Specifically, we collectively focus on three primary use cases, which are Internet of Things (IoT), smart devices, and institutions. The evaluation metric encompasses various aspects including accuracy, convergence, computational efficiency, fairness, and personalization. We then assign a respective importance vector for each use case, reflecting their distinct performance requirements and priorities. The HEM index is finally generated by integrating these metric components with their respective importance vectors. Through evaluating different FL algorithms in these three prevalent use cases, our experimental results demonstrate that HEM can effectively assess and identify the FL algorithms best suited to particular scenarios. We anticipate this work sheds light on the evaluation process for pragmatic FL algorithms in real-world applications. | 翻訳日:2024-05-07 20:19:44 公開日:2024-05-03 |
# データセット分析としてのLLM:大規模言語モデルを用いたサブポピュレーション構造発見
LLM as Dataset Analyst: Subpopulation Structure Discovery with Large Language Model ( http://arxiv.org/abs/2405.02363v1 ) ライセンス: Link先を確認 | Yulin Luo, Ruichuan An, Bocheng Zou, Yiming Tang, Jiaming Liu, Shanghang Zhang, | (参考訳) サブポピュレーションの分布はデータセット内に隠された重要な特性である。
データセット内のサブポピュレーション分布の解明と分析は、データセットの包括的な理解を提供し、データセットサブポピュレーション組織、サブポピュレーションシフト、スライスディスカバリなど、さまざまな下流タスクに有用な強力なツールとして立っている。
その重要性にもかかわらず、我々の知識に対するデータセットのサブポピュレーション分布を体系的に探求する研究は行われていない。
この制限に対処し、全てのタスクを統一的に解決するために、データセット内のサブポピュレーション分布を表現、分析、利用するための新しいサブポピュレーション構造の概念を導入する。
本研究では,Large Language Models (LLM) の知識と命令追従機能を活用し,言語学的に情報的イメージキャプションを解析し,構造を要約するサブポピュレーション構造ディスカバリー(SSD-LLM)フレームワークを提案する。
さらに、本研究では、データセットサブポピュレーション組織、サブポピュレーションシフト、スライス発見を含むサブポピュレーション関連タスクのスペクトルに対する、検出された構造の適用を示す、タスク固有チューニング(Task-specific Tuning)と呼ばれる下流タスクに対処するための完全なワークフローを提案する。
さらに、本研究では、データセットサブポピュレーション組織、サブポピュレーションシフト、スライス発見を含むサブポピュレーション関連タスクのスペクトルに対する、検出された構造の適用を示す、タスク固有チューニング(Task-specific Tuning)と呼ばれる下流タスクに対処するための完全なワークフローを提案する。
The distribution of subpopulations is an important property hidden within a dataset. Uncovering and analyzing the subpopulation distribution within datasets provides a comprehensive understanding of the datasets, standing as a powerful tool beneficial to various downstream tasks, including Dataset Subpopulation Organization, Subpopulation Shift, and Slice Discovery. Despite its importance, there has been no work that systematically explores the subpopulation distribution of datasets to our knowledge. To address the limitation and solve all the mentioned tasks in a unified way, we introduce a novel concept of subpopulation structures to represent, analyze, and utilize subpopulation distributions within datasets. To characterize the structures in an interpretable manner, we propose the Subpopulation Structure Discovery with Large Language Models (SSD-LLM) framework, which employs world knowledge and instruction-following capabilities of Large Language Models (LLMs) to linguistically analyze informative image captions and summarize the structures. Furthermore, we propose complete workflows to address downstream tasks, named Task-specific Tuning, showcasing the application of the discovered structure to a spectrum of subpopulation-related tasks, including dataset subpopulation organization, subpopulation shift, and slice discovery. Furthermore, we propose complete workflows to address downstream tasks, named Task-specific Tuning, showcasing the application of the discovered structure to a spectrum of subpopulation-related tasks, including dataset subpopulation organization, subpopulation shift, and slice discovery. | 翻訳日:2024-05-07 20:19:44 公開日:2024-05-03 |
# 垂直的フェデレーション学習における貢献度評価に関する調査
A Survey on Contribution Evaluation in Vertical Federated Learning ( http://arxiv.org/abs/2405.02364v1 ) ライセンス: Link先を確認 | Yue Cui, Chung-ju Huang, Yuzhu Zhang, Leye Wang, Lixin Fan, Xiaofang Zhou, Qiang Yang, | (参考訳) Vertical Federated Learning (VFL)は、中央集権データストレージと処理に関連するプライバシー問題に対処する機械学習において、重要なアプローチとして登場した。
VFLは、複数のエンティティ間のコラボレーションを容易にし、同じユーザ人口に異なる特徴セットを持ち、直接データ共有なしで予測モデルの共同トレーニングを可能にする。
VFLの重要な側面は、学習プロセスに対する各エンティティの貢献の公平かつ正確な評価である。
これは、参加する組織間の信頼の維持、公平なリソース共有の確保、持続可能なコラボレーションフレームワークの育成に不可欠である。
本稿では,VFLにおけるコントリビューション評価について概観する。
本稿では,VFLライフサイクルに沿った様々なコントリビューション評価手法,評価の粒度,プライバシ考慮,コア計算手法を分類する。
また, コントリビューション評価に関わる様々なタスクについて検討し, 必要な評価特性とVFLライフサイクルフェーズとの関係について分析する。
最後に,VFLにおけるコントリビューション評価の今後の課題について述べる。
本稿は,現在の展望と今後の展望を構造化した分析結果を提供することで,より効率的で効率的な,プライバシー中心のVFLソリューションの設計と実装を研究者や実践者たちに指導することを目的とする。
関連文献とオープンソースリソースがコンパイルされ、GitHubリポジトリで継続的に更新されている。
Vertical Federated Learning (VFL) has emerged as a critical approach in machine learning to address privacy concerns associated with centralized data storage and processing. VFL facilitates collaboration among multiple entities with distinct feature sets on the same user population, enabling the joint training of predictive models without direct data sharing. A key aspect of VFL is the fair and accurate evaluation of each entity's contribution to the learning process. This is crucial for maintaining trust among participating entities, ensuring equitable resource sharing, and fostering a sustainable collaboration framework. This paper provides a thorough review of contribution evaluation in VFL. We categorize the vast array of contribution evaluation techniques along the VFL lifecycle, granularity of evaluation, privacy considerations, and core computational methods. We also explore various tasks in VFL that involving contribution evaluation and analyze their required evaluation properties and relation to the VFL lifecycle phases. Finally, we present a vision for the future challenges of contribution evaluation in VFL. By providing a structured analysis of the current landscape and potential advancements, this paper aims to guide researchers and practitioners in the design and implementation of more effective, efficient, and privacy-centric VFL solutions. Relevant literature and open-source resources have been compiled and are being continuously updated at the GitHub repository: \url{https://github.com/cuiyuebing/VFL_CE}. | 翻訳日:2024-05-07 20:19:44 公開日:2024-05-03 |
# モデル抽出攻撃に対する適応的およびロバストな透かし
Adaptive and robust watermark against model extraction attack ( http://arxiv.org/abs/2405.02365v1 ) ライセンス: Link先を確認 | Kaiyi Pang, Tao Qi, Chuhan Wu, Minhao Bai, | (参考訳) 大規模言語モデルは、LMaaS(Large Models as a Service)を繁栄するビジネスセクターへと押し上げた。
しかし、モデルパラメータと内部動作をプライベートに保ちながら、APIアクセスのみを提供するモデル所有者でさえ、そのIntellectual Property(IP)はモデル抽出攻撃による盗難のリスクを被っている。
これらのモデルのIPを保護し、言語モデル市場での不公平な競争を緩和するために、ウォーターマーキング技術はIP侵害を識別するための効率的なポストホックソリューションとして機能する。
しかし、既存のIP保護透かし手法は、言語モデルの本来の出力を明示的に変更するか、モデルロジットに透かし信号を埋め込むかのいずれかである。
これらの手法は、言語モデルの本来の分布を強制的に歪め、サンプリングプロセスに影響を与えるため、生成されたテキストの品質が低下する。
既存の手法では、透かし検出が干渉される複雑なシナリオにおいて、エンドツーエンドの適応透かし埋め込みを実現することができず、ロバスト性検証が欠如している。
これらの課題を克服するために,追加モジュールを訓練することなくモデル抽出攻撃に抵抗する,プラグアンドプレイIP保護透かし手法であるPromptShieldを提案する。
大規模言語モデルに固有の自己複製特性を活用して、ユーザクエリを透かし自己生成命令でカプセル化し、LLMをヌードすることで、生成品質を損なうことなく、出力中の透かし語を自動的に生成する。
提案手法では,モデルの内部ロジットへのアクセスを必要とせず,プロンプト誘導キューを用いたモデル分布の変更を最小限に抑える。
総合的な実験結果から、透かしの有効性、無害性、堅牢性が一貫して示されている。
さらに, 干渉を受けた場合でも, 透かし検出法は頑健であり, 検出感度も高い。
Large language models have boosted Large Models as a Service (LMaaS) into a thriving business sector. But even model owners offering only API access while keeping model parameters and internal workings private, their Intellectual Property (IP) are still at risk of theft through model extraction attacks. To safeguard the IP of these models and mitigate unfair competition in the language model market, watermarking technology serves as an efficient post-hoc solution for identifying IP infringements. However, existing IP protection watermarking methods either explicitly alter the original output of the language model or implant watermark signals in the model logits. These methods forcefully distort the original distribution of the language model and impact the sampling process, leading to a decline in the quality of the generated text. The existing method also fails to achieve end-to-end adaptive watermark embedding and lack robustness verification in complex scenarios where watermark detection is subject to interference. To overcome these challenges, we propose PromptShield, a plug-and-play IP protection watermarking method to resist model extraction attacks without training additional modules. Leveraging the self-reminding properties inherent in large language models, we encapsulate the user's query with a watermark self-generated instruction, nudging the LLMs to automatically generate watermark words in its output without compromising generation quality. Our method does not require access to the model's internal logits and minimizes alterations to the model's distribution using prompt-guided cues. Comprehensive experimental results consistently demonstrate the effectiveness, harmlessness, and robustness of our watermark. Moreover, Our watermark detection method remains robust and high detection sensitivity even when subjected to interference. | 翻訳日:2024-05-07 20:19:44 公開日:2024-05-03 |
# 銀河の階層的形態分類のためのベイズと畳み込みネットワーク
Bayesian and Convolutional Networks for Hierarchical Morphological Classification of Galaxies ( http://arxiv.org/abs/2405.02366v1 ) ライセンス: Link先を確認 | Jonathan Serrano-Pérez, Raquel Díaz Hernández, L. Enrique Sucar, | (参考訳) この研究は、ハッブル系列に続く銀河の形態的分類に焦点をあて、異なるクラスが階層構造に配置されている。
提案手法である BCNN は2つの主モジュールから構成される。
第一に、畳み込みニューラルネットワーク(CNN)は、異なる種類の銀河の画像で訓練され(いくつかのクラスのバランスをとるために画像拡張が行われる)、CNNは階層の各クラスの確率を出力し、その出力/予測は第二のモジュールを供給します。
第2のモジュールはヒエラルキーを表すベイズネットワークで構成され、階層的制約を維持しながら第1フェーズの予測を組み合わせることで予測精度を向上させる(階層構造では、ノードに関連するインスタンスはすべての祖先に関連付けられなければならない)。
ハッブル望遠鏡のさまざまな画像が専門家によって収集され、ラベル付けされ、実験に使用された。
以上の結果から,BCNNは複数の評価尺度において,一致率67%,精度78%,階層的F尺度83%という,複数のCNNよりも優れた成績を示した。
This work is focused on the morphological classification of galaxies following the Hubble sequence in which the different classes are arranged in a hierarchy. The proposed method, BCNN, is composed of two main modules. First, a convolutional neural network (CNN) is trained with images of the different classes of galaxies (image augmentation is carried out to balance some classes); the CNN outputs the probability for each class of the hierarchy, and its outputs/predictions feed the second module. The second module consists of a Bayesian network that represents the hierarchy and helps to improve the prediction accuracy by combining the predictions of the first phase while maintaining the hierarchical constraint (in a hierarchy, an instance associated with a node must be associated to all its ancestors), through probabilistic inference over the Bayesian network so that a consistent prediction is obtained. Different images from the Hubble telescope have been collected and labeled by experts, which are used to perform the experiments. The results show that BCNN performed better than several CNNs in multiple evaluation measures, reaching the next scores: 67% in exact match, 78% in accuracy, and 83% in hierarchical F-measure. | 翻訳日:2024-05-07 20:19:44 公開日:2024-05-03 |
# ビジュアルコンテンツによるソーシャルメディアポスト人気予測の強化
Enhancing Social Media Post Popularity Prediction with Visual Content ( http://arxiv.org/abs/2405.02367v1 ) ライセンス: Link先を確認 | Dahyun Jeong, Hyelim Son, Yunjin Choi, Keunwoo Kim, | (参考訳) 本研究では,複雑な画像情報と階層的データ構造に対処することに焦点を当てた,画像ベースのソーシャルメディアコンテンツ人気予測フレームワークを提案する。
Google Cloud Vision APIを使用して、ユーザの投稿からキーイメージとカラー情報を効果的に抽出し、非画像共変量のみを使用する場合と比較して6.8倍の精度を実現しています。
予測には線形混合モデル,サポートベクトル回帰,多層パーセプトロン,ランダムフォレスト,XGBoostなど,幅広い予測モデルをベンチマークとして検討する。
比較研究では,共変量間の非線型相互作用を捉えることができるモデルが,他の手法より優れていることを示す。
Our study presents a framework for predicting image-based social media content popularity that focuses on addressing complex image information and a hierarchical data structure. We utilize the Google Cloud Vision API to effectively extract key image and color information from users' postings, achieving 6.8\% higher accuracy compared to using non-image covariates alone. For prediction, we explore a wide range of prediction models, including Linear Mixed Model, Support Vector Regression, Multi-layer Perceptron, Random Forest, and XGBoost, with linear regression as the benchmark. Our comparative study demonstrates that models that are capable of capturing the underlying nonlinear interactions between covariates outperform other methods. | 翻訳日:2024-05-07 20:19:44 公開日:2024-05-03 |
# ワンサイズ全ニューロン:人工ニューラルネットワークのためのタスクベースニューロン
No One-Size-Fits-All Neurons: Task-based Neurons for Artificial Neural Networks ( http://arxiv.org/abs/2405.02369v1 ) ライセンス: Link先を確認 | Feng-Lei Fan, Meng Wang, Hang-Cheng Dong, Jianwei Ma, Tieyong Zeng, | (参考訳) 生物学的には、脳はあらゆる面で普遍的に機能する単一の種類のニューロンに依存しない。
代わりに、タスクベースのニューロンの高度なデザイナとして機能する。
本研究では,人間の脳がタスクベースのニューロンユーザであるため,人工ネットワーク設計はタスクベースのアーキテクチャ設計からタスクベースのニューロン設計へ移行できるのか,という疑問に対処する。
一つの大きさのニューロンが存在しないため、タスクベースニューロンはタスク固有の誘導バイアスのため、既存の普遍ニューロンと比較して特徴表現能力を高めることができる。
具体的には,タスクベースニューロンをプロトタイピングするための2段階の枠組みを提案する。
第一に、記号回帰は対数、三角関数、指数関数などの基底関数を利用して入力データに適合する最適な公式を特定するために用いられる。
ベクトルに全ての変数を積み重ねるベクトル化記号回帰を導入し、各入力変数を正規化して同じ計算を行い、回帰速度を高速化し、並列計算を容易にし、オーバーフィッティングを回避する。
第2に、獲得した基本式をパラメータ化してパラメータを学習可能とし、ニューロンの集約機能として機能する。
ReLUのような活性化関数とシグモダル関数は、良いことが証明されたため、同じままである。
経験的に、古典的なベンチマークや実世界の応用に関する実験結果から、提案されたタスクベースのニューロン設計は実現可能であるだけでなく、他の最先端モデルと競合する性能をもたらすことが示されている。
Biologically, the brain does not rely on a single type of neuron that universally functions in all aspects. Instead, it acts as a sophisticated designer of task-based neurons. In this study, we address the following question: since the human brain is a task-based neuron user, can the artificial network design go from the task-based architecture design to the task-based neuron design? Since methodologically there are no one-size-fits-all neurons, given the same structure, task-based neurons can enhance the feature representation ability relative to the existing universal neurons due to the intrinsic inductive bias for the task. Specifically, we propose a two-step framework for prototyping task-based neurons. First, symbolic regression is used to identify optimal formulas that fit input data by utilizing base functions such as logarithmic, trigonometric, and exponential functions. We introduce vectorized symbolic regression that stacks all variables in a vector and regularizes each input variable to perform the same computation, which can expedite the regression speed, facilitate parallel computation, and avoid overfitting. Second, we parameterize the acquired elementary formula to make parameters learnable, which serves as the aggregation function of the neuron. The activation functions such as ReLU and the sigmoidal functions remain the same because they have proven to be good. Empirically, experimental results on synthetic data, classic benchmarks, and real-world applications show that the proposed task-based neuron design is not only feasible but also delivers competitive performance over other state-of-the-art models. | 翻訳日:2024-05-07 20:19:44 公開日:2024-05-03 |
# 人工意識のニューロモルフィック関連
Neuromorphic Correlates of Artificial Consciousness ( http://arxiv.org/abs/2405.02370v1 ) ライセンス: Link先を確認 | Anwaar Ulhaq, | (参考訳) 意識の神経相関(NCC)の概念は、特定の神経活動が意識経験と関連していることを示しているが、広く受け入れられている。
この受容は、実験的な研究、fMRIや脳波などの脳画像技術、神経科学における統合情報理論(IIT)や心の哲学などの理論的枠組みによる豊富な証拠に基づいている。
本稿では、ニューロモルフィックデザインとアーキテクチャを脳シミュレーションと組み合わせることで、人工意識の可能性を探る。
NCAC(Neuromorphic Correlates of Artificial Consciousness)を理論的枠組みとして提案する。
人工意識に関する議論は、意識の理解が不十分なため、いまだに論争の的となっているが、この研究はまぶしさを増し、批判を招きかねない。
それでも、この楽観的で先進的なアプローチは、Human Brain Projectの洞察、脳波やfMRIのような脳画像の進歩、そして量子やニューロモルフィックなデザインを含む最近のAIとコンピューティングの進歩に支えられている。
さらに,機械学習が人工意識の創造に果たす役割について概説する。
The concept of neural correlates of consciousness (NCC), which suggests that specific neural activities are linked to conscious experiences, has gained widespread acceptance. This acceptance is based on a wealth of evidence from experimental studies, brain imaging techniques such as fMRI and EEG, and theoretical frameworks like integrated information theory (IIT) within neuroscience and the philosophy of mind. This paper explores the potential for artificial consciousness by merging neuromorphic design and architecture with brain simulations. It proposes the Neuromorphic Correlates of Artificial Consciousness (NCAC) as a theoretical framework. While the debate on artificial consciousness remains contentious due to our incomplete grasp of consciousness, this work may raise eyebrows and invite criticism. Nevertheless, this optimistic and forward-thinking approach is fueled by insights from the Human Brain Project, advancements in brain imaging like EEG and fMRI, and recent strides in AI and computing, including quantum and neuromorphic designs. Additionally, this paper outlines how machine learning can play a role in crafting artificial consciousness, aiming to realise machine consciousness and awareness in the future. | 翻訳日:2024-05-07 20:19:44 公開日:2024-05-03 |
# 階層型イベントリコーダにインスパイアされたコルテックスのアーキテクチャ
Architecture of a Cortex Inspired Hierarchical Event Recaller ( http://arxiv.org/abs/2405.02371v1 ) ライセンス: Link先を確認 | Valentin Puente Varona, | (参考訳) 本稿では、複雑なパターンの教師なし連続文脈依存学習に焦点を当てた機械学習(ML)に対する新しいアプローチを提案する。
この提案は、部分的には哺乳類の脳の構造と機能に関する現在の知識に触発されているが、生物学的システムが(反対に)類似した方法で機能すると主張するわけではない。
小脳皮質と隣接する構造の諸性質から, 実用上の問題に適した提案が提案されている。
複雑な時間系列を同定し、予測できる合成構造を定義し、実験的に検証する。
このシステムは、以前に獲得した文脈知識に基づいてパターンを特定し学習するのを助けるために、予測に大きく依存する。
概念実証として, 提案システムでは, 事前知識を伴わずに, 人間の発話のような極めて複雑な時系列を学習し, 識別し, 予測できることが示されている。
生データから、コアアルゴリズムに適応することなく、システムはスペイン語の文の集合から特定の音声構造を識別することができる。
従来のMLとは異なり、この提案はトレーニングセットを減らして学習することができる。
このアイデアは、音声中の未知の語彙の検出など、制約された問題に適用できるが、視覚など、あるいは(生物学的周辺を欠くことによって)他のML技術に適合する、もっと多くの応用に応用することができる。
簡単な計算プリミティブを考慮すれば、潜在的なハードウェア実装は驚くほど粗いものになるだろう。
偶然にも、提案されたモデルは生物学的システムの機能的枠組みに適合するだけでなく、多くの解明的な認知現象を説明できるかもしれない。
This paper proposes a new approach to Machine Learning (ML) that focuses on unsupervised continuous context-dependent learning of complex patterns. Although the proposal is partly inspired by some of the current knowledge about the structural and functional properties of the mammalian brain, we do not claim that biological systems work in an analogous way (nor the opposite). Based on some properties of the cerebellar cortex and adjacent structures, a proposal suitable for practical problems is presented. A synthetic structure capable of identifying and predicting complex temporal series will be defined and experimentally tested. The system relies heavily on prediction to help identify and learn patterns based on previously acquired contextual knowledge. As a proof of concept, the proposed system is shown to be able to learn, identify and predict a remarkably complex temporal series such as human speech, with no prior knowledge. From raw data, without any adaptation in the core algorithm, the system is able to identify certain speech structures from a set of Spanish sentences. Unlike conventional ML, the proposal can learn with a reduced training set. Although the idea can be applied to a constrained problem, such as the detection of unknown vocabulary in a speech, it could be used in more applications, such as vision, or (by incorporating the missing biological periphery) fit into other ML techniques. Given the trivial computational primitives used, a potential hardware implementation will be remarkably frugal. Coincidentally, the proposed model not only conforms to a plausible functional framework for biological systems but may also explain many elusive cognitive phenomena. | 翻訳日:2024-05-07 20:19:44 公開日:2024-05-03 |
# Triadic-OCD: 確率ロバスト性、最適性、収束性を備えた非同期オンライン変更検出
Triadic-OCD: Asynchronous Online Change Detection with Provable Robustness, Optimality, and Convergence ( http://arxiv.org/abs/2405.02372v1 ) ライセンス: Link先を確認 | Yancheng Huang, Kai Yang, Zelin Zhu, Leian Chen, | (参考訳) オンライン変更検出(OCD)の主な目標は、データストリームの変更を迅速に識別することだ。
OCD問題は、スマートグリッドにおけるセキュリティ検出や通信ネットワークにおける侵入検出など、さまざまな分野における幅広い応用を見出す。
先行研究は通常、データストリームに関連付けられたパラメータの正確な知識を仮定する。
それでもこの推定は,推定エラーやシステム更新などの要因によって,現実的なシナリオでは不可能であることがしばしば証明される。
本稿では,証明可能な堅牢性,証明可能な最適性,保証された収束性を備えた3進OCDフレームワークの開発を初めて試みる。
さらに、提案アルゴリズムは、完全に非同期な分散方式で実現でき、単一のサーバにデータを送信する必要がなくなる。
この非同期メカニズムは、従来の同期アルゴリズムが直面するストラグラーの問題を軽減することもできる。
次に、トライadic-OCDの非漸近収束特性を分析し、その反復複雑性を導出し、$\epsilon$-Optimal点を達成する。
最後に,提案手法の有効性を解明するための広範囲な実験を行った。
The primary goal of online change detection (OCD) is to promptly identify changes in the data stream. OCD problem find a wide variety of applications in diverse areas, e.g., security detection in smart grids and intrusion detection in communication networks. Prior research usually assumes precise knowledge of the parameters linked to the data stream. Nevertheless, this presumption often proves unattainable in practical scenarios due to factors such as estimation errors, system updates, etc. This paper aims to take the first attempt to develop a triadic-OCD framework with certifiable robustness, provable optimality, and guaranteed convergence. In addition, the proposed triadic-OCD algorithm can be realized in a fully asynchronous distributed manner, easing the necessity of transmitting the data to a single server. This asynchronous mechanism also could mitigate the straggler issue that faced by traditional synchronous algorithm. We then analyze the non-asymptotic convergence property of triadic-OCD and derive its iteration complexity to achieve an $\epsilon$-optimal point. Finally, extensive experiments have been conducted to elucidate the effectiveness of the proposed method. | 翻訳日:2024-05-07 20:19:44 公開日:2024-05-03 |
# 長期制約を考慮したオンラインネットワークリソース割り当てのための指数重み付きアルゴリズム
Exponentially Weighted Algorithm for Online Network Resource Allocation with Long-Term Constraints ( http://arxiv.org/abs/2405.02373v1 ) ライセンス: Link先を確認 | Ahmed Sid-Ali, Ioannis Lambadaris, Yiqiang Q. Zhao, Gennady Shaikhet, Amirhossein Asgharnia, | (参考訳) 本稿では,特定の予算条件下でのブロッキングコストを維持しつつ,予約コストを最小限に抑えることを目的とした,ジョブ転送を含む通信ネットワークにおける最適資源予約問題について検討する。
この問題に対処するために,長期制約を含むランダム化指数重み付け法に基づく新しいアルゴリズムを提案する。
次に、関連する後悔と累積制約違反の上限を設定することで、アルゴリズムの性能を解析する。
最後に,アルゴリズムの性能と強化学習の性能を比較し,アルゴリズムがそれを上回ることを示す数値実験を示す。
This paper studies an online optimal resource reservation problem in communication networks with job transfers where the goal is to minimize the reservation cost while maintaining the blocking cost under a certain budget limit. To tackle this problem, we propose a novel algorithm based on a randomized exponentially weighted method that encompasses long-term constraints. We then analyze the performance of our algorithm by establishing an upper bound for the associated regret and the cumulative constraint violations. Finally, we present numerical experiments where we compare the performance of our algorithm with those of reinforcement learning where we show that our algorithm surpasses it. | 翻訳日:2024-05-07 20:19:44 公開日:2024-05-03 |
# 残基および原子グラフ上のeGNNと言語モデル情報を組み合わせた複数置換によるタンパク質結合親和性予測:eGRAL
Protein binding affinity prediction under multiple substitutions applying eGNNs on Residue and Atomic graphs combined with Language model information: eGRAL ( http://arxiv.org/abs/2405.02374v1 ) ライセンス: Link先を確認 | Arturo Fiorellini-Bernardis, Sebastien Boyer, Christoph Brunken, Bakary Diallo, Karim Beguir, Nicolas Lopez-Carranza, Oliver Bent, | (参考訳) タンパク質とタンパク質の相互作用(PPI)は、多くの生物学的プロセスにおいて重要な役割を果たす。
置換変異の下での結合親和性変化を予測する手法の開発は、生物学的システムのモデリングと再設計に不可欠である。
ディープラーニングは、シリコン内予測と生体内観測のギャップを埋めることのできる強力なツールとして、ますます認識されている。
この貢献により、タンパク質複合体における複数のアミノ酸置換物からの結合親和性変化を予測するために設計された、新しいSE(3)同変グラフニューラルネットワークeGNNアーキテクチャであるeGRALを提案する。
eGralは、タンパク質の大規模言語モデルから抽出された特徴のおかげで、残基、原子スケール、進化スケールを利用する。
構造情報を用いた大規模アフィニティアッセイの可用性の限界に対処するため,約50万個のデータポイントからなるシミュレーションデータセットを作成した。
私たちのモデルは、このデータセットで事前トレーニングされ、実験データで微調整され、テストされます。
Protein-protein interactions (PPIs) play a crucial role in numerous biological processes. Developing methods that predict binding affinity changes under substitution mutations is fundamental for modelling and re-engineering biological systems. Deep learning is increasingly recognized as a powerful tool capable of bridging the gap between in-silico predictions and in-vitro observations. With this contribution, we propose eGRAL, a novel SE(3) equivariant graph neural network (eGNN) architecture designed for predicting binding affinity changes from multiple amino acid substitutions in protein complexes. eGRAL leverages residue, atomic and evolutionary scales, thanks to features extracted from protein large language models. To address the limited availability of large-scale affinity assays with structural information, we generate a simulated dataset comprising approximately 500,000 data points. Our model is pre-trained on this dataset, then fine-tuned and tested on experimental data. | 翻訳日:2024-05-07 20:10:00 公開日:2024-05-03 |
# スパース・テセリンマシン:アクティブリテラルを用いたスパース表現
The Sparse Tsetlin Machine: Sparse Representation with Active Literals ( http://arxiv.org/abs/2405.02375v1 ) ライセンス: Link先を確認 | Sebastian Østby, Tobias M. Brambo, Sondre Glimsdal, | (参考訳) 本稿では、スパースデータを効率的に処理する新しいTsetlin Machine(TM)であるSparse Tsetlin Machine(STM)を紹介する。
伝統的に、TMは、NLPアプリケーションやその他の単語のバッグベースの表現でよく見られるような、空間性のようなデータ特性を考慮していない。
その結果、TMは、かなりの数のゼロ値を初期化し、保存し、処理し、結果として過剰なメモリ使用量と計算時間をもたらす。
スパースTMを作成する試みは、主に、どのリテラルがTMトレーニングに十分であるかを識別できないため、主に失敗に終わっている。
Active Literals (AL)を導入することで、STMは現在のデータ表現に積極的に貢献するリテラルにのみ焦点を絞ることができる。
This paper introduces the Sparse Tsetlin Machine (STM), a novel Tsetlin Machine (TM) that processes sparse data efficiently. Traditionally, the TM does not consider data characteristics such as sparsity, commonly seen in NLP applications and other bag-of-word-based representations. Consequently, a TM must initialize, store, and process a significant number of zero values, resulting in excessive memory usage and computational time. Previous attempts at creating a sparse TM have predominantly been unsuccessful, primarily due to their inability to identify which literals are sufficient for TM training. By introducing Active Literals (AL), the STM can focus exclusively on literals that actively contribute to the current data representation, significantly decreasing memory footprint and computational time while demonstrating competitive classification performance. | 翻訳日:2024-05-07 20:10:00 公開日:2024-05-03 |
# ダイヤモンド量子センサーを用いた生きたラットの非侵襲心磁図
Non-invasive magnetocardiography of living rat based on diamond quantum sensor ( http://arxiv.org/abs/2405.02376v1 ) ライセンス: Link先を確認 | Ziyun Yu, Yijin Xie, Guodong Jin, Yunbin Zhu, Qi Zhang, Fazhan Shi, Fang-yan Wan, Hongmei Luo, Ai-hui Tang, Xing Rong, | (参考訳) 磁気心電図(MCG)は、心臓血管疾患を診断するための感度が高く正確な方法として登場し、従来の技術よりも多くの診断情報を提供している。
しかし、大型化や低温化要求といった従来のMCGシステムのセンサーの限界は、この技術の広範な応用と深い理解を妨げている。
本研究では,ダイヤモンド中の負電荷窒素空洞(NV)中心をベースとした高感度室温MCGシステムを提案する。
R波の約20pT振幅を特徴とする生きたラットの磁気心臓信号は、この革新的な固体スピンセンサを用いて非侵襲的な測定によって捕捉される。
極めて弱い生体磁気信号を検出するために,磁束濃度などの感度向上技術を用いる。
これらの手法により、9$\text{pT}\cdot \text{Hz}^{-1/2}$と5$\text{mm}$のセンサスケールを同時に達成できる。
細胞および分子レベルでのNV中心のセンシングスケールを生物のマクロレベルの生物に拡張することにより、臨床環境における固体量子センシング技術の将来を開拓した。
Magnetocardiography (MCG) has emerged as a sensitive and precise method to diagnose cardiovascular diseases, providing more diagnostic information than traditional technology. However, the sensor limitations of conventional MCG systems, such as large size and cryogenic requirement, have hindered the widespread application and in-depth understanding of this technology. In this study, we present a high-sensitivity, room-temperature MCG system based on the negatively charged Nitrogen-Vacancy (NV) centers in diamond. The magnetic cardiac signal of a living rat, characterized by an approximately 20 pT amplitude in the R-wave, is successfully captured through non-invasive measurement using this innovative solid-state spin sensor. To detect these extremely weak biomagnetic signals, we utilize sensitivity-enhancing techniques such as magnetic flux concentration. These approaches have enabled us to simultaneously achieve a magnetometry sensitivity of 9 $\text{pT}\cdot \text{Hz}^{-1/2}$ and a sensor scale of 5 $\text{mm}$. By extending the sensing scale of the NV centers from cellular and molecular level to macroscopic level of living creatures, we have opened the future of solid-state quantum sensing technologies in clinical environments. | 翻訳日:2024-05-07 20:10:00 公開日:2024-05-03 |
# ノードへの分散学習のロバストさとデータ破壊
Robustness of Decentralised Learning to Nodes and Data Disruption ( http://arxiv.org/abs/2405.02377v1 ) ライセンス: Link先を確認 | Luigi Palmieri, Chiara Boldrini, Lorenzo Valerio, Andrea Passarella, Marco Conti, János Kertész, | (参考訳) AI研究の活況の中では、分散学習が勢いを増している。
分散学習により、個々のノードは、生成したデータをローカルに保持し、コラボレーティブリファインメントのインタラクティブなプロセスを通じて、ローカルデータから抽出された知識を共有することができる。
このパラダイムは、プライバシや主権上の理由からデータがローカルノードを離れることができないシナリオや、推論が必要な場所にモデルを近接させるリアルタイム制約をサポートする。
分散学習の分散的性質は、中央集権学習に関する重要な新しい研究課題を示唆している。
その中でも、本稿ではロバストネスの問題に焦点をあてる。
具体的には,ノードの破壊が集団学習プロセスに与える影響について検討する。
ノードの特定のパーセンテージがネットワークから消えると仮定すると、我々は特徴付けられる異なるケースに焦点を当てる。
(i)ノード間のデータの分布の異なるもの
二 協調学習作業の開始に関して、混乱が発生したときの異なる時間。
これらの構成により、ネットワーク接続ノードの特性と、その破壊または欠如前に総合的に取得された知識の持続性、およびデータの可用性と破壊後の影響の間の非自明な相互作用を示すことができる。
その結果,分散学習プロセスはネットワーク破壊に対して極めて堅牢であることがわかった。
ネットワーク内のどこかで最小限のデータが利用可能である限り、学習プロセスは破壊から回復し、かなりの分類精度を達成することができる。
これは、ディスラプション後の接続性によって明らかに異なるが、完全に孤立したノードでさえ、ディスラプション前に得られた重要な知識を保持することができることを示す。
In the vibrant landscape of AI research, decentralised learning is gaining momentum. Decentralised learning allows individual nodes to keep data locally where they are generated and to share knowledge extracted from local data among themselves through an interactive process of collaborative refinement. This paradigm supports scenarios where data cannot leave local nodes due to privacy or sovereignty reasons or real-time constraints imposing proximity of models to locations where inference has to be carried out. The distributed nature of decentralised learning implies significant new research challenges with respect to centralised learning. Among them, in this paper, we focus on robustness issues. Specifically, we study the effect of nodes' disruption on the collective learning process. Assuming a given percentage of "central" nodes disappear from the network, we focus on different cases, characterised by (i) different distributions of data across nodes and (ii) different times when disruption occurs with respect to the start of the collaborative learning task. Through these configurations, we are able to show the non-trivial interplay between the properties of the network connecting nodes, the persistence of knowledge acquired collectively before disruption or lack thereof, and the effect of data availability pre- and post-disruption. Our results show that decentralised learning processes are remarkably robust to network disruption. As long as even minimum amounts of data remain available somewhere in the network, the learning process is able to recover from disruptions and achieve significant classification accuracy. This clearly varies depending on the remaining connectivity after disruption, but we show that even nodes that remain completely isolated can retain significant knowledge acquired before the disruption. | 翻訳日:2024-05-07 20:10:00 公開日:2024-05-03 |
# スピン-$\tfrac{1}{2}$系のスカラー場との相関による創発重力
Emergent gravity from the correlation of spin-$\tfrac{1}{2}$ systems coupled with a scalar field ( http://arxiv.org/abs/2405.02380v1 ) ライセンス: Link先を確認 | Quentin Ansel, | (参考訳) 本稿では、量子スピン-$\tfrac{1}{2}$粒子のアンサンブルに類似した系に由来する創発重力のいくつかのアイデアを紹介する。
物理的に関係のある理論を導出するために、このモデルは、曲線化された時空におけるスカラー場を定量化することによって構成される。
量子化は系の古典的な離散化に基づいているが、ループ量子重力や因果三角法のような有名なアプローチとは対照的に、モンテカルロに基づくアプローチは時空多様体の単純近似の代わりに用いられる。
これにより、格子の選択に関する概念上の問題を避けることができる。
さらに、点間の測地的長さによって与えられる空間の幾何学的構造を、2つのスピン系間の相関作用素の平均値に容易にエンコードすることができる。
数値的な調査では、アプローチの関連性、古典的および量子的状態という2つの状態の存在が示されている。
後者は、点の密度が与えられた閾値に達すると得られる。
最後に、古典的モデルを完全な量子モデルから復元するマルチスケール解析が与えられる。
古典的極限の各ステップは数値計算で示され、古典的極限に対する非常に良い収束と理論の計算効率を示している。
This paper introduces several ideas of emergent gravity, which come from a system similar to an ensemble of quantum spin-$\tfrac{1}{2}$ particles. To derive a physically relevant theory, the model is constructed by quantizing a scalar field in curved space-time. The quantization is based on a classical discretization of the system, but contrary to famous approaches, like loop quantum gravity or causal triangulation, a Monte-Carlo based approach is used instead of a simplicial approximation of the space-time manifold. This avoids conceptual issues related to the choice of the lattice. Moreover, this allows us to easily encode the geometric structures of space, given by the geodesic length between points, into the mean value of a correlation operator between two spin-like systems. Numerical investigations show the relevance of the approach, and the presence of two regimes: a classical and a quantum regime. The latter is obtained when the density of points reaches a given threshold. Finally, a multi-scale analysis is given, where the classical model is recovered from the full quantum one. Each step of the classical limit is illustrated with numerical computations, showing the very good convergence towards the classical limit and the computational efficiency of the theory. | 翻訳日:2024-05-07 20:10:00 公開日:2024-05-03 |
# 衛生マップの正当性チェック(動画)
A Fresh Look at Sanity Checks for Saliency Maps ( http://arxiv.org/abs/2405.02383v1 ) ライセンス: Link先を確認 | Anna Hedström, Leander Weber, Sebastian Lapuschkin, Marina Höhne, | (参考訳) モデルパラメータランダム化テスト(MPRT)は、基本的な評価基準により、eXplainable Artificial Intelligence(XAI)コミュニティで高い評価を受けている。
しかし、近年の研究では、MPRTの実証的な解釈に関して、いくつかの方法論的な懸念が提起されている。
そこで本研究では,Smooth MPRTとEfficient MPRTの2つの改良点を提案する。
前者はサンプリングによる評価結果に対するノイズの影響を低減し、後者は完全モデルランダム化後の説明複雑性の増加を通じて、テストを再解釈することにより、バイアス付き類似度測定の必要性を回避する。
実験の結果,これらの変更により計量信頼性が向上し,説明手法の信頼性向上が図られた。
The Model Parameter Randomisation Test (MPRT) is highly recognised in the eXplainable Artificial Intelligence (XAI) community due to its fundamental evaluative criterion: explanations should be sensitive to the parameters of the model they seek to explain. However, recent studies have raised several methodological concerns for the empirical interpretation of MPRT. In response, we propose two modifications to the original test: Smooth MPRT and Efficient MPRT. The former reduces the impact of noise on evaluation outcomes via sampling, while the latter avoids the need for biased similarity measurements by re-interpreting the test through the increase in explanation complexity after full model randomisation. Our experiments show that these modifications enhance the metric reliability, facilitating a more trustworthy deployment of explanation methods. | 翻訳日:2024-05-07 20:10:00 公開日:2024-05-03 |
# CogDPM:認知予測符号化による拡散確率モデル
CogDPM: Diffusion Probabilistic Models via Cognitive Predictive Coding ( http://arxiv.org/abs/2405.02384v1 ) ライセンス: Link先を確認 | Kaiyuan Chen, Xingzhuo Guo, Yu Zhang, Jianmin Wang, Mingsheng Long, | (参考訳) 予測符号化(英: Predictive Coding、PC)は、人間の脳が視覚世界の時空間予測を通じて認知を処理することを示唆する認知科学の理論的枠組みである。
既存の研究では、PC理論に基づく時空間予測ニューラルネットワークを開発し、その2つのコアメカニズムをエミュレートしている。
しかし,これらのモデルでは,実世界の予測作業における予測スキルの向上は示さず,PC理論の精密重み付け機構を無視する。
精度重み付け機構は、脳がより低い精度の信号により多くの注意を払っていると仮定し、人間の脳の認知能力に寄与する。
この研究は、拡散確率モデルとPC理論の関連性を示す認知拡散確率モデル(CogDPM)を導入している。
CogDPMは拡散モデルの階層的サンプリング能力に基づく精度推定法と拡散モデル固有の性質から推定される精度重み付きガイダンスを備える。
精度重みがデータ予測可能性を効果的に推定できることを実験的に示す。
我々は,Universal Kindomの降水量とERA表面風速データセットを用いて,実世界の予測タスクにCogDPMを適用した。
以上の結果から,CogDPMは既存のドメイン固有運用モデルと一般的な深部予測モデルの両方より優れた性能を示すことが示された。
Predictive Coding (PC) is a theoretical framework in cognitive science suggesting that the human brain processes cognition through spatiotemporal prediction of the visual world. Existing studies have developed spatiotemporal prediction neural networks based on the PC theory, emulating its two core mechanisms: Correcting predictions from residuals and hierarchical learning. However, these models do not show the enhancement of prediction skills on real-world forecasting tasks and ignore the Precision Weighting mechanism of PC theory. The precision weighting mechanism posits that the brain allocates more attention to signals with lower precision, contributing to the cognitive ability of human brains. This work introduces the Cognitive Diffusion Probabilistic Models (CogDPM), which demonstrate the connection between diffusion probabilistic models and PC theory. CogDPM features a precision estimation method based on the hierarchical sampling capabilities of diffusion models and weight the guidance with precision weights estimated by the inherent property of diffusion models. We experimentally show that the precision weights effectively estimate the data predictability. We apply CogDPM to real-world prediction tasks using the United Kindom precipitation and ERA surface wind datasets. Our results demonstrate that CogDPM outperforms both existing domain-specific operational models and general deep prediction models by providing more proficient forecasting. | 翻訳日:2024-05-07 20:10:00 公開日:2024-05-03 |
# 遅延関連バックプロパゲーションを用いた効率的な深層学習
Efficient Deep Learning with Decorrelated Backpropagation ( http://arxiv.org/abs/2405.02385v1 ) ライセンス: Link先を確認 | Sander Dalm, Joshua Offergeld, Nasir Ahmad, Marcel van Gerven, | (参考訳) バックプロパゲーションアルゴリズムは、ディープニューラルネットワーク(DNN)をトレーニングするための支配的かつ最も成功した方法である。
同時に、大規模にDNNを訓練することは、計算コストが非常に高く、従って炭素フットプリントが高い。
収束する証拠は、入力のデコレーションがディープラーニングを加速させる可能性があることを示唆している。
しかし、これまでのところ、これは大規模なDNNのトレーニング効率を大幅に向上させるには至っていない。
これは主に、高速で安定したネットワーク全体のデコレーションを強制することによるものである。
ここでは、デコラートなバックプロパゲーションを用いた非常に深いニューラルネットワークのより効率的なトレーニングが実現可能であることを示す。
この目的を達成するために、最小の計算オーバーヘッドを用いてネットワーク全体の入力デコレーションを誘導する新しいアルゴリズムを用いた。
このアルゴリズムと注意深い最適化を組み合わせることで、18層ディープ残差ネットワークのトレーニングにおいて、バックプロパゲーションに比べて2倍以上のスピードアップと高いテスト精度が得られる。
これは、デコレーションが大規模な効率的なディープラーニングにエキサイティングな可能性をもたらすことを示している。
The backpropagation algorithm remains the dominant and most successful method for training deep neural networks (DNNs). At the same time, training DNNs at scale comes at a significant computational cost and therefore a high carbon footprint. Converging evidence suggests that input decorrelation may speed up deep learning. However, to date, this has not yet translated into substantial improvements in training efficiency in large-scale DNNs. This is mainly caused by the challenge of enforcing fast and stable network-wide decorrelation. Here, we show for the first time that much more efficient training of very deep neural networks using decorrelated backpropagation is feasible. To achieve this goal we made use of a novel algorithm which induces network-wide input decorrelation using minimal computational overhead. By combining this algorithm with careful optimizations, we obtain a more than two-fold speed-up and higher test accuracy compared to backpropagation when training a 18-layer deep residual network. This demonstrates that decorrelation provides exciting prospects for efficient deep learning at scale. | 翻訳日:2024-05-07 20:10:00 公開日:2024-05-03 |
# Rip-NeRF:Ripmap-Encoded Platonic Solidsを用いたアンチエイリアス放射場
Rip-NeRF: Anti-aliasing Radiance Fields with Ripmap-Encoded Platonic Solids ( http://arxiv.org/abs/2405.02386v1 ) ライセンス: Link先を確認 | Junchen Liu, Wenbo Hu, Zhuo Yang, Jianteng Chen, Guoliang Wang, Xiaoxue Chen, Yantong Cai, Huan-ang Gao, Hao Zhao, | (参考訳) ニューラル・ラジアンス・フィールド(NeRF)の大幅な進歩にもかかわらず、このレンダリングは、コーンキャスティング法によって誘導される異方性領域を効果的かつ効率的に特徴付けるための根本的な課題であるため、それでもエイリアスやぼやけたアーティファクトに悩まされる可能性がある。
本稿では,Ripmap-Encoded Platonic Solid表現を導入し,3次元異方性領域を高精度かつ効率的に再現し,高忠実なアンチエイリアスレンダリングを実現する。
私たちのアプローチの中心は,Platonic Solid ProjectionとRipmapのエンコーディングという,2つの重要なコンポーネントです。
プラトン固体射影(英: Platonic Solid Projection)は、あるプラトン固体の非平行面上に3D空間を分解し、異方性3D領域を区別可能な特徴を持つ平面に射影することができる。
一方、プラトン固体の各面は、学習可能な特徴格子を異方的に前フィルタリングして構築したRipmap符号化により符号化され、異方性領域サンプリングにより、投影された異方性領域を精度良く、かつ効率的に破壊することができる。
十分に確立された合成データセットと、新たに取得された実世界のデータセットに関する大規模な実験は、我々のRip-NeRFが最先端のレンダリング品質、特に反復的な構造やテクスチャの細部に優れており、比較的速いトレーニング時間を維持していることを示している。
Despite significant advancements in Neural Radiance Fields (NeRFs), the renderings may still suffer from aliasing and blurring artifacts, since it remains a fundamental challenge to effectively and efficiently characterize anisotropic areas induced by the cone-casting procedure. This paper introduces a Ripmap-Encoded Platonic Solid representation to precisely and efficiently featurize 3D anisotropic areas, achieving high-fidelity anti-aliasing renderings. Central to our approach are two key components: Platonic Solid Projection and Ripmap encoding. The Platonic Solid Projection factorizes the 3D space onto the unparalleled faces of a certain Platonic solid, such that the anisotropic 3D areas can be projected onto planes with distinguishable characterization. Meanwhile, each face of the Platonic solid is encoded by the Ripmap encoding, which is constructed by anisotropically pre-filtering a learnable feature grid, to enable featurzing the projected anisotropic areas both precisely and efficiently by the anisotropic area-sampling. Extensive experiments on both well-established synthetic datasets and a newly captured real-world dataset demonstrate that our Rip-NeRF attains state-of-the-art rendering quality, particularly excelling in the fine details of repetitive structures and textures, while maintaining relatively swift training times. | 翻訳日:2024-05-07 20:10:00 公開日:2024-05-03 |
# 例外点をもつ非エルミートジョセフソン接合の熱力学
Thermodynamics of Non-Hermitian Josephson junctions with exceptional points ( http://arxiv.org/abs/2405.02387v1 ) ライセンス: Link先を確認 | D. Michel Pino, Yigal Meir, Ramón Aguado, | (参考訳) 本稿では, 貯留層に結合した場合の複素スペクトルにおける例外点 (EP) 分岐を生じる任意の一般ボゴリューボフ・デ・ジェネシスモデルの熱力学, 自由エネルギー, エントロピーの解析的定式化について述べる。
我々は、直近の主張にもかかわらず、超電流がEPに発散しない非エルミート的ジョセフソン接合に、我々の形式主義を適用する。
反対にエントロピーは1/2\log 2$の普遍的なジャンプを示し、EPにおけるマヨラナゼロモード(MZM)の出現と関連付けることができる。
この手法により、マヨラナエントロピーステップが現れる温度の正確な解析的境界を得ることができる。
我々は、超電流とエントロピーをリンクする一般化されたマックスウェル関係を提案し、これは、eg量子ドットに基づく最小のキタエフ鎖におけるそのようなステップの直接的な実験的観察への道を開くことができる。
We present an analytical formulation of the thermodynamics, free energy and entropy, of any generic Bogoliubov de Genes model which develops exceptional point (EP) bifurcations in its complex spectrum when coupled to reservoirs. We apply our formalism to a non-Hermitian Josephson junction where, despite recent claims, the supercurrent does not exhibit any divergences at EPs. The entropy, on the contrary, shows a universal jump of $1/2\log 2$ which can be linked to the emergence of Majorana zero modes (MZMs) at EPs. Our method allows us to obtain precise analytical boundaries for the temperatures at which such Majorana entropy steps appear. We propose a generalized Maxwell relation linking supercurrents and entropy which could pave the way towards the direct experimental observation of such steps in e.g. quantum-dot based minimal Kitaev chains. | 翻訳日:2024-05-07 20:10:00 公開日:2024-05-03 |
# 光のブラックホールはない
No black holes from light ( http://arxiv.org/abs/2405.02389v1 ) ライセンス: Link先を確認 | Álvaro Álvarez-Domínguez, Luis J. Garay, Eduardo Martín-Martínez, José Polo-Gómez, | (参考訳) 我々は、事象の地平線の形成を早めるのに十分な光を集中することは不可能であることを示す。
光の自己相互作用(真空分極など)から生じる散逸的な量子効果は、あらゆる現実的なシナリオにおいてブラックホールを生み出すようなエネルギーの有意義な蓄積を防ぐのに十分である、と我々は論じる。
We show that it is not possible to concentrate enough light to precipitate the formation of an event horizon. We argue that the dissipative quantum effects coming from the self-interaction of light (such as vacuum polarization) are enough to prevent any meaningful buildup of energy that could create a black hole in any realistic scenario. | 翻訳日:2024-05-07 20:10:00 公開日:2024-05-03 |
# 2次元における混合状態位相順序の分類に向けて
Towards a classification of mixed-state topological orders in two dimensions ( http://arxiv.org/abs/2405.02390v1 ) ライセンス: Link先を確認 | Tyler Ellison, Meng Cheng, | (参考訳) 物質のトポロジカル相の分類と特性は、環境から十分に孤立しているギャップ付きハミルトニアンの基底状態に対してよく理解されている。
しかし、環境との相互作用によるデコヒーレンス(英語版)は不可避であり、混合状態の文脈におけるトポロジカル秩序の研究を動機付けている。
ここでは、混合状態位相順序を2次元の空間次元で分類するために、それらの(創発的な)一般化対称性を考慮する。
我々は、それらの1-形式対称性と関連するエノン理論は、準局所量子チャネルによる双方向接続の下で部分的な分類をもたらすと論じる。
これにより、本質的に混合された混合状態位相秩序、すなわち基底状態を持たない混合状態位相秩序を確立することができる。
我々は、トポロジカルサブシステムコードに基づく幅広い例を提供し、$G$グレードの文字列ネットモデルをデコヒーリングし、対称性に富んだトポロジカルオーダーを"古典的にゲージング"する。
主な例の1つは、デフォーカスノイズの影響下でのIsing文字列ネットモデルである。
局所的に区別できない状態の結果として生じる空間を研究し、特定のコヒーレント空間内のモジュラー変換を計算する。
この例に基づいて、準局所量子チャネルの任意の理論に対する2つの可能な効果を同定する: 1) 任意の粒子は不整合的に増殖し、したがって増殖した電子の交換子に還元されるか、または(2) システムは「古典的に測定される」ことができ、したがって、任意の粒子の対称性と透明なボソンによる拡張をもたらす。
これら2つのメカニズムを考えると、混合状態位相順序は前モジュラー・エノン理論、すなわち、ブレイディング関係が退化するかもしれない理論によって分類される。
The classification and characterization of topological phases of matter is well understood for ground states of gapped Hamiltonians that are well isolated from the environment. However, decoherence due to interactions with the environment is inevitable -- thus motivating the investigation of topological orders in the context of mixed states. Here, we take a step toward classifying mixed-state topological orders in two spatial dimensions by considering their (emergent) generalized symmetries. We argue that their 1-form symmetries and the associated anyon theories lead to a partial classification under two-way connectivity by quasi-local quantum channels. This allows us to establish mixed-state topological orders that are intrinsically mixed, i.e., that have no ground state counterpart. We provide a wide range of examples based on topological subsystem codes, decohering $G$-graded string-net models, and "classically gauging" symmetry-enriched topological orders. One of our main examples is an Ising string-net model under the influence of dephasing noise. We study the resulting space of locally-indistinguishable states and compute the modular transformations within a particular coherent space. Based on our examples, we identify two possible effects of quasi-local quantum channels on anyon theories: (1) anyons can be incoherently proliferated -- thus reducing to a commutant of the proliferated anyons, or (2) the system can be "classically gauged", resulting in the symmetrization of anyons and an extension by transparent bosons. Given these two mechanisms, we conjecture that mixed-state topological orders are classified by premodular anyon theories, i.e., those for which the braiding relations may be degenerate. | 翻訳日:2024-05-07 20:10:00 公開日:2024-05-03 |
# オープンシステムにおける自発的ストロング対称性の破断--浄化の観点から
Spontaneous Strong Symmetry Breaking in Open Systems: Purification Perspective ( http://arxiv.org/abs/2405.02402v1 ) ライセンス: Link先を確認 | Pablo Sala, Sarang Gopalakrishnan, Masaki Oshikawa, Yizhi You, | (参考訳) 混合状態のアンサンブルにおけるデコヒーレンス効果の景観を浄化の観点から検討する。
このデコヒーレンス過程を、拡張ヒルベルト空間内の純状態のユニタリ操作にマッピングすることにより、局所量子チャネルによって引き起こされる混合状態における自発強弱対称性の破れ(SSSB)を分析する。
我々の重要な発見は、混合状態の長距離秩序とSSSBを、精製状態の対称性保護トポロジカル秩序(SPT)にマッピングできることである。
特に、精製SPT状態における測定誘起長距離秩序は、Renyi-2相関器を特徴とするSSSBによる混合状態における長距離秩序を反映する。
SSSBの尺度として機能する混合状態における忠実度相関器と、SPTの順序を表す精製における奇妙な相関器との対応を確立する。
この浄化の観点はさらに拡張され、本質的な混合状態トポロジー秩序とデコヒーレント対称性保護トポロジー相を探索する。
We explore the landscape of the decoherence effect in mixed-state ensembles from a purification perspective. We analyze the spontaneous strong-to-weak symmetry breaking (SSSB) in mixed states triggered by local quantum channels by mapping this decoherence process to unitary operations in the purified state within an extended Hilbert space. Our key finding is that mixed-state long-range order and SSSB can be mapped into symmetry-protected topological (SPT) order in the purified state. Notably, the measurement-induced long-range order in the purified SPT state mirrors the long-range order in the mixed state due to SSSB, characterized by the Renyi-2 correlator. We establish a correspondence between fidelity correlators in the mixed state, which serve as a measure of SSSB, and strange correlators in the purification, which signify the SPT order. This purification perspective is further extended to explore intrinsic mixed-state topological order and decoherent symmetry-protected topological phases. | 翻訳日:2024-05-07 20:10:00 公開日:2024-05-03 |
# 量子ネットワークにおける絡み合い分布のための非同期プロトコルの解析
Analysis of Asynchronous Protocols for Entanglement Distribution in Quantum Networks ( http://arxiv.org/abs/2405.02406v1 ) ライセンス: Link先を確認 | Shahrooz Pouryousef, Hassan Shapourian, Don Towsley, | (参考訳) 量子ネットワークにおける絡み合いの分布は、典型的には完全同期や集中制御のような理想化された仮定の下でアプローチされるが、古典的な通信はしばしば無視される。
しかし、これらの仮定は大規模ネットワークでは実用的でないことを証明している。
本稿では,リンクレベルで独立に絡み合いを生成する並列スキームと,一方から他方への絡み合いを反復的に拡張する逐次スキームという,最小限の非同期プロトコルを探索し,実用的な視点を示す。
我々の分析では、一様でないリピータ間隔と古典的な通信を取り入れ、量子メモリのデコヒーレンスを考慮に入れている。
我々は、絡み込みビットレート、エンドツーエンドの忠実度、および絡み合いに基づく量子鍵分布のための秘密鍵レートなどの指標を用いて、ネットワーク性能を評価する。
並列方式と並列方式を比較検討した結果, 逐次方式の優位性が示唆された。
さらに,メモリアイドル時間長の試行を廃止し,低品質な絡み合いリンクを効果的に排除することで,性能向上のためのカットオフ戦略を提案する。
最後に,SURFnetの実世界のトポロジに本手法を適用し,その性能をメモリコヒーレンス時間関数として報告する。
The distribution of entanglement in quantum networks is typically approached under idealized assumptions such as perfect synchronization and centralized control, while classical communication is often neglected. However, these assumptions prove impractical in large-scale networks. In this paper, we present a pragmatic perspective by exploring two minimal asynchronous protocols: a parallel scheme generating entanglement independently at the link level, and a sequential scheme extending entanglement iteratively from one party to the other. Our analysis incorporates non-uniform repeater spacings and classical communications and accounts for quantum memory decoherence. We evaluate network performance using metrics such as entanglement bit rate, end-to-end fidelity, and secret key rate for entanglement-based quantum key distribution. Our findings suggest the sequential scheme's superiority due to comparable performance with the parallel scheme, coupled with simpler implementation. Additionally, we propose a cutoff strategy to improve performance by discarding attempts with prolonged memory idle time, effectively eliminating low-quality entanglement links. Finally, we apply our methods to the real-world topology of SURFnet and report the performance as a function of memory coherence time. | 翻訳日:2024-05-07 20:10:00 公開日:2024-05-03 |
# レプトン-中性子相互作用とS波低エネルギーパラメータ
Lepton-neutron interaction and S-wave low energy parameters ( http://arxiv.org/abs/2405.02407v1 ) ライセンス: Link先を確認 | Jaume Carbonell, Tobias Frederico, | (参考訳) 構成空間におけるレプトン中性子ポテンシャルを得る。
これは中性子電荷と磁気密度で集積されたクーロン+超微細相互作用に基づく。
中性子電磁形状因子の異なるパラメトリクスを比較する。
作用素形式は、中心、スピンスピン、テンソル、スピン軌道項で与えられる。
最低偏波状態のポテンシャルを示す。
我々は、S波に対するレプトン-中性子レプトン(ln$)の低エネルギーパラメータを計算し、高角運動量状態に対するゼロエネルギー断面積を推定し、スピン軌道ポテンシャルによる部分波和のばらつきを指摘した。
A lepton-neutron potential in configuration space is obtained. It is based on the Coulomb plus hyperfine interaction Hamiltonian integrated over the neutron charge and magnetic densities. Different parametrisations of the neutron electromagnetic form factors are compared. It is given in the operator form with a central, spin-spin, tensor and spin-orbit terms. The potentials for lowest partial waves states are presented. We compute the lepton-neutron lepton ($ln$) low-energy parameters for the S-waves, estimate the zero-energy cross sections for higher angular momentum states, and point out a possible divergence in the partial wave summation due to the spin-orbit potential. | 翻訳日:2024-05-07 20:10:00 公開日:2024-05-03 |
# 社会的に認識する言語技術
The Call for Socially Aware Language Technologies ( http://arxiv.org/abs/2405.02411v1 ) ライセンス: Link先を確認 | Diyi Yang, Dirk Hovy, David Jurgens, Barbara Plank, | (参考訳) 言語技術は特に大規模言語モデル(LLM)の導入によって大きな進歩を遂げた。
機械翻訳や感情分析といった従来のタスクでは、これらのモデルは人間に近いレベルで機能する。
しかし、これらの進歩は、モデルがバイアス、評価、リスクなど、伝統的に苦労してきた様々な問題を悪化させる可能性がある。
本論では,NLPが活動する社会的環境の要因,文脈,含意に対する意識の欠如という,これらの問題の多くは共通のコアを共有していると論じる。
NLPはフォーマルな言語的側面の解決に優れていますが、言語アプリケーションに必要な社会的認識をすべてのユーザのためにすべての状況で機能させるのに限定的な進歩を遂げています。
NLPモデルに社会的認識を統合することで、アプリケーションはより自然で、役に立つ、そして安全になり、新たな可能性を開くだろう。
したがって、NLPが社会意識を発達させる上で大きな課題が残っており、この分野の新しい時代の始まりに過ぎません。
Language technologies have made enormous progress, especially with the introduction of large language models (LLMs). On traditional tasks such as machine translation and sentiment analysis, these models perform at near-human level. These advances can, however, exacerbate a variety of issues that models have traditionally struggled with, such as bias, evaluation, and risks. In this position paper, we argue that many of these issues share a common core: a lack of awareness of the factors, context, and implications of the social environment in which NLP operates, which we call social awareness. While NLP is getting better at solving the formal linguistic aspects, limited progress has been made in adding the social awareness required for language applications to work in all situations for all users. Integrating social awareness into NLP models will make applications more natural, helpful, and safe, and will open up new possibilities. Thus we argue that substantial challenges remain for NLP to develop social awareness and that we are just at the beginning of a new era for the field. | 翻訳日:2024-05-07 20:00:04 公開日:2024-05-03 |
# 英語プレミアリーグプレーヤのパフォーマンス予測のためのディープラーニングとトランスファー学習アーキテクチャ
Deep Learning and Transfer Learning Architectures for English Premier League Player Performance Forecasting ( http://arxiv.org/abs/2405.02412v1 ) ライセンス: Link先を確認 | Daniel Frees, Pranav Ravella, Charlie Zhang, | (参考訳) 本稿では,畳み込みニューラルネットワーク(CNN)を用いて,イングランド・プレミアリーグ(EPL)選手のパフォーマンスを予測するための基盤モデルを提案する。
本研究は,過去数週間のFPLデータに基づいて,今後のFPL得点を予測するタスクにおいて,リッジ回帰,LightGBM,CNNを評価した。
当社のベースラインモデルであるリッジ回帰とLightGBMは,近年のFPLポイント,影響,創造性,脅威,プレイタイムがEPLプレイヤのパフォーマンスを予測する上で重要であることを強調した。
我々の最適CNNアーキテクチャは、少ない入力機能でより良い性能を達成し、文学において最も優れたEPLプレーヤー性能予測モデルよりも優れています。
最適なCNNアーキテクチャはまた、プレイヤーランキングと非常に強力なSpearman相関を実現し、FPL人工知能(AI)エージェントの開発を支援し、FPLマネージャに分析を提供するための強力な意味を示している。
また,ガーディアンが収集したサッカーニュースデータの転送学習実験を行い,今後の選手の得点を予測するのと同じ作業を行うが,自然言語ニューステキストでは強い予測信号は特定できず,CNNやベースラインモデルと比較して性能が劣る。
全体として、我々のCNNベースのアプローチは、EPLプレーヤーのパフォーマンス予測の大幅な進歩を示し、スポーツの賭けの勝敗や最先端のFPLAIエージェントの開発など、他のEPL予測タスクへの移行学習の基礎を定めている。
This paper presents a groundbreaking model for forecasting English Premier League (EPL) player performance using convolutional neural networks (CNNs). We evaluate Ridge regression, LightGBM and CNNs on the task of predicting upcoming player FPL score based on historical FPL data over the previous weeks. Our baseline models, Ridge regression and LightGBM, achieve solid performance and emphasize the importance of recent FPL points, influence, creativity, threat, and playtime in predicting EPL player performances. Our optimal CNN architecture achieves better performance with fewer input features and even outperforms the best previous EPL player performance forecasting models in the literature. The optimal CNN architecture also achieves very strong Spearman correlation with player rankings, indicating its strong implications for supporting the development of FPL artificial intelligence (AI) Agents and providing analysis for FPL managers. We additionally perform transfer learning experiments on soccer news data collected from The Guardian, for the same task of predicting upcoming player score, but do not identify a strong predictive signal in natural language news texts, achieving worse performance compared to both the CNN and baseline models. Overall, our CNN-based approach marks a significant advancement in EPL player performance forecasting and lays the foundation for transfer learning to other EPL prediction tasks such as win-loss odds for sports betting and the development of cutting-edge FPL AI Agents. | 翻訳日:2024-05-07 20:00:04 公開日:2024-05-03 |
# 確率回路の人間適応学習のための統一フレームワーク
A Unified Framework for Human-Allied Learning of Probabilistic Circuits ( http://arxiv.org/abs/2405.02413v1 ) ライセンス: Link先を確認 | Athresh Karanam, Saurabh Mathur, Sahil Sidheekh, Sriraam Natarajan, | (参考訳) 確率回路(PC)は、複雑な確率分布を表現および学習するための効率的なフレームワークとして登場した。
それでも、PCに関する既存の研究機関は、主にデータ駆動型パラメータ学習に焦点を合わせ、知識集約学習の可能性を無視している。
このギャップを埋めるため、我々は多様なドメイン知識をPCのパラメータ学習プロセスに体系的に統合できる新しい統合フレームワークを提案する。
いくつかのベンチマークと実世界のデータセットの実験により、提案するフレームワークは、純粋にデータ駆動学習アプローチと比較して、ドメイン知識を効果的かつ効率的に活用し、優れたパフォーマンスを達成することができることが示された。
Probabilistic Circuits (PCs) have emerged as an efficient framework for representing and learning complex probability distributions. Nevertheless, the existing body of research on PCs predominantly concentrates on data-driven parameter learning, often neglecting the potential of knowledge-intensive learning, a particular issue in data-scarce/knowledge-rich domains such as healthcare. To bridge this gap, we propose a novel unified framework that can systematically integrate diverse domain knowledge into the parameter learning process of PCs. Experiments on several benchmarks as well as real world datasets show that our proposed framework can both effectively and efficiently leverage domain knowledge to achieve superior performance compared to purely data-driven learning approaches. | 翻訳日:2024-05-07 20:00:04 公開日:2024-05-03 |
# ベル状態測定によるグラフ状態の変換
Transforming graph states via Bell state measurements ( http://arxiv.org/abs/2405.02414v1 ) ライセンス: Link先を確認 | Matthias C. Löbl, Love A. Pettersson, Stefano Paesani, Anders S. Sørensen, | (参考訳) グラフ状態は、特にフォトニックシステムに有望な測定ベースの量子コンピューティングの鍵となるリソースである。
融合は確率的ベル状態の測定であり、2つの量子ビットのパリティ作用素のペアを測定する。
核融合は異なるグラフ状態を接続・アンタングルするために使用することができ、測定ベースおよび関連する核融合ベースの量子コンピューティングのための強力なリソースとなる。
ベル状態測定にはいくつかの異なるグラフ構造とタイプがあるが、関連するグラフ変換はいくつかの特定のケースでのみ分析されている。
ここでは,そのようなグラフ変換規則の完全なセットを提供し,グラフノードの局所近傍のVenn図に基づく直感的な可視化を行う。
これらのグラフ変換は、全ての融合型に対して、5つの異なる種類の融合成功ケースが存在することを示すものである。
最後に、導出したグラフ変換規則の応用例を示し、グラフコードの構築や融合ネットワークのシミュレーションに使用できることを示す。
Graph states are key resources for measurement-based quantum computing which is particularly promising for photonic systems. Fusions are probabilistic Bell state measurements, measuring pairs of parity operators of two qubits. Fusions can be used to connect/entangle different graph states making them a powerful resource for measurement-based and the related fusion-based quantum computing. There are several different graph structures and types of Bell state measurements, yet the associated graph transformations have only been analyzed for a few specific cases. Here, we provide a full set of such graph transformation rules and we give an intuitive visualization based on Venn diagrams of local neighborhoods of graph nodes. We derive these graph transformations for all fusion types showing that there are five different types of fusion success cases. Finally, we give application examples of the derived graph transformation rules and show that they can be used for constructing graph codes or simulating fusion networks. | 翻訳日:2024-05-07 20:00:04 公開日:2024-05-03 |
# 知識ニューロン論は知識とどのような関係があるのか?
What does the Knowledge Neuron Thesis Have to do with Knowledge? ( http://arxiv.org/abs/2405.02421v1 ) ライセンス: Link先を確認 | Jingcheng Niu, Andrew Liu, Zining Zhu, Gerald Penn, | (参考訳) 我々は,大言語モデルが学習コーパスから事実を想起する能力の基盤となるメカニズムの解釈として,知識ニューロン(KN)論を再評価する。
この論文は、「知識」がネットワークに格納されていることを示すキーバリューメモリに似た方法で、事実をトレーニングコーパスからMLPウェイトを通じてリコールすることを示唆している。
さらに、MLPモジュールを変更することで、言語モデルの事実情報の生成を制御することができる。
KN理論の妥当性は、KNにインスパイアされたモデル編集手法の成功によって証明されている(Dai et al , 2022; Meng et al , 2022)。
この論文は、せいぜい、過度に単純化されている。
我々は,同じモデル編集手法を用いて特定の言語現象の表現を編集できることを発見できただけでなく,より包括的な評価により,KN論文が事実表現の過程を適切に説明できないことが判明した。
MLP重みは構文的にも意味的にも解釈可能な複雑なパターンを格納していると主張することは可能だが、これらのパターンは「知識」を構成するものではない。
知識表現プロセスのより包括的な理解を得るためには、MDPの重みを超えて、最近のモデルの複雑な層構造と注意機構を探さなければならない。
We reassess the Knowledge Neuron (KN) Thesis: an interpretation of the mechanism underlying the ability of large language models to recall facts from a training corpus. This nascent thesis proposes that facts are recalled from the training corpus through the MLP weights in a manner resembling key-value memory, implying in effect that "knowledge" is stored in the network. Furthermore, by modifying the MLP modules, one can control the language model's generation of factual information. The plausibility of the KN thesis has been demonstrated by the success of KN-inspired model editing methods (Dai et al., 2022; Meng et al., 2022). We find that this thesis is, at best, an oversimplification. Not only have we found that we can edit the expression of certain linguistic phenomena using the same model editing methods but, through a more comprehensive evaluation, we have found that the KN thesis does not adequately explain the process of factual expression. While it is possible to argue that the MLP weights store complex patterns that are interpretable both syntactically and semantically, these patterns do not constitute "knowledge." To gain a more comprehensive understanding of the knowledge representation process, we must look beyond the MLP weights and explore recent models' complex layer structures and attention mechanisms. | 翻訳日:2024-05-07 20:00:04 公開日:2024-05-03 |
# 深層強化学習による自我中心視からのロボットサッカーの学習
Learning Robot Soccer from Egocentric Vision with Deep Reinforcement Learning ( http://arxiv.org/abs/2405.02425v1 ) ライセンス: Link先を確認 | Dhruva Tirumala, Markus Wulfmeier, Ben Moran, Sandy Huang, Jan Humplik, Guy Lever, Tuomas Haarnoja, Leonard Hasenclever, Arunkumar Byravan, Nathan Batchelor, Neil Sreendra, Kushal Patel, Marlon Gwira, Francesco Nori, Martin Riedmiller, Nicolas Heess, | (参考訳) 我々は,マルチエージェント深部強化学習(RL)を,完全オンボード計算によるエンドツーエンドのロボットサッカーポリシーのトレーニングに適用し,エゴセントリックなRGBビジョンを用いたセンシングを行った。
この設定は、アクティブな知覚、アジャイルのフルボディコントロール、動的で部分的に観測可能なマルチエージェントドメインでの長期計画など、現実世界のロボット工学における多くの課題を反映している。
我々は、大規模なシミュレーションベースのデータ生成を頼りに、低コストのセンサーを用いて物理的ロボットにうまく移動できる自我中心の視覚から複雑な振る舞いを得る。
適切なビジュアルリアリズムを実現するために,我々は,剛体物理と複数のニューラルレージアンス場(NeRF)による学習的,リアルなレンダリングを組み合わせたシミュレーションを行った。
教師ベースのマルチエージェントRLとクロス実験データ再利用を組み合わせることで,高度なサッカー戦略の発見を可能にする。
我々は,知覚に依存しないサッカーの試合を最適化する場合,物体追跡や球探索などの活動知覚行動を分析する。
エージェントは、特権付き、地道な状態にアクセス可能なポリシーとして、同等のパフォーマンスとアジリティのレベルを示します。
本研究は,マルチエージェントロボットサッカーにおけるエンド・ツー・エンドトレーニングの最初の実演であり,実環境に展開可能な原画素の観察をジョイントレベル・アクションにマッピングする。
ゲームプレイと分析のビデオは、我々のウェブサイト https://sites.google.com/view/vision-soccer で見ることができる。
We apply multi-agent deep reinforcement learning (RL) to train end-to-end robot soccer policies with fully onboard computation and sensing via egocentric RGB vision. This setting reflects many challenges of real-world robotics, including active perception, agile full-body control, and long-horizon planning in a dynamic, partially-observable, multi-agent domain. We rely on large-scale, simulation-based data generation to obtain complex behaviors from egocentric vision which can be successfully transferred to physical robots using low-cost sensors. To achieve adequate visual realism, our simulation combines rigid-body physics with learned, realistic rendering via multiple Neural Radiance Fields (NeRFs). We combine teacher-based multi-agent RL and cross-experiment data reuse to enable the discovery of sophisticated soccer strategies. We analyze active-perception behaviors including object tracking and ball seeking that emerge when simply optimizing perception-agnostic soccer play. The agents display equivalent levels of performance and agility as policies with access to privileged, ground-truth state. To our knowledge, this paper constitutes a first demonstration of end-to-end training for multi-agent robot soccer, mapping raw pixel observations to joint-level actions, that can be deployed in the real world. Videos of the game-play and analyses can be seen on our website https://sites.google.com/view/vision-soccer . | 翻訳日:2024-05-07 20:00:04 公開日:2024-05-03 |
# 二層フェルミおよびボースナノ系の熱力学について
On the thermodynamics of two-level Fermi and Bose nanosystems ( http://arxiv.org/abs/2405.02427v1 ) ライセンス: Link先を確認 | Yu. M. Poluektov, A. A. Soroka, | (参考訳) 相互作用しないフェルミオンとボソンの系における離散状態上の量子分布関数に対して、小さな粒子数を含む任意の方程式が得られる。
2段階のシステムの場合については、詳細が検討されている。
2レベルフェルミ系およびボース系におけるエントロピー,熱容量および圧力の温度依存性を,多種多元性度で計算した。
Equations are obtained for the quantum distribution functions over discrete states in systems of non-interacting fermions and bosons with an arbitrary, including small, number of particles. The case of systems with two levels is considered in detail. The temperature dependences of entropy, heat capacities and pressure in two-level Fermi and Bose systems are calculated for various multiplicities of degeneracy of levels. | 翻訳日:2024-05-07 20:00:04 公開日:2024-05-03 |
# CALRec: シークエンシャルレコメンデーションのためのジェネレーティブLLMのコントラストアライメント
CALRec: Contrastive Alignment of Generative LLMs For Sequential Recommendation ( http://arxiv.org/abs/2405.02429v1 ) ライセンス: Link先を確認 | Yaoyiran Li, Xiang Zhai, Moustafa Alzantot, Keyi Yu, Ivan Vulić, Anna Korhonen, Mohamed Hammad, | (参考訳) 行列因数分解法のような従来の推薦システムは、アイテムとユーザの好みの両方を表現するために、共有の密接な埋め込み空間を学習することに依存している。
RNNやGRUといったシーケンスモデル、最近ではトランスフォーマーもシーケンシャルレコメンデーションのタスクに優れています。
このタスクは、ユーザが望むであろう次の項目を予測するために、ユーザの過去のインタラクションに存在するシーケンシャルな構造を理解する必要がある。
様々なタスクにおける大規模言語モデル(LLM)の成功に基づいて、研究者は近年、大量のテキストコーパスで事前訓練されたLLMを用いて、シーケンシャルなレコメンデーションを行っている。
LLMを逐次レコメンデーションに使用するには、ユーザインタラクションの歴史と次の項目のモデルの予測の両方をテキスト形式で表現する。
2つの対照的な損失と言語モデリング損失を混合した2段階のLCMファインタニングフレームワークであるCALRecを提案する。
我々のモデルは、多くの最先端ベースライン(Recall@1では+37%、NDCG@10では+24%)を著しく上回り、系統的アブレーション研究により明らかとなった。
(i)微調整の両段階が重要であり、組み合わせると性能が向上し、
2) 実験対象領域では, コントラストアライメントが有効である。
Traditional recommender systems such as matrix factorization methods rely on learning a shared dense embedding space to represent both items and user preferences. Sequence models such as RNN, GRUs, and, recently, Transformers have also excelled in the task of sequential recommendation. This task requires understanding the sequential structure present in users' historical interactions to predict the next item they may like. Building upon the success of Large Language Models (LLMs) in a variety of tasks, researchers have recently explored using LLMs that are pretrained on vast corpora of text for sequential recommendation. To use LLMs in sequential recommendations, both the history of user interactions and the model's prediction of the next item are expressed in text form. We propose CALRec, a two-stage LLM finetuning framework that finetunes a pretrained LLM in a two-tower fashion using a mixture of two contrastive losses and a language modeling loss: the LLM is first finetuned on a data mixture from multiple domains followed by another round of target domain finetuning. Our model significantly outperforms many state-of-the-art baselines (+37% in Recall@1 and +24% in NDCG@10) and systematic ablation studies reveal that (i) both stages of finetuning are crucial, and, when combined, we achieve improved performance, and (ii) contrastive alignment is effective among the target domains explored in our experiments. | 翻訳日:2024-05-07 20:00:04 公開日:2024-05-03 |
# Delphi: 分散Oracleの効率的な非同期近似契約
Delphi: Efficient Asynchronous Approximate Agreement for Distributed Oracles ( http://arxiv.org/abs/2405.02431v1 ) ライセンス: Link先を確認 | Akhil Bandarupalli, Adithya Bhat, Saurabh Bagchi, Aniket Kate, Chen-Da Liu-Zhang, Michael K. Reiter, | (参考訳) コンセンサスプロトコルは、分散(ブロックチェーン)オーラクルからフォールトトレラントなサイバー物理システムまで、様々な新興アプリケーションにおいて不可欠である。
センサ/光子ノードが共通のソースを測定する場合、凸妥当性として知られる正しい入力の凸範囲内で出力を維持することは必須である。
現在の非同期凸合意プロトコルは、ランダム化、実質的な計算オーバーヘッドの増大、あるいは近似した合意手法を用いており、$n$ノードシステムに対する高い$\mathcal{\tilde{O}}(n^3)$通信をもたらす。
本稿では,$\mathcal{\tilde{O}}(n^2)$通信と最小計算オーバーヘッドを持つ決定論的プロトコルであるDelphiを紹介する。
デルフィは、正直な入力は無視可能な確率を除いて有界であると仮定し、文学からの合意原始と、新しい重み付け平均化技術を統合する。
実験結果はDelphiの優れた性能を強調し、最先端のプロトコルに比べてレイテンシが大幅に低いことを示している。
具体的には、$n=160$-nodeシステムの場合、DelphiはCPSとAWS環境でそれぞれ8倍と3倍のレイテンシ改善を実現している。
Agreement protocols are crucial in various emerging applications, spanning from distributed (blockchains) oracles to fault-tolerant cyber-physical systems. In scenarios where sensor/oracle nodes measure a common source, maintaining output within the convex range of correct inputs, known as convex validity, is imperative. Present asynchronous convex agreement protocols employ either randomization, incurring substantial computation overhead, or approximate agreement techniques, leading to high $\mathcal{\tilde{O}}(n^3)$ communication for an $n$-node system. This paper introduces Delphi, a deterministic protocol with $\mathcal{\tilde{O}}(n^2)$ communication and minimal computation overhead. Delphi assumes that honest inputs are bounded, except with negligible probability, and integrates agreement primitives from literature with a novel weighted averaging technique. Experimental results highlight Delphi's superior performance, showcasing a significantly lower latency compared to state-of-the-art protocols. Specifically, for an $n=160$-node system, Delphi achieves an 8x and 3x improvement in latency within CPS and AWS environments, respectively. | 翻訳日:2024-05-07 20:00:04 公開日:2024-05-03 |
# 準等角量子チャネルと近似$C^*$-代数
Almost-idempotent quantum channels and approximate $C^*$-algebras ( http://arxiv.org/abs/2405.02434v1 ) ライセンス: Link先を確認 | Alexei Kitaev, | (参考訳) Phi$ をヒルベルト空間上の作用素の空間上のユニタリ完全正の写像とする。
例えば、$\|\Phi^2-\Phi\|_{\mathrm{cb}} \le\eta$ と仮定し、$\varepsilon=O(\eta)$ に対して対応する "$\varepsilon$-$C^*$ algebra" を構成する。
このタイプの構造は、単位の$C^*$代数の公理を持つが、結合性や他の公理と乗法と単位は最大$\varepsilon$を持つ。
さらに、任意の有限次元 $\varepsilon$-$C^*$環が真$C^*$環に同型であることを示す。
これらの境界は普遍的、すなわち、次元や他のパラメータに依存しない。
Let $\Phi$ be a unital completely positive map on the space of operators on some Hilbert space. We assume that $\Phi$ is almost idempotent, namely, $\|\Phi^2-\Phi\|_{\mathrm{cb}} \le\eta$, and construct a corresponding "$\varepsilon$-$C^*$ algebra" for $\varepsilon=O(\eta)$. This type of structure has the axioms of a unital $C^*$ algebra but the associativity and other axioms involving the multiplication and the unit hold up to $\varepsilon$. We further prove that any finite-dimensional $\varepsilon$-$C^*$ algebra is $O(\varepsilon)$-isomorphic to a genuine $C^*$ algebra. These bounds are universal, i.e.\ do not depend on the dimensionality or other parameters. | 翻訳日:2024-05-07 20:00:04 公開日:2024-05-03 |
# ギャップを埋める:産業と学界のAIによる脆弱性管理に関する研究
Bridging the Gap: A Study of AI-based Vulnerability Management between Industry and Academia ( http://arxiv.org/abs/2405.02435v1 ) ライセンス: Link先を確認 | Shengye Wan, Joshua Saxe, Craig Gomes, Sahana Chennabasappa, Avilash Rath, Kun Sun, Xinda Wang, | (参考訳) 人工知能(AI)の最近の研究進歩は、自動化されたソフトウェア脆弱性管理に有望な結果をもたらした。
AIベースのモデルは、従来の静的解析ツールを大幅に上回っていると報告されており、セキュリティエンジニアにとってかなりの負荷軽減が図られている。
しかし、業界は、AIベースのテクニックをセキュリティ脆弱性管理ワークフローに統合することに非常に慎重で選択的だ。
これらの理由を解明するために,著者の広範な産業経験と鋭い観察に根ざした議論に基づく研究を行い,この分野における研究と実践のギャップを明らかにする。
すなわち、スケーラビリティと優先順位付けの複雑な要件、カスタマイズの柔軟性の制限、そして不明確な財政的影響である。
一方、研究は、広範囲の現実世界のセキュリティデータと専門知識の欠如によって大きな影響を受けている。
我々は、産業の期待をよりよく理解し、AIベースのセキュリティ脆弱性研究の実践的ユーザビリティを改善し、産業とアカデミックの相乗効果を推し進めるための将来の方向性を提案しました。
Recent research advances in Artificial Intelligence (AI) have yielded promising results for automated software vulnerability management. AI-based models are reported to greatly outperform traditional static analysis tools, indicating a substantial workload relief for security engineers. However, the industry remains very cautious and selective about integrating AI-based techniques into their security vulnerability management workflow. To understand the reasons, we conducted a discussion-based study, anchored in the authors' extensive industrial experience and keen observations, to uncover the gap between research and practice in this field. We empirically identified three main barriers preventing the industry from adopting academic models, namely, complicated requirements of scalability and prioritization, limited customization flexibility, and unclear financial implications. Meanwhile, research works are significantly impacted by the lack of extensive real-world security data and expertise. We proposed a set of future directions to help better understand industry expectations, improve the practical usability of AI-based security vulnerability research, and drive a synergistic relationship between industry and academia. | 翻訳日:2024-05-07 20:00:04 公開日:2024-05-03 |
# FastLloyd: 異なるプライバシを備えたフェデレーション、正確性、セキュア、Tunable $k$-Meansクラスタリング
FastLloyd: Federated, Accurate, Secure, and Tunable $k$-Means Clustering with Differential Privacy ( http://arxiv.org/abs/2405.02437v1 ) ライセンス: Link先を確認 | Abdulrahman Diaa, Thomas Humphries, Florian Kerschbaum, | (参考訳) 本稿では,プライバシー保護のための$k$-meansクラスタリングの問題について検討する。
セキュアな計算を使った既存のフェデレートされたアプローチは、かなりのオーバーヘッドに悩まされ、出力のプライバシを提供しない。
同時に、差分秘密(DP)$k$-meansアルゴリズムは信頼できる中央キュレーターを仮定し、フェデレーションされた設定に拡張しない。
セキュアなDPソリューションとDPソリューションを組み合わせることによって,非現実的なオーバーヘッドを伴うプロトコルが実現される。
代わりに、我々の作業はDPとセキュアな計算コンポーネントの両方に拡張を提供し、その結果、以前の作業よりも速く、よりプライベートで、より正確な設計になる。
計算DPモデルを利用することで、最先端関連の作業に対して4桁の高速化を実現する軽量でセキュアな集約ベースのアプローチを設計する。
さらに,DPの中央モデルにおける最先端の実用性を維持するだけでなく,制約クラスタリング技術を活用して,実用性をさらに向上する。
We study the problem of privacy-preserving $k$-means clustering in the horizontally federated setting. Existing federated approaches using secure computation, suffer from substantial overheads and do not offer output privacy. At the same time, differentially private (DP) $k$-means algorithms assume a trusted central curator and do not extend to federated settings. Naively combining the secure and DP solutions results in a protocol with impractical overhead. Instead, our work provides enhancements to both the DP and secure computation components, resulting in a design that is faster, more private, and more accurate than previous work. By utilizing the computational DP model, we design a lightweight, secure aggregation-based approach that achieves four orders of magnitude speed-up over state-of-the-art related work. Furthermore, we not only maintain the utility of the state-of-the-art in the central model of DP, but we improve the utility further by taking advantage of constrained clustering techniques. | 翻訳日:2024-05-07 20:00:04 公開日:2024-05-03 |
# 最小体積不確実性楕円体を学習する
Learning minimal volume uncertainty ellipsoids ( http://arxiv.org/abs/2405.02441v1 ) ライセンス: Link先を確認 | Itai Alon, David Arnon, Ami Wiesel, | (参考訳) パラメータ推定問題に対する不確実性領域の学習問題を考察する。
領域は、所定のカバレッジ確率の対象となる平均体積を最小化する楕円体である。
予想通り, 共同ガウスデータの仮定により, 最適楕円体が条件平均を中心に形成され, 条件共分散行列として形成されることを証明した。
より実践的な場合、適切なキャリブレーションを持つニューラルネットワークを用いて最適な楕円体を近似的に計算するための微分可能な最適化手法を提案する。
既存の手法と比較して、我々のネットワークは推論時間の少ないストレージと少ない計算を必要とするため、正確な楕円体が得られる。
4つの実世界のローカライゼーションデータセットでこれらの利点を実証する。
We consider the problem of learning uncertainty regions for parameter estimation problems. The regions are ellipsoids that minimize the average volumes subject to a prescribed coverage probability. As expected, under the assumption of jointly Gaussian data, we prove that the optimal ellipsoid is centered around the conditional mean and shaped as the conditional covariance matrix. In more practical cases, we propose a differentiable optimization approach for approximately computing the optimal ellipsoids using a neural network with proper calibration. Compared to existing methods, our network requires less storage and less computations in inference time, leading to accurate yet smaller ellipsoids. We demonstrate these advantages on four real-world localization datasets. | 翻訳日:2024-05-07 20:00:04 公開日:2024-05-03 |
# 品質重み付ベンディスコアとその多変量実験設計への応用
Quality-Weighted Vendi Scores And Their Application To Diverse Experimental Design ( http://arxiv.org/abs/2405.02449v1 ) ライセンス: Link先を確認 | Quan Nguyen, Adji Bousso Dieng, | (参考訳) 能動探索やベイズ最適化のような実験的な設計手法は、自然科学においてデータ収集や発見に広く用いられている。
しかし、既存の手法は探索空間の探索よりも搾取を優先する傾向にあり、それによって局所的な最適化に悩まされる。
この「崩壊」問題は、実験的な設計アルゴリズムが様々な高品質なデータを得るのを防ぐ。
本稿では、類似度に基づく多様性指標を解釈可能な家系であるVendiスコアを、品質を考慮して拡張する。
次に、これらの品質重み付けのVendiスコアを活用して、薬物発見、材料発見、強化学習など、さまざまな応用における実験的な設計問題に取り組む。
品質重み付けされたVendiスコアは、フレキシブルな品質と多様性のバランスをとる実験設計のためのポリシーを構築することができ、最終的にはリッチで多様なハイパフォーマンスなデータポイントを組み立てることができます。
提案アルゴリズムは, ベースラインに比べて有効発見数が70%-170%増加した。
Experimental design techniques such as active search and Bayesian optimization are widely used in the natural sciences for data collection and discovery. However, existing techniques tend to favor exploitation over exploration of the search space, which causes them to get stuck in local optima. This ``collapse" problem prevents experimental design algorithms from yielding diverse high-quality data. In this paper, we extend the Vendi scores -- a family of interpretable similarity-based diversity metrics -- to account for quality. We then leverage these quality-weighted Vendi scores to tackle experimental design problems across various applications, including drug discovery, materials discovery, and reinforcement learning. We found that quality-weighted Vendi scores allow us to construct policies for experimental design that flexibly balance quality and diversity, and ultimately assemble rich and diverse sets of high-performing data points. Our algorithms led to a 70%-170% increase in the number of effective discoveries compared to baselines. | 翻訳日:2024-05-07 20:00:04 公開日:2024-05-03 |
# 時間依存性アハロノフ-ボーム型トポロジーが双極子に及ぼす影響
Time-dependent Aharonov-Bohm type topological effects on dipoles ( http://arxiv.org/abs/2405.02451v1 ) ライセンス: Link先を確認 | H. O. Cildiroglu, | (参考訳) AB型効果の時間依存性特性の探索は、現代物理学とその実践的応用において重要な意味を持つ。
ここでは,AB型実験装置で生じる時間依存的トポロジカル効果について検討する。
まず, 時間変化電磁界源ソレノイド付近の閉軌道中を移動する磁気双極子, および時間変化電磁界源周辺の電気双極子に対する2+1次元のトポロジカル効果を近似なしで解析した。
最後に、統合的な視点から位相間の同一性と双対性を考慮することで、位相効果の特性について考察する。
Exploring the time-dependent characteristics of AB-type effects holds significant importance in contemporary physics and its practical applications. Here, we delve into the investigation of time-dependent topological effects emerging in AB-type experimental setups. We first analyze the topological effects on magnetic dipoles moving in closed trajectories around the time-varying magnetic field source solenoid, then on electrical dipoles around a time-varying electric field source in 2+1 dimensions without any approximation. Last, we discuss the characteristics of the topological effects by considering the identity and dualities between phases from an integrated perspective. | 翻訳日:2024-05-07 20:00:04 公開日:2024-05-03 |
# 量子フォトニクスのためのN-Way周波数ビームスプリッタ
N-Way Frequency Beamsplitter for Quantum Photonics ( http://arxiv.org/abs/2405.02453v1 ) ライセンス: Link先を確認 | Richard Oliver, Miri Blau, Chaitali Joshi, Xingchen Ji, Ricardo Gutierrez-Jauregui, Ana Asenjo-Garcia, Michal Lipson, Alexander L. Gaeta, | (参考訳) 光ネットワークは、低損失と光周波数モードを用いて多くの情報チャネルに拡張できるため、情報転送の先駆けとなるプラットフォームである。
このプラットフォームにおける光の量子的性質を完全に活用するために、複数のチャネル間の線形ビームスプリッター型相互作用を同時にオーケストレーションすることにより、高次元の重ね合わせを操作することが望まれる。
N-way Bragg-scattering four-wave mix によるN光周波数モードの同時全結合を実現する手法を提案する。
周波数自由度を利用することにより、付加モードを一定体積と損失の相互作用媒体に多重化することができ、余剰ノイズの発生を避けることができる。
この4波混合手法により、Nモードに対する周波数符号化2モード相互作用の理論を一般化し、3方向多重光子干渉を実証することにより、このスキームの量子的性質を実験的に検証する。
2つの入力光子は3つの周波数モードで共有され、2つの古典的(コヒーレントな状態)入力とは異なる表示干渉を示す。
これらの結果は、周波数領域における一般的なNモードシステムに対するフォトニック量子情報処理のスケーラビリティに対する我々のアプローチの可能性を示している。
Optical networks are the leading platform for the transfer of information due to their low loss and ability to scale to many information channels using optical frequency modes. To fully leverage the quantum properties of light in this platform, it is desired to manipulate higher-dimensional superpositions by orchestrating linear, beamsplitter-type interactions between several channels simultaneously. We propose a method of achieving simultaneous, all-to-all coupling between N optical frequency modes via N-way Bragg-scattering four-wave mixing. By exploiting the frequency degree of freedom, additional modes can be multiplexed in an interaction medium of fixed volume and loss, avoiding the introduction of excess noise. We generalize the theory of the frequency-encoded two-mode interaction to N modes under this four-wave mixing approach and experimentally verify the quantum nature of this scheme by demonstrating three-way multiphoton interference. The two input photons are shared among three frequency modes and display interference differing from that of two classical (coherent-state) inputs. These results show the potential of our approach for the scalability of photonic quantum information processing to general N-mode systems in the frequency domain. | 翻訳日:2024-05-07 19:50:15 公開日:2024-05-03 |
# 言語モデルにおける感性の意味は何か?
What is Sentiment Meant to Mean to Language Models? ( http://arxiv.org/abs/2405.02454v1 ) ライセンス: Link先を確認 | Michael Burnham, | (参考訳) 感性分析はテキスト分析において最も広く使われている手法の1つである。
近年のLarge Language Modelsの進歩により、これまで以上に正確でアクセスしやすくなり、研究者は普通の英語のプロンプトでテキストを分類できるようになった。
しかし「感覚」には、使用するドメインやツールによって様々な概念が伴う。
感情、意見、市場の動き、あるいは単に「良いバッド」の次元を表すために使われてきた。
感情によってドキュメントをラベル付けするよう促されたとき、言語モデルは正確に何をしているのか?
本稿では、まず、感情がさまざまな文脈でどのように定義されているかを概説し、感情的価値や意見などの複数の変数を無関係に包含する計測構造であることを示す。
次に、2つのデータセットにまたがって3つの言語モデルをテストする。
感情ラベルは、価値ラベルと最も強く相関していると思います。
さらに、よく定義されていない感情の概念を使うよりも、研究者がより正確に関心の次元を特定することで、分類が改善されることがわかりました。
私は、研究者に、実現可能な時に「感覚」を超えて、より正確な測定構造を使うよう促すことで締めくくります。
Sentiment analysis is one of the most widely used techniques in text analysis. Recent advancements with Large Language Models have made it more accurate and accessible than ever, allowing researchers to classify text with only a plain English prompt. However, "sentiment" entails a wide variety of concepts depending on the domain and tools used. It has been used to mean emotion, opinions, market movements, or simply a general ``good-bad'' dimension. This raises a question: What exactly are language models doing when prompted to label documents by sentiment? This paper first overviews how sentiment is defined across different contexts, highlighting that it is a confounded measurement construct in that it entails multiple variables, such as emotional valence and opinion, without disentangling them. I then test three language models across two data sets with prompts requesting sentiment, valence, and stance classification. I find that sentiment labels most strongly correlate with valence labels. I further find that classification improves when researchers more precisely specify their dimension of interest rather than using the less well-defined concept of sentiment. I conclude by encouraging researchers to move beyond "sentiment" when feasible and use a more precise measurement construct. | 翻訳日:2024-05-07 19:50:15 公開日:2024-05-03 |
# 制約付きマルチタスク強化学習のための自然政策グラディエントとアクタ批判手法
Natural Policy Gradient and Actor Critic Methods for Constrained Multi-Task Reinforcement Learning ( http://arxiv.org/abs/2405.02456v1 ) ライセンス: Link先を確認 | Sihan Zeng, Thinh T. Doan, Justin Romberg, | (参考訳) マルチタスク強化学習(Multi-task reinforcement learning, RL)は、複数のタスクを同時に効果的に解決する単一のポリシーを見つけることを目的としている。
本稿では,マルチタスクRLの制約付き定式化を行い,各タスクのパフォーマンスに制約が課せられるタスク間のポリシーの平均性能を最大化することを目的とする。
本研究では, 一つのサーバにすべてのタスクに関する情報がアクセス可能な集中型環境と, エージェントのネットワークがそれぞれひとつのタスクを与えられたり, ローカル情報を観察したりすることで, ローカル通信を用いてグローバルに制約された目的の解決に協力する分散化環境の両方において, この問題を解決することを検討する。
まず,この制約付き定式化の最適解に,厳密な勾配評価の下で確実に収束する原始双対アルゴリズムを提案する。
勾配が不明な場合には、状態、行動、報酬のオンラインサンプルを用いて最適なポリシーを求めるサンプルベースアクター批判アルゴリズムをさらに開発する。
最後に,線形関数近似設定に対するアルゴリズムの拡張について検討する。
Multi-task reinforcement learning (RL) aims to find a single policy that effectively solves multiple tasks at the same time. This paper presents a constrained formulation for multi-task RL where the goal is to maximize the average performance of the policy across tasks subject to bounds on the performance in each task. We consider solving this problem both in the centralized setting, where information for all tasks is accessible to a single server, and in the decentralized setting, where a network of agents, each given one task and observing local information, cooperate to find the solution of the globally constrained objective using local communication. We first propose a primal-dual algorithm that provably converges to the globally optimal solution of this constrained formulation under exact gradient evaluations. When the gradient is unknown, we further develop a sampled-based actor-critic algorithm that finds the optimal policy using online samples of state, action, and reward. Finally, we study the extension of the algorithm to the linear function approximation setting. | 翻訳日:2024-05-07 19:50:15 公開日:2024-05-03 |
# てんかん依存によるクエリ評価の制御
Controlled Query Evaluation through Epistemic Dependencies ( http://arxiv.org/abs/2405.02458v1 ) ライセンス: Link先を確認 | Gianluca Cima, Domenico Lembo, Lorenzo Marconi, Riccardo Rosati, Domenico Fabio Savo, | (参考訳) 本稿では、オントロジーやデータベース上での機密性保護クエリ応答の一形態である制御クエリ評価(CQE)において、データ保護ポリシーを表現するための疫学的依存関係の利用を提案する。
結果として得られたポリシー言語は、これまでのCQEの文献で提案されているものを大きく超え、非常にリッチで実践的なデータ保護ルールの形式を可能にする。
Description Logic DL-Lite_R でオントロジーを指定した場合に,このフレームワークの表現能力を示し,CQE のデータ複雑性について検討する。
興味深いことに、この問題は一般に難解であることを示す一方で、適切なクエリ書き換えアルゴリズムを提供することで、非循環性てんかん依存の場合のトラクタビリティを証明している。
後者の結果は、CQEに対するこの新しいアプローチの実装と実践への道を開くものである。
In this paper, we propose the use of epistemic dependencies to express data protection policies in Controlled Query Evaluation (CQE), which is a form of confidentiality-preserving query answering over ontologies and databases. The resulting policy language goes significantly beyond those proposed in the literature on CQE so far, allowing for very rich and practically interesting forms of data protection rules. We show the expressive abilities of our framework and study the data complexity of CQE for (unions of) conjunctive queries when ontologies are specified in the Description Logic DL-Lite_R. Interestingly, while we show that the problem is in general intractable, we prove tractability for the case of acyclic epistemic dependencies by providing a suitable query rewriting algorithm. The latter result paves the way towards the implementation and practical application of this new approach to CQE. | 翻訳日:2024-05-07 19:50:15 公開日:2024-05-03 |
# エンティティ型認識による知識グラフ拡張
Knowledge Graph Extension by Entity Type Recognition ( http://arxiv.org/abs/2405.02463v1 ) ライセンス: Link先を確認 | Daqian Shi, | (参考訳) 知識グラフはセマンティック・ネットワークの洗練された進歩と改良として登場し、その展開は現代の人工知能における重要な方法論の1つである。
知識グラフの構築は様々な技術を含む多面的プロセスであり、研究者はスクラッチから構築した既存の資源から知識を抽出することを目的としている。
しかし、多種多様性の問題により、異なる知識グラフにまたがる説明の多様性は、概念間のミスマッチを引き起こし、知識抽出の有効性に影響を及ぼす。
このPh.D.研究は、自動知識グラフ拡張、すなわち、1つ以上の候補知識グラフから概念を抽出して統合することにより参照知識グラフを適切に拡張することに焦点を当てている。
本稿では,エンティティ型認識に基づく知識グラフ拡張フレームワークを提案する。
このフレームワークは、異なる知識グラフ間でスキーマやエンティティを整列させることで、高品質な知識抽出を実現し、拡張の性能を向上させることを目的としている。
本稿では,3つの主要な貢献について述べる。
i)知識抽出を強化するため,機械学習とプロパティに基づく類似性を利用したエンティティ型認識手法を提案する。
(II)拡張知識グラフの品質を評価するための評価指標のセットを導入する。
(三)知識技術者に実質的に利益をもたらすための知識グラフ取得・管理・拡張のためのプラットフォームを開発する。
提案する拡張フレームワークの有効性と機能について,定量的実験とケーススタディを通じて総合的に検証した。
Knowledge graphs have emerged as a sophisticated advancement and refinement of semantic networks, and their deployment is one of the critical methodologies in contemporary artificial intelligence. The construction of knowledge graphs is a multifaceted process involving various techniques, where researchers aim to extract the knowledge from existing resources for the construction since building from scratch entails significant labor and time costs. However, due to the pervasive issue of heterogeneity, the description diversity across different knowledge graphs can lead to mismatches between concepts, thereby impacting the efficacy of knowledge extraction. This Ph.D. study focuses on automatic knowledge graph extension, i.e., properly extending the reference knowledge graph by extracting and integrating concepts from one or more candidate knowledge graphs. We propose a novel knowledge graph extension framework based on entity type recognition. The framework aims to achieve high-quality knowledge extraction by aligning the schemas and entities across different knowledge graphs, thereby enhancing the performance of the extension. This paper elucidates three major contributions: (i) we propose an entity type recognition method exploiting machine learning and property-based similarities to enhance knowledge extraction; (ii) we introduce a set of assessment metrics to validate the quality of the extended knowledge graphs; (iii) we develop a platform for knowledge graph acquisition, management, and extension to benefit knowledge engineers practically. Our evaluation comprehensively demonstrated the feasibility and effectiveness of the proposed extension framework and its functionalities through quantitative experiments and case studies. | 翻訳日:2024-05-07 19:50:15 公開日:2024-05-03 |
# ProFLingo: 大規模言語モデルのためのフィンガープリントに基づく著作権保護スキーム
ProFLingo: A Fingerprinting-based Copyright Protection Scheme for Large Language Models ( http://arxiv.org/abs/2405.02466v1 ) ライセンス: Link先を確認 | Heng Jin, Chaoyu Zhang, Shanghao Shi, Wenjing Lou, Y. Thomas Hou, | (参考訳) 近年,大規模言語モデル (LLM) が注目されている。
その「大きな」性質のため、スクラッチからLLMを訓練することは膨大な計算資源を消費する。
人工知能(AI)分野のいくつかの主要プレーヤーが独自のLLMをオープンソースにしているため、多くの個人研究者や小規模企業が、これらのオープンソースモデルに基づいて、はるかに低コストで派生LLMを構築できるようになっている。
しかし、この慣行は、ライセンス契約に従わない無許可の使用や再生の可能性を広げ、モデルの導出はモデルの振る舞いを変えることができ、モデルの所有権の決定を複雑にする。
LLMの現行の著作権保護スキームは、ホワイトボックスの設定のために設計されたか、または実際の設定での使用を制限するオリジナルのモデルに追加の修正を必要とする。
本稿では,LLMのブラックボックス指紋認証に基づく著作権保護方式であるProFLingoを提案する。
ProFLingoは、元のモデルの独特な決定境界特性を表すことができる逆例(AE)を生成し、ユニークな指紋を確立する。
提案手法は,疑似モデルにおけるこれらの逆例の有効性を検証し,元モデルから派生したものかどうかを判定する。
ProFLingoは非侵襲的なアプローチを提供しており、疑似モデルに関する知識もベースモデルやトレーニングプロセスの変更も必要としない。
我々の知る限り、本手法はLLMの著作権保護のための最初のブラックボックス指紋認証技術である。
私たちのソースコードと生成されたAEは、https://github.com/hengvt/ProFLingo_arXiv.comで利用可能です。
Large language models (LLMs) have attracted significant attention in recent years. Due to their "Large" nature, training LLMs from scratch consumes immense computational resources. Since several major players in the artificial intelligence (AI) field have open-sourced their original LLMs, an increasing number of individual researchers and smaller companies are able to build derivative LLMs based on these open-sourced models at much lower costs. However, this practice opens up possibilities for unauthorized use or reproduction that may not comply with licensing agreements, and deriving models can change the model's behavior, thus complicating the determination of model ownership. Current copyright protection schemes for LLMs are either designed for white-box settings or require additional modifications to the original model, which restricts their use in real-world settings. In this paper, we propose ProFLingo, a black-box fingerprinting-based copyright protection scheme for LLMs. ProFLingo generates adversarial examples (AEs) that can represent the unique decision boundary characteristics of an original model, thereby establishing unique fingerprints. Our scheme checks the effectiveness of these adversarial examples on a suspect model to determine whether it has been derived from the original model. ProFLingo offers a non-invasive approach, which neither requires knowledge of the suspect model nor modifications to the base model or its training process. To the best of our knowledge, our method represents the first black-box fingerprinting technique for copyright protection for LLMs. Our source code and generated AEs are available at: https://github.com/hengvt/ProFLingo_arXiv. | 翻訳日:2024-05-07 19:50:15 公開日:2024-05-03 |
# セマンティックスケーリング:大言語モデルを用いたベイズ的理想点推定
Semantic Scaling: Bayesian Ideal Point Estimates with Large Language Models ( http://arxiv.org/abs/2405.02472v1 ) ライセンス: Link先を確認 | Michael Burnham, | (参考訳) 本稿では,テキストから理想的な点推定法である「セマンティックスケーリング」を紹介する。
私は、大きな言語モデルを利用して、その表現された姿勢に基づいて文書を分類し、調査のようなデータを抽出します。
次に、これらのデータから対象をスケールするためにアイテム応答理論を使用します。
セマンティックスケーリングは、既存のテキストベースのスケーリング手法を大幅に改善し、研究者が測定するイデオロギー次元を明示的に定義することを可能にする。
これは、調査機器以外の柔軟性を実現するための最初のスケーリングアプローチであり、調査が困難な人口に対する新たな調査の道を開く。
さらに、長さの異なる文書と連携し、質量イデオロギーとエリートイデオロギーの両方の有効な見積もりを生成する。
政策選好とグループ内・グループ外の影響を区別できることを示す。
議会では、DW-NOMINATEの第一次元を捉えながら、建設上の妥当性の課題を解決する柔軟性を高める。
This paper introduces "Semantic Scaling," a novel method for ideal point estimation from text. I leverage large language models to classify documents based on their expressed stances and extract survey-like data. I then use item response theory to scale subjects from these data. Semantic Scaling significantly improves on existing text-based scaling methods, and allows researchers to explicitly define the ideological dimensions they measure. This represents the first scaling approach that allows such flexibility outside of survey instruments and opens new avenues of inquiry for populations difficult to survey. Additionally, it works with documents of varying length, and produces valid estimates of both mass and elite ideology. I demonstrate that the method can differentiate between policy preferences and in-group/out-group affect. Among the public, Semantic Scaling out-preforms Tweetscores according to human judgement; in Congress, it recaptures the first dimension DW-NOMINATE while allowing for greater flexibility in resolving construct validity challenges. | 翻訳日:2024-05-07 19:50:15 公開日:2024-05-03 |
# 非線型モデルに対する一般化直交化
Generalizing Orthogonalization for Models with Non-linearities ( http://arxiv.org/abs/2405.02475v1 ) ライセンス: Link先を確認 | David Rügamer, Chris Kolb, Tobias Weber, Lucas Kook, Thomas Nagler, | (参考訳) ブラックボックスアルゴリズムの複雑さは、バイアスの導入など、様々な問題を引き起こす可能性がある。
これらのバイアスは、アルゴリズムの応用における即時的なリスクを示す。
例えば、ニューラルネットワークが患者のX線スキャンからのみ人種情報を抽出できることは、医療専門家の能力を超えた課題である。
もしこの事実が医療専門家に知られていなければ、このアルゴリズムに基づく自動意思決定は、人種情報に基づく(純粋に)治療の処方につながる可能性がある。
現在の手法では、そのような情報に関してニューラルネットワークの「直交化」や「正規化」が可能であるが、既存のアプローチは線形モデルに基礎を置いている。
本稿では,ReLUアクティベーションなどの非線形性に対する補正を導入することで,談話の進行を推し進める。
我々のアプローチはスカラーおよびテンソル値の予測も含み、ニューラルネットワークアーキテクチャへの統合を容易にする。
広範な実験を通じて、一般化線形モデルにおけるセンシティブなデータの保護、メタデータのための畳み込みニューラルネットワークの正規化、および望ましくない属性に対する既存の埋め込みの修正における我々の方法の有効性を検証する。
The complexity of black-box algorithms can lead to various challenges, including the introduction of biases. These biases present immediate risks in the algorithms' application. It was, for instance, shown that neural networks can deduce racial information solely from a patient's X-ray scan, a task beyond the capability of medical experts. If this fact is not known to the medical expert, automatic decision-making based on this algorithm could lead to prescribing a treatment (purely) based on racial information. While current methodologies allow for the "orthogonalization" or "normalization" of neural networks with respect to such information, existing approaches are grounded in linear models. Our paper advances the discourse by introducing corrections for non-linearities such as ReLU activations. Our approach also encompasses scalar and tensor-valued predictions, facilitating its integration into neural network architectures. Through extensive experiments, we validate our method's effectiveness in safeguarding sensitive data in generalized linear models, normalizing convolutional neural networks for metadata, and rectifying pre-existing embeddings for undesired attributes. | 翻訳日:2024-05-07 19:50:15 公開日:2024-05-03 |
# SSI4IoT: IoTによる自己ソブリンアイデンティティの可能性を解き放つ
SSI4IoT: Unlocking the Potential of IoT Tailored Self-Sovereign Identity ( http://arxiv.org/abs/2405.02476v1 ) ライセンス: Link先を確認 | Thusitha Dayaratne, Xinxin Fan, Yuhong Liu, Carsten Rudolph, | (参考訳) 分散ID(Decentralized Identifiers)やVC(Verifiable Credentials)といったSSI(Self-Sovereign Identity)技術は、デジタルIDのコントロールを従来のIDプロバイダから個人へと移し、人々、組織、そしてリッチなデジタル関係を確立するものの基礎を築き上げている。
SSIの既存の応用は主に対人関係と対人関係の創出に焦点を当てているが、対人関係と対人関係は概ね見過ごされている。
本稿では,IoT(Internet of Things,モノのインターネット)にSSIを適用する上で重要な課題を特定し,その妥当性,信頼性,相互運用性,利用範囲に関して,IoTコンテキストにおけるVCの包括的分類と利用を提供することによって,このギャップを埋める。
VCのライフサイクル管理や、IoT環境でSSIを実現するためのさまざまな最適化テクニックも、非常に詳細に対処されている。
この作業は、既存のIoTアプリケーションと将来のIoTアプリケーションを保護するために、SSIを大規模に採用するための重要なステップである。
The emerging Self-Sovereign Identity (SSI) techniques, such as Decentralized Identifiers (DIDs) and Verifiable Credentials (VCs), move control of digital identity from conventional identity providers to individuals and lay down the foundation for people, organizations, and things establishing rich digital relationship. The existing applications of SSI mainly focus on creating person-to-person and person-to-service relationships, whereas person-to-device and device-to-device interactions have been largely overlooked. In this paper, we close this gap by identifying a number of key challenges of applying SSI to the Internet of Things (IoT) and providing a comprehensive taxonomy and usage of VCs in the IoT context with respect to their validity period, trust and interoperability level, and scope of usage. The life-cycle management of VCs as well as various optimization techniques for realizing SSI in IoT environments are also addressed in great detail. This work is a noteworthy step towards massive adoption of SSI for securing existing and future IoT applications in practice. | 翻訳日:2024-05-07 19:50:15 公開日:2024-05-03 |
# 連続学習型プライマルデュアル
Continuous Learned Primal Dual ( http://arxiv.org/abs/2405.02478v1 ) ライセンス: Link先を確認 | Christina Runkel, Ander Biguri, Carola-Bibiane Schönlieb, | (参考訳) ニューラル常微分方程式 (Neural ordinary differential equation) は、ニューラルネットワークの層列は単にODEの離散化であり、パラメータ化されたODEによって直接モデル化できるという考えを提唱する。
このアイデアは、拡散モデルや時間依存モデルなど、多くの最先端のアイデアに直接的なあるいは間接的な影響を持つ深層学習文学において、大きな成功を収めた。
近年,U-netアーキテクチャの連続バージョンが提案され,多くのイメージングアプリケーションにおいて個々のアーキテクチャよりも性能が向上し,その性能とロバスト性に関する理論的保証が得られた。
本研究では,ニューラルネットワークを用いた逆問題,特によく知られたLearned Primal Dualアルゴリズムについて検討し,CT(Computerd tomography)再構成に適用する。
Neural ordinary differential equations (Neural ODEs) propose the idea that a sequence of layers in a neural network is just a discretisation of an ODE, and thus can instead be directly modelled by a parameterised ODE. This idea has had resounding success in the deep learning literature, with direct or indirect influence in many state of the art ideas, such as diffusion models or time dependant models. Recently, a continuous version of the U-net architecture has been proposed, showing increased performance over its discrete counterpart in many imaging applications and wrapped with theoretical guarantees around its performance and robustness. In this work, we explore the use of Neural ODEs for learned inverse problems, in particular with the well-known Learned Primal Dual algorithm, and apply it to computed tomography (CT) reconstruction. | 翻訳日:2024-05-07 19:50:15 公開日:2024-05-03 |
# マルチエージェントを用いたOCC市場のネットワークシミュレーション
A Network Simulation of OTC Markets with Multiple Agents ( http://arxiv.org/abs/2405.02480v1 ) ライセンス: Link先を確認 | James T. Wilkinson, Jacob Kelter, John Chen, Uri Wilensky, | (参考訳) 本稿では,取引が市場メーカのみによって仲介され,エージェントの可視性はネットワークトポロジに制約される,オーバー・ザ・カウンタ(OTC)金融市場をシミュレートする新しいエージェントベースのアプローチを提案する。
価格の変化のようなダイナミクスは、流動性プロバイダとして働くマーケットメイカーエージェントを介して、どこでも起こるエージェントレベルの相互作用によって生じる。
トレンド投資家は、ディープQラーニングフレームワークと組み合わせたディープ畳み込みニューラルネットワークを使用して、価格履歴を分析してトレーディング決定を通知する。
我々は,ネットワークトポロジをマーケットメーカに組み込むことによって,様々な市場構造を探究できることを示す。
まず、そのモデルとその力学の概観について述べる。
第2に,価格変動の太字分布,自動相関ボラティリティ,市場メーカの位置と負の相関,予測可能な価格履歴パターンなどを実世界と比較して検証した。
最後に,ネットワークモデルを用いて市場構造が価格変動に与える影響について考察する。
例えば、わずかに接続された仲介業者の市場は、市場が異なるクラスタを形成し、異なる市場メーカの価格間で仲裁が急速に可能となるような、断片化の重要なポイントを持つ可能性があることを示す。
有益であろう将来の仕事についての議論がある。
We present a novel agent-based approach to simulating an over-the-counter (OTC) financial market in which trades are intermediated solely by market makers and agent visibility is constrained to a network topology. Dynamics, such as changes in price, result from agent-level interactions that ubiquitously occur via market maker agents acting as liquidity providers. Two additional agents are considered: trend investors use a deep convolutional neural network paired with a deep Q-learning framework to inform trading decisions by analysing price history; and value investors use a static price-target to determine their trade directions and sizes. We demonstrate that our novel inclusion of a network topology with market makers facilitates explorations into various market structures. First, we present the model and an overview of its mechanics. Second, we validate our findings via comparison to the real-world: we demonstrate a fat-tailed distribution of price changes, auto-correlated volatility, a skew negatively correlated to market maker positioning, predictable price-history patterns and more. Finally, we demonstrate that our network-based model can lend insights into the effect of market-structure on price-action. For example, we show that markets with sparsely connected intermediaries can have a critical point of fragmentation, beyond which the market forms distinct clusters and arbitrage becomes rapidly possible between the prices of different market makers. A discussion is provided on future work that would be beneficial. | 翻訳日:2024-05-07 19:50:15 公開日:2024-05-03 |
# タスク相関を考慮した深層強化学習のための近位カリキュラム
Proximal Curriculum with Task Correlations for Deep Reinforcement Learning ( http://arxiv.org/abs/2405.02481v1 ) ライセンス: Link先を確認 | Georgios Tzannetos, Parameswaran Kamalaruban, Adish Singla, | (参考訳) 強化学習のためのカリキュラム設計(RL)は、エージェントの学習プロセスのスピードアップと、複雑なタスクの学習を支援する。
しかし、既存の手法では、通常、ドメイン固有のハイパーパラメータチューニング、タスク選択のための高価な最適化手順、あるいは特定の学習目的にのみ適している。
本研究では,エージェントの最終性能が複雑なタスクに対する目標分布で測定されるような,コンテキスト多タスク環境におけるカリキュラム設計について考察する。
我々は,RLエージェントの学習プロセスの高速化に有効であることが証明された「近位開発ゾーン」の概念に基づくカリキュラム設計を行った。
本稿では,タスク相関を利用してエージェントの学習を目標分布に向けて進めながら,エージェントにとって難しくないタスクを選択する必要性を効果的にバランスさせる新しいカリキュラムProCuRL-Targetを提案する。
ReINFORCE学習者モデルを用いて簡単な学習環境を解析し,ProCuRL-Targetのタスク選択戦略を理論的に正当化する。
RLエージェントの訓練過程を高速化する上で, 現状のベースラインに対するカリキュラム戦略の有効性を検証した。
Curriculum design for reinforcement learning (RL) can speed up an agent's learning process and help it learn to perform well on complex tasks. However, existing techniques typically require domain-specific hyperparameter tuning, involve expensive optimization procedures for task selection, or are suitable only for specific learning objectives. In this work, we consider curriculum design in contextual multi-task settings where the agent's final performance is measured w.r.t. a target distribution over complex tasks. We base our curriculum design on the Zone of Proximal Development concept, which has proven to be effective in accelerating the learning process of RL agents for uniform distribution over all tasks. We propose a novel curriculum, ProCuRL-Target, that effectively balances the need for selecting tasks that are not too difficult for the agent while progressing the agent's learning toward the target distribution via leveraging task correlations. We theoretically justify the task selection strategy of ProCuRL-Target by analyzing a simple learning setting with REINFORCE learner model. Our experimental results across various domains with challenging target task distributions affirm the effectiveness of our curriculum strategy over state-of-the-art baselines in accelerating the training process of deep RL agents. | 翻訳日:2024-05-07 19:50:15 公開日:2024-05-03 |
# バイオメディカル時系列のFew-Shot Learningに関する調査
A Survey of Few-Shot Learning for Biomedical Time Series ( http://arxiv.org/abs/2405.02485v1 ) ライセンス: Link先を確認 | Chenqi Li, Timothy Denison, Tingting Zhu, | (参考訳) ウェアラブルセンサー技術の進歩と医療記録のデジタル化は、生物医学の時系列データにおける前例のないユビキタスさに寄与している。
データ駆動型モデルは、長期監視機能を改善し、早期疾患の検出と介入を促進し、パーソナライズされたヘルスケアデリバリーを促進することで、臨床診断を支援し、患者のケアを改善する大きな可能性を秘めている。
しかし、データ不足のディープラーニングモデルをトレーニングするために広くラベル付けされたデータセットにアクセスすると、まれな疾患の長期分布、アノテーションのコスト、プライバシとセキュリティ上の懸念、データ共有規則、倫理的考慮など、多くの障壁に直面する。
ラベル付きデータの不足を克服する新たなアプローチは、過去の経験を活用して、少数ショット学習と呼ばれる限られた例で新しいタスクを学ぶために、人間のような能力でAIメソッドを拡張することだ。
本調査は,生物医学的時系列アプリケーションのための数ショット学習手法の総合的なレビューと比較を行う。
このような方法の臨床的メリットと限界は、従来のデータ駆動アプローチに関連して議論される。
本研究の目的は,生物医学的時系列における数ショット学習の現在の状況と今後の研究・応用への意義について考察することである。
Advancements in wearable sensor technologies and the digitization of medical records have contributed to the unprecedented ubiquity of biomedical time series data. Data-driven models have tremendous potential to assist clinical diagnosis and improve patient care by improving long-term monitoring capabilities, facilitating early disease detection and intervention, as well as promoting personalized healthcare delivery. However, accessing extensively labeled datasets to train data-hungry deep learning models encounters many barriers, such as long-tail distribution of rare diseases, cost of annotation, privacy and security concerns, data-sharing regulations, and ethical considerations. An emerging approach to overcome the scarcity of labeled data is to augment AI methods with human-like capabilities to leverage past experiences to learn new tasks with limited examples, called few-shot learning. This survey provides a comprehensive review and comparison of few-shot learning methods for biomedical time series applications. The clinical benefits and limitations of such methods are discussed in relation to traditional data-driven approaches. This paper aims to provide insights into the current landscape of few-shot learning for biomedical time series and its implications for future research and applications. | 翻訳日:2024-05-07 19:50:15 公開日:2024-05-03 |
# 自動分解によるテスト統計のサンプリング分布のモデル化
Modelling Sampling Distributions of Test Statistics with Autograd ( http://arxiv.org/abs/2405.02488v1 ) ライセンス: Link先を確認 | Ali Al Kadhim, Harrison B. Prosper, | (参考訳) スカラーテスト統計学に圧縮された観測結果に基づいて、信頼セットの正確な条件付きカバレッジを特徴付けるシミュレーションベースの推論法は、テスト統計学のp値関数または累積分布関数(cdf)の正確なモデリングを必要とする。
一般にディープニューラルネットワークであるcdfのモデルがテスト統計学の関数であれば、テスト統計学に関するニューラルネットワークの微分はテスト統計学のサンプリング分布の近似を与える。
条件付き1次元サンプリング分布をモデル化するこのアプローチが,確率密度比法の代替となるかどうかを考察する。
比較的単純で効果的なニューラルネットワークモデルは、様々な方法で予測の不確実性が定量化される。
Simulation-based inference methods that feature correct conditional coverage of confidence sets based on observations that have been compressed to a scalar test statistic require accurate modelling of either the p-value function or the cumulative distribution function (cdf) of the test statistic. If the model of the cdf, which is typically a deep neural network, is a function of the test statistic then the derivative of the neural network with respect to the test statistic furnishes an approximation of the sampling distribution of the test statistic. We explore whether this approach to modelling conditional 1-dimensional sampling distributions is a viable alternative to the probability density-ratio method, also known as the likelihood-ratio trick. Relatively simple, yet effective, neural network models are used whose predictive uncertainty is quantified through a variety of methods. | 翻訳日:2024-05-07 19:50:15 公開日:2024-05-03 |
# ソフトウェアフェアネス負債
Software Fairness Debt ( http://arxiv.org/abs/2405.02490v1 ) ライセンス: Link先を確認 | Ronnie de Souza Santos, Felipe Fronchetti, Savio Freire, Rodrigo Spinola, | (参考訳) ソフトウェアシステムが現代社会において重要な役割を担い続けているため、ソフトウェア工学においてその公平性が重要な関心事になっている。
このシナリオに触発された本論文は,ソフトウェアシステムにおける偏見の多面的性質を探求することに焦点を当て,その起源,マニフェスト,影響の包括的理解を目指す。
スコーピング研究により、ソフトウェア開発における公平性の欠如の主な原因を特定し、差別の事例や不平等の永続性を含む個人やコミュニティに対する悪影響を強調した。
我々の調査は、技術的・社会的負債の概念を補完するソフトウェアフェアネス負債の概念を導入し、ソフトウェア工学の実践におけるバイアスの蓄積をカプセル化するとともに、ソフトウェアシステムに埋め込まれたバイアスの社会的影響を強調した。
我々の研究は、ソフトウェア工学における公平さのより深い理解に寄与し、より公平で社会的に責任を持つソフトウェアシステムの開発の道を開いた。
As software systems continue to play a significant role in modern society, ensuring their fairness has become a critical concern in software engineering. Motivated by this scenario, this paper focused on exploring the multifaceted nature of bias in software systems, aiming to provide a comprehensive understanding of its origins, manifestations, and impacts. Through a scoping study, we identified the primary causes of fairness deficiency in software development and highlighted their adverse effects on individuals and communities, including instances of discrimination and the perpetuation of inequalities. Our investigation culminated in the introduction of the concept of software fairness debt, which complements the notions of technical and social debt, encapsulating the accumulation of biases in software engineering practices while emphasizing the societal ramifications of bias embedded within software systems. Our study contributes to a deeper understanding of fairness in software engineering and paves the way for the development of more equitable and socially responsible software systems. | 翻訳日:2024-05-07 19:50:15 公開日:2024-05-03 |
# 量子計測における人工知能駆動ショット低減
Artificial-Intelligence-Driven Shot Reduction in Quantum Measurement ( http://arxiv.org/abs/2405.02493v1 ) ライセンス: Link先を確認 | Senwei Liang, Linghua Zhu, Xiaolin Liu, Chao Yang, Xiaosong Li, | (参考訳) 変分量子固有解法(VQE)は、量子回路と古典コンピュータを組み合わせることで分子基底状態エネルギーを近似する強力なソリューションを提供する。
しかし、量子ハードウェア上での確率的結果の推定には繰り返しの測定(ショット)が必要であり、精度が向上するにつれてかなりのコストがかかる。
したがって、VQEの効率を改善するためには、ショットアロケーションの最適化が重要である。
現在の戦略は、豊富な専門知識を必要とする手作りのヒューリスティックに大きく依存している。
本稿では,VQEにおけるエネルギー期待最小限の収束を達成しつつ,全計測ショットを最小化するためのショット割り当てポリシを自動的に学習する強化学習(RL)アプローチを提案する。
RLエージェントは、最適化の進捗状況に基づいて、VQE最適化イテレーション間で測定ショットを割り当てる。
このアプローチは、静的ヒューリスティックと人間の専門知識へのVQEの依存を減らす。
RL対応VQEを小さな分子に適用すると、ショットリダクションポリシーが学習される。
このポリシーはシステム間の転送可能性を示し、他の波動関数との互換性を示す。
これらの具体的な発見に加えて、この研究はRLが効率よくスケーラブルな量子最適化戦略を自動的に発見する可能性を強調している。
Variational Quantum Eigensolver (VQE) provides a powerful solution for approximating molecular ground state energies by combining quantum circuits and classical computers. However, estimating probabilistic outcomes on quantum hardware requires repeated measurements (shots), incurring significant costs as accuracy increases. Optimizing shot allocation is thus critical for improving the efficiency of VQE. Current strategies rely heavily on hand-crafted heuristics requiring extensive expert knowledge. This paper proposes a reinforcement learning (RL) based approach that automatically learns shot assignment policies to minimize total measurement shots while achieving convergence to the minimum of the energy expectation in VQE. The RL agent assigns measurement shots across VQE optimization iterations based on the progress of the optimization. This approach reduces VQE's dependence on static heuristics and human expertise. When the RL-enabled VQE is applied to a small molecule, a shot reduction policy is learned. The policy demonstrates transferability across systems and compatibility with other wavefunction ansatzes. In addition to these specific findings, this work highlights the potential of RL for automatically discovering efficient and scalable quantum optimization strategies. | 翻訳日:2024-05-07 19:40:24 公開日:2024-05-03 |
# オンライン原始双対法による動的イメージングの予測手法
Prediction techniques for dynamic imaging with online primal-dual methods ( http://arxiv.org/abs/2405.02497v1 ) ライセンス: Link先を確認 | Neil Dizon, Jyrki Jauhiainen, Tuomo Valkonen, | (参考訳) オンライン最適化は、画像安定化、流動モニタリング、ダイナミック医療画像などの動的逆問題の解決を容易にする。
本稿では,2つの面での予測的オンライン原始双対手法に関するこれまでの研究を改良する。
まず、それまでの非対称な後悔境界をシンメライズするより簡潔な解析を行い、二重予測器の以前の制限条件を緩和する。
第2に、後者に基づいて、いくつかの改良された二重予測器を開発する。
画像安定化と動的ポジトロン放射トモグラフィーにおける効果を数値的に示す。
Online optimisation facilitates the solution of dynamic inverse problems, such as image stabilisation, fluid flow monitoring, and dynamic medical imaging. In this paper, we improve upon previous work on predictive online primal-dual methods on two fronts. Firstly, we provide a more concise analysis that symmetrises previously unsymmetric regret bounds, and relaxes previous restrictive conditions on the dual predictor. Secondly, based on the latter, we develop several improved dual predictors. We numerically demonstrate their efficacy in image stabilisation and dynamic positron emission tomography. | 翻訳日:2024-05-07 19:40:24 公開日:2024-05-03 |
# DRAMScope: メモリコマンドによるDRAMマイクロアーキテクチャと特性の発見
DRAMScope: Uncovering DRAM Microarchitecture and Characteristics by Issuing Memory Commands ( http://arxiv.org/abs/2405.02499v1 ) ライセンス: Link先を確認 | Hwayong Nam, Seungmin Baek, Minbok Wi, Michael Jaemin Kim, Jaehyun Park, Chihun Song, Nam Sung Kim, Jung Ho Ahn, | (参考訳) DRAMマイクロアーキテクチャの正確な情報とエラー特性の要求は急増しており、メモリの処理を探索し、信頼性を高め、セキュリティ上の脆弱性を軽減する必要がある。
しかしながら、DRAMメーカーは限られた情報しか公開していないため、DRAMマイクロアーキテクチャに関する特定の情報を見つけることは困難である。
本稿では,コモディティDRAMチップの微細構造と,RowHammerやRowPressといったアクティベーション誘起ビットフリップ(AIB)の特性に対する影響について,より厳密な知見を提示することによって,このギャップに対処する。
これまでの研究では、DRAMのマイクロアーキテクチャと関連する振る舞いの理解も試みてきたが、その成果のいくつかは、不正確なアドレスマッピングと内部データスワズル、あるいは現代のDRAM細胞構造に関する深い理解の欠如によって誤解されていることが判明した。
正確で効率的なリバースエンジニアリングには、AIB、保持時間テスト、RowCopyという3つのツールを使用します。
これら3つのツールを用いて、我々はまず最新のDRAMチップのマクロビューを用いて、サブアレイ、メモリアレイタイル(MAT)、行のサイズ、構造、操作を明らかにする。
次に、6F^2セルレイアウトなどのDRAMマイクロアーキテクチャの顕微鏡的ビューに基づいてAIB特性を分析し、AIBに関する誤解を是正し、AIBを加速する新しいデータパターンを発見する。
最後に,これまで知られていなかったAIBの脆弱性を同定し,単純で効果的な保護法を提案する。
The demand for precise information on DRAM microarchitectures and error characteristics has surged, driven by the need to explore processing in memory, enhance reliability, and mitigate security vulnerability. Nonetheless, DRAM manufacturers have disclosed only a limited amount of information, making it difficult to find specific information on their DRAM microarchitectures. This paper addresses this gap by presenting more rigorous findings on the microarchitectures of commodity DRAM chips and their impacts on the characteristics of activate-induced bitflips (AIBs), such as RowHammer and RowPress. The previous studies have also attempted to understand the DRAM microarchitectures and associated behaviors, but we have found some of their results to be misled by inaccurate address mapping and internal data swizzling, or lack of a deeper understanding of the modern DRAM cell structure. For accurate and efficient reverse-engineering, we use three tools: AIBs, retention time test, and RowCopy, which can be cross-validated. With these three tools, we first take a macroscopic view of modern DRAM chips to uncover the size, structure, and operation of their subarrays, memory array tiles (MATs), and rows. Then, we analyze AIB characteristics based on the microscopic view of the DRAM microarchitecture, such as 6F^2 cell layout, through which we rectify misunderstandings regarding AIBs and discover a new data pattern that accelerates AIBs. Lastly, based on our findings at both macroscopic and microscopic levels, we identify previously unknown AIB vulnerabilities and propose a simple yet effective protection solution. | 翻訳日:2024-05-07 19:40:24 公開日:2024-05-03 |
# パーソナインコンテキスト学習による大規模言語モデルからの多言語行動の緩和
Beyond Helpfulness and Harmlessness: Eliciting Diverse Behaviors from Large Language Models with Persona In-Context Learning ( http://arxiv.org/abs/2405.02501v1 ) ライセンス: Link先を確認 | Hyeong Kyu Choi, Yixuan Li, | (参考訳) 大規模言語モデル(LLM)は、多種多様な性格特性を符号化した大量のテキストコーパスで訓練される。
このことは、所望の性格特性を LLM から引き出すという興味深い目標を導き、その行動的嗜好を追求する。
そこで我々は,対象のペルソナと整合するLLM動作をカスタマイズすることを目的として,ペルソナ導入タスクを定式化する。
本稿では,ベイズ推論に基づく新しいペルソナ推論フレームワークであるペルソナ・インコンテクスト・ラーニング(PICLe)を提案する。
中心となるものとして、PICLeは確率比に基づく新しいICLサンプル選択基準を導入し、特定のターゲットペルソナを抽出する際にモデルを最適にガイドするように設計されている。
PICLeの有効性を,3つのLLMにおけるベースライン法との比較により実証した。
コードはhttps://github.com/deeplearning-wisc/picle.comから入手できる。
Large Language Models (LLMs) are trained on massive text corpora, which are encoded with diverse personality traits. This triggers an interesting goal of eliciting a desired personality trait from the LLM, and probing its behavioral preferences. Accordingly, we formalize the persona elicitation task, aiming to customize LLM behaviors to align with a target persona. We present Persona In-Context Learning (PICLe), a novel persona elicitation framework grounded in Bayesian inference. At the core, PICLe introduces a new ICL example selection criterion based on likelihood ratio, which is designed to optimally guide the model in eliciting a specific target persona. We demonstrate the effectiveness of PICLe through extensive comparisons against baseline methods across three contemporary LLMs. Code is available at https://github.com/deeplearning-wisc/picle. | 翻訳日:2024-05-07 19:40:24 公開日:2024-05-03 |
# 構造MRIからの脳PET合成のための機能的イメージング制約拡散
Functional Imaging Constrained Diffusion for Brain PET Synthesis from Structural MRI ( http://arxiv.org/abs/2405.02504v1 ) ライセンス: Link先を確認 | Minhui Yu, Mengqi Wu, Ling Yue, Andrea Bozoki, Mingxia Liu, | (参考訳) 磁気共鳴画像(MRI)とポジトロン・エミッション・トモグラフィ(PET)は、神経変性疾患のマルチモーダル解析にますます利用されている。
MRIは臨床で広く利用されているが、PETは利用できない。
多くの研究は、MRIスキャンからPETを合成するために深層生成モデルを用いた。
しかし、不安定な訓練に苦しむことが多く、PETによって伝達される脳機能情報を不十分に保存する。
そこで本研究では,新しい制約拡散モデル (CDM) を用いて,2組構造MRIを用いた3次元脳PET画像合成のための機能的イメージング制約拡散 (FICD) フレームワークを提案する。
FICDはPETにノイズを導入し、CDMで徐々に除去する。
CDMは、各denoized PETと基底真理との間のボクセルワイドアライメントを確保するために、機能的イメージング制約を導入して、denoized PETを予測することを学ぶ。
T1-weighted MRIと18F-fluorodeoxyglucose (FDG)-PETスキャンを併用した293例の定量および定性分析により,FICDはFDG-PETデータの生成において最先端の手法と比較して優れた性能を示した。
さらに,提案したFICDが3つの下流タスクを通して1,262人の被験者のデータに対して有効であることを示すとともに,その有用性と一般化性を示す実験結果を得た。
Magnetic resonance imaging (MRI) and positron emission tomography (PET) are increasingly used in multimodal analysis of neurodegenerative disorders. While MRI is broadly utilized in clinical settings, PET is less accessible. Many studies have attempted to use deep generative models to synthesize PET from MRI scans. However, they often suffer from unstable training and inadequately preserve brain functional information conveyed by PET. To this end, we propose a functional imaging constrained diffusion (FICD) framework for 3D brain PET image synthesis with paired structural MRI as input condition, through a new constrained diffusion model (CDM). The FICD introduces noise to PET and then progressively removes it with CDM, ensuring high output fidelity throughout a stable training phase. The CDM learns to predict denoised PET with a functional imaging constraint introduced to ensure voxel-wise alignment between each denoised PET and its ground truth. Quantitative and qualitative analyses conducted on 293 subjects with paired T1-weighted MRI and 18F-fluorodeoxyglucose (FDG)-PET scans suggest that FICD achieves superior performance in generating FDG-PET data compared to state-of-the-art methods. We further validate the effectiveness of the proposed FICD on data from a total of 1,262 subjects through three downstream tasks, with experimental results suggesting its utility and generalizability. | 翻訳日:2024-05-07 19:40:24 公開日:2024-05-03 |
# Rasterized Edge Gradients:不連続性を異なる方法で扱う
Rasterized Edge Gradients: Handling Discontinuities Differentiably ( http://arxiv.org/abs/2405.02508v1 ) ライセンス: Link先を確認 | Stanislav Pidhorskyi, Tomas Simon, Gabriel Schwartz, He Wen, Yaser Sheikh, Jason Saragih, | (参考訳) レンダリングプロセスの勾配を計算することは、コンピュータビジョンやグラフィックスの様々な応用において最重要である。
しかし、これらの勾配の正確な計算は、特に表面表現やラスタライズに基づくレンダリングにおいて、不連続性やレンダリング近似のために困難である。
本稿では,ラスタライズに基づく微分可能レンダラーの可視性不連続性の勾配計算法を提案する。
提案手法は, 厳密に設計された近似戦略により従来の複雑な問題をエレガントに単純化し, 単純で効果的かつ実効性のある解を実現する。
マイクロエッジの概念を導入し,ラスタライズされた画像を,本質的に微分不可能な離散画素ラスタライゼーションと整合した,微分可能で連続的なプロセスの結果として扱えるようにした。
この技術は、レンダリングされた画像の整合性を保ち、フォワードパスに近似やその他の修正をレンダリングする必要をなくし、フィルタリングが禁止されているラスタ化マスク、深さ、および正常な画像に適用できるようにする。
マイクロエッジの利用は、不連続での勾配解釈を単純化し、幾何学的交叉の扱いを可能にし、以前の技術よりも有利である。
本手法は人間の頭部の動的再構成において,カメラ画像とセグメンテーションマスクの効果的処理を実証するものである。
Computing the gradients of a rendering process is paramount for diverse applications in computer vision and graphics. However, accurate computation of these gradients is challenging due to discontinuities and rendering approximations, particularly for surface-based representations and rasterization-based rendering. We present a novel method for computing gradients at visibility discontinuities for rasterization-based differentiable renderers. Our method elegantly simplifies the traditionally complex problem through a carefully designed approximation strategy, allowing for a straightforward, effective, and performant solution. We introduce a novel concept of micro-edges, which allows us to treat the rasterized images as outcomes of a differentiable, continuous process aligned with the inherently non-differentiable, discrete-pixel rasterization. This technique eliminates the necessity for rendering approximations or other modifications to the forward pass, preserving the integrity of the rendered image, which makes it applicable to rasterized masks, depth, and normals images where filtering is prohibitive. Utilizing micro-edges simplifies gradient interpretation at discontinuities and enables handling of geometry intersections, offering an advantage over the prior art. We showcase our method in dynamic human head scene reconstruction, demonstrating effective handling of camera images and segmentation masks. | 翻訳日:2024-05-07 19:40:24 公開日:2024-05-03 |
# ロバスト・ジョイント・スパース・ビューCTにおけるインプシット・ニューラル表現法
Implicit Neural Representations for Robust Joint Sparse-View CT Reconstruction ( http://arxiv.org/abs/2405.02509v1 ) ライセンス: Link先を確認 | Jiayang Shi, Junyi Zhu, Daniel M. Pelt, K. Joost Batenburg, Matthew B. Blaschko, | (参考訳) CT(Computed Tomography)は、産業品質管理と医療診断において重要である。
電離放射線を低減させるスパースビューCTは、アンダーサンプリングの性質のために課題に直面しており、不適切な再建問題を引き起こしている。
Inlicit Neural Representations (INRs) の最近の進歩は, スパース・ビューCTの再構築において有望であることを示している。
同様の対象をCTでスキャンすることが多いことを認識し,INRを用いた複数物体の関節再建による再建品質向上のための新しい手法を提案する。
このアプローチは、INRの強みと複数の対象にわたる統計正則性の両方を活用することができる。
現在のINRジョイントリコンストラクション技術は主にメタ初期化による収束促進に重点を置いているが、コンストラクションの品質向上に特化してはいない。
このギャップに対処するために、我々は、オブジェクト間の関係を捉えるために潜在変数を統合する新しいINRベースのベイズフレームワークを導入する。
これらの変数は最適化全体を通して動的参照として機能し、それによって個々の再構成忠実性を高める。
再現性, 過度な適合性, 一般化性など, 様々な要因を評価できる広範囲な実験により, 一般的な数値測定値において, ベースラインよりも大幅に向上したことを示す。
これはCT再建法における顕著な進歩を裏付けるものである。
Computed Tomography (CT) is pivotal in industrial quality control and medical diagnostics. Sparse-view CT, offering reduced ionizing radiation, faces challenges due to its under-sampled nature, leading to ill-posed reconstruction problems. Recent advancements in Implicit Neural Representations (INRs) have shown promise in addressing sparse-view CT reconstruction. Recognizing that CT often involves scanning similar subjects, we propose a novel approach to improve reconstruction quality through joint reconstruction of multiple objects using INRs. This approach can potentially leverage both the strengths of INRs and the statistical regularities across multiple objects. While current INR joint reconstruction techniques primarily focus on accelerating convergence via meta-initialization, they are not specifically tailored to enhance reconstruction quality. To address this gap, we introduce a novel INR-based Bayesian framework integrating latent variables to capture the inter-object relationships. These variables serve as a dynamic reference throughout the optimization, thereby enhancing individual reconstruction fidelity. Our extensive experiments, which assess various key factors such as reconstruction quality, resistance to overfitting, and generalizability, demonstrate significant improvements over baselines in common numerical metrics. This underscores a notable advancement in CT reconstruction methods. | 翻訳日:2024-05-07 19:40:24 公開日:2024-05-03 |
# Spatio-Temporal SwinMAE: 時空間衛星画像のためのスイム変換器を用いたマルチスケール表現学習機
Spatio-Temporal SwinMAE: A Swin Transformer based Multiscale Representation Learner for Temporal Satellite Imagery ( http://arxiv.org/abs/2405.02512v1 ) ライセンス: Link先を確認 | Yohei Nakayama, Jiawei Su, | (参考訳) 現在、大きな言語モデルで表現される基礎モデルは劇的な進歩を遂げており、2Dや3Dビジョンを含む非常に幅広い領域で使われている。
基礎モデルの重要な応用分野の1つとして、地球観測が注目され、様々なアプローチが開発されている。
地球観測を単一の画像キャプチャとして考える場合、地球観測画像を3つ以上のチャンネルを持つ画像として処理することができ、異なるタイムスタンプの複数の画像キャプチャーを1箇所で行う場合、時間観測はビデオフレームや医療用SCANスライスに似た連続した画像の集合と見なすことができる。
本稿では,時空間画像処理のための表現学習に着目したアーキテクチャであるspatio-Temporal SwinMAE(ST-SwinMAE)を提案する。
具体的には、階層型Masked Auto-Encoder (MAE) と Video Swin Transformer ブロックを使用する。
本アーキテクチャでは,地空間基盤モデルとしてDegas 100Mという事前訓練モデルを提案する。
また,マルチスケール情報通信を実現するために,プリトレーニングされたエンコーダとMAEデコーダの両方をスキップ接続で利用し,Spatio-Temporal SwinUNet(ST-SwinUNet)というアーキテクチャを構築するDegas 100Mを用いたトランスファーラーニング手法を提案する。
提案手法は,既存の基礎モデルの最先端モデルよりも性能が大幅に向上したことを示す。
具体的には、PhilEO Benchデータセット上の下流タスクの転送学習では、他の地理空間基盤モデルと比較して10.4\%高い精度を示している。
Currently, the foundation models represented by large language models have made dramatic progress and are used in a very wide range of domains including 2D and 3D vision. As one of the important application domains of foundation models, earth observation has attracted attention and various approaches have been developed. When considering earth observation as a single image capture, earth observation imagery can be processed as an image with three or more channels, and when it comes with multiple image captures of different timestamps at one location, the temporal observation can be considered as a set of continuous image resembling video frames or medical SCAN slices. This paper presents Spatio-Temporal SwinMAE (ST-SwinMAE), an architecture which particularly focuses on representation learning for spatio-temporal image processing. Specifically, it uses a hierarchical Masked Auto-encoder (MAE) with Video Swin Transformer blocks. With the architecture, we present a pretrained model named Degas 100M as a geospatial foundation model. Also, we propose an approach for transfer learning with Degas 100M, which both pretrained encoder and decoder of MAE are utilized with skip connections added between them to achieve multi-scale information communication, forms an architecture named Spatio-Temporal SwinUNet (ST-SwinUNet). Our approach shows significant improvements of performance over existing state-of-the-art of foundation models. Specifically, for transfer learning of the land cover downstream task on the PhilEO Bench dataset, it shows 10.4\% higher accuracy compared with other geospatial foundation models on average. | 翻訳日:2024-05-07 19:40:24 公開日:2024-05-03 |
# SR4ZCT:任意分解能とオーバーラップを有するCT画像の自己監督型平面分解能向上
SR4ZCT: Self-supervised Through-plane Resolution Enhancement for CT Images with Arbitrary Resolution and Overlap ( http://arxiv.org/abs/2405.02515v1 ) ライセンス: Link先を確認 | Jiayang Shi, Daniel M. Pelt, K. Joost Batenburg, | (参考訳) CT(Computed tomography)は、疾患の診断に広く用いられている非侵襲的医療画像診断技術である。
診断精度はしばしば画像分解能に影響され、実際は不十分である。
医療用CT画像では、平面内分解能は平面内分解能よりも悪く、スライス間で重なり合いがあり、診断が困難である。
平面内画像をトレーニングし、平面内画像を推測する、平面内分解能増強のための自己監督手法は、CTとMRIの両方に有望であることを示している。
しかし、既存の自己管理手法はオーバーラップを無視するか、特定のケースを解像度とオーバーラップの固定の組み合わせでしか処理できない。
これらの制約に対処するため,SR4ZCTと呼ばれる自己教師型手法を提案する。
任意の解像度と重複の組合せを扱うことができる一方で、同じオフ軸トレーニングアプローチを採用している。
本手法は,異なる平面の解像度とボクセル間隔の関係を明示的にモデル化し,元の平面画像と一致するトレーニング画像を正確にシミュレートする。
本稿では,自己教師型オフ軸トレーニングにおける正確なモデリングの重要性を強調し,実世界のデータセットを用いたSR4ZCTの有効性を実証する。
Computed tomography (CT) is a widely used non-invasive medical imaging technique for disease diagnosis. The diagnostic accuracy is often affected by image resolution, which can be insufficient in practice. For medical CT images, the through-plane resolution is often worse than the in-plane resolution and there can be overlap between slices, causing difficulties in diagnoses. Self-supervised methods for through-plane resolution enhancement, which train on in-plane images and infer on through-plane images, have shown promise for both CT and MRI imaging. However, existing self-supervised methods either neglect overlap or can only handle specific cases with fixed combinations of resolution and overlap. To address these limitations, we propose a self-supervised method called SR4ZCT. It employs the same off-axis training approach while being capable of handling arbitrary combinations of resolution and overlap. Our method explicitly models the relationship between resolutions and voxel spacings of different planes to accurately simulate training images that match the original through-plane images. We highlight the significance of accurate modeling in self-supervised off-axis training and demonstrate the effectiveness of SR4ZCT using a real-world dataset. | 翻訳日:2024-05-07 19:40:24 公開日:2024-05-03 |
# 六方晶窒化ホウ素中における部位制御パーセル誘起光子単光子エミッタ
Site-Controlled Purcell-Induced Bright Single Photon Emitters in Hexagonal Boron Nitride ( http://arxiv.org/abs/2405.02516v1 ) ライセンス: Link先を確認 | Mashnoon Alam Sakib, Brandon Triplett, William Harris, Naveed Hussain, Alexander Senichev, Melika Momenzadeh, Joshua Bocanegra, Ruqian Wu, Alexandra Boltasseva, Vladimir M. Shalaev, Maxim R. Shcherbakov, | (参考訳) 六方晶窒化ホウ素(hBN)でホストされる単一光子エミッタ(SPE)は、室温で動作する将来のオンチップ量子フォトニクス技術を実現するための必須の基本構造である。
しかしながら、非放射的崩壊の管理、競合する非コヒーレントなプロセス、および決定論的配置とエミッターのスケーリングを達成するためのエンジニアリング上の困難といった基本的な課題は、その潜在能力を制限している。
本研究では,Purcellにより誘導されるサイト制御SPEに対して,エンジニアリングエミッタ共振器とキャビティカップリングによるプラズマナノ共振器の大規模アレイを実験的に実証し,室温での放射能の増強を図った。
プラズモンナノ共振器アーキテクチャは、アルミナスペーサ層を担持した金被覆シリコン柱で構成され、ネイティブhBN欠陥の放出帯における10倍の局所場増強を可能にする。
共焦点フォトルミネッセンスと2次自己相関測定は、30メガワット以下の帯域と380万秒間以上の飽和放出率を持つ明るいSPEを示している。
パーセル係数は4.9であり, 平均SPE寿命は480ppsであり, ゴールドフリーデバイスからの排出に比べて5倍の減少率を示し, 総SPE収率21%である。
密度汎関数理論の計算により、欠陥hBNと金の間のアルミナスペーサの有益な役割が明らかにされる。
我々の結果は、明るく、均一に統合された量子光源の配列を提供し、堅牢でスケーラブルな量子情報システムへの道を開いた。
Single photon emitters (SPEs) hosted in hexagonal boron nitride (hBN) are essential elementary building blocks for enabling future on-chip quantum photonic technologies that operate at room temperature. However, fundamental challenges, such as managing non-radiative decay, competing incoherent processes, as well as engineering difficulties in achieving deterministic placement and scaling of the emitters, limit their full potential. In this work, we experimentally demonstrate large-area arrays of plasmonic nanoresonators for Purcell-induced site-controlled SPEs by engineering emitter-cavity coupling and enhancing radiative emission at room temperature. The plasmonic nanoresonator architecture consists of gold-coated silicon pillars capped with an alumina spacer layer, enabling a 10-fold local field enhancement in the emission band of native hBN defects. Confocal photoluminescence and second-order autocorrelation measurements show bright SPEs with sub-30 meV bandwidth and a saturated emission rate of more than 3.8 million counts per second. We measure a Purcell factor of 4.9, enabling average SPE lifetimes of 480 ps, a five-fold reduction as compared to emission from gold-free devices, along with an overall SPE yield of 21%. Density functional theory calculations further reveal the beneficial role of an alumina spacer between defected hBN and gold, as an insulating layer can mitigate the electronic broadening of emission from defects proximal to gold. Our results offer arrays of bright, heterogeneously integrated quantum light sources, paving the way for robust and scalable quantum information systems. | 翻訳日:2024-05-07 19:40:24 公開日:2024-05-03 |
# SemEval-2024 Task 9: Chain-of-Thought Prompt Optimization の反復システム
Mothman at SemEval-2024 Task 9: An Iterative System for Chain-of-Thought Prompt Optimization ( http://arxiv.org/abs/2405.02517v1 ) ライセンス: Link先を確認 | Alvin Po-Chun Chen, Ray Groshan, Sean von Bayern, | (参考訳) 論理に基づくタスクにおける大規模言語モデルの性能に関する広範な研究は存在するが、横方向の思考タスク上で創造的なソリューションを生成する能力についてはほとんど研究されていない。
BrainTeaserはタスクテストを横方向の思考で共有し、敵のデータセットを使用して記憶を防ぐ。
本稿では,人間による評価を用いてプロンプトを最適化する,反復的・連鎖的プロンプトエンジニアリングシステムを提案する。
この共有タスクを用いて,プロンプトを最適化し,入力データセットを評価することにより,モデル性能を大幅に向上するシステムの能力を実証する。
Extensive research exists on the performance of large language models on logic-based tasks, whereas relatively little has been done on their ability to generate creative solutions on lateral thinking tasks. The BrainTeaser shared task tests lateral thinking and uses adversarial datasets to prevent memorization, resulting in poor performance for out-of-the-box models. We propose a system for iterative, chain-of-thought prompt engineering which optimizes prompts using human evaluation. Using this shared task, we demonstrate our system's ability to significantly improve model performance by optimizing prompts and evaluate the input dataset. | 翻訳日:2024-05-07 19:40:24 公開日:2024-05-03 |
# 新しい文脈、古いヒューリスティックス:インドとアメリカの若者が生成AI時代のオンラインコンテンツをいかに信頼するか
New contexts, old heuristics: How young people in India and the US trust online content in the age of generative AI ( http://arxiv.org/abs/2405.02522v1 ) ライセンス: Link先を確認 | Rachel Xu, Nhu Le, Rebekah Park, Laura Murray, Vishnupriya Das, Devika Kumar, Beth Goldberg, | (参考訳) インドとアメリカ合衆国で、若者(18~24歳)がオンラインコンテンツをどのように信頼しているかを調査し、生成型AI(GenAI)に着目した。
若者がGenAIをどのように利用し、オンラインで何を信頼するかを判断する上で、重要な4つの発見がありました。
まず、オンラインの場合、参加者はマインドセットと感情状態の間に流動的に移行し、それを“情報モード”と呼びました。
第2に、これらの情報モードは、どのように、なぜ参加者がGenAIを信頼するか、リテラシーのスキルを適用したのかを形作った。
時間の大半を過ごしたモードでは、リテラシーのスキルを駆使した。
第3に、GenAIの出現に伴い、参加者は、慣れ親しんだオンラインコンテキストから既存の信頼ヒューリスティックをGenAIとのインタラクションにインポートした。
第4に、研究参加者はGenAIを予約していたが、時代に合わせて採用するために必要なツールだと考えた。
参加者は他のすべてよりも効率を高く評価し、精度を犠牲にして目標を迅速に進めるためにGenAIを使用した。
調査の結果,若者はインターネット上での時間の大半を真実を気にせずに過ごしていることが示唆された。
結果として、リテラシー介入は、適切なタイミングで介入し、ユーザの異なる情報モードにマッチし、既存のファクトチェックのプラクティスに対処するように設計されるべきである。
We conducted an in-person ethnography in India and the US to investigate how young people (18-24) trusted online content, with a focus on generative AI (GenAI). We had four key findings about how young people use GenAI and determine what to trust online. First, when online, we found participants fluidly shifted between mindsets and emotional states, which we term "information modes." Second, these information modes shaped how and why participants trust GenAI and how they applied literacy skills. In the modes where they spent most of their time, they eschewed literacy skills. Third, with the advent of GenAI, participants imported existing trust heuristics from familiar online contexts into their interactions with GenAI. Fourth, although study participants had reservations about GenAI, they saw it as a requisite tool to adopt to keep up with the times. Participants valued efficiency above all else, and used GenAI to further their goals quickly at the expense of accuracy. Our findings suggest that young people spend the majority of their time online not concerned with truth because they are seeking only to pass the time. As a result, literacy interventions should be designed to intervene at the right time, to match users' distinct information modes, and to work with their existing fact-checking practices. | 翻訳日:2024-05-07 19:40:24 公開日:2024-05-03 |
# Toffoli-Depth 量子加算器
Optimal Toffoli-Depth Quantum Adder ( http://arxiv.org/abs/2405.02523v1 ) ライセンス: Link先を確認 | Siyi Wang, Suman Deb, Ankit Mondal, Anupam Chattopadhyay, | (参考訳) 効率的な量子演算回路は、実際的な意味を持つ多くの量子アルゴリズムでよく見られる。
この対数-深さ量子加算器は、klog n + O(1) のトフォリ-深さを達成しながら定数係数 k >= 2 を含む。
本研究は, 量子加算器の最適深さ構造を決定するために, キャリープロパゲーション構造の160の代替組成を包括的に検討した。
これらの構造を広く研究することにより、log n + O(1) の正確なトフォリ-深さが達成可能であることが示される。
これは、現在までに提示されている最もよく知られた量子加算器回路と比較して、トフォリ-ディープスの約50%の減少を示す。
我々は、異なるプロパゲートの拡張とフォームの生成、およびモジュラーフレームワークの拡張を組み込むことにより、さらに可能な設計を実証する。
本稿は,これらの設計について詳述し,詳細な理論的解析とシミュレーションに基づく研究に支えられ,我々の最適性の主張をしっかりと裏付けるものである。
結果はまた、古典的な加算回路の複雑さを報告した同様の改善を反映している。
Efficient quantum arithmetic circuits are commonly found in numerous quantum algorithms of practical significance. Till date, the logarithmic-depth quantum adders includes a constant coefficient k >= 2 while achieving the Toffoli-Depth of klog n + O(1). In this work, 160 alternative compositions of the carry-propagation structure are comprehensively explored to determine the optimal depth structure for a quantum adder. By extensively studying these structures, it is shown that an exact Toffoli-Depth of log n + O(1) is achievable. This presents a reduction of Toffoli-Depth by almost 50% compared to the best known quantum adder circuits presented till date. We demonstrate a further possible design by incorporating a different expansion of propagate and generate forms, as well as an extension of the modular framework. Our paper elaborates on these designs, supported by detailed theoretical analyses and simulation-based studies, firmly substantiating our claims of optimality. The results also mirror similar improvements, recently reported in classical adder circuit complexity. | 翻訳日:2024-05-07 19:40:24 公開日:2024-05-03 |
# コードのためのLLMセキュリティガード
LLM Security Guard for Code ( http://arxiv.org/abs/2405.01103v2 ) ライセンス: Link先を確認 | Arya Kavian, Mohammad Mehdi Pourhashem Kallehbasti, Sajjad Kazemi, Ehsan Firouzi, Mohammad Ghafari, | (参考訳) 多くの開発者は、ソフトウェア開発を容易にするためにLarge Language Models (LLM)に依存している。
それでも、これらのモデルはセキュリティ領域で限られた機能を示している。
LLMSecGuardは、静的コードアナライザとLLM間の相乗効果によって、コードセキュリティを強化するフレームワークである。
LLMSecGuardはオープンソースで、LLMが最初に生成したコードよりもセキュアなコードソリューションを開発者に提供することを目的としている。
このフレームワークには、これらのモデルの進化するセキュリティ属性に関する洞察を提供することを目的とした、ベンチマーク機能もある。
Many developers rely on Large Language Models (LLMs) to facilitate software development. Nevertheless, these models have exhibited limited capabilities in the security domain. We introduce LLMSecGuard, a framework to offer enhanced code security through the synergy between static code analyzers and LLMs. LLMSecGuard is open source and aims to equip developers with code solutions that are more secure than the code initially generated by LLMs. This framework also has a benchmarking feature, aimed at providing insights into the evolving security attributes of these models. | 翻訳日:2024-05-07 12:36:45 公開日:2024-05-03 |
# パラメータ化された行動空間における深層強化学習
Deep Reinforcement Learning in Parameterized Action Space ( http://arxiv.org/abs/1511.04143v5 ) ライセンス: Link先を確認 | Matthew Hausknecht, Peter Stone, | (参考訳) 最近の研究によると、深層ニューラルネットワークは、連続状態とアクション空間を特徴とする強化学習領域において、価値関数とポリシーの両方を近似することができる。
しかし、私たちの知る限りでは、構造化された(パラメータ化された)連続的なアクション空間でディープニューラルネットワークを使うことに、これまでの研究は成功していない。
このギャップを埋めるために、本研究では、連続変数でパラメータ化された小さな個別アクション型を特徴とする、シミュレーションされたRoboCupサッカーの領域内での学習に焦点を当てる。
最高の学習エージェントは、2012年のRoboCupチャンピオンエージェントよりも確実にゴールを決められる。
そこで本論文は,パラメータ化行動空間 MDP のクラスに対する深層強化学習の成功例を示す。
Recent work has shown that deep neural networks are capable of approximating both value functions and policies in reinforcement learning domains featuring continuous state and action spaces. However, to the best of our knowledge no previous work has succeeded at using deep neural networks in structured (parameterized) continuous action spaces. To fill this gap, this paper focuses on learning within the domain of simulated RoboCup soccer, which features a small set of discrete action types, each of which is parameterized with continuous variables. The best learned agent can score goals more reliably than the 2012 RoboCup champion agent. As such, this paper represents a successful extension of deep reinforcement learning to the class of parameterized action space MDPs. | 翻訳日:2024-05-06 18:43:25 公開日:2024-05-03 |
# 線形ユニット活性化を伴う多層ニューラルネットワークの解の幾何学と容量特性
Properties of the geometry of solutions and capacity of multi-layer neural networks with Rectified Linear Units activations ( http://arxiv.org/abs/1907.07578v6 ) ライセンス: Link先を確認 | Carlo Baldassi, Enrico M. Malatesta, Riccardo Zecchina, | (参考訳) Rectified Linear Units (ReLU) は、現在のディープラーニングシステムのニューラルユニットの主要なモデルとなっている。
この選択は、もともと、複数の層からなるネットワークにおける確率勾配勾配(SGD)学習を弱めるいわゆる消滅勾配問題を補う方法として提案されている。
ここでは、ReLUが2重または実数値の重みを持つ2層ニューラルネットワークにおける解空間の容量および幾何学的景観に与える影響について解析的な結果を提供する。
多数のランダムなパターンを格納する問題について検討し、予想外のことに、隠れた層内のニューロン数が増加するにつれてネットワークの容量は有限であり、キャパシティが分岐する閾値単位の場合と正反対であることを示す。
おそらくより重要であり、大きな偏差法により、解空間の幾何学的景観が特異な構造を持っていることが分かる:解の大部分は距離が近いが、孤立しているものの、閾値単位の場合と同様の解よりもはるかに密な希少な領域が存在する。
これらの解は重みの摂動に対して堅牢であり、入力の大きな摂動に耐えることができる。
解析結果は数値的な結果と相関する。
Rectified Linear Units (ReLU) have become the main model for the neural units in current deep learning systems. This choice has been originally suggested as a way to compensate for the so called vanishing gradient problem which can undercut stochastic gradient descent (SGD) learning in networks composed of multiple layers. Here we provide analytical results on the effects of ReLUs on the capacity and on the geometrical landscape of the solution space in two-layer neural networks with either binary or real-valued weights. We study the problem of storing an extensive number of random patterns and find that, quite unexpectedly, the capacity of the network remains finite as the number of neurons in the hidden layer increases, at odds with the case of threshold units in which the capacity diverges. Possibly more important, a large deviation approach allows us to find that the geometrical landscape of the solution space has a peculiar structure: while the majority of solutions are close in distance but still isolated, there exist rare regions of solutions which are much more dense than the similar ones in the case of threshold units. These solutions are robust to perturbations of the weights and can tolerate large perturbations of the inputs. The analytical results are corroborated by numerical findings. | 翻訳日:2024-05-06 18:43:25 公開日:2024-05-03 |
# 未知干渉実験における政策設計
Policy design in experiments with unknown interference ( http://arxiv.org/abs/2011.08174v9 ) ライセンス: Link先を確認 | Davide Viviano, Jess Rudder, | (参考訳) 本稿では, 流出効果を考慮した政策の推定と推定のための実験的設計について検討する。
単位は有限個の大きなクラスタに編成され、各クラスタ内で未知の方法で相互作用する。
まず、クラスタペア間でランダム化を変動させることで、治療確率の変化による限界効果を推定し、余剰効果を考慮に入れた単一波実験を紹介する。
限界効果を用いて,政策最適性テストを提案する。
第2に、福祉最大化処理ルールを推定するための多重波実験を設計する。
本研究では,大規模フィールド実験における理論的保証と実装について述べる。
This paper studies experimental designs for estimation and inference on policies with spillover effects. Units are organized into a finite number of large clusters and interact in unknown ways within each cluster. First, we introduce a single-wave experiment that, by varying the randomization across cluster pairs, estimates the marginal effect of a change in treatment probabilities, taking spillover effects into account. Using the marginal effect, we propose a test for policy optimality. Second, we design a multiple-wave experiment to estimate welfare-maximizing treatment rules. We provide strong theoretical guarantees and an implementation in a large-scale field experiment. | 翻訳日:2024-05-06 18:43:25 公開日:2024-05-03 |
# 飛ぶことを学ぶ:無知に対するロバスト性
Learning to Persuade on the Fly: Robustness Against Ignorance ( http://arxiv.org/abs/2102.10156v2 ) ライセンス: Link先を確認 | You Zu, Krishnamurthy Iyer, Haifeng Xu, | (参考訳) オンラインプラットフォーム上での情報共有を動機として,送信側と受信側との繰り返しの説得について検討し,送信側は未知の分布から独立して引き出されたペイオフ関連状態を観察し,それぞれが行動を選択する受信側と状態情報を共有する。
送信者は、状態情報を選択的に共有することにより、受信者を説得して送信者の好みに沿った行動を取る。
しかし、標準モデルとは対照的に、送信側も受信側もその分布を知らないため、送信側はオンザフライで分布を学習しながら説得しなければならない。
本研究は, 最適な説得機構に反する低後悔を実現するため, 説得行動推薦を行う送信者の学習課題について, 分布の知識を用いて検討する。
そこで我々はまず,不確実性に直面した要求としてロバスト性を重視した未知の分布設定に対する説得性基準を提案し,動機づける。
我々の主な結果は、高い確率で強説得力を持ち、$O(\sqrt{T\log T})$ regret, ここでは$T$は地平線長である。
直感的には、我々のアルゴリズムは候補分布の集合を維持し、それらすべてに対して同時に説得力のある信号伝達機構を選択する。
私たちの証明の核心は、堅牢な説得のコストに関する厳密な分析であり、それは独立した関心事かもしれない。
さらに、この後悔順序が最適(対数項まで)であることは、アルゴリズムが$\Omega(\sqrt{T})$よりも後悔を達成できないことを示すことで証明する。
Motivated by information sharing in online platforms, we study repeated persuasion between a sender and a stream of receivers where at each time, the sender observes a payoff-relevant state drawn independently and identically from an unknown distribution, and shares state information with the receivers who each choose an action. The sender seeks to persuade the receivers into taking actions aligned with the sender's preference by selectively sharing state information. However, in contrast to the standard models, neither the sender nor the receivers know the distribution, and the sender has to persuade while learning the distribution on the fly. We study the sender's learning problem of making persuasive action recommendations to achieve low regret against the optimal persuasion mechanism with the knowledge of the distribution. To do this, we first propose and motivate a persuasiveness criterion for the unknown distribution setting that centers robustness as a requirement in the face of uncertainty. Our main result is an algorithm that, with high probability, is robustly-persuasive and achieves $O(\sqrt{T\log T})$ regret, where $T$ is the horizon length. Intuitively, at each time our algorithm maintains a set of candidate distributions, and chooses a signaling mechanism that is simultaneously persuasive for all of them. Core to our proof is a tight analysis about the cost of robust persuasion, which may be of independent interest. We further prove that this regret order is optimal (up to logarithmic terms) by showing that no algorithm can achieve regret better than $\Omega(\sqrt{T})$. | 翻訳日:2024-05-06 18:43:25 公開日:2024-05-03 |
# ゼロ次ブロック座標DescentによるLQR制御のための非同期分散強化学習
Asynchronous Distributed Reinforcement Learning for LQR Control via Zeroth-Order Block Coordinate Descent ( http://arxiv.org/abs/2107.12416v4 ) ライセンス: Link先を確認 | Gangshan Jing, He Bai, Jemin George, Aranya Chakrabortty, Piyush K. Sharma, | (参考訳) 最近導入された分散ゼロ階最適化(ZOO)アルゴリズムは、分散強化学習(RL)においてその有用性を示した。
残念ながら、勾配推定プロセスでは、大域的変数と同じ次元のランダムサンプルがほとんど必要であり、また/または大域的コスト関数の評価が必要であり、大規模なネットワークに対して高い推定ばらつきを引き起こす可能性がある。
本稿では,最適化対象に固有のネットワーク構造を利用して,各エージェントがコンセンサスプロトコルを使わずに,局所的なコスト評価によって局所的な勾配を推定できる分散ゼロオーダーアルゴリズムを提案する。
提案アルゴリズムは非同期更新方式を示し,ブロック座標降下法に基づいて,非凸領域を持つ確率論的非凸最適化のために設計されている。
このアルゴリズムは後に、分散線形二次レギュレータ設計のための分散モデルなしRLアルゴリズムとして使用され、学習グラフは分散学習におけるエージェント間の必要な相互作用関係を記述するように設計されている。
本稿では,集中型ZOOアルゴリズムに対して,収束率と分散度をベンチマークするために提案アルゴリズムを実証検証する。
Recently introduced distributed zeroth-order optimization (ZOO) algorithms have shown their utility in distributed reinforcement learning (RL). Unfortunately, in the gradient estimation process, almost all of them require random samples with the same dimension as the global variable and/or require evaluation of the global cost function, which may induce high estimation variance for large-scale networks. In this paper, we propose a novel distributed zeroth-order algorithm by leveraging the network structure inherent in the optimization objective, which allows each agent to estimate its local gradient by local cost evaluation independently, without use of any consensus protocol. The proposed algorithm exhibits an asynchronous update scheme, and is designed for stochastic non-convex optimization with a possibly non-convex feasible domain based on the block coordinate descent method. The algorithm is later employed as a distributed model-free RL algorithm for distributed linear quadratic regulator design, where a learning graph is designed to describe the required interaction relationship among agents in distributed learning. We provide an empirical validation of the proposed algorithm to benchmark its performance on convergence rate and variance against a centralized ZOO algorithm. | 翻訳日:2024-05-06 18:43:25 公開日:2024-05-03 |
# InceptionXML: 短いテキストのエクストリーム分類のための同期ネガティブサンプリングを備えた軽量フレームワーク
InceptionXML: A Lightweight Framework with Synchronized Negative Sampling for Short Text Extreme Classification ( http://arxiv.org/abs/2109.07319v4 ) ライセンス: Link先を確認 | Siddhant Kharbanda, Atmadeep Banerjee, Devaansh Gupta, Akash Palrecha, Rohit Babbar, | (参考訳) ショートテキスト・エクストリーム分類(Short Text Extreme Classification)と呼ばれる、多数のターゲットラベルに対するショートテキストデータの自動アノテーションは、関連する検索の予測や製品レコメンデーションを含む多くのアプリケーションを発見した。
本稿では,検索やレコメンデーションで発生する短文クエリにおける単語順序の欠如に対して,軽量で強力で堅牢な畳み込みアーキテクチャInceptionXMLを提案する。
テキスト分類における従来のCNNのように,単語次元ではなく埋め込み次元に沿って操作をリキャストすることで,畳み込みの適用の有効性を示す。
何百万ものラベルを持つデータセットにモデルをスケールするために、最近提案されたラベルショートリストと極端な分類器を同期させることにより、ラベルショートリストのための動的ハード負のマイニング手法の欠点を改善するSyncXMLパイプラインを提案する。
SyncXMLは推論時間を半分に短縮するだけでなく、モデルサイズの点で最先端のAstecよりも桁違いに小さい。
InceptionXMLは、ベンチマークデータセットにおける既存のアプローチよりも優れているだけでなく、変換器のベースラインがわずか2%のFLOPしか必要としないことを示す。
InceptionXMLのコードはhttps://github.com/xmc-aalto/inceptionxml.comで公開されている。
Automatic annotation of short-text data to a large number of target labels, referred to as Short Text Extreme Classification, has found numerous applications including prediction of related searches and product recommendation. In this paper, we propose a convolutional architecture InceptionXML which is light-weight, yet powerful, and robust to the inherent lack of word-order in short-text queries encountered in search and recommendation. We demonstrate the efficacy of applying convolutions by recasting the operation along the embedding dimension instead of the word dimension as applied in conventional CNNs for text classification. Towards scaling our model to datasets with millions of labels, we also propose SyncXML pipeline which improves upon the shortcomings of the recently proposed dynamic hard-negative mining technique for label short-listing by synchronizing the label-shortlister and extreme classifier. SyncXML not only reduces the inference time to half but is also an order of magnitude smaller than state-of-the-art Astec in terms of model size. Through a comprehensive empirical comparison, we show that not only can InceptionXML outperform existing approaches on benchmark datasets but also the transformer baselines requiring only 2% FLOPs. The code for InceptionXML is available at https://github.com/xmc-aalto/inceptionxml. | 翻訳日:2024-05-06 18:43:25 公開日:2024-05-03 |
# クエリを用いたランダムサブグラフ検出
Random Subgraph Detection Using Queries ( http://arxiv.org/abs/2110.00744v5 ) ライセンス: Link先を確認 | Wasim Huleihel, Arya Mazumdar, Soumyabrata Pal, | (参考訳) 植込み高密度部分グラフ検出問題は、与えられた(ランダム)グラフに異常に密度の高い部分グラフが存在するかどうかをテストするタスクを指す。
具体的には、$n$頂点上の無向グラフと非重み付きグラフを観察する。
ヌル仮説の下では、グラフは辺確率(あるいは密度)$q$のErd\H{o}s-R\'{e}nyiグラフの実現である。
代替として、辺確率$p>q$を持つ$k$Verticesに部分グラフがある。
この問題の統計的および計算上の障壁は、幅広いエッジパラメータ$p$と$q$に対してよく理解されている。
本稿では,適応的なエッジクエリを用いてグラフの比較的小さな部分のみを観測できる,上記の問題の自然な変形について考察する。
このモデルでは,植込み部分グラフの存在を検出するのに必要なクエリ数と十分なクエリ数(準多項式最適アルゴリズムを伴う)を決定する。
また,上述の下位境界よりも多くの問合せがあるにもかかわらず,植込み部分グラフを検出できる多項式時間アルゴリズムを提案する。
余剰法では多項式時間アルゴリズムは存在しないと推測する。
我々の結果は過去の文献で提起された2つのオープンな疑問を解決した。
The planted densest subgraph detection problem refers to the task of testing whether in a given (random) graph there is a subgraph that is unusually dense. Specifically, we observe an undirected and unweighted graph on $n$ vertices. Under the null hypothesis, the graph is a realization of an Erd\H{o}s-R\'{e}nyi graph with edge probability (or, density) $q$. Under the alternative, there is a subgraph on $k$ vertices with edge probability $p>q$. The statistical as well as the computational barriers of this problem are well-understood for a wide range of the edge parameters $p$ and $q$. In this paper, we consider a natural variant of the above problem, where one can only observe a relatively small part of the graph using adaptive edge queries. For this model, we determine the number of queries necessary and sufficient (accompanied with a quasi-polynomial optimal algorithm) for detecting the presence of the planted subgraph. We also propose a polynomial-time algorithm which is able to detect the planted subgraph, albeit with more queries compared to the above lower bound. We conjecture that in the leftover regime, no polynomial-time algorithms exist. Our results resolve two open questions posed in the past literature. | 翻訳日:2024-05-06 18:43:25 公開日:2024-05-03 |
# 重力場における量子時間拡張
Quantum time dilation in a gravitational field ( http://arxiv.org/abs/2204.10609v2 ) ライセンス: Link先を確認 | Jerzy Paczos, Kacper Dębski, Piotr T. Grochowski, Alexander R. H. Smith, Andrzej Dragan, | (参考訳) 相対性理論によれば、理想的な時計の読み取りは、時空を通して古典的な軌道に沿って経過した固有時間と解釈される。
対照的に、量子理論は、多くの同時軌跡を1つの量子時計に関連付けることを許容し、それぞれが適切に重み付けされる。
ここでは、重ね合わせの原理が、単純な時計(崩壊する2段階の原子)によって観測される重力時間拡張にどのように影響するかを考察する。
このような原子を位置重畳に配置することで、自然発光における古典的時間拡張現象に対する量子的寄与を分析することができる。
特に、重力場における分離波パケットのコヒーレント重ね合わせで調製された原子の放出速度は、これらのパケットの古典的な混合における原子の放出速度とは異なることが示され、量子重力時間拡張効果が生じる。
この非古典的効果は、現在の原子時計の分解能内にある原子の内部エネルギーの分数周波数シフトにも現れることを示した。
さらに,原子放出スペクトルに対する空間コヒーレンスの影響を示す。
According to relativity, the reading of an ideal clock is interpreted as the elapsed proper time along its classical trajectory through spacetime. In contrast, quantum theory allows the association of many simultaneous trajectories with a single quantum clock, each weighted appropriately. Here, we investigate how the superposition principle affects the gravitational time dilation observed by a simple clock - a decaying two-level atom. Placing such an atom in a superposition of positions enables us to analyze a quantum contribution to a classical time dilation manifest in spontaneous emission. In particular, we show that the emission rate of an atom prepared in a coherent superposition of separated wave packets in a gravitational field is different from the emission rate of an atom in a classical mixture of these packets, which gives rise to a quantum gravitational time dilation effect. We demonstrate that this nonclassical effect also manifests in a fractional frequency shift of the internal energy of the atom that is within the resolution of current atomic clocks. In addition, we show the effect of spatial coherence on the atom's emission spectrum. | 翻訳日:2024-05-06 18:35:59 公開日:2024-05-03 |
# 弱監視行動局所化のための近隣住民間の凸結合性
Convex Combination Consistency between Neighbors for Weakly-supervised Action Localization ( http://arxiv.org/abs/2205.00400v3 ) ライセンス: Link先を確認 | Qinying Liu, Zilei Wang, Ruoxi Chen, Zhilin Li, | (参考訳) WTAL(Weakly-supervised temporal action Localization)は、ビデオレベルのラベルなど、弱い監視しか持たないアクションインスタンスを検出することを目的としている。
現在の~\textit{de facto}パイプラインは、時間的クラスのアクティベーションシーケンス上で、連続したハイスコア領域をしきい値にし、グループ化することで、アクションインスタンスを特定する。
この経路では、隣接するスニペット間の関係を認識するためのモデルの能力が重要であり、アクション境界の質を決定する。
しかし、隣接するスニペット間のばらつきは典型的には微妙であるため誤りが多く、残念ながら文献では見過ごされている。
この問題に対処するため,近隣住民間のコンベックス結合一貫性(C$^3$BN)という新しいWTALアプローチを提案する。
C$3$BNは、隣接するスニペットの凸結合によって隣接するスニペット間の多様性を増大させるマイクロデータ拡張戦略と、モデルを変換に不変に強制するマクロ-マイクロ一貫性正規化と、ビデオセマンティクス、スニペット予測、スニペット表現の2つの主要な要素から構成される。
その結果, 隣接するスニペット間のきめ細かいパターンの探索が可能となり, より堅牢な動作境界の定位が可能となった。
ビデオレベルとポイントレベルの監督を行うWTALの各種ベースライン上でのC$^3$BNの有効性を実験的に検証した。
コードはhttps://github.com/Qinying-Liu/C3BNにある。
Weakly-supervised temporal action localization (WTAL) intends to detect action instances with only weak supervision, e.g., video-level labels. The current~\textit{de facto} pipeline locates action instances by thresholding and grouping continuous high-score regions on temporal class activation sequences. In this route, the capacity of the model to recognize the relationships between adjacent snippets is of vital importance which determines the quality of the action boundaries. However, it is error-prone since the variations between adjacent snippets are typically subtle, and unfortunately this is overlooked in the literature. To tackle the issue, we propose a novel WTAL approach named Convex Combination Consistency between Neighbors (C$^3$BN). C$^3$BN consists of two key ingredients: a micro data augmentation strategy that increases the diversity in-between adjacent snippets by convex combination of adjacent snippets, and a macro-micro consistency regularization that enforces the model to be invariant to the transformations~\textit{w.r.t.} video semantics, snippet predictions, and snippet representations. Consequently, fine-grained patterns in-between adjacent snippets are enforced to be explored, thereby resulting in a more robust action boundary localization. Experimental results demonstrate the effectiveness of C$^3$BN on top of various baselines for WTAL with video-level and point-level supervisions. Code is at https://github.com/Qinying-Liu/C3BN. | 翻訳日:2024-05-06 18:35:59 公開日:2024-05-03 |
# Assurance 2.0による信頼性の評価
Assessing Confidence with Assurance 2.0 ( http://arxiv.org/abs/2205.04522v4 ) ライセンス: Link先を確認 | Robin Bloomfield, John Rushby, | (参考訳) アシュアランス・ケースは、安全やセキュリティに関する主要な主張の真相を正当化できる信頼を提供するためのものである。
では、自然な疑問は、そのケースがどの程度の信頼を提供するのか、ということです。
信頼は単一の属性や測定に還元できない、と我々は主張する。
その代わりに、ポジティブ、ネガティブ、そして不確かさという3つの異なる視点に基づく属性に基づくべきだと提案する。
ポジティブ・パースペクティブ(Positive Perspectives)は、事件の証拠と全体的な議論が組み合わさった範囲を、その主張に対する信念を正当化する肯定的な声明として考える。
私たちは正当化のために高い基準を設定しました。
これに対する第一の正の測度は音性であり、これは議論を論理的証明として解釈する。
証拠の信頼は確率論的に表すことができ、証拠の「重み」がしきい値を超えたことを保証するための確認措置を用いる。
さらに、確率は、確率論理を用いて主張に対する確率的評価(probabilistic valuations)と呼ぶものを生成する議論のステップを通じて、証拠から集約することができる。
否定的な視点は、典型的には敗者として表現されるこの事件に対する疑念と挑戦とその探索と解決を記録している。
保証開発者は、確認バイアスから守らなければなりません。そして、ケースを開発する際には、潜在的な敗者を探究し、再作業を避け、レビュアーを助けるために、それらとその解決を記録すべきです。
Residual Doubts: 世界は不確実であり、すべての潜在的な敗者を解決することはできない。
リスクを探究し、受け入れがたいものや避けられないものと見なすことができます。
しかし、これらの判断は意識的なものであり、保証ケースに記録されていることは重要である。
本報告では,アシュアランス2.0のプロトタイプツールセットであるClarissaがどのように評価を支援しているか,その視点を詳細に検討する。
An assurance case is intended to provide justifiable confidence in the truth of its top claim, which typically concerns safety or security. A natural question is then "how much" confidence does the case provide? We argue that confidence cannot be reduced to a single attribute or measurement. Instead, we suggest it should be based on attributes that draw on three different perspectives: positive, negative, and residual doubts. Positive Perspectives consider the extent to which the evidence and overall argument of the case combine to make a positive statement justifying belief in its claims. We set a high bar for justification, requiring it to be indefeasible. The primary positive measure for this is soundness, which interprets the argument as a logical proof. Confidence in evidence can be expressed probabilistically and we use confirmation measures to ensure that the "weight" of evidence crosses some threshold. In addition, probabilities can be aggregated from evidence through the steps of the argument using probability logics to yield what we call probabilistic valuations for the claims. Negative Perspectives record doubts and challenges to the case, typically expressed as defeaters, and their exploration and resolution. Assurance developers must guard against confirmation bias and should vigorously explore potential defeaters as they develop the case, and should record them and their resolution to avoid rework and to aid reviewers. Residual Doubts: the world is uncertain so not all potential defeaters can be resolved. We explore risks and may deem them acceptable or unavoidable. It is crucial however that these judgments are conscious ones and that they are recorded in the assurance case. This report examines the perspectives in detail and indicates how Clarissa, our prototype toolset for Assurance 2.0, assists in their evaluation. | 翻訳日:2024-05-06 18:35:59 公開日:2024-05-03 |
# 量子検証と誤り検出の統一:最適化の理論とツール
Unifying Quantum Verification and Error-Detection: Theory and Tools for Optimisations ( http://arxiv.org/abs/2206.00631v4 ) ライセンス: Link先を確認 | Theodoros Kapourniotis, Elham Kashefi, Dominik Leichtle, Luka Music, Harold Ollivier, | (参考訳) クラウドベースの量子コンピューティングの出現により、クライアントによって量子サービスプロバイダに委譲された計算が忠実に実行されるという強力な保証を提供することが不可欠になった。
セキュア - 盲目で検証可能な - Delegated Quantum Computing (SDQC) がこの課題に対処するための重要なアプローチの1つとして登場したが、現在のプロトコルには以下の3つの要素の少なくとも1つが欠けている。
この問題に対処するため,本稿では,クライアントがサーバに要求する計算と,サーバの悪意のある動作を検出するように設計されたテストという,SDQCプロトコルの基本構造について述べる。
この抽象化を用いることで、構成可能な抽象暗号フレームワークにおいて、一般的なSDQCプロトコルのセキュリティとノイズロバスト性を暗示する、これらのコンポーネントに対する十分な条件のセットが得られた。
これは、これらのセキュリティ特性とテスト計算のエラー検出能力の対応を確立することで実現される。
テストの種類や、クライアントの計算とどのように混同されているかを変えると、セキュリティとノイズロスの異なる新しいSDQCプロトコルが自動的に生成される。
このアプローチは、テスト計算の十分な条件がプロトコルのセキュリティを証明するために必要なステップを単純化し、特定の状況に対するテストラウンドの設計と最適化に集中できるように、望まれるモジュラリティを提供します。
本稿では,有界誤り量子多項式時間計算のための改良されたSDQCプロトコルの探索を体系化することによってこれを実証する。
結果のプロトコルは、検証なしで計算を盲目的に委譲するために必要なものよりも、サーバ側でより多くのハードウェアを必要としません。
With the advent of cloud-based quantum computing, it has become vital to provide strong guarantees that computations delegated by clients to quantum service providers have been executed faithfully. Secure - blind and verifiable - Delegated Quantum Computing (SDQC) has emerged as one of the key approaches to address this challenge, yet current protocols lack at least one of the following three ingredients: composability, noise-robustness and modularity. To tackle this question, our paper lays out the fundamental structure of SDQC protocols, namely mixing two components: the computation which the client would like the server to perform and tests that are designed to detect a server's malicious behaviour. Using this abstraction, our main technical result is a set of sufficient conditions on these components which imply the security and noise-robustness of generic SDQC protocols in the composable Abstract Cryptography framework. This is done by establishing a correspondence between these security properties and the error-detection capabilities of the test computations. Changing the types of tests and how they are mixed with the client's computation automatically yields new SDQC protocols with different security and noise-robustness capabilities. This approach thereby provides the desired modularity as our sufficient conditions on test computations simplify the steps required to prove the security of the protocols and allows to focus on the design and optimisation of test rounds to specific situations. We showcase this by systematising the search for improved SDQC protocols for Bounded-error Quantum Polynomial-time computations. The resulting protocols do not require more hardware on the server's side than what is necessary to blindly delegate the computation without verification, and they outperform all previously known results. | 翻訳日:2024-05-06 18:35:59 公開日:2024-05-03 |
# 非線形時系列モデルに対する適応的深層学習
Adaptive deep learning for nonlinear time series models ( http://arxiv.org/abs/2207.02546v3 ) ライセンス: Link先を確認 | Daisuke Kurisu, Riku Fukami, Yuta Koike, | (参考訳) 本稿では、ディープニューラルネットワーク(DNN)を用いた非定常および非線形時系列モデルの平均関数の適応的非パラメトリック推定のための一般的な理論を開発する。
まず,2種類のDNN推定器,非ペナル化およびスパースペナル化DNN推定器について検討し,一般の非定常時系列に対する一般化誤差境界を確立する。
次に, 非線形一般化加法AR, 単一指数, しきい値ARモデルを含む, 幅広い非線形自己回帰(AR)モデルに属する平均関数を推定するために, ミニマックス下界を導出する。
その結果, スパースペナル化DNN推定器は適応的であり, 多くの非線形ARモデルに対して, 最小値の最適値を得ることができた。
数値シミュレーションにより,非線型ARモデルの非連続的低次元構造と不連続あるいは粗い平均関数を推定するためのDNN法の有用性を示す。
In this paper, we develop a general theory for adaptive nonparametric estimation of the mean function of a non-stationary and nonlinear time series model using deep neural networks (DNNs). We first consider two types of DNN estimators, non-penalized and sparse-penalized DNN estimators, and establish their generalization error bounds for general non-stationary time series. We then derive minimax lower bounds for estimating mean functions belonging to a wide class of nonlinear autoregressive (AR) models that include nonlinear generalized additive AR, single index, and threshold AR models. Building upon the results, we show that the sparse-penalized DNN estimator is adaptive and attains the minimax optimal rates up to a poly-logarithmic factor for many nonlinear AR models. Through numerical simulations, we demonstrate the usefulness of the DNN methods for estimating nonlinear AR models with intrinsic low-dimensional structures and discontinuous or rough mean functions, which is consistent with our theory. | 翻訳日:2024-05-06 18:35:59 公開日:2024-05-03 |
# ニューラルネットワークによる非拘束音声スプライシング検出と位置推定に向けて
Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks ( http://arxiv.org/abs/2207.14682v4 ) ライセンス: Link先を確認 | Denise Moussa, Germans Hirsch, Christian Riess, | (参考訳) 無料で使いやすいオーディオ編集ツールは、オーディオスプライシングを簡単に行うことができる。
同一人物の様々な音声サンプルを組み合わせることで、拘束フォージェリーを作成することができる。
このようなスプライスの検出は、誤情報を考慮する場合の公共部門と、証拠の完全性を検証するための法的文脈の両方において重要である。
残念なことに、既存のオーディオスプライシング検出アルゴリズムのほとんどは手作りの機能を使用し、特定の仮定を行う。
しかし、刑事捜査員は、不明な特徴を持つ制約のない情報源からの音声サンプルに直面することが多く、より一般的に適用可能な方法の必要性が高まっている。
本研究は,このニーズに対応するために,制約のない音声スプライシング検出に向けた第一歩を踏み出す。
我々は、スプライシングを偽装する可能性のある後処理操作の形で、様々な攻撃シナリオをシミュレートする。
本研究では,検出とローカライゼーションをスプライシングするTransformer sequence-to-sequence (seq2seq) ネットワークを提案する。
提案手法は,既存のスプライシング検出手法であるEfficientNet[28]とRegNet[25]よりも優れていることを示す。
Freely available and easy-to-use audio editing tools make it straightforward to perform audio splicing. Convincing forgeries can be created by combining various speech samples from the same person. Detection of such splices is important both in the public sector when considering misinformation, and in a legal context to verify the integrity of evidence. Unfortunately, most existing detection algorithms for audio splicing use handcrafted features and make specific assumptions. However, criminal investigators are often faced with audio samples from unconstrained sources with unknown characteristics, which raises the need for more generally applicable methods. With this work, we aim to take a first step towards unconstrained audio splicing detection to address this need. We simulate various attack scenarios in the form of post-processing operations that may disguise splicing. We propose a Transformer sequence-to-sequence (seq2seq) network for splicing detection and localization. Our extensive evaluation shows that the proposed method outperforms existing dedicated approaches for splicing detection [3, 10] as well as the general-purpose networks EfficientNet [28] and RegNet [25]. | 翻訳日:2024-05-06 18:35:59 公開日:2024-05-03 |
# 圧縮インフォーム変換器を用いた法定プレート認識
Forensic License Plate Recognition with Compression-Informed Transformers ( http://arxiv.org/abs/2207.14686v3 ) ライセンス: Link先を確認 | Denise Moussa, Anatol Maier, Andreas Spruck, Jürgen Seiler, Christian Riess, | (参考訳) 犯罪捜査のような法的文脈では、非可読ナンバープレート(LP)を高度に圧縮された/または低解像度の映像、例えば監視カメラから解読する必要がある。
本研究では,強い圧縮下での認識を改善するために,入力圧縮レベルに知識を埋め込んだサイドインフォームドトランスフォーマーアーキテクチャを提案する。
低品質な実世界のデータセットにおけるライセンスプレート認識(LPR)におけるトランスフォーマーの有効性を示す。
また, 高度に劣化し, 不可解なLP画像を含む合成データセットを提供し, その上に埋め込まれた知識の影響を解析する。
このネットワークは既存のFLPR手法や標準的な最先端の画像認識モデルより優れており、パラメータは少ない。
最も深刻な劣化画像では、最大8.9%の認識を改善することができる。
Forensic license plate recognition (FLPR) remains an open challenge in legal contexts such as criminal investigations, where unreadable license plates (LPs) need to be deciphered from highly compressed and/or low resolution footage, e.g., from surveillance cameras. In this work, we propose a side-informed Transformer architecture that embeds knowledge on the input compression level to improve recognition under strong compression. We show the effectiveness of Transformers for license plate recognition (LPR) on a low-quality real-world dataset. We also provide a synthetic dataset that includes strongly degraded, illegible LP images and analyze the impact of knowledge embedding on it. The network outperforms existing FLPR methods and standard state-of-the art image recognition models while requiring less parameters. For the severest degraded images, we can improve recognition by up to 8.9 percent points. | 翻訳日:2024-05-06 18:35:59 公開日:2024-05-03 |
# Weisfeiler-Lehmanがダイナミックに: 分散グラフと動的グラフのためのグラフニューラルネットワークの表現力の分析
Weisfeiler-Lehman goes Dynamic: An Analysis of the Expressive Power of Graph Neural Networks for Attributed and Dynamic Graphs ( http://arxiv.org/abs/2210.03990v2 ) ライセンス: Link先を確認 | Silvia Beddar-Wiesing, Giuseppe Alessio D'Inverno, Caterina Graziani, Veronica Lachi, Alice Moallemy-Oureh, Franco Scarselli, Josephine Maria Thomas, | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ処理のための大規模なリレーショナルモデルである。
GNNの表現力に関する最近の理論的研究は2つの問題に焦点を当てている。
一方、GNNはグラフを識別する能力においてWeisfeiler-Lehmanテスト(1-WL)と同じくらい強力であることが証明されている。
さらに、1-WL による同値性は展開同値性に等しいことが示されている。
一方、GNNは1-WL/展開同値の制約を変調するグラフ上の普遍近似器であることが判明した。
しかし、これらの結果はノード属性を持つ静的非分散ホモジニアスグラフ(SAUHG)にのみ適用される。
対照的に、現実のアプリケーションは、しばしばより広い種類のグラフを含む。
本稿では,他の2つのグラフ領域に対するGNNの表現力に関する理論的解析を行う。
動的グラフは現代のアプリケーションで広く使われているため、この領域におけるGNNの表現能力の研究は、実際的な理由から不可欠であり、また、静的グラフと比較して動的GNNのアーキテクチャの違いにより、新しい分析手法が必要である。
一方、SAUHGsの検証は、すべてのグラフの標準形式として機能するので、特に関連性が高い:全てのグラフ型は、ノードとエッジの両方の属性を持つSAUHGsに情報を損失することなく変換可能であることが示されている。
本稿では,これらの領域に対する汎用GNNモデルと適切な1-WLテストについて考察する。
そして、GNNの表現力に関する既知の結果は、GNNが1-WLテストと同じ能力を持つこと、GNNが1-WL/アンフォールディング同値であること、GNNが1-WL/アンフォールディング同値であることを示す。
Graph Neural Networks (GNNs) are a large class of relational models for graph processing. Recent theoretical studies on the expressive power of GNNs have focused on two issues. On the one hand, it has been proven that GNNs are as powerful as the Weisfeiler-Lehman test (1-WL) in their ability to distinguish graphs. Moreover, it has been shown that the equivalence enforced by 1-WL equals unfolding equivalence. On the other hand, GNNs turned out to be universal approximators on graphs modulo the constraints enforced by 1-WL/unfolding equivalence. However, these results only apply to Static Attributed Undirected Homogeneous Graphs (SAUHG) with node attributes. In contrast, real-life applications often involve a much larger variety of graph types. In this paper, we conduct a theoretical analysis of the expressive power of GNNs for two other graph domains that are particularly interesting in practical applications, namely dynamic graphs and SAUGHs with edge attributes. Dynamic graphs are widely used in modern applications; hence, the study of the expressive capability of GNNs in this domain is essential for practical reasons and, in addition, it requires a new analyzing approach due to the difference in the architecture of dynamic GNNs compared to static ones. On the other hand, the examination of SAUHGs is of particular relevance since they act as a standard form for all graph types: it has been shown that all graph types can be transformed without loss of information to SAUHGs with both attributes on nodes and edges. This paper considers generic GNN models and appropriate 1-WL tests for those domains. Then, the known results on the expressive power of GNNs are extended to the mentioned domains: it is proven that GNNs have the same capability as the 1-WL test, the 1-WL equivalence equals unfolding equivalence and that GNNs are universal approximators modulo 1-WL/unfolding equivalence. | 翻訳日:2024-05-06 18:35:59 公開日:2024-05-03 |
# 局所的に異なる私的メカニズムの収縮
Contraction of Locally Differentially Private Mechanisms ( http://arxiv.org/abs/2210.13386v4 ) ライセンス: Link先を確認 | Shahab Asoodeh, Huanyu Zhang, | (参考訳) 局所微分プライベート機構の収縮特性について検討する。
具体的には、$PK$と$QK$の出力分布が$\epsilon$-LDPメカニズムの$K$のばらつきについて、対応する入力分布の$P$と$Q$のばらつきについて厳密な上限を導出する。
我々の最初の技術結果は、$\chi^2$-divergence $\chi^2(PK}\|QK)$と$\varepsilon$の点で鋭い上限を示す。
また、KL偏差や正方形ヘルリンガー距離を含む大きな分岐族についても、同じ結果が成り立つことを示した。
第2の技術的結果は、全変動距離$\mathsf{TV}(P, Q)$と$\epsilon$の点で、$\chi^2(PK\|QK)$の上界を与える。
次に、これらの境界を利用して、局所的なvan Treesの不等式、Le Cam's、Assouad's、およびミニマックス推定リスクをバウンディングするための強力なツールである相互情報手法を確立する。
これらの結果は、エントロピーや離散分布推定、非パラメトリック密度推定、仮説テストといったいくつかの統計問題において、最先端技術よりも優れたプライバシー分析をもたらすことが示されている。
We investigate the contraction properties of locally differentially private mechanisms. More specifically, we derive tight upper bounds on the divergence between $PK$ and $QK$ output distributions of an $\epsilon$-LDP mechanism $K$ in terms of a divergence between the corresponding input distributions $P$ and $Q$, respectively. Our first main technical result presents a sharp upper bound on the $\chi^2$-divergence $\chi^2(PK}\|QK)$ in terms of $\chi^2(P\|Q)$ and $\varepsilon$. We also show that the same result holds for a large family of divergences, including KL-divergence and squared Hellinger distance. The second main technical result gives an upper bound on $\chi^2(PK\|QK)$ in terms of total variation distance $\mathsf{TV}(P, Q)$ and $\epsilon$. We then utilize these bounds to establish locally private versions of the van Trees inequality, Le Cam's, Assouad's, and the mutual information methods, which are powerful tools for bounding minimax estimation risks. These results are shown to lead to better privacy analyses than the state-of-the-arts in several statistical problems such as entropy and discrete distribution estimation, non-parametric density estimation, and hypothesis testing. | 翻訳日:2024-05-06 18:35:59 公開日:2024-05-03 |
# エンド・ツー・エンド複合システムにおける因果異常の検出とランク付け
Detecting and Ranking Causal Anomalies in End-to-End Complex System ( http://arxiv.org/abs/2301.07281v2 ) ライセンス: Link先を確認 | Ching Chang, Wen-Chih Peng, | (参考訳) 技術の急速な発展に伴い、大規模工場の自動監視システムがますます重要になっている。
大量の機械センサデータを集めることで、異常を見つける多くの方法が得られます。
自動監視システムの真のコアバリューは、問題の原因を特定し、追跡することだと考えています。
因果異常を発見する最も有名な方法はRCAであるが、無視できない問題が数多くある。
彼らはAutoRegressive eXogenous(ARX)モデルを使用して、マシンプロファイルとして時間不変の相関ネットワークを作成し、このプロファイルを使用して、障害伝搬と呼ばれる手法を用いて因果異常を追跡する。
機械の動作をARXが確立した相関ネットワークを用いて記述する際には,(1)状態の多様性を考慮せず,(2)異なる時間ラグとの相関を別々に考慮しない,という2つの大きな問題がある。
これらの問題に基づいて、先述の問題を完全に解決するRCAE2Eのランク付け因果異常( Ranking Causal Anomalies)というフレームワークを提案する。
実験では, 合成データと実世界の大規模光電工場データを用いて, 方法仮説の正しさと存在を検証した。
With the rapid development of technology, the automated monitoring systems of large-scale factories are becoming more and more important. By collecting a large amount of machine sensor data, we can have many ways to find anomalies. We believe that the real core value of an automated monitoring system is to identify and track the cause of the problem. The most famous method for finding causal anomalies is RCA, but there are many problems that cannot be ignored. They used the AutoRegressive eXogenous (ARX) model to create a time-invariant correlation network as a machine profile, and then use this profile to track the causal anomalies by means of a method called fault propagation. There are two major problems in describing the behavior of a machine by using the correlation network established by ARX: (1) It does not take into account the diversity of states (2) It does not separately consider the correlations with different time-lag. Based on these problems, we propose a framework called Ranking Causal Anomalies in End-to-End System (RCAE2E), which completely solves the problems mentioned above. In the experimental part, we use synthetic data and real-world large-scale photoelectric factory data to verify the correctness and existence of our method hypothesis. | 翻訳日:2024-05-06 18:35:59 公開日:2024-05-03 |
# 純16ビット浮動小数点ニューラルネットワークの隠れ電力
The Hidden Power of Pure 16-bit Floating-Point Neural Networks ( http://arxiv.org/abs/2301.12809v2 ) ライセンス: Link先を確認 | Juyoung Yun, Byungkon Kang, Zhoulai Fu, | (参考訳) ニューラルネットワークの精度を32ビットの精度から下げることは、空間と時間の増大にもかかわらず、長年、パフォーマンスに有害であると考えられてきた。
多くの研究が半精度ニューラルネットワークを実装するための様々な手法を提案しているが、純粋な16ビット設定を研究するものはない。
本稿では,32ビットネットワーク上での純粋16ビットニューラルネットワークの性能向上について検討する。
我々は、様々な16ビットニューラルネットワークの性能と32ビットモデルの性能を好適に比較した広範な実験結果を示す。
さらに、16ビットモデルの効率を理論的に解析し、実証的な証拠と組み合わせてそれを裏付ける。
最後に,低精度トレーニングが本当に有害な状況について論じる。
Lowering the precision of neural networks from the prevalent 32-bit precision has long been considered harmful to performance, despite the gain in space and time. Many works propose various techniques to implement half-precision neural networks, but none study pure 16-bit settings. This paper investigates the unexpected performance gain of pure 16-bit neural networks over the 32-bit networks in classification tasks. We present extensive experimental results that favorably compare various 16-bit neural networks' performance to those of the 32-bit models. In addition, a theoretical analysis of the efficiency of 16-bit models is provided, which is coupled with empirical evidence to back it up. Finally, we discuss situations in which low-precision training is indeed detrimental. | 翻訳日:2024-05-06 18:35:59 公開日:2024-05-03 |
# リンク予測を補完したニューラルコモン近隣
Neural Common Neighbor with Completion for Link Prediction ( http://arxiv.org/abs/2302.00890v3 ) ライセンス: Link先を確認 | Xiyuan Wang, Haotong Yang, Muhan Zhang, | (参考訳) 本研究では,新しいリンク予測モデルを提案し,グラフの不完全性の研究によりさらに促進する。
まず、構造的特徴(SF)を活用する革新的なアーキテクチャであるMPNN-then-SFを紹介し、MPNNの表現プールを誘導する。
NCNは既存のモデルと比較して優れた表現性とスケーラビリティを示しており、SF-then-MPNN、SF-and-MPNN、SFとMPNNを分離するSF-and-MPNNの2つのカテゴリに分類される。
第二に、グラフの不完全性(いくつかのリンクが入力グラフで観測されていない現象)が、一般的な隣人のようにSFに与える影響について検討する。
データセットの可視化により、不完全性は一般的な隣り合いを減らし、分布シフトを誘導し、モデルの性能に著しく影響を及ぼす。
この問題に対処するために、リンク予測モデルを用いて、一般的な隣り合う構造を完成させる手法を提案する。
この手法とNCNを組み合わせることで、NCNC(Neural Common Neighbor with Completion)を提案する。
NCNとNCNCは最近の強力なベースラインを大きなマージンで上回り、NCNCは標準リンク予測ベンチマークの最先端モデルをさらに上回っている。
私たちのコードはhttps://github.com/GraphPKU/NeuralCommonNeighbor.orgから入手可能です。
In this work, we propose a novel link prediction model and further boost it by studying graph incompleteness. First, we introduce MPNN-then-SF, an innovative architecture leveraging structural feature (SF) to guide MPNN's representation pooling, with its implementation, namely Neural Common Neighbor (NCN). NCN exhibits superior expressiveness and scalability compared with existing models, which can be classified into two categories: SF-then-MPNN, augmenting MPNN's input with SF, and SF-and-MPNN, decoupling SF and MPNN. Second, we investigate the impact of graph incompleteness -- the phenomenon that some links are unobserved in the input graph -- on SF, like the common neighbor. Through dataset visualization, we observe that incompleteness reduces common neighbors and induces distribution shifts, significantly affecting model performance. To address this issue, we propose to use a link prediction model to complete the common neighbor structure. Combining this method with NCN, we propose Neural Common Neighbor with Completion (NCNC). NCN and NCNC outperform recent strong baselines by large margins, and NCNC further surpasses state-of-the-art models in standard link prediction benchmarks. Our code is available at https://github.com/GraphPKU/NeuralCommonNeighbor. | 翻訳日:2024-05-06 18:35:59 公開日:2024-05-03 |
# 単純だが汎用的なネットワークによる二元分離に向けて
Towards Diverse Binary Segmentation via A Simple yet General Gated Network ( http://arxiv.org/abs/2303.10396v2 ) ライセンス: Link先を確認 | Xiaoqi Zhao, Youwei Pang, Lihe Zhang, Huchuan Lu, Lei Zhang, | (参考訳) 多くのバイナリセグメンテーションタスクでは、ほとんどのCNNベースのメソッドは、基本構造としてU字型エンコーダデコーダネットワークを使用している。
エンコーダがデコーダと情報を交換する際には2つの重要な問題を無視する: 1つは干渉制御機構の欠如であり、もう1つは異なるエンコーダレベルからのコントリビューションの相違を考慮しない。
本研究では,これらすべてに一度に対処するシンプルな汎用ネットワーク(GateNet)を提案する。
多段ゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに選択的に送信することができる。
さらに、異なるレベルの特徴間の協調を構築し、ネットワークの識別能力を向上させるために、ゲート二重分岐構造を設計する。
さらに,ASPP や DenseASPP に柔軟に組み込むことができ,様々なスケールの前方物体を正確に位置決めできる新しい折り畳み型畳み型畳み型畳み型畳み込みシステム「Fold」を導入している。
GateNetは、汎用および特定のオブジェクトセグメンテーションやマルチモーダルセグメンテーションなど、多くのバイナリセグメンテーションタスクに簡単に一般化できる。
ベルとホイッスルがなければ、我々のネットワークは10のバイナリセグメンテーションタスクの33のデータセットに対して、10のメトリクス未満の最先端の手法に対して常に好意的に機能する。
In many binary segmentation tasks, most CNNs-based methods use a U-shape encoder-decoder network as their basic structure. They ignore two key problems when the encoder exchanges information with the decoder: one is the lack of interference control mechanism between them, the other is without considering the disparity of the contributions from different encoder levels. In this work, we propose a simple yet general gated network (GateNet) to tackle them all at once. With the help of multi-level gate units, the valuable context information from the encoder can be selectively transmitted to the decoder. In addition, we design a gated dual branch structure to build the cooperation among the features of different levels and improve the discrimination ability of the network. Furthermore, we introduce a "Fold" operation to improve the atrous convolution and form a novel folded atrous convolution, which can be flexibly embedded in ASPP or DenseASPP to accurately localize foreground objects of various scales. GateNet can be easily generalized to many binary segmentation tasks, including general and specific object segmentation and multi-modal segmentation. Without bells and whistles, our network consistently performs favorably against the state-of-the-art methods under 10 metrics on 33 datasets of 10 binary segmentation tasks. | 翻訳日:2024-05-06 18:26:14 公開日:2024-05-03 |
# ニュースメディアにおける偏見の考え方--国際比較
Mentions of Prejudice in News Media -- An International Comparison ( http://arxiv.org/abs/2304.01596v3 ) ライセンス: Link先を確認 | David Rozado, | (参考訳) 以前の調査では、2010年以降、米国および英国のニュース・メディアの偏見(人種差別、性差別、ホモフォビア、イスラム恐怖症、反ユダヤ主義など)を非難するために使われる用語が急速に増加した。
ここでは、過去の分析を、ニュースメディア組織の国際的サンプルに拡張する。
そこで我々は、西欧、大陸ヨーロッパ、ラテンアメリカ、サブサハラアフリカ、ペルシャ湾地域、アジア6か国を代表する36カ国のニュースメディア124ヶ国を対象に、偏見を否定する用語と社会正義に関連する用語(多様性、包摂性、平等性など)の9800万以上のニュース・意見記事の頻度を定量化する。
2010年以降、研究専門用語のニュースメディアにおける注目度が高まる傾向は、米国や英国には及ばないが、むしろ2015年以降の先進国では2010年代前半から始まった大半が世界的な現象であると考えられる。
しかし、異なる世界の地域のニュースメディアは、様々な強度で異なるタイプの偏見を強調している。
アメリカのニュースメディアが、彼らのコンテンツにおける偏見の報道頻度を増大させているという証拠は見つからない。
調査対象の用語群が、ほとんどの国でニュースメディアで増加する時間的同期性は、この現象を誘発する根本原因について重要な疑問を提起する。
Previous research has identified a post-2010 sharp increase of terms used to denounce prejudice (i.e. racism, sexism, homophobia, Islamophobia, anti-Semitism, etc.) in U.S. and U.K. news media content. Here, we extend previous analysis to an international sample of news media organizations. Thus, we quantify the prevalence of prejudice-denouncing terms and social justice associated terminology (diversity, inclusion, equality, etc.) in over 98 million news and opinion articles across 124 popular news media outlets from 36 countries representing 6 different world regions: English-speaking West, continental Europe, Latin America, sub-Saharan Africa, Persian Gulf region and Asia. We find that the post-2010 increasing prominence in news media of the studied terminology is not circumscribed to the U.S. and the U.K. but rather appears to be a mostly global phenomenon starting in the first half of the 2010s decade in pioneering countries yet largely prevalent around the globe post-2015. However, different world regions' news media emphasize distinct types of prejudice with varying degrees of intensity. We find no evidence of U.S. news media having been first in the world in increasing the frequency of prejudice coverage in their content. The large degree of temporal synchronicity with which the studied set of terms increased in news media across a vast majority of countries raises important questions about the root causes driving this phenomenon. | 翻訳日:2024-05-06 18:26:14 公開日:2024-05-03 |
# 時間的トレース上の時間的平衡論理
Metric Temporal Equilibrium Logic over Timed Traces ( http://arxiv.org/abs/2304.14778v2 ) ライセンス: Link先を確認 | Arvid Becker, Pedro Cabalar, Martín Diéguez, Torsten Schaub, Anna Schuhmann, | (参考訳) 線形時間に基づく Answer Set Programming (ASP) の時間拡張では、動的システムの振る舞いは状態列によって捉えられる。
この表現は相対的な順序を反映するが、各状態に関連する特定の時間を抽象化する。
しかし、例えば計画やスケジューリングが手元にある場合など、多くのアプリケーションではタイミング制約が重要である。
我々は、時間的作用素が自然数上の間隔で制約される線形時間時間時間平衡論理の計量拡張を開発することで、この問題に対処する。
その結果生まれたMetric Equilibrium Logicは、定性的かつ定量的な動的制約を指定するためのASPベースのアプローチの基礎を提供する。
この目的のために、計量式をモナディックな一階述語に変換し、それらのモデルとメナディックな量化平衡論理の対応式を与える。
興味深いことに、私たちの翻訳はASPのモジュロ差分制約という観点で実装するためのブループリントを提供します。
In temporal extensions of Answer Set Programming (ASP) based on linear-time, the behavior of dynamic systems is captured by sequences of states. While this representation reflects their relative order, it abstracts away the specific times associated with each state. However, timing constraints are important in many applications like, for instance, when planning and scheduling go hand in hand. We address this by developing a metric extension of linear-time temporal equilibrium logic, in which temporal operators are constrained by intervals over natural numbers. The resulting Metric Equilibrium Logic provides the foundation of an ASP-based approach for specifying qualitative and quantitative dynamic constraints. To this end, we define a translation of metric formulas into monadic first-order formulas and give a correspondence between their models in Metric Equilibrium Logic and Monadic Quantified Equilibrium Logic, respectively. Interestingly, our translation provides a blue print for implementation in terms of ASP modulo difference constraints. | 翻訳日:2024-05-06 18:26:14 公開日:2024-05-03 |
# 触媒反応を用いたエンタングルメント蒸留のノーゴー定理
No-go theorem for entanglement distillation using catalysis ( http://arxiv.org/abs/2305.03489v3 ) ライセンス: Link先を確認 | Ludovico Lami, Bartosz Regula, Alexander Streltsov, | (参考訳) 触媒として知られる補助量子系の使用は、局所的な演算や古典的な通信の下での絡み合い変換の能力を高めることが知られている。
しかし、これらの利点の限界は決定されておらず、特にそのような援助が漸近的変換率の既知の制限を克服できるかどうか、特に有界な(耐え難い)状態の存在は分かっていない。
ここでは, 触媒が興味の系と相関し, パーミッシブな自由操作の選択下であっても, 触媒変換が正の部分的変換を伴う有界な絡み合い状態からの絡み合いの蒸留を許さないことを示す。
このことは、触媒が絡み合い理論を漸近的に可逆的にできる可能性を妨げる。
本手法は, 共役触媒による蒸留エンタングルメントおよびエンタングルメントコストの新たな漸近境界に基づく。
The use of ancillary quantum systems known as catalysts is known to be able to enhance the capabilities of entanglement transformations under local operations and classical communication. However, the limits of these advantages have not been determined, and in particular it is not known if such assistance can overcome the known restrictions on asymptotic transformation rates -- notably the existence of bound entangled (undistillable) states. Here we establish a general limitation of entanglement catalysis: we show that catalytic transformations can never allow for the distillation of entanglement from a bound entangled state with positive partial transpose, even if the catalyst may become correlated with the system of interest, and even under permissive choices of free operations. This precludes the possibility that catalysis can make entanglement theory asymptotically reversible. Our methods are based on new asymptotic bounds for the distillable entanglement and entanglement cost assisted by correlated catalysts. | 翻訳日:2024-05-06 18:26:14 公開日:2024-05-03 |
# 連続手話認識のためのデノジング拡散アライメント
Denoising-Diffusion Alignment for Continuous Sign Language Recognition ( http://arxiv.org/abs/2305.03614v4 ) ライセンス: Link先を確認 | Leming Guo, Wanli Xue, Yuxi Zhou, Ze Kang, Tiantian Yuan, Zan Gao, Shengyong Chen, | (参考訳) 連続手話認識(continuous sign language recognition, CSLR)は, 難聴者に対する能動的かつアクセシブルなコミュニケーションを促進することを目的とする。
CSLRの鍵となる課題は、ビデオと光沢シーケンス間の相互モダリティアライメントを実現する方法である。
しかし、CSLRの現在の相互モダリティパラダイムは、グロスコンテキストを用いて、映像クリップをグローバルな時間的コンテキストアライメントに導くことで、視覚から光沢マッピングにさらに影響を与え、認識性能に有害である。
この問題に対処するために,DDA と DDA の損失関数を組み合わせた DDA (Denoising-Diffusion Global Alignment) を提案する。
DDAは拡散に基づくグローバルアライメント技術を利用して、ビデオとグロスシーケンスをアライメントし、グローバル時間的コンテキストアライメントを容易にする。
具体的には、DDAはまず、ビデオおよび光沢シーケンスのための光沢部分ノイズバイモーダル表現を実行するための補助条件拡散を提案する。
拡散復調プロセスで表される認識指向アライメント知識の問題に対処するには、フィードバックはできない。
DDAはさらに、補助条件拡散にデコーダを追加し、自己監督型DDA損失によって部分雑音のバイモーダル表現をデノーズするDenoising-Diffusion Autoencoderを提案する。
復調処理において、ビデオの各ビデオクリップ表現を確実にガイドして、グロスシーケンス表現を復調することにより、それらの間のグローバルな時間的文脈を再確立することができる。
3つの公開ベンチマーク実験により、我々のDDAが最先端のパフォーマンスを達成し、DDAが映像表現の強化に有効であることを実証した。
Continuous sign language recognition (CSLR) aims to promote active and accessible communication for the hearing impaired, by recognizing signs in untrimmed sign language videos to textual glosses sequentially. The key challenge of CSLR is how to achieve the cross-modality alignment between videos and gloss sequences. However, the current cross-modality paradigms of CSLR overlook using the glosses context to guide the video clips for global temporal context alignment, which further affects the visual to gloss mapping and is detrimental to recognition performance. To tackle this problem, we propose a novel Denoising-Diffusion global Alignment (DDA), which consists of a denoising-diffusion autoencoder and DDA loss function. DDA leverages diffusion-based global alignment techniques to align video with gloss sequence, facilitating global temporal context alignment. Specifically, DDA first proposes the auxiliary condition diffusion to conduct the gloss-part noised bimodal representations for video and gloss sequence. To address the problem of the recognition-oriented alignment knowledge represented in the diffusion denoising process cannot be feedback. The DDA further proposes the Denoising-Diffusion Autoencoder, which adds a decoder in the auxiliary condition diffusion to denoise the partial noisy bimodal representations via the designed DDA loss in self-supervised. In the denoising process, each video clip representation of video can be reliably guided to re-establish the global temporal context between them via denoising the gloss sequence representation. Experiments on three public benchmarks demonstrate that our DDA achieves state-of-the-art performances and confirm the feasibility of DDA for video representation enhancement. | 翻訳日:2024-05-06 18:26:14 公開日:2024-05-03 |
# 指数的に変動パラメータが少ないテンソルネットワークによるニューラルネットワークの圧縮
Compressing neural network by tensor network with exponentially fewer variational parameters ( http://arxiv.org/abs/2305.06058v2 ) ライセンス: Link先を確認 | Yong Qing, Ke Li, Peng-Fei Zhou, Shi-Ju Ran, | (参考訳) 機械学習タスクに挑戦するために設計されたニューラルネットワーク(NN)は、一般的に、大きな変動パラメータを含む非常に非線形なマッピングである。
NNの複雑さは、もし制限されていない場合、過度な適合、一般化力の喪失、ハードウェアの耐え難いコストなど、予想外の深刻な問題を引き起こす可能性がある。
本研究では,指数関数的な自由パラメータを含む深部自動微分可能なテンソルネットワーク(ADTN)に符号化することで,NNの変動パラメータを著しく低減する汎用圧縮手法を提案する。
本手法の圧縮性能は、広く認識されているいくつかのNN(FC-2, LeNet-5, AlextNet, ZFNet, VGG-16)とデータセット(MNIST, CIFAR-10, CIFAR-100)で実証される。
例えば、VGG-16の2つの線形層に約10^{7}$パラメータを424パラメータで2つのADTNに圧縮し、CIFAR-10のテスト精度を90.17 \%から911.74\%$に改善した。
我々の研究は、TNをNNの変動パラメータを表現するのに非常に効率的な数学的構造として提案し、一般的に使用される行列やマルチウェイアレイよりも優れた圧縮性を示す。
Neural network (NN) designed for challenging machine learning tasks is in general a highly nonlinear mapping that contains massive variational parameters. High complexity of NN, if unbounded or unconstrained, might unpredictably cause severe issues including over-fitting, loss of generalization power, and unbearable cost of hardware. In this work, we propose a general compression scheme that significantly reduces the variational parameters of NN by encoding them to deep automatically-differentiable tensor network (ADTN) that contains exponentially-fewer free parameters. Superior compression performance of our scheme is demonstrated on several widely-recognized NN's (FC-2, LeNet-5, AlextNet, ZFNet and VGG-16) and datasets (MNIST, CIFAR-10 and CIFAR-100). For instance, we compress two linear layers in VGG-16 with approximately $10^{7}$ parameters to two ADTN's with just 424 parameters, where the testing accuracy on CIFAR-10 is improved from $90.17 \%$ to $91.74\%$. Our work suggests TN as an exceptionally efficient mathematical structure for representing the variational parameters of NN's, which exhibits superior compressibility over the commonly-used matrices and multi-way arrays. | 翻訳日:2024-05-06 18:26:14 公開日:2024-05-03 |
# 不均一データに対する予測的変化点検出
Predictive change point detection for heterogeneous data ( http://arxiv.org/abs/2305.06630v3 ) ライセンス: Link先を確認 | Anna-Christina Glock, Florian Sobieczky, Johannes Fürnkranz, Peter Filzmoser, Martin Jech, | (参考訳) 予測と比較」と呼ばれる予測機械学習モデルによって支援される変化点検出(CPD)フレームワークを導入し、偽陽性率と制御外平均ラン長で優れる他の最先端のオンラインCDDルーチンと関連して特徴付ける。
この手法は、CUSUMルールのようなシーケンシャルな分析から、これらの品質基準の観点から標準的手法を改善することに重点を置いている。
これは、ランニング平均のような典型的な傾向推定関数をより洗練された予測モデル(予測ステップ)に置き換え、それらの予後を実際のデータと比較することによって達成される(比較ステップ)。
予測ステップで使用される2つのモデルは、ARIMAモデルとLSTM再帰ニューラルネットワークである。
しかし、このフレームワークは一般的な用語で定式化されており、ここでテストされたものよりも、他の予測や比較手法の使用が可能である。
提案手法のパワーは, ごく少数の偽陽性状態において, ランイン, 定常状態, 発散する摩耗相を分離する変化点を検出するトライボロジーケーススタディで実証された。
A change point detection (CPD) framework assisted by a predictive machine learning model called "Predict and Compare" is introduced and characterised in relation to other state-of-the-art online CPD routines which it outperforms in terms of false positive rate and out-of-control average run length. The method's focus is on improving standard methods from sequential analysis such as the CUSUM rule in terms of these quality measures. This is achieved by replacing typically used trend estimation functionals such as the running mean with more sophisticated predictive models (Predict step), and comparing their prognosis with actual data (Compare step). The two models used in the Predict step are the ARIMA model and the LSTM recursive neural network. However, the framework is formulated in general terms, so as to allow the use of other prediction or comparison methods than those tested here. The power of the method is demonstrated in a tribological case study in which change points separating the run-in, steady-state, and divergent wear phases are detected in the regime of very few false positives. | 翻訳日:2024-05-06 18:26:14 公開日:2024-05-03 |
# 代替超伝導量子アーキテクチャの設計と実現のためのフレームワーク
A Framework for the Design and Realization of Alternative Superconducting Quantum Architectures ( http://arxiv.org/abs/2305.07052v2 ) ライセンス: Link先を確認 | Jagatheesan Kunasaikaran, Kevin Mato, Robert Wille, | (参考訳) 超伝導量子ハードウェアアーキテクチャは、基礎となる物理学の物理的制約を考慮して設計されている。
これらの汎用アーキテクチャは、量子ハードウェア上で実行される量子アプリケーションに特化した代替アーキテクチャで活用できるカスタマイズと最適化のための余地を残している。
しかし、対応する設計手順はほとんど統合されておらず、手作業に大きく依存している。
この作業では、この欠点に対処するための基盤を提供することを目的とした、ソフトウェアフレームワークを提供しています。
この目的のために、まず超伝導量子ハードウェアアーキテクチャの設計をレビューし、その後、アプリケーション固有の量子ハードウェアアーキテクチャの設計フローをカプセル化した凝集性フレームワークを提案する。
結果として得られるフレームワークは、量子アプリケーションに最適化された高レベルのアーキテクチャ生成、アーキテクチャの物理的レイアウト、および体系的なレイアウトの最適化を統合する。
リファレンス実装のフレームワークは、https://github.com/cda-tum/dasqaを通じてオープンソースライセンスで利用可能である。
Superconducting quantum hardware architectures have been designed by considering the physical constraints of the underlying physics. These general-purpose architectures leave room for customization and optimization that can be exploited with alternative architectures specific to the quantum applications that will be executed on the quantum hardware. However, the corresponding design steps are hardly integrated yet and still rely heavily on manual labor. In this work, we provide a software framework that aims at providing a foundation to address this drawback. To this end, we first review the design of superconducting quantum hardware architectures and, afterwards, propose a cohesive framework encapsulating the design flow of an application-specific quantum hardware architecture. The resulting framework integrates high-level architecture generation optimized for a quantum application, the physical layout of the architecture, as well as optimization of the layout in a methodical manner. The framework with a reference implementation is available via https://github.com/cda-tum/dasqa under an open-source license. | 翻訳日:2024-05-06 18:26:14 公開日:2024-05-03 |
# オブジェクトを囲むビジュアルコモンセンス推論によるオープンワールドエゴシックビデオからの新たなアクションの発見
Discovering Novel Actions from Open World Egocentric Videos with Object-Grounded Visual Commonsense Reasoning ( http://arxiv.org/abs/2305.16602v2 ) ライセンス: Link先を確認 | Sanjoy Kundu, Shubham Trehan, Sathyanarayanan N. Aakur, | (参考訳) オープンな世界でラベルを推論すること、すなわち「ラベル」が未知の環境において学習することは、自主性を達成する上で重要な特徴である。
膨大なデータに基づいて事前訓練された基礎モデルは、特にゼロショット推論において、プロンプトを通じて顕著な一般化スキルを示してきた。
しかし、それらの性能は、ターゲットラベルの検索空間、すなわちプロンプトに提供される候補ラベルの正確性に制限される。
このターゲット探索空間は、オープンな世界では未知あるいは例外的に大きくなり、その性能を著しく制限する。
この課題に対処するために,大規模な知識ベースに蓄積された記号的知識を用いて,監督が限定された自己中心型ビデオのアクティビティを推論する,ALGO-Action Learning with Grounded Object Recognitionと呼ばれる2段階のニューロシンボリックフレームワークを提案する。
まず,物体中心の視覚言語モデルを用いたニューロシンボリック・プロンプト手法を提案する。
第2に、事前のコモンセンス知識によって、エネルギーに基づくシンボリックパターン理論の枠組みを通して、プラプティブルな活動を発見し、ビデオ内の知識に基づく行動(動詞)の概念を学習する。
公開されている4つのデータセット(EPIC-Kitchens、GTEA Gaze、GTEA Gaze Plus、Charades-Ego)に対する大規模な実験は、オープンワールドのアクティビティ推論のパフォーマンスを実証している。
また、ALGOをゼロショット推論に拡張し、Charades-Egoデータセット上での競合性能を示すことも示す。
Learning to infer labels in an open world, i.e., in an environment where the target ``labels'' are unknown, is an important characteristic for achieving autonomy. Foundation models, pre-trained on enormous amounts of data, have shown remarkable generalization skills through prompting, particularly in zero-shot inference. However, their performance is restricted to the correctness of the target label's search space, i.e., candidate labels provided in the prompt. This target search space can be unknown or exceptionally large in an open world, severely restricting their performance. To tackle this challenging problem, we propose a two-step, neuro-symbolic framework called ALGO - Action Learning with Grounded Object recognition that uses symbolic knowledge stored in large-scale knowledge bases to infer activities in egocentric videos with limited supervision. First, we propose a neuro-symbolic prompting approach that uses object-centric vision-language models as a noisy oracle to ground objects in the video through evidence-based reasoning. Second, driven by prior commonsense knowledge, we discover plausible activities through an energy-based symbolic pattern theory framework and learn to ground knowledge-based action (verb) concepts in the video. Extensive experiments on four publicly available datasets (EPIC-Kitchens, GTEA Gaze, GTEA Gaze Plus, and Charades-Ego) demonstrate its performance on open-world activity inference. We also show that ALGO can be extended to zero-shot inference and demonstrate its competitive performance on the Charades-Ego dataset. | 翻訳日:2024-05-06 18:26:14 公開日:2024-05-03 |
# DiffECG:ECG信号合成のための可逆確率拡散モデル
DiffECG: A Versatile Probabilistic Diffusion Model for ECG Signals Synthesis ( http://arxiv.org/abs/2306.01875v3 ) ライセンス: Link先を確認 | Nour Neifar, Achraf Ben-Hamadou, Afef Mdhaffar, Mohamed Jmaiel, | (参考訳) 心電図信号にディープラーニングを適用した心血管疾患の検出において、生理的信号を扱う複雑さが増加し、データ拡張にディープジェネレーションモデルを活用することへの関心が高まっている。
本稿では,心電図合成のための拡散確率モデルに基づく,新しい多元性アプローチを提案する。
(i)心拍数
(ii)部分信号計算、及び
(三)全心拍予測
提案手法は,ECG合成における最初の一般化条件付きアプローチであり,実験結果から,ECG関連タスクの有効性が示された。
さらに,本手法は,他の最先端ECG生成モデルよりも優れ,最先端の分類器の性能を向上させることができることを示す。
Within cardiovascular disease detection using deep learning applied to ECG signals, the complexities of handling physiological signals have sparked growing interest in leveraging deep generative models for effective data augmentation. In this paper, we introduce a novel versatile approach based on denoising diffusion probabilistic models for ECG synthesis, addressing three scenarios: (i) heartbeat generation, (ii) partial signal imputation, and (iii) full heartbeat forecasting. Our approach presents the first generalized conditional approach for ECG synthesis, and our experimental results demonstrate its effectiveness for various ECG-related tasks. Moreover, we show that our approach outperforms other state-of-the-art ECG generative models and can enhance the performance of state-of-the-art classifiers. | 翻訳日:2024-05-06 18:26:14 公開日:2024-05-03 |
# 非定常マルチエージェント強化学習のためのブラックボックスアプローチ
A Black-box Approach for Non-stationary Multi-agent Reinforcement Learning ( http://arxiv.org/abs/2306.07465v2 ) ライセンス: Link先を確認 | Haozhe Jiang, Qiwen Cui, Zhihan Xiong, Maryam Fazel, Simon S. Du, | (参考訳) 本研究では,非定常マルチエージェントシステムにおける平衡学習について検討し,マルチエージェント学習と単一エージェント学習を区別する課題に対処する。
具体的には,テスト対象のギャップが小さい場合でも平衡テストがかなりの後悔を招きかねない,定常ゲームにおける複数最適解(平衡)の存在がさらなる課題となる,帯域幅フィードバックを持つゲームに焦点をあてる。
これらの障害を克服するために,定常環境に適切な学習とテストのオーラクルを備えた場合,汎用ゲームや潜在的ゲーム,マルコフゲームなど,幅広い問題に適用可能な汎用ブラックボックスアプローチを提案する。
我々のアルゴリズムは$\widetilde{O}\left(\Delta^{1/4}T^{3/4}\right)$ regret if the degree of nonstationarity are known, $\Delta$ is known, $\widetilde{O}\left(\Delta^{1/5}T^{4/5}\right)$ regret if $\Delta$ is unknown, where $T$ is the number of rounds。
一方,本アルゴリズムはオークルからのエージェント数に対する好意的な依存を継承する。
利害関係に依存しないサイドコントリビューションとして、ナッシュ均衡、相関平衡、粗相関平衡を含む単エージェント学習へのブラックボックス還元による様々な均衡の試行方法を示す。
We investigate learning the equilibria in non-stationary multi-agent systems and address the challenges that differentiate multi-agent learning from single-agent learning. Specifically, we focus on games with bandit feedback, where testing an equilibrium can result in substantial regret even when the gap to be tested is small, and the existence of multiple optimal solutions (equilibria) in stationary games poses extra challenges. To overcome these obstacles, we propose a versatile black-box approach applicable to a broad spectrum of problems, such as general-sum games, potential games, and Markov games, when equipped with appropriate learning and testing oracles for stationary environments. Our algorithms can achieve $\widetilde{O}\left(\Delta^{1/4}T^{3/4}\right)$ regret when the degree of nonstationarity, as measured by total variation $\Delta$, is known, and $\widetilde{O}\left(\Delta^{1/5}T^{4/5}\right)$ regret when $\Delta$ is unknown, where $T$ is the number of rounds. Meanwhile, our algorithm inherits the favorable dependence on number of agents from the oracles. As a side contribution that may be independent of interest, we show how to test for various types of equilibria by a black-box reduction to single-agent learning, which includes Nash equilibria, correlated equilibria, and coarse correlated equilibria. | 翻訳日:2024-05-06 18:26:14 公開日:2024-05-03 |
# DORSal: シーンのオブジェクト中心表現のための拡散
DORSal: Diffusion for Object-centric Representations of Scenes et al ( http://arxiv.org/abs/2306.08068v3 ) ライセンス: Link先を確認 | Allan Jabri, Sjoerd van Steenkiste, Emiel Hoogeboom, Mehdi S. M. Sajjadi, Thomas Kipf, | (参考訳) 最近の3Dシーン理解の進歩は、多様なシーンの大きなデータセットにわたる表現のスケーラブルな学習を可能にする。
結果として、見えないシーンやオブジェクトへの一般化、単一のまたは少数の入力画像からの新規ビューのレンダリング、編集をサポートする制御可能なシーン生成が可能になった。
しかし、多数のシーンでの共同トレーニングは、NeRFのようなシングルシーン最適化モデルと比較してレンダリング品質を損なうのが一般的である。
本稿では,拡散モデルの最近の進歩を活用して,オブジェクトレベルのシーン編集などのメリットを最大限に保ちながら,高忠実度な新規ビューを描画できる3次元シーン表現学習モデルを実現する。
特に,凍結したオブジェクト中心のスロットベースのシーン表現を条件とした3次元シーン生成にビデオ拡散アーキテクチャを適用したDORSalを提案する。
複雑な合成多目的シーンと実世界の大規模ストリートビューデータセットの両方において、DORSalはオブジェクトレベルの編集と既存のアプローチの改善による3Dシーンのスケーラブルなニューラルレンダリングを可能にすることを示す。
Recent progress in 3D scene understanding enables scalable learning of representations across large datasets of diverse scenes. As a consequence, generalization to unseen scenes and objects, rendering novel views from just a single or a handful of input images, and controllable scene generation that supports editing, is now possible. However, training jointly on a large number of scenes typically compromises rendering quality when compared to single-scene optimized models such as NeRFs. In this paper, we leverage recent progress in diffusion models to equip 3D scene representation learning models with the ability to render high-fidelity novel views, while retaining benefits such as object-level scene editing to a large degree. In particular, we propose DORSal, which adapts a video diffusion architecture for 3D scene generation conditioned on frozen object-centric slot-based representations of scenes. On both complex synthetic multi-object scenes and on the real-world large-scale Street View dataset, we show that DORSal enables scalable neural rendering of 3D scenes with object-level editing and improves upon existing approaches. | 翻訳日:2024-05-06 18:26:14 公開日:2024-05-03 |
# 人間とAIの共進化
Human-AI Coevolution ( http://arxiv.org/abs/2306.13723v2 ) ライセンス: Link先を確認 | Dino Pedreschi, Luca Pappalardo, Emanuele Ferragina, Ricardo Baeza-Yates, Albert-Laszlo Barabasi, Frank Dignum, Virginia Dignum, Tina Eliassi-Rad, Fosca Giannotti, Janos Kertesz, Alistair Knott, Yannis Ioannidis, Paul Lukowicz, Andrea Passarella, Alex Sandy Pentland, John Shawe-Taylor, Alessandro Vespignani, | (参考訳) 人間とAIのアルゴリズムが継続的に影響を及ぼすプロセスとして定義されるヒューマンAIの共進化は、私たちの社会をますます特徴づけるが、人工知能と複雑性科学の文学で研究されている。
レコメンダシステムとアシスタントは、日々の生活の多くの側面を浸透させ、オンラインプラットフォーム上での人間の選択に影響を与えるため、人間とAIの共進化において顕著な役割を担っている。
ユーザとAI間のインタラクションは、潜在的に無限のフィードバックループをもたらし、ユーザの選択がAIモデルをトレーニングするためのデータを生成し、それが結果として、その後のユーザの好みを形成する。
この人間とAIのフィードバックループは、従来の人間と機械の相互作用と比較して特有な特徴を持ち、複雑でしばしば「意図しない」社会的結果をもたらす。
本稿では,人間-AIフィードバックループの理論的,経験的,数学的研究を中心に,AIと複雑性科学の交点における新たな研究分野の基盤として,Coevolution AIを紹介した。
そうすることで、私たちはこうします。
一 既成の方法の長所及び短所を概説し、フィードバックループのメカニズムを捉えるための欠点及び潜在的な方法を明らかにすること。
(二)複雑性科学、AI及び社会の交点におけるリフレクションを提案する。
(三)人間とAIの異なる生態系の実例、及び
(4)このような学問分野の創出に挑戦し、技術的、認識論的、法律的、社会政治的な抽象化のレベルが高まることを概念化している。
Human-AI coevolution, defined as a process in which humans and AI algorithms continuously influence each other, increasingly characterises our society, but is understudied in artificial intelligence and complexity science literature. Recommender systems and assistants play a prominent role in human-AI coevolution, as they permeate many facets of daily life and influence human choices on online platforms. The interaction between users and AI results in a potentially endless feedback loop, wherein users' choices generate data to train AI models, which, in turn, shape subsequent user preferences. This human-AI feedback loop has peculiar characteristics compared to traditional human-machine interaction and gives rise to complex and often ``unintended'' social outcomes. This paper introduces Coevolution AI as the cornerstone for a new field of study at the intersection between AI and complexity science focused on the theoretical, empirical, and mathematical investigation of the human-AI feedback loop. In doing so, we: (i) outline the pros and cons of existing methodologies and highlight shortcomings and potential ways for capturing feedback loop mechanisms; (ii) propose a reflection at the intersection between complexity science, AI and society; (iii) provide real-world examples for different human-AI ecosystems; and (iv) illustrate challenges to the creation of such a field of study, conceptualising them at increasing levels of abstraction, i.e., technical, epistemological, legal and socio-political. | 翻訳日:2024-05-06 18:16:30 公開日:2024-05-03 |
# M3Act: シンセティックなヒューマングループ活動から学ぶ
M3Act: Learning from Synthetic Human Group Activities ( http://arxiv.org/abs/2306.16772v6 ) ライセンス: Link先を確認 | Che-Jui Chang, Danrui Li, Deep Patel, Parth Goel, Honglu Zhou, Seonghyeon Moon, Samuel S. Sohn, Sejong Yoon, Vladimir Pavlovic, Mubbasir Kapadia, | (参考訳) 複雑なヒューマンインタラクションとグループ活動の研究は、人間中心のコンピュータビジョンの焦点となっている。
しかし、関連するタスクの進捗は、現実のシナリオから大規模ラベル付きデータセットを取得するという課題によって妨げられることが多い。
この制限に対処するため,マルチビューマルチパーソン・ヒューマン・アトミック・アクションとグループ・アクティビティのための合成データ・ジェネレータであるM3Actを導入する。
Unity EngineによってパワーアップされたM3Actは、複数のセマンティックグループ、高度に多様性があり、フォトリアリスティックなイメージ、そして一対一、多対一、多群条件で人間中心のタスクの学習を容易にする包括的なアノテーションセットを備えている。
3つの実験でM3Actの利点を実証した。
その結果、我々の合成データセットは、いくつかの下流手法の性能を大幅に改善し、実際のデータセットを置き換えることでコストを削減できることが示唆された。
特に、M3ActはDanceTrackデータセットの最先端のMOTRv2を改善し、リーダボードを10位から2位までホップする。
さらに、M3Actは、制御可能な3Dグループアクティビティ生成のための新しい研究を開始した。
複数のメトリクスを定義し、新しいタスクの競争基準を提案する。
私たちのコードとデータは、プロジェクトのページで利用可能です。
The study of complex human interactions and group activities has become a focal point in human-centric computer vision. However, progress in related tasks is often hindered by the challenges of obtaining large-scale labeled datasets from real-world scenarios. To address the limitation, we introduce M3Act, a synthetic data generator for multi-view multi-group multi-person human atomic actions and group activities. Powered by Unity Engine, M3Act features multiple semantic groups, highly diverse and photorealistic images, and a comprehensive set of annotations, which facilitates the learning of human-centered tasks across single-person, multi-person, and multi-group conditions. We demonstrate the advantages of M3Act across three core experiments. The results suggest our synthetic dataset can significantly improve the performance of several downstream methods and replace real-world datasets to reduce cost. Notably, M3Act improves the state-of-the-art MOTRv2 on DanceTrack dataset, leading to a hop on the leaderboard from 10th to 2nd place. Moreover, M3Act opens new research for controllable 3D group activity generation. We define multiple metrics and propose a competitive baseline for the novel task. Our code and data are available at our project page: http://cjerry1243.github.io/M3Act. | 翻訳日:2024-05-06 18:16:30 公開日:2024-05-03 |
# 生成AIによる計算設計の自動化
Automating Computational Design with Generative AI ( http://arxiv.org/abs/2307.02511v2 ) ライセンス: Link先を確認 | Joern Ploennigs, Markus Berger, | (参考訳) 拡散モデルに基づくAI画像生成装置は、最近、単純なテキストプロンプトから画像を作成する能力に注意を向けている。
しかし、土木工学の実践的な利用には、与えられた制約のために特定の建設計画を作成する必要がある。
本稿では,これらの課題に対処する現在のAIジェネレータの可能性,特に簡易なフロアプランの作成について検討する。
拡散モデルがどのように機能するかを説明し、セマンティックエンコーディングと生成品質を改善するための新しい改良手法を提案する。
いくつかの実験では、生成したフロアプランの有効性を6%から90%に改善できることが示されている。
これらの結果に基づいて,情報モデリングの構築を考慮した今後の研究課題を導出する。
これについて、私たちは次のように提供します。
一 現生AIの評価
(二)改良された改良アプローチを提案する。
(iii)様々な例で評価する。
(四)土木工学における拡散モデルの今後の方向性を導出する。
AI image generators based on diffusion models have recently garnered attention for their capability to create images from simple text prompts. However, for practical use in civil engineering they need to be able to create specific construction plans for given constraints. This paper investigates the potential of current AI generators in addressing such challenges, specifically for the creation of simple floor plans. We explain how the underlying diffusion-models work and propose novel refinement approaches to improve semantic encoding and generation quality. In several experiments we show that we can improve validity of generated floor plans from 6% to 90%. Based on these results we derive future research challenges considering building information modelling. With this we provide: (i) evaluation of current generative AIs; (ii) propose improved refinement approaches; (iii) evaluate them on various examples; (iv) derive future directions for diffusion models in civil engineering. | 翻訳日:2024-05-06 18:16:30 公開日:2024-05-03 |
# 相関量子系における異常エネルギーフローの基本的限界
Fundamental limits on anomalous energy flows in correlated quantum systems ( http://arxiv.org/abs/2307.03828v2 ) ライセンス: Link先を確認 | Patryk Lipka-Bartosik, Giovanni Francesco Diotallevi, Pharnam Bakhshinezhad, | (参考訳) 古典的な熱力学では、エネルギーは常に熱い系から冷たい系へ流れる。
しかし、これらの系が最初に相関している場合、エネルギーの流れが逆転し、寒冷な系が冷たくなり、熱い系が熱くなる。
この興味をそそる現象は「アノマラスエネルギーフロー」と呼ばれ、熱力学系の物理的性質を決定する上での初期の相関の重要性を示している。
ここでは、この効果の基本的な限界について検討する。
具体的には、閉じた状態と可逆な状態の量子系間で伝達される最適なエネルギー量を見つけ、それによって異常なエネルギーの流れを特徴づけることができる。
次に、触媒として作用する陽子量子系によってエネルギーの流れが媒介されるより一般的なシナリオを探求する。
このアプローチは、これまでアクセスできないタイプの相関を活用でき、最終的には基本的な境界を超えるエネルギー移動をもたらすことを示す。
これらの知見を実証するために、光学キャビティに結合した2つの原子を含むよく研究された量子光学装置を用いる。
In classical thermodynamics energy always flows from the hotter system to the colder one. However, if these systems are initially correlated, the energy flow can reverse, making the cold system colder and the hot system hotter. This intriguing phenomenon is called ``anomalous energy flow'' and shows the importance of initial correlations in determining physical properties of thermodynamic systems. Here we investigate the fundamental limits of this effect. Specifically, we find the optimal amount of energy that can be transferred between quantum systems under closed and reversible dynamics, which then allows us to characterize the anomalous energy flow. We then explore a more general scenario where the energy flow is mediated by an ancillary quantum system that acts as a catalyst. We show that this approach allows for exploiting previously inaccessible types of correlations, ultimately resulting in an energy transfer that surpasses our fundamental bound. To demonstrate these findings, we use a well-studied quantum optics setup involving two atoms coupled to an optical cavity. | 翻訳日:2024-05-06 18:16:30 公開日:2024-05-03 |
# 300mmスピンキュービットウエハにおける単一電子の探索
Probing single electrons across 300 mm spin qubit wafers ( http://arxiv.org/abs/2307.04812v2 ) ライセンス: Link先を確認 | Samuel Neyens, Otto K. Zietz, Thomas F. Watson, Florian Luthi, Aditi Nethwewala, Hubert C. George, Eric Henry, Mohammad Islam, Andrew J. Wagner, Felix Borjans, Elliot J. Connors, J. Corrigan, Matthew J. Curry, Daniel Keith, Roza Kotlyar, Lester F. Lampert, Mateusz T. Madzik, Kent Millard, Fahd A. Mohiyaddin, Stefano Pellerano, Ravi Pillarisetty, Mick Ramsey, Rostyslav Savytskyy, Simon Schaal, Guoji Zheng, Joshua Ziegler, Nathaniel C. Bishop, Stephanie Bojarski, Jeanette Roberts, James S. Clarke, | (参考訳) フォールトトレラントな量子コンピュータを構築するには、大量の物理量子ビットが必要となる。
固体電子デバイスに基づく量子ビット技術では、1つのプロセッサに数百万の量子ビットを統合するには、現代のCMOS産業に匹敵する規模のデバイス製造が必要である。
同様に、低温デバイステストのスケールは、効率的なデバイススクリーニングを可能にするためにペースを保ち、キュービット収率や電圧変動などの統計指標を改善する必要がある。
Si中の電子に基づくスピン量子ビットは、印象的な制御係数を示すが、歴史的には収率とプロセスの変化によって挑戦されてきた。
本稿では、低温300mmウエハプローブを用いて、何百もの産業製造スピンキュービットデバイスの性能に関する高ボリュームデータを1.6Kで収集し、CMOS互換製造プロセスの最適化を可能にする高速なフィードバックを提供し、高い収率と低プロセスの変動をもたらす。
このシステムを用いてスピン量子ビットの動作点を自動計測し、単一電子のフルウェーハへの遷移を探索する。
単電子動作電圧のランダムな変動を解析し、最適化された製造プロセスが300mmスケールで低レベルの障害を引き起こすことを確認する。
これらの結果は、スピン量子ビットデバイスの製造と測定にCMOS産業技術の応用を通して達成できる進歩を実証するものである。
Building a fault-tolerant quantum computer will require vast numbers of physical qubits. For qubit technologies based on solid state electronic devices, integrating millions of qubits in a single processor will require device fabrication to reach a scale comparable to that of the modern CMOS industry. Equally importantly, the scale of cryogenic device testing must keep pace to enable efficient device screening and to improve statistical metrics like qubit yield and voltage variation. Spin qubits based on electrons in Si have shown impressive control fidelities but have historically been challenged by yield and process variation. Here we present a testing process using a cryogenic 300 mm wafer prober to collect high-volume data on the performance of hundreds of industry-manufactured spin qubit devices at 1.6 K. This testing method provides fast feedback to enable optimization of the CMOS-compatible fabrication process, leading to high yield and low process variation. Using this system, we automate measurements of the operating point of spin qubits and probe the transitions of single electrons across full wafers. We analyze the random variation in single-electron operating voltages and find that the optimized fabrication process leads to low levels of disorder at the 300 mm scale. Together these results demonstrate the advances that can be achieved through the application of CMOS industry techniques to the fabrication and measurement of spin qubit devices. | 翻訳日:2024-05-06 18:16:30 公開日:2024-05-03 |
# デジタル通貨のためのノンカストディアルウォレット--デザインの課題と機会
A non-custodial wallet for digital currency: design challenges and opportunities ( http://arxiv.org/abs/2307.05167v4 ) ライセンス: Link先を確認 | Ryan Bowler, Geoffrey Goodell, Joe Revans, Gabriel Bizama, Chris Speed, | (参考訳) 中央銀行デジタル通貨(CBDC、Central Bank Digital Currency)は、中央銀行が発行・規制し、プログラム可能性、セキュリティ、プライバシーなどの利点を提供する新しい形態の通貨である。
しかし,CBDCシステムの設計には技術的・社会的課題が数多く存在する。
本稿では,CBDCを様々な状況で保存・使用することが可能なノンカストディアルウォレットの設計と試作について述べる。
CBDCシステムを設計する上での課題に対処するため,本研究では,CBDCの概念を伝達するためのストーリテリング,メタファ,プロボタイプ,ユーザからのフィードバック,批判,規範的価値を技術設計に取り入れる手法を用いて,内外の利害関係者とのワークショップを開催した。
我々は、技術的側面と社会的側面のバランスを保ち、ユーザニーズと価値を反映したCBDCシステムを設計するための基本的なガイドラインを導出した。
本論文は,CBDCの日常生活における活用の実践例を示すとともに,ユーザ中心のアプローチの重要性を強調することによって,CBDCの議論に寄与する。
Central Bank Digital Currency (CBDC) is a novel form of money that could be issued and regulated by central banks, offering benefits such as programmability, security, and privacy. However, the design of a CBDC system presents numerous technical and social challenges. This paper presents the design and prototype of a non-custodial wallet, a device that enables users to store and spend CBDC in various contexts. To address the challenges of designing a CBDC system, we conducted a series of workshops with internal and external stakeholders, using methods such as storytelling, metaphors, and provotypes to communicate CBDC concepts, elicit user feedback and critique, and incorporate normative values into the technical design. We derived basic guidelines for designing CBDC systems that balance technical and social aspects, and reflect user needs and values. Our paper contributes to the CBDC discourse by demonstrating a practical example of how CBDC could be used in everyday life and by highlighting the importance of a user-centred approach. | 翻訳日:2024-05-06 18:16:30 公開日:2024-05-03 |
# 深部強化学習によるトラップイオン量子回路のハイブリッド離散連続コンパイル
Hybrid discrete-continuous compilation of trapped-ion quantum circuits with deep reinforcement learning ( http://arxiv.org/abs/2307.05744v2 ) ライセンス: Link先を確認 | Francesco Preti, Michael Schilling, Sofiene Jerbi, Lea M. Trenkwalder, Hendrik Poulsen Nautrup, Felix Motzoi, Hans J. Briegel, | (参考訳) 量子回路の短縮は、環境デコヒーレンスの破壊的効果を低減し、有用なアルゴリズムを実現するために重要である。
本稿では、連続ゲートセット間のハイブリッド離散連続最適化と、アーキテクチャに適した実装を組み合わせることで、このようなコンパイルタスクの改善を実証する。
連続パラメータは勾配に基づく最適化アルゴリズムを用いて発見され、タンデムでは、射影シミュレーションに基づいて、深い強化学習アルゴリズムを用いて最適なゲート順序が学習される。
このアプローチをテストするために,古典的なデバイス上で,閉じ込められたイオン系の集合ゲートを効率的にシミュレートするフレームワークを提案する。
このアルゴリズムは、トラップイオンコンピューティングにおいて、関連する量子回路のサイズを大幅に削減できることを示す。
さらに、未知のユニタリプロセスの再生を目標とする実験的な設定にも、我々のフレームワークが適用可能であることを示す。
Shortening quantum circuits is crucial to reducing the destructive effect of environmental decoherence and enabling useful algorithms. Here, we demonstrate an improvement in such compilation tasks via a combination of using hybrid discrete-continuous optimization across a continuous gate set, and architecture-tailored implementation. The continuous parameters are discovered with a gradient-based optimization algorithm, while in tandem the optimal gate orderings are learned via a deep reinforcement learning algorithm, based on projective simulation. To test this approach, we introduce a framework to simulate collective gates in trapped-ion systems efficiently on a classical device. The algorithm proves able to significantly reduce the size of relevant quantum circuits for trapped-ion computing. Furthermore, we show that our framework can also be applied to an experimental setup whose goal is to reproduce an unknown unitary process. | 翻訳日:2024-05-06 18:16:30 公開日:2024-05-03 |
# 経路シグナチャとシームズ非教師型特徴圧縮機を用いた早期自閉症診断
Early Autism Diagnosis based on Path Signature and Siamese Unsupervised Feature Compressor ( http://arxiv.org/abs/2307.06472v3 ) ライセンス: Link先を確認 | Zhuowen Yin, Xinyao Ding, Xin Zhang, Zhengwang Wu, Li Wang, Xiangmin Xu, Gang Li, | (参考訳) 自閉症スペクトラム障害(ASD)は公衆衛生上の脅威として浮上している。
ASDの早期診断は、タイムリーで効果的な介入と治療に不可欠である。
しかし, コミュニケーションや行動パターンに基づく従来の診断法は, 2歳未満の子どもには信頼性が低い。
ASD乳児の神経発達異常の証拠として,本研究は,早期自閉症診断のための,本態性,クラス不均衡,異種構造MR画像から重要な特徴を抽出する,新たな深層学習に基づく手法を用いている。
具体的には、不足データを拡張するためのシームズ検証フレームワークと、鍵となる特徴を抽出してデータの不均衡を軽減するための教師なし圧縮機を提案する。
また,検証中に異なる投票重みを付与することにより,サンプルの不均一性に対処するための重み制約を提案し,2点データから有意な発達特徴を経時的に明らかにするためにPath Signatureを用いた。
さらに、自閉症診断のための機械学習に焦点を当てた脳領域を抽出した。
大規模な実験により,既存の機械学習手法を超越し,自閉症早期診断のための解剖学的知見を提供するなど,実践的なシナリオにおいて,本手法が良好に機能することが確認された。
Autism Spectrum Disorder (ASD) has been emerging as a growing public health threat. Early diagnosis of ASD is crucial for timely, effective intervention and treatment. However, conventional diagnosis methods based on communications and behavioral patterns are unreliable for children younger than 2 years of age. Given evidences of neurodevelopmental abnormalities in ASD infants, we resort to a novel deep learning-based method to extract key features from the inherently scarce, class-imbalanced, and heterogeneous structural MR images for early autism diagnosis. Specifically, we propose a Siamese verification framework to extend the scarce data, and an unsupervised compressor to alleviate data imbalance by extracting key features. We also proposed weight constraints to cope with sample heterogeneity by giving different samples different voting weights during validation, and we used Path Signature to unravel meaningful developmental features from the two-time point data longitudinally. We further extracted machine learning focused brain regions for autism diagnosis. Extensive experiments have shown that our method performed well under practical scenarios, transcending existing machine learning methods and providing anatomical insights for autism early diagnosis. | 翻訳日:2024-05-06 18:16:30 公開日:2024-05-03 |
# 開量子系における幾何学的量子速度限界の実験的検討
Experimental Investigation of Geometric Quantum Speed Limits in an Open Quantum System ( http://arxiv.org/abs/2307.06558v3 ) ライセンス: Link先を確認 | Diego Paiva Pires, Eduardo R. deAzevedo, Diogo O. Soares-Pinto, Frederico Brito, Jefferson G. Filgueiras, | (参考訳) 核磁気共鳴実験において, クロロホルム分子のアンサンブル内でのデコヒーレンスを受ける量子ビットの量子速度制限(QSL)について検討した。
QSLは、一般的な物理過程を経る量子系の進化時間の基本的下限である。
そのため, 準磁性塩を添加することにより, 系の貯留層相互作用とスピン緩和速度を制御し, クビットに対してマルコフ系と非マルコフ系の両方の開系力学を観測することができた。
量子フィッシャー情報 (QFI) と Wigner-Yanase スキュー情報 (WY) の2種類の量子状態の識別可能性測定を行った。
非マルコフ力学と低塩濃度については,QFIおよびWY測定値に関連するQSL間の交叉を観測した。
WY計量は、高濃度とマルコフ力学に対してより厳密なQSLを設定する。
また、QSLはスピン磁化の小さな変動にも敏感であることを示す。
We studied geometric quantum speed limits (QSL) of a qubit subject to decoherence in an ensemble of chloroform molecules in a Nuclear Magnetic Resonance experiment. The QSL is a fundamental lower bound on the evolution time for quantum systems undergoing general physical processes. To do so, we controlled the system-reservoir interaction and the spin relaxation rates by adding a paramagnetic salt, which allowed us to observe both Markovian and non-Markovian open system dynamics for the qubit. We used two distinguishability measures of quantum states to assess the speed of the qubit evolution: the quantum Fisher information (QFI) and Wigner-Yanase skew information (WY). For non-Markovian dynamics and low salt concentrations, we observed crossovers between QSLs related to the QFI and WY metrics. The WY metric sets the tighter QSL for high concentrations and Markovian dynamics. We also show that QSLs are sensitive even to small fluctuations in spin magnetization. | 翻訳日:2024-05-06 18:16:30 公開日:2024-05-03 |
# PSentScore:対話要約における知覚極性の評価
PSentScore: Evaluating Sentiment Polarity in Dialogue Summarization ( http://arxiv.org/abs/2307.12371v2 ) ライセンス: Link先を確認 | Yongxin Zhou, Fabien Ringeval, François Portet, | (参考訳) 自動対話要約は、人間の会話から最も重要な情報を簡潔なテキスト要約に抽出することを目的とした、十分に確立された課題である。
しかし、既存のほとんどの研究は、事実情報を要約し、感情的な内容を無視し、人間のインタラクションを分析し、監視し、促進するための貴重な洞察を与えることに重点を置いている。
本稿では,対話要約における情緒的コンテンツ保存の定量化を目的とした,PSentScoreのセットを紹介し,評価する。
以上の結果から,現在最先端の要約モデルでは,要約中の情緒的内容が十分に保存されていないことが示唆された。
さらに, 対話サンプルのトレーニングセットを慎重に選択することで, コンテンツ関連指標の少なさにもかかわらず, 生成した要約文の感情的内容の保存性が向上することが実証された。
Automatic dialogue summarization is a well-established task with the goal of distilling the most crucial information from human conversations into concise textual summaries. However, most existing research has predominantly focused on summarizing factual information, neglecting the affective content, which can hold valuable insights for analyzing, monitoring, or facilitating human interactions. In this paper, we introduce and assess a set of measures PSentScore, aimed at quantifying the preservation of affective content in dialogue summaries. Our findings indicate that state-of-the-art summarization models do not preserve well the affective content within their summaries. Moreover, we demonstrate that a careful selection of the training set for dialogue samples can lead to improved preservation of affective content in the generated summaries, albeit with a minor reduction in content-related metrics. | 翻訳日:2024-05-06 18:16:30 公開日:2024-05-03 |
# 曲面符号の復号化アルゴリズム
Decoding algorithms for surface codes ( http://arxiv.org/abs/2307.14989v5 ) ライセンス: Link先を確認 | Antonio deMarti iOlius, Patricio Fuentes, Román Orús, Pedro M. Crespo, Josu Etxezarreta Martinez, | (参考訳) 量子技術は、古典的手法と比較して多項式や超多項式のスピードアップで計算的に難しい問題を解く可能性がある。
残念なことに、量子情報の不安定な性質はエラーを起こしやすい。
このため、量子誤り訂正は、量子情報を信頼できるものにし、フォールトトレラントな量子コンピューティングの究極の目標を実現するための貴重なツールである。
現在、表面符号は、2次元アーキテクチャ、局所演算のみの要求、量子ノイズに対する高い耐性を考えれば、短期誤差補正量子ビットを構築する最も有望な候補である。
復号アルゴリズムは、任意の誤り訂正スキームの不可欠な要素であり、量子情報に影響を及ぼす誤差の正確な推定を生成することを任務としている。
アルゴリズムの復号化における重要な側面は、量子状態が時間の経過とともにさらなるエラーに遭うため、その速度である。
これは複雑さと逆転を犠牲にして、デコードのパフォーマンスが向上する、という混乱を招きます。
本稿では,曲面符号に対する最先端の復号化アルゴリズムについて,徹底的な議論を行う。
この研究を対象とする読者は、フィールドに関する入門的な理解を持つ読者と、表面符号の復号パラダイムに関するさらなる知識を求める読者の両方である。
本稿では、これらの復号法の中核となる原理と、改良された結果の約束を示す既存の変種について述べる。
さらに,復号化性能,誤り訂正能力,復号化複雑性の両面を比較した。
サーフェスコードの復号化に関する既存のソフトウェアツールのレビューも提供する。
Quantum technologies have the potential to solve certain computationally hard problems with polynomial or super-polynomial speedups when compared to classical methods. Unfortunately, the unstable nature of quantum information makes it prone to errors. For this reason, quantum error correction is an invaluable tool to make quantum information reliable and enable the ultimate goal of fault-tolerant quantum computing. Surface codes currently stand as the most promising candidates to build near term error corrected qubits given their two-dimensional architecture, the requirement of only local operations, and high tolerance to quantum noise. Decoding algorithms are an integral component of any error correction scheme, as they are tasked with producing accurate estimates of the errors that affect quantum information, so that they can subsequently be corrected. A critical aspect of decoding algorithms is their speed, since the quantum state will suffer additional errors with the passage of time. This poses a connundrum, where decoding performance is improved at the expense of complexity and viceversa. In this review, a thorough discussion of state-of-the-art decoding algorithms for surface codes is provided. The target audience of this work are both readers with an introductory understanding of the field as well as those seeking to further their knowledge of the decoding paradigm of surface codes. We describe the core principles of these decoding methods as well as existing variants that show promise for improved results. In addition, both the decoding performance, in terms of error correction capability, and decoding complexity, are compared. A review of the existing software tools regarding surface codes decoding is also provided | 翻訳日:2024-05-06 18:16:30 公開日:2024-05-03 |
# DCT領域空間周波数変換器によるJPEG量子化係数の回復
JPEG Quantized Coefficient Recovery via DCT Domain Spatial-Frequential Transformer ( http://arxiv.org/abs/2308.09110v2 ) ライセンス: Link先を確認 | Mingyu Ouyang, Zhenzhong Chen, | (参考訳) JPEG圧縮は、離散コサイン変換(DCT)係数の量子化を有効ビットレート低減に適用する一方、量子化は重要な画像の詳細を著しく失われる可能性がある。
周波数領域における圧縮JPEG画像の復元は、最近関心が高まり、画素領域で確立された多数の復元技法を補完している。
しかし、既存のDCTドメイン法は、幅広い圧縮品質要因を扱う場合や、疎量子化係数と異なる色空間をまたいだ成分の回収に不足する場合に、限られた効果に悩まされるのが一般的である。
これらの課題に対処するため、JPEG量子化係数回復のためのDCT領域空間周波数変換器(DCTransformer)を提案する。
具体的には、DCT係数内の空間的および頻繁な相関を捉えるために、デュアルブランチアーキテクチャを設計する。
さらに、量子化行列埋め込みの操作を効果的に行うことで、我々の単一モデルが幅広い品質要因を効果的に扱えるようにし、異なる大きさの輝度と彩色成分を整列させる統一された特徴マップを生成する輝度クロミナンスアライメントヘッドを組み込んだ。
提案するDCTransformerは,現在最先端のJPEGアーティファクト除去技術より優れていることを示す。
JPEG compression adopts the quantization of Discrete Cosine Transform (DCT) coefficients for effective bit-rate reduction, whilst the quantization could lead to a significant loss of important image details. Recovering compressed JPEG images in the frequency domain has recently garnered increasing interest, complementing the multitude of restoration techniques established in the pixel domain. However, existing DCT domain methods typically suffer from limited effectiveness in handling a wide range of compression quality factors or fall short in recovering sparse quantized coefficients and the components across different colorspaces. To address these challenges, we propose a DCT domain spatial-frequential Transformer, namely DCTransformer, for JPEG quantized coefficient recovery. Specifically, a dual-branch architecture is designed to capture both spatial and frequential correlations within the collocated DCT coefficients. Moreover, we incorporate the operation of quantization matrix embedding, which effectively allows our single model to handle a wide range of quality factors, and a luminance-chrominance alignment head that produces a unified feature map to align different-sized luminance and chrominance components. Our proposed DCTransformer outperforms the current state-of-the-art JPEG artifact removal techniques, as demonstrated by our extensive experiments. | 翻訳日:2024-05-06 18:16:30 公開日:2024-05-03 |
# ブラックボックス設定時のグラディエント様説明について:ブラックボックス説明がホワイトボックスと同じくらい良い時
On Gradient-like Explanation under a Black-box Setting: When Black-box Explanations Become as Good as White-box ( http://arxiv.org/abs/2308.09381v2 ) ライセンス: Link先を確認 | Yi Cai, Gerhard Wunder, | (参考訳) 属性手法は、説明すべき意思決定において最も影響力のある特徴を明らかにすることによって、ディープラーニングモデルのようなデータ駆動型アプローチの説明可能性に光を当てた。
勾配による特徴属性の決定は有望な結果をもたらすが、勾配の取得に必要な内部アクセスは、安全上の懸念の下では非現実的であり、勾配に基づくアプローチの適用性を制限することができる。
このような柔軟性の制限に対応するために,クエリレベルのアクセスのみを通じて勾配のような説明を生成するアプローチである<methodAbr~(段階的推定に基づく説明)を提案する。
提案手法は, 数学的に厳密に証明された帰属法の基本特性の集合を持ち, その説明の質を保証している。
画像データに焦点をあてた理論的解析に加えて,提案手法が最先端のブラックボックス法よりも優れていることを示す実験結果が得られた。
Attribution methods shed light on the explainability of data-driven approaches such as deep learning models by uncovering the most influential features in a to-be-explained decision. While determining feature attributions via gradients delivers promising results, the internal access required for acquiring gradients can be impractical under safety concerns, thus limiting the applicability of gradient-based approaches. In response to such limited flexibility, this paper presents \methodAbr~(gradient-estimation-based explanation), an approach that produces gradient-like explanations through only query-level access. The proposed approach holds a set of fundamental properties for attribution methods, which are mathematically rigorously proved, ensuring the quality of its explanations. In addition to the theoretical analysis, with a focus on image data, the experimental results empirically demonstrate the superiority of the proposed method over state-of-the-art black-box methods and its competitive performance compared to methods with full access. | 翻訳日:2024-05-06 18:16:30 公開日:2024-05-03 |
# 制御動作を伴わない位相感度量子計測
Phase-Sensitive Quantum Measurement without Controlled Operations ( http://arxiv.org/abs/2308.10796v2 ) ライセンス: Link先を確認 | Yilun Yang, Arthur Christianen, Mari Carmen Bañuls, Dominik S. Wild, J. Ignacio Cirac, | (参考訳) 多くの量子アルゴリズムは複雑な量子振幅の測定に依存する。
アダマール試験のような位相情報を得るための標準的なアプローチは、グローバルな制御単位演算を必要とするため、大きなオーバーヘッドを生じさせる。
本稿では,時間的連続関数である振幅に対するこの問題を克服する,複素解析に基づく量子アルゴリズムを提案する。
提案手法は,短時間の仮想時間進化を近似する浅部回路とリアルタイム進化の実装のみを必要とする。
本手法は,回路深度でアダマール試験より優れており,単純な誤差軽減戦略と組み合わせることで,現在の雑音量子コンピュータに適していることを示す。
Many quantum algorithms rely on the measurement of complex quantum amplitudes. Standard approaches to obtain the phase information, such as the Hadamard test, give rise to large overheads due to the need for global controlled-unitary operations. We introduce a quantum algorithm based on complex analysis that overcomes this problem for amplitudes that are a continuous function of time. Our method only requires the implementation of real-time evolution and a shallow circuit that approximates a short imaginary-time evolution. We show that the method outperforms the Hadamard test in terms of circuit depth and that it is suitable for current noisy quantum computers when combined with a simple error-mitigation strategy. | 翻訳日:2024-05-06 18:06:46 公開日:2024-05-03 |
# 強化を用いた視覚領域概念の合成学習
Compositional Learning of Visually-Grounded Concepts Using Reinforcement ( http://arxiv.org/abs/2309.04504v2 ) ライセンス: Link先を確認 | Zijun Lin, Haidi Azaman, M Ganesh Kumar, Cheston Tan, | (参考訳) 子どもたちは、構成的に構築されたルールを素早く一般化して、目に見えないテストセットにすることができる。
一方, 深層強化学習(RL)エージェントは, 数百万エピソードにわたって訓練される必要があり, 未知の組み合わせに一般化する能力はいまだ不明である。
そこで, 合成3次元環境において, 特定色形状目標へのナビゲートを施したRLエージェントの合成能力について検討した。
まず、RLエージェントが、色と形の組み合わせを標的にナビゲートするように鼻で訓練された場合、彼らは暗黙的に組み合わせを分解し、これらを(再)分解し、保留テストの組み合わせで成功させる("compositional learning")。
第2に, エージェントが不変形状や色の概念(概念学習)を学習するように事前訓練された場合, 構成学習に必要なエピソードの数は20倍に減少した。
さらに、概念と構成学習の両方で訓練されたエージェントだけが、ゼロショット方式でより複雑でアウト・オブ・ディストリビューション環境を解決できた。
最後に、画像テキストデータセット(例えばCLIP)で事前訓練されたテキストエンコーダのみが、構成学習に必要なトレーニングエピソード数を減らし、ゼロショット方式で5色に一般化したことを確認した。
その結果、RLエージェントが暗黙的に概念や構成性を学習し、ゼロショット方式でより複雑な環境を解けることを初めて実証した。
Children can rapidly generalize compositionally-constructed rules to unseen test sets. On the other hand, deep reinforcement learning (RL) agents need to be trained over millions of episodes, and their ability to generalize to unseen combinations remains unclear. Hence, we investigate the compositional abilities of RL agents, using the task of navigating to specified color-shape targets in synthetic 3D environments. First, we show that when RL agents are naively trained to navigate to target color-shape combinations, they implicitly learn to decompose the combinations, allowing them to (re-)compose these and succeed at held-out test combinations ("compositional learning"). Second, when agents are pretrained to learn invariant shape and color concepts ("concept learning"), the number of episodes subsequently needed for compositional learning decreased by 20 times. Furthermore, only agents trained on both concept and compositional learning could solve a more complex, out-of-distribution environment in zero-shot fashion. Finally, we verified that only text encoders pretrained on image-text datasets (e.g. CLIP) reduced the number of training episodes needed for our agents to demonstrate compositional learning, and also generalized to 5 unseen colors in zero-shot fashion. Overall, our results are the first to demonstrate that RL agents can be trained to implicitly learn concepts and compositionality, to solve more complex environments in zero-shot fashion. | 翻訳日:2024-05-06 18:06:46 公開日:2024-05-03 |
# MetaMath:大規模言語モデルのための独自の数学的質問をブートストラップ
MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models ( http://arxiv.org/abs/2309.12284v4 ) ライセンス: Link先を確認 | Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu, | (参考訳) 大規模言語モデル(LLM)は、自然言語理解の限界を押し上げ、優れた問題解決能力を示した。
大きな成功にもかかわらず、既存のオープンソース LLM (例: LLaMA-2) は、複雑な推論手順による数学的問題の解決にはまだ十分ではない。
このギャップを埋めるために,数学的推論を専門とする微調整言語モデルMetaMathを提案する。
具体的には、余分な知識を伴わずに複数の視点から質問を書き換えることで、数学的質問をブートストラップすることから始め、MetaMathQAと呼ばれる新しいデータセットが生まれる。
次に、メタマスQA上でLLaMA-2モデルを微調整する。
数学的推論のための2つの人気のあるベンチマーク(GSM8KとMATH)の実験結果によると、MetaMathはオープンソースのLLMのスイートよりも大幅に優れていた。
我々のMetaMath-7Bモデルは、GSM8Kで66.4%、MATHで19.4%を達成し、同じサイズの最先端モデルの11.5%と8.7%を上回った。
特にMetaMath-70BはGSM8Kで82.3%の精度を達成しており、GPT-3.5-Turboより若干優れている。
私たちは、すべてのMetaMathQAデータセット、異なるモデルサイズを持つMetaMathモデル、パブリック使用のためのトレーニングコードをリリースします。
Large language models (LLMs) have pushed the limits of natural language understanding and exhibited excellent problem-solving ability. Despite the great success, most existing open-source LLMs (e.g., LLaMA-2) are still far away from satisfactory for solving mathematical problem due to the complex reasoning procedures. To bridge this gap, we propose MetaMath, a fine-tuned language model that specializes in mathematical reasoning. Specifically, we start by bootstrapping mathematical questions by rewriting the question from multiple perspectives without extra knowledge, which results in a new dataset called MetaMathQA. Then we fine-tune the LLaMA-2 models on MetaMathQA. Experimental results on two popular benchmarks (i.e., GSM8K and MATH) for mathematical reasoning demonstrate that MetaMath outperforms a suite of open-source LLMs by a significant margin. Our MetaMath-7B model achieves 66.4% on GSM8K and 19.4% on MATH, exceeding the state-of-the-art models of the same size by 11.5% and 8.7%. Particularly, MetaMath-70B achieves an accuracy of 82.3% on GSM8K, slightly better than GPT-3.5-Turbo. We release all the MetaMathQA dataset, the MetaMath models with different model sizes and the training code for public use. | 翻訳日:2024-05-06 18:06:46 公開日:2024-05-03 |
# 分散強化学習を用いた四足歩行の学習
Learning Risk-Aware Quadrupedal Locomotion using Distributional Reinforcement Learning ( http://arxiv.org/abs/2309.14246v2 ) ライセンス: Link先を確認 | Lukas Schneider, Jonas Frey, Takahiro Miki, Marco Hutter, | (参考訳) 危険環境への展開には、ロボットが事故を防ぐための行動や動きに関連するリスクを理解する必要がある。
その重要性にもかかわらず、これらのリスクは、現在展開されている脚ロボットの移動制御器によって明確にモデル化されていない。
本研究では,分散強化学習を用いたリスクセンシティブな移動訓練手法を提案する。
本研究では,ロボットが環境と相互作用する際の不確実性を考慮した完全な値分布を推定する。
値分布はリスクメトリックによって消費され、リスクに敏感な値推定を抽出する。
これらをPPO(Proximal Policy Optimization)に統合し,その手法であるDPPO(Distributedal Proximal Policy Optimization)を導出する。
リスク・アバースからリスク・サーキングまで、リスク・プライオリティは単一のパラメータで制御でき、ロボットの動作を動的に調整することができる。
重要なことは、リスク感受性を達成するために、追加の報酬関数チューニングの必要性を取り除くことである。
シミュレーションおよび四足歩行ロボットANYmalにおいて,突発的リスクに敏感な移動行動を示す。
実験とコードのビデオはhttps://sites.google.com/leggedrobotics.com/risk-aware-locomotion.comで公開されている。
Deployment in hazardous environments requires robots to understand the risks associated with their actions and movements to prevent accidents. Despite its importance, these risks are not explicitly modeled by currently deployed locomotion controllers for legged robots. In this work, we propose a risk sensitive locomotion training method employing distributional reinforcement learning to consider safety explicitly. Instead of relying on a value expectation, we estimate the complete value distribution to account for uncertainty in the robot's interaction with the environment. The value distribution is consumed by a risk metric to extract risk sensitive value estimates. These are integrated into Proximal Policy Optimization (PPO) to derive our method, Distributional Proximal Policy Optimization (DPPO). The risk preference, ranging from risk-averse to risk-seeking, can be controlled by a single parameter, which enables to adjust the robot's behavior dynamically. Importantly, our approach removes the need for additional reward function tuning to achieve risk sensitivity. We show emergent risk sensitive locomotion behavior in simulation and on the quadrupedal robot ANYmal. Videos of the experiments and code are available at https://sites.google.com/leggedrobotics.com/risk-aware-locomotion. | 翻訳日:2024-05-06 18:06:46 公開日:2024-05-03 |
# マルチエージェントシステムにおける協調ダイナミクス:平均場平衡によるゲーム理論シナリオの探索
Cooperation Dynamics in Multi-Agent Systems: Exploring Game-Theoretic Scenarios with Mean-Field Equilibria ( http://arxiv.org/abs/2309.16263v3 ) ライセンス: Link先を確認 | Vaigarai Sathi, Sabahat Shaik, Jaswanth Nidamanuri, | (参考訳) 協調はマルチエージェントシステム(MAS)とマルチエージェント強化学習(MARL)において基本的であり、エージェントは個々の利得と集団報酬のバランスを取る必要がある。
本稿では,ゲーム理論のシナリオ,すなわち,エージェントが個人とグループの両方の結果を最適化しなければならない反復的囚人のジレンマにおいて,協調を促すための戦略を検討することを目的とする。
既存の協調戦略は、繰り返しゲームにおけるグループ指向行動を促進する効果について分析する。
グループ報酬を奨励する修正は、分散システムで見られる現実のジレンマに対処し、より高い個人の利益をもたらす。
この研究は、従来の計算と平衡決定が困難である指数関数的に増加するエージェント集団(N \longrightarrow +\infty$)のシナリオにまで拡張されている。
平均場ゲーム理論を活用することで、繰り返しゲームにおいて無限大のエージェント集合に対して平衡解と報酬構造が確立される。
最後に,Multi Agent-Posthumous Credit Assignment Trainerを用いてシミュレーションを行い,シミュレーションアルゴリズムを適用し,グループ報酬に協力するシナリオを作成する。
これらの実践的な実装は、理論概念を現実世界の応用で橋渡しする。
Cooperation is fundamental in Multi-Agent Systems (MAS) and Multi-Agent Reinforcement Learning (MARL), often requiring agents to balance individual gains with collective rewards. In this regard, this paper aims to investigate strategies to invoke cooperation in game-theoretic scenarios, namely the Iterated Prisoner's Dilemma, where agents must optimize both individual and group outcomes. Existing cooperative strategies are analyzed for their effectiveness in promoting group-oriented behavior in repeated games. Modifications are proposed where encouraging group rewards will also result in a higher individual gain, addressing real-world dilemmas seen in distributed systems. The study extends to scenarios with exponentially growing agent populations ($N \longrightarrow +\infty$), where traditional computation and equilibrium determination are challenging. Leveraging mean-field game theory, equilibrium solutions and reward structures are established for infinitely large agent sets in repeated games. Finally, practical insights are offered through simulations using the Multi Agent-Posthumous Credit Assignment trainer, and the paper explores adapting simulation algorithms to create scenarios favoring cooperation for group rewards. These practical implementations bridge theoretical concepts with real-world applications. | 翻訳日:2024-05-06 18:06:46 公開日:2024-05-03 |
# AdaRefiner: 適応的なフィードバックによる言語モデルの決定を精査する
AdaRefiner: Refining Decisions of Language Models with Adaptive Feedback ( http://arxiv.org/abs/2309.17176v3 ) ライセンス: Link先を確認 | Wanpeng Zhang, Zongqing Lu, | (参考訳) 大規模言語モデル(LLM)は、様々な領域で大きな成功を収めている。
しかし、複雑な意思決定タスクへのそれらの適用は、しばしば複雑なエンジニアリングや微調整を必要とするため、下流タスクの見当たらない問題と計算資源に対する厳しい要求に繋がる。
一方、強化学習(Reinforcement Learning, RL)は意思決定問題において有効であると認識されてきたが、オープンワールドゲームなど、粗末な報酬を伴う環境では苦戦している。
これらの課題を克服するために,LLMとRLフィードバックの相乗効果を高めるために設計された新しいフレームワークであるAdaRefinerを紹介する。
AdaRefinerの重要なコンポーネントは軽量なAdapter Language Model (LM)であり、RLエージェントからのフィードバックに基づいてタスクの理解を自動的に洗練する。
本手法は,LLMの一般化能力を維持し,下流タスクにおける意思決定能力を高めつつ,複雑な迅速なエンジニアリングと集中的なLLM微調整の必要性を軽減する。
オープンワールドゲームCrafterの22のタスクに対するAdaRefinerの実証的な評価は、特に高レベルで常識的なスキルを導くエージェントにおいて、その優れた効果を示している。
我々の研究は、RLフィードバックによるLLMの自動自己修正に貢献し、複雑な意思決定問題に対してより適応的で効率的なソリューションを提供する。
Large Language Models (LLMs) have demonstrated significant success across various domains. However, their application in complex decision-making tasks frequently necessitates intricate prompt engineering or fine-tuning, leading to challenges in unseen downstream tasks and heavy demands on computational resources. Meanwhile, Reinforcement Learning (RL) has been recognized as effective in decision-making problems but struggles in environments with sparse rewards, such as open-world games. To overcome these challenges, we introduce AdaRefiner, a novel framework designed to enhance the synergy between LLMs and RL feedback. The key component of AdaRefiner is a lightweight Adapter Language Model (LM), which automatically refines task comprehension based on feedback from RL agents. This method mitigates the need for intricate prompt engineering and intensive LLM fine-tuning while maintaining the LLMs' generalization abilities and enhancing their decision-making capabilities in downstream tasks. Empirical evaluations of AdaRefiner on 22 diverse tasks within the open-world game Crafter have demonstrated its superior effectiveness, especially in guiding agents towards higher-level and common-sense skills. Our work makes contributions to the automatic self-refinement of LLMs with RL feedback, offering a more adaptable and efficient solution for complex decision-making problems. | 翻訳日:2024-05-06 18:06:46 公開日:2024-05-03 |
# BTR: 効率的な検索言語モデルのためのバイナリトークン表現
BTR: Binary Token Representations for Efficient Retrieval Augmented Language Models ( http://arxiv.org/abs/2310.01329v2 ) ライセンス: Link先を確認 | Qingqing Cao, Sewon Min, Yizhong Wang, Hannaneh Hajishirzi, | (参考訳) Retrieval augmentationは、幻覚、安定化、プライバシー漏洩など、大規模な言語モデルにおける多くの重要な問題に対処する。
しかし, 検索拡張言語モデル (LM) の実行は遅く, 大量の検索テキストを処理するため, スケールが困難である。
1ビットベクトルを用いて各トークンを前処理するバイナリトークン表現(BTR)を導入し,推論時の計算量を大幅に削減する。
精度が低下する可能性があるにもかかわらず、我々の新しい校正手法と訓練目的は性能を回復する。
オフラインとランタイムの圧縮を組み合わせることで、ウィキペディアで30億のトークンをエンコードするためにディスクスペースは127GBしか必要としない。
実験の結果,5つの知識集約型NLPタスクにおいて,BTRは最先端の推論を最大4倍に高速化し,95%以上のタスク性能を維持しつつ,100倍以上のストレージを削減できることがわかった。
Retrieval augmentation addresses many critical problems in large language models such as hallucination, staleness, and privacy leaks. However, running retrieval-augmented language models (LMs) is slow and difficult to scale due to processing large amounts of retrieved text. We introduce binary token representations (BTR), which use 1-bit vectors to precompute every token in passages, significantly reducing computation during inference. Despite the potential loss of accuracy, our new calibration techniques and training objectives restore performance. Combined with offline and runtime compression, this only requires 127GB of disk space for encoding 3 billion tokens in Wikipedia. Our experiments show that on five knowledge-intensive NLP tasks, BTR accelerates state-of-the-art inference by up to 4x and reduces storage by over 100x while maintaining over 95% task performance. | 翻訳日:2024-05-06 18:06:46 公開日:2024-05-03 |
# タマ量子論における複雑性
Complexity in Tame Quantum Theories ( http://arxiv.org/abs/2310.01484v2 ) ライセンス: Link先を確認 | Thomas W. Grimm, Lorenz Schlechter, Mick van Vliet, | (参考訳) 物理系は有限量の情報や複雑性しか持たないという概念に着想を得て,関数や集合を指定するのに必要な論理情報の量を定量化する枠組みを導入する。
次に、この方法論を様々な物理系に適用し、パラメータ依存の物理観測値と有効ラグランジアンに現れる結合関数の複雑さを導出する。
これらの考え方を実装するためには、o-ミニマル構造で定義できる物理理論を考えることが不可欠である。
数学的論理学の概念である O-minimality は、テイムネスの原理をカプセル化している。
この性質は、多くの既知の量子場理論に固有のものであり、この理論のUV完備化と関連していると最近議論された。
これらの理論における各ステートメントに複雑性を割り当てるためには、許容される最小構造をさらに制約する必要がある。
これを実証するために、多くの物理系が、よく確立された複雑性の概念を持つ Pfaffian o-minimal 構造を用いて定式化可能であることを示す。
より一般的に、Binyamini と Novikov が最近導入した急激な O-minimal 構造を、量子論における複雑性を測定するための包括的なフレームワークとして採用することを提案する。
Inspired by the notion that physical systems can contain only a finite amount of information or complexity, we introduce a framework that allows for quantifying the amount of logical information needed to specify a function or set. We then apply this methodology to a variety of physical systems and derive the complexity of parameter-dependent physical observables and coupling functions appearing in effective Lagrangians. In order to implement these ideas, it is essential to consider physical theories that can be defined in an o-minimal structure. O-minimality, a concept from mathematical logic, encapsulates a tameness principle. It was recently argued that this property is inherent to many known quantum field theories and is linked to the UV completion of the theory. To assign a complexity to each statement in these theories one has to further constrain the allowed o-minimal structures. To exemplify this, we show that many physical systems can be formulated using Pfaffian o-minimal structures, which have a well-established notion of complexity. More generally, we propose adopting sharply o-minimal structures, recently introduced by Binyamini and Novikov, as an overarching framework to measure complexity in quantum theories. | 翻訳日:2024-05-06 18:06:46 公開日:2024-05-03 |
# MagicDrive: 横3次元形状制御によるストリートビュー生成
MagicDrive: Street View Generation with Diverse 3D Geometry Control ( http://arxiv.org/abs/2310.02601v7 ) ライセンス: Link先を確認 | Ruiyuan Gao, Kai Chen, Enze Xie, Lanqing Hong, Zhenguo Li, Dit-Yan Yeung, Qiang Xu, | (参考訳) 拡散モデルの最近の進歩は、2次元制御によるデータ合成を大幅に強化した。
しかし、3D知覚に不可欠なストリートビュー生成における正確な3D制御は、いまだ解明されていない。
具体的には,Bird's-Eye View (BEV) を一次条件として利用すると,特に3次元物体検出タスクにおいて,知覚データ合成に不可欠な物体形状,閉塞パターン,路面標高の表現に影響を及ぼすような,幾何学的制御(例えば高さ)の課題につながることが多い。
本稿では,新しいストリートビュー生成フレームワークであるMagicDriveを紹介し,カメラのポーズ,道路マップ,3次元境界ボックスなどの多様な3次元形状制御と,コーデックのカスタマイズによって実現されたテキスト記述を提供する。
さらに、我々の設計には、複数のカメラビュー間の一貫性を保証する、クロスビューアテンションモジュールが組み込まれています。
MagicDriveで高忠実なストリートビュー画像とビデオ合成を実現し、ニュアンスな3D幾何学とさまざまなシーン記述をキャプチャし、BEVセグメンテーションや3Dオブジェクト検出といったタスクを強化します。
Recent advancements in diffusion models have significantly enhanced the data synthesis with 2D control. Yet, precise 3D control in street view generation, crucial for 3D perception tasks, remains elusive. Specifically, utilizing Bird's-Eye View (BEV) as the primary condition often leads to challenges in geometry control (e.g., height), affecting the representation of object shapes, occlusion patterns, and road surface elevations, all of which are essential to perception data synthesis, especially for 3D object detection tasks. In this paper, we introduce MagicDrive, a novel street view generation framework, offering diverse 3D geometry controls including camera poses, road maps, and 3D bounding boxes, together with textual descriptions, achieved through tailored encoding strategies. Besides, our design incorporates a cross-view attention module, ensuring consistency across multiple camera views. With MagicDrive, we achieve high-fidelity street-view image & video synthesis that captures nuanced 3D geometry and various scene descriptions, enhancing tasks like BEV segmentation and 3D object detection. | 翻訳日:2024-05-06 18:06:46 公開日:2024-05-03 |
# BrainSCUBA:視覚皮質選択性の自然言語キャプション
BrainSCUBA: Fine-Grained Natural Language Captions of Visual Cortex Selectivity ( http://arxiv.org/abs/2310.04420v3 ) ライセンス: Link先を確認 | Andrew F. Luo, Margaret M. Henderson, Michael J. Tarr, Leila Wehbe, | (参考訳) 高次視覚野の機能的構造を理解することは神経科学の中心である。
過去の研究は、主に手選択刺激を用いて、神経集団の視覚的および意味的な選択性をマッピングしてきた。
従来の手法を超越して、興味ある個々のボクセルを最大限に活性化させると予測される画像の自然言語記述を生成するデータ駆動方式を導入する。
提案手法は,脳機能を利用したセマンティックキャプション("BrainSCUBA")を用いて,コントラスト型視覚言語モデルで学習した豊かな埋め込み空間上に構築し,事前学習した大言語モデルを用いて解釈可能なキャプションを生成する。
高次視覚領域にまたがる微細なボクセルレベルのキャプションにより,本手法の有効性を検証した。
さらに,字幕を用いたテキスト条件画像合成を行い,画像のセマンティックコヒーレント性を示すとともに,高いアクティベーションが期待できることを示す。
最後に,脳内の「個人」表現の分布に関する探索的研究を行い,身体選択領域における微細な意味的選択性を明らかにする。
テキストをデコードする以前の研究とは異なり、本手法は意味的選択性のボクセル的キャプションを導出する。
以上の結果から、BrainSCUBAは脳の機能的嗜好を理解するための有望な手段であり、視覚野の仮説駆動によるさらなる研究の動機となることが示唆された。
Understanding the functional organization of higher visual cortex is a central focus in neuroscience. Past studies have primarily mapped the visual and semantic selectivity of neural populations using hand-selected stimuli, which may potentially bias results towards pre-existing hypotheses of visual cortex functionality. Moving beyond conventional approaches, we introduce a data-driven method that generates natural language descriptions for images predicted to maximally activate individual voxels of interest. Our method -- Semantic Captioning Using Brain Alignments ("BrainSCUBA") -- builds upon the rich embedding space learned by a contrastive vision-language model and utilizes a pre-trained large language model to generate interpretable captions. We validate our method through fine-grained voxel-level captioning across higher-order visual regions. We further perform text-conditioned image synthesis with the captions, and show that our images are semantically coherent and yield high predicted activations. Finally, to demonstrate how our method enables scientific discovery, we perform exploratory investigations on the distribution of "person" representations in the brain, and discover fine-grained semantic selectivity in body-selective areas. Unlike earlier studies that decode text, our method derives voxel-wise captions of semantic selectivity. Our results show that BrainSCUBA is a promising means for understanding functional preferences in the brain, and provides motivation for further hypothesis-driven investigation of visual cortex. | 翻訳日:2024-05-06 18:06:46 公開日:2024-05-03 |
# GReAT: グラフ正規化逆行訓練手法
GReAT: A Graph Regularized Adversarial Training Method ( http://arxiv.org/abs/2310.05336v2 ) ライセンス: Link先を確認 | Samet Bayram, Kenneth Barner, | (参考訳) 本稿では,ディープラーニングモデルのロバストな分類性能向上を目的とした新しい正規化手法であるGReAT(Graph Regularized Adversarial Training)を提案する。
モデルの誤解を招く可能性のある微妙な摂動を特徴とする逆例は、機械学習において大きな課題を生じさせる。
敵の訓練はこのような攻撃に対する防御に有効であるが、基礎となるデータ構造を見落としていることが多い。
これに対し、GReATはグラフベースの正規化を敵のトレーニングプロセスに統合し、データ固有の構造を活用してモデルの堅牢性を高める。
トレーニング中にグラフ情報を組み込むことで、GReATは敵攻撃を防御し、目に見えないデータへの一般化を改善する。
ベンチマークデータセットの大規模な評価は、GReATが最先端の手法を堅牢性で上回り、分類精度が顕著に向上していることを示している。
具体的には、第2のベストメソッドと比較して、GReATは、FGSM攻撃に対するCIFAR10の約4.87%、FGSM攻撃に対するSVHNの約10.57%のパフォーマンス向上を達成する。
さらに、CIFAR10では、GReATはPGD攻撃に対して約11.05%のパフォーマンス向上を示し、SVHNではPGD攻撃に対して5.54%向上した。
本稿では,GReATが深層学習モデルの性能向上にもたらす影響を明らかにするため,数値的な結果や既存手法との比較など,提案手法に関する詳細な知見を提供する。
This paper presents GReAT (Graph Regularized Adversarial Training), a novel regularization method designed to enhance the robust classification performance of deep learning models. Adversarial examples, characterized by subtle perturbations that can mislead models, pose a significant challenge in machine learning. Although adversarial training is effective in defending against such attacks, it often overlooks the underlying data structure. In response, GReAT integrates graph based regularization into the adversarial training process, leveraging the data's inherent structure to enhance model robustness. By incorporating graph information during training, GReAT defends against adversarial attacks and improves generalization to unseen data. Extensive evaluations on benchmark datasets demonstrate that GReAT outperforms state of the art methods in robustness, achieving notable improvements in classification accuracy. Specifically, compared to the second best methods, GReAT achieves a performance increase of approximately 4.87% for CIFAR10 against FGSM attack and 10.57% for SVHN against FGSM attack. Additionally, for CIFAR10, GReAT demonstrates a performance increase of approximately 11.05% against PGD attack, and for SVHN, a 5.54% increase against PGD attack. This paper provides detailed insights into the proposed methodology, including numerical results and comparisons with existing approaches, highlighting the significant impact of GReAT in advancing the performance of deep learning models. | 翻訳日:2024-05-06 18:06:46 公開日:2024-05-03 |
# 言語モデルは類似推論を学習できるか? : 学習目標の検討と人的パフォーマンスとの比較
Can language models learn analogical reasoning? Investigating training objectives and comparisons to human performance ( http://arxiv.org/abs/2310.05597v4 ) ライセンス: Link先を確認 | Molly R. Petersen, Lonneke van der Plas, | (参考訳) 類推はNLPにおける単語の埋め込みを評価する一般的な方法であるが、類推がそれ自体が学習可能な課題であるかどうかを調査するのも興味深い。
本稿では,NLPベンチマークでよく用いられるものよりも,ヒトの類似推論を評価するのによく用いられるアナロジーに特化して,基本的なアナロジー推論を学習する方法をいくつか試す。
実験の結果,少量のデータであっても,モデルが類似推論を学習できることが判明した。
さらに、モデルとデータセットを人間のベースラインと比較すると、トレーニング後にモデルが人間のパフォーマンスにアプローチしていることが分かります。
While analogies are a common way to evaluate word embeddings in NLP, it is also of interest to investigate whether or not analogical reasoning is a task in itself that can be learned. In this paper, we test several ways to learn basic analogical reasoning, specifically focusing on analogies that are more typical of what is used to evaluate analogical reasoning in humans than those in commonly used NLP benchmarks. Our experiments find that models are able to learn analogical reasoning, even with a small amount of data. We additionally compare our models to a dataset with a human baseline, and find that after training, models approach human performance. | 翻訳日:2024-05-06 18:06:46 公開日:2024-05-03 |
# 物理インフォームド機械学習におけるプレコンディショニングによるトレーニング
An operator preconditioning perspective on training in physics-informed machine learning ( http://arxiv.org/abs/2310.05801v2 ) ライセンス: Link先を確認 | Tim De Ryck, Florent Bonnet, Siddhartha Mishra, Emmanuel de Bézenac, | (参考訳) 本稿では、偏微分方程式(PDE)に関連付けられた残差を最小限に抑える、PINNのような物理インフォームド機械学習手法における勾配降下アルゴリズムの挙動について検討する。
我々の主要な結果は、これらのモデルを訓練することの難しさが、特定の微分作用素の条件付けと密接に関係していることである。
この作用素は、代わりに、下層の PDE の微分作用素のエルミート二乗に関連付けられる。
このオペレータが不調であれば、遅く、あるいは不可能なトレーニングとなる。
したがって、このオペレータのプレコンディショニングは重要です。
我々は、厳密な数学的分析と経験的評価の両方を用いて、様々な戦略を調査し、どのようにしてこの臨界演算子を条件付けし、その結果、トレーニングを改善するかを説明する。
In this paper, we investigate the behavior of gradient descent algorithms in physics-informed machine learning methods like PINNs, which minimize residuals connected to partial differential equations (PDEs). Our key result is that the difficulty in training these models is closely related to the conditioning of a specific differential operator. This operator, in turn, is associated to the Hermitian square of the differential operator of the underlying PDE. If this operator is ill-conditioned, it results in slow or infeasible training. Therefore, preconditioning this operator is crucial. We employ both rigorous mathematical analysis and empirical evaluations to investigate various strategies, explaining how they better condition this critical operator, and consequently improve training. | 翻訳日:2024-05-06 18:06:46 公開日:2024-05-03 |
# 時間の問題:創発的コミュニケーションにおける時間的参照
It's About Time: Temporal References in Emergent Communication ( http://arxiv.org/abs/2310.06555v2 ) ライセンス: Link先を確認 | Olaf Lipinski, Adam J. Sobey, Federico Cerutti, Timothy J. Norman, | (参考訳) 創発的なコミュニケーションは、自然言語の進化の理解を改善し、コミュニケーション効率を向上させることを目的として、自律エージェント間の言語開発を研究する。
言語の時間的側面は計算言語学では検討されているが、創発的コミュニケーションにおける時間的参照についての研究は行われていない。
本稿では、エージェントが時間的関係についてどのようにコミュニケーションするかを探索することによって、このギャップに対処する。
我々は、環境、外部、建築の変化という、時間的基準の出現に対する3つの潜在的影響を分析する。
我々の実験は、時間的参照が現れるには損失関数の変更が不十分であることを示し、むしろアーキテクチャ上の変更が必要である。
しかし、異なるバッチ方式を使用するエージェントアーキテクチャの最小限の変更は、時間的参照の出現を可能にする。
この修正されたデザインは、時間的関係を重視した時間的参照ゲーム環境における標準アーキテクチャと比較される。
分析の結果,修正バッチ方式のエージェントの95%以上は,損失関数を変更せずに時間的参照を発生させることがわかった。
エージェントの通信効率を向上するためには,時間的参照が必要であると考え,純粋に構成言語と比較して最適なコーディングに近づいた。
我々の容易に伝達可能なアーキテクチャの洞察は、他の緊急通信設定への組み入れの基礎となる。
Emergent communication studies the development of language between autonomous agents, aiming to improve understanding of natural language evolution and increase communication efficiency. While temporal aspects of language have been considered in computational linguistics, there has been no research on temporal references in emergent communication. This paper addresses this gap, by exploring how agents communicate about temporal relationships. We analyse three potential influences for the emergence of temporal references: environmental, external, and architectural changes. Our experiments demonstrate that altering the loss function is insufficient for temporal references to emerge; rather, architectural changes are necessary. However, a minimal change in agent architecture, using a different batching method, allows the emergence of temporal references. This modified design is compared with the standard architecture in a temporal referential games environment, which emphasises temporal relationships. The analysis indicates that over 95\% of the agents with the modified batching method develop temporal references, without changes to their loss function. We consider temporal referencing necessary for future improvements to the agents' communication efficiency, yielding a closer to optimal coding as compared to purely compositional languages. Our readily transferable architectural insights provide the basis for their incorporation into other emergent communication settings. | 翻訳日:2024-05-06 17:57:02 公開日:2024-05-03 |
# 多変量衛星観測による海面高度補間の学習
Learning of Sea Surface Height Interpolation from Multi-variate Simulated Satellite Observations ( http://arxiv.org/abs/2310.07626v2 ) ライセンス: Link先を確認 | Theo Archambault, Arthur Filoche, Anastase Charantonis, Dominique Bereziat, Sylvie Thiria, | (参考訳) 衛星によるリモートセンシングミッションは、海洋の状態と力学に対する我々の理解に革命をもたらした。
このうち、宇宙からの高度計は海面高度(SSH)の貴重な測定値を提供しており、これは地表の地政学的潮流を推定するために用いられる。
センサー技術が採用されているため、SSH観測において重要なギャップが生じる。
完全SSHマップは、広く使われているデータ統一と時間結合システム(duacs)のような線形最適補間(OI)を用いて作成される。
一方、海面温度(SST)製品は、データカバレッジがはるかに高く、SSTは、対流によって地栄養的な電流と物理的に結びついている。
我々は,SSHとSSTの20年間の衛星観測を模擬した多変量観測システムシミュレーション実験(OSSE)を提案する。
このデータに基づいて、アテンションベースのエンコーダ/デコーダのディープラーニングネットワークをトレーニングします。
また,OSSEでは,SST情報の有無にかかわらず,教師付きあるいは教師なしの損失関数を用いて,アベッド再構築を訓練した場合に比較した。
渦検出におけるSSH補間の評価を行った。
また,OSSEで教師なし事前学習を行い,衛星データで教師なし微調整を行うことにより,シミュレーションから観察への学習を移譲する新たな方法を提案する。
2021年のOcean Data Challengeでの実際のSSH観測では、この学習戦略とSSTの使用が組み合わさって、ダックに比べてルート平均2乗誤差の24%が減少することがわかった。
Satellite-based remote sensing missions have revolutionized our understanding of the Ocean state and dynamics. Among them, space-borne altimetry provides valuable measurements of Sea Surface Height (SSH), which is used to estimate surface geostrophic currents. Due to the sensor technology employed, important gaps occur in SSH observations. Complete SSH maps are produced using linear Optimal Interpolations (OI) such as the widely-used Data Unification and Altimeter Combination System (duacs). On the other hand, Sea Surface Temperature (SST) products have much higher data coverage and SST is physically linked to geostrophic currents through advection. We propose a new multi-variate Observing System Simulation Experiment (OSSE) emulating 20 years of SSH and SST satellite observations. We train an Attention-Based Encoder-Decoder deep learning network (abed) on this data, comparing two settings: one with access to ground truth during training and one without. On our OSSE, we compare abed reconstructions when trained using either supervised or unsupervised loss functions, with or without SST information. We evaluate the SSH interpolations in terms of eddy detection. We also introduce a new way to transfer the learning from simulation to observations by doing a supervised pre-training on our OSSE followed by an unsupervised fine-tuning on satellite data. On real SSH observations from the Ocean Data Challenge 2021, we find that this learning strategy combined with the use of SST leads to a decrease of 24% of the root mean squared error compared to duacs. | 翻訳日:2024-05-06 17:57:02 公開日:2024-05-03 |
# SelfVC: 自己変換を用いた反復リファインメントによる音声変換
SelfVC: Voice Conversion With Iterative Refinement using Self Transformations ( http://arxiv.org/abs/2310.09653v2 ) ライセンス: Link先を確認 | Paarth Neekhara, Shehzeen Hussain, Rafael Valle, Boris Ginsburg, Rishabh Ranjan, Shlomo Dubnov, Farinaz Koushanfar, Julian McAuley, | (参考訳) 本稿では,自己合成例を用いて音声変換モデルを反復的に改善する訓練戦略であるSelfVCを提案する。
音声変換における従来の取り組みは、話者特性と言語内容とを別々に符号化した、明瞭なアンタングル表現に音声を分解することに焦点を当てていた。
しかし、そのような属性をタスク固有の損失項でキャプチャするために言語表現をアンタングル化することは、情報損失につながる可能性がある。
本研究では,自己教師付き学習(SSL)と話者検証モデルから導かれる絡み合った音声表現に基づいて,制御可能な音声変換モデルを学習するための枠組みを提案する。
まず,音声信号とSSL表現から韻律情報を引き出す手法を開発し,合成モデルにおける予測サブモジュールの訓練を行う。
次に、自己合成例を用いて、挑戦的な学習目標を作成することにより、音声変換のための合成モデルを反復的に改善する訓練戦略を提案する。
学習中にこのような自己合成例を取り入れることで、ヒューリスティックな摂動入力のみに基づいて訓練されたベースライン音声変換モデルと比較して、生成した音声の話者類似性が向上することを示した。
我々のフレームワークはテキストを使わずに訓練され、音声の自然性、話者の類似性、合成音声のインテリジェンス性を評価するため、ゼロショット音声変換を実現する。
We propose SelfVC, a training strategy to iteratively improve a voice conversion model with self-synthesized examples. Previous efforts on voice conversion focus on factorizing speech into explicitly disentangled representations that separately encode speaker characteristics and linguistic content. However, disentangling speech representations to capture such attributes using task-specific loss terms can lead to information loss. In this work, instead of explicitly disentangling attributes with loss terms, we present a framework to train a controllable voice conversion model on entangled speech representations derived from self-supervised learning (SSL) and speaker verification models. First, we develop techniques to derive prosodic information from the audio signal and SSL representations to train predictive submodules in the synthesis model. Next, we propose a training strategy to iteratively improve the synthesis model for voice conversion, by creating a challenging training objective using self-synthesized examples. We demonstrate that incorporating such self-synthesized examples during training improves the speaker similarity of generated speech as compared to a baseline voice conversion model trained solely on heuristically perturbed inputs. Our framework is trained without any text and achieves state-of-the-art results in zero-shot voice conversion on metrics evaluating naturalness, speaker similarity, and intelligibility of synthesized audio. | 翻訳日:2024-05-06 17:57:02 公開日:2024-05-03 |
# 神経活動から概念へ:ニューラルネットワークにおける概念の説明に関する調査
From Neural Activations to Concepts: A Survey on Explaining Concepts in Neural Networks ( http://arxiv.org/abs/2310.11884v2 ) ライセンス: Link先を確認 | Jae Hee Lee, Sergio Lanza, Stefan Wermter, | (参考訳) 本稿では,ニューラルネットワークの概念を説明するための最近のアプローチについて概説する。
概念は学習と推論の自然な結びつきとして機能する: ニューラルネットワークが使用する概念が特定されれば、推論のための推論システムや推論システムを使用して学習システムを改善したり、強化したりすることができる。
一方、知識はニューラルネットワークから抽出できるだけでなく、概念知識もニューラルネットワークアーキテクチャに挿入できる。
学習と推論の統合は、ニューロシンボリックAIの中核にあるため、この調査から得られた洞察は、説明可能な概念に基づいてニューロシンボリックAIを実現するための重要なステップとなる。
In this paper, we review recent approaches for explaining concepts in neural networks. Concepts can act as a natural link between learning and reasoning: once the concepts are identified that a neural learning system uses, one can integrate those concepts with a reasoning system for inference or use a reasoning system to act upon them to improve or enhance the learning system. On the other hand, knowledge can not only be extracted from neural networks but concept knowledge can also be inserted into neural network architectures. Since integrating learning and reasoning is at the core of neuro-symbolic AI, the insights gained from this survey can serve as an important step towards realizing neuro-symbolic AI based on explainable concepts. | 翻訳日:2024-05-06 17:57:02 公開日:2024-05-03 |
# 量子臨界系における分離領域間の絡み合いの負性
Entanglement negativity between separated regions in quantum critical systems ( http://arxiv.org/abs/2310.15273v4 ) ライセンス: Link先を確認 | Gilles Parez, William Witczak-Krempa, | (参考訳) 量子臨界系における解離部分領域間の絡み合いを対数ネガティティティのレンズを用いて検討する。
共形場の理論やそれに対応する格子ハミルトニアンを含む任意の次元の系や、共鳴価結合状態を扱う。
小さな分離では対数ネガティビティが大きく、普遍的な振舞いを示すが、大きな分離ではどのパワーよりも速く崩壊することを示している。
これは、単一スピン部分領域の最小設定で既に見ることができる。
大規模な分離における蒸留可能な絡み合いの欠如は1dの結果を一般化し、少なくともボソンにとって量子臨界基底状態が長距離の二部絡み合いを持たないことを示す。
フェルミオンを持つ系に対しては、フェルミオンパリティを考慮に入れた対数否定性のより適切な定義が存在し、代数的に崩壊することを示す。
その過程で、部分転位密度行列のモーメントの一般結果を得る。
We study the entanglement between disjoint subregions in quantum critical systems through the lens of the logarithmic negativity. We work with systems in arbitrary dimensions, including conformal field theories and their corresponding lattice Hamiltonians, as well as resonating valence-bond states. At small separations, the logarithmic negativity is big and displays universal behavior, but we show non-perturbatively that it decays faster than any power at large separations. This can already be seen in the minimal setting of single-spin subregions. The corresponding absence of distillable entanglement at large separations generalizes the 1d result, and indicates that quantum critical groundstates do not possess long-range bipartite entanglement, at least for bosons. For systems with fermions, a more suitable definition of the logarithmic negativity exists that takes into account fermion parity, and we show that it decays algebraically. Along the way we obtain general results for the moments of the partially transposed density matrix. | 翻訳日:2024-05-06 17:57:02 公開日:2024-05-03 |
# 強化学習による言語モデルの私的調整
Privately Aligning Language Models with Reinforcement Learning ( http://arxiv.org/abs/2310.16960v2 ) ライセンス: Link先を確認 | Fan Wu, Huseyin A. Inan, Arturs Backurs, Varun Chandrasekaran, Janardhan Kulkarni, Robert Sim, | (参考訳) 事前学習とユーザ展開の間に位置する位置にある強化学習(RL)による大規模言語モデル(LLM)の整合性は、ChatGPTのような後続モデルの訓練戦略として一般的なものとなっている。
本研究は,RLと組み合わせて,差分プライバシー(DP)によるLCMのプライバシー保護アライメントに関する研究を開始する。
Ziegler et al (2020) の影響力のある業績に続き、2つの支配的なパラダイムについて研究する。
(i)ループに人間がいないRLによるアライメント(例:陽性レビュー生成)、
(II)人間からのフィードバック(RLHF)からのRLによるアライメント(例えば、人間優先の方法での要約)。
我々は、RLによるアライメントを実現するための新しいDPフレームワークを提供し、その正確性を証明する。
提案手法の有効性を検証し,強力なプライバシ保護を確保しつつ,競争力のあるユーティリティを提供する。
Positioned between pre-training and user deployment, aligning large language models (LLMs) through reinforcement learning (RL) has emerged as a prevailing strategy for training instruction following-models such as ChatGPT. In this work, we initiate the study of privacy-preserving alignment of LLMs through Differential Privacy (DP) in conjunction with RL. Following the influential work of Ziegler et al. (2020), we study two dominant paradigms: (i) alignment via RL without human in the loop (e.g., positive review generation) and (ii) alignment via RL from human feedback (RLHF) (e.g., summarization in a human-preferred way). We give a new DP framework to achieve alignment via RL, and prove its correctness. Our experimental results validate the effectiveness of our approach, offering competitive utility while ensuring strong privacy protections. | 翻訳日:2024-05-06 17:57:02 公開日:2024-05-03 |
# パイプラインDNN推論のための実用的性能保証
Practical Performance Guarantees for Pipelined DNN Inference ( http://arxiv.org/abs/2311.03703v2 ) ライセンス: Link先を確認 | Aaron Archer, Matthew Fahrbach, Kuikui Liu, Prakash Prabhu, | (参考訳) 我々は、モデルグラフを$k$のステージに分割し、通信を含むボトルネックステージの実行時間を最小化することで、ディープニューラルネットワーク(DNN)推論のためのパイプライン並列性を最適化する。
このNPハード問題に対して実用的で効果的なアルゴリズムを提示するが、我々は、ソリューションが十分であるかどうかを決める実践者のジレンマに取り組むことに注力する。
この目的のために、我々は、下界を証明するための新しい混合整数プログラミング(MIP)の緩和を設計する。
これらの手法を369生産モデルの多種多様なテストベッドに適用すると、$k \in \{2, 4, 8, 16, 32, 64\}$に対して、これらの下限が実際に役立つほど強いことを実証的に示す。
我々の下限は標準組合せ境界よりもかなり強い。
例えば、我々の生産試験場における幾何的手段を用いて、$k = 16$パイプラインステージで評価すると、MIPの定式化は、見つかった最良の分割の分数として表される0.4598から0.9452に下限を引き上げた。
言い換えれば、改良された下界は最適性ギャップを9.855xで閉じた。
We optimize pipeline parallelism for deep neural network (DNN) inference by partitioning model graphs into $k$ stages and minimizing the running time of the bottleneck stage, including communication. We give practical and effective algorithms for this NP-hard problem, but our emphasis is on tackling the practitioner's dilemma of deciding when a solution is good enough. To this end, we design novel mixed-integer programming (MIP) relaxations for proving lower bounds. Applying these methods to a diverse testbed of 369 production models, for $k \in \{2, 4, 8, 16, 32, 64\}$, we empirically show that these lower bounds are strong enough to be useful in practice. Our lower bounds are substantially stronger than standard combinatorial bounds. For example, evaluated via geometric means across our production testbed with $k = 16$ pipeline stages, our MIP formulations raised the lower bound from 0.4598 to 0.9452, expressed as a fraction of the best partition found. In other words, our improved lower bounds closed the optimality gap by a factor of 9.855x. | 翻訳日:2024-05-06 17:57:02 公開日:2024-05-03 |
# ローカルプライバシによる因果発見
Causal Discovery Under Local Privacy ( http://arxiv.org/abs/2311.04037v3 ) ライセンス: Link先を確認 | Rūta Binkytė, Carlos Pinzón, Szilvia Lestyán, Kangsoo Jung, Héber H. Arcolezi, Catuscia Palamidessi, | (参考訳) 差分プライバシーは、データセット内のデータプロバイダの機密情報を保護するために設計された広く採用されているフレームワークである。
それは、データを保存し処理するサーバとデータ消費者の間のインターフェースにおける制御されたノイズの応用に基づいている。
ローカル差分プライバシーは、データプロバイダが個別にデータに民営化メカニズムを適用できる変種である。
したがって、サーバやデータコレクタさえ信頼できない状況でも保護を提供する。
しかし、ノイズの導入はデータの有用性に必然的に影響を与え、特に個々のデータコンポーネント間の相関関係を歪ませる。
この歪みは因果発見のようなタスクに有害である。
本稿では,これらのメカニズムが不明瞭なデータに適用した場合に,アルゴリズムが因果学習のために生成する因果構造と,それらが提供するプライバシのトレードオフとを比較した。
本分析は,因果発見タスクに適した局所微分プライベートプロトコルを選択するための貴重な洞察を与える。
我々の発見は、研究者や開業医が現地の私的因果発見を行うのに役立つと予測している。
Differential privacy is a widely adopted framework designed to safeguard the sensitive information of data providers within a data set. It is based on the application of controlled noise at the interface between the server that stores and processes the data, and the data consumers. Local differential privacy is a variant that allows data providers to apply the privatization mechanism themselves on their data individually. Therefore it provides protection also in contexts in which the server, or even the data collector, cannot be trusted. The introduction of noise, however, inevitably affects the utility of the data, particularly by distorting the correlations between individual data components. This distortion can prove detrimental to tasks such as causal discovery. In this paper, we consider various well-known locally differentially private mechanisms and compare the trade-off between the privacy they provide, and the accuracy of the causal structure produced by algorithms for causal learning when applied to data obfuscated by these mechanisms. Our analysis yields valuable insights for selecting appropriate local differentially private protocols for causal discovery tasks. We foresee that our findings will aid researchers and practitioners in conducting locally private causal discovery. | 翻訳日:2024-05-06 17:57:02 公開日:2024-05-03 |
# 微細画像分類・解析のための簡易解釈変換器
A Simple Interpretable Transformer for Fine-Grained Image Classification and Analysis ( http://arxiv.org/abs/2311.04157v2 ) ライセンス: Link先を確認 | Dipanjyoti Paul, Arpita Chowdhury, Xinqi Xiong, Feng-Ju Chang, David Carlyn, Samuel Stevens, Kaiya L. Provost, Anuj Karpatne, Bryan Carstens, Daniel Rubenstein, Charles Stewart, Tanya Berger-Wolf, Yu Su, Wei-Lun Chao, | (参考訳) 画像分類を解釈するために,トランスフォーマーの新たな利用法を提案する。
最後の完全接続層が予測を行うためにクラス情報を組み込むのを待つ主流の分類器とは異なり、私たちは各クラスにイメージ内で自身を検索するよう依頼する積極的なアプローチを調査する。
我々はこのアイデアを,Detection TRansformer (DETR) にインスパイアされた Transformer encoder-decoder で実現した。
デコーダへの入力として"クラス固有の"クエリ(各クラス毎に1つ)を学び、各クラスがクロスアテンションを通じてイメージ内のパターンをローカライズできるようにします。
Interpretable TRansformer (INTR) は実装が容易で、いくつかの魅力的な特性を示す。
我々は,INTRが各クラスに固有の参加を促すことを示し,横断的な重み付けは予測の忠実な解釈を与える。
興味深いことに、INTRは"マルチヘッド"のクロスアテンションを通じて、クラスのさまざまな"属性"を特定し、特に8つのデータセットで示す詳細な分類と分析に適している。
私たちのコードと事前トレーニングされたモデルは、Imageomics Institute GitHubのサイト(https://github.com/Imageomics/INTR.com/)で公開されています。
We present a novel usage of Transformers to make image classification interpretable. Unlike mainstream classifiers that wait until the last fully connected layer to incorporate class information to make predictions, we investigate a proactive approach, asking each class to search for itself in an image. We realize this idea via a Transformer encoder-decoder inspired by DEtection TRansformer (DETR). We learn "class-specific" queries (one for each class) as input to the decoder, enabling each class to localize its patterns in an image via cross-attention. We name our approach INterpretable TRansformer (INTR), which is fairly easy to implement and exhibits several compelling properties. We show that INTR intrinsically encourages each class to attend distinctively; the cross-attention weights thus provide a faithful interpretation of the prediction. Interestingly, via "multi-head" cross-attention, INTR could identify different "attributes" of a class, making it particularly suitable for fine-grained classification and analysis, which we demonstrate on eight datasets. Our code and pre-trained models are publicly accessible at the Imageomics Institute GitHub site: https://github.com/Imageomics/INTR. | 翻訳日:2024-05-06 17:57:01 公開日:2024-05-03 |
# 量子不特定性難読化の使い方
How to Use Quantum Indistinguishability Obfuscation ( http://arxiv.org/abs/2311.07794v3 ) ライセンス: Link先を確認 | Andrea Coladangelo, Sam Gunn, | (参考訳) アーロンソンによって導入された量子コピー保護は、有意義に複製できない量子プログラム記述を発行することができる。
10年以上の研究にもかかわらず、コピー保護は非常に限られたプログラムでのみ可能であることが知られている。
最初のコントリビューションとして、すべてのプログラムに対して「最良のコピープロテクション」を実現する方法を示します。
我々は、古典的プログラムの量子記述に対する難読化の概念である量子状態区別可能性難解化(qsiO)を導入することでこれを実現している。
プログラムにqsiOを適用すると、即座に最良のコピー保護が得られることを示す。
第二のコントリビューションは、単射片道関数が存在すると仮定すると、qsiOは、多数の句読可能なプログラムのファミリーに対する具体的なコピープロテクションであり、コピー保護可能なプログラムのクラスを著しく拡大していることを示すことです。
我々の証明の鍵となるツールは、結合不能暗号化 (cUE) と呼ばれる新しい制限不能暗号化 (UE) の変種である。
標準モデルでUEを構築することは依然として重要なオープンな問題であるが、一方の関数からcUEを構築することができる。
さらに UE の存在を仮定すると、qsiO がコピープロテクトであるような句読可能なプログラムのクラスをさらに拡張することができる。
最後に、効率的な量子オラクルに対してqsiOを構築する。
Quantum copy protection, introduced by Aaronson, enables giving out a quantum program-description that cannot be meaningfully duplicated. Despite over a decade of study, copy protection is only known to be possible for a very limited class of programs. As our first contribution, we show how to achieve "best-possible" copy protection for all programs. We do this by introducing quantum state indistinguishability obfuscation (qsiO), a notion of obfuscation for quantum descriptions of classical programs. We show that applying qsiO to a program immediately achieves best-possible copy protection. Our second contribution is to show that, assuming injective one-way functions exist, qsiO is concrete copy protection for a large family of puncturable programs -- significantly expanding the class of copy-protectable programs. A key tool in our proof is a new variant of unclonable encryption (UE) that we call coupled unclonable encryption (cUE). While constructing UE in the standard model remains an important open problem, we are able to build cUE from one-way functions. If we additionally assume the existence of UE, then we can further expand the class of puncturable programs for which qsiO is copy protection. Finally, we construct qsiO relative to an efficient quantum oracle. | 翻訳日:2024-05-06 17:57:01 公開日:2024-05-03 |
# 分散学習のためのプライバシ・エネルギー消費トレードオフの探索
Exploring the Privacy-Energy Consumption Tradeoff for Split Federated Learning ( http://arxiv.org/abs/2311.09441v4 ) ライセンス: Link先を確認 | Joohyung Lee, Mohamed Seif, Jungchan Cho, H. Vincent Poor, | (参考訳) Split Federated Learning (SFL)は、最近、フェデレーションとスプリットラーニングの両方の長所を活用する、有望な分散学習技術として登場した。
プライバシーの懸念に対処しながら、迅速な収束の利点を強調している。
その結果、この革新は産業と学術の両方から大きな注目を集めている。
しかし、SFLのクライアント側モデルとサーバ側モデルの両方に、カット層と呼ばれる特定の層で分割されるため、SFLにおけるカット層の選択は、クライアントのエネルギー消費とプライバシに大きく影響し、クライアント側のモデルのトレーニング負荷と出力に影響を与える可能性がある。
本稿では、SFLプロセスの概要を概観し、エネルギー消費とプライバシーを徹底的に分析する。
この分析は、カット層選択戦略における様々なシステムパラメータの影響を考察する。
また,要求されるエネルギー予算内でのエネルギー消費を抑えつつ,クライアントの生データをサーバで再構築するリスクを最小限に抑えるため,カット層選択の図示的な例を示す。
最後に、この分野におけるオープンな課題に対処する。
これらの方向は将来の研究開発に期待できる道のりを表している。
Split Federated Learning (SFL) has recently emerged as a promising distributed learning technology, leveraging the strengths of both federated and split learning. It emphasizes the advantages of rapid convergence while addressing privacy concerns. As a result, this innovation has received significant attention from both industry and academia. However, since the model is split at a specific layer, known as a cut layer, into both client-side and server-side models for the SFL, the choice of the cut layer in SFL can have a substantial impact on the energy consumption of clients and their privacy, as it influences the training burden and the output of the client-side models. In this article, we provide a comprehensive overview of the SFL process and thoroughly analyze energy consumption and privacy. This analysis considers the influence of various system parameters on the cut layer selection strategy. Additionally, we provide an illustrative example of the cut layer selection, aiming to minimize clients' risk of reconstructing the raw data at the server while sustaining energy consumption within the required energy budget, which involves trade-offs. Finally, we address open challenges in this field. These directions represent promising avenues for future research and development. | 翻訳日:2024-05-06 17:57:01 公開日:2024-05-03 |
# 安全な自律型クアドロター着陸のための視覚環境評価
Visual Environment Assessment for Safe Autonomous Quadrotor Landing ( http://arxiv.org/abs/2311.10065v3 ) ライセンス: Link先を確認 | Mattia Secchiero, Nishanth Bobbili, Yang Zhou, Giuseppe Loianno, | (参考訳) 安全着陸ゾーンの自律的識別と評価は、システム障害、低電池、あるいは特定のタスクの完了を成功させる場合の航空ロボットの安全性と有効性を保証する上で、最重要となる。
本稿では,安全な四段着陸のための着陸地点の検出と評価のための新しいアプローチを提案する。
提案手法は2次元・3次元環境情報を効率よく統合し,GPSや計算集約標高マップなどの外部支援を不要とした。
提案するパイプラインは,ニューラルネットワーク(NN)から派生した意味的データを用いて環境特徴を抽出し,不均一マップから得られる幾何学的データと組み合わせ,斜面,平坦性,粗さなどの重要な幾何学的属性を抽出する。
本研究は,これらの属性に基づいて,環境中の領域の安全性,安定性,適合性を評価し,最も適した着地面積を特定するために,いくつかのコスト指標を定義した。
提案手法は,計算能力に制限のあるクオータ上でリアルタイムに実行される。
種々の環境下で実施した実験結果から,提案手法は適切な着陸地点を効果的に評価し,特定し,クオータの安全かつ自律的な着陸を可能にする。
Autonomous identification and evaluation of safe landing zones are of paramount importance for ensuring the safety and effectiveness of aerial robots in the event of system failures, low battery, or the successful completion of specific tasks. In this paper, we present a novel approach for detection and assessment of potential landing sites for safe quadrotor landing. Our solution efficiently integrates 2D and 3D environmental information, eliminating the need for external aids such as GPS and computationally intensive elevation maps. The proposed pipeline combines semantic data derived from a Neural Network (NN), to extract environmental features, with geometric data obtained from a disparity map, to extract critical geometric attributes such as slope, flatness, and roughness. We define several cost metrics based on these attributes to evaluate safety, stability, and suitability of regions in the environments and identify the most suitable landing area. Our approach runs in real-time on quadrotors equipped with limited computational capabilities. Experimental results conducted in diverse environments demonstrate that the proposed method can effectively assess and identify suitable landing areas, enabling the safe and autonomous landing of a quadrotor. | 翻訳日:2024-05-06 17:57:01 公開日:2024-05-03 |
# 高忠実度人物中心画像合成
High-fidelity Person-centric Subject-to-Image Synthesis ( http://arxiv.org/abs/2311.10329v5 ) ライセンス: Link先を確認 | Yibin Wang, Weizhong Zhang, Jianwei Zheng, Cheng Jin, | (参考訳) 現在の被写体駆動画像生成法は、人中心画像生成において重大な課題に直面している。
理由は、一般的な訓練前の拡散を微調整することで、意味的なシーンと人物の生成を学習するためである。
正確には、現実的な人を生成するためには、事前訓練されたモデルを十分に調整する必要がある。
さらに、十分な微調整を施しても、シーンと人物の同時学習が品質の妥協につながるため、これらの手法は依然として高忠実な人物を生成できない。
本稿では、上記のトレーニングの不均衡と品質の妥協を解消する効果的な協調生成パイプラインであるFace-diffuserを提案する。
具体的には,まずテキスト駆動拡散モデル (TDM) と主観拡張拡散モデル (SDM) の2つの専門的な事前学習拡散モデルを開発し,シーン生成と人物生成を行う。
サンプリングプロセスは, セマンティックシーン構築, テーマシーン融合, テーマエンハンスメントの3段階に分けられる。
第1段と第2段はそれぞれTDMとSDMによって行われる。
SNF(Saliency-Adaptive Noise Fusion)という,新しい高効率なメカニズムによって達成された,テーマ・シーンの融合段階である。
具体的には、分類者なし誘導応答と生成画像の正当性との間には、ロバストなリンクが存在するというキーとなる観察に基づいている。
各時間ステップにおいて、SNFは各モデルの特異な強度を活用し、両方のモデルから予測されたノイズを、正当性を考慮した方法で自動的に空間ブレンディングすることができる。
大規模な実験により、顔拡散器の顕著な有効性と堅牢性が確認された。
Current subject-driven image generation methods encounter significant challenges in person-centric image generation. The reason is that they learn the semantic scene and person generation by fine-tuning a common pre-trained diffusion, which involves an irreconcilable training imbalance. Precisely, to generate realistic persons, they need to sufficiently tune the pre-trained model, which inevitably causes the model to forget the rich semantic scene prior and makes scene generation over-fit to the training data. Moreover, even with sufficient fine-tuning, these methods can still not generate high-fidelity persons since joint learning of the scene and person generation also lead to quality compromise. In this paper, we propose Face-diffuser, an effective collaborative generation pipeline to eliminate the above training imbalance and quality compromise. Specifically, we first develop two specialized pre-trained diffusion models, i.e., Text-driven Diffusion Model (TDM) and Subject-augmented Diffusion Model (SDM), for scene and person generation, respectively. The sampling process is divided into three sequential stages, i.e., semantic scene construction, subject-scene fusion, and subject enhancement. The first and last stages are performed by TDM and SDM respectively. The subject-scene fusion stage, that is the collaboration achieved through a novel and highly effective mechanism, Saliency-adaptive Noise Fusion (SNF). Specifically, it is based on our key observation that there exists a robust link between classifier-free guidance responses and the saliency of generated images. In each time step, SNF leverages the unique strengths of each model and allows for the spatial blending of predicted noises from both models automatically in a saliency-aware manner. Extensive experiments confirm the impressive effectiveness and robustness of the Face-diffuser. | 翻訳日:2024-05-06 17:57:01 公開日:2024-05-03 |
# 堅牢で一般化可能な量子模型の訓練
Training robust and generalizable quantum models ( http://arxiv.org/abs/2311.11871v2 ) ライセンス: Link先を確認 | Julian Berberich, Daniel Fink, Daniel Pranjić, Christian Tutschku, Christian Holm, | (参考訳) 敵対的堅牢性と一般化はどちらも信頼性のある機械学習モデルの重要な特性である。
本稿では,これらの特性をリプシッツ境界に基づく量子機械学習の文脈で研究する。
我々は、トレーニング可能なエンコーディングを持つ量子モデルに対するパラメータ依存リプシッツ境界を導出し、データエンコーディングの規範がデータ摂動に対するロバスト性に決定的な影響を与えることを示す。
さらに、データエンコーディングのパラメータを明示的に含む一般化誤差のバウンダリを導出する。
我々の理論的な結果は、コストでリプシッツ境界を正則化することによって、堅牢で一般化可能な量子モデルをトレーニングするための実践的な戦略を生み出します。
さらに、量子機械学習でよく使用される固定および非トレーニング可能な符号化に対して、リプシッツ境界はパラメータのチューニングの影響を受けないことを示す。
したがって、トレーニング中の堅牢性と一般化を体系的に適応させるには、トレーニング可能なエンコーディングが不可欠である。
理論的知見の実際的意義は, 数値的な結果とともに示される。
Adversarial robustness and generalization are both crucial properties of reliable machine learning models. In this letter, we study these properties in the context of quantum machine learning based on Lipschitz bounds. We derive parameter-dependent Lipschitz bounds for quantum models with trainable encoding, showing that the norm of the data encoding has a crucial impact on the robustness against data perturbations. Further, we derive a bound on the generalization error which explicitly involves the parameters of the data encoding. Our theoretical findings give rise to a practical strategy for training robust and generalizable quantum models by regularizing the Lipschitz bound in the cost. Further, we show that, for fixed and non-trainable encodings, as those frequently employed in quantum machine learning, the Lipschitz bound cannot be influenced by tuning the parameters. Thus, trainable encodings are crucial for systematically adapting robustness and generalization during training. The practical implications of our theoretical findings are illustrated with numerical results. | 翻訳日:2024-05-06 17:57:01 公開日:2024-05-03 |
# 開量子系における二次元対称性保護位相と遷移
Two-dimensional symmetry-protected topological phases and transitions in open quantum systems ( http://arxiv.org/abs/2311.12619v4 ) ライセンス: Link先を確認 | Yuxuan Guo, Yuto Ashida, | (参考訳) 2次元(2次元)クラスター状態の対称性保護位相(SPT)位相に対する局所的デコヒーレンスの影響について検討した。
デコヒーレンスの下での2次元クラスター状態を古典的なスピンモデルにマッピングし、$\mathbb{Z}_2^{(0)}\times\mathbb{Z}_{2}^{(1)}$ SPT 位相の位相遷移を有限デコヒーレンス強度で生じる自明な位相に変換する。
位相遷移を特徴付けるために、位相境界状態の異なる2つの非共役SPT状態間の相対エントロピー、$\mathbb{Z}_2^{(1)}$電荷の奇妙な相関関数、ディスク上の混合状態の多重粒子負性という3つの異なる診断方法を用いる。
全ての診断は、対応する古典的モデルにおける一定の熱力学量として得ることができ、3つの診断試験の結果は互いに一致している。
2次元クラスター状態が測定ベースの量子計算の文脈で普遍的な計算能力を持っていることを考慮すれば、ここで見られる位相遷移は計算力の遷移と解釈できる。
We investigate the influence of local decoherence on a symmetry-protected topological (SPT) phase of the two-dimensional (2D) cluster state. Mapping the 2D cluster state under decoherence to a classical spin model, we show a topological phase transition of a $\mathbb{Z}_2^{(0)}\times\mathbb{Z}_{2}^{(1)}$ SPT phase into the trivial phase occurring at a finite decoherence strength. To characterize the phase transition, we employ three distinct diagnostic methods, namely, the relative entropy between two decohered SPT states with different topological edge states, the strange correlation function of $\mathbb{Z}_2^{(1)}$ charge, and the multipartite negativity of the mixed state on a disk. All the diagnostics can be obtained as certain thermodynamic quantities in the corresponding classical model, and the results of three diagnostic tests are consistent with each other. Given that the 2D cluster state possesses universal computational capabilities in the context of measurement-based quantum computation, the topological phase transition found here can also be interpreted as a transition in the computational power. | 翻訳日:2024-05-06 17:47:17 公開日:2024-05-03 |
# 境界状態強化量子メトロロジーの量子シミュレーション
Quantum Simulation of Bound-State-Enhanced Quantum Metrology ( http://arxiv.org/abs/2311.14020v2 ) ライセンス: Link先を確認 | Cheng-Ge Liu, Cong-Wei Lu, Na-Na Zhang, Qing Ai, | (参考訳) 量子気象学は量子効果を探求し、古典的な限界を超える物理量の測定精度を向上させる。
しかし,システムと環境の相互作用により,デコヒーレンスにより測定精度が著しく低下する。
長期限界における測定精度を回復するための多くの手法が提案されている。
最近、境界状態は誤差のない測定を補助し、$t^{-1}$スケーリング(K. Bai, Z. Peng, H. G. Luo, J. H. An, Phys. Rev. Lett. 123, 040402 (2019))]を回復できることがわかった。
ここでは、$N$-qubitsを用いて、1つの原子と結合共振器を含むハイブリッドシステムのオープン量子力学をシミュレートする手法を提案する。
境界状態の存在により時間が増えるにつれて測定誤差が消えることが分かる。
解析シミュレーションと数値シミュレーションの両方により、ハイブリッドシステムに有界状態が存在する場合に測定誤差の$t^{-1}$スケールを復元できることを証明した。
興味深いことに、原子遷移周波数の評価に使用できる完璧な振動が存在することが観察される。
有限$N$の場合、完全振動の持続時間は、もう1つのキュービットが関与するにつれて2倍になる。
Quantum metrology explores quantum effects to improve the measurement accuracy of some physical quantities beyond the classical limit. However, due to the interaction between the system and the environment, the decoherence can significantly reduce the accuracy of the measurement. Many methods have been proposed to restore the accuracy of the measurement in the long-time limit. Recently, it has been found that the bound state can assist the error-free measurement and recover the $t^{-1}$ scaling [K. Bai, Z. Peng, H. G. Luo, and J. H. An, Phys. Rev. Lett. 123, 040402 (2019)]. Here, by using $N$-qubits, we propose a method to simulate the open quantum dynamics of the hybrid system including one atom and coupled resonators. We find that the error of the measurement can vanish as the time increases due to the existence of the bound state. By both analytical and numerical simulations, we prove the $t^{-1}$ scaling of the measurement error can be recovered when there is a bound state in the hybrid system. Interestingly, we observe that there are perfect oscillations which can be used for the evaluation of the atomic transition frequency. For a finite-$N$, the duration of the perfect oscillations doubles as one more qubit is involved. | 翻訳日:2024-05-06 17:47:17 公開日:2024-05-03 |
# FocusLearn: 時系列のための完全解釈可能な高性能モジュールニューラルネットワーク
FocusLearn: Fully-Interpretable, High-Performance Modular Neural Networks for Time Series ( http://arxiv.org/abs/2311.16834v4 ) ライセンス: Link先を確認 | Qiqi Su, Christos Kloukinas, Artur d'Avila Garcez, | (参考訳) 多変量時系列は、医療や気象学から生命科学まで、多くの応用がある。
ディープラーニングモデルは時系列で優れた予測性能を示してきたが、彼らは「ブラックボックス」か非解釈可能であると批判されてきた。
本稿では,構築によって解釈可能な多変量時系列予測のための新しいモジュール型ニューラルネットワークモデルを提案する。
リカレントニューラルネットワークはデータ内の時間的依存関係を学習し、アテンションベースの特徴選択コンポーネントは最も関連性の高い特徴を選択し、時間的依存関係の学習に使用される冗長な特徴を抑制する。
モジュール型のディープネットワークは、選択した機能から独立してトレーニングされ、ユーザーが機能がどのように結果に影響を与えるかを示し、モデルを解釈できる。
実験結果から,本手法は,時系列タスクの回帰と分類の両方において,最先端の非解釈可能な手法であるLSTM,XGBoostに匹敵する予測性能を達成し,最先端の解釈可能なニューラル付加モデル(NAM)およびそれらのバリエーションより優れていることが示された。
Multivariate time series have many applications, from healthcare and meteorology to life science. Although deep learning models have shown excellent predictive performance for time series, they have been criticised for being "black-boxes" or non-interpretable. This paper proposes a novel modular neural network model for multivariate time series prediction that is interpretable by construction. A recurrent neural network learns the temporal dependencies in the data while an attention-based feature selection component selects the most relevant features and suppresses redundant features used in the learning of the temporal dependencies. A modular deep network is trained from the selected features independently to show the users how features influence outcomes, making the model interpretable. Experimental results show that this approach can outperform state-of-the-art interpretable Neural Additive Models (NAM) and variations thereof in both regression and classification of time series tasks, achieving a predictive performance that is comparable to the top non-interpretable methods for time series, LSTM and XGBoost. | 翻訳日:2024-05-06 17:47:17 公開日:2024-05-03 |
# 視覚変換器の解釈忠実度向上
Improving Interpretation Faithfulness for Vision Transformers ( http://arxiv.org/abs/2311.17983v2 ) ライセンス: Link先を確認 | Lijie Hu, Yixin Liu, Ninghao Liu, Mengdi Huai, Lichao Sun, Di Wang, | (参考訳) ビジョントランスフォーマー(ViT)は、様々なビジョンタスクに対して最先端のパフォーマンスを達成した。
この成功の背景にある1つの理由は、ニューラルネットワークの振舞いについて、実証可能な本質的な説明を提供する能力である。
しかし、ViTは、その焦点が敵の攻撃に対して脆弱であり、入力画像のわずかな摂動でも容易に変更できるため、説明の忠実さに関する問題に悩まされる。
本稿では,Fithful ViTs(FViTs)の導入により,これらの問題を緩和するための厳密なアプローチを提案する。
簡単に言えば、FViTは以下の2つの性質を持つべきである: 1) 自己注意ベクトルの上位$k$指数は、入力摂動の下でほとんど変化せず、安定な説明を示す; (2) 予測分布は摂動に対して堅牢である。
そこで本研究では, ランダムな平滑化と拡散に基づく復調を併用したDDS (Denoized Diffusion Smoothing) という手法を提案する。
理論的には、DDSで直接ViTを処理することでFViTに変換できる。
また、ガウスノイズは $\ell_2$ と $\ell_\infty$-norm の場合にほぼ最適であることを示す。
最後に,本手法の有効性を総合的な実験と評価を通じて実証する。
その結果、FViTは、注意力の説明可能性を維持しつつ、敵攻撃に対してより堅牢であり、より忠実であることが示唆された。
Vision Transformers (ViTs) have achieved state-of-the-art performance for various vision tasks. One reason behind the success lies in their ability to provide plausible innate explanations for the behavior of neural architectures. However, ViTs suffer from issues with explanation faithfulness, as their focal points are fragile to adversarial attacks and can be easily changed with even slight perturbations on the input image. In this paper, we propose a rigorous approach to mitigate these issues by introducing Faithful ViTs (FViTs). Briefly speaking, an FViT should have the following two properties: (1) The top-$k$ indices of its self-attention vector should remain mostly unchanged under input perturbation, indicating stable explanations; (2) The prediction distribution should be robust to perturbations. To achieve this, we propose a new method called Denoised Diffusion Smoothing (DDS), which adopts randomized smoothing and diffusion-based denoising. We theoretically prove that processing ViTs directly with DDS can turn them into FViTs. We also show that Gaussian noise is nearly optimal for both $\ell_2$ and $\ell_\infty$-norm cases. Finally, we demonstrate the effectiveness of our approach through comprehensive experiments and evaluations. Results show that FViTs are more robust against adversarial attacks while maintaining the explainability of attention, indicating higher faithfulness. | 翻訳日:2024-05-06 17:47:17 公開日:2024-05-03 |
# 部分付加性とサブシステム粗粒化を伴う量子エントロピー円錐の内部境界
Inner bounding the quantum entropy cone with subadditivity and subsystem coarse grainings ( http://arxiv.org/abs/2312.04074v2 ) ライセンス: Link先を確認 | Temple He, Veronika E. Hubeny, Massimiliano Rota, | (参考訳) 明快な構成により、三元量子エントロピー円錐と四元量子エントロピー円錐の極端線は、特定の高位量子状態、すなわち(非自明な)極端状態の(準付加性の)最大集合を飽和させることによって得られる。
このことは、 ‘subadditivity cone' の研究と、量子力学において実現可能な極端光線の集合が、量子および安定化子エントロピー円錐の内界を導出するための強力なツールと、フォン・ノイマンエントロピーの新たな不等式に関する制約をもたらすことを示唆している。
We show via explicit construction that all the extreme rays of both the three-party quantum entropy cone and the four-party stabilizer entropy cone can be obtained from subsystem coarse grainings of specific higher-party quantum states, namely extreme states characterized by saturating a (non-trivial) maximal set of instances of subadditivity. This suggests that the study of the ``subadditivity cone'', and the set of its extreme rays realizable in quantum mechanics, provides a powerful tool for deriving inner bounds for the quantum and stabilizer entropy cones, as well as constraints on new inequalities for the von Neumann entropy. | 翻訳日:2024-05-06 17:47:17 公開日:2024-05-03 |
# クラスタリングとPix2Pixに基づくMRIスキャン合成法
MRI Scan Synthesis Methods based on Clustering and Pix2Pix ( http://arxiv.org/abs/2312.05176v2 ) ライセンス: Link先を確認 | Giulia Baldini, Melanie Schmidt, Charlotte Zäske, Liliana L. Caldeira, | (参考訳) 磁気共鳴イメージング(MRI)脳スキャンにおける自動セグメンテーション手法の文脈における欠如したデータ問題について考察する。
通常、自動MRIスキャンセグメンテーションは複数のスキャン(例えば、T1重み、T2重み、T1CE、FLAIR)に基づいている。
しかし、多くの場合、スキャンはぼやけたり、欠けたり、使われなくなったりする。
欠落したスキャンを合成できるかどうかについて検討する。
与えられたT1重み付きスキャンからT2重み付きスキャンを合成することで、原則としてこれが可能であることを実証する。
我々の第一の目的は、平均二乗誤差(MSE)によって測定された、欠落したスキャンによく似た画像を計算することである。
条件付きGANをベースとしたIsola et al(Pix2Pix)によるランダムベースライン手法、クラスタリング法、ピクセル間変換法など、いくつかの手法を開発・使用している。
最も低いMSEはクラスタリングに基づく手法によって達成される。
第2の目的は,合成スキャンがセグメンテーション過程に与える影響について比較することである。
このために、上述した4つの入力スキャンモードでトレーニングされたDeepMedicモデルを使用します。
Dice スコアを数値評価として,T2-weighted スキャンを合成画像に置き換え,腫瘍の同定に関するセグメンテーションを評価する。
セグメンテーションは、多くの場合、合成スキャン(特にPix2Pix法)でうまく機能することを示す。
We consider a missing data problem in the context of automatic segmentation methods for Magnetic Resonance Imaging (MRI) brain scans. Usually, automated MRI scan segmentation is based on multiple scans (e.g., T1-weighted, T2-weighted, T1CE, FLAIR). However, quite often a scan is blurry, missing or otherwise unusable. We investigate the question whether a missing scan can be synthesized. We exemplify that this is in principle possible by synthesizing a T2-weighted scan from a given T1-weighted scan. Our first aim is to compute a picture that resembles the missing scan closely, measured by average mean squared error (MSE). We develop/use several methods for this, including a random baseline approach, a clustering-based method and pixel-to-pixel translation method by Isola et al. (Pix2Pix) which is based on conditional GANs. The lowest MSE is achieved by our clustering-based method. Our second aim is to compare the methods with respect to the effect that using the synthesized scan has on the segmentation process. For this, we use a DeepMedic model trained with the four input scan modalities named above. We replace the T2-weighted scan by the synthesized picture and evaluate the segmentations with respect to the tumor identification, using Dice scores as numerical evaluation. The evaluation shows that the segmentation works well with synthesized scans (in particular, with Pix2Pix methods) in many cases. | 翻訳日:2024-05-06 17:47:17 公開日:2024-05-03 |
# TULIP: LiDAR ポイントクラウドのアップサンプリング用トランスフォーマー
TULIP: Transformer for Upsampling of LiDAR Point Clouds ( http://arxiv.org/abs/2312.06733v4 ) ライセンス: Link先を確認 | Bin Yang, Patrick Pfreundschuh, Roland Siegwart, Marco Hutter, Peyman Moghadam, Vaishakh Patil, | (参考訳) LiDAR Upsamplingは、大規模なシーンコンテキストのスパースで不規則な構造のため、ロボットや自動運転車の認識システムにとって困難なタスクである。
近年の研究では、3次元ユークリッド空間からのLiDARデータを2次元画像空間の超解像問題に変換することでこの問題を解決することを提案する。
これらの手法は細かな詳細で高解像度のレンジ画像を生成することができるが、3Dポイントの雲は詳細を曖昧にし、無効な点を予測する。
本稿では,低分解能LiDAR入力から高分解能LiDAR点雲を再構成する新しい方法であるTULIPを提案する。
また、レンジ画像に基づくアプローチにも従うが、特にSwin-Transformerベースのネットワークのパッチとウィンドウのジオメトリを変更して、レンジ画像の特性をよりよく適合させる。
我々は3つの公開現実世界およびシミュレーションデータセットについていくつかの実験を行った。
TULIPは、すべての関連するメトリクスにおいて最先端の手法より優れており、以前の作業よりも堅牢でより現実的な点雲を生成する。
LiDAR Upsampling is a challenging task for the perception systems of robots and autonomous vehicles, due to the sparse and irregular structure of large-scale scene contexts. Recent works propose to solve this problem by converting LiDAR data from 3D Euclidean space into an image super-resolution problem in 2D image space. Although their methods can generate high-resolution range images with fine-grained details, the resulting 3D point clouds often blur out details and predict invalid points. In this paper, we propose TULIP, a new method to reconstruct high-resolution LiDAR point clouds from low-resolution LiDAR input. We also follow a range image-based approach but specifically modify the patch and window geometries of a Swin-Transformer-based network to better fit the characteristics of range images. We conducted several experiments on three public real-world and simulated datasets. TULIP outperforms state-of-the-art methods in all relevant metrics and generates robust and more realistic point clouds than prior works. | 翻訳日:2024-05-06 17:47:17 公開日:2024-05-03 |
# MaTe3D: マスクガイド付きテキストベースの3D画像編集
MaTe3D: Mask-guided Text-based 3D-aware Portrait Editing ( http://arxiv.org/abs/2312.06947v3 ) ライセンス: Link先を確認 | Kangneng Zhou, Daiheng Gao, Xuan Wang, Jie Zhang, Peng Zhang, Xusen Sun, Longhao Zhang, Shiqi Yang, Bang Zhang, Liefeng Bo, Yaxing Wang, Ming-Ming Cheng, | (参考訳) 3D対応の肖像画編集は、複数の分野に幅広い応用がある。
しかし、マスクガイドやテキストベースの編集しかできないため、現在のアプローチは限られている。
2つのプロシージャをモデルに融合させることによっても、編集品質と安定性を確保することはできない。
この制限に対処するため,マスク誘導型テキストベースの3D画像編集法である \textbf{MaTe3D} を提案する。
まず,SDFに基づく新しい3Dジェネレータを導入し,SDFと密度の整合性による局所的およびグローバルな表現を学習する。
第2に、新しい蒸留戦略として、幾何とテクスチャの条件蒸留(CDGT)を提案する。
蒸留を終了する戦略と比較して、視覚的曖昧さを軽減し、テクスチャと幾何学のミスマッチを回避し、編集中に安定したテクスチャと精巧な幾何学を生成する。
さらに、モデル一般化と拡張の探索のための大規模高解像度猫顔アノテーションであるCatMask-HQデータセットを作成する。
FFHQとCatMask-HQの両方のデータセットで高価な実験を行い、提案手法の編集品質と安定性を実証する。
本手法は,修正マスクとテキストプロンプトに基づく3次元顔画像の編集を忠実に行う。
私たちのコードとモデルは公開されます。
3D-aware portrait editing has a wide range of applications in multiple fields. However, current approaches are limited due that they can only perform mask-guided or text-based editing. Even by fusing the two procedures into a model, the editing quality and stability cannot be ensured. To address this limitation, we propose \textbf{MaTe3D}: mask-guided text-based 3D-aware portrait editing. In this framework, first, we introduce a new SDF-based 3D generator which learns local and global representations with proposed SDF and density consistency losses. This enhances masked-based editing in local areas; second, we present a novel distillation strategy: Conditional Distillation on Geometry and Texture (CDGT). Compared to exiting distillation strategies, it mitigates visual ambiguity and avoids mismatch between texture and geometry, thereby producing stable texture and convincing geometry while editing. Additionally, we create the CatMask-HQ dataset, a large-scale high-resolution cat face annotation for exploration of model generalization and expansion. We perform expensive experiments on both the FFHQ and CatMask-HQ datasets to demonstrate the editing quality and stability of the proposed method. Our method faithfully generates a 3D-aware edited face image based on a modified mask and a text prompt. Our code and models will be publicly released. | 翻訳日:2024-05-06 17:47:17 公開日:2024-05-03 |
# GuardRails: あいまいな目的を明確化するための自動提案
GuardRails: Automated Suggestions for Clarifying Ambiguous Purpose Statements ( http://arxiv.org/abs/2312.08189v2 ) ライセンス: Link先を確認 | Mrigank Pawagi, Viraj Kumar, | (参考訳) 関数を実装する前に、プログラマは目的のステートメント、すなわち関数が何を計算するかの短い自然言語による説明を書くことを奨励される。
目的のステートメントは曖昧であるかもしれない、すなわち、2つ以上の非等価な計算が特定の入力に当てはまる場合、意図した振る舞いを特定できないかもしれない。
私たちの論文は4つの貢献をしている。
まず,Large Language Models (LLMs) を用いてそのような入力を提案する新しいヒューリスティックを提案する。
これらの提案を使用することで、プログラマは目的のステートメント(例えば、そのような入力に対して意図された振る舞いを指定する機能的な例を提供すること)を明確にすることを選ぶことができる。
第二に、我々のヒューリスティックによって提案される入力の質を評価し、将来の研究を促進するために、既知の曖昧さを伴う目的文のオープンデータセットを作成します。
第三に、私たちはGitHub CopilotのChat機能に対するヒューリスティックを比較しています。
第4に、Pythonプログラミング言語のVisual Studio Codeの拡張として、ヒューリスティックのオープンソース実装を提供しています。
このツールは初心者プログラマやインストラクターにとって特に役立つと思います。
Before implementing a function, programmers are encouraged to write a purpose statement i.e., a short, natural-language explanation of what the function computes. A purpose statement may be ambiguous i.e., it may fail to specify the intended behaviour when two or more inequivalent computations are plausible on certain inputs. Our paper makes four contributions. First, we propose a novel heuristic that suggests such inputs using Large Language Models (LLMs). Using these suggestions, the programmer may choose to clarify the purpose statement (e.g., by providing a functional example that specifies the intended behaviour on such an input). Second, to assess the quality of inputs suggested by our heuristic, and to facilitate future research, we create an open dataset of purpose statements with known ambiguities. Third, we compare our heuristic against GitHub Copilot's Chat feature, which can suggest similar inputs when prompted to generate unit tests. Fourth, we provide an open-source implementation of our heuristic as an extension to Visual Studio Code for the Python programming language, where purpose statements and functional examples are specified as docstrings and doctests respectively. We believe that this tool will be particularly helpful to novice programmers and instructors. | 翻訳日:2024-05-06 17:47:17 公開日:2024-05-03 |
# アンシラ量子ビットを持たない多対数深さ制御NOTゲート
Polylogarithmic-depth controlled-NOT gates without ancilla qubits ( http://arxiv.org/abs/2312.13206v5 ) ライセンス: Link先を確認 | Baptiste Claudon, Julien Zylberman, César Feniou, Fabrice Debbasch, Alberto Peruzzo, Jean-Philip Piquemal, | (参考訳) 制御された演算は量子アルゴリズムの基本的な構成要素である。
n$-control-NOT ゲート (C^n(X)$) を任意の単一量子ビットと CNOT ゲートに分解することは、重要だが非自明な作業である。
本研究は、無症候性および非無症候性レジームにおいて、従来の方法よりも優れた$C^n(X)$回路を導入する。
回路深度が$\Theta\left(\log(n)^{3}\right)$、回路深度が$\mathcal O \left(\log(n)^{3}\log(1/\epsilon)\right)$、調整可能な深度回路が$m\leq n$で減少し$O(log(2n/m)^3+log(m/2)$である。
結果として生じる指数的なスピードアップは、量子化学から物理学、ファイナンス、量子機械学習に至るまで、数え切れないほど多くの量子アルゴリズムの複雑さを改善することによって、フォールトトレラントな量子コンピューティングに大きな影響を与える可能性が高い。
Controlled operations are fundamental building blocks of quantum algorithms. Decomposing $n$-control-NOT gates ($C^n(X)$) into arbitrary single-qubit and CNOT gates, is a crucial but non-trivial task. This study introduces $C^n(X)$ circuits outperforming previous methods in the asymptotic and non-asymptotic regimes. Three distinct decompositions are presented: an exact one using one borrowed ancilla with a circuit depth $\Theta\left(\log(n)^{3}\right)$, an approximating one without ancilla qubits with a circuit depth $\mathcal O \left(\log(n)^{3}\log(1/\epsilon)\right)$ and an exact one with an adjustable-depth circuit which decreases with the number $m\leq n$ of ancilla qubits available as $O(log(2n/m)^3+log(m/2))$. The resulting exponential speedup is likely to have a substantial impact on fault-tolerant quantum computing by improving the complexities of countless quantum algorithms with applications ranging from quantum chemistry to physics, finance and quantum machine learning. | 翻訳日:2024-05-06 17:47:17 公開日:2024-05-03 |
# 量子Null-hypothesisデバイス非依存のSchmidtランク証人
Quantum null-hypothesis device-independent Schmidt rank witness ( http://arxiv.org/abs/2312.13996v3 ) ライセンス: Link先を確認 | Josep Batle, Tomasz Białecki, Tomasz Rybotycki, Jakub Tworzydło, Adam Bednorz, | (参考訳) デバイス非依存型ヌル証人検定による二部量子系の次元性について検討する。
このテストは、与えられた二部状態が期待される量子次元、シュミット階数と一致するかどうかを評価し、また実空間と複素空間を区別する。
提案手法は,各当事者の局所的な測定値を用いて最小ランクを決定することを目的としている。
IBM Quantumデバイス上での実験実験を行うことで、通常の校正以上の診断において、テストの異常な精度と有用性を証明する。
テストの1つは、統計的エラーにおける理論的な期待と一致している。
しかし、第2の試験は6回以上の標準偏差で失敗し、特定されていない寄生虫の絡み合いを示し、単純な起源は知られていない。
We investigate the dimensionality of bipartite quantum systems through the construction of a device-independent null witness test. This test assesses whether a given bipartite state conforms with the expected quantum dimension, Schmidt rank, and also distinguishes between real and complex spaces. By employing local measurements on each party, the proposed method aims to determine the minimal rank. By performing an experimental demonstration on IBM Quantum devices, we prove the exceptional accuracy of the test and its usefulness in diagnostics beyond routine calibrations. One of tests shows agreement with theoretical expectations within statistical errors. However, the second test failed by more than 6 standard deviations, indicating unspecified parasitic entanglements, with no known simple origin. | 翻訳日:2024-05-06 17:37:33 公開日:2024-05-03 |
# スプリットウェイト埋め込みによる系統樹の教師なし学習
Unsupervised Learning of Phylogenetic Trees via Split-Weight Embedding ( http://arxiv.org/abs/2312.16074v2 ) ライセンス: Link先を確認 | Yibo Kong, George P. Tiley, Claudia Solis-Lemus, | (参考訳) 教師なし学習は、広範囲のドメインアプリケーションにわたるデータのクラスタリングパターンの識別に成功し、古典的な機械学習の基盤となっている。
驚くべきことに、その正確さとエレガントさにもかかわらず、系統樹推定の領域では教師なし学習が十分に活用されていない。
系統学における教師なし学習の導入が遅れた主な理由は、系統樹をベクトル空間に埋め込む意味があるが単純な方法がないことである。
そこで本研究では,標準的なクラスタリングアルゴリズムを系統樹の空間に適合させる,シンプルながら強力な分割重み付き埋め込みを提案する。
シミュレーションデータと実データ(Adansonia baobabs)の有意義な進化的関係を再現できることを示す。
Unsupervised learning has become a staple in classical machine learning, successfully identifying clustering patterns in data across a broad range of domain applications. Surprisingly, despite its accuracy and elegant simplicity, unsupervised learning has not been sufficiently exploited in the realm of phylogenetic tree inference. The main reason for the delay in adoption of unsupervised learning in phylogenetics is the lack of a meaningful, yet simple, way of embedding phylogenetic trees into a vector space. Here, we propose the simple yet powerful split-weight embedding which allows us to fit standard clustering algorithms to the space of phylogenetic trees. We show that our split-weight embedded clustering is able to recover meaningful evolutionary relationships in simulated and real (Adansonia baobabs) data. | 翻訳日:2024-05-06 17:37:33 公開日:2024-05-03 |
# 信頼区間を有する望ましい特性のデバイス非依存認証
Device-independent certification of desirable properties with a confidence interval ( http://arxiv.org/abs/2401.06627v2 ) ライセンス: Link先を確認 | Wan-Guan Chang, Kai-Chun Chen, Kai-Siang Chen, Shin-Liang Chen, Yeong-Cherng Liang, | (参考訳) 量子技術の発展において、量子デバイスを特徴付ける信頼性の高い手段が不可欠である。
しかし、例えば量子状態トモグラフィーやプロセストモグラフィーに基づく従来のアプローチは、現実的な実験環境では必ずしも正当化できない仮定に依存している。
この問題に対するデバイス非依存のアプローチは、最小限の正当化可能な仮定をすることで上記の欠点を回避しているが、これまでの理論的な提案のほとんどは、i.d.トライアルが仮定される理想化された環境でのみ機能する。
ここでは、厳密なデバイス非依存の証明に対して、i.d.仮定に依存しない汎用的なソリューションを提供する。
具体的には、仮説テストのために開発された予測ベース比(PBR)プロトコルとマーチンゲールベースのプロトコルを、現在の文脈で適用して、信頼区間を持つ望ましい特性のデバイス非依存の認証を実現する方法について述べる。
これらの手法の汎用性を説明するために、有限データ、基礎となる負性性、ヒルベルト空間次元、絡み合い深さ、目的とする純状態への忠実性などを用いて証明する方法を実証する。
特に、証明可能な負性率と忠実度が試行回数とともにどのようにスケールするか、また、立方体状態空間の認定に必要な実験的な試行回数、または真の三部体絡みの有無を示す例を挙げる。
全体として、PBRプロトコルとマーチンゲールベースのプロトコルは、前者が目撃者を前提にしているにも関わらず、しばしば同様のパフォーマンスを提供することがわかった。
対照的に,マルティンゲールに基づくプロトコルの性能は,目撃者の選択に大きく影響している可能性が示唆された。
興味深いことに、自己検査に有用な証人は必ずしも、その正当性を対応する目標状態に認定する最適な信任率を与えるとは限らない。
In the development of quantum technologies, a reliable means for characterizing quantum devices is crucial. However, the conventional approach based on, e.g., quantum state tomography or process tomography relies on assumptions often not necessarily justifiable in a realistic experimental setting. While the device-independent approach to this problem bypasses the shortcomings above by making only minimal, justifiable assumptions, most of the theoretical proposals to date only work in the idealized setting where i.i.d. trials are assumed. Here, we provide a versatile solution for rigorous device-independent certification that does not rely on the i.i.d. assumption. Specifically, we describe how the prediction-based-ratio (PBR) protocol and martingale-based protocol developed for hypothesis testing can be applied in the present context to achieve a device-independent certification of desirable properties with confidence interval. To illustrate the versatility of these methods, we demonstrate how we can use them to certify, with finite data, the underlying negativity, Hilbert space dimension, entanglement depth, and fidelity to some target pure state. In particular, we give examples showing how the amount of certifiable negativity and fidelity scales with the number of trials, and how many experimental trials one needs to certify a qutrit state space, or the presence of genuine tripartite entanglement. Overall, we have found that the PBR protocol and the martingale-based protocol often offer similar performance, even though the former does have to presuppose any witness. In contrast, our findings also show that the performance of the martingale-based protocol may be severely affected by one's choice of the witness. Intriguingly, a witness useful for self-testing does not necessarily give the optimal confidence-gain rate for certifying the fidelity to the corresponding target state. | 翻訳日:2024-05-06 17:37:33 公開日:2024-05-03 |
# ValUES:セマンティックセグメンテーションにおける不確実性推定の体系的検証のためのフレームワーク
ValUES: A Framework for Systematic Validation of Uncertainty Estimation in Semantic Segmentation ( http://arxiv.org/abs/2401.08501v2 ) ライセンス: Link先を確認 | Kim-Celine Kahl, Carsten T. Lüth, Maximilian Zenk, Klaus Maier-Hein, Paul F. Jaeger, | (参考訳) 不確実性推定は,セマンティックセグメンテーション手法の信頼性向上に不可欠な要素である。
方法論的な進歩を主張するさまざまな研究が存在しているが、一方では、理論と実践のギャップによって、この分野は妨げられている。
不確実性手法のどのコンポーネントが現実世界のパフォーマンスに欠かせないのか?
どの不確実性手法がどの用途に有効か?
本研究では, この研究ギャップを, 不確実性評価の体系的および包括的評価の欠如と結びつけた。
具体的には、現在の文献における3つの重要な落とし穴を特定し、研究ギャップを橋渡しする評価枠組みを提案する。
1)データのあいまいさや分布変化を研究するための制御された環境。
2【関連方法要素の系統的な廃止】
3) OoD検出, 能動学習, 故障検出, 校正, あいまいさモデリングの5つの主要な不確実性アプリケーションに対するテストベッド。
シミュレーションおよび実世界のデータに関する実証的な結果は、提案フレームワークが、例えば、この分野における主要な疑問にどのように答えることができるかを実証している。
1)不確実性型の分離はシミュレーションデータに作用するが、必ずしも実世界のデータに変換されるとは限らない。
2 スコアの集約は、不確実性の方法の重要な要素であるが、現在無視されている要素である。
3) アンサンブルは下流のさまざまなタスクや設定で最も堅牢に機能するが、テスト時の拡張は軽量な代替手段となることが多い。
code is at: https://github.com/IML-DKFZ/values
Uncertainty estimation is an essential and heavily-studied component for the reliable application of semantic segmentation methods. While various studies exist claiming methodological advances on the one hand, and successful application on the other hand, the field is currently hampered by a gap between theory and practice leaving fundamental questions unanswered: Can data-related and model-related uncertainty really be separated in practice? Which components of an uncertainty method are essential for real-world performance? Which uncertainty method works well for which application? In this work, we link this research gap to a lack of systematic and comprehensive evaluation of uncertainty methods. Specifically, we identify three key pitfalls in current literature and present an evaluation framework that bridges the research gap by providing 1) a controlled environment for studying data ambiguities as well as distribution shifts, 2) systematic ablations of relevant method components, and 3) test-beds for the five predominant uncertainty applications: OoD-detection, active learning, failure detection, calibration, and ambiguity modeling. Empirical results on simulated as well as real-world data demonstrate how the proposed framework is able to answer the predominant questions in the field revealing for instance that 1) separation of uncertainty types works on simulated data but does not necessarily translate to real-world data, 2) aggregation of scores is a crucial but currently neglected component of uncertainty methods, 3) While ensembles are performing most robustly across the different downstream tasks and settings, test-time augmentation often constitutes a light-weight alternative. Code is at: https://github.com/IML-DKFZ/values | 翻訳日:2024-05-06 17:37:33 公開日:2024-05-03 |
# 差分特徴のアンダーレポーティングがアルゴリズム的公正性に及ぼす影響
The Impact of Differential Feature Under-reporting on Algorithmic Fairness ( http://arxiv.org/abs/2401.08788v2 ) ライセンス: Link先を確認 | Nil-Jana Akpinar, Zachary C. Lipton, Alexandra Chouldechova, | (参考訳) 公共セクターの予測リスクモデルは、公共サービスに大きく依存するサブポピュレーションに対してより完全な管理データを用いて、一般的に開発されている。
例えば、米国では、医療利用に関する情報はメディケイドやメディケアが支援する個人のための政府機関で定期的に利用することができるが、民間の保険は受けていない。
公共セクターのアルゴリズムに対する批判は、アルゴリズムの意思決定における不一致の要因として、そのような特徴を過度に報告している。
しかし、この形式のデータバイアスは、技術的な観点からはまだ検討されていない。
先行研究では, 付加的特徴雑音と, 明らかに欠落を示す特徴の公平性の影響について検討してきたが, データの欠落を示す指標(差分的特徴下記法)の設定は研究の注目度に欠けていた。
本研究では,このようなデータバイアスがアルゴリズム的公正性に与える影響を特徴付けるために,解析的に抽出可能な特徴量のアンダーレポーティングモデルを提案する。
この設定では、標準の欠落したデータメソッドが一般的にバイアスを軽減するのに失敗する様子を実証し、特に差分特徴のアンダーレポーティングに適した新しい手法を提案する。
我々の結果は、実世界のデータ設定では、アンダーレポートが典型的に格差を増大させることを示している。
提案手法は不公平さの軽減に成功している。
Predictive risk models in the public sector are commonly developed using administrative data that is more complete for subpopulations that more greatly rely on public services. In the United States, for instance, information on health care utilization is routinely available to government agencies for individuals supported by Medicaid and Medicare, but not for the privately insured. Critiques of public sector algorithms have identified such differential feature under-reporting as a driver of disparities in algorithmic decision-making. Yet this form of data bias remains understudied from a technical viewpoint. While prior work has examined the fairness impacts of additive feature noise and features that are clearly marked as missing, the setting of data missingness absent indicators (i.e. differential feature under-reporting) has been lacking in research attention. In this work, we present an analytically tractable model of differential feature under-reporting which we then use to characterize the impact of this kind of data bias on algorithmic fairness. We demonstrate how standard missing data methods typically fail to mitigate bias in this setting, and propose a new set of methods specifically tailored to differential feature under-reporting. Our results show that, in real world data settings, under-reporting typically leads to increasing disparities. The proposed solution methods show success in mitigating increases in unfairness. | 翻訳日:2024-05-06 17:37:33 公開日:2024-05-03 |
# LangProp: 運転に適用される大規模言語モデルを用いたコード最適化フレームワーク
LangProp: A code optimization framework using Large Language Models applied to driving ( http://arxiv.org/abs/2401.10314v2 ) ライセンス: Link先を確認 | Shu Ishida, Gianluca Corrado, George Fedoseev, Hudson Yeo, Lloyd Russell, Jamie Shotton, João F. Henriques, Anthony Hu, | (参考訳) 本稿では,LangPropを提案する。LangPropは,大規模言語モデル(LLM)が生成するコードを,教師付きおよび強化学習設定の両方で反復的に最適化するフレームワークである。
LLMはゼロショットで有能な符号化ソリューションを生成することができるが、しばしば準最適である。
特にコード生成タスクの場合、初期コードは特定のエッジケースで失敗する可能性が高い。
LangPropは入力と出力のペアのデータセット上でコードのパフォーマンスを自動的に評価し、例外をキャッチし、トレーニングループのLSMに結果を返す。
このコード最適化手順にメトリックとデータ駆動のトレーニングパラダイムを採用することで、模倣学習、DAgger、強化学習といった従来の機械学習技術からの発見を容易に適応できる。
我々は、SudokuやCartPoleといった一般的なドメインに適用可能であることを示し、CARLAにおける自律運転のための自動コード最適化の第一の証明を示す。
我々は、LangPropが、メトリックおよびデータ駆動方式で検証および改善可能な、解釈可能な、透過的なポリシーを生成することができることを示す。
私たちのコードはhttps://github.com/shuishida/LangProp.comで公開されています。
We propose LangProp, a framework for iteratively optimizing code generated by large language models (LLMs), in both supervised and reinforcement learning settings. While LLMs can generate sensible coding solutions zero-shot, they are often sub-optimal. Especially for code generation tasks, it is likely that the initial code will fail on certain edge cases. LangProp automatically evaluates the code performance on a dataset of input-output pairs, catches any exceptions, and feeds the results back to the LLM in the training loop, so that the LLM can iteratively improve the code it generates. By adopting a metric- and data-driven training paradigm for this code optimization procedure, one could easily adapt findings from traditional machine learning techniques such as imitation learning, DAgger, and reinforcement learning. We show LangProp's applicability to general domains such as Sudoku and CartPole, as well as demonstrate the first proof of concept of automated code optimization for autonomous driving in CARLA. We show that LangProp can generate interpretable and transparent policies that can be verified and improved in a metric- and data-driven way. Our code is available at https://github.com/shuishida/LangProp. | 翻訳日:2024-05-06 17:37:33 公開日:2024-05-03 |
# 風を吹いて風を吹く:言語モデルの編集が与える影響
Sowing the Wind, Reaping the Whirlwind: The Impact of Editing Language Models ( http://arxiv.org/abs/2401.10647v4 ) ライセンス: Link先を確認 | Rima Hazra, Sayan Layek, Somnath Banerjee, Soujanya Poria, | (参考訳) 人工知能の分野では、レッドチームやジェイルブレイクという概念が重要な研究領域として浮上している。
このアプローチは、これらのモデルの安全性と堅牢性の評価と強化において特に重要である。
本稿では,モデル編集による修正の複雑な結果について検討し,モデル精度の向上と倫理的整合性維持の複雑な関係を明らかにする。
正確な情報を注入することはモデルの信頼性にとって重要であるが、モデルの基礎的なフレームワークをパラドックス的に不安定にし、予測不可能で潜在的に安全でない振る舞いをもたらす。
さらに、この安全でない振る舞いを同一領域と横断領域の両方で調査するベンチマークデータセットNicheHazardQAを提案する。
私たちの研究のこの側面は、モデルの安全性指標やガードレールにどのように影響するかに光を当てています。
この結果から,対象の編集を体系的に適用し,結果のモデル行動を評価することで,モデル編集がトピックのリピートに有効なツールであることが示唆された。
In the rapidly advancing field of artificial intelligence, the concept of Red-Teaming or Jailbreaking large language models (LLMs) has emerged as a crucial area of study. This approach is especially significant in terms of assessing and enhancing the safety and robustness of these models. This paper investigates the intricate consequences of such modifications through model editing, uncovering a complex relationship between enhancing model accuracy and preserving its ethical integrity. Our in-depth analysis reveals a striking paradox: while injecting accurate information is crucial for model reliability, it can paradoxically destabilize the model's foundational framework, resulting in unpredictable and potentially unsafe behaviors. Additionally, we propose a benchmark dataset NicheHazardQA to investigate this unsafe behavior both within the same and cross topical domain. This aspect of our research sheds light on how the edits, impact the model's safety metrics and guardrails. Our findings show that model editing serves as a cost-effective tool for topical red-teaming by methodically applying targeted edits and evaluating the resultant model behavior. | 翻訳日:2024-05-06 17:37:33 公開日:2024-05-03 |
# 次元仮定による量子ゲートの古典的証明
Classical certification of quantum gates under the dimension assumption ( http://arxiv.org/abs/2401.17006v3 ) ライセンス: Link先を確認 | Jan Nöller, Nikolai Miklin, Martin Kliesch, Mariami Gachechiladze, | (参考訳) 我々は,ブラックボックスシナリオにおいて,量子システムの次元のみが知られていると仮定して,単一量子ビットの量子ゲートを認証する効率的な方法を開発した。
この方法は、単一の量子ビット上での正確な量子計算の結果をテストすることに基づいており、補助的なシステムを必要としない。
この方法のサンプル複雑性は、関連するシングルキュービットゲートの証明に対して平均ゲート不忠実性$\varepsilon$に対して$\mathrm{O}(\varepsilon^{-1})$として増大し、これは実験的に$\pi/2$パルスに対応する。
さらに,提案手法は単一キュービット量子計算において共通なゲートセットの証明に利用できることを示す。
我々のアプローチは、自己検証から証明の強い概念と、量子システムの特徴から実際に高い関連性を持つアプローチのギャップを埋める第一歩を踏み出す。
We develop an efficient method for certifying single-qubit quantum gates in a black-box scenario, assuming only the dimension of the quantum system is known. The method is based on testing the outcomes of exact quantum computations on a single qubit, with no auxiliary systems required. We prove that the method's sample complexity grows as $\mathrm{O}(\varepsilon^{-1})$ with respect to the average gate infidelity $\varepsilon$ for the certification of a relevant single-qubit gate, which experimentally corresponds to a $\pi/2$-pulse. Furthermore, we show that the proposed method can be used to certify a gate set universal for single-qubit quantum computation. Our approach takes a first step in bridging the gap between strong notions of certification from self-testing and practically highly relevant approaches from quantum system characterization. | 翻訳日:2024-05-06 17:37:33 公開日:2024-05-03 |
# (A)私は弁護士ではない。しかし...--法律専門家が法務顧問の責任あるLCM政策にむけて
(A)I Am Not a Lawyer, But...: Engaging Legal Experts towards Responsible LLM Policies for Legal Advice ( http://arxiv.org/abs/2402.01864v2 ) ライセンス: Link先を確認 | Inyoung Cheong, King Xia, K. J. Kevin Feng, Quan Ze Chen, Amy X. Zhang, | (参考訳) 大規模言語モデル(LLM)は、法的なアドバイスを含む幅広い専門分野のアドバイスをユーザに提供しやすくなっている。
しかし、法的クエリにLLMに頼ることは、必要な重要な専門知識と、アドバイスの現実的な結果によって懸念を生じさせる。
ケースベースの推論にインスパイアされた手法を用いて,20人の法律専門家とワークショップを開催した。
提供された現実的なクエリ(ケース)により、専門家は粒度、状況に応じた関心事を調べ、技術的および法的制約を克服し、LLM開発者にとって具体的なコンテキスト的考慮事項を作成できるようになった。
LLM応答の適切性に影響を与える因子を合成することにより,(1)ユーザの属性と行動,(2)クエリの性質,(3)AI能力,(4)社会的影響の4次元の枠組みを提示する。
我々は,LSM対応戦略について専門家の勧告を共有し,決定的な法的判断を提供するのではなく,ユーザが「質問すべき正しい質問」と関連する情報を識別するのを支援する。
文献で見過ごされた不正確な助言に対する無許可の法律実践,機密性,責任など,新たな法的考察が明らかになった。
ケースベースの検討手法により、非コンテクスト化された調査や投機的原則を超越した、きめ細かい、実践的インフォームドな洞察を導き出すことができた。
これらの知見は、ドメイン固有の専門知識と実践をLCM行動のより責任ある方向に導くポリシーに翻訳する手法の適用性を強調した。
Large language models (LLMs) are increasingly capable of providing users with advice in a wide range of professional domains, including legal advice. However, relying on LLMs for legal queries raises concerns due to the significant expertise required and the potential real-world consequences of the advice. To explore \textit{when} and \textit{why} LLMs should or should not provide advice to users, we conducted workshops with 20 legal experts using methods inspired by case-based reasoning. The provided realistic queries ("cases") allowed experts to examine granular, situation-specific concerns and overarching technical and legal constraints, producing a concrete set of contextual considerations for LLM developers. By synthesizing the factors that impacted LLM response appropriateness, we present a 4-dimension framework: (1) User attributes and behaviors, (2) Nature of queries, (3) AI capabilities, and (4) Social impacts. We share experts' recommendations for LLM response strategies, which center around helping users identify `right questions to ask' and relevant information rather than providing definitive legal judgments. Our findings reveal novel legal considerations, such as unauthorized practice of law, confidentiality, and liability for inaccurate advice, that have been overlooked in the literature. The case-based deliberation method enabled us to elicit fine-grained, practice-informed insights that surpass those from de-contextualized surveys or speculative principles. These findings underscore the applicability of our method for translating domain-specific professional knowledge and practices into policies that can guide LLM behavior in a more responsible direction. | 翻訳日:2024-05-06 17:37:33 公開日:2024-05-03 |
# 大規模生成AIのためのビジュアル列挙
Visual Enumeration is Challenging for Large-scale Generative AI ( http://arxiv.org/abs/2402.03328v2 ) ライセンス: Link先を確認 | Alberto Testolin, Kuinan Hou, Marco Zorzi, | (参考訳) 人間は、数えることなく、視覚的なシーンの物体の数を簡単に判断することができ、言語発達や正式な教育の前に多くの動物種や赤ちゃんにそのようなスキルが記録されている。
数値的な判断は小さな集合では誤りのないが、より大きな集合では応答が近似され、変数はターゲット数に比例して増加する。
この応答パターンは、物体の特徴(色や形状など)の変化にもかかわらず、あらゆる種類の項目に対して観察され、我々の視覚的数感覚は数奇性の抽象的表現に依存していることを示唆している。
そこで本研究では,大規模生成人工知能(AI)システムにおいて,簡単な視覚刺激で対象物を確実に命名したり,対象物数を含む画像を1~10の範囲で生成することができるような,人間のような数感覚を持つかどうかを検討する。
小さい数であっても衝撃的なエラーを犯し、応答のばらつきは体系的な方法では増加せず、エラーのパターンはオブジェクトカテゴリに依存します。
最新のプロプライエタリなシステムだけが、視覚的数感覚のシグネチャを示す。
本研究は, 数値の直観的理解は基礎モデルでは依然として困難であり, 数学的学習に欠かせない数列の知覚的基礎化に寄与する可能性が示唆された。
Humans can readily judge the number of objects in a visual scene, even without counting, and such a skill has been documented in many animal species and babies prior to language development and formal schooling. Numerical judgments are error-free for small sets, while for larger collections responses become approximate, with variability increasing proportionally to the target number. This response pattern is observed for items of all kinds, despite variation in object features (such as color or shape), suggesting that our visual number sense relies on abstract representations of numerosity. Here, we investigate whether large-scale generative Artificial Intelligence (AI) systems have a human-like number sense, which should allow them to reliably name the number of objects in simple visual stimuli or generate images containing a target number of items in the 1-10 range. Surprisingly, most of the foundation models considered have a poor number sense: They make striking errors even with small numbers, the response variability does not increase in a systematic way, and the pattern of errors depends on object category. Only the most recent proprietary systems exhibit signatures of a visual number sense. Our findings demonstrate that having an intuitive visual understanding of number remains challenging for foundation models, which in turn might be detrimental to the perceptual grounding of numeracy that in humans is crucial for mathematical learning. | 翻訳日:2024-05-06 17:37:33 公開日:2024-05-03 |
# 不注意なwhisper: 音声からテキストへの幻覚のハーム
Careless Whisper: Speech-to-Text Hallucination Harms ( http://arxiv.org/abs/2402.08021v2 ) ライセンス: Link先を確認 | Allison Koenecke, Anna Seo Gyeong Choi, Katelyn X. Mei, Hilke Schellmann, Mona Sloane, | (参考訳) 音声テキストサービスは、入力音声をできるだけ正確に書き起こすことを目的としている。
彼らは日々の生活、例えばパーソナル・ボイス・アシスタントやカスタマー・コンパニオン・インタラクションでの役割を担っている。
Open AIのWhisperは、2023年現在、業界における競合より優れた最先端の自動音声認識サービスです。
ウィスパーの書き起こしの多くは極めて正確であったが、約1\%の音声書き起こしは、基礎となる音声のいかなる形態にも存在しない全幻覚句や文を含んでいた。
我々は、Whisper-hallucinatedのコンテンツを数学的に分析し、38 %の幻覚には、暴力の永続、不正確な関係の形成、偽の権威の示唆などの明示的な害が含まれていることを発見した。
次に,失語症話者(音声と音声で自己表現する能力の低下)と対照群との幻覚率の相違を観察し,幻覚の発生について検討した。
失語症の一般的な症状である、より長い声の持続時間で話す人には幻覚が不均等に起こることがわかりました。
我々は、Whisperにおけるこれらの言語モデルに基づく幻覚を改善すること、および、音声からテキストへのモデルによる下流の応用において幻覚によって増幅される潜在的なバイアスの認識を高めることを、業界実践者に呼びかける。
Speech-to-text services aim to transcribe input audio as accurately as possible. They increasingly play a role in everyday life, for example in personal voice assistants or in customer-company interactions. We evaluate Open AI's Whisper, a state-of-the-art automated speech recognition service outperforming industry competitors, as of 2023. While many of Whisper's transcriptions were highly accurate, we find that roughly 1\% of audio transcriptions contained entire hallucinated phrases or sentences which did not exist in any form in the underlying audio. We thematically analyze the Whisper-hallucinated content, finding that 38\% of hallucinations include explicit harms such as perpetuating violence, making up inaccurate associations, or implying false authority. We then study why hallucinations occur by observing the disparities in hallucination rates between speakers with aphasia (who have a lowered ability to express themselves using speech and voice) and a control group. We find that hallucinations disproportionately occur for individuals who speak with longer shares of non-vocal durations -- a common symptom of aphasia. We call on industry practitioners to ameliorate these language-model-based hallucinations in Whisper, and to raise awareness of potential biases amplified by hallucinations in downstream applications of speech-to-text models. | 翻訳日:2024-05-06 17:37:33 公開日:2024-05-03 |
# 置換不変系の不安定性
Nonstabilizerness of Permutationally Invariant Systems ( http://arxiv.org/abs/2402.08551v3 ) ライセンス: Link先を確認 | Gianluca Passarelli, Rosario Fazio, Procolo Lucignano, | (参考訳) N$ qubits のシステムの非安定化性の典型的な測度は、次元が 2^N$ の状態で、パウリ群の各パウリ弦に対して 4^N$ の期待値を計算する必要がある。
置換不変系に対して、この指数的オーバーヘッドは、次元が$O(N)$の状態において単に$O(N^3)$期待値に縮めることができる。
この単純化を利用して、数百の量子ビットを持つ系の非安定化相転移を研究する。
Typical measures of nonstabilizerness of a system of $N$ qubits require computing $4^N$ expectation values, one for each Pauli string in the Pauli group, over a state of dimension $2^N$. For permutationally invariant systems, this exponential overhead can be reduced to just $O(N^3)$ expectation values on a state with a dimension $O(N)$. We exploit this simplification to study the nonstabilizerness phase transitions of systems with hundreds of qubits. | 翻訳日:2024-05-06 17:37:33 公開日:2024-05-03 |
# rnaglibにおける3次元RNA機能予測ツール
3D-based RNA function prediction tools in rnaglib ( http://arxiv.org/abs/2402.09330v2 ) ライセンス: Link先を確認 | Carlos Oliver, Vincent Mallet, Jérôme Waldispühl, | (参考訳) RNAの構造的特徴と生物学的機能との関連を理解することは、進化学的研究とRNA設計における根本的な課題である。
しかし、RNA 3D構造のデータセットを構築し、適切なモデリング選択を行うことは、依然として時間がかかり、標準化が欠如している。
本章では、RNA3D構造のデータセット上で、教師付きおよび教師なし機械学習に基づく関数予測モデルをトレーニングするためのrnaglibの使用について述べる。
Understanding the connection between complex structural features of RNA and biological function is a fundamental challenge in evolutionary studies and in RNA design. However, building datasets of RNA 3D structures and making appropriate modeling choices remains time-consuming and lacks standardization. In this chapter, we describe the use of rnaglib, to train supervised and unsupervised machine learning-based function prediction models on datasets of RNA 3D structures. | 翻訳日:2024-05-06 17:27:48 公開日:2024-05-03 |
# RGBDセンシングと時間畳み込みネットワークを用いたフレキシブル連続マニピュレータのヒステリシス補償
Hysteresis Compensation of Flexible Continuum Manipulator using RGBD Sensing and Temporal Convolutional Network ( http://arxiv.org/abs/2402.11319v3 ) ライセンス: Link先を確認 | Junhyun Park, Seonghyeok Jang, Hyojae Park, Seongjun Bae, Minho Hwang, | (参考訳) フレキシブル連続マニピュレータは、非線型経路を介して制限された空間へのアクセスを提供する、最小侵襲の手術に有用である。
しかし、ケーブル駆動マニピュレータは、摩擦、伸長、結合などのキャブリング効果によるヒステリシスによる制御困難に直面している。
これらの効果は, 非線形性によりモデル化が困難であり, 長く結合した多分割マニピュレータを扱う際には, さらに困難が顕在化する。
本稿では,Deep Neural Networks (DNN) に基づくデータ駆動方式を提案する。
提案するマニピュレータのヒステリシスをモデル化するために,RGBDセンシングと7つのフィデューシャルマーカーを用いて,コマンド関節構成に従って物理的関節構成を収集する。
4つのDNNモデルの推定性能を比較した結果,時間的畳み込みネットワーク(TCN)が最も高い予測能力を示した。
トレーニングされたTCNを利用することで、ヒステリシスを補うための制御アルゴリズムを構築します。
未確認軌道を用いたタスク空間における追跡テストの結果、提案した制御アルゴリズムは平均位置と方向誤差を61.39%(13.7mmから5.29mm)、64.04%(31.17{\degから11.21{\degまで)削減している。
この結果から, マニピュレータのヒステリシスを推定することにより, キャリブレーション制御器が所望の形状に効果的に到達できることが示唆された。
この手法を実際の手術シナリオに適用することで、制御精度を高め、手術性能を向上させることができる。
Flexible continuum manipulators are valued for minimally invasive surgery, offering access to confined spaces through nonlinear paths. However, cable-driven manipulators face control difficulties due to hysteresis from cabling effects such as friction, elongation, and coupling. These effects are difficult to model due to nonlinearity and the difficulties become even more evident when dealing with long and coupled, multi-segmented manipulator. This paper proposes a data-driven approach based on Deep Neural Networks (DNN) to capture these nonlinear and previous states-dependent characteristics of cable actuation. We collect physical joint configurations according to command joint configurations using RGBD sensing and 7 fiducial markers to model the hysteresis of the proposed manipulator. Result on a study comparing the estimation performance of four DNN models show that the Temporal Convolution Network (TCN) demonstrates the highest predictive capability. Leveraging trained TCNs, we build a control algorithm to compensate for hysteresis. Tracking tests in task space using unseen trajectories show that the proposed control algorithm reduces the average position and orientation error by 61.39% (from 13.7mm to 5.29 mm) and 64.04% (from 31.17{\deg} to 11.21{\deg}), respectively. This result implies that the proposed calibrated controller effectively reaches the desired configurations by estimating the hysteresis of the manipulator. Applying this method in real surgical scenarios has the potential to enhance control precision and improve surgical performance. | 翻訳日:2024-05-06 17:27:48 公開日:2024-05-03 |
# 学習可能なウェイトとして機能を有する言語モデルエージェントのオフライントレーニング
Offline Training of Language Model Agents with Functions as Learnable Weights ( http://arxiv.org/abs/2402.11359v2 ) ライセンス: Link先を確認 | Shaokun Zhang, Jieyu Zhang, Jiale Liu, Linxin Song, Chi Wang, Ranjay Krishna, Qingyun Wu, | (参考訳) 研究者や実践者が最近、強力なLarge Language Models(LLM)をエージェントとして再構成し、主に特殊な関数を使って複雑なタスクを自動化した。
LLM エージェントの開発を容易にするため,LLM エージェントを LLM 重量を変更することなくトレーニングする新たなパラダイムを提案する。
静的なツールセットに適合するように我々の生物学的構造を変えるのではなく、人間が現実世界のタスクに適応するためのツールを継続的に鍛造する方法に着想を得て、我々は、LCMの重みを変更するのではなく、下流タスクをよりよく解決するために、エージェントの機能を段階的に鍛造することを提案する。
学習可能な「エージェントパラメータ」として処理し、人工知能におけるモデルトレーニングの基本的な考え方を活用することにより、エージェントの機能を更新し、エージェントトレーニングアルゴリズムを2つの戦略(ロールバックとアーリーストップ)で考案し、トレーニングプロセスを合理化するエージェントオプティマイザを開発する。
広範囲な実験により、エージェント訓練パラダイムは、様々な下流タスクにおける代表的LLMエージェントの性能を著しく向上させることができることを示した。
また、学習曲線やドメイン転送可能性といった側面に関するエージェント訓練の振る舞いについても検討する。
Researchers and practitioners have recently reframed powerful Large Language Models (LLMs) as agents, enabling them to automate complex tasks largely via the use of specialized functions. To facilitate the development of LLM agents, we present a novel paradigm of training LLM agents without modifying the LLM weights, which is particularly useful when the LLMs are difficult or inaccessible for modifications. Inspired by how humans continuously forge tools to adapt to real-world tasks, rather than change our biological structure to fit a static set of tools, we propose to progressively forge agent's functions to better solve the downstream tasks instead of modifying the LLM weights. By treating the functions as learnable `agent parameters' and leveraging the fundamental idea of model training in artificial intelligence, we develop AgentOptimizer that employs the LLM to update agents' functions and devise an agent training algorithm with two strategies, roll-back, and early-stop, to streamline the training process. With extensive experiments, we showcase that the agent training paradigm could significantly improve the performance of representative LLM agents in various downstream tasks. We also study the behavior of the agent training regarding aspects like the learning curve and domain transferability. | 翻訳日:2024-05-06 17:27:48 公開日:2024-05-03 |
# ミンコフスキー時空のコーシー面上の量子粒子の局在とその因果的性質
Quantum particle localization observables on Cauchy surfaces of Minkowski spacetime and their causal properties ( http://arxiv.org/abs/2402.13894v4 ) ライセンス: Link先を確認 | Carmine De Rosa, Valter Moretti, | (参考訳) 我々はミンコフスキー時空における量子系の空間的滑らかなコーシー曲面上の空間的局在の概念を導入し研究する。
この概念は正規化されたPOVMのコヒーレントな族によって構成される。
このタイプのPOVMの族が自動的にカスティーリャーノ曲面を一般化する因果条件を満たすことを証明し、平坦な空間のようなコーシー曲面に制限するときにそれを暗示する。
その結果、ヘーゲルフェルトの定理との矛盾は生じない。
さらに、これらのPOVMの族がクライン=ゴルドン粒子に対して存在することを証明している。
これらは正定核から構成されるか、あるいは応力エネルギーテンソル作用素の項で定義される。
これらの構造のさらなる特徴、特にニュートン・ウィグナー自己随伴作用素の三重項と他のミンコフスキー参照フレームの3$-空間におけるハイゼンベルク不等式の修正形式との関係について検討する。
We introduce and study a general notion of spatial localization on spacelike smooth Cauchy surfaces of quantum systems in Minkowski spacetime. The notion is constructed in terms of a coherent family of normalized POVMs, one for each said Cauchy surface. We prove that a family of POVMs of this type automatically satisfies a causality condition which generalizes Castrigiano's one and implies it when restricting to flat spacelike Cauchy surfaces. As a consequence no conflict with Hegerfeldt's theorem arises. We furthermore prove that such families of POVMs do exist for massive Klein-Gordon particles, since some of them are extensions of already known spatial localization observables. These are constructed out of positive definite kernels or are defined in terms of the stress-energy tensor operator. Some further features of these structures are investigated, in particular, the relation with the triple of Newton-Wigner selfadjoint operators and a modified form of Heisenberg inequality in the rest $3$-spaces of Minkowski reference frames | 翻訳日:2024-05-06 17:27:48 公開日:2024-05-03 |
# 視覚分類のためのアーキテクチャ間のゼロショット一般化
Zero-shot generalization across architectures for visual classification ( http://arxiv.org/abs/2402.14095v4 ) ライセンス: Link先を確認 | Evan Gerritz, Luciano Dyballa, Steven W. Zucker, | (参考訳) 未確認データへの一般化はディープネットワークにとって重要なデシダータムであるが、その分類精度との関係は不明確である。
最小限のビジョンデータセットと一般化可能性の尺度を用いて、ディープ畳み込みネットワーク(CNN)からトランスフォーマー(transformer)までの人気ネットワークが、層とアーキテクチャの両方にわたって、見当たらないクラスに外挿する能力に変化することを示した。
精度は一般化可能性の予測には適さないし、一般化は層深度とともに単調に変化する。
Generalization to unseen data is a key desideratum for deep networks, but its relation to classification accuracy is unclear. Using a minimalist vision dataset and a measure of generalizability, we show that popular networks, from deep convolutional networks (CNNs) to transformers, vary in their power to extrapolate to unseen classes both across layers and across architectures. Accuracy is not a good predictor of generalizability, and generalization varies non-monotonically with layer depth. | 翻訳日:2024-05-06 17:27:48 公開日:2024-05-03 |
# シリコンバレーの群衆の知恵: LLM Ensemble Prediction Capability Rival Human Crowd Accuracy
Wisdom of the Silicon Crowd: LLM Ensemble Prediction Capabilities Rival Human Crowd Accuracy ( http://arxiv.org/abs/2402.19379v3 ) ライセンス: Link先を確認 | Philipp Schoenegger, Indre Tuminauskaite, Peter S. Park, Philip E. Tetlock, | (参考訳) 実際の人間の予測精度は、「群衆の知恵」効果に依存しており、個々の予測者の群集に集結することで、将来の出来事に関する予測が著しく改善される。
大規模言語モデル(LLM)の予測能力に関する過去の研究は、フロンティアのLLMは、個人予測家として、人間の群衆予測トーナメントアグリゲーションのゴールドスタンダードに比べて性能が劣っていることを示唆している。
研究1では、12個のLLMの群集からなるLLMアンサンブルアプローチを用いて、この研究を拡大する。
我々は,31の2進数質問に対するLLM予測を,3ヶ月の予測トーナメントの925人の予測者の群集と比較した。
我々の事前登録された主要な分析は、LLMの群集が単純な非情報ベンチマークよりも優れており、統計的にヒトの群集と異なるものではないことを示している。
探索的解析において、これらの2つのアプローチは中規模効果の同値境界に対して等価であることがわかった。
また, 正解と負解がほぼ均等に分かれているにもかかわらず, 平均モデル予測が50%以上であるような収差効果も観測した。
さらに,研究2では,人間の認知的アウトプットに基づいてLCM予測(GPT-4とClaude 2)を改善することができるかどうかを検証した。
両モデルの予測精度は、中央値の人間の予測を情報として露出することで、精度を17%から28%向上させることで得られる。
以上の結果から, LLMは, 簡易かつ実用的な予測集計手法により, 人体予測トーナメントに匹敵する予測精度を達成できることが示唆された。
これはLLMの「群集の知恵」効果を再現し、社会全体で様々な用途に利用を開放する。
Human forecasting accuracy in practice relies on the 'wisdom of the crowd' effect, in which predictions about future events are significantly improved by aggregating across a crowd of individual forecasters. Past work on the forecasting ability of large language models (LLMs) suggests that frontier LLMs, as individual forecasters, underperform compared to the gold standard of a human crowd forecasting tournament aggregate. In Study 1, we expand this research by using an LLM ensemble approach consisting of a crowd of twelve LLMs. We compare the aggregated LLM predictions on 31 binary questions to that of a crowd of 925 human forecasters from a three-month forecasting tournament. Our preregistered main analysis shows that the LLM crowd outperforms a simple no-information benchmark and is not statistically different from the human crowd. In exploratory analyses, we find that these two approaches are equivalent with respect to medium-effect-size equivalence bounds. We also observe an acquiescence effect, with mean model predictions being significantly above 50%, despite an almost even split of positive and negative resolutions. Moreover, in Study 2, we test whether LLM predictions (of GPT-4 and Claude 2) can be improved by drawing on human cognitive output. We find that both models' forecasting accuracy benefits from exposure to the median human prediction as information, improving accuracy by between 17% and 28%: though this leads to less accurate predictions than simply averaging human and machine forecasts. Our results suggest that LLMs can achieve forecasting accuracy rivaling that of human crowd forecasting tournaments: via the simple, practically applicable method of forecast aggregation. This replicates the 'wisdom of the crowd' effect for LLMs, and opens up their use for a variety of applications throughout society. | 翻訳日:2024-05-06 17:27:48 公開日:2024-05-03 |
# LUCID:複雑・興味のある対話のためのLLM生成発話
LUCID: LLM-Generated Utterances for Complex and Interesting Dialogues ( http://arxiv.org/abs/2403.00462v2 ) ライセンス: Link先を確認 | Joe Stacey, Jianpeng Cheng, John Torr, Tristan Guigue, Joris Driesen, Alexandru Coca, Mark Gaynor, Anders Johannsen, | (参考訳) 近年のLarge Language Models (LLMs)の進歩により、仮想アシスタントは対話能力の面で飛躍的な進歩を遂げている。
しかし、真にトランスフォーメーションされたタスク指向対話機能を実現するための大きなボトルネックは、高品質なデータの不足である。
既存のデータセットは、スケール的に印象的ではあるが、ドメインカバレッジが限られており、真に困難な会話現象はほとんど含まれていない。
さらに、これまで高品質な対話データの作成には、これらのデータセットのスケールと、新しいターゲットドメインのためのデータの迅速なブートストラップ機能の両方を制限し、かなりの人的入力が必要だった。
LUCIDはモジュール化され,高度に自動化されたLCM駆動型データ生成システムであり,現実的で多様性があり,困難な対話を生成する。
LUCIDを使用して、100の意図にまたがる4,277の会話のシードデータセットを生成し、その能力を示す。
Spurred by recent advances in Large Language Models (LLMs), virtual assistants are poised to take a leap forward in terms of their dialogue capabilities. Yet a major bottleneck to achieving genuinely transformative task-oriented dialogue capabilities remains the scarcity of high quality data. Existing datasets, while impressive in scale, have limited domain coverage and contain few genuinely challenging conversational phenomena; those which are present are typically unlabelled, making it difficult to assess the strengths and weaknesses of models without time-consuming and costly human evaluation. Moreover, creating high quality dialogue data has until now required considerable human input, limiting both the scale of these datasets and the ability to rapidly bootstrap data for a new target domain. We aim to overcome these issues with LUCID, a modularised and highly automated LLM-driven data generation system that produces realistic, diverse and challenging dialogues. We use LUCID to generate a seed dataset of 4,277 conversations across 100 intents to demonstrate its capabilities, with a human review finding consistently high quality labels in the generated data. | 翻訳日:2024-05-06 17:27:48 公開日:2024-05-03 |
# 複雑さの単純さ : 深部分割モデルを用いた視覚的複雑さの説明
Simplicity in Complexity : Explaining Visual Complexity using Deep Segmentation Models ( http://arxiv.org/abs/2403.03134v2 ) ライセンス: Link先を確認 | Tingke Shen, Surabhi S Nath, Aenne Brielmann, Peter Dayan, | (参考訳) 視覚刺激の複雑さは、注意、エンゲージメント、記憶可能性、時間知覚、美的評価など多くの認知現象において重要な役割を果たす。
その重要性にもかかわらず、複雑さは理解されず、皮肉にも、以前の画像複雑性のモデルは極めて複雑であった。
複雑さを説明する手作りの機能を見つけようとする試みは数多くあったが、これらの機能は一般的にデータセット固有のものであるため、一般化に失敗している。
一方、近年の研究では、複雑さを予測するためにディープニューラルネットワークが採用されているが、これらのモデルは解釈が困難であり、問題の理論的理解を導くものではない。
本稿では,画像のセグメントベース表現を用いた複雑性のモデル化を提案する。
我々は,複数の粒度のセグメント数と画像中のクラス数を定量化するために,SAMとFC-CLIPという最先端のセグメンテーションモデルを用いている。
この2つの特徴は、自然主義的なシーンとアートイメージの6つの異なるイメージセットにまたがる。
これは、画像の複雑さが驚くほど単純であることを示している。
The complexity of visual stimuli plays an important role in many cognitive phenomena, including attention, engagement, memorability, time perception and aesthetic evaluation. Despite its importance, complexity is poorly understood and ironically, previous models of image complexity have been quite complex. There have been many attempts to find handcrafted features that explain complexity, but these features are usually dataset specific, and hence fail to generalise. On the other hand, more recent work has employed deep neural networks to predict complexity, but these models remain difficult to interpret, and do not guide a theoretical understanding of the problem. Here we propose to model complexity using segment-based representations of images. We use state-of-the-art segmentation models, SAM and FC-CLIP, to quantify the number of segments at multiple granularities, and the number of classes in an image respectively. We find that complexity is well-explained by a simple linear model with these two features across six diverse image-sets of naturalistic scene and art images. This suggests that the complexity of images can be surprisingly simple. | 翻訳日:2024-05-06 17:27:48 公開日:2024-05-03 |
# 物理情報ニューラルネットワークによる木星磁場の再構成
Reconstructions of Jupiter's magnetic field using physics informed neural networks ( http://arxiv.org/abs/2403.07507v2 ) ライセンス: Link先を確認 | Philip W. Livermore, Leyuan Wu, Longwei Chen, Sjoerd A. L. de Ridder, | (参考訳) ジュノーのミッションから収集されたデータによる磁気音響は、木星の内部に制約を与えるために用いられる。
しかし、非導電率と球面高調波の表現を仮定した再構成の内側への継続は、小さなスケールでの雑音の増大によって制限される。
ここでは、物理学インフォームドニューラルネットワークに基づく木星の内部磁場の新たな再構成と、ジュノーの軌道の最初の33(PINN33)または最初の50(PINN50)について述べる。
この方法は局所的な構造を解決し、弱い環境電流を発生させる。
我々のモデルは、奥行きのノイズ増幅によって妨げられず、内部構造のより明確な画像を提供する。
我々はダイナモ境界が0.8の分数半径にあると推定する。
この深さでは、磁場は長手帯に配列され、グレートブルースポットのような強い局所的な特徴は、反対に符号付けられたフラックスの隣接する構造に根付いているように見える。
Magnetic sounding using data collected from the Juno mission can be used to provide constraints on Jupiter's interior. However, inwards continuation of reconstructions assuming zero electrical conductivity and a representation in spherical harmonics are limited by the enhancement of noise at small scales. Here we describe new reconstructions of Jupiter's internal magnetic field based on physics-informed neural networks and either the first 33 (PINN33) or the first 50 (PINN50) of Juno's orbits. The method can resolve local structures, and allows for weak ambient electrical currents. Our models are not hampered by noise amplification at depth, and offer a much clearer picture of the interior structure. We estimate that the dynamo boundary is at a fractional radius of 0.8. At this depth, the magnetic field is arranged into longitudinal bands, and strong local features such as the great blue spot appear to be rooted in neighbouring structures of oppositely signed flux. | 翻訳日:2024-05-06 17:27:48 公開日:2024-05-03 |
# 言語モデルマージのためのフィッシャーマスクノード
Fisher Mask Nodes for Language Model Merging ( http://arxiv.org/abs/2403.09891v3 ) ライセンス: Link先を確認 | Thennal D K, Ganesh Nathan, Suchithra M S, | (参考訳) 微調整された事前訓練モデルは、下流のパフォーマンスにおいて大きな利点をもたらす。
BERTなどの事前学習モデルの自然言語処理におけるユビキタスな性質は、タスク固有の微調整モデルの普及にも繋がった。
これらのモデルは一般的に1つのタスクのみをうまく実行するので、マルチタスクのシナリオでは追加のトレーニングやアンサンブルが必要になる。
モデルマージの増大する分野は、複数のタスク固有のモデルを単一のマルチタスクモデルに組み合わせるという課題に対処するソリューションを提供する。
本研究では, トランスフォーマーのモデルマージ手法について紹介し, 従来のフィッシャー重み付き平均化における知見と, モデルプルーニングにおけるフィッシャー情報の利用について考察した。
トランスフォーマーアーキテクチャにおけるマスクノードのフィッシャー情報を利用して,計算効率のよい重み付け手法を提案する。
提案手法は, BERT シリーズの各種モデルにおいて, 最大で6.5 までの性能向上, 57.4x から 321.7 倍の高速化を実現し, 実大規模フィッシャー重み付け平均性能を計算コストのごく一部で上回っている。
本研究は,現在のマルチタスク学習環境における本手法の有効性を実証し,新しいモデルアーキテクチャや学習シナリオに対するスケーラビリティと適応性を提案する。
Fine-tuning pre-trained models provides significant advantages in downstream performance. The ubiquitous nature of pre-trained models such as BERT and its derivatives in natural language processing has also led to a proliferation of task-specific fine-tuned models. As these models typically only perform one task well, additional training or ensembling is required in multi-task scenarios. The growing field of model merging provides a solution, dealing with the challenge of combining multiple task-specific models into a single multi-task model. In this study, we introduce a novel model merging method for Transformers, combining insights from previous work in Fisher-weighted averaging and the use of Fisher information in model pruning. Utilizing the Fisher information of mask nodes within the Transformer architecture, we devise a computationally efficient weighted-averaging scheme. Our method exhibits a regular and significant performance increase across various models in the BERT family, outperforming full-scale Fisher-weighted averaging in a fraction of the computational cost, with baseline performance improvements of up to +6.5 and a speedup between 57.4x and 321.7x across models. Our results prove the potential of our method in current multi-task learning environments and suggest its scalability and adaptability to new model architectures and learning scenarios. | 翻訳日:2024-05-06 17:27:48 公開日:2024-05-03 |
# 医療における自然言語処理のための説明可能な深層学習から解釈可能な深層学習へ:現実からどこまで遠いのか?
From Explainable to Interpretable Deep Learning for Natural Language Processing in Healthcare: How Far from Reality? ( http://arxiv.org/abs/2403.11894v2 ) ライセンス: Link先を確認 | Guangming Huang, Yingya Li, Shoaib Jameel, Yunfei Long, Giorgos Papanastasiou, | (参考訳) 深層学習(DL)は、医療研究において、自然言語処理(NLP)を大幅に強化した。
しかし、DLベースのNLPの複雑さの増大は、信頼性の高い意思決定のために、透明性のあるモデル解釈可能性(少なくとも説明可能性)を必要とする。
本研究は、医療用NLPにおける説明可能な、解釈可能なDLの徹底的なスコーピングレビューを提示する。
eXplainable and Interpretable Artificial Intelligence (XIAI)という用語は、XAIとIAIを区別するために導入された。
異なるモデルは、その機能(モデル、インプット、アウトプットベース)とスコープ(ローカル、グローバル)に基づいてさらに分類される。
分析の結果,注目メカニズムが最も普及しているIAI技術であることが判明した。
IAIの利用が増加しており、XAIと区別されている。
主要な課題は、ほとんどのXIAIが"グローバル"なモデリングプロセス、ベストプラクティスの欠如、体系的な評価とベンチマークの欠如を探求していないことである。
重要な機会の1つは、パーソナライズされた医療のためのマルチモーダルXIAIを強化するために注意機構を使用することである。
さらに、DLと因果論理を組み合わせることは約束する。
我々の議論は、Large Language Models(LLM)とドメイン固有の小さなモデルへのXIAIの統合を奨励する。
結論として、医療におけるXIAIの採用には専用の専門知識が必要である。
ドメインエキスパート、エンドユーザー、ポリシーメーカとのコラボレーションは、NLPや医療タスクで使えるXIAIメソッドにつながる可能性がある。
課題はあるものの、XIAI技術は医療におけるNLPアルゴリズムを解釈するための貴重な基盤を提供する。
Deep learning (DL) has substantially enhanced natural language processing (NLP) in healthcare research. However, the increasing complexity of DL-based NLP necessitates transparent model interpretability, or at least explainability, for reliable decision-making. This work presents a thorough scoping review of explainable and interpretable DL in healthcare NLP. The term "eXplainable and Interpretable Artificial Intelligence" (XIAI) is introduced to distinguish XAI from IAI. Different models are further categorized based on their functionality (model-, input-, output-based) and scope (local, global). Our analysis shows that attention mechanisms are the most prevalent emerging IAI technique. The use of IAI is growing, distinguishing it from XAI. The major challenges identified are that most XIAI does not explore "global" modelling processes, the lack of best practices, and the lack of systematic evaluation and benchmarks. One important opportunity is to use attention mechanisms to enhance multi-modal XIAI for personalized medicine. Additionally, combining DL with causal logic holds promise. Our discussion encourages the integration of XIAI in Large Language Models (LLMs) and domain-specific smaller models. In conclusion, XIAI adoption in healthcare requires dedicated in-house expertise. Collaboration with domain experts, end-users, and policymakers can lead to ready-to-use XIAI methods across NLP and medical tasks. While challenges exist, XIAI techniques offer a valuable foundation for interpretable NLP algorithms in healthcare. | 翻訳日:2024-05-06 17:27:48 公開日:2024-05-03 |
# 大規模言語モデル(あるいは人間)はテキストを歪められるか?
Can Large Language Models (or Humans) Disentangle Text? ( http://arxiv.org/abs/2403.16584v2 ) ライセンス: Link先を確認 | Nicolas Audinet de Pieuchon, Adel Daoud, Connor Thomas Jerzak, Moa Johansson, Richard Johansson, | (参考訳) 本研究では,大言語モデル(LLM)がテキスト変数をアンタングル化する可能性について検討する。テキスト蒸留と呼ばれるタスクにおいて,不要な禁止変数のテキストトレースを除去し,AIと因果推論文学の公平性に密接に関連している。
我々は、他の関連する信号を保持しながら、対象変数に関する情報を識別・削除することでテキストのアンタングル化を図るために、様々なLSMアプローチを採用している。
感情を除去する強力なテストでは、処理されたテキストと感情の統計的関連性は、LLMの切り離し後の機械学習分類器に対して依然として検出可能であることを示す。
さらに、人間のアノテータは、他のセマンティックコンテンツを保持しながら感情を乱すのにも苦労していることがわかった。
これは、いくつかのテキスト文脈における概念変数の分離性に制限があることを示唆し、テキストレベルの変換に依存するメソッドの制限を強調し、表現空間における統計的独立性を達成する非絡みの手法の堅牢性に関する疑問を提起する。
We investigate the potential of large language models (LLMs) to disentangle text variables--to remove the textual traces of an undesired forbidden variable in a task sometimes known as text distillation and closely related to the fairness in AI and causal inference literature. We employ a range of various LLM approaches in an attempt to disentangle text by identifying and removing information about a target variable while preserving other relevant signals. We show that in the strong test of removing sentiment, the statistical association between the processed text and sentiment is still detectable to machine learning classifiers post-LLM-disentanglement. Furthermore, we find that human annotators also struggle to disentangle sentiment while preserving other semantic content. This suggests there may be limited separability between concept variables in some text contexts, highlighting limitations of methods relying on text-level transformations and also raising questions about the robustness of disentanglement methods that achieve statistical independence in representation space. | 翻訳日:2024-05-06 17:27:48 公開日:2024-05-03 |
# Rotate to Scan: 医用画像セグメンテーションのためのトリプルSSMモジュール付きUNetライクなマンバ
Rotate to Scan: UNet-like Mamba with Triplet SSM Module for Medical Image Segmentation ( http://arxiv.org/abs/2403.17701v4 ) ライセンス: Link先を確認 | Hao Tang, Lianglun Cheng, Guoheng Huang, Zhengguang Tan, Junhao Lu, Kaihong Wu, | (参考訳) 画像セグメンテーションは、医療領域内の診断と治療の領域において重要な位置を占める。
従来の畳み込みニューラルネットワーク(CNN)とトランスフォーマーモデルは、この領域で大きな進歩を遂げてきたが、受容野の制限や高いコンピューティングの複雑さのために、依然として課題に直面している。
近年、状態空間モデル(SSM)、特にマンバとその変種は、視覚の分野で顕著な性能を示している。
しかし,それらの特徴抽出法は十分な有効性を持たず,冗長な構造を保ち,パラメータ削減の余地を残している。
従来の空間的・チャネル的アテンション手法により,Triplet Mamba-UNetを提案する。
この手法は残留VSSブロックを利用して集中的な文脈特徴を抽出し、Triplet SSMは空間次元とチャネル次元をまたいだ特徴を融合する。
我々はISIC17, ISIC18, CVC-300, CVC-ClinicDB, Kvasir-SEG, CVC-ColonDB, Kvasir-Instrumentのデータセットについて実験を行い, 提案したTM-UNetのセグメンテーション性能について検証した。
さらに,従来のVM-UNetと比較して,パラメータの3分の1削減を実現している。
Image segmentation holds a vital position in the realms of diagnosis and treatment within the medical domain. Traditional convolutional neural networks (CNNs) and Transformer models have made significant advancements in this realm, but they still encounter challenges because of limited receptive field or high computing complexity. Recently, State Space Models (SSMs), particularly Mamba and its variants, have demonstrated notable performance in the field of vision. However, their feature extraction methods may not be sufficiently effective and retain some redundant structures, leaving room for parameter reduction. Motivated by previous spatial and channel attention methods, we propose Triplet Mamba-UNet. The method leverages residual VSS Blocks to extract intensive contextual features, while Triplet SSM is employed to fuse features across spatial and channel dimensions. We conducted experiments on ISIC17, ISIC18, CVC-300, CVC-ClinicDB, Kvasir-SEG, CVC-ColonDB, and Kvasir-Instrument datasets, demonstrating the superior segmentation performance of our proposed TM-UNet. Additionally, compared to the previous VM-UNet, our model achieves a one-third reduction in parameters. | 翻訳日:2024-05-06 17:18:04 公開日:2024-05-03 |
# 自動透明性:デジタルサービス法透明性データベースの法的および実証分析
Automated Transparency: A Legal and Empirical Analysis of the Digital Services Act Transparency Database ( http://arxiv.org/abs/2404.02894v2 ) ライセンス: Link先を確認 | Rishabh Kaushal, Jacob van de Kerkhof, Catalina Goanta, Gerasimos Spanakis, Adriana Iamnitchi, | (参考訳) デジタルサービス法(DSA、Digital Services Act)は、2022年11月1日に採択された欧州連合のプラットフォーム責任改革である。
その他の義務の中で、DSAは、オンラインプラットフォームがコンテンツモデレーションの決定を報告する必要性を強調しています('理由のステートメント' - SoRs')。
SoRは現在、2023年9月に欧州委員会によってローンチされたDSA Transparency Databaseで利用可能である。
DSA Transparency Databaseは、プラットフォームガバナンスにおける歴史的な成果であり、構造レベルでもプラットフォームコンプライアンスのレベルでも、実際の透明性向上に関する調査を可能にする。
本研究の目的は,透明性データベースがDSAの透明性の約束を果たすのに役立つかどうかを理解することである。
現在のデータベース構造は、透明性のプラクティスの観点からプラットフォームから多くの判断を下すことができるので、透明性が向上する一方で、コンプライアンスが問題であることを示すために、法律的および実証的な議論を使用します。
本研究では,2023年11月に提出されたTransparency Database (131m SoRs) の代表例を分析し,プラットフォームコンテンツモデレーションの実践を特徴づけ,評価する。
The Digital Services Act (DSA) is a much awaited platforms liability reform in the European Union that was adopted on 1 November 2022 with the ambition to set a global example in terms of accountability and transparency. Among other obligations, the DSA emphasizes the need for online platforms to report on their content moderation decisions (`statements of reasons' - SoRs), which is a novel transparency mechanism we refer to as automated transparency in this study. SoRs are currently made available in the DSA Transparency Database, launched by the European Commission in September 2023. The DSA Transparency Database marks a historical achievement in platform governance, and allows investigations about the actual transparency gains, both at structure level as well as at the level of platform compliance. This study aims to understand whether the Transparency Database helps the DSA to live up to its transparency promises. We use legal and empirical arguments to show that while there are some transparency gains, compliance remains problematic, as the current database structure allows for a lot of discretion from platforms in terms of transparency practices. In our empirical study, we analyze a representative sample of the Transparency Database (131m SoRs) submitted in November 2023, to characterise and evaluate platform content moderation practices. | 翻訳日:2024-05-06 17:18:04 公開日:2024-05-03 |
# 予習型小型モデルの代替としての蒸留の有効性について
On the Surprising Efficacy of Distillation as an Alternative to Pre-Training Small Models ( http://arxiv.org/abs/2404.03263v2 ) ライセンス: Link先を確認 | Sean Farhat, Deming Chen, | (参考訳) 本稿では,小モデルがその利点を享受するために事前学習のコストを吸収する必要がないことを提案する。
むしろ彼らは、現代の巨大なモデルによって達成された驚くべき結果から驚くべき程度まで利益を得ることができる。
事前訓練された教師モデルからタスクを蒸留すると、そのタスクで事前訓練されたり微調整されたりした場合、小さなモデルで達成されるパフォーマンスを達成または超えることが観察された。
この現象を容易に活用するために,(1) 全く異なるモデルアーキテクチャペアリングが蒸留に有効であり,(2) ノイズコントラスト推定理論に根ざした最もコントラスト学習アルゴリズムが容易に適用され,利用することができる。
本稿では,Wang & Isola(2020)によるコントラスト学習のアライメント/ユニモーフィティの観点から,オープンソースモデルハブ,トランスフォーマーと畳み込みモデルの組み合わせによる事前学習モデル,および新しい蒸留アルゴリズムを用いて,このパラダイムを実証する。
計算コストの低いコントラスト学習のフレーバーを選択する。
また、タスクがデータ制限された場合、この現象は発生しない傾向にあることも観察する。
しかし、これは、データセット拡張のための大規模で事前訓練された生成モデルという、もう1つのスケールインスパイアされた開発を活用することで緩和できる。
繰り返すが、我々はオープンソースモデルを使い、初歩的なプロンプトは小さなモデルの性能を高めるのに十分である。
そこで本研究では,性能を犠牲にすることなく,従来の事前学習パラダイムよりも最大94%高速な小型モデルのトレーニング手法を強調した。
禁止スケールのため、実践者が新しい基礎データセットを自分たちの小さなモデルに完全に活用することを避けて、私たちの作業はそのドアを開いていると信じています。
In this paper, we propose that small models may not need to absorb the cost of pre-training to reap its benefits. Instead, they can capitalize on the astonishing results achieved by modern, enormous models to a surprising degree. We observe that, when distilled on a task from a pre-trained teacher model, a small model can achieve or surpass the performance it would achieve if it was pre-trained then finetuned on that task. To allow this phenomenon to be easily leveraged, we establish a connection reducing knowledge distillation to modern contrastive learning, opening two doors: (1) vastly different model architecture pairings can work for the distillation, and (2) most contrastive learning algorithms rooted in the theory of Noise Contrastive Estimation can be easily applied and used. We demonstrate this paradigm using pre-trained teacher models from open-source model hubs, Transformer and convolution based model combinations, and a novel distillation algorithm that massages the Alignment/Uniformity perspective of contrastive learning by Wang & Isola (2020) into a distillation objective. We choose this flavor of contrastive learning due to its low computational cost, an overarching theme of this work. We also observe that this phenomenon tends not to occur if the task is data-limited. However, this can be alleviated by leveraging yet another scale-inspired development: large, pre-trained generative models for dataset augmentation. Again, we use an open-source model, and our rudimentary prompts are sufficient to boost the small model`s performance. Thus, we highlight a training method for small models that is up to 94% faster than the standard pre-training paradigm without sacrificing performance. For practitioners discouraged from fully utilizing modern foundation datasets for their small models due to the prohibitive scale, we believe our work keeps that door open. | 翻訳日:2024-05-06 17:18:04 公開日:2024-05-03 |
# 1次元画像から3次元画像への拡散時間計算
Diffusion Time-step Curriculum for One Image to 3D Generation ( http://arxiv.org/abs/2404.04562v3 ) ライセンス: Link先を確認 | Xuanyu Yi, Zike Wu, Qingshan Xu, Pan Zhou, Joo-Hwee Lim, Hanwang Zhang, | (参考訳) スコア蒸留サンプリング~(SDS)は, textbf{single}画像から3Dオブジェクトを再構成する際, 目に見えない視点の欠如を克服するために広く採用されている。
教師として事前訓練された2D拡散モデルを利用して、学生の3Dモデルの再構築を指導する。
彼らの顕著な成功にもかかわらず、SDSベースの手法は、しばしば幾何学的アーティファクトやテクスチャ飽和に遭遇する。
学習者の知識蒸留をあらゆる時間ステップで等しく扱い、粗くきめ細かなモデリングを行う。
そこで本稿では,教師モデルと学生モデルの両方が,時間段階のカリキュラムと密接な連携を図ったDiffusion Time-step Curriculum One-image-to-3D Pipeline(DTC123)を提案する。
NeRF4、RealFusion15、GSO、Level50ベンチマークの大規模な実験により、DTC123は多視点一貫した高品質で多様な3Dアセットを生成できることが示された。
コードやその他の世代のデモはhttps://github.com/yxymessi/DTC123.comで公開される。
Score distillation sampling~(SDS) has been widely adopted to overcome the absence of unseen views in reconstructing 3D objects from a \textbf{single} image. It leverages pre-trained 2D diffusion models as teacher to guide the reconstruction of student 3D models. Despite their remarkable success, SDS-based methods often encounter geometric artifacts and texture saturation. We find out the crux is the overlooked indiscriminate treatment of diffusion time-steps during optimization: it unreasonably treats the student-teacher knowledge distillation to be equal at all time-steps and thus entangles coarse-grained and fine-grained modeling. Therefore, we propose the Diffusion Time-step Curriculum one-image-to-3D pipeline (DTC123), which involves both the teacher and student models collaborating with the time-step curriculum in a coarse-to-fine manner. Extensive experiments on NeRF4, RealFusion15, GSO and Level50 benchmark demonstrate that DTC123 can produce multi-view consistent, high-quality, and diverse 3D assets. Codes and more generation demos will be released in https://github.com/yxymessi/DTC123. | 翻訳日:2024-05-06 17:18:04 公開日:2024-05-03 |
# 明確に相関したガウスを持つ多電子系および多原子系の正則化相対論的補正
Regularized relativistic corrections for polyelectronic and polyatomic systems with explicitly correlated Gaussians ( http://arxiv.org/abs/2404.06051v2 ) ライセンス: Link先を確認 | Balázs Rácsai, Dávid Ferenc, Ádám Margócsy, Edit Mátyus, | (参考訳) ドラッハマンの正則化アプローチは、浮動小数点相関ガウス(fECG)と分子系に実装されている。
分子系に対するドラッハマン化相対論的補正の初期の応用は、fECGを持つ1/r_{ix}1/r_{jy}$型作用素の未知の解析行列要素のために妨げられた。
本研究では、1/r$の因子のうちの1つがガウスの線型結合によって近似され、計算可能な積分が得られる。
数値的なアプローチは、分子系や核構成の幅広い範囲において正確かつ堅牢であることが判明し、そのため、多原子系のポテンシャルエネルギー面に対する高精度相対論的補正の自動評価への道を開く。
さらに、新たに開発された積分手法により、エネルギー低バウンドに関連する電子ハミルトニアンの正方形の行列表現と、フレキシブルで高精度なfECG基底表現を持つ分子系の時間依存計算を構築することができる。
Drachmann's regularization approach is implemented for floating explicitly correlated Gaussians (fECGs) and molecular systems. Earlier applications of drachmannized relativistic corrections for molecular systems were hindered due to the unknown analytic matrix elements of $1/r_{ix}1/r_{jy}$-type operators with fECGs. In the present work, one of the $1/r$ factors is approximated by a linear combination of Gaussians, which results in calculable integrals. The numerical approach is found to be precise and robust over a range of molecular systems and nuclear configurations, and thus, it opens the route towards an automated evaluation of high-precision relativistic corrections over potential energy surfaces of polyatomic systems. Furthermore, the newly developed integration approach makes it possible to construct the matrix representation of the square of the electronic Hamiltonian relevant for energy lower-bound as well as time-dependent computations of molecular systems with a flexible and high-precision fECG basis representation. | 翻訳日:2024-05-06 17:18:04 公開日:2024-05-03 |
# 都市地図の自動抽出
Automated National Urban Map Extraction ( http://arxiv.org/abs/2404.06202v2 ) ライセンス: Link先を確認 | Hasan Nasrallah, Abed Ellatif Samhat, Cristiano Nattero, Ali J. Ghandour, | (参考訳) 発展途上国は通常、国家の屋上地図を作成し、定期的に更新する適切な統治手段を欠いている。
連邦レベルで建物マップを作成するのに、従来のフォトグラムと測量法を使うことは、費用と時間を要する。
地球観測と深層学習の手法により,このギャップを埋めることができ,そのような都市地図を収集する自動パイプラインを提案する。
本稿では,多層建物のインスタンスセグメンテーションのための完全畳み込みニューラルネットワークのパワーを活用して,高いオブジェクトワイド精度を実現することを目的とする。
サブメートル高解像度衛星画像からの建物のインスタンスセグメンテーションは、比較的高いピクセル単位のメートル法スコアで達成できる。
我々は、この作業を再現し、グローバル・サウスの適切な都市計画を欠いた地域で目撃された密集したスラム地帯で、非常に正確な結果を得るためのすべてのエンジニアリング手順を詳述する。
提案したパイプラインのケーススタディをレバノンに適用し,約100万ユニットの総面積を84%の精度で達成した。
提案したアーキテクチャは、発展途上国でよく見られるデータセットの不足を克服するために、高度な拡張技術に依存している。
Developing countries usually lack the proper governance means to generate and regularly update a national rooftop map. Using traditional photogrammetry and surveying methods to produce a building map at the federal level is costly and time consuming. Using earth observation and deep learning methods, we can bridge this gap and propose an automated pipeline to fetch such national urban maps. This paper aims to exploit the power of fully convolutional neural networks for multi-class buildings' instance segmentation to leverage high object-wise accuracy results. Buildings' instance segmentation from sub-meter high-resolution satellite images can be achieved with relatively high pixel-wise metric scores. We detail all engineering steps to replicate this work and ensure highly accurate results in dense and slum areas witnessed in regions that lack proper urban planning in the Global South. We applied a case study of the proposed pipeline to Lebanon and successfully produced the first comprehensive national building footprint map with approximately 1 Million units with an 84% accuracy. The proposed architecture relies on advanced augmentation techniques to overcome dataset scarcity, which is often the case in developing countries. | 翻訳日:2024-05-06 17:18:04 公開日:2024-05-03 |
# 燃料制約付き単一車両監視問題に対する深部強化学習に基づくアプローチ
Deep Reinforcement Learning-Based Approach for a Single Vehicle Persistent Surveillance Problem with Fuel Constraints ( http://arxiv.org/abs/2404.06423v3 ) ライセンス: Link先を確認 | Manav Mishra, Hritik Bana, Saswata Sarkar, Sujeevraja Sanjeevi, PB Sujit, Kaarthik Sundar, | (参考訳) 本稿では,無人航空機を燃料や飛行時間の制約で基地に配備し,目標のセットを同じ優先度で繰り返し訪問することを必要とする,永続的な監視任務に取り組むための深層強化学習に基づくアプローチを提案する。
燃料や飛行時間制限のため、車両は定期的に燃料を補給するか、あるいは補給所で電池を充電する必要がある。
問題の目的は、車両が燃料や電荷を使い果たさないことを確実にしながら、あらゆる目標への連続的な訪問の間に経過する最大時間を最小限に抑える、目標への訪問の最適な順序を決定することである。
本稿では,この問題を解決するための深層強化学習アルゴリズムを提案する。また,この手法の有効性を,常識的な経験的ヒューリスティックスと比較した数値実験の結果を示す。
This article presents a deep reinforcement learning-based approach to tackle a persistent surveillance mission requiring a single unmanned aerial vehicle initially stationed at a depot with fuel or time-of-flight constraints to repeatedly visit a set of targets with equal priority. Owing to the vehicle's fuel or time-of-flight constraints, the vehicle must be regularly refueled, or its battery must be recharged at the depot. The objective of the problem is to determine an optimal sequence of visits to the targets that minimizes the maximum time elapsed between successive visits to any target while ensuring that the vehicle never runs out of fuel or charge. We present a deep reinforcement learning algorithm to solve this problem and present the results of numerical experiments that corroborate the effectiveness of this approach in comparison with common-sense greedy heuristics. | 翻訳日:2024-05-06 17:18:04 公開日:2024-05-03 |
# オープンソースソフトウェア開発における民間資金モデル--Scikit-Lernを事例として
Public-private funding models in open source software development: A case study on scikit-learn ( http://arxiv.org/abs/2404.06484v5 ) ライセンス: Link先を確認 | Cailean Osborne, | (参考訳) 政府は、ソフトウェアセキュリティ、デジタル主権、科学とイノベーションにおける国家的競争性をサポートするために、オープンソースソフトウェア(OSS)開発にますます資金を提供しています。
しかしながら、OSS開発者がOSSに対する政府資金の相対的なメリットと欠点を評価する方法についてはほとんど分かっていない。
この研究は、公開研究助成金、商業スポンサーシップ、マイクロ寄付、フランスの人工知能戦略で発表された32万ユーロの助成金によって資金提供された、機械学習のためのPythonライブラリであるScikit-learnに関するケーススタディを通じて、この問題を探求する。
この研究は、Scikit-Lernのメンテナと資金提供者に対する25のインタビューを通じて、2つの重要な貢献をしている。
まず、影響のあるOSSプロジェクトにおける公的資金と民間資金のメリットと欠点に関する実証的な知見と、コミュニティと資金提供者の多様な利益のバランスをとるために保守担当者が採用するガバナンスプロトコルに寄与する。
第2に、Scikit-learnの経験に基づいたOSS開発者、政府、企業への資金提供に関する実践的な教訓を提供する。
本稿は,実践者に対する重要な推奨事項と今後の研究方向性で締めくくっている。
Governments are increasingly funding open source software (OSS) development to support software security, digital sovereignty, and national competitiveness in science and innovation, amongst others. However, little is known about how OSS developers evaluate the relative benefits and drawbacks of governmental funding for OSS. This study explores this question through a case study on scikit-learn, a Python library for machine learning, funded by public research grants, commercial sponsorship, micro-donations, and a 32 euro million grant announced in France's artificial intelligence strategy. Through 25 interviews with scikit-learn's maintainers and funders, this study makes two key contributions. First, it contributes empirical findings about the benefits and drawbacks of public and private funding in an impactful OSS project, and the governance protocols employed by the maintainers to balance the diverse interests of their community and funders. Second, it offers practical lessons on funding for OSS developers, governments, and companies based on the experience of scikit-learn. The paper concludes with key recommendations for practitioners and future research directions. | 翻訳日:2024-05-06 17:18:04 公開日:2024-05-03 |
# データ駆動モデルによる都市間交通渋滞予測
Predicting Traffic Congestion at Urban Intersections Using Data-Driven Modeling ( http://arxiv.org/abs/2404.08838v6 ) ライセンス: Link先を確認 | Tara Kelly, Jessica Gupta, | (参考訳) 交差点での交通渋滞は都市部で大きな問題であり、通勤時間の増加、安全上の危険、運用上の不効率につながっている。
本研究では,米国の主要都市における交差点の混雑予測モデルの構築を目的として,4800の交差点にまたがる商用車両の走行記録データを用いて,都市間における混雑予測モデルを構築した。
データセットには、交差点座標、通り名、日時、交通メトリクス(Kashyap et al , 2019)を含む27の機能が含まれている。
降雨/降雪率、中心街と郊外からの距離、道路タイプといった追加の特徴は、モデルの予測力を高めるために組み込まれた。
この手法には、データ探索、特徴変換、低ランクモデルとラベルエンコーディングによる欠落値の処理が含まれる。
提案モデルでは,交通ホットスポットの予測,運用の最適化,インフラの課題の特定などにおいて,都市計画者や政府を支援する可能性を秘めている。
Traffic congestion at intersections is a significant issue in urban areas, leading to increased commute times, safety hazards, and operational inefficiencies. This study aims to develop a predictive model for congestion at intersections in major U.S. cities, utilizing a dataset of trip-logging metrics from commercial vehicles across 4,800 intersections. The dataset encompasses 27 features, including intersection coordinates, street names, time of day, and traffic metrics (Kashyap et al., 2019). Additional features, such as rainfall/snowfall percentage, distance from downtown and outskirts, and road types, were incorporated to enhance the model's predictive power. The methodology involves data exploration, feature transformation, and handling missing values through low-rank models and label encoding. The proposed model has the potential to assist city planners and governments in anticipating traffic hot spots, optimizing operations, and identifying infrastructure challenges. | 翻訳日:2024-05-06 17:18:04 公開日:2024-05-03 |
# Wasserstein Wormhole: 変圧器を用いたスケーラブルな最適輸送距離
Wasserstein Wormhole: Scalable Optimal Transport Distance with Transformers ( http://arxiv.org/abs/2404.09411v2 ) ライセンス: Link先を確認 | Doron Haviv, Russell Zhang Kunes, Thomas Dougherty, Cassandra Burdziak, Tal Nawy, Anna Gilbert, Dana Pe'er, | (参考訳) 最適輸送(OT)と関連するワッサーシュタイン計量(W)は、分布を比較するための強力でユビキタスなツールである。
しかし、コホートサイズが大きくなるにつれて、ペアワイズワッサースタイン距離の計算は急速に困難になる。
魅力的な選択肢は、標準多次元スケーリング(MDS)と同様、ユークリッド距離をOT距離にペアでマッピングする埋め込み空間を見つけることである。
我々は、変圧器をベースとした自己エンコーダであるワッサーシュタイン・ワームホール(Wasserstein Wormhole)を、ユークリッド距離がOT距離に近似する潜在空間に経験的分布を埋める。
MDS理論を拡張して、目的関数は非ユークリッド距離を埋め込む際に発生する誤差の有界性を示すことを示す。
実験的に、ワームホール埋め込み間の距離はワッサーシュタイン距離と密接に一致し、OT距離の線形時間計算を可能にした。
Wasserstein Wormholeは、分散を埋め込みにマッピングするエンコーダとともに、埋め込みを分布にマッピングするデコーダを含み、埋め込み空間内の操作をWasserstein Barycenter EstimationやOT補間といったOT空間に一般化することができる。
スケーラビリティと解釈可能性をOTアプローチに貸すことで、Wasserstein Wormholeは計算幾何学と単細胞生物学の分野におけるデータ解析の新たな道を開く。
Optimal transport (OT) and the related Wasserstein metric (W) are powerful and ubiquitous tools for comparing distributions. However, computing pairwise Wasserstein distances rapidly becomes intractable as cohort size grows. An attractive alternative would be to find an embedding space in which pairwise Euclidean distances map to OT distances, akin to standard multidimensional scaling (MDS). We present Wasserstein Wormhole, a transformer-based autoencoder that embeds empirical distributions into a latent space wherein Euclidean distances approximate OT distances. Extending MDS theory, we show that our objective function implies a bound on the error incurred when embedding non-Euclidean distances. Empirically, distances between Wormhole embeddings closely match Wasserstein distances, enabling linear time computation of OT distances. Along with an encoder that maps distributions to embeddings, Wasserstein Wormhole includes a decoder that maps embeddings back to distributions, allowing for operations in the embedding space to generalize to OT spaces, such as Wasserstein barycenter estimation and OT interpolation. By lending scalability and interpretability to OT approaches, Wasserstein Wormhole unlocks new avenues for data analysis in the fields of computational geometry and single-cell biology. | 翻訳日:2024-05-06 17:18:04 公開日:2024-05-03 |
# 二重複写のない絡み合いエントロピーの実験的下界
Experimental lower bounds on entanglement entropy without twin copy ( http://arxiv.org/abs/2404.09935v2 ) ライセンス: Link先を確認 | Yannick Meurice, | (参考訳) 我々は,フォン・ノイマンエンタングルメントエントロピー$S_{A}^{vN}$の対称二部量子系$AB$を,準備状態の基本的測定値を用いて実験的に推定する可能性について議論する。
レードベルク原子の鎖とはしごの公用QuEra施設で実行される正確な対角化とアナログシミュレーションを用いて、不定形地盤状態の実験測定と、実験確率をBドルの半分以上の確率で追跡して得られるShannon entropy $S_AB}^X$を計算した。
S_{A}^{vN}\propto (2S_A^X-S_{AB}^X)$ が 1 よりわずかに大きい比例を示す。
我々は、より一般的な状況において、不等式 $S_{A}^{vN}\geq(2S_A^X-S_{AB}^X)$ を持つべきであると主張する。
2S_A^X-S_{AB}^X$は、多くの量子ビットプラットフォームで容易に計算でき、測定誤差の下では一般に堅牢であるように見える。
同様の結果は第二次 R'enyi 絡み合いエントロピーにも見られる。
We discuss the possibility of estimating experimentally the von Neumann entanglement entropy $S_{A}^{vN}$ of a symmetric bi-partite quantum system $AB$ by using the basic measurement counts for a it $single$ copy of a prepared state. Using exact diagonalization and analog simulations performed with the publicly available QuEra facilities for chains and ladders of Rydberg atoms, we calculate the Shannon entropy $S_{AB}^X$ associated with the experimental measurements of adiabatically prepared ground states and the reduced entropy $S_A^X$ obtained by tracing the experimental probabilities over the $B$ half of the system. We show several examples for which, in good approximation, $S_{A}^{vN}\propto (2S_A^X-S_{AB}^X)$ with a constant of proportionality slightly larger than one. We argue that one should have the inequality $S_{A}^{vN}\geq(2S_A^X-S_{AB}^X)$ holding in more general circumstances. $2S_A^X-S_{AB}^X$ can be calculated easily for many qubit platforms and appears to be generically robust under measurement errors. Similar results are found for the second order R\'enyi entanglement entropy. | 翻訳日:2024-05-06 17:18:04 公開日:2024-05-03 |
# 干ばつストレス同定のための説明可能な軽量深層学習パイプライン
Explainable Light-Weight Deep Learning Pipeline for Improved Drought Stress Identification ( http://arxiv.org/abs/2404.10073v2 ) ライセンス: Link先を確認 | Aswini Kumar Patra, Lingaraj Sahoo, | (参考訳) 作物の干ばつストレスの早期同定は、効果的な緩和対策と収量損失の低減に不可欠である。
非侵襲イメージング技術は、水不足下の植物の微妙な生理的変化を捉え、大きな可能性を秘めている。
センサベースのイメージングデータは、機械学習とディープラーニングアルゴリズムのための豊富な情報源として機能し、干ばつストレスの特定を目的としたさらなる分析を容易にする。
これらのアプローチは好意的な結果をもたらすが、実時間分野の応用には、自然の農業条件の複雑さに特化して設計されたアルゴリズムが必要である。
本研究は,UAVが自然環境下で捕獲したジャガイモの干ばつストレスを分類するための,新しいディープラーニングフレームワークを提案する。
この斬新さは、事前訓練されたネットワークと慎重に設計されたカスタムレイヤの相乗的な組み合わせにある。
このアーキテクチャは、トレーニング済みネットワークの機能抽出機能を活用し、カスタムレイヤはターゲット次元の削減と正規化の強化を可能にし、最終的にパフォーマンスが向上する。
私たちの研究の重要な革新は、説明可能性のテクニックであるグラディエントクラスの活性化マッピング(Grad-CAM)の統合です。
Grad-CAMは、一般的にブラックボックスと呼ばれるディープラーニングモデルの内部動作に光を当てる。
画像内のモデルの焦点領域を可視化することにより、Grad-CAMは解釈可能性を高め、モデルの意思決定プロセスにおける信頼を構築する。
提案フレームワークは,特にDenseNet121事前学習ネットワークにおいて,ストレスクラスを91%の精度で識別するために,97%の精度を達成している。
既存の最先端物体検出アルゴリズムの比較解析により,提案手法の精度と精度が著しく向上したことが明らかとなった。
Early identification of drought stress in crops is vital for implementing effective mitigation measures and reducing yield loss. Non-invasive imaging techniques hold immense potential by capturing subtle physiological changes in plants under water deficit. Sensor based imaging data serves as a rich source of information for machine learning and deep learning algorithms, facilitating further analysis aimed at identifying drought stress. While these approaches yield favorable results, real-time field applications requires algorithms specifically designed for the complexities of natural agricultural conditions. Our work proposes a novel deep learning framework for classifying drought stress in potato crops captured by UAVs in natural settings. The novelty lies in the synergistic combination of a pre-trained network with carefully designed custom layers. This architecture leverages feature extraction capabilities of the pre-trained network while the custom layers enable targeted dimensionality reduction and enhanced regularization, ultimately leading to improved performance. A key innovation of our work involves the integration of Gradient-Class Activation Mapping (Grad-CAM), an explainability technique. Grad-CAM sheds light on the internal workings of the deep learning model, typically referred to as a black box. By visualizing the focus areas of the model within the images, Grad-CAM fosters interpretability and builds trust in the decision-making process of the model. Our proposed framework achieves superior performance, particularly with the DenseNet121 pre-trained network, reaching a precision of 97% to identify the stressed class with an overall accuracy of 91%. Comparative analysis of existing state-of-the-art object detection algorithms reveals the superiority of our approach in significantly higher precision and accuracy. | 翻訳日:2024-05-06 17:08:18 公開日:2024-05-03 |
# シングルタスク連続オフライン強化学習
Single-Task Continual Offline Reinforcement Learning ( http://arxiv.org/abs/2404.12639v2 ) ライセンス: Link先を確認 | Sibo Gai, Donglin Wang, | (参考訳) 本稿では,単一タスクのオフライン強化学習における継続学習問題について検討する。
過去には、連続的な強化学習は、通常マルチタスク、すなわち複数の関連するタスクや無関係なタスクを連続的に学習するだけであったが、一度学習されたタスクが一度学習されると、それは再学習されるのではなく、その後のプロセスでのみ使用される。
しかし、オフラインの強化学習タスクでは、同じタスクのために複数の異なるデータセットを継続的に学習する必要がある。
既存のアルゴリズムは、学習した各オフラインデータセットで最高の結果を得るために最善を尽くし、ネットワークのスキルは、その後の貧弱なデータセットを学習した後に学んだ高品質なデータセットを上書きする。
一方、安定性に重きを置くと、オフラインデータセットの貧弱な学習後、ネットワークはその後のより良いデータセットを学習し、可塑性と非学習の問題が発生する。
学習したデータにおいて、各状態の最高のパフォーマンスを常に維持できる戦略を設計する方法は、新しい課題であり、この研究の焦点である。
そこで本研究では,経験リプレイに基づくエンサンブルオフライン強化学習(Ensemble Offline Reinforcement Learning)と呼ばれる新しいアルゴリズムを提案する。
In this paper, we study the continual learning problem of single-task offline reinforcement learning. In the past, continual reinforcement learning usually only dealt with multitasking, that is, learning multiple related or unrelated tasks in a row, but once each learned task was learned, it was not relearned, but only used in subsequent processes. However, offline reinforcement learning tasks require the continuously learning of multiple different datasets for the same task. Existing algorithms will try their best to achieve the best results in each offline dataset they have learned and the skills of the network will overwrite the high-quality datasets that have been learned after learning the subsequent poor datasets. On the other hand, if too much emphasis is placed on stability, the network will learn the subsequent better dataset after learning the poor offline dataset, and the problem of insufficient plasticity and non-learning will occur. How to design a strategy that can always preserve the best performance for each state in the data that has been learned is a new challenge and the focus of this study. Therefore, this study proposes a new algorithm, called Ensemble Offline Reinforcement Learning Based on Experience Replay, which introduces multiple value networks to learn the same dataset and judge whether the strategy has been learned by the discrete degree of the value network, to improve the performance of the network in single-task offline reinforcement learning. | 翻訳日:2024-05-06 17:08:18 公開日:2024-05-03 |
# ディープラーニングを活用したソフトウェア開発プロセスの最適化
Utilizing Deep Learning to Optimize Software Development Processes ( http://arxiv.org/abs/2404.13630v2 ) ライセンス: Link先を確認 | Keqin Li, Armando Zhu, Peng Zhao, Jintong Song, Jiabei Liu, | (参考訳) 本研究では、特にコードレビュー、エラー予測、テスト生成を自動化することで、コード品質と開発効率を向上させるために、ディープラーニング技術のソフトウェア開発プロセスへの適用について検討する。
一連の実証研究を通じて,ディープラーニングツールを用いた実験グループと従来の手法を用いた制御グループを比較し,コードエラー率とプロジェクト完了時間を比較した。
その結果,実験群では有意な改善が見られ,深層学習技術の有効性が検証された。
この研究は、ソフトウェア開発におけるディープラーニングの潜在的な最適化ポイント、方法論、技術的課題、およびこれらの技術を既存のソフトウェア開発ワークフローに統合する方法についても論じている。
This study explores the application of deep learning technologies in software development processes, particularly in automating code reviews, error prediction, and test generation to enhance code quality and development efficiency. Through a series of empirical studies, experimental groups using deep learning tools and control groups using traditional methods were compared in terms of code error rates and project completion times. The results demonstrated significant improvements in the experimental group, validating the effectiveness of deep learning technologies. The research also discusses potential optimization points, methodologies, and technical challenges of deep learning in software development, as well as how to integrate these technologies into existing software development workflows. | 翻訳日:2024-05-06 17:08:18 公開日:2024-05-03 |
# 長期記憶と畳み込みニューラルネットワークのリアルタイム橋梁せん断予測への応用
Application of Long-Short Term Memory and Convolutional Neural Networks for Real-Time Bridge Scour Prediction ( http://arxiv.org/abs/2404.16549v2 ) ライセンス: Link先を確認 | Tahrima Hashem, Negin Yousefpour, | (参考訳) 橋の桟橋周辺は、世界中のインフラにとって重要な課題だ。
解析モデルが欠如し、歪過程の複雑さのため、現在の経験的手法では正確な予測が困難である。
本稿では,河床標高,流高,流速などの履歴センサ観測データに基づいて,橋脚周囲のせん断深度変動を予測するために,深層学習アルゴリズムの力を利用する。
2006年から2021年までのアラスカ州とオレゴン州の橋梁から収集したデータを用いて, 長期記憶(LSTM)モデルと畳み込みニューラルネットワーク(CNN)モデルを用いて, リアルタイムなせん断予測を行った。
LSTMモデルでは, 平均絶対誤差 (MAE) は週毎のベッドレベルの変動を予測するために0.1mから0.5mの範囲で達成され, 妥当な性能を示した。
CNNのFCN(Fully Convolutional Network)は、他のCNN構成よりも優れており、計算コストを大幅に削減したLSTMに匹敵する性能を示した。
我々は,超パラメータチューニングとモデル最適化のための様々な革新的なランダム探索ヒューリスティックを探索し,グリッド探索法と比較して計算コストを削減した。
センサの異なる組み合わせが、来るべき事象を予測するために、歴史的時系列のせん断の重要さを示した。
本研究は, 地形, 流れ特性の異なる橋梁について, リアルタイムなせん断予測のためのDeep Learningアルゴリズムの可能性について, より深く理解するものである。
Scour around bridge piers is a critical challenge for infrastructures around the world. In the absence of analytical models and due to the complexity of the scour process, it is difficult for current empirical methods to achieve accurate predictions. In this paper, we exploit the power of deep learning algorithms to forecast the scour depth variations around bridge piers based on historical sensor monitoring data, including riverbed elevation, flow elevation, and flow velocity. We investigated the performance of Long Short-Term Memory (LSTM) and Convolutional Neural Network (CNN) models for real-time scour forecasting using data collected from bridges in Alaska and Oregon from 2006 to 2021. The LSTM models achieved mean absolute error (MAE) ranging from 0.1m to 0.5m for predicting bed level variations a week in advance, showing a reasonable performance. The Fully Convolutional Network (FCN) variant of CNN outperformed other CNN configurations, showing a comparable performance to LSTMs with significantly lower computational costs. We explored various innovative random-search heuristics for hyperparameter tuning and model optimisation which resulted in reduced computational cost compared to grid-search method. The impact of different combinations of sensor features on scour prediction showed the significance of the historical time series of scour for predicting upcoming events. Overall, this study provides a greater understanding of the potential of Deep Learning algorithms for real-time scour prediction and early warning for bridges with distinct geology, geomorphology and flow characteristics. | 翻訳日:2024-05-06 17:08:18 公開日:2024-05-03 |
# プロセスマイニングの埋め込み:ペトリネットのためのベクトル表現の学習
Process Mining Embeddings: Learning Vector Representations for Petri Nets ( http://arxiv.org/abs/2404.17129v2 ) ライセンス: Link先を確認 | Juan G. Colonna, Ahmed A. Fares, Márcio Duarte, Ricardo Sousa, | (参考訳) プロセスマイニングは、現実世界のビジネスプロセスを発見し、分析し、拡張するための強力な技術を提供します。
この文脈では、ペトリネットはプロセスの振る舞いをモデル化する表現的な手段を提供する。
しかし、複雑なペトリネットを直接分析し比較することは困難である。
本研究では、Doc2Vecにインスパイアされた自然言語処理の概念に基づく、新しい教師なし方法論であるPetriNet2Vecを紹介し、埋め込みベクトルとして表されるプロセスモデルの効率的な比較、クラスタリング、分類を容易にする。
これらの埋め込みベクトルは、異なるプロセスモデル間の類似性と関係を定量化することができる。
提案手法は,96種類のペトリネットモデルを特徴とするPDCデータセットを用いて実験的に検証した。
我々はクラスタ分析を行い、UMAP視覚化を作成し、プロセスモデルとその構成タスク間の意味のあるパターンと関係を識別するペトリネット2Vecの能力を示すための決定木を訓練した。
一連の実験を通して、ペトリネット2Vecがペトリネットの構造や、データセットのプロセスモデルをシミュレートする主な特性を学習できることを実証した。
さらに,プロセスマイニングにおける2つの重要な下流タスク,すなわちプロセス分類とプロセス検索において,学習した埋め込みが有用であることを示す。
Process mining offers powerful techniques for discovering, analyzing, and enhancing real-world business processes. In this context, Petri nets provide an expressive means of modeling process behavior. However, directly analyzing and comparing intricate Petri net presents challenges. This study introduces PetriNet2Vec, a novel unsupervised methodology based on Natural Language Processing concepts inspired by Doc2Vec and designed to facilitate the effective comparison, clustering, and classification of process models represented as embedding vectors. These embedding vectors allow us to quantify similarities and relationships between different process models. Our methodology was experimentally validated using the PDC Dataset, featuring 96 diverse Petri net models. We performed cluster analysis, created UMAP visualizations, and trained a decision tree to provide compelling evidence for the capability of PetriNet2Vec to discern meaningful patterns and relationships among process models and their constituent tasks. Through a series of experiments, we demonstrated that PetriNet2Vec was capable of learning the structure of Petri nets, as well as the main properties used to simulate the process models of our dataset. Furthermore, our results showcase the utility of the learned embeddings in two crucial downstream tasks within process mining enhancement: process classification and process retrieval. | 翻訳日:2024-05-06 17:08:18 公開日:2024-05-03 |
# 離散化の有無を考慮した条件付き独立試験
A Conditional Independence Test in the Presence of Discretization ( http://arxiv.org/abs/2404.17644v2 ) ライセンス: Link先を確認 | Boyang Sun, Yu Yao, Huangyuan Hao, Yumou Qiu, Kun Zhang, | (参考訳) 条件付き独立性のテストには、ベイジアンネットワーク学習や因果発見など、多くの応用がある。
様々な試験方法が提案されている。
しかし、離散化された観測しかできない場合、既存の手法は一般的には機能しない。
具体的には、 $X_1$, $\tilde{X}_2$ と $X_3$ を観測変数とし、 $\tilde{X}_2$ は潜伏変数 $X_2$ の離散化である。
既存のテストメソッドを$X_1$, $\tilde{X}_2$, $X_3$の観測に適用すると、変数の条件独立性に関する誤った結論が導かれる。
そこで我々は,このような離散化の存在に配慮した条件付き独立性テストを提案する。
これを実現するために,基礎となる潜伏連続変数の統計情報を反映したパラメータを復元するブリッジ方程式を設計する。
条件独立の無効仮説に基づく適切なテスト統計学とその漸近分布も導出されている。
提案手法の有効性を実証し, 理論的結果と実証的検証を行った。
Testing conditional independence has many applications, such as in Bayesian network learning and causal discovery. Different test methods have been proposed. However, existing methods generally can not work when only discretized observations are available. Specifically, consider $X_1$, $\tilde{X}_2$ and $X_3$ are observed variables, where $\tilde{X}_2$ is a discretization of latent variables $X_2$. Applying existing test methods to the observations of $X_1$, $\tilde{X}_2$ and $X_3$ can lead to a false conclusion about the underlying conditional independence of variables $X_1$, $X_2$ and $X_3$. Motivated by this, we propose a conditional independence test specifically designed to accommodate the presence of such discretization. To achieve this, we design the bridge equations to recover the parameter reflecting the statistical information of the underlying latent continuous variables. An appropriate test statistic and its asymptotic distribution under the null hypothesis of conditional independence have also been derived. Both theoretical results and empirical validation have been provided, demonstrating the effectiveness of our test methods. | 翻訳日:2024-05-06 17:08:18 公開日:2024-05-03 |
# 互換性のないJavaバージョンを使用したテストケースの自動ビルド修復
Automatic Build Repair for Test Cases using Incompatible Java Versions ( http://arxiv.org/abs/2404.17818v2 ) ライセンス: Link先を確認 | Ching Hang Mak, Shing-Chi Cheung, | (参考訳) コンテキスト: Bugのバイセクションは、バグを導入したり、間接的にバグを修正するリビジョンを特定するのに使われる一般的なテクニックであり、しばしばリビジョンの中にバグが存在するかどうかを判断するために、プロジェクトの複数のリビジョンを実行する。
しかし、多くのレガシーリビジョンは、コンパイルプロセスで使用されるプログラミング言語やツールの変更により、しばしばうまくコンパイルできない。
目的:本論文では,依存性の最小化によってJavaプロジェクトのテストケースを修復する手法を紹介する。
我々のアプローチは、1つ以上のテストケースの実行に不要なクラスやメソッドを削除することを目的としています。
既存の最先端技術とは異なり、我々の手法はソースレベルで最小化を行い、コンパイル時のエラーを修正できる。
Method: 私たちのテクニックを実装するスタンドアロンのJavaツールを開発し、Java 8と17に対して再ターゲットされたDefects4Jの課題を使って、我々のテクニックを評価しました。
結果: 評価の結果, 原版テスト結果の複製を含む最小化を行うことで, 被験者の大多数を修復できることがわかった。
さらに,本手法は,2分割プロセスに小さなオーバーヘッドを加えるだけで,精度の低い結果が得られることを示す。
結論: 提案手法は,オーバーヘッドの最小化によるビルド障害の修復に有効であることが示され,自動バグバイセクションでの使用に適している。
私たちのツールは、バグコーパスの作成やリファクタリングといったユースケースにも適用できます。
Context: Bug bisection is a common technique used to identify a revision that introduces a bug or indirectly fixes a bug, and often involves executing multiple revisions of a project to determine whether the bug is present within the revision. However, many legacy revisions often cannot be successfully compiled due to changes in the programming language or tools used in the compilation process, adding complexity and preventing automation in the bisection process. Objective: In this paper, we introduce an approach to repair test cases of Java projects by performing dependency minimization. Our approach aims to remove classes and methods that are not required for the execution of one or more test cases. Unlike existing state-of-the-art techniques, our approach performs minimization at source-level, which allows compile-time errors to be fixed. Method: A standalone Java tool implementing our technique was developed, and we evaluated our technique using subjects from Defects4J retargeted against Java 8 and 17. Results: Our evaluation showed that a majority of subjects can be repaired solely by performing minimization, including replicating the test results of the original version. Furthermore, our technique is also shown to achieve accurate minimized results, while only adding a small overhead to the bisection process. Conclusion: Our proposed technique is shown to be effective for repairing build failures with minimal overhead, making it suitable for use in automated bug bisection. Our tool can also be adapted for use cases such as bug corpus creation and refactoring. | 翻訳日:2024-05-06 17:08:18 公開日:2024-05-03 |
# Dynamic Against Dynamic: オープンセットの自己学習フレームワーク
Dynamic Against Dynamic: An Open-set Self-learning Framework ( http://arxiv.org/abs/2404.17830v2 ) ライセンス: Link先を確認 | Haifeng Yang, Chuanxing Geng, Pong C. Yuen, Songcan Chen, | (参考訳) オープンセット認識では、既存のメソッドは既知のクラスを使用して静的に固定された決定境界を学習し、未知のクラスを拒否する。
彼らは有望な結果を得たが、そのような決定境界は、動的かつオープンなシナリオにおける普遍的な未知のクラスには明らかに不十分であり、特徴空間の任意の位置に現れる可能性がある。
さらに、これらのメソッドは、テスト中の未知のクラスサンプルを効果的に利用せずに単に拒否するだけである。
実際、そのようなサンプルは未知のクラスの真のインスタンス化表現を構成することができ、モデルの性能をさらに高めることができる。
これらの課題に対処するために,オープンセット・セルフラーニング(OSSL, Open-set Self-learning)フレームワークが対応する,動的に変化するオープンセット世界に対する動的手法という,動的アイデアに対する新しい動的手法を提案する。
OSSLは、既知のクラスによってトレーニングされた優れたクローズドセット分類器から始まり、テスト中のモデル適応のために利用可能なテストサンプルを使用する。
特に、新しい自己マッチングモジュールはOSSL用に設計されており、未知のクラスサンプルを自動的に識別し、未知のクラスのインスタンス化表現としてのモデルの識別性を高めるためにさらに活用される未知のクラスサンプルを拒絶する。
提案手法は,ほぼすべての標準ベンチマークとクロスデータベンチマークにおいて,それぞれ新たなパフォーマンスマイルストーンを確立する。
In open-set recognition, existing methods generally learn statically fixed decision boundaries using known classes to reject unknown classes. Though they have achieved promising results, such decision boundaries are evidently insufficient for universal unknown classes in dynamic and open scenarios as they can potentially appear at any position in the feature space. Moreover, these methods just simply reject unknown class samples during testing without any effective utilization for them. In fact, such samples completely can constitute the true instantiated representation of the unknown classes to further enhance the model's performance. To address these issues, this paper proposes a novel dynamic against dynamic idea, i.e., dynamic method against dynamic changing open-set world, where an open-set self-learning (OSSL) framework is correspondingly developed. OSSL starts with a good closed-set classifier trained by known classes and utilizes available test samples for model adaptation during testing, thus gaining the adaptability to changing data distributions. In particular, a novel self-matching module is designed for OSSL, which can achieve the adaptation in automatically identifying known class samples while rejecting unknown class samples which are further utilized to enhance the discriminability of the model as the instantiated representation of unknown classes. Our method establishes new performance milestones respectively in almost all standard and cross-data benchmarks. | 翻訳日:2024-05-06 17:08:18 公開日:2024-05-03 |
# 広帯域空間モデルと確率-誘導融合によるマルチモーダル感情学習の再検討
Revisiting Multi-modal Emotion Learning with Broad State Space Models and Probability-guidance Fusion ( http://arxiv.org/abs/2404.17858v2 ) ライセンス: Link先を確認 | Yuntao Shou, Tao Meng, Fuchen Zhang, Nan Yin, Keqin Li, | (参考訳) 会話におけるマルチモーダル感情認識(MERC)は,様々な分野,例えば人間とコンピュータのインタラクションやレコメンデーションシステムにおいて注目されている。
既存の作品の多くは、マルチモーダル特徴と感情分類から感情的文脈情報を抽出するために、特徴のゆがみと融合を行う。
我々は,MERCの特徴を再考した後,特徴展開段階において長距離文脈意味情報を抽出し,特徴融合段階においてモーダル間意味情報の一貫性を最大化するべきであると論じる。
最近のステートスペースモデル(SSM)にインスパイアされたMambaは、長距離依存関係を効率的にモデル化することができる。
そこで本研究では,MERCの性能向上を図るため,上記の知見を十分に検討する。
具体的には、機能障害の段階では、シーケンスモデリングの自己認識機構に依存しないブロードマンバを提案するが、状態空間モデルを用いて感情表現を圧縮し、広義の学習システムを用いて、広義の空間における潜在的なデータ分布を探索する。
従来のSSMとは違って,グローバルコンテキスト情報を抽出する双方向SSM畳み込みを設計する。
一方,モーダル間の情報の一貫性を最大化するために,確率誘導に基づくマルチモーダル融合戦略を設計する。
実験結果から,提案手法は長距離コンテキストをモデル化する際のTransformerの計算およびメモリ制限を克服し,MERCの次世代汎用アーキテクチャとなる大きな可能性を示唆している。
Multi-modal Emotion Recognition in Conversation (MERC) has received considerable attention in various fields, e.g., human-computer interaction and recommendation systems. Most existing works perform feature disentanglement and fusion to extract emotional contextual information from multi-modal features and emotion classification. After revisiting the characteristic of MERC, we argue that long-range contextual semantic information should be extracted in the feature disentanglement stage and the inter-modal semantic information consistency should be maximized in the feature fusion stage. Inspired by recent State Space Models (SSMs), Mamba can efficiently model long-distance dependencies. Therefore, in this work, we fully consider the above insights to further improve the performance of MERC. Specifically, on the one hand, in the feature disentanglement stage, we propose a Broad Mamba, which does not rely on a self-attention mechanism for sequence modeling, but uses state space models to compress emotional representation, and utilizes broad learning systems to explore the potential data distribution in broad space. Different from previous SSMs, we design a bidirectional SSM convolution to extract global context information. On the other hand, we design a multi-modal fusion strategy based on probability guidance to maximize the consistency of information between modalities. Experimental results show that the proposed method can overcome the computational and memory limitations of Transformer when modeling long-distance contexts, and has great potential to become a next-generation general architecture in MERC. | 翻訳日:2024-05-06 17:08:18 公開日:2024-05-03 |
# グラフスペクトルから見た会話におけるマルチモーダル感情認識の再検討
Revisiting Multimodal Emotion Recognition in Conversation from the Perspective of Graph Spectrum ( http://arxiv.org/abs/2404.17862v2 ) ライセンス: Link先を確認 | Tao Meng, Fuchen Zhang, Yuntao Shou, Wei Ai, Nan Yin, Keqin Li, | (参考訳) 対話におけるマルチモーダル感情認識(MERC)において,多モーダル会話コンテキストにおける一貫性と相補的意味的特徴を効果的に捉えることが重要である。
既存の手法は主に、対話コンテキストのセマンティックな依存性をモデル化するためにグラフ構造を使用し、感情認識のためのマルチモーダルなセマンティックな特徴をキャプチャするためにグラフニューラルネットワーク(GNN)を使用している。
しかし、これらの手法は、オーバースムーシングやローパスフィルタリングなどのGNN固有の特徴によって制限されており、長距離整合情報や補完情報を効率的に学習することができない。
整合性情報と相補性情報はそれぞれ低周波情報と高周波情報に対応するため,グラフスペクトルの観点から会話におけるマルチモーダル感情認識の問題を再考する。
具体的には,グラフスペクトルに基づくマルチモーダル一貫性と補完的協調学習フレームワークGS-MCCを提案する。
まず、GS-MCCはスライディングウィンドウを用いて、対話関係をモデル化するマルチモーダル相互作用グラフを構築し、より効率的なフーリエグラフ演算子を用いて、それぞれ長距離高周波および低周波情報を抽出する。
そして、GS-MCCはコントラスト学習を用いて、高周波数信号と低周波信号との相補性と一貫した意味的協調を反映した自己教師付き信号を構築することにより、実情を反映する高周波情報や低周波情報の能力を向上させる。
最後に、GS-MCCは、協調的な高周波・低周波情報をMLPネットワークとソフトマックス関数に入力し、感情予測を行う。
本稿では,2つのベンチマークデータセットで提案したGS-MCCアーキテクチャの優位性を実証した。
Efficiently capturing consistent and complementary semantic features in a multimodal conversation context is crucial for Multimodal Emotion Recognition in Conversation (MERC). Existing methods mainly use graph structures to model dialogue context semantic dependencies and employ Graph Neural Networks (GNN) to capture multimodal semantic features for emotion recognition. However, these methods are limited by some inherent characteristics of GNN, such as over-smoothing and low-pass filtering, resulting in the inability to learn long-distance consistency information and complementary information efficiently. Since consistency and complementarity information correspond to low-frequency and high-frequency information, respectively, this paper revisits the problem of multimodal emotion recognition in conversation from the perspective of the graph spectrum. Specifically, we propose a Graph-Spectrum-based Multimodal Consistency and Complementary collaborative learning framework GS-MCC. First, GS-MCC uses a sliding window to construct a multimodal interaction graph to model conversational relationships and uses efficient Fourier graph operators to extract long-distance high-frequency and low-frequency information, respectively. Then, GS-MCC uses contrastive learning to construct self-supervised signals that reflect complementarity and consistent semantic collaboration with high and low-frequency signals, thereby improving the ability of high and low-frequency information to reflect real emotions. Finally, GS-MCC inputs the collaborative high and low-frequency information into the MLP network and softmax function for emotion prediction. Extensive experiments have proven the superiority of the GS-MCC architecture proposed in this paper on two benchmark data sets. | 翻訳日:2024-05-06 17:08:18 公開日:2024-05-03 |
# ニューラルネットワークにおける物体登録
Object Registration in Neural Fields ( http://arxiv.org/abs/2404.18381v2 ) ライセンス: Link先を確認 | David Hall, Stephen Hausler, Sutharsan Mahendren, Peyman Moghadam, | (参考訳) ニューラルフィールドは、3次元幾何学と外観の連続的なシーン表現を提供する。
ロボット工学におけるニューラルネットワークのユニークなユースケースをアンロックする機能のひとつに、オブジェクト6-DoF登録がある。
本稿では,最近のReg-NFニューラルフィールド登録法とその使用事例をロボット工学の文脈で拡張分析する。
本稿では、シーン内における既知の物体の6-DoFポーズを決定するシナリオを、シーンとオブジェクトのニューラルフィールドモデルを用いて示す。
本研究では、不完全なモデル化シーン内のオブジェクトをよりよく表現し、オブジェクトのニューラルフィールドモデルをシーンに置換することで新しいシーンを生成する方法を示す。
Neural fields provide a continuous scene representation of 3D geometry and appearance in a way which has great promise for robotics applications. One functionality that unlocks unique use-cases for neural fields in robotics is object 6-DoF registration. In this paper, we provide an expanded analysis of the recent Reg-NF neural field registration method and its use-cases within a robotics context. We showcase the scenario of determining the 6-DoF pose of known objects within a scene using scene and object neural field models. We show how this may be used to better represent objects within imperfectly modelled scenes and generate new scenes by substituting object neural field models into the scene. | 翻訳日:2024-05-06 17:08:18 公開日:2024-05-03 |
# moiré Bose-HubbardモデルにおけるTunable Exiton Valley-pseudospin位数
Tunable exciton valley-pseudospin orders in moiré Bose-Hubbard model ( http://arxiv.org/abs/2404.18931v2 ) ライセンス: Link先を確認 | Richen Xiong, Samuel L. Brantly, Kaixiang Su, Jacob H. Nie, Zihan Zhang, Rounak Banerjee, Hayley Ruddick, Kenji Watanabe, Takashi Taniguchi, Sefaattin Tongay, Cenke Xu, Chenhao Jin, | (参考訳) スピンと電荷は電子の2つの最も重要な自由度である。
それらの相互作用は、ハバード模型物理学や高温超伝導など、多くの強い相関する現象の中心にある。
一方、ボソンのこのような相互作用は、凝縮物質系においてほとんど解明されていない。
ここでは、半超伝導モワール超格子における励起子によるスピン-1/2ボース-ハッバードモデルのユニークな実現法を示す。
過渡的な面内強磁性(FM-$xy$)のエクシトンスピンの位 - ここでのバレー擬スピン - エクシトンフィリング$\nu_{ex}$ = 1 は、エクシトンフィリングの増加と10 mTの小さな磁場の両方でFM-$z$位に遷移する。
我々の研究は、スピノルボソンからの物質のエキゾチックな位相のエンジニアリング方法と、光学や量子情報科学における非伝統的な装置の道を開いた。
Spin and charge are the two most important degrees of freedom of electrons. Their interplay lies at the heart of numerous strongly correlated phenomena including Hubbard model physics and high temperature superconductivity. Such interplay for bosons, on the other hand, is largely unexplored in condensed matter systems. Here we demonstrate a unique realization of the spin-1/2 Bose-Hubbard model through excitons in a semiconducting moir\'e superlattice. We find evidence of a transient in-plane ferromagnetic (FM-$xy$) order of exciton spin - here valley pseudospin - around exciton filling $\nu_{ex}$ = 1, which transitions into a FM-$z$ order both with increasing exciton filling and a small magnetic field of 10 mT. The phase diagram is different from the fermion case and is qualitatively captured by a simple phenomenological model, highlighting the unique consequence of Bose-Einstein statistics. Our study paves the way for engineering exotic phases of matter from spinor bosons, as well as for unconventional devices in optics and quantum information science. | 翻訳日:2024-05-06 17:08:18 公開日:2024-05-03 |
# キラウエア火山におけるカルデラ崩壊現象の深層学習予測
Deep Learning Forecasts Caldera Collapse Events at Kilauea Volcano ( http://arxiv.org/abs/2404.19351v2 ) ライセンス: Link先を確認 | Ian W. McBrearty, Paul Segall, | (参考訳) 2018年にハワイのキラウエア火山が噴火し、約60回の半周期の噴火で崩壊した。
Mw>5超長周期地震(VLP)を発生させた最後の40件は、0.8~2.2日間の時間間隔であった。
これらの障害イベントは、ローカルに記録されたGPS、傾き、および地震活動データに基づいて、地震の再発を予測するための独自のデータセットを提供する。
本研究では,各サイクルの開始時に記録されたデータのごく一部を用いて,カルデラ崩壊イベントの時間と障害を予測するために,ディープラーニンググラフニューラルネットワーク(GNN)を訓練する。
我々は,GNN がデータの発見を一般化し,0.5 日のデータのみを用いて数時間以内に障害を予測し,イベント間統計のみに基づくnull モデルを大幅に改善することを発見した。
入力データ長の増大により予測は改善され、高SNR傾斜計データを使用する場合に最も正確である。
トレーニングされたGNNをマグマ圧力減衰時間が異なる合成データに適用することで、ほぼ一定の応力閾値での故障を予測し、GNNがカルデラ崩壊の地下物理を感知していることを明らかにする。
これらの結果は,カルデラ崩壊シーケンスの予測可能性を示し,限られたトレーニングデータを用いた実世界の破滅的な事象を予測するための機械学習手法の可能性を強調した。
During the three month long eruption of Kilauea volcano, Hawaii in 2018, the pre-existing summit caldera collapsed in over 60 quasi-periodic failure events. The last 40 of these events, which generated Mw >5 very long period (VLP) earthquakes, had inter-event times between 0.8 - 2.2 days. These failure events offer a unique dataset for testing methods for predicting earthquake recurrence based on locally recorded GPS, tilt, and seismicity data. In this work, we train a deep learning graph neural network (GNN) to predict the time-to-failure of the caldera collapse events using only a fraction of the data recorded at the start of each cycle. We find that the GNN generalizes to unseen data and can predict the time-to-failure to within a few hours using only 0.5 days of data, substantially improving upon a null model based only on inter-event statistics. Predictions improve with increasing input data length, and are most accurate when using high-SNR tilt-meter data. Applying the trained GNN to synthetic data with different magma pressure decay times predicts failure at a nearly constant stress threshold, revealing that the GNN is sensing the underling physics of caldera collapse. These findings demonstrate the predictability of caldera collapse sequences under well monitored conditions, and highlight the potential of machine learning methods for forecasting real world catastrophic events with limited training data. | 翻訳日:2024-05-06 16:58:34 公開日:2024-05-03 |
# 人間中心のフェデレーションラーニングにおけるデモグラフィックのないフェアネス
Fairness Without Demographics in Human-Centered Federated Learning ( http://arxiv.org/abs/2404.19725v2 ) ライセンス: Link先を確認 | Shaily Roy, Harshit Sharma, Asif Salekin, | (参考訳) フェデレートラーニング(FL)は、データのプライバシを保持しながら協調的なモデルトレーニングを可能にし、分散化された人間中心のAIアプリケーションに適している。
しかし、これらのシステムにおける公正性を確保するための重要な研究のギャップは依然として残っている。
FLの現在の公正戦略は、FLのプライバシー原則と衝突するバイアス発生/感受性属性の知識を必要とする。
さらに、人間中心のデータセットでは、センシティブな属性が潜んでいる可能性がある。
これらの課題に対処するために、機械学習において「デモグラフィックなしのフェアネス」に着想を得た、新しいバイアス緩和手法を提案する。
提案手法は, トレーニング中のヘッセン行列の最大固有値を最小限に抑え, FL参加者間の均等な損失景観を確保することにより, 感度特性の知識を必要とせずに公平性を実現する。
特に,新しいFLアグリゲーション方式を導入し,エラー率と損失ランドスケープの曲率特性に基づいて,FLシステム全体の公平性を育成する。
この研究は、人間中心FLにおける「Fairness without Demographics」の達成に向けた最初のアプローチである。
本手法は, 実世界の様々なアプリケーション, FLセットアップ, 単一および複数のバイアス誘導因子を含むシナリオにおいて, 公平性と有効性のバランスをとる上での有効性を示すものである。
Federated learning (FL) enables collaborative model training while preserving data privacy, making it suitable for decentralized human-centered AI applications. However, a significant research gap remains in ensuring fairness in these systems. Current fairness strategies in FL require knowledge of bias-creating/sensitive attributes, clashing with FL's privacy principles. Moreover, in human-centered datasets, sensitive attributes may remain latent. To tackle these challenges, we present a novel bias mitigation approach inspired by "Fairness without Demographics" in machine learning. The presented approach achieves fairness without needing knowledge of sensitive attributes by minimizing the top eigenvalue of the Hessian matrix during training, ensuring equitable loss landscapes across FL participants. Notably, we introduce a novel FL aggregation scheme that promotes participating models based on error rates and loss landscape curvature attributes, fostering fairness across the FL system. This work represents the first approach to attaining "Fairness without Demographics" in human-centered FL. Through comprehensive evaluation, our approach demonstrates effectiveness in balancing fairness and efficacy across various real-world applications, FL setups, and scenarios involving single and multiple bias-inducing factors, representing a significant advancement in human-centered FL. | 翻訳日:2024-05-06 16:58:34 公開日:2024-05-03 |
# コンビニアルマルチアームバンドによるキャッシング支援
Recommenadation aided Caching using Combinatorial Multi-armed Bandits ( http://arxiv.org/abs/2405.00080v2 ) ライセンス: Link先を確認 | Pavamana K J, Chandramani Kishore Singh, | (参考訳) 本研究では,有限容量キャッシュを備えた基地局を介してユーザが接続する無線ネットワークにおいて,コンテントキャッシュとレコメンデーションを併用したコンテントキャッシュについて検討する。
我々は、未知のユーザー好みとコンテンツ人気のあるコンテンツセットを仮定する。
コンテンツのサブセットをユーザに推奨し、ユーザがこれらのコンテンツをリクエストするように促すことができます。
これにより、キャッシュヒットの増加にレコメンデーションが使用できる。
キャッシュヒット最適化問題をCMAB (combintorial multi-armed bandit) として定式化する。
キャッシュとレコメンデーションを決定するための UCB ベースのアルゴリズムを提案する。
我々はアルゴリズムの後悔に上限を与えている。
本稿では,アルゴリズムの性能を数値的に検証し,最先端のアルゴリズムと比較する。
We study content caching with recommendations in a wireless network where the users are connected through a base station equipped with a finite-capacity cache. We assume a fixed set of contents with unknown user preferences and content popularities. We can recommend a subset of the contents to the users which encourages the users to request these contents. Recommendation can thus be used to increase cache hits. We formulate the cache hit optimization problem as a combinatorial multi-armed bandit (CMAB). We propose a UCB-based algorithm to decide which contents to cache and recommend. We provide an upper bound on the regret of our algorithm. We numerically demonstrate the performance of our algorithm and compare it to state-of-the-art algorithms. | 翻訳日:2024-05-06 16:58:34 公開日:2024-05-03 |
# テンソルネットワークを用いたフーリエ型オプション価格の学習パラメータ依存性
Learning parameter dependence for Fourier-based option pricing with tensor networks ( http://arxiv.org/abs/2405.00701v2 ) ライセンス: Link先を確認 | Rihito Sakurai, Haruto Takahashi, Koichi Miyamoto, | (参考訳) 数学ファイナンスにおける長年の問題として、価格オプションのスピードアップ、特にマルチアセットオプションがあげられる。
最近の研究では、テンソルネットワークの高次元テンソル圧縮能力を活用して、テンソルトレイン学習アルゴリズムを用いてフーリエ変換(FT)に基づくオプション価格の高速化が提案されている。
テンソルネットワークのもう1つの用途は、パラメータ依存を含む関数を圧縮することである。
そこで本研究では,FTベースのオプション価格に現れる関数をパラメータ依存で近似したテンソルトレインを構築し,入力パラメータのオプション価格を効率的に算出する,テンソル学習アルゴリズムを提案する。
ベンチマークテストとして,様々な揮発性の値と現在の資産価格に対するマルチアセットオプションの価格設定を行う。
提案手法は, 最大11個の資産を含む試験ケースにおいて, モンテカルロシミュレーションを計算複雑性の観点から10^5$パスで比較し, 精度を同等に保った。
A long-standing issue in mathematical finance is the speed-up of pricing options, especially multi-asset options. A recent study has proposed to use tensor train learning algorithms to speed up Fourier transform (FT)-based option pricing, utilizing the ability of tensor networks to compress high-dimensional tensors. Another usage of the tensor network is to compress functions, including their parameter dependence. In this study, we propose a pricing method, where, by a tensor learning algorithm, we build tensor trains that approximate functions appearing in FT-based option pricing with their parameter dependence and efficiently calculate the option price for the varying input parameters. As a benchmark test, we run the proposed method to price a multi-asset option for the various values of volatilities and present asset prices. We show that, in the tested cases involving up to 11 assets, the proposed method is comparable to or outperforms Monte Carlo simulation with $10^5$ paths in terms of computational complexity, keeping the comparable accuracy. | 翻訳日:2024-05-06 16:58:34 公開日:2024-05-03 |
# フェイク人工知能生成コンテンツ(FAIGC:Theories, Detection Methods, and Opportunities)
Fake Artificial Intelligence Generated Contents (FAIGC): A Survey of Theories, Detection Methods, and Opportunities ( http://arxiv.org/abs/2405.00711v2 ) ライセンス: Link先を確認 | Xiaomin Yu, Yezhaohui Wang, Yanfang Chen, Zhen Tao, Dinghao Xi, Shichao Song, Simin Niu, Zhiyu Li, | (参考訳) 近年,Large Language Models (LLMs) とDiffusion Models (DMs) に代表される生成人工知能モデルは,コンテンツ生成法に革命をもたらした。
これらの人工知能生成コンテンツ(AIGC)は、日常生活や仕事の様々な側面に深く浸透している。
しかし、これらの技術はフェイク人工知能生成コンテンツ(FAIGC)の出現にもつながり、真の情報を識別する上で新たな課題を提起している。
AIGC技術は二重刃の剣に似ており、その強力な生成能力は有益であると同時に、FAIGCの作成と普及のリスクも生じている。
本調査では,現在のFAIGC手法の空間を包括的に把握する新たな分類法を提案する。
次に,FAIGCのモダリティと生成技術について検討する。
本稿では,FAIGC検出手法を導入し,関連するベンチマークを様々な観点から要約する。
最後に,今後の課題と今後の研究に期待できる領域について論じる。
In recent years, generative artificial intelligence models, represented by Large Language Models (LLMs) and Diffusion Models (DMs), have revolutionized content production methods. These artificial intelligence-generated content (AIGC) have become deeply embedded in various aspects of daily life and work. However, these technologies have also led to the emergence of Fake Artificial Intelligence Generated Content (FAIGC), posing new challenges in distinguishing genuine information. It is crucial to recognize that AIGC technology is akin to a double-edged sword; its potent generative capabilities, while beneficial, also pose risks for the creation and dissemination of FAIGC. In this survey, We propose a new taxonomy that provides a more comprehensive breakdown of the space of FAIGC methods today. Next, we explore the modalities and generative technologies of FAIGC. We introduce FAIGC detection methods and summarize the related benchmark from various perspectives. Finally, we discuss outstanding challenges and promising areas for future research. | 翻訳日:2024-05-06 16:58:34 公開日:2024-05-03 |
# ビスケットでリスクを負うこともあります」 : 学生のリスクテイキングのポートレート
"Sometimes You Just Gotta Risk It for the Biscuit": A Portrait of Student Risk-Taking ( http://arxiv.org/abs/2405.01477v2 ) ライセンス: Link先を確認 | Juho Leinonen, Paul Denny, | (参考訳) 学生を含む個人がどのようにリスクを含む意思決定を行うかを理解することは、行動研究の基本的な側面である。
生命の様々な側面におけるリスクの多様さにもかかわらず、実験的な限られた研究は、コンピュータ教育における学生のリスクテイク行動を探究してきた。
本研究は,学生のリスクテイク行動に関する先行研究を部分的に再現し,リスクテイク選択に影響を与える要因に光を当てることを目的としている。
本研究では,リスクの高い選択肢と安全な選択肢のどちらを選択するかを選択するために,コースプロジェクトの期限に間に合う仮説的なシナリオを提示した。
これらの選択に影響を及ぼす可能性のある要因として、決定のフレーミング(潜在的な利得や損失)、プログラミングの楽しさ、プログラミングの難しさの認識、そのコースにおける学業成績などについて検討した。
その結果,学生のリスクテイク行動に対する興味深い洞察が得られた。
第一に、以前の作業におけるソフトウェアエンジニアと同様、決定のフレーミングは学生の選択に大きな影響を与え、損失フレーミングはリスクの高い選択の可能性が高かった。
意外なことに、学生は以前の研究に比べてリスクテイクの傾向が高かった。
さらに,学生の授業前の学業成績やプログラミングの楽しさがリスクテイクの傾向に微妙な影響を与えていることも確認した。
特に,プログラミングの難易度と学生のリスクテイク行動との間に統計的に有意な相関はみられなかった。
Understanding how individuals, including students, make decisions involving risk is a fundamental aspect of behavioral research. Despite the ubiquity of risk in various aspects of life, limited empirical work has explored student risk-taking behavior in computing education. This study aims to partially replicate prior research on risk-taking behavior in software engineers while focusing on students, shedding light on the factors that affect their risk-taking choices. In our work, students were presented with a hypothetical scenario related to meeting a course project deadline, where they had to choose between a risky option and a safer alternative. We examined several factors that might influence these choices, including the framing of the decision (as a potential gain or loss), students' enjoyment of programming, perceived difficulty of programming, and their academic performance in the course. Our findings reveal intriguing insights into student risk-taking behavior. First, similar to software engineers in prior work, the framing of the decision significantly impacted the choices students made, with the loss framing leading to a higher likelihood for risky choices. Surprisingly, students displayed a greater inclination towards risk-taking compared to their professional counterparts in prior research. Furthermore, we observed that students' prior academic performance in the course and their enjoyment of programming had a subtle influence on their risk-taking tendencies, with better-performing students and those who enjoyed programming being marginally more prone to taking risks. Notably, we did not find statistically significant correlations between perceived difficulty of programming and risk-taking behavior among students. | 翻訳日:2024-05-06 16:58:34 公開日:2024-05-03 |
# 浅深度ボソンサンプリングにおける計算複雑性と平均ケース硬度について
On computational complexity and average-case hardness of shallow-depth boson sampling ( http://arxiv.org/abs/2405.01786v1 ) ライセンス: Link先を確認 | Byeongseon Go, Changhun Oh, Hyunseok Jeong, | (参考訳) ボソンサンプリング(Boson sample)は、古典的にシミュレートするのが難しい計算タスクであり、短期的な量子デバイスを用いた量子計算の優位性を実証する約束を果たすことが期待されている。
しかし、実験的な実装におけるノイズは大きな課題となり、ボソンサンプリングを古典的にシミュレートし、古典的なインタラクタビリティを損なう可能性がある。
多くの研究が、回路深度でノイズ率が増加するにつれてボソンサンプリングを効率的にシミュレートできる様々なノイズモデルの下で古典的アルゴリズムを提案している。
特に回路深度に関連するこの問題に対処するため,浅深さ線形光回路を用いたボソンサンプリングによる量子計算の優位性の実現可能性について検討する。
具体的には、ボソンサンプリングの出力確率を推定する平均ケース硬度は、その古典的難易度を示す上で重要な要素であるため、対数-深度関係に限定した平均ケース硬度を確立する。
また,損失環境下での対数深度フォック状態ボソンサンプリングおよび対数深度ガウスボソンサンプリングのための平均ケース硬度を求める。
対数深度ボソンサンプリングの古典的シミュレーション硬度に対する複雑性理論的背景を提供することにより、浅度深度ボソンサンプリングによる量子優位性のよりノイズ耐性を示すための重要なステップとなることを期待する。
Boson sampling, a computational task believed to be classically hard to simulate, is expected to hold promise for demonstrating quantum computational advantage using near-term quantum devices. However, noise in experimental implementations poses a significant challenge, potentially rendering boson sampling classically simulable and compromising its classical intractability. Numerous studies have proposed classical algorithms under various noise models that can efficiently simulate boson sampling as noise rates increase with circuit depth. To address this issue particularly related to circuit depth, we explore the viability of achieving quantum computational advantage through boson sampling with shallow-depth linear optical circuits. Specifically, as the average-case hardness of estimating output probabilities of boson sampling is a crucial ingredient in demonstrating its classical intractability, we make progress on establishing the average-case hardness confined to logarithmic-depth regimes. We also obtain the average-case hardness for logarithmic-depth Fock-state boson sampling subject to lossy environments and for the logarithmic-depth Gaussian boson sampling. By providing complexity-theoretical backgrounds for the classical simulation hardness of logarithmic-depth boson sampling, we expect that our findings will mark a crucial step towards a more noise-tolerant demonstration of quantum advantage with shallow-depth boson sampling. | 翻訳日:2024-05-06 14:05:10 公開日:2024-05-03 |
# SMT支援プロオブオリエントプログラミングのためのニューラル合成に向けて
Towards Neural Synthesis for SMT-Assisted Proof-Oriented Programming ( http://arxiv.org/abs/2405.01787v1 ) ライセンス: Link先を確認 | Saikat Chakraborty, Gabriel Ebner, Siddharth Bhat, Sarah Fakhoury, Sakina Fatima, Shuvendu Lahiri, Nikhil Swamy, | (参考訳) 証明指向プログラムは、計算内容とプログラムの正しさの証明を混合する。
しかし、Satifiability Modulo Theories (SMT) を用いて F* などの言語での証明を自動化するにもかかわらず、プログラミングと証明に関わる人間の努力は依然として重要なものである。
証明指向プログラムの構築を自動化するためにAIを使用する研究を促進するために,WindowsやLinux,Python,Firefoxなど,実運用システムで使用されているソフトウェアを含む,600万行のオープンソースF*プログラムと証明のデータセットをキュレートする。
我々のデータセットには、約32KのトップレベルF*定義が含まれており、それぞれが型指向プログラムと証明合成問題を表す。
候補解の正しさを確認するためにF*を問うプログラムフラグメントチェッカーを提供する。
再現性のあるプログラムフラグメントチェッカーと組み合わさったSMT支援プログラム証明の最大コーパスである。
このデータセットに基づいて,AIを用いてプログラムとその証明をF*で合成し,有望な結果を得る。
我々の主な発見は、微調整された小さな言語モデル(Phi-2やStarCoderなど)の性能が、より低い計算コストで大きな言語モデル(GPT-4など)と良好に比較できることである。
また,多種多様な検索手法を同定し,性能を著しく向上させた。
詳細なエラー解析とケーススタディにより、モデルと技術の潜在的な長所と短所を特定し、今後の改善に向けた方向性を提案する。
Proof-oriented programs mix computational content with proofs of program correctness. However, the human effort involved in programming and proving is still substantial, despite the use of Satisfiability Modulo Theories (SMT) solvers to automate proofs in languages such as F*. Seeking to spur research on using AI to automate the construction of proof-oriented programs, we curate a dataset of 600K lines of open-source F* programs and proofs, including software used in production systems ranging from Windows and Linux, to Python and Firefox. Our dataset includes around 32K top-level F* definitions, each representing a type-directed program and proof synthesis problem -- producing a definition given a formal specification expressed as an F* type. We provide a program-fragment checker that queries F* to check the correctness of candidate solutions. We believe this is the largest corpus of SMT-assisted program proofs coupled with a reproducible program-fragment checker. Grounded in this dataset, we investigate the use of AI to synthesize programs and their proofs in F*, with promising results. Our main finding in that the performance of fine-tuned smaller language models (such as Phi-2 or StarCoder) compare favorably with large language models (such as GPT-4), at a much lower computational cost. We also identify various type-based retrieval augmentation techniques and find that they boost performance significantly. With detailed error analysis and case studies, we identify potential strengths and weaknesses of models and techniques and suggest directions for future improvements. | 翻訳日:2024-05-06 14:05:10 公開日:2024-05-03 |
# ソーシャルマルチドキュメント要約における位置バイアスが公平性に及ぼす影響の理解
Understanding Position Bias Effects on Fairness in Social Multi-Document Summarization ( http://arxiv.org/abs/2405.01790v1 ) ライセンス: Link先を確認 | Olubusayo Olabisi, Ameeta Agrawal, | (参考訳) テキスト要約モデルは一般的に、特にニュース記事の文脈において、流布、関連性、一貫性といった品質の側面を最適化することに焦点を当てている。
しかし, 要約モデルは, 幅広い人口層を包含するソーシャルメディアデータなど, 多様なテキストソースの要約にますます利用されている。
したがって、生成した要約の質だけでなく、様々な社会集団の意見を適切に表現できる範囲を評価することが重要である。
ニュース要約における長年の課題である位置バイアスは、社会的多文書要約の文脈において限定的に注目されている。
本研究は,3つの異なる言語コミュニティ(アフリカ系アメリカ人,ヒスパニック系言語,白人系言語)のツイートを要約する際に,入力文書におけるグループ順序付けの効果を分析することによって,この現象を深く研究する。
実験により, 要約のテキスト品質は, 入力文書の順序によらず一定でありながら, 公平性の観点からは, 方言群が入力データでどのように提示されるかによって大きく異なることが明らかとなった。
以上の結果から,社会的多文書要約では位置バイアスが異なることが示唆され,要約モデルの公平性に大きく影響した。
Text summarization models have typically focused on optimizing aspects of quality such as fluency, relevance, and coherence, particularly in the context of news articles. However, summarization models are increasingly being used to summarize diverse sources of text, such as social media data, that encompass a wide demographic user base. It is thus crucial to assess not only the quality of the generated summaries, but also the extent to which they can fairly represent the opinions of diverse social groups. Position bias, a long-known issue in news summarization, has received limited attention in the context of social multi-document summarization. We deeply investigate this phenomenon by analyzing the effect of group ordering in input documents when summarizing tweets from three distinct linguistic communities: African-American English, Hispanic-aligned Language, and White-aligned Language. Our empirical analysis shows that although the textual quality of the summaries remains consistent regardless of the input document order, in terms of fairness, the results vary significantly depending on how the dialect groups are presented in the input data. Our results suggest that position bias manifests differently in social multi-document summarization, severely impacting the fairness of summarization models. | 翻訳日:2024-05-06 14:05:10 公開日:2024-05-03 |
# 車輪付き脚ロボットのロバストな自律走行とロコモーションの学習
Learning Robust Autonomous Navigation and Locomotion for Wheeled-Legged Robots ( http://arxiv.org/abs/2405.01792v1 ) ライセンス: Link先を確認 | Joonho Lee, Marko Bjelonic, Alexander Reske, Lorenz Wellhausen, Takahiro Miki, Marco Hutter, | (参考訳) 自律輪脚ロボットは、ロジスティクスシステムを変革し、都市環境における運用効率と適応性を向上させる可能性がある。
しかし、都市環境をナビゲートすることは、ロボットに固有の課題をもたらし、移動とナビゲーションのための革新的なソリューションを必要としている。
これらの課題には、様々な地形を横断する適応的な移動の必要性や、複雑なダイナミックな障害物の周りを効率的に移動できる能力が含まれる。
本研究は, 適応移動制御, 移動対応ローカルナビゲーション計画, 市内の大規模経路計画を含む, 完全に統合されたシステムを提案する。
モデルフリー強化学習(RL)技術と特権学習を用いて,多目的移動制御系を開発した。
本制御器は、歩行モードと走行モードのスムーズな遷移により、様々な荒地上での効率的で堅牢な移動を実現する。
階層的なRLフレームワークを通じて学習したナビゲーションコントローラと密に統合されており、挑戦的な地形や様々な障害物を高速に通した効果的なナビゲーションを可能にする。
私たちのコントローラーは大規模な都市航法システムに統合され、スイスのチューリッヒとスペインのセビリアで自律的、キロメートル規模の航法ミッションによって検証されます。
これらのミッションはシステムの堅牢性と適応性を示し、複雑な環境でシームレスなナビゲーションを実現する上で統合制御システムの重要性を強調している。
我々の研究は、車輪付き脚ロボットと自律ナビゲーションのための階層型RLの実現性をサポートし、ラストマイル配送などにも影響している。
Autonomous wheeled-legged robots have the potential to transform logistics systems, improving operational efficiency and adaptability in urban environments. Navigating urban environments, however, poses unique challenges for robots, necessitating innovative solutions for locomotion and navigation. These challenges include the need for adaptive locomotion across varied terrains and the ability to navigate efficiently around complex dynamic obstacles. This work introduces a fully integrated system comprising adaptive locomotion control, mobility-aware local navigation planning, and large-scale path planning within the city. Using model-free reinforcement learning (RL) techniques and privileged learning, we develop a versatile locomotion controller. This controller achieves efficient and robust locomotion over various rough terrains, facilitated by smooth transitions between walking and driving modes. It is tightly integrated with a learned navigation controller through a hierarchical RL framework, enabling effective navigation through challenging terrain and various obstacles at high speed. Our controllers are integrated into a large-scale urban navigation system and validated by autonomous, kilometer-scale navigation missions conducted in Zurich, Switzerland, and Seville, Spain. These missions demonstrate the system's robustness and adaptability, underscoring the importance of integrated control systems in achieving seamless navigation in complex environments. Our findings support the feasibility of wheeled-legged robots and hierarchical RL for autonomous navigation, with implications for last-mile delivery and beyond. | 翻訳日:2024-05-06 14:05:10 公開日:2024-05-03 |
# ラストパス漂白におけるヒューマンファクターの役割
The Role of Human Factors in the LastPass Breach ( http://arxiv.org/abs/2405.01795v1 ) ライセンス: Link先を確認 | Niroop Sugunaraj, | (参考訳) 本稿では,LastPass攻撃の解析を通じて,サイバー攻撃の複雑な性質について検討する。
目標は、目標指向の行動、認知的過負荷、人間の偏見(例えば、楽観主義、アンカーリング)、リスク行動などの要因を緩和することに集中することである。
この侵害の分析から得られた発見は、サイバー防衛の人間的側面と技術的側面の両方に対処することで、複雑な脅威に対するサイバーシステムのレジリエンスを著しく向上させるという観点からの支持を提供する。
これは、ユーザのインタラクションをシンプルにしつつバランスのとれたアプローチを維持し、ユーザのバイアスを認識させ、サイバーインシデントを防ぐためにリスク回避のプラクティスが不可欠であることを意味します。
This paper examines the complex nature of cyber attacks through an analysis of the LastPass breach. It argues for the integration of human-centric considerations into cybersecurity measures, focusing on mitigating factors such as goal-directed behavior, cognitive overload, human biases (e.g., optimism, anchoring), and risky behaviors. Findings from an analysis of this breach offers support to the perspective that addressing both the human and technical dimensions of cyber defense can significantly enhance the resilience of cyber systems against complex threats. This means maintaining a balanced approach while simultaneously simplifying user interactions, making users aware of biases, and discouraging risky practices are essential for preventing cyber incidents. | 翻訳日:2024-05-06 14:05:10 公開日:2024-05-03 |
# TOPICAL:TOPIC Pages Automagicalyly
TOPICAL: TOPIC Pages AutomagicaLly ( http://arxiv.org/abs/2405.01796v1 ) ライセンス: Link先を確認 | John Giorgi, Amanpreet Singh, Doug Downey, Sergey Feldman, Lucy Lu Wang, | (参考訳) トピックページは、エンティティやコンセプトに関する有用な情報を単一の簡潔でアクセスしやすい記事に集約する。
トピックページの自動作成は、情報資源としての迅速なキュレーションを可能にし、従来のウェブ検索の代替となる。
これまでのほとんどの研究は、生物学的な実体に関する話題ページの生成に重点を置いてきたが、本研究では、生物医学的な概念に焦点をあてて、科学的実体のための高品質なトピックページを生成する、完全に自動化されたプロセスを開発した。
我々は、検索、クラスタリング、プロンプトを組み合わせたモデルパイプラインで構成された、Webアプリと関連するオープンソースコードであるTOPICALをリリースした。
ToPICALを用いて生成した150種類の話題ページを人体で評価したところ、大多数は関連性があり、正確で、一貫性があり、正しい引用が得られた。
すべてのコードを公開して,無償のWebアプリをホストします。
Topic pages aggregate useful information about an entity or concept into a single succinct and accessible article. Automated creation of topic pages would enable their rapid curation as information resources, providing an alternative to traditional web search. While most prior work has focused on generating topic pages about biographical entities, in this work, we develop a completely automated process to generate high-quality topic pages for scientific entities, with a focus on biomedical concepts. We release TOPICAL, a web app and associated open-source code, comprising a model pipeline combining retrieval, clustering, and prompting, that makes it easy for anyone to generate topic pages for a wide variety of biomedical entities on demand. In a human evaluation of 150 diverse topic pages generated using TOPICAL, we find that the vast majority were considered relevant, accurate, and coherent, with correct supporting citations. We make all code publicly available and host a free-to-use web app at: https://s2-topical.apps.allenai.org | 翻訳日:2024-05-06 14:05:10 公開日:2024-05-03 |
# 予期せぬ成果を伴うImmitative Strategic Behaviorの学習
Learning under Imitative Strategic Behavior with Unforeseeable Outcomes ( http://arxiv.org/abs/2405.01797v1 ) ライセンス: Link先を確認 | Tian Xie, Zhiqun Zuo, Mohammad Mahdi Khalili, Xueru Zhang, | (参考訳) 例えば、本当のラベルを真に改善したり、ラベルを変更することなく、観測可能な機能を直接操作してシステムを直接操作したりすることができる。
どちらの行動も文献で研究されているが(しばしば2つの別の問題として)、ほとんどの研究は個人を仮定できると仮定している。
一 最善を尽くすときの行動の結果を完全に予知すること。
(二)手頃な価格である限り、機能を任意に変更すること、そしてそれらが支払うコストは、機能変更の決定論的機能である。
本稿では,前向きなラベルを持つ人物の特徴を模倣して個人が操作・改善するなど,予期せぬ結果を伴う模倣的戦略行動に焦点をあてる。
まず,個人と意思決定者の相互作用をモデル化し,意思決定者の個人行動予測能力が目的機能と個人の最善反応にどのように影響するかを検討する。
両者の客観的な差異は3つの解釈可能な用語に分解でき、それぞれが特定の行動に対する意思決定者の好みを表す。
それぞれの用語の役割を探ることで、調整された好みを持つ意思決定者が操作を同時に非インセンティブ化し、改善をインセンティブ化し、公平性を促進することができるかをさらに説明できる。
Machine learning systems have been widely used to make decisions about individuals who may best respond and behave strategically to receive favorable outcomes, e.g., they may genuinely improve the true labels or manipulate observable features directly to game the system without changing labels. Although both behaviors have been studied (often as two separate problems) in the literature, most works assume individuals can (i) perfectly foresee the outcomes of their behaviors when they best respond; (ii) change their features arbitrarily as long as it is affordable, and the costs they need to pay are deterministic functions of feature changes. In this paper, we consider a different setting and focus on imitative strategic behaviors with unforeseeable outcomes, i.e., individuals manipulate/improve by imitating the features of those with positive labels, but the induced feature changes are unforeseeable. We first propose a Stackelberg game to model the interplay between individuals and the decision-maker, under which we examine how the decision-maker's ability to anticipate individual behavior affects its objective function and the individual's best response. We show that the objective difference between the two can be decomposed into three interpretable terms, with each representing the decision-maker's preference for a certain behavior. By exploring the roles of each term, we further illustrate how a decision-maker with adjusted preferences can simultaneously disincentivize manipulation, incentivize improvement, and promote fairness. | 翻訳日:2024-05-06 14:05:10 公開日:2024-05-03 |
# 自閉症関連言語障害の診断と特定のためのチャットGPTの作成
Exploiting ChatGPT for Diagnosing Autism-Associated Language Disorders and Identifying Distinct Features ( http://arxiv.org/abs/2405.01799v1 ) ライセンス: Link先を確認 | Chuanbo Hu, Wenqi Li, Mindi Ruan, Xiangxu Yu, Lynn K. Paul, Shuo Wang, Xin Li, | (参考訳) 自閉症に関連する言語障害の診断は複雑で曖昧な課題であり、しばしば伝統的な評価手法の主観的性質と多様性によって妨げられる。
従来の診断法は、集中的な人間の努力を必要とするだけでなく、スピードと特異性の欠如により、しばしば遅延した介入をもたらす。
本研究では、診断精度を高め、自閉症を示す特定の言語特徴をプロファイリングすることにより、これらの障害を克服するために、最先端の大規模言語モデルであるChatGPTの適用について検討した。
本研究は,ChatGPTの高度な自然言語処理機能を活用し,診断プロセスの合理化と洗練を目的としている。
具体的には,ChatGPTの性能と従来の教師付き学習モデルとの比較を行った。
その結果,ChatGPTの精度は13%以上向上し,F1スコアは0ショット学習構成で向上した。
この顕著な拡張は、神経学的診断の優れたツールとしてモデルの可能性を強調している。
さらに, 自閉症関連言語障害の特徴を10種類同定し, 異なる実験シナリオで有意差が認められた。
これらの特徴には、エコー、代名詞反転、非定型言語の使用が含まれており、ASDの正確な診断と治療計画のカスタマイズに不可欠であった。
この結果から,ChatGPTなどの高度なAIツールを臨床現場に導入し,発達障害の診断・診断に活用することを提唱した。
我々のアプローチは、より正確な診断を約束するだけでなく、パーソナライズされた医療の目標と一致し、自閉症や同様の神経疾患の評価環境を変革する可能性がある。
Diagnosing language disorders associated with autism is a complex and nuanced challenge, often hindered by the subjective nature and variability of traditional assessment methods. Traditional diagnostic methods not only require intensive human effort but also often result in delayed interventions due to their lack of speed and specificity. In this study, we explored the application of ChatGPT, a state of the art large language model, to overcome these obstacles by enhancing diagnostic accuracy and profiling specific linguistic features indicative of autism. Leveraging ChatGPT advanced natural language processing capabilities, this research aims to streamline and refine the diagnostic process. Specifically, we compared ChatGPT's performance with that of conventional supervised learning models, including BERT, a model acclaimed for its effectiveness in various natural language processing tasks. We showed that ChatGPT substantially outperformed these models, achieving over 13% improvement in both accuracy and F1 score in a zero shot learning configuration. This marked enhancement highlights the model potential as a superior tool for neurological diagnostics. Additionally, we identified ten distinct features of autism associated language disorders that vary significantly across different experimental scenarios. These features, which included echolalia, pronoun reversal, and atypical language usage, were crucial for accurately diagnosing ASD and customizing treatment plans. Together, our findings advocate for adopting sophisticated AI tools like ChatGPT in clinical settings to assess and diagnose developmental disorders. Our approach not only promises greater diagnostic precision but also aligns with the goals of personalized medicine, potentially transforming the evaluation landscape for autism and similar neurological conditions. | 翻訳日:2024-05-06 14:05:10 公開日:2024-05-03 |
# オープンソースコミュニティにおけるコミット権の獲得方法
How to Gain Commit Rights in Modern Top Open Source Communities? ( http://arxiv.org/abs/2405.01803v1 ) ライセンス: Link先を確認 | Xin Tan, Yan Gong, Geyu Huang, Haohua Wu, Li Zhang, | (参考訳) オープンソースソフトウェア(OSS)プロジェクトの成功は、様々なコミュニティの役割からの自発的な貢献に依存しており、コミッタとなることは、信頼とより高い特権の獲得を意味する。
現状研究はコミッターになるための要件に重点を置いているが、そのほとんどはインタビューやいくつかの仮説に基づいており、コミッターの資格に関する包括的理解を欠いている。
これらの政策のテーマ分析を通じて、プロジェクト、コミュニケーション、長期参加など9つのテーマに分類される26のコードからなるコミッタ資格の分類を構築した。
また、異なるOSSコミュニティガバナンスモデルで強調されるコミッタ資格のバリエーションについても強調する。
例えば、コアメンテナのモデルバリュープロジェクトの理解に追従するプロジェクトや、企業が支援するモデルに追従するプロジェクトは、ユーザの課題解決に重点を置いている。
そこで,本研究では,8つのメトリクスセットを提案し,2つのOSSプロジェクトのサバイバル分析を行い,これらの資格が実際にどのように実装されているかを理解する。
参加時間が経過するとコミット権獲得の可能性が低下し,コミュニティの方針と概ね一致していることが判明した。
高品質なコードを提出し、積極的にコードレビューを行い、関連するプロジェクトへの広範なコントリビューションを行う開発者は、コミット権限を与えられる傾向にある。
しかし、正確に整合しない資格もあり、適切に評価されていない資格もある。
この研究は、現代のOSSコミュニティにおける信頼確立の理解に寄与し、コミット権の配分を改善するコミュニティを支援し、OSS参加を通じて自己実現を実現する開発者を支援する。
The success of open source software (OSS) projects relies on voluntary contributions from various community roles.Being a committer signifies gaining trust and higher privileges. Substantial studies have focused on the requirements of becoming a committer, but most of them are based on interviews or several hypotheses, lacking a comprehensive understanding of committers' qualifications.We explore both the policies and practical implementations of committer qualifications in modern top OSS communities. Through a thematic analysis of these policies, we construct a taxonomy of committer qualifications, consisting of 26 codes categorized into nine themes, including Personnel-related to Project, Communication, and Long-term Participation. We also highlight the variations in committer qualifications emphasized in different OSS community governance models. For example, projects following the core maintainer model value project comprehension, while projects following the company-backed model place significant emphasis on user issue resolution. Then, we propose eight sets of metrics and perform survival analysis on two representative OSS projects to understand how these qualifications are implemented in practice. We find that the probability of gaining commit rights decreases as participation time passes.The selection criteria in practice are generally consistent with the community policies. Developers who submit high-quality code, actively engage in code review, and make extensive contributions to related projects are more likely to be granted commit rights. However, there are some qualifications that do not align precisely, and some are not adequately evaluated. This study contributes to the understanding of trust establishment in modern top OSS communities, assists communities in better allocating commit rights, and supports developers in achieving self-actualization through OSS participation. | 翻訳日:2024-05-06 14:05:10 公開日:2024-05-03 |
# 創造的AIの時代におけるデザイン戦略の評価
Crafting Tomorrow's Evaluations: Assessment Design Strategies in the Era of Generative AI ( http://arxiv.org/abs/2405.01805v1 ) ライセンス: Link先を確認 | Rajan Kadel, Bhupesh Kumar Mishra, Samar Shailendra, Samia Abid, Maneeha Rani, Shiva Prasad Mahato, | (参考訳) GenAIは、ほぼすべての職業において、無数のユーザの注目を集めている。
その進歩は教育に大きな影響を与え、評価設計と評価方法論を著しく破壊した。
教育分野におけるGenAIの潜在的利益と可能性にもかかわらず、主に学術的完全性、信頼性、アクセスの公平性、評価評価方法論、フィードバックに焦点が当てられている。
その結果、学術的整合性を維持するのに欠かせない評価設計の課題に学界が直面している。
本稿では,評価設計と評価に対処すべき課題と機会について論じる。
論文は、評価タスクの完了や、学術的整合性を確保するためのデザインアプローチにおけるGenAIの利用に関する明確なポリシーの重要性も強調する。
また、本論文は、学生や学術専門家の知識を育成するために、GenAIを用いた評価分類も提供する。
また、課題を定式化し、その課題を評価するために必要なスキルに関する情報も提供し、学生や学者がGenAIツールを効果的に活用できるようにする。
GenAI has gained the attention of a myriad of users in almost every profession. Its advancement has had an intense impact on education, significantly disrupting the assessment design and evaluation methodologies. Despite the potential benefits and possibilities of GenAI in the education sector, there are several concerns primarily centred around academic integrity, authenticity, equity of access, assessment evaluation methodology, and feedback. Consequently, academia is encountering challenges in assessment design that are essential to retaining academic integrity in the age of GenAI. In this article, we discuss the challenges, and opportunities that need to be addressed for the assessment design and evaluation. The article also highlights the importance of clear policy about the usage of GenAI in completing assessment tasks, and also in design approaches to ensure academic integrity and subject learning. Additionally, this article also provides assessment categorisation based on the use of GenAI to cultivate knowledge among students and academic professionals. It also provides information on the skills necessary to formulate and articulate problems and evaluate the task, enabling students and academics to effectively utilise GenAI tools. | 翻訳日:2024-05-06 14:05:10 公開日:2024-05-03 |
# 持続的改善を伴うエージェントによるアルゴリズムによる意思決定
Algorithmic Decision-Making under Agents with Persistent Improvement ( http://arxiv.org/abs/2405.01807v1 ) ライセンス: Link先を確認 | Tian Xie, Xuwei Tan, Xueru Zhang, | (参考訳) 本稿では,人間の戦略的行動下でのアルゴリズムによる意思決定について検討する。そこでは,意思決定者がアルゴリズムを用いて人的エージェントについての意思決定を行う。
エージェントが彼らの努力からすぐに恩恵を受けると仮定する以前の作業とは異なり、これらの取り組みの影響が持続的であり、エージェントは徐々に改善することで努力の恩恵を受ける現実的なシナリオを考察する。
まず、永続的な改善を特徴付ける動的モデルを開発し、この構成に基づいてエージェントと意思決定者間の相互作用をモデル化する。
我々は、均衡戦略を解析的に特徴付け、エージェントが改善のインセンティブを持つ条件を特定する。
このダイナミクスを用いて、エージェントの集団内で最大の改善をインセンティブ付けるための最適なポリシーを、意思決定者がいかに設計できるかを研究する。
また、設定にモデルを拡張します。
1) エージェントは,不正直であり,かつ,アルゴリズムを好意的かつ誤った判断に駆り立てることができる。
2) 誠実な努力は忘れられ、継続的な改善を保証するには不十分です。
拡張モデルにより、エージェントは不正直な行動よりも正直な努力を優先し、忘れやすい努力の効果を優先する条件をさらに検討する。
This paper studies algorithmic decision-making under human's strategic behavior, where a decision maker uses an algorithm to make decisions about human agents, and the latter with information about the algorithm may exert effort strategically and improve to receive favorable decisions. Unlike prior works that assume agents benefit from their efforts immediately, we consider realistic scenarios where the impacts of these efforts are persistent and agents benefit from efforts by making improvements gradually. We first develop a dynamic model to characterize persistent improvements and based on this construct a Stackelberg game to model the interplay between agents and the decision-maker. We analytically characterize the equilibrium strategies and identify conditions under which agents have incentives to improve. With the dynamics, we then study how the decision-maker can design an optimal policy to incentivize the largest improvements inside the agent population. We also extend the model to settings where 1) agents may be dishonest and game the algorithm into making favorable but erroneous decisions; 2) honest efforts are forgettable and not sufficient to guarantee persistent improvements. With the extended models, we further examine conditions under which agents prefer honest efforts over dishonest behavior and the impacts of forgettable efforts. | 翻訳日:2024-05-06 14:05:10 公開日:2024-05-03 |
# サテステーションの論理
A Logic of Sattestation ( http://arxiv.org/abs/2405.01809v1 ) ライセンス: Link先を確認 | Aaron D. Jaggard, Paul Syverson, Catherine Meadows, | (参考訳) 我々は,Webアドレスに対する文脈的信頼を推論するための論理を導入し,Kripkeのセマンティクスを提供し,プリンシパルのポリシーに関する合理的な仮定の下でその健全性を証明した。
SATA(Self-Authenticating Traditional Addresss)は、人間とWebインフラストラクチャの両方で一般的に意味のあるDNSアドレスまたはURLであり、アドレス自体に公開キーへのコミットメントを含んでいる。
Webアドレスへの信頼は現在、ドメイン名登録、TLS証明書、その他のインターネットインフラストラクチャの階層的要素を通じて確立されている。
SATAはそのような構造的信頼の根を支持するが、記述的特性に関連する補完的な文脈的根もサポートする。
既存の構造的なルーツは、Web接続をさまざまなドキュメント化され、重要なハイジャック脆弱性に開放する。
コンテキスト信頼の根は、このような脆弱性に対する強い抵抗を提供する。
また、SATAはニュース組織の住所、特定の政府や企業に属するサイト、特定の話題に関する情報のあるサイトなど、記述的な特性を含むラベル付きSATAについても検討する。
私たちのロジックは、アドレスの結合したアイデンティティに対する信頼とラベルの結合に対する信頼の両方に対処します。
私たちの論理では、特定のラベルに対する信頼の委譲、多かれ少なかれ特定の情報を提供するラベル間の関係、これら2つの側面間の相互作用について推論することができます。
健全性に加えて、プリンシパルが特定のアイデンティティ(おそらくラベル)を信頼している場合、この信頼が最初に仮定されるか、または、最初の信頼前提からこれに対するデリゲートの信頼連鎖が存在することを証明します。
また、初期信頼前提の集合から可能なすべての信頼文を効果的に導き出し、それを健全で完全で終了することを示すアルゴリズムを提案する。
We introduce a logic for reasoning about contextual trust for web addresses, provide a Kripke semantics for it, and prove its soundness under reasonable assumptions about principals' policies. Self-Authenticating Traditional Addresses (SATAs) are valid DNS addresses or URLs that are generally meaningful -- to both humans and web infrastructure -- and contain a commitment to a public key in the address itself. Trust in web addresses is currently established via domain name registration, TLS certificates, and other hierarchical elements of the internet infrastructure. SATAs support such structural roots of trust but also complementary contextual roots associated with descriptive properties. The existing structural roots leave web connections open to a variety of well-documented and significant hijack vulnerabilities. Contextual trust roots provide, among other things, stronger resistance to such vulnerabilities. We also consider labeled SATAs, which include descriptive properties such as that a SATA is an address for a news organization, a site belonging to a particular government or company, a site with information about a certain topic, etc. Our logic addresses both trust in the bound together identity of the address and trust in the binding of labels to it. Our logic allows reasoning about delegation of trust with respect to specified labels, relationships between labels that provide more or less specific information, and the interaction between these two aspects. In addition to soundness, we prove that if a principal trusts a particular identity (possibly with label), then either this trust is initially assumed, or there is a trust chain of delegations to this from initial trust assumptions. We also present an algorithm that effectively derives all possible trust statements from the set of initial trust assumptions and show it to be sound, complete, and terminating. | 翻訳日:2024-05-06 14:05:10 公開日:2024-05-03 |
# 非線形福祉を意識した戦略的学習
Non-linear Welfare-Aware Strategic Learning ( http://arxiv.org/abs/2405.01810v1 ) ライセンス: Link先を確認 | Tian Xie, Xueru Zhang, | (参考訳) 本稿では,人間エージェントに関する決定をMLモデルを用いて行う戦略的個人行動の存在下でのアルゴリズム的意思決定について検討する。
既存の戦略学習の結果は、線形ラベリング機能を持つエージェントが(ノイズの多い)線形決定ポリシーに最もよく反応する線形設定に主に焦点が当てられている。
代わりに、この研究は、エージェントが政策の「ローカル情報」のみで決定ポリシーに反応する一般の非線形設定に焦点を当てている。
さらに、意思決定者福祉(モデル予測精度)、社会福祉(戦略行動によるエージェント改善)、エージェント福祉(MLがエージェントを過小評価する程度)の最大化を同時に検討する。
まず,先行研究におけるエージェントベスト応答モデルを非線形設定に一般化し,福祉目的との整合性を明らかにする。
非線形環境下では達成が困難な制約条件下でのみ,3つの福祉が同時に最適に達成可能であることを示す。
理論的な結果は、既存の作品が政党の一部の福祉を最大化するだけで、必然的に他者の福祉を減少させることを示唆している。
そこで我々は,非線形環境における各当事者の福祉バランスの必要性を主張し,一般的な戦略学習に適した既約最適化アルゴリズムを提案する。
合成および実データによる実験により提案アルゴリズムの有効性が検証された。
This paper studies algorithmic decision-making in the presence of strategic individual behaviors, where an ML model is used to make decisions about human agents and the latter can adapt their behavior strategically to improve their future data. Existing results on strategic learning have largely focused on the linear setting where agents with linear labeling functions best respond to a (noisy) linear decision policy. Instead, this work focuses on general non-linear settings where agents respond to the decision policy with only "local information" of the policy. Moreover, we simultaneously consider the objectives of maximizing decision-maker welfare (model prediction accuracy), social welfare (agent improvement caused by strategic behaviors), and agent welfare (the extent that ML underestimates the agents). We first generalize the agent best response model in previous works to the non-linear setting, then reveal the compatibility of welfare objectives. We show the three welfare can attain the optimum simultaneously only under restrictive conditions which are challenging to achieve in non-linear settings. The theoretical results imply that existing works solely maximizing the welfare of a subset of parties inevitably diminish the welfare of the others. We thus claim the necessity of balancing the welfare of each party in non-linear settings and propose an irreducible optimization algorithm suitable for general strategic learning. Experiments on synthetic and real data validate the proposed algorithm. | 翻訳日:2024-05-06 14:05:10 公開日:2024-05-03 |
# 注意負荷を考慮した効率的・経済的大規模言語モデル推論
Efficient and Economic Large Language Model Inference with Attention Offloading ( http://arxiv.org/abs/2405.01814v1 ) ライセンス: Link先を確認 | Shaoyuan Chen, Yutong Lin, Mingxing Zhang, Yongwei Wu, | (参考訳) トランスフォーマーベースの大規模言語モデル(LLM)は、生成タスクにおいて顕著な性能を示すが、高価な計算最適化アクセラレーターの非効率な使用により、現実のサービスに重大な課題をもたらす。
このミスマッチは LLM の自己回帰的な性質から生じ、生成フェーズはリソース要求の異なる演算子から構成される。
具体的には、アテンション演算子はメモリ集約的であり、特にコンテキスト長が増加するにつれて、現代のアクセラレーターの強みと衝突するメモリアクセスパターンを示す。
LLMの効率性と費用対効果を高めるために,注意オフロードの概念を導入する。
このアプローチでは、アテンション演算子のための安価なメモリ最適化デバイス群を活用すると同時に、モデルの他の部分にもハイエンドアクセラレータを利用する。
この異種セットアップにより、各コンポーネントはその特定のワークロードに合わせて調整され、全体的なパフォーマンスとコスト効率を最大化する。
総合的な分析と実験により、複数のデバイスにまたがる注意計算の分割が可能であることが確認された。
また、異種デバイス間の通信帯域幅は、ネットワーク技術によって管理可能であることが証明されている。
この理論をさらに検証するため,注意オフロードを組み込んだLLM推論システムであるLaminaを開発した。
実験結果から、ラミナは同質解よりも1ドルあたり1.48x-12.1倍高いスループットを提供できることが示唆された。
Transformer-based large language models (LLMs) exhibit impressive performance in generative tasks but introduce significant challenges in real-world serving due to inefficient use of the expensive, computation-optimized accelerators. This mismatch arises from the autoregressive nature of LLMs, where the generation phase comprises operators with varying resource demands. Specifically, the attention operator is memory-intensive, exhibiting a memory access pattern that clashes with the strengths of modern accelerators, especially as context length increases. To enhance the efficiency and cost-effectiveness of LLM serving, we introduce the concept of attention offloading. This approach leverages a collection of cheap, memory-optimized devices for the attention operator while still utilizing high-end accelerators for other parts of the model. This heterogeneous setup ensures that each component is tailored to its specific workload, maximizing overall performance and cost efficiency. Our comprehensive analysis and experiments confirm the viability of splitting the attention computation over multiple devices. Also, the communication bandwidth required between heterogeneous devices proves to be manageable with prevalent networking technologies. To further validate our theory, we develop Lamina, an LLM inference system that incorporates attention offloading. Experimental results indicate that Lamina can provide 1.48x-12.1x higher estimated throughput per dollar than homogeneous solutions. | 翻訳日:2024-05-06 14:05:10 公開日:2024-05-03 |
# 波形信号のエンドツーエンド解釈型畳み込みニューラルネットワークの実現に向けて
Toward end-to-end interpretable convolutional neural networks for waveform signals ( http://arxiv.org/abs/2405.01815v1 ) ライセンス: Link先を確認 | Linh Vu, Thu Tran, Wern-Han Lim, Raphael Phan, | (参考訳) 本稿では,エンドツーエンドの音声深層学習モデルに適した新しい畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
3つの標準音声感情認識データセットを5倍のクロスバリデーションでベンチマークすることで、我々のフレームワークはMelスペクトログラムの機能を最大7%向上させる。
軽量のままMel-Frequency Cepstral Coefficients (MFCC)を置き換えることができる。
さらに、PhyloNet Heart Sound Databaseを用いて、フロントエンド層の効率性と解釈性を実証し、複雑な長波形パターンを処理およびキャプチャする能力を示した。
我々のコントリビューションは、生波形データのための効率的かつ解釈可能なモデルを構築するためのポータブルソリューションを提供する。
This paper introduces a novel convolutional neural networks (CNN) framework tailored for end-to-end audio deep learning models, presenting advancements in efficiency and explainability. By benchmarking experiments on three standard speech emotion recognition datasets with five-fold cross-validation, our framework outperforms Mel spectrogram features by up to seven percent. It can potentially replace the Mel-Frequency Cepstral Coefficients (MFCC) while remaining lightweight. Furthermore, we demonstrate the efficiency and interpretability of the front-end layer using the PhysioNet Heart Sound Database, illustrating its ability to handle and capture intricate long waveform patterns. Our contributions offer a portable solution for building efficient and interpretable models for raw waveform data. | 翻訳日:2024-05-06 13:55:11 公開日:2024-05-03 |
# 対人訓練と超越のための一様安定アルゴリズム
Uniformly Stable Algorithms for Adversarial Training and Beyond ( http://arxiv.org/abs/2405.01817v1 ) ライセンス: Link先を確認 | Jiancong Xiao, Jiawei Zhang, Zhi-Quan Luo, Asuman Ozdaglar, | (参考訳) 敵対的機械学習では、ニューラルネットワークは堅牢なオーバーフィッティングとして知られる重大な問題に悩まされ、堅牢なテスト精度はエポックよりも低下する(Rice et al , 2020)。
Xing et al ,2021; Xiao et al ,2022は、敵の訓練の均一な安定性の研究に重点を置いている。
彼らの研究により、SGDに基づく対向訓練は均一な安定性を示すことができず、導出された安定性境界は実験において頑健なオーバーフィッティングの観測された現象と一致していることが明らかとなった。
このことは、敵の訓練に適した一様安定なアルゴリズムを開発する動機となっている。
この目的のために、モローエンベロープ型アルゴリズムの変種であるモローエンベロープ-$\mathcal{A}$を導入する。
モローエンベロープ関数を用いて、元の問題をミンミン問題として再構成し、非強凸性と非滑らかな対向損失を分離する。
そして、この手法は、計算オーバーヘッドを増大させることなく、内部と外部の最小化問題を解くことと、均一な安定性を達成することを交互に行う。
実用シナリオでは、堅牢なオーバーフィッティングの問題を緩和する ME-$\mathcal{A}$ の有効性を示す。
ME-$\mathcal{A}$は弱凸非滑らかな問題に対して一様安定性を示す最初のアルゴリズムである。
In adversarial machine learning, neural networks suffer from a significant issue known as robust overfitting, where the robust test accuracy decreases over epochs (Rice et al., 2020). Recent research conducted by Xing et al.,2021; Xiao et al., 2022 has focused on studying the uniform stability of adversarial training. Their investigations revealed that SGD-based adversarial training fails to exhibit uniform stability, and the derived stability bounds align with the observed phenomenon of robust overfitting in experiments. This motivates us to develop uniformly stable algorithms specifically tailored for adversarial training. To this aim, we introduce Moreau envelope-$\mathcal{A}$, a variant of the Moreau Envelope-type algorithm. We employ a Moreau envelope function to reframe the original problem as a min-min problem, separating the non-strong convexity and non-smoothness of the adversarial loss. Then, this approach alternates between solving the inner and outer minimization problems to achieve uniform stability without incurring additional computational overhead. In practical scenarios, we show the efficacy of ME-$\mathcal{A}$ in mitigating the issue of robust overfitting. Beyond its application in adversarial training, this represents a fundamental result in uniform stability analysis, as ME-$\mathcal{A}$ is the first algorithm to exhibit uniform stability for weakly-convex, non-smooth problems. | 翻訳日:2024-05-06 13:55:11 公開日:2024-05-03 |
# シーケンサーレベルのセキュリティ
Sequencer Level Security ( http://arxiv.org/abs/2405.01819v1 ) ライセンス: Link先を確認 | Martin Derka, Jan Gorzny, Diego Siqueira, Donato Pellegrino, Marius Guggenmos, Zhiyang Chen, | (参考訳) 現在のブロックチェーンは、トランザクションの内容に関して、スマートコントラクトとユーザに対するセキュリティ保証を提供していません。
分散化と検閲に対する抵抗の精神において、彼らはそれ以上の精査なしにブロックに有効な取引を組み込むというパラダイムに従っている。
ロールアップは、トランザクションスループットのスケールアップを主な目的とする、特別なタイプのブロックチェーンである。
既存のロールアップの多くは、中央で実行されるシークエンシングプロトコルを介して運用されている。
本稿では,ロールアップのシークエンシングプロトコルの拡張であるSequencer Level Security(SLS)プロトコルを紹介する。
この先駆的なコントリビューションは、シーケンサがブロックにブロックを含めるのではなく、悪意のあるトランザクションを識別し、一時的に隔離する能力の概念を探求している。
本稿では、ロールアップメムプールに送信されたトランザクションと、レイヤ1から派生したトランザクションの両方に対するプロトコルの仕組みについて述べる。
我々は、信頼や分散化といったトピックについてコメントし、プロトコル自体のセキュリティへの影響について検討する。
我々は,GethとOPスタック上に構築されたSLSプロトコルであるZircuitのプロトタイプを実装した。
SLSプロトコルは簡単に他のロールアップ設計に一般化することができ、セキュリティ以外の目的に使用できる。
Current blockchains do not provide any security guarantees to the smart contracts and their users as far as the content of the transactions is concerned. In the spirit of decentralization and censorship resistance, they follow the paradigm of including valid transactions in blocks without any further scrutiny. Rollups are a special kind of blockchains whose primary purpose is to scale the transaction throughput. Many of the existing rollups operate through a centrally operated sequencing protocol. In this paper, we introduce the Sequencer Level Security (SLS) protocol, an enhancement to sequencing protocols of rollups. This pioneering contribution explores the concept of the sequencer's capability to identify and temporarily quarantine malicious transactions instead of including them in blocks immediately. We describe the mechanics of the protocol for both the transactions submitted to the rollup mempool, as well as transactions originating from Layer one. We comment on topics such as trust and decentralization, and consider the security impact on the protocol itself. We implement a prototype of the SLS protocol, Zircuit, which is built on top of Geth and the OP stack. The SLS protocol described can be easily generalized to other rollup designs, and can be used for purposes other than security. | 翻訳日:2024-05-06 13:55:11 公開日:2024-05-03 |
# フェイクデータの本当のリスク: 合成データ, 多様性-洗浄, コンセント循環
Real Risks of Fake Data: Synthetic Data, Diversity-Washing and Consent Circumvention ( http://arxiv.org/abs/2405.01820v1 ) ライセンス: Link先を確認 | Cedric Deslandes Whitney, Justin Norman, | (参考訳) 機械学習システムは、トレーニングとテストのために現実世界の表現を必要とします。
大規模なデータ収集には論理的かつ倫理的課題があり、合成データはこれらの課題に対する解決策を約束する。
実際の人の顔の写真を収集して顔認識システムを訓練する代わりに、モデル作成者は写真リアリスティックで合成された顔を作成して使用することができる。
データの収集に頼るのではなく、合成データを生成することの比較的容易さは、一般的なプラクティスとなっている。
モデル開発において合成データを使用することの2つの重要なリスクを提示する。
まず、データセットの多様性と表現性を高めるために合成データを使用する場合、誤信のリスクが高いことを詳述する。
我々はこれを、顔認識技術の評価のための合成データセットを生成する合成データの実世界利用事例の検証に基礎を置いている。
第2に、データ使用に対する同意を回避するための合成データリスクの使用方法を検討する。
我々は、米国連邦取引委員会(Federal Trade Commission)がデータ収集と影響を受けるモデルに関する規制に同意することの重要性を考慮し、これを説明します。
最後に、これらの2つのリスクは、合成データが既存のガバナンスと倫理的プラクティスをいかに複雑にするかを示すものである。
Machine learning systems require representations of the real world for training and testing - they require data, and lots of it. Collecting data at scale has logistical and ethical challenges, and synthetic data promises a solution to these challenges. Instead of needing to collect photos of real people's faces to train a facial recognition system, a model creator could create and use photo-realistic, synthetic faces. The comparative ease of generating this synthetic data rather than relying on collecting data has made it a common practice. We present two key risks of using synthetic data in model development. First, we detail the high risk of false confidence when using synthetic data to increase dataset diversity and representation. We base this in the examination of a real world use-case of synthetic data, where synthetic datasets were generated for an evaluation of facial recognition technology. Second, we examine how using synthetic data risks circumventing consent for data usage. We illustrate this by considering the importance of consent to the U.S. Federal Trade Commission's regulation of data collection and affected models. Finally, we discuss how these two risks exemplify how synthetic data complicates existing governance and ethical practice; by decoupling data from those it impacts, synthetic data is prone to consolidating power away those most impacted by algorithmically-mediated harm. | 翻訳日:2024-05-06 13:55:11 公開日:2024-05-03 |
# AAPM Grand Challenge on Deep Generative Modeling for Learning Medical Image statistics 参加報告
Report on the AAPM Grand Challenge on deep generative modeling for learning medical image statistics ( http://arxiv.org/abs/2405.01822v1 ) ライセンス: Link先を確認 | Rucha Deshpande, Varun A. Kelkar, Dimitrios Gotsis, Prabhat Kc, Rongping Zeng, Kyle J. Myers, Frank J. Brooks, Mark A. Anastasio, | (参考訳) 医学画像統計の深部生成モデリングに関する2023年AAPM大挑戦の成果を,本特集報告で報告する。
この課題の目的は、医用イメージングのための深部生成モデル(DGM)の開発を促進し、関連する画像統計の分析を通じて、そのドメイン関連評価の必要性を強調することである。
このグランドチャレンジの一環として、VICTRE仮想撮像ツールボックスから3次元人為的な乳房ファントムをベースとしたトレーニングデータセットが開発された。
記憶と画質(Frechet Inception distance (FID)に基づく)の予備チェックと、ドメイン関連放射線特性に応じた画像統計の再現性を評価する第2ステージからなる2段階の評価手順を開発した。
提出品のランク付けには概要表が用いられた。
個々の特徴群に特有なDGM性能を評価し, 種々の成果物を同定するために, 提出論文のさらなる分析を行った。
このチャレンジには12人のユニークなユーザーから58件の応募が寄せられた。
トップランクの応募者は条件付き潜伏拡散モデルを採用し, 共同ランナーは生成的対向ネットワークを採用し, 続いて画像超解像のための別のネットワークを採用した。
評価方法による上位9項目の総合ランキングについて検討した。
(i)FIDベースのランキングとは一致せず、
(二)個々の特色族について異なる。
もうひとつの重要な発見は、異なるDGMが同様の種類のアーティファクトを実証したことだ。
このグランドチャレンジでは、DGMのさらなる設計と展開のためのドメイン固有の評価の必要性を強調した。
また、DGMの仕様が意図された用途によって異なる可能性があることも示している。
The findings of the 2023 AAPM Grand Challenge on Deep Generative Modeling for Learning Medical Image Statistics are reported in this Special Report. The goal of this challenge was to promote the development of deep generative models (DGMs) for medical imaging and to emphasize the need for their domain-relevant assessment via the analysis of relevant image statistics. As part of this Grand Challenge, a training dataset was developed based on 3D anthropomorphic breast phantoms from the VICTRE virtual imaging toolbox. A two-stage evaluation procedure consisting of a preliminary check for memorization and image quality (based on the Frechet Inception distance (FID)), and a second stage evaluating the reproducibility of image statistics corresponding to domain-relevant radiomic features was developed. A summary measure was employed to rank the submissions. Additional analyses of submissions was performed to assess DGM performance specific to individual feature families, and to identify various artifacts. 58 submissions from 12 unique users were received for this Challenge. The top-ranked submission employed a conditional latent diffusion model, whereas the joint runners-up employed a generative adversarial network, followed by another network for image superresolution. We observed that the overall ranking of the top 9 submissions according to our evaluation method (i) did not match the FID-based ranking, and (ii) differed with respect to individual feature families. Another important finding from our additional analyses was that different DGMs demonstrated similar kinds of artifacts. This Grand Challenge highlighted the need for domain-specific evaluation to further DGM design as well as deployment. It also demonstrated that the specification of a DGM may differ depending on its intended use. | 翻訳日:2024-05-06 13:55:11 公開日:2024-05-03 |
# ジェネレーティブAIを用いた新しいソフトロボットデザインの作成
Creation of Novel Soft Robot Designs using Generative AI ( http://arxiv.org/abs/2405.01824v1 ) ライセンス: Link先を確認 | Wee Kiat Chan, PengWei Wang, Raye Chen-Hua Yeow, | (参考訳) ソフトロボティクスは、医療や製造業などの産業に革命をもたらす可能性を秘めた、有望な分野として浮上している。
しかし, 有効ソフトロボットの設計は, 特に材料特性の複雑な相互作用, 構造設計, 制御戦略の管理において課題を呈している。
伝統的な設計手法は、しばしば時間がかかり、最適な設計は得られない。
本稿では,ソフトアクチュエータの3次元モデル作成における生成AIの利用について検討する。
柔らかい空気圧ロボットアクチュエータの設計の70以上のテキスト形状のペアのデータセットを作成し、データ分布を学習し、それから新しい設計を生成するために潜在拡散モデル(SDFusion)を適用する。
転送学習とデータ拡張技術を用いることで,拡散モデルの性能を大幅に改善する。
これらの知見は、複雑なソフトロボットシステムを設計し、将来的な分野の発展への道を開くための、生成AIの可能性を強調している。
Soft robotics has emerged as a promising field with the potential to revolutionize industries such as healthcare and manufacturing. However, designing effective soft robots presents challenges, particularly in managing the complex interplay of material properties, structural design, and control strategies. Traditional design methods are often time-consuming and may not yield optimal designs. In this paper, we explore the use of generative AI to create 3D models of soft actuators. We create a dataset of over 70 text-shape pairings of soft pneumatic robot actuator designs, and adapt a latent diffusion model (SDFusion) to learn the data distribution and generate novel designs from it. By employing transfer learning and data augmentation techniques, we significantly improve the performance of the diffusion model. These findings highlight the potential of generative AI in designing complex soft robotic systems, paving the way for future advancements in the field. | 翻訳日:2024-05-06 13:55:11 公開日:2024-05-03 |
# 視覚言語概念ボトルネックモデルにおける概念アライメントの改善
Improving Concept Alignment in Vision-Language Concept Bottleneck Models ( http://arxiv.org/abs/2405.01825v1 ) ライセンス: Link先を確認 | Nithish Muthuchamy Selvaraj, Xiaobao Guo, Bingquan Shen, Adams Wai-Kin Kong, Alex Kot, | (参考訳) 概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、入力された画像を高レベルな人間の理解可能な概念空間にマッピングし、これらの概念に基づいてクラス予測を行う。
近年のアプローチでは、Large Language Models (LLM) にテキスト概念を生成させ、VLM (Vision Language Models) を使って概念スコアを取得してCBMを訓練することで、CBMの構築を自動化する。
しかし、LLMではなく、人間の専門家が定義した概念でCBMを構築し、より信頼できるものにすることが望まれている。
本研究では,細粒鳥類種分類や動物分類などの分野において,専門家が定義した概念に対するVLM概念スコアの忠実度について,より精査する。
解析の結果,冷凍VLMはCLIPと同様,高い分類性能を達成できたにもかかわらず,概念を対応する視覚入力と正しく関連付けるのが困難であることが判明した。
そこで本研究では,CLIPモデルにおける概念アライメント(実効性のある視覚概念)を改善するために,いくつかのラベル付き概念例を用いた新しいコントラシブ・セミスーパービジョン(CSS)学習手法を提案する。
3つのベンチマークデータセットの大規模な実験により、我々のアプローチは概念の精度と分類の精度を大幅に向上させるが、人間に注釈付けされた概念ラベルのごく一部しか必要としないことが示された。
分類性能をさらに向上するため,我々は,クラスを識別し,それらの概念空間を介入して誤りを低減させる,微細粒度分類問題に対する新たなクラスレベルの介入手順も導入した。
Concept Bottleneck Models (CBM) map the input image to a high-level human-understandable concept space and then make class predictions based on these concepts. Recent approaches automate the construction of CBM by prompting Large Language Models (LLM) to generate text concepts and then use Vision Language Models (VLM) to obtain concept scores to train a CBM. However, it is desired to build CBMs with concepts defined by human experts instead of LLM generated concepts to make them more trustworthy. In this work, we take a closer inspection on the faithfulness of VLM concept scores for such expert-defined concepts in domains like fine-grain bird species classification and animal classification. Our investigations reveal that frozen VLMs, like CLIP, struggle to correctly associate a concept to the corresponding visual input despite achieving a high classification performance. To address this, we propose a novel Contrastive Semi-Supervised (CSS) learning method which uses a few labeled concept examples to improve concept alignment (activate truthful visual concepts) in CLIP model. Extensive experiments on three benchmark datasets show that our approach substantially increases the concept accuracy and classification accuracy, yet requires only a fraction of the human-annotated concept labels. To further improve the classification performance, we also introduce a new class-level intervention procedure for fine-grain classification problems that identifies the confounding classes and intervenes their concept space to reduce errors. | 翻訳日:2024-05-06 13:55:11 公開日:2024-05-03 |
# SoftMCL:微粒感認識事前学習のためのソフトモーメントコントラスト学習
SoftMCL: Soft Momentum Contrastive Learning for Fine-grained Sentiment-aware Pre-training ( http://arxiv.org/abs/2405.01827v1 ) ライセンス: Link先を確認 | Jin Wang, Liang-Chih Yu, Xuejie Zhang, | (参考訳) 言語モデルの事前学習は、一般的な言語理解を捉えるが、特定の文脈の感情的影響を特定の単語と区別することができない。
近年,情緒情報取得における感情認識事前学習のためのコントラスト学習 (CL) の導入が試みられている。
しかし、これらの手法には2つの重要な制限がある。
まず、GPUメモリの互換性は、しばしば負のサンプルの数を制限するため、優れた表現を学ぶ機会を妨げる。
さらに、CLを監督するためにハードラベルとして少数の感情極性(例えば、正、中性、負)を用いると、すべての表現を数点に収束させ、遅延空間が崩壊する問題を引き起こす。
本研究では,微粒な感情認識事前学習のためのソフトモーメントコントラスト学習(SoftMCL)を提案する。
硬いラベルの代わりに、サンプル間の感情的類似度を詳細に測定するために、CLのソフトラベル監視としてヴァレンス評価を導入する。
提案するSoftMCLは,感情情報を学習するモデルの能力を高めるために,単語レベルと文レベルの両方で実行される。
コントラストのサンプルを拡張するためにモーメントキューが導入され、ハードウェアプラットフォームの制限を克服するために、より多くの負のデータを保存および取り込むことが可能になった。
4つの異なる感情関連課題に対して総合的な実験を行い,SoftMCL法の有効性を実証した。
提案されたSoftMCLのコードとデータは、https://www.github.com/wangjin0818/SoftMCL/で入手できる。
The pre-training for language models captures general language understanding but fails to distinguish the affective impact of a particular context to a specific word. Recent works have sought to introduce contrastive learning (CL) for sentiment-aware pre-training in acquiring affective information. Nevertheless, these methods present two significant limitations. First, the compatibility of the GPU memory often limits the number of negative samples, hindering the opportunities to learn good representations. In addition, using only a few sentiment polarities as hard labels, e.g., positive, neutral, and negative, to supervise CL will force all representations to converge to a few points, leading to the issue of latent space collapse. This study proposes a soft momentum contrastive learning (SoftMCL) for fine-grained sentiment-aware pre-training. Instead of hard labels, we introduce valence ratings as soft-label supervision for CL to fine-grained measure the sentiment similarities between samples. The proposed SoftMCL is conducted on both the word- and sentence-level to enhance the model's ability to learn affective information. A momentum queue was introduced to expand the contrastive samples, allowing storing and involving more negatives to overcome the limitations of hardware platforms. Extensive experiments were conducted on four different sentiment-related tasks, which demonstrates the effectiveness of the proposed SoftMCL method. The code and data of the proposed SoftMCL is available at: https://www.github.com/wangjin0818/SoftMCL/. | 翻訳日:2024-05-06 13:55:11 公開日:2024-05-03 |
# FER-YOLO-Mamba:選択状態空間に基づく表情の検出と分類
FER-YOLO-Mamba: Facial Expression Detection and Classification Based on Selective State Space ( http://arxiv.org/abs/2405.01828v1 ) ライセンス: Link先を確認 | Hui Ma, Sen Lei, Turgay Celik, Heng-Chao Li, | (参考訳) 表情認識(FER)は人間の感情的手がかりを理解する上で重要な役割を担っている。
しかし,視覚情報に基づく従来のFER手法には,前処理や特徴抽出,多段階分類などの制限がある。
これらは計算複雑性を増大させるだけでなく、膨大な計算資源を必要とする。
畳み込みニューラルネットワーク(CNN)に基づくFERスキームは,表情画像に埋め込まれた深度,長距離依存性,およびトランスフォーマー固有の2次計算複雑性の同定に不適切であることをしばしば証明することを考えると,マンバとヨロの原理を統合したFER-YOLO-Mambaモデルを提示し,表情画像認識と局所化の効率的な調整を容易にする。
FER-YOLO-Mambaモデルでは,局所特徴抽出における畳み込み層固有の強みと,長距離依存性を明らかにするための状態空間モデル(SSM)の例外的機能を組み合わせたFER-YOLO-VSSデュアルブランチモジュールをさらに考案する。
私たちの知る限りでは、顔の表情検出と分類のために設計された最初のVision Mambaモデルである。
提案したFER-YOLO-Mambaモデルの性能を評価するため,RAF-DBとSFEWの2つのベンチマークデータセットを用いて実験を行った。
実験結果から,FER-YOLO-Mambaモデルが他のモデルよりも優れた結果を得たことが示唆された。
コードはhttps://github.com/SwjtuMa/FER-YOLO-Mambaから入手できる。
Facial Expression Recognition (FER) plays a pivotal role in understanding human emotional cues. However, traditional FER methods based on visual information have some limitations, such as preprocessing, feature extraction, and multi-stage classification procedures. These not only increase computational complexity but also require a significant amount of computing resources. Considering Convolutional Neural Network (CNN)-based FER schemes frequently prove inadequate in identifying the deep, long-distance dependencies embedded within facial expression images, and the Transformer's inherent quadratic computational complexity, this paper presents the FER-YOLO-Mamba model, which integrates the principles of Mamba and YOLO technologies to facilitate efficient coordination in facial expression image recognition and localization. Within the FER-YOLO-Mamba model, we further devise a FER-YOLO-VSS dual-branch module, which combines the inherent strengths of convolutional layers in local feature extraction with the exceptional capability of State Space Models (SSMs) in revealing long-distance dependencies. To the best of our knowledge, this is the first Vision Mamba model designed for facial expression detection and classification. To evaluate the performance of the proposed FER-YOLO-Mamba model, we conducted experiments on two benchmark datasets, RAF-DB and SFEW. The experimental results indicate that the FER-YOLO-Mamba model achieved better results compared to other models. The code is available from https://github.com/SwjtuMa/FER-YOLO-Mamba. | 翻訳日:2024-05-06 13:55:11 公開日:2024-05-03 |
# スピン量子ビットに遭遇する計算電磁:量子センシングと計算におけるノイズ効果の制御
Computational Electromagnetics Meets Spin Qubits: Controlling Noise Effects in Quantum Sensing and Computing ( http://arxiv.org/abs/2405.01830v1 ) ライセンス: Link先を確認 | Wenbo Sun, Sathwik Bharadwaj, Runwei Zhou, Dan Jiao, Zubin Jacob, | (参考訳) 固体スピン量子ビットは有望な量子情報プラットフォームとして登場したが、磁気ノイズの影響を受けやすい。
スピン量子ビット量子応用におけるノイズ制御の広範な取り組みにもかかわらず、重要なが制御の少ないノイズ源の1つは、近接場電磁ゆらぎである。
低周波(MHzとGHz)の電磁ゆらぎは、量子コンピューティングデバイスでスピン量子ビットを制御するのに必要な金属/超伝導ゲートや、量子センシングで探索される材料/ナノ構造など、量子アプリケーションに必要なナノ構造損失物質コンポーネントの近くで著しく強化されている。
この低周波電磁ゆらぎノイズを制御することは、量子センシングとコンピュータの性能向上に不可欠であるが、現在の取り組みは計算上の課題によって妨げられている。
本稿では,特に高速かつ高精度な体積積分方程式に基づく解法を応用して計算障害を克服する。
我々は、スピン量子ビット量子センシングと演算性能を向上させるために、低周波磁気ゆらぎノイズを制御する理論的および計算的枠組みを導入する。
我々のフレームワークは、スピン量子ビット量子デバイスへの計算電磁法の応用を拡張している。
さらに、現実的な量子コンピューティングデバイスや量子センシングアプリケーションにおけるノイズ効果を制御するための理論的枠組みを適用した。
我々の研究は、デバイス工学が磁気ゆらぎを制御し、スピン量子ビット量子センシングとコンピューティングの性能を向上させる方法である。
Solid-state spin qubits have emerged as promising quantum information platforms but are susceptible to magnetic noise. Despite extensive efforts in controlling noise in spin qubit quantum applications, one important but less controlled noise source is near-field electromagnetic fluctuations. Low-frequency (MHz and GHz) electromagnetic fluctuations are significantly enhanced near nanostructured lossy material components essential in quantum applications, including metallic/superconducting gates necessary for controlling spin qubits in quantum computing devices and materials/nanostructures to be probed in quantum sensing. Although controlling this low-frequency electromagnetic fluctuation noise is crucial for improving the performance of quantum sensing and computing, current efforts are hindered by computational challenges. In this paper, we leverage advanced computational electromagnetics techniques, especially fast and accurate volume integral equation based solvers, to overcome the computational obstacle. We introduce a theoretical and computational framework to control low-frequency magnetic fluctuation noise for enhancing spin qubit quantum sensing and computing performance. Our framework extends the application of computational electromagnetics to spin qubit quantum devices. We further apply our theoretical framework to control noise effects in realistic quantum computing devices and quantum sensing applications. Our work paves the way for device engineering to control magnetic fluctuations and improve the performance of spin qubit quantum sensing and computing. | 翻訳日:2024-05-06 13:55:11 公開日:2024-05-03 |
# ノイズ回復ゲートを用いたフィードフォワード確率誤差キャンセラ
Feed-Forward Probabilistic Error Cancellation with Noisy Recovery Gates ( http://arxiv.org/abs/2405.01833v1 ) ライセンス: Link先を確認 | Leo Kurosawa, Yoshiyuki Saito, Xinwei Lee, Xinjian Yan, Ningyi Xie, Dongsheng Cai, Nobuyoshi Asai, | (参考訳) 確率的誤差キャンセラ (PEC) は可観測器の予測値の精度の向上を目的としており、これは誤りの逆に対応する回復ゲートの確率論的挿入を用いて達成されるが、挿入された回復ゲートもまた誤りを誘発する。
したがって,PECの予測値の精度は,回復ゲートによるノイズによるバイアスが大きいため,PECの正確な期待値を得ることは困難であり,この課題に対処するために,Fed-Forward PEC (FFPEC) と呼ばれるゲート挿入によるノイズを考慮した改良版PECを提案する。
FFPECはリカバリゲートによるノイズをキャンセルすることで予測値の偏りを推定し,ビットフリップおよび非偏極雑音による数値シミュレーションにより従来のPEC法と比較して精度の高い予測値が得られることを示した。
Probabilistic Error Cancellation (PEC) aims to improve the accuracy of expectation values for observables.This is accomplished using the probabilistic insertion of recovery gates, which correspond to the inverse of errors.However, the inserted recovery gates also induce errors. Thus, it is difficult to obtain accurate expectation values with PEC since the estimator of PEC has a bias due to noise induced by recovery gates.To address this challenge, we propose an improved version of PEC that considers the noise resulting from gate insertion, called Feed-Forward PEC (FFPEC). FFPEC provides an unbiased estimator of expectation values by cancelling out the noise induced by recovery gates.We demonstrate that FFPEC yields more accurate expectation values compared to conventional PEC method through numerical simulations with bit-flip and depolarizing noises. | 翻訳日:2024-05-06 13:55:11 公開日:2024-05-03 |
# 詳細バランスによる高温における2次元電子分光の均質化
Anomalously reduced homogeneous broadening of two-dimensional electronic spectroscopy at high temperature by detailed balance ( http://arxiv.org/abs/2405.01837v1 ) ライセンス: Link先を確認 | Ru-Qiong Deng, Cheng-Ge Liu, Yi-Xuan Yao, Jing-Yi-Ran Jin, Hao-Yue Zhang, Yin Song, Qing Ai, | (参考訳) 熱環境における量子系の散逸と脱コヒーレンスは、様々な分光学において重要である。
一般的に、散逸は分光学の線状を拡大し、2次元電子分光法(2DES)のより顕著な均一な拡張をもたらすと信じられている。
ここでは、電磁誘導透過(EIT)の体制において、このケースは逆になる可能性があることを示す。
EITにより, 高温での2DESの均一拡張は, 詳細なバランスによって著しく低減できると予測した。
この異常な効果は、2DESの長い対角線外ピークによるものである。
Dissipation and decoherence of quantum systems in thermal environments is important to various spectroscopies. It is generally believed that dissipation can broaden the line shape of spectroscopies, and thus stronger system-bath interaction can result in more significant homogeneous broadening of two-dimensional electronic spectroscopy (2DES). Here we show that the case can be the opposite in the regime of electromagnetically induced transparency (EIT). We predict that assisted by EIT, the homogeneous broadening of the 2DES at a higher temperature can be significantly reduced due to the detailed balance. This anomalous effect is due to the long-lasting off-diagonal peaks in 2DES. | 翻訳日:2024-05-06 13:55:11 公開日:2024-05-03 |
# 安定拡散を用いた敵攻撃からのガードの新しいアプローチ
A Novel Approach to Guard from Adversarial Attacks using Stable Diffusion ( http://arxiv.org/abs/2405.01838v1 ) ライセンス: Link先を確認 | Trinath Sai Subhash Reddy Pittala, Uma Maheswara Rao Meleti, Geethakrishna Puligundla, | (参考訳) 敵機械学習の最近の進歩は、ますます高度な攻撃から守るために堅牢なAIシステムを構築することの重要性を強調している。
AI Guardianのようなフレームワークは、これらの脅威に対して防御するために設計されているが、その効果を制限する仮定に依存していることが多い。
例えば、攻撃は1つの方向からのみ行われると仮定したり、トレーニングデータに敵対的なイメージを含むと仮定する。
我々の提案は、AI Guardianフレームワークに対する別のアプローチを提案する。
トレーニングプロセスに敵対的な例を含める代わりに、AIシステムをトレーニングせずに行うことを提案する。
これは、より広い範囲の攻撃に対して本質的に回復力のあるシステムを構築することを目的としています。
本手法は,連続的に学習し,脅威を包括的にモデル化する安定拡散を用いた動的防衛戦略に焦点を当てる。
このアプローチは、敵の攻撃に対してより一般化され、堅牢な防御につながる可能性があると信じています。
本稿では, 理論的基礎, 実験設計, 敵の脅威に対するAIセキュリティ改善への期待的影響などを含む, 提案手法の概要を述べる。
Recent developments in adversarial machine learning have highlighted the importance of building robust AI systems to protect against increasingly sophisticated attacks. While frameworks like AI Guardian are designed to defend against these threats, they often rely on assumptions that can limit their effectiveness. For example, they may assume attacks only come from one direction or include adversarial images in their training data. Our proposal suggests a different approach to the AI Guardian framework. Instead of including adversarial examples in the training process, we propose training the AI system without them. This aims to create a system that is inherently resilient to a wider range of attacks. Our method focuses on a dynamic defense strategy using stable diffusion that learns continuously and models threats comprehensively. We believe this approach can lead to a more generalized and robust defense against adversarial attacks. In this paper, we outline our proposed approach, including the theoretical basis, experimental design, and expected impact on improving AI security against adversarial threats. | 翻訳日:2024-05-06 13:55:11 公開日:2024-05-03 |
# SocialGFs:マルチエージェント強化学習のための社会的グラディエントフィールドの学習
SocialGFs: Learning Social Gradient Fields for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2405.01839v1 ) ライセンス: Link先を確認 | Qian Long, Fangwei Zhong, Mingdong Wu, Yizhou Wang, Song-Chun Zhu, | (参考訳) マルチエージェントシステム(MAS)は、動的環境への適応的な対処、エージェントの個体数の変化、多様なタスクを必要とする。
しかし、状態とタスク空間の複雑さのため、ほとんどのマルチエージェントシステムはそれらを容易に扱えない。
社会的影響理論は、複雑な影響要因を、エージェントに作用する力、環境から発せられる力、他のエージェント、およびエージェントの本質的な動機として、社会的力を参照している。
この概念に触発され、我々は多エージェント強化学習のための新しい勾配に基づく状態表現を提案する。
ソーシャル・フォースを非自明にモデル化するために、さらにデータ駆動方式を導入し、各フォースの魅力や反発的な結果からソーシャル・グラデーション・フィールド(ソーシャル・グラデーション・フィールド)を学習する。
相互作用の間、エージェントは多次元勾配に基づいて行動を起こし、自身の報酬を最大化する。
実際に、SocialGFを広く使われているマルチエージェント強化学習アルゴリズム、MAPPOに統合する。
実験の結果、SocialGFsはマルチエージェントシステムに4つの利点があることが明らかとなった。
1)オンラインインタラクションを必要とせずに学習することができる。
2)多種多様な課題にまたがる伝達性を示す。
3) 報酬設定に挑戦する際は、クレジットの割り当てを円滑に行う。
4) エージェントの数が増えるにつれてスケーラビリティが向上する。
Multi-agent systems (MAS) need to adaptively cope with dynamic environments, changing agent populations, and diverse tasks. However, most of the multi-agent systems cannot easily handle them, due to the complexity of the state and task space. The social impact theory regards the complex influencing factors as forces acting on an agent, emanating from the environment, other agents, and the agent's intrinsic motivation, referring to the social force. Inspired by this concept, we propose a novel gradient-based state representation for multi-agent reinforcement learning. To non-trivially model the social forces, we further introduce a data-driven method, where we employ denoising score matching to learn the social gradient fields (SocialGFs) from offline samples, e.g., the attractive or repulsive outcomes of each force. During interactions, the agents take actions based on the multi-dimensional gradients to maximize their own rewards. In practice, we integrate SocialGFs into the widely used multi-agent reinforcement learning algorithms, e.g., MAPPO. The empirical results reveal that SocialGFs offer four advantages for multi-agent systems: 1) they can be learned without requiring online interaction, 2) they demonstrate transferability across diverse tasks, 3) they facilitate credit assignment in challenging reward settings, and 4) they are scalable with the increasing number of agents. | 翻訳日:2024-05-06 13:55:11 公開日:2024-05-03 |
# 機械理解に関する一考察
An Essay concerning machine understanding ( http://arxiv.org/abs/2405.01840v1 ) ライセンス: Link先を確認 | Herbert L. Roitblat, | (参考訳) 人工知能システムは、多くの有用な能力を持っているが、理解に欠けているように見える。
このエッセイでは、理解可能なマシンを構築する方法について述べています。
ジョン・ロック(1689年)が指摘したように、言葉はアイデアの兆候であり、思考や概念として表現できる。
単語を理解するためには、それが指標である根底にある概念を知って、扱えることが必要です。
話者とリスナーの理解は、話者が自分の概念を言葉に流し込み、リスナーがそれらのほぼ同じ概念を回復するときに起こる。
現在のモデルは、潜在的な意味を構築するためにリスナーに依存しています。
心理学的パラダイムとしての行動主義の最小化と認知主義の台頭は、マシンがどの程度理解できるかを判断し、その理解がどのようにインスタンス化されるかを提案するために使用できる多くの実験手法の例を提供する。
Artificial intelligence systems exhibit many useful capabilities, but they appear to lack understanding. This essay describes how we could go about constructing a machine capable of understanding. As John Locke (1689) pointed out words are signs for ideas, which we can paraphrase as thoughts and concepts. To understand a word is to know and be able to work with the underlying concepts for which it is an indicator. Understanding between a speaker and a listener occurs when the speaker casts his or her concepts into words and the listener recovers approximately those same concepts. Current models rely on the listener to construct any potential meaning. The diminution of behaviorism as a psychological paradigm and the rise of cognitivism provide examples of many experimental methods that can be used to determine whether and to what extent a machine might understand and to make suggestions about how that understanding might be instantiated. | 翻訳日:2024-05-06 13:55:11 公開日:2024-05-03 |
# SGHateCheck:シンガポールの低リソース言語におけるヘイトスピーチ検出機能テスト
SGHateCheck: Functional Tests for Detecting Hate Speech in Low-Resource Languages of Singapore ( http://arxiv.org/abs/2405.01842v1 ) ライセンス: Link先を確認 | Ri Chi Ng, Nirmalendu Prakash, Ming Shan Hee, Kenny Tsu Wei Choo, Roy Ka-Wei Lee, | (参考訳) 現在のヘイトスピーチ検出モデルの限界に対処するため,シンガポールと東南アジアの言語的・文化的文脈を対象とした新しい枠組みである「textsf{SGHateCheck}」を紹介した。
HateCheckとMHCの機能テストアプローチを拡張し、シンガポールの主要言語への翻訳とパラフレーズに大規模な言語モデルを採用し、ネイティブアノテータでそれらを精査する。
\textsf{SGHateCheck} は最先端モデルの重大な欠陥を明らかにし、センシティブなコンテンツモデレーションの欠如を浮き彫りにする。
本研究は,シンガポールと東南アジアの多様な言語環境において,より効果的なヘイトスピーチ検出ツールの開発を促進することを目的としている。
To address the limitations of current hate speech detection models, we introduce \textsf{SGHateCheck}, a novel framework designed for the linguistic and cultural context of Singapore and Southeast Asia. It extends the functional testing approach of HateCheck and MHC, employing large language models for translation and paraphrasing into Singapore's main languages, and refining these with native annotators. \textsf{SGHateCheck} reveals critical flaws in state-of-the-art models, highlighting their inadequacy in sensitive content moderation. This work aims to foster the development of more effective hate speech detection tools for diverse linguistic environments, particularly for Singapore and Southeast Asia contexts. | 翻訳日:2024-05-06 13:45:11 公開日:2024-05-03 |
# ギャップの閉鎖:ニューラル・ネットワーク・パラメトリゼーションによるマルコフサンプリング下でのアクター・クライトのグローバル・コンバージェンス(Last Iterate)の実現
Closing the Gap: Achieving Global Convergence (Last Iterate) of Actor-Critic under Markovian Sampling with Neural Network Parametrization ( http://arxiv.org/abs/2405.01843v1 ) ライセンス: Link先を確認 | Mudit Gaur, Vaneet Aggarwal, Amrit Singh Bedi, Di Wang, | (参考訳) Actor-Critic(AC)アルゴリズムの現在最先端の理論解析は、AC実装の実践的な側面に対処する上で著しく遅れている。
この重要なギャップは、ACの実践的な実装に合わせて分析を行うために橋渡しが必要である。
そこで本論文では,アクタ/アクタ/アクタ/アクタ/アクタ/マルチ層ニューラルネットワークパラメトリゼーション,テキストbf{M}アルコビアンサンプリング,テキストbf{C}非連続状態-アクション空間,テキストbf{L}astイテレートの性能,およびテキストbf{G}ロバル最適性について,MCMCLGの基準を検討することを提案する。
これらの側面は実質的に重要であり、既存のACアルゴリズムの理論解析ではほとんど見過ごされてきた。
本研究は,5つの重要な実践的側面(MCLG基準の範囲)をすべて包含するACアルゴリズムの包括的理論的解析を提供することにより,これらのギャップに対処する。
我々は、大域収束サンプル複雑性境界を$\tilde{\mathcal{O}}\left({\epsilon^{-3}}\right)$とする。
我々は,MDPの弱勾配支配特性と,批判的推定における誤差のユニークな解析を用いて,この結果を実現する。
The current state-of-the-art theoretical analysis of Actor-Critic (AC) algorithms significantly lags in addressing the practical aspects of AC implementations. This crucial gap needs bridging to bring the analysis in line with practical implementations of AC. To address this, we advocate for considering the MMCLG criteria: \textbf{M}ulti-layer neural network parametrization for actor/critic, \textbf{M}arkovian sampling, \textbf{C}ontinuous state-action spaces, the performance of the \textbf{L}ast iterate, and \textbf{G}lobal optimality. These aspects are practically significant and have been largely overlooked in existing theoretical analyses of AC algorithms. In this work, we address these gaps by providing the first comprehensive theoretical analysis of AC algorithms that encompasses all five crucial practical aspects (covers MMCLG criteria). We establish global convergence sample complexity bounds of $\tilde{\mathcal{O}}\left({\epsilon^{-3}}\right)$. We achieve this result through our novel use of the weak gradient domination property of MDP's and our unique analysis of the error in critic estimation. | 翻訳日:2024-05-06 13:45:11 公開日:2024-05-03 |
# ネットワークエッジにおけるプライバシ保護キャッシングに関する調査--分類,解決,課題
A Survey on Privacy-Preserving Caching at Network Edge: Classification, Solutions, and Challenges ( http://arxiv.org/abs/2405.01844v1 ) ライセンス: Link先を確認 | Xianzhi Zhang, Yipeng Zhou, Di Wu, Shazia Riaz, Quan Z. Sheng, Miao Hu, Linchang Xiao, | (参考訳) ネットワークエッジでのコンテンツキャッシングは、ネットワークバックホールの負担を軽減し、サービス遅延を短縮し、サービス品質を改善するために広く展開されている、ポピュラーで効果的なテクニックである。
しかし、ネットワークのエッジでコンテンツをキャッシュするプライバシー侵害に関して、いくつかの論争があった。
一方、マルチアクセスオープンエッジネットワークは、外部攻撃者が機密情報を抽出してエッジキャッシュからプライベートデータを取得するのに理想的な表面を提供する。
一方、プライバシは、より優れたキャッシングパフォーマンスまたはより高い利益を達成するために、キャッシュトレース分析をターゲットとして、奇妙なエッジキャッシュプロバイダによって侵害される可能性がある。
したがって、エッジキャッシュネットワークにおけるプライバシー問題に対する深い理解は、ネットワークエッジにプライバシを保存するキャッシュサービスを構築する上で不可欠である。
本稿では,ネットワークエッジでコンテンツをキャッシュするためのプライバシ保護技術を検討することで,このギャップを埋める最初の人物である。
まず、プライバシ保護エッジキャッシング(PPEC)の背景について紹介する。
次に、主要なプライバシー問題を要約し、プライベートデータの観点から、ネットワークエッジでのキャッシュのための分類を提示する。
さらに,ネットワークエッジにおけるコンテンツキャッシングによるプライバシーの漏洩に対する最新の対策を振り返って検討する。
最後に,今後の研究の課題を概観する。
Caching content at the network edge is a popular and effective technique widely deployed to alleviate the burden of network backhaul, shorten service delay and improve service quality. However, there has been some controversy over privacy violations in caching content at the network edge. On the one hand, the multi-access open edge network provides an ideal surface for external attackers to obtain private data from the edge cache by extracting sensitive information. On the other hand, privacy can be infringed by curious edge caching providers through caching trace analysis targeting to achieve better caching performance or higher profits. Therefore, an in-depth understanding of privacy issues in edge caching networks is vital and indispensable for creating a privacy-preserving caching service at the network edge. In this article, we are among the first to fill in this gap by examining privacy-preserving techniques for caching content at the network edge. Firstly, we provide an introduction to the background of Privacy-Preserving Edge Caching (PPEC). Next, we summarize the key privacy issues and present a taxonomy for caching at the network edge from the perspective of private data. Additionally, we conduct a retrospective review of the state-of-the-art countermeasures against privacy leakage from content caching at the network edge. Finally, we conclude the survey and envision challenges for future research. | 翻訳日:2024-05-06 13:45:11 公開日:2024-05-03 |
# モデルに基づくマルチエージェントパーソナライズされたショートビデオレコメンダシステム
A Model-based Multi-Agent Personalized Short-Video Recommender System ( http://arxiv.org/abs/2405.01847v1 ) ライセンス: Link先を確認 | Peilun Zhou, Xiaoxiao Xu, Lantao Hu, Han Li, Peng Jiang, | (参考訳) Recommenderは、オンラインリクエスト毎にトップKアイテムを選択し、提示し、レコメンデーションセッションは、いくつかのシーケンシャルなリクエストで構成される。
マルコフ決定プロセスとしてレコメンデーションセッションを定式化し、強化学習(RL)フレームワークで解決することは、学術コミュニティと産業コミュニティの両方から注目を集めている。
本稿では,RLをベースとした産業用ショートビデオレコメンデータランキングフレームワークを提案する。
さらに,本提案フレームワークは,産業レコメンデータシステムにおいて重要ではあるが難解な問題であるサンプル選択バイアスを軽減するために,モデルに基づく学習アプローチを採用する。
大規模なオフライン評価とライブ実験により,提案手法の有効性が検証された。
提案手法は当社の大規模なショートビデオ共有プラットフォームに導入され,数億人以上のユーザを対象とした運用に成功しています。
Recommender selects and presents top-K items to the user at each online request, and a recommendation session consists of several sequential requests. Formulating a recommendation session as a Markov decision process and solving it by reinforcement learning (RL) framework has attracted increasing attention from both academic and industry communities. In this paper, we propose a RL-based industrial short-video recommender ranking framework, which models and maximizes user watch-time in an environment of user multi-aspect preferences by a collaborative multi-agent formulization. Moreover, our proposed framework adopts a model-based learning approach to alleviate the sample selection bias which is a crucial but intractable problem in industrial recommender system. Extensive offline evaluations and live experiments confirm the effectiveness of our proposed method over alternatives. Our proposed approach has been deployed in our real large-scale short-video sharing platform, successfully serving over hundreds of millions users. | 翻訳日:2024-05-06 13:45:11 公開日:2024-05-03 |
# RankSHAP: ランク付けタスクのためのゴールドスタンダード特徴属性方法
RankSHAP: a Gold Standard Feature Attribution Method for the Ranking Task ( http://arxiv.org/abs/2405.01848v1 ) ライセンス: Link先を確認 | Tanya Chowdhury, Yair Zick, James Allan, | (参考訳) いくつかの研究は、ランク付けのタスク、すなわち、特徴属性法による文書の集合を注文するタスクについて、ポストホックでモデルに依存しない様々な説明を提案している。
しかし、これらの属性は弱い相関関係にあり、時には互いに矛盾する。
分類・回帰において、いくつかの研究は特徴属性法の「emph{axiomatic Characterization}」に焦点を当て、ある方法が一意に望ましい性質の集合を満たすことを示す。
但し、格付け業務の特色として、そのような取り組みは行われていない。
我々は,機能帰属コミュニティで人気のゲーム理論的手法を用いて,タスクの帰属候補を特定する。
まず、古典的なシャプリー公理のすべての変種であるランク効率、ランクミス性、ランクシンメトリー、ランクモノトニック性という、望ましい公理を定義した。
次に、古典的シェープ値の拡張である一般ランキングタスクの特徴帰属アルゴリズムであるRate-SHAPを紹介する。
近似ランク-SHAP値を計算するための多項式時間アルゴリズムを同定し、様々なシナリオでアルゴリズムの計算効率と精度を評価する。
また,人間の直感とユーザスタディとの整合性も評価した。
最後に, 定位帰属アルゴリズムであるEXSとRanc-LIMEを理論的に検討し, 古典的シャプリー公理を満たす能力を評価する。
Several works propose various post-hoc, model-agnostic explanations for the task of ranking, i.e. the task of ordering a set of documents, via feature attribution methods. However, these attributions are seen to weakly correlate and sometimes contradict each other. In classification/regression, several works focus on \emph{axiomatic characterization} of feature attribution methods, showing that a certain method uniquely satisfies a set of desirable properties. However, no such efforts have been taken in the space of feature attributions for the task of ranking. We take an axiomatic game-theoretic approach, popular in the feature attribution community, to identify candidate attribution methods for ranking tasks. We first define desirable axioms: Rank-Efficiency, Rank-Missingness, Rank-Symmetry and Rank-Monotonicity, all variants of the classical Shapley axioms. Next, we introduce Rank-SHAP, a feature attribution algorithm for the general ranking task, which is an extension to classical Shapley values. We identify a polynomial-time algorithm for computing approximate Rank-SHAP values and evaluate the computational efficiency and accuracy of our algorithm under various scenarios. We also evaluate its alignment with human intuition with a user study. Lastly, we theoretically examine popular rank attribution algorithms, EXS and Rank-LIME, and evaluate their capacity to satisfy the classical Shapley axioms. | 翻訳日:2024-05-06 13:45:11 公開日:2024-05-03 |
# 説明可能な勧告の安定性
Stability of Explainable Recommendation ( http://arxiv.org/abs/2405.01849v1 ) ライセンス: Link先を確認 | Sairamvinay Vijayaraghavan, Prasant Mohapatra, | (参考訳) 説明可能な勧告は、過去数年間、産業とアカデミックで注目を集めている。
推奨システムフレームワークのレコメンデーションと共に提供される説明には、特に提案が提供された理由と、アイテムがユーザのパーソナライズされた好みとどの程度うまく一致しているかを推論する、多くの用途がある。
したがって、説明はユーザーが商品を購入することに影響を与える大きな役割を果たす可能性がある。
しかし、様々なシナリオにおける説明の信頼性は、経験的観点から厳密には検証されていない。
信頼できない説明は、攻撃者が操作するための説明を活用したり、攻撃者が宣伝したいターゲットアイテムを購入するようにユーザーを誘惑したりするなど、強い結果をもたらす可能性がある。
本稿では,モデルパラメータに付加される外部ノイズの異なるレベルにおいて,既存の特徴指向の説明可能なレコメンデーションの脆弱性について検討する。
そこで我々は,異なるスケールで広く利用されている2つのeコマースベースのレコメンデーションデータセットのトレーニングにおいて,3つの重要な最先端(SOTA)説明可能なレコメンデーションを解析して実験を行った。
我々は、全ての説明可能なモデルが騒音レベルの増加に弱いことを観察する。
実験結果から,提案手法が雑音レベルの増加とともに減少し,特に対向雑音がより強い減少をもたらすという仮説が検証された。
本研究は,レコメンデータシステムにおけるロバストな説明のトピックについて,RSのさまざまなタイプの説明可能なレコメンデータに拡張可能な実証検証を行った。
Explainable Recommendation has been gaining attention over the last few years in industry and academia. Explanations provided along with recommendations in a recommender system framework have many uses: particularly reasoning why a suggestion is provided and how well an item aligns with a user's personalized preferences. Hence, explanations can play a huge role in influencing users to purchase products. However, the reliability of the explanations under varying scenarios has not been strictly verified from an empirical perspective. Unreliable explanations can bear strong consequences such as attackers leveraging explanations for manipulating and tempting users to purchase target items that the attackers would want to promote. In this paper, we study the vulnerability of existent feature-oriented explainable recommenders, particularly analyzing their performance under different levels of external noises added into model parameters. We conducted experiments by analyzing three important state-of-the-art (SOTA) explainable recommenders when trained on two widely used e-commerce based recommendation datasets of different scales. We observe that all the explainable models are vulnerable to increased noise levels. Experimental results verify our hypothesis that the ability to explain recommendations does decrease along with increasing noise levels and particularly adversarial noise does contribute to a much stronger decrease. Our study presents an empirical verification on the topic of robust explanations in recommender systems which can be extended to different types of explainable recommenders in RS. | 翻訳日:2024-05-06 13:45:11 公開日:2024-05-03 |
# 不均一なモバイルプロセッサのディープラーニング推論:可能性と落とし穴
Deep Learning Inference on Heterogeneous Mobile Processors: Potentials and Pitfalls ( http://arxiv.org/abs/2405.01851v1 ) ライセンス: Link先を確認 | Sicong Liu, Wentao Zhou, Zimu Zhou, Bin Guo, Minfan Wang, Cheng Fang, Zheng Lin, Zhiwen Yu, | (参考訳) リアルタイムなインテリジェントなアプリケーションのために、リソース制約のあるモバイルデバイスに計算集約型ディープラーニング(DL)モデルをデプロイする需要が高まっている。
CPU、GPU、NPUなどの様々な処理ユニットを備えており、モバイルデバイスは異種プロセッサ間の並列実行を通じてDL推論を加速する可能性を秘めている。
計算分布を最適化し、負荷バランスを達成し、プロセッサ間の通信コストを最小限に抑えるために、様々な効率的な並列手法が提案されている。
しかし、ダイナミックで多様な実世界のモバイル環境におけるそれらの実践的効果は、明らかにされていない。
本稿では、異種モバイルプロセッサ上での並列DL推論に関連する機能と課題を評価するための総合的研究について述べる。
様々なDLモデル、モバイルソフトウェア/ハードウェア環境、ワークロードパターン、リソース可用性に関する慎重に設計された実験を通じて、既存の技術の限界を特定し、クロスレベル最適化の機会を強調します。
There is a growing demand to deploy computation-intensive deep learning (DL) models on resource-constrained mobile devices for real-time intelligent applications. Equipped with a variety of processing units such as CPUs, GPUs, and NPUs, the mobile devices hold potential to accelerate DL inference via parallel execution across heterogeneous processors. Various efficient parallel methods have been explored to optimize computation distribution, achieve load balance, and minimize communication cost across processors. Yet their practical effectiveness in the dynamic and diverse real-world mobile environment is less explored. This paper presents a holistic empirical study to assess the capabilities and challenges associated with parallel DL inference on heterogeneous mobile processors. Through carefully designed experiments covering various DL models, mobile software/hardware environments, workload patterns, and resource availability, we identify limitations of existing techniques and highlight opportunities for cross-level optimization. | 翻訳日:2024-05-06 13:45:11 公開日:2024-05-03 |
# ブロックチェーンを用いた不動産資産のトークン化
Tokenization of Real Estate Assets Using Blockchain ( http://arxiv.org/abs/2405.01852v1 ) ライセンス: Link先を確認 | Shashank Joshi, Arhan Choudhury, | (参考訳) ブロックチェーン技術は、銀行、医療、その他の重要なエコシステムなど、社会の様々な側面に革命をもたらした重要な技術の1つである。
ブロックチェーンの利用を活用できる分野のひとつに不動産セクターがある。
最も利益を上げている長期投資は不動産であり、続いて金、株式、相互資金、貯蓄口座が続く。
それでも、透明性の欠如、詐欺、いくつかの仲介者、タイトル問題、書類作成、仲裁の増大、流動性の欠如といった管理上のオーバーヘッドがある。
本稿では,ブロックチェーンを基盤技術とするフレームワークを提案する。
ブロックチェーンと一連のツールの助けを借りて、不動産投資のエコシステムで緩和できるこれらの問題の多くをサポートする。
スマートコントラクト、不変レコード管理、トークン化、レコードトラッキング、タイムスタンプストレージなどが含まれている。
不動産のトークン化は、流動性と相互運用性を固定し、様々な利害関係者間の相互作用を改善することで、エントリー障壁を低くする。
Blockchain technology is one of the key technologies that have revolutionized various facets of society, such as the banking, healthcare, and other critical ecosystems. One area that can harness the usage of blockchain is the real estate sector. The most lucrative long-term investment is real estate, followed by gold, equities, mutual funds, and savings accounts. Nevertheless, it has administrative overheads such as lack of transparency, fraud, several intermediaries, title issues, paperwork, an increasing number of arbitrations, and the lack of liquidity. This paper proposes a framework that uses blockchain as an underlying technology. With the aid of blockchain and the suite of tools, it supports many of these problems that can be alleviated in the real estate investment ecosystem. These include smart contracts, immutable record management, tokenization, record tracking, and time-stamped storage. Tokenization of real estate lowers the entry barrier by fixing liquidity and interoperability and improving the interaction between various stakeholders. | 翻訳日:2024-05-06 13:45:11 公開日:2024-05-03 |
# 単層半導体における4次不還元性相関のスペクトル特性
Spectral Features of the Fourth Order Irreducible Correlations in a Monolayer Semiconductor ( http://arxiv.org/abs/2405.01853v1 ) ライセンス: Link先を確認 | Jiacheng Tang, Cun-Zheng Ning, | (参考訳) 多体系における高次相関や多粒子構造を理解することは、凝縮物質物理学における基本的な重要性だけでなく、多くの技術応用においても重要である。
これまでのところ、半導体中の高次多粒子既約相関は、2次または2粒子の場合を超えて研究されていない。
本稿では,2つの電子と2つのホール (2e2h) の相関関係を, 4体Bethe-Salpeter方程式 (4B-BSE) を用いて検討し, 単層MoTe2における2体および4体状態間のヘリシティ分解吸収の計算に応用した。
驚いたことに、これまで見たことのないエキシトンの下約40mVのエネルギー範囲で、スペクトルの豊富なピークが見つかった。
新しいスペクトルピークの起源を理解するため、4B BSEのファインマン図はクラスタ展開形式に再キャストされ、選択されたクラスタの個々の効果や様々な順序の相関について研究することができる。
3階までの既約オーダーのクラスタとそれらの分解された組み合わせは、スペクトルの特徴を説明できないことがわかった。
重要なことに,第4次非既約相関は,その特徴を説明するのに十分必要であり,十分であることがわかった。
第4次既約相関は、2つの電子と2つの穴を含む4粒子既約クラスターに対応する。
新しい4次相関あるいは4粒子実体は、多体相関の理解を深めるだけでなく、新しい光電子デバイスのための新しい発光や吸収のメカニズムを提供するかもしれない。
Understanding high-order correlations or multi-particle entities in a many-body system is not only of fundamental importance in condensed matter physics, but also critical for many technological applications. So far, higher-order multi-particle irreducible correlations in semiconductors have not been studied beyond the second-order or two-particle case. In this paper, we study the correlation of two electrons and two holes (2e2h) using the four-body Bethe-Salpeter equation (4B-BSE) and applied to the calculation of the helicity-resolved absorption between the two-body and four-body states for a monolayer MoTe2. Surprisingly, we found a rich series of spectral peaks within an energy span of ~40 meV below the exciton that has not been seen before. To understand the origin of the new spectral peaks, the Feynman diagrams of the 4B BSE are recast into the cluster expansion formalism, allowing us to study the individual effects of selected clusters or correlations of various orders. We found that the irreducible clusters of orders up to the 3rd and their factorized combinations cannot explain the spectral features. Importantly, we found that the 4th order irreducible correlation is necessary and sufficient to explain the new features. The 4th order irreducible correlation corresponds to a four-particle irreducible cluster involving two electrons and two holes, alternatively called quadron or quadruplon. The new 4th order correlation or four-particle entity not only enriches our understanding of many-body correlations but also could provide new mechanism for light emission or absorption for possible new optoelectronic devices. | 翻訳日:2024-05-06 13:45:11 公開日:2024-05-03 |
# Robust Explainable Recommendation
Robust Explainable Recommendation ( http://arxiv.org/abs/2405.01855v1 ) ライセンス: Link先を確認 | Sairamvinay Vijayaraghavan, Prasant Mohapatra, | (参考訳) 説明可能なレコメンデーションシステムは、提案されたレコメンデーションの背後にある理由を提供する重要な研究分野である。
ディベロッパシステムによる説明は,システム内の異常をデバッグする上でも,コンシューマにとっても有用であると同時に,商品に対する真の嗜好を捉える上でのモデルの有効性を解釈する上でも有用である。
しかし、既存の最先端(SOTA)説明可能なレコメンデータのほとんどは、ノイズの多い状況下で説明能力を維持することができず、さらに異なるデータセット間で一般化できない。
説明の堅牢性は、一部の悪意のある攻撃者が、大きな利害グループに深刻な影響をもたらす可能性のある、高リスクな決定シナリオを自分たちの利益のために操作しないように保証されなければならない。
本研究では,外的攻撃に耐え,堅牢で汎用的な説明を提供する機能対応型説明推薦者のための一般的なフレームワークを提案する。
本稿では,モデルベース・ホワイトボックス攻撃の際の世界的説明責任を保ちながら,新たな防御ツールとして活用できる新しいフレームワークを提案する。
私たちのフレームワークは、モデルの内部構造や本質的なユーティリティに関係なく、実装が簡単で、異なるメソッドをサポートします。
我々は、アーキテクチャ的に異なる2つの機能ベースのSOTA説明可能なアルゴリズムでフレームワークを実験し、規模を拡大する3つの人気のあるeコマースデータセットでそれらをトレーニングした。
どちらのアルゴリズムも、正常な条件下でのグローバルな説明可能性の品質と堅牢性、およびすべてのデータセットにわたるノイズの多い環境を総合的に改善し、フレームワークの柔軟性と変更性を示していることに気づきました。
Explainable Recommender Systems is an important field of study which provides reasons behind the suggested recommendations. Explanations with recommender systems are useful for developers while debugging anomalies within the system and for consumers while interpreting the model's effectiveness in capturing their true preferences towards items. However, most of the existing state-of-the-art (SOTA) explainable recommenders could not retain their explanation capability under noisy circumstances and moreover are not generalizable across different datasets. The robustness of the explanations must be ensured so that certain malicious attackers do not manipulate any high-stake decision scenarios to their advantage, which could cause severe consequences affecting large groups of interest. In this work, we present a general framework for feature-aware explainable recommenders that can withstand external attacks and provide robust and generalized explanations. This paper presents a novel framework which could be utilized as an additional defense tool, preserving the global explainability when subject to model-based white box attacks. Our framework is simple to implement and supports different methods regardless of the internal model structure and intrinsic utility within any model. We experimented our framework on two architecturally different feature-based SOTA explainable algorithms by training them on three popular e-commerce datasets of increasing scales. We noticed that both the algorithms displayed an overall improvement in the quality and robustness of the global explainability under normal as well as noisy environments across all the datasets, indicating the flexibility and mutability of our framework. | 翻訳日:2024-05-06 13:45:11 公開日:2024-05-03 |
# TinySeg:Tiny組込みシステムにおける画像分割のためのモデル最適化フレームワーク
TinySeg: Model Optimizing Framework for Image Segmentation on Tiny Embedded Systems ( http://arxiv.org/abs/2405.01857v1 ) ライセンス: Link先を確認 | Byungchul Chae, Jiae Kim, Seonyeong Heo, | (参考訳) イメージセグメンテーション(英: Image segmentation)は、無人航空機の自律ナビゲーションなど、様々な領域に適用可能なコンピュータビジョンタスクの1つである。
しかし,イメージセグメンテーションモデルでは,画像セグメンテーションのアーキテクチャ的特徴から,画像セグメンテーションのピークメモリ利用率が高いため,小さな組込みシステムでは容易に画像セグメンテーションが実現できない。
この研究により、イメージセグメンテーションモデルは、既存の小さな機械学習フレームワークで、必要以上に大きなメモリスペースを必要とすることがわかった。
すなわち、既存のフレームワークでは、画像分割モデルのメモリ空間を効果的に管理することはできない。
この研究は、小さな組み込みシステムに対してメモリ効率の高い画像分割を可能にする新しいモデル最適化フレームワークであるTinySegを提案する。
TinySegはターゲットモデルのテンソルの寿命を分析し、寿命の長いテンソルを識別する。
次にTinySegは、主に2つのメソッドでターゲットモデルのメモリ使用量を最適化する。
(i)テンソルがローカルまたはリモートストレージに流出し、
(二)こぼれたテンソルを溶かすこと。
この研究は、既存の小さな機械学習フレームワーク上にTinySegを実装し、TinySegが画像セグメントモデルのピークメモリ使用量を39.3%削減できることを示した。
Image segmentation is one of the major computer vision tasks, which is applicable in a variety of domains, such as autonomous navigation of an unmanned aerial vehicle. However, image segmentation cannot easily materialize on tiny embedded systems because image segmentation models generally have high peak memory usage due to their architectural characteristics. This work finds that image segmentation models unnecessarily require large memory space with an existing tiny machine learning framework. That is, the existing framework cannot effectively manage the memory space for the image segmentation models. This work proposes TinySeg, a new model optimizing framework that enables memory-efficient image segmentation for tiny embedded systems. TinySeg analyzes the lifetimes of tensors in the target model and identifies long-living tensors. Then, TinySeg optimizes the memory usage of the target model mainly with two methods: (i) tensor spilling into local or remote storage and (ii) fused fetching of spilled tensors. This work implements TinySeg on top of the existing tiny machine learning framework and demonstrates that TinySeg can reduce the peak memory usage of an image segmentation model by 39.3% for tiny embedded systems. | 翻訳日:2024-05-06 13:45:11 公開日:2024-05-03 |
# SuKHSANDESH:インド農村部における性教育のためのアバター治療質問回答プラットフォーム
SUKHSANDESH: An Avatar Therapeutic Question Answering Platform for Sexual Education in Rural India ( http://arxiv.org/abs/2405.01858v1 ) ライセンス: Link先を確認 | Salam Michael Singh, Shubhmoy Kumar Garg, Amitesh Misra, Aaditeshwar Seth, Tanmoy Chakraborty, | (参考訳) 性教育は、感情的、精神的、社会的幸福の観点から健康的なライフスタイルを育むことを目的としている。
インドなどでは、思春期の若者が最大の人口集団を形成しており、性的健康に関する重大な脆弱性に直面している。
残念なことに、性教育は、しばしば便宜化され、重要なカウンセリングとこのリスクの高い人口への情報提供の障壁を形成している。
その結果、妊娠初期、不安全中絶、性感染症、性暴力などの問題が流行する。
我々の現在の提案は、脆弱なインドの農村住民に、安全で信頼できる性教育のプラットフォームを提供することを目的としており、それによって、国家の健全かつ全体的な成長を促進する。
この点に関して、インド農村に合わせた、多段階のAIベースの性教育用質問応答プラットフォームであるSUKHSANDESHを設計し、安全ガードレールと地域言語サポートを守ります。
情報検索技術と大規模言語モデルを利用することで,SUKHSANDESHはユーザクエリに対して効果的な応答を提供する。
また、安全対策を緩和するためにデータセットを匿名化し、有害または望ましくない応答生成に対してAIガードレールを設定することを提案する。
また,本提案のイノベーティブな特徴として,SUKHSANDESHと<avatar therapy'を併用することが挙げられる。
この機能は、AIが生成した応答を、地域のインドの言語を話すアニメーションアバターによってリアルタイムで配信されるオーディオに変換する。
このアプローチは共感とつながりを育むことを目的としており、リテラシーのスキルが限られた個人にとって特に有益である。
業界リーダーのGram Vaaniと協力して、インドの農村部における性教育のニーズに対応するためにSuKHSANDESHを展開します。
Sexual education aims to foster a healthy lifestyle in terms of emotional, mental and social well-being. In countries like India, where adolescents form the largest demographic group, they face significant vulnerabilities concerning sexual health. Unfortunately, sexual education is often stigmatized, creating barriers to providing essential counseling and information to this at-risk population. Consequently, issues such as early pregnancy, unsafe abortions, sexually transmitted infections, and sexual violence become prevalent. Our current proposal aims to provide a safe and trustworthy platform for sexual education to the vulnerable rural Indian population, thereby fostering the healthy and overall growth of the nation. In this regard, we strive towards designing SUKHSANDESH, a multi-staged AI-based Question Answering platform for sexual education tailored to rural India, adhering to safety guardrails and regional language support. By utilizing information retrieval techniques and large language models, SUKHSANDESH will deliver effective responses to user queries. We also propose to anonymise the dataset to mitigate safety measures and set AI guardrails against any harmful or unwanted response generation. Moreover, an innovative feature of our proposal involves integrating ``avatar therapy'' with SUKHSANDESH. This feature will convert AI-generated responses into real-time audio delivered by an animated avatar speaking regional Indian languages. This approach aims to foster empathy and connection, which is particularly beneficial for individuals with limited literacy skills. Partnering with Gram Vaani, an industry leader, we will deploy SUKHSANDESH to address sexual education needs in rural India. | 翻訳日:2024-05-06 13:45:11 公開日:2024-05-03 |
# AI駆動の自律兵器は、地政学的不安定と危険なAI研究を危険にさらす
AI-Powered Autonomous Weapons Risk Geopolitical Instability and Threaten AI Research ( http://arxiv.org/abs/2405.01859v1 ) ライセンス: Link先を確認 | Riley Simmons-Edler, Ryan Badman, Shayne Longpre, Kanaka Rajan, | (参考訳) 自律兵器システム(AWS)開発における機械学習(ML)の最近の採用は、地政学的安定性とAI研究におけるアイデアの自由交換に深刻なリスクをもたらす。
この話題は、超知能人工知能(AGI)によって引き起こされるリスクと比較して、最近はほとんど注目されていないが、技術開発過程に関する仮定は少なく、そのため近い将来の課題である。
MLはすでに、多くの戦場で、人間の兵士のためのAWSの代替を可能にしている。
対外敵の場合には、より広い戦力へのエスカレーションを危険にさらす「低強度」紛争の可能性が高まる。
非農民の敵の場合、攻撃の戦争に対する国内的打撃を減少させる。
この効果は、民間人の犠牲者のリスクなど、軍事AIの使用に関する他の倫理的問題によらず発生し、超人的AI能力を必要としない。
さらに、AWSの軍事的価値は、AIによる軍備競争の投機と、AI研究に対する国家安全保障上の制限の誤った適用を提起する。
本研究の目的は,軍事技術における完全ないし完全に近い自律性によって引き起こされる近い将来のリスクに対する,一般およびML研究者の意識を高めることであり,これらのリスクを軽減するための規制提案を提供する。
私たちは、グローバルな安定性とAI研究に対するネガティブな影響を避けるため、特にAIポリシの専門家と防衛AIコミュニティに、透明性とAWSの開発とデプロイメントに注意を払うように呼びかけています。
The recent embrace of machine learning (ML) in the development of autonomous weapons systems (AWS) creates serious risks to geopolitical stability and the free exchange of ideas in AI research. This topic has received comparatively little attention of late compared to risks stemming from superintelligent artificial general intelligence (AGI), but requires fewer assumptions about the course of technological development and is thus a nearer-future issue. ML is already enabling the substitution of AWS for human soldiers in many battlefield roles, reducing the upfront human cost, and thus political cost, of waging offensive war. In the case of peer adversaries, this increases the likelihood of "low intensity" conflicts which risk escalation to broader warfare. In the case of non-peer adversaries, it reduces the domestic blowback to wars of aggression. This effect can occur regardless of other ethical issues around the use of military AI such as the risk of civilian casualties, and does not require any superhuman AI capabilities. Further, the military value of AWS raises the specter of an AI-powered arms race and the misguided imposition of national security restrictions on AI research. Our goal in this paper is to raise awareness among the public and ML researchers on the near-future risks posed by full or near-full autonomy in military technology, and we provide regulatory suggestions to mitigate these risks. We call upon AI policy experts and the defense AI community in particular to embrace transparency and caution in their development and deployment of AWS to avoid the negative effects on global stability and AI research that we highlight here. | 翻訳日:2024-05-06 13:45:11 公開日:2024-05-03 |
# 単層半導体におけるトリオンと荷電エキシトン間の多体構造スペクトル分割
Many-Body Configurational Spectral Splitting between Trion and Charged Exciton in a Monolayer Semiconductor ( http://arxiv.org/abs/2405.01862v1 ) ライセンス: Link先を確認 | Jiacheng Tang, Cun-Zheng Ning, | (参考訳) 半導体中の多体電子-ホール錯体は、基本的な物理学的観点からも、実用的なデバイス用途においても重要である。
2バンド半導体における電子(e)とホール(h)(2e1h、または1e2h)の三体系は、それぞれ励起子とトリオン(または荷電励起子)の2つのスペクトルピークと関連していると考えられている。
しかし、この理解の妥当性と三重項や荷電励起子の物理的意味については、十分には検討されていない。
物理学の観点からは、 (e)(eh) と (eeh) の2つの異なる構成があり、これはそれぞれ荷電エキシトンとトライアンと見なすことができる。
ここで (...) はクーロン相互作用に関して既約クラスタを表す。
本稿では, 単層MoTe2を例に, 理論的, 実験的に2e1hの3体問題に関連するこれらの問題を考察する。
我々の理論ツールは、BSE(Bethe-Salpeter Equation)とクラスタ展開技術、特にそれらの対応を含む。
ゲート制御単層MoTe2の発光スペクトルを実験的に測定した。
その結果,21mVと4mVの2つのスペクトルピークが励起子ピークより下にあることがわかった。
2バンドモデルにおける3体BSEは、全てのスペクトル特徴を再現できるが、クラスター膨張法は、2つのピークがそれぞれ荷電エキシトン(e)(eh)とトライアン(eeh)に対応することを示す。
言い換えれば、2つの異なる多体構成によるスペクトル分割がある。
さらに, トリオンはインターバルレーの場合のみ存在し, 荷電エキシトンはインターバルレーの場合とバレー内の場合の両方で存在することがわかった。
Many-body electron-hole complexes in a semiconductor are important both from a fundamental physics point of view and for practical device applications. A three-body system of electrons (e) and holes (h) (2e1h, or 1e2h) in a two-band semiconductor is commonly believed to be associated with two spectral peaks for the exciton and trion (or charged exciton), respectively. But both the validity of this understanding and the physical meaning of a trion or charged exciton have not been thoroughly examined. From the physics point of view, there are two different configurations, (e)(eh) or (eeh), which could be considered charged exciton and trion, respectively. Here (...) represents an irreducible cluster with respect to Coulomb interactions. In this paper, we consider these issues related to the 2e1h three-body problem theoretically and experimentally using monolayer MoTe2 as an example. Our theoretical tools involve the three-body Bethe-Salpeter Equation (BSE) and the cluster expansion technique, especially their correspondence. Experimentally, we measure the photoluminescence spectrum on a gate-controlled monolayer MoTe2. We found two spectral peaks that are 21 and 4 meV, respectively, below the exciton peak, in contrast to the single "trion" peak from the conventional understanding. We show that, while the three-body BSE in a two-band model can reproduce all spectral features, the cluster-expansion technique shows that the two peaks correspond to the charged exciton (e)(eh) and trion (eeh), respectively. In other words, there is a spectral splitting due to the two different many-body configurations. Furthermore, we find that the trion only exists in the intervalley case, while the charged exciton exists both for the intervalley and intravalley cases. | 翻訳日:2024-05-06 13:45:11 公開日:2024-05-03 |
# エネルギーインフォマティクスにおけるサイバーセキュリティ
Cyber Security in Energy Informatics: A Non-technical Perspective ( http://arxiv.org/abs/2405.01867v1 ) ライセンス: Link先を確認 | Duong Dang, Tero Vartiainen, Mike Mekkanen, | (参考訳) エネルギー情報学におけるサイバーセキュリティを含むサイバーセキュリティに関する文献は、サイバーセキュリティ対策の全体像を理解する機会を逃す可能性のある、テコノリックな焦点である。
本研究の目的は,エネルギー情報分野におけるサイバーセキュリティの非技術的問題に焦点を当てた文献レビューを行うことである。
この結果は、教育、認識、政策、標準、人間とリスク、課題、解決策を含む7つの非技術問題が文献で議論されていることを示している。
これらの発見は研究者だけでなく、管理者、政策立案者、教育者にも有用である。
Literature in cyber security including cyber security in energy informatics are tecnocentric focuses that may miss the chances of understanding a bigger picture of cyber security measures. This research thus aims to conduct a literature review focusing on non-technical issues in cyber security in the energy informatics field. The findings show that there are seven non-technical issues have been discussed in literature, including education, awareness, policy, standards, human, and risks, challenges, and solutions. These findings can be valuable for not only researchers, but also managers, policy makers, and educators. | 翻訳日:2024-05-06 13:45:11 公開日:2024-05-03 |
# LLMに基づく会話レコメンダシステムのための外部知識とゴールガイダンスの導入
Incorporating External Knowledge and Goal Guidance for LLM-based Conversational Recommender Systems ( http://arxiv.org/abs/2405.01868v1 ) ライセンス: Link先を確認 | Chuang Li, Yang Deng, Hengchang Hu, Min-Yen Kan, Haizhou Li, | (参考訳) 本稿では,対話レコメンデータシステム(CRS)タスクにおいて,大規模言語モデル(LLM)が外部知識と目標ガイダンスを効果的に活用することを目的とする。
高度なLCM(例えばChatGPT)はドメイン固有のCRSタスクに制限される
1)レコメンデーション指向の知識で接地応答を発生させるか
2)対話目標の異なる会話を積極的に指導する。
本研究では,まずこれらの制約を総合的な評価を通じて分析し,推奨精度と言語品質に大きく寄与する外部知識と目標ガイダンスの必要性を示す。
この発見を踏まえて、複雑なCRSタスクを複数のサブタスクに分解するChatCRSフレームワークを提案する。
1)外部知識ベースを推論するためのツール強化アプローチを用いた知識検索エージェント
2)対話目標予測のための目標計画エージェント。
2つのマルチゴールCRSデータセットの実験結果は、ChatCRSが新しい最先端ベンチマークを設定し、言語品質のインフォメーションを17%改善し、アクティブを27%改善し、レコメンデーション精度を10倍に向上したことを示している。
This paper aims to efficiently enable large language models (LLMs) to use external knowledge and goal guidance in conversational recommender system (CRS) tasks. Advanced LLMs (e.g., ChatGPT) are limited in domain-specific CRS tasks for 1) generating grounded responses with recommendation-oriented knowledge, or 2) proactively leading the conversations through different dialogue goals. In this work, we first analyze those limitations through a comprehensive evaluation, showing the necessity of external knowledge and goal guidance which contribute significantly to the recommendation accuracy and language quality. In light of this finding, we propose a novel ChatCRS framework to decompose the complex CRS task into several sub-tasks through the implementation of 1) a knowledge retrieval agent using a tool-augmented approach to reason over external Knowledge Bases and 2) a goal-planning agent for dialogue goal prediction. Experimental results on two multi-goal CRS datasets reveal that ChatCRS sets new state-of-the-art benchmarks, improving language quality of informativeness by 17% and proactivity by 27%, and achieving a tenfold enhancement in recommendation accuracy. | 翻訳日:2024-05-06 13:35:25 公開日:2024-05-03 |
# 鋼表面欠陥認識に先立って拡散した欠陥画像サンプル生成
Defect Image Sample Generation With Diffusion Prior for Steel Surface Defect Recognition ( http://arxiv.org/abs/2405.01872v1 ) ライセンス: Link先を確認 | Yichun Tai, Kun Yang, Tao Peng, Zhenzhen Huang, Zhijiang Zhang, | (参考訳) 鉄鋼表面欠陥認識の課題は産業価値の高い産業問題である。
データ不足は、堅牢な欠陥認識ネットワークをトレーニングする上での大きな課題である。
既存の手法では、生成モデルを用いてサンプルを生成してデータセットを拡大する手法が検討されている。
しかし、その生成品質は、欠陥画像サンプルの不足によって制限されている。
そこで本稿では, 鋼表面欠陥画像生成のための安定拡散モデルに埋め込まれた膨大な生成分布を転送する安定表面欠陥生成(StableSDG)を提案する。
鋼表面画像と拡散モデル生成画像の差分分布に対処するため, 2つのプロセスを提案する。
まず,拡散モデルのパラメータを適応させて分布を調整し,トークン埋め込み空間とネットワークパラメータ空間の両方に適用する。
また、生成過程において、純粋なガウス雑音からではなく、画像指向生成を提案する。
鋼表面欠陥データセットに関する広範囲な実験を行い,高品質な試料生成とトレーニング認識モデルにおける最先端性能を実証した。
The task of steel surface defect recognition is an industrial problem with great industry values. The data insufficiency is the major challenge in training a robust defect recognition network. Existing methods have investigated to enlarge the dataset by generating samples with generative models. However, their generation quality is still limited by the insufficiency of defect image samples. To this end, we propose Stable Surface Defect Generation (StableSDG), which transfers the vast generation distribution embedded in Stable Diffusion model for steel surface defect image generation. To tackle with the distinctive distribution gap between steel surface images and generated images of the diffusion model, we propose two processes. First, we align the distribution by adapting parameters of the diffusion model, adopted both in the token embedding space and network parameter space. Besides, in the generation process, we propose image-oriented generation rather than from pure Gaussian noises. We conduct extensive experiments on steel surface defect dataset, demonstrating state-of-the-art performance on generating high-quality samples and training recognition models, and both designed processes are significant for the performance. | 翻訳日:2024-05-06 13:35:25 公開日:2024-05-03 |
# N-gram 言語上での Bi-LSTM モデルによる拡張 RNN によるバングラ語次の単語予測と文補完の強化
Enhancing Bangla Language Next Word Prediction and Sentence Completion through Extended RNN with Bi-LSTM Model On N-gram Language ( http://arxiv.org/abs/2405.01873v1 ) ライセンス: Link先を確認 | Md Robiul Islam, Al Amin, Aniqua Nusrat Zereen, | (参考訳) テキストは、世界中でもっとも顕著なコミュニケーション形態である。
個人は、メールを送ったり、ソーシャルメディアで何かを書くために、テキスト全体を書くのにかなりの時間を費やしている。
単語の予測と文の完成は、テキスト情報をより簡単に、より便利にするために、Bangla言語で適切かつ適切である。
本稿では,Banglaの単語予測とBangla文生成を効果的に扱えるBi-LSTMモデルを導入することにより,Bangla言語処理の範囲を広げ,その汎用性と潜在的影響を実証する。
そこで我々は,次の単語を予測し,文を完成させるために,新しいBi-LSTMモデルを提案する。
bdnews24, BBC News Bangla, Prothom Aloなど,様々なニュースポータルからコーパスデータセットを構築した。
提案手法は, 単語予測において, 4-gram および 5-gram の単語予測において, 99 % の精度を達成した。
さらに, 既存手法に比べて有意な改善がみられ, 1i-gram, Bi-gram, Tri-gram の単語予測では, 35-%, 75-%, 95-%の精度が得られた。
Texting stands out as the most prominent form of communication worldwide. Individual spend significant amount of time writing whole texts to send emails or write something on social media, which is time consuming in this modern era. Word prediction and sentence completion will be suitable and appropriate in the Bangla language to make textual information easier and more convenient. This paper expands the scope of Bangla language processing by introducing a Bi-LSTM model that effectively handles Bangla next-word prediction and Bangla sentence generation, demonstrating its versatility and potential impact. We proposed a new Bi-LSTM model to predict a following word and complete a sentence. We constructed a corpus dataset from various news portals, including bdnews24, BBC News Bangla, and Prothom Alo. The proposed approach achieved superior results in word prediction, reaching 99\% accuracy for both 4-gram and 5-gram word predictions. Moreover, it demonstrated significant improvement over existing methods, achieving 35\%, 75\%, and 95\% accuracy for uni-gram, bi-gram, and tri-gram word prediction, respectively | 翻訳日:2024-05-06 13:35:25 公開日:2024-05-03 |
# 大規模言語モデルを用いた制御論理テストケースの自動生成
Automated Control Logic Test Case Generation using Large Language Models ( http://arxiv.org/abs/2405.01874v1 ) ライセンス: Link先を確認 | Heiko Koziolek, Virendra Ashiwal, Soumyadip Bandyopadhyay, Chandrika K R, | (参考訳) 産業自動化におけるPLCとDCS制御ロジックのテストは、適切なテストケースが複雑で、定式化が難しいため、面倒で難しい。
研究者は以前、シンボル実行とサーチベース技術を適用したPLCソフトウェアのためのいくつかの自動テストケース生成手法を提案している。
しばしば、正式な仕様とプログラムの機械的解析を必要とするが、これらの手法は特定のプログラムエラーを発見できるが、時として状態空間の爆発に悩まされ、むしろ非公式な仕様を処理できない。
我々は,大規模言語モデル (LLM) を問うPLCテストケースの自動生成のための新しい手法を提案し,プロンプトで提供されるコードのテストケースを合成した。
OSCAT自動化ライブラリから10のオープンソース関数ブロックを使用した実験では、このアプローチが高速で、使いやすく、かつ、ロー・トゥ・メジウムの複雑なプログラムに対して高いステートメントカバレッジを持つテストケースが得られることが示された。
しかし,LSMによるテストケースでは,手動による適応が要求される場合が多く,誤断が生じることが判明した。
Testing PLC and DCS control logic in industrial automation is laborious and challenging since appropriate test cases are often complex and difficult to formulate. Researchers have previously proposed several automated test case generation approaches for PLC software applying symbolic execution and search-based techniques. Often requiring formal specifications and performing a mechanical analysis of programs, these approaches may uncover specific programming errors but sometimes suffer from state space explosion and cannot process rather informal specifications. We proposed a novel approach for the automatic generation of PLC test cases that queries a Large Language Model (LLM) to synthesize test cases for code provided in a prompt. Experiments with ten open-source function blocks from the OSCAT automation library showed that the approach is fast, easy to use, and can yield test cases with high statement coverage for low-to-medium complex programs. However, we also found that LLM-generated test cases suffer from erroneous assertions in many cases, which still require manual adaption. | 翻訳日:2024-05-06 13:35:25 公開日:2024-05-03 |
# 財務報告における説明可能なリスク分類
Explainable Risk Classification in Financial Reports ( http://arxiv.org/abs/2405.01881v1 ) ライセンス: Link先を確認 | Xue Wen Tan, Stanley Kok, | (参考訳) 米国内の上場企業はすべて、同社の豊富な情報を含む年間10Kの財務報告を提出する必要がある。
本稿では、FinBERT-XRCと呼ばれる10-Kのレポートを入力として、関連する企業の再帰変動リスクを自動的に評価する、説明可能なディープラーニングモデルを提案する。
従来のシステムとは対照的に,提案モデルでは,単語,文,コーパスの3段階の分類決定について,同時に説明を行った。
これにより、エンドユーザーに予測の包括的解釈を提供する。
これは、アルゴリズム予測の透明性と説明責任が意思決定プロセスへの応用において重要な役割を果たす金融分野において特に重要である。
新たな解釈可能性とは別に、我々のモデルは6年間にわたる10-Kレポートの大規模な実世界のデータセットの実験において、最先端の予測精度を上回ります。
Every publicly traded company in the US is required to file an annual 10-K financial report, which contains a wealth of information about the company. In this paper, we propose an explainable deep-learning model, called FinBERT-XRC, that takes a 10-K report as input, and automatically assesses the post-event return volatility risk of its associated company. In contrast to previous systems, our proposed model simultaneously offers explanations of its classification decision at three different levels: the word, sentence, and corpus levels. By doing so, our model provides a comprehensive interpretation of its prediction to end users. This is particularly important in financial domains, where the transparency and accountability of algorithmic predictions play a vital role in their application to decision-making processes. Aside from its novel interpretability, our model surpasses the state of the art in predictive accuracy in experiments on a large real-world dataset of 10-K reports spanning six years. | 翻訳日:2024-05-06 13:35:25 公開日:2024-05-03 |
# 医療モニタリングロボットにおけるミリ波レーダを用いた人間活動認識
Millimeter Wave Radar-based Human Activity Recognition for Healthcare Monitoring Robot ( http://arxiv.org/abs/2405.01882v1 ) ライセンス: Link先を確認 | Zhanzhong Gu, Xiangjian He, Gengfa Fang, Chengpei Xu, Feng Xia, Wenjing Jia, | (参考訳) 医療モニタリングは特に高齢者の日常生活において重要である。
転倒などの危険な事象を検知し、命を救うためのタイムリーなアラートを提供する。
先進的ヒト活動認識(HAR)モデルを用いた非侵襲ミリ波(mmWave)レーダを用いた医療監視システムが近年注目されている。
しかしながら、スパースポイントクラウドの処理、リアルタイムの継続的分類の実現、静的にマウントされた場合の限られた監視範囲への対応といった課題に直面している。
この制限を克服するため,人間活動のリアルタイム監視を目的とした,軽量な深層ニューラルネットワークを備えた移動ロボット搭載mmWaveレーダシステムであるRobHARを提案する。
具体的には,まず,光点Net(LPN)バックボーンを用いて,点雲の特徴を学習する。
次に,双方向軽量LSTMモデル(BiLiLSTM)を用いて時間パターンを学習する。
さらに,HMM(Hidden Markov Model)とCTC(Connectionist Temporal Classification)を統合し,連続HARの精度と堅牢性を向上する遷移最適化戦略を実装した。
3つのデータセットに対する実験から,本手法は離散的および連続的HARタスクにおいて,従来の研究よりも有意に優れていたことが示唆された。
最後に,我々のシステムを移動式ロボット搭載エッジコンピューティングプラットフォームにデプロイし,現実のシナリオで柔軟な医療モニタリングを実現する。
Healthcare monitoring is crucial, especially for the daily care of elderly individuals living alone. It can detect dangerous occurrences, such as falls, and provide timely alerts to save lives. Non-invasive millimeter wave (mmWave) radar-based healthcare monitoring systems using advanced human activity recognition (HAR) models have recently gained significant attention. However, they encounter challenges in handling sparse point clouds, achieving real-time continuous classification, and coping with limited monitoring ranges when statically mounted. To overcome these limitations, we propose RobHAR, a movable robot-mounted mmWave radar system with lightweight deep neural networks for real-time monitoring of human activities. Specifically, we first propose a sparse point cloud-based global embedding to learn the features of point clouds using the light-PointNet (LPN) backbone. Then, we learn the temporal pattern with a bidirectional lightweight LSTM model (BiLiLSTM). In addition, we implement a transition optimization strategy, integrating the Hidden Markov Model (HMM) with Connectionist Temporal Classification (CTC) to improve the accuracy and robustness of the continuous HAR. Our experiments on three datasets indicate that our method significantly outperforms the previous studies in both discrete and continuous HAR tasks. Finally, we deploy our system on a movable robot-mounted edge computing platform, achieving flexible healthcare monitoring in real-world scenarios. | 翻訳日:2024-05-06 13:35:25 公開日:2024-05-03 |
# DALLMi: LLMに基づくマルチラベル分類のためのドメイン適応
DALLMi: Domain Adaption for LLM-based Multi-label Classifier ( http://arxiv.org/abs/2405.01883v1 ) ライセンス: Link先を確認 | Miruna Beţianu, Abele Mălan, Marco Aldinucci, Robert Birke, Lydia Chen, | (参考訳) 大規模言語モデル(LLM)は、異なるドメインと複数のラベル(クラス)に関連付けられたテキストを分類するバックボーンとして機能するようになっている。
ドメインシフトに遭遇した場合、例えばIMDbからRotten Tomatoesへの映画レビューの分類器、LLMベースのマルチラベル分類器は、ターゲットドメインにおける不完全なラベルセットと、トレーニングのオーバーヘッドにより困難である。
既存のドメイン適応手法は、イメージマルチラベル分類器またはテキストバイナリ分類器に対処する。
本稿では,LLM,特にBERTをベースとしたテキストデータモデルの半教師付きドメイン適応手法であるDALLMi, Domain Adaptation Large Language Modelinterpolatorを設計する。
DALLMiの中核は、新規な変分損失とMixUp正規化であり、これは、限定された正のラベル付きおよび大量のラベルなしテキストと、BERT単語の埋め込みからの補間を併用するものである。
DALLMiはラベル付きデータとラベルなしデータの不均衡を克服するためのラベルバランスのサンプリング戦略も導入している。
我々はDALLMiを、ターゲットドメインのラベル可用性の異なるシナリオの下で、3つのデータセットに対する部分教師付きおよび教師なしのアプローチに対して評価する。
その結果, DALLMiは, 教師なしアプローチや部分教師なしアプローチよりも, 19.9%, 52.2%高いmAPを達成できた。
Large language models (LLMs) increasingly serve as the backbone for classifying text associated with distinct domains and simultaneously several labels (classes). When encountering domain shifts, e.g., classifier of movie reviews from IMDb to Rotten Tomatoes, adapting such an LLM-based multi-label classifier is challenging due to incomplete label sets at the target domain and daunting training overhead. The existing domain adaptation methods address either image multi-label classifiers or text binary classifiers. In this paper, we design DALLMi, Domain Adaptation Large Language Model interpolator, a first-of-its-kind semi-supervised domain adaptation method for text data models based on LLMs, specifically BERT. The core of DALLMi is the novel variation loss and MixUp regularization, which jointly leverage the limited positively labeled and large quantity of unlabeled text and, importantly, their interpolation from the BERT word embeddings. DALLMi also introduces a label-balanced sampling strategy to overcome the imbalance between labeled and unlabeled data. We evaluate DALLMi against the partial-supervised and unsupervised approach on three datasets under different scenarios of label availability for the target domain. Our results show that DALLMi achieves higher mAP than unsupervised and partially-supervised approaches by 19.9% and 52.2%, respectively. | 翻訳日:2024-05-06 13:35:25 公開日:2024-05-03 |
# 単一イベント抽出を超えて: 効率的な文書レベルマルチイベント引数抽出を目指して
Beyond Single-Event Extraction: Towards Efficient Document-Level Multi-Event Argument Extraction ( http://arxiv.org/abs/2405.01884v1 ) ライセンス: Link先を確認 | Wanlong Liu, Li Zhou, Dingyi Zeng, Yichen Xiao, Shaohuan Cheng, Chen Zhang, Grandee Lee, Malu Zhang, Wenyu Chen, | (参考訳) 最近の主流のイベント引数抽出法は、各イベントを分離して処理し、非効率な推論を行い、複数のイベント間の相関を無視する。
これらの制約に対処するために,文書内のすべてのイベントから引数を抽出可能な多値引数抽出モデルDEEIA(Dependency-guided Encoding and Event-specific Information Aggregation)を提案する。
DEモジュールはプロンプトとそれに対応するイベントコンテキストの相関性を改善するために設計されており、EIAモジュールはコンテキスト理解を改善するためにイベント固有の情報を提供する。
実験の結果,提案手法は4つの公開データセット(RAMS, WikiEvents, MLEE, ACE05)に対して新たな最先端性能を実現するとともに,ベースラインと比較して推論時間を著しく短縮することがわかった。
さらに解析を行い,提案手法の有効性を示した。
Recent mainstream event argument extraction methods process each event in isolation, resulting in inefficient inference and ignoring the correlations among multiple events. To address these limitations, here we propose a multiple-event argument extraction model DEEIA (Dependency-guided Encoding and Event-specific Information Aggregation), capable of extracting arguments from all events within a document simultaneouslyThe proposed DEEIA model employs a multi-event prompt mechanism, comprising DE and EIA modules. The DE module is designed to improve the correlation between prompts and their corresponding event contexts, whereas the EIA module provides event-specific information to improve contextual understanding. Extensive experiments show that our method achieves new state-of-the-art performance on four public datasets (RAMS, WikiEvents, MLEE, and ACE05), while significantly saving the inference time compared to the baselines. Further analyses demonstrate the effectiveness of the proposed modules. | 翻訳日:2024-05-06 13:35:25 公開日:2024-05-03 |
# 文脈認識型視覚テキストコントラスト学習による感情理解のためのマイクロジェスチャ認識の強化
Enhancing Micro Gesture Recognition for Emotion Understanding via Context-aware Visual-Text Contrastive Learning ( http://arxiv.org/abs/2405.01885v1 ) ライセンス: Link先を確認 | Deng Li, Bohao Xing, Xin Liu, | (参考訳) 心理学的な研究により、マイクロ・ジェスチャ(MG)は人間の感情と密接に関連していることが示されている。
MGに基づく感情理解は、身元情報(顔や心電図のデータなど)を頼らずに、非言語的身体動作による感情理解を可能にするため、多くの注目を集めている。
したがって、高度な感情理解のためには、MGを効果的に認識することが不可欠である。
しかし、既存のマイクロジェスチャー認識(MGR)法では、重要なテキスト情報を見越しながら単一のモード(例えばRGBやスケルトン)しか利用していない。
本稿では,MGRのテキスト情報を利用した,シンプルで効果的な視覚テキストコントラスト学習ソリューションを提案する。
さらに,視覚テキストのコントラスト学習に手書きのプロンプトを使う代わりに,文脈認識プロンプトを生成するためのAdaptiveプロンプトと呼ばれる新しいモジュールを提案する。
実験の結果,提案手法は2つの公開データセット上での最先端性能を実現することがわかった。
さらに、感情理解のためのMGRの結果を利用した経験的研究に基づいて、MGRのテキストによる結果を用いることで、ビデオを直接入力として使用するよりも、6%以上性能が向上することが実証された。
Psychological studies have shown that Micro Gestures (MG) are closely linked to human emotions. MG-based emotion understanding has attracted much attention because it allows for emotion understanding through nonverbal body gestures without relying on identity information (e.g., facial and electrocardiogram data). Therefore, it is essential to recognize MG effectively for advanced emotion understanding. However, existing Micro Gesture Recognition (MGR) methods utilize only a single modality (e.g., RGB or skeleton) while overlooking crucial textual information. In this letter, we propose a simple but effective visual-text contrastive learning solution that utilizes text information for MGR. In addition, instead of using handcrafted prompts for visual-text contrastive learning, we propose a novel module called Adaptive prompting to generate context-aware prompts. The experimental results show that the proposed method achieves state-of-the-art performance on two public datasets. Furthermore, based on an empirical study utilizing the results of MGR for emotion understanding, we demonstrate that using the textual results of MGR significantly improves performance by 6%+ compared to directly using video as input. | 翻訳日:2024-05-06 13:35:25 公開日:2024-05-03 |
# Aloe: 微調整のオープンヘルスケアLLMの家族
Aloe: A Family of Fine-tuned Open Healthcare LLMs ( http://arxiv.org/abs/2405.01886v1 ) ライセンス: Link先を確認 | Ashwin Kumar Gururajan, Enrique Lopez-Cuena, Jordi Bayarri-Planas, Adrian Tormos, Daniel Hinjos, Pablo Bernabeu-Perez, Anna Arias-Duart, Pablo Agustin Martin-Torres, Lucia Urcelay-Ganzabal, Marta Gonzalez-Mallo, Sergio Alvarez-Napagao, Eduard Ayguadé-Parra, Ulises Cortés Dario Garcia-Gasulla, | (参考訳) 医療と医療におけるLLM(Large Language Models)の能力が向上するにつれ、公衆の関心を守るための競争力のあるオープンソースモデルの必要性が高まっている。
競争力の高いオープンベースモデルの普及に伴い、継続する事前訓練の影響はますます不確実になっている。
本研究では、現在のオープンモデルを改善する手段として、インストラクションチューニング、モデルマージ、アライメント、レッドチーム化、および高度な推論スキームの役割について検討する。
そこで我々は,オープン医療用LLMの規模で高い競争力を持つAloe familyを紹介した。
Aloeモデルは現在の最高のベースモデル(Mistral, LLaMA 3)でトレーニングされており、新しいカスタムデータセットを使用して、改善された公開データソースとCoT(Synthetic Chain of Thought)を組み合わせる。
Aloeモデルはアライメントフェーズを実行し、ダイレクト・プライス・オプティマイゼーション(Direct Preference Optimization)を使用して、最初の数少ないポリシーに準拠したオープンヘルスケア LLM の1つとなり、ヘルスケア LLM における倫理的パフォーマンスの新たな標準を確立した。
モデル評価は、様々なバイアスと毒性データセット、専用のレッドチームワーク、医療用LSMに対する待望のリスクアセスメントを含むように拡張される。
最後に,現在のLLMの限界を推測するために,ベンチマークによるパフォーマンス向上を目的とした,先進的なエンジニアリング戦略をいくつか検討し,オープンヘルスケア7B LLMの最先端結果を得た。
As the capabilities of Large Language Models (LLMs) in healthcare and medicine continue to advance, there is a growing need for competitive open-source models that can safeguard public interest. With the increasing availability of highly competitive open base models, the impact of continued pre-training is increasingly uncertain. In this work, we explore the role of instruct tuning, model merging, alignment, red teaming and advanced inference schemes, as means to improve current open models. To that end, we introduce the Aloe family, a set of open medical LLMs highly competitive within its scale range. Aloe models are trained on the current best base models (Mistral, LLaMA 3), using a new custom dataset which combines public data sources improved with synthetic Chain of Thought (CoT). Aloe models undergo an alignment phase, becoming one of the first few policy-aligned open healthcare LLM using Direct Preference Optimization, setting a new standard for ethical performance in healthcare LLMs. Model evaluation expands to include various bias and toxicity datasets, a dedicated red teaming effort, and a much-needed risk assessment for healthcare LLMs. Finally, to explore the limits of current LLMs in inference, we study several advanced prompt engineering strategies to boost performance across benchmarks, yielding state-of-the-art results for open healthcare 7B LLMs, unprecedented at this scale. | 翻訳日:2024-05-06 13:35:25 公開日:2024-05-03 |
# オープンなRANインフラストラクチャのセキュリティ - Kubernetesデプロイメントの脆弱性を探る
Securing the Open RAN Infrastructure: Exploring Vulnerabilities in Kubernetes Deployments ( http://arxiv.org/abs/2405.01888v1 ) ライセンス: Link先を確認 | Felix Klement, Alessandro Brighente, Michele Polese, Mauro Conti, Stefan Katzenbeisser, | (参考訳) 本稿では,O-RANソフトウェアコミュニティ(OSC)スタックとインフラストラクチャを基盤として,O-RAN ALLIANCEおよびO-Cloudデプロイメントによって提案されるアーキテクチャに着目し,仮想化およびソフトウェアベースのOpen Radio Access Network(RAN)システムのセキュリティへの影響について検討する。
我々の重要な発見は、OSC Near Real-Time RAN Intelligent Controller (RIC)クラスタの徹底的なセキュリティ評価と静的スキャンに基づいている。
RICをサポートするKubernetesインフラストラクチャに潜在的な脆弱性と設定ミスがあることを強調し、また、古いバージョンのソフトウェアパッケージを使用することによって、さまざまなデプロイメント監査フレームワーク(例えば、MITRE ATT&CKとNSA CISA)を使用して、それらのクリティカルさを見積もる。
さらに,これらの問題を最小化し,Open RAN仮想化インフラの強化を図る手法を提案する。
これらは、セキュリティ評価手法をデプロイメントプロセスに統合し、デプロイメントの強化対策を実装し、RANコンポーネントに対してポリシーベースの制御を採用することを含む。
我々は、仮想化されたOpen RANシステムの全体的なセキュリティを改善するために、問題に対処する必要があることを強調する。
In this paper, we investigate the security implications of virtualized and software-based Open Radio Access Network (RAN) systems, specifically focusing on the architecture proposed by the O-RAN ALLIANCE and O-Cloud deployments based on the O-RAN Software Community (OSC) stack and infrastructure. Our key findings are based on a thorough security assessment and static scanning of the OSC Near Real-Time RAN Intelligent Controller (RIC) cluster. We highlight the presence of potential vulnerabilities and misconfigurations in the Kubernetes infrastructure supporting the RIC, also due to the usage of outdated versions of software packages, and provide an estimation of their criticality using various deployment auditing frameworks (e.g., MITRE ATT&CK and the NSA CISA). In addition, we propose methodologies to minimize these issues and harden the Open RAN virtualization infrastructure. These encompass the integration of security evaluation methods into the deployment process, implementing deployment hardening measures, and employing policy-based control for RAN components. We emphasize the need to address the problems found in order to improve the overall security of virtualized Open RAN systems. | 翻訳日:2024-05-06 13:35:25 公開日:2024-05-03 |
# ニューラルコンビネーション最適化の大規模一般化のためのインスタンス記述型適応
Instance-Conditioned Adaptation for Large-scale Generalization of Neural Combinatorial Optimization ( http://arxiv.org/abs/2405.01906v1 ) ライセンス: Link先を確認 | Changliang Zhou, Xi Lin, Zhenkun Wang, Xialiang Tong, Mingxuan Yuan, Qingfu Zhang, | (参考訳) NCO(Neural combinatorial Optimization)アプローチは、専門家の知識を必要とせずにルーティング問題を解決する大きな可能性を示している。
しかし、既存の構成的NCO手法では、大規模インスタンスを直接解決できないため、アプリケーションの見通しは著しく制限される。
これらの重要な欠点に対処するため、ニューラルコンビナトリ最適化の大規模一般化のための新しいICAM(Instance-Conditioned Adaptation Model)を提案する。
特に、異なるスケールのインスタンスに対してより良いソリューションを生成するために、NCOモデルのための強力で軽量なインスタンス条件適応モジュールを設計する。
さらに,ラベル付き最適解を使わずに,モデルがクロススケールな特徴を学習できる3段階強化学習に基づく効率的なトレーニング手法を開発した。
実験の結果,提案手法はトラベリングセールスマン問題 (TSP) とキャパシタントカールーティング問題 (CVRP) を異なるスケールで解く際に,非常に高速な推論時間で優れた結果が得られることがわかった。
我々の知る限り、我々のモデルは、最大1000ノードのTSPとCVRPのためのすべてのRLベースの構築手法の中で、最先端のパフォーマンスを達成する。
The neural combinatorial optimization (NCO) approach has shown great potential for solving routing problems without the requirement of expert knowledge. However, existing constructive NCO methods cannot directly solve large-scale instances, which significantly limits their application prospects. To address these crucial shortcomings, this work proposes a novel Instance-Conditioned Adaptation Model (ICAM) for better large-scale generalization of neural combinatorial optimization. In particular, we design a powerful yet lightweight instance-conditioned adaptation module for the NCO model to generate better solutions for instances across different scales. In addition, we develop an efficient three-stage reinforcement learning-based training scheme that enables the model to learn cross-scale features without any labeled optimal solution. Experimental results show that our proposed method is capable of obtaining excellent results with a very fast inference time in solving Traveling Salesman Problems (TSPs) and Capacitated Vehicle Routing Problems (CVRPs) across different scales. To the best of our knowledge, our model achieves state-of-the-art performance among all RL-based constructive methods for TSP and CVRP with up to 1,000 nodes. | 翻訳日:2024-05-06 13:35:25 公開日:2024-05-03 |
# O(Nd)演算を用いた完全Adagradアルゴリズム
A Full Adagrad algorithm with O(Nd) operations ( http://arxiv.org/abs/2405.01908v1 ) ライセンス: Link先を確認 | Antoine Godichon-Baggioni, Wei Lu, Bruno Portier, | (参考訳) 確率最適化における完全行列適応勾配アルゴリズム (Full AdaGrad) の計算課題を克服する新しい手法が提案されている。
パラメータ更新のためのストリーミング変分とともに勾配の共分散の平方根の逆を推定する再帰的手法を開発することにより、大規模アプリケーションに対して効率的かつ実用的なアルゴリズムを提供する。
この革新的な戦略は、一般的にフルマトリクスメソッドに関連する複雑さとリソース要求を大幅に減らし、より効率的な最適化プロセスを可能にします。
さらに,提案した推定器の収束率とその漸近効率について検討した。
それらの効果は数値的な研究によって証明される。
A novel approach is given to overcome the computational challenges of the full-matrix Adaptive Gradient algorithm (Full AdaGrad) in stochastic optimization. By developing a recursive method that estimates the inverse of the square root of the covariance of the gradient, alongside a streaming variant for parameter updates, the study offers efficient and practical algorithms for large-scale applications. This innovative strategy significantly reduces the complexity and resource demands typically associated with full-matrix methods, enabling more effective optimization processes. Moreover, the convergence rates of the proposed estimators and their asymptotic efficiency are given. Their effectiveness is demonstrated through numerical studies. | 翻訳日:2024-05-06 13:35:25 公開日:2024-05-03 |
# GoogleとBaiduにおけるオンライン検索エンジンの自動補完の比較
A comparison of online search engine autocompletion in Google and Baidu ( http://arxiv.org/abs/2405.01917v1 ) ライセンス: Link先を確認 | Geng Liu, Pietro Pinoli, Stefano Ceri, Francesco Pierri, | (参考訳) 警告: 本論文は、不快または動揺する可能性のある内容を含む。
オンライン検索エンジンのオートコンプリートにより、ユーザーは情報検索やアクセスがより簡単になる。
しかし、それらはまた、様々な社会集団に関するステレオタイプや否定的な意見を強化し、促進する可能性がある。
本稿では,BaiduとGoogleの2つの言語的・文化的文脈における検索オートコンプリートの特徴について検討する。
この2つの検索エンジンの違いは、元のクエリを抑えるか、あるいは変更するかの違いであり、すべてのソーシャルグループに否定的な提案があることを強調します。
我々の研究は、現在の言語技術においてより洗練され、文化的に敏感なモデレーション戦略の必要性を強調した。
Warning: This paper contains content that may be offensive or upsetting. Online search engine auto-completions make it faster for users to search and access information. However, they also have the potential to reinforce and promote stereotypes and negative opinions about a variety of social groups. We study the characteristics of search auto-completions in two different linguistic and cultural contexts: Baidu and Google. We find differences between the two search engines in the way they suppress or modify original queries, and we highlight a concerning presence of negative suggestions across all social groups. Our study highlights the need for more refined, culturally sensitive moderation strategies in current language technologies. | 翻訳日:2024-05-06 13:35:25 公開日:2024-05-03 |
# オンライン全整数プランニング訓練による異種リモートセンシング画像の軽量変化検出
Lightweight Change Detection in Heterogeneous Remote Sensing Images with Online All-Integer Pruning Training ( http://arxiv.org/abs/2405.01920v1 ) ライセンス: Link先を確認 | Chengyang Zhang, Weiming Li, Gang Li, Huina Song, Zhaohui Song, Xueqian Wang, Antonio Plaza, | (参考訳) 不均一なリモートセンシング画像の変化の検出は、特に地震や洪水などの緊急事態に対応するために不可欠である。
現在の同種変換に基づく変化検出(CD)法は、しばしば高い計算とメモリコストに悩まされ、衛星搭載CD装置のようなエッジ計算装置と親和性がない。
そこで本研究では,オンライン全整数プルーニング(OAIP)トレーニング戦略を用いて,現在のテストデータを用いてCDネットワークを効率よく微調整する,異種リモートセンシング画像のための新しい軽量CD手法を提案する。
提案したCDネットワークは、バックボーンアーキテクチャとして2つの視覚幾何学グループ(VGG)サブネットワークで構成されている。
OAIPベースのトレーニングプロセスでは、全ての重み、勾配、中間データを整数に量子化し、トレーニングを高速化し、メモリ使用量を削減する。
第2に、L1ノルム基準に基づく適応型フィルタレベルのプルーニング法を用いて、CDネットワークの微調整プロセスをさらに軽量化する。
実験結果から,OAIP法は現状のCD法と比較して,同様の検出性能(計算複雑性とメモリ使用量を大幅に削減した)が得られた。
Detection of changes in heterogeneous remote sensing images is vital, especially in response to emergencies like earthquakes and floods. Current homogenous transformation-based change detection (CD) methods often suffer from high computation and memory costs, which are not friendly to edge-computation devices like onboard CD devices at satellites. To address this issue, this paper proposes a new lightweight CD method for heterogeneous remote sensing images that employs the online all-integer pruning (OAIP) training strategy to efficiently fine-tune the CD network using the current test data. The proposed CD network consists of two visual geometry group (VGG) subnetworks as the backbone architecture. In the OAIP-based training process, all the weights, gradients, and intermediate data are quantized to integers to speed up training and reduce memory usage, where the per-layer block exponentiation scaling scheme is utilized to reduce the computation errors of network parameters caused by quantization. Second, an adaptive filter-level pruning method based on the L1-norm criterion is employed to further lighten the fine-tuning process of the CD network. Experimental results show that the proposed OAIP-based method attains similar detection performance (but with significantly reduced computation complexity and memory usage) in comparison with state-of-the-art CD methods. | 翻訳日:2024-05-06 13:35:25 公開日:2024-05-03 |
# バイナリトークンインデックスによる半パラメトリック検索
Semi-Parametric Retrieval via Binary Token Index ( http://arxiv.org/abs/2405.01924v1 ) ライセンス: Link先を確認 | Jiawei Zhou, Li Dong, Furu Wei, Lei Chen, | (参考訳) 情報検索の展望は、検索サービスから様々な先進的なアプリケーションにおいて重要なコンポーネントへと広がり、索引付け効率、コスト効率、新鮮さはますます重要になっているが、まだ探索が進んでいない。
これらの要求に対処するために,半パラメトリックな語彙分散検索(SVDR)を導入する。
SVDRは2種類のインデックスをサポートする新しい半パラメトリック検索フレームワークである。組込みベースインデックスは、既存のニューラル検索手法と同様、従来の用語ベースの検索と同様、迅速で費用対効果の高い設定を可能にするバイナリトークンインデックスである。
検索コーパスとしてのウィキペディア全体の3つのオープンドメイン質問応答ベンチマークの評価において,SVDRは一貫して優位性を示す。
埋め込みベースインデックスを使用する場合の高密度検索器DPRよりも3%高いトップ1検索精度と、バイナリトークンインデックスを使用する場合のBM25よりも9%高いトップ1検索精度を実現する。
具体的には、バイナリトークンインデックスの採用により、インデックス作成時間が30GPU時間から2CPU時間に短縮され、ストレージサイズが31GBから2GBに短縮され、埋め込みベースのインデックスと比較して90%削減される。
The landscape of information retrieval has broadened from search services to a critical component in various advanced applications, where indexing efficiency, cost-effectiveness, and freshness are increasingly important yet remain less explored. To address these demands, we introduce Semi-parametric Vocabulary Disentangled Retrieval (SVDR). SVDR is a novel semi-parametric retrieval framework that supports two types of indexes: an embedding-based index for high effectiveness, akin to existing neural retrieval methods; and a binary token index that allows for quick and cost-effective setup, resembling traditional term-based retrieval. In our evaluation on three open-domain question answering benchmarks with the entire Wikipedia as the retrieval corpus, SVDR consistently demonstrates superiority. It achieves a 3% higher top-1 retrieval accuracy compared to the dense retriever DPR when using an embedding-based index and an 9% higher top-1 accuracy compared to BM25 when using a binary token index. Specifically, the adoption of a binary token index reduces index preparation time from 30 GPU hours to just 2 CPU hours and storage size from 31 GB to 2 GB, achieving a 90% reduction compared to an embedding-based index. | 翻訳日:2024-05-06 13:25:40 公開日:2024-05-03 |
# マルチモーダルLCMのための自動符号化方式
Auto-Encoding Morph-Tokens for Multimodal LLM ( http://arxiv.org/abs/2405.01926v1 ) ライセンス: Link先を確認 | Kaihang Pan, Siliang Tang, Juncheng Li, Zhaoyu Fan, Wei Chow, Shuicheng Yan, Tat-Seng Chua, Yueting Zhuang, Hanwang Zhang, | (参考訳) マルチモーダルLLMでは、視覚的理解(テキスト出力)と生成(視覚出力)の相乗効果が進行中の課題である。
これは矛盾する目的によるもので、理解するためには、MLLMは視覚を抽象化する必要がある。
したがって、目的は視覚障害者のためのジレンマである。
コンフリクトを解決するために,画像をモルモットに符号化して2つの目的を果たすことを提案する。理解のために,MLLMにテキストを生成するように指示する視覚的プロンプトとして機能し,生成するためには,欠落した視覚的手がかりがMLLMによって復元される画像再構成のための完全な視覚的トークンとして,異なる非複雑な役割を担っている。
大規模な実験により、モルヒネはマルチモーダル理解と生成を同時に行うための新しいSOTAを実現できることが示された。
私たちのプロジェクトはhttps://github.com/DCDmllm/MorphTokens.comで利用可能です。
For multimodal LLMs, the synergy of visual comprehension (textual output) and generation (visual output) presents an ongoing challenge. This is due to a conflicting objective: for comprehension, an MLLM needs to abstract the visuals; for generation, it needs to preserve the visuals as much as possible. Thus, the objective is a dilemma for visual-tokens. To resolve the conflict, we propose encoding images into morph-tokens to serve a dual purpose: for comprehension, they act as visual prompts instructing MLLM to generate texts; for generation, they take on a different, non-conflicting role as complete visual-tokens for image reconstruction, where the missing visual cues are recovered by the MLLM. Extensive experiments show that morph-tokens can achieve a new SOTA for multimodal comprehension and generation simultaneously. Our project is available at https://github.com/DCDmllm/MorphTokens. | 翻訳日:2024-05-06 13:25:40 公開日:2024-05-03 |
# SlotGAT:不均一グラフニューラルネットワークのためのスロットベースのメッセージパッシング
SlotGAT: Slot-based Message Passing for Heterogeneous Graph Neural Network ( http://arxiv.org/abs/2405.01927v1 ) ライセンス: Link先を確認 | Ziang Zhou, Jieming Shi, Renchi Yang, Yuanhang Zou, Qing Li, | (参考訳) 不均一グラフは複雑なデータをモデル化するためにユビキタスである。
重要なアプリケーションを効果的にサポートするために、強力な異種グラフニューラルネットワークが緊急に必要である。
既存のメッセージパッシングプロセスでは、ノード$v$の隣人の表現が、アグリゲーションのために$v$という特徴空間に変換されなければならない。
つまり、異なるノードタイプのセマンティクスは、ノード$v$の表現にまとめられる。
この問題に対処するため,各ノードタイプ毎にそれぞれ別々のメッセージパッシングプロセスを持つSlotGATを提案し,それぞれのノードタイプの特徴空間における表現を維持する。
さらに、スロットベースのメッセージパッシング層において、効果的なスロットワイドメッセージアグリゲーションのためのアテンション機構を設計する。
さらに,SlotGATの最終層に次いでスロットアテンション手法を開発し,下流タスクにおけるスロットの重要性を学習する。
分析の結果,SlotGATのスロットは様々な特徴空間で異なる意味を保存できることがわかった。
SlotGATの優位性は、ノード分類とリンク予測のための6つのデータセットの13のベースラインに対して評価される。
私たちのコードはhttps://github.com/scottjiao/SlotGAT_ICML23/です。
Heterogeneous graphs are ubiquitous to model complex data. There are urgent needs on powerful heterogeneous graph neural networks to effectively support important applications. We identify a potential semantic mixing issue in existing message passing processes, where the representations of the neighbors of a node $v$ are forced to be transformed to the feature space of $v$ for aggregation, though the neighbors are in different types. That is, the semantics in different node types are entangled together into node $v$'s representation. To address the issue, we propose SlotGAT with separate message passing processes in slots, one for each node type, to maintain the representations in their own node-type feature spaces. Moreover, in a slot-based message passing layer, we design an attention mechanism for effective slot-wise message aggregation. Further, we develop a slot attention technique after the last layer of SlotGAT, to learn the importance of different slots in downstream tasks. Our analysis indicates that the slots in SlotGAT can preserve different semantics in various feature spaces. The superiority of SlotGAT is evaluated against 13 baselines on 6 datasets for node classification and link prediction. Our code is at https://github.com/scottjiao/SlotGAT_ICML23/. | 翻訳日:2024-05-06 13:25:40 公開日:2024-05-03 |
# OARelatedWork: オープンアクセスソースからのフルテキストを備えた関連作業セクションの大規模データセット
OARelatedWork: A Large-Scale Dataset of Related Work Sections with Full-texts from Open Access Sources ( http://arxiv.org/abs/2405.01930v1 ) ライセンス: Link先を確認 | Martin Docekal, Martin Fajcik, Pavel Smrz, | (参考訳) 本稿では,OARelatedWorkについて紹介する。OARelatedWorkは,全作業項目と引用論文の全文を含む関連作業生成のための,最初の大規模マルチドキュメント要約データセットである。
データセットには94の450の論文と5の824の689のユニークな参照論文が含まれている。
抽象的アプローチにおいて現在主流となっている抽象的な部分のみから、関連する作業部分の一部を生成する代わりに、すべての利用可能なコンテンツから、関連する作業部分全体を生成するために、フィールドを自動的に生成するタスクを設計した。
本研究は,抽象文の代わりに全内容を用いた場合,ROUGE-2スコアにおいて,抽出要約の上限が217%増加することを示す。
さらに、ナイーブ、オラクル、伝統的、トランスフォーマーベースのベースラインに関する完全なコンテンツデータの利点を示す。
関連する作業セクションなどの長いアウトプットは、BERTScoreのような入力長が制限されているため、自動評価メトリクスの課題を提起する。
BERTScoreを用いたメタメトリックの提案と評価によってこの問題に対処する。
小さいブロックで動作するにもかかわらず、このメタメトリックは、元のBERTScoreと同等に、人間の判断と相関することを示す。
This paper introduces OARelatedWork, the first large-scale multi-document summarization dataset for related work generation containing whole related work sections and full-texts of cited papers. The dataset includes 94 450 papers and 5 824 689 unique referenced papers. It was designed for the task of automatically generating related work to shift the field toward generating entire related work sections from all available content instead of generating parts of related work sections from abstracts only, which is the current mainstream in this field for abstractive approaches. We show that the estimated upper bound for extractive summarization increases by 217% in the ROUGE-2 score, when using full content instead of abstracts. Furthermore, we show the benefits of full content data on naive, oracle, traditional, and transformer-based baselines. Long outputs, such as related work sections, pose challenges for automatic evaluation metrics like BERTScore due to their limited input length. We tackle this issue by proposing and evaluating a meta-metric using BERTScore. Despite operating on smaller blocks, we show this meta-metric correlates with human judgment, comparably to the original BERTScore. | 翻訳日:2024-05-06 13:25:40 公開日:2024-05-03 |
# Deep Learning Adversarial Robustnessに対するアーキテクチャ変更の影響
Impact of Architectural Modifications on Deep Learning Adversarial Robustness ( http://arxiv.org/abs/2405.01934v1 ) ライセンス: Link先を確認 | Firuz Juraev, Mohammed Abuhamad, Simon S. Woo, George K Thiruvathukal, Tamer Abuhmed, | (参考訳) ディープラーニングの急速な進歩は、自動運転車、ドローン、ロボット、監視システムなど、さまざまなアプリケーションで採用が加速している。
これらの進歩には、モデルの性能を改善する洗練されたテクニックのバリエーションの適用が含まれる。
しかし、このようなモデルは敵の操作に免疫がないため、システムが誤った振る舞いをし、専門家が気づかないままになる可能性がある。
既存のディープラーニングモデルへの修正の頻度は、モデルの堅牢性に与える影響を決定するために、徹底的な分析を必要とする。
本研究では, モデル修正が学習モデルの強靭性に及ぼす影響を, 対角攻撃を用いて実験的に評価する。
本手法は, 種々の敵攻撃に対するモデル変動の頑健性について検討する。
実験を行うことで、安全およびセキュリティクリティカルなアプリケーションにおいて、ディープラーニングモデルの信頼性と安全性を維持することの重大な問題に光を当てることを目指している。
以上の結果から,モデル変更がモデルの頑健性に及ぼす影響を詳細に評価する上でのプレッシャーが示唆された。
Rapid advancements of deep learning are accelerating adoption in a wide variety of applications, including safety-critical applications such as self-driving vehicles, drones, robots, and surveillance systems. These advancements include applying variations of sophisticated techniques that improve the performance of models. However, such models are not immune to adversarial manipulations, which can cause the system to misbehave and remain unnoticed by experts. The frequency of modifications to existing deep learning models necessitates thorough analysis to determine the impact on models' robustness. In this work, we present an experimental evaluation of the effects of model modifications on deep learning model robustness using adversarial attacks. Our methodology involves examining the robustness of variations of models against various adversarial attacks. By conducting our experiments, we aim to shed light on the critical issue of maintaining the reliability and safety of deep learning models in safety- and security-critical applications. Our results indicate the pressing demand for an in-depth assessment of the effects of model changes on the robustness of models. | 翻訳日:2024-05-06 13:25:40 公開日:2024-05-03 |
# 頭頸部画像における前癌病変の同定のための注意に基づくパイプライン
An Attention Based Pipeline for Identifying Pre-Cancer Lesions in Head and Neck Clinical Images ( http://arxiv.org/abs/2405.01937v1 ) ライセンス: Link先を確認 | Abdullah Alsalemi, Anza Shakeel, Mollie Clark, Syed Ali Khurram, Shan E Ahmed Raza, | (参考訳) 早期のがん検出は早期の介入によって患者の予後を改善するのに役立つ。
頭頸部癌は外科生検後に専門病院で診断されるが、診断が遅れる可能性がある。
これらの課題を克服するため,疑わしい病変,セグメントを同定し,非異形成性病変,異形成性病変,癌性病変と分類するアテンションベースパイプラインを提案する。
特集にあたって
(a)臨床画像の病変検出・セグメント化のための視覚変換器を用いたMask R-CNNネットワーク
b) 分類のためのマルチインスタンス学習(MIL)に基づくスキーム。
その結果, セグメンテーションモデルでは, セグメンテーションマスクとバウンディングボックスを最大82%のオーバーラップ精度で生成し, 検証されたセグメンテーションベンチマークを上回った。
次に、内部コホートテストセットの分類F1スコアが85%である。
スマートデバイスを介して、病変のセグメンテーションを行うためのアプリが開発されている。
今後の研究は、正確な早期発見と予後のための内視鏡的ビデオデータの利用である。
Early detection of cancer can help improve patient prognosis by early intervention. Head and neck cancer is diagnosed in specialist centres after a surgical biopsy, however, there is a potential for these to be missed leading to delayed diagnosis. To overcome these challenges, we present an attention based pipeline that identifies suspected lesions, segments, and classifies them as non-dysplastic, dysplastic and cancerous lesions. We propose (a) a vision transformer based Mask R-CNN network for lesion detection and segmentation of clinical images, and (b) Multiple Instance Learning (MIL) based scheme for classification. Current results show that the segmentation model produces segmentation masks and bounding boxes with up to 82% overlap accuracy score on unseen external test data and surpassing reviewed segmentation benchmarks. Next, a classification F1-score of 85% on the internal cohort test set. An app has been developed to perform lesion segmentation taken via a smart device. Future work involves employing endoscopic video data for precise early detection and prognosis. | 翻訳日:2024-05-06 13:25:40 公開日:2024-05-03 |
# SemEval-2024 Task 2でのCRCL: 簡単なプロンプト最適化
CRCL at SemEval-2024 Task 2: Simple prompt optimizations ( http://arxiv.org/abs/2405.01942v1 ) ライセンス: Link先を確認 | Clément Brutti-Mairesse, Loïc Verlingue, | (参考訳) 本研究は,SemEval 2024タスク2課題のベースラインとして,臨床治験報告の2つのセクションとステートメントの推論関係を確認することを目的としている。
言語モデル・アズ・ア・サービス(LMaaS)として提供されるLLM命令モデルを用いて,迅速な最適化手法を適用する。
近年の知見に則って, 合成CoTは手作業による手作業による手作業の促進を著しく促進することが明らかとなった。
We present a baseline for the SemEval 2024 task 2 challenge, whose objective is to ascertain the inference relationship between pairs of clinical trial report sections and statements. We apply prompt optimization techniques with LLM Instruct models provided as a Language Model-as-a-Service (LMaaS). We observed, in line with recent findings, that synthetic CoT prompts significantly enhance manually crafted ones. | 翻訳日:2024-05-06 13:25:40 公開日:2024-05-03 |
# 大規模言語モデルにおけるGLU変数の半構造空間依存性
Dependency-Aware Semi-Structured Sparsity of GLU Variants in Large Language Models ( http://arxiv.org/abs/2405.01943v1 ) ライセンス: Link先を確認 | Zhiyu Guo, Hidetaka Kamigaito, Taro Wanatnabe, | (参考訳) LLM(Large Language Models)の急速な進歩は、言語理解と生成の能力を著しく向上させた。
しかし、実質的なモデルサイズはハードウェア上の問題を引き起こし、サービスのためのメモリサイズとトークン生成のための推論レイテンシの両方に影響を及ぼす。
これらの課題に対処するために、最近普及しているSwiGLUベースのLCMの刈り出しのための新しい手法である、依存性を意識した半構造化スパシティ(DaSS)を提案する。
提案手法は, 構造的依存性を重量級数に基づく非構造的プルーニングに組み込む。
我々は,その大きさと対応するMPP中間活性化基準を共同で考慮し,各重みの重要性を評価するMPP固有のプルーニング指標を提案する。
DaSSは、非構造化プルーニングによって提供される適応性と、依存性ベースの構造化プルーニングに固有の構造的一貫性との間のバランスを促進する。
Mistral と LLaMA2 モデルファミリの実証評価では、DaSS は SparseGPT と Wanda のどちらよりもハードウェアフレンドリーな N:M のスパーシティパターンを実現しているだけでなく、Wanda の計算効率も向上している。
The rapid advancement in Large Language Models (LLMs) has markedly enhanced the capabilities of language understanding and generation. However, the substantial model size poses hardware challenges, affecting both memory size for serving and inference latency for token generation. To address those challenges, we propose Dependency-aware Semi-structured Sparsity (DaSS), a novel method for the recent prevalent SwiGLU-based LLMs pruning. Our approach incorporates structural dependency into the weight magnitude-based unstructured pruning. We introduce an MLP-specific pruning metric that evaluates the importance of each weight by jointly considering its magnitude and its corresponding MLP intermediate activation norms. DaSS facilitates a balance between the adaptability offered by unstructured pruning and the structural consistency inherent in dependency-based structured pruning. Empirical evaluations on Mistral and LLaMA2 model families demonstrate that DaSS not only outperforms both SparseGPT and Wanda in achieving hardware-friendly N:M sparsity patterns but also maintains the computational efficiency of Wanda. | 翻訳日:2024-05-06 13:25:40 公開日:2024-05-03 |
# Ryderg-Atomアレーの相互作用による高輝度化
Interaction-Enhanced Superradiance of a Ryderg-Atom Array ( http://arxiv.org/abs/2405.01945v1 ) ライセンス: Link先を確認 | Yiwen Han, Haowei Li, Wei Yi, | (参考訳) マイクロ波共振器内のレイドバーグ原子配列の超放射相転移について検討した。
空洞場と長距離リドベルク相互作用の相互作用の下では、系の定常状態は相互作用の増強された超放射性を示し、相互作用強度の離散的な集合において臨界原子空洞結合速度は消滅する。
この現象は、連続した全対全相互作用において解析的に理解できるが、増強された超放射能は空間依存的な双極子相互作用の下で持続するが、臨界相互作用強度にシフトする。
これらの臨界点における発散感受性は、それぞれ異なる数の原子励起を持つ一対の原子状態からなる創発的量子ラビモデルによって捉えられる。
これらの集合状態は臨界相互作用強度で縮退し、任意に小さな原子空洞結合の超放射相となる。
We study the superradiant phase transition of an array of Rydberg atoms in a dissipative microwave cavity. Under the interplay of the cavity field and the long-range Rydberg interaction, the steady state of the system exhibits an interaction-enhanced superradiance, with vanishing critical atom-cavity coupling rates at a discrete set of interaction strengths. We find that, while the phenomenon can be analytically understood in the case of constant all-to-all interaction, the enhanced superradiance persists under the spatially dependent dipolar interaction, but shifted in the critical interaction strengths. The diverging susceptibility at these critical points is captured by emergent quantum Rabi models, each of which comprises a pair of collective atomic states with different numbers of atomic excitations. These collective states become degenerate at the critical interaction strengths, resulting in a superradiant phase for an arbitrarily small atom-cavity coupling. | 翻訳日:2024-05-06 13:25:40 公開日:2024-05-03 |
# 調和トラップにおける断熱性へのショートカット--量子古典的アナログ
Shortcuts to adiabaticity in harmonic traps: a quantum-classical analog ( http://arxiv.org/abs/2405.01946v1 ) ライセンス: Link先を確認 | Vincent Hardel, Giovanni Manfredi, Paul-Antoine Hervieux, Rémi Goerlich, | (参考訳) 本稿では,量子系を初期状態から最終定常状態へ効率よく遷移させる新しい手法を提案する。
我々のアプローチでは、古典的ブラウン過程として量子系を表すネルソンの確率量子化を利用する。
この数学的類似により、古典的な過大なシステムの既知のプロトコルは量子プロトコルに変換できる。
特に、古典的な手法を用いて、時間と他のコスト関数の両方を自由に指定できる最適な量子プロトコルを見つけることができる。
この手法を時間依存型高調波発振器に適用し,2つのコスト関数で検証した。
一 時間の経過とともにシステムの累積エネルギー
(ii)波動関数の動的位相。
後者の場合、ある期間の断熱過程からの距離を最小化する「断熱的に最適」なプロトコルを構築することができる。
We present a new technique for efficiently transitioning a quantum system from an initial to a final stationary state in less time than is required by an adiabatic (quasi-static) process. Our approach makes use of Nelson's stochastic quantization, which represents the quantum system as a classical Brownian process. Thanks to this mathematical analogy, known protocols for classical overdamped systems can be translated into quantum protocols. In particular, one can use classical methods to find optimal quantum protocols that minimize both the time duration and some other cost function to be freely specified. We have applied this method to the time-dependent harmonic oscillator and tested it on two different cost functions: (i) the cumulative energy of the system over time and (ii) the dynamical phase of the wavefunction. In the latter case, it is possible to construct protocols that are "adiabatically optimal", i.e., they minimize their distance from an adiabatic process for a given duration. | 翻訳日:2024-05-06 13:25:40 公開日:2024-05-03 |
# ReLUネットワークのための3つの量子化規則
Three Quantization Regimes for ReLU Networks ( http://arxiv.org/abs/2405.01952v1 ) ライセンス: Link先を確認 | Weigutian Ou, Philipp Schenkel, Helmut Bölcskei, | (参考訳) 有限精度重み付き深部ReLUニューラルネットワークによるリプシッツ関数近似の基本的な限界を確立する。
具体的には、ネットワークウェイト精度の関数としてのミニマックス近似誤差の振る舞いの観点から、アンダー、オーバー、そして適切な量子化の3つのレジームを同定する。
これは、ミニマックス近似誤差の非漸近的下限と上限を導出することで達成される。
特に、適切な量子化方式では、ニューラルネットワークはリプシッツ関数の近似においてメモリ最適性を示す。
ディープネットワークは、メモリ最適化を達成する上で、浅いネットワークよりも本質的に有利である。
また,高精度重み付きネットワークを低精度重み付き機能的に等価なディープネットワークに変換し,メモリ最適性を維持しつつ,深度精度トレードオフの概念も開発している。
このアイデアは、信号サンプルの量子化の解決のためにオーバーサンプリングレートが交換されるSigma-delta analog-to-digital conversionを思い起こさせる。
我々は、リプシッツ関数のよく知られたReLUネットワーク近似結果を改善し、独立な一般性を持つ可能性のあるビット抽出技術の改良について述べる。
We establish the fundamental limits in the approximation of Lipschitz functions by deep ReLU neural networks with finite-precision weights. Specifically, three regimes, namely under-, over-, and proper quantization, in terms of minimax approximation error behavior as a function of network weight precision, are identified. This is accomplished by deriving nonasymptotic tight lower and upper bounds on the minimax approximation error. Notably, in the proper-quantization regime, neural networks exhibit memory-optimality in the approximation of Lipschitz functions. Deep networks have an inherent advantage over shallow networks in achieving memory-optimality. We also develop the notion of depth-precision tradeoff, showing that networks with high-precision weights can be converted into functionally equivalent deeper networks with low-precision weights, while preserving memory-optimality. This idea is reminiscent of sigma-delta analog-to-digital conversion, where oversampling rate is traded for resolution in the quantization of signal samples. We improve upon the best-known ReLU network approximation results for Lipschitz functions and describe a refinement of the bit extraction technique which could be of independent general interest. | 翻訳日:2024-05-06 13:25:40 公開日:2024-05-03 |
# 攻撃から防衛へ:ブラックボックス環境におけるディープラーニングセキュリティ対策の展望
From Attack to Defense: Insights into Deep Learning Security Measures in Black-Box Settings ( http://arxiv.org/abs/2405.01963v1 ) ライセンス: Link先を確認 | Firuz Juraev, Mohammed Abuhamad, Eric Chan-Tin, George K. Thiruvathukal, Tamer Abuhmed, | (参考訳) 深層学習(DL)は、安全およびセキュリティに厳しいアプリケーションで使用することができるまで急速に成熟している。
しかし、人間の目には見当たらない敵のサンプルは深刻な脅威となり、モデルが誤動作し、そのようなアプリケーションの性能を損なう恐れがある。
DLモデルの堅牢性に対処することは、敵の攻撃に対する理解と防御に不可欠である。
本研究では,敵対的攻撃と防御が,よく知られたデータセットを横断する様々なモデルアーキテクチャに与える影響を総合的に検討する。
我々の研究は、SimBA、HopSkipJump、MGAAttackなどのブラックボックス攻撃、およびプリプロセッサベースの防御機構に焦点を当てている。
各種モデルを用いて実験した結果, 層数の増加に伴い, 攻撃に必要なノイズレベルが増加することが示された。
さらに、層数が増加するにつれて攻撃成功率が低下する。
これは、モデルの複雑さと堅牢性が重要な関係を持つことを示している。
多様性とロバスト性の関係を調べた結果、多種多様なモデルを用いた実験では、多数のパラメータを持つことで、ロバスト性は向上しないことが示された。
我々の実験は、トレーニングデータセットがモデルの堅牢性に与える影響を示すために拡張されている。
ImageNet-1000、CIFAR-100、CIFAR-10などのさまざまなデータセットを使用してブラックボックス攻撃を評価する。
モデル解析,例えばモデル複雑性とトレーニングデータセットの多次元性を考慮して,モデルが防御を施す場合のブラックボックス攻撃の挙動を検討した。
以上の結果から,防衛戦略の適用は攻撃効果を著しく低下させる可能性が示唆された。
本研究は,各種攻撃に対するDLモデルの堅牢性に関する詳細な分析と知見を提供する。
Deep Learning (DL) is rapidly maturing to the point that it can be used in safety- and security-crucial applications. However, adversarial samples, which are undetectable to the human eye, pose a serious threat that can cause the model to misbehave and compromise the performance of such applications. Addressing the robustness of DL models has become crucial to understanding and defending against adversarial attacks. In this study, we perform comprehensive experiments to examine the effect of adversarial attacks and defenses on various model architectures across well-known datasets. Our research focuses on black-box attacks such as SimBA, HopSkipJump, MGAAttack, and boundary attacks, as well as preprocessor-based defensive mechanisms, including bits squeezing, median smoothing, and JPEG filter. Experimenting with various models, our results demonstrate that the level of noise needed for the attack increases as the number of layers increases. Moreover, the attack success rate decreases as the number of layers increases. This indicates that model complexity and robustness have a significant relationship. Investigating the diversity and robustness relationship, our experiments with diverse models show that having a large number of parameters does not imply higher robustness. Our experiments extend to show the effects of the training dataset on model robustness. Using various datasets such as ImageNet-1000, CIFAR-100, and CIFAR-10 are used to evaluate the black-box attacks. Considering the multiple dimensions of our analysis, e.g., model complexity and training dataset, we examined the behavior of black-box attacks when models apply defenses. Our results show that applying defense strategies can significantly reduce attack effectiveness. This research provides in-depth analysis and insight into the robustness of DL models against various attacks, and defenses. | 翻訳日:2024-05-06 13:25:40 公開日:2024-05-03 |
# LLMの理解には統計的一般化以上のものが必要だ
Understanding LLMs Requires More Than Statistical Generalization ( http://arxiv.org/abs/2405.01964v1 ) ライセンス: Link先を確認 | Patrik Reizinger, Szilvia Ujváry, Anna Mészáros, Anna Kerekes, Wieland Brendel, Ferenc Huszár, | (参考訳) この10年、ディープラーニング理論における花の咲く研究が「なぜディープラーニングは一般化するのか?」と答えようとしている。
パースペクティブの強力なシフトは、補間系における過度にパラメトリケートされたモデルの研究という、この進歩を早めた。
本稿では, LLMの望ましい性質のいくつかは, 良好な統計一般化の結果ではなく, 別々に理論的な説明を必要とするため, もう一つの視点シフトが原因であると主張する。
我々の中心的な議論は、AR確率モデルは本質的には識別不可能である、という観察に依存している。
我々は,(1)ゼロショット規則外挿の非識別性,(2)文脈内学習の近似的非識別性,(3)微視的学習の非識別性という3つのケーススタディを通じて,非識別性が実際的関連性を持つ理由を考察した。
我々は, LLM関連一般化対策, 伝達可能性, 誘導バイアスに着目した有望な研究方向性を概観する。
The last decade has seen blossoming research in deep learning theory attempting to answer, "Why does deep learning generalize?" A powerful shift in perspective precipitated this progress: the study of overparametrized models in the interpolation regime. In this paper, we argue that another perspective shift is due, since some of the desirable qualities of LLMs are not a consequence of good statistical generalization and require a separate theoretical explanation. Our core argument relies on the observation that AR probabilistic models are inherently non-identifiable: models zero or near-zero KL divergence apart -- thus, equivalent test loss -- can exhibit markedly different behaviors. We support our position with mathematical examples and empirical observations, illustrating why non-identifiability has practical relevance through three case studies: (1) the non-identifiability of zero-shot rule extrapolation; (2) the approximate non-identifiability of in-context learning; and (3) the non-identifiability of fine-tunability. We review promising research directions focusing on LLM-relevant generalization measures, transferability, and inductive biases. | 翻訳日:2024-05-06 13:25:40 公開日:2024-05-03 |
# インフラ密度の低い水中環境のためのソナー型AUV測位システム
A Sonar-based AUV Positioning System for Underwater Environments with Low Infrastructure Density ( http://arxiv.org/abs/2405.01971v1 ) ライセンス: Link先を確認 | Emilio Olivastri, Daniel Fusaro, Wanmeng Li, Simone Mosco, Alberto Pretto, | (参考訳) 水中車両の需要の増加は、検査ミッションにおけるロバストなローカライゼーションソリューションの必要性を浮き彫りにしている。
本研究では,人為的資産の分散分布を考慮したAUV(Autonomous Underwater Vehicles)のための,新しいリアルタイムソナーベース水中測位アルゴリズムを提案する。
提案手法は,マルチビームフォワード・ルック・ソナー(FSD)が取得したソナーデータの同一ストリームに適用した2つの相乗的データ解釈フロントエンドを利用する。
これらの観測は粒子フィルター(PF)内で融合され、高配位領域に属する粒子の量を増やすか、対称的なあいまいさを解決する。
実水中植物に類似した模擬環境下での予備実験は有望な結果をもたらした。
本研究は,本手法の今後の発展に向けての出発点であり,実世界のシナリオにおいても徹底的な評価がなされている。
The increasing demand for underwater vehicles highlights the necessity for robust localization solutions in inspection missions. In this work, we present a novel real-time sonar-based underwater global positioning algorithm for AUVs (Autonomous Underwater Vehicles) designed for environments with a sparse distribution of human-made assets. Our approach exploits two synergistic data interpretation frontends applied to the same stream of sonar data acquired by a multibeam Forward-Looking Sonar (FSD). These observations are fused within a Particle Filter (PF) either to weigh more particles that belong to high-likelihood regions or to solve symmetric ambiguities. Preliminary experiments carried out on a simulated environment resembling a real underwater plant provided promising results. This work represents a starting point towards future developments of the method and consequent exhaustive evaluations also in real-world scenarios. | 翻訳日:2024-05-06 13:25:40 公開日:2024-05-03 |
# 初期のスラヴ語節の量的・タイプ論的研究とその競合
A quantitative and typological study of Early Slavic participle clauses and their competition ( http://arxiv.org/abs/2405.01972v1 ) ライセンス: Link先を確認 | Nilo Pedrazzini, | (参考訳) この論文は、初期のスラヴ人構成物とその有限個の競合物(jegda$-'when'-clauses)の機能のコーパスに基づく、量的、タイプ論的分析である。
第1部では, 初期スラヴ語コーパスの文法的, 依存性, 情報構造的, 語彙的レベルでの詳細な言語的アノテーションを活用して, コーパス内の分節構成と分節構成の分布に関する説明として, 構成性および既定の言説推論の役割を理解する。
第二部では、非常に並列なデータを用いて、英語の$when$のセマンティックスペースを表現する言語の種類を分析している。
確率論的セマンティックマップが生成され、統計手法(クリギング、ガウス混合モデル、精度、リコール分析など)が並列コーパスから言語間有理次元を誘導し、仮説概念WHENのセマンティック空間における概念的変動を研究するために用いられる。
This thesis is a corpus-based, quantitative, and typological analysis of the functions of Early Slavic participle constructions and their finite competitors ($jegda$-'when'-clauses). The first part leverages detailed linguistic annotation on Early Slavic corpora at the morphosyntactic, dependency, information-structural, and lexical levels to obtain indirect evidence for different potential functions of participle clauses and their main finite competitor and understand the roles of compositionality and default discourse reasoning as explanations for the distribution of participle constructions and $jegda$-clauses in the corpus. The second part uses massively parallel data to analyze typological variation in how languages express the semantic space of English $when$, whose scope encompasses that of Early Slavic participle constructions and $jegda$-clauses. Probabilistic semantic maps are generated and statistical methods (including Kriging, Gaussian Mixture Modelling, precision and recall analysis) are used to induce cross-linguistically salient dimensions from the parallel corpus and to study conceptual variation within the semantic space of the hypothetical concept WHEN. | 翻訳日:2024-05-06 13:25:40 公開日:2024-05-03 |
# 単一光子ビームのコヒーレント結合に対するベイズ的アプローチ
Bayesian approach to coherent combination of single photon beams ( http://arxiv.org/abs/2405.01973v1 ) ライセンス: Link先を確認 | Antoni Mikos-Nuszkiewicz, Jerzy Paczos, Konrad Banaszek, Marcin Jarzyna, | (参考訳) 我々は,光子飢餓状態における相対位相変動下での2つの光のコヒーレントビーム結合の性能を理論的に検討した。
最適ベイズ位相補正プロトコルを用いて第一原理法を適用する。
位相変動強度の関数としてビーム結合の効率を解析する。
We theoretically investigate the performance of coherent beam combination of two light beams under relative phase fluctuations in the photon starved regime. We apply a first-principles approach using the optimal Bayesian phase correction protocol. We analyze the efficiency of beam combination as a function of the phase fluctuations strength. | 翻訳日:2024-05-06 13:15:51 公開日:2024-05-03 |
# 幾何配向トランスファーエンコーダのマルチタスク拡張
Multitask Extension of Geometrically Aligned Transfer Encoder ( http://arxiv.org/abs/2405.01974v1 ) ライセンス: Link先を確認 | Sung Moon Ko, Sumin Lee, Dae-Woong Jeong, Hyunseung Kim, Chanhui Lee, Soorin Yim, Sehui Han, | (参考訳) 分子データセットは、しばしばデータの欠如に悩まされる。
実験やシミュレーションの複雑さのため、データの収集が難しいことはよく知られている。
ここでは、分子データの異なるタスク間での相互情報を活用し、この問題に対処する。
本稿では,GATE(Geometrically Aligned Transfer Encoder)と呼ばれる符号化空間の幾何学的特性をマルチタスクに拡張するアルゴリズムを提案する。
したがって、曲面座標を局所的に平坦な座標に整列させることにより、複数の分子タスクを接続し、ソースタスクからの情報の流れを確実にすることで、ターゲットデータの性能を向上する。
Molecular datasets often suffer from a lack of data. It is well-known that gathering data is difficult due to the complexity of experimentation or simulation involved. Here, we leverage mutual information across different tasks in molecular data to address this issue. We extend an algorithm that utilizes the geometric characteristics of the encoding space, known as the Geometrically Aligned Transfer Encoder (GATE), to a multi-task setup. Thus, we connect multiple molecular tasks by aligning the curved coordinates onto locally flat coordinates, ensuring the flow of information from source tasks to support performance on target data. | 翻訳日:2024-05-06 13:15:51 公開日:2024-05-03 |
# マイクロ構造埋め込み型オートエンコーダによるパラメトリック空間からの高分解能溶液場の再構成
Introducing a microstructure-embedded autoencoder approach for reconstructing high-resolution solution field from reduced parametric space ( http://arxiv.org/abs/2405.01975v1 ) ライセンス: Link先を確認 | Rasoul Najafi Koopas, Shahed Rezaei, Natalie Rauter, Richard Ostwald, Rolf Lammering, | (参考訳) 本研究では,パラメトリック空間情報を標準オートエンコーダアーキテクチャに組み込むことにより,低忠実度解写像を高忠実度に変換する新しい多忠実深層学習手法を提案する。
パラメトリック空間データの統合により、低忠実度から高忠実度解を予測するのに有効な性能を達成するために、トレーニングデータを大幅に削減する必要があることが示されている。
本研究では,2つの異なる材料の熱伝導率係数の空間分布を凝縮した高異質材料の2次元定常熱伝達解析に焦点をあてる。
その後、トレーニング済みの物理インフォームドニューラルネットワークを用いて、粗い格子上で境界値問題を解く。
その後、新たに設計された拡張オートエンコーダを用いて計算された低忠実度結果をアップスケールする。
改良された自己エンコーダの新規性は、異なる解像度の熱伝導率マップを異なるステップでデコーダセグメントに連結することにある。
次に、開発したアルゴリズムの結果を、対応する有限要素結果、標準U-Netアーキテクチャ、および様々な順序の補間関数やフィードフォワードニューラルネットワーク(FFNN)などのアップスケーリングアプローチと比較する。
新たな手法に基づく結果の解析は,テストケースにおける計算コストや誤差の観点から,他の手法と比較して優れた性能を示す。
したがって、ニューラルネットワークの潜在的なサプリメントとして、我々のアーキテクチャは、従来のアップスケーリング手法、特に補間法に遭遇したような鋭いインターフェースにおいて、しばしば失われる重要な詳細を保ちながら、高忠実度への低忠実度ソリューションをアップスケールする。
In this study, we develop a novel multi-fidelity deep learning approach that transforms low-fidelity solution maps into high-fidelity ones by incorporating parametric space information into a standard autoencoder architecture. It is shown that, due to the integration of parametric space data, this method requires significantly less training data to achieve effective performance in predicting high-fidelity solution from the low-fidelity one. In this study, our focus is on a 2D steady-state heat transfer analysis in highly heterogeneous materials microstructure, where the spatial distribution of heat conductivity coefficients for two distinct materials is condensed. Subsequently, the boundary value problem is solved on the coarsest grid using a pre-trained physics-informed neural operator network. Afterward, the calculated low-fidelity result is upscaled using the newly designed enhanced autoencoder. The novelty of the developed enhanced autoencoder lies in the concatenation of heat conductivity maps of different resolutions to the decoder segment in distinct steps. We then compare the outcomes of developed algorithm with the corresponding finite element results, standard U-Net architecture as well as other upscaling approaches such as interpolation functions of varying orders and feedforward neural networks (FFNN). The analysis of the results based on the new approach demonstrates superior performance compared to other approaches in terms of computational cost and error on the test cases. Therefore, as a potential supplement to neural operators networks, our architecture upscales low-fidelity solutions to high-fidelity ones while preserving critical details that are often lost in conventional upscaling methods, especially at sharp interfaces, such as those encountered with interpolation methods. | 翻訳日:2024-05-06 13:15:51 公開日:2024-05-03 |
# 自然言語処理のコンフォーマル予測:サーベイ
Conformal Prediction for Natural Language Processing: A Survey ( http://arxiv.org/abs/2405.01976v1 ) ライセンス: Link先を確認 | Margarida M. Campos, António Farinhas, Chrysoula Zerva, Mário A. T. Figueiredo, André F. T. Martins, | (参考訳) 大規模言語モデルの急速な普及と自然言語処理(NLP)の応用は、幻覚などのリスクを軽減し、重要なアプリケーションにおける意思決定の信頼性を高めるために、不確実性定量化の重要な必要性を生み出している。
コンフォーマル予測は理論的に健全で実用的なフレームワークとして現れ、柔軟性と強力な統計的保証を組み合わせる。
そのモデルに依存しない分布のない性質は、不確実な定量化の欠如に起因するNLPシステムの現在の欠点に対処することを特に有望にしている。
本稿では, コンフォーマル予測手法, 保証, およびNLPの既存応用に関する総合的な調査を行い, 今後の研究の方向性と課題について述べる。
The rapid proliferation of large language models and natural language processing (NLP) applications creates a crucial need for uncertainty quantification to mitigate risks such as hallucinations and to enhance decision-making reliability in critical applications. Conformal prediction is emerging as a theoretically sound and practically useful framework, combining flexibility with strong statistical guarantees. Its model-agnostic and distribution-free nature makes it particularly promising to address the current shortcomings of NLP systems that stem from the absence of uncertainty quantification. This paper provides a comprehensive survey of conformal prediction techniques, their guarantees, and existing applications in NLP, pointing to directions for future research and open challenges. | 翻訳日:2024-05-06 13:15:51 公開日:2024-05-03 |
# 機械学習応用におけるモデルロバスト性向上のための分布シフトと不確かさの定量化
Quantifying Distribution Shifts and Uncertainties for Enhanced Model Robustness in Machine Learning Applications ( http://arxiv.org/abs/2405.01978v1 ) ライセンス: Link先を確認 | Vegard Flovik, | (参考訳) トレーニングとテストデータセットの統計特性が異なる分布シフトは、モデル一般化と堅牢性に直接影響する実世界の機械学習アプリケーションにおいて、大きな課題となる。
本研究では,合成データを用いたモデル適応と一般化について検討し,分布の相違を系統的に解消する。
本研究の目的は,関係する不確実性を定量化しつつ,多様なデータ分布にまたがるモデル適応を実現するための前提条件を明らかにすることである。
具体的には,ファンデルワールス方程式を用いてガスの合成データを生成し,Kulback-Leibler分散,Jensen-Shannon距離,Mahalanobis距離などの測定値を用いてデータ類似性を評価する。
これらの指標により,データ分散シフトによる予測において,モデル精度と関連する不確実性の両方を評価することができる。
本研究は,マハラノビス距離などの統計指標を用いて,モデル予測が低誤差の「補間体制」内にあるか,高誤差の「補間体制」が分布変化とモデル不確実性を評価するための相補的手法を提供することを示唆している。
これらの洞察は、実際のシナリオにおける機械学習アプリケーションのデプロイの成功に不可欠である、モデルの堅牢性と一般化を強化する上で重要な価値を持っている。
Distribution shifts, where statistical properties differ between training and test datasets, present a significant challenge in real-world machine learning applications where they directly impact model generalization and robustness. In this study, we explore model adaptation and generalization by utilizing synthetic data to systematically address distributional disparities. Our investigation aims to identify the prerequisites for successful model adaptation across diverse data distributions, while quantifying the associated uncertainties. Specifically, we generate synthetic data using the Van der Waals equation for gases and employ quantitative measures such as Kullback-Leibler divergence, Jensen-Shannon distance, and Mahalanobis distance to assess data similarity. These metrics en able us to evaluate both model accuracy and quantify the associated uncertainty in predictions arising from data distribution shifts. Our findings suggest that utilizing statistical measures, such as the Mahalanobis distance, to determine whether model predictions fall within the low-error "interpolation regime" or the high-error "extrapolation regime" provides a complementary method for assessing distribution shift and model uncertainty. These insights hold significant value for enhancing model robustness and generalization, essential for the successful deployment of machine learning applications in real-world scenarios. | 翻訳日:2024-05-06 13:15:51 公開日:2024-05-03 |
# Hofstadter-Bose-Hubbardモデルに応用したニューラル量子状態の普遍的性能ギャップ
Universal Performance Gap of Neural Quantum States Applied to the Hofstadter-Bose-Hubbard Model ( http://arxiv.org/abs/2405.01981v1 ) ライセンス: Link先を確認 | Eimantas Ledinauskas, Egidijus Anisimovas, | (参考訳) ニューラル量子状態(NQS)は、多体量子系の基底状態を近似する大きな可能性を証明しているが、それらの性能は異なるモデル間で矛盾する可能性がある。
本研究では,垂直磁場を持つ2次元正方格子上のボソン系であるホフスタッター・ボース・ハバード(HBH)モデルの基底状態の近似におけるNQSの性能について検討した。
以上の結果から,磁束の増大はエネルギー誤差を最大3桁に増加させることが示唆された。
重要な点として、NQSパフォーマンスの低下は、さまざまな最適化方法、ニューラルネットワークアーキテクチャ、物理モデルパラメータに一貫性があり、モデル固有の根本的な課題が示唆されている。
波動関数相構造、量子絡み合い、分数量子ホール効果、変分損失景観などの潜在的な原因を調査するが、この劣化の正確な原因は解明されていない。
したがって、HBHモデルはNQSの能力と限界を探索するための効果的な試験場であることが証明される。
本研究は,これらの課題を克服可能な手法の体系的開発を可能にするため,NQSの表現力をよりよく理解するための高度な理論的枠組みの必要性を強調した。
Neural Quantum States (NQS) have demonstrated significant potential in approximating ground states of many-body quantum systems, though their performance can be inconsistent across different models. This study investigates the performance of NQS in approximating the ground state of the Hofstadter-Bose-Hubbard (HBH) model, a boson system on a two-dimensional square lattice with a perpendicular magnetic field. Our results indicate that increasing magnetic flux leads to a substantial increase in energy error, up to three orders of magnitude. Importantly, this decline in NQS performance is consistent across different optimization methods, neural network architectures, and physical model parameters, suggesting a fundamental challenge intrinsic to the model. Despite investigating potential causes such as wave function phase structure, quantum entanglement, fractional quantum Hall effect, and the variational loss landscape, the precise reasons for this degradation remain elusive. The HBH model thus proves to be an effective testing ground for exploring the capabilities and limitations of NQS. Our study highlights the need for advanced theoretical frameworks to better understand the expressive power of NQS which would allow a systematic development of methods that could potentially overcome these challenges. | 翻訳日:2024-05-06 13:15:51 公開日:2024-05-03 |
# タンパク質バックボーン設計のためのモデルベース強化学習
Model-based reinforcement learning for protein backbone design ( http://arxiv.org/abs/2405.01983v1 ) ライセンス: Link先を確認 | Frederic Renard, Cyprien Courtot, Alfredo Reichlin, Oliver Bent, | (参考訳) タンパク質ナノマテリアルを予め定義された形状と特性で設計することは、医療産業に劇的に影響を与える可能性がある。
機械学習(ML)はタンパク質の設計に成功し、高価なウェットラボ実験ラウンドの必要性を減らした。
しかし、最適なタンパク質設計を特定するために、タンパク質の適合性ランドスケープを効率的に探索する際の課題は続いている。
そこで本研究では,AlphaZeroを用いてタンパク質のバックボーンの生成,形状の整合,構造的スコアリングの要件を提案する。
我々は,新しいしきい値に基づく報酬と二次目的を取り入れ,設計精度を向上させることによって,既存のモンテカルロ木探索(MCTS)フレームワークを拡張した。
この革新は既存のアプローチをかなり上回り、構造的スコアをより尊重するタンパク質のバックボーンに繋がる。
AlphaZeroの応用は、タンパク質のバックボーン設計の文脈で新しく、有望な性能を示す。
AlphaZeroは、トップダウンのタンパク質設計タスクにおいて、ベースラインMCTSを100%以上上回っている。
さらに、第2目的のAlphaZeroの応用は、タンパク質設計の複雑でニュアンスな側面をナビゲートするモデルベース強化学習(RL)の可能性を示す、さらなる有望な結果を明らかにする。
Designing protein nanomaterials of predefined shape and characteristics has the potential to dramatically impact the medical industry. Machine learning (ML) has proven successful in protein design, reducing the need for expensive wet lab experiment rounds. However, challenges persist in efficiently exploring the protein fitness landscapes to identify optimal protein designs. In response, we propose the use of AlphaZero to generate protein backbones, meeting shape and structural scoring requirements. We extend an existing Monte Carlo tree search (MCTS) framework by incorporating a novel threshold-based reward and secondary objectives to improve design precision. This innovation considerably outperforms existing approaches, leading to protein backbones that better respect structural scores. The application of AlphaZero is novel in the context of protein backbone design and demonstrates promising performance. AlphaZero consistently surpasses baseline MCTS by more than 100% in top-down protein design tasks. Additionally, our application of AlphaZero with secondary objectives uncovers further promising outcomes, indicating the potential of model-based reinforcement learning (RL) in navigating the intricate and nuanced aspects of protein design | 翻訳日:2024-05-06 13:15:51 公開日:2024-05-03 |
# 不等式制約付き非減少最適化のためのペナルティベースガードレールアルゴリズム
A Penalty-Based Guardrail Algorithm for Non-Decreasing Optimization with Inequality Constraints ( http://arxiv.org/abs/2405.01984v1 ) ライセンス: Link先を確認 | Ksenija Stepanovic, Wendelin Böhmer, Mathijs de Weerdt, | (参考訳) 伝統的な数学的プログラミングの解法は、複雑で大規模な物理系の制約付き最小化問題を解くのに、長い計算時間を必要とする。
したがって、これらの問題は、しばしば制約のないものに変換され、勾配降下法のような一階情報に基づく計算効率の良い最適化アプローチで解決される。
しかし、制約のない問題に対しては、目的関数の最小化と制約違反の低減のバランスをとることは困難である。
非線形・非凸目的関数の増大と非線形・非凸不等式制約の増大を伴う時間依存最小化問題のクラスを考察する。
そこで我々は, ペナルティに基づくガードレールアルゴリズム(PGA)を提案する。
このアルゴリズムは、制約の右側をガードレール変数で動的に更新し、違反を防止するためのマージンを追加することで、標準的なペナルティベースの手法を適用する。
地域熱システムの簡易モデルと学習深層ニューラルネットワークから導出した最適化モデルという,2つの新しい応用領域におけるPGAの評価を行った。
提案手法は,数理プログラミングの解法と標準ペナルティに基づく解法を著しく上回り,与えられた時間制限内での最先端のアルゴリズム(IPDD)よりも優れた性能と高速な収束を実現する。
Traditional mathematical programming solvers require long computational times to solve constrained minimization problems of complex and large-scale physical systems. Therefore, these problems are often transformed into unconstrained ones, and solved with computationally efficient optimization approaches based on first-order information, such as the gradient descent method. However, for unconstrained problems, balancing the minimization of the objective function with the reduction of constraint violations is challenging. We consider the class of time-dependent minimization problems with increasing (possibly) nonlinear and non-convex objective function and non-decreasing (possibly) nonlinear and non-convex inequality constraints. To efficiently solve them, we propose a penalty-based guardrail algorithm (PGA). This algorithm adapts a standard penalty-based method by dynamically updating the right-hand side of the constraints with a guardrail variable which adds a margin to prevent violations. We evaluate PGA on two novel application domains: a simplified model of a district heating system and an optimization model derived from learned deep neural networks. Our method significantly outperforms mathematical programming solvers and the standard penalty-based method, and achieves better performance and faster convergence than a state-of-the-art algorithm (IPDD) within a specified time limit. | 翻訳日:2024-05-06 13:15:51 公開日:2024-05-03 |
# 機械学習による小型量子ネットワークの雑音分類
Noise classification in small quantum networks by Machine Learning ( http://arxiv.org/abs/2405.01987v1 ) ライセンス: Link先を確認 | Shreyasi Mukherjee, Dario Penna, Fabio Cirinnà, Mauro Paternostro, Elisabetta Paladino, Giuseppe Falci, Luigi Giannelli, | (参考訳) 本稿では,力学のマルコフ的特徴の認識と古典的雑音の相関関係の同定を目的とした機械学習に基づくノイズ分類と,量子ネットワークにおけるそれらの相互作用について検討する。
我々は、異なるパルス構成を入力とし、フィードフォワードニューラルネットワークをトレーニングする3レベルシステムにおいて、CTAP(Stimulated Raman Adiabatic Passage)またはSTIRAP(Stimulated Raman Adiabatic Passage)によるコヒーレントトンネルに基づく制御を運用する。
その結果,教師あり学習は,システムに影響を及ぼす古典的対角騒音の異なるタイプを分類できることがわかった。
3つの非マルコフ的(準静的相関、反相関、非相関)とマルコフ的ノイズ機構は99\%の精度で分類される。
代わりに、マルコフ雑音の相関は、我々の方法では分類できない。
このアプローチは、限られた数のサンプルが利用可能な物理的測定においても、その有効性を維持する統計的測定誤差に対して堅牢である。
We investigate machine learning-based noise classification aimed at the recognition of the Markovian character of a dynamics and the identification of correlations of classical noise, as well as their interplay in small quantum networks. We operate control based on Coherent Tunneling by Adiabatic Passage (CTAP) or Stimulated Raman Adiabatic Passage (STIRAP) in a three-level system using different pulse configurations as inputs to train a feedforward neural network. Our results show that supervised learning can classify distinct types of classical diagonal noise affecting the system. Three non-Markovian (quasistatic correlated, anti-correlated, and uncorrelated) and Markovian noise mechanisms are classified with $99\%$ accuracy. Instead, correlations of Markovian noises cannot be classified with our method. The approach is robust against statistical measurement errors keeping its effectiveness even for physical measurements where a limited number of samples is available. | 翻訳日:2024-05-06 13:15:51 公開日:2024-05-03 |
# 音楽における歌詞と音声の同時感情分析
Joint sentiment analysis of lyrics and audio in music ( http://arxiv.org/abs/2405.01988v1 ) ライセンス: Link先を確認 | Lea Schaab, Anna Kruspe, | (参考訳) 感覚や気分は音楽の様々なレベルにおいて表現することができる。
自動分析では、実際の音声データは通常分析されるが、歌詞は気分の知覚において重要な役割を果たす。
まず,歌詞と音声を別々に評価し,感情分析のモデルについて検討した。
対応するアプローチは、すでに満足な結果を示しているが、弱点も示しており、その原因についてはより詳細に調べている。
さらに,音声と歌詞を併用する様々な手法を提案し,評価した。
両方のモダリティを考慮すると、一般的にパフォーマンスが向上します。
音声と歌詞の感情の誤分類と(意図的な)矛盾について,より深く検討し,その原因を明らかにする。
最後に、この研究領域における主観性、データの欠如、感情分類学における矛盾といった根本的な問題に対処する。
Sentiment or mood can express themselves on various levels in music. In automatic analysis, the actual audio data is usually analyzed, but the lyrics can also play a crucial role in the perception of moods. We first evaluate various models for sentiment analysis based on lyrics and audio separately. The corresponding approaches already show satisfactory results, but they also exhibit weaknesses, the causes of which we examine in more detail. Furthermore, different approaches to combining the audio and lyrics results are proposed and evaluated. Considering both modalities generally leads to improved performance. We investigate misclassifications and (also intentional) contradictions between audio and lyrics sentiment more closely, and identify possible causes. Finally, we address fundamental problems in this research area, such as high subjectivity, lack of data, and inconsistency in emotion taxonomies. | 翻訳日:2024-05-06 13:15:51 公開日:2024-05-03 |
# ソフトラベルPU学習
Soft Label PU Learning ( http://arxiv.org/abs/2405.01990v1 ) ライセンス: Link先を確認 | Puning Zhao, Jintao Deng, Xu Cheng, | (参考訳) PU学習とは、正のサンプルの一部のみをラベル付けする分類問題を指す。
既存のPU学習手法は、ラベルのないサンプルを等しく扱う。
しかし、常識やドメイン知識など、多くの実タスクにおいて、ラベルのないサンプルは、他のものよりも肯定的である可能性が高い。
本稿では,ラベルなしデータを正の確率に応じてソフトラベルに割り当てるソフトラベルPU学習を提案する。
TPR,FPR,AUCの根本的真理が不明であることを考えると,これらの指標のPU対応を設計して,検証データ内のソフトラベルPU学習手法の性能を評価する。
これらの新しい設計PUメトリクスは、実測値の代用として優れたものであることを示す。
その後、このようなメトリクスを最適化する手法が提案される。
Tencentゲームからの反チートサービスのための公開データセットと実際のデータセットの実験は、提案手法の有効性を実証している。
PU learning refers to the classification problem in which only part of positive samples are labeled. Existing PU learning methods treat unlabeled samples equally. However, in many real tasks, from common sense or domain knowledge, some unlabeled samples are more likely to be positive than others. In this paper, we propose soft label PU learning, in which unlabeled data are assigned soft labels according to their probabilities of being positive. Considering that the ground truth of TPR, FPR, and AUC are unknown, we then design PU counterparts of these metrics to evaluate the performances of soft label PU learning methods within validation data. We show that these new designed PU metrics are good substitutes for the real metrics. After that, a method that optimizes such metrics is proposed. Experiments on public datasets and real datasets for anti-cheat services from Tencent games demonstrate the effectiveness of our proposed method. | 翻訳日:2024-05-06 13:15:51 公開日:2024-05-03 |
# SFFNet:リモートセンシングセグメンテーションのためのウェーブレットを用いた空間・周波数領域融合ネットワーク
SFFNet: A Wavelet-Based Spatial and Frequency Domain Fusion Network for Remote Sensing Segmentation ( http://arxiv.org/abs/2405.01992v1 ) ライセンス: Link先を確認 | Yunsong Yang, Genji Yuan, Jinjiang Li, | (参考訳) SFFNet(Spatial and Frequency Domain Fusion Network)フレームワークを提案する。空間情報をセグメンテーションに完全に活用し、リモートセンシングセグメンテーションにおいて大きなグレースケールのバリエーションを持つ領域を扱うという課題に対処するため、SFFNet(Spatial and Frequency Domain Fusion Network)フレームワークを提案する。
このフレームワークは2段階のネットワーク設計を用いており、第1段階は空間的手法を用いて特徴を抽出し、十分な空間的詳細と意味情報を持つ特徴を抽出し、第2段階は空間的および周波数的領域でこれらの特徴をマッピングする。
周波数領域マッピングでは、ウェーブレット変換特徴分解器(WTFD)構造を導入し、Haarウェーブレット変換を用いて特徴を低周波成分と高周波成分に分解し、空間的特徴と統合する。
周波数と空間的特徴のセマンティックなギャップを埋め、特徴選択を促進させ、異なる表現領域からの特徴の組み合わせを促進するために、我々はMDAF(Multiscale Dual-Representation Alignment Filter)を設計する。
この構造は、マルチスケールの畳み込みとデュアルクロスアテンションを利用する。
総合的な実験結果によると、SFFNetは既存の手法と比較してmIoUで優れた性能を示し、それぞれ84.80%と87.73%に達し、https://github.com/ysdck/SFFNetにある。
In order to fully utilize spatial information for segmentation and address the challenge of handling areas with significant grayscale variations in remote sensing segmentation, we propose the SFFNet (Spatial and Frequency Domain Fusion Network) framework. This framework employs a two-stage network design: the first stage extracts features using spatial methods to obtain features with sufficient spatial details and semantic information; the second stage maps these features in both spatial and frequency domains. In the frequency domain mapping, we introduce the Wavelet Transform Feature Decomposer (WTFD) structure, which decomposes features into low-frequency and high-frequency components using the Haar wavelet transform and integrates them with spatial features. To bridge the semantic gap between frequency and spatial features, and facilitate significant feature selection to promote the combination of features from different representation domains, we design the Multiscale Dual-Representation Alignment Filter (MDAF). This structure utilizes multiscale convolutions and dual-cross attentions. Comprehensive experimental results demonstrate that, compared to existing methods, SFFNet achieves superior performance in terms of mIoU, reaching 84.80% and 87.73% respectively.The code is located at https://github.com/yysdck/SFFNet. | 翻訳日:2024-05-06 13:15:51 公開日:2024-05-03 |
# 統計的シーケンシャル意思決定の数学 : 確率的包帯における濃度、リスク認識、モデリングとバリウム手術への応用
Mathematics of statistical sequential decision-making: concentration, risk-awareness and modelling in stochastic bandits, with applications to bariatric surgery ( http://arxiv.org/abs/2405.01994v1 ) ライセンス: Link先を確認 | Patrick Saux, | (参考訳) 本論文は術後患者の統計的シーケンシャル意思決定アルゴリズムの分析において生じる数学的課題について考察することを目的としている。
確率的盗賊 (Stochastic bandits) は、観察された報酬を最大化するために、不確実な環境でエージェントによる一連の行動(政治)の学習をモデル化する。
最適な政策を学ぶためには、バンディットアルゴリズムは現在の知識の活用と不確実な行動の探索のバランスをとる必要がある。
このようなアルゴリズムは、大規模なデータセット、リスクの低い決定、オンライン広告におけるクリックスルー率の最大化のような明確なモデリング仮定を含む産業アプリケーションで研究され、展開されてきた。
対照的に、デジタルヘルスレコメンデーションは、小さなサンプル、リスク回避エージェント、複雑で非パラメトリックなモデリングという全く新しいパラダイムを求めている。
この目的のために、我々は、安全で有意な新しい濃度境界(Bregman, empirical Chernoff)を開発し、リスクを意識したコンテキスト的包帯のための新しい枠組みを導入し、弱い仮定(ディリクレサンプリング)の下で、新しい非パラメトリックバンディットアルゴリズムのクラスを分析した。
理論的な保証に加えて、これらの結果は深い経験的証拠によって裏付けられている。
最後に, 術後のパーソナライズド・フォローアップ・レコメンデーションに向けた第一歩として, 医師, 外科医らとともに, 手術後の長期的体重軌跡を予測するための解釈可能な機械学習モデルを開発した。
This thesis aims to study some of the mathematical challenges that arise in the analysis of statistical sequential decision-making algorithms for postoperative patients follow-up. Stochastic bandits (multiarmed, contextual) model the learning of a sequence of actions (policy) by an agent in an uncertain environment in order to maximise observed rewards. To learn optimal policies, bandit algorithms have to balance the exploitation of current knowledge and the exploration of uncertain actions. Such algorithms have largely been studied and deployed in industrial applications with large datasets, low-risk decisions and clear modelling assumptions, such as clickthrough rate maximisation in online advertising. By contrast, digital health recommendations call for a whole new paradigm of small samples, risk-averse agents and complex, nonparametric modelling. To this end, we developed new safe, anytime-valid concentration bounds, (Bregman, empirical Chernoff), introduced a new framework for risk-aware contextual bandits (with elicitable risk measures) and analysed a novel class of nonparametric bandit algorithms under weak assumptions (Dirichlet sampling). In addition to the theoretical guarantees, these results are supported by in-depth empirical evidence. Finally, as a first step towards personalised postoperative follow-up recommendations, we developed with medical doctors and surgeons an interpretable machine learning model to predict the long-term weight trajectories of patients after bariatric surgery. | 翻訳日:2024-05-06 13:15:51 公開日:2024-05-03 |
# 分散レーダポイントクラウド処理におけるコラボレーションとフェデレーション
Cooperation and Federation in Distributed Radar Point Cloud Processing ( http://arxiv.org/abs/2405.01995v1 ) ライセンス: Link先を確認 | S. Savazzi, V. Rampa, S. Kianoush, A. Minora, L. Costa, | (参考訳) 資源制約されたMIMOレーダのネットワークを低域方位分解能で利用した人体規模RFセンシングの問題点を考察する。
レーダーはmmWaveバンドで動作し、身体の動きに敏感な時間変化の3D点雲(PC)情報を取得する。
また、異なる視点から同じシーンを観察し、サイドリンク通信チャネルを使用して環境を感知しながら協調する。
従来の協力体制により、レーダーは生のPC情報を相互に交換してエゴセンシングを改善することができる。
本稿では,レーダが生データではなく,観測されたPCのベイズ測度のパラメータを交換するフェデレーション機構を提案する。
レーダーは分散パラメータサーバとして機能し、ベイジアンツールを使用してグローバルな後部(すなわち連邦化後部)を再構築する。
本稿では、協調機構に関するレーダフェデレーションの利点を定量化し、比較する。
どちらのアプローチも、リアルタイムのデモプラットフォームでの実験によって検証される。
フェデレーションは、サイドリンク通信チャネル(20 {\div} 25倍の帯域幅使用)を最小限に使用し、未解決のターゲットに対する感度が低い。
一方、協調は平均絶対目標推定誤差を約20%削減する。
The paper considers the problem of human-scale RF sensing utilizing a network of resource-constrained MIMO radars with low range-azimuth resolution. The radars operate in the mmWave band and obtain time-varying 3D point cloud (PC) information that is sensitive to body movements. They also observe the same scene from different views and cooperate while sensing the environment using a sidelink communication channel. Conventional cooperation setups allow the radars to mutually exchange raw PC information to improve ego sensing. The paper proposes a federation mechanism where the radars exchange the parameters of a Bayesian posterior measure of the observed PCs, rather than raw data. The radars act as distributed parameter servers to reconstruct a global posterior (i.e., federated posterior) using Bayesian tools. The paper quantifies and compares the benefits of radar federation with respect to cooperation mechanisms. Both approaches are validated by experiments with a real-time demonstration platform. Federation makes minimal use of the sidelink communication channel (20 {\div} 25 times lower bandwidth use) and is less sensitive to unresolved targets. On the other hand, cooperation reduces the mean absolute target estimation error of about 20%. | 翻訳日:2024-05-06 13:15:51 公開日:2024-05-03 |
# 大規模言語モデルを用いた組合せ問題探索: GPT-3.5ターボを用いた旅行セールスマン問題の事例研究
Exploring Combinatorial Problem Solving with Large Language Models: A Case Study on the Travelling Salesman Problem Using GPT-3.5 Turbo ( http://arxiv.org/abs/2405.01997v1 ) ライセンス: Link先を確認 | Mahmoud Masoud, Ahmed Abdelhay, Mohammed Elhenawy, | (参考訳) LLM(Large Language Models)は、テキスト入力に基づいてテキストを生成するために設計されたディープラーニングモデルである。
研究者は、コード生成や一般的な推論のようなより複雑なタスクのためにこれらのモデルを開発してきたが、LLMが組合せ問題にどのように適用できるかを探求する試みはほとんどない。
本研究では,旅行セールスマン問題 (TSP) の解決に向けた LLM の可能性を検討する。
GPT-3.5 Turboを用いて、ゼロショットインコンテキスト学習、少数ショットインコンテキスト学習、チェーン・オブ・シント(CoT)など、さまざまな手法を用いて実験を行った。
その結果, GPT-3.5 Turbo を微調整して特定の問題サイズを解くことができ, 様々なインスタンスサイズを用いてテストした。
微調整されたモデルでは、トレーニングインスタンスと大きさが同じ問題に対して有望な性能を示し、より大きな問題に対してよく一般化された。
さらに、追加のトレーニングコストを発生させることなく、微調整モデルの性能向上を図るため、ソリューションの品質向上のための自己組織化アプローチを採用した。
Large Language Models (LLMs) are deep learning models designed to generate text based on textual input. Although researchers have been developing these models for more complex tasks such as code generation and general reasoning, few efforts have explored how LLMs can be applied to combinatorial problems. In this research, we investigate the potential of LLMs to solve the Travelling Salesman Problem (TSP). Utilizing GPT-3.5 Turbo, we conducted experiments employing various approaches, including zero-shot in-context learning, few-shot in-context learning, and chain-of-thoughts (CoT). Consequently, we fine-tuned GPT-3.5 Turbo to solve a specific problem size and tested it using a set of various instance sizes. The fine-tuned models demonstrated promising performance on problems identical in size to the training instances and generalized well to larger problems. Furthermore, to improve the performance of the fine-tuned model without incurring additional training costs, we adopted a self-ensemble approach to improve the quality of the solutions. | 翻訳日:2024-05-06 13:15:51 公開日:2024-05-03 |
# M${^2}$Depth: 自己監督型2フレームマルチカメラ距離推定
M${^2}$Depth: Self-supervised Two-Frame Multi-camera Metric Depth Estimation ( http://arxiv.org/abs/2405.02004v1 ) ライセンス: Link先を確認 | Yingshuang Zou, Yikang Ding, Xi Qiu, Haoqian Wang, Haotian Zhang, | (参考訳) 本稿では,M${^2}$Depthとよばれる,自律走行における深度に関する信頼性の高いスケール認識を行うための,自己監督型2フレームマルチカメラ距離推定ネットワークを提案する。
M${^2}$Depthは、複数のカメラからの2フレームの画像を入力として時間的に隣接させ、高品質な周囲深度を生成する。
まず,空間的領域と時間的領域のコストボリュームを個別に構築し,空間的時間的情報を統合する空間的時間的融合モジュールを提案する。
また,前景と背景のあいまいさを軽減し,奥行きの強化を図るため,SAM特徴からの神経前駆体を内部特徴と組み合わせた。
nuScenes と DDAD ベンチマークの大規模な実験結果から,M${^2}$Depth が最先端の性能を達成することが示された。
さらなる結果はhttps://heiheishuang.xyz/M2Depth にある。
This paper presents a novel self-supervised two-frame multi-camera metric depth estimation network, termed M${^2}$Depth, which is designed to predict reliable scale-aware surrounding depth in autonomous driving. Unlike the previous works that use multi-view images from a single time-step or multiple time-step images from a single camera, M${^2}$Depth takes temporally adjacent two-frame images from multiple cameras as inputs and produces high-quality surrounding depth. We first construct cost volumes in spatial and temporal domains individually and propose a spatial-temporal fusion module that integrates the spatial-temporal information to yield a strong volume presentation. We additionally combine the neural prior from SAM features with internal features to reduce the ambiguity between foreground and background and strengthen the depth edges. Extensive experimental results on nuScenes and DDAD benchmarks show M${^2}$Depth achieves state-of-the-art performance. More results can be found in https://heiheishuang.xyz/M2Depth . | 翻訳日:2024-05-06 13:05:54 公開日:2024-05-03 |
# HoloGS:Microsoft HoloLens 2を使ったインスタントディープスベースの3Dガウス撮影
HoloGS: Instant Depth-based 3D Gaussian Splatting with Microsoft HoloLens 2 ( http://arxiv.org/abs/2405.02005v1 ) ライセンス: Link先を確認 | Miriam Jäger, Theodor Kapler, Michael Feßenbecker, Felix Birkelbach, Markus Hillemann, Boris Jutzi, | (参考訳) フォトグラメトリー、コンピュータビジョン、コンピュータグラフィックスの分野では、ニューラル3Dシーン再構成の課題が様々な手法の探索に繋がった。
中でも3Dガウシアン・スプラッティングは、3Dガウシアンを用いたシーンの明示的な表現で際立っている。
その可能性によって、我々は、Microsoft HoloLens 2の能力をインスタント3Dガウススプラッティングに活用することを目的として、3Dシーン再構築の領域に取り組みます。
HoloLensセンサデータを利用した新しいワークフローであるHoloGSは、必要な入力データ、すなわち画像、カメラポーズ、奥行き検知からポイントクラウドに即座にアクセスすることで、Structure from Motionのような前処理ステップの必要性を回避します。
我々は、ピーク信号対ノイズ比を用いて評価されたトレーニングプロセスとレンダリング品質、およびシャンファー距離で測定されたガウス中心からの密度化点雲の幾何学的3次元精度など、総合的な調査を行う。
文化遺産像の屋外シーンと細構造植物室内シーンの2つの自撮りシーンに対するアプローチを評価した。
以上の結果から,RGB画像,対応するカメラポーズ,およびガウスを初期化するための深度センサに基づく点雲などのHoloLensデータが3次元ガウススプラッティングの入力に適していることが示唆された。
In the fields of photogrammetry, computer vision and computer graphics, the task of neural 3D scene reconstruction has led to the exploration of various techniques. Among these, 3D Gaussian Splatting stands out for its explicit representation of scenes using 3D Gaussians, making it appealing for tasks like 3D point cloud extraction and surface reconstruction. Motivated by its potential, we address the domain of 3D scene reconstruction, aiming to leverage the capabilities of the Microsoft HoloLens 2 for instant 3D Gaussian Splatting. We present HoloGS, a novel workflow utilizing HoloLens sensor data, which bypasses the need for pre-processing steps like Structure from Motion by instantly accessing the required input data i.e. the images, camera poses and the point cloud from depth sensing. We provide comprehensive investigations, including the training process and the rendering quality, assessed through the Peak Signal-to-Noise Ratio, and the geometric 3D accuracy of the densified point cloud from Gaussian centers, measured by Chamfer Distance. We evaluate our approach on two self-captured scenes: An outdoor scene of a cultural heritage statue and an indoor scene of a fine-structured plant. Our results show that the HoloLens data, including RGB images, corresponding camera poses, and depth sensing based point clouds to initialize the Gaussians, are suitable as input for 3D Gaussian Splatting. | 翻訳日:2024-05-06 13:05:54 公開日:2024-05-03 |
# DiffMap: 拡散モデルを用いたマップによるマップセグメンテーションの強化
DiffMap: Enhancing Map Segmentation with Map Prior Using Diffusion Model ( http://arxiv.org/abs/2405.02008v1 ) ライセンス: Link先を確認 | Peijin Jia, Tuopu Wen, Ziang Luo, Mengmeng Yang, Kun Jiang, Zhiquan Lei, Xuewei Tang, Ziyuan Liu, Le Cui, Kehua Sheng, Bo Zhang, Diange Yang, | (参考訳) 高精細(HD)マップの構築は、自動運転を実現する上で重要な要件である。
近年,バードアイビュー(Bird's-Eye View,BEV)の認識の進歩を活用して,このニーズに対応するためにいくつかのマップセグメンテーションアルゴリズムが開発されている。
しかし、既存のモデルは、現実的で一貫性のあるセマンティックマップレイアウトを作成する際の課題に直面している。
1つの顕著な問題は、マップセグメンテーションマスクに固有の構造化前駆体の限られた利用である。
そこで本研究では,潜在拡散モデルを用いて,地図分割マスクの構造をモデル化する新しい手法DiffMapを提案する。
この手法を取り入れることで、既存のセグメンテーション手法の性能を大幅に向上することができ、セグメンテーション出力に存在する特定の構造誤差を効果的に修正することができる。
特に,提案モジュールは任意のマップセグメンテーションモデルにシームレスに統合することができ,セマンティック情報を正確に記述することができる。
さらに, 広域可視化解析により, 実世界の地図レイアウトをより正確に反映し, 生成した地図の品質向上に有効であることを示す。
Constructing high-definition (HD) maps is a crucial requirement for enabling autonomous driving. In recent years, several map segmentation algorithms have been developed to address this need, leveraging advancements in Bird's-Eye View (BEV) perception. However, existing models still encounter challenges in producing realistic and consistent semantic map layouts. One prominent issue is the limited utilization of structured priors inherent in map segmentation masks. In light of this, we propose DiffMap, a novel approach specifically designed to model the structured priors of map segmentation masks using latent diffusion model. By incorporating this technique, the performance of existing semantic segmentation methods can be significantly enhanced and certain structural errors present in the segmentation outputs can be effectively rectified. Notably, the proposed module can be seamlessly integrated into any map segmentation model, thereby augmenting its capability to accurately delineate semantic information. Furthermore, through extensive visualization analysis, our model demonstrates superior proficiency in generating results that more accurately reflect real-world map layouts, further validating its efficacy in improving the quality of the generated maps. | 翻訳日:2024-05-06 13:05:54 公開日:2024-05-03 |
# テキスト分類における適応モジュールの性能, 効率, 公平性のトレードオフ
The Trade-off between Performance, Efficiency, and Fairness in Adapter Modules for Text Classification ( http://arxiv.org/abs/2405.02010v1 ) ライセンス: Link先を確認 | Minh Duc Bui, Katharina von der Wense, | (参考訳) 現在の自然言語処理(NLP)の研究は、ある時点では、パフォーマンス、プライバシ、公平性、効率性の2つの次元にのみ焦点をあてる傾向にあり、これは最適以下の結論を導き、しばしば信頼できるNLPを達成するというより広い目標を見越すことになる。
アダプタモジュール(Houlsby et al , 2019; Hu et al , 2021)の開発は、パフォーマンスと効率の改善に重点を置いている。
このギャップに対処するため,(1)全てのパラメータを微調整するか,(2)アダプタモジュールを用いて3つのテキスト分類データセットで実験を行う。
性能と効率については,アダプタ強化モデルの精度が完全微調整モデルの精度とほぼ同等であるのに対して,トレーニング時間は大幅に短縮されていることを確認する。
公平性については、アダプタモジュールがセンシティブなグループ間で混合公正性をもたらすことを示す。
さらなる調査により、標準微調整モデルが限られたバイアスを示す場合、アダプタモジュールは通常、余分なバイアスを導入しないことが明らかになった。
一方、微調整モデルがバイアスを増大させると、アダプタモジュールがバイアスに与える影響は予測不能になり、特定のグループに対してこれらのバイアスを著しく増大させるリスクが生じる。
以上より, ケース・バイ・ケース・アセスメントの必要性が示唆された。
Current natural language processing (NLP) research tends to focus on only one or, less frequently, two dimensions - e.g., performance, privacy, fairness, or efficiency - at a time, which may lead to suboptimal conclusions and often overlooking the broader goal of achieving trustworthy NLP. Work on adapter modules (Houlsby et al., 2019; Hu et al., 2021) focuses on improving performance and efficiency, with no investigation of unintended consequences on other aspects such as fairness. To address this gap, we conduct experiments on three text classification datasets by either (1) finetuning all parameters or (2) using adapter modules. Regarding performance and efficiency, we confirm prior findings that the accuracy of adapter-enhanced models is roughly on par with that of fully finetuned models, while training time is substantially reduced. Regarding fairness, we show that adapter modules result in mixed fairness across sensitive groups. Further investigation reveals that, when the standard fine-tuned model exhibits limited biases, adapter modules typically do not introduce extra bias. On the other hand, when the finetuned model exhibits increased bias, the impact of adapter modules on bias becomes more unpredictable, introducing the risk of significantly magnifying these biases for certain groups. Our findings highlight the need for a case-by-case evaluation rather than a one-size-fits-all judgment. | 翻訳日:2024-05-06 13:05:54 公開日:2024-05-03 |
# 対人ボットメーター:社会ボット検出のための対人分析
Adversarial Botometer: Adversarial Analysis for Social Bot Detection ( http://arxiv.org/abs/2405.02016v1 ) ライセンス: Link先を確認 | Shaghayegh Najari, Davood Rafiee, Mostafa Salehi, Reza Farahbakhsh, | (参考訳) ソーシャルボットは多くのオンラインソーシャルネットワーク(OSN)において、人間の行動の模倣として重要な役割を果たす。
この事実は、その能力と潜在的なリスクに関する難しい疑問を引き起こします。
Generative AI(GenAI)の最近の進歩を踏まえると、ソーシャルボットは人間の創造性を模倣する非常に現実的で複雑なコンテンツを生成できる。
悪意のあるソーシャルボットが、非現実的なコンテンツで人々を騙すようになると、それらを特定し、彼らが作り出すコンテンツを区別することは、多くのソーシャルプラットフォームにとって現実的な課題となっている。
この問題に対するいくつかのアプローチはすでに文献で提案されているが、提案された解決策は広く評価されていない。
そこで本研究では,テキストベースのボット検出器の動作を,いくつかのシナリオが提案される競合環境において評価する。
どちらが優勢で、どの状況がこれらの期待に影響を及ぼすかを分析することは興味深い。
本稿では,対話型ボットとボット検出装置が戦略的オンラインインタラクションに従事している合成逆ゲームとして,この問題をモデル化する。
ボット検出モデルは、ソーシャルボットが生成した攻撃例に基づいて評価され、最終的には、攻撃例でデータセットを汚染し、この条件下でのモデル性能を評価する。
データセットの影響を調べるために、クロスドメイン分析を行う。
2つのベンチマークデータセットを用いて、ソーシャルボットのカテゴリを総合的に評価することで、今後の研究で活用できる成果を実演することができた。
Social bots play a significant role in many online social networks (OSN) as they imitate human behavior. This fact raises difficult questions about their capabilities and potential risks. Given the recent advances in Generative AI (GenAI), social bots are capable of producing highly realistic and complex content that mimics human creativity. As the malicious social bots emerge to deceive people with their unrealistic content, identifying them and distinguishing the content they produce has become an actual challenge for numerous social platforms. Several approaches to this problem have already been proposed in the literature, but the proposed solutions have not been widely evaluated. To address this issue, we evaluate the behavior of a text-based bot detector in a competitive environment where some scenarios are proposed: \textit{First}, the tug-of-war between a bot and a bot detector is examined. It is interesting to analyze which party is more likely to prevail and which circumstances influence these expectations. In this regard, we model the problem as a synthetic adversarial game in which a conversational bot and a bot detector are engaged in strategic online interactions. \textit{Second}, the bot detection model is evaluated under attack examples generated by a social bot; to this end, we poison the dataset with attack examples and evaluate the model performance under this condition. \textit{Finally}, to investigate the impact of the dataset, a cross-domain analysis is performed. Through our comprehensive evaluation of different categories of social bots using two benchmark datasets, we were able to demonstrate some achivement that could be utilized in future works. | 翻訳日:2024-05-06 13:05:54 公開日:2024-05-03 |
# 連続量子系に対する時空分布
Time-of-arrival distributions for continuous quantum systems ( http://arxiv.org/abs/2405.02018v1 ) ライセンス: Link先を確認 | Mathieu Beau, Maximilien Barbier, Rafael Martellini, Lionel Martellini, | (参考訳) 統計学の標準的な結果から、任意の連続量子系(ガウス等)および任意の観測可能な$A$に対して、ある固定状態における時間測定の分布の$ \pi _{a}\left(t\right)$が、ある一定時間における状態測定の$ \rho _{t}\left(a\right)$が変換の$ \pi _{a}\left(t\right) = \left\vert \frac {\partial }{\partial t} \int_{-\infty }^{a}\rho _{t}\left(u\right) du \right$から推測できることが示される。
この発見は、長期にわたる地域問題に対する答えが、ボルン規則の中に秘密に隠された標準形式主義で容易に利用でき、従ってアドホックな時間演算子の導入や特定の(例えばボヘミア語)オントロジーへのコミットメントを必要としないことを示唆している。
結果の一般性と汎用性は、重畳状態にある自由粒子の所定の位置での到着時間と、自由落下する量子粒子の所定の速度に到達するのに必要な時間に応用されることによって説明される。
また,提案手法は,量子バックフロー現象を観測するための実験的プロトコルの設計に向けて,将来性のある新たな道筋を提供する。
Using standard results from statistics, we show that for any continuous quantum system (Gaussian or otherwise) and any observable $A$ (position or otherwise), the distribution $ \pi _{a}\left(t\right) $ of a time measurement at a fixed state $a$ can be inferred from the distribution $ \rho _{t}\left( a\right) $ of a state measurement at a fixed time $t$ via the transformation $ \pi _{a}\left( t\right) = \left\vert \frac{\partial }{\partial t} \int_{-\infty }^{a}\rho _{t}\left( u\right) du \right\vert $. This finding suggests that the answer to the long-lasting time-of-arrival problem is in fact readily available in the standard formalism, secretly hidden within the Born rule, and therefore does not require the introduction of an ad-hoc time operator or a commitment to a specific (e.g., Bohmian) ontology. The generality and versatility of the result are illustrated by applications to the time-of-arrival at a given location for a free particle in a superposed state and to the time required to reach a given velocity for a free-falling quantum particle. Our approach also offers a potentially promising new avenue toward the design of an experimental protocol for the yet-to-be-performed observation of the phenomenon of quantum backflow. | 翻訳日:2024-05-06 13:05:54 公開日:2024-05-03 |
# FPGAを用いたニューラルネットワークシミュレーションのための高速アルゴリズム
Fast Algorithms for Spiking Neural Network Simulation with FPGAs ( http://arxiv.org/abs/2405.02019v1 ) ライセンス: Link先を確認 | Björn A. Lindqvist, Artur Podobas, | (参考訳) 高速ゲートアレイ(FPGA)のための,OpenCLベースの高レベル合成を用いて,ポトジャン・ディースマン大脳皮質マイクロサーキットのための多数のスパイキングニューラルネットワークシミュレータ(SNN)を作成する。
我々の最高のシミュレーターは、回路をリアルタイムよりも25\%高速にシミュレートし、シナプスイベントあたり21nJ未満が必要であり、オンチップメモリによってボトルネックされる。
速度は最先端のGPUベースのシミュレータと良好に比較でき、そのエネルギー消費は他のどの結果よりも低い。
この結果は、単一のハードウェアアクセラレータ上で回路をシミュレートする最初のものである。
また、シミュレータを実装する技術やアルゴリズムを広範囲に分析し、その多くが他のタイプのハードウェアで実現できます。
したがって,本論文は,FPGAを対象とするか否かに関わらず,効率的なSNNシミュレーションに関心のある研究者や実践者にとって興味深いものである。
Using OpenCL-based high-level synthesis, we create a number of spiking neural network (SNN) simulators for the Potjans-Diesmann cortical microcircuit for a high-end Field-Programmable Gate Array (FPGA). Our best simulators simulate the circuit 25\% faster than real-time, require less than 21 nJ per synaptic event, and are bottle-necked by the device's on-chip memory. Speed-wise they compare favorably to the state-of-the-art GPU-based simulators and their energy usage is lower than any other published result. This result is the first for simulating the circuit on a single hardware accelerator. We also extensively analyze the techniques and algorithms we implement our simulators with, many of which can be realized on other types of hardware. Thus, this article is of interest to any researcher or practitioner interested in efficient SNN simulation, whether they target FPGAs or not. | 翻訳日:2024-05-06 13:05:54 公開日:2024-05-03 |
# IFNet:ミリ波信号を用いたハンドヘルドSARのディープイメージングとフォーカス
IFNet: Deep Imaging and Focusing for Handheld SAR with Millimeter-wave Signals ( http://arxiv.org/abs/2405.02023v1 ) ライセンス: Link先を確認 | Li Yadong, Zhang Dongheng, Geng Ruixu, Wu Jincheng, Hu Yang, Sun Qibin, Chen Yan, | (参考訳) 近年の進歩は、携帯環境に合成開口レーダ(SAR)の原理を適用した、ハンドヘルドミリ波(mmWave)イメージングの可能性を示している。
しかし、手持ちの動作誤差に対処する既存の研究は、高価な追跡装置に依存するか、単純化されたイメージングモデルを採用するかのいずれかであり、非現実的な展開や限られた性能に繋がる。
本稿では,信号処理モデルとディープニューラルネットワークの強みを組み合わせ,堅牢なイメージングを実現し,ハンドヘルドmmWaveシステムに焦点をあてる,新しい深部展開ネットワークIFNetを提案する。
まず, ハンドヘルド画像モデルにおいて, mmWave画像とハンドヘルド位相誤差について, 複数の先行情報を統合することで, ハンドヘルド画像モデルを定式化する。
さらに,最適化処理を反復的ネットワーク構造に変換し,高効率な撮像性能を実現する。
IFNetはハンドヘルド位相誤差を効果的に補償し、歪んだ信号から高忠実度画像を復元することを示した。
既存の手法と比較して、IFNetは平均ピーク信号-雑音比(PSNR)の少なくとも11.89dB、実世界のデータセットにおける平均構造類似度指数測定(SSIM)の64.91%の改善を達成できる。
Recent advancements have showcased the potential of handheld millimeter-wave (mmWave) imaging, which applies synthetic aperture radar (SAR) principles in portable settings. However, existing studies addressing handheld motion errors either rely on costly tracking devices or employ simplified imaging models, leading to impractical deployment or limited performance. In this paper, we present IFNet, a novel deep unfolding network that combines the strengths of signal processing models and deep neural networks to achieve robust imaging and focusing for handheld mmWave systems. We first formulate the handheld imaging model by integrating multiple priors about mmWave images and handheld phase errors. Furthermore, we transform the optimization processes into an iterative network structure for improved and efficient imaging performance. Extensive experiments demonstrate that IFNet effectively compensates for handheld phase errors and recovers high-fidelity images from severely distorted signals. In comparison with existing methods, IFNet can achieve at least 11.89 dB improvement in average peak signal-to-noise ratio (PSNR) and 64.91% improvement in average structural similarity index measure (SSIM) on a real-world dataset. | 翻訳日:2024-05-06 13:05:54 公開日:2024-05-03 |
# 大規模言語モデル(LLM)におけるナラティブ処理の分析 : GPT4を用いてBERTをテストする
Analyzing Narrative Processing in Large Language Models (LLMs): Using GPT4 to test BERT ( http://arxiv.org/abs/2405.02024v1 ) ライセンス: Link先を確認 | Patrick Krauss, Jannik Hösch, Claus Metzner, Andreas Maier, Peter Uhrig, Achim Schilling, | (参考訳) 言語を介して複雑な情報を伝達し受信する能力は人間に特有のものであり、伝統、文化、多目的な社会的相互作用の基礎となっている。
トランスフォーマーベースの大規模言語モデル(LLM)の破壊的な導入によって、人間はもはや「理解」し、言語を生産する唯一の存在ではない。
本研究では,LLMをニューラルネットワークにおける言語処理の基本的なメカニズムを理解するためのモデルとして,人間の脳が言語処理を行う方法についての予測と仮説を生成するための最初のステップを実行する。
そこで我々はChatGPTを用いて,10の異なる物語(Aesop's fables)の7つの異なるスタイルのバリエーションを生成する。
我々は、これらのストーリーをオープンソースのLLM BERTの入力として使用し、多次元スケーリングとクラスタ分析を用いて、BERTの隠れユニットの活性化パターンを分析した。
その結果,隠れユニットクラスタのアクティベーションベクトルは,物語内容(4-5。
BERTは、大きなテキストコーパスで積み重ねてトレーニングされた12の同一のビルディングブロックで構成されているにもかかわらず、異なるレイヤが異なるタスクを実行する。
これは人間の脳の非常に有用なモデルであり、自己相似構造、すなわち大脳皮質の異なる領域は異なる機能を持ち、そのため非常に効率的な言語処理に適している。
提案されたアプローチは、LSMのブラックボックスを片手に開く可能性があり、人間の言語処理と認知の根底にある神経過程を解き明かすためのさらなるステップかもしれない。
The ability to transmit and receive complex information via language is unique to humans and is the basis of traditions, culture and versatile social interactions. Through the disruptive introduction of transformer based large language models (LLMs) humans are not the only entity to "understand" and produce language any more. In the present study, we have performed the first steps to use LLMs as a model to understand fundamental mechanisms of language processing in neural networks, in order to make predictions and generate hypotheses on how the human brain does language processing. Thus, we have used ChatGPT to generate seven different stylistic variations of ten different narratives (Aesop's fables). We used these stories as input for the open source LLM BERT and have analyzed the activation patterns of the hidden units of BERT using multi-dimensional scaling and cluster analysis. We found that the activation vectors of the hidden units cluster according to stylistic variations in earlier layers of BERT (1) than narrative content (4-5). Despite the fact that BERT consists of 12 identical building blocks that are stacked and trained on large text corpora, the different layers perform different tasks. This is a very useful model of the human brain, where self-similar structures, i.e. different areas of the cerebral cortex, can have different functions and are therefore well suited to processing language in a very efficient way. The proposed approach has the potential to open the black box of LLMs on the one hand, and might be a further step to unravel the neural processes underlying human language processing and cognition in general. | 翻訳日:2024-05-06 13:05:54 公開日:2024-05-03 |
# 古典的データから量子オブザーバブルを学習する際の指数量子アドバンテージ
Exponential quantum advantages in learning quantum observables from classical data ( http://arxiv.org/abs/2405.02027v1 ) ライセンス: Link先を確認 | Riccardo Molteni, Casper Gyurik, Vedran Dunjko, | (参考訳) 量子コンピュータは、量子多体系をシミュレートする際の計算上の利点をもたらすと考えられている。
しかし、最近の研究では、古典的な機械学習アルゴリズムが古典的なデータを持つ量子システムの多くの特性を予測できることが示されている。
証明可能な量子優位性を備えた学習タスクの様々な例は提案されているが、これらは全て暗号関数を含み、実験室で遭遇する物理的なシナリオを表現していない。
本稿では,古典的(計測アウト)データから量子オブザーバブルを学習する物理的タスクに対して,量子的優位性を示す。
まず、パウリ弦の線形結合に対する学習上の利点を証明し、さらに、より広い単位パラメタライズされた可観測体のケースに対して結果を拡張する。
オブザーバブルのタイプごとに、古典的コンピュータが量子測定からデータを使って解ける物理的に関係のあるタスクを、量子コンピュータがデータ分析にまだ必要であるものから分離する境界線を定めます。
我々の結果は、量子多体物理学の領域における機械学習問題に対する量子コンピュータの実用性に光を当て、量子学習の改善がもたらされるかもしれない新しい方向を示唆している。
Quantum computers are believed to bring computational advantages in simulating quantum many body systems. However, recent works have shown that classical machine learning algorithms are able to predict numerous properties of quantum systems with classical data. Despite various examples of learning tasks with provable quantum advantages being proposed, they all involve cryptographic functions and do not represent any physical scenarios encountered in laboratory settings. In this paper we prove quantum advantages for the physically relevant task of learning quantum observables from classical (measured out) data. We consider two types of observables: first we prove a learning advantage for linear combinations of Pauli strings, then we extend the result for the broader case of unitarily parametrized observables. For each type of observable we delineate the boundaries that separate physically relevant tasks which classical computers can solve using data from quantum measurements, from those where a quantum computer is still necessary for data analysis. Our results shed light on the utility of quantum computers for machine learning problems in the domain of quantum many body physics, thereby suggesting new directions where quantum learning improvements may emerge. | 翻訳日:2024-05-06 13:05:54 公開日:2024-05-03 |
# 量子情報対策レンズによる振動の絡み合い
Vibrational Entanglement through the Lens of Quantum Information Measures ( http://arxiv.org/abs/2405.02031v1 ) ライセンス: Link先を確認 | Nina Glaser, Alberto Baiardi, Annina Z. Lieberherr, Markus Reiher, | (参考訳) 我々は、強い不調和結合と振動共鳴を持つ分子の複雑な振動スペクトルを理解するために、振動波関数の量子情報解析を導入する。
この目的のために, 強結合振動モードの同定を誘導し, モーダル基底集合内の相関を特徴付けるために, 1モーダルエントロピーと2モーダルエントロピーを定義する。
我々は、nモード振動密度行列再正規化群アルゴリズムを用いて計算した多重構成振動波関数に対するこれらの記述子を評価する。
本研究では, 振動場とCO2の励起状態の振動エンタングルメント解析を行い, 対称性が引き起こされたり, 偶発的(近傍)な退化による強い不調和効果を示す。
本稿では,フェルミ共鳴の絡み合いについて検討し,2つの縮退曲げモードから生じる最大絡み合い状態について考察する。
We introduce a quantum information analysis of vibrational wave functions to understand complex vibrational spectra of molecules with strong anharmonic couplings and vibrational resonances. For this purpose, we define one- and two-modal entropies to guide the identification of strongly coupled vibrational modes and to characterize correlations within modal basis sets. We evaluate these descriptors for multi-configurational vibrational wave functions which we calculate with the n-mode vibrational density matrix renormalization group algorithm. Based on the quantum information measures, we present a vibrational entanglement analysis of the vibrational ground and excited states of CO2, which display strong anharmonic effects due to the symmetry-induced and accidental (near-) degeneracies. We investigate the entanglement signature of the Fermi resonance and discuss the maximally entangled state arising from the two degenerate bending modes. | 翻訳日:2024-05-06 13:05:54 公開日:2024-05-03 |
# 摂動的非エルミート量子力学の特徴、パラドックスおよび修正
Features, paradoxes and amendments of perturbative non-Hermitian quantum mechanics ( http://arxiv.org/abs/2405.02032v1 ) ライセンス: Link先を確認 | Miloslav Znojil, | (参考訳) ユニタリシステムの量子力学は準エルミート表現において考慮される。
この枠組みでは、摂動の概念は3つの理由から直観に反している。
第一に、この形式主義では、物理的なヒルベルト空間ノルムを変更することが許される。
したがって、予備選択されたハミルトニアン$H(\lambda)=H_0+\lambda\,H_1$の場合、摂動の大きさ(および従って影響)は、常に信頼できる制御の下で保持できない。
しばしば、開量子系において摂動に対する高感度が観察される。
第二に、H_1\neq H_1^\dagger$ の影響が小さいことを保証する閉量子系を考えるときでさえ、系の正しい確率論的解釈は、主に物理的ヒルベルト空間の内積計量~$\Theta$ の非特異性のために曖昧である。
第三に、曖昧さを無視し、資格のあるメトリクスのどれか(もちろん理論の範囲を減らす)を拾えば、そのような選択は$\lambda$で変わります。
本稿では,これら3つの障害の全てを,レイリー=シュルイ「{o}dinger perturbation-expansion approach」の軽微な修正によって回避できることを示す。
$\Theta=\Theta(\lambda)$ の柔軟性は、ジェネリックランダム摂動の研究や複数の特定の非エルミート玩具モデルの研究を含む、いくつかの新しいモデル構築地平線を開きながら、継続可能である。
並行して、いくつかのパラドックスやオープンな質問が生き残ることが示されている。
Quantum mechanics of unitary systems is considered in quasi-Hermitian representation. In this framework the concept of perturbation is found counterintuitive, for three reasons. The first one is that in this formalism we are allowed to change the physical Hilbert-space norm. Thus, in a preselected Hamiltonian $H(\lambda)=H_0+\lambda\,H_1$ the size (and, hence, influence) of the perturbation cannot always be kept under a reliable control. Often, an enhanced sensitivity to perturbations is observed, for this reason, in open quantum systems. Second, even when we consider just a closed quantum system in which the influence of $H_1\neq H_1^\dagger$ is guaranteed to be small, the correct probabilistic interpretation of the system remains ambiguous, mainly due to the non-uniqueness of the physical Hilbert-space inner-product metric~$\Theta$. Third, even if we decide to ignore the ambiguity and if we pick up just any one of the eligible metrics (which reduces the scope of the theory of course), such a choice would still vary with $\lambda$. In our paper it is shown that all of these three obstacles can be circumvented via just a mild amendment of the Rayleigh-Schr\"{o}dinger perturbation-expansion approach. The flexibility of $\Theta=\Theta(\lambda)$ is shown to remain tractable while opening several new model-building horizons including the study of generic random perturbations and/or of multiple specific non-Hermitian toy models. In parallel, several paradoxes and open questions are shown to survive. | 翻訳日:2024-05-06 13:05:54 公開日:2024-05-03 |
# 大規模マルチモーダルモデルによる信頼性レポートの標準化とその予後的意義
Large Multimodal Model based Standardisation of Pathology Reports with Confidence and their Prognostic Significance ( http://arxiv.org/abs/2405.02040v1 ) ライセンス: Link先を確認 | Ethar Alzaid, Gabriele Pergola, Harriet Evans, David Snead, Fayyaz Minhas, | (参考訳) 病理報告は臨床および病理の詳細に富んでいるが、しばしばフリーテキスト形式で提示される。
これらのレポートの構造化されていない性質は、コンテンツのアクセシビリティを制限する重要な課題を示している。
本研究では,病状報告のスキャン画像から情報を自動的に抽出する大規模マルチモーダルモデル (LMM) を用いた実践的アプローチを提案する。
提案手法は,提案手法の実用性を制限する抽出フィールドに信頼性スコアを割り当てない既存手法の限界を克服する。
提案手法は,情報抽出と検証にLMM(Large Multimodal Model)の2つの段階を利用する。
このフレームワークは、複数の医療センターからのテキストレポートと、レガシーな病理報告のスキャンされた画像に一般化される。
推定された信頼度は、抽出されたフィールドのみを正確に選択できる抽出情報の精度の効果的な指標であることを示す。
また,病理報告から得られた構造的および非構造的データの予後的意義を示し,自動的に抽出されたフィールド値が患者の層状化に有意な予後的価値を示す。
このフレームワークは、URLで評価することができる。
Pathology reports are rich in clinical and pathological details but are often presented in free-text format. The unstructured nature of these reports presents a significant challenge limiting the accessibility of their content. In this work, we present a practical approach based on the use of large multimodal models (LMMs) for automatically extracting information from scanned images of pathology reports with the goal of generating a standardised report specifying the value of different fields along with estimated confidence about the accuracy of the extracted fields. The proposed approach overcomes limitations of existing methods which do not assign confidence scores to extracted fields limiting their practical use. The proposed framework uses two stages of prompting a Large Multimodal Model (LMM) for information extraction and validation. The framework generalises to textual reports from multiple medical centres as well as scanned images of legacy pathology reports. We show that the estimated confidence is an effective indicator of the accuracy of the extracted information that can be used to select only accurately extracted fields. We also show the prognostic significance of structured and unstructured data from pathology reports and show that the automatically extracted field values significant prognostic value for patient stratification. The framework is available for evaluation via the URL: https://labieb.dcs.warwick.ac.uk/. | 翻訳日:2024-05-06 13:05:54 公開日:2024-05-03 |
# 複雑な物理を学ぶための時間によるバックプロパゲーションの安定化
Stabilizing Backpropagation Through Time to Learn Complex Physics ( http://arxiv.org/abs/2405.02041v1 ) ライセンス: Link先を確認 | Patrick Schnell, Nils Thuerey, | (参考訳) 繰り返し発生する学習設定のミニマムを取り巻くベクトル場のうち、その爆発的かつ消滅する更新を伴う勾配場は、最適化には不十分な選択であり、効率的な計算可能性以上のものを提供していない。
物理シミュレーションの文脈では、時間的コヒーレントな振る舞いを得るためには、多くの未学習の時間ステップを通じてフィードバックをバックプロパゲートすることが不可欠であると考えられる。
ニューラルネットワークとは異なり、物理シミュレータはバランスの取れた勾配の流れを持ち、バックプロパゲーションパスの特定の変更は元のミニマの位置を変えない。
バックプロパゲーションの変形が前方および後方通過するので、勾配場の回転自由特性は失われる。
そこで本研究では,そのような回転ベクトル場を最適化に用いた場合の負の意味と,それに対応する方法について議論する。
我々の最終手順は、拡張性に悪影響を及ぼさない一連の勾配停止とコンポーネントワイズ比較演算により容易に実装できる。
3つの制御問題に対する実験により、特に各タスクの複雑さが増大するにつれて、勾配からのアンバランスな更新は必要な正確な制御信号を提供できなくなり、なおもタスクを解くことができることがわかった。
私たちのコードはhttps://github.com/tum-pbs/StableBPTTで参照できます。
Of all the vector fields surrounding the minima of recurrent learning setups, the gradient field with its exploding and vanishing updates appears a poor choice for optimization, offering little beyond efficient computability. We seek to improve this suboptimal practice in the context of physics simulations, where backpropagating feedback through many unrolled time steps is considered crucial to acquiring temporally coherent behavior. The alternative vector field we propose follows from two principles: physics simulators, unlike neural networks, have a balanced gradient flow, and certain modifications to the backpropagation pass leave the positions of the original minima unchanged. As any modification of backpropagation decouples forward and backward pass, the rotation-free character of the gradient field is lost. Therefore, we discuss the negative implications of using such a rotational vector field for optimization and how to counteract them. Our final procedure is easily implementable via a sequence of gradient stopping and component-wise comparison operations, which do not negatively affect scalability. Our experiments on three control problems show that especially as we increase the complexity of each task, the unbalanced updates from the gradient can no longer provide the precise control signals necessary while our method still solves the tasks. Our code can be found at https://github.com/tum-pbs/StableBPTT. | 翻訳日:2024-05-06 13:05:54 公開日:2024-05-03 |
# 人間中心型セキュリティについて:モードとモード遷移に基づく新しいシステムモデル
On human-centred security: A new systems model based on modes and mode transitions ( http://arxiv.org/abs/2405.02043v1 ) ライセンス: Link先を確認 | Edwin J Beggs, John V Tucker, Victoria Wang, | (参考訳) 本稿では,モデムとモード遷移という新たな概念を用いて,複雑なセキュリティシステムを解析するための抽象的な概念的枠組みを提案する。
モードは、独自の目的を持つシステムの独立したコンポーネントであり、データ、アルゴリズム、スコープと制限を監視します。
モードの振る舞いは、他のモードへの遷移を含むが、その目的と能力に照らしてモードの監視データの解釈によって決定される。
我々は概念的枠組みを数学的に定式化し、高次元幾何学空間における信念を定量化し視覚化することによって、我々のモデルはシステムの設計、分析、説明の両方に役立つと論じる。
数学的モデルはsimplicial complexに基づいている。
We propose an abstract conceptual framework for analysing complex security systems using a new notion of modes and mode transitions. A mode is an independent component of a system with its own objectives, monitoring data, algorithms, and scope and limits. The behaviour of a mode, including its transitions to other modes, is determined by interpretations of the mode's monitoring data in the light of its objectives and capabilities -- these interpretations we call beliefs. We formalise the conceptual framework mathematically and, by quantifying and visualising beliefs in higher-dimensional geometric spaces, we argue our models may help both design, analyse and explain systems. The mathematical models are based on simplicial complexes. | 翻訳日:2024-05-06 13:05:54 公開日:2024-05-03 |
# ロバスト強化学習のためのフレームワークとしてのゼロサム位置微分ゲーム:ディープQラーニングアプローチ
Zero-Sum Positional Differential Games as a Framework for Robust Reinforcement Learning: Deep Q-Learning Approach ( http://arxiv.org/abs/2405.02044v1 ) ライセンス: Link先を確認 | Anton Plaksin, Vitaly Kalev, | (参考訳) Robust Reinforcement Learning(RRL)は、不確実性や障害モデルに対する堅牢なトレーニングを目的とした、有望な強化学習(RL)パラダイムである。
このパラダイムに従うと、不確実性や乱れは第2の敵エージェントの行動と解釈され、その問題は、相手の行動に対して堅牢なエージェントのポリシーを求めることに還元される。
本稿では, 位置微分ゲーム理論におけるRRL問題を考察し, 理論的に正当化された直観を得ることにより, 集中型Q-ラーニング手法の開発を支援する。
すなわち、アイザックの条件(実世界の力学系では十分一般的な)の下で、同じQ-函数がミニマックス方程式とマクシミン・ベルマン方程式の両方の近似解として利用できることを証明する。
これらの結果に基づき、Isaris Deep Q-Networkアルゴリズムを示し、様々な環境における他のベースラインRRLやマルチエージェントRLアルゴリズムと比較して、それらの優位性を実証する。
Robust Reinforcement Learning (RRL) is a promising Reinforcement Learning (RL) paradigm aimed at training robust to uncertainty or disturbances models, making them more efficient for real-world applications. Following this paradigm, uncertainty or disturbances are interpreted as actions of a second adversarial agent, and thus, the problem is reduced to seeking the agents' policies robust to any opponent's actions. This paper is the first to propose considering the RRL problems within the positional differential game theory, which helps us to obtain theoretically justified intuition to develop a centralized Q-learning approach. Namely, we prove that under Isaacs's condition (sufficiently general for real-world dynamical systems), the same Q-function can be utilized as an approximate solution of both minimax and maximin Bellman equations. Based on these results, we present the Isaacs Deep Q-Network algorithms and demonstrate their superiority compared to other baseline RRL and Multi-Agent RL algorithms in various environments. | 翻訳日:2024-05-06 12:55:53 公開日:2024-05-03 |
# 実世界における検索システムの比較分析
Comparative Analysis of Retrieval Systems in the Real World ( http://arxiv.org/abs/2405.02048v1 ) ライセンス: Link先を確認 | Dmytro Mozolevskyi, Waseem AlShikh, | (参考訳) 本研究では,情報検索と自然言語処理の分野において,高度な言語モデルと検索・検索システムの統合を包括的に分析する。
本研究の目的は,その性能を精度と効率の観点から評価・比較することである。
この分析では、Azure Cognitive Search Retriever with GPT-4、PineconeのCanopyフレームワーク、Langchain with Pineconeと異なる言語モデル(OpenAI、Cohere)、LlamaIndex with Weaviate Vector Storeのハイブリッド検索、GoogleのCloud VertexAI-SearchにおけるRAG実装、Amazon SageMakerのRAG、KG-FID Retrievalと呼ばれる新しいアプローチなど、さまざまなテクノロジの組み合わせが検討されている。
この分析の動機は、様々な領域における堅牢で応答性の高い質問応答システムに対する需要の増加から生じる。
RobustQAメトリックは、様々な質問のパラフレーズの下でこれらのシステムの性能を評価するために使用される。
このレポートは,AIによる検索・検索システムの展開・開発において,各手法の長所と短所に関する洞察を提供することを目的としている。
This research paper presents a comprehensive analysis of integrating advanced language models with search and retrieval systems in the fields of information retrieval and natural language processing. The objective is to evaluate and compare various state-of-the-art methods based on their performance in terms of accuracy and efficiency. The analysis explores different combinations of technologies, including Azure Cognitive Search Retriever with GPT-4, Pinecone's Canopy framework, Langchain with Pinecone and different language models (OpenAI, Cohere), LlamaIndex with Weaviate Vector Store's hybrid search, Google's RAG implementation on Cloud VertexAI-Search, Amazon SageMaker's RAG, and a novel approach called KG-FID Retrieval. The motivation for this analysis arises from the increasing demand for robust and responsive question-answering systems in various domains. The RobustQA metric is used to evaluate the performance of these systems under diverse paraphrasing of questions. The report aims to provide insights into the strengths and weaknesses of each method, facilitating informed decisions in the deployment and development of AI-driven search and retrieval systems. | 翻訳日:2024-05-06 12:55:53 公開日:2024-05-03 |
# TabNetを用いた語彙データのフェデレーション学習:Vehicular Use-Case
Federated Learning for Tabular Data using TabNet: A Vehicular Use-Case ( http://arxiv.org/abs/2405.02060v1 ) ライセンス: Link先を確認 | William Lindskog, Christian Prehofer, | (参考訳) 本稿では,道路上の障害物,不規則,舗装の種類を分類する車両利用事例に対して,フェデレートラーニング(FL)が適用可能であることを示す。
提案するフレームワークは,表データのための最先端ニューラルネットワークであるFLとTabNetを利用する。
私たちは、TabNetをFLとどのように統合できるかを最初にデモしました。
また, 最大試験精度は93.6%である。
最後に、FLがこのデータセットに適した概念である理由について述べる。
In this paper, we show how Federated Learning (FL) can be applied to vehicular use-cases in which we seek to classify obstacles, irregularities and pavement types on roads. Our proposed framework utilizes FL and TabNet, a state-of-the-art neural network for tabular data. We are the first to demonstrate how TabNet can be integrated with FL. Moreover, we achieve a maximum test accuracy of 93.6%. Finally, we reason why FL is a suitable concept for this data set. | 翻訳日:2024-05-06 12:55:53 公開日:2024-05-03 |
# 総合的なディープラーニングに基づく木インスタンスセグメンテーションモデルに向けて
Towards general deep-learning-based tree instance segmentation models ( http://arxiv.org/abs/2405.02061v1 ) ライセンス: Link先を確認 | Jonathan Henrich, Jan van Delden, | (参考訳) 森林点雲からの個々の木々の分断は,炭素沈降推定などの下流分析にとって重要な課題である。
近年,木を分割する学習の可能性を示すディープラーニングに基づく手法が提案されている。
これらの手法は教師付き方式で訓練されているため、様々な設定に適用可能な一般的なモデルがどうやって得られるのかという疑問が生じる。
これまでのところ、トレーニングは主に特定のレーザー走査型と特定の種類の森林のデータを用いて行われてきた。
本研究では、文献に見られる7つの多様なデータセットを用いて、様々な条件下で1つのセグメンテーションモデルを訓練し、ドメインシフトの下での一般化能力に関する洞察を得る。
その結果, 針葉樹が支配するスパース点雲から決定的に支配する高分解能点雲への一般化が可能であることが示唆された。
逆に質的な証拠は、高解像度から低解像度の点雲への一般化が難しいことを示唆している。
これは、モデル開発に多様なデータ特性を持つフォレストポイントクラウドの必要性を強調している。
利用可能なデータ基盤を強化するため、以前の2つの作品のラベル付きツリーは完全な森林点クラウドに伝播され、https://doi.org/10.25625/QUTUWUで公開されている。
The segmentation of individual trees from forest point clouds is a crucial task for downstream analyses such as carbon sequestration estimation. Recently, deep-learning-based methods have been proposed which show the potential of learning to segment trees. Since these methods are trained in a supervised way, the question arises how general models can be obtained that are applicable across a wide range of settings. So far, training has been mainly conducted with data from one specific laser scanning type and for specific types of forests. In this work, we train one segmentation model under various conditions, using seven diverse datasets found in literature, to gain insights into the generalization capabilities under domain-shift. Our results suggest that a generalization from coniferous dominated sparse point clouds to deciduous dominated high-resolution point clouds is possible. Conversely, qualitative evidence suggests that generalization from high-resolution to low-resolution point clouds is challenging. This emphasizes the need for forest point clouds with diverse data characteristics for model development. To enrich the available data basis, labeled trees from two previous works were propagated to the complete forest point cloud and are made publicly available at https://doi.org/10.25625/QUTUWU. | 翻訳日:2024-05-06 12:55:53 公開日:2024-05-03 |
# 混合自律走行における車両プラトゥーニングのためのマクロモデルを用いたダイナスタイル学習
Dyna-Style Learning with A Macroscopic Model for Vehicle Platooning in Mixed-Autonomy Traffic ( http://arxiv.org/abs/2405.02062v1 ) ライセンス: Link先を確認 | Yichuan Zou, Li Jin, Xi Xiong, | (参考訳) コネクテッド・自動運転車(CAV)のプラトゥーイングは、ハイウェイの近代化において重要な役割を担い、効率と安全性の向上に寄与する。
本稿では, バルク交通流とCAVプラトンとの複雑な相互作用を解明するために, 結合偏微分方程式 (PDE) と常微分方程式 (ODE) モデルを用いて, スマートハイウェイにおける小隊化の重要性を考察する。
本研究は,小隊制御に適したDynaスタイルの計画学習フレームワークの開発に焦点をあてる。
結合されたPDE-ODEモデルを利用することで、仮想体験を通してDynaスタイルの学習におけるデータ効率を向上させる。
シミュレーションの結果, 混合自律環境下でのプラトンモデリングにおけるマクロモデルの有効性が検証された。
Platooning of connected and autonomous vehicles (CAVs) plays a vital role in modernizing highways, ushering in enhanced efficiency and safety. This paper explores the significance of platooning in smart highways, employing a coupled partial differential equation (PDE) and ordinary differential equation (ODE) model to elucidate the complex interaction between bulk traffic flow and CAV platoons. Our study focuses on developing a Dyna-style planning and learning framework tailored for platoon control, with a specific goal of reducing fuel consumption. By harnessing the coupled PDE-ODE model, we improve data efficiency in Dyna-style learning through virtual experiences. Simulation results validate the effectiveness of our macroscopic model in modeling platoons within mixed-autonomy settings, demonstrating a notable $10.11\%$ reduction in vehicular fuel consumption compared to conventional approaches. | 翻訳日:2024-05-06 12:55:53 公開日:2024-05-03 |
# 任意非線形性を持つベイズニューラルネットワークのわずかなサンプル変動推定
Few-sample Variational Inference of Bayesian Neural Networks with Arbitrary Nonlinearities ( http://arxiv.org/abs/2405.02063v1 ) ライセンス: Link先を確認 | David J. Schodt, | (参考訳) ベイズニューラルネットワーク(BNN)は、従来のニューラルネットワークを拡張して、出力に関連する不確実性を提供する。
BNNの前方通過では、モンテカルロが学習後部のネットワーク重みをサンプリングするか、あるいはネットワークを介して統計モーメントを解析的に伝播することによって予測(とその不確実性)を行う。
フレキシブルではあるが、モンテカルロサンプリングは計算コストが高く、資源制約や大規模ネットワークでは実現不可能または実用的ではない。
モーメント伝搬はBNN推論の計算コストを改善することができるが、任意の非線形性を持つネットワークでは困難あるいは不可能であり、そのようなスキームで許容されるネットワーク層のセットを制限することができる。
本研究は, 任意の非線形性による統計モーメントの伝播を, 3つの決定論的サンプルのみを用いて簡易かつ効果的に行うことを示し, ネットワーク層に制限を加えることなく, 少数のBNNの変分推定を可能にする。
さらに,本手法を用いて,BNNの出力ノードに物理インフォームド事前情報を注入する非線形アクティベーション機能を示す。
Bayesian Neural Networks (BNNs) extend traditional neural networks to provide uncertainties associated with their outputs. On the forward pass through a BNN, predictions (and their uncertainties) are made either by Monte Carlo sampling network weights from the learned posterior or by analytically propagating statistical moments through the network. Though flexible, Monte Carlo sampling is computationally expensive and can be infeasible or impractical under resource constraints or for large networks. While moment propagation can ameliorate the computational costs of BNN inference, it can be difficult or impossible for networks with arbitrary nonlinearities, thereby restricting the possible set of network layers permitted with such a scheme. In this work, we demonstrate a simple yet effective approach for propagating statistical moments through arbitrary nonlinearities with only 3 deterministic samples, enabling few-sample variational inference of BNNs without restricting the set of network layers used. Furthermore, we leverage this approach to demonstrate a novel nonlinear activation function that we use to inject physics-informed prior information into output nodes of a BNN. | 翻訳日:2024-05-06 12:55:53 公開日:2024-05-03 |
# WateRF:著作権保護分野におけるロバストな透かし
WateRF: Robust Watermarks in Radiance Fields for Protection of Copyrights ( http://arxiv.org/abs/2405.02066v1 ) ライセンス: Link先を確認 | Youngdong Jang, Dong In Lee, MinHyuk Jang, Jong Wook Kim, Feng Yang, Sangpil Kim, | (参考訳) NeRF(Neural Radiance Fields)研究の進歩は、様々な領域に広範な応用をもたらすが、著作権保護はまだ深く研究されていない。
近年、NeRFベースの3D表現を安全に展開するための重要なソリューションの1つとして、NeRF透かしが検討されている。
しかし、既存の手法は暗黙的あるいは明示的なNeRF表現にのみ適用するように設計されている。
本研究では,NeRFの両表現に適用可能な革新的な透かし手法を提案する。
これは、NeRFを微調整してバイナリメッセージをレンダリングプロセスに埋め込むことによって実現される。
本稿では,NeRF空間における離散ウェーブレット変換を透かしに利用することを提案する。
さらに、遅延バックプロパゲーション手法を採用し、パッチワイズ損失と組み合わせることで、最小トレードオフでレンダリング品質とビット精度を向上させる。
提案手法は,2次元レンダリング画像に埋め込まれた透かしの容量,可視性,堅牢性の3つの異なる側面で評価する。
本手法は、比較した最先端手法よりも高速なトレーニング速度で最先端性能を実現する。
The advances in the Neural Radiance Fields (NeRF) research offer extensive applications in diverse domains, but protecting their copyrights has not yet been researched in depth. Recently, NeRF watermarking has been considered one of the pivotal solutions for safely deploying NeRF-based 3D representations. However, existing methods are designed to apply only to implicit or explicit NeRF representations. In this work, we introduce an innovative watermarking method that can be employed in both representations of NeRF. This is achieved by fine-tuning NeRF to embed binary messages in the rendering process. In detail, we propose utilizing the discrete wavelet transform in the NeRF space for watermarking. Furthermore, we adopt a deferred back-propagation technique and introduce a combination with the patch-wise loss to improve rendering quality and bit accuracy with minimum trade-offs. We evaluate our method in three different aspects: capacity, invisibility, and robustness of the embedded watermarks in the 2D-rendered images. Our method achieves state-of-the-art performance with faster training speed over the compared state-of-the-art methods. | 翻訳日:2024-05-06 12:55:53 公開日:2024-05-03 |
# フェデレートタブラルデータに対する最小分散サンプリングを用いたヒストグラムに基づくフェデレートXGBoost
Histogram-Based Federated XGBoost using Minimal Variance Sampling for Federated Tabular Data ( http://arxiv.org/abs/2405.02067v1 ) ライセンス: Link先を確認 | William Lindskog, Christian Prehofer, Sarandeep Singh, | (参考訳) Federated Learning (FL) はかなりの注目を集めているが、表形式のデータについては、FLはより少ない注目を集めている。
ほとんどのFL研究はニューラルネットワークに重点を置いているが、XGBoostのようなツリーベースモデル(TBM)は、歴史的に表データでよりよく機能している。
木構築時のトレーニングデータのサブサンプリングにより性能が向上することが示されているが,このようなサブサンプリングがFLの性能を向上させるかどうかは未解決の問題である。
本稿では,最小分散サンプリング(MVS)を用いたヒストグラムに基づくフェデレーションXGBoostの評価を行う。
提案アルゴリズムは,MVSを用いたモデルにより,フェデレートされた設定における精度と回帰誤差の観点から,性能を向上できることを示す。
本評価では,MVSを用いたモデルでは,一様(ランダム)サンプリングよりも優れた性能を示し,サンプリングを全く行わない。
新たなフェデレートされた表データセットで、ローカルとグローバルの両方のパフォーマンスを達成する。
MVSを用いたFederated XGBoostは、研究対象の半数で集中型XGBoostを上回っている。
Federated Learning (FL) has gained considerable traction, yet, for tabular data, FL has received less attention. Most FL research has focused on Neural Networks while Tree-Based Models (TBMs) such as XGBoost have historically performed better on tabular data. It has been shown that subsampling of training data when building trees can improve performance but it is an open problem whether such subsampling can improve performance in FL. In this paper, we evaluate a histogram-based federated XGBoost that uses Minimal Variance Sampling (MVS). We demonstrate the underlying algorithm and show that our model using MVS can improve performance in terms of accuracy and regression error in a federated setting. In our evaluation, our model using MVS performs better than uniform (random) sampling and no sampling at all. It achieves both outstanding local and global performance on a new set of federated tabular datasets. Federated XGBoost using MVS also outperforms centralized XGBoost in half of the studied cases. | 翻訳日:2024-05-06 12:55:53 公開日:2024-05-03 |
# 予習教師の育成 : 異常検出のためのロバスト特徴の相違を目指して
Advancing Pre-trained Teacher: Towards Robust Feature Discrepancy for Anomaly Detection ( http://arxiv.org/abs/2405.02068v1 ) ライセンス: Link先を確認 | Canhui Tang, Sanping Zhou, Yizhe Li, Yonghao Dong, Le Wang, | (参考訳) ImageNet事前学習型教師モデルと学習可能な学生モデルとの知識蒸留の幅広い応用により、産業異常検出はここ数年で大きな成果を上げてきた。
知識蒸留の成功は,(1)教師モデルが正常なパターンと異常なパターンの2つの異なる分布を共同で表現し,(2)学生モデルが正規分布を再構築することのみを前提として,教師モデルと学生モデルとの間の特徴差を維持する方法に大きく依存している。
しかし、これらの理想的な仮定を実際に維持することは依然として難しい問題である。
本稿では,AAND(Anomaly Amplification and Normality Distillation)と呼ばれる単純な2段階産業異常検出フレームワークを提案する。
第1の異常増幅段階において,事前学習した教師エンコーダを前進させる新しい残留異常増幅(RAA)モジュールを提案する。
合成異常の曝露により、事前訓練されたモデルの整合性を維持しつつ、残留生成を介して異常を増幅する。
主にMatching-guided Residual GateとAttribute-scaling Residual Generatorで構成されており、それぞれの残余比と特性を決定できる。
第2次常温蒸留では, 新たなハードナレッジ蒸留(HKD)の損失を生かし, 正常なパターンの再構築を容易にするための逆蒸留パラダイムを用いて, 学生デコーダを訓練する。
MvTecAD, VisA, MvTec3D-RGBデータセットの総合的な実験により, 本手法が最先端の性能を実現することを示す。
With the wide application of knowledge distillation between an ImageNet pre-trained teacher model and a learnable student model, industrial anomaly detection has witnessed a significant achievement in the past few years. The success of knowledge distillation mainly relies on how to keep the feature discrepancy between the teacher and student model, in which it assumes that: (1) the teacher model can jointly represent two different distributions for the normal and abnormal patterns, while (2) the student model can only reconstruct the normal distribution. However, it still remains a challenging issue to maintain these ideal assumptions in practice. In this paper, we propose a simple yet effective two-stage industrial anomaly detection framework, termed as AAND, which sequentially performs Anomaly Amplification and Normality Distillation to obtain robust feature discrepancy. In the first anomaly amplification stage, we propose a novel Residual Anomaly Amplification (RAA) module to advance the pre-trained teacher encoder. With the exposure of synthetic anomalies, it amplifies anomalies via residual generation while maintaining the integrity of pre-trained model. It mainly comprises a Matching-guided Residual Gate and an Attribute-scaling Residual Generator, which can determine the residuals' proportion and characteristic, respectively. In the second normality distillation stage, we further employ a reverse distillation paradigm to train a student decoder, in which a novel Hard Knowledge Distillation (HKD) loss is built to better facilitate the reconstruction of normal patterns. Comprehensive experiments on the MvTecAD, VisA, and MvTec3D-RGB datasets show that our method achieves state-of-the-art performance. | 翻訳日:2024-05-06 12:55:53 公開日:2024-05-03 |
# NISQハードウェアを用いた量子回路学習
Quantum Circuit Learning on NISQ Hardware ( http://arxiv.org/abs/2405.02069v1 ) ライセンス: Link先を確認 | Niclas Schillo, Andreas Sturm, | (参考訳) 現在の量子コンピュータは、ノイズのある中間スケール量子(NISQ)という用語が確立された、小さく、エラーを起こしやすいシステムである。
大規模でフォールトトレラントな量子コンピュータが近日中に利用可能になることは期待できないため、近年、NISQに適したアルゴリズムを見つけるタスクが注目されている。
この文脈における最も顕著な候補は変分量子アルゴリズムである。
ハイブリッドな量子古典的アーキテクチャのため、NISQコンピュータの限界に対処できるように、量子ビットと量子ゲートを少なくする必要がある。
変分量子アルゴリズムの重要なクラスは量子回路学習(QCL)フレームワークである。
データエンコーディングとトレーニング可能なパラメトリゼーション層で構成され、これらのスキームは、手元にある問題に適合する量子モデル関数を実装している。
例えば、微分方程式を計算するためにパラメータシフト則と組み合わせることで、微分方程式を解くことができる。
QCLと関連するアルゴリズムは文献で広く研究されている。
しかし、数値実験は通常シミュレータに限られており、実際の量子コンピュータの結果は乏しい。
本稿では,超伝導IBM量子プロセッサ上でQCL回路を実行することにより,ハードウェアエラーの解析とともに,このギャップを埋める。
我々は,IBM量子コンピュータ上で最大3キュービットのQCL回路が実行可能であることを示す。
この目的のために、複数の関数が学習され、量子コンピュータ上で模範微分方程式が解かれる。
さらに、QCLフレームワークを用いて異なる量子モデル関数を並列に学習し、結合微分方程式を効率的に解ける方法を提案する。
Current quantum computers are small and error-prone systems for which the term noisy intermediate-scale quantum (NISQ) has become established. Since large scale, fault-tolerant quantum computers are not expected to be available in the near future, the task of finding NISQ suitable algorithms has received a lot of attention in recent years. The most prominent candidates in this context are variational quantum algorithms. Due to their hybrid quantum-classical architecture they require fewer qubits and quantum gates so that they can cope with the limitations of NISQ computers. An important class of variational quantum algorithms is the quantum circuit learning (QCL) framework. Consisting of a data encoding and a trainable, parametrized layer, these schemes implement a quantum model function that can be fitted to the problem at hand. For instance, in combination with the parameter shift rule to compute derivatives, they can be used to solve differential equations. QCL and related algorithms have been widely studied in the literature. However, numerical experiments are usually limited to simulators and results from real quantum computers are scarce. In this paper we close this gap by executing QCL circuits on a superconducting IBM quantum processor in conjunction with an analysis of the hardware errors. We show that exemplary QCL circuits with up to three qubits are executable on the IBM quantum computer. For this purpose, multiple functions are learned and an exemplary differential equation is solved on the quantum computer. Moreover, we present how the QCL framework can be used to learn different quantum model functions in parallel, which can be applied to solve coupled differential equations in an efficient way. | 翻訳日:2024-05-06 12:55:53 公開日:2024-05-03 |
# クラウドサービスにおける侵入監視の戦略
Strategies for Intrusion Monitoring in Cloud Services ( http://arxiv.org/abs/2405.02070v1 ) ライセンス: Link先を確認 | George R. S. Weir, Andreas Aßmuth, | (参考訳) 効果的な活動とイベントモニタリングは、デジタル法医学的準備に欠かせない側面である。
ログやその他のイベントデータをキャプチャする技術は、従来のネットワークホストから馴染みがあり、Cloudコンテキストに直接転送される。
どちらの文脈においても、監視システムが違法な存在や活動を隠すために侵入者によって標的にされ、障害を受けるリスクが懸念されている。
我々は侵入監視のアプローチの概要を述べる。
(i)~ログデータの信頼性と信頼性を確保する
(ii)~1つ以上のログシステムに悪意のある障害が発生した場合に、ログ復元をサポートするデータ共有手段の提供。
Effective activity and event monitoring is an essential aspect of digital forensic readiness. Techniques for capturing log and other event data are familiar from conventional networked hosts and transfer directly to the Cloud context. In both contexts, a major concern is the risk that monitoring systems may be targeted and impaired by intruders seeking to conceal their illicit presence and activities. We outline an approach to intrusion monitoring that aims (i)~to ensure the credibility of log data and (ii)~provide a means of data sharing that supports log reconstruction in the event that one or more logging systems is maliciously impaired. | 翻訳日:2024-05-06 12:55:53 公開日:2024-05-03 |
# 語彙データに基づくフェデレーション学習ベンチマーク:木に基づくモデルとニューラルネットワークの比較
A Federated Learning Benchmark on Tabular Data: Comparing Tree-Based Models and Neural Networks ( http://arxiv.org/abs/2405.02074v1 ) ライセンス: Link先を確認 | William Lindskog, Christian Prehofer, | (参考訳) フェデレートラーニング(FL)は、機械学習モデルが分散データセットでトレーニングする方法に対処するため、近年注目を集めている。
FLは、Deep Neural Networks (DNN) と呼ばれるパラメトリックモデルのために設計された。
このようにして、画像とテキストのタスクに約束を示す。
しかし、表データのFLはほとんど注目されていない。
木に基づくモデル (TBM) は表形式のデータでより良い性能を発揮すると考えられており、FLの統合が始まっている。
本研究では,10個の有名な表付きデータセット上で,異なるデータパーティションを持つ水平FLのためのフェデレーションTBMとDNNのベンチマークを行った。
我々の新しいベンチマークの結果は、現在のフェデレートされたTBMは、異なるデータパーティションにおけるフェデレーションされたDNNよりも優れた性能を示すことを示している。
さらに、フェデレートされたXGBoostは、他のすべてのモデルより優れています。
最後に,フェデレートされたTBMは,クライアント数が大幅に増加した場合でも,フェデレーションされたパラメトリックモデルよりも優れていた。
Federated Learning (FL) has lately gained traction as it addresses how machine learning models train on distributed datasets. FL was designed for parametric models, namely Deep Neural Networks (DNNs).Thus, it has shown promise on image and text tasks. However, FL for tabular data has received little attention. Tree-Based Models (TBMs) have been considered to perform better on tabular data and they are starting to see FL integrations. In this study, we benchmark federated TBMs and DNNs for horizontal FL, with varying data partitions, on 10 well-known tabular datasets. Our novel benchmark results indicates that current federated boosted TBMs perform better than federated DNNs in different data partitions. Furthermore, a federated XGBoost outperforms all other models. Lastly, we find that federated TBMs perform better than federated parametric models, even when increasing the number of clients significantly. | 翻訳日:2024-05-06 12:55:53 公開日:2024-05-03 |
# MVP-Shot:Few-Shotアクション認識のためのマルチ速度プログレッシブアライメントフレームワーク
MVP-Shot: Multi-Velocity Progressive-Alignment Framework for Few-Shot Action Recognition ( http://arxiv.org/abs/2405.02077v1 ) ライセンス: Link先を確認 | Hongyu Qu, Rui Yan, Xiangbo Shu, Haoliang Gao, Peng Huang, Guo-Sen Xie, | (参考訳) 最近の数発アクション認識(FSAR)法は、学習した識別的特徴に対して意味マッチングを行うことにより、有望な性能を達成する。
しかしながら、ほとんどのFSARメソッドは単一スケール(例えば、フレームレベル、セグメントレベル、 \etc)の機能アライメントに焦点を当てており、同じ意味を持つ人間のアクションが異なる速度で現れる可能性があることを無視している。
この目的のために我々は,多速度レベルで意味関連行動特徴を段階的に学習・調整する,新しいMVP-Shotフレームワークを開発した。
具体的には、MVFA(Multi-Velocity Feature Alignment)モジュールは、サポートビデオとクエリビデオの類似度を異なる速度スケールで測定し、すべての類似度スコアを残高な方法でマージするように設計されている。
提案するプログレッシブ・セマンティック・タイラード・インタラクション(PSTI)モジュールは,動作意味から逸脱する複数の速度特性を避けるため,異なる速度でチャネルと時間領域の機能相互作用を通じて,速度調整されたテキスト情報をビデオ特徴に注入する。
上記の2つのモジュールは相互に補償し、数ショット設定でクエリカテゴリをより正確に予測する。
実験結果から,本手法は複数の標準ショットベンチマーク(HMDB51, UCF101, Kinetics, SSv2-small)において,最先端の手法よりも優れていた。
Recent few-shot action recognition (FSAR) methods achieve promising performance by performing semantic matching on learned discriminative features. However, most FSAR methods focus on single-scale (e.g., frame-level, segment-level, \etc) feature alignment, which ignores that human actions with the same semantic may appear at different velocities. To this end, we develop a novel Multi-Velocity Progressive-alignment (MVP-Shot) framework to progressively learn and align semantic-related action features at multi-velocity levels. Concretely, a Multi-Velocity Feature Alignment (MVFA) module is designed to measure the similarity between features from support and query videos with different velocity scales and then merge all similarity scores in a residual fashion. To avoid the multiple velocity features deviating from the underlying motion semantic, our proposed Progressive Semantic-Tailored Interaction (PSTI) module injects velocity-tailored text information into the video feature via feature interaction on channel and temporal domains at different velocities. The above two modules compensate for each other to predict query categories more accurately under the few-shot settings. Experimental results show our method outperforms current state-of-the-art methods on multiple standard few-shot benchmarks (i.e., HMDB51, UCF101, Kinetics, and SSv2-small). | 翻訳日:2024-05-06 12:55:53 公開日:2024-05-03 |
# 説明可能かつ証明可能な意思決定のための代名詞的大規模言語モデル
Argumentative Large Language Models for Explainable and Contestable Decision-Making ( http://arxiv.org/abs/2405.02079v1 ) ライセンス: Link先を確認 | Gabriel Freedman, Adam Dejl, Deniz Gorur, Xiang Yin, Antonio Rago, Francesca Toni, | (参考訳) 大規模言語モデル(LLM)にエンコードされた知識の多様性と、この知識を様々な設定でゼロショットで適用できる能力は、意思決定に使える有望な候補となる。
しかし、現時点では、説明可能で競合可能なアウトプットを確実に提供できないため、制限されている。
本稿では,これらの長所と短所を,議論的推論によるLCMの補足手法を導入して整合化を試みる。
具体的には、議論フレームワークの構築にLLMを利用する手法である議論的LLMを導入し、意思決定における公式な推論の基礎となる。
これらの議論の枠組みと形式的推論の解釈可能な性質は、補足されたLLMによる決定は自然に人間によって説明され、議論される可能性があることを意味する。
クレーム検証の意思決定タスクにおいて,議論的LLMの有効性を実験的に示す。
競争力のある結果が得られ、場合によっては最先端技術に匹敵する結果が得られます。
The diversity of knowledge encoded in large language models (LLMs) and their ability to apply this knowledge zero-shot in a range of settings makes them a promising candidate for use in decision-making. However, they are currently limited by their inability to reliably provide outputs which are explainable and contestable. In this paper, we attempt to reconcile these strengths and weaknesses by introducing a method for supplementing LLMs with argumentative reasoning. Concretely, we introduce argumentative LLMs, a method utilising LLMs to construct argumentation frameworks, which then serve as the basis for formal reasoning in decision-making. The interpretable nature of these argumentation frameworks and formal reasoning means that any decision made by the supplemented LLM may be naturally explained to, and contested by, humans. We demonstrate the effectiveness of argumentative LLMs experimentally in the decision-making task of claim verification. We obtain results that are competitive with, and in some cases surpass, comparable state-of-the-art techniques. | 翻訳日:2024-05-06 12:55:53 公開日:2024-05-03 |
# 相互情報を用いた相互比較学習
A Mutual Information Perspective on Federated Contrastive Learning ( http://arxiv.org/abs/2405.02081v1 ) ライセンス: Link先を確認 | Christos Louizos, Matthias Reisser, Denis Korzhenkov, | (参考訳) 我々は、SimCLRのレンズと多視点相互情報最大化による連合環境におけるコントラスト学習について検討する。
そこで,各クライアントのローカルSimCLR損失にユーザ認証損失を加えることで,グローバルなマルチビュー相互情報に対する低境界を回復する。
クライアントでラベル付きデータが利用可能になった場合に備えて、私たちはSimCLRの亜種をフェデレートされた半教師付き設定に拡張します。
教師付きSimCLRの目的は、以下の2つの変更で得られる。
a) 対照的な損失は、同一のラベルを共有するデータポイント間で計算され、
b) 2つのビューのいずれかから正しいラベルを予測する追加の補助ヘッドが必要である。
提案したSimCLR拡張とともに、国際的相互情報の最大化を通じて、非教師なし学習の異なる情報源が、フェデレートされた非教師なし学習のパフォーマンスにどのように影響するかについても検討する。
我々は,提案した拡張を様々なタスクで実証的に評価し,さらに提案した修正が他の事前学習手法に一般化されることを実証した。
We investigate contrastive learning in the federated setting through the lens of SimCLR and multi-view mutual information maximization. In doing so, we uncover a connection between contrastive representation learning and user verification; by adding a user verification loss to each client's local SimCLR loss we recover a lower bound to the global multi-view mutual information. To accommodate for the case of when some labelled data are available at the clients, we extend our SimCLR variant to the federated semi-supervised setting. We see that a supervised SimCLR objective can be obtained with two changes: a) the contrastive loss is computed between datapoints that share the same label and b) we require an additional auxiliary head that predicts the correct labels from either of the two views. Along with the proposed SimCLR extensions, we also study how different sources of non-i.i.d.-ness can impact the performance of federated unsupervised learning through global mutual information maximization; we find that a global objective is beneficial for some sources of non-i.i.d.-ness but can be detrimental for others. We empirically evaluate our proposed extensions in various tasks to validate our claims and furthermore demonstrate that our proposed modifications generalize to other pretraining methods. | 翻訳日:2024-05-06 12:55:53 公開日:2024-05-03 |
# 機械学習における不確実性定量化のための共形予測法の比較研究
A comparative study of conformal prediction methods for valid uncertainty quantification in machine learning ( http://arxiv.org/abs/2405.02082v1 ) ライセンス: Link先を確認 | Nicolas Dewolf, | (参考訳) 過去数十年間、データ分析と機械学習の領域におけるほとんどの研究は、予測モデルを最適化し、既存のモデルよりも優れた結果を得ることに重点を置いていた。
このような改善を測る指標がどの程度正確に測定されたか、結果値の数値的差異が重要であるか、あるいは不確実性がこの研究で重要な役割を果たしているか、そして考慮すべきであったかは、二次的な重要性であった。
確率論(英語版)やベイズ理論(英語版)はスーパーコンピュータの登場以前に科学における金の標準であったが、大きなデータセットを扱う能力のためにブラックボックスモデルや計算能力に取って代わられた。
この進化は悲しいことに、解釈可能性と信頼性を犠牲にして起こった。
しかし、人々がまだモデルの予測能力を改善しようとしている一方で、多くのアプリケーションでは、それが重要である正確な予測ではなく、変数や不確実性であることを認識し始めている。
この論文の成果は、誰もが不確実性に気付いていて、それがどれほど重要か、そしてそれを恐れずにそれをどのように受け入れるか、という世界への探求をさらに進めようとしている。
しかし、正確な不確実性推定を誰でも得るための特定のフレームワークが選別され、分析される。
というフレームワークの特定の側面と応用を詳細に研究している。
不確実性定量化への多くのアプローチがデータについて強い仮定をしているのに対して、共形予測は、執筆時点では、"distribution-free"というタイトルに値する唯一のフレームワークである。
パラメトリックな仮定は必要とせず、非パラメトリックな結果は漸近的体制における多数の法則に従わずとも成り立つ。
In the past decades, most work in the area of data analysis and machine learning was focused on optimizing predictive models and getting better results than what was possible with existing models. To what extent the metrics with which such improvements were measured were accurately capturing the intended goal, whether the numerical differences in the resulting values were significant, or whether uncertainty played a role in this study and if it should have been taken into account, was of secondary importance. Whereas probability theory, be it frequentist or Bayesian, used to be the gold standard in science before the advent of the supercomputer, it was quickly replaced in favor of black box models and sheer computing power because of their ability to handle large data sets. This evolution sadly happened at the expense of interpretability and trustworthiness. However, while people are still trying to improve the predictive power of their models, the community is starting to realize that for many applications it is not so much the exact prediction that is of importance, but rather the variability or uncertainty. The work in this dissertation tries to further the quest for a world where everyone is aware of uncertainty, of how important it is and how to embrace it instead of fearing it. A specific, though general, framework that allows anyone to obtain accurate uncertainty estimates is singled out and analysed. Certain aspects and applications of the framework -- dubbed `conformal prediction' -- are studied in detail. Whereas many approaches to uncertainty quantification make strong assumptions about the data, conformal prediction is, at the time of writing, the only framework that deserves the title `distribution-free'. No parametric assumptions have to be made and the nonparametric results also hold without having to resort to the law of large numbers in the asymptotic regime. | 翻訳日:2024-05-06 12:46:03 公開日:2024-05-03 |
# オントロジー分類のための意味的損失
A semantic loss for ontology classification ( http://arxiv.org/abs/2405.02083v1 ) ライセンス: Link先を確認 | Simon Flügel, Martin Glauer, Till Mossakowski, Fabian Neuhaus, | (参考訳) ディープラーニングモデルは、適用されるタスクの固有の制約に気付かないことが多い。
しかし、多くの下流タスクは論理的一貫性を必要とする。
オントロジー分類タスクには、クラス間の仮定と不整合関係が含まれる。
深層学習モデルの整合性を高めるため,ラベルに基づく損失と,不随意・不随意・不一致の項を組み合わせた意味的損失を提案する。
ChEBIオントロジーによる評価は、セマンティックロスが分類性能を低下させることなく、数桁の一貫性違反数を減少させることができることを示している。
さらに、教師なし学習に意味損失を用いる。
これにより、教師付きトレーニングの範囲外の分布からのデータの一貫性がさらに向上することを示す。
Deep learning models are often unaware of the inherent constraints of the task they are applied to. However, many downstream tasks require logical consistency. For ontology classification tasks, such constraints include subsumption and disjointness relations between classes. In order to increase the consistency of deep learning models, we propose a semantic loss that combines label-based loss with terms penalising subsumption- or disjointness-violations. Our evaluation on the ChEBI ontology shows that the semantic loss is able to decrease the number of consistency violations by several orders of magnitude without decreasing the classification performance. In addition, we use the semantic loss for unsupervised learning. We show that this can further improve consistency on data from a distribution outside the scope of the supervised training. | 翻訳日:2024-05-06 12:46:03 公開日:2024-05-03 |
# 指数パラレルスピードアップを用いたマルチレベルプロジェクション : スパースオートエンコーダニューラルネットワークへの応用
Multi-level projection with exponential parallel speedup; Application to sparse auto-encoders neural networks ( http://arxiv.org/abs/2405.02086v1 ) ライセンス: Link先を確認 | Guillaume Perez, Michel Barlaud, | (参考訳) $\ell_{1,\infty}$ノルムは効率的な構造化射影であるが、最良のアルゴリズムの複雑さは、$\mathbb{R}^{n\times m}$の行列に対して$\mathcal{O}\big(n m \log(n m)\big)$である。
本稿では,$\ell_{1,\infty}$ノルムの時間的複雑さが$\mathcal{O}\big(n m \big)$,$\mathbb{R}^{n\times m}$,$\mathcal{O}\big(n + m \big)$の行列に対してのみであることを示す新しい二値射影法を提案する。
本手法をテンソルに一般化し,指数的スピードアップ係数までの線形並列スピードアップを誘導分解し,次元の和によって時間的複雑さを低くする,新しい多層射影法を提案する。
実験の結果、我々の二段階の$\ell_{1,\infty}$プロジェクションは、 \textit{Chu et al } が提供する実際の最速アルゴリズムの2.5ドル高速であり、ニューラルネットワークアプリケーションでは、同じ精度とより親密性を提供する。
The $\ell_{1,\infty}$ norm is an efficient structured projection but the complexity of the best algorithm is unfortunately $\mathcal{O}\big(n m \log(n m)\big)$ for a matrix in $\mathbb{R}^{n\times m}$. In this paper, we propose a new bi-level projection method for which we show that the time complexity for the $\ell_{1,\infty}$ norm is only $\mathcal{O}\big(n m \big)$ for a matrix in $\mathbb{R}^{n\times m}$, and $\mathcal{O}\big(n + m \big)$ with full parallel power. We generalize our method to tensors and we propose a new multi-level projection, having an induced decomposition that yields a linear parallel speedup up to an exponential speedup factor, resulting in a time complexity lower-bounded by the sum of the dimensions. Experiments show that our bi-level $\ell_{1,\infty}$ projection is $2.5$ times faster than the actual fastest algorithm provided by \textit{Chu et. al.} while providing same accuracy and better sparsity in neural networks applications. | 翻訳日:2024-05-06 12:46:03 公開日:2024-05-03 |
# 教師なし類似度尺度のアンサンブルによるソースコードクローンの高度検出
Advanced Detection of Source Code Clones via an Ensemble of Unsupervised Similarity Measures ( http://arxiv.org/abs/2405.02095v1 ) ライセンス: Link先を確認 | Jorge Martinez-Gil, | (参考訳) コードの類似性を正確に決定する能力は、ソフトウェア開発に関連する多くのタスクにおいて不可欠である。
例えば、ソフトウェアのメンテナンスを実行する上で、コードの重複を特定することが不可欠かもしれません。
本研究では,コード類似度評価のための新しいアンサンブル学習手法を導入し,複数の教師なし類似度尺度の強みを組み合わせた。
鍵となる考え方は、様々な類似度尺度の強みが互いに補完し、個々の弱点を緩和し、パフォーマンスを向上させることである。
予備的な結果は、TransformersベースのCodeBERTとその変種GraphCodeBERTが、豊富なトレーニングデータの存在下では、間違いなく最良の選択肢であることを示している。
この新しいアプローチのソースコードはhttps://github.com/jorge-martinez-gil/ensemble-codesimからダウンロードできる。
The capability of accurately determining code similarity is crucial in many tasks related to software development. For example, it might be essential to identify code duplicates for performing software maintenance. This research introduces a novel ensemble learning approach for code similarity assessment, combining the strengths of multiple unsupervised similarity measures. The key idea is that the strengths of a diverse set of similarity measures can complement each other and mitigate individual weaknesses, leading to improved performance. Preliminary results show that while Transformers-based CodeBERT and its variant GraphCodeBERT are undoubtedly the best option in the presence of abundant training data, in the case of specific small datasets (up to 500 samples), our ensemble achieves similar results, without prejudice to the interpretability of the resulting solution, and with a much lower associated carbon footprint due to training. The source code of this novel approach can be downloaded from https://github.com/jorge-martinez-gil/ensemble-codesim. | 翻訳日:2024-05-06 12:46:03 公開日:2024-05-03 |
# 量子ゲートセットトモグラフィのための変圧器モデル
Transformer Models for Quantum Gate Set Tomography ( http://arxiv.org/abs/2405.02097v1 ) ライセンス: Link先を確認 | King Yiu Yu, Aritra Sarkar, Ryoichi Ishihara, Sebastian Feld, | (参考訳) 量子計算は、量子情報理論と実用的な応用を融合させ、古典計算の限界を克服する、高性能コンピューティングの領域における有望なフロンティアである。
本研究では,高忠実かつスケーラブルな量子プロセッサを製造する上での課題について検討する。
量子ゲートセットトモグラフィ(QGST)は、量子プロセッサを特徴付け、その動作能力と限界を理解するための重要な方法である。
本稿では、機械学習技術の統合によるQGSTの新しいアプローチとしてML4QGSTを紹介し、特にトランスフォーマーニューラルネットワークモデルを活用する。
QGSTの変圧器モデルへの適応は、量子システムをモデル化する際の計算複雑性に対処する。
データグルーピングやカリキュラム学習といった高度なトレーニング戦略は、モデル性能を向上させるために採用され、地道的な価値とかなりの一致を示している。
このトレーニングパイプラインを構築した学習モデル上でベンチマークし、過剰回転誤差とノイズ推定をpyGSTiに匹敵する精度で除極する1ドルキュービットシステム上で、QGSTを3ドルゲートで実行した。
この研究は、量子ゲートセットトモグラフィーの複雑な問題にディープニューラルネットワークを適用するための先駆的なステップであり、量子コンピューティングにおける非線形トモグラフィー問題に取り組む機械学習の可能性を示している。
Quantum computation represents a promising frontier in the domain of high-performance computing, blending quantum information theory with practical applications to overcome the limitations of classical computation. This study investigates the challenges of manufacturing high-fidelity and scalable quantum processors. Quantum gate set tomography (QGST) is a critical method for characterizing quantum processors and understanding their operational capabilities and limitations. This paper introduces ML4QGST as a novel approach to QGST by integrating machine learning techniques, specifically utilizing a transformer neural network model. Adapting the transformer model for QGST addresses the computational complexity of modeling quantum systems. Advanced training strategies, including data grouping and curriculum learning, are employed to enhance model performance, demonstrating significant congruence with ground-truth values. We benchmark this training pipeline on the constructed learning model, to successfully perform QGST for $3$ gates on a $1$ qubit system with over-rotation error and depolarizing noise estimation with comparable accuracy to pyGSTi. This research marks a pioneering step in applying deep neural networks to the complex problem of quantum gate set tomography, showcasing the potential of machine learning to tackle nonlinear tomography challenges in quantum computing. | 翻訳日:2024-05-06 12:46:03 公開日:2024-05-03 |
# 長期記憶ニューラルネットワークを用いたフェリー乗客流の予測
Forecasting Ferry Passenger Flow Using Long-Short Term Memory Neural Networks ( http://arxiv.org/abs/2405.02098v1 ) ライセンス: Link先を確認 | Daniel Fesalbon, | (参考訳) ニューラルネットワークに関する最近の研究は、様々な予測や時系列調査に使われているが、この研究は、これらの文脈を旅客輸送に拡大することを目的としている。
本研究の主な目的は、フィリピンの2つの港のフェリー客を予測できるLSTMベースのニューラルネットワークの能力を調査し、評価することである。
提案モデルでは, フィリピン港湾庁 (PPA) から取得した2016年から2022年までの月毎の旅客交通量に基づいて, 両港の旅客フロー予測の適合と評価を行った。
この作業では、モデルの予測能力を評価するために、MAPE(Mean Absolute Percentage Error)を主要な指標として使用します。
提案したLSTMベースのニューラルネットワークモデルでは,バタンガス港フェリーの乗客データに対して72%の精度,ミンドロ港フェリーの乗客データに対して74%の精度で予測された。
Keras と Scikit-learn Python ライブラリを使用して、提案した LSTM モデルの性能を合理的に予測する。
これらの顕著な発見とは別に、本研究では、他の統計的、機械学習、深層学習手法を用いたフェリーの旅客流予測のさらなる調査と研究を推奨する。
With recent studies related to Neural Networks being used on different forecasting and time series investigations, this study aims to expand these contexts to ferry passenger traffic. The primary objective of the study is to investigate and evaluate an LSTM-based Neural Networks' capability to forecast ferry passengers of two ports in the Philippines. The proposed model's fitting and evaluation of the passenger flow forecasting of the two ports is based on monthly passenger traffic from 2016 to 2022 data that was acquired from the Philippine Ports Authority (PPA). This work uses Mean Absolute Percentage Error (MAPE) as its primary metric to evaluate the model's forecasting capability. The proposed LSTM-based Neural Networks model achieved 72% forecasting accuracy to the Batangas port ferry passenger data and 74% forecasting accuracy to the Mindoro port ferry passenger data. Using Keras and Scikit-learn Python libraries, this work concludes a reasonable forecasting performance of the presented LSTM model. Aside from these notable findings, this study also recommends further investigation and studies on employing other statistical, machine learning, and deep learning methods on forecasting ferry passenger flows. | 翻訳日:2024-05-06 12:46:03 公開日:2024-05-03 |
# 凸化$\ell_0$-Norm近似による離散認識行列補完
Discrete Aware Matrix Completion via Convexized $\ell_0$-Norm Approximation ( http://arxiv.org/abs/2405.02101v1 ) ライセンス: Link先を確認 | Niclas Führling, Kengo Ando, Giuseppe Thadeu Freitas de Abreu, David González G., Osvaldo Gonsa, | (参考訳) 提案手法は,共通レコメンデータシステムなどの有限個のアルファベット集合から各エントリを選択可能な構造化された設定において,部分的に観測された低ランク行列を完備化するための新しいアルゴリズムである。
提案した低ランク行列完備化法 (MC) は, 従来提案した離散行列完備化法の改良であり, 離散性は$\ell_0$-norm正規化器によって強制され, $\ell_1$-normに置き換えられるのではなく, 近位勾配(PG)フレームワークの下で分数計画(FP)によって正規化される連続的かつ微分可能な関数によって近似される。
シミュレーションの結果,従来の$\ell_1$-normベースの離散行列補完手法と比較して,新しい手法の優れた性能を示す。
We consider a novel algorithm, for the completion of partially observed low-rank matrices in a structured setting where each entry can be chosen from a finite discrete alphabet set, such as in common recommender systems. The proposed low-rank matrix completion (MC) method is an improved variation of state-of-the-art (SotA) discrete aware matrix completion method which we previously proposed, in which discreteness is enforced by an $\ell_0$-norm regularizer, not by replaced with the $\ell_1$-norm, but instead approximated by a continuous and differentiable function normalized via fractional programming (FP) under a proximal gradient (PG) framework. Simulation results demonstrate the superior performance of the new method compared to the SotA techniques as well as the earlier $\ell_1$-norm-based discrete-aware matrix completion approach. | 翻訳日:2024-05-06 12:46:03 公開日:2024-05-03 |
# 量子東-西方運動拘束モデルにおける異常輸送
Anomalous transport in the quantum East-West kinetically constrained model ( http://arxiv.org/abs/2405.02102v1 ) ライセンス: Link先を確認 | Pietro Brighi, Marko Ljubotina, | (参考訳) 我々は,反射対称性を破ることのできる単一パラメータを用いて,カオス的に保存される粒子の運動的拘束モデルについて検討する。
広範な数値シミュレーションにより, 領域壁状態は, 局所化から弾道輸送まで, 反射破れパラメータの値に依存する様々な動的挙動を示すことがわかった。
驚くべきことに、そのような異常な振る舞いは、一般的な相互作用モデルに対する期待と一致して拡散的にスケールしているように見える無限温度力学では反映されない。
しかし、粒子密度勾配を調べた結果、反射対称性の欠如が無限温度の力学に影響を与え、非対称な動的構造因子が生じることが示された。
これは通常の拡散とは不一致であり、このモデルが熱力学極限において無限温度で異常なダイナミクスを示すことも示唆している。
最後に、模型のスペクトルにおける低絡み合った固有状態、量子的な多くの天体の傷跡を観測する。
We study a chaotic particle-conserving kinetically constrained model, with a single parameter which allows us to break reflection symmetry. Through extensive numerical simulations we find that the domain wall state shows a variety of dynamical behaviors from localization all the way to ballistic transport, depending on the value of the reflection breaking parameter. Surprisingly, such anomalous behavior is not mirrored in infinite-temperature dynamics, which appear to scale diffusively, in line with expectations for generic interacting models. However, studying the particle density gradient, we show that the lack of reflection symmetry affects infinite-temperature dynamics, resulting in an asymmetric dynamical structure factor. This is in disagreement with normal diffusion and suggests that the model may also exhibit anomalous dynamics at infinite temperature in the thermodynamic limit. Finally, we observe low-entangled eigenstates in the spectrum of the model, a telltale sign of quantum many body scars. | 翻訳日:2024-05-06 12:46:03 公開日:2024-05-03 |
# オープンリサーチ知識グラフを用いた構造化科学要約のための大規模言語モデルの評価
Evaluating Large Language Models for Structured Science Summarization in the Open Research Knowledge Graph ( http://arxiv.org/abs/2405.02105v1 ) ライセンス: Link先を確認 | Vladyslav Nechakhin, Jennifer D'Souza, Steffen Eger, | (参考訳) 構造科学の要約や、伝統的なキーワードを超える性質や次元を用いた研究の貢献は、科学の発見可能性を高める。
オープンリサーチ知識グラフ(ORKG)のような現在の手法では、研究論文の貢献を構造化された方法で記述するために、手作業でプロパティをキュレーションするが、これはドメインの専門家の人間キュレーターの間で労働集約的で矛盾する。
我々はこれらの特性を自動的に提案するために,Large Language Models (LLMs) を提案する。
しかしながら、GPT-3.5、Llama 2、MistralのようなLCMの、適用前のこのタスクの準備性を評価することが不可欠である。
本研究は,ORKGが手作業でキュレートした特性と,前述の最先端のLCMによって生成された特性とを総合的に比較した。
我々は, ORKG特性とのセマンティックアライメントと偏差, 微粒化特性マッピングの精度, SciNCL埋め込みに基づくコサイン類似度, マニュアルアノテーションとLLM出力を比較した専門家による調査の4つの観点から, LLMの性能評価を行った。
これらの評価は、複数の学際的な科学設定内で行われる。
全体として、LLMは科学を構造化するためのレコメンデーションシステムとしての可能性を示しているが、科学的タスクや人間の専門知識の模倣との整合性を改善するために、さらなる微調整が推奨されている。
Structured science summaries or research contributions using properties or dimensions beyond traditional keywords enhances science findability. Current methods, such as those used by the Open Research Knowledge Graph (ORKG), involve manually curating properties to describe research papers' contributions in a structured manner, but this is labor-intensive and inconsistent between the domain expert human curators. We propose using Large Language Models (LLMs) to automatically suggest these properties. However, it's essential to assess the readiness of LLMs like GPT-3.5, Llama 2, and Mistral for this task before application. Our study performs a comprehensive comparative analysis between ORKG's manually curated properties and those generated by the aforementioned state-of-the-art LLMs. We evaluate LLM performance through four unique perspectives: semantic alignment and deviation with ORKG properties, fine-grained properties mapping accuracy, SciNCL embeddings-based cosine similarity, and expert surveys comparing manual annotations with LLM outputs. These evaluations occur within a multidisciplinary science setting. Overall, LLMs show potential as recommendation systems for structuring science, but further finetuning is recommended to improve their alignment with scientific tasks and mimicry of human expertise. | 翻訳日:2024-05-06 12:46:03 公開日:2024-05-03 |
# Got Root? Linux Priv-Escベンチマーク
Got Root? A Linux Priv-Esc Benchmark ( http://arxiv.org/abs/2405.02106v1 ) ライセンス: Link先を確認 | Andreas Happe, Jürgen Cito, | (参考訳) Linuxシステムは、現代のコンピューティング環境のインフラに不可欠なものであり、不正アクセスを防ぐために堅牢なセキュリティ対策を必要とする。
プリビレージエスカレーション攻撃は重大な脅威であり、攻撃者は通常、最初の低特権アカウントから全権限のルートアカウントに特権を昇格させることができる。
脆弱性のあるシステムのベンチマークセットは、人間と自動ツールの両方が行う特権エスカレーション手法の有効性を評価する上で非常に重要である。
彼らの振る舞いを分析することで、ディフェンダーは信頼されたLinuxシステムをより強化し、インフラストラクチャを破壊的な攻撃から保護することができる。
このギャップに対処するため、我々はLinuxの特権エスカレーションのための包括的なベンチマークを開発した。
これは、人間と合成アクターのパフォーマンスを評価し比較するための標準化されたプラットフォームを提供する。
Linux systems are integral to the infrastructure of modern computing environments, necessitating robust security measures to prevent unauthorized access. Privilege escalation attacks represent a significant threat, typically allowing attackers to elevate their privileges from an initial low-privilege account to the all-powerful root account. A benchmark set of vulnerable systems is of high importance to evaluate the effectiveness of privilege-escalation techniques performed by both humans and automated tooling. Analyzing their behavior allows defenders to better fortify their entrusted Linux systems and thus protect their infrastructure from potentially devastating attacks. To address this gap, we developed a comprehensive benchmark for Linux privilege escalation. It provides a standardized platform to evaluate and compare the performance of human and synthetic actors, e.g., hacking scripts or automated tooling. | 翻訳日:2024-05-06 12:46:03 公開日:2024-05-03 |
# 構造MRIからの3次元アミロイド-ベタPET合成
Three-Dimensional Amyloid-Beta PET Synthesis from Structural MRI with Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2405.02109v1 ) ライセンス: Link先を確認 | Fernando Vega, Abdoljalil Addeh, M. Ethan MacDonald, | (参考訳) 運動性:アルツハイマー病の徴候には、それぞれPETとMRIで検出できるアミロイドベーター沈着と脳萎縮がある。
PETは高価で侵襲的であり、患者を電離放射線に曝す。
MRIはより安価で、非侵襲的で、電離放射線を含まないが、脳萎縮の測定に限られる。
目的:T1強調MRIからアミロイド-ベータPET画像を合成し,アミロイド-ベータと脳萎縮の関係を解明した3次元画像翻訳モデルを開発すること。
アプローチ: このモデルは616個のPET/MRIペアで訓練され、264個のペアで検証された。
結果:T1強調MRIから高SSIMおよびPSNR測定値(SSIM>0.95&PSNR=28。
影響: 本モデルでは, 構造MRI画像からアミロイドベータPET画像の合成が可能であること, 大きなコホート研究や早期認知症検出へのアクセシビリティの向上, コスト, 侵襲性, 放射線曝露の低減が期待できる。
Motivation: Alzheimer's Disease hallmarks include amyloid-beta deposits and brain atrophy, detectable via PET and MRI scans, respectively. PET is expensive, invasive and exposes patients to ionizing radiation. MRI is cheaper, non-invasive, and free from ionizing radiation but limited to measuring brain atrophy. Goal: To develop an 3D image translation model that synthesizes amyloid-beta PET images from T1-weighted MRI, exploiting the known relationship between amyloid-beta and brain atrophy. Approach: The model was trained on 616 PET/MRI pairs and validated with 264 pairs. Results: The model synthesized amyloid-beta PET images from T1-weighted MRI with high-degree of similarity showing high SSIM and PSNR metrics (SSIM>0.95&PSNR=28). Impact: Our model proves the feasibility of synthesizing amyloid-beta PET images from structural MRI ones, significantly enhancing accessibility for large-cohort studies and early dementia detection, while also reducing cost, invasiveness, and radiation exposure. | 翻訳日:2024-05-06 12:46:03 公開日:2024-05-03 |
# 適応雑音サンプリングによる3次元人物位置推定のための確率的復元
Probablistic Restoration with Adaptive Noise Sampling for 3D Human Pose Estimation ( http://arxiv.org/abs/2405.02114v1 ) ライセンス: Link先を確認 | Xianzhou Zeng, Hao Qin, Ming Kong, Luyuan Chen, Qiang Zhu, | (参考訳) ヒトの3次元ポーズ推定(HPE)の精度とロバスト性は2次元ポーズ検出誤差と2次元から3次元までの不測な課題によって制限されており、多面体HPE研究に大きな注目を集めている。
既存のMH-HPE法の多くは、計算コストが高く、訓練が難しい生成モデルに基づいている。
本研究では,任意の軽量シングルハイポテーシスモデルと統合可能な確率的復元3Dヒューマンポース推定フレームワーク(PRPose)を提案する。
具体的には, PRPose は, 単一Hypothesis HPE モデルにおける 2D-to-3D 昇降過程の隠れ確率分布に適合し, 適応ノイズサンプリング戦略により入力された 2D ポーズへの分布を逆写像することにより, 合理的なマルチハイポテーシスサンプルを効果的に生成する。
3D HPEベンチマーク(Human3.6MとMPI-INF-3DHP)の大規模な実験は、PRPoseの有効性と効率を強調している。
コードは、https://github.com/xzhouzeng/PRPose.comで入手できる。
The accuracy and robustness of 3D human pose estimation (HPE) are limited by 2D pose detection errors and 2D to 3D ill-posed challenges, which have drawn great attention to Multi-Hypothesis HPE research. Most existing MH-HPE methods are based on generative models, which are computationally expensive and difficult to train. In this study, we propose a Probabilistic Restoration 3D Human Pose Estimation framework (PRPose) that can be integrated with any lightweight single-hypothesis model. Specifically, PRPose employs a weakly supervised approach to fit the hidden probability distribution of the 2D-to-3D lifting process in the Single-Hypothesis HPE model and then reverse-map the distribution to the 2D pose input through an adaptive noise sampling strategy to generate reasonable multi-hypothesis samples effectively. Extensive experiments on 3D HPE benchmarks (Human3.6M and MPI-INF-3DHP) highlight the effectiveness and efficiency of PRPose. Code is available at: https://github.com/xzhouzeng/PRPose. | 翻訳日:2024-05-06 12:46:03 公開日:2024-05-03 |
# 法医学的シナリオにおける未知の音声記録環境の特定は可能か?
Can We Identify Unknown Audio Recording Environments in Forensic Scenarios? ( http://arxiv.org/abs/2405.02119v1 ) ライセンス: Link先を確認 | Denise Moussa, Germans Hirsch, Christian Riess, | (参考訳) オーディオ録音は刑事捜査において重要な証拠となる可能性がある。
そのような場合の1つは、録音された音声と記録された位置との法医学的関連である。
例えば、音声メッセージは、犯罪の候補サイトを絞り込む唯一の調査キューであるかもしれない。
これまでは、比較的清潔な記録条件下でのクローズドセット記録環境分類のためのツールがいくつか提供されている。
しかし、法医学的な調査では、候補地はケース固有である。
このように、クローズドセットツールは、各ケースと各候補セットに対する十分な量のトレーニングサンプルを再訓練することなく適用できない。
さらに、法医学ツールは、制御されていないソースのオーディオ素材を、様々な特性と品質で扱う必要がある。
そこで本研究では,実践的な法医学的応用シナリオに向けて大きな一歩を踏み出します。
本稿では環境識別のための表現学習フレームワークEnvIdを提案する。
EnvIdはケース固有の再トレーニングを避ける。
代わりに、目に見えない環境場所の堅牢な数ショット分類のための最初のツールである。
EnvIdは法医学的に困難な素材を扱えることを実証する。
目に見えない信号の劣化、環境特性、記録位置のミスマッチの下でも、良好な品質の予測を提供する。
私たちのコードとデータセットは、受け入れ次第公開されます。
Audio recordings may provide important evidence in criminal investigations. One such case is the forensic association of the recorded audio to the recording location. For example, a voice message may be the only investigative cue to narrow down the candidate sites for a crime. Up to now, several works provide tools for closed-set recording environment classification under relatively clean recording conditions. However, in forensic investigations, the candidate locations are case-specific. Thus, closed-set tools are not applicable without retraining on a sufficient amount of training samples for each case and respective candidate set. In addition, a forensic tool has to deal with audio material from uncontrolled sources with variable properties and quality. In this work, we therefore attempt a major step towards practical forensic application scenarios. We propose a representation learning framework called EnvId, short for environment identification. EnvId avoids case-specific retraining. Instead, it is the first tool for robust few-shot classification of unseen environment locations. We demonstrate that EnvId can handle forensically challenging material. It provides good quality predictions even under unseen signal degradations, environment characteristics or recording position mismatches. Our code and datasets will be made publicly available upon acceptance. | 翻訳日:2024-05-06 12:46:03 公開日:2024-05-03 |
# 位数 8n の群上のケイリーグラフ上の完全状態移動
Perfect state transfer on Cayley graphs over a group of order 8n ( http://arxiv.org/abs/2405.02122v1 ) ライセンス: Link先を確認 | Akash Kalita, Bikash Bhattacharjya, | (参考訳) 完全状態転送は、量子情報処理、量子通信ネットワーク、暗号などにおいて非常に重要である。
本稿では,V8n群上のケイリーグラフ上の完全状態移動の存在について検討する。
我々は、Cay(V8n; S) 上の完全状態移動の存在に必要かつ十分な条件を提示する。
Perfect state transfer has great importance due to its applications in quantum information processing, quantum communication networks and cryptography. In this paper, we study the existence of perfect state transfer on Cayley graphs over the group V8n. we present some necessary and sufficient conditions for the existence of perfect state transfer on Cay(V8n; S). | 翻訳日:2024-05-06 12:46:03 公開日:2024-05-03 |
# TIPAA-SSL: 自己指導型学習と知識伝達に基づくテキスト独立型電話対オーディオアライメント
TIPAA-SSL: Text Independent Phone-to-Audio Alignment based on Self-Supervised Learning and Knowledge Transfer ( http://arxiv.org/abs/2405.02124v1 ) ライセンス: Link先を確認 | Noé Tits, Prernna Bhatnagar, Thierry Dutoit, | (参考訳) 本稿では,音素認識,表現学習,知識伝達に基づくテキスト独立型音声アライメントのための新しいアプローチを提案する。
本手法は,コネクショニスト時間分類(CTC)の損失,次元縮小モデル,およびフレームレベル音素分類器を用いて,自己教師付きモデル(wav2vec2)を微調整し,多言語音声表現を生成するために,強制調整ラベル(モントリオール強制アリグナーを使用)により訓練されたフレームレベル音素分類器を利用する。
我々は、TIMITデータセットとSCRIBEデータセットの合成ネイティブデータを用いて、それぞれアメリカ英語とイギリス英語のモデルを評価する。
提案手法は,統計的指標における最先端(シャルシウ)よりも優れ,言語学習や音声処理システムに応用されている。
将来的な作業のために他の言語に実験を残しますが、システムの設計によって、他の言語にも容易に適応できます。
In this paper, we present a novel approach for text independent phone-to-audio alignment based on phoneme recognition, representation learning and knowledge transfer. Our method leverages a self-supervised model (wav2vec2) fine-tuned for phoneme recognition using a Connectionist Temporal Classification (CTC) loss, a dimension reduction model and a frame-level phoneme classifier trained thanks to forced-alignment labels (using Montreal Forced Aligner) to produce multi-lingual phonetic representations, thus requiring minimal additional training. We evaluate our model using synthetic native data from the TIMIT dataset and the SCRIBE dataset for American and British English, respectively. Our proposed model outperforms the state-of-the-art (charsiu) in statistical metrics and has applications in language learning and speech processing systems. We leave experiments on other languages for future work but the design of the system makes it easily adaptable to other languages. | 翻訳日:2024-05-06 12:46:03 公開日:2024-05-03 |
# GPT-4-Turboを用いたレチキュラー化学のための単一・複数ホップ質問応答データセット
Single and Multi-Hop Question-Answering Datasets for Reticular Chemistry with GPT-4-Turbo ( http://arxiv.org/abs/2405.02128v1 ) ライセンス: Link先を確認 | Nakul Rampal, Kaiyu Wang, Matthew Burigana, Lingxiang Hou, Juri Al-Johani, Anna Sackmann, Hanan S. Murayshid, Walaa Abdullah Al-Sumari, Arwa M. Al-Abdulkarim, Nahla Eid Al-Hazmi, Majed O. Al-Awad, Christian Borgs, Jennifer T. Chayes, Omar M. Yaghi, | (参考訳) 人工知能と自然言語処理の急速な進歩は、機械学習モデルのパフォーマンスのベンチマークを目的とした大規模データセットの開発につながった。
本稿では,レチキュラー化学領域におけるそのようなモデルの有効性を評価するために設計された総合ベンチマークデータセットである'RetChemQA'を紹介する。
このデータセットには、シングルホップとマルチホップの問合せペアの両方が含まれており、各タイプのQ&Aは約45,000である。
質問は、NAS、ACS、RCC、Elsevier、Nature Publishing Groupなど、約2,530の学術論文を含む広範な文献コーパスから抽出された。
データセットはOpenAIのGPT-4 Turboを使って生成されている。
また、本研究では、Q&Aデータセットに加えて、文献のコーパスから抽出した合成条件のデータセットも公開する。
RetChemQAの目的は、高度な機械学習アルゴリズムの開発と評価のための堅牢なプラットフォームを提供することである。
このデータセットは、現実世界の科学談話の複雑さとニュアンスを反映して構成されており、様々なタスクにわたるニュアンスなパフォーマンスアセスメントを可能にする。
データセットは以下のリンクで利用できる。 https://github.com/nakulrampal/RetChemQA
The rapid advancement in artificial intelligence and natural language processing has led to the development of large-scale datasets aimed at benchmarking the performance of machine learning models. Herein, we introduce 'RetChemQA,' a comprehensive benchmark dataset designed to evaluate the capabilities of such models in the domain of reticular chemistry. This dataset includes both single-hop and multi-hop question-answer pairs, encompassing approximately 45,000 Q&As for each type. The questions have been extracted from an extensive corpus of literature containing about 2,530 research papers from publishers including NAS, ACS, RSC, Elsevier, and Nature Publishing Group, among others. The dataset has been generated using OpenAI's GPT-4 Turbo, a cutting-edge model known for its exceptional language understanding and generation capabilities. In addition to the Q&A dataset, we also release a dataset of synthesis conditions extracted from the corpus of literature used in this study. The aim of RetChemQA is to provide a robust platform for the development and evaluation of advanced machine learning algorithms, particularly for the reticular chemistry community. The dataset is structured to reflect the complexities and nuances of real-world scientific discourse, thereby enabling nuanced performance assessments across a variety of tasks. The dataset is available at the following link: https://github.com/nakulrampal/RetChemQA | 翻訳日:2024-05-06 12:36:11 公開日:2024-05-03 |
# RF伝搬予測のための物理インフォームド生成ニューラルネットワークと室内体知覚への応用
Physics-informed generative neural networks for RF propagation prediction with application to indoor body perception ( http://arxiv.org/abs/2405.02131v1 ) ライセンス: Link先を確認 | Federica Fieramosca, Vittorio Rampa, Michele D'Amico, Stefano Savazzi, | (参考訳) 電磁気(EM)ボディーモデルは、人体局所化やセンシングなどの厳密なリアルタイム計算画像問題への採用を防止するために、高周波伝搬を予測するために設計された時間を要する手法である。
物理インフォームド生成ニューラルネットワーク(GNN)モデルは、最近EM効果を再現するために提案されている。
本稿では,EMフィールドにおける人間の動作の影響を再現し,EMボディ回折原理を取り入れた変分オートエンコーダ(VAE)モデルについて論じる。
提案する物理インフォームド生成ニューラルネットワークモデルは、古典的回折に基づくEMツールとフルウェーブEMボディシミュレーションの両方に対して検証される。
Electromagnetic (EM) body models designed to predict Radio-Frequency (RF) propagation are time-consuming methods which prevent their adoption in strict real-time computational imaging problems, such as human body localization and sensing. Physics-informed Generative Neural Network (GNN) models have been recently proposed to reproduce EM effects, namely to simulate or reconstruct missing data or samples by incorporating relevant EM principles and constraints. The paper discusses a Variational Auto-Encoder (VAE) model which is trained to reproduce the effects of human motions on the EM field and incorporate EM body diffraction principles. Proposed physics-informed generative neural network models are verified against both classical diffraction-based EM tools and full-wave EM body simulations. | 翻訳日:2024-05-06 12:36:11 公開日:2024-05-03 |
# 中国のオープンソースデータセットにおけるLLMベースのASRの可能性
Unveiling the Potential of LLM-Based ASR on Chinese Open-Source Datasets ( http://arxiv.org/abs/2405.02132v1 ) ライセンス: Link先を確認 | Xuelong Geng, Tianyi Xu, Kun Wei, Bingsheng Mu, Hongfei Xue, He Wang, Yangze Li, Pengcheng Guo, Yuhang Dai, Longhao Li, Mingchen Shao, Lei Xie, | (参考訳) 大規模言語モデルは、様々なNLPタスクにおいて非並列効果を示し、LLMと自動音声認識を統合することが主流となっている。
この勢いを生かして、我々の研究は、このパラダイムを大規模なオープンソース中国語データセット上で徹底的に検討している。
具体的には,言語基盤エンコーダLLM ASRパラダイムの文脈において,音声エンコーダ,LLM,およびプロジェクタモジュールの様々な構成の影響を評価することを目的とする。
さらに,モデルが聴覚情報とテキスト情報を整合させる能力を高めるために,3段階の学習手法を導入する。
このアプローチの実装は、ASRコンポーネントの戦略的統合と並行して、AISHELL1、TestNet、TestMeetingテストセット上でのSOTAパフォーマンスを実現しました。
我々の分析は,LLMに基づくASRシステムにおける将来の研究の実証的基盤を示し,中国のデータセットを用いた性能最適化に関する洞察を提供する。
データ準備、トレーニング、推論、スコアリングに使用されるすべてのスクリプトと、再現可能な研究を促進するための事前訓練されたモデルとトレーニングログを公開します。
Large Language Models have demonstrated unparalleled effectiveness in various NLP tasks, and integrating LLMs with automatic speech recognition is becoming a mainstream paradigm. Building upon this momentum, our research delves into an indepth examination of this paradigm on a large opensource Chinese dataset. Specifically, our research aims to evaluate the impact of various configurations of speech encoders, LLMs, and projector modules in the context of the speech foundation encoderLLM ASR paradigm. Furthermore, we introduce a threestage training approach, expressly developed to enhance the model's ability to align auditory and textual information. The implementation of this approach, alongside the strategic integration of ASR components, enabled us to achieve the SOTA performance on the AISHELL1, TestNet, and TestMeeting test sets. Our analysis presents an empirical foundation for future research in LLMbased ASR systems and offers insights into optimizing performance using Chinese datasets. We will publicly release all scripts used for data preparation, training, inference, and scoring, as well as pretrained models and training logs to promote reproducible research. | 翻訳日:2024-05-06 12:36:11 公開日:2024-05-03 |
# 進化から学ぶ:進化ロボティクスの洞察による集団意思決定メカニズムの改善
Learning from Evolution: Improving Collective Decision-Making Mechanisms using Insights from Evolutionary Robotics ( http://arxiv.org/abs/2405.02133v1 ) ライセンス: Link先を確認 | Tanja Katharina Kaiser, | (参考訳) 集合的意思決定により、マルチロボットシステムは現実世界の環境で自律的に行動することができる。
既存の意思決定メカニズムは、いわゆるスピード対精度トレードオフに悩まされるか、あるいはグローバルなコミュニケーションを含めることで、高複雑性に依存している。
近年の研究では、進化計算の手法を用いて、ニューラルネットワークに基づくより効率的な集団決定機構が生成できることが示されている。
これらの意思決定ニューラルネットワークの大きな欠点は、その限定的な解釈性である。
進化した意思決定機構の分析は、より高い解釈性を維持しつつ、手作業による意思決定機構の効率を向上させるのに役立つ。
本稿では、進化した集団意思決定メカニズムを詳細に分析し、得られた知見に基づいて2つの新たな意思決定メカニズムを手書きする。
ベンチマーク実験では,新たに実装された集団意思決定機構が,最先端の集団意思決定機構である投票者モデルや多数決ルールよりも効率的であることが示されている。
Collective decision-making enables multi-robot systems to act autonomously in real-world environments. Existing collective decision-making mechanisms suffer from the so-called speed versus accuracy trade-off or rely on high complexity, e.g., by including global communication. Recent work has shown that more efficient collective decision-making mechanisms based on artificial neural networks can be generated using methods from evolutionary computation. A major drawback of these decision-making neural networks is their limited interpretability. Analyzing evolved decision-making mechanisms can help us improve the efficiency of hand-coded decision-making mechanisms while maintaining a higher interpretability. In this paper, we analyze evolved collective decision-making mechanisms in detail and hand-code two new decision-making mechanisms based on the insights gained. In benchmark experiments, we show that the newly implemented collective decision-making mechanisms are more efficient than the state-of-the-art collective decision-making mechanisms voter model and majority rule. | 翻訳日:2024-05-06 12:36:11 公開日:2024-05-03 |
# 不確実性に基づく2階層選択による大規模言語モデルへの呼び出しの最適化
Optimising Calls to Large Language Models with Uncertainty-Based Two-Tier Selection ( http://arxiv.org/abs/2405.02134v1 ) ライセンス: Link先を確認 | Guillem Ramírez, Alexandra Birch, Ivan Titov, | (参考訳) 限られた予算で作業する研究者や実践者は、コストパフォーマンスのトレードオフジレンマに直面します。
難しい決定は、しばしば、より優れた性能を持つ大きなLLMを使うか、より少ないコストで使用するかに焦点を当てる。
このことは、LLM呼び出しの最適化に関する最近の研究の動機となっている。
カスケード戦略を使用するか、より小さなLSMまたは両方を順次呼び出すか、あるいはルーティング戦略を使用するかのいずれかで、1つのモデルのみが呼び出される。
どちらのシナリオも、通常余分なニューラルモデルによって実装される決定基準に依存する。
本研究では,LLMの世代間の不確実性のみを意思決定基準として用いる,より単純な解を提案する。
我々は,3組の学習済み小型LLMと大規模LLMを用いたカスケードとルーティングの両手法を,9つのタスクで比較し,追加のニューラルモデルを必要とするアプローチと比較した。
実験の結果、この単純な解はコストと性能を最適にバランスさせ、27の試験装置中25の既存手法よりも優れていることがわかった。
Researchers and practitioners operating on a limited budget face the cost-performance trade-off dilemma. The challenging decision often centers on whether to use a large LLM with better performance or a smaller one with reduced costs. This has motivated recent research in the optimisation of LLM calls. Either a cascading strategy is used, where a smaller LLM or both are called sequentially, or a routing strategy is used, where only one model is ever called. Both scenarios are dependent on a decision criterion which is typically implemented by an extra neural model. In this work, we propose a simpler solution; we use only the uncertainty of the generations of the small LLM as the decision criterion. We compare our approach with both cascading and routing strategies using three different pairs of pre-trained small and large LLMs, on nine different tasks and against approaches that require an additional neural model. Our experiments reveal this simple solution optimally balances cost and performance, outperforming existing methods on 25 out of 27 experimental setups. | 翻訳日:2024-05-06 12:36:11 公開日:2024-05-03 |
# コンフォーマル予測に関する情報理論の展望
An Information Theoretic Perspective on Conformal Prediction ( http://arxiv.org/abs/2405.02140v1 ) ライセンス: Link先を確認 | Alvaro H. C. Correia, Fabio Valerio Massoli, Christos Louizos, Arash Behboodi, | (参考訳) Conformal Prediction (CP) は、分布のない不確実性推定フレームワークであり、ユーザが特定した確率で真の答えを含むことが保証される予測セットを構築する。
直感的には、予測セットのサイズは不確実性の一般的な概念を符号化し、より大きな集合はより高い不確実性の度合いに関連付けられる。
本研究では,情報理論を利用して共形予測と不確実性の概念を結びつける。
より正確には、入力が与えられた対象変数の条件エントロピーによって説明されるように、本質的不確かさを上界する3つの異なる方法をCPと情報理論的不等式を組み合わせて証明する。
さらに、共形予測と情報理論の関連性について、2つの直接的かつ有用な応用を実証する。
(i)従来のアプローチを一般化し、スクラッチから機械学習モデルのエンドツーエンドトレーニングを可能にする、より原則的で効果的な整合トレーニング目標
(ii)側情報を共形予測に組み込む自然なメカニズム。
我々は,集中型およびフェデレーション型学習環境における両方の応用を実証的に検証し,その理論結果がCP手法の非効率性(平均予測セットサイズ)を低下させることを示す。
Conformal Prediction (CP) is a distribution-free uncertainty estimation framework that constructs prediction sets guaranteed to contain the true answer with a user-specified probability. Intuitively, the size of the prediction set encodes a general notion of uncertainty, with larger sets associated with higher degrees of uncertainty. In this work, we leverage information theory to connect conformal prediction to other notions of uncertainty. More precisely, we prove three different ways to upper bound the intrinsic uncertainty, as described by the conditional entropy of the target variable given the inputs, by combining CP with information theoretical inequalities. Moreover, we demonstrate two direct and useful applications of such connection between conformal prediction and information theory: (i) more principled and effective conformal training objectives that generalize previous approaches and enable end-to-end training of machine learning models from scratch, and (ii) a natural mechanism to incorporate side information into conformal prediction. We empirically validate both applications in centralized and federated learning settings, showing our theoretical results translate to lower inefficiency (average prediction set size) for popular CP methods. | 翻訳日:2024-05-06 12:36:11 公開日:2024-05-03 |
# 多変量政策学習による多目的勧告
Multi-Objective Recommendation via Multivariate Policy Learning ( http://arxiv.org/abs/2405.02141v1 ) ライセンス: Link先を確認 | Olivier Jeunen, Jatin Mandav, Ivan Potapov, Nakul Agarwal, Sourabh Vaid, Wenzhe Shi, Aleksei Ustimenko, | (参考訳) 現実世界のレコメンデーションシステムは、ユーザに提示するレコメンデーションを決定する際に、複数の目的のバランスを取る必要があることが多い。
これには行動信号(例えばクリック、共有、居住時間)や、より広い目的(例えば多様性、公平性)が含まれる。
このバランス作業では、目的ごとの報酬信号の重み付け平均が最終スコアを決定する。
もちろん、これらの重みが正確に計算されることは、あらゆるオンラインプラットフォームにとって成功の鍵となる。
私たちはこれを意思決定のタスクとして捉えており、スカラー化の重み付けは、ノーススター全体の報酬(例えば、長期のユーザー維持や成長)を最大化するための行動である。
既存の政策学習手法を連続多変量行動領域に拡張し、学習ポリシーがもたらすノーススター報酬の悲観的な下限を最大化することを提案する。
通常の近似に基づく典型的な下限は、カバー不足に悩まされ、これに対する効率的かつ効果的なポリシー依存の補正を提案する。
我々は、確率的データ収集ポリシーを設計するためのガイダンスと、高感度な報酬信号を提供する。
シミュレーション、オフラインおよびオンライン実験による経験的観察は、我々のデプロイされたアプローチの有効性を浮き彫りにする。
Real-world recommender systems often need to balance multiple objectives when deciding which recommendations to present to users. These include behavioural signals (e.g. clicks, shares, dwell time), as well as broader objectives (e.g. diversity, fairness). Scalarisation methods are commonly used to handle this balancing task, where a weighted average of per-objective reward signals determines the final score used for ranking. Naturally, how these weights are computed exactly, is key to success for any online platform. We frame this as a decision-making task, where the scalarisation weights are actions taken to maximise an overall North Star reward (e.g. long-term user retention or growth). We extend existing policy learning methods to the continuous multivariate action domain, proposing to maximise a pessimistic lower bound on the North Star reward that the learnt policy will yield. Typical lower bounds based on normal approximations suffer from insufficient coverage, and we propose an efficient and effective policy-dependent correction for this. We provide guidance to design stochastic data collection policies, as well as highly sensitive reward signals. Empirical observations from simulations, offline and online experiments highlight the efficacy of our deployed approach. | 翻訳日:2024-05-06 12:36:11 公開日:2024-05-03 |
# QEDにおけるゲージフィールドの新しい角運動量保存法
New Angular Momentum Conservation Laws for Gauge Fields in QED ( http://arxiv.org/abs/2405.02143v1 ) ライセンス: Link先を確認 | Farhad Khosravi, Li-Ping Yang, Pronoy Das, Zubin Jacob, | (参考訳) 量子電磁力学(QED)は、ボゾンゲージ場とフェルミオン荷電粒子の相対論的相互作用を扱う。
QEDでは、光-物質相互作用の角運動量の大域保存法則が知られている。
しかし、局所保存法則、すなわち空間上のすべての点における角運動量の保存法則は未解明のままである。
ここでは、QEDラグランジアンとネーターの定理を用いて、線型運動量に対する連続関係の形で、ディラック=マクスウェル場に対する角運動量の新しい局所保存則を導出する。
この局所保存則を、スピンと軌道角運動量(OAM)の4つの結合運動方程式に分離する。
我々は、運動方程式におけるヘリシティ電流テンソル、OAM電流テンソル、スピン軌道トルクを導入し、スピン-OAM相互作用の局所力学とマクスウェル-ディラック場間の角運動量交換に光を当てる。
我々は、平面波干渉とデュアルモード光ファイバーの例を用いて、我々の結果が古典的電磁力学にどのように変換されるかを明らかにする。
この結果は、ゲージボソンのスピンに関連する現象に光を当てる。
Quantum electrodynamics (QED) deals with the relativistic interaction of bosonic gauge fields and fermionic charged particles. In QED, global conservation laws of angular momentum for light-matter interactions are well-known. However, local conservation laws, i.e. the conservation law of angular momentum at every point in space, remain unexplored. Here, we use the QED Lagrangian and Noether's theorem to derive a new local conservation law of angular momentum for Dirac-Maxwell fields in the form of the continuity relation for linear momentum. We separate this local conservation law into four coupled motion equations for spin and orbital angular momentum (OAM) densities. We introduce a helicity current tensor, OAM current tensor, and spin-orbit torque in the motion equations to shed light on on the local dynamics of spin-OAM interaction and angular momentum exchange between Maxwell-Dirac fields. We elucidate how our results translate to classical electrodynamics using the example of plane wave interference as well as a dual-mode optical fiber. Our results shine light on phenomena related to the spin of gauge bosons. | 翻訳日:2024-05-06 12:36:11 公開日:2024-05-03 |
# MedReadMe:医療領域における微細文読解性に関する体系的研究
MedReadMe: A Systematic Study for Fine-grained Sentence Readability in Medical Domain ( http://arxiv.org/abs/2405.02144v1 ) ライセンス: Link先を確認 | Chao Jiang, Wei Xu, | (参考訳) 医学的な文章は読むのがとても難しい。
可読性を適切に測定することが、可読性を高めるための第一歩です。
本稿では,医療領域における細粒度可読性の測定について,文レベルとスパンレベルの両方で体系的に検討する。
我々は、手動で注釈付けされた可読性評価と4,520文の詳細な複合スパンアノテーションからなる新しいデータセットMedReadMeを紹介し、新しい「Google-Easy」と「Google-Hard」の2つのカテゴリを特徴とする。
これは650の言語的特徴と、自動的な複雑な単語とジャーゴン識別を網羅する定量的分析をサポートする。
近年開発された大規模言語モデル (LLM) を用いた教師なし, 教師なし, プロンプトベースの手法を含む, 医学領域における最先端の文章レベルの可読性指標をベンチマークし, 改良した。
粒度の細かい複雑なスパンアノテーションにインフォームされると、既存の可読性公式に単一の特徴を加えれば、人間の判断との相関が大幅に向上することがわかった。
データセットとコードを公開します。
Medical texts are notoriously challenging to read. Properly measuring their readability is the first step towards making them more accessible. In this paper, we present a systematic study on fine-grained readability measurements in the medical domain at both sentence-level and span-level. We introduce a new dataset MedReadMe, which consists of manually annotated readability ratings and fine-grained complex span annotation for 4,520 sentences, featuring two novel "Google-Easy" and "Google-Hard" categories. It supports our quantitative analysis, which covers 650 linguistic features and automatic complex word and jargon identification. Enabled by our high-quality annotation, we benchmark and improve several state-of-the-art sentence-level readability metrics for the medical domain specifically, which include unsupervised, supervised, and prompting-based methods using recently developed large language models (LLMs). Informed by our fine-grained complex span annotation, we find that adding a single feature, capturing the number of jargon spans, into existing readability formulas can significantly improve their correlation with human judgments. We will publicly release the dataset and code. | 翻訳日:2024-05-06 12:36:11 公開日:2024-05-03 |
# ペイアウトレースと混雑チャネル: 雷ネットワークにおけるセキュリティの形式的分析
Payout Races and Congested Channels: A Formal Analysis of Security in the Lightning Network ( http://arxiv.org/abs/2405.02147v1 ) ライセンス: Link先を確認 | Ben Weintraub, Satwik Prabhu Kumble, Cristina Nita-Rotaru, Stefanie Roos, | (参考訳) Lightning Networkは1億2000万USドル以上の時価総額を持つ支払いチャネルネットワークであり、高速なオフチェーントランザクションを通じてBitcoinのスケーラビリティ問題を解決するように設計されている。
複数のLightning Networkクライアント実装があり、すべてBOLTsとして知られる同じテキスト仕様に準拠している。
いくつかの脆弱性が手作業で発見されたが、これまでLightning Networkのセキュリティを体系的に分析する作業はほとんど行われていない。
本研究では,Lightning Networkのセキュリティを形式的手法の助けを借りて解析するための基礎的なアプローチを採る。
BOLTの仕様に基づいて、Lightning Networkのシングルホップ支払いプロトコルの詳細な形式モデルを構築し、Spinモデルチェッカーを用いて検証する。
我々のモデルは、支払いプロトコルの並行性とエラーセマンティクスの両方をキャプチャする。
次に、プロトコルの正しい中間操作をキャプチャし、両方のチャネルピアに対して結果が常に確実であることを保証するいくつかのセキュリティ特性を定義し、それを使用して、文献で以前に報告された既知の攻撃と、ペイアウトレースと呼ばれる新たな攻撃を再発見する。
ペイアウトレースは特定の一連のイベントで構成されており、無実のユーザーが無意識に資金を失うというプロトコルの曖昧さにつながる可能性がある。
ローカルテストベッド環境下での再現により,本攻撃の実用性を確認した。
The Lightning Network, a payment channel network with a market cap of over 192M USD, is designed to resolve Bitcoin's scalability issues through fast off-chain transactions. There are multiple Lightning Network client implementations, all of which conform to the same textual specifications known as BOLTs. Several vulnerabilities have been manually discovered, but to-date there have been few works systematically analyzing the security of the Lightning Network. In this work, we take a foundational approach to analyzing the security of the Lightning Network with the help of formal methods. Based on the BOLTs' specifications, we build a detailed formal model of the Lightning Network's single-hop payment protocol and verify it using the Spin model checker. Our model captures both concurrency and error semantics of the payment protocol. We then define several security properties which capture the correct intermediate operation of the protocol, ensuring that the outcome is always certain to both channel peers, and using them we re-discover a known attack previously reported in the literature along with a novel attack, referred to as a Payout Race. A Payout Race consists of a particular sequence of events that can lead to an ambiguity in the protocol in which innocent users can unwittingly lose funds. We confirm the practicality of this attack by reproducing it in a local testbed environment. | 翻訳日:2024-05-06 12:36:11 公開日:2024-05-03 |
# 形式的創造性理論に向けて:新鮮さと変態性の予備的結果
Towards a Formal Creativity Theory: Preliminary results in Novelty and Transformativeness ( http://arxiv.org/abs/2405.02148v1 ) ライセンス: Link先を確認 | Luís Espírito Santo, Geraint Wiggins, Amílcar Cardoso, | (参考訳) 創造性に関する概念の形式化は、コンピュータ創造性の長期的な目標である。
同時に、創造性の文脈で形式的学習理論を探求する。
本稿では、この枠組みの主な概念と、創造性に関する議論でよく見られる用語の再解釈について紹介し、新規性と変革的創造性に関する公式な定義を提案する。
この形式化はフォーマル・クリエイティビティ理論(Formal Creativity Theory)と呼ばれる研究分野の始まりであり、探索的行動の準備として学習をどのように含めるか、学習が変革的創造的行動の鍵となるのかを探求する。
これらの定義を用いることで、創発的創造性は一般的には変化的創造性にとって必要でも十分でもないが、経験の連続ではなく刺激的集合を使用する場合、エージェントは実際に変化的創造性を起こすために斬新性を必要としている、と論じる。
Formalizing creativity-related concepts has been a long-term goal of Computational Creativity. To the same end, we explore Formal Learning Theory in the context of creativity. We provide an introduction to the main concepts of this framework and a re-interpretation of terms commonly found in creativity discussions, proposing formal definitions for novelty and transformational creativity. This formalisation marks the beginning of a research branch we call Formal Creativity Theory, exploring how learning can be included as preparation for exploratory behaviour and how learning is a key part of transformational creative behaviour. By employing these definitions, we argue that, while novelty is neither necessary nor sufficient for transformational creativity in general, when using an inspiring set, rather than a sequence of experiences, an agent actually requires novelty for transformational creativity to occur. | 翻訳日:2024-05-06 12:36:11 公開日:2024-05-03 |
# AIレビュー:幅広いAI支援ピアレビューは紙のスコアとアクセプタンス率を高める
The AI Review Lottery: Widespread AI-Assisted Peer Reviews Boost Paper Scores and Acceptance Rates ( http://arxiv.org/abs/2405.02150v1 ) ライセンス: Link先を確認 | Giuseppe Russo Latona, Manoel Horta Ribeiro, Tim R. Davidson, Veniamin Veselovsky, Robert West, | (参考訳) ジャーナルやカンファレンスは、人工知能(AI)、特に大規模言語モデル(LLM)によって支援されたピアレビューが、現代の科学の基盤であるピアレビューシステムの有効性と公正性に悪影響を及ぼすのではないかと懸念している。
本稿では,大規模かつ高名な機械学習カンファレンスである2024 International Conference on Learning Representations (ICLR) の文脈における,AI支援ピアレビューの有病率と影響に関する準実験的研究により,この問題に対処する。
私たちの貢献は3倍です。
まず、GPTZero LLM検出器を用いて、ICLR 2024におけるAI支援レビューの頻度を低くし、少なくとも15.8 %のレビューがAIアシストで書かれたと推定する。
第2に、AIによるレビューが応募スコアに与える影響を推定する。
同じ論文に割り当てられた異なるスコアのペアのレビューを考えると、AIが支援するレビュースコアが人間のレビューよりも高い(p = 0.002$; 相対的なスコアの確率差:+14.4\%$)。
第3に,AI支援のピアレビューが応募受諾に与える影響を評価する。
一致した調査では、AI支援のピアレビューを受けた受理基準付近の申請は、受理されなかった応募よりも受理される可能性が高い4.9ドル(p = 0.024ドル)であった。
全体として、AIによるレビューはピアレビューのプロセスと一致していることを示し、現在のトレンドの今後の影響について議論する。
Journals and conferences worry that peer reviews assisted by artificial intelligence (AI), in particular, large language models (LLMs), may negatively influence the validity and fairness of the peer-review system, a cornerstone of modern science. In this work, we address this concern with a quasi-experimental study of the prevalence and impact of AI-assisted peer reviews in the context of the 2024 International Conference on Learning Representations (ICLR), a large and prestigious machine-learning conference. Our contributions are threefold. Firstly, we obtain a lower bound for the prevalence of AI-assisted reviews at ICLR 2024 using the GPTZero LLM detector, estimating that at least $15.8\%$ of reviews were written with AI assistance. Secondly, we estimate the impact of AI-assisted reviews on submission scores. Considering pairs of reviews with different scores assigned to the same paper, we find that in $53.4\%$ of pairs the AI-assisted review scores higher than the human review ($p = 0.002$; relative difference in probability of scoring higher: $+14.4\%$ in favor of AI-assisted reviews). Thirdly, we assess the impact of receiving an AI-assisted peer review on submission acceptance. In a matched study, submissions near the acceptance threshold that received an AI-assisted peer review were $4.9$ percentage points ($p = 0.024$) more likely to be accepted than submissions that did not. Overall, we show that AI-assisted reviews are consequential to the peer-review process and offer a discussion on future implications of current trends | 翻訳日:2024-05-06 12:36:11 公開日:2024-05-03 |
# GMP-ATL:HuBERTによる音声感情認識のためのマルチスケールPseudo-label拡張適応変換学習
GMP-ATL: Gender-augmented Multi-scale Pseudo-label Enhanced Adaptive Transfer Learning for Speech Emotion Recognition via HuBERT ( http://arxiv.org/abs/2405.02151v1 ) ライセンス: Link先を確認 | Yu Pan, Yuguang Yang, Heng Lu, Lei Ma, Jianjun Zhao, | (参考訳) 事前訓練された音声モデルの継続的な進化は、非常に進んだ音声感情認識(SER)を持つ。
しかし,これらの手法の性能向上にはまだまだ可能性がある。
本稿では,GMP-ATL(Gender-augmented Multi-scale Pseudo-label Adaptive Transfer Learning)を提案する。
具体的には、GMP-ATLは最初、訓練済みの HuBERT を採用し、マルチタスク学習とマルチスケールk平均クラスタリングを実装して、フレームレベルのジェンダー強化されたマルチスケール擬似ラベルを取得する。
そして、得られたフレームレベルと発話レベルの両方の感情ラベルをフル活用するために、モデル再構成と微調整手法を導入し、GMP-ATLをさらに最適化する。
IEMOCAPの実験では、GMP-ATLは、WARが80.0\%、UARが82.0\%で、最先端のユニモーダルSER法を上回り、マルチモーダルSER法と同等の結果が得られることを示した。
The continuous evolution of pre-trained speech models has greatly advanced Speech Emotion Recognition (SER). However, there is still potential for enhancement in the performance of these methods. In this paper, we present GMP-ATL (Gender-augmented Multi-scale Pseudo-label Adaptive Transfer Learning), a novel HuBERT-based adaptive transfer learning framework for SER. Specifically, GMP-ATL initially employs the pre-trained HuBERT, implementing multi-task learning and multi-scale k-means clustering to acquire frame-level gender-augmented multi-scale pseudo-labels. Then, to fully leverage both obtained frame-level and utterance-level emotion labels, we incorporate model retraining and fine-tuning methods to further optimize GMP-ATL. Experiments on IEMOCAP show that our GMP-ATL achieves superior recognition performance, with a WAR of 80.0\% and a UAR of 82.0\%, surpassing state-of-the-art unimodal SER methods, while also yielding comparable results with multimodal SER approaches. | 翻訳日:2024-05-06 12:36:11 公開日:2024-05-03 |
# 一般化可能な力学系学習のためのニューラルコンテキストフロー
Neural Context Flows for Learning Generalizable Dynamical Systems ( http://arxiv.org/abs/2405.02154v1 ) ライセンス: Link先を確認 | Roussel Desmond Nzoyem, David A. W. Barton, Tom Deakin, | (参考訳) ニューラル常微分方程式は、たとえ力学が以前見られた挙動に近い場合でも、基盤システムのパラメータ変化によって生成される新しい力学挙動を一般化するのに苦労する。
パラメータの変化が観測されない場合、すなわちデータ収集の際の値や影響を直接測定できない場合、問題は悪化する。
このフレームワークは,非観測パラメータを潜在コンテキストベクトルに符号化し,ベクトル場への入力として利用する。
NCFは、パラメータに関するベクトル場の微分可能性と、任意の文脈ベクトルが他のパラメータからのトラジェクトリに影響を与えることを可能にする一階テイラー展開を利用する。
提案手法の有効性を検証し,マルチタスクとメタラーニングの代替案と比較し,ドメイン内平均二乗誤差における競合性能と,ロトカ・ボルテラ,グリコリシスオシレータ,グレイ・スコット問題に対する分布外評価を示す。
本研究は, 条件付きニューラル・オードの恩恵を受ける科学および関連分野の基礎モデルに対して, 実践的な意味を持つ。
私たちのコードはhttps://github.com/ddrous/ncflow.comで公開されています。
Neural Ordinary Differential Equations typically struggle to generalize to new dynamical behaviors created by parameter changes in the underlying system, even when the dynamics are close to previously seen behaviors. The issue gets worse when the changing parameters are unobserved, i.e., their value or influence is not directly measurable when collecting data. We introduce Neural Context Flow (NCF), a framework that encodes said unobserved parameters in a latent context vector as input to a vector field. NCFs leverage differentiability of the vector field with respect to the parameters, along with first-order Taylor expansion to allow any context vector to influence trajectories from other parameters. We validate our method and compare it to established Multi-Task and Meta-Learning alternatives, showing competitive performance in mean squared error for in-domain and out-of-distribution evaluation on the Lotka-Volterra, Glycolytic Oscillator, and Gray-Scott problems. This study holds practical implications for foundational models in science and related areas that benefit from conditional neural ODEs. Our code is openly available at https://github.com/ddrous/ncflow. | 翻訳日:2024-05-06 12:36:11 公開日:2024-05-03 |
# ゼロショット画像分類のための信頼度に基づく重み付けによるマルチメソッド統合
Multi-method Integration with Confidence-based Weighting for Zero-shot Image Classification ( http://arxiv.org/abs/2405.02155v1 ) ライセンス: Link先を確認 | Siqi Yin, Lifan Jiang, | (参考訳) 本稿では,ゼロショット学習(ZSL, Zero-shot Learning)のための新しいフレームワークを提案する。
具体的には、ZSLを扱うためのモデルの性能を高めるための3つの戦略を提案する。
1)ChatGPTの広範な知識とDALL-Eの強力な画像生成能力を活用して、未確認のカテゴリや分類境界を正確に記述できる参照画像を作成し、情報ボトルネック問題を緩和する。
2)CLIPからのテキスト画像アライメントと画像画像アライメントの結果とDINOのイメージ画像アライメント結果を統合することにより,より正確な予測が可能となる。
3) 信頼度に基づく適応重み付け機構の導入により, 異なる予測手法による結果を集約する。
CIFAR-10、CIFAR-100、TinyImageNetを含む複数のデータセットに対する実験結果から、我々のモデルはシングルモデルアプローチと比較して分類精度を大幅に向上し、AUROCスコアが全テストデータセットで96%以上、CIFAR-10データセットで99%を超えることが示されている。
This paper introduces a novel framework for zero-shot learning (ZSL), i.e., to recognize new categories that are unseen during training, by using a multi-model and multi-alignment integration method. Specifically, we propose three strategies to enhance the model's performance to handle ZSL: 1) Utilizing the extensive knowledge of ChatGPT and the powerful image generation capabilities of DALL-E to create reference images that can precisely describe unseen categories and classification boundaries, thereby alleviating the information bottleneck issue; 2) Integrating the results of text-image alignment and image-image alignment from CLIP, along with the image-image alignment results from DINO, to achieve more accurate predictions; 3) Introducing an adaptive weighting mechanism based on confidence levels to aggregate the outcomes from different prediction methods. Experimental results on multiple datasets, including CIFAR-10, CIFAR-100, and TinyImageNet, demonstrate that our model can significantly improve classification accuracy compared to single-model approaches, achieving AUROC scores above 96% across all test datasets, and notably surpassing 99% on the CIFAR-10 dataset. | 翻訳日:2024-05-06 12:36:11 公開日:2024-05-03 |
# エネルギーフィルタ量子状態と非局所相関の出現
Energy-filtered quantum states and the emergence of non-local correlations ( http://arxiv.org/abs/2405.02158v1 ) ライセンス: Link先を確認 | Gianluca Morettini, Luca Capizzi, Maurizio Fagotti, Leonardo Mazza, | (参考訳) エネルギーフィルタリングされた量子状態は、効率よく熱状態をシミュレートするための有望な候補である。
本研究では, 製品状態がスペクトルの中央に位置する固有状態に遷移するように設計されたプロトコルを探索し, エネルギー分散を徐々に減少させ, クロスオーバー現象とその後の熱的挙動への収束を包括的に理解できるようにする。
我々は3つのエネルギーフィルタリング体制(短、中、長)を導入し議論し、それらを熱化の段階として解釈する。
本研究では, 濾過状態の特性が平均密度行列と局所的に区別できないことを示し, 常用的に熱化理論に用いられている。
一方、予期せぬ非局所量子相関は、中間状態において生成され、レプリカ法による計算を行うサブシステムのR'enyiエンタングルメントエントロピーによって観測される。
具体的には、2点相関関数がクラスタ分解と大きな領域の絡み合いエントロピーを中間フィルタ時間における体積の対数としてスケールする。
Energy-filtered quantum states are promising candidates for efficiently simulating thermal states. We explore a protocol designed to transition a product state into an eigenstate located in the middle of the spectrum; this is achieved by gradually reducing its energy variance, which allows us to comprehensively understand the crossover phenomenon and the subsequent convergence towards thermal behavior. We introduce and discuss three energy-filtering regimes (short, medium and long), and we interpret them as stages of thermalization. We show that the properties of the filtered states are locally indistinguishable from those of time-averaged density matrices, routinely employed in the theory of thermalization. On the other hand, unexpected non-local quantum correlations are generated in the medium regimes and are witnessed by the R\'enyi entanglement entropies of subsystems, which we compute via replica methods. Specifically, two-point correlation functions break cluster decomposition and the entanglement entropy of large regions scales as the logarithm of the volume during the medium filter time. | 翻訳日:2024-05-06 12:26:23 公開日:2024-05-03 |
# 強化学習とエージェント・ベース・モデリングによる合理性の経済的影響のシミュレーション
Simulating the economic impact of rationality through reinforcement learning and agent-based modelling ( http://arxiv.org/abs/2405.02161v1 ) ライセンス: Link先を確認 | Simone Brusatin, Tommaso Padoan, Andrea Coletta, Domenico Delli Gatti, Aldo Glielmo, | (参考訳) エージェントベースモデル(エージェントベースモデル、英: Agent-based model、ABM)は、一般的な均衡仮定に基づく従来のフレームワークの制限を克服するために、経済学で使用されるシミュレーションモデルである。
しかし、ABM内のエージェントは、設計が面倒で正当化が難しい、完全に合理的でない行動規則に従っている。
ここでは,マルチエージェント強化学習(RL)を活用して,ABMの能力を拡張し,環境と対話し,報酬関数を最大化することによって政策を学習する,完全に合理的なエージェントを導入する。
具体的には、パラダイム的マクロABMを経済文献から拡張することにより、R-MABM(Rational macro ABM)フレームワークを提案する。
我々は、利益を最大化するために訓練されたRLエージェントをモデルにABM会社を徐々に置き換えることで、合理性が経済に与える影響を徹底的に研究できることを示します。
RLエージェントは、市場競争のレベルと合理性に応じて最適な戦略で、利益を最大化するための3つの異なる戦略を自発的に学習する。
また、独立した政策を持つRLエージェントと、相互にコミュニケーションする能力のないエージェントは、自発的に異なる戦略グループに分離することを学び、市場力と全体的な利益を増大させる。
最後に、経済の合理性の高さは総生産量によって測定されるマクロ経済環境を常に改善するが、具体的な合理政策によっては、これはより不安定なコストがかかる可能性がある。
我々のR-MABMフレームワークは汎用的で、安定したマルチエージェント学習が可能であり、既存の経済シミュレータを拡張するための原則的かつ堅牢な方向を示している。
Agent-based models (ABMs) are simulation models used in economics to overcome some of the limitations of traditional frameworks based on general equilibrium assumptions. However, agents within an ABM follow predetermined, not fully rational, behavioural rules which can be cumbersome to design and difficult to justify. Here we leverage multi-agent reinforcement learning (RL) to expand the capabilities of ABMs with the introduction of fully rational agents that learn their policy by interacting with the environment and maximising a reward function. Specifically, we propose a 'Rational macro ABM' (R-MABM) framework by extending a paradigmatic macro ABM from the economic literature. We show that gradually substituting ABM firms in the model with RL agents, trained to maximise profits, allows for a thorough study of the impact of rationality on the economy. We find that RL agents spontaneously learn three distinct strategies for maximising profits, with the optimal strategy depending on the level of market competition and rationality. We also find that RL agents with independent policies, and without the ability to communicate with each other, spontaneously learn to segregate into different strategic groups, thus increasing market power and overall profits. Finally, we find that a higher degree of rationality in the economy always improves the macroeconomic environment as measured by total output, depending on the specific rational policy, this can come at the cost of higher instability. Our R-MABM framework is general, it allows for stable multi-agent learning, and represents a principled and robust direction to extend existing economic simulators. | 翻訳日:2024-05-06 12:26:23 公開日:2024-05-03 |
# Unified Promptable Panoptic Mapping with Dynamic Labeling using Foundation Models
Mapping the Unseen: Unified Promptable Panoptic Mapping with Dynamic Labeling using Foundation Models ( http://arxiv.org/abs/2405.02162v1 ) ライセンス: Link先を確認 | Mohamad Al Mdfaa, Raghad Salameh, Sergey Zagoruyko, Gonzalo Ferrer, | (参考訳) ロボット工学とコンピュータビジョンの分野では、複雑な環境を理解し、相互作用できるインテリジェントマシンの需要が高まっているため、効率的で正確なセマンティックマッピングは依然として大きな課題である。
しかし、従来のパノプティックマッピング手法は定義済みのセマンティッククラスによって制限されているため、新しいオブジェクトや予期せぬオブジェクトを扱うのに効果がない。
この制限に対応するために、UPPM法(Unified Promptable Panoptic Mapping)を導入する。
UPPMは、ファンデーションモデルの最近の進歩を利用して、自然言語プロンプトを使用してリアルタイムのオンデマンドラベル生成を可能にする。
従来のパン光学マッピング技術に動的ラベリング戦略を取り入れることで、UPPMは、マップ再構成における高い性能レベルを維持しながら、適応性と汎用性を大幅に改善する。
実世界およびシミュレートされたデータセットに対する我々のアプローチを実証する。
その結果,UPPMはシーンやセグメントオブジェクトを正確に再構成し,自然言語の相互作用によってリッチなセマンティックラベルを生成することができることがわかった。
一連のアブレーション実験は、固定ラベル集合に対する基礎モデルに基づくラベル付けの利点を検証した。
In the field of robotics and computer vision, efficient and accurate semantic mapping remains a significant challenge due to the growing demand for intelligent machines that can comprehend and interact with complex environments. Conventional panoptic mapping methods, however, are limited by predefined semantic classes, thus making them ineffective for handling novel or unforeseen objects. In response to this limitation, we introduce the Unified Promptable Panoptic Mapping (UPPM) method. UPPM utilizes recent advances in foundation models to enable real-time, on-demand label generation using natural language prompts. By incorporating a dynamic labeling strategy into traditional panoptic mapping techniques, UPPM provides significant improvements in adaptability and versatility while maintaining high performance levels in map reconstruction. We demonstrate our approach on real-world and simulated datasets. Results show that UPPM can accurately reconstruct scenes and segment objects while generating rich semantic labels through natural language interactions. A series of ablation experiments validated the advantages of foundation model-based labeling over fixed label sets. | 翻訳日:2024-05-06 12:26:23 公開日:2024-05-03 |
# EEG2TEXT:EEG事前訓練とマルチビュー変換を用いたオープン語彙EEG-to-Textデコーディング
EEG2TEXT: Open Vocabulary EEG-to-Text Decoding with EEG Pre-Training and Multi-View Transformer ( http://arxiv.org/abs/2405.02165v1 ) ライセンス: Link先を確認 | Hanwen Liu, Daniel Hajialigol, Benny Antony, Aiguo Han, Xuan Wang, | (参考訳) 人間の脳の複雑さの解読は、何世紀にもわたって好奇心をつかんだ。
脳-コンピュータインタフェース(BCI)技術の最近の進歩、特に運動画像を用いて、麻痺した個体の到達、把握、歩行などの運動機能を回復させた。
しかし、脳の信号から自然言語を解き放つことは、依然として恐ろしい課題だ。
脳波検査(Electroencephalography、EEG)は、頭皮に電極を置くことで脳内の電気活動を記録する非侵襲的手法である。
脳波からテキストへのデコードに関するこれまでの研究は、小さな閉じた語彙では高い精度を達成しているが、大きなオープンな語彙を扱う場合、依然として高い精度には達していない。
オープン語彙EEG-to-textデコーディングの精度を向上させるための新しい手法であるEEG2TEXTを提案する。
具体的には、脳波事前学習を活用して、脳波信号からのセマンティクスの学習を強化するとともに、脳波信号処理を脳の異なる空間領域でモデル化するマルチビュートランスフォーマーを提案する。
実験により、EEG2TEXTは優れた性能を示し、絶対BLEUおよびROUGEスコアにおいて、最先端のベースライン法よりも最大5%高いマージンを達成できた。
EEG2TEXTは、コミュニケーションを容易にするための高性能なオープン語彙脳-テキストシステムの可能性を示している。
Deciphering the intricacies of the human brain has captivated curiosity for centuries. Recent strides in Brain-Computer Interface (BCI) technology, particularly using motor imagery, have restored motor functions such as reaching, grasping, and walking in paralyzed individuals. However, unraveling natural language from brain signals remains a formidable challenge. Electroencephalography (EEG) is a non-invasive technique used to record electrical activity in the brain by placing electrodes on the scalp. Previous studies of EEG-to-text decoding have achieved high accuracy on small closed vocabularies, but still fall short of high accuracy when dealing with large open vocabularies. We propose a novel method, EEG2TEXT, to improve the accuracy of open vocabulary EEG-to-text decoding. Specifically, EEG2TEXT leverages EEG pre-training to enhance the learning of semantics from EEG signals and proposes a multi-view transformer to model the EEG signal processing by different spatial regions of the brain. Experiments show that EEG2TEXT has superior performance, outperforming the state-of-the-art baseline methods by a large margin of up to 5% in absolute BLEU and ROUGE scores. EEG2TEXT shows great potential for a high-performance open-vocabulary brain-to-text system to facilitate communication. | 翻訳日:2024-05-06 12:26:23 公開日:2024-05-03 |
# デュアル・マルチズーム観察による実世界の超解像の自己教師付き学習
Self-Supervised Learning for Real-World Super-Resolution from Dual and Multiple Zoomed Observations ( http://arxiv.org/abs/2405.02171v1 ) ライセンス: Link先を確認 | Zhilu Zhang, Ruohao Wang, Hongzhi Zhang, Wangmeng Zuo, | (参考訳) 本稿では,スマートフォン用レファレンスベーススーパーレゾリューション(RefSR)における2つの課題について考察する。
(i)適切な参照画像の選択方法、及び
(II)自己指導型でRefSRを学習する方法。
特に,デュアルカメラとマルチカメラのズームで観測した実世界のRefSRに対して,新たな自己教師型学習手法を提案する。
第一に、現代のスマートフォンにおける複数のカメラの人気を考えると、よりズームされた(テレフォト)画像は、より解像度の低い(超広角)画像の超解像(SR)を導く基準として自然に活用することができ、デュアルズームされた観察(DZSR)からSRを実行するディープネットワークを学習する機会を与える。
第2に、DZSRの自己教師付き学習において、追加の高解像度画像の代わりに望遠像を監督情報とし、対応する超広帯域画像パッチの超解像への参照として中心パッチを選択する。
トレーニング中の超広視野低解像度(LR)パッチと望遠低解像度(GT)イメージとの相違を緩和するために、まず、パッチベースの光フローアライメントを採用し、次に、乱れたLR特徴の変形を誘導する補助LRを設計する。
視覚的に満足する結果を得るために,特徴空間におけるGTと出力の知覚的差異をよりよく表すために,局所的に重なり合ったワッサースタイン損失を示す。
テスト中は、DZSRを直接展開して、テレフォト画像を参照して超広視野画像を超解き放つことができる。
さらに、複数のズームされた観察を行い、自己監督型RefSRを探索し、参照画像の有効利用のためのプログレッシブ融合方式を提案する。
実験により,本手法は最先端技術に対する定量的,定性的な性能を向上することが示された。
コードはhttps://github.com/cszhilu1998/SelfDZSR_PlusPlusで公開されている。
In this paper, we consider two challenging issues in reference-based super-resolution (RefSR) for smartphone, (i) how to choose a proper reference image, and (ii) how to learn RefSR in a self-supervised manner. Particularly, we propose a novel self-supervised learning approach for real-world RefSR from observations at dual and multiple camera zooms. Firstly, considering the popularity of multiple cameras in modern smartphones, the more zoomed (telephoto) image can be naturally leveraged as the reference to guide the super-resolution (SR) of the lesser zoomed (ultra-wide) image, which gives us a chance to learn a deep network that performs SR from the dual zoomed observations (DZSR). Secondly, for self-supervised learning of DZSR, we take the telephoto image instead of an additional high-resolution image as the supervision information, and select a center patch from it as the reference to super-resolve the corresponding ultra-wide image patch. To mitigate the effect of the misalignment between ultra-wide low-resolution (LR) patch and telephoto ground-truth (GT) image during training, we first adopt patch-based optical flow alignment and then design an auxiliary-LR to guide the deforming of the warped LR features. To generate visually pleasing results, we present local overlapped sliced Wasserstein loss to better represent the perceptual difference between GT and output in the feature space. During testing, DZSR can be directly deployed to super-solve the whole ultra-wide image with the reference of the telephoto image. In addition, we further take multiple zoomed observations to explore self-supervised RefSR, and present a progressive fusion scheme for the effective utilization of reference images. Experiments show that our methods achieve better quantitative and qualitative performance against state-of-the-arts. Codes are available at https://github.com/cszhilu1998/SelfDZSR_PlusPlus. | 翻訳日:2024-05-06 12:26:23 公開日:2024-05-03 |
# 深層学習による単光子レベルの全繊維微小内視鏡偏光センシング
All-fiber microendoscopic polarization sensing at single-photon level aided by deep-learning ( http://arxiv.org/abs/2405.02172v1 ) ライセンス: Link先を確認 | Martin Bielak, Dominik Vašinka, Miroslav Ježek, | (参考訳) 光の偏光は、試料の空間秩序と光学的性質に関する重要な情報を伝える。
しかし、制約された空間、低照度、高速シナリオを含む困難条件における正確な偏光測定は、依然として深刻な課題である。
この問題に対処するために、偏光状態に関する完全な情報を提供する単一光子レベルまで正確なリアルタイム偏光測定手法を導入する。
偏光センサは移動部品を含まないため、数モードのファイバーを使用し、次いでファイバーアレイと検出器アレイを使用する。
センサーの校正は、部分偏光を含む全ての偏光状態に前例のない精度をもたらすニューラルネットワークに依存している。
生体試料の偏光構造を可視化し, アプローチを検証する。
本手法は,低光環境下でのリアルタイム偏光センシングとマイクロ内視鏡のための効率的で信頼性の高いソリューションを提供する。
The polarization of light conveys crucial information about the spatial ordering and optical properties of a specimen. However, precise polarization measurement in challenging conditions, including constrained spaces, low light levels, and high-speed scenarios, remains a severe challenge. Addressing this problem, we introduce a real-time polarization measurement method accurate down to a single-photon level that provides complete information about the polarization state. Free of moving components, the polarization sensor utilizes a few-mode fiber followed by a fiber array and a detector array. The calibration of the sensor relies on a neural network yielding unprecedented accuracy across all polarization states, including partially polarized light. We validate the approach by visualizing the polarization structure of a biological specimen. Our method offers an efficient and reliable solution for real-time polarization sensing and microendoscopy under low-light conditions. | 翻訳日:2024-05-06 12:26:23 公開日:2024-05-03 |
# XLogoオンライン環境における基本ビジュアルプログラミングのためのタスク合成
Task Synthesis for Elementary Visual Programming in XLogoOnline Environment ( http://arxiv.org/abs/2405.02173v1 ) ライセンス: Link先を確認 | Chao Wen, Ahana Ghosh, Jacqueline Staub, Adish Singla, | (参考訳) 近年、XLogoOnlineプログラミングプラットフォームは初心者の学習者の間で人気を集めている。
Logoプログラミング言語とビジュアルプログラミングを統合し、コンピュータの概念を学ぶためのビジュアルインターフェースを提供する。
しかし、XLogoOnlineは限られたタスクのみを提供しており、学習者が十分な練習を必要とする計算概念を習得するには不十分である。
そこで本稿では,難易度に応じて高品質なタスクを合成する新手法であるXLogoSynを紹介する。
参照タスクが与えられた場合、XLogoSynは、異なる学習者のさまざまなニーズと能力に対応する様々な難易度で練習タスクを生成することができる。
XLogoSynはシンボリック実行と制約満足度技術を組み合わせてこれを達成している。
本研究はXLogoSynの有効性を実証する。
また、XLogoOnlineに合成練習タスクを配置し、これらの合成練習タスクの教育的メリットを強調した。
In recent years, the XLogoOnline programming platform has gained popularity among novice learners. It integrates the Logo programming language with visual programming, providing a visual interface for learning computing concepts. However, XLogoOnline offers only a limited set of tasks, which are inadequate for learners to master the computing concepts that require sufficient practice. To address this, we introduce XLogoSyn, a novel technique for synthesizing high-quality tasks for varying difficulty levels. Given a reference task, XLogoSyn can generate practice tasks at varying difficulty levels that cater to the varied needs and abilities of different learners. XLogoSyn achieves this by combining symbolic execution and constraint satisfaction techniques. Our expert study demonstrates the effectiveness of XLogoSyn. We have also deployed synthesized practice tasks into XLogoOnline, highlighting the educational benefits of these synthesized practice tasks. | 翻訳日:2024-05-06 12:26:23 公開日:2024-05-03 |
# Hoaxpedia:ウィキペディアのHoax記事データセットを統一
Hoaxpedia: A Unified Wikipedia Hoax Articles Dataset ( http://arxiv.org/abs/2405.02175v1 ) ライセンス: Link先を確認 | Hsuvas Borkakoty, Luis Espinosa-Anke, | (参考訳) Hoaxesは意図的に作成された偽情報の一種であり、ウィキペディアのような参照知識資源の信頼性に深刻な影響を及ぼす可能性がある。
ウィキペディアの検出が難しいのは、公式のスタイルガイドラインに従ってしばしば書かれることです。
本稿ではまず,正当性と偽のウィキペディア記事の類似点と相違点を体系的に分析し,意味的に類似した実際の記事とともに311のホアックス記事(既存文献および公式ウィキペディアリストから)のコレクションであるHoaxpediaを紹介した。
ウィキペディアの記事が本物か偽かを予測するタスクにおいてバイナリ分類実験の結果を報告し、いくつかの設定や言語モデルについて分析する。
以上の結果から,過去はあまり調査されていないが,ウィキペディアのコンテンツのみに基づく偽コンテンツの検出は有望な方向であることが示唆された。
Hoaxes are a recognised form of disinformation created deliberately, with potential serious implications in the credibility of reference knowledge resources such as Wikipedia. What makes detecting Wikipedia hoaxes hard is that they often are written according to the official style guidelines. In this work, we first provide a systematic analysis of the similarities and discrepancies between legitimate and hoax Wikipedia articles, and introduce Hoaxpedia, a collection of 311 Hoax articles (from existing literature as well as official Wikipedia lists) alongside semantically similar real articles. We report results of binary classification experiments in the task of predicting whether a Wikipedia article is real or hoax, and analyze several settings as well as a range of language models. Our results suggest that detecting deceitful content in Wikipedia based on content alone, despite not having been explored much in the past, is a promising direction. | 翻訳日:2024-05-06 12:26:23 公開日:2024-05-03 |
# LLMアプリケーションにおけるタスクユーティリティの評価と検証
Assessing and Verifying Task Utility in LLM-Powered Applications ( http://arxiv.org/abs/2405.02178v1 ) ライセンス: Link先を確認 | Negar Arabzadeh, Siging Huo, Nikhil Mehta, Qinqyun Wu, Chi Wang, Ahmed Awadallah, Charles L. A. Clarke, Julia Kiseleva, | (参考訳) LLM(Large Language Models)の急速な開発は、複数のエージェント間のコラボレーションを促進し、人間の日常的な作業を支援するアプリケーションの増加につながっている。
しかし、LDMを利用したアプリケーションが実際のユーザエクスペリエンスとタスク実行効率をどの程度向上させるかを評価する上で、大きなギャップが残っている。
このことは、特にアプリケーションの機能とエンドユーザのニーズの整合性を確保することによって、LLMベースのアプリケーションのユーティリティを検証する必要性を強調している。
AgentEvalは,アプリケーション固有の目的に合わせた一連の基準を自動提案することで,ユーティリティ検証プロセスを簡素化する新しいフレームワークである。
これにより、提案された基準に対してアプリケーションの実用性を定量化する、包括的な評価が可能になる。
本稿では,AgentEval の有効性とロバスト性について,Math Problemsolving や ALFWorld House-hold 関連タスクを含む2つのオープンソースデータセットに対して包括的な解析を行った。
再現性のために、データ、コード、すべてのログをhttps://bit.ly/3w3yKcSで公開しています。
The rapid development of Large Language Models (LLMs) has led to a surge in applications that facilitate collaboration among multiple agents, assisting humans in their daily tasks. However, a significant gap remains in assessing to what extent LLM-powered applications genuinely enhance user experience and task execution efficiency. This highlights the need to verify utility of LLM-powered applications, particularly by ensuring alignment between the application's functionality and end-user needs. We introduce AgentEval, a novel framework designed to simplify the utility verification process by automatically proposing a set of criteria tailored to the unique purpose of any given application. This allows for a comprehensive assessment, quantifying the utility of an application against the suggested criteria. We present a comprehensive analysis of the effectiveness and robustness of AgentEval for two open source datasets including Math Problem solving and ALFWorld House-hold related tasks. For reproducibility purposes, we make the data, code and all the logs publicly available at https://bit.ly/3w3yKcS . | 翻訳日:2024-05-06 12:26:23 公開日:2024-05-03 |
# 大規模事前学習モデルの活用による学習不要なディープフェイク音声認識
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models ( http://arxiv.org/abs/2405.02179v1 ) ライセンス: Link先を確認 | Alessandro Pianese, Davide Cozzolino, Giovanni Poggi, Luisa Verdoliva, | (参考訳) 一般化は現在のオーディオディープフェイク検出器の主要な問題であり、アウト・オブ・ディストリビューションデータに対する信頼性の高い結果の提供に苦慮している。
より正確な合成法が開発されるスピードを考えると、訓練を受けていないデータでもうまく機能する手法を設計することが重要であり、特に一般化能力に焦点をあてて、音声深度検出のための大規模事前学習モデルの可能性について検討する。
この目的のために、話者検証フレームワークで検出問題を修正し、テスト中の音声サンプルとクレームIDの音声とのミスマッチにより偽音声を露呈する。
このパラダイムでは、訓練に偽の音声サンプルは不要であり、ルートにおける生成方法とのリンクを切断し、完全な一般化能力を確保する。
機能は汎用的な大規模な事前訓練モデルによって抽出され、特定の偽検出や話者検証データセットのトレーニングや微調整は不要である。
検出時には、テスト中のアイデンティティの限定された音声断片のみが必要となる。
コミュニティに広く普及しているいくつかのデータセットの実験では、事前学習されたモデルに基づく検出器は優れた性能を示し、強力な一般化能力を示す。
Generalization is a main issue for current audio deepfake detectors, which struggle to provide reliable results on out-of-distribution data. Given the speed at which more and more accurate synthesis methods are developed, it is very important to design techniques that work well also on data they were not trained for.In this paper we study the potential of large-scale pre-trained models for audio deepfake detection, with special focus on generalization ability. To this end, the detection problem is reformulated in a speaker verification framework and fake audios are exposed by the mismatch between the voice sample under test and the voice of the claimed identity. With this paradigm, no fake speech sample is necessary in training, cutting off any link with the generation method at the root, and ensuring full generalization ability. Features are extracted by general-purpose large pre-trained models, with no need for training or fine-tuning on specific fake detection or speaker verification datasets. At detection time only a limited set of voice fragments of the identity under test is required. Experiments on several datasets widespread in the community show that detectors based on pre-trained models achieve excellent performance and show strong generalization ability, rivaling supervised methods on in-distribution data and largely overcoming them on out-of-distribution data. | 翻訳日:2024-05-06 12:26:23 公開日:2024-05-03 |
# コンディショナル・確率的電力消費プロファイルの生成と予測のためのフローベースモデル
A Flow-Based Model for Conditional and Probabilistic Electricity Consumption Profile Generation and Prediction ( http://arxiv.org/abs/2405.02180v1 ) ライセンス: Link先を確認 | Weijie Xia, Chenguang Wang, Peter Palensky, Pedro P. Vergara, | (参考訳) 住宅負荷プロファイル(RLP)の生成と予測は配電網の運用と計画にとって重要であり、特に多種多様な低炭素技術の統合が進んでいる。
本稿では,条件付きおよび条件なしのRLP生成と確率的負荷予測のために一意に設計された,FCPFlowと呼ばれる新しいフローベース生成モデルを提案する。
可逆線形層と可逆正規化層という2つの新しい層を導入することで、提案したFCPFlowアーキテクチャは、従来の統計的および現代的な深層生成モデルと比較して3つの大きな利点を示している。
1) 気象の変化や年間電力消費など, 連続した条件下でのRLP生成に適している。
2)従来の統計データと比較すると,データセットのスケーラビリティに優れていた。
3) 深部生成モデルと比較して, RLPの複雑な相関を捉える上で, より優れたモデリング能力を示す。
Residential Load Profile (RLP) generation and prediction are critical for the operation and planning of distribution networks, particularly as diverse low-carbon technologies are increasingly integrated. This paper introduces a novel flow-based generative model, termed Full Convolutional Profile Flow (FCPFlow), which is uniquely designed for both conditional and unconditional RLP generation, and for probabilistic load forecasting. By introducing two new layers--the invertible linear layer and the invertible normalization layer--the proposed FCPFlow architecture shows three main advantages compared to traditional statistical and contemporary deep generative models: 1) it is well-suited for RLP generation under continuous conditions, such as varying weather and annual electricity consumption, 2) it shows superior scalability in different datasets compared to traditional statistical, and 3) it also demonstrates better modeling capabilities in capturing the complex correlation of RLPs compared with deep generative models. | 翻訳日:2024-05-06 12:26:23 公開日:2024-05-03 |
# 探索仮定を伴わない離散線形MDPにおける模倣学習
Imitation Learning in Discounted Linear MDPs without exploration assumptions ( http://arxiv.org/abs/2405.02181v1 ) ライセンス: Link先を確認 | Luca Viano, Stratis Skoulakis, Volkan Cevher, | (参考訳) ILARLと呼ばれる無限水平線形MDPにおける模倣学習のための新しいアルゴリズムを提案し,学習者が環境からサンプリングするトラジェクトリの数に大きく依存することを示す。
特に、以前の研究で必要とされる探索仮定を除去し、所望の精度$\epsilon$から$\mathcal{O}\br{\epsilon^{-5}}$から$\mathcal{O}\br{\epsilon^{-4}}$への依存を改善する。
本研究の結果は,MDPにおける模倣学習とオンライン学習の関連性に依拠している。
後者の設定では、独立な興味を持つかもしれない無限水平線型 MDP に対する最初の結果を示す。
さらに、有限地平線の場合、$\mathcal{O}\br{\epsilon^{-2}}$を達成できるような強化結果が得られる。
線形関数近似による数値実験により、ILARLは他のよく使われるアルゴリズムよりも優れていることが示された。
We present a new algorithm for imitation learning in infinite horizon linear MDPs dubbed ILARL which greatly improves the bound on the number of trajectories that the learner needs to sample from the environment. In particular, we remove exploration assumptions required in previous works and we improve the dependence on the desired accuracy $\epsilon$ from $\mathcal{O}\br{\epsilon^{-5}}$ to $\mathcal{O}\br{\epsilon^{-4}}$. Our result relies on a connection between imitation learning and online learning in MDPs with adversarial losses. For the latter setting, we present the first result for infinite horizon linear MDP which may be of independent interest. Moreover, we are able to provide a strengthen result for the finite horizon case where we achieve $\mathcal{O}\br{\epsilon^{-2}}$. Numerical experiments with linear function approximation shows that ILARL outperforms other commonly used algorithms. | 翻訳日:2024-05-06 12:26:23 公開日:2024-05-03 |
# ランク付け処理のための金属製アラーム
Metalearners for Ranking Treatment Effects ( http://arxiv.org/abs/2405.02183v1 ) ライセンス: Link先を確認 | Toon Vanderschueren, Wouter Verbeke, Felipe Moraes, Hugo Manuel Proença, | (参考訳) 予算制約で効率的に治療を割り当てることは、様々な領域で重要な課題となっている。
例えば、マーケティングでは、潜在的な顧客をターゲットとし、コンバージョンを促進するためのプロモーションの使用は、利用可能な予算によって制限される。
多くの研究は因果効果の推定に重点を置いているが、運用状況を考慮して治療を割り当てる学習は比較的限られている。
既存のアップリフトモデリングや因果推論の手法は、予算制約を尊重する配分政策の最大化にどのように関係しているかを考慮せずに、主に治療効果を見積もる。
これらの手法の潜在的な欠点は、結果として生じる予測モデルが運用コンテキストと一致していないことである。
そのため、予算配分問題の最適化に予測誤差が伝播し、その後、準最適配分ポリシーが導かれる。
ランク付け学習に基づく代替手法を提案する。
提案手法は,増益率の観点から,インスタンスの優先順位付けによってアロケーションポリシーを直接学習する。
本稿では,我々の方法論を大規模データセットに拡張するために,ランキングモデルの最適化のための効率的なサンプリング手法を提案する。
理論的には、政策の漸進的な利益曲線の下で、ランク付けの学習がいかにその領域を最大化できるかを示す。
実験により,本手法の有効性を実証し,実世界の合成データと実世界のデータの両方に関する一連の実験を通じて実効性を示す。
Efficiently allocating treatments with a budget constraint constitutes an important challenge across various domains. In marketing, for example, the use of promotions to target potential customers and boost conversions is limited by the available budget. While much research focuses on estimating causal effects, there is relatively limited work on learning to allocate treatments while considering the operational context. Existing methods for uplift modeling or causal inference primarily estimate treatment effects, without considering how this relates to a profit maximizing allocation policy that respects budget constraints. The potential downside of using these methods is that the resulting predictive model is not aligned with the operational context. Therefore, prediction errors are propagated to the optimization of the budget allocation problem, subsequently leading to a suboptimal allocation policy. We propose an alternative approach based on learning to rank. Our proposed methodology directly learns an allocation policy by prioritizing instances in terms of their incremental profit. We propose an efficient sampling procedure for the optimization of the ranking model to scale our methodology to large-scale data sets. Theoretically, we show how learning to rank can maximize the area under a policy's incremental profit curve. Empirically, we validate our methodology and show its effectiveness in practice through a series of experiments on both synthetic and real-world data. | 翻訳日:2024-05-06 12:26:23 公開日:2024-05-03 |
# 逆マルコフ決定過程におけるオンライン学習のための最適回帰境界
Optimistic Regret Bounds for Online Learning in Adversarial Markov Decision Processes ( http://arxiv.org/abs/2405.02188v1 ) ライセンス: Link先を確認 | Sang Bin Moon, Abolfazl Hashemi, | (参考訳) Adversarial Markov Decision Process (AMDP)は、ロボット工学やレコメンデーションシステムといった意思決定アプリケーションにおいて、未知のさまざまなタスクを扱う学習フレームワークである。
しかし、AMDPフォーマリズムの大きな制限は、コスト関数が1つのエピソードから次のエピソードに変化するとしても、多くの設定における進化は逆境ではない、という悲観的な後悔分析である。
そこで本稿では,コスト予測器のセットを活用して,後悔を最小限に抑えることを目的とした,新たなAMDPの導入と研究を行う。
そこで,本稿では,コスト予測器の推定能力に則って優雅に劣化するような,未熟な後悔を高い確率で実現した新しいポリシー探索手法を提案する。
そのような楽観的な後悔の限界を確立することは、それを考えると自明ではない
一 上述の通り、既存の重み付けコスト推定器は楽観的な限界を定めず、
(II)AMDPのフィードバックモデルは、既存の楽観的なオンライン学習作業とは異なる(そしてより現実的な)ものである。
この結果は,特に,コスト予測を生かし,制約的仮定を課さずに,高い確率的後悔分析を可能にする,楽観的に偏りのあるコスト推定器の開発に寄与する。
さらに,提案手法の実践的拡張について考察し,その有効性を数値的に実証する。
The Adversarial Markov Decision Process (AMDP) is a learning framework that deals with unknown and varying tasks in decision-making applications like robotics and recommendation systems. A major limitation of the AMDP formalism, however, is pessimistic regret analysis results in the sense that although the cost function can change from one episode to the next, the evolution in many settings is not adversarial. To address this, we introduce and study a new variant of AMDP, which aims to minimize regret while utilizing a set of cost predictors. For this setting, we develop a new policy search method that achieves a sublinear optimistic regret with high probability, that is a regret bound which gracefully degrades with the estimation power of the cost predictors. Establishing such optimistic regret bounds is nontrivial given that (i) as we demonstrate, the existing importance-weighted cost estimators cannot establish optimistic bounds, and (ii) the feedback model of AMDP is different (and more realistic) than the existing optimistic online learning works. Our result, in particular, hinges upon developing a novel optimistically biased cost estimator that leverages cost predictors and enables a high-probability regret analysis without imposing restrictive assumptions. We further discuss practical extensions of the proposed scheme and demonstrate its efficacy numerically. | 翻訳日:2024-05-06 12:26:23 公開日:2024-05-03 |
# ハイパースペクトルイメージングと機械学習による非破壊的泥炭解析
Non-Destructive Peat Analysis using Hyperspectral Imaging and Machine Learning ( http://arxiv.org/abs/2405.02191v1 ) ライセンス: Link先を確認 | Yijun Yan, Jinchang Ren, Barry Harrison, Oliver Lewis, Yinhe Li, Ping Ma, | (参考訳) ピートはウイスキー生産において重要な要素であり、最終製品に独特の風味を付与する。
しかし、泥炭の抽出は古代の生態系を混乱させ、大量の炭素を放出し、気候変動に寄与する。
本稿では, ハイパスペクトル画像を用いた非破壊解析により, ウイスキー製造における泥炭利用効率の向上に向けた実現可能性調査を行うことにより, この問題に対処することを目的とする。
その結果、ショットウェーブ赤外(SWIR)データは、泥炭サンプルを分析し、総フェノール濃度を99.81%まで予測するのにより効果的であることが示された。
Peat, a crucial component in whisky production, imparts distinctive and irreplaceable flavours to the final product. However, the extraction of peat disrupts ancient ecosystems and releases significant amounts of carbon, contributing to climate change. This paper aims to address this issue by conducting a feasibility study on enhancing peat use efficiency in whisky manufacturing through non-destructive analysis using hyperspectral imaging. Results show that shot-wave infrared (SWIR) data is more effective for analyzing peat samples and predicting total phenol levels, with accuracies up to 99.81%. | 翻訳日:2024-05-06 12:26:23 公開日:2024-05-03 |
# アラビアサルカズム検出モデルの性能に及ぼす絵文字排除の影響
Impact of emoji exclusion on the performance of Arabic sarcasm detection models ( http://arxiv.org/abs/2405.02195v1 ) ライセンス: Link先を確認 | Ghalyah H. Aleryani, Wael Deabes, Khaled Albishre, Alaa E. Abdel-Hakim, | (参考訳) ソーシャルメディア上でのアラビア語音声の皮肉を検出するという複雑な課題は、言語多様性と皮肉表現の性質によって増大する。
既存のモデルがアラビア語の皮肉を効果的に解釈する能力には大きなギャップがあり、より高度で正確な検出方法の必要性を課している。
本稿では,基本前処理成分が音素音声検出に与える影響について検討する。
絵文字は、現代コミュニケーションにおけるボディランゲージと表情の欠如を緩和する上で重要な役割を担っているが、その自動テキスト分析、特に皮肉検出における影響は未解明のままである。
語彙・超リッチ言語としてのアラビア語のソーシャルメディアコンテンツにおいて,データセットからの絵文字排除がサルカズム検出モデルの性能に及ぼす影響について検討した。
本研究は,AraBERT事前学習モデルの適応と強化,特に絵文字を除外してサルカズム検出能力を向上させることを含む。
我々はAraBERTプリトレーニングを用いて特定のモデルを改良し、絵文字の除去が皮肉検出の精度を大幅に向上させることを示した。
このアプローチは、非テクスト要素によってもたらされる潜在的な混乱を排除し、より洗練された言語解釈を促進する。
評価されたAraBERTモデルは、絵文字除去の焦点を絞った戦略により、アラビア文字の複雑さを巧みにナビゲートする。
本研究では、アラビア語の自然言語処理における新しいベンチマークを確立し、ソーシャルメディアプラットフォームに価値ある洞察を与える。
The complex challenge of detecting sarcasm in Arabic speech on social media is increased by the language diversity and the nature of sarcastic expressions. There is a significant gap in the capability of existing models to effectively interpret sarcasm in Arabic, which mandates the necessity for more sophisticated and precise detection methods. In this paper, we investigate the impact of a fundamental preprocessing component on sarcasm speech detection. While emojis play a crucial role in mitigating the absence effect of body language and facial expressions in modern communication, their impact on automated text analysis, particularly in sarcasm detection, remains underexplored. We investigate the impact of emoji exclusion from datasets on the performance of sarcasm detection models in social media content for Arabic as a vocabulary-super rich language. This investigation includes the adaptation and enhancement of AraBERT pre-training models, specifically by excluding emojis, to improve sarcasm detection capabilities. We use AraBERT pre-training to refine the specified models, demonstrating that the removal of emojis can significantly boost the accuracy of sarcasm detection. This approach facilitates a more refined interpretation of language, eliminating the potential confusion introduced by non-textual elements. The evaluated AraBERT models, through the focused strategy of emoji removal, adeptly navigate the complexities of Arabic sarcasm. This study establishes new benchmarks in Arabic natural language processing and presents valuable insights for social media platforms. | 翻訳日:2024-05-06 12:16:37 公開日:2024-05-03 |
# ポジションペーパー:機械学習における実証研究を再考する:実験の疫学的課題と方法論的課題に対処する
Position Paper: Rethinking Empirical Research in Machine Learning: Addressing Epistemic and Methodological Challenges of Experimentation ( http://arxiv.org/abs/2405.02200v1 ) ライセンス: Link先を確認 | Moritz Herrmann, F. Julian D. Lange, Katharina Eggensperger, Giuseppe Casalicchio, Marcel Wever, Matthias Feurer, David Rügamer, Eyke Hüllermeier, Anne-Laure Boulesteix, Bernd Bischl, | (参考訳) 我々は、機械学習(ML)における実証研究の一般的な理解が不完全な結果をもたらすことを警告し、結果の信頼性を損なうとともに、現場の進歩を損なう恐れがある。
この危機を克服するために、我々は複数の知識を実験的に獲得する方法の認知度を高めるとともに、いくつかのエピステマ性制限も求めている。
特に、最近の経験的ML研究は、むしろ探索的なものとみなすべきであるが、確認研究として採用されている。
We warn against a common but incomplete understanding of empirical research in machine learning (ML) that leads to non-replicable results, makes findings unreliable, and threatens to undermine progress in the field. To overcome this alarming situation, we call for more awareness of the plurality of ways of gaining knowledge experimentally but also of some epistemic limitations. In particular, we argue most current empirical ML research is fashioned as confirmatory research while it should rather be considered exploratory. | 翻訳日:2024-05-06 12:16:37 公開日:2024-05-03 |
# ロバスト平均化による正規化Q-ラーニング
Regularized Q-learning through Robust Averaging ( http://arxiv.org/abs/2405.02201v1 ) ライセンス: Link先を確認 | Peter Schmitt-Förster, Tobias Sutter, | (参考訳) 本稿では,既存のQラーニング手法の弱点を原則的に解決する,2RA Qラーニングと呼ばれる新しいQラーニング変種を提案する。
そのような弱点の1つは、制御できない、しばしばパフォーマンスが低下する、基礎となる推定バイアスである。
本稿では,最大予測値項に対する分布的に頑健な推定器を提案し,提案した推定バイアスのレベルを正確に制御する。
分布的に堅牢な推定器は、提案アルゴリズムがWatkinsのQ-learningに匹敵する計算コストを持つようなクローズドフォームの解を認めている。
表の場合, 2RA Q-learning は最適方針に収束し, その漸近平均二乗誤差を解析する。
最後に,理論的な知見を裏付ける様々な設定の数値実験を行い,既存の手法よりも2RA Q-learningが優れていることを示す。
We propose a new Q-learning variant, called 2RA Q-learning, that addresses some weaknesses of existing Q-learning methods in a principled manner. One such weakness is an underlying estimation bias which cannot be controlled and often results in poor performance. We propose a distributionally robust estimator for the maximum expected value term, which allows us to precisely control the level of estimation bias introduced. The distributionally robust estimator admits a closed-form solution such that the proposed algorithm has a computational cost per iteration comparable to Watkins' Q-learning. For the tabular case, we show that 2RA Q-learning converges to the optimal policy and analyze its asymptotic mean-squared error. Lastly, we conduct numerical experiments for various settings, which corroborate our theoretical findings and indicate that 2RA Q-learning often performs better than existing methods. | 翻訳日:2024-05-06 12:16:37 公開日:2024-05-03 |
# 集積型高性能コンピューティングと量子システムを用いたメタマテリアル設計のための最適化アルゴリズムの性能解析
Performance Analysis of an Optimization Algorithm for Metamaterial Design on the Integrated High-Performance Computing and Quantum Systems ( http://arxiv.org/abs/2405.02211v1 ) ライセンス: Link先を確認 | Seongmin Kim, In-Saeng Suh, | (参考訳) 複雑なジオメトリでメタマテリアルを最適化することは大きな課題です。
機械学習(ML)、量子コンピューティング、光学シミュレーションを組み合わせた能動的学習アルゴリズムが効率的な最適化ツールとして登場したが、性能の高い複雑な構造の最適化には依然として困難に直面している。
本研究では,HPCと量子システムを統合したメタマテリアル設計のための最適化アルゴリズムの性能を網羅的に解析する。
我々は,HPCシステム上でのメッセージパッシングインタフェース(MPI)の並列化により,MLタスクの約54%,シリアルワークロードに対する光学シミュレーションの67倍の高速化を実現した。
さらに、ローカルコンピュータやHPC量子システム上で様々な量子シミュレータで動作する最適化のために設計された量子アルゴリズムの性能を解析する。
その結果、HPC-量子ハイブリッドシステム上で最適化アルゴリズムを実行する場合、約24倍のスピードアップを示す。
本研究では,HPC量子システムを用いた複雑なメタマテリアルの最適化手法を提案する。
Optimizing metamaterials with complex geometries is a big challenge. Although an active learning algorithm, combining machine learning (ML), quantum computing, and optical simulation, has emerged as an efficient optimization tool, it still faces difficulties in optimizing complex structures that have potentially high performance. In this work, we comprehensively analyze the performance of an optimization algorithm for metamaterial design on the integrated HPC and quantum systems. We demonstrate significant time advantages through message-passing interface (MPI) parallelization on the high-performance computing (HPC) system showing approximately 54% faster ML tasks and 67 times faster optical simulation against serial workloads. Furthermore, we analyze the performance of a quantum algorithm designed for optimization, which runs with various quantum simulators on a local computer or HPC-quantum system. Results showcase ~24 times speedup when executing the optimization algorithm on the HPC-quantum hybrid system. This study paves a way to optimize complex metamaterials using the integrated HPC-quantum system. | 翻訳日:2024-05-06 12:16:37 公開日:2024-05-03 |
# 感度スピン検出のための圧電マイクロ共振器
Piezoelectric microresonators for sensitive spin detection ( http://arxiv.org/abs/2405.02212v1 ) ライセンス: Link先を確認 | Cecile Skoryna Kline, Jorge Monroy-Ruz, Krishna C Balram, | (参考訳) 圧電マイクロ共振器は無線通信には不可欠であり、携帯電話での無線周波数フィルタリングの基盤となる。
これらのデバイスは通常、準静電状態において解析され、磁場は効果的に無視される。
一方, マイクロ波帯, 特に圧電素子では, 強次元の音場閉じ込めを利用した場合, 表面磁場(B_{1}$)が顕著である。
この$B_1$フィールドは、GHz周波数で振動するが、${\mu}$mスケールの波長に制限されているため、ナノスケールのスピンシステムと効率的に接続するための自然な経路を提供する。
B_1{\propto}f^2$が与えられた操作周波数$f$で密集した音場に対して有効であることを示す。
表面音響波(SAW)の焦点に過剰なパワー吸収を示すことによって,これらの表面磁場の存在を実証する。
最後に, 極低温における単一スピンの電気的検出の可能性を含め, 小モード圧電マイクロ共振器を用いた高感度スピン検出の可能性について概説する。
Piezoelectric microresonators are indispensable in wireless communications, and underpin radio frequency filtering in mobile phones. These devices are usually analyzed in the quasi-(electro)static regime with the magnetic field effectively ignored. On the other hand, at GHz frequencies and especially in piezoelectric devices exploiting strong dimensional confinement of acoustic fields, the surface magnetic fields ($B_{1}$) can be significant. This $B_1$ field, which oscillates at GHz frequencies, but is confined to ${\mu}$m-scale wavelengths provides a natural route to efficiently interface with nanoscale spin systems. We show through scaling arguments that $B_1{\propto}f^2$ for tightly focused acoustic fields at a given operation frequency $f$. We demonstrate the existence of these surface magnetic fields in a proof-of-principle experiment by showing excess power absorption at the focus of a surface acoustic wave (SAW), when a polished Yttrium-Iron-Garnet (YIG) sphere is positioned in the evanescent field, and the magnon resonance is tuned across the SAW transmission. Finally, we outline the prospects for sensitive spin detection using small mode volume piezoelectric microresonators, including the feasibility of electrical detection of single spins at cryogenic temperatures. | 翻訳日:2024-05-06 12:16:37 公開日:2024-05-03 |
# 自動プログラミング: 大規模言語モデルとそれ以上
Automatic Programming: Large Language Models and Beyond ( http://arxiv.org/abs/2405.02213v1 ) ライセンス: Link先を確認 | Michael R. Lyu, Baishakhi Ray, Abhik Roychoudhury, Shin Hwei Tan, Patanamon Thongtanunam, | (参考訳) 大規模言語モデル(LLM)に依存するGitHub Copilotのようなツールが出現したことで、自動プログラミングの人気が高まっている。
同時に、自動生成されたコードは、品質と信頼に関する懸念から、デプロイメント中に課題に直面します。
本稿では,プログラマの責任に関するコード品質やセキュリティ,関連する問題について,一般的な意味での自動化コーディングについて検討する。
これらは、自動生成されたコードの使用を判断しながら、組織にとって重要な問題である。
本稿では,プログラムの修復や解析といったソフトウェア工学の進歩が,自動プログラミングを実現する方法について論じる。
プログラマは、自動プログラミングのパワーを完全に活用するために、さまざまな役割に切り替える必要があるかもしれない。
LLMから自動生成されたプログラムの自動修復は、LLMから高い保証コードを生成するのに役立ち、保証の証拠となる。
Automatic programming has seen increasing popularity due to the emergence of tools like GitHub Copilot which rely on Large Language Models (LLMs). At the same time, automatically generated code faces challenges during deployment due to concerns around quality and trust. In this article, we study automated coding in a general sense and study the concerns around code quality, security and related issues of programmer responsibility. These are key issues for organizations while deciding on the usage of automatically generated code. We discuss how advances in software engineering such as program repair and analysis can enable automatic programming. We conclude with a forward looking view, focusing on the programming environment of the near future, where programmers may need to switch to different roles to fully utilize the power of automatic programming. Automated repair of automatically generated programs from LLMs, can help produce higher assurance code from LLMs, along with evidence of assurance | 翻訳日:2024-05-06 12:16:37 公開日:2024-05-03 |
# 測定値からの自然障害分布
Natural disorder distributions from measurement ( http://arxiv.org/abs/2405.02214v1 ) ライセンス: Link先を確認 | Šárka Blahnik, Sarah Shandera, | (参考訳) 量子系の力学が部分的に決定されるシナリオは、相互作用する環境自由度の事前の局所的な測定によって考察する。
結果として生じる有効系力学は、フラットでもガウスでもない分布から引き出された時空変化パラメータ値を持つ、混乱したハミルトン多様体によって記述される。
この種のシナリオは、完全に非力学的な環境自由度が系の普遍的結合定数を決定する場合の自然な拡張である。
準特殊可解な非調和振動子の族を用いて、強い量子非ガウス状態を含む弱いカップリング展開によって制限されない非線形結合自由度の環境基底状態を考える。
二次および光子数の測定における分布の性質を導出する。
この種の測定によって引き起こされる障害は、実験室の量子系において実現可能であり、自然に生じる測定の概念を考えると、粒子物理学や宇宙論における量子系の力学の新たなシナリオが提案されている。
We consider scenarios where the dynamics of a quantum system are partially determined by prior local measurements of some interacting environmental degrees of freedom. The resulting effective system dynamics are described by a disordered Hamiltonian, with spacetime-varying parameter values drawn from distributions that are generically neither flat nor Gaussian. This class of scenarios is a natural extension of those where a fully non-dynamical environmental degree of freedom determines a universal coupling constant for the system. Using a family of quasi-exactly solvable anharmonic oscillators, we consider environmental ground states of nonlinearly coupled degrees of freedom, unrestricted by a weak coupling expansion, which include strongly quantum non-Gaussian states. We derive the properties of distributions for both quadrature and photon number measurements. Measurement-induced disorder of this kind is likely realizable in laboratory quantum systems and, given a notion of naturally occurring measurement, suggests a new class of scenarios for the dynamics of quantum systems in particle physics and cosmology. | 翻訳日:2024-05-06 12:16:37 公開日:2024-05-03 |
# 小麦および大麦の黒草の多スペクトル微粒化分類
Multispectral Fine-Grained Classification of Blackgrass in Wheat and Barley Crops ( http://arxiv.org/abs/2405.02218v1 ) ライセンス: Link先を確認 | Madeleine Darbyshire, Shaun Coutts, Eleanor Hammond, Fazilet Gokbudak, Cengiz Oztireli, Petra Bosilj, Junfeng Gao, Elizabeth Sklar, Simon Parsons, | (参考訳) 除草剤抵抗性の負荷が増大し, 過度の除草剤使用による環境影響が明確になるにつれ, 雑草群管理の新たな方法が求められている。
これは特に小麦や大麦のような穀物の作物には当てはまり、主要な食料作物であり、世界の農業地帯の大部分を占める。
世界中の主要食料作物に対する雑草管理の実践が小さな改善であっても、環境とグローバルな食料安全保障の両方にかなりの恩恵をもたらすだろう。
ブラックグラス(Blackgrass)は、ヨーロッパ北西部の穀物生産地域で特に問題となる草雑草で、除草剤耐性のレベルが高く、この地域の農耕によく適応している。
機械ビジョンとマルチスペクトルイメージングを用いて,コムギや大麦の黒草を同定するための最先端手法の有効性を検討した。
この研究の一環として、黒草雑草認識のいくつかの重要な側面を評価する大規模なデータセットを提供する。
まず、見えないフィールドの画像上で、異なるCNNとトランスフォーマーベースのアーキテクチャの性能を決定する。
次に,異なるスペクトル帯域が雑草分類の性能に与える影響を実証する。
最後に,各モデルの分類性能において,データセットサイズが果たす役割について検討した。
比較的控えめな量のトレーニングデータであっても、見えないフィールドの画像では90%近い精度が達成できることがわかった。
As the burden of herbicide resistance grows and the environmental repercussions of excessive herbicide use become clear, new ways of managing weed populations are needed. This is particularly true for cereal crops, like wheat and barley, that are staple food crops and occupy a globally significant portion of agricultural land. Even small improvements in weed management practices across these major food crops worldwide would yield considerable benefits for both the environment and global food security. Blackgrass is a major grass weed which causes particular problems in cereal crops in north-west Europe, a major cereal production area, because it has high levels of of herbicide resistance and is well adapted to agronomic practice in this region. With the use of machine vision and multispectral imaging, we investigate the effectiveness of state-of-the-art methods to identify blackgrass in wheat and barley crops. As part of this work, we provide a large dataset with which we evaluate several key aspects of blackgrass weed recognition. Firstly, we determine the performance of different CNN and transformer-based architectures on images from unseen fields. Secondly, we demonstrate the role that different spectral bands have on the performance of weed classification. Lastly, we evaluate the role of dataset size in classification performance for each of the models trialled. We find that even with a fairly modest quantity of training data an accuracy of almost 90% can be achieved on images from unseen fields. | 翻訳日:2024-05-06 12:16:37 公開日:2024-05-03 |
# 二元ニューラルネットワークにおけるディザリング符号活性化の設計
Designed Dithering Sign Activation for Binary Neural Networks ( http://arxiv.org/abs/2405.02220v1 ) ライセンス: Link先を確認 | Brayan Monroy, Juan Estupiñan, Tatiana Gelvez-Barrera, Jorge Bacca, Henry Arguello, | (参考訳) バイナリニューラルネットワークは、ネットワーク重みとアクティベーションのどちらかをバイナライズすることで、コンピュータビジョンタスクのコスト効率とエネルギー効率のよいソリューションとして登場した。
しかし、Sign アクティベーション関数のような一般的なバイナリアクティベーションは、値を1つのしきい値で突然二項化し、特徴出力の詳細な詳細を失う。
本研究は,複数の閾値をディザリングの原理に従って適用し,空間的に周期的なしきい値カーネルに従って各画素の符号活性化関数をシフトするアクティベーションを提案する。
文学的な方法とは異なり、シフトは隣接するピクセルの集合に対して共同で定義され、空間的相関を利用する。
分類タスクに関する実験は、計算コストを増大させることなく、バイナリニューラルネットワークの代替活性化として設計されたディザリングサイン活性化関数の有効性を示す。
さらに、DeSignは詳細の保存とバイナリ操作の効率のバランスをとる。
Binary Neural Networks emerged as a cost-effective and energy-efficient solution for computer vision tasks by binarizing either network weights or activations. However, common binary activations, such as the Sign activation function, abruptly binarize the values with a single threshold, losing fine-grained details in the feature outputs. This work proposes an activation that applies multiple thresholds following dithering principles, shifting the Sign activation function for each pixel according to a spatially periodic threshold kernel. Unlike literature methods, the shifting is defined jointly for a set of adjacent pixels, taking advantage of spatial correlations. Experiments over the classification task demonstrate the effectiveness of the designed dithering Sign activation function as an alternative activation for binary neural networks, without increasing the computational cost. Further, DeSign balances the preservation of details with the efficiency of binary operations. | 翻訳日:2024-05-06 12:16:37 公開日:2024-05-03 |
# フーリエニューラル演算子の離散化誤差
Discretization Error of Fourier Neural Operators ( http://arxiv.org/abs/2405.02221v1 ) ライセンス: Link先を確認 | Samuel Lanthaler, Andrew M. Stuart, Margaret Trautner, | (参考訳) オペレータ学習は、データから関数空間間のマップを近似するために設計された機械学習の変種である。
Fourier Neural Operator (FNO) は、演算子学習に使用される一般的なモデルアーキテクチャである。
FNOは、物理的空間における点方向の線型および非線形の操作とフーリエ空間における点方向の線型の操作を結合し、函数空間間で作用するパラメータ化された写像をもたらす。
FNOは、公式に連続体上の関数の畳み込みを含むが、実際には、計算は離散化されたグリッド上で行われ、FFTによる効率的な実装が可能である。
本稿では、そのような離散化から生じるエイリアス誤差を定量化し、グリッド分解における収束の代数的率を入力の正則性の関数として求める。
理論を検証し、モデルの安定性を記述する数値実験を行う。
Operator learning is a variant of machine learning that is designed to approximate maps between function spaces from data. The Fourier Neural Operator (FNO) is a common model architecture used for operator learning. The FNO combines pointwise linear and nonlinear operations in physical space with pointwise linear operations in Fourier space, leading to a parameterized map acting between function spaces. Although FNOs formally involve convolutions of functions on a continuum, in practice the computations are performed on a discretized grid, allowing efficient implementation via the FFT. In this paper, the aliasing error that results from such a discretization is quantified and algebraic rates of convergence in terms of the grid resolution are obtained as a function of the regularity of the input. Numerical experiments that validate the theory and describe model stability are performed. | 翻訳日:2024-05-06 12:16:37 公開日:2024-05-03 |
# 公正リスク管理:多グループ公正リスクのキャリブレーションのための一般化された枠組み
Fair Risk Control: A Generalized Framework for Calibrating Multi-group Fairness Risks ( http://arxiv.org/abs/2405.02225v1 ) ライセンス: Link先を確認 | Lujing Zhang, Aaron Roth, Linjun Zhang, | (参考訳) 本稿では,機械学習モデルの後処理のためのフレームワークを導入し,その予測がマルチグループフェアネス保証を満たすようにした。
多次元写像に対する $(\mathbf{s},\mathcal{G}, \alpha)-$GMC (Generalized Multi-dimensional Multicalibration) を導入する。
本稿では,この概念を一般設定で実現するための関連アルゴリズムを提案する。
このフレームワークは、画像セグメンテーションにおける偽陰性率制御、階層分類における条件の不確実性定量化の予測、言語モデルにおける非バイアステキスト生成など、さまざまな公平性に関する様々なシナリオに適用される。
いくつかのデータセットやタスクについて数値的研究を行う。
This paper introduces a framework for post-processing machine learning models so that their predictions satisfy multi-group fairness guarantees. Based on the celebrated notion of multicalibration, we introduce $(\mathbf{s},\mathcal{G}, \alpha)-$GMC (Generalized Multi-Dimensional Multicalibration) for multi-dimensional mappings $\mathbf{s}$, constraint set $\mathcal{G}$, and a pre-specified threshold level $\alpha$. We propose associated algorithms to achieve this notion in general settings. This framework is then applied to diverse scenarios encompassing different fairness concerns, including false negative rate control in image segmentation, prediction set conditional uncertainty quantification in hierarchical classification, and de-biased text generation in language models. We conduct numerical studies on several datasets and tasks. | 翻訳日:2024-05-06 12:16:37 公開日:2024-05-03 |
# ブラックホールによる脱コヒーレンス効果と通常の物質の比較
Comparing the decoherence effects due to black holes versus ordinary matter ( http://arxiv.org/abs/2405.02227v1 ) ライセンス: Link先を確認 | Anna Biggs, Juan Maldacena, | (参考訳) 近年、ブラックホールによる量子系のデコヒーレンスを含むある思考実験が議論されている。
ここでは、この現象が量子ブラックホールに関する標準的な考え方とどのように一致しているかを示す。
言い換えれば、ブラックホールを有限温度の量子系としてモデル化すると、同じ答えが得られる。
ブラックホールの場合と通常の物質系の場合の両方に適用可能な有効理論を用いてこの問題を解析することにより、有限温度において通常の物質に対して同じ質的効果が存在することを示す。
Recently a certain thought experiment was discussed which involves the decoherence of a quantum system due to a black hole. Here we show how this phenomenon is consistent with standard ideas about quantum black holes. In other words, modeling the black hole as a quantum system at finite temperature one obtains the same answer. We demonstrate this by analyzing the problem in terms of an effective theory that can apply both for the black hole case and for an ordinary matter system, showing that the same qualitative effect is present for ordinary matter at finite temperature. | 翻訳日:2024-05-06 12:16:37 公開日:2024-05-03 |
# REASONS: パブリックおよびプロプライエタリLLMを用いた重要文の検索と自動引用のためのベンチマーク
REASONS: A benchmark for REtrieval and Automated citationS Of scieNtific Sentences using Public and Proprietary LLMs ( http://arxiv.org/abs/2405.02228v1 ) ライセンス: Link先を確認 | Deepa Tilwani, Yash Saxena, Ali Mohammadi, Edward Raff, Amit Sheth, Srinivasan Parthasarathy, Manas Gaur, | (参考訳) 文書や報告書中の文の自動引用生成は、情報アナリスト、サイバーセキュリティ、報道機関、教育関係者にとって最重要である。
本研究では,大言語モデル(LLM)が2種類の文クエリに基づいて参照を生成することができるかどうかを検討する。
(a)直接問い合わせ、LLMは、所定の研究項目の著者名の提供を依頼され、
b) 間接的な問い合わせにおいて、LCMは、異なる記事から文を与えられたときに、言及した記事のタイトルを提供するよう求められます。
この課題でLLMがどこにあるかを示すために、arXivに関する科学研究の最も人気のある12分野の要約を含むREASONSと呼ばれる大規模なデータセットを紹介した。
約20万件の研究論文から, 公立及び専有のLCMについて, 以下を引用する。
(a)人為的GPT-4およびGPT-3.5と呼ばれる最先端技術は、幻覚率(HR)を最小化するために高い通過率(PP)に苦しむ。
Perplexity.ai (7B)でテストすると、予想外のエラーが発生します。
ロ 関連メタデータの増強により、PPが低下し、最低のHRが与えられること。
c) Mistralを用いたRAG(Advanced Search-augmented Generation)では,間接クエリとGPT-3.5およびGPT-4に適合するパフォーマンスの一貫性と堅牢性を示す。
すべてのドメインとモデルにわたるHRは平均41.93%減少し、ほとんどの場合PPは0%に低下した。
世代別では、平均F1スコアとBLEUはそれぞれ68.09%と57.51%であった。
(d) 敵検体を用いた試験では, 進行RAGミストラルを含むLCMは文脈理解に苦慮するが, ミストラルとGPT-4-Previewでは, この問題の程度は小さかった。
本研究は,自動引用生成タスクにおけるRAGの信頼性に関する貴重な知見を貢献する。
Automatic citation generation for sentences in a document or report is paramount for intelligence analysts, cybersecurity, news agencies, and education personnel. In this research, we investigate whether large language models (LLMs) are capable of generating references based on two forms of sentence queries: (a) Direct Queries, LLMs are asked to provide author names of the given research article, and (b) Indirect Queries, LLMs are asked to provide the title of a mentioned article when given a sentence from a different article. To demonstrate where LLM stands in this task, we introduce a large dataset called REASONS comprising abstracts of the 12 most popular domains of scientific research on arXiv. From around 20K research articles, we make the following deductions on public and proprietary LLMs: (a) State-of-the-art, often called anthropomorphic GPT-4 and GPT-3.5, suffers from high pass percentage (PP) to minimize the hallucination rate (HR). When tested with Perplexity.ai (7B), they unexpectedly made more errors; (b) Augmenting relevant metadata lowered the PP and gave the lowest HR; (c) Advance retrieval-augmented generation (RAG) using Mistral demonstrates consistent and robust citation support on indirect queries and matched performance to GPT-3.5 and GPT-4. The HR across all domains and models decreased by an average of 41.93% and the PP was reduced to 0% in most cases. In terms of generation quality, the average F1 Score and BLEU were 68.09% and 57.51%, respectively; (d) Testing with adversarial samples showed that LLMs, including the Advance RAG Mistral, struggle to understand context, but the extent of this issue was small in Mistral and GPT-4-Preview. Our study con tributes valuable insights into the reliability of RAG for automated citation generation tasks. | 翻訳日:2024-05-06 12:16:37 公開日:2024-05-03 |
# 確率的政策勾配を用いた最適決定論的政策の学習
Learning Optimal Deterministic Policies with Stochastic Policy Gradients ( http://arxiv.org/abs/2405.02235v1 ) ライセンス: Link先を確認 | Alessandro Montenegro, Marco Mussi, Alberto Maria Metelli, Matteo Papini, | (参考訳) 政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
彼らは行動の空間で探索するか、パラメータの空間で探索することによって、確率的パラメトリック(ハイパー)政治を学ぶ。
しかし、確率的コントローラは、堅牢性、安全性、トレーサビリティの欠如のため、実際的な観点からは望ましくないことが多い。
一般的には、確率的(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,この実践の理論的理解に向けて一歩前進する。
このシナリオをモデル化するための新しいフレームワークを導入した後、(弱)勾配支配仮定の下で、最も優れた決定論的政策へのグローバル収束を研究する。
そこで,本研究では,サンプル複雑性と展開決定性ポリシのトレードオフを最適化するために,学習に使用する探索レベルを調整する方法について解説する。
最後に、アクションベースとパラメータベースの探索を定量的に比較し、直感的な結果に公式な手がかりを与える。
Policy gradient (PG) methods are successful approaches to deal with continuous reinforcement learning (RL) problems. They learn stochastic parametric (hyper)policies by either exploring in the space of actions or in the space of parameters. Stochastic controllers, however, are often undesirable from a practical perspective because of their lack of robustness, safety, and traceability. In common practice, stochastic (hyper)policies are learned only to deploy their deterministic version. In this paper, we make a step towards the theoretical understanding of this practice. After introducing a novel framework for modeling this scenario, we study the global convergence to the best deterministic policy, under (weak) gradient domination assumptions. Then, we illustrate how to tune the exploration level used for learning to optimize the trade-off between the sample complexity and the performance of the deployed deterministic policy. Finally, we quantitatively compare action-based and parameter-based exploration, giving a formal guise to intuitive results. | 翻訳日:2024-05-06 12:16:37 公開日:2024-05-03 |
# 分子回転における量子誤差補正の実装戦略
Strategies for implementing quantum error correction in molecular rotation ( http://arxiv.org/abs/2405.02236v1 ) ライセンス: Link先を確認 | Brandon J. Furey, Zhenlin Wu, Mariano Isaza-Monsalve, Stefan Walser, Elyas Mattivi, René Nardi, Philipp Schindler, | (参考訳) 閉じ込められた分子の回転は、量子技術と量子情報処理のための有望なプラットフォームを提供する。
並行して、単一の分子の回転状態に符号化された量子情報を保護する量子誤り訂正符号が開発された。
これらのコードは現時点では抽象的な概念であり、実装戦略はまだ分かっていない。
本稿では、アーキテクチャに依存しないチェックと修正演算子を導入することにより、これらの符号の実験的実装に向けたステップを示す。
これらの演算子は、分子イオンに利用可能な量子論理分光ツールボックスの要素に分解することができる。
次に、極性分子の回転のための主要なノイズ源である熱背景放射の存在下で、測定に基づく逐次的かつ自律的な実装戦略を記述し、分析する。
提案した戦略と方法は、個々の分子の回転を用いた堅牢なセンシングやフォールトトレラント量子コンピューティングを可能にする。
The rotation of trapped molecules offers a promising platform for quantum technologies and quantum information processing. In parallel, quantum error correction codes that can protect quantum information encoded in rotational states of a single molecule have been developed. These codes are currently an abstract concept, as no implementation strategy is yet known. Here, we present a step towards experimental implementation of these codes by introducing architecture-agnostic check and correction operators. These operators can be decomposed into elements of the quantum logic spectroscopy toolbox that is available for molecular ions. We then describe and analyze a measurement-based sequential as well as an autonomous implementation strategy in the presence of thermal background radiation, a major noise source for rotation in polar molecules. The presented strategies and methods might enable robust sensing or even fault-tolerant quantum computing using the rotation of individual molecules. | 翻訳日:2024-05-06 12:06:51 公開日:2024-05-03 |
# 均一暗号を用いたクラウド上の安全かつ効率的な一般行列乗算
Secure and Efficient General Matrix Multiplication On Cloud Using Homomorphic Encryption ( http://arxiv.org/abs/2405.02238v1 ) ライセンス: Link先を確認 | Yang Gao, Gang Quan, Soamar Homsi, Wujie Wen, Liqiang Wang, | (参考訳) クラウドの技術的および経済的アドバンテージにもかかわらず、セキュリティとプライバシはクラウドコンピューティング機能を採用する上で、特に高いセキュリティ要件を持つ政府機関や商業部門において、常に主要な関心事となっている。
ホモモルフィック暗号化(HE)は、最近、暗号化されたデータ上でのコンピューティングを可能にすることで、機密性の高いアプリケーションのプライバシとセキュリティを確保する効果的なツールとして登場した。
しかし、HEベースの計算を採用する上での大きな障害は計算コストの過大さである。
本稿では,HE方式がサポートする単一命令多重データ(SIMD)演算を活用することで,汎用的行列乗法(MM)の基本構築ブロックであるHEベースの計算コストの削減方法について議論する。
具体的には、一般化行列乗算のための新しい要素ワイドアルゴリズムを開発し、HEに基づく2つの一般行列乗算(HEGMM)アルゴリズムを提案し、HE計算コストを削減した。
実験の結果,我々のアルゴリズムはHEベースの行列乗算の最先端手法よりも大幅に優れていることがわかった。
Despite the cloud enormous technical and financial advantages, security and privacy have always been the primary concern for adopting cloud computing facility, especially for government agencies and commercial sectors with high-security requirements. Homomorphic Encryption (HE) has recently emerged as an effective tool in assuring privacy and security for sensitive applications by allowing computing on encrypted data. One major obstacle to employing HE-based computation, however, is its excessive computational cost, which is multiple magnitudes higher than its counterpart based on the plaintext. In this paper, we study the problem of how to reduce the HE-based computational cost for general Matrix Multiplication (MM), i.e., a fundamental building block for numerous practical applications, by taking advantage of the Single Instruction Multiple Data (SIMD) operation supported by HE schemes. Specifically, we develop a novel element-wise algorithm for general matrix multiplication, based on which we propose two HE-based General Matrix Multiplication (HEGMM) algorithms to reduce the HE computation cost. Our experimental results show that our algorithms can significantly outperform the state-of-the-art approaches of HE-based matrix multiplication. | 翻訳日:2024-05-06 12:06:51 公開日:2024-05-03 |
# Subgraph2vec:知識グラフの埋め込みのためのランダムウォークに基づくアルゴリズム
Subgraph2vec: A random walk-based algorithm for embedding knowledge graphs ( http://arxiv.org/abs/2405.02240v1 ) ライセンス: Link先を確認 | Elika Bozorgi, Saber Soleimani, Sakher Khalil Alqaiidi, Hamid Reza Arabnia, Krzysztof Kochut, | (参考訳) Graphは、現実世界のアプリケーション \cite{goyal2018graph} で自然に発生する重要なデータ表現である。
したがって、グラフの分析は、異常検出 \cite{ma2021comprehensive}、意思決定 \cite{fan2023graph}、クラスタリング \cite{tsitsulin2023graph}、分類 \cite{wang2021mixup}など、さまざまな領域におけるより良い洞察を提供する。
しかし、これらの手法の多くは高い計算時間と空間を必要とする。
埋め込みのような他の方法を使ってコストを削減できます。
知識グラフ(KG)埋め込みは、KGのベクトル表現を実現する技術である。
低次元空間におけるKGの実体と関係を表現し、それらの意味を維持できる。
node2vec、Metapath2vec、regpattern2vecのようなランダムウォークベースのメソッドを含むグラフを埋め込む方法は様々である。
しかしながら、これらの手法の多くは、通常アルゴリズムでハードコードされた厳密なパターンに基づいてウォークをバイアスする。
本研究では,ユーザの定義したサブグラフ内でウォークが実行されるKGを埋め込むためのtextit{subgraph2vec}を紹介する。
この埋め込みをリンク予測に使用し,従来の手法と比較してほとんどの場合において,より優れた性能を示す。
Graph is an important data representation which occurs naturally in the real world applications \cite{goyal2018graph}. Therefore, analyzing graphs provides users with better insights in different areas such as anomaly detection \cite{ma2021comprehensive}, decision making \cite{fan2023graph}, clustering \cite{tsitsulin2023graph}, classification \cite{wang2021mixup} and etc. However, most of these methods require high levels of computational time and space. We can use other ways like embedding to reduce these costs. Knowledge graph (KG) embedding is a technique that aims to achieve the vector representation of a KG. It represents entities and relations of a KG in a low-dimensional space while maintaining the semantic meanings of them. There are different methods for embedding graphs including random walk-based methods such as node2vec, metapath2vec and regpattern2vec. However, most of these methods bias the walks based on a rigid pattern usually hard-coded in the algorithm. In this work, we introduce \textit{subgraph2vec} for embedding KGs where walks are run inside a user-defined subgraph. We use this embedding for link prediction and prove our method has better performance in most cases in comparison with the previous ones. | 翻訳日:2024-05-06 12:06:51 公開日:2024-05-03 |
# ビジョン言語モデルを構築する上で、何が重要なのか?
What matters when building vision-language models? ( http://arxiv.org/abs/2405.02246v1 ) ライセンス: Link先を確認 | Hugo Laurençon, Léo Tronchon, Matthieu Cord, Victor Sanh, | (参考訳) 視覚言語モデル(VLM)への関心の高まりは、大きな言語モデルと視覚変換器の改善によって引き起こされている。
この主題に関する文献が豊富にあるにもかかわらず、VLMの設計に関する批判的な決定は、しばしば正当化されない。
これらの決定は、どの選択がモデルの性能を向上させるかを特定するのが難しく、この分野の進歩を妨げると我々は主張する。
この問題に対処するため、事前訓練されたモデル、アーキテクチャの選択、データ、トレーニング方法に関する広範な実験を行います。
我々は,80億個のパラメータからなる効率的な基礎的VLMであるIdefics2を開発した。
Idefics2は様々なマルチモーダルベンチマークで最先端のパフォーマンスを実現しており、しばしば4倍の大きさのモデルと同等である。
トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
The growing interest in vision-language models (VLMs) has been driven by improvements in large language models and vision transformers. Despite the abundance of literature on this subject, we observe that critical decisions regarding the design of VLMs are often not justified. We argue that these unsupported decisions impede progress in the field by making it difficult to identify which choices improve model performance. To address this issue, we conduct extensive experiments around pre-trained models, architecture choice, data, and training methods. Our consolidation of findings includes the development of Idefics2, an efficient foundational VLM of 8 billion parameters. Idefics2 achieves state-of-the-art performance within its size category across various multimodal benchmarks, and is often on par with models four times its size. We release the model (base, instructed, and chat) along with the datasets created for its training. | 翻訳日:2024-05-06 12:06:51 公開日:2024-05-03 |
# 1次元偏光子格子のフェルミオン化と集合励起
Fermionization and collective excitations of 1D polariton lattices ( http://arxiv.org/abs/2405.02251v1 ) ライセンス: Link先を確認 | Johannes Knörzer, Rafał Ołdziejewski, Puneet A. Murthy, Ivan Amelio, | (参考訳) 我々は1次元エキシトン-ポラリトンガスの相関とフェルミオン化の指標が最先端技術で観測できることを理論的に証明した。
本システムでは,光導波路に結合した励起量子ドットの鎖と,偏光子を低密度で充填する。
Tonks-Girardeau,Tavis-Cummingsおよび平均場限界を解析的に同定し,励起アンハーモニック性およびフォトニック帯域幅の異なる規則に関連付ける。
行列生成状態を用いて, 系の基底状態エネルギー, 相関関数, 動的構造因子を数値計算する。
特に、後者はリーブ・ライニガーのホール分岐において有限重みを持ち、密度密度相関器は現実的なパラメータに対してフリーデルのような振動を示し、これはトンクス・ジラルドー則に近いフェルミオン化の開始を示す。
我々の研究は、中等度励起非調和性にもかかわらず、初めて観測することを目的とした将来の実験を奨励する。
We theoretically demonstrate that the hallmarks of correlation and fermionization in a one-dimensional exciton-polaritons gas can be observed with state-of-the-art technology. Our system consists of a chain of excitonic quantum dots coupled to a photonic waveguide, with a low filling of polaritons. We analytically identify the Tonks-Girardeau, Tavis-Cummings and mean-field limits and relate them to different regimes of the excitonic anharmonicity and photonic bandwidth. Using matrix-product states, we numerically calculate the ground-state energies, correlation functions and dynamic structure factor of the system. In particular, the latter has a finite weight in the Lieb-Liniger hole branch, and the density-density correlator displays Friedel-like oscillations for realistic parameters, which reveal the onset of fermionization close to the Tonks-Girardeau regime. Our work encourages future experiments aimed at observing, for the first time and in spite of the moderate excitonic anharmonicity, strongly correlated exciton-polariton physics. | 翻訳日:2024-05-06 12:06:51 公開日:2024-05-03 |
# 古典および量子コンピュータにおける強結合フェルミオンの応答
Response of strongly coupled fermions on classical and quantum computers ( http://arxiv.org/abs/2405.02255v1 ) ライセンス: Link先を確認 | John Novak, Manqoba Q. Hlatshwayo, Elena Litvinova, | (参考訳) 量子システムの応答を研究することは、物質の基本的性質とその様々な物理的文脈における振る舞いに関する深い洞察を得るのに不可欠である。
多くの応用において核反応の計算は重要であるが、高密度状態における核量子状態の複雑な性質のため、幅広いエネルギー領域における中重核における分光学的に正確な記述は特に困難である。
本稿では、核反応の古典的計算における構成複雑性の限界を推し進め、複雑な構成を扱うための量子的利点を持つアルゴリズムを提案する。
分光精度にアプローチする古典的な計算法は、中重核に対して実装され、120Snの双極子反応の先駆けとなり、その正確な解に到達した量子アルゴリズムは、強いカップリングにおける集合率の出現を解くために、リプキン・ハミルトニアンによって実現される。
Studying the response of quantum systems is essential for gaining deeper insights into the fundamental nature of matter and its behavior in diverse physical contexts. Computation of nuclear response is critical for many applications, but its spectroscopically accurate description in medium-heavy nuclei in wide energy ranges remains particularly challenging because of the complex nature of nuclear quantum states in the high-level-density regime. Herein, we push the limits of configuration complexity in the classical computation of the nuclear response and present an algorithm with a quantum benefit for treating complex configurations. The classical computational method of approaching spectroscopic accuracy is implemented for medium-heavy nuclei and pioneered for the dipole response of 120Sn, while the quantum algorithm reaching the exact solution is realized for the Lipkin Hamiltonian to unravel the emergence of collectivity at strong coupling. | 翻訳日:2024-05-06 12:06:51 公開日:2024-05-03 |
# 超伝導素子校正用極低温光ビームステアリング
Cryogenic optical beam steering for superconducting device calibration ( http://arxiv.org/abs/2405.02258v1 ) ライセンス: Link先を確認 | K. Stifter, H. Magoon, A. J. Anderson, D. J. Temples, N. A. Kurinsky, C. Stoughton, I. Hernandez, A. Nuñez, K. Anyang, R. Linehan, M. R. Young, P. Barry, D. Baxter, D. Bowring, G. Cancelo, A. Chou, K. R. Dibert, E. Figueroa-Feliciano, L. Hsu, R. Khatiwada, S. D. Mork, L. Stefanazzi, N. Tabassum, S. Uemura, B. A. Young, | (参考訳) 我々は,マイクロエレクトロメカニカル・システム(MEMS)ミラーをベースとしたキャリブレーション・システムを開発した。
このポータブルな統合システムは、センサーの表面のビームを$\sim$3 cm $\times$3 cmの面積で操ることができ、精度は$$\sim$100 $\mu$mで、デバイス応答を位置の関数として特徴づけることができる。
これは、ダークマター検出や量子コンピューティングなど、サブケルビンデバイスのキャリブレーションツールのランドスケープにおける重要なニーズを満たす。
これらのコミュニティは、装置の性能に対する電離放射線の影響を理解するための共通の目標を持っている。
本稿では,第1世代のキャリブレーションシステムの設計と室温20mKでの性能試験に成功した結果について述べる。
We have developed a calibration system based on a micro-electromechanical systems (MEMS) mirror that is capable of delivering an optical beam over a wavelength range of 180 -- 2000 nm (0.62 -- 6.89 eV) in a sub-Kelvin environment. This portable, integrated system can steer the beam over a $\sim$3 cm $\times$ 3 cm area on the surface of any sensor with a precision of $\sim$100 $\mu$m, enabling characterization of device response as a function of position. This fills a critical need in the landscape of calibration tools for sub-Kelvin devices, including those used for dark matter detection and quantum computing. These communities have a shared goal of understanding the impact of ionizing radiation on device performance, which can be pursued with our system. This paper describes the design of the first-generation calibration system and the results from successfully testing its performance at room temperature and 20 mK. | 翻訳日:2024-05-06 12:06:51 公開日:2024-05-03 |
# 直接グラフに対する個人化関連アルゴリズムの比較
Comparing Personalized Relevance Algorithms for Directed Graphs ( http://arxiv.org/abs/2405.02261v1 ) ライセンス: Link先を確認 | Luca Cavalcanti, Cristian Consonni, Martin Brugnara, David Laniado, Alberto Montresor, | (参考訳) 我々は、有向グラフが与えられた場合、与えられたクエリノードに関連する最も関連性の高いノードを識別できる対話型Webプラットフォームを提案する。
PageRankやPersonalized PageRankのような確立されたアルゴリズムに加えて、デモにはCyclerankが含まれている。
私たちのデモデザインは2つのユースケースを可能にします。
(a)アルゴリズムの比較、異なるアルゴリズムで得られた結果の比較、および
(b)データセットの比較、データセットに対する洞察の探索と取得、他との比較。
Wikipedia、Twitter、Amazonから50のプレロードデータセットと7つのアルゴリズムを提供しています。
ユーザーは新しいデータセットをアップロードでき、新しいアルゴリズムを簡単に追加できる。
有向グラフにおける関連性スコアを効率よく計算するアルゴリズムを提示することにより、このツールはデータ内の隠れた関係を明らかにするのに役立ち、グラフ解析アルゴリズムのレパートリーに価値ある追加となる。
We present an interactive Web platform that, given a directed graph, allows identifying the most relevant nodes related to a given query node. Besides well-established algorithms such as PageRank and Personalized PageRank, the demo includes Cyclerank, a novel algorithm that addresses some of their limitations by leveraging cyclic paths to compute personalized relevance scores. Our demo design enables two use cases: (a) algorithm comparison, comparing the results obtained with different algorithms, and (b) dataset comparison, for exploring and gaining insights into a dataset and comparing it with others. We provide 50 pre-loaded datasets from Wikipedia, Twitter, and Amazon and seven algorithms. Users can upload new datasets, and new algorithms can be easily added. By showcasing efficient algorithms to compute relevance scores in directed graphs, our tool helps to uncover hidden relationships within the data, which makes of it a valuable addition to the repertoire of graph analysis algorithms. | 翻訳日:2024-05-06 12:06:51 公開日:2024-05-03 |
# 表現性と平均絡み合いによるパラメータ化量子回路のランダム性評価
Characterizing randomness in parameterized quantum circuits through expressibility and average entanglement ( http://arxiv.org/abs/2405.02265v1 ) ライセンス: Link先を確認 | Guilherme Ilário Correr, Ivan Medina, Pedro C. Azado, Alexandre Drinko, Diogo O. Soares-Pinto, | (参考訳) スケーラブルな誤り訂正スキームとフォールトトレラント量子コンピューティングは、近未来において普遍的にアクセスできないように見えるが、多くの研究者の努力は、現代の量子ハードウェアの探索に向けられている。
これらの制限のため、可能な量子回路の深さと寸法は制限される。
このことは、変分量子アルゴリズム(VQA)として古典的にハイブリッド手法で最適化できるパラメータ化演算による回路の研究を動機付け、回路深さとサイズを減少させる。
これらのパラメタライズド量子回路(PQC)の特性は、その主応用の範囲外ではまだ完全には理解されておらず、本質的な性質の研究を動機付けている。
本研究では、異なる量子コンピュータアーキテクチャによって正当化された量子ビット接続性に対する制約の下で、PQCのランダム状態の生成を分析する。
本稿では,表現可能性量化器と平均絡み合いを,生成した状態の特性の診断として適用し,実装可能な量子コンピュータのトポロジに応じて回路を分類する。
層数と量子ビットの関数として、リング位相に続く回路は最も高い絡み合いと表現性を持ち、続いて線形/オール・ツー・オール・オール(英語版)とスター位相(英語版)が続く。
これらの回路の絡み合いと表現性の違いを特徴づけるだけでなく、生成した状態の分布の均一性の増加と絡み合いの発生との関連性も示す。
真のランダムなユニタリのアンサンブルで得られる値に近い絡み合いに対する平均および標準偏差を生成する回路は、他のものと比べ、より急激な進化を示す。
While scalable error correction schemes and fault tolerant quantum computing seem not to be universally accessible in the near sight, the efforts of many researchers have been directed to the exploration of the contemporary available quantum hardware. Due to these limitations, the depth and dimension of the possible quantum circuits are restricted. This motivates the study of circuits with parameterized operations that can be classically optimized in hybrid methods as variational quantum algorithms (VQAs), enabling the reduction of circuit depth and size. The characteristics of these Parameterized Quantum Circuits (PQCs) are still not fully understood outside the scope of their principal application, motivating the study of their intrinsic properties. In this work, we analyse the generation of random states in PQCs under restrictions on the qubits connectivities, justified by different quantum computer architectures. We apply the expressibility quantifier and the average entanglement as diagnostics for the characteristics of the generated states and classify the circuits depending on the topology of the quantum computer where they can be implemented. As a function of the number of layers and qubits, circuits following a Ring topology will have the highest entanglement and expressibility values, followed by Linear/All-to-all almost together and the Star topology. In addition to the characterization of the differences between the entanglement and expressibility of these circuits, we also place a connection between how steep is the increase on the uniformity of the distribution of the generated states and the generation of entanglement. Circuits generating average and standard deviation for entanglement closer to values obtained with the truly uniformly random ensemble of unitaries present a steeper evolution when compared to others. | 翻訳日:2024-05-06 12:06:51 公開日:2024-05-03 |
# 視覚言語モデルのテスト時のゼロショット一般化について: 即時学習は本当に必要か?
On the test-time zero-shot generalization of vision-language models: Do we really need prompt learning? ( http://arxiv.org/abs/2405.02266v1 ) ライセンス: Link先を確認 | Maxime Zanella, Ismail Ben Ayed, | (参考訳) 大規模視覚言語モデル、特にCLIPの開発は、ソフトプロンプトチューニングに特に焦点をあて、効果的な適応技術の研究を触媒している。
同時に、ゼロショットの一般化を強化するために単一の画像の複数の拡張ビューを利用するテスト時間拡張が重要な関心領域として浮上している。
これはテストタイムのプロンプトチューニングに向けた研究努力に大きく貢献している。
対照的に、テスト時間拡張のための堅牢な平均シフト(MTA)を導入し、この集中的なトレーニング手順を必要とせず、プロンプトベースの手法を超越している。
これにより、MTAはスタンドアロンとAPIベースのアプリケーションの両方にとって理想的なソリューションとなる。
さらに,提案手法は,拡張ビューをフィルタするために,従来のテスト時間拡張手法で使用されるアドホックルール(例えば,信頼しきい値)に依存しない。
代わりに、MTAは各ビューに対する品質評価変数を直接最適化プロセスに組み込む。
このスコアは密度モード探索プロセスと共同最適化され、効率的なトレーニングとハイパーパラメータフリーなアプローチへと導かれる。
提案手法を15のデータセット上で広範囲にベンチマークし,MTAの優位性と計算効率を実証する。
ゼロショットモデルと最先端の複数ショットメソッドの上に簡単にプラグイン・アンド・プレイモジュールとしてデプロイされ、MTAは体系的で一貫した改善を示している。
The development of large vision-language models, notably CLIP, has catalyzed research into effective adaptation techniques, with a particular focus on soft prompt tuning. Conjointly, test-time augmentation, which utilizes multiple augmented views of a single image to enhance zero-shot generalization, is emerging as a significant area of interest. This has predominantly directed research efforts toward test-time prompt tuning. In contrast, we introduce a robust MeanShift for Test-time Augmentation (MTA), which surpasses prompt-based methods without requiring this intensive training procedure. This positions MTA as an ideal solution for both standalone and API-based applications. Additionally, our method does not rely on ad hoc rules (e.g., confidence threshold) used in some previous test-time augmentation techniques to filter the augmented views. Instead, MTA incorporates a quality assessment variable for each view directly into its optimization process, termed as the inlierness score. This score is jointly optimized with a density mode seeking process, leading to an efficient training- and hyperparameter-free approach. We extensively benchmark our method on 15 datasets and demonstrate MTA's superiority and computational efficiency. Deployed easily as plug-and-play module on top of zero-shot models and state-of-the-art few-shot methods, MTA shows systematic and consistent improvements. | 翻訳日:2024-05-06 12:06:51 公開日:2024-05-03 |
# ニューラルネットワークによる事前学習言語モデルの構造解析
Structural Pruning of Pre-trained Language Models via Neural Architecture Search ( http://arxiv.org/abs/2405.02267v1 ) ライセンス: Link先を確認 | Aaron Klein, Jacek Golebiowski, Xingchen Ma, Valerio Perrone, Cedric Archambeau, | (参考訳) BERTやRoBERTaのような事前訓練された言語モデル(PLM)は、ラベル付きデータに基づいて微調整された場合、自然言語理解タスクの最先端をマークする。
しかし、その大きなサイズは、GPUメモリの大幅な要求と高い推論レイテンシのために、現実のアプリケーションに推論をデプロイする際の課題を生じさせる。
本稿では, モデルサイズやレイテンシ, 一般化性能など, 最適トレードオフ効率を有する細調整ネットワークの部分部分を見つけるために, 構造解析のためのニューラルネットワーク探索(NAS)について検討する。
また,最近開発された2段階の重み付けNAS手法を用いて,探索過程を高速化する方法について述べる。
固定しきい値を持つ従来のプルーニング法とは異なり、我々はParetoの最適サブネットワークを識別する多目的アプローチを採用し、より柔軟で自動的な圧縮プロセスを実現することを提案する。
Pre-trained language models (PLM), for example BERT or RoBERTa, mark the state-of-the-art for natural language understanding task when fine-tuned on labeled data. However, their large size poses challenges in deploying them for inference in real-world applications, due to significant GPU memory requirements and high inference latency. This paper explores neural architecture search (NAS) for structural pruning to find sub-parts of the fine-tuned network that optimally trade-off efficiency, for example in terms of model size or latency, and generalization performance. We also show how we can utilize more recently developed two-stage weight-sharing NAS approaches in this setting to accelerate the search process. Unlike traditional pruning methods with fixed thresholds, we propose to adopt a multi-objective approach that identifies the Pareto optimal set of sub-networks, allowing for a more flexible and automated compression process. | 翻訳日:2024-05-06 12:06:51 公開日:2024-05-03 |
# 誤差緩和型フォトニック量子回路Bornマシン
An error-mitigated photonic quantum circuit Born machine ( http://arxiv.org/abs/2405.02277v1 ) ライセンス: Link先を確認 | Alexia Salavrakos, Tigran Sedrakyan, James Mills, Rawad Mezher, | (参考訳) 生成機械学習モデルは、新しいサンプルを生成するために、データの基盤となる分布を学習することを目的としている。
量子回路 ボルンマシン (QCBM) は量子生成モデルの一般的な選択肢であり、浅い回路で実装できるため、特に短期デバイスに適している。
フォトニック量子コンピューティングの枠組みの中で、線形光学で実装可能なQCBMを設計し、シミュレートする。
本研究では,光子損失を伴う現実的なシナリオにおけるQCBMのトレーニングを,リサイクル緩和と呼ばれる新たなエラー軽減手法により大幅に改善することを示す。
Generative machine learning models aim to learn the underlying distribution of the data in order to generate new samples. Quantum circuit Born machines (QCBMs) are a popular choice of quantum generative models, which are particularly well suited to near-term devices since they can be implemented on shallow circuits. Within the framework of photonic quantum computing, we design and simulate a QCBM that can be implemented with linear optics. We show that a newly developed error mitigation technique called recycling mitigation greatly improves the training of QCBMs in realistic scenarios with photon loss. | 翻訳日:2024-05-06 12:06:51 公開日:2024-05-03 |
# 線形光量子回路における光子損失の軽減--ポストセレクションよりも優れた古典的後処理法
Mitigating photon loss in linear optical quantum circuits: classical postprocessing methods outperforming postselection ( http://arxiv.org/abs/2405.02278v1 ) ライセンス: Link先を確認 | James Mills, Rawad Mezher, | (参考訳) 光子損失速度は、現在の線形光量子デバイスで実行できる計算サイズに有効な上限を設定する。
我々は,光子の損失が出力確率と期待値の両方に与える影響を,n$光子,m$モード干渉計,m$単光子検出器の入力からなる雑音の多い線形光回路から推定する。
これらの技術の中心はリサイクル確率と呼ばれる物体の構築である。
リサイクル確率は損失に影響される出力統計から構成され、理想的(ロスレス)確率のシグナルを増幅するように設計されている。
古典的な後処理技術は、リサイクルされた確率を入力として、損失軽減された確率または期待値のセットを出力する。
提案手法は, 離散可変光量子回路からサンプリングする際の光子損失に対処する標準的な方法である, ポストセレクションから得られたものよりも高精度な出力を得られるように, 試料サイズまで, 解析的および数値的証拠を提供する。
対照的に、一般的なゼロノイズ補間技術は、光子損失率に対するポストセレクションの性能を改善することができないという強い証拠を提供する。
Photon loss rates set an effective upper limit on the size of computations that can be run on current linear optical quantum devices. We present a family of techniques to mitigate the effects of photon loss on both output probabilities and expectation values derived from noisy linear optical circuits composed of an input of $n$ photons, an $m$-mode interferometer, and $m$ single photon detectors. Central to these techniques is the construction of objects called recycled probabilities. Recycled probabilities are constructed from output statistics affected by loss, and are designed to amplify the signal of the ideal (lossless) probabilities. Classical postprocessing techniques then take recycled probabilities as input and output a set of loss-mitigated probabilities, or expectation values. We provide analytical and numerical evidence that these methods can be applied, up to large sample sizes, to produce more accurate outputs than those obtained from postselection - which is currently the standard method of coping with photon loss when sampling from discrete variable linear optical quantum circuits. In contrast, we provide strong evidence that the popular zero noise extrapolation technique cannot improve on on the performance of postselection for any photon loss rate. | 翻訳日:2024-05-06 12:06:51 公開日:2024-05-03 |
# DreamScene4D:モノクロ映像からの動的マルチオブジェクトシーン生成
DreamScene4D: Dynamic Multi-Object Scene Generation from Monocular Videos ( http://arxiv.org/abs/2405.02280v1 ) ライセンス: Link先を確認 | Wen-Hsuan Chu, Lei Ke, Katerina Fragkiadaki, | (参考訳) 既存のVLMは、Wild 2Dビデオオブジェクトを追跡できるが、現在の生成モデルは、制約の少ない2D-to-3Dオブジェクトリフトのために、新しいビューを合成するための強力な視覚的先行性を提供する。
このエキサイティングな進歩を生かしたDreamScene4Dは、オクルージョンと斬新な視点にまたがる大きな物体の動きを持つモノクロインザミルドビデオから、複数の物体の3次元動的シーンを生成できる最初のアプローチである。
私たちのキーとなる洞察は、ビデオシーン全体と各オブジェクトの3D動作を因果分解する「分解分解」スキームを設計することである。
まず,オープンボキャブラリマスクトラッカーと適応画像拡散モデルを用いて映像中のオブジェクトと背景を分割,追跡,アモーダルに完了させることにより,映像シーンを分解する。
各物体の軌跡は、空間と時間で変形し移動する3Dガウスの集合にマッピングされる。
また、観測された動きを複数の成分に分解して高速な動きを処理する。
カメラの動きは、背景を再レンダリングしてビデオフレームにマッチさせることで推測することができる。
物体の動きに対して、まず、物体の物体中心の変形を、物体中心のフレームにおけるレンダリング損失と多視点生成先行を生かしてモデル化し、得られた出力を知覚された画素と光の流れと比較することにより、世界軸から世界軸への変換を最適化する。
最後に、背景と対象を再構成し、単眼深度予測法を用いて相対的な物体スケールを最適化する。
DAVIS、Kubric、そして自撮りビデオに関する広範な結果を示し、いくつかの制限を詳述し、今後の方向性を提供する。
その結果,DreamScene4Dは3次元の3次元軌跡を2次元に投影することで,正確な2次元運動追跡を可能にしていることがわかった。
Existing VLMs can track in-the-wild 2D video objects while current generative models provide powerful visual priors for synthesizing novel views for the highly under-constrained 2D-to-3D object lifting. Building upon this exciting progress, we present DreamScene4D, the first approach that can generate three-dimensional dynamic scenes of multiple objects from monocular in-the-wild videos with large object motion across occlusions and novel viewpoints. Our key insight is to design a "decompose-then-recompose" scheme to factorize both the whole video scene and each object's 3D motion. We first decompose the video scene by using open-vocabulary mask trackers and an adapted image diffusion model to segment, track, and amodally complete the objects and background in the video. Each object track is mapped to a set of 3D Gaussians that deform and move in space and time. We also factorize the observed motion into multiple components to handle fast motion. The camera motion can be inferred by re-rendering the background to match the video frames. For the object motion, we first model the object-centric deformation of the objects by leveraging rendering losses and multi-view generative priors in an object-centric frame, then optimize object-centric to world-frame transformations by comparing the rendered outputs against the perceived pixel and optical flow. Finally, we recompose the background and objects and optimize for relative object scales using monocular depth prediction guidance. We show extensive results on the challenging DAVIS, Kubric, and self-captured videos, detail some limitations, and provide future directions. Besides 4D scene generation, our results show that DreamScene4D enables accurate 2D point motion tracking by projecting the inferred 3D trajectories to 2D, while never explicitly trained to do so. | 翻訳日:2024-05-06 12:06:51 公開日:2024-05-03 |
# Vibe-Eval:マルチモーダル言語モデルの進捗測定のためのハードアセスメントスイート
Vibe-Eval: A hard evaluation suite for measuring progress of multimodal language models ( http://arxiv.org/abs/2405.02287v1 ) ライセンス: Link先を確認 | Piotr Padlewski, Max Bain, Matthew Henderson, Zhongkai Zhu, Nishant Relan, Hai Pham, Donovan Ong, Kaloyan Aleksiev, Aitor Ormazabal, Samuel Phua, Ethan Yeo, Eugenie Lamprecht, Qi Liu, Yuqi Wang, Eric Chen, Deyu Fu, Lei Li, Che Zheng, Cyprien de Masson d'Autume, Dani Yogatama, Mikel Artetxe, Yi Tay, | (参考訳) マルチモーダルチャットモデルを評価するための新しいオープンベンチマークとフレームワークであるVibe-Evalを紹介する。
Vibe-Evalは、100の難易度を含む269の視覚的理解プロンプトで構成され、専門家によって書かれたゴールド標準応答が完備している。
Vibe-Evalはオープンエンドで、二重目的に挑戦する。
一 日々のタスクのためのマルチモーダルチャットモデルをチェックすること。
(ii) 現在のフロンティアモデルの機能を厳格にテストし、検証する。
特に、私たちのハードセットには、すべてのフロンティアモデルが正しく答えていない50%以上の質問が含まれています。
超挑戦的なプロンプトでモデルの設計、評価、ランキングのニュアンスについて検討する。
また、人的評価と自動評価のトレードオフについても論じ、Reka Coreを用いた自動モデル評価が人的判断と大まかに相関していることを示す。
軽量な評価を目的としたフリーAPIアクセスを提供し、Vibe-Evalの自動スコアで良好に機能する公開モデルに対して、正式な人間による評価を行う計画を立てる。
評価コードとデータは、https://github.com/reka-ai/reka-vibe-evalを参照してください。
We introduce Vibe-Eval: a new open benchmark and framework for evaluating multimodal chat models. Vibe-Eval consists of 269 visual understanding prompts, including 100 of hard difficulty, complete with gold-standard responses authored by experts. Vibe-Eval is open-ended and challenging with dual objectives: (i) vibe checking multimodal chat models for day-to-day tasks and (ii) rigorously testing and probing the capabilities of present frontier models. Notably, our hard set contains >50% questions that all frontier models answer incorrectly. We explore the nuances of designing, evaluating, and ranking models on ultra challenging prompts. We also discuss trade-offs between human and automatic evaluation, and show that automatic model evaluation using Reka Core roughly correlates to human judgment. We offer free API access for the purpose of lightweight evaluation and plan to conduct formal human evaluations for public models that perform well on the Vibe-Eval's automatic scores. We release the evaluation code and data, see https://github.com/reka-ai/reka-vibe-eval | 翻訳日:2024-05-06 12:06:51 公開日:2024-05-03 |
# 小学校算数科における大規模言語モデルの性能に関する注意深い検討
A Careful Examination of Large Language Model Performance on Grade School Arithmetic ( http://arxiv.org/abs/2405.00332v3 ) ライセンス: Link先を確認 | Hugh Zhang, Jeff Da, Dean Lee, Vaughn Robinson, Catherine Wu, Will Song, Tiffany Zhao, Pranav Raja, Dylan Slack, Qin Lyu, Sean Hendryx, Russell Kaplan, Michele Lunati, Summer Yue, | (参考訳) 大規模言語モデル (LLM) は、数学的推論のための多くのベンチマークで驚くべき成功を収めた。
しかし、このパフォーマンスのいくつかは実際にデータセットの汚染を反映しているという懸念が高まっており、ベンチマークによく似たデータが真の推論能力ではなく、トレーニングデータに漏れ込む。
この主張を厳格に調査するために、小学校数学1000(GSM1k)を委託する。
GSM1kは、基本的な数学的推論を測定するための金の標準である確立されたGSM8kベンチマークのスタイルと複雑さを反映するように設計されている。
2つのベンチマークは、人間の解決率、ソリューションのステップ数、回答の規模など、重要な指標に匹敵するものであることを保証します。
GSM1k上でのオープンおよびクローズドソースLCMの評価では、最大13%の精度低下を観測し、いくつかのモデルのファミリー(例えば、Phi、Mistral)は、ほぼすべてのモデルサイズに体系的にオーバーフィットする証拠を示している。
同時に、多くのモデル、特にフロンティアのモデル(例えば、Gemini/GPT/Claude)は、オーバーフィッティングの兆候を最小限に示している。
さらなる分析では、モデルが GSM8k からサンプルを生成する確率と GSM8k と GSM1k のパフォーマンスギャップとの間の正の関係(スピアマンの r^2=0.32)が示唆され、多くのモデルが部分的に GSM8k を記憶している可能性が示唆されている。
Large language models (LLMs) have achieved impressive success on many benchmarks for mathematical reasoning. However, there is growing concern that some of this performance actually reflects dataset contamination, where data closely resembling benchmark questions leaks into the training data, instead of true reasoning ability. To investigate this claim rigorously, we commission Grade School Math 1000 (GSM1k). GSM1k is designed to mirror the style and complexity of the established GSM8k benchmark, the gold standard for measuring elementary mathematical reasoning. We ensure that the two benchmarks are comparable across important metrics such as human solve rates, number of steps in solution, answer magnitude, and more. When evaluating leading open- and closed-source LLMs on GSM1k, we observe accuracy drops of up to 13%, with several families of models (e.g., Phi and Mistral) showing evidence of systematic overfitting across almost all model sizes. At the same time, many models, especially those on the frontier, (e.g., Gemini/GPT/Claude) show minimal signs of overfitting. Further analysis suggests a positive relationship (Spearman's r^2=0.32) between a model's probability of generating an example from GSM8k and its performance gap between GSM8k and GSM1k, suggesting that many models may have partially memorized GSM8k. | 翻訳日:2024-05-06 11:57:06 公開日:2024-05-03 |
# BiomedRAG: バイオメディシンのための検索型大規模言語モデル
BiomedRAG: A Retrieval Augmented Large Language Model for Biomedicine ( http://arxiv.org/abs/2405.00465v3 ) ライセンス: Link先を確認 | Mingchen Li, Halil Kilicoglu, Hua Xu, Rui Zhang, | (参考訳) 大規模言語モデル(LLM)は、バイオメディカルおよび医療分野における様々な応用のための重要なリソースとして急速に現れてきたが、これらのモデルは不正確な情報の生成や幻覚といった問題に直面している。
Retrieval-augmented Generationは、これらのモデルが知識を更新し、パフォーマンスを向上させるためのソリューションを提供する。
従来の検索拡張LMとは対照的に,検索したテキストをLSMにエンコードする際,検索したチャンクベースの文書を直接LLMに入力することで,よりシンプルなアプローチを採用する。
この簡単な設計は、既存の検索や言語モデルに容易に適用でき、特にノイズ集約タスクにおいて、検索した文書のノイズ情報を効果的にバイパスすることができる。
さらに, LLM を利用したバイオメディカル領域の検索モデルを監督し, LM を補助する文書を検索し, その予測を改善する可能性を示した。
実験の結果, 情報抽出(三重抽出, 関係抽出), テキスト分類, リンク予測, 質問応答などを含む5つのNLPタスクにおいて, 9件以上のデータセットを活用でき, 優れた性能が得られることがわかった。
例えば、トリプル抽出タスクでは、 \textsc{BiomedRAG} は、GIT と ChemProt のコーパスにおいて、それぞれ 81.42 と 88.83 のマイクロF1スコアを持つ他のトリプル抽出システムより優れている。
Large Language Models (LLMs) have swiftly emerged as vital resources for different applications in the biomedical and healthcare domains; however, these models encounter issues such as generating inaccurate information or hallucinations. Retrieval-augmented generation provided a solution for these models to update knowledge and enhance their performance. In contrast to previous retrieval-augmented LMs, which utilize specialized cross-attention mechanisms to help LLM encode retrieved text, BiomedRAG adopts a simpler approach by directly inputting the retrieved chunk-based documents into the LLM. This straightforward design is easily applicable to existing retrieval and language models, effectively bypassing noise information in retrieved documents, particularly in noise-intensive tasks. Moreover, we demonstrate the potential for utilizing the LLM to supervise the retrieval model in the biomedical domain, enabling it to retrieve the document that assists the LM in improving its predictions. Our experiments reveal that with the tuned scorer,\textsc{ BiomedRAG} attains superior performance across 5 biomedical NLP tasks, encompassing information extraction (triple extraction, relation extraction), text classification, link prediction, and question-answering, leveraging over 9 datasets. For instance, in the triple extraction task, \textsc{BiomedRAG} outperforms other triple extraction systems with micro-F1 scores of 81.42 and 88.83 on GIT and ChemProt corpora, respectively. | 翻訳日:2024-05-06 11:57:06 公開日:2024-05-03 |
# コンパクト周波数支持型量子ウェーブパケット変換
Quantum wave packet transforms with compact frequency support ( http://arxiv.org/abs/2405.00929v2 ) ライセンス: Link先を確認 | Hongkang Ni, Lexing Ying, | (参考訳) 異なる種類のウェーブパケット変換は、信号処理タスクにおけるマルチスケール構造を抽出するために広く用いられている。
本稿では,ガボル原子やウェーブレットを含む広帯域のウェーブパケットの量子回路実装について紹介する。
提案手法は、量子コンピュータ上での操作に適した信号の移動と再シャッフルを含む周波数空間で動作する。
得られた実装は、空間的にコンパクトに支持されたウェーブレットのための既存の量子アルゴリズムと異なり、コンパクトな周波数サポートを持つ他のウェーブパケットの量子変換に容易に拡張できる。
Different kinds of wave packet transforms are widely used for extracting multi-scale structures in signal processing tasks. This paper introduces the quantum circuit implementation of a broad class of wave packets, including Gabor atoms and wavelets, with compact frequency support. Our approach operates in the frequency space, involving reallocation and reshuffling of signals tailored for manipulation on quantum computers. The resulting implementation is different from the existing quantum algorithms for spatially compactly supported wavelets and can be readily extended to quantum transforms of other wave packets with compact frequency support. | 翻訳日:2024-05-06 11:57:06 公開日:2024-05-03 |
# MOEA/Dがサブプロブレム溶液からパレートフロントをどう計算するか
Proven Runtime Guarantees for How the MOEA/D Computes the Pareto Front From the Subproblem Solutions ( http://arxiv.org/abs/2405.01014v2 ) ライセンス: Link先を確認 | Benjamin Doerr, Martin S. Krejca, Noé Weeks, | (参考訳) 分解に基づく多目的進化アルゴリズム(MOEA/D)は、与えられた多目的関数$f$を直接最適化するのではなく、共進化的な方法で$N + 1$単目的サブプロブレム$f$を最適化する。
支配的でないすべてのソリューションのアーカイブを保持し、パレートフロントへの近似として出力する。
MOEA/Dがサブプロブレムのすべてのオプティマ($g$-オプティマ)を見つければ、それでもパレートオプティマが$f$であるのを見逃すかもしれない。
アルゴリズムは、$g$-optima を変更することによって、残りの Pareto optima を直接見つけるように命じられる。
本研究では、標準的な突然変異演算子のみを持つMOEA/Dが、$g$-optimaがParetoフロントの厳密なサブセットである場合に、OneMinMaxベンチマークのParetoフロント全体をどのように計算するかを初めて分析する。
標準的なビット突然変異に対しては、$O(n N \log n + n^{n/(2N)} N \log n)$関数評価の期待ランタイムを証明する。
特に、アルゴリズムがすべての$g$-optimaから始まるとき、より興味深いフェーズでは、$\Omega(n^{(1/2)(n/N + 1)} \sqrt{N} 2^{-n/N})$期待ランタイムを証明する。
このランタイムは、$N = o(n)$の場合、超ポリノミカルである。
指数 $\beta \in (1, 2)$ の有理突然変異に対して、$O\left(n N \log n + n^{\beta} \log n\right)$関数評価の期待ランタイムを証明する。
O\left(n^{\beta} \log n\right)$ という項は、すべての$g$-optimaから始まる2番目のフェーズに由来する。
これにより、標準ビット突然変異のバウンダリよりも大幅にスピードアップする。
一般に、大まかに言えば、MOEA/D は$N = O(n^{\beta - 1})$ に対して最もよく作用し、結果として$O(n^\beta \log n)$bound となることを示唆している。
標準的なビット突然変異とは対照的に、N$の小さな値は、欠落した解を容易に生成できるため、パワー・ローの突然変異に対してより優れている。
The decomposition-based multi-objective evolutionary algorithm (MOEA/D) does not directly optimize a given multi-objective function $f$, but instead optimizes $N + 1$ single-objective subproblems of $f$ in a co-evolutionary manner. It maintains an archive of all non-dominated solutions found and outputs it as approximation to the Pareto front. Once the MOEA/D found all optima of the subproblems (the $g$-optima), it may still miss Pareto optima of $f$. The algorithm is then tasked to find the remaining Pareto optima directly by mutating the $g$-optima. In this work, we analyze for the first time how the MOEA/D with only standard mutation operators computes the whole Pareto front of the OneMinMax benchmark when the $g$-optima are a strict subset of the Pareto front. For standard bit mutation, we prove an expected runtime of $O(n N \log n + n^{n/(2N)} N \log n)$ function evaluations. Especially for the second, more interesting phase when the algorithm start with all $g$-optima, we prove an $\Omega(n^{(1/2)(n/N + 1)} \sqrt{N} 2^{-n/N})$ expected runtime. This runtime is super-polynomial if $N = o(n)$, since this leaves large gaps between the $g$-optima, which require costly mutations to cover. For power-law mutation with exponent $\beta \in (1, 2)$, we prove an expected runtime of $O\left(n N \log n + n^{\beta} \log n\right)$ function evaluations. The $O\left(n^{\beta} \log n\right)$ term stems from the second phase of starting with all $g$-optima, and it is independent of the number of subproblems $N$. This leads to a huge speedup compared to the lower bound for standard bit mutation. In general, our overall bound for power-law suggests that the MOEA/D performs best for $N = O(n^{\beta - 1})$, resulting in an $O(n^\beta \log n)$ bound. In contrast to standard bit mutation, smaller values of $N$ are better for power-law mutation, as it is capable of easily creating missing solutions. | 翻訳日:2024-05-06 11:57:06 公開日:2024-05-03 |
# UniGen: ゼロショットデータセット生成による感覚分類のためのユニバーサルドメインの一般化
UniGen: Universal Domain Generalization for Sentiment Classification via Zero-shot Dataset Generation ( http://arxiv.org/abs/2405.01022v2 ) ライセンス: Link先を確認 | Juhwan Choi, Yeonghwa Kim, Seunguk Yu, JungMin Yun, YoungBin Kim, | (参考訳) 事前学習された言語モデルは、プロンプトベースの数発の学習で非常に柔軟性と汎用性を示してきたが、広いパラメータサイズと推論の適用性に悩まされている。
近年の研究では、PLMをデータセットジェネレータとして使用し、効率的な推論を実現するために、タスク固有の小さなモデルを訓練することが示唆されている。
しかし、ドメイン固有のデータセットを生成する傾向があるため、さまざまなドメインへの適用性は制限されている。
本研究では,対象領域によらずデータセットを生成する普遍的領域一般化に対する新しいアプローチを提案する。
これにより、ラベル空間を共有する任意のドメインに小さなタスクモデルを一般化することができ、データセット生成パラダイムの現実的な適用性を高めることができる。
提案手法は, PLM よりも桁違いの小さいパラメータ集合を用いて, 各領域にまたがる一般化性を実現する。
Although pre-trained language models have exhibited great flexibility and versatility with prompt-based few-shot learning, they suffer from the extensive parameter size and limited applicability for inference. Recent studies have suggested that PLMs be used as dataset generators and a tiny task-specific model be trained to achieve efficient inference. However, their applicability to various domains is limited because they tend to generate domain-specific datasets. In this work, we propose a novel approach to universal domain generalization that generates a dataset regardless of the target domain. This allows for generalization of the tiny task model to any domain that shares the label space, thus enhancing the real-world applicability of the dataset generation paradigm. Our experiments indicate that the proposed method accomplishes generalizability across various domains while using a parameter set that is orders of magnitude smaller than PLMs. | 翻訳日:2024-05-06 11:57:06 公開日:2024-05-03 |
# 分散学習における相関ノイズのプライバシパワー
The Privacy Power of Correlated Noise in Decentralized Learning ( http://arxiv.org/abs/2405.01031v2 ) ライセンス: Link先を確認 | Youssef Allouah, Anastasia Koloskova, Aymane El Firdoussi, Martin Jaggi, Rachid Guerraoui, | (参考訳) 分散学習は、大量の分散データやリソース(中央のエンティティを使わずに)のスケーラブルな使用を可能にすると同時に、すべてのユーザがデータの直接的な露出を最小限に抑えるため、プライバシの促進を可能にするため、魅力的である。
しかし、追加の予防措置がなければ、好奇心が強いユーザーは、自分の仲間から得たモデルを利用してプライバシーを侵害することができる。
本稿では,DP(差分プライバシー)保証付き分散SGDの変種であるDecorを提案する。
本質的には、ユーザーは1つの通信ラウンドでランダムなシードを安全に交換し、各通信ラウンドにおけるローカルモデルを保護するために注入されるペアワイズ関連ガウスノイズを生成する。
我々は、任意の連結グラフに対して、DecorがDPの最適プライバシーユーティリティトレードオフと一致することを理論的および実証的に示す。
私たちはSecLDPの下で、すべてのユーザ通信を外部の盗聴者や好奇心の強いユーザから保護し、すべての接続されたユーザが秘密、すなわち他のすべてのユーザに隠された情報を共有することを前提に、新しいローカルDPの緩和を行いました。
主な理論的課題は、ネットワークの間隔による非キャンセリング相関ノイズの蓄積を制御することである。
また、公共利用のためのSecLDPプライバシー会計士を提案する。
Decentralized learning is appealing as it enables the scalable usage of large amounts of distributed data and resources (without resorting to any central entity), while promoting privacy since every user minimizes the direct exposure of their data. Yet, without additional precautions, curious users can still leverage models obtained from their peers to violate privacy. In this paper, we propose Decor, a variant of decentralized SGD with differential privacy (DP) guarantees. Essentially, in Decor, users securely exchange randomness seeds in one communication round to generate pairwise-canceling correlated Gaussian noises, which are injected to protect local models at every communication round. We theoretically and empirically show that, for arbitrary connected graphs, Decor matches the central DP optimal privacy-utility trade-off. We do so under SecLDP, our new relaxation of local DP, which protects all user communications against an external eavesdropper and curious users, assuming that every pair of connected users shares a secret, i.e., an information hidden to all others. The main theoretical challenge is to control the accumulation of non-canceling correlated noise due to network sparsity. We also propose a companion SecLDP privacy accountant for public use. | 翻訳日:2024-05-06 11:57:06 公開日:2024-05-03 |
# 光子確率振幅の干渉を示すために単一光子を検出する必要があるか?
Do we need to detect single photons to evidence interference of photon probability amplitudes? ( http://arxiv.org/abs/2405.01050v2 ) ライセンス: Link先を確認 | Eric Lantz, Fabrice Devaux, Serge Massar, | (参考訳) 偶然の偶然の抽出は、量子光学実験の一般的な実践である。
真空圧縮のようなゼロ平均ガウス状態の場合、偶然の一致を取り除いた場合、測定結果は、非常に低いフラックスでの光子偶然と強度の共分散の両方で定量的に同じであることを示す。
したがって、光子波動関数の干渉や光子束の干渉のような光子レベルの純粋な量子効果は、自発的なダウン変換から発行されるマクロビームのゆらぎの相関で再現される。
これは、検出分解能がコヒーレンスセル(モードのサイズ)よりも小さい場合と、ウィグナー関数のサンプリングに基づく確率シミュレーションの場合の両方に当てはまる。
本稿では,ベルの不等式(偶発的偶然を減じることができない),量子イメージングなどの多モードな状況,高次相関など,この対応の限界について論じる。
Subtracting accidental coincidences is a common practice quantum optics experiments. For zero mean Gaussian states, such as squeezed vacuum, we show that if one removes accidental coincidences the measurement results are quantitatively the same, both for photon coincidences at very low flux and for intensity covariances. Consequently, pure quantum effects at the photon level, like interference of photon wave functions or photon bunching, are reproduced in the correlation of fluctuations of macroscopic beams issued from spontaneous down conversion. This is true both in experiment if the detection resolution is smaller than the coherence cell (size of the mode), and in stochastic simulations based on sampling the Wigner function. We discuss the limitations of this correspondence, such as Bell inequalities (for which one cannot substract accidental coincidences), highly multimode situations such as quantum imaging, and higher order correlations. | 翻訳日:2024-05-06 11:57:06 公開日:2024-05-03 |
# KDPrint: 標準化によるKeystroke Dynamics-to-Image Encodingを用いたパッシブ認証
KDPrint: Passive Authentication using Keystroke Dynamics-to-Image Encoding via Standardization ( http://arxiv.org/abs/2405.01080v2 ) ライセンス: Link先を確認 | Yooshin Kim, Namhyeok Kwon, Donghoon Shin, | (参考訳) 現代のモバイルユーザ認証システムでは,スマートフォンの普及により,ユーザの正当性を検証することが最重要である。
指紋認証と顔認識はモバイル認証に広く使われているが、生体認証が複数回試みて失敗した場合、PINベースの認証は依然としてフォールバックオプションとして使用されている。
その結果、生体認証の手法が失敗した場合、PINを標的とする攻撃に対して、システムは影響を受けないままである。
これらの懸念に応えて、2要素認証が提案されている。
これらの課題に対処するため,本研究では,キーストロークデータ(プライマリ認証手法の副産物)を背景ユーザ認証に用いる受動的認証システムを提案する。
さらに、キーストロークデータの時間的ダイナミクスを捉え、ディープラーニングモデルの性能制限を克服する新しい画像符号化手法を提案する。
さらに,画像表現に適した行動バイオメトリック特徴を選択する手法を提案する。
結果として得られた画像は、ユーザのPIN入力パターンを描写し、高い精度でセカンダリチャネルを通じてユーザを識別するモデルの能力を高める。
実験の結果,提案手法は情報容量の面で既存の手法を超越していることがわかった。
先行研究の特徴を取り入れた自己収集データセット実験において,提案手法はEER(Equal Error Rate)の6.7%を達成し,既存手法の47.7%を上回った。
さらに,画像診断では94.4%のTrue Acceptance Rate,False Acceptance Rate,FAR,False Acceptance Rate,FAR,False Acceptance Rate,FAR,False Acceptance Rate,FAR,False Acceptance Rate,FAR,False Acceptance rate,FAR,False Acceptance rate,FAR,False Acceptance rate,FAR,False Acceptance rate,FAR,False Acceptance rate,FAR,FAR)を得た。
In contemporary mobile user authentication systems, verifying user legitimacy has become paramount due to the widespread use of smartphones. Although fingerprint and facial recognition are widely used for mobile authentication, PIN-based authentication is still employed as a fallback option if biometric authentication fails after multiple attempts. Consequently, the system remains susceptible to attacks targeting the PIN when biometric methods are unsuccessful. In response to these concerns, two-factor authentication has been proposed, albeit with the caveat of increased user effort. To address these challenges, this paper proposes a passive authentication system that utilizes keystroke data, a byproduct of primary authentication methods, for background user authentication. Additionally, we introduce a novel image encoding technique to capture the temporal dynamics of keystroke data, overcoming the performance limitations of deep learning models. Furthermore, we present a methodology for selecting suitable behavioral biometric features for image representation. The resulting images, depicting the user's PIN input patterns, enhance the model's ability to uniquely identify users through the secondary channel with high accuracy. Experimental results demonstrate that the proposed imaging approach surpasses existing methods in terms of information capacity. In self-collected dataset experiments, incorporating features from prior research, our method achieved an Equal Error Rate (EER) of 6.7%, outperforming the existing method's 47.7%. Moreover, our imaging technique attained a True Acceptance Rate (TAR) of 94.4% and a False Acceptance Rate (FAR) of 8% for 17 users. | 翻訳日:2024-05-06 11:57:06 公開日:2024-05-03 |
# 校正ニューラルネットワークの特徴抽出と分類層
Decoupling Feature Extraction and Classification Layers for Calibrated Neural Networks ( http://arxiv.org/abs/2405.01196v2 ) ライセンス: Link先を確認 | Mikkel Jordahn, Pablo M. Olmos, | (参考訳) ディープニューラルネットワーク(DNN)は、多くの分類アプリケーションにおいて大きな可能性を示してきたが、過度にパラメータ化された場合、キャリブレーションが不十分であることが広く知られている。
モデル精度を犠牲にすることなくDNNキャリブレーションを改善することは極めて重要であり、医療分野などの安全クリティカルな応用への関心も高い。
本研究では,WRN (Wide Residual Networks) やVisual Transformer (ViT) などの過度にパラメータ化されたDNNアーキテクチャにおいて,特徴抽出層と分類層のトレーニングを分離することで,精度を維持しながらモデルのキャリブレーションを大幅に改善し,トレーニングコストを低減できることを示す。
さらに、DNNの最後の隠れ層出力にガウスを配置し、分類訓練段階においてモデルを変動的に訓練することで、キャリブレーションをさらに改善することを示す。
本稿では,複数の画像分類ベンチマークデータセットに対して,VTおよびWRNアーキテクチャ間のキャリブレーションを改善する手法を提案する。
Deep Neural Networks (DNN) have shown great promise in many classification applications, yet are widely known to have poorly calibrated predictions when they are over-parametrized. Improving DNN calibration without comprising on model accuracy is of extreme importance and interest in safety critical applications such as in the health-care sector. In this work, we show that decoupling the training of feature extraction layers and classification layers in over-parametrized DNN architectures such as Wide Residual Networks (WRN) and Visual Transformers (ViT) significantly improves model calibration whilst retaining accuracy, and at a low training cost. In addition, we show that placing a Gaussian prior on the last hidden layer outputs of a DNN, and training the model variationally in the classification training stage, even further improves calibration. We illustrate these methods improve calibration across ViT and WRN architectures for several image classification benchmark datasets. | 翻訳日:2024-05-06 11:57:06 公開日:2024-05-03 |
# モデルミスマッチによる制約付き強化学習
Constrained Reinforcement Learning Under Model Mismatch ( http://arxiv.org/abs/2405.01327v2 ) ライセンス: Link先を確認 | Zhongchang Sun, Sihong He, Fei Miao, Shaofeng Zou, | (参考訳) 制約強化学習(RL)に関する既存の研究は、訓練環境における優れた政策を得ることができる。
しかし、実際の環境にデプロイすると、トレーニングと実際の環境の間にモデルミスマッチがあるため、トレーニング中に当初満足していた制約に容易に違反する可能性がある。
この課題に対処するために、モデル不確実性の下で制約付きRLとして問題を定式化し、そこでは報酬を最適化する優れたポリシーを学習し、同時にモデルミスマッチの下で制約を満たすことを目標とする。
我々は,大規模かつ連続的な状態空間に適用可能な最初のアルゴリズムであるロバスト制約付きポリシー最適化(RCPO)アルゴリズムを開発し,トレーニング中の各イテレーションにおいて最悪の報酬改善と制約違反を理論的に保証する。
本稿では,制約付きRLタスクに対するアルゴリズムの有効性を示す。
Existing studies on constrained reinforcement learning (RL) may obtain a well-performing policy in the training environment. However, when deployed in a real environment, it may easily violate constraints that were originally satisfied during training because there might be model mismatch between the training and real environments. To address the above challenge, we formulate the problem as constrained RL under model uncertainty, where the goal is to learn a good policy that optimizes the reward and at the same time satisfy the constraint under model mismatch. We develop a Robust Constrained Policy Optimization (RCPO) algorithm, which is the first algorithm that applies to large/continuous state space and has theoretical guarantees on worst-case reward improvement and constraint violation at each iteration during the training. We demonstrate the effectiveness of our algorithm on a set of RL tasks with constraints. | 翻訳日:2024-05-06 11:57:06 公開日:2024-05-03 |
# Ethereumのビルダー市場の分散化
Decentralization of Ethereum's Builder Market ( http://arxiv.org/abs/2405.01329v2 ) ライセンス: Link先を確認 | Sen Yang, Kartik Nayak, Fan Zhang, | (参考訳) ブロックチェーンは、分散化の原則に由来する強力なセキュリティ特性によって、500億ドル以上の価値を持つエコシステムを保護します。
今日のブロックチェーンは本当に分散していますか?
本稿では,Ethereumの最も分散化されていない部分 – 実際に最も使用されているブロックチェーンシステム – を実証的に検討し,新たな視点から分散化の問題に光を当てる。
最大抽出可能な値(MEV)による集中化を避けるため、Ethereumでは、ビルダ市場を通じてブロックを生成する新しいメカニズムを採用している。
しかし、2年間の運用期間を経て、ビルダー市場は高度に集中した市場へと発展し、3人のビルダーが90%以上のブロックを生産している。
なぜビルダー市場は、無許可で誰でも参加できるので、中央集権化するのか?
さらに、集中型ビルダー市場がMEV-Boostオークションにもたらすセキュリティへの影響はどのようなものか?
ビルダー市場の中核機構であるMEV-Boostオークションの厳密な実証研究を通じて,2022年以降の大規模オークションデータセットを用いて,これらの2つの疑問に答えた。
オークションで誰が優勝するかに焦点を当てた以前の作品とは異なり、なぜ優勝するかに焦点を合わせ、MEV-Boostオークションの「オープン性、競争性、効率性」に光を当てる。
我々の発見は、ビルダー市場の分散化を改善するための方向性の特定にも役立ちます。
Blockchains protect an ecosystem worth more than $500bn with their strong security properties derived from the principle of decentralization. Is today's blockchain really decentralized? In this paper, we empirically studied one of the least decentralized parts of Ethereum -- the most used blockchain system in practice -- and shed light on the decentralization issue from a new perspective. To avoid centralization caused by Maximal Extractable Value (MEV), Ethereum adopts a novel mechanism that produces blocks through a builder market. After two years in operation, however, the builder market has evolved to a highly centralized one with three builders producing more than 90% of blocks. Why does the builder market centralize, given that it is permissionless and anyone can join? Moreover, what are the security implications of a centralized builder market to MEV-Boost auctions? Through a rigorous empirical study of the builder market's core mechanism, MEV-Boost auctions, we answered these two questions using a large-scale auction dataset we curated since 2022. Unlike previous works that focus on who wins the auctions, we focus on why they win, to shed light on the {openness, competitiveness, and efficiency} of MEV-Boost auctions. Our findings also help identify directions for improving the decentralization of builder markets. | 翻訳日:2024-05-06 11:57:06 公開日:2024-05-03 |
# SATO: 安定したテキスト間移動フレームワーク
SATO: Stable Text-to-Motion Framework ( http://arxiv.org/abs/2405.01461v2 ) ライセンス: Link先を確認 | Wenshuo Chen, Hongru Xiao, Erhang Zhang, Lijie Hu, Lei Wang, Mengyuan Liu, Chen Chen, | (参考訳) Text to Motionモデルは堅牢か?
テキスト・トゥ・モーション・モデルの最近の進歩は、主に特定の行動のより正確な予測に由来する。
しかし、テキストモダリティは通常、事前訓練されたコントラスト言語-画像事前訓練(CLIP)モデルにのみ依存する。
その結果、意味的に類似したテキスト入力や同一のテキスト入力が提示された場合、その予測が不整合な出力を示すことが多かった。
本稿では,この不安定性の根本原因を明らかにするために解析を行い,モデル出力の予測不能性とテキストエンコーダモジュールの警告パターンとの明確なリンクを確立する。
そこで本稿では,この問題を解決するための公式なフレームワークを紹介し,そのフレームワークをSATO (Stable Text-to-Motion Framework) と呼ぶ。
SATOは3つのモジュールから構成されており、それぞれが注意を安定させ、予測を安定させ、正確性と堅牢性のトレードオフのバランスを維持する。
注意と予測の安定性を満足するSATOを構築するための方法論を提案する。
モデルの安定性を検証するため,HumanML3DとKIT-MLをベースとした新しいテキスト同義語摂動データセットを導入した。
その結果,SATOは高い精度を維持しつつ,同義語や他のわずかな摂動に対して著しく安定であることがわかった。
Is the Text to Motion model robust? Recent advancements in Text to Motion models primarily stem from more accurate predictions of specific actions. However, the text modality typically relies solely on pre-trained Contrastive Language-Image Pretraining (CLIP) models. Our research has uncovered a significant issue with the text-to-motion model: its predictions often exhibit inconsistent outputs, resulting in vastly different or even incorrect poses when presented with semantically similar or identical text inputs. In this paper, we undertake an analysis to elucidate the underlying causes of this instability, establishing a clear link between the unpredictability of model outputs and the erratic attention patterns of the text encoder module. Consequently, we introduce a formal framework aimed at addressing this issue, which we term the Stable Text-to-Motion Framework (SATO). SATO consists of three modules, each dedicated to stable attention, stable prediction, and maintaining a balance between accuracy and robustness trade-off. We present a methodology for constructing an SATO that satisfies the stability of attention and prediction. To verify the stability of the model, we introduced a new textual synonym perturbation dataset based on HumanML3D and KIT-ML. Results show that SATO is significantly more stable against synonyms and other slight perturbations while keeping its high accuracy performance. | 翻訳日:2024-05-06 11:57:06 公開日:2024-05-03 |
# Bayesian Few-Shot 分類における高速化収束
Accelerating Convergence in Bayesian Few-Shot Classification ( http://arxiv.org/abs/2405.01507v2 ) ライセンス: Link先を確認 | Tianjun Ke, Haoqun Cao, Feng Zhou, | (参考訳) ベイズ的数発分類は、数発学習の分野において焦点となっている。
本稿では,ミラー降下に基づく変分推論をガウス過程に基づく少数ショット分類にシームレスに統合し,非共役推論の課題に対処する。
非ユークリッド幾何学を活用することにより、ミラー降下は対応する多様体に沿って最も急勾配の方向を与えることにより加速収束を達成する。
また、変分分布に関するパラメータ化不変性を示す。
実験により, 競争的分類精度, 不確実性定量化の改善, ベースラインモデルと比較して収束の速さが示された。
さらに,過度パラメータと成分の影響について検討する。
コードはhttps://github.com/keanson/MD-BSFCで公開されている。
Bayesian few-shot classification has been a focal point in the field of few-shot learning. This paper seamlessly integrates mirror descent-based variational inference into Gaussian process-based few-shot classification, addressing the challenge of non-conjugate inference. By leveraging non-Euclidean geometry, mirror descent achieves accelerated convergence by providing the steepest descent direction along the corresponding manifold. It also exhibits the parameterization invariance property concerning the variational distribution. Experimental results demonstrate competitive classification accuracy, improved uncertainty quantification, and faster convergence compared to baseline models. Additionally, we investigate the impact of hyperparameters and components. Code is publicly available at https://github.com/keanson/MD-BSFC. | 翻訳日:2024-05-06 11:57:06 公開日:2024-05-03 |
# 一般化の定量化のための分離可能性に基づくアプローチ:どの層が最適か?
A separability-based approach to quantifying generalization: which layer is best? ( http://arxiv.org/abs/2405.01524v2 ) ライセンス: Link先を確認 | Luciano Dyballa, Evan Gerritz, Steven W. Zucker, | (参考訳) 未確認データへの一般化は、ディープラーニングの分類と基礎モデルではよく理解されていない。
数ショット学習、アウト・オブ・ディストリビューションの一般化、ドメイン適応の精神において、入力空間の新規または拡張バージョンに適応するネットワークの能力をどのように評価することができるか。
ネットワークのどの層が最も一般化されるか?
ネットワークがドメイン内のすべてのクラスでトレーニングされているかどうかに関わらず、サンプルドメインを表すネットワークのキャパシティを評価するための新しい手法を提案する。
我々のアプローチは以下の通りである: ある領域における視覚的分類のための最先端の訓練済みモデルを微調整した後、その領域の関連するが異なるバリエーションからそれらの性能を評価する。
一般化パワーは、教師なし設定と教師なし設定の両方に対して中間層から見えないデータの潜伏埋め込みの関数として定量化される。
ネットワークのあらゆる段階にまたがって働くと、私たちはそれを見つける。
(i)高い分類精度は、高い一般化可能性を意味するものではない。
(ii) モデル内の深い層が必ずしも最良を一般化するとは限らない。
データセット間で観測される傾向は概ね一貫したものであるので、我々の手法はモデルの異なるレイヤの固有の能力を明らかにし(関数)、一般化する。
Generalization to unseen data remains poorly understood for deep learning classification and foundation models. How can one assess the ability of networks to adapt to new or extended versions of their input space in the spirit of few-shot learning, out-of-distribution generalization, and domain adaptation? Which layers of a network are likely to generalize best? We provide a new method for evaluating the capacity of networks to represent a sampled domain, regardless of whether the network has been trained on all classes in the domain. Our approach is the following: after fine-tuning state-of-the-art pre-trained models for visual classification on a particular domain, we assess their performance on data from related but distinct variations in that domain. Generalization power is quantified as a function of the latent embeddings of unseen data from intermediate layers for both unsupervised and supervised settings. Working throughout all stages of the network, we find that (i) high classification accuracy does not imply high generalizability; and (ii) deeper layers in a model do not always generalize the best, which has implications for pruning. Since the trends observed across datasets are largely consistent, we conclude that our approach reveals (a function of) the intrinsic capacity of the different layers of a model to generalize. | 翻訳日:2024-05-06 11:57:06 公開日:2024-05-03 |