このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231017となっている論文です。

PDF登録状況(公開日: 20231017)

TitleAuthorsAbstract論文公表日・翻訳日
# 1ビット通信による離散分布の最適推定

Optimal Private Discrete Distribution Estimation with One-bit Communication ( http://arxiv.org/abs/2310.11005v1 )

ライセンス: Link先を確認
Seung-Hyun Nam, Vincent Y. F. Tan, Si-Hyeon Lee, (参考訳) 1ビット通信制約を伴う個別分布推定問題を考える。 プライバシーの制約は、局所的な差分プライバシーと最大リークに関して課される。 推定誤差は、最悪のケースの平均2乗誤差によって定量化される。 我々は、局所的な漸近的正規性とブロック設計機構の解決によるアイデアを使用することにより、両方のプライバシー制約の1ビット通信制約の下で、このプライバシ・ユーティリティ・トレードオフの1次漸近性を特徴付ける。 これらの結果は、プライバシ制約のパラメータと離散分布のアルファベットサイズの観点から、1ビット通信制約の下でのプライバシユーティリティトレードオフの最適依存性を示す。

We consider a private discrete distribution estimation problem with one-bit communication constraint. The privacy constraints are imposed with respect to the local differential privacy and the maximal leakage. The estimation error is quantified by the worst-case mean squared error. We completely characterize the first-order asymptotics of this privacy-utility trade-off under the one-bit communication constraint for both types of privacy constraints by using ideas from local asymptotic normality and the resolution of a block design mechanism. These results demonstrate the optimal dependence of the privacy-utility trade-off under the one-bit communication constraint in terms of the parameters of the privacy constraint and the size of the alphabet of the discrete distribution.
翻訳日:2024-03-19 02:13:39 公開日:2023-10-17
# SMSがIoTデバイスに侵入する恐れを調査

Investigating Threats Posed by SMS Origin Spoofing to IoT Devices ( http://arxiv.org/abs/2310.11052v1 )

ライセンス: Link先を確認
Akaki Tsunoda, (参考訳) ショートメッセージサービス(SMS)は、モバイルネットワークを介してテキストを交換するサービスであり、加入者間のテキスト通信だけでなく、IoT(Internet of Things)デバイスをリモートで管理する手段として開発された。 しかし、SMSの発端となる番号は偽造することができる。 IoTデバイスがSMSの発端数に基づいて管理者を認証した場合、認証はSMSの発端の偽造によってバイパスされる。 その結果、IoTデバイスは攻撃者からのコマンドを受け入れ、無許可のアクションを実行するリスクがある。 そこで本研究では,SMSによる遠隔管理に着目して,主要なセルラーIoTゲートウェイの仕様を評価し,認証バイパス仮説を検証した。 その結果,対象製品32種のうち25種がSMSベースの遠隔管理をサポートし,20種がSMSの発信数に基づいて認証を実装した。 さらに、SMSの発端数を隠蔽することで、認証バイパスによってリモートで利用できることが実証された。 そこで本研究では,SMS起源の脅威がIoTデバイスに波及し,SMS起源の脅威が人間のテキスト通信を脅かすだけでなく,機械通信を危険にさらすことを実証した。

The short message service (SMS) is a service for exchanging texts via mobile networks that has been developed not only as a means of text communication between subscribers but also as a means to remotely manage Internet of Things (IoT) devices. However, the originating number of an SMS can be spoofed. If IoT devices authenticate administrators based on the originating number of an SMS, the authentication is bypassed via SMS origin spoofing. Consequently, IoT devices are at risk of accepting commands from attackers and performing unauthorized actions. Accordingly, in this study, the specifications of major cellular IoT gateways were evaluated by focusing on remote management via SMS, and the authentication bypass hypothesis was verified. The results showed that 25 of the 32 targeted products supported SMS-based remote management, and 20 implemented authentication based on the originating number of the SMS. Furthermore, by spoofing the originating number of the SMS, one product was demonstrated to be remotely exploitable through authentication bypassing. Thus, this study revealed the threats posed by SMS origin spoofing to IoT devices and proved that SMS origin spoofing not only threatens text communication between people but also puts machine communication at risk.
翻訳日:2024-03-19 02:13:39 公開日:2023-10-17
# 悪質なDNS-over-HTTPSトラフィックの検出:オートエンコーダを用いた異常検出手法

Detection of Malicious DNS-over-HTTPS Traffic: An Anomaly Detection Approach using Autoencoders ( http://arxiv.org/abs/2310.11325v1 )

ライセンス: Link先を確認
Sergio Salinas Monroy, Aman Kumar Gupta, Garrett Wahlstedt, (参考訳) ユーザのWebブラウジング履歴のプライバシを維持するため、人気のあるブラウザはDNS-over-HTTPS(DoH)プロトコルを使用してDNSトラフィックを暗号化する。 残念ながら、DNSパケットの暗号化は、多くの既存の侵入検知システムにおいて、悪意のあるトラフィックを検出するためにプレーンテキストドメイン名の使用を妨げている。 本稿では,暗号化されたDoHトラフィックのみを観測し,悪意のあるDNSトラフィックを検出するオートエンコーダを設計する。 提案したオートエンコーダは、以前の研究と比較すると、DoHトラフィックの異常を検索し、これまで観測されていない悪意のあるトラフィック、すなわちゼロデイ攻撃を検出することができる。 提案するオートエンコーダの性能評価のための広範囲な実験を行い,他の異常検出アルゴリズム,すなわち局所異常係数,一級サポートベクターマシン,孤立林,変分オートエンコーダと比較した。 提案するオートエンコーダは,複数種類の悪質トラフィックに対して,中央値のF-1スコアが99\%の最高検出性能を達成している。

To maintain the privacy of users' web browsing history, popular browsers encrypt their DNS traffic using the DNS-over-HTTPS (DoH) protocol. Unfortunately, encrypting DNS packets prevents many existing intrusion detection systems from using plaintext domain names to detect malicious traffic. In this paper, we design an autoencoder that is capable of detecting malicious DNS traffic by only observing the encrypted DoH traffic. Compared to previous works, the proposed autoencoder looks for anomalies in DoH traffic, and thus can detect malicious traffic that has not been previously observed, i.e., zero-day attacks. We run extensive experiments to evaluate the performance of our proposed autoencoder and compare it to that of other anomaly detection algorithms, namely, local outlier factor, one-class support vector machine, isolation forest, and variational autoencoders. We find that our proposed autoencoder achieves the highest detection performance, with a median F-1 score of 99\% over several types of malicious traffic.
翻訳日:2024-03-19 02:13:39 公開日:2023-10-17
# 自動化された協調型適応型データ処理パイプラインの信頼性

Trusted Provenance of Automated, Collaborative and Adaptive Data Processing Pipelines ( http://arxiv.org/abs/2310.11442v1 )

ライセンス: Link先を確認
Ludwig Stage, Dimka Karastoyanova, (参考訳) データの豊富さと、それがもたらす洞察から恩恵を受けるために、データ処理パイプラインは、産業と学術の両方において、多くの分野の研究と開発で使用されている。 データ処理パイプラインを自動化するアプローチのひとつにワークフロー技術があり、さまざまなアプリケーションドメインにおけるパイプラインアーキテクチャとの協調的かつ試行錯誤的な実験もサポートする。 このようなパイプラインが持つ必要のある柔軟性に加えて、協調的な設定では、組織間の相互作用は信頼の欠如によって悩まされます。 パイプライン実行と処理データに関連する前兆情報をキャプチャすることは、信頼されたコラボレーションを可能にするための第1ステップであるが、現在のソリューションでは、パイプラインを実装するワークフローのあらゆる面と、パイプラインの実行中に使用されるデータに対して、変更対象が作成されるような、処理パイプラインの変更の証明を許可していない。 この作業では、ソリューションアーキテクチャとProvenance Holderと呼ばれるサービスのコンセプト実装の証明を提供し、協調的で適応的なデータ処理パイプラインを信頼できる方法で実現します。 また、そのようなサービスの特性の集合の定義に貢献し、今後の研究の方向性を特定します。

To benefit from the abundance of data and the insights it brings data processing pipelines are being used in many areas of research and development in both industry and academia. One approach to automating data processing pipelines is the workflow technology, as it also supports collaborative, trial-and-error experimentation with the pipeline architecture in different application domains. In addition to the necessary flexibility that such pipelines need to possess, in collaborative settings cross-organisational interactions are plagued by lack of trust. While capturing provenance information related to the pipeline execution and the processed data is a first step towards enabling trusted collaborations, the current solutions do not allow for provenance of the change in the processing pipelines, where the subject of change can be made on any aspect of the workflow implementing the pipeline and on the data used while the pipeline is being executed. Therefore in this work we provide a solution architecture and a proof of concept implementation of a service, called Provenance Holder, which enable provenance of collaborative, adaptive data processing pipelines in a trusted manner. We also contribute a definition of a set of properties of such a service and identify future research directions.
翻訳日:2024-03-19 02:13:39 公開日:2023-10-17
# 欠測データを用いた微分プライベートデータ生成

Differentially Private Data Generation with Missing Data ( http://arxiv.org/abs/2310.11548v1 )

ライセンス: Link先を確認
Shubhankar Mohapatra, Jianqiao Zong, Florian Kerschbaum, Xi He, (参考訳) 差分プライバシー(DP)保証付き合成データの生成に成功している研究はいくつかあるが、入力データが欠落している場合に高品質な合成データを生成するには不十分である。 そこで本研究では,DP合成データの問題点を形式化し,データとプライバシ要件の異なる4つの実世界のデータセットにおける合成データの実用性を大幅に向上させる3つの効果的な適応戦略を提案する。 また,これらDP合成データ生成アルゴリズムの完全真実データに対するプライバシーの影響と不完全データとの関係についても検討する。 我々は、欠落したメカニズムをサンプリングプロセスとしてモデル化し、真理データに対するプライバシー保証のより厳密な上限を得る。 全体として、この研究は、欠落したデータの存在下で、プライベートな合成データ生成アルゴリズムを使用する際の課題と機会をより深く理解することに貢献している。

Despite several works that succeed in generating synthetic data with differential privacy (DP) guarantees, they are inadequate for generating high-quality synthetic data when the input data has missing values. In this work, we formalize the problems of DP synthetic data with missing values and propose three effective adaptive strategies that significantly improve the utility of the synthetic data on four real-world datasets with different types and levels of missing data and privacy requirements. We also identify the relationship between privacy impact for the complete ground truth data and incomplete data for these DP synthetic data generation algorithms. We model the missing mechanisms as a sampling process to obtain tighter upper bounds for the privacy guarantees to the ground truth data. Overall, this study contributes to a better understanding of the challenges and opportunities for using private synthetic data generation algorithms in the presence of missing data.
翻訳日:2024-03-19 02:13:39 公開日:2023-10-17
# Confidential Consortium Framework: Secure Multiparty Applications with Confidentiality, Integrity, High Availability

Confidential Consortium Framework: Secure Multiparty Applications with Confidentiality, Integrity, and High Availability ( http://arxiv.org/abs/2310.11559v1 )

ライセンス: Link先を確認
Heidi Howard, Fritz Alder, Edward Ashton, Amaury Chamayou, Sylvan Clebsch, Manuel Costa, Antoine Delignat-Lavaud, Cedric Fournet, Andrew Jeffery, Matthew Kerner, Fotios Kounelis, Markus A. Kuppe, Julien Maffre, Mark Russinovich, Christoph M. Wintersteiger, (参考訳) 信頼性、完全性、高可用性はCIAと略され、信頼できるデータシステムにとって欠かせない性質である。 しかし、クラウドコンピューティングの台頭とマルチパーティアプリケーションの需要の増加は、現代のCIAシステムの構築がこれまで以上に困難であることを意味している。 これに対し、セキュアなステートフルCIAアプリケーションを開発するための汎用基盤であるConfidential Consortium Framework(CCF)を提示する。 CCFは中央集権的な計算と非集中的な信頼を組み合わせることで、信頼できないクラウドインフラストラクチャへのデプロイと、相互に信頼できない関係者による透明なガバナンスをサポートする。 CCFは、ハードウェアベースの信頼できる実行環境を活用して、リモートで検証可能な機密性とコードの完全性を実現する。 これは、データ完全性と高可用性のための監査可能な不変の台帳によってバックアップされたステートマシンレプリケーションと結合される。 CCFを使用することで、各サービスが独自のアプリケーションロジック、カスタムマルチパーティガバナンスモデル、デプロイメントシナリオを導入し、ノードのオペレータをそれらを管理するコンソーシアムから切り離すことが可能になる。 CCFはオープンソースで、https://github.com/microsoft/CCFで利用可能である。

Confidentiality, integrity protection, and high availability, abbreviated to CIA, are essential properties for trustworthy data systems. The rise of cloud computing and the growing demand for multiparty applications however means that building modern CIA systems is more challenging than ever. In response, we present the Confidential Consortium Framework (CCF), a general-purpose foundation for developing secure stateful CIA applications. CCF combines centralized compute with decentralized trust, supporting deployment on untrusted cloud infrastructure and transparent governance by mutually untrusted parties. CCF leverages hardware-based trusted execution environments for remotely verifiable confidentiality and code integrity. This is coupled with state machine replication backed by an auditable immutable ledger for data integrity and high availability. CCF enables each service to bring its own application logic, custom multiparty governance model, and deployment scenario, decoupling the operators of nodes from the consortium that governs them. CCF is open-source and available now at https://github.com/microsoft/CCF.
翻訳日:2024-03-19 02:13:39 公開日:2023-10-17
# エンドツーエンド音声認識のための後方言語モデルの反復浅層融合

Iterative Shallow Fusion of Backward Language Model for End-to-End Speech Recognition ( http://arxiv.org/abs/2310.11010v1 )

ライセンス: Link先を確認
Atsunori Ogawa, Takafumi Moriya, Naoyuki Kamo, Naohiro Tawara, Marc Delcroix(参考訳) 本稿では,言語モデル(BLM)をエンド・ツー・エンド自動音声認識(ASR)に利用するための新しい浅層融合法を提案する。 blmは前方言語モデル(flm)と相補的な特徴を有しており,asr仮説を後処理として再現することでそれらの組み合わせの有効性を確認している。 提案SFでは、復号時にBLMを後方方向(つまり次のトークンからスタートシンボルまで)の部分的なASR仮説に繰り返し適用し、前回の繰り返しで計算したスコアに対して新たに算出されたBLMスコアを置換する。 この反復SF(ISF)の有効性を高めるために,部分文を含む逆テキストデータを用いて部分文認識BLM(PBLM)をトレーニングする。 注意に基づくエンコーダデコーダASRシステムを用いた実験では,PBLMを用いたISFがFLMを用いたSFと同等の性能を示した。 ISFにより、復号時に予測仮説の早期切断を防止でき、PBLMを後処理として適用した場合と比較して性能改善が得られる。 最後に,SFとICFを組み合わせることで,FLMとPBLMの相補性により,さらなる性能向上が得られることを確認した。

We propose a new shallow fusion (SF) method to exploit an external backward language model (BLM) for end-to-end automatic speech recognition (ASR). The BLM has complementary characteristics with a forward language model (FLM), and the effectiveness of their combination has been confirmed by rescoring ASR hypotheses as post-processing. In the proposed SF, we iteratively apply the BLM to partial ASR hypotheses in the backward direction (i.e., from the possible next token to the start symbol) during decoding, substituting the newly calculated BLM scores for the scores calculated at the last iteration. To enhance the effectiveness of this iterative SF (ISF), we train a partial sentence-aware BLM (PBLM) using reversed text data including partial sentences, considering the framework of ISF. In experiments using an attention-based encoder-decoder ASR system, we confirmed that ISF using the PBLM shows comparable performance with SF using the FLM. By performing ISF, early pruning of prospective hypotheses can be prevented during decoding, and we can obtain a performance improvement compared to applying the PBLM as post-processing. Finally, we confirmed that, by combining SF and ISF, further performance improvement can be obtained thanks to the complementarity of the FLM and PBLM.
翻訳日:2024-01-15 16:42:16 公開日:2023-10-17
# IoTGeM: 振る舞いベースのIoT攻撃検出のための汎用モデル

IoTGeM: Generalizable Models for Behaviour-Based IoT Attack Detection ( http://arxiv.org/abs/2401.01343v1 )

ライセンス: Link先を確認
Kahraman Kostas, Mike Just, and Michael A. Lones(参考訳) IoTデバイスのネットワーク上での行動に基づく攻撃検出に関するこれまでの研究は、目に見えないデータに適応する能力が制限され、しばしば実証されていない機械学習モデルを生み出した。 本稿では,汎用性を重視しつつ,検出と性能の向上につながるiotネットワーク攻撃のモデル化手法を提案する。 まず,特徴抽出のための転がり窓のアプローチを改良し,オーバーフィッティングを低減する多段階の特徴選択プロセスを提案する。 第2に、分離されたトレインとテストデータセットを使用してモデルを構築し、テストすることで、以前のモデルの一般化性を制限した一般的なデータリークを回避する。 第3に、機械学習モデル、評価指標、データセットの多様なポートフォリオを使用して、方法論を厳格に評価する。 最後に、説明可能なAI技術を使用してモデルに信頼性を構築し、攻撃の正確な検出を過小評価する機能を特定する。

Previous research on behaviour-based attack detection on networks of IoT devices has resulted in machine learning models whose ability to adapt to unseen data is limited, and often not demonstrated. In this paper we present an approach for modelling IoT network attacks that focuses on generalizability, yet also leads to better detection and performance. First, we present an improved rolling window approach for feature extraction, and introduce a multi-step feature selection process that reduces overfitting. Second, we build and test models using isolated train and test datasets, thereby avoiding common data leaks that have limited the generalizability of previous models. Third, we rigorously evaluate our methodology using a diverse portfolio of machine learning models, evaluation metrics and datasets. Finally, we build confidence in the models by using explainable AI techniques, allowing us to identify the features that underlie accurate detection of attacks.
翻訳日:2024-01-15 10:07:50 公開日:2023-10-17
# アルゴリズムロバスト性

Algorithmic Robustness ( http://arxiv.org/abs/2311.06275v1 )

ライセンス: Link先を確認
David Jensen, Brian LaMacchia, Ufuk Topcu, Pamela Wisniewski(参考訳) アルゴリズム的ロバストネス(英: algorithmic robustness)とは、システムが動作している環境の性質の変化や、システムが実行しようとするタスクに直面する計算システムの持続的な性能を指す。 以下は,アルゴリズムのロバスト性の重要性を動機付け,概念的枠組みを提示し,アルゴリズムのロバスト性が関連する研究領域を強調する。 なぜ堅牢か? 堅牢性は、信頼性、説明責任、公平性、安全性など、計算システムに関する公共政策決定の文脈でしばしば言及される他の目標の重要な実現要因である。 この依存にもかかわらず、他の概念に比べて認識が低くなる傾向がある。 なぜなら、ロバスト性は他の最終的な目標よりもすぐに達成できることが多く、より主観的で正確なものであるからである。 そこで我々は,計算システムの設計,実装,展開を考える上で,研究者,技術者,規制当局,政策立案者にとって重要な目標として堅牢性を強調した。 我々は,計算システムの設計と評価において,堅牢性に注意を払うよう研究者や実践者に促す。 多くの重要なシステムにとって、ハイパフォーマンスのデモンストレーションの直後の質問は、"そのパフォーマンスがタスクや環境の現実的な変化にどの程度堅牢か"である。 堅牢性が向上すれば、信頼性が高く、説明責任があり、公平で、安全性の高いシステムが舞台に立つでしょう。 この目的に向けて、この文書はアルゴリズム的堅牢性の概念に関するいくつかの概念と既存の研究に関する簡単なロードマップを提供する。

Algorithmic robustness refers to the sustained performance of a computational system in the face of change in the nature of the environment in which that system operates or in the task that the system is meant to perform. Below, we motivate the importance of algorithmic robustness, present a conceptual framework, and highlight the relevant areas of research for which algorithmic robustness is relevant. Why robustness? Robustness is an important enabler of other goals that are frequently cited in the context of public policy decisions about computational systems, including trustworthiness, accountability, fairness, and safety. Despite this dependence, it tends to be under-recognized compared to these other concepts. This is unfortunate, because robustness is often more immediately achievable than these other ultimate goals, which can be more subjective and exacting. Thus, we highlight robustness as an important goal for researchers, engineers, regulators, and policymakers when considering the design, implementation, and deployment of computational systems. We urge researchers and practitioners to elevate the attention paid to robustness when designing and evaluating computational systems. For many key systems, the immediate question after any demonstration of high performance should be: "How robust is that performance to realistic changes in the task or environment?" Greater robustness will set the stage for systems that are more trustworthy, accountable, fair, and safe. Toward that end, this document provides a brief roadmap to some of the concepts and existing research around the idea of algorithmic robustness.
翻訳日:2023-11-19 14:30:10 公開日:2023-10-17
# ニューラルパッキング:視覚センシングから強化学習へ

Neural Packing: from Visual Sensing to Reinforcement Learning ( http://arxiv.org/abs/2311.09233v1 )

ライセンス: Link先を確認
Juzhan Xu, Minglun Gong, Hao Zhang, Hui Huang, Ruizhen Hu(参考訳) 本稿では,3DでTAP(Transport-and-packing)問題を解決するための新しい学習フレームワークを提案する。 RGBDセンシングと認識による入力オブジェクトの部分的な観測から、ロボットモーション計画による最終ボックス配置に至るまで、完全なソリューションパイプラインを構成し、ターゲットコンテナ内のコンパクトパッキングに到達する。 この手法の技術的コアは、np-hard combinatorial optimization問題を解くために強化学習(rl)によって訓練されたtap用ニューラルネットワークである。 提案ネットワークは,対象コンテナ内の部分的観測対象オブジェクトと利用可能な空間の連続的発展状態の無秩序エンコーディングに基づいて,パッキング対象を選択・決定し,その最終パッキング位置を決定する。 符号化された特徴ベクトルを用いて、ボックス選択の異なるペアリングとパッキング戦略最適化のための利用可能な空間構成のマッチングスコアと実現マスクを算出する。 実ロボット (universal robot ur5e) によるアブレーション研究や物理的パッキングの実行を含む広範な実験を行い, その設計選択, 拡張性, 一般化性, および最新のrlベースのタップソリューションを含むベースラインとの比較について評価した。 また、様々な入力設定と難易度をカバーするTAPの最初のベンチマークも提供します。

We present a novel learning framework to solve the transport-and-packing (TAP) problem in 3D. It constitutes a full solution pipeline from partial observations of input objects via RGBD sensing and recognition to final box placement, via robotic motion planning, to arrive at a compact packing in a target container. The technical core of our method is a neural network for TAP, trained via reinforcement learning (RL), to solve the NP-hard combinatorial optimization problem. Our network simultaneously selects an object to pack and determines the final packing location, based on a judicious encoding of the continuously evolving states of partially observed source objects and available spaces in the target container, using separate encoders both enabled with attention mechanisms. The encoded feature vectors are employed to compute the matching scores and feasibility masks of different pairings of box selection and available space configuration for packing strategy optimization. Extensive experiments, including ablation studies and physical packing execution by a real robot (Universal Robot UR5e), are conducted to evaluate our method in terms of its design choices, scalability, generalizability, and comparisons to baselines, including the most recent RL-based TAP solution. We also contribute the first benchmark for TAP which covers a variety of input settings and difficulty levels.
翻訳日:2023-11-19 14:05:15 公開日:2023-10-17
# 地下駐車場シミュレーションシナリオにおけるappアルゴリズム学習の評価の検討

Exploration of the Assessment for AVP Algorithm Training in Underground Parking Garages Simulation Scenario ( http://arxiv.org/abs/2311.08410v1 )

ライセンス: Link先を確認
Wenjin Li(参考訳) 自動運転車の自動運転バレットパーキング(AVP)機能は現在、最も単純なパーキングタスクを処理できる。 しかし、AVPアルゴリズムが複雑なシナリオに適応し、任意の状況でパーキングタスクを完了するためには、さらなるトレーニングが必要である。 実世界のデータを用いたトレーニングアルゴリズムは時間がかかり、労働集約的であり、シミュレーション環境の構築の現状は主に手作業である。 本稿では,事前入力された2次元地下駐車場計画に基づいて,難易度レベルの異なる3次元地下ガレージシミュレーションシナリオを自動的に生成する手法を提案する。

The autonomous valet parking (AVP) functionality in self-driving vehicles is currently capable of handling most simple parking tasks. However, further training is necessary to enable the AVP algorithm to adapt to complex scenarios and complete parking tasks in any given situation. Training algorithms with real-world data is time-consuming and labour-intensive, and the current state of constructing simulation environments is predominantly manual. This paper introduces an approach to automatically generate 3D underground garage simulation scenarios of varying difficulty levels based on pre-input 2D underground parking structure plans.
翻訳日:2023-11-19 14:03:13 公開日:2023-10-17
# audio-adapterfusion:効率良く非破壊的なマルチタスク音声認識のためのタスクidフリーアプローチ

Audio-AdapterFusion: A Task-ID-free Approach for Efficient and Non-Destructive Multi-task Speech Recognition ( http://arxiv.org/abs/2310.13015v1 )

ライセンス: Link先を確認
Hillary Ngai, Rohan Agrawal, Neeraj Gaur, Ronny Huang, Parisa Haghani, Pedro Moreno Mengibar(参考訳) アダプタは、事前訓練されたモデルの完全な微調整に代わる効率的で構成可能な代替品であり、多くのタスクに大規模なASRモデルの展開をスケールするのに役立ちます。 実際には、タスクIDは、特定のタスクに対するシングルタスクアダプタへのルートの推論中に通常、入力に前置される。 しかし、このアプローチの大きな制限の1つは、タスクIDが推論中に知られておらず、ほとんどのマルチタスク設定には適さないことである。 そこで本研究では,マルチタスクASRにおける単一タスクアダプタを組み合わせるための3つの新しいタスクIDフリー手法を提案する。 提案手法は4つのasrタスクから10個のテストセットで評価し,非破壊的かつパラメータ効率が高いことを示す。 モデルパラメータの17%しか更新できないが、我々の手法は完全な微調整に比べて平均的なWER改善を8%達成でき、タスクIDアダプタルーティングと同等である。

Adapters are an efficient, composable alternative to full fine-tuning of pre-trained models and help scale the deployment of large ASR models to many tasks. In practice, a task ID is commonly prepended to the input during inference to route to single-task adapters for the specified task. However, one major limitation of this approach is that the task ID may not be known during inference, rendering it unsuitable for most multi-task settings. To address this, we propose three novel task-ID-free methods to combine single-task adapters in multi-task ASR and investigate two learning algorithms for training. We evaluate our methods on 10 test sets from 4 diverse ASR tasks and show that our methods are non-destructive and parameter-efficient. While only updating 17% of the model parameters, our methods can achieve an 8% mean WER improvement relative to full fine-tuning and are on-par with task-ID adapter routing.
翻訳日:2023-10-29 16:12:43 公開日:2023-10-17
# 大規模言語モデル予測能力:実世界の予測トーナメントからの証拠

Large Language Model Prediction Capabilities: Evidence from a Real-World Forecasting Tournament ( http://arxiv.org/abs/2310.13014v1 )

ライセンス: Link先を確認
Philipp Schoenegger and Peter S. Park(参考訳) 未来を正確に予測することは、人工知能の能力において重要なマイルストーンとなるだろう。 しかし、将来の出来事に関する確率論的予測を提供するための大規模言語モデルの能力に関する研究は、まだ初期段階である。 この能力を実証的にテストするため,我々は,Metaculusプラットフォーム上で開催される3ヶ月の予測トーナメントで,OpenAIの最先端の大規模言語モデルであるGPT-4を登録した。 大会は2023年7月から10月にかけて行われ、843人の参加者を惹きつけ、ビッグテック、アメリカの政治、ウイルスのアウトブレイク、ウクライナ紛争など様々なトピックをカバーした。 2値予測に着目し,GPT-4の確率予測は人混みの中央値よりも有意に精度が低いことを示す。 GPT-4の予測は,全質問に対して50%の確率を割り当てる非情報予測戦略と大きくは一致しなかった。 我々は、GPT-4がスケールの中間点に近い確率を予測するために予想される可能性を探るが、我々のデータはこの仮説を支持していない。 概して,GPT-4は人混みの中央値に比べて現実の予測タスクでは著しく劣ることがわかった。 この過小評価の潜在的な説明は、現実の予測トーナメントでは、真の答えは予測の時点で真に未知であり、プロの試験や時系列予測のような他のベンチマークタスクとは異なり、強いパフォーマンスは、トレーニングデータから記憶された答えによって少なくとも部分的に生じる可能性がある。 これにより、現実の予測トーナメントは、人工知能の一般的な推論と予測能力をテストするための理想的な環境となる。

Accurately predicting the future would be an important milestone in the capabilities of artificial intelligence. However, research on the ability of large language models to provide probabilistic predictions about future events remains nascent. To empirically test this ability, we enrolled OpenAI's state-of-the-art large language model, GPT-4, in a three-month forecasting tournament hosted on the Metaculus platform. The tournament, running from July to October 2023, attracted 843 participants and covered diverse topics including Big Tech, U.S. politics, viral outbreaks, and the Ukraine conflict. Focusing on binary forecasts, we show that GPT-4's probabilistic forecasts are significantly less accurate than the median human-crowd forecasts. We find that GPT-4's forecasts did not significantly differ from the no-information forecasting strategy of assigning a 50% probability to every question. We explore a potential explanation, that GPT-4 might be predisposed to predict probabilities close to the midpoint of the scale, but our data do not support this hypothesis. Overall, we find that GPT-4 significantly underperforms in real-world predictive tasks compared to median human-crowd forecasts. A potential explanation for this underperformance is that in real-world forecasting tournaments, the true answers are genuinely unknown at the time of prediction; unlike in other benchmark tasks like professional exams or time series forecasting, where strong performance may at least partly be due to the answers being memorized from the training data. This makes real-world forecasting tournaments an ideal environment for testing the generalized reasoning and prediction capabilities of artificial intelligence going forward.
翻訳日:2023-10-29 16:12:18 公開日:2023-10-17
# 大規模言語モデルを用いた符号スイッチング音声認識における誤り生成

Generative error correction for code-switching speech recognition using large language models ( http://arxiv.org/abs/2310.13013v1 )

ライセンス: Link先を確認
Chen Chen, Yuchen Hu, Chao-Han Huck Yang, Hexin Liu, Sabato Marco Siniscalchi, Eng Siong Chng(参考訳) コードスイッチング(英: Code-switching、CS)とは、同じ文中に複数の言語を混ぜる現象である。 近年の音声認識(ASR)の進歩にもかかわらず、CS-ASRは、この現象の文法的構造複雑さと特定の訓練コーパスのデータ不足のために、依然として困難な課題である。 本研究では,大規模言語モデル(LLM)とASRが生成する仮説のリストを利用してCS問題に対処することを提案する。 具体的には,n-best仮説生成のために複数の訓練されたasrモデルを用い,仮説集合の多様かつ情報的な要素を増加させることを目標とした。 次に、llmを用いて、学習可能な低ランクアダプタを追加して、h2tマッピングを学習する。 このような生成誤り訂正法(GER)は、その専門的な言語知識とN-best仮説に基づいて正確な転写を直接予測し、従来の言語モデル再構成や誤り訂正技術からパラダイムシフトする。 GERは混合誤り率(MER)の低減の観点からCS-ASRの精度を著しく向上することを示す実験的証拠である。 さらに、LLMはH2T学習において顕著なデータ効率を示し、低リソース言語におけるCS-ASRのデータ不足問題に対する潜在的な解決策を提供する。

Code-switching (CS) speech refers to the phenomenon of mixing two or more languages within the same sentence. Despite the recent advances in automatic speech recognition (ASR), CS-ASR is still a challenging task ought to the grammatical structure complexity of the phenomenon and the data scarcity of specific training corpus. In this work, we propose to leverage large language models (LLMs) and lists of hypotheses generated by an ASR to address the CS problem. Specifically, we first employ multiple well-trained ASR models for N-best hypotheses generation, with the aim of increasing the diverse and informative elements in the set of hypotheses. Next, we utilize the LLMs to learn the hypotheses-to-transcription (H2T) mapping by adding a trainable low-rank adapter. Such a generative error correction (GER) method directly predicts the accurate transcription according to its expert linguistic knowledge and N-best hypotheses, resulting in a paradigm shift from the traditional language model rescoring or error correction techniques. Experimental evidence demonstrates that GER significantly enhances CS-ASR accuracy, in terms of reduced mixed error rate (MER). Furthermore, LLMs show remarkable data efficiency for H2T learning, providing a potential solution to the data scarcity problem of CS-ASR in low-resource languages.
翻訳日:2023-10-29 16:11:49 公開日:2023-10-17
# lms調整のための構成選好モデル

Compositional preference models for aligning LMs ( http://arxiv.org/abs/2310.13011v1 )

ライセンス: Link先を確認
Dongyoung Go, Tomasz Korbak, Germ\'an Kruszewski, Jos Rozen, Marc Dymetman(参考訳) 言語モデル(LM)がより有能になるにつれて、それらを人間の好みに合わせることがますます重要である。 しかしながら、その目的のために優先度モデル(PM)をトレーニングする主要なパラダイムは、透明性の欠如やスケーラビリティの欠如など、基本的な制限と、優先データセットの過度な適合性に悩まされている。 本稿では,1つのグローバルな選好評価をいくつかの解釈可能な特徴に分解する新しいPMフレームワークであるCPMを提案し,これらの特徴のスカラースコアを誘導されたLMから取得し,ロジスティック回帰分類器を用いてこれらのスコアを集約する。 CPMは、選好データのどの特性を使って選好モデルを訓練するかを制御し、人間の選好判断を過小評価していると考えられる特徴に基づいて構築することができる。 実験の結果,cpmは一般化を改善できるだけでなく,標準pmsよりも過最適化に頑健なだけでなく,従来のpmsより最良なnサンプルが好まれる傾向にあった。 全体として,提案手法は,ヒトの嗜好を決定する機能と,スケーラブルでロバストな方法でこれらの機能を抽出するLM機能に頼って,PMを先行する利点を示す。

As language models (LMs) become more capable, it is increasingly important to align them with human preferences. However, the dominant paradigm for training Preference Models (PMs) for that purpose suffers from fundamental limitations, such as lack of transparency and scalability, along with susceptibility to overfitting the preference dataset. We propose Compositional Preference Models (CPMs), a novel PM framework that decomposes one global preference assessment into several interpretable features, obtains scalar scores for these features from a prompted LM, and aggregates these scores using a logistic regression classifier. CPMs allow to control which properties of the preference data are used to train the preference model and to build it based on features that are believed to underlie the human preference judgment. Our experiments show that CPMs not only improve generalization and are more robust to overoptimization than standard PMs, but also that best-of-n samples obtained using CPMs tend to be preferred over samples obtained using conventional PMs. Overall, our approach demonstrates the benefits of endowing PMs with priors about which features determine human preferences while relying on LM capabilities to extract those features in a scalable and robust way.
翻訳日:2023-10-29 16:11:25 公開日:2023-10-17
# ログ異常検出パイプラインのためのデータドリフトモニタリング

Data Drift Monitoring for Log Anomaly Detection Pipelines ( http://arxiv.org/abs/2310.14893v1 )

ライセンス: Link先を確認
Dipak Wani, Samuel Ackerman, Eitan Farchi, Xiaotong Liu, Hau-wen Chang, Sarasi Lalithsena(参考訳) ログはインフラストラクチャの状態の監視と関連するアプリケーションのパフォーマンスを可能にする。 ログはまた、発生する可能性のある問題の根本原因の診断にも有用である。 ログ異常検出(lad)パイプラインは、ログの異常検出を自動化し、システム診断におけるsre(site reliability engineer)の支援を提供する。 ログパターンは時間とともに変わり、‘normal’ログアクティビティプロファイルを定義するladモデルのアップデートが必要になる。 本稿では,ladモデルの介入,再訓練,更新が人間の関与に必要となるタイミングを識別するベイズ因子に基づくドリフト検出手法を提案する。 本手法は, 実データに基づいて, 不正なデータからのログの連続と, 異常な汚染のレベルを制御した模擬アクティビティを用いて記述する。

Logs enable the monitoring of infrastructure status and the performance of associated applications. Logs are also invaluable for diagnosing the root causes of any problems that may arise. Log Anomaly Detection (LAD) pipelines automate the detection of anomalies in logs, providing assistance to site reliability engineers (SREs) in system diagnosis. Log patterns change over time, necessitating updates to the LAD model defining the `normal' log activity profile. In this paper, we introduce a Bayes Factor-based drift detection method that identifies when intervention, retraining, and updating of the LAD model are required with human involvement. We illustrate our method using sequences of log activity, both from unaltered data, and simulated activity with controlled levels of anomaly contamination, based on real collected log data.
翻訳日:2023-10-29 15:58:07 公開日:2023-10-17
# クラウドにおけるマイクロサービスとしてデプロイされたストリーム処理フレームワークのベンチマークスケーラビリティ

Benchmarking scalability of stream processing frameworks deployed as microservices in the cloud ( http://arxiv.org/abs/2303.11088v2 )

ライセンス: Link先を確認
S\"oren Henning, Wilhelm Hasselbring(参考訳) コンテキスト: 分散ストリーム処理とマイクロサービスアーキテクチャの組み合わせは、データ集約型ソフトウェアシステムを構築するための新たなパターンです。 このようなシステムでは、Apache Flink、Apache Kafka Streams、Apache Samza、Hazelcast Jet、Apache Beam SDKといったストリーム処理フレームワークが、分散形式で大量のデータを継続的に処理するためにマイクロサービス内で使用される。 これらのフレームワークはすべて、コア機能としてスケーラビリティを促進するが、スケーラビリティを評価し比較する実証的な研究はほとんどない。 目的: 本研究の目的は, 異なる実行環境における最先端ストリーム処理フレームワークのスケーラビリティと, 異なるスケーラビリティ次元に関する証拠を得ることである。 方法: 体系的手法を用いて, 拡張性に関する最新の5つのストリーム処理フレームワークをベンチマークする。 google cloud内のkubernetesクラスタとプライベートクラウドで740時間以上の実験を行い、110までの同時実行のマイクロサービスインスタンスをデプロイし、毎秒100万メッセージまで処理します。 結果: 十分なクラウドリソースがプロビジョニングされている限り、すべてのベンチマークフレームワークはおよそ線形スケーラビリティを示します。 しかし、これらのフレームワークは負荷の増加に対応するためにリソースを追加する必要がある速度にかなりの差があることを示している。 明確な優れたフレームワークはありませんが、フレームワークのランキングはユースケースによって異なります。 抽象化レイヤとしてApache Beamを使用する場合、ユースケースに関わらず、リソース要求が大幅に高くなる。 マイクロサービス上の負荷のスケーリング、マイクロサービス内で実行される計算処理のスケールアップ、選択されたクラウド環境に関わらず、結果を観察します。 さらに、垂直スケーリングは、ストリーム処理フレームワークのスケーラビリティを実現するための補完的な手段となる。

Context: The combination of distributed stream processing with microservice architectures is an emerging pattern for building data-intensive software systems. In such systems, stream processing frameworks such as Apache Flink, Apache Kafka Streams, Apache Samza, Hazelcast Jet, or the Apache Beam SDK are used inside microservices to continuously process massive amounts of data in a distributed fashion. While all of these frameworks promote scalability as a core feature, there is only little empirical research evaluating and comparing their scalability. Objective: The goal of this study to obtain evidence about the scalability of state-of-the-art stream processing framework in different execution environments and regarding different scalability dimensions. Method: We benchmark five modern stream processing frameworks regarding their scalability using a systematic method. We conduct over 740 hours of experiments on Kubernetes clusters in the Google cloud and in a private cloud, where we deploy up to 110 simultaneously running microservice instances, which process up to one million messages per second. Results: All benchmarked frameworks exhibit approximately linear scalability as long as sufficient cloud resources are provisioned. However, the frameworks show considerable differences in the rate at which resources have to be added to cope with increasing load. There is no clear superior framework, but the ranking of the frameworks depends on the use case. Using Apache Beam as an abstraction layer still comes at the cost of significantly higher resource requirements regardless of the use case. We observe our results regardless of scaling load on a microservice, scaling the computational work performed inside the microservice, and the selected cloud environment. Moreover, vertical scaling can be a complementary measure to achieve scalability of stream processing frameworks.
翻訳日:2023-10-21 15:08:08 公開日:2023-10-17
# 機械学習とアーキテクチャ臭いに基づくアーキテクチャ的技術的負債指標

An architectural technical debt index based on machine learning and architectural smells ( http://arxiv.org/abs/2301.06341v2 )

ライセンス: Link先を確認
Darius Sas, Paris Avgeriou(参考訳) 技術的負債(TD)管理の重要な側面は、システムに蓄積されたプリンシパルの量を測定する能力である。 現在の文献には、TDプリンシパルを推定するための一連のアプローチが含まれているが、アーキテクチャTDに特に焦点を絞っているのはわずかであり、いずれも完全に自動化され、自由に利用可能であり、完全に検証されているものはない。 さらに、最近の研究では、現在のアプローチの多くは、手選りのしきい値に依存するなど、特定の欠点に苦しむことが示されている。 本稿では,機械学習とアーキテクチャの臭いに基づくアーキテクチャ的技術的負債の主要因を推定し,その欠点に対処する新しい手法を提案する。 私たちのアプローチでは、単一のアーキテクチャの臭いのインスタンスによって生成される技術的負債の量を見積もることができる。 そこで我々は,インフォメーション検索の新たな手法を採用し,アーキテクチャの匂いの重症度を推定し,予測の透明性を確保する機械学習モデルを訓練する。 そして、各インスタンスに対して、ソースコードを静的に分析して、臭いを生み出すコードの行数を正確に計算します。 最後に、これらの2つの値を組み合わせて、技術的負債のプリンシパルを計算する。 このアプローチを検証するために,オープンソースと業界の両方から16人の実践者を対象にケーススタディを実施し,プロジェクト内で検出されたいくつかの匂いに対するTDプリンシパル見積について質問した。 その結果,71 %の症例において,提供された評価は嗅覚の補充に要する労力の「emph{representative>」であることがわかった。

A key aspect of technical debt (TD) management is the ability to measure the amount of principal accumulated in a system. The current literature contains an array of approaches to estimate TD principal, however, only a few of them focus specifically on architectural TD, and none of these are fully automated, freely available, and thoroughly validated. Moreover, a recent study has shown that many of the current approaches suffer from certain shortcomings, such as relying on hand-picked thresholds. In this paper, we propose a novel approach to estimate architectural technical debt principal based on machine learning and architectural smells to address such shortcomings. Our approach can estimate the amount of technical debt principal generated by a single architectural smell instance. To do so, we adopt novel techniques from Information Retrieval to train a learning-to-rank machine learning model that estimates the severity of an architectural smell and ensure the transparency of the predictions. Then, for each instance, we statically analyse the source code to calculate the exact number of lines of code creating the smell. Finally, we combine these two values to calculate the technical debt principal. To validate the approach, we conducted a case study and interviewed 16 practitioners, from both open source and industry, and asked them about their opinions on the TD principal estimations for several smells detected in their projects. The results show that for 71\% of instances, practitioners agreed that the estimations provided were \emph{representative} of the effort necessary to refactor the smell.
翻訳日:2023-10-21 15:07:43 公開日:2023-10-17
# 第三世代システム思考のオントロジーに向けて

Toward an Ontology for Third Generation Systems Thinking ( http://arxiv.org/abs/2310.11524v1 )

ライセンス: Link先を確認
Anatoly Levenchuk(参考訳) システム思考は、多レベル、入れ子、相互作用するシステム、それらの環境、そしてシステムと環境の境界の観点から世界を理解する方法である。 本稿では,システム思考の進化について論じ,次世代システム思考のオントロジーに何が必要かについて議論する。

Systems thinking is a way of making sense about the world in terms of multilevel, nested, interacting systems, their environment, and the boundaries between the systems and the environment. In this paper we discuss the evolution of systems thinking and discuss what is needed for an ontology of the current generation of systems thinking.
翻訳日:2023-10-21 15:01:21 公開日:2023-10-17
# ソースコード理解:実証的調査のための現代的定義と概念モデル

Source Code Comprehension: A Contemporary Definition and Conceptual Model for Empirical Investigation ( http://arxiv.org/abs/2310.11301v1 )

ライセンス: Link先を確認
Marvin Wyrich(参考訳) デバッグやテスト,コードレビュー,あるいは最近では,AIアシストによるペアプログラミングなど,すべてのアクティビティにおいて,ソフトウェアエンジニアはソースコードを理解する必要があります。 そのため、コードを理解するのが容易な理由や、理解プロセスにおいて、どのツールが開発者に最適なサポートができるかなど、多くの研究が現場で行われている。 また、コード理解研究者は、コード片をよく理解している開発者について言及するときに、その意味について大まかに考えていますが、研究コミュニティは、ソースコード理解を概念として定義できていないのです。 代わりに、コード理解に関する基礎研究において、タスクによる暗黙的な定義は、すなわち、コード理解は、実験的なタスクが測定するものである。 このアプローチには2つの否定的な結果がある。 第一に二次研究の実施が困難である。 現在、各コード理解プライマリ研究は異なる理解タスクと尺度を用いるため、異なる研究が同じ構成を計測する意図があるかどうかは定かではない。 第二に、最初の研究の著者は、測定しようとするものを定義することなく、設計決定を正当化することの難しさに直面する。 不十分に記述された構成物の運用が行われ、それが妥当性の構築を脅かす。 過去50年の理論を考慮し、コード理解を定義する作業は簡単ではありません。 初等研究のすべての著者が単独で達成しなければならないタスクでもない。 そこで本研究では,ソースコードの理解を定義し,研究者が経験的コード理解研究を定着させる概念的枠組みを提案する。

Be it in debugging, testing, code review or, more recently, pair programming with AI assistance: in all these activities, software engineers need to understand source code. Accordingly, plenty of research is taking place in the field to find out, for example, what makes code easy to understand and which tools can best support developers in their comprehension process. And while any code comprehension researcher certainly has a rough idea of what they mean when they mention a developer having a good understanding of a piece of code, to date, the research community has not managed to define source code comprehension as a concept. Instead, in primary research on code comprehension, an implicit definition by task prevails, i.e., code comprehension is what the experimental tasks measure. This approach has two negative consequences. First, it makes it difficult to conduct secondary research. Currently, each code comprehension primary study uses different comprehension tasks and measures, and thus it is not clear whether different studies intend to measure the same construct. Second, authors of a primary study run into the difficulty of justifying their design decisions without a definition of what they attempt to measure. An operationalization of an insufficiently described construct occurs, which poses a threat to construct validity. The task of defining code comprehension considering the theory of the past fifty years is not an easy one. Nor is it a task that every author of a primary study must accomplish on their own. Therefore, this paper constitutes a reference work that defines source code comprehension and presents a conceptual framework in which researchers can anchor their empirical code comprehension research.
翻訳日:2023-10-21 15:01:15 公開日:2023-10-17
# IntelliJのゲーミフィケーションによるテスト動作の改善

Improving Testing Behavior by Gamifying IntelliJ ( http://arxiv.org/abs/2310.11171v1 )

ライセンス: Link先を確認
Philipp Straubinger, Gordon Fraser(参考訳) テストはソフトウェア開発の重要な側面であるが、残念ながらしばしば無視される。 コードカバレッジや突然変異解析のようなテストの品質分析は、テストの品質を開発者に知らせるが、そのようなレポートは、継続的インテグレーションやコードレビューにおいて散発的にのみ見られる。 開発者行動に実際に影響を与えるためには、コーディング中に開発者がプログラム環境内で直接動機付ける必要があるかもしれません。 我々は、人気の高いintellij java統合開発環境向けのゲーム化されたプラグインであるintelligameを紹介します。これは、多レベル達成システムを使用して、開発者にポジティブなテスト動作を報奨するものです。 インセンティブのある開発者は、より多くのテストを書き、より高いカバレッジと突然変異スコアを獲得し、より頻繁にテストを実行し、より早く機能を達成する。

Testing is an important aspect of software development, but unfortunately, it is often neglected. While test quality analyses such as code coverage or mutation analysis inform developers about the quality of their tests, such reports are viewed only sporadically during continuous integration or code review, if they are considered at all, and their impact on the developers' testing behavior therefore tends to be negligible. To actually influence developer behavior, it may rather be necessary to motivate developers directly within their programming environment, while they are coding. We introduce IntelliGame, a gamified plugin for the popular IntelliJ Java Integrated Development Environment, which rewards developers for positive testing behavior using a multi-level achievement system: A total of 27 different achievements, each with incremental levels, provide affirming feedback when developers exhibit commendable testing behavior, and provide an incentive to further continue and improve this behavior. A controlled experiment with 49 participants given a Java programming task reveals substantial differences in the testing behavior triggered by IntelliGame: Incentivized developers write more tests, achieve higher coverage and mutation scores, run their tests more often, and achieve functionality earlier.
翻訳日:2023-10-21 15:00:48 公開日:2023-10-17
# 吸収理論に対する等角的反統一

Equational Anti-Unification over Absorption Theories ( http://arxiv.org/abs/2310.11136v1 )

ライセンス: Link先を確認
Mauricio Ayala-Rincon, David M. Cerna, Andres Felipe Gonzalez Barragan, and Temur Kutsia(参考訳) 統合の二重問題であるアンチ・ユニフィケーションへの関心は、ソフトウェア分析や関連する分野の応用によって高まっている。 例えば、アンチユニフィケーションベースの技術はクローン検出と自動プログラム修復法で使用されている。 反統一の構文形式は多くの応用に十分であるが、ソフトウェア分析手法のいくつかの側面は方程式理論を推論することでより適切にモデル化されている。 したがって、重要な方程式理論を扱うために既存の反統一法を拡張することは自然な一歩である。 本稿では、反統一モジュロ純粋吸収理論、すなわち、いくつかの作用素は公理 $f(x,\varepsilon_f) \approx f(\varepsilon_f,x) \approx \varepsilon_f$ を満たす特別な定数と関連している。 このような理論に対する健全で完全なルールベースのアルゴリズムを提供する。 さらに, 抗統一モジュロ吸収は無限であることを示す。 それにもかかわらず、我々のアルゴリズムは最小の解集合の有限アルゴリズム表現を終了し、生成する。 また、線形変種は有限であることを示す。

Interest in anti-unification, the dual problem of unification, is on the rise due to applications within the field of software analysis and related areas. For example, anti-unification-based techniques have found uses within clone detection and automatic program repair methods. While syntactic forms of anti-unification are enough for many applications, some aspects of software analysis methods are more appropriately modeled by reasoning modulo an equational theory. Thus, extending existing anti-unification methods to deal with important equational theories is the natural step forward. This paper considers anti-unification modulo pure absorption theories, i.e., some operators are associated with a special constant satisfying the axiom $f(x,\varepsilon_f) \approx f(\varepsilon_f,x) \approx \varepsilon_f$. We provide a sound and complete rule-based algorithm for such theories. Furthermore, we show that anti-unification modulo absorption is infinitary. Despite this, our algorithm terminates and produces a finitary algorithmic representation of the minimal complete set of solutions. We also show that the linear variant is finitary.
翻訳日:2023-10-21 15:00:06 公開日:2023-10-17
# 因果関係と因果関係のダイアグラムモデル

Diagrammatic Modelling of Causality and Causal Relations ( http://arxiv.org/abs/2310.11042v1 )

ライセンス: Link先を確認
Sabah Al-Fedaghi(参考訳) 原因と効果の概念は、科学と工学が取り組んだ研究の1つの対象であると言われている。 近年、ソフトウェア工学において、図式因果推論法(例:Pearl sモデル)が人気を集めている(例:ソフトウェア要件開発における原因と変化の影響の分析)。 本稿では,因果関係の図式モデルについて述べる。 具体的には,この文脈において,thinging machine(tms)の概念言語をツールとして用いる実験を行う。 これは要求工学における因果関係の研究、tmモデリングの理解の強化、因果関係の哲学的概念の研究に寄与するであろう。 システム s 記述における因果関係を特定するには、システム s の振る舞いを制約し、イベントの可能性のある時系列を除外する。 因果性の概念は、図形および代数形式で因果問題を表現するツールに基づいて研究されてきた。 因果モデルは、図式モデル、構造方程式、反事実的および介入的論理を展開する。 ダイアグラムモデルは、我々が世界について知っていることを表現するための言語として機能する。 本稿では、因果グラフをTMモデルに変換することに焦点を当て、2種類の表現を対比する。 その結果,TMによる因果関係の描写はより完全であり,因果グラフの基礎となることが示唆された。

It has been stated that the notion of cause and effect is one object of study that sciences and engineering revolve around. Lately, in software engineering, diagrammatic causal inference methods (e.g., Pearl s model) have gained popularity (e.g., analyzing causes and effects of change in software requirement development). This paper concerns diagrammatical (graphic) models of causal relationships. Specifically, we experiment with using the conceptual language of thinging machines (TMs) as a tool in this context. This would benefit works on causal relationships in requirements engineering, enhance our understanding of the TM modeling, and contribute to the study of the philosophical notion of causality. To specify the causality in a system s description is to constrain the system s behavior and thus exclude some possible chronologies of events. The notion of causality has been studied based on tools to express causal questions in diagrammatic and algebraic forms. Causal models deploy diagrammatic models, structural equations, and counterfactual and interventional logic. Diagrammatic models serve as a language for representing what we know about the world. The research methodology in the paper focuses on converting causal graphs into TM models and contrasts the two types of representation. The results show that the TM depiction of causality is more complete and therefore can provide a foundation for causal graphs.
翻訳日:2023-10-21 14:59:26 公開日:2023-10-17
# ClarifyGPT:意図の明確化によるLLMベースのコード生成の強化

ClarifyGPT: Empowering LLM-based Code Generation with Intention Clarification ( http://arxiv.org/abs/2310.10996v1 )

ライセンス: Link先を確認
Fangwen Mu, Lin Shi, Song Wang, Zhuohao Yu, Binquan Zhang, Chenxue Wang, Shichao Liu, Qing Wang(参考訳) ClarifyGPT という新しいフレームワークを導入し,不明瞭な要求を識別し,対象とする明確化を問う能力を備えた LLM の強化を目標とする。 特にClarifyGPTは、まずコード一貫性チェックを実行することで、所定の要件が曖昧であるかどうかを検出する。 不明瞭な場合、ClarifyGPT は LLM に目的の明確な質問を生成するよう促す。 質問応答を受けた後、cleargptはあいまいな要求を洗練し、同じllmに入力して最終的なコードソリューションを生成する。 ClarifyGPTを評価するために、まずClarifyGPTを2つの公開ベンチマーク(MBPP-sanitized)とMBPP-ET(MBPP-ET)でコード生成に利用する10人の被験者を対象に、人間による評価を行う。 その結果, ClarifyGPT は GPT-4 の性能を 70.96% から 80.80% まで上昇させた。 さらに,ユーザ参加を必要とせずに,異なるLLMおよびベンチマーク間でClarifyGPTの大規模自動評価を行うために,ユーザ応答をシミュレートする高忠実度シミュレーション手法を提案する。 自動評価の結果,ClarifyGPTはベースラインに比べてコード生成性能を大幅に向上させることができることがわかった。 特にClarifyGPTは、4つのベンチマークでGPT-4とChatGPTの平均性能を68.02%から75.75%に改善し、それぞれ58.55%から67.22%に改善した。 我々はClarifyGPTが現実開発環境におけるLCMの実践的活用を効果的に促進できると考えている。

We introduce a novel framework named ClarifyGPT, which aims to enhance code generation by empowering LLMs with the ability to identify ambiguous requirements and ask targeted clarifying questions. In particular, ClarifyGPT first detects whether a given requirement is ambiguous by performing a code consistency check. If it is ambiguous, ClarifyGPT prompts an LLM to generate targeted clarifying questions. After receiving question responses, ClarifyGPT refines the ambiguous requirement and inputs it into the same LLM to generate a final code solution. To evaluate our ClarifyGPT, we first conduct a human evaluation involving ten participants who use ClarifyGPT for code generation on two publicly available benchmarks: MBPP-sanitized and MBPP-ET. The results show that ClarifyGPT elevates the performance (Pass@1) of GPT-4 from 70.96% to 80.80% on MBPP-sanitized. Furthermore, to perform large-scale automated evaluations of ClarifyGPT across different LLMs and benchmarks without requiring user participation, we introduce a high-fidelity simulation method to simulate user responses. The automated evaluation results also demonstrate that ClarifyGPT can significantly enhance code generation performance compared to the baselines. In particular, ClarifyGPT improves the average performance of GPT-4 and ChatGPT across four benchmarks from 68.02% to 75.75% and from 58.55% to 67.22%, respectively. We believe that ClarifyGPT can effectively facilitate the practical application of LLMs in real-world development environments.
翻訳日:2023-10-21 14:59:02 公開日:2023-10-17
# オムニチャネルインベントリの動的位置決めのための最適ロバスト手法

An Optimistic-Robust Approach for Dynamic Positioning of Omnichannel Inventories ( http://arxiv.org/abs/2310.12183v1 )

ライセンス: Link先を確認
Pavithra Harsha, Shivaram Subramanian, Ali Koc, Mahesh Ramakrishna, Brian Quanz, Dhruv Shah, Chandra Narayanaswami(参考訳) 本稿では,データ駆動型,分散型,楽観的ロバスト型ビモダルインベントリ最適化(bio)戦略を新たに導入し,小売チェーン全体のインベントリを効果的にアロケートすることで,不確実で不確定なオムニチャネル需要を満たす。 従来のロバスト最適化(RO)手法は欠点、すなわち最悪の対外的需要を強調するが、BIOは、この利点はROのようにレジリエンスを維持しつつ、内因性外乱の存在を克服することで平均ケース性能の改善の報奨を享受できると考えている。 このバイモーダル戦略は、当社の在庫最適化モデルの中核である、店舗での紛失販売とチャネル間のeコマースフルフィルメントのコストのトレードオフのバランスをとる上で、特に有用です。 これらの要因はチャネルの不均質な挙動のため非対称であり、損失損失コストとネットワーク効果への依存の観点から前者への偏りがある。 私たちは、BIOソリューションに関する構造的な洞察と、ロバストさと平均ケースとのトレードオフを優先的に達成するために、どのように調整できるのかを示します。 我々の実験は、チャネルとロケーションによってサイロ化されている在庫管理に対する従来のアプローチを再考することで、大きなメリットが得られることを示している。 アメリカの大型小売チェーンから得られた実世界のデータセットを用いて、ピーク時のビジネス価値評価は、ROやその他のベースラインよりもBIOの利益率が15%以上上昇し、(実践的な)最悪のケースパフォーマンスを保っていることを示している。

We introduce a new class of data-driven and distribution-free optimistic-robust bimodal inventory optimization (BIO) strategy to effectively allocate inventory across a retail chain to meet time-varying, uncertain omnichannel demand. While prior Robust optimization (RO) methods emphasize the downside, i.e., worst-case adversarial demand, BIO also considers the upside to remain resilient like RO while also reaping the rewards of improved average-case performance by overcoming the presence of endogenous outliers. This bimodal strategy is particularly valuable for balancing the tradeoff between lost sales at the store and the costs of cross-channel e-commerce fulfillment, which is at the core of our inventory optimization model. These factors are asymmetric due to the heterogenous behavior of the channels, with a bias towards the former in terms of lost-sales cost and a dependence on network effects for the latter. We provide structural insights about the BIO solution and how it can be tuned to achieve a preferred tradeoff between robustness and the average-case. Our experiments show that significant benefits can be achieved by rethinking traditional approaches to inventory management, which are siloed by channel and location. Using a real-world dataset from a large American omnichannel retail chain, a business value assessment during a peak period indicates over a 15% profitability gain for BIO over RO and other baselines while also preserving the (practical) worst case performance.
翻訳日:2023-10-20 18:27:10 公開日:2023-10-17
# ハイブリッドデジタルアナログ戦略によるSu-Schrieffer-Heeger鎖のエッジ状態伝達の最適化

Optimizing edge state transfer in a Su-Schrieffer-Heeger chain via hybrid digital-analog strategies ( http://arxiv.org/abs/2310.12179v1 )

ライセンス: Link先を確認
Sebasti\'an V. Romero, Xi Chen, Gloria Platero, Yue Ban(参考訳) su-schrieffer-heeger(ssh)チェーンは、位相相とその周辺状態を理解するためのパラダイムモデルとして機能し、量子材料と量子情報処理および技術を理解する上で重要な役割を果たす。 本稿では,2つの部分格子aとbを特徴とする,sshチェーンにおける非断熱的かつ高忠実なエッジ状態の転送のために設計されたハイブリッドアナログ・デジタルプロトコルを提案する。 しかし、特に長距離チェーンにおける転送忠実性を高めるため、高次ネスト型整流器が重要となる。 実験的な実装を簡略化し、計算複雑性をナビゲートするために、サブラチテンA間のホッピング項を支配的なCD駆動として同定し、さらに変動量子回路を用いて最適化する。 ディジタル量子シミュレーションにより,乱れが存在する場合でも高速でロバストな解を実現できることを示す。 このアナログデジタル転送プロトコルは、量子制御手法の拡張であり、エッジ状態転送のための堅牢なフレームワークを確立する。 重要なことは、最適なCDドライブは様々な量子レジスタでシームレスに実装でき、我々のアプローチの汎用性を強調している。

Su-Schrieffer-Heeger (SSH) chain, serving as a paradigmatic model for comprehending topological phases and their associated edge states, plays a pivotal role in advancing our understanding of quantum materials and quantum information processing and technology. In this paper, we introduce a hybrid analog-digital protocol designed for the non-adiabatic yet high-fidelity transfer of edge states in a SSH chain, featuring two sublattices A and B. The core of our approach lies in harnessing the approximate time-dependent counter-diabatic (CD) interaction, derived from adiabatic gauge potentials. However, to enhance transfer fidelity, particularly in long-distance chains, higher-order nested commutators become crucial. To simplify experimental implementation and navigate computational complexities, we identify the next-to-nearest-neighbour (NNN) hopping terms between sublattice A as dominant CD drivings, and further optimize them by using variational quantum circuits. Through digital quantum simulation, our protocol showcases the capability to achieve rapid and robust solutions, even in the presence of disorder. This analog-digital transfer protocol, an extension of quantum control methodology, establishes a robust framework for edge state transfer. Importantly, the optimal CD drivings identified can be seamlessly implemented across various quantum registers, highlighting the versatility of our approach.
翻訳日:2023-10-20 18:26:40 公開日:2023-10-17
# 不確実性のあるユニバーサルドメイン適応

Provably Uncertainty-Guided Universal Domain Adaptation ( http://arxiv.org/abs/2209.09616v8 )

ライセンス: Link先を確認
Yifan Wang, Lin Zhang, Ran Song, Paul L. Rosin, Yibin Li, and Wei Zhang(参考訳) ユニバーサルドメイン適応(UniDA)は、ラベル付きソースドメインからラベルセットの仮定なしにラベル付きターゲットドメインに知識を転送することを目的としている。 UniDAの主な課題は、識別できないラベルセットが2つのドメイン間のミスアライメントを引き起こすことである。 さらに、ソース領域におけるドメインの不一致と教師付き目的は、モデル全体を共通のクラスに偏りやすくし、未知のサンプルに対して過信な予測を生成する。 上記の課題に対処するため、我々は新しい不確実性誘導型UniDAフレームワークを提案する。 まず、未知のクラスに属する対象サンプルの確率を実証的に推定し、潜在空間における対象サンプルの分布を完全に活用する。 次に,この推定に基づいて,$\delta$-filter の線形部分空間における新しい近傍探索スキームを提案し,対象サンプルの不確かさスコアを推定し,未知のサンプルを探索する。 ソースドメイン内のターゲットサンプルとその隣人との関係を完全に活用し、ドメインのミスアライメントの影響を避ける。 次に,未知のクラスに対するクラス内分散の差を低減できる未知のサンプルの信頼度に基づく不確実性誘導マージン損失により,未知のサンプルと未知のサンプルの両方に対する予測の信頼度をバランスさせる。 最後に,3つの公開データセットを用いた実験により,本手法が既存の最先端手法を大幅に上回ることを示した。

Universal domain adaptation (UniDA) aims to transfer the knowledge from a labeled source domain to an unlabeled target domain without any assumptions of the label sets, which requires distinguishing the unknown samples from the known ones in the target domain. A main challenge of UniDA is that the nonidentical label sets cause the misalignment between the two domains. Moreover, the domain discrepancy and the supervised objectives in the source domain easily lead the whole model to be biased towards the common classes and produce overconfident predictions for unknown samples. To address the above challenging problems, we propose a new uncertainty-guided UniDA framework. Firstly, we introduce an empirical estimation of the probability of a target sample belonging to the unknown class which fully exploits the distribution of the target samples in the latent space. Then, based on the estimation, we propose a novel neighbors searching scheme in a linear subspace with a $\delta$-filter to estimate the uncertainty score of a target sample and discover unknown samples. It fully utilizes the relationship between a target sample and its neighbors in the source domain to avoid the influence of domain misalignment. Secondly, this paper well balances the confidences of predictions for both known and unknown samples through an uncertainty-guided margin loss based on the confidences of discovered unknown samples, which can reduce the gap between the intra-class variances of known classes with respect to the unknown class. Finally, experiments on three public datasets demonstrate that our method significantly outperforms existing state-of-the-art methods.
翻訳日:2023-10-19 21:25:04 公開日:2023-10-17
# 計画と学習: 自動運転車の経路計画 : 文献のレビュー

Planning and Learning: Path-Planning for Autonomous Vehicles, a Review of the Literature ( http://arxiv.org/abs/2207.13181v2 )

ライセンス: Link先を確認
Kevin Osanlou, Christophe Guettier, Tristan Cazenave, Eric Jacopin(参考訳) この短いレビューは、読者が計画、スケジューリング、学習に関する最先端の作業に慣れるようにすることを目的としている。 まず,最先端の計画アルゴリズムについて検討する。 ニューラルネットワークについて簡単に紹介します。 次に,グラフ構造入力処理に適した最近のニューラルネットの変種であるグラフニューラルネットワークについて,さらに詳細に検討する。 本稿では,強化学習アルゴリズムの概念と,現在までのアプローチについて述べる。 次に,経路計画のためのニューラルネットワークを組み合わせる手法について検討する。 最後に,不確実性を伴う時間計画問題に焦点をあてる。

This short review aims to make the reader familiar with state-of-the-art works relating to planning, scheduling and learning. First, we study state-of-the-art planning algorithms. We give a brief introduction of neural networks. Then we explore in more detail graph neural networks, a recent variant of neural networks suited for processing graph-structured inputs. We describe briefly the concept of reinforcement learning algorithms and some approaches designed to date. Next, we study some successful approaches combining neural networks for path-planning. Lastly, we focus on temporal planning problems with uncertainty.
翻訳日:2023-10-19 21:24:00 公開日:2023-10-17
# COVID-Net Biochem: 臨床・生化学データによるCOVID-19患者の生存・腎臓損傷予測のための機械学習モデル構築のための説明責任駆動型フレームワーク

COVID-Net Biochem: An Explainability-driven Framework to Building Machine Learning Models for Predicting Survival and Kidney Injury of COVID-19 Patients from Clinical and Biochemistry Data ( http://arxiv.org/abs/2204.11210v2 )

ライセンス: Link先を確認
Hossein Aboutalebi, Maya Pavlova, Mohammad Javad Shafiee, Adrian Florea, Andrew Hryniowski, Alexander Wong(参考訳) 世界保健機関(who)は2020年に新型コロナウイルス(covid-19)のパンデミック(パンデミック)を宣言して以来、sars-cov-2ウイルスの感染の抑制と緩和、さらには進化するサブミュータントや組換えの課題に直面している。 パンデミックにおける重要な課題は、陽性症例の正確な検出だけでなく、合併症や患者の生存確率に関連するリスクの効率的な予測であった。 本稿では,機械学習モデル構築のための汎用的で説明可能なフレームワークであるCOVID-Net Biochemを紹介する。 この枠組みを用いて, 患者生存率と入院時に急性腎障害を発症する可能性を予測し, 臨床的および生化学的データを透明で体系的なアプローチで活用する。 提案手法は、説明可能性ツールとドメインの専門知識をシームレスに統合し、重要なバイオマーカーに基づいたモデル決定を可能にすることにより、機械学習モデル設計を進歩させる。 これにより、医療用途に特化した機械によるより透明で解釈可能な意思決定プロセスが育まれる。

Since the World Health Organization declared COVID-19 a pandemic in 2020, the global community has faced ongoing challenges in controlling and mitigating the transmission of the SARS-CoV-2 virus, as well as its evolving subvariants and recombinants. A significant challenge during the pandemic has not only been the accurate detection of positive cases but also the efficient prediction of risks associated with complications and patient survival probabilities. These tasks entail considerable clinical resource allocation and attention.In this study, we introduce COVID-Net Biochem, a versatile and explainable framework for constructing machine learning models. We apply this framework to predict COVID-19 patient survival and the likelihood of developing Acute Kidney Injury during hospitalization, utilizing clinical and biochemical data in a transparent, systematic approach. The proposed approach advances machine learning model design by seamlessly integrating domain expertise with explainability tools, enabling model decisions to be based on key biomarkers. This fosters a more transparent and interpretable decision-making process made by machines specifically for medical applications.
翻訳日:2023-10-19 21:23:36 公開日:2023-10-17
# qudit dicke状態準備

Qudit Dicke state preparation ( http://arxiv.org/abs/2301.04989v3 )

ライセンス: Link先を確認
Rafael I. Nepomechie and David Raveh(参考訳) qudit dicke状態は(量子ビット)dicke状態として知られる非常に絡み合った完全対称量子状態の重要なクラスの高次元アナログである。 任意のクディートディッケ状態を作成する回路を決定論的に定式化する。 基本ゲートの観点で回路の明示的な分解を行い、キュービットおよびクトリットの場合のcirqに実装する。

Qudit Dicke states are higher-dimensional analogues of an important class of highly-entangled completely symmetric quantum states known as (qubit) Dicke states. A circuit for preparing arbitrary qudit Dicke states deterministically is formulated. An explicit decomposition of the circuit in terms of elementary gates is presented, and is implemented in cirq for the qubit and qutrit cases.
翻訳日:2023-10-19 21:15:00 公開日:2023-10-17
# ランキングのためのリストレベルドメイン不変表現の学習

Learning List-Level Domain-Invariant Representations for Ranking ( http://arxiv.org/abs/2212.10764v2 )

ライセンス: Link先を確認
Ruicheng Xian, Honglei Zhuang, Zhen Qin, Hamed Zamani, Jing Lu, Ji Ma, Kai Hui, Han Zhao, Xuanhui Wang, Michael Bendersky(参考訳) ドメイン適応は、(データリッチ)ソースドメインで学んだ知識を(低リソース)ターゲットドメインに転送することを目的としており、一般的な方法は不変表現学習(invariant representation learning)である。 この手法は分類問題や回帰問題に対して広く研究され応用されているが、ランキング問題への導入は散発的であり、既存の実装では理論上の正当性を欠いている。 本稿では、ランク付けのための不変表現学習を再考する。 事前の作業のレビューでは,項目レベルのアライメントという,すべてのリストからランク付けされている項目の分布をアライメントする機能を実装していますが,リスト構造は無視しています。 しかし、リスト構造は、データとメトリクスがリスト上で定義され、計算される問題に固有のものであるため、それ自体はアイテムではないため、活用されるべきである。 この矛盾を解消するために、リストレベルのアライメント-学習ドメイン不変表現をより高いレベルのリストで提案する。 その利点は2つある:それはランク付けにバインドされた最初のドメイン適応一般化につながり、提案手法の理論的サポートを提供し、パッセージリランキングを含むランク付けタスクにおける教師なしドメイン適応のより良い経験的転送性能を達成する。

Domain adaptation aims to transfer the knowledge learned on (data-rich) source domains to (low-resource) target domains, and a popular method is invariant representation learning, which matches and aligns the data distributions on the feature space. Although this method is studied extensively and applied on classification and regression problems, its adoption on ranking problems is sporadic, and the few existing implementations lack theoretical justifications. This paper revisits invariant representation learning for ranking. Upon reviewing prior work, we found that they implement what we call item-level alignment, which aligns the distributions of the items being ranked from all lists in aggregate but ignores their list structure. However, the list structure should be leveraged, because it is intrinsic to ranking problems where the data and the metrics are defined and computed on lists, not the items by themselves. To close this discrepancy, we propose list-level alignment -- learning domain-invariant representations at the higher level of lists. The benefits are twofold: it leads to the first domain adaptation generalization bound for ranking, in turn providing theoretical support for the proposed method, and it achieves better empirical transfer performance for unsupervised domain adaptation on ranking tasks, including passage reranking.
翻訳日:2023-10-19 21:14:34 公開日:2023-10-17
# 教師なし異常検出における汚染因子分布の推定

Estimating the Contamination Factor's Distribution in Unsupervised Anomaly Detection ( http://arxiv.org/abs/2210.10487v2 )

ライセンス: Link先を確認
Lorenzo Perini, Paul Buerkner and Arto Klami(参考訳) 異常検出手法は、様々なヒューリスティックに基づいて実値の異常スコアをサンプルに割り当てることで、予測された振る舞いに従わない例を典型的には教師なしの方法で特定する。 これらのスコアはしきい値によって実際の予測に変換されなければならないので、異常としてマークされた例の比率は、汚染因子と呼ばれる異常の予想割合と等しい。 残念ながら、汚染因子自体を推定するための良い方法はない。 我々はベイズ的な観点からこのニーズに対処し、与えられた未ラベルデータセットの汚染係数の後方分布を推定する手法を導入する。 複数の異常検出器の出力を、既に異常性の基本的な概念を捉え、特定の混合式を用いて汚染を推定する表現として活用する。 22のデータセットにおいて,推定分布が十分に調整され,後方平均を用いたしきい値の設定により,いくつかの代替法において異常検出器の性能が向上することを示す。 すべてのコードは、完全な再現性で公開されています。

Anomaly detection methods identify examples that do not follow the expected behaviour, typically in an unsupervised fashion, by assigning real-valued anomaly scores to the examples based on various heuristics. These scores need to be transformed into actual predictions by thresholding, so that the proportion of examples marked as anomalies equals the expected proportion of anomalies, called contamination factor. Unfortunately, there are no good methods for estimating the contamination factor itself. We address this need from a Bayesian perspective, introducing a method for estimating the posterior distribution of the contamination factor of a given unlabeled dataset. We leverage on outputs of several anomaly detectors as a representation that already captures the basic notion of anomalousness and estimate the contamination using a specific mixture formulation. Empirically on 22 datasets, we show that the estimated distribution is well-calibrated and that setting the threshold using the posterior mean improves the anomaly detectors' performance over several alternative methods. All code is publicly available for full reproducibility.
翻訳日:2023-10-19 21:13:24 公開日:2023-10-17
# 言語モデルにおける構成性ギャップの測定と狭化

Measuring and Narrowing the Compositionality Gap in Language Models ( http://arxiv.org/abs/2210.03350v3 )

ライセンス: Link先を確認
Ofir Press, Muru Zhang, Sewon Min, Ludwig Schmidt, Noah A. Smith, Mike Lewis(参考訳) 本稿では,サブプロブレムに対する解の正しい構成に依存した構成的推論タスクを言語モデルで行う能力について検討する。 モデルがすべてのサブ問題に正しく答えられる頻度を計測し、全体の解を生成しない。 我々は,事前学習中に複数の事実が一緒に観測されそうにない回答を複数問うことで,この比率を評価する。 GPT-3 モデルでは,モデルサイズの増加に伴い,シングルホップ質問応答性能はマルチホップ性能よりも高速に向上し,構成性差は減少しない。 この驚くべき結果は、より強力なモデルが実際の知識を記憶し記憶する一方で、そのような構成的推論を行う能力に対応する改善は見られないことを示唆している。 次に、帰納的プロンプト(思考の連鎖など)が、明示的に推論することで構成的ギャップを狭めるかを示す。 我々は,思考連鎖をさらに改善する新しい手法であるself-askを提案する。 提案手法では,最初の質問に答える前に,モデルがフォローアップ質問を明示的に問う(と回答)。 最後に、self-askの構造化プロンプトによって、検索エンジンをプラグインしてフォローアップ質問に答えることができます。

We investigate the ability of language models to perform compositional reasoning tasks where the overall solution depends on correctly composing the answers to sub-problems. We measure how often models can correctly answer all sub-problems but not generate the overall solution, a ratio we call the compositionality gap. We evaluate this ratio by asking multi-hop questions with answers that require composing multiple facts unlikely to have been observed together during pretraining. In the GPT-3 family of models, as model size increases we show that the single-hop question answering performance improves faster than the multi-hop performance does, therefore the compositionality gap does not decrease. This surprising result suggests that while more powerful models memorize and recall more factual knowledge, they show no corresponding improvement in their ability to perform this kind of compositional reasoning. We then demonstrate how elicitive prompting (such as chain of thought) narrows the compositionality gap by reasoning explicitly. We present a new method, self-ask, that further improves on chain of thought. In our method, the model explicitly asks itself (and answers) follow-up questions before answering the initial question. We finally show that self-ask's structured prompting lets us easily plug in a search engine to answer the follow-up questions, which additionally improves accuracy.
翻訳日:2023-10-19 21:13:08 公開日:2023-10-17
# バイアス消去誤差をもつ中性原子量子ビットの高しきい値符号

High threshold codes for neutral atom qubits with biased erasure errors ( http://arxiv.org/abs/2302.03063v2 )

ライセンス: Link先を確認
Kaavya Sahay, Junlan Jin, Jahan Claes, Jeff D. Thompson, Shruti Puri(参考訳) フォールトトレラントな量子誤差補正の要件は、基盤となるハードウェアのノイズ構造を活用することで単純化することができる。 本研究では,量子ビットの計算状態の1つだけから検出可能な漏洩によって,量子ビットエラーが支配される場合に発生する,中性原子量子ビット,バイアス付き消去エラーに動機づけられた新しい構造雑音を同定する。 XZZX曲面符号のゲートレベルシミュレーションを用いて,本モデルの性能について検討した。 メタ安定な$^{171}$yb qubitsの消去率とバイアスを予測した結果、2キュービットのゲートエラーのしきい値が8.2%と、偏りのない消去のしきい値の1.9倍、偏極エラーのしきい値の7.5倍の値が得られた。 驚くべきことに、改良された閾値はバイアス保存制御なしのゲートなしで達成され、代わりにこのモデルにおける低ノイズエントロピーから生じる。 また,このノイズモデルに最適化されたXZZXクラスタ状態構築による測定に基づく誤り訂正,ハイブリッド融合を提案する。 融合操作と決定論的絡み合いゲートを組み合わせることで、この構造はXZZX符号の内在対称性を保ち、しきい値が10.3%上昇し、より少ない量子ビットを持つ長方形符号の使用を可能にした。 単一の原子平面と移動可能なツイーザを用いた物理実装の可能性について議論する。

The requirements for fault-tolerant quantum error correction can be simplified by leveraging structure in the noise of the underlying hardware. In this work, we identify a new type of structured noise motivated by neutral atom qubits, biased erasure errors, which arises when qubit errors are dominated by detectable leakage from only one of the computational states of the qubit. We study the performance of this model using gate-level simulations of the XZZX surface code. Using the predicted erasure fraction and bias of metastable $^{171}$Yb qubits, we find a threshold of 8.2% for two-qubit gate errors, which is 1.9 times higher than the threshold for unbiased erasures, and 7.5 times higher than the threshold for depolarizing errors. Surprisingly, the improved threshold is achieved without bias-preserving controlled-not gates, and instead results from the lower noise entropy in this model. We also introduce an XZZX cluster state construction for measurement-based error correction, hybrid-fusion, that is optimized for this noise model. By combining fusion operations and deterministic entangling gates, this construction preserves the intrinsic symmetry of the XZZX code, leading to a higher threshold of 10.3% and enabling the use of rectangular codes with fewer qubits. We discuss a potential physical implementation using a single plane of atoms and moveable tweezers.
翻訳日:2023-10-19 21:03:30 公開日:2023-10-17
# 神経変性疾患における構造-病理相関の定量的解析のための高分解能7TMRIのディープラーニング分割

Automated deep learning segmentation of high-resolution 7 T postmortem MRI for quantitative analysis of structure-pathology correlations in neurodegenerative diseases ( http://arxiv.org/abs/2303.12237v2 )

ライセンス: Link先を確認
Pulkit Khandelwal, Michael Tran Duong, Shokufeh Sadaghiani, Sydney Lim, Amanda Denning, Eunice Chung, Sadhana Ravikumar, Sanaz Arezoumandan, Claire Peterson, Madigan Bedard, Noah Capp, Ranjit Ittyerah, Elyse Migdal, Grace Choi, Emily Kopp, Bridget Loja, Eusha Hasan, Jiacheng Li, Alejandra Bahena, Karthik Prabhakaran, Gabor Mizsei, Marianna Gabrielyan, Theresa Schuck, Winifred Trotman, John Robinson, Daniel Ohm, Edward B. Lee, John Q. Trojanowski, Corey McMillan, Murray Grossman, David J. Irwin, John Detre, M. Dylan Tisdall, Sandhitsu R. Das, Laura E.M. Wisse, David A. Wolk, Paul A. Yushkevich(参考訳) 死後MRIでは、高分解能で脳解剖を検査し、病理計測と形態計測を関連付けることができる。 しかし, 後頭部MRIにおける脳波の自動分割法は, ラベル付きデータセットが限られており, スキャナハードウェアと取得プロトコルの不均一性のため, 十分に開発されていない。 本研究では、7T全体MRIスキャナー上でT2w配列を用いて0.3 mm$^{3}$等方性で画像化された脳組織標本135点の高分解能を示す。 そこで我々は,9つの深部神経アーキテクチャのパフォーマンスをベンチマークし,その後にポストホックトポロジカルな補正を施して,皮質マントルを分割する深部学習パイプラインを開発した。 次に, 4つの皮質下構造(緑膿菌, 緑膿菌, 視床), 白色物質過大度, 正常に出現する白色物質を分類した。 また,0.28 mm^3 および 0.16 mm^3 の等方性 t2*w フラッシュ配列を 7t で取得した未検出画像について,脳半球全体の一般化能を示した。 次に,大脳皮質の局所的な厚みと体積測定を重要領域にわたって計算し,半定量的神経病理学的評価と結びつけた。 私たちのコード、jupyterノートブック、コンテナ化された実行ファイルは、https://pulkit-khandelwal.github.io/exvivo-brain-upenn.com/で公開されている。

Postmortem MRI allows brain anatomy to be examined at high resolution and to link pathology measures with morphometric measurements. However, automated segmentation methods for brain mapping in postmortem MRI are not well developed, primarily due to limited availability of labeled datasets, and heterogeneity in scanner hardware and acquisition protocols. In this work, we present a high resolution of 135 postmortem human brain tissue specimens imaged at 0.3 mm$^{3}$ isotropic using a T2w sequence on a 7T whole-body MRI scanner. We developed a deep learning pipeline to segment the cortical mantle by benchmarking the performance of nine deep neural architectures, followed by post-hoc topological correction. We then segment four subcortical structures (caudate, putamen, globus pallidus, and thalamus), white matter hyperintensities, and the normal appearing white matter. We show generalizing capabilities across whole brain hemispheres in different specimens, and also on unseen images acquired at 0.28 mm^3 and 0.16 mm^3 isotropic T2*w FLASH sequence at 7T. We then compute localized cortical thickness and volumetric measurements across key regions, and link them with semi-quantitative neuropathological ratings. Our code, Jupyter notebooks, and the containerized executables are publicly available at: https://pulkit-khandelwal.github.io/exvivo-brain-upenn
翻訳日:2023-10-19 20:54:07 公開日:2023-10-17
# 目に見えない環境における時間課題のための複雑な自然言語コマンド

Grounding Complex Natural Language Commands for Temporal Tasks in Unseen Environments ( http://arxiv.org/abs/2302.11649v2 )

ライセンス: Link先を確認
Jason Xinyu Liu, Ziyi Yang, Ifrah Idrees, Sam Liang, Benjamin Schornstein, Stefanie Tellex, Ankit Shah(参考訳) リニア時間論理(LTL)へのナビゲーションコマンドの接地は、その曖昧なセマンティクスを活用して、時間的制約の満足度を検証する。 既存のアプローチでは、これらの環境におけるコマンドを理解するために、自然言語で使用される特定の環境とランドマークからのトレーニングデータが必要です。 本稿では,Lang2LTLを提案する。Lang2LTLは,大規模言語モデル(LLM)を利用して,事前の言語データを持たない環境において,LTL仕様に時間的ナビゲーションコマンドを付加するソフトウェアパッケージである。 我々は,ラング2ltlを5つの well-defined generalization behavior に対して包括的に評価する。 Lang2LTLは、21の都市規模環境において、ナビゲーションコマンドを多様な時間仕様にグラウンドする単一モデルの最先端能力を示す。 最後に,Lang2LTLを用いた物理ロボットは,2つの屋内環境において52種類の意味的に多様なナビゲーションコマンドに従うことができることを示す。

Grounding navigational commands to linear temporal logic (LTL) leverages its unambiguous semantics for reasoning about long-horizon tasks and verifying the satisfaction of temporal constraints. Existing approaches require training data from the specific environment and landmarks that will be used in natural language to understand commands in those environments. We propose Lang2LTL, a modular system and a software package that leverages large language models (LLMs) to ground temporal navigational commands to LTL specifications in environments without prior language data. We comprehensively evaluate Lang2LTL for five well-defined generalization behaviors. Lang2LTL demonstrates the state-of-the-art ability of a single model to ground navigational commands to diverse temporal specifications in 21 city-scaled environments. Finally, we demonstrate a physical robot using Lang2LTL can follow 52 semantically diverse navigational commands in two indoor environments.
翻訳日:2023-10-19 20:52:41 公開日:2023-10-17
# Sparse Multi-Grained Learning によるビデオテキスト検索

Video-Text Retrieval by Supervised Sparse Multi-Grained Learning ( http://arxiv.org/abs/2302.09473v2 )

ライセンス: Link先を確認
Yimu Wang, Peng Shi(参考訳) 近年の映像テキスト検索の進歩は,より優れた表現学習の探求によって進んでいるが,本稿では,映像とテキストの間で共有されるスパース空間を学習するための,新しい多粒度スパース学習フレームワークs3maを提案する。 共有スパース空間は有限個のスパース概念で初期化され、それぞれが複数の単語を参照する。 テキストデータを用いて、提案した類似性とアライメント損失を用いて共有スパース空間を教師付きで学習し、更新する。 さらに,多面的なアライメントを実現するために,フレーム表現を組み込んで映像のモダリティをモデル化し,細粒度と粗粒度の類似度を計算する。 学習された共有空間と多粒度類似性から、ビデオテキスト検索ベンチマークの広範な実験により、既存の手法よりもS3MAの方が優れていることが示された。 私たちのコードはhttps://github.com/yimuwangcs/Better_Cross_Modal_Retrievalで利用可能です。

While recent progress in video-text retrieval has been advanced by the exploration of better representation learning, in this paper, we present a novel multi-grained sparse learning framework, S3MA, to learn an aligned sparse space shared between the video and the text for video-text retrieval. The shared sparse space is initialized with a finite number of sparse concepts, each of which refers to a number of words. With the text data at hand, we learn and update the shared sparse space in a supervised manner using the proposed similarity and alignment losses. Moreover, to enable multi-grained alignment, we incorporate frame representations for better modeling the video modality and calculating fine-grained and coarse-grained similarities. Benefiting from the learned shared sparse space and multi-grained similarities, extensive experiments on several video-text retrieval benchmarks demonstrate the superiority of S3MA over existing methods. Our code is available at https://github.com/yimuwangcs/Better_Cross_Modal_Retrieval.
翻訳日:2023-10-19 20:52:26 公開日:2023-10-17
# ニューラルネットワークはタブラルデータ上で高木を向上するのか?

When Do Neural Nets Outperform Boosted Trees on Tabular Data? ( http://arxiv.org/abs/2305.02997v2 )

ライセンス: Link先を確認
Duncan McElfresh, Sujay Khandagale, Jonathan Valverde, Vishak Prasad C, Ganesh Ramakrishnan, Micah Goldblum, Colin White(参考訳) タブラルデータ(英: Tabular data)は、機械学習において最も一般的に使用されるデータの1つである。 表データに対するニューラルネット(NN)の最近の進歩にもかかわらず、NNが表データ上で一般的に勾配付き決定木(GBDT)を上回っているかどうかについては、活発な議論が続いている。 この作業では、一歩後退して、この議論の重要性に疑問を投げかけます。 驚くほど多くのデータセットに対して、GBDTとNNのパフォーマンス差は無視可能であるか、GBDTの軽量ハイパーパラメータチューニングの方がNNとGBDTの選択よりも重要である。 次に、数十のメタファを分析し、データセットのemph{properties}がNNやGBDTに適しているものを決定する。 例えば、GBDTは、スキューやヘビーテールの機能分布やその他のデータセットの不規則性を扱うのに、NNよりもはるかに優れている。 私たちの洞察は、実践者がデータセット上で最もうまく機能するテクニックを決定するためのガイドとして機能します。 最後に、表形式のデータ研究を加速することを目的として、TabZilla Benchmark Suiteをリリースした。 私たちのベンチマークスイート、コードベース、およびすべての生の結果は、https://github.com/naszilla/tabzillaで閲覧できます。

Tabular data is one of the most commonly used types of data in machine learning. Despite recent advances in neural nets (NNs) for tabular data, there is still an active discussion on whether or not NNs generally outperform gradient-boosted decision trees (GBDTs) on tabular data, with several recent works arguing either that GBDTs consistently outperform NNs on tabular data, or vice versa. In this work, we take a step back and question the importance of this debate. To this end, we conduct the largest tabular data analysis to date, comparing 19 algorithms across 176 datasets, and we find that the 'NN vs. GBDT' debate is overemphasized: for a surprisingly high number of datasets, either the performance difference between GBDTs and NNs is negligible, or light hyperparameter tuning on a GBDT is more important than choosing between NNs and GBDTs. Next, we analyze dozens of metafeatures to determine what \emph{properties} of a dataset make NNs or GBDTs better-suited to perform well. For example, we find that GBDTs are much better than NNs at handling skewed or heavy-tailed feature distributions and other forms of dataset irregularities. Our insights act as a guide for practitioners to determine which techniques may work best on their dataset. Finally, with the goal of accelerating tabular data research, we release the TabZilla Benchmark Suite: a collection of the 36 'hardest' of the datasets we study. Our benchmark suite, codebase, and all raw results are available at https://github.com/naszilla/tabzilla.
翻訳日:2023-10-19 20:43:01 公開日:2023-10-17
# 因果状態推定とハイゼンベルクの不確かさ原理

Causal State Estimation and the Heisenberg Uncertainty Principle ( http://arxiv.org/abs/2304.14476v3 )

ライセンス: Link先を確認
Junxin Chen, Benjamin B. Lane, Su Direkci, Dhruva Ganapathy, Xinghui Yin, Nergis Mavalvala, Yanbei Chen, and Vivishek Sudhir(参考訳) ノイズ量子システムの可観測性は、連続測定の記録を適切にフィルタリングすることで推定することができる。 このようなフィルタリングは状態推定と測定に基づく量子フィードバック制御に関係している。 したがって、因果フィルターによって推定される観測可能量はハイゼンベルクの不確実性原理を満たすことが必須である。 マルコフの設定では、事前の作業はこの要件を暗黙的に保証する。 線形だが必ずしもマルコフ系ではない線形可観測性の因果推定が不確実性原理を満たすことを示す。 特に、これは、システムのフィードバック制御や、フィードバックループ内の -- 内部または外部 -- 計測レコードがアクセスされる場所に関係なく、真である。 実際、ループ内測定記録を用いた因果推定は、ループ外記録を使用するものと同等に正確である。 これらの結果は,大規模な量子システムに対する因果推定器の役割を明らかにし,その推定と制御におけるループ内およびループ外測定の等価性を復元し,測定に基づく量子フィードバック制御に関する将来の実験を単純化する。

The observables of a noisy quantum system can be estimated by appropriately filtering the records of their continuous measurement. Such filtering is relevant for state estimation and measurement-based quantum feedback control. It is therefore imperative that the observables estimated through a causal filter satisfy the Heisenberg uncertainty principle. In the Markovian setting, prior work implicitly guarantees this requirement. We show that any causal estimate of linear observables of a linear, but not necessarily Markovian, system will satisfy the uncertainty principle. In particular, this is true irrespective of any feedback control of the system and of where in the feedback loop -- inside or outside -- the measurement record is accessed. Indeed, causal estimators using the in-loop measurement record can be as precise as those using the out-of-loop record. These results clarify the role of causal estimators to a large class of quantum systems, restores the equanimity of in-loop and out-of-loop measurements in their estimation and control, and simplifies future experiments on measurement-based quantum feedback control.
翻訳日:2023-10-19 20:41:28 公開日:2023-10-17
# 思考連鎖のメタリゾン化による質問への回答

Answering Questions by Meta-Reasoning over Multiple Chains of Thought ( http://arxiv.org/abs/2304.13007v3 )

ライセンス: Link先を確認
Ori Yoran, Tomer Wolfson, Ben Bogin, Uri Katz, Daniel Deutch, Jonathan Berant(参考訳) マルチホップ質問応答(QA)のための現代のシステムは、最終回答に到達する前に、質問を一連の推論ステップ、すなわちチェーン・オブ・シント(CoT)に分割する。 多くの場合、複数の連鎖が最終回答の投票機構を通じてサンプリングされ集約されるが、中間ステップ自体は破棄される。 このようなアプローチはパフォーマンスを向上させるが、チェーン間の中間ステップ間の関係を考慮せず、予測された回答の統一的な説明を提供しない。 MCR(Multi-Chain Reasoning)は,大規模言語モデルに対して,回答を集約するのではなく,複数の思考チェーン上でメタ推論を行うアプローチである。 MCRは、異なる推論連鎖を調べ、それらを混合し、説明を生成し、答えを予測する際に最も関係のある事実を選択する。 MCRは7つのマルチホップQAデータセットで強いベースラインを上回ります。 さらに,本分析の結果から,MCRの説明は高品質であり,人間が回答を検証できることがわかった。

Modern systems for multi-hop question answering (QA) typically break questions into a sequence of reasoning steps, termed chain-of-thought (CoT), before arriving at a final answer. Often, multiple chains are sampled and aggregated through a voting mechanism over the final answers, but the intermediate steps themselves are discarded. While such approaches improve performance, they do not consider the relations between intermediate steps across chains and do not provide a unified explanation for the predicted answer. We introduce Multi-Chain Reasoning (MCR), an approach which prompts large language models to meta-reason over multiple chains of thought, rather than aggregating their answers. MCR examines different reasoning chains, mixes information between them and selects the most relevant facts in generating an explanation and predicting the answer. MCR outperforms strong baselines on 7 multi-hop QA datasets. Moreover, our analysis reveals that MCR explanations exhibit high quality, enabling humans to verify its answers.
翻訳日:2023-10-19 20:40:44 公開日:2023-10-17
# Nerfbusters:原因不明のNeRFからゴーストなアーティファクトを除去する

Nerfbusters: Removing Ghostly Artifacts from Casually Captured NeRFs ( http://arxiv.org/abs/2304.10532v3 )

ライセンス: Link先を確認
Frederik Warburg, Ethan Weber, Matthew Tancik, Aleksander Holynski, Angjoo Kanazawa(参考訳) カジュアルに捕獲されたニューラル・ラジアンス・フィールド(nerfs)は、カメラの軌道の外でレンダリングする際にフローターや欠陥のある幾何学などの人工物に苦しむ。 既存の評価プロトコルは、通常、トレーニングキャプチャの8番目のフレームごとに画像品質のみを評価するため、これらの効果をキャプチャしないことが多い。 新規視点合成の進歩を推し進めるために,2つのカメラトラジェクトリがシーンに記録され,一方がトレーニングに,もう一方が評価に使用される新しいデータセットと評価手順を提案する。 このより困難な状況下では、既存の手作りの正規化器はフローターを除去したり、風景形状を改良したりしない。 そこで我々は, 局所的な3次元先行値と新しい密度に基づくスコア蒸留サンプリング損失を利用した3次元拡散法を提案する。 このデータ駆動型プリエントはフローターを取り除き,カジュアルキャプチャのためのシーン形状を改善する。

Casually captured Neural Radiance Fields (NeRFs) suffer from artifacts such as floaters or flawed geometry when rendered outside the camera trajectory. Existing evaluation protocols often do not capture these effects, since they usually only assess image quality at every 8th frame of the training capture. To push forward progress in novel-view synthesis, we propose a new dataset and evaluation procedure, where two camera trajectories are recorded of the scene: one used for training, and the other for evaluation. In this more challenging in-the-wild setting, we find that existing hand-crafted regularizers do not remove floaters nor improve scene geometry. Thus, we propose a 3D diffusion-based method that leverages local 3D priors and a novel density-based score distillation sampling loss to discourage artifacts during NeRF optimization. We show that this data-driven prior removes floaters and improves scene geometry for casual captures.
翻訳日:2023-10-19 20:40:11 公開日:2023-10-17
# DeformerNet:3次元変形可能な物体のバイマニピュレーション学習

DeformerNet: Learning Bimanual Manipulation of 3D Deformable Objects ( http://arxiv.org/abs/2305.04449v2 )

ライセンス: Link先を確認
Bao Thach, Brian Y. Cho, Shing-Hei Ho, Tucker Hermans, Alan Kuntz(参考訳) ホームケアから倉庫のフルフィルメント、外科支援まで幅広い分野の応用には、ロボットが3d変形可能な物体の形を確実に操作する必要がある。 弾性のある3次元変形可能な物体の解析モデルは、物体の形状を決定する際に存在する無限の自由度を記述するために多くのパラメータを必要とする。 従来の3D形状制御の試みは、オブジェクト形状を表現するために手作りの特徴に依存しており、オブジェクト固有の制御モデルの訓練が必要である。 我々は,操作対象の部分視点点クラウドと目標形状の点クラウドを用いて,オブジェクト形状の低次元表現を学習する新しいdeformernetニューラルネットワークアーキテクチャを用いて,これらの問題を克服した。 この形状埋め込みにより、ロボットは所望のロボットエンドエフェクタ動作を計算するビジュアルサーボコントローラを学習し、対象の形状に向かって物体を反復的に変形させることができる。 DeformerNetがトレーニング中に見えない物体の形状や材料硬さを確実に一般化する物理ロボットのシミュレーションと実演を行った。 DeformerNetを使って、このロボットは3つの手術的なサブタスクをうまく達成する。リトラクション(組織をその下にある部位へアクセスするために移動させる)、組織包み(大動脈ステントの配置のような手順におけるサブタスク)、そして2つの管状組織(肛門のサブタスク)を接続する。

Applications in fields ranging from home care to warehouse fulfillment to surgical assistance require robots to reliably manipulate the shape of 3D deformable objects. Analytic models of elastic, 3D deformable objects require numerous parameters to describe the potentially infinite degrees of freedom present in determining the object's shape. Previous attempts at performing 3D shape control rely on hand-crafted features to represent the object shape and require training of object-specific control models. We overcome these issues through the use of our novel DeformerNet neural network architecture, which operates on a partial-view point cloud of the manipulated object and a point cloud of the goal shape to learn a low-dimensional representation of the object shape. This shape embedding enables the robot to learn a visual servo controller that computes the desired robot end-effector action to iteratively deform the object toward the target shape. We demonstrate both in simulation and on a physical robot that DeformerNet reliably generalizes to object shapes and material stiffness not seen during training. Crucially, using DeformerNet, the robot successfully accomplishes three surgical sub-tasks: retraction (moving tissue aside to access a site underneath it), tissue wrapping (a sub-task in procedures like aortic stent placements), and connecting two tubular pieces of tissue (a sub-task in anastomosis).
翻訳日:2023-10-19 20:32:02 公開日:2023-10-17
# 拒絶による教師なし異常検出

Unsupervised Anomaly Detection with Rejection ( http://arxiv.org/abs/2305.13189v2 )

ライセンス: Link先を確認
Lorenzo Perini, Jesse Davis(参考訳) 異常検出は、データの予期せぬ振る舞いを検出することを目的としている。 異常検出は通常教師なしのタスクであるため、従来の異常検出は直観に基づくヒューリスティックを用いて決定境界を学習するが、実際は検証が難しい。 これは、特に決定境界に近い不確実性をもたらし、検知器の予測に対するユーザの信頼を低下させる可能性がある。 これに対抗する1つの方法は、検出器が高い不確実性のある例を拒否できるようにすることである(Learning to Reject)。 これは、決定境界までの距離をキャプチャし、低信頼予測を拒否する拒絶しきい値を設定する信頼度指標を採用する必要がある。 しかし、適切なメトリックを選択し、ラベルなしで拒否しきい値を設定することは難しい課題である。 そこで本論文では,安定度測定値に一定の拒絶しきい値を設定することで,これらの課題を解決する。 我々の洞察はそのような計量の理論的な分析に依存している。 さらに,一定のしきい値を設定すると,強い保証が得られる。テスト拒絶率を推定し,拒絶率と期待予測コストの両方について理論的上限を導出する。 実験により,本手法がメトリックベース手法よりも優れていることを示す。

Anomaly detection aims at detecting unexpected behaviours in the data. Because anomaly detection is usually an unsupervised task, traditional anomaly detectors learn a decision boundary by employing heuristics based on intuitions, which are hard to verify in practice. This introduces some uncertainty, especially close to the decision boundary, that may reduce the user trust in the detector's predictions. A way to combat this is by allowing the detector to reject examples with high uncertainty (Learning to Reject). This requires employing a confidence metric that captures the distance to the decision boundary and setting a rejection threshold to reject low-confidence predictions. However, selecting a proper metric and setting the rejection threshold without labels are challenging tasks. In this paper, we solve these challenges by setting a constant rejection threshold on the stability metric computed by ExCeeD. Our insight relies on a theoretical analysis of such a metric. Moreover, setting a constant threshold results in strong guarantees: we estimate the test rejection rate, and derive a theoretical upper bound for both the rejection rate and the expected prediction cost. Experimentally, we show that our method outperforms some metric-based methods.
翻訳日:2023-10-19 20:21:30 公開日:2023-10-17
# 近位埋め込みを用いた感染効果推定

Contagion Effect Estimation Using Proximal Embeddings ( http://arxiv.org/abs/2306.02479v3 )

ライセンス: Link先を確認
Zahra Fatemi, Elena Zheleva(参考訳) 感染効果とは、ソーシャルネットワークにおける個人の結果に対する仲間の行動の因果的影響を指す。 伝染性ネットワークのノードは類似した属性を持つピアと結びつく傾向があり、相互に影響を及ぼさずに同じように振る舞うことができる。 遅延ホモフィリーを説明する一つの方法は、観測されていない共同設立者のプロキシを検討することである。 しかし,本論文で示すように,感染効果推定のための既存のプロキシベース手法は,プロキシが高次元である場合,非常に大きなばらつきがある。 この問題に対処するため,高次元プロキシの低次元表現を作成するために,変分オートエンコーダと対向ネットワークを統合し,感染効果の同定を支援する新しいフレームワークProEmbを紹介した。 VAEは従来,因果推論における表現学習に用いられてきたが,本手法の新たな側面は,異なる処理群の表現のバランスをとるための敵ネットワークの付加的な構成要素であり,これら群が典型的に異なる分布から生じる観測データから因果推論に必須である。 実験により,本手法は精度を著しく向上し,観測ネットワークデータにおける感染効果推定のばらつきを低減する。

Contagion effect refers to the causal effect of peers' behavior on the outcome of an individual in social networks. Contagion can be confounded due to latent homophily which makes contagion effect estimation very hard: nodes in a homophilic network tend to have ties to peers with similar attributes and can behave similarly without influencing one another. One way to account for latent homophily is by considering proxies for the unobserved confounders. However, as we demonstrate in this paper, existing proxy-based methods for contagion effect estimation have a very high variance when the proxies are high-dimensional. To address this issue, we introduce a novel framework, Proximal Embeddings (ProEmb), that integrates variational autoencoders with adversarial networks to create low-dimensional representations of high-dimensional proxies and help with identifying contagion effects. While VAEs have been used previously for representation learning in causal inference, a novel aspect of our approach is the additional component of adversarial networks to balance the representations of different treatment groups, which is essential in causal inference from observational data where these groups typically come from different distributions. We empirically show that our method significantly increases the accuracy and reduces the variance of contagion effect estimation in observational network data compared to state-of-the-art methods.
翻訳日:2023-10-19 20:13:01 公開日:2023-10-17
# 差分マスキング:継続トレーニングにおけるマスクの選択

Difference-Masking: Choosing What to Mask in Continued Pretraining ( http://arxiv.org/abs/2305.14577v2 )

ライセンス: Link先を確認
Alex Wilf, Syeda Nahida Akter, Leena Mathur, Paul Pu Liang, Sheryl Mathew, Mengrou Shou, Eric Nyberg, Louis-Philippe Morency(参考訳) マスキングと予測の自己管理の目的は、さまざまな下流タスクのパフォーマンス向上に繋がった。 しかし、ほとんどのアプローチはトークンをランダムにマスクするが、何にマスクするかを決めることで学習結果が大幅に改善できるという直感が強い。 本稿では,事前訓練されたモデルがダウンストリームタスクを実行する前に,ドメイン固有のデータに対して事前トレーニングを継続する,継続的な事前トレーニング環境でこれを検証する。 我々は,タスク領域と事前学習領域の違いを考慮し,事前学習の継続中にマスキングを選択できるマスキング戦略である差分マスキングを導入する。 経験的に、差分マスクは4つの多様な言語オンリーおよびマルチモーダルビデオタスクにわたる事前学習設定のベースラインよりも優れています。

The self-supervised objective of masking-and-predicting has led to promising performance gains on a variety of downstream tasks. However, while most approaches randomly mask tokens, there is strong intuition that deciding what to mask can substantially improve learning outcomes. We investigate this in continued pretraining setting in which pretrained models continue to pretrain on domain-specific data before performing some downstream task. We introduce Difference-Masking, a masking strategy that automatically chooses what to mask during continued pretraining by considering what makes a task domain different from the pretraining domain. Empirically, we find that Difference-Masking outperforms baselines on continued pretraining settings across four diverse language-only and multimodal video tasks.
翻訳日:2023-10-19 20:10:00 公開日:2023-10-17
# 量子センサネットワークにおける検出器センサの初期状態の最適化

Optimizing Initial State of Detector Sensors in Quantum Sensor Networks ( http://arxiv.org/abs/2306.17401v2 )

ライセンス: Link先を確認
Caitao Zhan, Himanshu Gupta, Mark Hillery(参考訳) 本稿では、各センサが「発火」する量子ビット検出器である量子センサのネットワークを考える。 検出器の点火による状態の変化は、ネットワーク内のすべてのセンサーで同じユニタリ演算子によって与えられる。 このような検出器のネットワークは、イベントに最も近いものと思われる発射センサを決定するプロトコルを使用して、イベントのローカライズに使用することができる。 点火センサの判定は、初期状態および使用した測定演算子に応じて誤差の確率を発生させる量子状態判別問題として設定することができる。 本稿では, 火災センサの判定において, 誤差の最小化につながる検出器のネットワークの最適初期大域状態を決定する問題に対処する。 この問題に対して、完全判別が可能な初期状態の存在、すなわちエラーの確率をゼロにするための必要かつ十分な条件を導出する。 この結果から, 初期状態に対する推定最適解を導出し, 予想を証明する経路を提供し, ほぼ最適であると思われる複数の探索ヒューリスティックを用いて, 予測を実証的に検証する。

In this paper, we consider a network of quantum sensors, where each sensor is a qubit detector that "fires," i.e., its state changes when an event occurs close by. The change in state due to the firing of a detector is given by a unitary operator which is the same for all sensors in the network. Such a network of detectors can be used to localize an event, using a protocol to determine the firing sensor which is presumably the one closest to the event. The determination of the firing sensor can be posed as a Quantum State Discrimination problem which incurs a probability of error depending on the initial state and the measurement operator used. In this paper, we address the problem of determining the optimal initial global state of a network of detectors that incur a minimum probability of error in determining the firing sensor. For this problem, we derive necessary and sufficient conditions for the existence of an initial state that allows for perfect discrimination, i.e., zero probability of error. Using insights from this result, we derive a conjectured optimal solution for the initial state, provide a pathway to prove the conjecture, and validate the conjecture empirically using multiple search heuristics that seem to perform near-optimally.
翻訳日:2023-10-19 19:49:30 公開日:2023-10-17
# HandNeRF: 単一のRGB画像から手動インタラクションシーンを再構築する学習

HandNeRF: Learning to Reconstruct Hand-Object Interaction Scene from a Single RGB Image ( http://arxiv.org/abs/2309.07891v3 )

ライセンス: Link先を確認
Hongsuk Choi, Nikhil Chavan-Dafle, Jiacheng Yuan, Volkan Isler, and Hyunsoo Park(参考訳) 本稿では,単一のrgb画像から3次元ハンドオブジェクトシーンを再構成する前に,ハンドオブジェクトインタラクションを学習する手法を提案する。 3次元ハンドオブジェクトシーン再構成のためのトレーニングデータ生成と推論は、単一の画像の奥行きあいまいさと、手とオブジェクトによるオクルージョンのため困難である。 我々はこの課題を、手の形を利用して、手と物体形状の相対的な構成を制限し、機会に変える。 我々は3次元手形特徴と2次元オブジェクト特徴との相関を明示的にエンコードし,手と物体のシーン形状を予測する一般化可能な暗黙関数HandNeRFを設計する。 実世界のデータセットを用いた実験により、HandNeRFは、新しいグリップ構成のハンドオブジェクトシーンを、同等の手法よりも正確に再構築可能であることを示す。 さらに,HandNeRFからのオブジェクト再構成により,ロボットハンドオーバや操作のための把握や動作計画などの下流タスクをより正確に実行できることが実証された。 コードはここでリリースされる。 https://github.com/SamsungLabs/HandNeRF

This paper presents a method to learn hand-object interaction prior for reconstructing a 3D hand-object scene from a single RGB image. The inference as well as training-data generation for 3D hand-object scene reconstruction is challenging due to the depth ambiguity of a single image and occlusions by the hand and object. We turn this challenge into an opportunity by utilizing the hand shape to constrain the possible relative configuration of the hand and object geometry. We design a generalizable implicit function, HandNeRF, that explicitly encodes the correlation of the 3D hand shape features and 2D object features to predict the hand and object scene geometry. With experiments on real-world datasets, we show that HandNeRF is able to reconstruct hand-object scenes of novel grasp configurations more accurately than comparable methods. Moreover, we demonstrate that object reconstruction from HandNeRF ensures more accurate execution of downstream tasks, such as grasping and motion planning for robotic hand-over and manipulation. The code will be release here: https://github.com/SamsungLabs/HandNeRF
翻訳日:2023-10-19 19:40:49 公開日:2023-10-17
# MetaGCD: 一般的なカテゴリー発見を継続的に学ぶ

MetaGCD: Learning to Continually Learn in Generalized Category Discovery ( http://arxiv.org/abs/2308.11063v2 )

ライセンス: Link先を確認
Yanan Wu, Zhixiang Chi, Yang Wang, Songhe Feng(参考訳) 本稿では、事前定義されたクラスでトレーニングされたモデルが、既知のクラスと新しいクラスの両方を含むラベルのないデータに常に遭遇する現実のシナリオについて考察する。 目標は、既知のクラスのパフォーマンスを維持しながら、新しいクラスを継続的に発見することである。 設定を連続的一般化圏発見 (c-gcd) と呼ぶ。 新規クラス発見のための既存のメソッドは、新しいクラスのみを含むラベルのないデータのような非現実的な仮定のために、直接c-gcd設定を扱うことができない。 さらに、新しいクラスを連続的に発見することができない。 本研究では,これらの仮定をすべて引き上げ,MetaGCDと呼ばれるアプローチを提案し,忘れることなく段階的に発見する方法を学習する。 提案手法はメタラーニングフレームワークを用いて,オフラインラベル付きデータを用いてテスト段階学習プロセスのシミュレーションを行う。 メタオブジェクトは、2つの矛盾する学習目標を取り囲むように定義され、忘れずに新しいクラス発見を実現する。 さらに,相関画像を引き寄せながら非相関画像を識別するソフト近傍型コントラストネットワークを提案する。 強力なベースラインを構築し、3つの広く使われているベンチマークで広範な実験を行い、本手法の優位性を実証する。

In this paper, we consider a real-world scenario where a model that is trained on pre-defined classes continually encounters unlabeled data that contains both known and novel classes. The goal is to continually discover novel classes while maintaining the performance in known classes. We name the setting Continual Generalized Category Discovery (C-GCD). Existing methods for novel class discovery cannot directly handle the C-GCD setting due to some unrealistic assumptions, such as the unlabeled data only containing novel classes. Furthermore, they fail to discover novel classes in a continual fashion. In this work, we lift all these assumptions and propose an approach, called MetaGCD, to learn how to incrementally discover with less forgetting. Our proposed method uses a meta-learning framework and leverages the offline labeled data to simulate the testing incremental learning process. A meta-objective is defined to revolve around two conflicting learning objectives to achieve novel class discovery without forgetting. Furthermore, a soft neighborhood-based contrastive network is proposed to discriminate uncorrelated images while attracting correlated images. We build strong baselines and conduct extensive experiments on three widely used benchmarks to demonstrate the superiority of our method.
翻訳日:2023-10-19 19:40:01 公開日:2023-10-17
# HAct:ニューラルネット活性化ヒストグラムを用いた分布外検出

HAct: Out-of-Distribution Detection with Neural Net Activation Histograms ( http://arxiv.org/abs/2309.04837v2 )

ライセンス: Link先を確認
Sudeepta Mondal and Ganesh Sundaramoorthi(参考訳) 本稿では,トレーニングニューラルネットワークの配布外データ(OOD)を簡易かつ効率的に検出する手法を提案する。 本稿では,入力データの影響下でのニューラルネットワーク層の出力値の確率分布(ヒストグラム近似)をood検出するための新しい記述子hact-アクティベーションヒストグラムを提案する。 HAct記述子に基づいてOOD検出器を定式化する。 複数の画像分類ベンチマークにおいて,HActはOOD検出における最先端技術よりもはるかに精度が高いことを示す。 例えば、我々の手法は標準OODベンチマークでResnet-50を用いて0.03%の偽陽性で95%の真正率(TPR)を達成し、偽陽性率を20.67%上回った(同じTPRの95%)。 計算効率と実装の容易さにより、HActは大規模にデプロイされたニューラルネットワークを監視できるオンライン実装に適している。

We propose a simple, efficient, and accurate method for detecting out-of-distribution (OOD) data for trained neural networks. We propose a novel descriptor, HAct - activation histograms, for OOD detection, that is, probability distributions (approximated by histograms) of output values of neural network layers under the influence of incoming data. We formulate an OOD detector based on HAct descriptors. We demonstrate that HAct is significantly more accurate than state-of-the-art in OOD detection on multiple image classification benchmarks. For instance, our approach achieves a true positive rate (TPR) of 95% with only 0.03% false-positives using Resnet-50 on standard OOD benchmarks, outperforming previous state-of-the-art by 20.67% in the false positive rate (at the same TPR of 95%). The computational efficiency and the ease of implementation makes HAct suitable for online implementation in monitoring deployed neural networks in practice at scale.
翻訳日:2023-10-19 19:29:46 公開日:2023-10-17
# 大規模空中画像のためのニューラルラジアンス場(NeRF)の創製 -マルチティリング手法とNeRFの幾何学的評価-

Enabling Neural Radiance Fields (NeRF) for Large-scale Aerial Images -- A Multi-tiling Approach and the Geometry Assessment of NeRF ( http://arxiv.org/abs/2310.00530v2 )

ライセンス: Link先を確認
Ningli Xu, Rongjun Qin, Debao Huang, Fabio Remondino(参考訳) neural radiance fields(nerf)は、航空写真測量を含む3d再構成タスクに役立つ可能性がある。 しかしながら、推定幾何のスケーラビリティと精度は、大規模な航空資産には十分に文書化されていないため、そのようなデータセットは通常、非常に高いメモリ消費と緩やかな収束をもたらす。 . 本稿では,大規模な航空データセット上でのNeRFのスケールアップと,NeRFの詳細な幾何学的評価を提案する。 具体的には,ramの画像読み込み時のメモリ消費を削減するマルチカメラティリング(mct)戦略,gpuメモリの表現トレーニング,タイル内の収束率の向上など,ロケーション固有のサンプリング手法を導入する。 MCTは、大きなフレームイメージを異なるカメラモデルで複数のタイル画像に分解し、これらの小さなフレームイメージを、精度を損なうことなく、特定の場所に必要なトレーニングプロセスに投入する。 提案手法は代表的手法であるMip-NeRFに実装し,その幾何学的性能を2つの典型的な空中データセット上の3フォットグラムのMVSパイプラインとLiDAR参照データと比較する。 定性的かつ定量的な結果から,提案手法は従来のアプローチよりも完全性とオブジェクト詳細性が向上することが示唆されるが,現時点では精度の面では不足している。

Neural Radiance Fields (NeRF) offer the potential to benefit 3D reconstruction tasks, including aerial photogrammetry. However, the scalability and accuracy of the inferred geometry are not well-documented for large-scale aerial assets,since such datasets usually result in very high memory consumption and slow convergence.. In this paper, we aim to scale the NeRF on large-scael aerial datasets and provide a thorough geometry assessment of NeRF. Specifically, we introduce a location-specific sampling technique as well as a multi-camera tiling (MCT) strategy to reduce memory consumption during image loading for RAM, representation training for GPU memory, and increase the convergence rate within tiles. MCT decomposes a large-frame image into multiple tiled images with different camera models, allowing these small-frame images to be fed into the training process as needed for specific locations without a loss of accuracy. We implement our method on a representative approach, Mip-NeRF, and compare its geometry performance with threephotgrammetric MVS pipelines on two typical aerial datasets against LiDAR reference data. Both qualitative and quantitative results suggest that the proposed NeRF approach produces better completeness and object details than traditional approaches, although as of now, it still falls short in terms of accuracy.
翻訳日:2023-10-19 19:19:58 公開日:2023-10-17
# 監視AIパイプライン

The Surveillance AI Pipeline ( http://arxiv.org/abs/2309.15084v2 )

ライセンス: Link先を確認
Pratyusha Ria Kalluri, William Agnew, Myra Cheng, Kentrell Owens, Luca Soldaini, Abeba Birhane(参考訳) AIの研究、特にコンピュータビジョンが大量監視に力を入れていると主張する声が急速に増えている。 しかし、コンピュータビジョン研究から監視への直接的な道はあいまいで、評価が難しいままである。 ここでは,30年間のコンピュータビジョン研究論文と下流の特許,4万以上の文書を分析し,監視aiパイプラインを明らかにする。 注釈付きコンピュータビジョンの論文や特許の大部分は、その技術によって人間のデータを抽出することができる。 さらに、これらの技術の大部分は、人体や身体の部分に関するデータの抽出を可能にする。 人間のデータ抽出の実践を照らした量的・豊かな質的分析を提示する。 このパイプラインのルーツを研究した結果、エリート大学や大企業といったコンピュータビジョン研究を多用する機関が、その後数千もの監視特許に引用されていることが判明した。 さらに、これらの少数の機関だけが監視に寄与しているという物語に対する一貫した証拠を見出した。 むしろ、機関、国家、またはサブフィールドの著者が下流の特許を持つコンピュータビジョンの論文を提出する場合、これらの論文の大部分が監視特許に使用されるという、フィールドワイドな規範を公開する。 1990年代から2010年代にかけて、下流の監視特許を持つ論文の数は5倍以上に増加し、11,000件以上の監視特許でコンピュータビジョンの研究が使われている。 最後に、コンピュータビジョンの論文や特許に記録されている高いレベルの監視に加えて、監視範囲を曖昧にする言語を用いて、文書の広範にわたるパターンを発掘する。 我々の分析は、コンピュータビジョン研究が監視の継続的な拡大に力を入れているパイプラインを明らかにしている。

A rapidly growing number of voices argue that AI research, and computer vision in particular, is powering mass surveillance. Yet the direct path from computer vision research to surveillance has remained obscured and difficult to assess. Here, we reveal the Surveillance AI pipeline by analyzing three decades of computer vision research papers and downstream patents, more than 40,000 documents. We find the large majority of annotated computer vision papers and patents self-report their technology enables extracting data about humans. Moreover, the majority of these technologies specifically enable extracting data about human bodies and body parts. We present both quantitative and rich qualitative analysis illuminating these practices of human data extraction. Studying the roots of this pipeline, we find that institutions that prolifically produce computer vision research, namely elite universities and "big tech" corporations, are subsequently cited in thousands of surveillance patents. Further, we find consistent evidence against the narrative that only these few rogue entities are contributing to surveillance. Rather, we expose the fieldwide norm that when an institution, nation, or subfield authors computer vision papers with downstream patents, the majority of these papers are used in surveillance patents. In total, we find the number of papers with downstream surveillance patents increased more than five-fold between the 1990s and the 2010s, with computer vision research now having been used in more than 11,000 surveillance patents. Finally, in addition to the high levels of surveillance we find documented in computer vision papers and patents, we unearth pervasive patterns of documents using language that obfuscates the extent of surveillance. Our analysis reveals the pipeline by which computer vision research has powered the ongoing expansion of surveillance.
翻訳日:2023-10-19 19:18:05 公開日:2023-10-17
# ケーブルニュースのバイアスを特徴付ける自然言語理解モデルの開発

Developing a Natural Language Understanding Model to Characterize Cable News Bias ( http://arxiv.org/abs/2310.09166v2 )

ライセンス: Link先を確認
Seth P. Benson and Iain J. Cruickshank(参考訳) メディアバイアスは社会科学と計算科学の両方で広く研究されてきた。 しかしながら、現在の研究は人間の入力とラベルバイアスに対する主観評価に大きく依存している。 これは特にケーブルニュース研究に当てはまる。 これらの問題に対処するために,ケーブルニュース番組のバイアスを人間の入力なしに特徴付ける教師なし機械学習手法を開発した。 この方法は、名前付きエンティティ認識を通じて言及されるトピックの分析と、同様のバイアスを持つプログラムをクラスタリングするために、スタンス分析を通じてそれらのトピックがどのように議論されるかに依存する。 この手法を2020年のケーブルニュースの書き起こしに適用すると、プログラムクラスタは時間とともに一貫し、ほぼプログラムのケーブルニュースネットワークに対応していることがわかる。 本手法は,メディアバイアスを客観的に評価し,不慣れなメディア環境を特徴付ける将来のツールの可能性を明らかにする。

Media bias has been extensively studied by both social and computational sciences. However, current work still has a large reliance on human input and subjective assessment to label biases. This is especially true for cable news research. To address these issues, we develop an unsupervised machine learning method to characterize the bias of cable news programs without any human input. This method relies on the analysis of what topics are mentioned through Named Entity Recognition and how those topics are discussed through Stance Analysis in order to cluster programs with similar biases together. Applying our method to 2020 cable news transcripts, we find that program clusters are consistent over time and roughly correspond to the cable news network of the program. This method reveals the potential for future tools to objectively assess media bias and characterize unfamiliar media environments.
翻訳日:2023-10-19 19:10:44 公開日:2023-10-17
# オンライン投機的デコード

Online Speculative Decoding ( http://arxiv.org/abs/2310.07177v2 )

ライセンス: Link先を確認
Xiaoxuan Liu, Lanxiang Hu, Peter Bailis, Ion Stoica, Zhijie Deng, Alvin Cheung, Hao Zhang(参考訳) 投機的復号化(英: Speculative decoding)は、より小さなドラフトモデルを用いてターゲットモデルの出力を予測することにより、大規模言語モデル(LLM)の推論を高速化する重要な手法である。 しかし、その有効性は、ドラフトモデルの予測精度が低いため、特に様々なテキスト入力に直面したり、ドラフトモデルとターゲットモデルの間の大きな能力ギャップに直面した場合に制限される。 この課題に対処するために、オンライン投機復号法(OSD)を導入する。 主な考え方は、LLMサービスクラスタにおける過剰な計算能力を利用して、観測されたユーザクエリデータのドラフトモデルを継続的に更新することである。 LLM推論がメモリバウンドであることを考えると、典型的なLCMサービスクラスタの余剰計算能力は、ドラフトモデルのオンライン再トレーニングに再利用することができ、トレーニングコストを中立にすることができる。 LLMサービスのクエリ分布は比較的単純であるため、クエリ分布の再トレーニングにより、特にクエリ分布から派生したデータに基づいて、ターゲットモデルの出力をより正確に予測することができる。 ドラフトモデルがオンラインで進化するにつれて、リアルタイムでクエリ分布と整合し、分散シフトを緩和します。 本稿では,オンライン知識蒸留に基づくオンライン投機的デコーディングのプロトタイプを開発し,いくつかのLLMの合成データと実データを用いて評価する。 その結果、トークンの受け入れ率は0.1から0.65に大幅に増加し、レイテンシが1.22倍から3.06倍に削減された。

Speculative decoding is a pivotal technique to accelerate the inference of large language models (LLMs) by employing a smaller draft model to predict the target model's outputs. However, its efficacy can be limited due to the low predictive accuracy of the draft model, particularly when faced with diverse text inputs and a significant capability gap between the draft and target models. We introduce online speculative decoding (OSD) to address this challenge. The main idea is to continually update (multiple) draft model(s) on observed user query data using the abundant excess computational power in an LLM serving cluster. Given that LLM inference is memory-bounded, the surplus computational power in a typical LLM serving cluster can be repurposed for online retraining of draft models, thereby making the training cost-neutral. Since the query distribution of an LLM service is relatively simple, retraining on query distribution enables the draft model to more accurately predict the target model's outputs, particularly on data originating from query distributions. As the draft model evolves online, it aligns with the query distribution in real time, mitigating distribution shifts. We develop a prototype of online speculative decoding based on online knowledge distillation and evaluate it using both synthetic and real query data on several popular LLMs. The results show a substantial increase in the token acceptance rate by 0.1 to 0.65, which translates into 1.22x to 3.06x latency reduction.
翻訳日:2023-10-19 19:09:12 公開日:2023-10-17
# 質問応答プランによるビジュアルストーリーテリング

Visual Storytelling with Question-Answer Plans ( http://arxiv.org/abs/2310.05295v2 )

ライセンス: Link先を確認
Danyang Liu, Mirella Lapata, Frank Keller(参考訳) ビジュアルストーリーテリングは、画像シーケンスから魅力的な物語を生成することを目的としている。 既存のモデルは、例えば外部知識ソースや高度なグラフ構造を持つ画像シーケンスの表現を強化することに集中することが多い。 近年の進展にもかかわらず、物語はしばしば反復的で非論理的であり、詳細は欠落している。 これらの問題を緩和するため,我々は,事前学習した言語モデルと計画と視覚表現を統合する新しいフレームワークを提案する。 我々のモデルは、画像列を視覚的な接頭辞、つまり言語モデルで解釈できる連続的な埋め込みの列に変換する。 また、一連の質問と回答のペアを青写真プランとして活用し、優れたビジュアルコンセプトを選択し、それらをストーリーに組み立てる方法を決定する。 VISTベンチマーク(Huang et al., 2016)における自動的および人的評価は、ブループリントベースのモデルは、競合するベースラインや最先端システムと比較して、より一貫性があり、興味深く、自然なストーリーを生成することを示している。

Visual storytelling aims to generate compelling narratives from image sequences. Existing models often focus on enhancing the representation of the image sequence, e.g., with external knowledge sources or advanced graph structures. Despite recent progress, the stories are often repetitive, illogical, and lacking in detail. To mitigate these issues, we present a novel framework which integrates visual representations with pretrained language models and planning. Our model translates the image sequence into a visual prefix, a sequence of continuous embeddings which language models can interpret. It also leverages a sequence of question-answer pairs as a blueprint plan for selecting salient visual concepts and determining how they should be assembled into a narrative. Automatic and human evaluation on the VIST benchmark (Huang et al., 2016) demonstrates that blueprint-based models generate stories that are more coherent, interesting, and natural compared to competitive baselines and state-of-the-art systems.
翻訳日:2023-10-19 19:08:47 公開日:2023-10-17
# テスト時間適応による大規模事前学習モデルにおけるクラスインクリメンタル学習の再考

Rethinking Class-incremental Learning in the Era of Large Pre-trained Models via Test-Time Adaptation ( http://arxiv.org/abs/2310.11482v1 )

ライセンス: Link先を確認
Imad Eddine Marouf, Subhankar Roy, Enzo Tartaglione, St\'ephane Lathuili\`ere(参考訳) クラス増分学習(クラス増分学習、class-incremental learning、CIL)は、学習した情報を忘れずにクラスを新しいタスクに分類する難題である。 大規模な事前学習モデル(PTM)の出現は、非常に伝達可能なPTM表現によってCILの進行を素早く追跡し、小さなパラメータセットをチューニングすることで、スクラッチからトレーニングされた従来のCIL手法と比較して、最先端のパフォーマンスが得られる。 しかし、各タスクの繰り返し微調整はptmの豊かな表現を破壊し、さらに前のタスクを忘れることになる。 cilにおけるptmの安定性と可塑性のバランスを両立させるために,新たなタスク毎にトレーニングを廃止し,テストインスタンスに対してtta(test-time adaptation)を直接実施するという,新たな視点を提案する。 具体的には、タスク固有の特徴を学習するために各テストインスタンス上でPTMの層ノルムパラメータを初めて微調整し、安定性を保つためにベースモデルにリセットするTTACIL(Test-Time Adaptation for Class-Incremental Learning)を提案する。 その結果、TTACILは、豊富なPTM機能で各タスクの恩恵を受けながら、一切忘れることはない。 さらに,本手法は設計上,一般的なデータ破損に対して堅牢である。 我々のTTACILは、クリーンデータと破損データの両方で複数のCILベンチマークで評価した場合、最先端のCILメソッドよりも優れています。

Class-incremental learning (CIL) is a challenging task that involves continually learning to categorize classes into new tasks without forgetting previously learned information. The advent of the large pre-trained models (PTMs) has fast-tracked the progress in CIL due to the highly transferable PTM representations, where tuning a small set of parameters results in state-of-the-art performance when compared with the traditional CIL methods that are trained from scratch. However, repeated fine-tuning on each task destroys the rich representations of the PTMs and further leads to forgetting previous tasks. To strike a balance between the stability and plasticity of PTMs for CIL, we propose a novel perspective of eliminating training on every new task and instead performing test-time adaptation (TTA) directly on the test instances. Concretely, we propose "Test-Time Adaptation for Class-Incremental Learning" (TTACIL) that first fine-tunes Layer Norm parameters of the PTM on each test instance for learning task-specific features, and then resets them back to the base model to preserve stability. As a consequence, TTACIL does not undergo any forgetting, while benefiting each task with the rich PTM features. Additionally, by design, our method is robust to common data corruptions. Our TTACIL outperforms several state-of-the-art CIL methods when evaluated on multiple CIL benchmarks under both clean and corrupted data.
翻訳日:2023-10-19 19:00:26 公開日:2023-10-17
# 全脳x線撮影による脳腫瘍分節におけるフェデレート・パーソナライズ

Whole-brain radiomics for clustered federated personalization in brain tumor segmentation ( http://arxiv.org/abs/2310.11480v1 )

ライセンス: Link先を確認
Matthis Manthe (MYRIAD, LIRIS), Stefan Duffner (LIRIS), Carole Lartizien (MYRIAD)(参考訳) フェデレート学習とその医用画像分割への応用は,近年,一般的な研究テーマとなっている。 このトレーニングパラダイムは、参加する機関のローカルデータセット間の統計的不均一性に苦しめられ、収束の鈍化や、古典的なトレーニングに比べて精度の低下が伴う。 この効果を緩和するため、機関ごとの1つのモデルのフェデレート最適化として、フェデレートされたパーソナライゼーションが出現した。 本稿では,異なるスキャナの使用や,異なる機関による取得パラメータの使用によって生じる特徴変化に合わせた,新たなパーソナライズアルゴリズムを提案する。 本手法は, 施設間および施設内特徴シフト(単一施設で使用される複数のスキャナー)を初めて考慮した手法である。 これは、各3次元画像ボリュームのグローバルなテクスチャを捉えた一連の放射能特徴の計算に基づいており、続いて、局所的な施設から中央サーバーに転送される全ての特徴ベクトルをプールするクラスタリング解析を行う。 各計算されたクラスタ化された分散データセット(潜在的には異なる機関のデータを含む)は、古典的な連邦学習を通じて得られたグローバルモデルを微調整する。 我々は,federated brain tumor segmentation 2022 challenge dataset (fets2022) のアプローチを検証する。 私たちのコードは(https://github.com/matthismanthe/radiomics_cffl)。

Federated learning and its application to medical image segmentation have recently become a popular research topic. This training paradigm suffers from statistical heterogeneity between participating institutions' local datasets, incurring convergence slowdown as well as potential accuracy loss compared to classical training. To mitigate this effect, federated personalization emerged as the federated optimization of one model per institution. We propose a novel personalization algorithm tailored to the feature shift induced by the usage of different scanners and acquisition parameters by different institutions. This method is the first to account for both inter and intra-institution feature shift (multiple scanners used in a single institution). It is based on the computation, within each centre, of a series of radiomic features capturing the global texture of each 3D image volume, followed by a clustering analysis pooling all feature vectors transferred from the local institutions to the central server. Each computed clustered decentralized dataset (potentially including data from different institutions) then serves to finetune a global model obtained through classical federated learning. We validate our approach on the Federated Brain Tumor Segmentation 2022 Challenge dataset (FeTS2022). Our code is available at (https://github.com/MatthisManthe/radiomics_CFFL).
翻訳日:2023-10-19 18:59:53 公開日:2023-10-17
# 等角予測のためのベイズグラフニューラルネットワークの温度について

On the Temperature of Bayesian Graph Neural Networks for Conformal Prediction ( http://arxiv.org/abs/2310.11479v1 )

ライセンス: Link先を確認
Seohyeon Cha, Honggu Kang, and Joonhyuk Kang(参考訳) グラフニューラルネットワーク(GNN)における正確な不確実性定量化は、特にGNNが頻繁に使用される高い領域において不可欠である。 コンフォーマル予測(CP)は、任意のブラックボックスモデルに対して$\textit{valid}$予測セットを提供することによって不確実性を定量化する有望なフレームワークを提供する。 CPは、予測セットが所望の確率を持つ真のラベルを含むことを保証する。 しかし、$\textit{inefficiency}$として知られる予測セットのサイズは、基礎となるモデルとデータ生成プロセスの影響を受けている。 一方、ベイズ学習は推定された後続分布に基づく信頼できる領域も提供するが、この領域はモデルが正しく指定されたときのみ$\textit{well-calibrated}$である。 過去の推定値から有効信頼領域を構築するためのスケーリングパラメータを導入した最近の研究に基づいて, CP フレームワーク内にベイズ GNN に温度パラメータを組み込むことの利点について検討した。 より効率的な予測セットをもたらす温度の存在を実証的に実証する。 さらに,非効率に寄与する要因を明らかにするために分析を行い,cp性能とモデル校正の関係に関する貴重な知見を提供する。

Accurate uncertainty quantification in graph neural networks (GNNs) is essential, especially in high-stakes domains where GNNs are frequently employed. Conformal prediction (CP) offers a promising framework for quantifying uncertainty by providing $\textit{valid}$ prediction sets for any black-box model. CP ensures formal probabilistic guarantees that a prediction set contains a true label with a desired probability. However, the size of prediction sets, known as $\textit{inefficiency}$, is influenced by the underlying model and data generating process. On the other hand, Bayesian learning also provides a credible region based on the estimated posterior distribution, but this region is $\textit{well-calibrated}$ only when the model is correctly specified. Building on a recent work that introduced a scaling parameter for constructing valid credible regions from posterior estimate, our study explores the advantages of incorporating a temperature parameter into Bayesian GNNs within CP framework. We empirically demonstrate the existence of temperatures that result in more efficient prediction sets. Furthermore, we conduct an analysis to identify the factors contributing to inefficiency and offer valuable insights into the relationship between CP performance and model calibration.
翻訳日:2023-10-19 18:59:20 公開日:2023-10-17
# ASP: 効率的なAutoMLのためのプロキシデータセットの自動選択

ASP: Automatic Selection of Proxy dataset for efficient AutoML ( http://arxiv.org/abs/2310.11478v1 )

ライセンス: Link先を確認
Peng Yao, Chao Liao, Jiyuan Jia, Jianchao Tan, Bin Chen, Chengru Song, Di Zhang(参考訳) 深層ニューラルネットワークは、データ量の増加と多様な効果的なニューラルネットワーク設計によって大きな成功を収めている。 しかし、トレーニングデータの量はトレーニング時間に比例するため、計算の負担も大きい。 さらに、優れたモデルでは、異なる構造設計とハイパーパラメータの反復的な試行が必要であり、最先端(SOTA)ハイパーパラメータ最適化(HPO)アルゴリズムやニューラルアーキテクチャサーチ(NAS)アルゴリズムでさえ、多大な時間を要する可能性がある。 本稿では,各エポックにおけるトレーニングデータの有益なプロキシサブセットを動的に検索することを目的としたproxy dataset framework(asp)の自動選択を提案し,トレーニングデータサイズを削減し,オートml処理時間を節約する。 CIFAR10, CIFAR100, ImageNet16-120, ImageNet-1kにおけるASPの有効性と一般化の検証を行った。 実験の結果, ASPは他のデータ選択方法よりも, 選択比で優れた結果が得られることがわかった。 さらにASPは、2x-20xのスピードアップでAutoML処理をはるかに効率的なものにすると同時に、データセット全体よりも優れたアーキテクチャとハイパーパラメータを得ることができる。

Deep neural networks have gained great success due to the increasing amounts of data, and diverse effective neural network designs. However, it also brings a heavy computing burden as the amount of training data is proportional to the training time. In addition, a well-behaved model requires repeated trials of different structure designs and hyper-parameters, which may take a large amount of time even with state-of-the-art (SOTA) hyper-parameter optimization (HPO) algorithms and neural architecture search (NAS) algorithms. In this paper, we propose an Automatic Selection of Proxy dataset framework (ASP) aimed to dynamically find the informative proxy subsets of training data at each epoch, reducing the training data size as well as saving the AutoML processing time. We verify the effectiveness and generalization of ASP on CIFAR10, CIFAR100, ImageNet16-120, and ImageNet-1k, across various public model benchmarks. The experiment results show that ASP can obtain better results than other data selection methods at all selection ratios. ASP can also enable much more efficient AutoML processing with a speedup of 2x-20x while obtaining better architectures and better hyper-parameters compared to utilizing the entire dataset.
翻訳日:2023-10-19 18:59:00 公開日:2023-10-17
# Robust-MBFD:複数深層学習戦略と新しい二重損失関数を用いた運動軸受故障検出のためのロバスト深部学習システム

Robust-MBFD: A Robust Deep Learning System for Motor Bearing Faults Detection Using Multiple Deep Learning Training Strategies and A Novel Double Loss Function ( http://arxiv.org/abs/2310.11477v1 )

ライセンス: Link先を確認
Khoa Tran, Lam Pham, Hai-Canh Vu(参考訳) 本稿では, モータ軸受故障検出(MBFD)の総合的解析を行い, その振動に基づいてモータ軸受の故障を同定する作業について述べる。 そこで我々はまず,MBFDタスクのための各種機械学習ベースシステムの提案と評価を行った。 さらに、MBFDタスクのための3つのディープラーニングベースシステムを提案し、それぞれが、教師あり学習、半教師なし学習、教師なし学習の1つを探索する。 提案する機械学習ベースシステムとディープラーニングベースのシステムを比較し、mbfdタスクの最適なモデルを特定するために使用する。 われわれは,MFPT(American Society for Mechanical Prevention Prevention Technology),CWRU(Cケース・ウェスタン・リザーブ大学ベアリングセンター),パダーボーン大学(PU)の電気機械駆動システムにおけるベアリング損傷の状況モニタリングなど,各種のモータベアリング障害のベンチマークデータセットについて検討を行った。 異なるデータセットに関する実験結果は、この研究の主な貢献点を2つ挙げている。 まず、深層学習に基づくシステムは、MBFDタスクのための機械学習ベースのシステムよりも効果的であることを示す。 第2に,複数のベンチマークデータセット上でMBFDタスクに新たな損失関数を付与した,堅牢で汎用的な深層学習システムを実現し,実生活におけるMBFDアプリケーションの可能性を示す。

This paper presents a comprehensive analysis of motor bearing fault detection (MBFD), which involves the task of identifying faults in a motor bearing based on its vibration. To this end, we first propose and evaluate various machine learning based systems for the MBFD task. Furthermore, we propose three deep learning based systems for the MBFD task, each of which explores one of the following training strategies: supervised learning, semi-supervised learning, and unsupervised learning. The proposed machine learning based systems and deep learning based systems are evaluated, compared, and then they are used to identify the best model for the MBFD task. We conducted extensive experiments on various benchmark datasets of motor bearing faults, including those from the American Society for Mechanical Failure Prevention Technology (MFPT), Case Western Reserve University Bearing Center (CWRU), and the Condition Monitoring of Bearing Damage in Electromechanical Drive Systems from Paderborn University (PU). The experimental results on different datasets highlight two main contributions of this study. First, we prove that deep learning based systems are more effective than machine learning based systems for the MBFD task. Second, we achieve a robust and general deep learning based system with a novel loss function for the MBFD task on several benchmark datasets, demonstrating its potential for real-life MBFD applications.
翻訳日:2023-10-19 18:58:36 公開日:2023-10-17
# 医用コンピュータビジョンにおけるトラッキングとマッピング

Tracking and Mapping in Medical Computer Vision: A Review ( http://arxiv.org/abs/2310.11475v1 )

ライセンス: Link先を確認
Adam Schmidt, Omid Mohareri, Simon DiMaio, Michael Yip, Septimiu E. Salcudean(参考訳) コンピュータビジョンアルゴリズムの能力が向上するにつれて、臨床システムにおけるその応用はより広まりつつある。 これらの応用には、大腸内視鏡や気管支内視鏡などの診断、生検の導出、最小侵襲の介入と手術、計器運動の自動化、術前スキャンを用いた画像誘導などが含まれる。 これらのアプリケーションの多くは、医療現場の視覚的な性質に依存しており、この環境で実行するアルゴリズムの設計と適用を必要とする。 本稿では,医療コンピュータビジョンにおける手術・診断におけるカメラベーストラッキングとシーンマッピングの分野の更新について述べる。 まず、レビュープロセスを説明し、その結果、515の論文の最終リストを作成します。 次に,臨床応用の追跡とマッピングが必要な患者に対して,その技術状況の高レベルな要約と,関連した背景を提供する。 次に,現場で提供されたデータセットと臨床ニーズをレビューする。 次に,我々はアルゴリズムの側面を深く掘り下げ,最近の開発を概説する。これは特にアルゴリズム設計者や,既成の手法の能力を理解したい人にとって有用である。 我々は,変形可能な環境のためのアルゴリズムに注目しながら,剛性追跡とマッピングにおいて必要不可欠なビルディングブロックをレビューする。 最後に、将来的なアルゴリズムの必要性、定量化の必要性、現場における臨床応用の可能性とともに、追跡・マッピング手法の現状について論じる。 我々は、変形可能な環境における臨床応用を支援するために新しい手法を設計または組み合わせる必要があり、トレーニングと評価のためのデータセット収集にもっと注力する必要があると結論付けた。

As computer vision algorithms are becoming more capable, their applications in clinical systems will become more pervasive. These applications include diagnostics such as colonoscopy and bronchoscopy, guiding biopsies and minimally invasive interventions and surgery, automating instrument motion and providing image guidance using pre-operative scans. Many of these applications depend on the specific visual nature of medical scenes and require designing and applying algorithms to perform in this environment. In this review, we provide an update to the field of camera-based tracking and scene mapping in surgery and diagnostics in medical computer vision. We begin with describing our review process, which results in a final list of 515 papers that we cover. We then give a high-level summary of the state of the art and provide relevant background for those who need tracking and mapping for their clinical applications. We then review datasets provided in the field and the clinical needs therein. Then, we delve in depth into the algorithmic side, and summarize recent developments, which should be especially useful for algorithm designers and to those looking to understand the capability of off-the-shelf methods. We focus on algorithms for deformable environments while also reviewing the essential building blocks in rigid tracking and mapping since there is a large amount of crossover in methods. Finally, we discuss the current state of the tracking and mapping methods along with needs for future algorithms, needs for quantification, and the viability of clinical applications in the field. We conclude that new methods need to be designed or combined to support clinical applications in deformable environments, and more focus needs to be put into collecting datasets for training and evaluation.
翻訳日:2023-10-19 18:58:08 公開日:2023-10-17
# PaLI-3ビジョン言語モデル: より小さく、より速く、より強く

PaLI-3 Vision Language Models: Smaller, Faster, Stronger ( http://arxiv.org/abs/2310.09199v2 )

ライセンス: Link先を確認
Xi Chen, Xiao Wang, Lucas Beyer, Alexander Kolesnikov, Jialin Wu, Paul Voigtlaender, Basil Mustafa, Sebastian Goodman, Ibrahim Alabdulmohsin, Piotr Padlewski, Daniel Salz, Xi Xiong, Daniel Vlasic, Filip Pavetic, Keran Rong, Tianli Yu, Daniel Keysers, Xiaohua Zhai, Radu Soricut(参考訳) 本稿では,より小さく,より速く,より強力な視覚言語モデル(VLM)であるPaLI-3について述べる。 この強力な性能に到達するために、分類目的を用いて事前訓練されたビジョントランスフォーマー(ViT)モデルと、対照的に(SigLIP)事前訓練されたモデルを比較した。 SigLIPベースのPaLIは、標準的な画像分類ベンチマークでは若干性能が劣るが、様々なマルチモーダルベンチマーク、特にローカライゼーションと視覚的テキスト理解において、優れた性能を示す。 siglip画像エンコーダを最大20億のパラメータにスケールし,多言語横断モーダル検索における新たな最先端を実現する。 PaLI-3は、わずか5Bのパラメータで、複雑なVLMの基本部品の研究を再開し、新しい世代のスケールアップモデルに拍車をかけることを願っている。

This paper presents PaLI-3, a smaller, faster, and stronger vision language model (VLM) that compares favorably to similar models that are 10x larger. As part of arriving at this strong performance, we compare Vision Transformer (ViT) models pretrained using classification objectives to contrastively (SigLIP) pretrained ones. We find that, while slightly underperforming on standard image classification benchmarks, SigLIP-based PaLI shows superior performance across various multimodal benchmarks, especially on localization and visually-situated text understanding. We scale the SigLIP image encoder up to 2 billion parameters, and achieves a new state-of-the-art on multilingual cross-modal retrieval. We hope that PaLI-3, at only 5B parameters, rekindles research on fundamental pieces of complex VLMs, and could fuel a new generation of scaled-up models.
翻訳日:2023-10-19 18:56:49 公開日:2023-10-17
# グループ選好最適化:大規模言語モデルの少数ショットアライメント

Group Preference Optimization: Few-Shot Alignment of Large Language Models ( http://arxiv.org/abs/2310.11523v1 )

ライセンス: Link先を確認
Siyan Zhao, John Dang, Aditya Grover(参考訳) 大きな言語モデル(LLM)の多くの応用は、チャットボットからクリエイティブな文章まで、異なるグループ間で大きく異なる主観的判断を必要とする。 既存のアライメントアルゴリズムは各グループの調整に費用がかかり、現実のユースケースでは、グループ固有の選好データや計算が禁じられている。 グループ優先最適化(GPO: Group Preference Optimization)は、言語モデルから個々のグループを数ショットで選好するアライメントフレームワークである。 GPOでは、LLM世代に対するグループの嗜好を予測するために、独立したトランスフォーマーモジュールでベースLSMを増強する。 数ショットの学習では、このモジュールをコンテキスト内自己回帰変換器としてパラメータ化し、複数のグループのメタ学習を通じて学習する。 我々は,3つの意見適応タスクにおけるLLMを用いた厳密な評価により,GPOの有効性を実証的に検証した。 これらのタスクは、アメリカの人口統計グループ、世界各国、および個人ユーザーの好みに適応することを含む。 以上の結果から,GPOはモデルをより正確に整合させるだけでなく,グループ固有の嗜好を少なくし,トレーニングや推論の資源を少なくし,コンテキスト内ステアリングや微調整といった既存手法よりも優れていることが示された。

Many applications of large language models (LLMs), ranging from chatbots to creative writing, require nuanced subjective judgments that can differ significantly across different groups. Existing alignment algorithms can be expensive to align for each group, requiring prohibitive amounts of group-specific preference data and computation for real-world use cases. We introduce Group Preference Optimization (GPO), an alignment framework that steers language models to preferences of individual groups in a few-shot manner. In GPO, we augment the base LLM with an independent transformer module trained to predict the preferences of a group for the LLM generations. For few-shot learning, we parameterize this module as an in-context autoregressive transformer and train it via meta-learning on several groups. We empirically validate the efficacy of GPO through rigorous evaluations using LLMs with varied sizes on three human opinion adaptation tasks. These tasks involve adapting to the preferences of US demographic groups, global countries, and individual users. Our results demonstrate that GPO not only aligns models more accurately but also requires fewer group-specific preferences, and less training and inference computing resources, outperforming existing strategies such as in-context steering and fine-tuning methods.
翻訳日:2023-10-19 18:51:27 公開日:2023-10-17
# 自動ニュースサマー化

Automatic News Summerization ( http://arxiv.org/abs/2310.11520v1 )

ライセンス: Link先を確認
Kavach Dheer and Arpit Dhankhar(参考訳) 自然言語処理は,ニュース記事を含む大規模テキストを対象としたテキスト要約という,現実世界での応用が盛んに行われている。 本研究は,ニューステキスト要約のための抽出的および抽象的アプローチの広範な比較評価を行い,ROUGEスコア分析に重点を置いている。 この研究は、ニュース記事と人為的な参照要約からなるCNN-Daily Mailデータセットを用いている。 評価はROUGEスコアを用いて生成した要約の有効性と品質を評価する。 評価後、Webアプリケーション上で最高のパフォーマンスモデルを統合し、実際の機能とユーザエクスペリエンスを評価します。

Natural Language Processing is booming with its applications in the real world, one of which is Text Summarization for large texts including news articles. This research paper provides an extensive comparative evaluation of extractive and abstractive approaches for news text summarization, with an emphasis on the ROUGE score analysis. The study employs the CNN-Daily Mail dataset, which consists of news articles and human-generated reference summaries. The evaluation employs ROUGE scores to assess the efficacy and quality of generated summaries. After Evaluation, we integrate the best-performing models on a web application to assess their real-world capabilities and user experience.
翻訳日:2023-10-19 18:51:04 公開日:2023-10-17
# polymatrix decomposability によるマルチプレイヤーゲームにおけるセルフプレイの保証

Guarantees for Self-Play in Multiplayer Games via Polymatrix Decomposability ( http://arxiv.org/abs/2310.11518v1 )

ライセンス: Link先を確認
Revan MacQueen, James R. Wright(参考訳) セルフプレイ(Self-play)は、学習アルゴリズムが自分自身のコピーと対話して学習するマルチエージェントシステムにおける機械学習のテクニックである。 セルフプレイは学習のための大量のデータを生成するのに有用であるが、学習者が学習後に直面するエージェントが、学習者が自分自身と対話することによって予想される行動と劇的に異なる行動をとるという欠点がある。 2人プレイの定額制ゲームの場合、ナッシュ均衡に達するセルフプレイは、トレーニング後の対戦相手に対してうまく機能する戦略を生み出すことが保証されるが、マルチプレイヤーゲームにはそのような保証はない。 グローバル$\epsilon$-nash平衡が各サブゲーム内のnash-equilibriaと境界的に離れている2人のプレイヤーのコンスタントサムゲーム(ポリマトリックスゲームと呼ばれる)に大まかに分解されるゲームでは、自己プレイで学習する非外部レグレットアルゴリズムは、有界な脆弱性を持つ戦略を生成する。 本研究は,マルチプレイヤーゲームの構造的特性を初めて同定し,多種多様なセルフプレイアルゴリズムによって生成される戦略の性能保証を実現する。 我々はLeduc pokerの実験を通してこの知見を実証した。

Self-play is a technique for machine learning in multi-agent systems where a learning algorithm learns by interacting with copies of itself. Self-play is useful for generating large quantities of data for learning, but has the drawback that the agents the learner will face post-training may have dramatically different behavior than the learner came to expect by interacting with itself. For the special case of two-player constant-sum games, self-play that reaches Nash equilibrium is guaranteed to produce strategies that perform well against any post-training opponent; however, no such guarantee exists for multi-player games. We show that in games that approximately decompose into a set of two-player constant-sum games (called polymatrix games) where global $\epsilon$-Nash equilibria are boundedly far from Nash-equilibria in each subgame, any no-external-regret algorithm that learns by self-play will produce a strategy with bounded vulnerability. For the first time, our results identify a structural property of multi-player games that enable performance guarantees for the strategies produced by a broad class of self-play algorithms. We demonstrate our findings through experiments on Leduc poker.
翻訳日:2023-10-19 18:50:54 公開日:2023-10-17
# 割引線形mdpにおけるモデルベース強化学習における値バイアス最大確率推定

Value-Biased Maximum Likelihood Estimation for Model-based Reinforcement Learning in Discounted Linear MDPs ( http://arxiv.org/abs/2310.11515v1 )

ライセンス: Link先を確認
Yu-Heng Hung, Ping-Chun Hsieh, Akshay Mete, P. R. Kumar(参考訳) 我々は、動的モデルの遷移確率を、予め定義された低次元特徴写像の助けを借りて線形パラメータ化できる無限水平線型マルコフ決定過程(MDP)を考える。 既存の回帰に基づくアプローチは理論的にはほぼ最適の後悔を達成することが示されているが、特に状態と行動空間が大きい場合、各ステップで大量の最適化を実行する必要があるため、計算的により非効率である。 そこで本研究では,最大推定値の既知閉ループ同定問題を解くための適応制御文献における古典的なモデルに基づく探索原理であるvbmle(value-biased maximum likelihood estimation)のレンズを用いて線形mdpを解くことを提案する。 私たちはそれを正式に示す (i) vbmle は$\widetilde{o}(d\sqrt{t})$ regret を楽しみ、ここで$t$ は時間軸、$d$ はモデルパラメータの次元である。 (II)VBMLEは,各時間ステップで1つの最適化問題を解くだけでよいため,計算効率が向上する。 私たちの後悔の分析では、新しいスーパーマーチンゲール構成を通して線形mdpにおけるmleの一般的な収束結果を提供し、リニアmdpとオンライン学習の興味深い関係を明らかにする。 最後に, シミュレーションの結果から, VBMLEは経験的後悔と計算時間の両方において, ベンチマーク法を著しく上回っていることがわかった。

We consider the infinite-horizon linear Markov Decision Processes (MDPs), where the transition probabilities of the dynamic model can be linearly parameterized with the help of a predefined low-dimensional feature mapping. While the existing regression-based approaches have been theoretically shown to achieve nearly-optimal regret, they are computationally rather inefficient due to the need for a large number of optimization runs in each time step, especially when the state and action spaces are large. To address this issue, we propose to solve linear MDPs through the lens of Value-Biased Maximum Likelihood Estimation (VBMLE), which is a classic model-based exploration principle in the adaptive control literature for resolving the well-known closed-loop identification problem of Maximum Likelihood Estimation. We formally show that (i) VBMLE enjoys $\widetilde{O}(d\sqrt{T})$ regret, where $T$ is the time horizon and $d$ is the dimension of the model parameter, and (ii) VBMLE is computationally more efficient as it only requires solving one optimization problem in each time step. In our regret analysis, we offer a generic convergence result of MLE in linear MDPs through a novel supermartingale construct and uncover an interesting connection between linear MDPs and online learning, which could be of independent interest. Finally, the simulation results show that VBMLE significantly outperforms the benchmark method in terms of both empirical regret and computation time.
翻訳日:2023-10-19 18:50:30 公開日:2023-10-17
# 量子加算器におけるノイズとバンドのトレードオフ

Trade-off between Noise and Banding in a Quantum Adder with Qudits ( http://arxiv.org/abs/2310.11514v1 )

ライセンス: Link先を確認
Gaurang Agrawal, Tanoy Kanti Konar, Leela Ganesh Chandra Lakkaraju, Aditi Sen De(参考訳) 量子フーリエ変換に基づく量子付加は量子回路の積分部分となり、既存の古典的なリップルキャリー加算器よりも効率的であることが証明された。 本研究は、任意の次元における量子加算器に必要な量子資源の同定と、回路に作用する局所雑音の存在下での性能指標との関係、および制御された回転操作の限られた数の場合に、バンドリングと呼ばれる手順を含む。 我々は、所望の出力と不完全出力の間の忠実性の任意の欠陥まで、量子加算を達成するために必要な制御された回転ゲートの数に対する上限を解析的に証明する。 環境が個々のquditと相互作用すると、量子コヒーレンスと出力の忠実性の関係が確立される。 興味深いことに, 雑音の存在下でバンドリングを行う場合, 一定深さの近似回路は, 制御された回転数がより多くなるので, 近似量子加算器と雑音強度との相補関係が確立される。 我々は、磁場を利用して一次元スピンチェーンに沿って一定時間発展する初期状態を作成することは、多体系において量子付加回路を実装する潜在的な技術であることを示す。

Quantum addition based on the quantum Fourier transform can be an integral part of a quantum circuit and proved to be more efficient than the existing classical ripple carry adder. Our study includes identifying the quantum resource required in a quantum adder in any arbitrary dimension and its relationship with the performance indicator in the presence of local noise acting on the circuit and when a limited number of controlled rotation operations is permitted, a procedure known as banding. We analytically prove an upper bound on the number of the controlled rotation gates required to accomplish the quantum addition up to an arbitrary defect in the fidelity between the desired and imperfect output. When the environment interacts with individual qudits, we establish a connection between quantum coherence and fidelity of the output. Interestingly, we demonstrate that when banding is employed in the presence of noise, approximate circuits of constant depth outperform circuits with a higher number of controlled rotations, establishing a complementary relationship between the approximate quantum adder and the strength of the noise. We exhibit that utilizing magnetic fields to prepare an initial state that evolves according to a one-dimensional spin chain for a specific amount of time can be a potential technique to implement quantum addition circuits in many-body systems.
翻訳日:2023-10-19 18:50:00 公開日:2023-10-17
# geneval:テキストから画像へのアライメントを評価するオブジェクト指向フレームワーク

GenEval: An Object-Focused Framework for Evaluating Text-to-Image Alignment ( http://arxiv.org/abs/2310.11513v1 )

ライセンス: Link先を確認
Dhruba Ghosh, Hanna Hajishirzi, Ludwig Schmidt(参考訳) 近年の拡散モデル、マルチモーダル事前学習、効率的な微調整が、テキスト・画像生成モデルの爆発を引き起こしている。 人的評価は高価でスケールが難しいため、ますます多くの新しいモデルを評価するには自動化手法が不可欠である。 しかし、FIDやCLIPScoreのような現在の自動評価指標のほとんどは、画像の品質や画像テキストのアライメントの総合的な測定のみを提供しており、きめ細かい分析やインスタンスレベルの分析には適していない。 本稿では,オブジェクト共起,位置,カウント,色などの合成画像特性を評価するための,オブジェクト指向フレームワークであるgenevalを紹介する。 本研究では,現在の物体検出モデルを用いて,人間の強い同意を得て様々な生成タスクにおけるテキスト対画像モデルの評価を行い,他の識別的視覚モデルとこのパイプラインをリンクすることで,物体色などの特性をさらに検証できることを示す。 次に、複数のオープンソーステキスト画像モデルを評価し、その相対的生成能力をベンチマークで分析する。 近年のモデルでは,空間的関係や属性の結合といった複雑な機能に欠けるものの,これらのタスクに顕著な改善が見られた。 最後に、GenEvalが既存の障害モードの発見にどのように役立つかを示し、次世代のテキスト・画像モデルの開発を知らせる。 GenEvalフレームワークを実行するためのコードはhttps://github.com/djghosh13/geneval.comで公開されています。

Recent breakthroughs in diffusion models, multimodal pretraining, and efficient finetuning have led to an explosion of text-to-image generative models. Given human evaluation is expensive and difficult to scale, automated methods are critical for evaluating the increasingly large number of new models. However, most current automated evaluation metrics like FID or CLIPScore only offer a holistic measure of image quality or image-text alignment, and are unsuited for fine-grained or instance-level analysis. In this paper, we introduce GenEval, an object-focused framework to evaluate compositional image properties such as object co-occurrence, position, count, and color. We show that current object detection models can be leveraged to evaluate text-to-image models on a variety of generation tasks with strong human agreement, and that other discriminative vision models can be linked to this pipeline to further verify properties like object color. We then evaluate several open-source text-to-image models and analyze their relative generative capabilities on our benchmark. We find that recent models demonstrate significant improvement on these tasks, though they are still lacking in complex capabilities such as spatial relations and attribute binding. Finally, we demonstrate how GenEval might be used to help discover existing failure modes, in order to inform development of the next generation of text-to-image models. Our code to run the GenEval framework is publicly available at https://github.com/djghosh13/geneval.
翻訳日:2023-10-19 18:49:41 公開日:2023-10-17
# Self-RAG: 自己回帰を通じて学習し、生成し、批判する

Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection ( http://arxiv.org/abs/2310.11511v1 )

ライセンス: Link先を確認
Akari Asai, Zeqiu Wu, Yizhong Wang, Avirup Sil, Hannaneh Hajishirzi(参考訳) その顕著な能力にもかかわらず、大きな言語モデル(LLM)は、カプセル化されるパラメトリック知識にのみ依存するため、事実的不正確を含む応答をしばしば生成する。 Retrieval-Augmented Generation (RAG)は、関連する知識の検索によってLMを増強するアドホックなアプローチであり、そのような問題を減少させる。 しかし、検索が必要か、あるいは関連があるかに関わらず、無差別に検索された通路の一定数を検索し、組み込むと、lmの汎用性が低下し、あるいは無益な応答生成に繋がる。 我々は,自己回帰型自己回帰生成(Self-RAG)と呼ばれる新たなフレームワークを導入し,検索と自己回帰によってLMの品質と事実性を向上する。 我々のフレームワークは、オンデマンドで経路を適応的に検索する単一の任意のLMを訓練し、反射トークンと呼ばれる特別なトークンを用いて、検索された経路とその世代を生成および反映する。 リフレクショントークンの生成により、LMは推論フェーズで制御可能となり、多様なタスク要求に合わせて振る舞いを調整できる。 実験により、自己RAG (7Bおよび13Bパラメータ) は、様々なタスクセットにおける最先端のLCMと検索強化モデルよりも著しく優れていた。 特に、自己RAGは、オープンドメインQA、推論、事実検証タスクにおいて、ChatGPTおよび検索強化Llama2-chatより優れており、これらのモデルと比較して、実数性と引用精度を向上する上で大きな効果がある。

Despite their remarkable capabilities, large language models (LLMs) often produce responses containing factual inaccuracies due to their sole reliance on the parametric knowledge they encapsulate. Retrieval-Augmented Generation (RAG), an ad hoc approach that augments LMs with retrieval of relevant knowledge, decreases such issues. However, indiscriminately retrieving and incorporating a fixed number of retrieved passages, regardless of whether retrieval is necessary, or passages are relevant, diminishes LM versatility or can lead to unhelpful response generation. We introduce a new framework called Self-Reflective Retrieval-Augmented Generation (Self-RAG) that enhances an LM's quality and factuality through retrieval and self-reflection. Our framework trains a single arbitrary LM that adaptively retrieves passages on-demand, and generates and reflects on retrieved passages and its own generations using special tokens, called reflection tokens. Generating reflection tokens makes the LM controllable during the inference phase, enabling it to tailor its behavior to diverse task requirements. Experiments show that Self-RAG (7B and 13B parameters) significantly outperforms state-of-the-art LLMs and retrieval-augmented models on a diverse set of tasks. Specifically, Self-RAG outperforms ChatGPT and retrieval-augmented Llama2-chat on Open-domain QA, reasoning and fact verification tasks, and it shows significant gains in improving factuality and citation accuracy for long-form generations relative to these models.
翻訳日:2023-10-19 18:49:15 公開日:2023-10-17
# 動的リー代数を超えたバレン高原理論の実証

Showcasing a Barren Plateau Theory Beyond the Dynamical Lie Algebra ( http://arxiv.org/abs/2310.11505v1 )

ライセンス: Link先を確認
N. L. Diaz, Diego Garc\'ia-Mart\'in, Sujay Kazi, Martin Larocca, M. Cerezo(参考訳) barren plateausは変分量子コンピューティングの重要な課題として浮上している。 この現象に対する我々の理解は、最近、バレン高原の源のほとんどを説明できるリー代数理論の導入によって、変貌的に変化した。 しかし、この理論は回路のリー代数にある初期状態か可観測性のいずれかを必要とする。 パラメータ化されたマッチゲート回路に着目して、この研究では、この仮定を超えて、任意の入力状態や測定に有効な損失関数分散の正確な公式を提供することができる。 その結果、リー代数の制約が緩和されたときに新しい現象が現れることが明らかとなった。 例えば、分散は必ずしもリー代数の次元と逆に消えるとは限らない。 代わりに、この表現性の尺度は一般化された表現性量に置き換えられる: リー群加群の次元。 これらの加群内の作用素をマヨラナ作用素の積として特徴づけることで、一般化グローバル性の正確な概念を導入し、一般化グローバル作用素の測定がバレンプラトーをもたらすことを示す。 我々の研究はまた、既知のフェルミオン的絡み合い測度と接続する一般的な絡み合いに対する操作的意味を与え、それが一夫一婦関係を満たすことを示す。 最後に,パラメータ化マッチゲート回路は一般には効率的にシミュレートできないが,学習可能な構造が古典的シミュラビリティにつながる可能性を示唆する。

Barren plateaus have emerged as a pivotal challenge for variational quantum computing. Our understanding of this phenomenon underwent a transformative shift with the recent introduction of a Lie algebraic theory capable of explaining most sources of barren plateaus. However, this theory requires either initial states or observables that lie in the circuit's Lie algebra. Focusing on parametrized matchgate circuits, in this work we are able to go beyond this assumption and provide an exact formula for the loss function variance that is valid for arbitrary input states and measurements. Our results reveal that new phenomena emerge when the Lie algebra constraint is relaxed. For instance, we find that the variance does not necessarily vanish inversely with the Lie algebra's dimension. Instead, this measure of expressiveness is replaced by a generalized expressiveness quantity: The dimension of the Lie group modules. By characterizing the operators in these modules as products of Majorana operators, we can introduce a precise notion of generalized globality and show that measuring generalized-global operators leads to barren plateaus. Our work also provides operational meaning to the generalized entanglement as we connect it with known fermionic entanglement measures, and show that it satisfies a monogamy relation. Finally, while parameterized matchgate circuits are not efficiently simulable in general, our results suggest that the structure allowing for trainability may also lead to classical simulability.
翻訳日:2023-10-19 18:48:46 公開日:2023-10-17
# CoMPosT:LLMシミュレーションにおけるキャラクタリゼーションと評価

CoMPosT: Characterizing and Evaluating Caricature in LLM Simulations ( http://arxiv.org/abs/2310.11501v1 )

ライセンス: Link先を確認
Myra Cheng, Tiziano Piccardi, Diyi Yang(参考訳) 最近の研究は、社会科学実験や世論調査など、特定の人口動態からの反応をシミュレートするためにLLMを用いて人間の行動のニュアンスを捉えることを目的としている。 しかし、現在ではそのようなLCMシミュレーションの品質を議論し評価する方法は確立されていない。 さらに、これらのllmシミュレーションは、シミュレーションを目的としたペルソナの平滑な似顔絵であり、人々の多次元性を捉えてステレオタイプを持続しないという懸念が高まっている。 これらのギャップを埋めるために,我々は,コンテキスト,モデル,ペルソナ,トピックの4次元を用いてLLMシミュレーションを特徴付けるフレームワークであるCoMPosTを提案する。 我々は,この枠組みを用いて,オープンエンドLLMシミュレーションのキャラクチュアへの感受性を測定する。 LLMシミュレーションにおける既存の研究からシナリオの似顔絵のレベルを評価する。 GPT-4では、特定の人口層(政治的・疎外化グループ)とトピック(一般には非論争的)のシミュレーションは、似顔絵に非常に敏感であることが判明した。

Recent work has aimed to capture nuances of human behavior by using LLMs to simulate responses from particular demographics in settings like social science experiments and public opinion surveys. However, there are currently no established ways to discuss or evaluate the quality of such LLM simulations. Moreover, there is growing concern that these LLM simulations are flattened caricatures of the personas that they aim to simulate, failing to capture the multidimensionality of people and perpetuating stereotypes. To bridge these gaps, we present CoMPosT, a framework to characterize LLM simulations using four dimensions: Context, Model, Persona, and Topic. We use this framework to measure open-ended LLM simulations' susceptibility to caricature, defined via two criteria: individuation and exaggeration. We evaluate the level of caricature in scenarios from existing work on LLM simulations. We find that for GPT-4, simulations of certain demographics (political and marginalized groups) and topics (general, uncontroversial) are highly susceptible to caricature.
翻訳日:2023-10-19 18:48:21 公開日:2023-10-17
# ポインタネットワークを用いた児童読書のエンド・ツー・エンドリアルタイム追跡

End-to-End real time tracking of children's reading with pointer network ( http://arxiv.org/abs/2310.11486v1 )

ライセンス: Link先を確認
Vishal Sunder, Beulah Karrolla, Eric Fosler-Lussier(参考訳) 本研究では,子どもの声に対してリアルタイム読書トラッカーを効率的に構築する方法について検討する。 従来,ASRに基づくケースケード手法に着目した読み上げトラッカーが提案されてきたが,音声追跡の遅延を緩和する完全エンドツーエンドモデルを提案する。 我々は,ストリーミング音声で条件付けされた基底真理テキストの位置を直接学習し,位置予測を行うポインターネットワークを用いる。 このポインターネットワークを訓練するために,学習セット上で読み上げられた音声と読み上げられたテキストとの強制アライメントを用いて,真理学習信号を生成する。 異なる強制アライメントモデルについて検討すると、少なくともモントリオール強制アライメントモデルと同程度の精度で神経注意に基づくモデルが見つかるが、驚くべきことにポインターネットワークのトレーニング信号として優れている。 成人音声データ(TIMIT)と児童音声データセット(CMU Kids and Reading Races)について報告する。 我々の最良のモデルは、87.8%の精度で、CMU Kidsのデータでは77.1%の精度で、Reading Racesデータセットでは65.3%の精度で、大人のスピーチを正確に追跡することができる。

In this work, we explore how a real time reading tracker can be built efficiently for children's voices. While previously proposed reading trackers focused on ASR-based cascaded approaches, we propose a fully end-to-end model making it less prone to lags in voice tracking. We employ a pointer network that directly learns to predict positions in the ground truth text conditioned on the streaming speech. To train this pointer network, we generate ground truth training signals by using forced alignment between the read speech and the text being read on the training set. Exploring different forced alignment models, we find a neural attention based model is at least as close in alignment accuracy to the Montreal Forced Aligner, but surprisingly is a better training signal for the pointer network. Our results are reported on one adult speech data (TIMIT) and two children's speech datasets (CMU Kids and Reading Races). Our best model can accurately track adult speech with 87.8% accuracy and the much harder and disfluent children's speech with 77.1% accuracy on CMU Kids data and a 65.3% accuracy on the Reading Races dataset.
翻訳日:2023-10-19 18:47:59 公開日:2023-10-17
# よい質問とは何か? ファクトレベルのマスキングによるタスク指向質問

What is a good question? Task-oriented asking with fact-level masking ( http://arxiv.org/abs/2310.11571v1 )

ライセンス: Link先を確認
Matthew Toles, Yukun Huang, Zhou Yu, Luis Gravano(参考訳) 質問は、質問応答のような推論タスクにおける実際のコラボレーションの重要な要素である。 例えば、法的アシスタントチャットボットは、ユーザーの状況に関する特定の情報なしで正確な推奨を行うことができないかもしれない。 しかし、大きな言語モデルは通常、ユーザやサードパーティにフォローアップ質問をすることなく、推論タスクを直接解決するためにデプロイされる。 この問題をタスク指向質問(TOA)と呼ぶ。 ゼロショットチャットモデルはTOAを実行することができるが、そのトレーニングは主に、質問がコラボレーションの成功に寄与するかどうかではなく、次のトーケン予測に基づいている。 ToAモデルのトレーニングと評価を可能にするために,自然言語タスク指向質問のための定義とフレームワークを提案する。 また,特定の批判的事実を省略して自然言語データセットを自己教師付きtoaデータセットに変換する手法であるfact-level masking(flm)を提案する。 最後に,flmを用いてhotpotqaデータセットからtoaデータセットを生成し,ゼロショット言語モデルをいくつか評価する。 実験の結果,現在のゼロショットモデルでは,人間のアノテータと比較して有用な情報を取得する質問に苦慮していることがわかった。 これらの結果は、より良いTOAモデルをトレーニングし評価するために、FLMデータセットとTOAフレームワークを使用する機会を示しています。

Asking questions is an important element of real-life collaboration on reasoning tasks like question answering. For example, a legal assistant chatbot may be unable to make accurate recommendations without specific information on the user's circumstances. However, large language models are usually deployed to solve reasoning tasks directly without asking follow-up questions to the user or third parties. We term this problem task-oriented asking (TOA). Zero-shot chat models can perform TOA, but their training is primarily based on next-token prediction rather than whether questions contribute to successful collaboration. To enable the training and evaluation of TOA models, we present a definition and framework for natural language task-oriented asking, the problem of generating questions that result in answers useful for a reasoning task. We also present fact-level masking (FLM), a procedure for converting natural language datasets into self-supervised TOA datasets by omitting particular critical facts. Finally, we generate a TOA dataset from the HotpotQA dataset using FLM and evaluate several zero-shot language models on it. Our experiments show that current zero-shot models struggle to ask questions that retrieve useful information, as compared to human annotators. These results demonstrate an opportunity to use FLM datasets and the TOA framework to train and evaluate better TOA models.
翻訳日:2023-10-19 18:39:45 公開日:2023-10-17
# ro振動ダイナミクスの量子制御と光誘起分子キラリティーへの応用

Quantum control of ro-vibrational dynamics and application to light-induced molecular chirality ( http://arxiv.org/abs/2310.11570v1 )

ライセンス: Link先を確認
Monika Leibscher, Eugenio Pozzoli, Alexander Blech, Mario Sigalotti, Ugo Boscain, Christiane P. Koch(参考訳) アキラル分子は、平均的な分子配向が純キラル信号[tikhonov et al., sci. adv. 8, eade0311 (2022)]を表示するという意味で、電場による励起によって一時的にキラルにすることができる。 ここでは、励起過程中に固定された分子配向の仮定を超越する。 回転と振動の両方を量子力学的に扱うことで、最初にランダムに配向されたアキラル分子のアンサンブルにおいて、キラル振動波束(ネットキラル信号を含む)の生成条件を特定する。 対称性と可制御性の分析に基づいて, 組み合わせによるカイラルウェーブパケットの生成のための励起スキームを導出する。 (a)マイクロ波と赤外線パルス (b)静電場とirパルスのシーケンス。 これらのプロトコルは量子回転力学を利用してキラル振動力学のポンプ-プローブ分光を行い、後者はUV以外の電磁スペクトルの領域に拡張する。

Achiral molecules can be made temporarily chiral by excitation with electric fields, in the sense that an average over molecular orientations displays a net chiral signal [Tikhonov et al., Sci. Adv. 8, eade0311 (2022)]. Here, we go beyond the assumption of molecular orientations to remain fixed during the excitation process. Treating both rotations and vibrations quantum mechanically, we identify conditions for the creation of chiral vibrational wavepackets -- with net chiral signals -- in ensembles of achiral molecules which are initially randomly oriented. Based on the analysis of symmetry and controllability, we derive excitation schemes for the creation of chiral wavepackets using a combination of (a) microwave and IR pulses and (b) a static field and a sequence of IR pulses. These protocols leverage quantum rotational dynamics for pump-probe spectroscopy of chiral vibrational dynamics, extending the latter to regions of the electromagnetic spectrum other than the UV.
翻訳日:2023-10-19 18:39:24 公開日:2023-10-17
# Rigidity Hurts:確率的階層的時系列予測のためのソフト一貫性規則化

When Rigidity Hurts: Soft Consistency Regularization for Probabilistic Hierarchical Time Series Forecasting ( http://arxiv.org/abs/2310.11569v1 )

ライセンス: Link先を確認
Harshavardhan Kamarthi, Lingkai Kong, Alexander Rodr\'iguez, Chao Zhang, B. Aditya Prakash(参考訳) 確率的階層的時系列予測は時系列予測の重要な変種であり、階層的関係を基礎とする多変量時系列のモデル化と予測を目標としている。 ほとんどの手法は点予測に焦点をあて、適切に調整された確率的予測分布を提供しない。 近年の最先端確率予測手法は,予測分布の一貫性を考慮しない点予測と分布のサンプルに階層的関係を課している。 以前の研究は、データセットが常に与えられた階層的な関係と一致しており、この仮定からの逸脱を示す現実世界のデータセットに適応していないことを静かに仮定している。 両者のギャップを埋めて,階層全体の分布の予測を共同でモデル化する完全確率的階層予測モデル PROFHiT を提案する。 PROFHiTは柔軟な確率的ベイズ的アプローチを採用し、新しい分散コヒーレンシ正規化を導入し、予測分布全体の階層的関係から学習し、堅牢で校正された予測を可能にし、様々な階層的一貫性のデータセットに適応する。 幅広いデータセット上での習熟度評価では,精度が41~88%向上し,校正精度が有意に向上した。 完全分布上のコヒーレンシをモデル化することにより,入力時系列データの最大10%が欠落していても,proFHiTは信頼性の高い予測を確実に提供できることがわかった。

Probabilistic hierarchical time-series forecasting is an important variant of time-series forecasting, where the goal is to model and forecast multivariate time-series that have underlying hierarchical relations. Most methods focus on point predictions and do not provide well-calibrated probabilistic forecasts distributions. Recent state-of-art probabilistic forecasting methods also impose hierarchical relations on point predictions and samples of distribution which does not account for coherency of forecast distributions. Previous works also silently assume that datasets are always consistent with given hierarchical relations and do not adapt to real-world datasets that show deviation from this assumption. We close both these gap and propose PROFHiT, which is a fully probabilistic hierarchical forecasting model that jointly models forecast distribution of entire hierarchy. PROFHiT uses a flexible probabilistic Bayesian approach and introduces a novel Distributional Coherency regularization to learn from hierarchical relations for entire forecast distribution that enables robust and calibrated forecasts as well as adapt to datasets of varying hierarchical consistency. On evaluating PROFHiT over wide range of datasets, we observed 41-88% better performance in accuracy and significantly better calibration. Due to modeling the coherency over full distribution, we observed that PROFHiT can robustly provide reliable forecasts even if up to 10% of input time-series data is missing where other methods' performance severely degrade by over 70%.
翻訳日:2023-10-19 18:39:04 公開日:2023-10-17
# 個人化スープ:ポストホックパラメータマージによる個人化大言語モデルアライメント

Personalized Soups: Personalized Large Language Model Alignment via Post-hoc Parameter Merging ( http://arxiv.org/abs/2310.11564v1 )

ライセンス: Link先を確認
Joel Jang, Seungone Kim, Bill Yuchen Lin, Yizhong Wang, Jack Hessel, Luke Zettlemoyer, Hannaneh Hajishirzi, Yejin Choi, Prithviraj Ammanabrolu(参考訳) Reinforcement Learning from Human Feedback (RLHF) は、Large Language Models (LLMs) と一般的な、集約された人間の嗜好とを一致させるが、多様で個人的な視点を学ぶには最適である。 本研究では,多目的強化学習(morl)問題としてアライメントをモデル化することで,llmを複数の(時には矛盾する)選好にアライメントする,パーソナライズドヒューマンフィードバック(rlphf)問題からの強化学習について検討する。 強固な単目的ベースラインと比較すると,選好を多次元に分解することでパーソナライズされたアライメントを実現することができる。 これらの次元は、ユーザが望ましいと宣言するパーソナライズに基づいて定義される。 本研究では,分散的に独立して効率的に訓練でき,パラメータマージにより効果的にポストホックを組み合わせることができることを示す。 コードはhttps://github.com/joeljang/rlphfで入手できる。

While Reinforcement Learning from Human Feedback (RLHF) aligns Large Language Models (LLMs) with general, aggregate human preferences, it is suboptimal for learning diverse, individual perspectives. In this work, we study Reinforcement Learning from Personalized Human Feedback (RLPHF) problem, wherein LLMs are aligned to multiple (sometimes conflicting) preferences by modeling alignment as a Multi-Objective Reinforcement Learning (MORL) problem. Compared to strong single-objective baselines, we show that we can achieve personalized alignment by decomposing preferences into multiple dimensions. These dimensions are defined based on personalizations that are declared as desirable by the user. In this work, we show that they can be efficiently trained independently in a distributed manner and combined effectively post-hoc through parameter merging. The code is available at https://github.com/joeljang/RLPHF.
翻訳日:2023-10-19 18:38:38 公開日:2023-10-17
# 抑うつ者における音楽共有の楽曲・歌詞・ネットワーク次元の探索

Exploring Musical, Lyrical, and Network Dimensions of Music Sharing Among Depression Individuals ( http://arxiv.org/abs/2310.11557v1 )

ライセンス: Link先を確認
Qihan Wang, Anique Tahir, Zeyad Alghamdi, Huan Liu(参考訳) うつ病は様々な要因により重要な精神健康上の問題として現れ、より広い社会的・個人的課題を反映している。 デジタル時代に入ると、ソーシャルメディアはうつ病を乗り越える個人にとって重要なプラットフォームとなり、様々なメディア、特に音楽を通して感情や精神の状態を表現できるようになった。 特に、彼らの音楽の好みは、共有の実践を通して現れ、不注意にも彼らの心理的、感情的な風景を垣間見る。 この研究は、うつ病と診断された個人と診断されていない個人の間での音楽嗜好の違いを研究し、音楽の特徴、歌詞、音楽ネットワークなど多くの音楽の側面を探求する。 ソーシャルメディア上での音楽共有による抑うつ者の音楽嗜好は、非抑うつ者と比較して、音楽の特徴や話題、歌詞の言語利用に顕著な違いを呈している。 ネットワーク情報により、音楽聴取パターン間のリンクの理解が促進される。 その結果、うつ病の個人の音楽的選択がうつ病的な気分や感情を不注意に持続させる可能性があるエコーチャンバー効果が浮き彫りになる。 この研究は、音楽の様々な側面を調べ、メンタルヘルスとの関係を把握し、パーソナライズされた音楽介入や、うつ病患者に有益なレコメンデーションアルゴリズムの洞察を提供することの重要性を強調した。

Depression has emerged as a significant mental health concern due to a variety of factors, reflecting broader societal and individual challenges. Within the digital era, social media has become an important platform for individuals navigating through depression, enabling them to express their emotional and mental states through various mediums, notably music. Specifically, their music preferences, manifested through sharing practices, inadvertently offer a glimpse into their psychological and emotional landscapes. This work seeks to study the differences in music preferences between individuals diagnosed with depression and non-diagnosed individuals, exploring numerous facets of music, including musical features, lyrics, and musical networks. The music preferences of individuals with depression through music sharing on social media, reveal notable differences in musical features and topics and language use of lyrics compared to non-depressed individuals. We find the network information enhances understanding of the link between music listening patterns. The result highlights a potential echo-chamber effect, where depression individual's musical choices may inadvertently perpetuate depressive moods and emotions. In sum, this study underscores the significance of examining music's various aspects to grasp its relationship with mental health, offering insights for personalized music interventions and recommendation algorithms that could benefit individuals with depression.
翻訳日:2023-10-19 18:38:17 公開日:2023-10-17
# バンディットフィードバックを伴う逆線形mdpの最適後悔に向けて

Towards Optimal Regret in Adversarial Linear MDPs with Bandit Feedback ( http://arxiv.org/abs/2310.11550v1 )

ライセンス: Link先を確認
Haolin Liu, Chen-Yu Wei, Julian Zimmert(参考訳) 我々は,オンライン強化学習を,逆損失や帯域幅フィードバックを伴う線形マルコフ決定過程において,遷移やシミュレータへのアクセスに関する事前知識なく研究する。 従来の手法に比べて後悔性能が向上するアルゴリズムを2つ導入する。 最初のアルゴリズムは計算量的には非効率であるが、$k$がエピソード数であるような$\widetilde{\mathcal{o}}\left(\sqrt{k}\right)$の後悔を保証する。 これは、考慮された設定における最適な$K$依存による最初の結果である。 第2のアルゴリズムは、ポリシー最適化フレームワークに基づいており、$\widetilde{\mathcal{o}}\left(k^{\frac{3}{4}} \right)$の後悔を保証し、計算効率が高い。 両結果は,Kongらによる計算非効率アルゴリズムにより,最先端のアルゴリズムよりも大幅に改善された。 [2023] with $\widetilde{\mathcal{O}}\left(K^{\frac{4}{5}}+poly\left(\frac{1}{\lambda_{\min}}\right) \right)$ regret, for some problem-dependent constant $\lambda_{\min}$, and a computerly efficient algorithm by Sherman et al. 2023b] と $\widetilde{\mathcal{o}}\left(k^{\frac{6}{7}} \right)$ を持つ。

We study online reinforcement learning in linear Markov decision processes with adversarial losses and bandit feedback, without prior knowledge on transitions or access to simulators. We introduce two algorithms that achieve improved regret performance compared to existing approaches. The first algorithm, although computationally inefficient, ensures a regret of $\widetilde{\mathcal{O}}\left(\sqrt{K}\right)$, where $K$ is the number of episodes. This is the first result with the optimal $K$ dependence in the considered setting. The second algorithm, which is based on the policy optimization framework, guarantees a regret of $\widetilde{\mathcal{O}}\left(K^{\frac{3}{4}} \right)$ and is computationally efficient. Both our results significantly improve over the state-of-the-art: a computationally inefficient algorithm by Kong et al. [2023] with $\widetilde{\mathcal{O}}\left(K^{\frac{4}{5}}+poly\left(\frac{1}{\lambda_{\min}}\right) \right)$ regret, for some problem-dependent constant $\lambda_{\min}$ that can be arbitrarily close to zero, and a computationally efficient algorithm by Sherman et al. [2023b] with $\widetilde{\mathcal{O}}\left(K^{\frac{6}{7}} \right)$ regret.
翻訳日:2023-10-19 18:37:52 公開日:2023-10-17
# MUST&P-SRL:音声表現学習のためのテキスト・音声領域における多言語・統一音節分類

MUST&P-SRL: Multi-lingual and Unified Syllabification in Text and Phonetic Domains for Speech Representation Learning ( http://arxiv.org/abs/2310.11541v1 )

ライセンス: Link先を確認
No\'e Tits(参考訳) 本稿では,多言語における単語の自動分類に着目し,強制調整ツールであるモントリオール強制調整器 (mfa) と互換性のある言語特徴抽出手法を提案する。 テキスト領域と音声領域の両方において,本手法はテキスト,ストレスマーク,自動音節化(テキスト領域と音声領域)からの音声転写の抽出に焦点を当てている。 システムはオープンソースのコンポーネントとリソースで構築された。 アブレーション研究を通じて,複数の言語(英語,フランス語,スペイン語)から自動的に単語を合成する手法の有効性を実証した。 さらに、この手法をCMU ARCTICデータセットの転写に適用し、いくつかの音声関連分野における音声表現学習、音声単位発見、および音声要素のアンタングル化に最適な、オンラインで利用可能な貴重なアノテーションを生成する。

In this paper, we present a methodology for linguistic feature extraction, focusing particularly on automatically syllabifying words in multiple languages, with a design to be compatible with a forced-alignment tool, the Montreal Forced Aligner (MFA). In both the textual and phonetic domains, our method focuses on the extraction of phonetic transcriptions from text, stress marks, and a unified automatic syllabification (in text and phonetic domains). The system was built with open-source components and resources. Through an ablation study, we demonstrate the efficacy of our approach in automatically syllabifying words from several languages (English, French and Spanish). Additionally, we apply the technique to the transcriptions of the CMU ARCTIC dataset, generating valuable annotations available online\footnote{\url{https://github.com/noetits/MUST_P-SRL}} that are ideal for speech representation learning, speech unit discovery, and disentanglement of speech factors in several speech-related fields.
翻訳日:2023-10-19 18:37:21 公開日:2023-10-17
# 音声認識のための多段大言語モデル補正

Multi-stage Large Language Model Correction for Speech Recognition ( http://arxiv.org/abs/2310.11532v1 )

ライセンス: Link先を確認
Jie Pu, Thai-Son Nguyen, Sebastian St\"uker(参考訳) 本稿では,競合音声認識システムの性能を向上させるために,大規模言語モデル(llms)の利用について検討する。 単一のデータドメインにフォーカスした従来の言語モデルとは異なり、llmの台頭は最先端のasr性能の限界を押し上げる機会を与え、同時に高い堅牢性を実現し、複数のドメインにまたがって効果的に一般化する。 そこで本研究では,従来の言語モデル再構成とLLMプロンプトを組み合わせるための,新しいマルチステージアプローチを提案する。 第一段階は言語モデルを用いてasr仮説のn-bestリストを再設計し、信頼性チェックを実行し、第二段階はllmにプロンプトを使用して、第一段階からの自信の低い結果に対してasrエラー訂正を行う。 提案手法の有効性を,複数のテスト領域にまたがる競合ASRシステムに対して,WERの10%~20%の相対的改善を示すことによって実証した。

In this paper, we investigate the usage of large language models (LLMs) to improve the performance of competitive speech recognition systems. Different from traditional language models that focus on one single data domain, the rise of LLMs brings us the opportunity to push the limit of state-of-the-art ASR performance, and at the same time to achieve higher robustness and generalize effectively across multiple domains. Motivated by this, we propose a novel multi-stage approach to combine traditional language model re-scoring and LLM prompting. Specifically, the proposed method has two stages: the first stage uses a language model to re-score an N-best list of ASR hypotheses and run a confidence check; The second stage uses prompts to a LLM to perform ASR error correction on less confident results from the first stage. Our experimental results demonstrate the effectiveness of the proposed method by showing a 10% ~ 20% relative improvement in WER over a competitive ASR system -- across multiple test domains.
翻訳日:2023-10-19 18:37:01 公開日:2023-10-17
# Infinite Horizon MDP のためのオフラインデータセットを用いた効率的なオンライン学習:ベイズ的アプローチ

Efficient Online Learning with Offline Datasets for Infinite Horizon MDPs: A Bayesian Approach ( http://arxiv.org/abs/2310.11531v1 )

ライセンス: Link先を確認
Dengwang Tang, Rahul Jain, Botao Hao, Zheng Wen(参考訳) 本稿では,オフラインデータセットが存在する場合の無限地平線設定における効率的なオンライン強化学習の問題について検討する。 オフラインデータセットは専門家によって生成されるが、未知のレベルの能力、すなわち、完璧ではなく、必ずしも最適なポリシーを使用する必要はないと仮定する。 学習エージェントが、専門家が使用する行動方針(能力パラメータによってモデル化される)をモデル化すると、それができない場合よりも、累積的な後悔を最小限に抑えることができる。 我々は、$\tilde{o}(\sqrt{t})$でスケールする正確なpsrlアルゴリズムの後悔の上限を確立する。 これは無限地平線設定のためのベイジアンオンライン学習アルゴリズムの新たな事前依存的後悔分析を必要とする。 次に,オフラインデータセットを用いて模倣学習を行い,オンライン学習を行うように解釈可能な近似知識付きrlsviアルゴリズムを提案する。

In this paper, we study the problem of efficient online reinforcement learning in the infinite horizon setting when there is an offline dataset to start with. We assume that the offline dataset is generated by an expert but with unknown level of competence, i.e., it is not perfect and not necessarily using the optimal policy. We show that if the learning agent models the behavioral policy (parameterized by a competence parameter) used by the expert, it can do substantially better in terms of minimizing cumulative regret, than if it doesn't do that. We establish an upper bound on regret of the exact informed PSRL algorithm that scales as $\tilde{O}(\sqrt{T})$. This requires a novel prior-dependent regret analysis of Bayesian online learning algorithms for the infinite horizon setting. We then propose an approximate Informed RLSVI algorithm that we can interpret as performing imitation learning with the offline dataset, and then performing online learning.
翻訳日:2023-10-19 18:36:43 公開日:2023-10-17
# 薄くて深いガウス過程

Thin and Deep Gaussian Processes ( http://arxiv.org/abs/2310.11527v1 )

ライセンス: Link先を確認
Daniel Augusto de Souza, Alexander Nikitin, ST John, Magnus Ross, Mauricio A. \'Alvarez, Marc Peter Deisenroth, Jo\~ao P. P. Gomes, Diego Mesquita, and C\'esar Lincoln C. Mattos(参考訳) ガウス過程(GP)は、関数値の相関距離を制御する長さスケールのような、容易に解釈可能なカーネルハイパーパラメータによる不確実性定量化への原則的なアプローチを提供することができる。 しかし、適切なカーネルの選択は困難である。 深いgpsはgp層でカーネルを逐次パラメータ化し、出力データを説明する入力の低次元埋め込みを学習することで、手動のカーネルエンジニアリングを避ける。 ディープニューラルネットワークのアーキテクチャに従い、最も一般的なディープgpsは入力空間を層々に重ねるが、浅いgpsの解釈性は失われる。 別の構成として、カーネルの長さスケールを逐次パラメータ化し、解釈性を改善するが、最終的には低次元埋め込みの学習の概念を放棄する。 残念ながら、どちらの方法も特定の病態に影響を受けやすいため、適合を妨げ、解釈可能性を制限することができる。 本研究は, 従来のアプローチであるThinとDeep GP(TDGP)の新しい合成法を提案する。 各tdgp層は、潜在埋め込みの概念を維持しつつ、カーネルの長さスケールの解釈を保ちながら、元の入力データの局所線形変換を定義する。 さらに、以前の解とは異なり、TDGPは低次元表現の学習を認める非病理学的多様体を誘導する。 理論的、実験的な結果で示します i) TDGPは、以前のモデルとは異なり、入力データ中の低次元多様体を特に発見するように調整されている。 二 層数を増加させたときのTDGPの挙動 三 標準ベンチマークデータセットにおいて、TDGPがよく機能する。

Gaussian processes (GPs) can provide a principled approach to uncertainty quantification with easy-to-interpret kernel hyperparameters, such as the lengthscale, which controls the correlation distance of function values. However, selecting an appropriate kernel can be challenging. Deep GPs avoid manual kernel engineering by successively parameterizing kernels with GP layers, allowing them to learn low-dimensional embeddings of the inputs that explain the output data. Following the architecture of deep neural networks, the most common deep GPs warp the input space layer-by-layer but lose all the interpretability of shallow GPs. An alternative construction is to successively parameterize the lengthscale of a kernel, improving the interpretability but ultimately giving away the notion of learning lower-dimensional embeddings. Unfortunately, both methods are susceptible to particular pathologies which may hinder fitting and limit their interpretability. This work proposes a novel synthesis of both previous approaches: Thin and Deep GP (TDGP). Each TDGP layer defines locally linear transformations of the original input data maintaining the concept of latent embeddings while also retaining the interpretation of lengthscales of a kernel. Moreover, unlike the prior solutions, TDGP induces non-pathological manifolds that admit learning lower-dimensional representations. We show with theoretical and experimental results that i) TDGP is, unlike previous models, tailored to specifically discover lower-dimensional manifolds in the input data, ii) TDGP behaves well when increasing the number of layers, and iii) TDGP performs well in standard benchmark datasets.
翻訳日:2023-10-19 18:36:29 公開日:2023-10-17
# TK-KNN セミスーパービジョンインテント分類のための平衡距離に基づく擬似ラベル手法

TK-KNN: A Balanced Distance-Based Pseudo Labeling Approach for Semi-Supervised Intent Classification ( http://arxiv.org/abs/2310.11607v1 )

ライセンス: Link先を確認
Nicholas Botzer, David Vasquez, Tim Weninger, Issam Laradji(参考訳) 対話システムにおける意図を検出する能力は、現代技術においてますます重要になっている。 これらのシステムは、しばしば大量のラベルのないデータを生成し、このデータを手動でラベル付けするには相当な努力が必要である。 半教師付きメソッドは、いくつかのラベル付き例でトレーニングされたモデルを使用し、擬似ラベルを特定のしきい値以上のモデル予測信頼度を持つラベルなし例のサブセットに割り当てることで、このコストを是正しようとする。 しかしながら、これらの手法の特に危険な結果の1つは、クラス間で不均衡なサンプルのセットを選択するリスクであり、ラベルが貧弱になる可能性がある。 本稿では,k-nearest neighbor (tk-knn) について述べる。この手法は埋め込み空間内の距離に基づくより頑健な擬似ラベル手法を用いており,ランク付けに基づくアプローチによりクラス間の擬似ラベル例のバランスを保っている。 いくつかのデータセットの実験では、TK-KNNが既存のモデルよりも優れていることが示されている。 コードはhttps://github.com/ServiceNow/tk-knnで入手できる。

The ability to detect intent in dialogue systems has become increasingly important in modern technology. These systems often generate a large amount of unlabeled data, and manually labeling this data requires substantial human effort. Semi-supervised methods attempt to remedy this cost by using a model trained on a few labeled examples and then by assigning pseudo-labels to further a subset of unlabeled examples that has a model prediction confidence higher than a certain threshold. However, one particularly perilous consequence of these methods is the risk of picking an imbalanced set of examples across classes, which could lead to poor labels. In the present work, we describe Top-K K-Nearest Neighbor (TK-KNN), which uses a more robust pseudo-labeling approach based on distance in the embedding space while maintaining a balanced set of pseudo-labeled examples across classes through a ranking-based approach. Experiments on several datasets show that TK-KNN outperforms existing models, particularly when labeled data is scarce on popular datasets such as CLINC150 and Banking77. Code is available at https://github.com/ServiceNow/tk-knn
翻訳日:2023-10-19 18:31:23 公開日:2023-10-17
# DIAR:スイニングトランスを用いた深部画像アライメントと再構成

DIAR: Deep Image Alignment and Reconstruction using Swin Transformers ( http://arxiv.org/abs/2310.11605v1 )

ライセンス: Link先を確認
Monika Kwiatkowski, Simon Matern, Olaf Hellwich(参考訳) ある隠されたコンテンツの画像を撮影する場合、個々の画像フレームが望ましくないアーティファクトを含むという問題に直面することが多いが、適切なアラインメントと集約を行う場合、画像の集合はすべての関連情報を含む。 本稿では,歪んだ画像列を同時に調整し,それらを再構成する深層学習パイプラインの構築を試みる。 我々は,照明,スペキュラリティ,シャドウ,オクルージョンなどの画像歪みのある画像を含むデータセットを作成する。 我々は、対応する接地-真実の同相写像をラベルとして視点歪みを作成する。 データセットを使用して、スウィントランスモデルをトレーニングし、シーケンシャルな画像データを分析する。 注意マップは、モデルが関連する画像コンテンツを検出し、それを異常値やアーティファクトと区別することを可能にする。 さらに、古典的キーポイント検出器の代替としてニューラル特徴写像を用いる方法についても検討する。 訓練された畳み込み層の特徴マップは、画像間の点対応を見つけるために使用できる濃密な画像記述子を提供する。 これを利用して粗い画像アライメントを計算し,その限界を探索する。

When taking images of some occluded content, one is often faced with the problem that every individual image frame contains unwanted artifacts, but a collection of images contains all relevant information if properly aligned and aggregated. In this paper, we attempt to build a deep learning pipeline that simultaneously aligns a sequence of distorted images and reconstructs them. We create a dataset that contains images with image distortions, such as lighting, specularities, shadows, and occlusion. We create perspective distortions with corresponding ground-truth homographies as labels. We use our dataset to train Swin transformer models to analyze sequential image data. The attention maps enable the model to detect relevant image content and differentiate it from outliers and artifacts. We further explore using neural feature maps as alternatives to classical key point detectors. The feature maps of trained convolutional layers provide dense image descriptors that can be used to find point correspondences between images. We utilize this to compute coarse image alignments and explore its limitations.
翻訳日:2023-10-19 18:31:00 公開日:2023-10-17
# ゼロショット軌道生成器としての言語モデル

Language Models as Zero-Shot Trajectory Generators ( http://arxiv.org/abs/2310.11604v1 )

ライセンス: Link先を確認
Teyun Kwon (1), Norman Di Palo (1), Edward Johns (1) ((1) Imperial College London)(参考訳) 大規模言語モデル(llm)は、最近、低レベルのスキルの選択へのアクセスが与えられると、ロボットの高レベルなプランナーとして約束されている。 しかし、LLMは低レベルの軌道自体に使用する十分な知識を持っていないとしばしば仮定される。 本研究では、この仮定を徹底的に解決し、オブジェクト検出とセグメンテーションビジョンモデルのみへのアクセスが与えられると、LCM(GPT-4)が操作スキルの複雑なポーズを直接予測できるかどうかを検討する。 タスク非依存のプロンプトが,インコンテキストの例やモーションプリミティブ,外部軌道オプティマイザを使わずに,"ボトルキャップを開ける"や"スポンジでプレートを拭く"など,26の現実世界の言語ベースのタスクをいかにうまく実行できるかを調査し,このプロンプトにおけるどの設計選択が最も効果的かを検討する。 我々の結論は、ロボット工学におけるLLMの想定限界を提起し、LLMが様々な共通タスクに十分な低レベルロボット制御の理解を実際に持っていることを初めて明らかにし、さらに障害を検知し、それに従って軌道の再計画を行うことができる。 ビデオ、コード、プロンプトは、https://www.robot-learning.uk/ language-models-trajectory-generatorsで入手できる。

Large Language Models (LLMs) have recently shown promise as high-level planners for robots when given access to a selection of low-level skills. However, it is often assumed that LLMs do not possess sufficient knowledge to be used for the low-level trajectories themselves. In this work, we address this assumption thoroughly, and investigate if an LLM (GPT-4) can directly predict a dense sequence of end-effector poses for manipulation skills, when given access to only object detection and segmentation vision models. We study how well a single task-agnostic prompt, without any in-context examples, motion primitives, or external trajectory optimisers, can perform across 26 real-world language-based tasks, such as "open the bottle cap" and "wipe the plate with the sponge", and we investigate which design choices in this prompt are the most effective. Our conclusions raise the assumed limit of LLMs for robotics, and we reveal for the first time that LLMs do indeed possess an understanding of low-level robot control sufficient for a range of common tasks, and that they can additionally detect failures and then re-plan trajectories accordingly. Videos, code, and prompts are available at: https://www.robot-learning.uk/language-models-trajectory-generators.
翻訳日:2023-10-19 18:30:43 公開日:2023-10-17
# 注意深核融合前処理によるボリュームレンダリングによる暗黙的学習

Learning Neural Implicit through Volume Rendering with Attentive Depth Fusion Priors ( http://arxiv.org/abs/2310.11598v1 )

ライセンス: Link先を確認
Pengchong Hu, Zhizhong Han(参考訳) ニューラル暗示表現の学習は、多視点画像から3次元再構成において顕著な性能を達成した。 現在の手法では、ボリュームレンダリングを使用して、暗黙の表現をRGBまたは深度画像にレンダリングする。 しかし、毎回ビューのレンダリングは、穴の深さが不完全なことと、奥行きの監督から隠蔽された構造の無意識に悩まされ、ボリュームレンダリングによる幾何学的推論の精度に深刻な影響を及ぼす。 そこで本研究では,複数視点のRGBD画像からの暗黙表現を,暗黙的深度融合によるボリュームレンダリングにより学習することを提案する。 従来のニューラルネットワークでは,全深度画像から抽出したtsdf(truncated signed distance function)から粗い3d構造を認識できた。 TSDFは、ある深度画像の穴と現在の視界から見えない閉塞された部分へのアクセスを可能にする。 新たな注意機構を導入することで、ニューラルネットワークは学習された暗黙の関数として、推論された占有度に先立って直接深度融合を使用できる。 注意機構は,シーン全体を表す1回の融合tsdfと,同時局在マッピング(slam)の文脈で部分的なシーンを表すインクリメンタルに融合したtsdfのいずれかで動作する。 合成および実世界のスキャンを含む広く使われているベンチマークの評価は、最新のニューラル暗黙法よりも優れていることを示している。 プロジェクトページ: https://machineperceptionlab.github.io/attentive_df_prior/

Learning neural implicit representations has achieved remarkable performance in 3D reconstruction from multi-view images. Current methods use volume rendering to render implicit representations into either RGB or depth images that are supervised by multi-view ground truth. However, rendering a view each time suffers from incomplete depth at holes and unawareness of occluded structures from the depth supervision, which severely affects the accuracy of geometry inference via volume rendering. To resolve this issue, we propose to learn neural implicit representations from multi-view RGBD images through volume rendering with an attentive depth fusion prior. Our prior allows neural networks to perceive coarse 3D structures from the Truncated Signed Distance Function (TSDF) fused from all depth images available for rendering. The TSDF enables accessing the missing depth at holes on one depth image and the occluded parts that are invisible from the current view. By introducing a novel attention mechanism, we allow neural networks to directly use the depth fusion prior with the inferred occupancy as the learned implicit function. Our attention mechanism works with either a one-time fused TSDF that represents a whole scene or an incrementally fused TSDF that represents a partial scene in the context of Simultaneous Localization and Mapping (SLAM). Our evaluations on widely used benchmarks including synthetic and real-world scans show our superiority over the latest neural implicit methods. Project page: https://machineperceptionlab.github.io/Attentive_DF_Prior/
翻訳日:2023-10-19 18:30:16 公開日:2023-10-17
# WaveAttack:非対称周波数難読化に基づくディープニューラルネットワークに対するバックドア攻撃

WaveAttack: Asymmetric Frequency Obfuscation-based Backdoor Attacks Against Deep Neural Networks ( http://arxiv.org/abs/2310.11595v1 )

ライセンス: Link先を確認
Jun Xia, Zhihao Yue, Yingbo Zhou, Zhiwei Ling, Xian Wei, Mingsong Chen(参考訳) 人工知能(AI)技術の人気のため、多くのバックドア攻撃は、トレーニングサンプルとトレーニングプロセスを操作することで、ディープニューラルネットワーク予測を誤解させるように設計されている。 バックドア攻撃は様々な現実のシナリオで有効であるが、有毒なサンプルの忠実度が低いことと、潜在空間における無視できない転送の問題があるため、既存のバックドア検出アルゴリズムによって容易に検出できる。 この弱点を克服するために,DWT(Drete Wavelet Transform)を用いて画像の高周波数特性を取得し,バックドアトリガを生成するWaveAttackという新しいバックドア攻撃手法を提案する。 さらに、トレーニングおよび推論段階で適応的な残差を付加し、トリガの影響を改善し、WaveAttackの有効性をさらに高める非対称周波数難読化法を導入する。 総合的な実験結果から、WaveAttackは高いステルスネスと有効性を達成するだけでなく、PSNRの28.27倍、SSIMの1.61倍、ISの70.59倍、画像の忠実度において、最先端(SOTA)バックドア攻撃法よりも優れていた。 私たちのコードはhttps://anonymous.4open.science/r/AnonymousRep-701Dで利用可能です。

Due to the popularity of Artificial Intelligence (AI) technology, numerous backdoor attacks are designed by adversaries to mislead deep neural network predictions by manipulating training samples and training processes. Although backdoor attacks are effective in various real scenarios, they still suffer from the problems of both low fidelity of poisoned samples and non-negligible transfer in latent space, which make them easily detectable by existing backdoor detection algorithms. To overcome the weakness, this paper proposes a novel frequency-based backdoor attack method named WaveAttack, which obtains image high-frequency features through Discrete Wavelet Transform (DWT) to generate backdoor triggers. Furthermore, we introduce an asymmetric frequency obfuscation method, which can add an adaptive residual in the training and inference stage to improve the impact of triggers and further enhance the effectiveness of WaveAttack. Comprehensive experimental results show that WaveAttack not only achieves higher stealthiness and effectiveness, but also outperforms state-of-the-art (SOTA) backdoor attack methods in the fidelity of images by up to 28.27\% improvement in PSNR, 1.61\% improvement in SSIM, and 70.59\% reduction in IS. Our code is available at https://anonymous.4open.science/r/AnonymousRep-701D.
翻訳日:2023-10-19 18:29:33 公開日:2023-10-17
# 連帯学習におけるバックドア攻撃による非強固化

Adversarial Robustness Unhardening via Backdoor Attacks in Federated Learning ( http://arxiv.org/abs/2310.11594v1 )

ライセンス: Link先を確認
Taejin Kim, Jiarui Li, Shubhranshu Singh, Nikhil Madaan, Carlee Joe-Wong(参考訳) 今日のデータ駆動の状況では、ユーザプライバシの保護とデータの可能性の解放の微妙な均衡が最重要課題である。 データ共有を必要とせずにコラボレーティブなモデルトレーニングを可能にするfederated learningが、プライバシ中心のソリューションとして登場した。 この分散的なアプローチは、悪意のあるエンティティが不正なデータを注入する、特に毒殺やバックドア攻撃といったセキュリティ上の課題をもたらす。 本研究は, 当初, テスト時間回避攻撃を契機として, 連合学習における対人訓練とバックドア攻撃の交点を調査し, 対人ロバストネス・アンハードニング(ARU)を導入した。 ARUは、分散トレーニング中のモデルの堅牢性を意図的に損なうために、敵のサブセットによって使用される。 我々は,ARUの対人訓練への影響と,中毒やバックドア攻撃に対する既存の堅牢な防御効果を評価する実験実験を行った。 本研究は、ARUを現在の防衛対策に対抗させ、既存の防衛の限界を強調し、ARUに対する防衛を強化するための戦略を示唆するものである。

In today's data-driven landscape, the delicate equilibrium between safeguarding user privacy and unleashing data potential stands as a paramount concern. Federated learning, which enables collaborative model training without necessitating data sharing, has emerged as a privacy-centric solution. This decentralized approach brings forth security challenges, notably poisoning and backdoor attacks where malicious entities inject corrupted data. Our research, initially spurred by test-time evasion attacks, investigates the intersection of adversarial training and backdoor attacks within federated learning, introducing Adversarial Robustness Unhardening (ARU). ARU is employed by a subset of adversaries to intentionally undermine model robustness during decentralized training, rendering models susceptible to a broader range of evasion attacks. We present extensive empirical experiments evaluating ARU's impact on adversarial training and existing robust aggregation defenses against poisoning and backdoor attacks. Our findings inform strategies for enhancing ARU to counter current defensive measures and highlight the limitations of existing defenses, offering insights into bolstering defenses against ARU.
翻訳日:2023-10-19 18:29:05 公開日:2023-10-17
# 大規模言語モデルを用いたパーソナライズドテキスト生成の自動評価

Automated Evaluation of Personalized Text Generation using Large Language Models ( http://arxiv.org/abs/2310.11593v1 )

ライセンス: Link先を確認
Yaqing Wang, Jiepu Jiang, Mingyang Zhang, Cheng Li, Yi Liang, Qiaozhu Mei, Michael Bendersky(参考訳) パーソナライズされたテキスト生成は、ユーザの個人的なコンテキストに特有のコンテンツを配信するための特別なメカニズムを提供する。 この分野の研究の進展は急速に進んでいるが、評価は依然として課題である。 BLEUやROUGEのような従来の自動メトリクスは、主に人間による参照と語彙的類似性を測り、パーソナライズと他の微妙なセマンティックな側面を区別することができず、パーソナライズされた生成されたコンテンツ品質のニュアンスを捉えることができない。 一方、人間による判断は、特にパーソナライズされた評価の領域において、コストがかかる。 これらの課題に触発されて、パーソナライズされたテキスト生成を評価するための大規模言語モデル(LLM)の利用を検討し、ニュアンス化されたユーザコンテキストを理解する能力を検討する。 生成したテキストのパーソナライズ,品質,関連性の3つの主要な意味的側面を抽出し,これらの側面を自動的に測定する新しい評価手法であるAuPELを提案する。 AuPELの有効性を検証するため、我々は慎重に制御された実験を設計し、LLMによる評価判定の精度と人間のアノテータによる判断の精度を比較し、提案手法の一貫性と感度を厳密に分析した。 既存の評価指標と比較して、AuPELはパーソナライズ能力に基づいてモデルの識別とランク付けを行うだけでなく、このタスクに対する信頼できる一貫性と効率を示す。 我々の研究は、パーソナライズされたテキスト生成の評価器としてLLMを使うことが、興味深い新しい課題が残っているにもかかわらず、従来のテキスト類似度指標よりも優れていることを示唆している。

Personalized text generation presents a specialized mechanism for delivering content that is specific to a user's personal context. While the research progress in this area has been rapid, evaluation still presents a challenge. Traditional automated metrics such as BLEU and ROUGE primarily measure lexical similarity to human-written references, and are not able to distinguish personalization from other subtle semantic aspects, thus falling short of capturing the nuances of personalized generated content quality. On the other hand, human judgments are costly to obtain, especially in the realm of personalized evaluation. Inspired by these challenges, we explore the use of large language models (LLMs) for evaluating personalized text generation, and examine their ability to understand nuanced user context. We present AuPEL, a novel evaluation method that distills three major semantic aspects of the generated text: personalization, quality and relevance, and automatically measures these aspects. To validate the effectiveness of AuPEL, we design carefully controlled experiments and compare the accuracy of the evaluation judgments made by LLMs versus that of judgements made by human annotators, and conduct rigorous analyses of the consistency and sensitivity of the proposed metric. We find that, compared to existing evaluation metrics, AuPEL not only distinguishes and ranks models based on their personalization abilities more accurately, but also presents commendable consistency and efficiency for this task. Our work suggests that using LLMs as the evaluators of personalized text generation is superior to traditional text similarity metrics, even though interesting new challenges still remain.
翻訳日:2023-10-19 18:28:45 公開日:2023-10-17
# 言語モデルによる人間の嗜好の緩和

Eliciting Human Preferences with Language Models ( http://arxiv.org/abs/2310.11589v1 )

ライセンス: Link先を確認
Belinda Z. Li, Alex Tamkin, Noah Goodman, Jacob Andreas(参考訳) 言語モデル(lms)はラベル付き例や自然言語プロンプトを使用してターゲットタスクを実行するように指示することができる。 しかし、例の選択や執筆のプロンプトは、特に異常なエッジケースを含むタスクでは、誤った好みの正確な表現を要求したり、正確な心的モデルを必要とする。 タスク仕様プロセスのガイドには*LM自身を使うことを提案します。 本稿では,*生成的アクティブタスク消去(GATE)*: モデルがユーザとの自由な言語ベースのインタラクションを通じて意図した振る舞いを誘発し,推論する学習フレームワークを紹介する。 我々は、メール検証、コンテンツレコメンデーション、道徳的推論の3つの領域でGATEを研究している。 事前に登録した実験では、LMがGATE(例えば、オープンな質問を生成したり、情報を伝達するエッジケースを合成することによって)を実行するように促されたことを示します。 ユーザによれば、インタラクティブなタスクの誘発は、ユーザーによって最初に期待されなかった新しい考慮事項にラベル付けや例示を行うよりも少ない労力を必要とする。 以上の結果から,LM駆動のエレキュベーションは,複雑な人間の嗜好や価値観にモデルを整合させる強力なツールである可能性が示唆された。

Language models (LMs) can be directed to perform target tasks by using labeled examples or natural language prompts. But selecting examples or writing prompts for can be challenging--especially in tasks that involve unusual edge cases, demand precise articulation of nebulous preferences, or require an accurate mental model of LM behavior. We propose to use *LMs themselves* to guide the task specification process. In this paper, we introduce **Generative Active Task Elicitation (GATE)**: a learning framework in which models elicit and infer intended behavior through free-form, language-based interaction with users. We study GATE in three domains: email validation, content recommendation, and moral reasoning. In preregistered experiments, we show that LMs prompted to perform GATE (e.g., by generating open-ended questions or synthesizing informative edge cases) elicit responses that are often more informative than user-written prompts or labels. Users report that interactive task elicitation requires less effort than prompting or example labeling and surfaces novel considerations not initially anticipated by users. Our findings suggest that LM-driven elicitation can be a powerful tool for aligning models to complex human preferences and values.
翻訳日:2023-10-19 18:28:10 公開日:2023-10-17
# BasahaCorpus:中央フィリピン語における可読性評価のための拡張言語資源

BasahaCorpus: An Expanded Linguistic Resource for Readability Assessment in Central Philippine Languages ( http://arxiv.org/abs/2310.11584v1 )

ライセンス: Link先を確認
Joseph Marvin Imperial, Ekaterina Kochmar(参考訳) 自動可読性評価(ARA)に関する最近の研究は、英語などの高リソース言語におけるモデルの性能向上に重点を置いている。 本稿では,フィリピンの低資源言語における可読性評価のためのコーパスおよびベースラインモデルの拡張を目的とした取り組みの一環として,basahacorpusの紹介とリリースを行う。 hiligaynon, minasbate, karay-a, rinconada(中央フィリピンの家系図サブグループに属する言語)で書かれた短編小説のコーパスをコンパイルし、表面レベル、音節パターン、n-gram重なり特徴を用いてaraモデルを訓練した。 また,利用可能なトレーニングデータの量を増やすために,家系図内の言語配置を利用した新しい階層的言語間モデリング手法を提案する。 本研究は,低リソース環境下での言語間モデルの有効性を実証する先行研究を支援するとともに,相互に理解可能な言語的特徴の類似性を示す。

Current research on automatic readability assessment (ARA) has focused on improving the performance of models in high-resource languages such as English. In this work, we introduce and release BasahaCorpus as part of an initiative aimed at expanding available corpora and baseline models for readability assessment in lower resource languages in the Philippines. We compiled a corpus of short fictional narratives written in Hiligaynon, Minasbate, Karay-a, and Rinconada -- languages belonging to the Central Philippine family tree subgroup -- to train ARA models using surface-level, syllable-pattern, and n-gram overlap features. We also propose a new hierarchical cross-lingual modeling approach that takes advantage of a language's placement in the family tree to increase the amount of available training data. Our study yields encouraging results that support previous work showcasing the efficacy of cross-lingual models in low-resource settings, as well as similarities in highly informative linguistic features for mutually intelligible languages.
翻訳日:2023-10-19 18:27:47 公開日:2023-10-17
# 脳mriを用いた性差が脳年齢予測に及ぼす影響の検討

Studying the Effects of Sex-related Differences on Brain Age Prediction using brain MR Imaging ( http://arxiv.org/abs/2310.11577v1 )

ライセンス: Link先を確認
Mahsa Dibaji, Neha Gianchandani, Akhil Nair, Mansi Singhal, Roberto Souza, Mariana Bento(参考訳) 機械学習モデルを活用する一方で、最も重要な側面の1つは、バイアスと公平性が多様な人口階層のモデル結果にどのように影響するかである。 これは、医療画像応用のための機械学習の文脈で特に重要となり、これらのモデルが診断や治療計画にますます使われている。 本稿では,脳磁気共鳴画像(MRI)に基づく機械学習モデルを開発する際の性に関するバイアスについて検討する。 本研究では, 女性のみを用いたモデル, 男性のみを用いたトレーニング, バランスの取れたデータセットを用いて, 脳年齢予測を行い, 性別の影響について検討した。 また,複数のMRIデータセット(Calgary-Campinas (CC359) とCamCAN) の評価を行い,提案モデルの一般化能力を評価する。 性別の異なるサブグループとデータセットでトレーニングした場合の脳年齢予測モデルの性能には,最終的な予測と意思決定(解釈可能性モデルを用いて評価)の相違が認められた。 その結果,性特異的なサブグループ間でモデルの一般化性が変化し,不均衡データセット上で訓練されたモデルの潜在的なバイアスが示唆された。 このことは、公正で信頼性の高い結果を生み出す上で、慎重な実験設計が重要な役割を担っている。

While utilizing machine learning models, one of the most crucial aspects is how bias and fairness affect model outcomes for diverse demographics. This becomes especially relevant in the context of machine learning for medical imaging applications as these models are increasingly being used for diagnosis and treatment planning. In this paper, we study biases related to sex when developing a machine learning model based on brain magnetic resonance images (MRI). We investigate the effects of sex by performing brain age prediction considering different experimental designs: model trained using only female subjects, only male subjects and a balanced dataset. We also perform evaluation on multiple MRI datasets (Calgary-Campinas(CC359) and CamCAN) to assess the generalization capability of the proposed models. We found disparities in the performance of brain age prediction models when trained on distinct sex subgroups and datasets, in both final predictions and decision making (assessed using interpretability models). Our results demonstrated variations in model generalizability across sex-specific subgroups, suggesting potential biases in models trained on unbalanced datasets. This underlines the critical role of careful experimental design in generating fair and reliable outcomes.
翻訳日:2023-10-19 18:27:26 公開日:2023-10-17
# ポリゴン形表現を用いたホロスティックパーキングスロット検出

Holistic Parking Slot Detection with Polygon-Shaped Representations ( http://arxiv.org/abs/2310.11629v1 )

ライセンス: Link先を確認
Lihao Wang, Antonyo Musabini, Christel Leonet, Rachid Benmokhtar, Amaury Breheret, Chaima Yedes, Fabian Burger, Thomas Boulay, Xavier Perrotton(参考訳) 現在のadvanced driver-assistance systems(adas)の駐車スロット検出は、主に超音波センサーに依存している。 本手法は, 駐車スペース全体を検知する前にスキャンする必要があること, 列内の複数のスロットを検出できないこと, 分類が難しいこと, などの制限がある。 複雑な視覚環境のため、車両は空いている駐車スロットを検出するサラウンドビューカメラシステムを備えている。 この分野でのこれまでの研究は、主に画像ドメインモデルを使って問題を解決している。 これらの2段階のアプローチは、カメラキャリブレーションを用いた2次元検出と3次元ポーズ推定を分離する。 本稿では,you only look once (yolo)v4アルゴリズムを適応させた1ステップのパーキングスロットネットワーク(hps-net)を提案する。 このカメラベースのアプローチは、カメラ画像のバウンディングボックスの代わりに、トップビュー領域の駐車スロットの4つの頂点座標を直接出力する。 いくつかの可視点と形状は異なる角度から提案することができる。 また,ポリゴン頂点位置最適化のためのGIoU(Polygon-corner Generalized Intersection over Union)と呼ばれる新しい回帰損失関数を提案し,スロット配向を管理し,入口線を識別する。 実験の結果、HPS-Netは内部のValeo Parking Slots Dataset(VPSD)でF1スコア0.92、パブリックデータセットPS2.0で0.99の空き駐車スロットを検出できることがわかった。 屋内(F1:0.86)や舗装地(F1:0.91)など、様々な駐車シナリオにおいて、満足のいく一般化と堅牢性を提供する。 さらに、Nvidia Drive AGX Xavier上で17FPSのリアルタイム検出速度を実現している。 デモビデオはhttps://streamable.com/75j7sjで見ることができる。

Current parking slot detection in advanced driver-assistance systems (ADAS) primarily relies on ultrasonic sensors. This method has several limitations such as the need to scan the entire parking slot before detecting it, the incapacity of detecting multiple slots in a row, and the difficulty of classifying them. Due to the complex visual environment, vehicles are equipped with surround view camera systems to detect vacant parking slots. Previous research works in this field mostly use image-domain models to solve the problem. These two-stage approaches separate the 2D detection and 3D pose estimation steps using camera calibration. In this paper, we propose one-step Holistic Parking Slot Network (HPS-Net), a tailor-made adaptation of the You Only Look Once (YOLO)v4 algorithm. This camera-based approach directly outputs the four vertex coordinates of the parking slot in topview domain, instead of a bounding box in raw camera images. Several visible points and shapes can be proposed from different angles. A novel regression loss function named polygon-corner Generalized Intersection over Union (GIoU) for polygon vertex position optimization is also proposed to manage the slot orientation and to distinguish the entrance line. Experiments show that HPS-Net can detect various vacant parking slots with a F1-score of 0.92 on our internal Valeo Parking Slots Dataset (VPSD) and 0.99 on the public dataset PS2.0. It provides a satisfying generalization and robustness in various parking scenarios, such as indoor (F1: 0.86) or paved ground (F1: 0.91). Moreover, it achieves a real-time detection speed of 17 FPS on Nvidia Drive AGX Xavier. A demo video can be found at https://streamable.com/75j7sj.
翻訳日:2023-10-19 18:18:31 公開日:2023-10-17
# 言語モデリングのための単語プール型トークン化

Learn Your Tokens: Word-Pooled Tokenization for Language Modeling ( http://arxiv.org/abs/2310.11628v1 )

ライセンス: Link先を確認
Avijit Thawani, Saurabh Ghanekar, Xiaoyuan Zhu, Jay Pujara(参考訳) 言語モデルは典型的にテキストをサブワードにトークン化し、決定論的で手書きのヒューリスティックを使って文字を「ing」や単語全体のようなより長い表面的な文字列に結合する。 近年の文献では、特に英語で書かれていない文書や数字を表すために、このようなトークン化戦略の限界が繰り返し示されている。 一方、バイト/文字レベルの言語モデルは制限がはるかに少ないが、シーケンス記述長の増大と、それに続く自己注意計算の2次展開に悩まされている。 固定サイズの畳み込みでこれらのコンテキスト長を圧縮し制限しようとする最近の試みは役に立つが、単語境界を完全に無視する。 本稿では、単語境界を利用してバイト/キャラクタを単語表現にプールし、それを一次言語モデルに供給し、各単語毎の文字/バイトを並列にデコードする「learn your tokens」方式について検討する。 我々の中程度表現的かつ中程度の高速なエンド・ツー・エンド・トークンーザは、データセットをまたいだ次の単語予測の固有言語モデリング指標よりも、サブワードとバイト/文字モデルの両方で300%以上の性能を発揮している。 希少な単語よりも特に優れており、30倍に優れています! トークンの3つのカテゴリすべてに対する言語モデリングのセットアップを幅広く研究し、我々のエンドツーエンドモデルが効率性と堅牢性において強力なトレードオフとなる可能性についても理論的に分析する。

Language models typically tokenize text into subwords, using a deterministic, hand-engineered heuristic of combining characters into longer surface-level strings such as 'ing' or whole words. Recent literature has repeatedly shown the limitations of such a tokenization strategy, particularly for documents not written in English and for representing numbers. On the other extreme, byte/character-level language models are much less restricted but suffer from increased sequence description lengths and a subsequent quadratic expansion in self-attention computation. Recent attempts to compress and limit these context lengths with fixed size convolutions is helpful but completely ignores the word boundary. This paper considers an alternative 'learn your tokens' scheme which utilizes the word boundary to pool bytes/characters into word representations, which are fed to the primary language model, before again decoding individual characters/bytes per word in parallel. We find that our moderately expressive and moderately fast end-to-end tokenizer outperform by over 300% both subwords and byte/character models over the intrinsic language modeling metric of next-word prediction across datasets. It particularly outshines on rare words, outperforming by a factor of 30! We extensively study the language modeling setup for all three categories of tokenizers and theoretically analyze how our end-to-end models can also be a strong trade-off in efficiency and robustness.
翻訳日:2023-10-19 18:17:59 公開日:2023-10-17
# センチネルの高分解能化と道路検出-2

High-Resolution Building and Road Detection from Sentinel-2 ( http://arxiv.org/abs/2310.11622v1 )

ライセンス: Link先を確認
Wojciech Sirko, Emmanuel Asiedu Brempong, Juliana T. C. Marcos, Abigail Annkah, Abel Korme, Mohammed Alewi Hassen, Krishna Sapkota, Tomer Shekel, Abdoulaye Diack, Sella Nevo, Jason Hickey, John Quinn(参考訳) 建物や道路をリモートセンシングで自動的にマッピングするには、通常は高解像度の画像が必要である。 本研究では,50cmのビルディングと道路セグメンテーションマスクを生成するために,複数の10m解像度のSentinel-2画像を使用する方法を示す。 これは、Sentinel-2画像にアクセス可能な‘student’モデルをトレーニングして、対応する高解像度画像にアクセス可能な‘Teacher’モデルの予測を再現する。 予測は教師モデルの詳細な詳細を持っていないが、多くのパフォーマンスを保てることが分かっています。 セグメンテーションの構築では、85.3%のmiouの高解像度の教師モデルの精度に対して、78.3%miouを達成しています。 また,実数に対して R^2 = 0.91 となるSentinel-2 パッチの個々の建物をカウントする方法についても述べる。 この研究は、これまで高解像度衛星画像でしかできなかった様々なタスクに、自由に利用可能なセンチネル-2画像を使用する新しい可能性を開く。

Mapping buildings and roads automatically with remote sensing typically requires high-resolution imagery, which is expensive to obtain and often sparsely available. In this work we demonstrate how multiple 10 m resolution Sentinel-2 images can be used to generate 50 cm resolution building and road segmentation masks. This is done by training a `student' model with access to Sentinel-2 images to reproduce the predictions of a `teacher' model which has access to corresponding high-resolution imagery. While the predictions do not have all the fine detail of the teacher model, we find that we are able to retain much of the performance: for building segmentation we achieve 78.3% mIoU, compared to the high-resolution teacher model accuracy of 85.3% mIoU. We also describe a related method for counting individual buildings in a Sentinel-2 patch which achieves R^2 = 0.91 against true counts. This work opens up new possibilities for using freely available Sentinel-2 imagery for a range of tasks that previously could only be done with high-resolution satellite imagery.
翻訳日:2023-10-19 18:17:33 公開日:2023-10-17
# 言語モデルにおける一般知能要因の解明 : 心理学的アプローチ

Unveiling the General Intelligence Factor in Language Models: A Psychometric Approach ( http://arxiv.org/abs/2310.11616v1 )

ライセンス: Link先を確認
David Ili\'c(参考訳) この研究は、言語モデルにおける一般知性(g)の要因を明らかにし、伝統的に人間や特定の動物に適用される心理計測理論を拡張している。 1,232のモデルを持つopen llm leaderboardと88のモデルを持つgeneral language understanding evaluation (glue) leaderboardの2つの広範なデータセットの因子分析を利用することで、モデル性能の分散の85%を占める一次元、高度に安定なgファクターの説得力のある証拠が得られます。 この研究はまた、モデルサイズとgの間の.48の適度な相関も発見した。 言語モデルにおけるgの発見は、モデル評価のための統一的なメトリクスを提供し、より堅牢でgベースのモデル能力評価のための新しい道を開く。 これらの知見は、心理学的観点からの人工知能の理解と将来の研究の基盤となり、モデル評価と開発に実践的な意味を持つ。

This study uncovers the factor of general intelligence, or g, in language models, extending the psychometric theory traditionally applied to humans and certain animal species. Utilizing factor analysis on two extensive datasets - Open LLM Leaderboard with 1,232 models and General Language Understanding Evaluation (GLUE) Leaderboard with 88 models - we find compelling evidence for a unidimensional, highly stable g factor that accounts for 85% of the variance in model performance. The study also finds a moderate correlation of .48 between model size and g. The discovery of g in language models offers a unified metric for model evaluation and opens new avenues for more robust, g-based model ability assessment. These findings lay the foundation for understanding and future research on artificial general intelligence from a psychometric perspective and have practical implications for model evaluation and development.
翻訳日:2023-10-19 18:17:12 公開日:2023-10-17
# 複数の世代における階層型プランナーの学習

Learning a Hierarchical Planner from Humans in Multiple Generations ( http://arxiv.org/abs/2310.11614v1 )

ライセンス: Link先を確認
Leonardo Hernandez Cano, Yewen Pu, Robert D. Hawkins, Josh Tenenbaum, Armando Solar-Lezama(参考訳) 機械が人間から知識を得る典型的な方法は、プログラミングである。 デモや経験から学んだことと比較すると、プログラム学習はプログラムを書くとすぐに新しいスキルを習得することができ、プログラムのライブラリを構築することで、マシンは複雑なタスクの実行方法を素早く学習することができる。 しかし、プログラムは実行コンテキストを当然とするため、コンテキストが変化すると不安定になり、複雑なプログラムを新しいコンテキストに適応させることが困難になる。 本稿では,プログラミング学習と階層型プランナーを組み合わせたライブラリ学習システムであるnatural programmingを提案する。 自然プログラミングは、ゴールと、そのゴールがどのようにサブゴールに分解されるかの言語記述と、その分解の具体的な例からなる分解のライブラリを維持している。 ユーザは、この目標をサブゴールに分解する方法に関する言語的ヒントとともに、難しいが不可能でない目標を特定することによって、カリキュラム構築を通じてシステムを教える。 このシステムは階層的な計画を通じて目標を解決し、言語的ヒントを用いてその確率分布を導出し、適切な計画を提案する。 本システムは,ライブラリに新たに発見された分解を加えて,この相互作用から学習する。 制御された環境におけるシミュレーション研究と人間実験(n=360)は、自然プログラミングが異なるユーザとコンテキストから学んだプログラムを堅牢に構成できることを示し、より高速に適応し、プログラムのベースラインと比較して複雑なタスクを解決する。

A typical way in which a machine acquires knowledge from humans is by programming. Compared to learning from demonstrations or experiences, programmatic learning allows the machine to acquire a novel skill as soon as the program is written, and, by building a library of programs, a machine can quickly learn how to perform complex tasks. However, as programs often take their execution contexts for granted, they are brittle when the contexts change, making it difficult to adapt complex programs to new contexts. We present natural programming, a library learning system that combines programmatic learning with a hierarchical planner. Natural programming maintains a library of decompositions, consisting of a goal, a linguistic description of how this goal decompose into sub-goals, and a concrete instance of its decomposition into sub-goals. A user teaches the system via curriculum building, by identifying a challenging yet not impossible goal along with linguistic hints on how this goal may be decomposed into sub-goals. The system solves for the goal via hierarchical planning, using the linguistic hints to guide its probability distribution in proposing the right plans. The system learns from this interaction by adding newly found decompositions in the successful search into its library. Simulated studies and a human experiment (n=360) on a controlled environment demonstrate that natural programming can robustly compose programs learned from different users and contexts, adapting faster and solving more complex tasks when compared to programmatic baselines.
翻訳日:2023-10-19 18:16:54 公開日:2023-10-17
# バランス法:クエリとギャラリーバンクとの相互検索におけるハッチネスの緩和

Balance Act: Mitigating Hubness in Cross-Modal Retrieval with Query and Gallery Banks ( http://arxiv.org/abs/2310.11612v1 )

ライセンス: Link先を確認
Yimu Wang, Xiangru Jian, Bo Xue(参考訳) 本研究では,少数のギャラリーデータポイントが頻繁に検索され,検索性能が低下する現象であるクロスモーダル検索におけるハブネス問題に対処するポストプロセッシングソリューションを提案する。 まず,問合せと問合せデータとの類似度が高いハブとして,問合せデータと問合せデータの両方を組み込むことの必要性を理論的に示す。 第2に,理論的な結果に基づいて,新たな枠組みであるDBNormを提案する。 これまでの研究はクエリサンプルのみを利用することでハブネスを緩和しようとしたが、dbnormはクエリとギャラリーサンプルから構築された2つのバンクを活用して、推論中にハブが発生することを減らす。 次に,dbnormを補完するために,2つの新しい手法である2つの逆ソフトマックス法と2つの動的反転ソフトマックス法を導入する。 具体的には,ハブとクエリ間の類似性を低減しつつ,非ハブとクエリ間の類似性を向上する手法を提案する。 最後に,テキストイメージ,テキストビデオ,テキストオーディオなど,多種多様な言語基盤ベンチマークに関する広範な実験結果を示す。 私たちのコードはhttps://github.com/yimuwangcs/Better_Cross_Modal_Retrievalで利用可能です。

In this work, we present a post-processing solution to address the hubness problem in cross-modal retrieval, a phenomenon where a small number of gallery data points are frequently retrieved, resulting in a decline in retrieval performance. We first theoretically demonstrate the necessity of incorporating both the gallery and query data for addressing hubness as hubs always exhibit high similarity with gallery and query data. Second, building on our theoretical results, we propose a novel framework, Dual Bank Normalization (DBNorm). While previous work has attempted to alleviate hubness by only utilizing the query samples, DBNorm leverages two banks constructed from the query and gallery samples to reduce the occurrence of hubs during inference. Next, to complement DBNorm, we introduce two novel methods, dual inverted softmax and dual dynamic inverted softmax, for normalizing similarity based on the two banks. Specifically, our proposed methods reduce the similarity between hubs and queries while improving the similarity between non-hubs and queries. Finally, we present extensive experimental results on diverse language-grounded benchmarks, including text-image, text-video, and text-audio, demonstrating the superior performance of our approaches compared to previous methods in addressing hubness and boosting retrieval performance. Our code is available at https://github.com/yimuwangcs/Better_Cross_Modal_Retrieval.
翻訳日:2023-10-19 18:16:29 公開日:2023-10-17
# モデル圧縮のためのパラメータ共有の防御

In defense of parameter sharing for model-compression ( http://arxiv.org/abs/2310.11611v1 )

ライセンス: Link先を確認
Aditya Desai, Anshumali Shrivastava(参考訳) モデルアーキテクチャを考えるとき、メモリフットプリントを減らす方法はいくつかある。 歴史的に一般的なアプローチは、より小さなアーキテクチャを選択し、プルーニングを通じてスパースネットワークを作成することであった。 最近では、ランダム化パラメータ共有(RPS)手法が訓練開始時のモデル圧縮の牽引力を高めている。 本稿では,RPS,プルーニング技術,小型モデル構築におけるメモリと精度のトレードオフを包括的に評価する。 以上の結果から,データとモデルに依存しないRCSは,より小さなモデルと,MAG,SNIP,SYNFLOW,GRASPといった中程度に情報提供されたプルーニング戦略を,圧縮範囲全体で一貫して上回っていることがわかった。 この利点は特に高い圧縮シナリオで顕著になる。 特に、Lottery Ticket Rewinding (LTR)のような高情報プルーニング技術と比較しても、RPSは高い圧縮設定において優れた性能を示す。 このことは、RSSがスパースモデルよりも楽しむ固有のキャパシティの利点を指摘している。 理論的には、線形モデルのプルーニングと比較してメモリ効率のよい表現法としてRCSを確立する。 本稿では, RPS モデルへのパラダイムシフトを論じる。 RPSの厳密な評価では、ROASTの安定性(ROASTの初期化ハイパーパラメータに対する感度は、しばしばばらつきにつながる)とPareto-Continuity(ROASTがゼロ圧縮で元のモデルの精度を回復できない)について、最先端のRCS技術ROASTの問題点を特定した。 これらの問題の両方に確実に対処する。 改良されたRSSをSTABLE-RPSと呼ぶ。

When considering a model architecture, there are several ways to reduce its memory footprint. Historically, popular approaches included selecting smaller architectures and creating sparse networks through pruning. More recently, randomized parameter-sharing (RPS) methods have gained traction for model compression at start of training. In this paper, we comprehensively assess the trade-off between memory and accuracy across RPS, pruning techniques, and building smaller models. Our findings demonstrate that RPS, which is both data and model-agnostic, consistently outperforms/matches smaller models and all moderately informed pruning strategies, such as MAG, SNIP, SYNFLOW, and GRASP, across the entire compression range. This advantage becomes particularly pronounced in higher compression scenarios. Notably, even when compared to highly informed pruning techniques like Lottery Ticket Rewinding (LTR), RPS exhibits superior performance in high compression settings. This points out inherent capacity advantage that RPS enjoys over sparse models. Theoretically, we establish RPS as a superior technique in terms of memory-efficient representation when compared to pruning for linear models. This paper argues in favor of paradigm shift towards RPS based models. During our rigorous evaluation of RPS, we identified issues in the state-of-the-art RPS technique ROAST, specifically regarding stability (ROAST's sensitivity to initialization hyperparameters, often leading to divergence) and Pareto-continuity (ROAST's inability to recover the accuracy of the original model at zero compression). We provably address both of these issues. We refer to the modified RPS, which incorporates our improvements, as STABLE-RPS.
翻訳日:2023-10-19 18:16:06 公開日:2023-10-17
# 雑音量子プロセッサにおける計測誘起エンタングルメントとテレポーテーション

Measurement-induced entanglement and teleportation on a noisy quantum processor ( http://arxiv.org/abs/2303.04792v2 )

ライセンス: Link先を確認
Jesse C. Hoke, Matteo Ippoliti, Eliott Rosenberg, Dmitry Abanin, Rajeev Acharya, Trond I. Andersen, Markus Ansmann, Frank Arute, Kunal Arya, Abraham Asfaw, Juan Atalaya, Joseph C. Bardin, Andreas Bengtsson, Gina Bortoli, Alexandre Bourassa, Jenna Bovaird, Leon Brill, Michael Broughton, Bob B. Buckley, David A. Buell, Tim Burger, Brian Burkett, Nicholas Bushnell, Zijun Chen, Ben Chiaro, Desmond Chik, Josh Cogan, Roberto Collins, Paul Conner, William Courtney, Alexander L. Crook, Ben Curtin, Alejandro Grajales Dau, Dripto M. Debroy, Alexander Del Toro Barba, Sean Demura, Augustin Di Paolo, Ilya K. Drozdov, Andrew Dunsworth, Daniel Eppens, Catherine Erickson, Edward Farhi, Reza Fatemi, Vinicius S. Ferreira, Leslie Flores Burgos, Ebrahim Forati, Austin G. Fowler, Brooks Foxen, William Giang, Craig Gidney, Dar Gilboa, Marissa Giustina, Raja Gosula, Jonathan A. Gross, Steve Habegger, Michael C. Hamilton, Monica Hansen, Matthew P. Harrigan, Sean D. Harrington, Paula Heu, Markus R. Hoffmann, Sabrina Hong, Trent Huang, Ashley Huff, William J. Huggins, Sergei V. Isakov, Justin Iveland, Evan Jeffrey, Cody Jones, Pavol Juhas, Dvir Kafri, Kostyantyn Kechedzhi, Tanuj Khattar, Mostafa Khezri, M\'aria Kieferov\'a, Seon Kim, Alexei Kitaev, Paul V. Klimov, Andrey R. Klots, Alexander N. Korotkov, Fedor Kostritsa, John Mark Kreikebaum, David Landhuis, Pavel Laptev, Kim-Ming Lau, Lily Laws, Joonho Lee, Kenny W. Lee, Yuri D. Lensky, Brian J. Lester, Alexander T. Lill, Wayne Liu, Aditya Locharla, Orion Martin, Jarrod R. McClean, Matt McEwen, Kevin C.Miao, Amanda Mieszala, Shirin Montazeri, Alexis Morvan, Ramis Movassagh, Wojciech Mruczkiewicz, Matthew Neeley, Charles Neill, Ani Nersisyan, Michael Newman, Jiun H. Ng, Anthony Nguyen, Murray Nguyen, Murphy Yuezhen Niu, Tom E. O'Brien, Seun Omonije, Alex Opremcak, Andre Petukhov, Rebecca Potter, Leonid P. Pryadko, Chris Quintana, Charles Rocque, Nicholas C. Rubin, Negar Saei, Daniel Sank, Kannan Sankaragomathi, Kevin J. Satzinger, Henry F. Schurkus, Christopher Schuster, Michael J. Shearn, Aaron Shorter, Noah Shutty, Vlad Shvarts, Jindra Skruzny, W. Clarke Smith, Rolando D. Somma, George Sterling, Douglas Strain, Marco Szalay, Alfredo Torres, Guifre Vidal, Benjamin Villalonga, Catherine Vollgraff Heidweiller, Ted White, Bryan W. K. Woo, Cheng Xing, Z. Jamie. Yao, Ping Yeh, Juhwan Yoo, Grayson Young, Adam Zalcman, Yaxing Zhang, Ningfeng Zhu, Nicholas Zobrist, Harmut Neven, Ryan Babbush, Dave Bacon, Sergio Boixo, Jeremy Hilton, Erik Lucero, Anthony Megrant, Julian Kelly, Yu Chen, Vadim Smelyanskiy, Xiao Mi, Vedika Khemani, Pedram Roushan(参考訳) 測定は量子論において特別な役割を持ち、波動関数を崩壊させることで、テレポーテーションのような現象を可能とし、ユニタリ進化を制限する「時間の幅」を変更することができる。 多体力学に組み込むと、測定は時空における量子情報の創発的パターンにつながり、平衡内または平衡外のいずれかの位相を特徴付ける確立されたパラダイムを超える。 現在のNISQプロセッサでは、ノイズ、ハードウェアの制限、量子測定の確率的性質により、この物理の実験的な実現が困難である。 本稿では、これらの実験課題をそれぞれ解決し、70以上の超伝導量子ビット上の測定誘起量子情報位相について検討する。 空間と時間の交換性を活用することで、二元性マッピングを用いて、中循環の測定を避け、絡み合いスケーリングから測定誘発テレポーテーションまで、基盤となるフェーズの異なる表現にアクセスします。 実験記録と古典的シミュレーションデータとの相関関係を示す復号プロトコルを用いて位相遷移の有限サイズシグネチャを得る。 位相はノイズに対する感度が著しく異なり、それを利用して固有のハードウェア制限を有用な診断にします。 本研究では,現在のnisqプロセッサの限界であるスケールで測定誘起物理を実現する手法を示す。

Measurement has a special role in quantum theory: by collapsing the wavefunction it can enable phenomena such as teleportation and thereby alter the "arrow of time" that constrains unitary evolution. When integrated in many-body dynamics, measurements can lead to emergent patterns of quantum information in space-time that go beyond established paradigms for characterizing phases, either in or out of equilibrium. On present-day NISQ processors, the experimental realization of this physics is challenging due to noise, hardware limitations, and the stochastic nature of quantum measurement. Here we address each of these experimental challenges and investigate measurement-induced quantum information phases on up to 70 superconducting qubits. By leveraging the interchangeability of space and time, we use a duality mapping, to avoid mid-circuit measurement and access different manifestations of the underlying phases -- from entanglement scaling to measurement-induced teleportation -- in a unified way. We obtain finite-size signatures of a phase transition with a decoding protocol that correlates the experimental measurement record with classical simulation data. The phases display sharply different sensitivity to noise, which we exploit to turn an inherent hardware limitation into a useful diagnostic. Our work demonstrates an approach to realize measurement-induced physics at scales that are at the limits of current NISQ processors.
翻訳日:2023-10-19 13:17:34 公開日:2023-10-17
# 対関係から局所構造を推定する

Inferring Local Structure from Pairwise Correlations ( http://arxiv.org/abs/2305.04386v2 )

ライセンス: Link先を確認
Mahajabin Rahman and Ilya Nemenman(参考訳) 生物学のような大規模多変量複素システムのモデルを構築するには、どの変数が相互作用できるかを制約する必要がある。 これは変数間の"ローカル"構造の検出と見なすことができる。 2次元の自然画像と合成画像の単純な玩具モデルでは、重くアンサンプされた場合でも、変数間のペアの相関が、データの次元を含む局所的な関係を回復し、完全にスクランブルされた画像の画素配置を再構築するのに十分な情報を提供する。 これは、データに上位の相互作用構造が存在するにもかかわらず、成功することを証明します。 私たちは、複雑な多変量システムのモデリングに寄与し、現代の注意に基づく機械学習アプローチの成功を説明することを望んでいる。

To construct models of large, multivariate complex systems, such as those in biology, one needs to constrain which variables are allowed to interact. This can be viewed as detecting "local" structures among the variables. In the context of a simple toy model of 2D natural and synthetic images, we show that pairwise correlations between the variables -- even when severely undersampled -- provide enough information to recover local relations, including the dimensionality of the data, and to reconstruct arrangement of pixels in fully scrambled images. This proves to be successful even though higher order interaction structures are present in our data. We build intuition behind the success, which we hope might contribute to modeling complex, multivariate systems and to explaining the success of modern attention-based machine learning approaches.
翻訳日:2023-10-19 13:08:14 公開日:2023-10-17
# 生成AIのセキュリティリスクの特定と修正

Identifying and Mitigating the Security Risks of Generative AI ( http://arxiv.org/abs/2308.14840v3 )

ライセンス: Link先を確認
Clark Barrett, Brad Boyd, Elie Burzstein, Nicholas Carlini, Brad Chen, Jihye Choi, Amrita Roy Chowdhury, Mihai Christodorescu, Anupam Datta, Soheil Feizi, Kathleen Fisher, Tatsunori Hashimoto, Dan Hendrycks, Somesh Jha, Daniel Kang, Florian Kerschbaum, Eric Mitchell, John Mitchell, Zulfikar Ramzan, Khawaja Shams, Dawn Song, Ankur Taly, Diyi Yang(参考訳) あらゆる主要な技術発明が両用ジレンマを再浮上させ、新しい技術は善と害に使える可能性がある。 大規模言語モデル(LLM)や拡散モデルのようなジェネレーティブAI(GenAI)技術は、顕著な能力(例えば、テキスト内学習、コード補完、テキストから画像への生成と編集)を示している。 しかし、GenAIは攻撃者も同様に新しい攻撃を発生させ、既存の攻撃の速度と効果を高めるために使うことができる。 本稿は、Google(スタンフォード大学とウィスコンシン大学マディソン校が共同で開催した、GenAIによる二重使用ジレンマに関するワークショップの成果を報告する。 本論文は包括的ではなく,ワークショップで得られた興味深い知見のいくつかを合成する試みである。 この話題について,コミュニティの短期的,長期的目標について論じる。 この論文は、この重要なトピックに関する議論の出発点と、研究コミュニティが取り組むべき興味深い問題の両方を提供することを期待している。

Every major technical invention resurfaces the dual-use dilemma -- the new technology has the potential to be used for good as well as for harm. Generative AI (GenAI) techniques, such as large language models (LLMs) and diffusion models, have shown remarkable capabilities (e.g., in-context learning, code-completion, and text-to-image generation and editing). However, GenAI can be used just as well by attackers to generate new attacks and increase the velocity and efficacy of existing attacks. This paper reports the findings of a workshop held at Google (co-organized by Stanford University and the University of Wisconsin-Madison) on the dual-use dilemma posed by GenAI. This paper is not meant to be comprehensive, but is rather an attempt to synthesize some of the interesting findings from the workshop. We discuss short-term and long-term goals for the community on this topic. We hope this paper provides both a launching point for a discussion on this important topic as well as interesting problems that the research community can work to address.
翻訳日:2023-10-19 12:57:34 公開日:2023-10-17
# 回避量子力学 \{a} la sudarshan: koopman-von neumann 力学の実現としての量子力学フリーサブシステム

Evading Quantum Mechanics \`{a} la Sudarshan: quantum-mechanics-free subsystem as a realization of Koopman-von Neumann mechanics ( http://arxiv.org/abs/2308.08919v2 )

ライセンス: Link先を確認
Zurab K. Silagadze(参考訳) tsangとcavesは2012年に量子メカニクスフリーサブシステムのアイデアを提案した。 我々は、スダルシャンのクープマン・ヴォン・ノイマン力学の視点が量子力学を含まないサブシステムで実現されると主張する。 量子力学のないサブシステムが実験的に実現されているため、クープマンヴォン・ノイマン力学は本質的に工学科学に変換される。

Tsang and Caves suggested the idea of a quantum-mechanics-free subsystem in 2012. We contend that Sudarshan's viewpoint on Koopman-von Neumann mechanics is realized in the quantum-mechanics-free subsystem. Since quantum-mechanics-free subsystems are being experimentally realized, Koopman-von Neumann mechanics is essentially transformed into an engineering science.
翻訳日:2023-10-19 12:57:17 公開日:2023-10-17
# 深部生成モデルを用いた中国絵画のスタイル伝達

Chinese Painting Style Transfer Using Deep Generative Models ( http://arxiv.org/abs/2310.09978v2 )

ライセンス: Link先を確認
Weijian Ma, Yanyang Kong(参考訳) アートスタイルの転送は、コンテンツを保存しながらイメージのスタイルを変更することを目的としている。 ディープラーニングモデルを用いたスタイル転送は2015年から広く研究されており、ほとんどのアプリケーションはVan Gogh、Monet、Cezanneといった特定のアーティストに焦点を当てている。 伝統的な中国の絵画様式の伝来に関する研究や応用は少ない。 そこで本研究では,中国絵画スタイルの転写における最先端の深層生成モデルについて検討し,質的,定量的に評価する。 さらに,タスクに複数のスタイル転送モデルを組み合わせた独自のアルゴリズムを提案する。 具体的には、中国古来の画風である「ゴンビ」と「シュイモ」(自然物、肖像画、風景などの現代像)の2種類を転用する。

Artistic style transfer aims to modify the style of the image while preserving its content. Style transfer using deep learning models has been widely studied since 2015, and most of the applications are focused on specific artists like Van Gogh, Monet, Cezanne. There are few researches and applications on traditional Chinese painting style transfer. In this paper, we will study and leverage different state-of-the-art deep generative models for Chinese painting style transfer and evaluate the performance both qualitatively and quantitatively. In addition, we propose our own algorithm that combines several style transfer models for our task. Specifically, we will transfer two main types of traditional Chinese painting style, known as "Gong-bi" and "Shui-mo" (to modern images like nature objects, portraits and landscapes.
翻訳日:2023-10-19 12:51:19 公開日:2023-10-17
# ディープラーニングのためのマイクロスケーリングデータフォーマット

Microscaling Data Formats for Deep Learning ( http://arxiv.org/abs/2310.10537v2 )

ライセンス: Link先を確認
Bita Darvish Rouhani, Ritchie Zhao, Ankit More, Mathew Hall, Alireza Khodamoradi, Summer Deng, Dhruv Choudhary, Marius Cornea, Eric Dellinger, Kristof Denolf, Stosic Dusan, Venmugil Elango, Maximilian Golub, Alexander Heinecke, Phil James-Roxby, Dharmesh Jani, Gaurav Kolhe, Martin Langhammer, Ada Li, Levi Melnick, Maral Mesmakhosroshahi, Andres Rodriguez, Michael Schulte, Rasoul Shafipour, Lei Shao, Michael Siu, Pradeep Dubey, Paulius Micikevicius, Maxim Naumov, Colin Verrilli, Ralph Wittig, Eric Chung(参考訳) 狭いビット幅のデータフォーマットは、現代のディープラーニングアプリケーションの計算コストとストレージコストを削減する鍵となる。 本稿では,ブロック単位のスケーリング係数と狭い浮動小数点数と整数型を組み合わせたマイクロスケーリング(mx)データ形式を評価する。 mxフォーマットは、ハードウェア効率、モデル精度、ユーザ摩擦といった競合するニーズとバランスをとる。 2ダース以上のベンチマークにおける実証的な結果は、AI推論と低ユーザ摩擦によるトレーニングのためのベースラインFP32のドロップイン代替として、MXデータフォーマットの実用性を示している。 また,8ビット以下の重み,アクティベーション,勾配で生成言語モデルをトレーニングする最初の事例を示す。

Narrow bit-width data formats are key to reducing the computational and storage costs of modern deep learning applications. This paper evaluates Microscaling (MX) data formats that combine a per-block scaling factor with narrow floating-point and integer types for individual elements. MX formats balance the competing needs of hardware efficiency, model accuracy, and user friction. Empirical results on over two dozen benchmarks demonstrate practicality of MX data formats as a drop-in replacement for baseline FP32 for AI inference and training with low user friction. We also show the first instance of training generative language models at sub-8-bit weights, activations, and gradients with minimal accuracy loss and no modifications to the training recipe.
翻訳日:2023-10-19 12:40:19 公開日:2023-10-17
# 大規模言語モデルを用いたテキスト要約:MPT-7b命令、Falcon-7b命令、OpenAI Chat-GPTモデルの比較検討

Text Summarization Using Large Language Models: A Comparative Study of MPT-7b-instruct, Falcon-7b-instruct, and OpenAI Chat-GPT Models ( http://arxiv.org/abs/2310.10449v2 )

ライセンス: Link先を確認
Lochan Basyal and Mihir Sanghvi(参考訳) テキスト要約は、情報検索からコンテンツ生成まで幅広いアプリケーションに対して重要な自然言語処理(NLP)タスクである。 Leveraging Large Language Models (LLMs) は、要約技術の強化において、顕著な将来性を示している。 本稿では,mpt-7b-instruct,falcon-7b-instruct,openai chatgpt text-davinci-003 モデルを含む多種多様な llm を用いたテキスト要約の探索を行った。 実験は,異なるハイパーパラメータを用いて実施し,多言語評価アンダースタディ(bleu)スコア,ジェクション評価のためのリコール指向アンダースタディ(rouge)スコア,トランスフォーマー(bert)スコアからの双方向エンコーダ表現など,広く受け入れられた指標を用いて生成要約を評価した。 実験によると、text-davinci-003は他より優れていた。 この調査にはCNN Daily MailとXSumという2つの異なるデータセットが含まれていた。 その主な目的は、異なるデータセットに適用した場合に、LLM(Large Language Models)のパフォーマンスを包括的に理解することであった。 これらのモデルの有効性を評価することは、NLPドメイン内の研究者や実践者に貴重な洞察をもたらす。 この研究は、テキスト要約にllmの可能性を活用したい人のためのリソースとなり、幅広いビジネス課題に対処するための高度な生成aiアプリケーションの開発の基礎を築いている。

Text summarization is a critical Natural Language Processing (NLP) task with applications ranging from information retrieval to content generation. Leveraging Large Language Models (LLMs) has shown remarkable promise in enhancing summarization techniques. This paper embarks on an exploration of text summarization with a diverse set of LLMs, including MPT-7b-instruct, falcon-7b-instruct, and OpenAI ChatGPT text-davinci-003 models. The experiment was performed with different hyperparameters and evaluated the generated summaries using widely accepted metrics such as the Bilingual Evaluation Understudy (BLEU) Score, Recall-Oriented Understudy for Gisting Evaluation (ROUGE) Score, and Bidirectional Encoder Representations from Transformers (BERT) Score. According to the experiment, text-davinci-003 outperformed the others. This investigation involved two distinct datasets: CNN Daily Mail and XSum. Its primary objective was to provide a comprehensive understanding of the performance of Large Language Models (LLMs) when applied to different datasets. The assessment of these models' effectiveness contributes valuable insights to researchers and practitioners within the NLP domain. This work serves as a resource for those interested in harnessing the potential of LLMs for text summarization and lays the foundation for the development of advanced Generative AI applications aimed at addressing a wide spectrum of business challenges.
翻訳日:2023-10-19 12:39:09 公開日:2023-10-17
# 多言語言語モデルにおける事実知識の言語間一貫性

Cross-Lingual Consistency of Factual Knowledge in Multilingual Language Models ( http://arxiv.org/abs/2310.10378v2 )

ライセンス: Link先を確認
Jirui Qi, Raquel Fern\'andez, Arianna Bisazza(参考訳) 多言語の大規模事前学習言語モデル(plm)は、かなりの量の事実知識を蓄積していることが示されているが、言語間で大きな変化が見られる。 異なる言語背景を持つユーザが同じモデルから一貫したフィードバックを得るための究極の目標として,多言語PLMにおける事実知識の言語間整合性(CLC)について検討する。 そこで我々は,言語間の知識の整合性を評価するために,RankC(Rank-based Consistency)尺度を提案する。 この測定値を用いて、モデルレベルと言語ペアレベルの両方において、CLCの決定因子の詳細な分析を行う。 以上の結果から,モデルサイズが大きくなると,言語間一貫性は向上しないものの,実測精度は高まることが判明した。 最後に,モデル編集により新たな事実関連をPLMに挿入する場合に,LCCのケーススタディを行う。 英語に挿入された事実の小さなサンプルの結果から、新しい知識の断片が、高いランクCスコアを持つ言語にのみ伝達される明確なパターンが明らかとなった。

Multilingual large-scale Pretrained Language Models (PLMs) have been shown to store considerable amounts of factual knowledge, but large variations are observed across languages. With the ultimate goal of ensuring that users with different language backgrounds obtain consistent feedback from the same model, we study the cross-lingual consistency (CLC) of factual knowledge in various multilingual PLMs. To this end, we propose a Ranking-based Consistency (RankC) metric to evaluate knowledge consistency across languages independently from accuracy. Using this metric, we conduct an in-depth analysis of the determining factors for CLC, both at model level and at language-pair level. Among other results, we find that increasing model size leads to higher factual probing accuracy in most languages, but does not improve cross-lingual consistency. Finally, we conduct a case study on CLC when new factual associations are inserted in the PLMs via model editing. Results on a small sample of facts inserted in English reveal a clear pattern whereby the new piece of knowledge transfers only to languages with which English has a high RankC score.
翻訳日:2023-10-19 12:37:58 公開日:2023-10-17
# ソフトウェア生成データのバイアスとエラー軽減:生成コードモデルを活用する高度な検索と最適化フレームワーク

Bias and Error Mitigation in Software-Generated Data: An Advanced Search and Optimization Framework Leveraging Generative Code Models ( http://arxiv.org/abs/2310.11546v1 )

ライセンス: Link先を確認
Ernesto Giralt Hern\'andez(参考訳) データ生成と分析は、ビジネスにおける戦略的意思決定から、物理科学や社会科学の研究まで、多くの産業や分野の基本的な側面である。 しかし、ソフトウェアとアルゴリズムを使って生成されたデータは、バイアスやエラーを受けやすい。 これらは、オリジナルのソフトウェアの問題や、状況の特定のニーズに合致しないデフォルト設定、あるいは基礎となる理論やモデルに関するより深い問題による可能性がある。 本稿では,データ解析と生成を専門とするソフトウェアシステムにおいて,特に企業やデータサイエンスの世界において,エラーやバイアスを修正可能な最適なソースコードの生成と選択を目的とした,高度な検索・最適化フレームワークを提案する。 このフレームワークを同じソフトウェアシステムに複数回適用すると、出力結果の品質が徐々に向上します。 ソロモノフ誘導を音理論の基礎として使用し、新しい適応であるコルモゴロフ条件複雑性で拡張して、候補プログラムのセットを評価する。 本稿では,高品質なコードを生成するための大規模言語モデル(llm)の機能に着目し,このプログラムの作成に生成モデルを用いることを提案する。

Data generation and analysis is a fundamental aspect of many industries and disciplines, from strategic decision making in business to research in the physical and social sciences. However, data generated using software and algorithms can be subject to biases and errors. These can be due to problems with the original software, default settings that do not align with the specific needs of the situation, or even deeper problems with the underlying theories and models. This paper proposes an advanced search and optimization framework aimed at generating and choosing optimal source code capable of correcting errors and biases from previous versions to address typical problems in software systems specializing in data analysis and generation, especially those in the corporate and data science world. Applying this framework multiple times on the same software system would incrementally improve the quality of the output results. It uses Solomonoff Induction as a sound theoretical basis, extending it with Kolmogorov Conditional Complexity, a novel adaptation, to evaluate a set of candidate programs. We propose the use of generative models for the creation of this set of programs, with special emphasis on the capabilities of Large Language Models (LLMs) to generate high quality code.
翻訳日:2023-10-19 12:19:26 公開日:2023-10-17
# 学習レンズのぼけ場

Learning Lens Blur Fields ( http://arxiv.org/abs/2310.11535v1 )

ライセンス: Link先を確認
Esther Y. H. Lin, Zhecheng Wang, Rebecca Lin, Daniel Miau, Florian Kainz, Jiawen Chen, Xuaner Cecilia Zhang, David B. Lindell, Kiriakos N. Kutulakos(参考訳) 光ぼかしはどんなレンズシステムにも固有の性質であり、複雑な光学素子のために現代のカメラではモデル化が難しい。 この課題に取り組むために、我々は、blub$-$$\textit{the lens blur field}$-$の高次元ニューラルネットワーク表現とそれを取得するための実用的な方法を紹介する。 レンズぼけ場は、(1)画像平面上のレンズ2D点拡散関数、焦点設定、およびオプションで、奥行き、(2)これらの変動を1つのセンサ固有関数としてパラメトリックに表現する多層パーセプトロン(MLP)である。 この表現モデルでは、デフォーカス、回折、収差、およびピクセルカラーフィルタやピクセル固有マイクロレンズなどのセンサー特性の複合効果をモデル化する。 実世界のブラーフィールドを学習するために,MLP重みを直接最適化する一般化された非ブラインドデコンボリューション問題を,少数の焦点スタックを入力として定式化する。 私たちはまた、スマートフォンのカメラやさまざまなレンズを備えたカメラ本体など、5dボケフィールドの初歩的なデータセットも提供しています。 最後に、取得した5dぼかしフィールドは表現力が高く、初めて同じメイクとモデルのスマートフォンデバイスの光学的挙動の違いを明らかにするのに十分な精度を示す。

Optical blur is an inherent property of any lens system and is challenging to model in modern cameras because of their complex optical elements. To tackle this challenge, we introduce a high-dimensional neural representation of blur$-$$\textit{the lens blur field}$$-$and a practical method for acquiring it. The lens blur field is a multilayer perceptron (MLP) designed to (1) accurately capture variations of the lens 2D point spread function over image plane location, focus setting and, optionally, depth and (2) represent these variations parametrically as a single, sensor-specific function. The representation models the combined effects of defocus, diffraction, aberration, and accounts for sensor features such as pixel color filters and pixel-specific micro-lenses. To learn the real-world blur field of a given device, we formulate a generalized non-blind deconvolution problem that directly optimizes the MLP weights using a small set of focal stacks as the only input. We also provide a first-of-its-kind dataset of 5D blur fields$-$for smartphone cameras, camera bodies equipped with a variety of lenses, etc. Lastly, we show that acquired 5D blur fields are expressive and accurate enough to reveal, for the first time, differences in optical behavior of smartphone devices of the same make and model.
翻訳日:2023-10-19 12:19:07 公開日:2023-10-17
# 量子ワンウェイネスからのコミットメント

Commitments from Quantum One-Wayness ( http://arxiv.org/abs/2310.11526v1 )

ライセンス: Link先を確認
Dakshita Khurana (UIUC) and Kabir Tomer (UIUC)(参考訳) 片道関数は古典暗号の中心である。 これらは、非自明な古典暗号システムの存在のために必要であり、コミットメント、擬似ランダム生成器、デジタル署名を含む有意義なプリミティブを実現するのに十分である。 同時に、仮説が一方的な関数よりも弱いことが、ビットコミットメントやセキュアなマルチパーティ計算を含む多くの量子世界に興味を持つ暗号的タスクに十分であることを示している。 本研究は、一方向関数の自然な量子緩和である一方向状態生成器の研究である。 秘密鍵が与えられた場合、一方の状態発生器は、量子状態の反転が難しい状態を出力する。 根本的な問題は、このタイプの量子ワンウェイネスが量子暗号を実現するのに十分であるかどうかである。 純粋な状態を持つ一方向状態生成器が量子ビットのコミットメントを生じさせ、マルチパーティ計算を安全に行うことを証明し、この問題に対する肯定的な答えを得る。 その過程で、古典的な出力を持つ中間プリミティブを構築し、これを(量子)片道パズルと呼ぶ。 我々の主な技術的貢献は、一方のパズルが量子ビットのコミットメントを暗示する証拠である。

One-way functions are central to classical cryptography. They are both necessary for the existence of non-trivial classical cryptosystems, and sufficient to realize meaningful primitives including commitments, pseudorandom generators and digital signatures. At the same time, a mounting body of evidence suggests that assumptions even weaker than one-way functions may suffice for many cryptographic tasks of interest in a quantum world, including bit commitments and secure multi-party computation. This work studies one-way state generators, a natural quantum relaxation of one-way functions. Given a secret key, a one-way state generator outputs a hard to invert quantum state. A fundamental question is whether this type of quantum one-wayness suffices to realize quantum cryptography. We obtain an affirmative answer to this question, by proving that one-way state generators with pure state outputs imply quantum bit commitments and secure multiparty computation. Along the way, we build an intermediate primitive with classical outputs, which we call a (quantum) one-way puzzle. Our main technical contribution is a proof that one-way puzzles imply quantum bit commitments.
翻訳日:2023-10-19 12:18:40 公開日:2023-10-17
# 結合散逸を伴う量子スピン鎖

Quantum spin chains with bond dissipation ( http://arxiv.org/abs/2310.11525v1 )

ライセンス: Link先を確認
Manuel Weber(参考訳) 一次元反強磁性スピン-1/2$Heisenbergモデルに対する結合散逸の影響について検討する。 スピン・ピエルス問題に類似して、散逸浴はスピン交換結合を変調する局所調和振動子によって記述されるが、単一ボソン周波数の代わりに連続浴スペクトル$\propto \omega^s$を考える。 リタード相互作用の正確な量子モンテカルロ法を用いて、バスへの$s<1$の有限結合は価結合整合位を誘導するのに対し、$s>1$の分離鎖の臨界相は有限臨界結合まで安定であることを示す。 ギャップのないボソニックスペクトルが存在する場合でも、スピン-トリップレットギャップは任意のシステムサイズに対してよく定義され、そこからz=1$の動的臨界指数を抽出する。 我々は、SU(2)$_1$Wess-Zumino-Wittenモデルによって支配されるベレジンスキー-コステリッツ-チューレス量子相転移の証拠を提供する。 以上の結果から, 散逸系の臨界特性は, 異なる相互作用範囲,すなわち, 遅延した二量体-二量体相互作用のパワーロー対指数崩壊によらず, スピン・パイエルス臨界性が状態のボソニック密度に対して頑健であることを示唆する。

We study the effect of bond dissipation on the one-dimensional antiferromagnetic spin-$1/2$ Heisenberg model. In analogy to the spin-Peierls problem, the dissipative bath is described by local harmonic oscillators that modulate the spin exchange coupling, but instead of a single boson frequency we consider a continuous bath spectrum $\propto \omega^s$. Using an exact quantum Monte Carlo method for retarded interactions, we show that for $s<1$ any finite coupling to the bath induces valence-bond-solid order, whereas for $s>1$ the critical phase of the isolated chain remains stable up to a finite critical coupling. We find that, even in the presence of the gapless bosonic spectrum, the spin-triplet gap remains well defined for any system size, from which we extract a dynamical critical exponent of $z=1$. We provide evidence for a Berezinskii-Kosterlitz-Thouless quantum phase transition that is governed by the SU(2)$_1$ Wess-Zumino-Witten model. Our results suggest that the critical properties of the dissipative system are the same as for the spin-Peierls model, irrespective of the different interaction range, i.e., power-law vs. exponential decay, of the retarded dimer-dimer interaction, indicating that the spin-Peierls criticality is robust with respect to the bosonic density of states.
翻訳日:2023-10-19 12:18:22 公開日:2023-10-17
# 有限分岐フラクタル格子における超伝導の強増強

Strong enhancement of superconductivity in finitely ramified fractal lattices ( http://arxiv.org/abs/2310.11497v1 )

ライセンス: Link先を確認
Askar A. Iliasov, Mikhail I. Katsnelson, Andrey A. Bagrov(参考訳) Sierpinskiガスケット(三角形)およびカーペット(四角)格子を例として、フラクタル超伝導体の特性を理論的に研究する。 そこで我々は, 魅力的なオンサイトポテンシャルを持つHubbardモデルにおける$s$-wave超伝導現象に着目し, Bogoliubov-de Gennesアプローチと超流動剛性理論を用いた。 Sierpinskiガスケットの場合、下層の結晶格子のフラクタル幾何が超伝導に強く寄与することを示し、通常の三角形格子に比べて臨界温度$T_c$が著しく上昇するだけでなく、クーパー対のマクロ位相コヒーレンスも支持することを示した。 対照的に、シエピンスキーのカーペット幾何学は明らかな効果をもたらすものではなく、通常の正方格子と比較して大きな違いは見つからない。 これらの場合の定性的差はフラクタルの異なる分岐特性によって生じると推測する。

Using the Sierpinski gasket (triangle) and carpet (square) lattices as examples, we theoretically study the properties of fractal superconductors. For that, we focus on the phenomenon of $s$-wave superconductivity in the Hubbard model with attractive on-site potential and employ the Bogoliubov-de Gennes approach and the theory of superfluid stiffness. For the case of the Sierpinski gasket, we demonstrate that fractal geometry of the underlying crystalline lattice can be strongly beneficial for superconductivity, not only leading to a considerable increase of the critical temperature $T_c$ as compared to the regular triangular lattice but also supporting macroscopic phase coherence of the Cooper pairs. In contrast, the Sierpinski carpet geometry does not lead to pronounced effects, and we find no substantial difference as compared with the regular square lattice. We conjecture that the qualitative difference between these cases is caused by different ramification properties of the fractals.
翻訳日:2023-10-19 12:17:55 公開日:2023-10-17
# バイポーラ単一磁束量子パルス列による量子ビット制御の高速化

Speeding up qubit control with bipolar single-flux-quantum pulse sequences ( http://arxiv.org/abs/2310.11484v1 )

ライセンス: Link先を確認
Vsevolod Vozhakov, Marina Bastrakova, Nikolay Klenov, Arkady Satanin, Igor Soloviev(参考訳) 超伝導体に基づく量子コンピュータの開発には、ハードウェアエネルギー効率の向上を目的とした量子状態制御アプローチの改善が必要である。 この問題に対する有望な解決策は、単一磁束量子(sfq)パルスで動作し、キュービット制御システムをコールドチャンバーに移動させる超伝導デジタル回路を使用することである。 しかし、SFQ制御下のクビットゲート時間は従来のマイクロ波駆動時よりも長い。 本稿では,三次パルスシーケンスに基づくバイポーラsfqパルス制御について述べる。 また,計算部分空間からのトランスモン量子ビット状態の漏出を最小限にするシーケンス構造を求めるためのロバスト最適化アルゴリズムを開発した。 実用範囲から任意のシステムパラメータに対して適切なシーケンスを求めることができることを示す。 提案したバイポーラSFQ制御は、現在の単一ポーラSFQ技術と比較して、単一キュービットゲート時間を半減し、ゲート忠実度を99.99%以上維持する。

The development of quantum computers based on superconductors requires the improvement of the qubit state control approach aimed at the increase of the hardware energy efficiency. A promising solution to this problem is the use of superconducting digital circuits operating with single-flux-quantum (SFQ) pulses, moving the qubit control system into the cold chamber. However, the qubit gate time under SFQ control is still longer than under conventional microwave driving. Here we introduce the bipolar SFQ pulse control based on ternary pulse sequences. We also develop a robust optimization algorithm for finding a sequence structure that minimizes the leakage of the transmon qubit state from the computational subspace. We show that the appropriate sequence can be found for arbitrary system parameters from the practical range. The proposed bipolar SFQ control reduces a single qubit gate time by halve compared to nowadays unipolar SFQ technique, while maintaining the gate fidelity over 99.99%.
翻訳日:2023-10-19 12:17:38 公開日:2023-10-17
# 吸収オートマタを用いたコンダクティング・テセリンマシン

Contracting Tsetlin Machine with Absorbing Automata ( http://arxiv.org/abs/2310.11481v1 )

ライセンス: Link先を確認
Bimal Bhattarai and Ole-Christoffer Granmo and Lei Jiao and Per-Arne Andersen and Svein Anders Tunheim and Rishad Shafik and Alex Yakovlev(参考訳) 本稿では,Tsetlin Automata (TA) 状態を吸収したスパースTsetlin Machine (TM) を提案する。 簡単に言えば、各節リテラルのTAは吸収排他状態と吸収排他状態の両方を有しており、学習スキームはエルゴードの代わりに吸収される。 TAが吸収状態に達すると、再びその状態を離れることはない。 吸収状態が除外状態であれば、オートマトンとリテラルの両方を更なる考慮から取り除くことができる。 結果として、リテラルはその条項に決して参加しない。 一方、吸収状態がインクルード状態であれば、TAが破棄される間、リテラルは節の永続的な部分として記憶される。 新しいスパースデータ構造は、3つのアクションリスト(Absorbed Include、Include、Exclude)によってこれらの更新をサポートする。 これらのリストを更新することで、リテラルとTAが撤退するにつれて、TMは小さくなる。 このように、計算は学習中に加速し、学習の高速化とエネルギー消費の削減につながる。

In this paper, we introduce a sparse Tsetlin Machine (TM) with absorbing Tsetlin Automata (TA) states. In brief, the TA of each clause literal has both an absorbing Exclude- and an absorbing Include state, making the learning scheme absorbing instead of ergodic. When a TA reaches an absorbing state, it will never leave that state again. If the absorbing state is an Exclude state, both the automaton and the literal can be removed from further consideration. The literal will as a result never participates in that clause. If the absorbing state is an Include state, on the other hand, the literal is stored as a permanent part of the clause while the TA is discarded. A novel sparse data structure supports these updates by means of three action lists: Absorbed Include, Include, and Exclude. By updating these lists, the TM gets smaller and smaller as the literals and their TA withdraw. In this manner, the computation accelerates during learning, leading to faster learning and less energy consumption.
翻訳日:2023-10-19 12:17:22 公開日:2023-10-17
# コード蒸留によるプログラム翻訳

Program Translation via Code Distillation ( http://arxiv.org/abs/2310.11476v1 )

ライセンス: Link先を確認
Yufan Huang, Mengnan Qi, Yongqiang Yao, Maoquan Wang, Bin Gu, Colin Clement, Neel Sundaresan(参考訳) ソフトウェアバージョン移行とプログラム翻訳は、大規模なコードベースのライフサイクルにおいて重要かつコストがかかる部分です。 従来の機械翻訳は教師付き翻訳のために並列コーパスに依存しており、アライメントされたデータの多さのためプログラムの翻訳には不可能である。 最近の教師なしニューラルネットワーク翻訳技術は、バック翻訳や低レベルコンパイラ中間表現(IR)などを含む技術によって、データ制限を克服している。 これらの手法は、コードスニペットアライメントのノイズと、それぞれIRの多様性のために大きな課題に直面している。 本稿では,言語に依存しない中間表現において,コードの意味的および構造的等価性を捉える,コード蒸留(CoDist)と呼ばれる新しいモデルを提案する。 蒸留されたコードは任意のプログラミング言語の翻訳ピボットとして機能し、蒸留コンパイラを単純に適用することによって、利用可能なすべてのソースコードにスケールする並列コーパスの構築に繋がる。 CodeXGLUE と TransCoder GeeksForGeeks の翻訳ベンチマークでは,TransCoder GeeksforGeeks の翻訳ベンチマークでは平均 12.7% が TransCoder-ST と比較された。

Software version migration and program translation are an important and costly part of the lifecycle of large codebases. Traditional machine translation relies on parallel corpora for supervised translation, which is not feasible for program translation due to a dearth of aligned data. Recent unsupervised neural machine translation techniques have overcome data limitations by included techniques such as back translation and low level compiler intermediate representations (IR). These methods face significant challenges due to the noise in code snippet alignment and the diversity of IRs respectively. In this paper we propose a novel model called Code Distillation (CoDist) whereby we capture the semantic and structural equivalence of code in a language agnostic intermediate representation. Distilled code serves as a translation pivot for any programming language, leading by construction to parallel corpora which scale to all available source code by simply applying the distillation compiler. We demonstrate that our approach achieves state-of-the-art performance on CodeXGLUE and TransCoder GeeksForGeeks translation benchmarks, with an average absolute increase of 12.7% on the TransCoder GeeksforGeeks translation benchmark compare to TransCoder-ST.
翻訳日:2023-10-19 12:17:06 公開日:2023-10-17
# イソトポローグ回転スペクトルによる自然存在量の3次元構造決定のための反射同変拡散

Reflection-Equivariant Diffusion for 3D Structure Determination from Isotopologue Rotational Spectra in Natural Abundance ( http://arxiv.org/abs/2310.11609v1 )

ライセンス: Link先を確認
Austin Cheng, Alston Lo, Santiago Miret, Brooks Pate, Al\'an Aspuru-Guzik(参考訳) 構造決定は、天然物、法医学的なサンプル、星間物質、実験室合成などの未知の有機分子を特定するために必要である。 回転分光は、慣性モーメントを介して小さな有機分子の正確な3次元情報を提供することによって構造決定を可能にする。 これらのモーメントを用いて、クラッチマン分析は、炭素、窒素、酸素を含む天然同位体の存在量を持つ全ての原子の非符号の$|x|,|y|,|z|$座標である同位体置換座標を決定する。 非符号置換座標は構造の推測を検証することができるが、不足している$+/-$符号は置換座標のみから実際の構造を決定するのに困難である。 この逆問題に対処するために、分子の完全な3d構造を分子式、慣性モーメント、重原子の無符号置換座標から推測する生成拡散モデルであるkreed(クラッチマン反射同変拡散)を開発した。 kreed の top-1 予測では、qm9 と geom データセットで 98% 以上の精度で正確な 3d 構造を同定している。 置換座標が炭素のサブセットに制限されると、精度はQM9では91%、GEOMでは32%に維持される。 文献から収集した置換座標の試験セットにおいて、クリードは33例中25例で正しい全原子3d構造を予測し、回転分光による文脈自由3d構造決定の実験的適用性を示した。

Structure determination is necessary to identify unknown organic molecules, such as those in natural products, forensic samples, the interstellar medium, and laboratory syntheses. Rotational spectroscopy enables structure determination by providing accurate 3D information about small organic molecules via their moments of inertia. Using these moments, Kraitchman analysis determines isotopic substitution coordinates, which are the unsigned $|x|,|y|,|z|$ coordinates of all atoms with natural isotopic abundance, including carbon, nitrogen, and oxygen. While unsigned substitution coordinates can verify guesses of structures, the missing $+/-$ signs make it challenging to determine the actual structure from the substitution coordinates alone. To tackle this inverse problem, we develop KREED (Kraitchman REflection-Equivariant Diffusion), a generative diffusion model that infers a molecule's complete 3D structure from its molecular formula, moments of inertia, and unsigned substitution coordinates of heavy atoms. KREED's top-1 predictions identify the correct 3D structure with >98% accuracy on the QM9 and GEOM datasets when provided with substitution coordinates of all heavy atoms with natural isotopic abundance. When substitution coordinates are restricted to only a subset of carbons, accuracy is retained at 91% on QM9 and 32% on GEOM. On a test set of experimentally measured substitution coordinates gathered from the literature, KREED predicts the correct all-atom 3D structure in 25 of 33 cases, demonstrating experimental applicability for context-free 3D structure determination with rotational spectroscopy.
翻訳日:2023-10-19 12:10:40 公開日:2023-10-17
# 自動運転車運転時の安全運転注意の分類

Classification of Safety Driver Attention During Autonomous Vehicle Operation ( http://arxiv.org/abs/2310.11608v1 )

ライセンス: Link先を確認
Santiago Gerling Konrad, Julie Stephany Berrio, Mao Shan, Favio Masson and Stewart Worrall(参考訳) 高度運転支援システム(ADAS)の継続的な進歩と高度自動運転車(AV)の開発にもかかわらず、短期から中期においては、人間が必然的に発生するエッジケースを扱う必要があるという一般的な認識がある。 この要件を考えると、車両運転者の状態が車両の安全運転に寄与していることを保証するために監視されることが不可欠である。 本稿では,車両操作者に対向する赤外線カメラと車両認識システムからのデータを統合し,運転者の警戒度測定値を作成し,運転者の安全行動の促進と確保を図る。 赤外線カメラは、運転者の頭部を検出し、頭部の向きの計算を可能にする。 認識システムから環境データを取り入れることで、車両操作者が周囲の物体を観察するかどうかを判断することができる。 オーストラリアのシドニーで収集したデータを用いて,都市環境下でのAV運転をシミュレーションした実験を行った。 提案システムは,車両運転者の注意度基準を効果的に決定し,警告や自律機能低下などの介入を適切に行うことができることを示す。 この包括的なソリューションは、現実の環境でのADASとAVSの全体的な安全性と効率への貢献を約束している。

Despite the continual advances in Advanced Driver Assistance Systems (ADAS) and the development of high-level autonomous vehicles (AV), there is a general consensus that for the short to medium term, there is a requirement for a human supervisor to handle the edge cases that inevitably arise. Given this requirement, it is essential that the state of the vehicle operator is monitored to ensure they are contributing to the vehicle's safe operation. This paper introduces a dual-source approach integrating data from an infrared camera facing the vehicle operator and vehicle perception systems to produce a metric for driver alertness in order to promote and ensure safe operator behaviour. The infrared camera detects the driver's head, enabling the calculation of head orientation, which is relevant as the head typically moves according to the individual's focus of attention. By incorporating environmental data from the perception system, it becomes possible to determine whether the vehicle operator observes objects in the surroundings. Experiments were conducted using data collected in Sydney, Australia, simulating AV operations in an urban environment. Our results demonstrate that the proposed system effectively determines a metric for the attention levels of the vehicle operator, enabling interventions such as warnings or reducing autonomous functionality as appropriate. This comprehensive solution shows promise in contributing to ADAS and AVs' overall safety and efficiency in a real-world setting.
翻訳日:2023-10-19 12:10:08 公開日:2023-10-17
# セキュリティ領域におけるトランスフォーマーによる敵攻撃の有効性

The Efficacy of Transformer-based Adversarial Attacks in Security Domains ( http://arxiv.org/abs/2310.11597v1 )

ライセンス: Link先を確認
Kunyang Li, Kyle Domico, Jean-Charles Noirot Ferrand, Patrick McDaniel(参考訳) 今日、多くのドメインのセキュリティは、脅威の検出、脆弱性の特定、攻撃からシステムを保護するために機械学習を使用している。 近年,トランスフォーマーアーキテクチャは,マルウェア検出やネットワーク侵入検出など幅広いタスクにおいて,最先端の性能向上を実現している。 しかし、トランスフォーマーへの現在のアプローチを捨てる前に、その特性とサイバーセキュリティアプリケーションへの影響を理解することが重要である。 本稿では,システム・ディフェンダー(例えば,異なる種類のアーキテクチャで発生する敵の摂動に対する弾力性)とシステム・アタッカー(すなわち,トランスフォーマーが生成する敵のサンプルの他のターゲットモデルへの移動性)に対する敵の強さについて,トランスフォーマーの強靭性を評価する。 そこで我々はまず,事前学習したトランスフォーマー,畳み込みニューラルネットワーク(CNN),ハイブリッドモデル(トランスフォーマーとCNNのアンサンブル)のセットを微調整し,異なる下流画像ベースタスクを解決する。 次に、攻撃アルゴリズムを用いて、各タスクの各モデルに19,367の逆例を作成する。 これらの攻撃例の伝達性は、他のモデル上の各セットを評価して、どのモデルがより攻撃的強度を提供するかを決定し、その結果、これらの攻撃に対するより堅牢性を測定することによって測定される。 トランスフォーマーにつくられた敵対的な例は、他のモデルに最も高い転送率(平均より25.7%高い)をもたらすことが判明した。 同様に、他のモデルで製作された敵対的な例はトランスフォーマーに最も低い転送率(平均より56.7%低い)を持つ。 我々の研究は、セキュリティドメインにおけるモデル攻撃と防御のためのトランスフォーマーアーキテクチャの研究の重要性を強調し、トランスファーアタック設定における主要なアーキテクチャとして使用することを提案する。

Today, the security of many domains rely on the use of Machine Learning to detect threats, identify vulnerabilities, and safeguard systems from attacks. Recently, transformer architectures have improved the state-of-the-art performance on a wide range of tasks such as malware detection and network intrusion detection. But, before abandoning current approaches to transformers, it is crucial to understand their properties and implications on cybersecurity applications. In this paper, we evaluate the robustness of transformers to adversarial samples for system defenders (i.e., resiliency to adversarial perturbations generated on different types of architectures) and their adversarial strength for system attackers (i.e., transferability of adversarial samples generated by transformers to other target models). To that effect, we first fine-tune a set of pre-trained transformer, Convolutional Neural Network (CNN), and hybrid (an ensemble of transformer and CNN) models to solve different downstream image-based tasks. Then, we use an attack algorithm to craft 19,367 adversarial examples on each model for each task. The transferability of these adversarial examples is measured by evaluating each set on other models to determine which models offer more adversarial strength, and consequently, more robustness against these attacks. We find that the adversarial examples crafted on transformers offer the highest transferability rate (i.e., 25.7% higher than the average) onto other models. Similarly, adversarial examples crafted on other models have the lowest rate of transferability (i.e., 56.7% lower than the average) onto transformers. Our work emphasizes the importance of studying transformer architectures for attacking and defending models in security domains, and suggests using them as the primary architecture in transfer attack settings.
翻訳日:2023-10-19 12:09:46 公開日:2023-10-17
# ナビゲーションシナリオにおけるロボット性能のユーザ印象の推測に向けて

Towards Inferring Users' Impressions of Robot Performance in Navigation Scenarios ( http://arxiv.org/abs/2310.11590v1 )

ライセンス: Link先を確認
Qiping Zhang, Nathan Tsoi, Booyeon Choi, Jie Tan, Hao-Tien Lewis Chiang, Marynel V\'azquez(参考訳) ロボットのパフォーマンスの人間の印象は、しばしば調査によって測定される。 よりスケーラブルで費用対効果の高い代替手段として、非言語行動手がかりと機械学習技術を用いて、ロボット行動に対する人々の印象を予測する可能性を検討する。 そこで本研究では,仮想現実シミュレーションにおいて,人と移動ロボットとのインタラクションの観察と,ユーザが提供する5ポイントスケールのロボット性能の印象とからなるデータセットを,まずseanにコントリビュートする。 第2に,人間と教師付き学習技術が観察型(顔,空間,地図の特徴など)の異なる組み合わせに基づいて,ロボットの知覚性能をいかに正確に予測できるかの分析を行う。 以上の結果から,顔の表情だけでロボットの動作を人間に印象づける上で有用な情報が得られることがわかったが,ナビゲーションのシナリオでは,空間的特徴が推論タスクの最も重要な情報である。 また、結果を二分分類(多類分類ではなく)として評価する場合、人間の予測と機械学習モデルのf1-scoreは2倍以上になり、どちらも正確な性能評価の予測よりも、ロボットのパフォーマンスの方向性を示すのに優れていることが示されている。 本研究は,現実のナビゲーションシナリオにおいて,これらの予測モデルを実装するためのガイドラインを提供する。

Human impressions of robot performance are often measured through surveys. As a more scalable and cost-effective alternative, we study the possibility of predicting people's impressions of robot behavior using non-verbal behavioral cues and machine learning techniques. To this end, we first contribute the SEAN TOGETHER Dataset consisting of observations of an interaction between a person and a mobile robot in a Virtual Reality simulation, together with impressions of robot performance provided by users on a 5-point scale. Second, we contribute analyses of how well humans and supervised learning techniques can predict perceived robot performance based on different combinations of observation types (e.g., facial, spatial, and map features). Our results show that facial expressions alone provide useful information about human impressions of robot performance; but in the navigation scenarios we tested, spatial features are the most critical piece of information for this inference task. Also, when evaluating results as binary classification (rather than multiclass classification), the F1-Score of human predictions and machine learning models more than doubles, showing that both are better at telling the directionality of robot performance than predicting exact performance ratings. Based on our findings, we provide guidelines for implementing these predictions models in real-world navigation scenarios.
翻訳日:2023-10-19 12:09:15 公開日:2023-10-17
# 神経知覚機構を有する部分可観測確率ゲーム

Partially Observable Stochastic Games with Neural Perception Mechanisms ( http://arxiv.org/abs/2310.11566v1 )

ライセンス: Link先を確認
Rui Yan, Gabriel Santos, Gethin Norman, David Parker and Marta Kwiatkowska(参考訳) 確率ゲームは、不確実性の下でのマルチエージェントシーケンシャル決定のためのよく確立されたモデルである。 しかし実際には、エージェントは環境の部分的可観測性しか持たず、部分可観測マルコフ決定プロセスの単一エージェント設定においても計算的に困難である。 さらに、エージェントは、継続的データでトレーニングされたニューラルネットワークのようなデータ駆動アプローチを使って、環境を知覚するようになっている。 この問題を解決するために,知覚機構を明示的に組み込んだ連続空間型確率ゲーム(NS-POSG)のモデルを提案する。 本研究では、離散的なデータ駆動観察を行う部分インフォームドエージェントと、連続観察を行う完全インフォームドエージェントからなる一方的な設定に焦点を当てた。 本稿では,一面ns-posgの値を近似し,人気の粒子ベース信念に基づいて実装するための,一面ns-hsviと呼ばれる新しい点ベース手法を提案する。 本稿では,前画像が多面体型であるニューラルネットワークの実用的適用性を示す実験結果を示す。

Stochastic games are a well established model for multi-agent sequential decision making under uncertainty. In reality, though, agents have only partial observability of their environment, which makes the problem computationally challenging, even in the single-agent setting of partially observable Markov decision processes. Furthermore, in practice, agents increasingly perceive their environment using data-driven approaches such as neural networks trained on continuous data. To tackle this problem, we propose the model of neuro-symbolic partially-observable stochastic games (NS-POSGs), a variant of continuous-space concurrent stochastic games that explicitly incorporates perception mechanisms. We focus on a one-sided setting, comprising a partially-informed agent with discrete, data-driven observations and a fully-informed agent with continuous observations. We present a new point-based method, called one-sided NS-HSVI, for approximating values of one-sided NS-POSGs and implement it based on the popular particle-based beliefs, showing that it has closed forms for computing values of interest. We provide experimental results to demonstrate the practical applicability of our method for neural networks whose preimage is in polyhedral form.
翻訳日:2023-10-19 12:08:54 公開日:2023-10-17
# 不確実な予測付きオンラインアルゴリズム

Online Algorithms with Uncertainty-Quantified Predictions ( http://arxiv.org/abs/2310.11558v1 )

ライセンス: Link先を確認
Bo Sun, Jerry Huang, Nicolas Christianson, Mohammad Hajiesmaili, Adam Wierman(参考訳) 予測付きオンラインアルゴリズムは、アルゴリズムの最悪のケース分析以上の分野でトレンドとなっている。 これらのアルゴリズムは将来の予測を取り込んで、予測が良ければ高品質なパフォーマンス保証を得る一方で、予測が任意に貧弱な場合には境界付きの最悪の保証を維持する。 一般に、このアルゴリズムは予測の品質に気付いていないと仮定される。 しかし、機械学習文学における最近の進展は、モデルがその品質に関する確実性を示す機械学習予測に対する不確実性定量化技術の研究を行っている。 本稿では,オンラインアルゴリズムの設計における不確実性定量化予測の最適活用方法について考察する。 特に,スキーレンタルとオンライン検索という2つの古典的なオンライン問題に対して,これらの確率的予測を用いたオンラインアルゴリズムをデザインし,一定の範囲の根拠真理の可能性を記述した不確実性定量化による予測を考察する。 いずれの場合も、確率論的予測を完全に活用するためには、アルゴリズム設計に対する非自明な修正が必要である。 さらに,より一般的な不確実性定量化の活用方法を考察し,不確実性定量化を活用し,マルチインスタンス環境で最適な決定を行うオンライン学習に基づく枠組みを提案する。

Online algorithms with predictions have become a trending topic in the field of beyond worst-case analysis of algorithms. These algorithms incorporate predictions about the future to obtain performance guarantees that are of high quality when the predictions are good, while still maintaining bounded worst-case guarantees when predictions are arbitrarily poor. In general, the algorithm is assumed to be unaware of the prediction's quality. However, recent developments in the machine learning literature have studied techniques for providing uncertainty quantification on machine-learned predictions, which describes how certain a model is about its quality. This paper examines the question of how to optimally utilize uncertainty-quantified predictions in the design of online algorithms. In particular, we consider predictions augmented with uncertainty quantification describing the likelihood of the ground truth falling in a certain range, designing online algorithms with these probabilistic predictions for two classic online problems: ski rental and online search. In each case, we demonstrate that non-trivial modifications to algorithm design are needed to fully leverage the probabilistic predictions. Moreover, we consider how to utilize more general forms of uncertainty quantification, proposing a framework based on online learning that learns to exploit uncertainty quantification to make optimal decisions in multi-instance settings.
翻訳日:2023-10-19 12:08:35 公開日:2023-10-17
# 知識グラフによる3次元都市データの統合

Integrating 3D City Data through Knowledge Graphs ( http://arxiv.org/abs/2310.11555v1 )

ライセンス: Link先を確認
Linfang Ding, Guohui Xiao, Albulen Pano, Mattia Fumagalli, Dongsheng Chen, Yu Feng, Diego Calvanese, Hongchao Fan, Liqiu Meng(参考訳) CityGMLはOpen Geospatial Consortium (OGC)によって広く採用されている3D都市モデルの表現と交換のための標準である。 CityGMLにおける意味的およびトポロジ的特性の表現により、セキュリティ管理や緊急対応、エネルギー消費と推定、占有率の測定など、様々なアプリケーションにおいて、このような3D都市データをクエリして分析することが可能となる。 しかし、CityGMLデータをクエリする可能性は十分に活用されていない。 CityGMLの公式GML/XMLエンコーディングは交換フォーマットとしてのみ意図されているが、クエリ応答には適していない。 CityGMLデータを扱う最も一般的な方法は、それらをリレーショナルテーブルとして3DCityDBシステムに格納し、標準のSQLクエリ言語でクエリすることです。 しかし、エンドユーザにとっては、CityGMLの概念的セマンティクスと3DCityDBで採用されているリレーショナルスキーマとの間にギャップがあるため、アドホックな分析タスクを直接3DCityDB上でクエリを定式化することは依然として難しい作業である。 実際、CityGML自体の意味論は適切なオントロジーとしてモデル化できる。 オントロジーが中心となる知識グラフ(KGs)の技術は、そのようなギャップを埋めるための良い解決策である。 さらに、KGsを採用することで、OpenStreetMapや既存の(Geo)KGs(Wikidata、DBPedia、GeoNamesなど)といった他の空間データソースとの統合が容易になり、複数のデータソースからの情報を組み合わせたクエリの実行が容易になる。 本稿では,3DCityDBへの宣言的マッピングを用いて,CityGMLのオントロジーに概念を投入するCityGML KGフレームワークについて述べる。 提案手法の実現可能性を示すために,ミュンヘン市のcitygmlデータをテストデータとして使用し,同じエリアにopenstreemapデータを統合する。

CityGML is a widely adopted standard by the Open Geospatial Consortium (OGC) for representing and exchanging 3D city models. The representation of semantic and topological properties in CityGML makes it possible to query such 3D city data to perform analysis in various applications, e.g., security management and emergency response, energy consumption and estimation, and occupancy measurement. However, the potential of querying CityGML data has not been fully exploited. The official GML/XML encoding of CityGML is only intended as an exchange format but is not suitable for query answering. The most common way of dealing with CityGML data is to store them in the 3DCityDB system as relational tables and then query them with the standard SQL query language. Nevertheless, for end users, it remains a challenging task to formulate queries over 3DCityDB directly for their ad-hoc analytical tasks, because there is a gap between the conceptual semantics of CityGML and the relational schema adopted in 3DCityDB. In fact, the semantics of CityGML itself can be modeled as a suitable ontology. The technology of Knowledge Graphs (KGs), where an ontology is at the core, is a good solution to bridge such a gap. Moreover, embracing KGs makes it easier to integrate with other spatial data sources, e.g., OpenStreetMap and existing (Geo)KGs (e.g., Wikidata, DBPedia, and GeoNames), and to perform queries combining information from multiple data sources. In this work, we describe a CityGML KG framework to populate the concepts in the CityGML ontology using declarative mappings to 3DCityDB, thus exposing the CityGML data therein as a KG. To demonstrate the feasibility of our approach, we use CityGML data from the city of Munich as test data and integrate OpenStreeMap data in the same area.
翻訳日:2023-10-19 12:08:12 公開日:2023-10-17
# 大規模イベント埋め込みとリカレントネットワークによるネイティブ広告CTR予測の改善

Improving Native Ads CTR Prediction by Large Scale Event Embedding and Recurrent Networks ( http://arxiv.org/abs/1804.09133v3 )

ライセンス: Link先を確認
Mehul Parsana, Krishna Poola, Yajun Wang, Zhiguang Wang(参考訳) クリックスルーレート(CTR)予測は、ネイティブ広告にとって非常に重要であるが、直接的なクエリ意図がないため難しい。 本稿では,ユーザが連続するイベントの監視が弱いシャム語ネットワークを訓練することにより,各ユーザのブラウジングイベントをエンコードする大規模イベント埋め込み方式を提案する。 CTR予測問題は、ユーザー履歴をイベントのシーケンスとして自然にモデル化する教師付きリカレントニューラルネットワークとしてモデル化される。 事前学習されたイベント埋め込みベクターとユーザ履歴をモデル化するアテンション層を用いたリカレントモデルを提案する。 実験により,本モデルがベースラインと変種を著しく上回ることを示した。

Click through rate (CTR) prediction is very important for Native advertisement but also hard as there is no direct query intent. In this paper we propose a large-scale event embedding scheme to encode the each user browsing event by training a Siamese network with weak supervision on the users' consecutive events. The CTR prediction problem is modeled as a supervised recurrent neural network, which naturally model the user history as a sequence of events. Our proposed recurrent models utilizing pretrained event embedding vectors and an attention layer to model the user history. Our experiments demonstrate that our model significantly outperforms the baseline and some variants.
翻訳日:2023-10-19 01:08:13 公開日:2023-10-17
# 熱水フォノンセンサにおける脱コヒーレンスチャネルの理論的研究

Theoretical investigation of decoherence channels in athermal phonon sensors ( http://arxiv.org/abs/2109.10988v2 )

ライセンス: Link先を確認
Thomas F. Harrelson and Ibrahim Hajar and Omar A. Ashour and Sin\'ead M. Griffin(参考訳) 非平衡フォノンの生成と進化は、宇宙論的粒子探索から量子ビットのデコヒーレンス過程まで幅広い応用において中心となる。 しかし、固体系における熱水フォノン分布に対する脱コヒーレンス経路の基本的な理解は未解決の問題である。 第一原理計算を用いて、2つの技術的に関係のある半導体、SiとGaAsにおける熱水フォノンの一次崩壊チャネルを調べる。 これらの材料における不調和, 同位体, 界面散乱の寄与を定量化する。 そこで本研究では, 時間関数として読み出し方式で熱電力を推定するモデルを構築した。 本稿では,現状のフォノンセンサの設計におけるノイズ制限と,次世代フォノンセンサにおけるコヒーレンス向上戦略について考察する。

The creation and evolution of nonequilibrium phonons is central in applications ranging from cosmological particle searches to decoherence processes in qubits. However, the fundamental understanding of decoherence pathways for athermal phonon distributions in solid-state systems remains an open question. Using first-principles calculations, we investigate the primary decay channels of athermal phonons in two technologically relevant semiconductors -- Si and GaAs. We quantify the contributions of anharmonic, isotopic, and interfacial scattering in these materials. From this, we construct a model to estimate the thermal power in a readout scheme as a function of time. We discuss the implication of our results on noise limitations in current phonon sensor designs and strategies for improving coherence in next-generation phonon sensors.
翻訳日:2023-10-19 01:03:56 公開日:2023-10-17
# プライベートマルチタスク学習:定式化と連合学習への応用

Private Multi-Task Learning: Formulation and Applications to Federated Learning ( http://arxiv.org/abs/2108.12978v3 )

ライセンス: Link先を確認
Shengyuan Hu, Zhiwei Steven Wu, Virginia Smith(参考訳) 機械学習における多くの問題は、複数の関連する機械学習タスクを同時に解決することを目的としているマルチタスク学習(MTL)に依存している。 MTLは、医療、金融、IoTコンピューティングなどの分野におけるプライバシに敏感なアプリケーションに特に関係している。 本研究では,MTLにおけるクライアントレベルのプライバシの概念を,共同微分プライバシー(JDP),メカニズム設計と分散最適化のための微分プライバシ緩和を通じて形式化する。 次に,JDP を対象とする個人化フェデレーション学習における応用を目的とした平均正規化 MTL のアルゴリズムを提案する。 我々は目的と解決法を分析し、プライバシーと実用性の両方について検証可能な保証を提供する。 実験により,本手法は,共通学習ベンチマーク間でのグローバルベースラインに対して,プライバシーとユーティリティのトレードオフを改善できることが判明した。

Many problems in machine learning rely on multi-task learning (MTL), in which the goal is to solve multiple related machine learning tasks simultaneously. MTL is particularly relevant for privacy-sensitive applications in areas such as healthcare, finance, and IoT computing, where sensitive data from multiple, varied sources are shared for the purpose of learning. In this work, we formalize notions of client-level privacy for MTL via joint differential privacy (JDP), a relaxation of differential privacy for mechanism design and distributed optimization. We then propose an algorithm for mean-regularized MTL, an objective commonly used for applications in personalized federated learning, subject to JDP. We analyze our objective and solver, providing certifiable guarantees on both privacy and utility. Empirically, we find that our method provides improved privacy/utility trade-offs relative to global baselines across common federated learning benchmarks.
翻訳日:2023-10-19 01:03:45 公開日:2023-10-17
# 学習可能で、学習の価値があり、まだ学習されていない点(ワークショップ版)に優先順位をつけられたトレーニング

Prioritized training on points that are learnable, worth learning, and not yet learned (workshop version) ( http://arxiv.org/abs/2107.02565v4 )

ライセンス: Link先を確認
S\"oren Mindermann, Muhammed Razzak, Winnie Xu, Andreas Kirsch, Mrinank Sharma, Adrien Morisot, Aidan N. Gomez, Sebastian Farquhar, Jan Brauner, Yarin Gal(参考訳) 我々は,"正しい"トレーニングポイントのシーケンスを選択する,より高速なモデルトレーニングのための手法であるgoldilocks selectionを紹介する。 検証セットに関する情報を最大化するトレーニングポイントを効率的に選択するために、情報理論的な取得関数 -- 還元可能な検証損失 -- を提案し、小さなプロキシモデル -- goldiprox -- で計算する。 最適化文学で通常選択される「ハード」点(例えば、高損失点)はノイズが多いが、「簡単な」サンプル(例えば低雑音点)は、カリキュラム学習においてより少ない情報を得るために優先されることが多い。 さらに、アクティブラーニングを対象とする不確実なラベルを持つポイントは、タスクにはあまり関連しない傾向にある。 対照的に、Goldilocks Selectionは「正しい」点を選択し、上記のアプローチを経験的に上回っている。 さらに、選択されたシーケンスは他のアーキテクチャに転送できる。

We introduce Goldilocks Selection, a technique for faster model training which selects a sequence of training points that are "just right". We propose an information-theoretic acquisition function -- the reducible validation loss -- and compute it with a small proxy model -- GoldiProx -- to efficiently choose training points that maximize information about a validation set. We show that the "hard" (e.g. high loss) points usually selected in the optimization literature are typically noisy, while the "easy" (e.g. low noise) samples often prioritized for curriculum learning confer less information. Further, points with uncertain labels, typically targeted by active learning, tend to be less relevant to the task. In contrast, Goldilocks Selection chooses points that are "just right" and empirically outperforms the above approaches. Moreover, the selected sequence can transfer to other architectures; practitioners can share and reuse it without the need to recreate it.
翻訳日:2023-10-19 01:03:27 公開日:2023-10-17
# 相容れない文脈

Contextuality without incompatibility ( http://arxiv.org/abs/2106.09045v2 )

ライセンス: Link先を確認
John H. Selby, David Schmid, Elie Wolfe, Ana Bel\'en Sainz, Ravi Kunjwal, and Robert W. Spekkens(参考訳) 不整合の測定の存在は、古典的な世界観と矛盾する量子論の特徴であると考えられている。 kochen-specker非文脈性という意味で古典性の失敗を証明するには、実際には不整合な測定集合が必要である。 しかし、より広く適用可能な古典性の概念は、一般化された非文脈的存在論モデルの存在である。 特に、この概念は単一の非射影測度においても結果の表現に制約を与えることができる。 この事実を利用して、一般の非文脈性の失敗の証明には、測定の不整合性は必要ないこと、あるいは十分であることを示す。 さらに,量子準備-測定シナリオにおける一般化された非コンテキスト性の失敗の証明は,対応するシナリオにおいて非コンテキスト性が非互換な測定値を持たない場合の失敗の証明に変換可能であることを示す。

The existence of incompatible measurements is often believed to be a feature of quantum theory which signals its inconsistency with any classical worldview. To prove the failure of classicality in the sense of Kochen-Specker noncontextuality, one does indeed require sets of incompatible measurements. However, a more broadly applicable notion of classicality is the existence of a generalized-noncontextual ontological model. In particular, this notion can imply constraints on the representation of outcomes even within a single nonprojective measurement. We leverage this fact to demonstrate that measurement incompatibility is neither necessary nor sufficient for proofs of the failure of generalized noncontextuality. Furthermore, we show that every proof of the failure of generalized noncontextuality in a quantum prepare-measure scenario can be converted into a proof of the failure of generalized noncontextuality in a corresponding scenario with no incompatible measurements.
翻訳日:2023-10-19 01:03:09 公開日:2023-10-17
# オフラインオラクルによる多数のクラスを有するコンテキストバンディットの最適モデル選択

Optimal Model Selection in Contextual Bandits with Many Classes via Offline Oracles ( http://arxiv.org/abs/2106.06483v2 )

ライセンス: Link先を確認
Sanath Kumar Krishnamurthy, Adrienne Margaret Propp, Susan Athey(参考訳) 教師あり学習におけるモデル選択は、バイアスと分散を最もバランスのとれたモデルが優先順位として知られていたかのように、コストのない保証を提供する。 確率的文脈的バンディット設定における累積的後悔の最小化に対する同様の保証の実現可能性について検討した。 最近の研究[Marinov and Zimmert, 2021]は、アルゴリズムがコストのかかる後悔の限界を保証できないインスタンスを特定している。 それにもかかわらず、コストのないモデル選択が実現可能な良質な条件を特定する: クラス複雑性が徐々に増大し、クラス複雑性が増大し、クラス内の最良ポリシー値に対する限界リターンが減少する。 提案アルゴリズムは, 新たな不特定性テストに基づいており, モデル選択による報酬推定の利点を実証する。 コンテキストバンディットにおけるモデル選択の先行作業とは異なり、より多くのデータが収集されるにつれて、アルゴリズムは進化するバイアス分散トレードオフに注意深く適応する。 特に、我々のアルゴリズムと分析は、最も実現可能なクラスの複雑さに適応するだけでなく、バイアスを支配する推定分散を持つ最も単純なクラスの複雑さにも適応する。 短期的には、これはより単純なクラスの複雑さに依存する後悔の保証を改善する。

Model selection in supervised learning provides costless guarantees as if the model that best balances bias and variance was known a priori. We study the feasibility of similar guarantees for cumulative regret minimization in the stochastic contextual bandit setting. Recent work [Marinov and Zimmert, 2021] identifies instances where no algorithm can guarantee costless regret bounds. Nevertheless, we identify benign conditions where costless model selection is feasible: gradually increasing class complexity, and diminishing marginal returns for best-in-class policy value with increasing class complexity. Our algorithm is based on a novel misspecification test, and our analysis demonstrates the benefits of using model selection for reward estimation. Unlike prior work on model selection in contextual bandits, our algorithm carefully adapts to the evolving bias-variance trade-off as more data is collected. In particular, our algorithm and analysis go beyond adapting to the complexity of the simplest realizable class and instead adapt to the complexity of the simplest class whose estimation variance dominates the bias. For short horizons, this provides improved regret guarantees that depend on the complexity of simpler classes.
翻訳日:2023-10-19 01:02:56 公開日:2023-10-17
# 未知の非決定性と有限性から学習可能性の不決定性へ

From Undecidability of Non-Triviality and Finiteness to Undecidability of Learnability ( http://arxiv.org/abs/2106.01382v3 )

ライセンス: Link先を確認
Matthias C. Caro(参考訳) 機械学習の研究者や実践者は、さまざまな学習モデルを着実に拡大している。 彼らはこれを深い理論分析と経験的ヒューリスティックを通して達成した。 しかし、新たに提案されたモデルが実際にデータから学べるかどうかを厳格に評価するための汎用的な手順は知られていない。 そのような手続きは存在しないことを示す。 PACのバイナリ分類、一様および普遍的なオンライン学習、および教師と教師の相互作用による正確な学習においては、学習性は一般に、形式的なシステムにおける公理の独立性や計算不可能性の両方において決定不可能である。 我々の証明は、形式システムの一貫性問題とチューリングマシンの停止問題をエンコードした計算可能構成を通じて、ある関数クラスが自明かつ有限であるか、あるいは非常に複雑であるかを証明し、それらのクラスが、複雑度測定による学習可能性の確立された特性を通して学習可能かどうかに関連づける。 私たちの研究は、人工知能の理論的な基盤に決定不能が現れていることを示しています。 新しい学習モデルを評価するプロセスを一般的に自動化することはできません。

Machine learning researchers and practitioners steadily enlarge the multitude of successful learning models. They achieve this through in-depth theoretical analyses and experiential heuristics. However, there is no known general-purpose procedure for rigorously evaluating whether newly proposed models indeed successfully learn from data. We show that such a procedure cannot exist. For PAC binary classification, uniform and universal online learning, and exact learning through teacher-learner interactions, learnability is in general undecidable, both in the sense of independence of the axioms in a formal system and in the sense of uncomputability. Our proofs proceed via computable constructions that encode the consistency problem for formal systems and the halting problem for Turing machines into whether certain function classes are trivial/finite or highly complex, which we then relate to whether these classes are learnable via established characterizations of learnability through complexity measures. Our work shows that undecidability appears in the theoretical foundations of artificial intelligence: There is no one-size-fits-all algorithm for deciding whether a machine learning model can be successful. We cannot in general automatize the process of assessing new learning models.
翻訳日:2023-10-19 01:02:21 公開日:2023-10-17
# BLM-17m: Twitter上のブラックライブトピック検出のための大規模データセット

BLM-17m: A Large-Scale Dataset for Black Lives Matter Topic Detection on Twitter ( http://arxiv.org/abs/2105.01331v3 )

ライセンス: Link先を確認
Hasan Kemik, Nusret \"Ozate\c{s}, Meysam Asgari-Chenaghlu, Yang Li, Erik Cambria(参考訳) 人権の保護は、我々の世界で最も重要な問題の1つです。 本稿の目的は,ジョージ・フロイド事件(George Floyd incident)に影響を及ぼした近年の人権侵害の最も顕著な1つをカバーするデータセットを提供することである。 1700万ツイートを含むトピック検出のためのラベル付きデータセットを提案する。 これらのツイートは、2020年5月25日から8月21日までの89日間に収集される。 我々は、世界中の新聞や地方紙のトレンドニュースをモニタリングすることで、データセットをラベル付けした。 それとは別に、TF-IDF と LDA の2つのベースラインがある。 精度,リコール,f1スコアの3つの異なるk値を用いた2つの手法の結果を評価した。 収集されたデータセットはhttps://github.com/MeysamAsgariC/BLMTで入手できる。

Protection of human rights is one of the most important problems of our world. In this paper, our aim is to provide a dataset which covers one of the most significant human rights contradiction in recent months affected the whole world, George Floyd incident. We propose a labeled dataset for topic detection that contains 17 million tweets. These Tweets are collected from 25 May 2020 to 21 August 2020 that covers 89 days from start of this incident. We labeled the dataset by monitoring most trending news topics from global and local newspapers. Apart from that, we present two baselines, TF-IDF and LDA. We evaluated the results of these two methods with three different k values for metrics of precision, recall and f1-score. The collected dataset is available at https://github.com/MeysamAsgariC/BLMT.
翻訳日:2023-10-19 01:01:50 公開日:2023-10-17
# 複合輸送ダイバージェンスを用いたガウス混合低減

Gaussian Mixture Reduction with Composite Transportation Divergence ( http://arxiv.org/abs/2002.08410v5 )

ライセンス: Link先を確認
Qiong Zhang, Archer Gong Zhang, Jiahua Chen(参考訳) ガウス混合は密度推定、信念伝播、ベイズフィルタリングなどの様々な応用において密度関数の近似に広く用いられている。 これらの応用はしばしば、再帰的に更新される初期近似としてガウス混合を用いる。 これらの再帰過程における重要な課題は、混合物の位数が指数関数的に増加することに起因する。 この難しさを克服するために、高次ガウス混合を低次で近似したガウス混合還元(GMR)を用いることができる。 クラスタリングに基づく手法は, 良好な性能と計算効率で知られているが, 収束特性と最適ターゲットはいまだ不明である。 本稿では,複合輸送分散(CTD)に基づく新しい最適化に基づくGMR法を提案する。 我々は,還元混合物を計算し,一般条件下での理論収束を確立するための一般化最小化アルゴリズムを開発した。 さらに,既存のクラスタリングベース手法の多くが,最適化ベース手法とクラスタリングベース手法のギャップを効果的に橋渡ししていることを示す。 当社のunified frameworkは,ctdの最も適切なコスト関数を選択して,特定のアプリケーションで優れたパフォーマンスを実現するためのものです。 実験により,提案手法の効率性と有効性を実証し,様々な領域においてその可能性を示す。

Gaussian mixtures are widely used for approximating density functions in various applications such as density estimation, belief propagation, and Bayesian filtering. These applications often utilize Gaussian mixtures as initial approximations that are updated recursively. A key challenge in these recursive processes stems from the exponential increase in the mixture's order, resulting in intractable inference. To overcome the difficulty, the Gaussian mixture reduction (GMR), which approximates a high order Gaussian mixture by one with a lower order, can be used. Although existing clustering-based methods are known for their satisfactory performance and computational efficiency, their convergence properties and optimal targets remain unknown. In this paper, we propose a novel optimization-based GMR method based on composite transportation divergence (CTD). We develop a majorization-minimization algorithm for computing the reduced mixture and establish its theoretical convergence under general conditions. Furthermore, we demonstrate that many existing clustering-based methods are special cases of ours, effectively bridging the gap between optimization-based and clustering-based techniques. Our unified framework empowers users to select the most appropriate cost function in CTD to achieve superior performance in their specific applications. Through extensive empirical experiments, we demonstrate the efficiency and effectiveness of our proposed method, showcasing its potential in various domains.
翻訳日:2023-10-19 01:01:39 公開日:2023-10-17
# 論理ゲートを実装するハイパーグラフ製品符号における分割量子ビット

Partitioning qubits in hypergraph product codes to implement logical gates ( http://arxiv.org/abs/2204.10812v3 )

ライセンス: Link先を確認
Armanda O. Quintavalle, Paul Webster, Michael Vasmer(参考訳) フォールトトレラント量子計算のオーバーヘッドを大幅に削減する高速低密度パリティチェック(LDPC)符号の約束は、これらの符号上の論理ゲートの効率的なフォールトトレラント実装の構築に依存する。 トランスバーサルゲートは最も単純な耐障害ゲートであるが、LDPC符号上のトランスバーサルゲートの可能性はほとんど無視されている。 LDPC符号のクラスであるハイパーグラフ製品コードに実装可能なトランスバーサルゲートについて検討する。 我々の分析は、ハイパーグラフ積符号の論理演算子に対するシンプレクティック標準基底の構築によって支援される。 これらのコードにおいて、トランスバーサルゲートはすべての論理キュービットに対して(論理スワップゲートまで)ハダマールと制御-zを実装することができる。 さらに,誤り訂正とインターリーブされたトランスバーサル演算のシーケンスにより,論理キュービットの任意の対を同一コードブロック内で絡み合うゲートの実装が可能となることを示した。 これにより、状態注入を補うことでLDPC符号上の普遍量子コンピューティングの基礎として、トランスバーサルゲートが利用できることを示す。

The promise of high-rate low-density parity check (LDPC) codes to substantially reduce the overhead of fault-tolerant quantum computation depends on constructing efficient, fault-tolerant implementations of logical gates on such codes. Transversal gates are the simplest type of fault-tolerant gate, but the potential of transversal gates on LDPC codes has hitherto been largely neglected. We investigate the transversal gates that can be implemented in hypergraph product codes, a class of LDPC codes. Our analysis is aided by the construction of a symplectic canonical basis for the logical operators of hypergraph product codes, a result that may be of independent interest. We show that in these codes transversal gates can implement Hadamard (up to logical SWAP gates) and control-Z on all logical qubits. Moreover, we show that sequences of transversal operations, interleaved with error correction, allow implementation of entangling gates between arbitrary pairs of logical qubits in the same code block. We thereby demonstrate that transversal gates can be used as the basis for universal quantum computing on LDPC codes, when supplemented with state injection.
翻訳日:2023-10-19 00:56:34 公開日:2023-10-17
# 知的システムのデジタル双対における知識等価性

Knowledge Equivalence in Digital Twins of Intelligent Systems ( http://arxiv.org/abs/2204.07481v2 )

ライセンス: Link先を確認
Nan Zhang, Rami Bahsoon, Nikos Tziritas, Georgios Theodoropoulos(参考訳) デジタルツインは、研究中の物理世界の最新のデータ駆動モデルを含み、シミュレーションを使用して物理世界を最適化することができる。 しかし、デジタルツインによる解析は、モデルが物理世界と等価である場合に限り有効で信頼性が高い。 そのようなモデルを維持することは、特にモデル化されている物理システムがインテリジェントで自律的である場合、難しい。 この論文は、システムが知識を認識できるが能力は限られている知的システムのデジタル双生児モデルに焦点を当てている。 デジタル双子は、シミュレーション環境により多くの知識を蓄積することにより、物理システムのメタレベルでの動作を改善する。 このようなインテリジェントな物理システムのモデリングには、仮想空間における知識認識能力を複製する必要がある。 モデルと物理系の知識を同期させるには、新しい等価性維持技術が必要である。 本稿では,知識比較と更新による知識等価性の概念と等価性維持手法を提案する。 提案手法の定量的解析により, 状態等価性と比較して, 知識等価性維持は逸脱を許容し, 不要な更新を低減し, 更新オーバーヘッドとシミュレーション信頼性とのトレードオフをより効果的に解決できることを確認した。

A digital twin contains up-to-date data-driven models of the physical world being studied and can use simulation to optimise the physical world. However, the analysis made by the digital twin is valid and reliable only when the model is equivalent to the physical world. Maintaining such an equivalent model is challenging, especially when the physical systems being modelled are intelligent and autonomous. The paper focuses in particular on digital twin models of intelligent systems where the systems are knowledge-aware but with limited capability. The digital twin improves the acting of the physical system at a meta-level by accumulating more knowledge in the simulated environment. The modelling of such an intelligent physical system requires replicating the knowledge-awareness capability in the virtual space. Novel equivalence maintaining techniques are needed, especially in synchronising the knowledge between the model and the physical system. This paper proposes the notion of knowledge equivalence and an equivalence maintaining approach by knowledge comparison and updates. A quantitative analysis of the proposed approach confirms that compared to state equivalence, knowledge equivalence maintenance can tolerate deviation thus reducing unnecessary updates and achieve more Pareto efficient solutions for the trade-off between update overhead and simulation reliability.
翻訳日:2023-10-19 00:55:53 公開日:2023-10-17
# 強相関量子系の有限温度における境界誘起特異性

Boundary-induced singularity in strongly-correlated quantum systems at finite temperature ( http://arxiv.org/abs/2204.06817v3 )

ライセンス: Link先を確認
Ding-Zu Wang, Guo-Feng Zhang, Maciej Lewenstein, Shi-Ju Ran(参考訳) 強相関量子系におけるバルク境界対応と境界誘起現象の探索は、凝縮物質物理学の最も基本的なトピックに属する。 本研究では、無限大の翻訳不変系の熱力学特性を最適に模倣できる模擬ハミルトニアンにおけるバルク境界競合について検討する。 模擬ハミルトニアンは、熱浴に類似したエンタングルメント・バス・ハミルトニアン(EBH)と呼ばれる境界上の局所的な相互作用を導入することで構成される。 EBH内の項は、無限大系の温度に応じて係数が変化する熱テンソルネットワーク法によって変動的に決定される。 温度をEBHの調整可能なハイパーパラメータとして扱うことにより、バウンダリからバルクへの熱ゆらぎが重要でない点を物理的に区別することを目的とした'boundary quench point'' (BQP)と呼ばれる係数の不連続点を同定する。 シミュレーション的ハミルトニアンを考えると、EBHは独自のハイパーパラメータを特徴とし、異なる温度で標準アンサンブルの下で、劇的な現象が明らかになる。 具体的には,BQPにおけるバルクエントロピーの不連続性が観察された。 また,エキゾチックなエントロピー分布,ハミルトニアンとbqpの対称性の関係,およびエンタングルメント・バス次元からの衝撃についても考察した。 これらの特異点は、通常ランダウ・ギンズバーグパラダイムに該当する従来の熱力学的相転移点と異なることを示す。 我々の研究は、バルクと境界の間の競争によって引き起こされるエキゾチックな現象を探求する機会を提供する。

Exploring the bulk-boundary correspondences and the boundary-induced phenomena in the strongly-correlated quantum systems belongs to the most fundamental topics of condensed matter physics. In this work, we study the bulk-boundary competition in a simulative Hamiltonian, with which the thermodynamic properties of the infinite-size translationally-invariant system can be optimally mimicked. The simulative Hamiltonian is constructed by introducing local interactions on the boundaries, coined as the entanglement-bath Hamiltonian (EBH) that is analogous to the heat bath. The terms within the EBH are variationally determined by a thermal tensor network method, with coefficients varying with the temperature of the infinite-size system. By treating the temperature as an adjustable hyper-parameter of the EBH, we identify a discontinuity point of the coefficients, dubbed as the ``boundary quench point'' (BQP), whose physical implication is to distinguish the point, below which the thermal fluctuations from the boundaries to the bulk become insignificant. Fruitful phenomena are revealed when considering the simulative Hamiltonian, with the EBH featuring its own hyper-parameter, under the canonical ensembles at different temperatures. Specifically, a discontinuity in bulk entropy at the BQP is observed. The exotic entropic distribution, the relations between the symmetries of Hamiltonian and BQP, and the impacts from the entanglement-bath dimension are also explored. Our results show that such a singularity differs from those in the conventional thermodynamic phase transition points that normally fall into the Landau-Ginzburg paradigm. Our work provides the opportunities on exploring the exotic phenomena induced by the competition between the bulk and boundaries.
翻訳日:2023-10-19 00:55:16 公開日:2023-10-17
# 並列BERTディープニューラルネットワークを用いたフェイクニュース検出

Fake news detection using parallel BERT deep neural networks ( http://arxiv.org/abs/2204.04793v2 )

ライセンス: Link先を確認
Mahmood Farokhian, Vahid Rafe, Hadi Veisi(参考訳) フェイクニュースは、ソーシャルネットワークやメディアにとってますます難しい課題だ。 偽ニュースの検出は長年にわたって問題視されてきたが、ソーシャルネットワークの進化と近年のニュース拡散のスピード向上が再び検討されている。 この問題にはいくつかのアプローチがあり、そのうちの1つはディープニューラルネットワークを用いたテキストスタイルに基づく偽ニュースの検出である。 近年では、自然言語処理に最もよく使われているのがトランスフォーマーを用いたトランスファー学習である。 BERTは多くのNLPベンチマークで他のモデルを上回っている最も有望なトランスフォーマーの1つである。 本稿では,2つの並列BERTネットワークを用いて全文ニュース記事の真偽検出を行うMWPBertを紹介する。 BERTネットワークの1つはニュースヘッドラインをエンコードし、もう1つはニュースボディをエンコードする。 BERTネットワークの入力長は制限され一定であり、ニュース本体は通常長文であるので、ニューステキスト全体をBERTに入力することはできない。 そこで,maxworthアルゴリズムを用いて,ファクトチェックに有用なニューステキストの部分を選択し,bertネットワークに入力した。 最後に、2つのBERTネットワークの出力を出力ネットワークにエンコードしてニュースを分類する。 実験の結果,提案モデルが従来のモデルよりも精度と性能面で優れていた。

Fake news is a growing challenge for social networks and media. Detection of fake news always has been a problem for many years, but after the evolution of social networks and increasing speed of news dissemination in recent years has been considered again. There are several approaches to solving this problem, one of which is to detect fake news based on its text style using deep neural networks. In recent years, one of the most used forms of deep neural networks for natural language processing is transfer learning with transformers. BERT is one of the most promising transformers who outperforms other models in many NLP benchmarks. This article, we introduce MWPBert, which uses two parallel BERT networks to perform veracity detection on full-text news articles. One of the BERT networks encodes news headline, and another encodes news body. Since the input length of the BERT network is limited and constant and the news body is usually a long text, we cannot fed the whole news text into the BERT. Therefore, using the MaxWorth algorithm, we selected the part of the news text that is more valuable for fact-checking, and fed it into the BERT network. Finally, we encode the output of the two BERT networks to an output network to classify the news. The experiment results showed that the proposed model outperformed previous models in terms of accuracy and other performance measures.
翻訳日:2023-10-19 00:54:45 公開日:2023-10-17
# 確率整合性と公正保証を用いたレコメンダシステムのためのテンソル補完

Tensor Completion with Provable Consistency and Fairness Guarantees for Recommender Systems ( http://arxiv.org/abs/2204.01815v6 )

ライセンス: Link先を確認
Tung Nguyen and Jeffrey Uhlmann(参考訳) 非負・正の行列とテンソル完備問題を定義・解決するための新しい一貫性に基づくアプローチを導入する。 フレームワークの新規性は、問題をアプリケーション・任意最適化問題という形で、人工的に適切に配置する代わりにいる。 例えば 階数やノルムなどのバルク構造的測度を最小化することにより、単元的整合性を維持し、解の存在を保証し、比較的弱い支持仮定の下では、一意性を示す。 フレームワークと解アルゴリズムは任意の次元のテンソルに直接一般化し、固定次元に対して問題サイズで線形な計算複雑性を維持している。 d.レコメンデータ・システム(RS)アプリケーションのコンテキストにおいて,RS問題に対する解決を期待すべき2つの妥当な特性が,我々のフレームワーク内で一意性を保証するのに十分であることを示す。 これは、問題の中心にある明らかに人間/主観的変数であるにもかかわらず、ヒューリスティックな統計的あるいはAI手法の必要性を排除しているため、注目すべきである。 主要な理論的貢献には、その性質の証明を持つ一般単位整合テンソル補完フレームワークが含まれる。 例えば コンセンサス順序と公正性、最適なランタイムと空間の複雑さを持つアルゴリズム。 例えば 行列/テンソルの既知の項の数で線形である前処理複雑性を伴うo(1)項補完。 現実的な見地から言えば、鍵状態変数間の高次元構造的関係を一般化するためのフレームワークのシームレスな能力である。 例えば ユーザと製品属性は、直接のユーザと製品の関係を超越して一般化できない代替手法において、可能以上の情報を抽出する手段を提供する。

We introduce a new consistency-based approach for defining and solving nonnegative/positive matrix and tensor completion problems. The novelty of the framework is that instead of artificially making the problem well-posed in the form of an application-arbitrary optimization problem, e.g., minimizing a bulk structural measure such as rank or norm, we show that a single property/constraint: preserving unit-scale consistency, guarantees the existence of both a solution and, under relatively weak support assumptions, uniqueness. The framework and solution algorithms also generalize directly to tensors of arbitrary dimensions while maintaining computational complexity that is linear in problem size for fixed dimension d. In the context of recommender system (RS) applications, we prove that two reasonable properties that should be expected to hold for any solution to the RS problem are sufficient to permit uniqueness guarantees to be established within our framework. This is remarkable because it obviates the need for heuristic-based statistical or AI methods despite what appear to be distinctly human/subjective variables at the heart of the problem. Key theoretical contributions include a general unit-consistent tensor-completion framework with proofs of its properties, e.g., consensus-order and fairness, and algorithms with optimal runtime and space complexities, e.g., O(1) term-completion with preprocessing complexity that is linear in the number of known terms of the matrix/tensor. From a practical perspective, the seamless ability of the framework to generalize to exploit high-dimensional structural relationships among key state variables, e.g., user and product attributes, offers a means for extracting significantly more information than is possible for alternative methods that cannot generalize beyond direct user-product relationships.
翻訳日:2023-10-19 00:54:26 公開日:2023-10-17
# RFNet-4D++:4次元点雲からの連成物体再構成と流れ推定

RFNet-4D++: Joint Object Reconstruction and Flow Estimation from 4D Point Clouds with Cross-Attention Spatio-Temporal Features ( http://arxiv.org/abs/2203.16482v3 )

ライセンス: Link先を確認
Tuan-Anh Vu, Duc Thanh Nguyen, Binh-Son Hua, Quang-Hieu Pham and Sai-Kit Yeung(参考訳) 3dポイントクラウドからのオブジェクト復元は、コンピュータビジョンとコンピュータグラフィックスにおける長年の研究課題であり、素晴らしい進歩を遂げてきた。 しかし、時変点雲(すなわち4D点雲)からの復元は一般的に見過ごされている。 本稿では,4次元点雲から物体と動きの流れを協調的に再構成する新しいネットワークアーキテクチャrfnet-4d++を提案する。 重要な洞察は、一連のポイントクラウドから空間的特徴と時間的特徴を学習することで、同時にタスクを実行することだ。 この能力を証明するため,物体再構成のための空間構造の教師付き学習により,非教師付き学習手法を用いて時間ベクトル場学習モジュールを設計する。 ベンチマークデータセットの大規模な実験と分析により,本手法の有効性と有効性を検証した。 実験結果に示すように,本手法は流速推定と物体再構成の両面での最先端性能を実現し,既存の手法に比べてトレーニングと推論の両面ではるかに高速である。 私たちのコードとデータはhttps://github.com/hkust-vgd/rfnet-4dで入手できます。

Object reconstruction from 3D point clouds has been a long-standing research problem in computer vision and computer graphics, and achieved impressive progress. However, reconstruction from time-varying point clouds (a.k.a. 4D point clouds) is generally overlooked. In this paper, we propose a new network architecture, namely RFNet-4D++, that jointly reconstructs objects and their motion flows from 4D point clouds. The key insight is simultaneously performing both tasks via learning of spatial and temporal features from a sequence of point clouds can leverage individual tasks, leading to improved overall performance. To prove this ability, we design a temporal vector field learning module using an unsupervised learning approach for flow estimation task, leveraged by supervised learning of spatial structures for object reconstruction. Extensive experiments and analyses on benchmark datasets validated the effectiveness and efficiency of our method. As shown in experimental results, our method achieves state-of-the-art performance on both flow estimation and object reconstruction while performing much faster than existing methods in both training and inference. Our code and data are available at https://github.com/hkust-vgd/RFNet-4D
翻訳日:2023-10-19 00:53:57 公開日:2023-10-17
# 同一粒子をもつ量子反事実性

Quantum counterfactuality with identical particles ( http://arxiv.org/abs/2203.10847v2 )

ライセンス: Link先を確認
Vinod N. Rao, Anindita Banerjee and R. Srikanth(参考訳) 量子自己干渉(quantum self-interference)は情報の偽りの伝達を可能にし、送信されたビットはチャネルを通過する粒子を含まない。 本研究では, 自己干渉を同一粒子間の干渉に置き換えた場合でも, 反事実性を実現する方法を示す。 興味深いことに、ここで呼ばれる区別不能の面は一階のコヒーレンスと関連付けられており、モード作用素の(反)可換関係に関連する通常の不識別性の概念とは異なる。 実験的な観点から、提案されたアイデアの最も単純な実装は、差動相シフト量子鍵分布や相互作用のない測定のための既存のプロトコルにわずかな修正を加えることで実現できる。

Quantum self-interference enables the counterfactual transmission of information, whereby the transmitted bits involve no particles traveling through the channel. In this work, we show how counterfactuality can be realized even when the self interference is replaced by interference between identical particles. Interestingly, the facet of indistinguishability called forth here is associated with first-order coherence, and is different from the usual notion of indistinguishability associated with the (anti-)commutation relations of mode operators. From an experimental perspective, the simplest implementation of the proposed idea can be realized by slight modifications to existing protocols for differential-phase-shift quantum key distribution or interaction-free measurement.
翻訳日:2023-10-19 00:53:38 公開日:2023-10-17
# 視覚トランスフォーマの最近の進歩:最近の研究動向と展望

Recent Advances in Vision Transformer: A Survey and Outlook of Recent Work ( http://arxiv.org/abs/2203.01536v5 )

ライセンス: Link先を確認
Khawar Islam(参考訳) ビジョントランスフォーマー(ViT)は、畳み込みニューラルネットワーク(CNN)と比較して、様々なビジョンタスクにおいてより人気があり、支配的な技術になりつつある。 コンピュータビジョンにおける要求技術として、ViTは長距離関係に着目しながら様々な視覚問題を解くことに成功した。 本稿では,自己注意機構の基本概念と背景を紹介することから始める。 次に、その強度と弱さ、計算コスト、およびトレーニングおよびテストデータセットの観点から説明した最近のトップパフォーマンスのViT手法の概要を紹介する。 一般的なベンチマークデータセット上で,様々なViTアルゴリズムと代表的CNN手法の性能を徹底的に比較する。 最後に、洞察に富んだ観測でいくつかの限界を探求し、さらなる研究の方向性を提供する。 プロジェクトページと論文のコレクションはhttps://github.com/khawar512/vit-surveyで入手できる。

Vision Transformers (ViTs) are becoming more popular and dominating technique for various vision tasks, compare to Convolutional Neural Networks (CNNs). As a demanding technique in computer vision, ViTs have been successfully solved various vision problems while focusing on long-range relationships. In this paper, we begin by introducing the fundamental concepts and background of the self-attention mechanism. Next, we provide a comprehensive overview of recent top-performing ViT methods describing in terms of strength and weakness, computational cost as well as training and testing dataset. We thoroughly compare the performance of various ViT algorithms and most representative CNN methods on popular benchmark datasets. Finally, we explore some limitations with insightful observations and provide further research direction. The project page along with the collections of papers are available at https://github.com/khawar512/ViT-Survey
翻訳日:2023-10-19 00:53:26 公開日:2023-10-17
# 一般化確率論のアクセシブルフラグメント、コーン同値および非古典性目撃への応用

Accessible fragments of generalized probabilistic theories, cone equivalence, and applications to witnessing nonclassicality ( http://arxiv.org/abs/2112.04521v2 )

ライセンス: Link先を確認
John H. Selby, David Schmid, Elie Wolfe, Ana Bel\'en Sainz, Ravi Kunjwal, and Robert W. Spekkens(参考訳) 一般化確率論(GPT)の形式主義は、もともと知覚可能な物理理論の風景を特徴づける手段として開発された。 したがって、与えられた物理理論を記述する GPT は必然的に全ての物理的過程を含む。 本稿では、与えられた物理理論の中で、特定の実験装置のGPT的特徴を与える方法について考察する。 得られた特徴は一般的には GPT ではなく、それ自身ではなく、より一般的な数学的対象によって説明され、アクセス可能な GPT フラグメントを導入し、定義する。 次に、アクセス可能なGPTフラグメント(および特別な場合として標準GPT間の)の間に、コーン同値(cone equivalence)と呼ばれる同値関係を導入する。 我々は、アクセス可能なgptフラグメントを用いて最もよく説明され、さらにコーン等価性が自然に発生する実験シナリオの例をいくつか提示する。 すると、アクセス可能なGPTフラグメントが古典的な説明を許容していることと、それと等価である他のすべてのフラグメントが古典的な説明を許容することを証明する。 最後に、この結果を利用して、一般化された非文脈性の失敗を目撃するための実験的な要件に関するいくつかの基本的な結果を示す。 特に,一般の非文脈性の障害を目撃するには,測定値間の非互換性や選択の自由の仮定は必要ではないこと,また,任意に非効率な検出器を用いてもそのような障害を目撃できることを実証する。

The formalism of generalized probabilistic theories (GPTs) was originally developed as a way to characterize the landscape of conceivable physical theories. Thus, the GPT describing a given physical theory necessarily includes all physically possible processes. We here consider the question of how to provide a GPT-like characterization of a particular experimental setup within a given physical theory. We show that the resulting characterization is not generally a GPT in and of itself-rather, it is described by a more general mathematical object that we introduce and term an accessible GPT fragment. We then introduce an equivalence relation, termed cone equivalence, between accessible GPT fragments (and, as a special case, between standard GPTs). We give a number of examples of experimental scenarios that are best described using accessible GPT fragments, and where moreover cone-equivalence arises naturally. We then prove that an accessible GPT fragment admits of a classical explanation if and only if every other fragment that is cone-equivalent to it also admits of a classical explanation. Finally, we leverage this result to prove several fundamental results regarding the experimental requirements for witnessing the failure of generalized noncontextuality. In particular, we prove that neither incompatibility among measurements nor the assumption of freedom of choice is necessary for witnessing failures of generalized noncontextuality, and, moreover, that such failures can be witnessed even using arbitrarily inefficient detectors.
翻訳日:2023-10-19 00:53:12 公開日:2023-10-17
# 共変量シフト一般化のための独立駆動的重要度重み付けに関する理論的解析

A Theoretical Analysis on Independence-driven Importance Weighting for Covariate-shift Generalization ( http://arxiv.org/abs/2111.02355v4 )

ライセンス: Link先を確認
Renzhe Xu, Xingxuan Zhang, Zheyan Shen, Tong Zhang, Peng Cui(参考訳) out-of-distribution(ood)一般化の典型例であるcovariate-shift generalizationでは、covariate shiftという形式でアクセス可能なトレーニング分布と異なる、未知のテスト分布での優れたパフォーマンスが求められている。 近年、安定学習文学における独立駆動重み付けアルゴリズムは、回帰アルゴリズムや深層ニューラルネットワークを含むいくつかの学習モデルにおいて共変量シフトの一般化を扱うための経験的効果を示し、理論的解析は欠落している。 本稿では,これらのアルゴリズムを特徴選択プロセスとして説明することにより,その効果を理論的に証明する。 まず、最小安定変数集合と呼ばれる変数の集合を定め、これは平均二乗損失や二項交叉エントロピー損失などの共通損失関数の共変シフト一般化を扱うための最小かつ最適変数の集合である。 その後、理想的な条件下では、独立性に基づく重み付けアルゴリズムがこの集合の変数を識別できることが証明される。 また、漸近特性の解析も行う。 これらの理論はいくつかの合成実験でさらに検証されている。

Covariate-shift generalization, a typical case in out-of-distribution (OOD) generalization, requires a good performance on the unknown test distribution, which varies from the accessible training distribution in the form of covariate shift. Recently, independence-driven importance weighting algorithms in stable learning literature have shown empirical effectiveness to deal with covariate-shift generalization on several learning models, including regression algorithms and deep neural networks, while their theoretical analyses are missing. In this paper, we theoretically prove the effectiveness of such algorithms by explaining them as feature selection processes. We first specify a set of variables, named minimal stable variable set, that is the minimal and optimal set of variables to deal with covariate-shift generalization for common loss functions, such as the mean squared loss and binary cross-entropy loss. Afterward, we prove that under ideal conditions, independence-driven importance weighting algorithms could identify the variables in this set. Analysis of asymptotic properties is also provided. These theories are further validated in several synthetic experiments.
翻訳日:2023-10-19 00:52:46 公開日:2023-10-17
# 分解実世界データから学習したシーンテキスト合成エンジン

A Scene-Text Synthesis Engine Achieved Through Learning from Decomposed Real-World Data ( http://arxiv.org/abs/2209.02397v2 )

ライセンス: Link先を確認
Zhengmi Tang, Tomo Miyazaki, and Shinichiro Omachi(参考訳) 背景画像上のテキストインスタンスを自然に構成することを目的としたシーンテキスト画像合成技術は、正確な包括的なアノテーション情報を提供する能力のため、ディープニューラルネットワークのトレーニングに非常に適している。 先行研究は実世界の観測から導かれた規則を用いて二次元および三次元表面上に合成テキスト画像を生成することを検討した。 これらの研究のいくつかは、学習を通じてシーンテキスト画像を生成することを提案したが、適切なトレーニングデータセットが存在しないため、教師なしのフレームワークは既存の実世界のデータから学習するために研究され、信頼性の高い性能は得られなかった。 このジレンマを緩和し、学習に基づくシーンテキスト合成の研究を容易にするために、四角形のbbox、ストロークレベルのテキストマスク、テキスト消去画像の3種類のアノテーションを含む、いくつかの公開ベンチマークから作成される実世界のデータセットであるdecompstを紹介する。 DecompSTデータセットを活用することで、テキスト位置提案ネットワーク(TLPNet)とテキスト外観適応ネットワーク(TAANet)を含む学習ベーステキスト合成エンジン(LBTS)を提案する。 TLPNetはまずテキスト埋め込みに適した領域を予測し、その後TAANetは背景コンテキストに合わせてテキストインスタンスの形状と色を適応的に調整する。 トレーニング後、これらのネットワークを統合して、シーンテキスト分析タスク用の合成データセットを生成することができる。 提案したLBTSの有効性と既存手法の有効性を検証するための総合的な実験を行い, 実験結果から, 提案したLBTSはシーンテキスト検出のためのより優れた事前学習データを生成できることが示唆された。

Scene-text image synthesis techniques that aim to naturally compose text instances on background scene images are very appealing for training deep neural networks due to their ability to provide accurate and comprehensive annotation information. Prior studies have explored generating synthetic text images on two-dimensional and three-dimensional surfaces using rules derived from real-world observations. Some of these studies have proposed generating scene-text images through learning; however, owing to the absence of a suitable training dataset, unsupervised frameworks have been explored to learn from existing real-world data, which might not yield reliable performance. To ease this dilemma and facilitate research on learning-based scene text synthesis, we introduce DecompST, a real-world dataset prepared from some public benchmarks, containing three types of annotations: quadrilateral-level BBoxes, stroke-level text masks, and text-erased images. Leveraging the DecompST dataset, we propose a Learning-Based Text Synthesis engine (LBTS) that includes a text location proposal network (TLPNet) and a text appearance adaptation network (TAANet). TLPNet first predicts the suitable regions for text embedding, after which TAANet adaptively adjusts the geometry and color of the text instance to match the background context. After training, those networks can be integrated and utilized to generate the synthetic dataset for scene text analysis tasks. Comprehensive experiments were conducted to validate the effectiveness of the proposed LBTS along with existing methods, and the experimental results indicate the proposed LBTS can generate better pretraining data for scene text detectors.
翻訳日:2023-10-19 00:45:05 公開日:2023-10-17
# 量子計測による重力場重畳の推定

Inference of gravitational field superposition from quantum measurements ( http://arxiv.org/abs/2209.02214v3 )

ライセンス: Link先を確認
Chris Overstreet, Joseph Curti, Minjeong Kim, Peter Asenbaum, Mark A. Kasevich, and Flaminia Giacomini(参考訳) 量子粒子と重力場との相互作用は、一様場を超越した実験が始まっている。 非相対論的量子力学において、そのような実験における重力場は重ね合わせ状態として書くことができる。 重力の代替理論は、量子粒子の時間発展から重力場エネルギーを分離することによってのみ重力重畳状態を避けることができることを実証的に実証する。 さらに、そのような理論は、運動方程式が有効である好ましい量子参照フレームを指定しなければならない。 これらの性質が理論的に証明できない程度に、最近の実験は重力が量子的特徴を持つという間接的な証拠を与えている。 重ね合わせの重力源を用いた実験は、重力が非古典的であるというより強い証拠を与えるだろう。

Experiments are beginning to probe the interaction of quantum particles with gravitational fields beyond the uniform-field regime. In non-relativistic quantum mechanics, the gravitational field in such experiments can be written as a superposition state. We empirically demonstrate that alternative theories of gravity can avoid gravitational superposition states only by decoupling the gravitational field energy from the quantum particle's time evolution. Furthermore, such theories must specify a preferred quantum reference frame in which the equations of motion are valid. To the extent that these properties are theoretically implausible, recent experiments provide indirect evidence that gravity has quantum features. Proposed experiments with superposed gravitational sources would provide even stronger evidence that gravity is nonclassical.
翻訳日:2023-10-19 00:44:35 公開日:2023-10-17
# 軌道最適化による量子ビットの少ない変分量子固有ソルバの精度向上

Improving the Accuracy of Variational Quantum Eigensolvers With Fewer Qubits Using Orbital Optimization ( http://arxiv.org/abs/2208.14431v2 )

ライセンス: Link先を確認
Joel Bierman, Yingzhou Li, Jianfeng Lu(参考訳) 短期量子コンピュータは、情報を処理できる量子ビットの数と、一貫性のある実行が可能な回路の深さに制限される。 現在、変量量子固有解法(VQE)のようなアルゴリズムの実験的な実証は、この理由から最小基底集合を用いて小さな分子に限られている。 本研究では, パラメータ化部分ユニタリ変換を基本関数に適用して, 与えられた問題に必要な量子ビット数を減少させる, 量子固有解法に軌道最適化スキームを組み込むことを提案する。 最適変換は、この部分ユニタリ行列に対する基底状態エネルギーを最小化することによって得られる。 スピン軌道16個までの小分子の数値シミュレーションにより, この手法は電子構造問題に関して, 短期量子コンピュータの能力を大幅に拡張できることを示した。 また, 軌道最適化と組み合わせたVQEは, 従来のVQEよりも低い基底状態エネルギーを実現し, より多くの量子ビットを用いたVQE法よりも低い基底状態エネルギーを頻繁に達成していることがわかった。

Near-term quantum computers will be limited in the number of qubits on which they can process information as well as the depth of the circuits that they can coherently carry out. To-date, experimental demonstrations of algorithms such as the Variational Quantum Eigensolver (VQE) have been limited to small molecules using minimal basis sets for this reason. In this work we propose incorporating an orbital optimization scheme into quantum eigensolvers wherein a parameterized partial unitary transformation is applied to the basis functions set in order to reduce the number of qubits required for a given problem. The optimal transformation is found by minimizing the ground state energy with respect to this partial unitary matrix. Through numerical simulations of small molecules up to 16 spin orbitals, we demonstrate that this method has the ability to greatly extend the capabilities of near-term quantum computers with regard to the electronic structure problem. We find that VQE paired with orbital optimization consistently achieves lower ground state energies than traditional VQE when using the same number of qubits and even frequently achieves lower ground state energies than VQE methods using more qubits.
翻訳日:2023-10-19 00:44:27 公開日:2023-10-17
# ssm-dta:薬物標的親和性予測におけるデータ不足の障壁を破る

SSM-DTA: Breaking the Barriers of Data Scarcity in Drug-Target Affinity Prediction ( http://arxiv.org/abs/2206.09818v3 )

ライセンス: Link先を確認
Qizhi Pei, Lijun Wu, Jinhua Zhu, Yingce Xia, Shufang Xie, Tao Qin, Haiguang Liu, Tie-Yan Liu, Rui Yan(参考訳) 薬物標的親和性(DTA)の正確な予測は、早期の薬物発見において極めて重要であり、特定の標的と効果的に相互作用し、それらの活性を調節する薬物の同定を容易にする。 ウェット実験は依然として最も信頼性の高い方法だが、時間的消費とリソース集約性によって、ディープラーニングアプローチの課題となるデータ可用性が制限される。 既存の手法は主に、データ不足の問題に適切に対処することなく、利用可能なDTAデータに基づく技術開発に重点を置いている。 この課題を克服するために,1)DTA予測とMLM(Masked Language Modeling)を併用したマルチタスクトレーニングアプローチと,組み合わせた薬物標的データを用いたSSM-DTAフレームワークを提案する。 2) 薬品および標的表現を増強するために, 大規模非ペア分子とタンパク質を活用する半教師付き訓練法。 このアプローチは、事前学習に分子やタンパク質のみを用いる従来の方法とは異なる。 3) 薬物と標的との相互作用を改善する軽量なクロスアテンションモジュールの統合により,予測精度が向上した。 BindingDB、DAVIS、KIBAといったベンチマークデータセットに関する広範な実験を通じて、我々のフレームワークの優れたパフォーマンスを実証する。 さらに, 特定の薬物標的結合活動, 仮想スクリーニング実験, 薬物特徴の可視化, 実世界の応用についてケーススタディを行い, いずれも研究の有意な可能性を示した。 結論として,提案するSSM-DTAフレームワークはDTA予測におけるデータ制限問題に対処し,より効率的かつ正確な薬物発見プロセスの道を開いた。 私たちのコードは$\href{https://github.com/QizhiPei/SSM-DTA}{Github}$で利用可能です。

Accurate prediction of Drug-Target Affinity (DTA) is of vital importance in early-stage drug discovery, facilitating the identification of drugs that can effectively interact with specific targets and regulate their activities. While wet experiments remain the most reliable method, they are time-consuming and resource-intensive, resulting in limited data availability that poses challenges for deep learning approaches. Existing methods have primarily focused on developing techniques based on the available DTA data, without adequately addressing the data scarcity issue. To overcome this challenge, we present the SSM-DTA framework, which incorporates three simple yet highly effective strategies: (1) A multi-task training approach that combines DTA prediction with masked language modeling (MLM) using paired drug-target data. (2) A semi-supervised training method that leverages large-scale unpaired molecules and proteins to enhance drug and target representations. This approach differs from previous methods that only employed molecules or proteins in pre-training. (3) The integration of a lightweight cross-attention module to improve the interaction between drugs and targets, further enhancing prediction accuracy. Through extensive experiments on benchmark datasets such as BindingDB, DAVIS, and KIBA, we demonstrate the superior performance of our framework. Additionally, we conduct case studies on specific drug-target binding activities, virtual screening experiments, drug feature visualizations, and real-world applications, all of which showcase the significant potential of our work. In conclusion, our proposed SSM-DTA framework addresses the data limitation challenge in DTA prediction and yields promising results, paving the way for more efficient and accurate drug discovery processes. Our code is available at $\href{https://github.com/QizhiPei/SSM-DTA}{Github}$.
翻訳日:2023-10-19 00:42:56 公開日:2023-10-17
# PROFHIT:階層型時系列の確率的ロバスト予測

PROFHIT: Probabilistic Robust Forecasting for Hierarchical Time-series ( http://arxiv.org/abs/2206.07940v3 )

ライセンス: Link先を確認
Harshavardhan Kamarthi, Lingkai Kong, Alexander Rodr\'iguez, Chao Zhang and B. Aditya Prakash(参考訳) 確率的階層的時系列予測は時系列予測の重要な変種であり、階層的関係を基礎とする多変量時系列のモデル化と予測を目標としている。 ほとんどの手法は点予測に焦点をあて、適切に調整された確率的予測分布を提供しない。 近年の最先端確率予測手法は,予測分布の一貫性を考慮しない点予測と分布のサンプルに階層的関係を課している。 以前の研究は、データセットが常に与えられた階層的な関係と一致しており、この仮定からの逸脱を示す現実世界のデータセットに適応していないことを静かに仮定している。 両者のギャップを埋めて,階層全体の分布予測を共同でモデル化する完全確率的階層予測モデルであるProFHITを提案する。 PROFHITは柔軟な確率的ベイズ的アプローチを採用し、新しい分散コヒーレンシ正規化を導入し、予測分布全体の階層的関係から学習し、堅牢で校正された予測を可能にし、様々な階層的一貫性のデータセットに適応する。 幅広いデータセットにおける習熟度の評価において,精度と校正において41~88%の精度が向上した。 完全分布上でのコヒーレンシーのモデル化により,入力時系列データの最大10%が欠落していても,ProFHITは信頼性の高い予測を確実に提供できることがわかった。

Probabilistic hierarchical time-series forecasting is an important variant of time-series forecasting, where the goal is to model and forecast multivariate time-series that have underlying hierarchical relations. Most methods focus on point predictions and do not provide well-calibrated probabilistic forecasts distributions. Recent state-of-art probabilistic forecasting methods also impose hierarchical relations on point predictions and samples of distribution which does not account for coherency of forecast distributions. Previous works also silently assume that datasets are always consistent with given hierarchical relations and do not adapt to real-world datasets that show deviation from this assumption. We close both these gaps and propose PROFHIT, which is a fully probabilistic hierarchical forecasting model that jointly models forecast distribution of entire hierarchy. PROFHIT uses a flexible probabilistic Bayesian approach and introduces a novel Distributional Coherency regularization to learn from hierarchical relations for entire forecast distribution that enables robust and calibrated forecasts as well as adapt to datasets of varying hierarchical consistency. On evaluating PROFHIT over wide range of datasets, we observed 41-88% better performance in accuracy and calibration. Due to modeling the coherency over full distribution, we observed that PROFHIT can robustly provide reliable forecasts even if up to 10% of input time-series data is missing where other methods' performance severely degrade by over 70%.
翻訳日:2023-10-19 00:42:25 公開日:2023-10-17
# 制約付きMDPに対する自然政策勾配原始双対法の収束とサンプル複雑性

Convergence and sample complexity of natural policy gradient primal-dual methods for constrained MDPs ( http://arxiv.org/abs/2206.02346v2 )

ライセンス: Link先を確認
Dongsheng Ding, Kaiqing Zhang, Jiali Duan, Tamer Ba\c{s}ar, Mihailo R. Jovanovi\'c(参考訳) 本研究では,期待総利益を最大化しつつ,期待総益の制約を満たしながら意思決定問題を検討する。 制約付きマルコフ決定過程(制約付きmdp)に対する無限ホリゾン最適制御問題の解法として,自然政策勾配法を用いる。 具体的には,本手法では,自然ポリシー勾配の上昇による主変数の更新と,投射された下位段階の降下による双対変数の更新を行う。 基本となる最大化は、非凸目的関数と非凸制約集合を含むが、softmaxポリシーパラメトリゼーションの下では、最適性ギャップと制約違反の両方に関して、サブリニアレートで大域収束を達成することが証明される。 そのような収束は状態-作用空間の大きさとは独立、すなわち-次元-自由である。 さらに,対数線形および一般平滑な政策パラメータ化に対しては,制限された政策パラメータ化による関数近似誤差までの部分線形収束率を定式化する。 また、2つのサンプルベースNPG-PDアルゴリズムに対して収束および有限サンプル複雑性を保証する。 最後に,計算実験を用いて,提案手法の有効性と有効性を示す。

We study sequential decision making problems aimed at maximizing the expected total reward while satisfying a constraint on the expected total utility. We employ the natural policy gradient method to solve the discounted infinite-horizon optimal control problem for Constrained Markov Decision Processes (constrained MDPs). Specifically, we propose a new Natural Policy Gradient Primal-Dual (NPG-PD) method that updates the primal variable via natural policy gradient ascent and the dual variable via projected sub-gradient descent. Although the underlying maximization involves a nonconcave objective function and a nonconvex constraint set, under the softmax policy parametrization we prove that our method achieves global convergence with sublinear rates regarding both the optimality gap and the constraint violation. Such convergence is independent of the size of the state-action space, i.e., it is~dimension-free. Furthermore, for log-linear and general smooth policy parametrizations, we establish sublinear convergence rates up to a function approximation error caused by restricted policy parametrization. We also provide convergence and finite-sample complexity guarantees for two sample-based NPG-PD algorithms. Finally, we use computational experiments to showcase the merits and the effectiveness of our approach.
翻訳日:2023-10-19 00:41:35 公開日:2023-10-17
# 確率勾配の概観的構造について

On the Overlooked Structure of Stochastic Gradients ( http://arxiv.org/abs/2212.02083v2 )

ライセンス: Link先を確認
Zeke Xie, Qian-Yuan Tang, Mingming Sun, Ping Li(参考訳) 確率勾配はディープニューラルネットワーク(DNN)の最適化と一般化の両方に密接に関係している。 いくつかの研究は、勾配雑音の重テール特性による深層学習における確率的最適化の成功を説明しようとしたが、他の研究は勾配雑音の重テール仮説に対する理論的および実証的な証拠を提示した。 残念ながら、深層学習における確率勾配の構造と重い尾の解析のための形式的な統計テストはまだ未検討である。 本稿では,主に2つの貢献をする。 まず,確率的勾配と勾配雑音の分布について,パラメータと反復をまたいだ形式的統計実験を行う。 我々の統計的テストでは、次元的勾配は典型的にはパワーロー重尾を示すが、反復的勾配とミニバッチトレーニングによる確率的勾配ノイズは通常パワーロー重尾を示すものではない。 第2に, 確率勾配の共分散スペクトルは, 従来の研究で見過ごされていたパワーロー構造を持ち, dnnの訓練における理論的意義を示す。 従来の研究では、確率勾配の異方性構造は深層学習に重要であると考えられていたが、勾配の共分散がそのようなエレガントな数学的構造を持つとは考えていなかった。 我々の研究は既存の信念に挑戦し、深層学習における確率的勾配の構造に関する新しい洞察を提供する。

Stochastic gradients closely relate to both optimization and generalization of deep neural networks (DNNs). Some works attempted to explain the success of stochastic optimization for deep learning by the arguably heavy-tail properties of gradient noise, while other works presented theoretical and empirical evidence against the heavy-tail hypothesis on gradient noise. Unfortunately, formal statistical tests for analyzing the structure and heavy tails of stochastic gradients in deep learning are still under-explored. In this paper, we mainly make two contributions. First, we conduct formal statistical tests on the distribution of stochastic gradients and gradient noise across both parameters and iterations. Our statistical tests reveal that dimension-wise gradients usually exhibit power-law heavy tails, while iteration-wise gradients and stochastic gradient noise caused by minibatch training usually do not exhibit power-law heavy tails. Second, we further discover that the covariance spectra of stochastic gradients have the power-law structures overlooked by previous studies and present its theoretical implications for training of DNNs. While previous studies believed that the anisotropic structure of stochastic gradients matters to deep learning, they did not expect the gradient covariance can have such an elegant mathematical structure. Our work challenges the existing belief and provides novel insights on the structure of stochastic gradients in deep learning.
翻訳日:2023-10-18 23:04:08 公開日:2023-10-17
# ConvLab-3: 統一データフォーマットに基づくフレキシブルな対話システムツールキット

ConvLab-3: A Flexible Dialogue System Toolkit Based on a Unified Data Format ( http://arxiv.org/abs/2211.17148v2 )

ライセンス: Link先を確認
Qi Zhu, Christian Geishauser, Hsien-chin Lin, Carel van Niekerk, Baolin Peng, Zheng Zhang, Michael Heck, Nurul Lubis, Dazhen Wan, Xiaochen Zhu, Jianfeng Gao, Milica Ga\v{s}i\'c, Minlie Huang(参考訳) タスク指向対話(TOD)システムはデジタルアシスタントとして機能し、フライトの予約やレストランの検索といった様々なタスクを通じてユーザを誘導する。 todシステムを構築するための既存のツールキットは、ユーザーフレンドリーな体験でデータ、モデル、実験環境の包括的な配列を提供するのに不足することが多い。 本稿では,このギャップを埋めるための多面的対話システムツールキットConvLab-3を紹介する。 当社の統一データフォーマットは、さまざまなデータセットとモデルの統合を単純化し、一般化と転送を研究するための複雑さとコストを大幅に削減します。 堅牢な強化学習(RL)ツール,合理化トレーニングプロセス,詳細な評価ツール,ユーザシミュレータの選択などによって強化されたConvLab-3は,堅牢な対話ポリシの迅速な開発と評価をサポートする。 本研究では,トランスファーラーニングとRLの有効性を実証し,ConvLab-3が研究者にとって強力なツールであるだけでなく,新参者にとってアクセス可能なプラットフォームであることを示す。

Task-oriented dialogue (TOD) systems function as digital assistants, guiding users through various tasks such as booking flights or finding restaurants. Existing toolkits for building TOD systems often fall short of in delivering comprehensive arrays of data, models, and experimental environments with a user-friendly experience. We introduce ConvLab-3: a multifaceted dialogue system toolkit crafted to bridge this gap. Our unified data format simplifies the integration of diverse datasets and models, significantly reducing complexity and cost for studying generalization and transfer. Enhanced with robust reinforcement learning (RL) tools, featuring a streamlined training process, in-depth evaluation tools, and a selection of user simulators, ConvLab-3 supports the rapid development and evaluation of robust dialogue policies. Through an extensive study, we demonstrate the efficacy of transfer learning and RL and showcase that ConvLab-3 is not only a powerful tool for seasoned researchers but also an accessible platform for newcomers.
翻訳日:2023-10-18 23:03:44 公開日:2023-10-17
# desire backpropagation:spike-timing-dependent plasticityに基づく多層スパイクニューラルネットワークのための軽量学習アルゴリズム

Desire Backpropagation: A Lightweight Training Algorithm for Multi-Layer Spiking Neural Networks based on Spike-Timing-Dependent Plasticity ( http://arxiv.org/abs/2211.05412v2 )

ライセンス: Link先を確認
Daniel Gerlinghoff, Tao Luo, Rick Siow Mong Goh, Weng-Fai Wong(参考訳) スパイキングニューラルネットワーク(SNN)は、資源効率と計算複雑性が重要である場合、従来の人工ニューラルネットワークの代替となる。 SNNの大きな利点は、乗算操作を排除するスパイク列車によるバイナリ情報転送である。 しかし、ニューロンモデルは微分不可能であり、従来の勾配に基づくバックプロパゲーションアルゴリズムを直接適用できないため、SNNのトレーニングは困難である。 さらに、spike-timing-dependent plasticity(stdp)は、スパイクベースの学習規則であるが、重みをローカルに更新し、ネットワークの出力エラーを最適化しない。 本研究では,出力誤差から隠れたニューロンを含むすべてのニューロンの所望のスパイク活性を導出する手法であるdesire backpropagationを提案する。 局所STDP重み更新にこの欲求値を組み込むことで、グローバルエラーを最小限に抑え、高い分類精度を達成しつつ、ニューロンのダイナミクスを効率的に捉えることができる。 これは、欲望のバックプロパゲーションをスパイクベースの教師付き学習ルールにする。 mnist と fashion-mnist を分類するために3層ネットワークを訓練し,それぞれ98.41% と 87.56% の精度を得た。 さらに,後方通過時の乗算を除去することにより,計算複雑性を低減し,後方通過と後方通過の算術的資源のバランスを保ち,低リソースデバイスでのトレーニングの候補となる欲求のバックプロパゲーションを実現する。

Spiking neural networks (SNNs) are a viable alternative to conventional artificial neural networks when resource efficiency and computational complexity are of importance. A major advantage of SNNs is their binary information transfer through spike trains which eliminates multiplication operations. The training of SNNs has, however, been a challenge, since neuron models are non-differentiable and traditional gradient-based backpropagation algorithms cannot be applied directly. Furthermore, spike-timing-dependent plasticity (STDP), albeit being a spike-based learning rule, updates weights locally and does not optimize for the output error of the network. We present desire backpropagation, a method to derive the desired spike activity of all neurons, including the hidden ones, from the output error. By incorporating this desire value into the local STDP weight update, we can efficiently capture the neuron dynamics while minimizing the global error and attaining a high classification accuracy. That makes desire backpropagation a spike-based supervised learning rule. We trained three-layer networks to classify MNIST and Fashion-MNIST images and reached an accuracy of 98.41% and 87.56%, respectively. In addition, by eliminating a multiplication during the backward pass, we reduce computational complexity and balance arithmetic resources between forward and backward pass, making desire backpropagation a candidate for training on low-resource devices.
翻訳日:2023-10-18 23:03:27 公開日:2023-10-17
# 遠隔クラスタ型無線フェデレート学習

Over-The-Air Clustered Wireless Federated Learning ( http://arxiv.org/abs/2211.03363v3 )

ライセンス: Link先を確認
Ayush Madhan-Sohini, Divin Dominic, Nazreen Shah, Ranjitha Prasad(参考訳) プライバシと帯域幅の制約は、生データを共有することなく機械学習(ML)モデルを協調的にトレーニングする、無線システムにおけるフェデレーション学習(FL)の使用につながっている。 帯域制限されたアップリンク無線チャネルを使用する一方で、クライアントが同時にパラメータ更新をサーバに送信できるため、over-the-air (ota) flが好まれる。 レイテンシとサーバ障害の増加により、パラメータアグリゲーションには強力なサーバが使用できない場合がある。 強力なサーバがなければ、クライアントが隣人と通信し、膨大な通信コストを発生させながらコンセンサスMLモデルを得る分散戦略が採用される。 本稿では,分散化fl戦略に比べて通信効率が向上するota半分散型クラスタ型無線fl(cwfl)とcwfl-proxアルゴリズムを提案し,パラメータ更新は各クラスタのo(1/t)としてグローバルミニマに収束する。 MNISTとCIFAR10データセットを用いて、CWFLの精度は中央サーバベースのCOTAFと近位制約ベースの手法に匹敵するが、一方、単一クライアントベースのMLモデルをはるかに精度的に上回っている。

Privacy and bandwidth constraints have led to the use of federated learning (FL) in wireless systems, where training a machine learning (ML) model is accomplished collaboratively without sharing raw data. While using bandwidth-constrained uplink wireless channels, over-the-air (OTA) FL is preferred since the clients can transmit parameter updates simultaneously to a server. A powerful server may not be available for parameter aggregation due to increased latency and server failures. In the absence of a powerful server, decentralised strategy is employed where clients communicate with their neighbors to obtain a consensus ML model while incurring huge communication cost. In this work, we propose the OTA semi-decentralised clustered wireless FL (CWFL) and CWFL-Prox algorithms, which is communication efficient as compared to the decentralised FL strategy, while the parameter updates converge to global minima as O(1/T) for each cluster. Using the MNIST and CIFAR10 datasets, we demonstrate the accuracy performance of CWFL is comparable to the central-server based COTAF and proximal constraint based methods, while beating single-client based ML model by vast margins in accuracy.
翻訳日:2023-10-18 23:03:03 公開日:2023-10-17
# LSTMに基づく複数ラベル分類によるユーザ固有の将来活動予測

Predicting User-specific Future Activities using LSTM-based Multi-label Classification ( http://arxiv.org/abs/2211.03100v2 )

ライセンス: Link先を確認
Mohammad Sabik Irbaz, Fardin Ahsan Sakib and Lutfun Nahar Lota(参考訳) 以前の活動に基づく医療領域におけるユーザ固有の将来の活動予測は、看護師が提供するサービスを大幅に改善することができる。 他のドメインとは異なり、医療活動には看護師と患者の両方が関係しており、時間によっても異なるため、これは難しい。 本稿では,新しい2段階学習手法(ユーザ非依存事前学習とユーザ固有微調整)のために,データ構造の整理と修正に様々なデータ処理手法とlstmに基づくマルチラベル分類器を用いる。 検証精度は31.58\%,精度57.94%,リコール68.31%,F1スコア60.38%である。 適切なデータ前処理と2段階のトレーニングプロセスによって、パフォーマンスが向上したと結論づけた。 この実験は,我々のチーム "Not A Fan of Local Minima" による,"Fourth Nurse Care Activity Recognition Challenge" の一部である。

User-specific future activity prediction in the healthcare domain based on previous activities can drastically improve the services provided by the nurses. It is challenging because, unlike other domains, activities in healthcare involve both nurses and patients, and they also vary from hour to hour. In this paper, we employ various data processing techniques to organize and modify the data structure and an LSTM-based multi-label classifier for a novel 2-stage training approach (user-agnostic pre-training and user-specific fine-tuning). Our experiment achieves a validation accuracy of 31.58\%, precision 57.94%, recall 68.31%, and F1 score 60.38%. We concluded that proper data pre-processing and a 2-stage training process resulted in better performance. This experiment is a part of the "Fourth Nurse Care Activity Recognition Challenge" by our team "Not A Fan of Local Minima".
翻訳日:2023-10-18 23:02:41 公開日:2023-10-17
# ImageCAS:CT画像を用いた冠動脈セグメンテーションのための大規模データセットとベンチマーク

ImageCAS: A Large-Scale Dataset and Benchmark for Coronary Artery Segmentation based on Computed Tomography Angiography Images ( http://arxiv.org/abs/2211.01607v2 )

ライセンス: Link先を確認
An Zeng, Chunbiao Wu, Meiping Huang, Jian Zhuang, Shanshan Bi, Dan Pan, Najeeb Ullah, Kaleem Nawaz Khan, Tianchen Wang, Yiyu Shi, Xiaomeng Li, Guisen Lin, Xiaowei Xu(参考訳) 心臓血管疾患 (CVD) は非感染性疾患の約半数を占める。 冠動脈の血管狭窄はCVDの大きなリスクであると考えられている。 ctアンギオグラフィー(ct angiography, cta)は冠動脈診断における非侵襲的画像診断法の一つである。 臨床的に冠動脈の分画は冠動脈疾患の診断と定量化に不可欠である。 近年,この問題に対処する様々な研究が提案されている。 しかしながら、ほとんどの作品は社内のデータセットに依存しており、数十枚の画像のみを含むデータセットを一般に公開している作品はごくわずかである。 一方, ソースコードは公開されておらず, 既存の研究との比較は行われていないため, 手法の有効性を判断することは困難であり, コミュニティにおけるこの問題のさらなる探究を妨げている。 本稿では,CTA画像を用いた冠状動脈セグメンテーションのための大規模データセットを提案する。 さらに、我々はいくつかの典型的な既存手法の実装に最善を尽くしたベンチマークを実装した。 さらに,マルチスケールパッチ融合と2段階処理を組み合わせることで,船舶の細部を抽出する強力なベースライン手法を提案する。 包括的実験により,提案手法は提案した大規模データセットの既存手法よりも優れた性能を示した。 ベンチマークとデータセットはhttps://github.com/XiaoweiXu/ImageCAS-A-Large-Scale-Dataset-and-Benchmark-for-Coronary-Artery-Segmen tation-on-CTで公開されている。

Cardiovascular disease (CVD) accounts for about half of non-communicable diseases. Vessel stenosis in the coronary artery is considered to be the major risk of CVD. Computed tomography angiography (CTA) is one of the widely used noninvasive imaging modalities in coronary artery diagnosis due to its superior image resolution. Clinically, segmentation of coronary arteries is essential for the diagnosis and quantification of coronary artery disease. Recently, a variety of works have been proposed to address this problem. However, on one hand, most works rely on in-house datasets, and only a few works published their datasets to the public which only contain tens of images. On the other hand, their source code have not been published, and most follow-up works have not made comparison with existing works, which makes it difficult to judge the effectiveness of the methods and hinders the further exploration of this challenging yet critical problem in the community. In this paper, we propose a large-scale dataset for coronary artery segmentation on CTA images. In addition, we have implemented a benchmark in which we have tried our best to implement several typical existing methods. Furthermore, we propose a strong baseline method which combines multi-scale patch fusion and two-stage processing to extract the details of vessels. Comprehensive experiments show that the proposed method achieves better performance than existing works on the proposed large-scale dataset. The benchmark and the dataset are published at https://github.com/XiaoweiXu/ImageCAS-A-Large-Scale-Dataset-and-Benchmark-for-Coronary-Artery-Segmen tation-based-on-CT.
翻訳日:2023-10-18 23:02:25 公開日:2023-10-17
# 代数的視覚のスナップショット

Snapshot of Algebraic Vision ( http://arxiv.org/abs/2210.11443v2 )

ライセンス: Link先を確認
Joe Kileel, Kathl\'en Kohn(参考訳) 本稿では,最近代数的視覚のヘッダーの下に置かれている代数幾何学とコンピュータビジョンの相互作用について述べる。 この主題は、複数のビュー幾何学の新たな洞察を与え、3次元シーン再構成に適用し、新しい問題やアイデアを代数幾何学に戻す。

In this survey article, we present interactions between algebraic geometry and computer vision, which have recently come under the header of algebraic vision. The subject has given new insights in multiple view geometry and its application to 3D scene reconstruction and carried a host of novel problems and ideas back into algebraic geometry.
翻訳日:2023-10-18 23:02:00 公開日:2023-10-17
# 拡散ユニット:3Dポイントクラウドセグメンテーションのための解釈可能なエッジ強化と抑圧学習

Diffusion Unit: Interpretable Edge Enhancement and Suppression Learning for 3D Point Cloud Segmentation ( http://arxiv.org/abs/2209.09483v3 )

ライセンス: Link先を確認
Haoyi Xiu, Xin Liu, Weimin Wang, Kyoung-Sook Kim, Takayuki Shinohara, Qiong Chang, Masashi Matsuoka(参考訳) 3次元点雲は連続表面の離散的なサンプルであり、様々な用途に利用できる。 しかし、真の接続情報、すなわちエッジ情報の欠如は、ポイントクラウド認識を困難にしている。 最近のエッジ認識手法は、エッジモデリングをネットワーク設計に組み込んで、局所構造をよりよく記述している。 これらの手法は、エッジ情報の導入が有用であることを示すが、エッジ情報がどのように役立つかは不明確であり、ユーザがその有用性を分析することは困難である。 そこで本研究では,エッジ情報を原理的かつ解釈可能な方法で処理し,良好な改善を実現するDiffusion Unit(DU)というアルゴリズムを提案する。 まず,duがタスク指向のエッジ強化と抑制を行うことを理論的に示す。 第2に,エッジの強化と抑制行動を実験的に観察し,検証する。 第3に、この振る舞いがパフォーマンス改善に寄与することを実証的に示します。 難解なベンチマークで行った広範囲な実験と分析は、duの有効性を検証する。 具体的には、ShapeNet部分とS3DISを用いたシーンセグメンテーションを用いて、オブジェクト部分セグメンテーションにおける最先端性能を実現する。 ソースコードはhttps://github.com/martianxiu/diffusionunitで入手できます。

3D point clouds are discrete samples of continuous surfaces which can be used for various applications. However, the lack of true connectivity information, i.e., edge information, makes point cloud recognition challenging. Recent edge-aware methods incorporate edge modeling into network designs to better describe local structures. Although these methods show that incorporating edge information is beneficial, how edge information helps remains unclear, making it difficult for users to analyze its usefulness. To shed light on this issue, in this study, we propose a new algorithm called Diffusion Unit (DU) that handles edge information in a principled and interpretable manner while providing decent improvement. First, we theoretically show that DU learns to perform task-beneficial edge enhancement and suppression. Second, we experimentally observe and verify the edge enhancement and suppression behavior. Third, we empirically demonstrate that this behavior contributes to performance improvement. Extensive experiments and analyses performed on challenging benchmarks verify the effectiveness of DU. Specifically, our method achieves state-of-the-art performance in object part segmentation using ShapeNet part and scene segmentation using S3DIS. Our source code is available at https://github.com/martianxiu/DiffusionUnit.
翻訳日:2023-10-18 23:01:55 公開日:2023-10-17
# CGAN-ECT: CGANを用いた電気容量測定による画像再構成

CGAN-ECT: Tomography Image Reconstruction from Electrical Capacitance Measurements Using CGANs ( http://arxiv.org/abs/2209.03737v3 )

ライセンス: Link先を確認
Wael Deabes and Alaa E. Abdel-Hakim(参考訳) 電気容量トモグラフィ (ect) の応用がいくつかの産業分野において急速に進展していることから, 生容量測定による高品位, 高速, 画像再構成手法の開発が不可欠である。 複雑な機能のための効果的な非線形マッピングツールであるdeep learningは、電気トモグラフィを含む多くの分野でバイラルになっている。 本稿では,キャパシタンス測定からECT画像の再構成を行う条件生成適応ネットワーク(CGAN)モデルを提案する。 CGANモデルの初期像は容量測定から構成される。 私たちの知る限りでは、画像形式で容量の測定を表現するのはこれが初めてです。 提案したモデルを用いて,320Kの合成画像計測ペアの大規模データセットを作成し,実験を行った。 提案するcgan-ectモデルの実用性と一般化性は, テストデータセット, 汚染データ, およびトレーニング段階でモデルに露出しないフローパターンを用いて評価する。 評価結果から,cgan-ectモデルは従来および他の深層学習に基づく画像再構成アルゴリズムよりも精度の高いect画像を生成することができることがわかった。 cgan-ectは平均画像相関係数99.3%、平均相対画像誤差0.07を達成した。

Due to the rapid growth of Electrical Capacitance Tomography (ECT) applications in several industrial fields, there is a crucial need for developing high quality, yet fast, methodologies of image reconstruction from raw capacitance measurements. Deep learning, as an effective non-linear mapping tool for complicated functions, has been going viral in many fields including electrical tomography. In this paper, we propose a Conditional Generative Adversarial Network (CGAN) model for reconstructing ECT images from capacitance measurements. The initial image of the CGAN model is constructed from the capacitance measurement. To our knowledge, this is the first time to represent the capacitance measurements in an image form. We have created a new massive ECT dataset of 320K synthetic image measurements pairs for training, and testing the proposed model. The feasibility and generalization ability of the proposed CGAN-ECT model are evaluated using testing dataset, contaminated data and flow patterns that are not exposed to the model during the training phase. The evaluation results prove that the proposed CGAN-ECT model can efficiently create more accurate ECT images than traditional and other deep learning-based image reconstruction algorithms. CGAN-ECT achieved an average image correlation coefficient of more than 99.3% and an average relative image error about 0.07.
翻訳日:2023-10-18 23:01:40 公開日:2023-10-17
# リカレントニューラルネットワークにおける情報フラックスの定量化と最大化

Quantifying and maximizing the information flux in recurrent neural networks ( http://arxiv.org/abs/2301.12892v2 )

ライセンス: Link先を確認
Claus Metzner, Marius E. Yamakou, Dennis Voelkl, Achim Schilling and Patrick Krauss(参考訳) 自由実行型リカレントニューラルネットワーク(rnn)、特に確率モデルでは、相互情報$i\left[\vec{x}(t),\vec{x}(t\! +\! 1)\right]$ 次のシステム状態間で、$\vec{x}$。 以前の研究では、$i$はネットワークの接続重みの統計に依存することが示されているが、(1)体系的に$i$を最大化する方法と、(2)相互情報を計算できない大規模システムにおけるフラックスの定量化方法が不明である。 本稿ではボルツマンマシンをモデルシステムとして用いる。 強い接続を持つネットワークでは、相互情報$I$は、大系においても効率的に計算できる量であるニューロンペア間のルート平均2乗平均ピアソン相関の単調変換であることがわかった。 さらに、$I\left[\vec{x}(t),\vec{x}(t\! +\! 1)\right]$は、高自発的情報流束を持つシステムの体系的構築を可能にする重み行列の一般的な設計原理を明らかにする。 最後に,これらの動的ネットワークの状態空間における情報フラックスとサイクリックアトラクタの平均周期長を同時に最大化する。 この結果は,短期記憶やパターン生成装置として機能するRNNの構築に有用である可能性がある。

Free-running Recurrent Neural Networks (RNNs), especially probabilistic models, generate an ongoing information flux that can be quantified with the mutual information $I\left[\vec{x}(t),\vec{x}(t\!+\!1)\right]$ between subsequent system states $\vec{x}$. Although, former studies have shown that $I$ depends on the statistics of the network's connection weights, it is unclear (1) how to maximize $I$ systematically and (2) how to quantify the flux in large systems where computing the mutual information becomes intractable. Here, we address these questions using Boltzmann machines as model systems. We find that in networks with moderately strong connections, the mutual information $I$ is approximately a monotonic transformation of the root-mean-square averaged Pearson correlations between neuron-pairs, a quantity that can be efficiently computed even in large systems. Furthermore, evolutionary maximization of $I\left[\vec{x}(t),\vec{x}(t\!+\!1)\right]$ reveals a general design principle for the weight matrices enabling the systematic construction of systems with a high spontaneous information flux. Finally, we simultaneously maximize information flux and the mean period length of cyclic attractors in the state space of these dynamical networks. Our results are potentially useful for the construction of RNNs that serve as short-time memories or pattern generators.
翻訳日:2023-10-18 22:53:04 公開日:2023-10-17
# 大規模言語モデルは潜在変数モデルである:インテクスト学習のための良い説明と発見

Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning ( http://arxiv.org/abs/2301.11916v3 )

ライセンス: Link先を確認
Xinyi Wang, Wanrong Zhu, Michael Saxon, Mark Steyvers, William Yang Wang(参考訳) 近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。 しかし、既存の文献では、この能力のわずかなデモの選択に対する感受性が強調されている。 この能力が通常の言語モデルの事前学習目標から生じるメカニズムの現在の理解は、現実世界のllmから切り離されているままである。 本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。 そこで本研究では,小さいlmでアノテートされたデータの集合から最適なデモンストレーションを選択し,選択したデモをより大きなlmに直接一般化するアルゴリズムを提案する。 8つの実世界のテキスト分類データセットで8つのgptモデルを平均してベースラインよりも大幅に改善した。 また,数学語問題データセットであるGSM8K上で,本アルゴリズムの現実的有用性を示す。 llmsはタスク情報を含む潜在変数を暗黙的に推測する仮説を実証的に支持する。

In recent years, pre-trained large language models (LLMs) have demonstrated remarkable efficiency in achieving an inference-time few-shot learning capability known as in-context learning. However, existing literature has highlighted the sensitivity of this capability to the selection of few-shot demonstrations. Current understandings of the underlying mechanisms by which this capability arises from regular language model pretraining objectives remain disconnected from the real-world LLMs. This study aims to examine the in-context learning phenomenon through a Bayesian lens, viewing real-world LLMs as latent variable models. On this premise, we propose an algorithm to select optimal demonstrations from a set of annotated data with a small LM, and then directly generalize the selected demonstrations to larger LMs. We demonstrate significant improvement over baselines, averaged over eight GPT models on eight real-world text classification datasets. We also demonstrate the real-world usefulness of our algorithm on GSM8K, a math word problem dataset. Our empirical findings support our hypothesis that LLMs implicitly infer a latent variable containing task information.
翻訳日:2023-10-18 22:52:42 公開日:2023-10-17
# EARL:リモートセンシング画像におけるオブジェクト指向物体検出のための適応回転ラベルアサインメントを用いた楕円分布支援

EARL: An Elliptical Distribution aided Adaptive Rotation Label Assignment for Oriented Object Detection in Remote Sensing Images ( http://arxiv.org/abs/2301.05856v2 )

ライセンス: Link先を確認
Jian Guan, Mingjie Xie, Youtian Lin, Guangjun He, Pengming Feng(参考訳) ラベル割り当てはオブジェクト検出において重要なプロセスであり、トレーニング中の正または負のサンプルを決定することによって検出性能に大きな影響を及ぼす。 しかし、既存のラベル割り当て戦略では、スケールやアスペクト比のばらつきが大きいなど、リモートセンシング画像(rsis)のターゲット特性を十分に考慮せず、不十分でバランスの取れないサンプリングや、より低品質なサンプルの導入によって検出性能が低下する。 以上の問題を解決するため, 適応回転ラベルアサインメント (EARL) が提案され, アンカーフリー検出器において高品質な正試料を適応的に選択する。 具体的には、ターゲットの規模に応じて多レベル特徴写像の中から適応的にサンプルを抽出するために、適応的スケールサンプリング(ADS)戦略を提示する。 さらに, ターゲットの形状や向きに合わせて試料分布をより柔軟にし, 低品質の試料を除去できるように, 動的楕円分布支援サンプリング (ded) 戦略を提案する。 さらに,空間距離重み付け(sdw)モジュールを導入し,適応距離重み付けを損失関数に統合することで,検出器が高品質な試料に焦点を合わせられるようにした。 いくつかの一般的なデータセットに対する大規模な実験により提案したEARLの有効性と優位性が証明され、ベルやホイッスルがなければ、異なる検出器に容易に適用でき、最先端の性能が達成できる。 ソースコードはhttps://github.com/justlovesmile/earl。

Label assignment is a crucial process in object detection, which significantly influences the detection performance by determining positive or negative samples during training process. However, existing label assignment strategies barely consider the characteristics of targets in remote sensing images (RSIs) thoroughly, e.g., large variations in scales and aspect ratios, leading to insufficient and imbalanced sampling and introducing more low-quality samples, thereby limiting detection performance. To solve the above problems, an Elliptical Distribution aided Adaptive Rotation Label Assignment (EARL) is proposed to select high-quality positive samples adaptively in anchor-free detectors. Specifically, an adaptive scale sampling (ADS) strategy is presented to select samples adaptively among multi-level feature maps according to the scales of targets, which achieves sufficient sampling with more balanced scale-level sample distribution. In addition, a dynamic elliptical distribution aided sampling (DED) strategy is proposed to make the sample distribution more flexible to fit the shapes and orientations of targets, and filter out low-quality samples. Furthermore, a spatial distance weighting (SDW) module is introduced to integrate the adaptive distance weighting into loss function, which makes the detector more focused on the high-quality samples. Extensive experiments on several popular datasets demonstrate the effectiveness and superiority of our proposed EARL, where without bells and whistles, it can be easily applied to different detectors and achieve state-of-the-art performance. The source code will be available at: https://github.com/Justlovesmile/EARL.
翻訳日:2023-10-18 22:52:23 公開日:2023-10-17
# 言語・視覚・言語理解のための一般基礎モデルの構築に向けて

Toward Building General Foundation Models for Language, Vision, and Vision-Language Understanding Tasks ( http://arxiv.org/abs/2301.05065v2 )

ライセンス: Link先を確認
Xinsong Zhang, Yan Zeng, Jipeng Zhang, Hang Li(参考訳) 基礎モデルや事前学習されたモデルは、様々な言語、視覚、視覚言語理解タスクの性能を大幅に改善した。 しかし、既存の基礎モデルは1つのタイプのタスク、すなわち言語、ビジョン、またはビジョン言語でしか実行できない。 一般基盤モデルと呼ぶすべての理解タスクに最適な基礎モデルを構築することが可能かどうかについては,まだ未解決の問題である。 本稿では,新しい基礎モデルであるX-FM(X-Foundation Model)を提案する。 X-FMには1つの言語エンコーダ、1つの視覚エンコーダ、1つの融合エンコーダと新しい訓練方法がある。 トレーニング方法は、テキスト、画像、画像とテキストのペアデータからX-FMを学習する2つの新しいテクニックを含む。 1つは、言語エンコーダを学習する際に視覚言語トレーニングから勾配を止めることである。 もうひとつは、視覚言語トレーニングを活用して、視覚エンコーダの学習を導くことだ。 ベンチマークデータセットの大規模な実験は、X-FMが既存の基礎モデルを大幅に上回り、言語、視覚、視覚言語理解に特化した既存の基礎モデルに匹敵する性能を発揮することを示している。 コードと事前訓練されたモデルはhttps://github.com/zhangxinsong-nlp/XFMで公開されている。

Foundation models or pre-trained models have substantially improved the performance of various language, vision, and vision-language understanding tasks. However, existing foundation models can only perform the best in one type of tasks, namely language, vision, or vision-language. It is still an open question whether it is possible to construct a foundation model performing the best for all the understanding tasks, which we call a general foundation model. In this paper, we propose a new general foundation model, X-FM (the X-Foundation Model). X-FM has one language encoder, one vision encoder, and one fusion encoder, as well as a new training method. The training method includes two new techniques for learning X-FM from text, image, and image-text pair data. One is to stop gradients from the vision-language training when learning the language encoder. The other is to leverage the vision-language training to guide the learning of the vision encoder. Extensive experiments on benchmark datasets show that X-FM can significantly outperform existing general foundation models and perform better than or comparable to existing foundation models specifically for language, vision, or vision-language understanding. Code and pre-trained models are released at https://github.com/zhangxinsong-nlp/XFM.
翻訳日:2023-10-18 22:51:54 公開日:2023-10-17
# 複雑なネットワーク力学の神経近似はどの程度正確か?

How accurate are neural approximations of complex network dynamics? ( http://arxiv.org/abs/2301.04900v3 )

ライセンス: Link先を確認
Vaiva Vasiliauskaite and Nino Antulov-Fantulin(参考訳) 通常の微分方程式のデータ駆動近似は、特に明示的な第一原理を欠いた複雑なシステムにおいて、力学系モデルを発見する古典的な方法の代替となる。 本稿では、複雑なネットワークを介して結合されたそのような方程式の系で力学を記述する複雑なシステムに焦点をあてる。 金融、社会、神経システムを含む多くの現実世界のシステムは、このタイプの力学モデルに属する。 本稿では,これらの力学系をニューラルネットワークを用いて近似するための重要な要素を提案する。 静的教師付き学習との違いを強調し,統計的学習理論の古典的仮定を超えた一般化を評価することを提唱する。 推論時間中の予測の信頼性を推定するために,専用nullモデルを導入する。 様々な複雑なネットワーク力学の研究により、入力の複雑なネットワーク構造、サイズ、統計的性質にまたがる力学の神経近似が一般化されることを示した。 本研究では,高次元非線形力学系の高精度で信頼性の高い深層学習近似を実現する。

Data-driven approximations of ordinary differential equations offer a promising alternative to classical methods of discovering a dynamical system model, particularly in complex systems lacking explicit first principles. This paper focuses on a complex system whose dynamics is described with a system of such equations, coupled through a complex network. Numerous real-world systems, including financial, social, and neural systems, belong to this class of dynamical models. We propose essential elements for approximating these dynamical systems using neural networks, including necessary biases and an appropriate neural architecture. Emphasizing the differences from static supervised learning, we advocate for evaluating generalization beyond classical assumptions of statistical learning theory. To estimate confidence in prediction during inference time, we introduce a dedicated null model. By studying various complex network dynamics, we demonstrate that the neural approximations of dynamics generalize across complex network structures, sizes, and statistical properties of inputs. Our comprehensive framework enables accurate and reliable deep learning approximations of high-dimensional, nonlinear dynamical systems.
翻訳日:2023-10-18 22:51:32 公開日:2023-10-17
# 超伝導キャビティを用いたデュアルレール符号化

Dual-rail encoding with superconducting cavities ( http://arxiv.org/abs/2212.12077v2 )

ライセンス: Link先を確認
James D. Teoh, Patrick Winkel, Harshvardhan K. Babla, Benjamin J. Chapman, Jahan Claes, Stijn J. de Graaf, John W.O. Garmon, William D. Kalfus, Yao Lu, Aniket Maiti, Kaavya Sahay, Neel Thakur, Takahiro Tsunoda, Sophia H. Xue, Luigi Frunzio, Steven M. Girvin, Shruti Puri, and Robert J. Schoelkopf(参考訳) 誤りを減らし緩和する量子ハードウェアの設計は、実用的な量子エラー補正(QEC)と有用な量子計算に不可欠である。 この目的のために,2つの超伝導マイクロ波キャビティの単一光子部分空間に物理量子ビットを符号化する回路量子電気力学(QED)デュアルレール量子ビットを導入する。 支配的な光子損失エラーは検出され、消去エラーに変換され、一般的には修正が容易である。 線形光学とは対照的に、デュアルレール符号の回路QED実装にはユニークな機能がある。 デュアルレールキュービット毎に1つのトランスモンアンシラを使用して、状態準備、論理読み出し、パラメータ可能なシングルおよび2キュービットゲートを含む、ゲートベースのユニバーサル操作の実行方法を記述する。 さらに、キャビティとトランスモンの1次ハードウェアエラーを検出して、すべての操作のエラーを消去するために変換することができ、バックグラウンドのpauliエラーは桁違いに小さくなる。 したがって、デュアルレールキャビティ量子ビットは誤り率の好ましい階層を示し、今日のコヒーレンス時間とともに関連するqecしきい値よりも高い性能を期待できる。

The design of quantum hardware that reduces and mitigates errors is essential for practical quantum error correction (QEC) and useful quantum computation. To this end, we introduce the circuit-Quantum Electrodynamics (QED) dual-rail qubit in which our physical qubit is encoded in the single-photon subspace of two superconducting microwave cavities. The dominant photon loss errors can be detected and converted into erasure errors, which are in general much easier to correct. In contrast to linear optics, a circuit-QED implementation of the dual-rail code offers unique capabilities. Using just one additional transmon ancilla per dual-rail qubit, we describe how to perform a gate-based set of universal operations that includes state preparation, logical readout, and parametrizable single and two-qubit gates. Moreover, first-order hardware errors in the cavities and the transmon can be detected and converted to erasure errors in all operations, leaving background Pauli errors that are orders of magnitude smaller. Hence, the dual-rail cavity qubit exhibits a favorable hierarchy of error rates and is expected to perform well below the relevant QEC thresholds with today's coherence times.
翻訳日:2023-10-18 22:51:16 公開日:2023-10-17
# lidarを用いた3次元物体検出装置のロバスト性に関する包括的研究

A Comprehensive Study of the Robustness for LiDAR-based 3D Object Detectors against Adversarial Attacks ( http://arxiv.org/abs/2212.10230v3 )

ライセンス: Link先を確認
Yifan Zhang, Junhui Hou, Yixuan Yuan(参考訳) 近年、ディープラーニングに基づく3dオブジェクト検出が大幅に進歩し、多くのアプリケーションで広く採用されている。 3Dオブジェクト検出器は、セキュリティクリティカルなタスクにおいてますます重要になっているため、敵攻撃に対する堅牢性を理解することが不可欠である。 本稿では,LiDARを用いた3D検出器の対向攻撃時の強靭性評価と解析を行った。 具体的には、3つの異なる対向攻撃を3Dオブジェクト検出タスクに拡張し、最先端のLiDARベースの3Dオブジェクト検出器がKITTIおよびWaymoデータセットに対する攻撃に対して堅牢であることをベンチマークする。 さらに、ロバスト性と検出器特性の関係を解析する。 さらに、クロスモデル、クロスタスク、およびデータ横断攻撃の転送可能性についても検討する。 3次元検出器の防御戦略に関する詳細な実験を行い、フリップのような単純な変換が攻撃者に対して適用された変換戦略が露出した場合の堅牢性向上にはほとんど寄与しないことを示した。 そこで本研究では,従来の対人訓練に基づく対人焦点バランストレーニングを提案し,精度と頑健さのバランスをとる。 以上の結果から,LiDARをベースとした3次元物体検出装置の敵攻撃に対する理解と防御の促進が期待できる。 ソースコードは \url{https://github.com/Eaphan/Robust3DOD} で公開されている。

Recent years have witnessed significant advancements in deep learning-based 3D object detection, leading to its widespread adoption in numerous applications. As 3D object detectors become increasingly crucial for security-critical tasks, it is imperative to understand their robustness against adversarial attacks. This paper presents the first comprehensive evaluation and analysis of the robustness of LiDAR-based 3D detectors under adversarial attacks. Specifically, we extend three distinct adversarial attacks to the 3D object detection task, benchmarking the robustness of state-of-the-art LiDAR-based 3D object detectors against attacks on the KITTI and Waymo datasets. We further analyze the relationship between robustness and detector properties. Additionally, we explore the transferability of cross-model, cross-task, and cross-data attacks. Thorough experiments on defensive strategies for 3D detectors are conducted, demonstrating that simple transformations like flipping provide little help in improving robustness when the applied transformation strategy is exposed to attackers. \revise{Finally, we propose balanced adversarial focal training, based on conventional adversarial training, to strike a balance between accuracy and robustness.} Our findings will facilitate investigations into understanding and defending against adversarial attacks on LiDAR-based 3D object detectors, thus advancing the field. The source code is publicly available at \url{https://github.com/Eaphan/Robust3DOD}.
翻訳日:2023-10-18 22:50:53 公開日:2023-10-17
# SMACv2: 協調型マルチエージェント強化学習のためのベンチマークの改善

SMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2212.07489v2 )

ライセンス: Link先を確認
Benjamin Ellis, Jonathan Cook, Skander Moalla, Mikayel Samvelyan, Mingfei Sun, Anuj Mahajan, Jakob N. Foerster and Shimon Whiteson(参考訳) 挑戦的なベンチマークの可用性は、機械学習の最近の進歩において重要な役割を担っている。 協調型マルチエージェント強化学習において、StarCraft Multi-Agent Challenge (SMAC) は分散実行を伴う集中的なトレーニングのための一般的なテストベッドとなっている。 しかし、長年にわたってSMACを改良してきたアルゴリズムは、ほぼ完全な性能を実現した。 本研究では,SMACが複雑な*閉ループ*ポリシーを必要とする確率性と部分可観測性を欠いていることを示す新しい解析を行う。 特に,時間経過のみに条件付き *open-loop* ポリシーが,多くのSMACシナリオに対して非自明な勝利率を達成することを示す。 この制限に対処するため、SMACv2は、シナリオが手続き的に生成され、評価中に未確認設定(同じ分布から)にエージェントが一般化する必要があるベンチマークの新バージョンである。 また,smacv2を補強し,部分的可観測性を保証する拡張部分可観測性チャレンジ(epo)も導入する。 これらの変更は、ベンチマークが*closed-loop*ポリシーを使用する必要があることを保証する。 我々は、SMACv2の最先端アルゴリズムを評価し、元のベンチマークには存在しない重要な課題を示すことを示す。 分析の結果,SMACv2はSMACの欠陥に対処し,次世代のMARL手法のベンチマークに役立てることができることがわかった。 トレーニングのビデオはhttps://sites.google.com/view/smacv2で見ることができる。

The availability of challenging benchmarks has played a key role in the recent progress of machine learning. In cooperative multi-agent reinforcement learning, the StarCraft Multi-Agent Challenge (SMAC) has become a popular testbed for centralised training with decentralised execution. However, after years of sustained improvement on SMAC, algorithms now achieve near-perfect performance. In this work, we conduct new analysis demonstrating that SMAC lacks the stochasticity and partial observability to require complex *closed-loop* policies. In particular, we show that an *open-loop* policy conditioned only on the timestep can achieve non-trivial win rates for many SMAC scenarios. To address this limitation, we introduce SMACv2, a new version of the benchmark where scenarios are procedurally generated and require agents to generalise to previously unseen settings (from the same distribution) during evaluation. We also introduce the extended partial observability challenge (EPO), which augments SMACv2 to ensure meaningful partial observability. We show that these changes ensure the benchmark requires the use of *closed-loop* policies. We evaluate state-of-the-art algorithms on SMACv2 and show that it presents significant challenges not present in the original benchmark. Our analysis illustrates that SMACv2 addresses the discovered deficiencies of SMAC and can help benchmark the next generation of MARL methods. Videos of training are available at https://sites.google.com/view/smacv2.
翻訳日:2023-10-18 22:50:30 公開日:2023-10-17
# 政策学習 : 多目的ベイズ最適化と最適政策木の組み合わせ

Policy learning for many outcomes of interest: Combining optimal policy trees with multi-objective Bayesian optimisation ( http://arxiv.org/abs/2212.06312v2 )

ライセンス: Link先を確認
Patrick Rehill and Nicholas Biddle(参考訳) 最適ポリシーの学習方法は、因果機械学習モデルを使用して、異なるポリシー介入の割り当てに関する選択を行うための人間解釈可能なルールを作成する。 しかし、現実的な政策決定の文脈では、意思決定者は成果間のトレードオフを気にすることが多い。 本稿では,政策学習のための最適決定木と,複数の成果間のトレードオフを探索する多目的ベイズ最適化手法を組み合わせた,多目的政策学習(mopol)と呼ばれるアプローチを提案する。 これは、結果重み付けを規定する異なるハイパーパラメータ設定のための非支配モデルのparetoフロンティアを構築することによって実現される。 ここでの鍵となるのは、低コストのグリーディツリーが、計算的にコストのかかる最適ツリーの正確なプロキシになり、決定を下すために、モデルが繰り返しパレートフロンティアを学習できることを意味する。 本手法はケニアにおける抗マラリア薬の非価格設定の実例研究に適用される。

Methods for learning optimal policies use causal machine learning models to create human-interpretable rules for making choices around the allocation of different policy interventions. However, in realistic policy-making contexts, decision-makers often care about trade-offs between outcomes, not just single-mindedly maximising utility for one outcome. This paper proposes an approach termed Multi-Objective Policy Learning (MOPoL) which combines optimal decision trees for policy learning with a multi-objective Bayesian optimisation approach to explore the trade-off between multiple outcomes. It does this by building a Pareto frontier of non-dominated models for different hyperparameter settings which govern outcome weighting. The key here is that a low-cost greedy tree can be an accurate proxy for the very computationally costly optimal tree for the purposes of making decisions which means models can be repeatedly fit to learn a Pareto frontier. The method is applied to a real-world case-study of non-price rationing of anti-malarial medication in Kenya.
翻訳日:2023-10-18 22:49:45 公開日:2023-10-17
# 拡散モデルによる構造騒音の除去

Removing Structured Noise with Diffusion Models ( http://arxiv.org/abs/2302.05290v3 )

ライセンス: Link先を確認
Tristan S.W. Stevens, Hans van Gorp, Faik C. Meral, Junseob Shin, Jason Yu, Jean-Luc Robert, Ruud J.G. van Sloun(参考訳) 不適切な逆問題を解決するには、関心のシグナルに関する事前の信念を慎重に定式化し、ノイズ測定にそれらの表現を正確に記述する必要がある。 例えば、疎性に基づく手作り信号の先行は、データ駆動の深層生成モデルに置き換わる傾向にあり、いくつかのグループが最近、最先端のスコアベースの拡散モデルが特に高い性能と柔軟性をもたらすことを示した。 本稿では,拡散モデルを用いた後方サンプリングの強力なパラダイムを,リッチで構造化されたノイズモデルを含むように拡張できることを示す。 そこで本研究では,雑音と信号生成分布の学習スコアを用いた共条件逆拡散法を提案する。 本研究では,構造化雑音を伴う様々な逆問題に対して,正規化フローや逆ネットワークを用いた競合ベースラインよりも高い性能を示す。 これにより、非ガウス測度モデルにおける逆問題に対する拡散モデリングの新しい機会と関連する実践的応用が開かれる。

Solving ill-posed inverse problems requires careful formulation of prior beliefs over the signals of interest and an accurate description of their manifestation into noisy measurements. Handcrafted signal priors based on e.g. sparsity are increasingly replaced by data-driven deep generative models, and several groups have recently shown that state-of-the-art score-based diffusion models yield particularly strong performance and flexibility. In this paper, we show that the powerful paradigm of posterior sampling with diffusion models can be extended to include rich, structured, noise models. To that end, we propose a joint conditional reverse diffusion process with learned scores for the noise and signal-generating distribution. We demonstrate strong performance gains across various inverse problems with structured noise, outperforming competitive baselines that use normalizing flows and adversarial networks. This opens up new opportunities and relevant practical applications of diffusion modeling for inverse problems in the context of non-Gaussian measurement models.
翻訳日:2023-10-18 22:44:01 公開日:2023-10-17
# UniPC: 拡散モデルの高速サンプリングのための統一予測コレクタフレームワーク

UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models ( http://arxiv.org/abs/2302.04867v4 )

ライセンス: Link先を確認
Wenliang Zhao, Lujia Bai, Yongming Rao, Jie Zhou, Jiwen Lu(参考訳) 拡散確率モデル(DPM)は高分解能画像合成において非常に有望な能力を示した。 しかし, プレトレーニングDPMからのサンプリングはデノナイジングネットワークの複数の評価により時間がかかり, DPMのサンプリングを加速することがますます重要になっている。 高速サンプラーの設計の最近の進歩にもかかわらず、既存の手法では、より少ないステップ(例えば$<$10)を好む多くのアプリケーションで満足のいく画像を生成することができない。 本稿では,既存のDPMサンプリング器の後に適用可能な統一補正器(UniC)を開発し,モデル評価を余分に行わずに精度を高めるとともに,任意の順序を副生成物としてサポートする統一予測器(UniP)を導出する。 そこで,unip と unic を組み合わせることで,dpms の高速サンプリングのための統一予測子補正フレームワーク unipc を提案する。 我々は,画素空間と潜在空間DPMを用いた非条件サンプリングと条件サンプリングの両方を含む広範囲な実験により評価を行った。 我々のUniPCは、CIFAR10(unconditional)で3.87 FID、ImageNet 256$\times$256(conditional)で7.51 FIDを達成できる。 コードはhttps://github.com/wl-zhao/UniPCで入手できる。

Diffusion probabilistic models (DPMs) have demonstrated a very promising ability in high-resolution image synthesis. However, sampling from a pre-trained DPM is time-consuming due to the multiple evaluations of the denoising network, making it more and more important to accelerate the sampling of DPMs. Despite recent progress in designing fast samplers, existing methods still cannot generate satisfying images in many applications where fewer steps (e.g., $<$10) are favored. In this paper, we develop a unified corrector (UniC) that can be applied after any existing DPM sampler to increase the order of accuracy without extra model evaluations, and derive a unified predictor (UniP) that supports arbitrary order as a byproduct. Combining UniP and UniC, we propose a unified predictor-corrector framework called UniPC for the fast sampling of DPMs, which has a unified analytical form for any order and can significantly improve the sampling quality over previous methods, especially in extremely few steps. We evaluate our methods through extensive experiments including both unconditional and conditional sampling using pixel-space and latent-space DPMs. Our UniPC can achieve 3.87 FID on CIFAR10 (unconditional) and 7.51 FID on ImageNet 256$\times$256 (conditional) with only 10 function evaluations. Code is available at https://github.com/wl-zhao/UniPC.
翻訳日:2023-10-18 22:43:47 公開日:2023-10-17
# nerfstudio:neural radiance field developmentのためのモジュラーフレームワーク

Nerfstudio: A Modular Framework for Neural Radiance Field Development ( http://arxiv.org/abs/2302.04264v4 )

ライセンス: Link先を確認
Matthew Tancik, Ethan Weber, Evonne Ng, Ruilong Li, Brent Yi, Justin Kerr, Terrance Wang, Alexander Kristoffersen, Jake Austin, Kamyar Salahi, Abhik Ahuja, David McAllister, and Angjoo Kanazawa(参考訳) Neural Radiance Fields (NeRF) は、コンピュータビジョン、グラフィックス、ロボティクスなどの幅広い応用分野において急速に成長している研究分野である。 nerf研究の開発と展開を効率化するために,我々はモジュール型pytorchフレームワークであるnerfstudioを提案する。 我々のフレームワークにはNeRFベースの手法を実装するためのプラグイン・アンド・プレイコンポーネントが含まれており、研究者や実践者が彼らのプロジェクトにNeRFを簡単に組み込むことができる。 さらにモジュール設計では、広範なリアルタイム可視化ツールのサポート、取得したデータをインポートするためのパイプラインの合理化、ビデオやポイントクラウド、メッシュ表現へのエクスポートが可能になる。 nerfstudioのモジュール性により、最近の論文のコンポーネントを組み合わせることで、速度と品質のバランスを保ちつつ、将来の修正にも柔軟性を保ちながら、nerfactoの開発が可能になる。 コミュニティ主導の開発を促進するため、すべての関連コードとデータはhttps://nerf.studio.comでオープンソースライセンスで公開されている。

Neural Radiance Fields (NeRF) are a rapidly growing area of research with wide-ranging applications in computer vision, graphics, robotics, and more. In order to streamline the development and deployment of NeRF research, we propose a modular PyTorch framework, Nerfstudio. Our framework includes plug-and-play components for implementing NeRF-based methods, which make it easy for researchers and practitioners to incorporate NeRF into their projects. Additionally, the modular design enables support for extensive real-time visualization tools, streamlined pipelines for importing captured in-the-wild data, and tools for exporting to video, point cloud and mesh representations. The modularity of Nerfstudio enables the development of Nerfacto, our method that combines components from recent papers to achieve a balance between speed and quality, while also remaining flexible to future modifications. To promote community-driven development, all associated code and data are made publicly available with open-source licensing at https://nerf.studio.
翻訳日:2023-10-18 22:43:19 公開日:2023-10-17
# AniPixel: Animatable Pixel対応アバターを目指して

AniPixel: Towards Animatable Pixel-Aligned Human Avatar ( http://arxiv.org/abs/2302.03397v2 )

ライセンス: Link先を確認
Jinlong Fan and Jing Zhang and Zhi Hou and Dacheng Tao(参考訳) 人間の再現は通常、人間特有のアバターとなるが、最近の3Dシーン再構成技術は、新しいシーンを一般化する可能性を示している。 これらの手法を人間のアバター再構成に適用することで、一般化性を持つ体積アバターが得られるが、静的表現でしかレンダリングできないため、アニマタビリティが制限される。 本稿では,人体形状予測とrgbカラーブレンドに画素整合機能を利用する,新しいアニメーション可能で汎用的なアバター再構成手法であるanipixelを提案する。 技術的には、標準空間を目標空間と観測空間に整合させるため、骨格駆動型変形に基づく双方向ニューラルスキンフィールドを提案し、目標-標準および標準-観測対応を確立する。 次に,正準体形状を正規化中型体と主観特異残差に分解し,より一般化性を高める。 形状と外観が密接な関係にあるため,RGB色ブレンディングの強化のために,体形状予測や表面の詳細な正規化を容易にする画素アライメント機能を導入する。 また,局所照明のばらつきを表現するために,姿勢依存および方向関連シェーディングモジュールを考案する。 実験では、AniPixelは最先端の手法よりも優れた新しいポーズのアニメーション結果を提供しながら、同等の斬新なビューをレンダリングしている。

Although human reconstruction typically results in human-specific avatars, recent 3D scene reconstruction techniques utilizing pixel-aligned features show promise in generalizing to new scenes. Applying these techniques to human avatar reconstruction can result in a volumetric avatar with generalizability but limited animatability due to rendering only being possible for static representations. In this paper, we propose AniPixel, a novel animatable and generalizable human avatar reconstruction method that leverages pixel-aligned features for body geometry prediction and RGB color blending. Technically, to align the canonical space with the target space and the observation space, we propose a bidirectional neural skinning field based on skeleton-driven deformation to establish the target-to-canonical and canonical-to-observation correspondences. Then, we disentangle the canonical body geometry into a normalized neutral-sized body and a subject-specific residual for better generalizability. As the geometry and appearance are closely related, we introduce pixel-aligned features to facilitate the body geometry prediction and detailed surface normals to reinforce the RGB color blending. We also devise a pose-dependent and view direction-related shading module to represent the local illumination variance. Experiments show that AniPixel renders comparable novel views while delivering better novel pose animation results than state-of-the-art methods.
翻訳日:2023-10-18 22:42:35 公開日:2023-10-17
# エネルギー測定は弱いカップリングを超えて熱的に最適である

Energy measurements remain thermometrically optimal beyond weak coupling ( http://arxiv.org/abs/2302.03061v3 )

ライセンス: Link先を確認
Jonas Glatthard, Karen V. Hovhannisyan, Mart\'i Perarnau-Llobet, Luis A. Correa, Harry J. D. Miller(参考訳) プローブ-サンプル相互作用において、有限結合量子温度測定の一般摂動理論を2階まで発展させる。 仮定により、プローブとサンプルは熱平衡状態にあるので、プローブは平均力ギブス状態によって記述される。 極端熱測定精度は、プローブ上の局所的なエネルギー測定によってのみ、カップリングにおける第2次から第2次まで達成できることを示す。 したがって、コヒーレンスから温度情報を抽出したり、適応スキームを考案しようとすると、この制度の実際的な利点を損なうことはない。 さらに、温度変化に対するプローブの感度を捉える量子フィッシャー情報に対して、クローズドフォーム表現を提供する。 最後に,2つの簡単な例を使って,式の使用の容易さをベンチマークし,説明します。 我々の形式主義は、動的時間スケールの分離やプローブまたはサンプルの性質について仮定しない。 したがって、熱感度と最適測定の両方について分析的洞察を提供することで、有限結合効果を無視できない系における量子温度測定への道を開くことができる。

We develop a general perturbative theory of finite-coupling quantum thermometry up to second order in probe-sample interaction. By assumption, the probe and sample are in thermal equilibrium, so the probe is described by the mean-force Gibbs state. We prove that the ultimate thermometric precision can be achieved - to second order in the coupling - solely by means of local energy measurements on the probe. Hence, seeking to extract temperature information from coherences or devising adaptive schemes confers no practical advantage in this regime. Additionally, we provide a closed-form expression for the quantum Fisher information, which captures the probe's sensitivity to temperature variations. Finally, we benchmark and illustrate the ease of use of our formulas with two simple examples. Our formalism makes no assumptions about separation of dynamical timescales or the nature of either the probe or the sample. Therefore, by providing analytical insight into both the thermal sensitivity and the optimal measurement for achieving it, our results pave the way for quantum thermometry in setups where finite-coupling effects cannot be ignored.
翻訳日:2023-10-18 22:41:46 公開日:2023-10-17
# MuG: タブラリ,テキスト,ビジュアルフィールドを用いたゲームデータのマルチモーダル分類ベンチマーク

MuG: A Multimodal Classification Benchmark on Game Data with Tabular, Textual, and Visual Fields ( http://arxiv.org/abs/2302.02978v2 )

ライセンス: Link先を確認
Jiaying Lu, Yongchen Qian, Shifan Zhao, Yuanzhe Xi, Carl Yang(参考訳) これまでの研究は、従来のユニモーダルデータよりも複数のソースからのデータを統合する利点を実証し、多くの新しいマルチモーダルアプリケーションを生み出した。 本研究では,8つのデータセットを用いたマルチモーダル分類ベンチマーク MuG を提案する。 これらのデータセットは、表、テキスト、視覚的モダリティをカバーする4つのジャンルのゲームから収集される。 マルチスペクトルデータ分析を行い,ラベルバランス比,欠落率,各モダリティ内のデータの分布,ラベルと入力モダリティの相関など,ベンチマークに関する洞察を提供する。 さらに,いくつかの最先端のユニモーダル分類器とマルチモーダル分類器によって得られた実験結果を示し,ベンチマークの難易度とマルチモーダル依存性を示す。 MuGはhttps://github.com/lujiaying/MUG-Benchでデータ、チュートリアル、実装ベースラインとともにリリースされた。

Previous research has demonstrated the advantages of integrating data from multiple sources over traditional unimodal data, leading to the emergence of numerous novel multimodal applications. We propose a multimodal classification benchmark MuG with eight datasets that allows researchers to evaluate and improve their models. These datasets are collected from four various genres of games that cover tabular, textual, and visual modalities. We conduct multi-aspect data analysis to provide insights into the benchmark, including label balance ratios, percentages of missing features, distributions of data within each modality, and the correlations between labels and input modalities. We further present experimental results obtained by several state-of-the-art unimodal classifiers and multimodal classifiers, which demonstrate the challenging and multimodal-dependent properties of the benchmark. MuG is released at https://github.com/lujiaying/MUG-Bench with the data, tutorials, and implemented baselines.
翻訳日:2023-10-18 22:41:30 公開日:2023-10-17
# FedLAP-DP: 個人的損失近似の共有によるフェデレートラーニング

FedLAP-DP: Federated Learning by Sharing Differentially Private Loss Approximations ( http://arxiv.org/abs/2302.01068v3 )

ライセンス: Link先を確認
Hui-Po Wang, Dingfan Chen, Raouf Kerkouche, Mario Fritz(参考訳) 本研究は,フェデレーション学習のための新しいプライバシ保護手法であるFedLAP-DPを提案する。 fedavg のような従来の線形点方向勾配共有方式とは異なり、クライアントから受信した合成サンプルを活用し、大域的な最適化を実現する。 これらの合成サンプルは、損失サーロゲートとして機能し、局所領域内の実画像の有用性をシミュレートして、局所的損失景観を近似する。 また,近似の質を反映した効果的な近似領域の測定手法を提案する。 したがって、サーバは、グローバルロスランドスケープの近似を回復し、モデルをグローバルに最適化することができる。 さらに,新たなプライバシの懸念に動機づけられて,当社のアプローチが記録レベルの差分プライバシ(dp)とシームレスに連携し,クライアント上のデータレコード毎に理論的プライバシ保証を付与できることを実証した。 その結果,高度に歪んだ分布を持つ各種データセットに対する定式化の有効性が検証された。 特にDPによる高歪分布と雑音勾配を考慮すると,本手法はベースラインを常に改善する。 ソースコードとセットアップは、公開時にリリースされる。

This work proposes FedLAP-DP, a novel privacy-preserving approach for federated learning. Unlike previous linear point-wise gradient-sharing schemes, such as FedAvg, our formulation enables a type of global optimization by leveraging synthetic samples received from clients. These synthetic samples, serving as loss surrogates, approximate local loss landscapes by simulating the utility of real images within a local region. We additionally introduce an approach to measure effective approximation regions reflecting the quality of the approximation. Therefore, the server can recover an approximation of the global loss landscape and optimize the model globally. Moreover, motivated by the emerging privacy concerns, we demonstrate that our approach seamlessly works with record-level differential privacy (DP), granting theoretical privacy guarantees for every data record on the clients. Extensive results validate the efficacy of our formulation on various datasets with highly skewed distributions. Our method consistently improves over the baselines, especially considering highly skewed distributions and noisy gradients due to DP. The source code and setup will be released upon publication.
翻訳日:2023-10-18 22:40:58 公開日:2023-10-17
# ウェハ特徴抽出と欠陥パターン認識のための恥ずかしい簡単なアプローチ

An Embarrassingly Simple Approach for Wafer Feature Extraction and Defect Pattern Recognition ( http://arxiv.org/abs/2303.11632v2 )

ライセンス: Link先を確認
Nitish Shukla(参考訳) 製造中のウェハマップにおける欠陥パターンの同定は、根本原因を見つけるために重要であり、鋳造所の収量改善に関する貴重な洞察を提供する。 現在使用されている方法は、ディープニューラルネットワークを使用して欠陥を識別する。 これらの手法は一般に非常に巨大であり、推論時間もかなり長い。 効率的な運用にはGPUのサポートも必要だ。 これらの問題は、これらのモデルを製造ファウンデーションにおけるオンライン予測には適さない。 本稿では,ウェーハ画像から特徴を抽出するための極めて単純かつ効果的な手法を提案する。 提案手法は極めて高速で直感的であり,説明可能でありながら非パラメトリックである。 実験の結果,提案したパイプラインは従来のディープラーニングモデルよりも優れていた。 特徴抽出は,データポイントの相対的な形状と位置を維持しながら,学習や微調整を必要としない。

Identifying defect patterns in a wafer map during manufacturing is crucial to find the root cause of the underlying issue and provides valuable insights on improving yield in the foundry. Currently used methods use deep neural networks to identify the defects. These methods are generally very huge and have significant inference time. They also require GPU support to efficiently operate. All these issues make these models not fit for on-line prediction in the manufacturing foundry. In this paper, we propose an extremely simple yet effective technique to extract features from wafer images. The proposed method is extremely fast, intuitive, and non-parametric while being explainable. The experiment results show that the proposed pipeline outperforms conventional deep learning models. Our feature extraction requires no training or fine-tuning while preserving the relative shape and location of data points as revealed by our interpretability analysis.
翻訳日:2023-10-18 22:32:28 公開日:2023-10-17
# 符号付き置換表現を持つ密結合$g$不変深層ニューラルネットワーク

Densely Connected $G$-invariant Deep Neural Networks with Signed Permutation Representations ( http://arxiv.org/abs/2303.04614v2 )

ライセンス: Link先を確認
Devanshu Agrawal and James Ostrowski(参考訳) 有限群に対して、reluアクティベーションが密結合である、$g$, $g$-invariant deep neural network (g$-dnn)アーキテクチャを紹介し、検討する。 文学における他の$G$不変アーキテクチャとは対照的に、ここで提示される$G$-DNNのプリアクティベーションは、$G$の \emph{signed} 置換表現(符号付きperm-reps)によって変換できる。 さらに、$g$-dnnの個々の層は、$g$-同値である必要はなく、代わりに、プリアクティベーションは、すべての層に重みを結合する方法で、ネットワーク入力の$g$-同変関数に制限される。 その結果、これまで見たことのない$G$不変アーキテクチャの豊富なファミリーとなる。 重みの再パラメータ化後の$G$-DNNの効率的な実装と、アーキテクチャが 'admissible'' であるために必要な十分な条件、すなわち、非退化的かつより小さなアーキテクチャと等価である。 ユーザがインタラクティブにレイヤバイレイヤーで$g$-dnnを構築できるコードが含まれており、最終的なアーキテクチャは許容可能であることが保証されています。 文献からの ‘concatenated ReLU'' のアクティベーション関数で利用できるものよりもはるかに多くの$G$-DNNアーキテクチャが存在することを示す。 最後に、$g$-dnnsを2つの例に当てはめる: (1) $\{-1, 1\}$(理論的保証付き)の乗算 -- (2) 3dオブジェクトの分類 -- % 符号付きperm-repの導入が通常の(符号なし)perm-repのみのベースラインと比較して予測性能を大幅に向上させる。

We introduce and investigate, for finite groups $G$, $G$-invariant deep neural network ($G$-DNN) architectures with ReLU activation that are densely connected-- i.e., include all possible skip connections. In contrast to other $G$-invariant architectures in the literature, the preactivations of the$G$-DNNs presented here are able to transform by \emph{signed} permutation representations (signed perm-reps) of $G$. Moreover, the individual layers of the $G$-DNNs are not required to be $G$-equivariant; instead, the preactivations are constrained to be $G$-equivariant functions of the network input in a way that couples weights across all layers. The result is a richer family of $G$-invariant architectures never seen previously. We derive an efficient implementation of $G$-DNNs after a reparameterization of weights, as well as necessary and sufficient conditions for an architecture to be ``admissible''-- i.e., nondegenerate and inequivalent to smaller architectures. We include code that allows a user to build a $G$-DNN interactively layer-by-layer, with the final architecture guaranteed to be admissible. We show that there are far more admissible $G$-DNN architectures than those accessible with the ``concatenated ReLU'' activation function from the literature. Finally, we apply $G$-DNNs to two example problems -- (1) multiplication in $\{-1, 1\}$ (with theoretical guarantees) and (2) 3D object classification -- % finding that the inclusion of signed perm-reps significantly boosts predictive performance compared to baselines with only ordinary (i.e., unsigned) perm-reps.
翻訳日:2023-10-18 22:32:16 公開日:2023-10-17
# 視認性のパッチ:物体検出器に対する自然主義的物理ブラックボックス攻撃

Patch of Invisibility: Naturalistic Physical Black-Box Adversarial Attacks on Object Detectors ( http://arxiv.org/abs/2303.04238v4 )

ライセンス: Link先を確認
Raz Lapid, Eylon Mizrahi and Moshe Sipper(参考訳) 近年,ディープラーニングモデルに対する敵意攻撃が注目されている。 この領域での作業は、主に「ホワイトボックス」攻撃と呼ばれる勾配に基づく手法に焦点を当てており、攻撃者はターゲットモデルの内部パラメータにアクセスすることができる。 さらに、一部の攻撃はピクセル空間全体を使って特定のモデルを騙すが、実用的でも物理的でもない(実世界)。 そこで本研究では,前訓練された生成逆ネットワーク (gan) の学習画像多様体を用いて,物体検出器に対する自然主義的な物理敵パッチを生成する,ブラックボックス・勾配フリーな直接的手法を提案する。 私たちの知る限り、これはオブジェクト検出モデルに直接ブラックボックス物理攻撃を実行する最初の方法であり、モデルに依存しない攻撃となる。 提案手法はデジタルと物理の両方で動作することを示す。 我々は、異なる構成の4つのブラックボックス攻撃に対するアプローチを比較した。 私たちのアプローチは、実験でテストされた他のすべてのアプローチを大きなマージンで上回りました。

Adversarial attacks on deep-learning models have been receiving increased attention in recent years. Work in this area has mostly focused on gradient-based techniques, so-called ``white-box'' attacks, wherein the attacker has access to the targeted model's internal parameters; such an assumption is usually unrealistic in the real world. Some attacks additionally use the entire pixel space to fool a given model, which is neither practical nor physical (i.e., real-world). On the contrary, we propose herein a direct, black-box, gradient-free method that uses the learned image manifold of a pretrained generative adversarial network (GAN) to generate naturalistic physical adversarial patches for object detectors. To our knowledge this is the first and only method that performs black-box physical attacks directly on object-detection models, which results with a model-agnostic attack. We show that our proposed method works both digitally and physically. We compared our approach against four different black-box attacks with different configurations. Our approach outperformed all other approaches that were tested in our experiments by a large margin.
翻訳日:2023-10-18 22:31:37 公開日:2023-10-17
# 欧州連合における政治広告の透明性向上法についての一考察

A Note on the Proposed Law for Improving the Transparency of Political Advertising in the European Union ( http://arxiv.org/abs/2303.02863v3 )

ライセンス: Link先を確認
Jukka Ruohonen(参考訳) 世界中で政治広告の供給と需要が高まっている。 同時に、外国政府や他の悪役による選挙妨害のような社会的な脅威は、多くの民主政治において迫る懸念となっている。 さらに、外国軍や国内軍による選挙結果の操作は、基本的権利を心配している多くの市民の関心事であり続けている。 この目的のために、欧州連合(EU)はこの問題に取り組むためのいくつかの取り組みを開始した。 2020年には、政治広告の透明性を高めるための新しい規制が提案された。 この短い解説は提案された規制を見直し、その制限と潜在的な影響についていくつかの点を提起する。

There is an increasing supply and demand for political advertising throughout the world. At the same time, societal threats, such as election interference by foreign governments and other bad actors, continues to be a pressing concern in many democracies. Furthermore, manipulation of electoral outcomes, whether by foreign or domestic forces, continues to be a concern of many citizens who are also worried about their fundamental rights. To these ends, the European Union (EU) has launched several initiatives for tackling the issues. A new regulation was proposed in 2020 also for improving the transparency of political advertising in the union. This short commentary reviews the regulation proposed and raises a few points about its limitations and potential impacts.
翻訳日:2023-10-18 22:31:18 公開日:2023-10-17
# あらゆる例を挙げる:ノイズの多いNLPデータセットから学ぶ自己影響の安定性と実用性について

Make Every Example Count: On the Stability and Utility of Self-Influence for Learning from Noisy NLP Datasets ( http://arxiv.org/abs/2302.13959v2 )

ライセンス: Link先を確認
Irina Bejan, Artem Sokolov, Katja Filippova(参考訳) ますます大きなデータセットが、NLPの最先端化の標準となる。 しかし、データ品質はすでにさらなる利益を解き放つためのボトルネックになっているかもしれない。 現代のデータセットの多様性とサイズを考えると、有害なデータの多面性や、複数のタスクにまたがって一般化されるフィルタリング規則の解明により、標準データフィルタリングは適用に直進的ではない。 本研究では,データクリーニングのための訓練例のタスク非依存的自己影響スコアの適合性を調査し,自然発生した異常値の捕捉における効果を分析し,機械翻訳,質問応答,テキスト分類における下流性能をどの程度向上させるかを検討した。

Increasingly larger datasets have become a standard ingredient to advancing the state-of-the-art in NLP. However, data quality might have already become the bottleneck to unlock further gains. Given the diversity and the sizes of modern datasets, standard data filtering is not straight-forward to apply, because of the multifacetedness of the harmful data and elusiveness of filtering rules that would generalize across multiple tasks. We study the fitness of task-agnostic self-influence scores of training examples for data cleaning, analyze their efficacy in capturing naturally occurring outliers, and investigate to what extent self-influence based data cleaning can improve downstream performance in machine translation, question answering and text classification, building up on recent approaches to self-influence calculation and automated curriculum learning.
翻訳日:2023-10-18 22:30:53 公開日:2023-10-17
# 事前学習された視覚と言語モデルは視覚情報探索質問に答えられるか?

Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions? ( http://arxiv.org/abs/2302.11713v5 )

ライセンス: Link先を確認
Yang Chen, Hexiang Hu, Yi Luan, Haitian Sun, Soravit Changpinyo, Alan Ritter, Ming-Wei Chang(参考訳) 事前訓練されたビジョンと言語モデルは、視覚質問応答を含む画像やテキストを含む既存のタスクよりも最先端の能力を示している。 しかし、これらのモデルが、視覚的コンテンツだけでなく、知識集約や情報探索といった質問に答える能力を持っているかどうかは不明だ。 本研究では,共通感覚知識だけでは回答できない情報検索質問用に調整された,視覚的質問応答データセットであるinfoseekを紹介する。 InfoSeekを用いて、事前学習した様々な視覚的質問応答モデルを分析し、その特徴について洞察を得る。 この結果から,最先端の事前学習型マルチモーダルモデル(PaLI-X,BLIP2など)は,視覚情報検索の課題に直面するが,InfoSeekデータセットの微調整では,事前学習中に学習した詳細な知識をモデルに与えていることがわかった。 さらに,関連する文書を検索することでInfoSeekの性能を向上させるために,正確な視覚的実体認識が利用できることを示す。

Pre-trained vision and language models have demonstrated state-of-the-art capabilities over existing tasks involving images and texts, including visual question answering. However, it remains unclear whether these models possess the capability to answer questions that are not only querying visual content but knowledge-intensive and information-seeking. In this study, we introduce InfoSeek, a visual question answering dataset tailored for information-seeking questions that cannot be answered with only common sense knowledge. Using InfoSeek, we analyze various pre-trained visual question answering models and gain insights into their characteristics. Our findings reveal that state-of-the-art pre-trained multi-modal models (e.g., PaLI-X, BLIP2, etc.) face challenges in answering visual information-seeking questions, but fine-tuning on the InfoSeek dataset elicits models to use fine-grained knowledge that was learned during their pre-training. Furthermore, we show that accurate visual entity recognition can be used to improve performance on InfoSeek by retrieving relevant documents, showing a significant space for improvement.
翻訳日:2023-10-18 22:30:25 公開日:2023-10-17
# 深層学習によるGARCHの実現

Deep Learning Enhanced Realized GARCH ( http://arxiv.org/abs/2302.08002v2 )

ライセンス: Link先を確認
Chen Liu, Chao Wang, Minh-Ngoc Tran, Robert Kohn(参考訳) 本稿では,深層学習(LSTM)とボラティリティ対策の併用によるボラティリティモデリングの新しい手法を提案する。 このLSTMで強化されたGARCHフレームワークは、金融経済学、高周波取引データ、ディープラーニングによるモデリングの進歩を取り入れ、蒸留する。 逐次モンテカルロ法によるベイズ推定は統計的推論と予測に用いられている。 新しいフレームワークは、回帰を共同でモデル化し、ボラティリティ測定を実現し、複数のベンチマークモデルと比較して優れたサンプル適合性と優れた予測性能を持つと同時に、ボラティリティのスタイリッシュな事実にうまく適応することができる。 新しいフレームワークのパフォーマンスは、限界確率、ボラティリティ予測、リスク予測の調整、オプション価格など、幅広いメトリクスを使用してテストされている。 新型コロナウイルスのパンデミックを含む期間に31件の株式指数を取引した総合的な実証研究を報告した。

We propose a new approach to volatility modeling by combining deep learning (LSTM) and realized volatility measures. This LSTM-enhanced realized GARCH framework incorporates and distills modeling advances from financial econometrics, high frequency trading data and deep learning. Bayesian inference via the Sequential Monte Carlo method is employed for statistical inference and forecasting. The new framework can jointly model the returns and realized volatility measures, has an excellent in-sample fit and superior predictive performance compared to several benchmark models, while being able to adapt well to the stylized facts in volatility. The performance of the new framework is tested using a wide range of metrics, from marginal likelihood, volatility forecasting, to tail risk forecasting and option pricing. We report on a comprehensive empirical study using 31 widely traded stock indices over a time period that includes COVID-19 pandemic.
翻訳日:2023-10-18 22:30:04 公開日:2023-10-17
# モデルベースロバスト強化学習の最小最適化に向けて

Towards Minimax Optimality of Model-based Robust Reinforcement Learning ( http://arxiv.org/abs/2302.05372v2 )

ライセンス: Link先を確認
Pierre Clavier and Erwan Le Pennec and Matthieu Geist(参考訳) 名目カーネルの生成モデルへのアクセスのみを条件として, \emph{robust} discounted markov decision process (rmdps) における$\epsilon$-optimal policy を得るためのサンプル複雑性について検討した。 この問題は、非ロバストの場合において広く研究されており、$\tilde{\mathcal{O}}(\frac{H^3 \mid S \mid\mid A \mid}{\epsilon^2})と推定される経験的 MDP に適用される任意の計画的アプローチは、極小値が最適である$\epsilon$-optimal Policy を提供する。 堅牢なケースの結果は、はるかに少ない。 Sa$(resp $s$-)正方形不確実集合の場合、最もよく知られたサンプル複雑性は$\tilde{\mathcal{O}}(\frac{H^4 \mid S \mid S \mid A \mid}{\epsilon^2})$ (resp)である。 $\tilde{\mathcal{O}}(\frac{H^4 \mid S \mid^2\mid A \mid^2}{\epsilon^2})$) 特定のアルゴリズムに対して、不確実性集合が総変分(TV)、KL、またはチ二乗発散に基づいている場合。 本稿では,$l_p$-ball (recovering the tv case) で定義される不確実性集合を考察し,生成モデルを用いて推定した経験的rmdpに適用する \emph{any} 計画アルゴリズムのサンプル複雑性について検討する。 一般の場合、$sa$- と $s$-矩形ケース(それぞれ$\mid s \mid$ と $\mid s \mid\mid a \mid$)の両方に対して、$\tilde{\mathcal{o}}(\frac{h^4 \mid s \mid\mid a \mid}{\epsilon^2}) のサンプル複雑性が証明される。 不確実性の大きさが十分小さい場合には、サンプルの複雑さを$\tilde{\mathcal{O}}(\frac{H^3 \mid S \mid\mid A \mid }{\epsilon^2})$に改善し、不確実性のサイズが十分小さい場合には、初めて非破壊ケースの低いバウンドを回復する。

We study the sample complexity of obtaining an $\epsilon$-optimal policy in \emph{Robust} discounted Markov Decision Processes (RMDPs), given only access to a generative model of the nominal kernel. This problem is widely studied in the non-robust case, and it is known that any planning approach applied to an empirical MDP estimated with $\tilde{\mathcal{O}}(\frac{H^3 \mid S \mid\mid A \mid}{\epsilon^2})$ samples provides an $\epsilon$-optimal policy, which is minimax optimal. Results in the robust case are much more scarce. For $sa$- (resp $s$-)rectangular uncertainty sets, the best known sample complexity is $\tilde{\mathcal{O}}(\frac{H^4 \mid S \mid^2\mid A \mid}{\epsilon^2})$ (resp. $\tilde{\mathcal{O}}(\frac{H^4 \mid S \mid^2\mid A \mid^2}{\epsilon^2})$), for specific algorithms and when the uncertainty set is based on the total variation (TV), the KL or the Chi-square divergences. In this paper, we consider uncertainty sets defined with an $L_p$-ball (recovering the TV case), and study the sample complexity of \emph{any} planning algorithm (with high accuracy guarantee on the solution) applied to an empirical RMDP estimated using the generative model. In the general case, we prove a sample complexity of $\tilde{\mathcal{O}}(\frac{H^4 \mid S \mid\mid A \mid}{\epsilon^2})$ for both the $sa$- and $s$-rectangular cases (improvements of $\mid S \mid$ and $\mid S \mid\mid A \mid$ respectively). When the size of the uncertainty is small enough, we improve the sample complexity to $\tilde{\mathcal{O}}(\frac{H^3 \mid S \mid\mid A \mid }{\epsilon^2})$, recovering the lower-bound for the non-robust case for the first time and a robust lower-bound when the size of the uncertainty is small enough.
翻訳日:2023-10-18 22:29:48 公開日:2023-10-17
# 医用画像翻訳のためのK空間損失正規化fRegGAN

fRegGAN with K-space Loss Regularization for Medical Image Translation ( http://arxiv.org/abs/2303.15938v2 )

ライセンス: Link先を確認
Ivo M. Baltruschat, Felix Kreis, Alexander Hoelscher, Melanie Dohmen, Matthias Lenga(参考訳) GAN(Generative Adversarial Network)は、現実的な画像の生成において顕著な成功を示し、画像から画像への変換タスクの医療画像にますます利用されている。 しかし、GANは低周波の周波数バイアスに悩まされる傾向にあり、それによって生成された画像の重要な構造が取り除かれる。 この問題に対処するために、教師付きRegGANアプローチに基づく新しい周波数対応画像・画像翻訳フレームワーク(fRegGAN)を提案する。 このフレームワークは、生成した画像の周波数内容の規則化にK空間ロスを使用し、MRI K空間幾何のよく知られた特性を取り入れ、ネットワークトレーニングプロセスのガイドとなる。 この手法をRegGANアプローチと組み合わせることで、不整合データと周波数バイアスによるトレーニングの効果を同時に緩和することができる。 我々は,T1重み付きMR画像からT2重み付きT2重み付きを合成する際に,この手法をパブリックBraTSデータセット上で評価し,定量値と定性値の両方でベースライン法より優れていることを示す。 それぞれの修正が最終的なパフォーマンスに与える影響を理解するための詳細なアブレーション研究が提供される。 提案手法は,医用領域における画像間翻訳・合成の性能向上に向けたステップであり,画像処理・生成分野における他の応用への期待を示すものである。

Generative adversarial networks (GANs) have shown remarkable success in generating realistic images and are increasingly used in medical imaging for image-to-image translation tasks. However, GANs tend to suffer from a frequency bias towards low frequencies, which can lead to the removal of important structures in the generated images. To address this issue, we propose a novel frequency-aware image-to-image translation framework based on the supervised RegGAN approach, which we call fRegGAN. The framework employs a K-space loss to regularize the frequency content of the generated images and incorporates well-known properties of MRI K-space geometry to guide the network training process. By combine our method with the RegGAN approach, we can mitigate the effect of training with misaligned data and frequency bias at the same time. We evaluate our method on the public BraTS dataset and outperform the baseline methods in terms of both quantitative and qualitative metrics when synthesizing T2-weighted from T1-weighted MR images. Detailed ablation studies are provided to understand the effect of each modification on the final performance. The proposed method is a step towards improving the performance of image-to-image translation and synthesis in the medical domain and shows promise for other applications in the field of image processing and generation.
翻訳日:2023-10-18 22:23:00 公開日:2023-10-17
# 小型変圧器を用いた複合型ウェーハ欠陥パターン認識

Efficient Mixed-Type Wafer Defect Pattern Recognition Using Compact Deformable Convolutional Transformers ( http://arxiv.org/abs/2303.13827v2 )

ライセンス: Link先を確認
Nitish Shukla(参考訳) ウェハーの製造は何千ものステップを伴う複雑な作業です。 ウェハマップの欠陥パターン認識(DPR)は,問題の根本原因を見つけ,ウェハファウントリーの収量を改善するために重要である。 混合型DPRは, 空間的特徴の変化, 欠陥の不確かさ, 存在する欠陥の数により, 単型DPRよりも複雑である。 欠陥数と欠陥の種類を正確に予測するために, コンパクトな変形可能な畳み込み変圧器 (DC Transformer) を提案する。 特に、DC Transformerは、学習可能な変形可能なカーネルとグローバル機能へのマルチヘッドによる、ウェハマップに存在するグローバル機能に焦点を当てている。 提案手法は,ウェハマップと欠陥の関係を簡潔にモデル化する。 DC Transformerは38の欠陥パターンを含む実際のデータセットで評価される。 実験結果から,DCトランスフォーマーは単型と混合型の両方の欠陥を認識するのに極めて優れた性能を示した。 提案手法はモデルの現在の状態をかなりのマージンで上回る

Manufacturing wafers is an intricate task involving thousands of steps. Defect Pattern Recognition (DPR) of wafer maps is crucial to find the root cause of the issue and further improving the yield in the wafer foundry. Mixed-type DPR is much more complicated compared to single-type DPR due to varied spatial features, the uncertainty of defects, and the number of defects present. To accurately predict the number of defects as well as the types of defects, we propose a novel compact deformable convolutional transformer (DC Transformer). Specifically, DC Transformer focuses on the global features present in the wafer map by virtue of learnable deformable kernels and multi-head attention to the global features. The proposed method succinctly models the internal relationship between the wafer maps and the defects. DC Transformer is evaluated on a real dataset containing 38 defect patterns. Experimental results show that DC Transformer performs exceptionally well in recognizing both single and mixed-type defects. The proposed method outperforms the current state of the models by a considerable margin
翻訳日:2023-10-18 22:22:35 公開日:2023-10-17
# ビデオベース人物再同定のための深層学習:調査

Deep Learning for Video-based Person Re-Identification: A Survey ( http://arxiv.org/abs/2303.11332v2 )

ライセンス: Link先を確認
Khawar Islam(参考訳) 近年, 監視, スマートシティ, 公共安全など, 様々な分野で広く実用化されていることから, ビデオによる人物識別(ビデオ・リID)が注目されている。 それでも、ビデオリIDは非常に困難であり、視点、オクルージョン、ポーズのバリエーション、不確実なビデオシーケンスなど、多くの不確実な課題のために進行中の段階である。 ここ数年、ビデオリIDの深層学習は、ビデオリIDのさまざまな問題に対処するために様々なアプローチが開発され、公開データセット上で驚くべき結果を継続的に達成してきた。 画像ベースのre-IDと比較すると、ビデオのre-IDはより困難で複雑です。 今後の研究と課題を促進するために,本論文では,ビデオリIDのためのディープラーニングアプローチの最新の進歩を概説する。 これには、制限付きの短いビデオリIDメソッド、技術的な課題を伴う大きなマイルストーン、アーキテクチャ設計など、3つの重要な側面がある。 利用可能なさまざまなデータセットの比較パフォーマンス分析、貴重な考えによるビデオ再識別の改善ガイダンス、エキサイティングな研究方向を提供する。

Video-based person re-identification (video re-ID) has lately fascinated growing attention due to its broad practical applications in various areas, such as surveillance, smart city, and public safety. Nevertheless, video re-ID is quite difficult and is an ongoing stage due to numerous uncertain challenges such as viewpoint, occlusion, pose variation, and uncertain video sequence, etc. In the last couple of years, deep learning on video re-ID has continuously achieved surprising results on public datasets, with various approaches being developed to handle diverse problems in video re-ID. Compared to image-based re-ID, video re-ID is much more challenging and complex. To encourage future research and challenges, this first comprehensive paper introduces a review of up-to-date advancements in deep learning approaches for video re-ID. It broadly covers three important aspects, including brief video re-ID methods with their limitations, major milestones with technical challenges, and architectural design. It offers comparative performance analysis on various available datasets, guidance to improve video re-ID with valuable thoughts, and exciting research directions.
翻訳日:2023-10-18 22:21:46 公開日:2023-10-17
# 多変量確率CRPS学習と日頭電力価格への応用

Multivariate Probabilistic CRPS Learning with an Application to Day-Ahead Electricity Prices ( http://arxiv.org/abs/2303.10019v2 )

ライセンス: Link先を確認
Jonathan Berrisch, Florian Ziel(参考訳) 本稿では,オンライン学習が可能なスムーズな手順により,量子と辺縁の依存関係を考慮し,多変量確率予測を結合(あるいは集約)する新しい手法を提案する。 本稿では,基底行列を用いた次元性低減とペナルティ化平滑化の2つの平滑化手法について検討する。 新しいオンライン学習アルゴリズムは、標準CRPS学習フレームワークを多変量次元に一般化する。 これはBernstein Online Aggregation (BOA)に基づいており、最適な漸近学習特性をもたらす。 この手順は水平アグリゲーション、すなわち量子的集合を用いる。 本稿では,提案アルゴリズムの拡張の可能性と,既存文献に関連するネスト事例について,オンライン予測の組み合わせについて詳細に検討する。 提案手法を24次元分布予測である日頭電力価格の予測に適用する。 提案手法は,CRPS(Continuous Rank probability score)の観点から,均一な組み合わせよりも顕著な改善をもたらす。 重みとハイパーパラメータの時間的進化について論じ, 推奨モデルの縮小版の結果を示す。 提案アルゴリズムの高速なC++実装は、CRAN上のオープンソースのR-Packageとして、この論文と関連して提供される。

This paper presents a new method for combining (or aggregating or ensembling) multivariate probabilistic forecasts, considering dependencies between quantiles and marginals through a smoothing procedure that allows for online learning. We discuss two smoothing methods: dimensionality reduction using Basis matrices and penalized smoothing. The new online learning algorithm generalizes the standard CRPS learning framework into multivariate dimensions. It is based on Bernstein Online Aggregation (BOA) and yields optimal asymptotic learning properties. The procedure uses horizontal aggregation, i.e., aggregation across quantiles. We provide an in-depth discussion on possible extensions of the algorithm and several nested cases related to the existing literature on online forecast combination. We apply the proposed methodology to forecasting day-ahead electricity prices, which are 24-dimensional distributional forecasts. The proposed method yields significant improvements over uniform combination in terms of continuous ranked probability score (CRPS). We discuss the temporal evolution of the weights and hyperparameters and present the results of reduced versions of the preferred model. A fast C++ implementation of the proposed algorithm will be made available in connection with this paper as an open-source R-Package on CRAN.
翻訳日:2023-10-18 22:21:27 公開日:2023-10-17
# すべてはデータに関するものだ – 逆のロバスト性に対するデータの影響に関する調査

It Is All About Data: A Survey on the Effects of Data on Adversarial Robustness ( http://arxiv.org/abs/2303.09767v3 )

ライセンス: Link先を確認
Peiyu Xiong, Michael Tegegn, Jaskeerat Singh Sarin, Shubhraneel Pal, Julia Rubin(参考訳) 敵の例は機械学習モデルへの入力であり、攻撃者が意図的にモデルを混同して間違いを起こすように設計した。 このような例は、特に生命および安全クリティカルな領域において、機械学習ベースのシステムの適用性に深刻な脅威をもたらす。 この問題に対処するため、敵対的堅牢性領域は、これらの攻撃に対する敵対的攻撃と防御の背後にあるメカニズムを調査している。 本研究は, 避難攻撃時のモデルロバスト性の観点から, トレーニングデータの特性を調査することに焦点を当てた, この文献の特定のサブセットをレビューする。 まず、敵の脆弱性につながるデータの主な特性を要約する。 次に,データ表現と学習手順の強化による対向的ロバスト性向上のためのガイドラインと手法と,与えられた特定のデータに対するロバスト性保証を推定する手法について論じる。 最後に、この領域における知識のギャップと将来的な研究の方向性について論じる。

Adversarial examples are inputs to machine learning models that an attacker has intentionally designed to confuse the model into making a mistake. Such examples pose a serious threat to the applicability of machine-learning-based systems, especially in life- and safety-critical domains. To address this problem, the area of adversarial robustness investigates mechanisms behind adversarial attacks and defenses against these attacks. This survey reviews a particular subset of this literature that focuses on investigating properties of training data in the context of model robustness under evasion attacks. It first summarizes the main properties of data leading to adversarial vulnerability. It then discusses guidelines and techniques for improving adversarial robustness by enhancing the data representation and learning procedures, as well as techniques for estimating robustness guarantees given particular data. Finally, it discusses gaps of knowledge and promising future research directions in this area.
翻訳日:2023-10-18 22:21:12 公開日:2023-10-17
# リハーサルなし連続学習のためのプロンプトチューニングによるステアリングプロトタイプ

Steering Prototypes with Prompt-tuning for Rehearsal-free Continual Learning ( http://arxiv.org/abs/2303.09447v2 )

ライセンス: Link先を確認
Zhuowei Li, Long Zhao, Zizhao Zhang, Han Zhang, Di Liu, Ting Liu, Dimitris N. Metaxas(参考訳) 連続学習の文脈では、記憶の保存と破滅的な忘れの緩和において、プロトタイプを代表的クラスとして組み込む利点がある。 しかし、セマンティックドリフトとプロトタイプの干渉に関する課題は継続する。 本研究では,Contrastive Prototypeal Prompt (CPP) アプローチを紹介する。 対照的な学習目標に基づくタスク固有のプロンプトチューニングを通じて、上記の2つの課題を効果的に解決する。 4つのクラスインクリメンタル・ベンチマークによる評価の結果, CPPは最先端手法よりも4%から6%向上していることがわかった。 重要なことに、cppはリハーサルバッファなしで動作し、連続学習とオフライン共同学習のパフォーマンスのばらつきを狭め、トランスフォーマベースの連続学習システムのための革新的な手法を提案する。

In the context of continual learning, prototypes-as representative class embeddings-offer advantages in memory conservation and the mitigation of catastrophic forgetting. However, challenges related to semantic drift and prototype interference persist. In this study, we introduce the Contrastive Prototypical Prompt (CPP) approach. Through task-specific prompt-tuning, underpinned by a contrastive learning objective, we effectively address both aforementioned challenges. Our evaluations on four challenging class-incremental benchmarks reveal that CPP achieves a significant 4% to 6% improvement over state-of-the-art methods. Importantly, CPP operates without a rehearsal buffer and narrows the performance divergence between continual and offline joint-learning, suggesting an innovative scheme for Transformer-based continual learning systems.
翻訳日:2023-10-18 22:20:56 公開日:2023-10-17
# エネルギーランドスケープ制御のロバスト性とデファッシング

Robustness of Energy Landscape Control to Dephasing ( http://arxiv.org/abs/2303.05649v2 )

ライセンス: Link先を確認
Sean Patrick O'Neil, Frank C. Langbein, Edmond Jonckheere, and Sophie Shermer(参考訳) 以前の研究で示されているように、クローズド量子系は、高い忠実度を持つコントローラがパラメータの不確実性に対して最適なロバスト性を提供できるという意味で、非慣習的な性能と頑健さのトレードオフを示すことがある。 システムと環境の相互作用によって引き起こされる強調は、より古典的な混合状態へと進化を導くので、強調の導入がパフォーマンスとロバスト性の関係にどのような影響を及ぼすか検討する価値がある。 本稿では,対数感度関数によって測定された忠実度誤差のロバスト性を,復調過程へ解析する。 本研究は,不確実なパラメータに関するロバスト性を測定するために用いられる対数感度の定式化を,従来研究で用いられてきたゼロではない名目値で修正する必要があることを示す。 制御器は,コヒーレントな進化の下での忠実性から,より強調されたダイナミクスの下での忠実性まで,多くの目標に最適化された制御器を検討し,特定のレジームに対する最適化が堅牢性の観点から望ましい効果を持つ程度を決定する。 我々の分析は、統計モンテカルロ法と解析計算の2つの独立した対数感度計算に基づいている。 本研究は, ログ感度の計算方法が異なるにもかかわらず, 性能とロバスト性とのトレードオフにより, 忠実性誤差の対数感度が低下することを示した。

As shown in previous work, in some cases closed quantum systems exhibit a non-conventional trade-off in performance and robustness in the sense that controllers with the highest fidelity can also provide the best robustness to parameter uncertainty. As the dephasing induced by the interaction of the system with the environment guides the evolution to a more classically mixed state, it is worth investigating what effect the introduction of dephasing has on the relationship between performance and robustness. In this paper we analyze the robustness of the fidelity error, as measured by the logarithmic sensitivity function, to dephasing processes. We show that introduction of dephasing as a perturbation to the nominal unitary dynamics requires a modification of the log-sensitivity formulation used to measure robustness about an uncertain parameter with non-zero nominal value used in previous work. We consider controllers optimized for a number of target objectives ranging from fidelity under coherent evolution to fidelity under dephasing dynamics to determine the extent to which optimizing for a specific regime has desirable effects in terms of robustness. Our analysis is based on two independent computations of the log-sensitivity: a statistical Monte Carlo approach and an analytic calculation. We show that despite the different log sensitivity calculations employed in this study, both demonstrate that the log-sensitivity of the fidelity error to dephasing results in a conventional trade-off between performance and robustness.
翻訳日:2023-10-18 22:20:39 公開日:2023-10-17
# 空間依存度を求める回帰ランダム林の経路--分類法と体系的考察

A path in regression Random Forest looking for spatial dependence: a taxonomy and a systematic review ( http://arxiv.org/abs/2303.04693v2 )

ライセンス: Link先を確認
Luca Patelli, Michela Cameletti, Natalia Golini, Rosaria Ignaccolo(参考訳) ランダムフォレスト (Random Forest, RF) は、応答変数と予測器の関係をモデル化する柔軟性により、いくつかの分野でよく知られたデータ駆動アルゴリズムである。 環境応用において、関心の現象は、標準バージョンではRFによって明示的に考慮されていない空間的および時間的依存を示すことがある。 本研究では,空間情報を回帰RFに含めようとする時期(前・内・後処理)に応じて戦略を分類する分類法を提案する。 さらに,PRISMA (Preferred Reporting Items for Systematic Review and Meta-Analysis) の基準に基づき,空間依存データに対する回帰RFの「調整」に採用された最新の戦略を体系的に検討し,分類する。 後者は、異なるソースから特定のトピックについて既存の文献を収集し処理するための再現可能な方法論からなる。 私たちは2022年10月25$^{th}$でオンラインクエリを行い、最終的に32のドキュメントがレビューのために検討されました。 32の科学的文書で考慮された方法論戦略と応用分野について解説・考察した。 この作業は、イタリア航空(AgrImOnIA)プロジェクトに含まれる。

Random Forest (RF) is a well-known data-driven algorithm applied in several fields thanks to its flexibility in modeling the relationship between the response variable and the predictors, also in case of strong non-linearities. In environmental applications, it often occurs that the phenomenon of interest may present spatial and/or temporal dependence that is not taken explicitly into account by RF in its standard version. In this work, we propose a taxonomy to classify strategies according to when (Pre-, In- and/or Post-processing) they try to include the spatial information into regression RF. Moreover, we provide a systematic review and classify the most recent strategies adopted to "adjust" regression RF to spatially dependent data, based on the criteria provided by the Preferred Reporting Items for Systematic reviews and Meta-Analysis (PRISMA). The latter consists of a reproducible methodology for collecting and processing existing literature on a specified topic from different sources. PRISMA starts with a query and ends with a set of scientific documents to review: we performed an online query on the 25$^{th}$ October 2022 and, in the end, 32 documents were considered for review. The employed methodological strategies and the application fields considered in the 32 scientific documents are described and discussed. This work falls inside the Agriculture Impact On Italian Air (AgrImOnIA) project.
翻訳日:2023-10-18 22:20:15 公開日:2023-10-17
# 大規模視覚言語モデルのための安定・低精度トレーニング

Stable and low-precision training for large-scale vision-language models ( http://arxiv.org/abs/2304.13013v2 )

ライセンス: Link先を確認
Mitchell Wortsman, Tim Dettmers, Luke Zettlemoyer, Ari Morcos, Ali Farhadi, Ludwig Schmidt(参考訳) 新しい方法を紹介します 1)加速・加速 2)大規模言語視モデルの安定化訓練。 1) Int8量子化トレーニングの線形層であるSwitchBackを導入し,bfloat16トレーニングのパフォーマンスを1BパラメータであるCLIP ViT-Hugeの0.1ポイント以内で比較しながら,13~25%の高速化を実現した。 float8のgpuサポートは稀ですが、シミュレーションを通じてfloat8トレーニングも分析しています。 SwitchBackはfloat8に有効であることが証明されているが、ネットワークがトレーニングされ初期化され、大きな特徴が無視され、ゼロで初期化された層スケールで達成される場合、標準技術も成功していることを示す。 2) 安定のために損失スパイクを解析し,AdamW第2モーメント推定器によって2乗勾配が過小評価された後に連続して1-8回発生することを示した。 その結果、CLIP ViT-Hugeモデルをトレーニングする際の損失スパイクを回避し、テストするスケールでの勾配クリッピングより優れるAdamW-Adafactorハイブリッドを推奨する。

We introduce new methods for 1) accelerating and 2) stabilizing training for large language-vision models. 1) For acceleration, we introduce SwitchBack, a linear layer for int8 quantized training which provides a speed-up of 13-25% while matching the performance of bfloat16 training within 0.1 percentage points for the 1B parameter CLIP ViT-Huge -- the largest int8 training to date. Our main focus is int8 as GPU support for float8 is rare, though we also analyze float8 training through simulation. While SwitchBack proves effective for float8, we show that standard techniques are also successful if the network is trained and initialized so that large feature magnitudes are discouraged, which we accomplish via layer-scale initialized with zeros. 2) For stability, we analyze loss spikes and find they consistently occur 1-8 iterations after the squared gradients become under-estimated by their AdamW second moment estimator. As a result, we recommend an AdamW-Adafactor hybrid which avoids loss spikes when training a CLIP ViT-Huge model and outperforms gradient clipping at the scales we test.
翻訳日:2023-10-18 22:11:09 公開日:2023-10-17
# PAXQA: トレーニング尺度における言語横断質問応答例の生成

PAXQA: Generating Cross-lingual Question Answering Examples at Training Scale ( http://arxiv.org/abs/2304.12206v2 )

ライセンス: Link先を確認
Bryan Li and Chris Callison-Burch(参考訳) 既存の質問応答(QA)システムは、その成功の大部分を、大規模で高品質なトレーニングデータに負っている。 このようなアノテーションの取り組みは費用がかかり、言語横断設定の難易度が高まる。 そのため、従来の言語間QA作業では、評価データセットをリリースし、ゼロショットメソッドをベースラインとして適用することに重点を置いている。 本研究では,既存の並列コーパスからの間接的監視を利用する言語間QAのための合成データ生成手法を提案する。 本手法はPAXQA (Projecting annotations for cross-lingual (x) QA) を2段階に分解する。 まず,質問生成モデル(qg)を英語側に適用する。 第二に、質問と回答の両方を翻訳するためにアノテーションプロジェクションを適用する。 質問をよりよく翻訳するために、並列ビットから制約されたエンティティを抽出する語彙制約付き機械翻訳の新規な利用を提案する。 PAXQAを用いて4言語で言語間QAを生成(合計662K)し、サブセット上で人間による評価を行い、検証とテスト分割を生成する。 次に、これらのデータセットに基づいて微調整されたモデルが、複数の抽出されたQAデータセット上で、先行合成データ生成モデルより優れていることを示す。 最大のパフォーマンス向上は、非英語の質問と英語の文脈による指示である。 アブレーション研究により, 単語アライメントによる雑音に対して比較的頑健なデータセット生成手法が得られた。 フォローアップ作業を容易にするために、コードとデータセットをhttps://github.com/manestay/paxqaでリリースします。

Existing question answering (QA) systems owe much of their success to large, high-quality training data. Such annotation efforts are costly, and the difficulty compounds in the cross-lingual setting. Therefore, prior cross-lingual QA work has focused on releasing evaluation datasets, and then applying zero-shot methods as baselines. This work proposes a synthetic data generation method for cross-lingual QA which leverages indirect supervision from existing parallel corpora. Our method termed PAXQA (Projecting annotations for cross-lingual (x) QA) decomposes cross-lingual QA into two stages. First, we apply a question generation (QG) model to the English side. Second, we apply annotation projection to translate both the questions and answers. To better translate questions, we propose a novel use of lexically-constrained machine translation, in which constrained entities are extracted from the parallel bitexts. We apply PAXQA to generate cross-lingual QA examples in 4 languages (662K examples total), and perform human evaluation on a subset to create validation and test splits. We then show that models fine-tuned on these datasets outperform prior synthetic data generation models over several extractive QA datasets. The largest performance gains are for directions with non-English questions and English contexts. Ablation studies show that our dataset generation method is relatively robust to noise from automatic word alignments, showing the sufficient quality of our generations. To facilitate follow-up work, we release our code and datasets at https://github.com/manestay/paxqa .
翻訳日:2023-10-18 22:10:51 公開日:2023-10-17
# エキスパートのグラフ混合: 明示的な多様性モデリングによる大規模グラフの学習

Graph Mixture of Experts: Learning on Large-Scale Graphs with Explicit Diversity Modeling ( http://arxiv.org/abs/2304.02806v2 )

ライセンス: Link先を確認
Haotao Wang, Ziyu Jiang, Yuning You, Yan Han, Gaowen Liu, Jayanth Srinivasa, Ramana Rao Kompella, Zhangyang Wang(参考訳) グラフニューラルネットワーク(GNN)は、グラフデータからの学習に広く応用されている。 しかし、実世界のグラフはしばしば多様な構造を持ち、様々なタイプのノードとエッジから構成される。 GNNの一般化能力を強化するため、グラフの拡張やグラフのより広い配列での大規模事前学習といった手法により、グラフ構造を訓練する慣例となっている。 この多様性のバランスを保ちながら、計算コストの増大と、GNNのトレーニング性に関する悪名高い問題を回避することが重要である。 本研究では,Mixture-of-Experts(MoE)の概念をGNNに導入し,爆発的な計算オーバーヘッドを発生させることなく,多種多様なトレーニンググラフ構造に対応する能力を高めることを目的とする。 提案したグラフ混合専門家(GMoE)モデルは,グラフ内の個々のノードに対して,より一般的な情報集約専門家を動的かつ適応的に選択することを可能にする。 これらの専門家は、異なるグラフ構造のサブグループを捕捉し、より長い距離で情報を集めることに特化したホップサイズの異なる情報を組み込むように訓練されている。 GMoEの有効性は、OGBベンチマークを用いて、グラフ、ノード、リンク予測を含む様々なタスクの一連の実験を通じて検証される。 特に、ROC-AUCはOgbg-molhivで1.81\%、Ogbg-molbbbpで1.40\%、非MoEベースラインで比較すると改善されている。 私たちのコードはhttps://github.com/VITA-Group/Graph-Mixture-of-Experts.comで公開されています。

Graph neural networks (GNNs) have found extensive applications in learning from graph data. However, real-world graphs often possess diverse structures and comprise nodes and edges of varying types. To bolster the generalization capacity of GNNs, it has become customary to augment training graph structures through techniques like graph augmentations and large-scale pre-training on a wider array of graphs. Balancing this diversity while avoiding increased computational costs and the notorious trainability issues of GNNs is crucial. This study introduces the concept of Mixture-of-Experts (MoE) to GNNs, with the aim of augmenting their capacity to adapt to a diverse range of training graph structures, without incurring explosive computational overhead. The proposed Graph Mixture of Experts (GMoE) model empowers individual nodes in the graph to dynamically and adaptively select more general information aggregation experts. These experts are trained to capture distinct subgroups of graph structures and to incorporate information with varying hop sizes, where those with larger hop sizes specialize in gathering information over longer distances. The effectiveness of GMoE is validated through a series of experiments on a diverse set of tasks, including graph, node, and link prediction, using the OGB benchmark. Notably, it enhances ROC-AUC by $1.81\%$ in ogbg-molhiv and by $1.40\%$ in ogbg-molbbbp, when compared to the non-MoE baselines. Our code is publicly available at https://github.com/VITA-Group/Graph-Mixture-of-Experts.
翻訳日:2023-10-18 22:10:05 公開日:2023-10-17
# ゲージ場理論におけるベル-CHSH不等式のBRST不変式

BRST invariant formulation of the Bell-CHSH inequality in gauge field theories ( http://arxiv.org/abs/2304.01028v2 )

ライセンス: Link先を確認
David Dudal, Philipe De Fabritiis, Marcelo S. Guimaraes, Giovani Peruzzo, Silvio P. Sorella(参考訳) ゲージ場理論におけるベル-CHSHの不等式について述べる。 フォック空間におけるBRST電荷コホモロジーの九五大島解析を用いて、ベル-CHSH不等式は明らかにBRST不変の方法で定式化される。 自由四次元マックスウェル理論とアベリアン・ヒッグス模型の例は精査されている。 不等式はBRST不変の圧縮状態を用いて探索され、Tsirelson境界に近い大きなベル-CHSH不等式違反を可能にする。 量子力学における2つの1/2$スピン粒子の絡み合った状態と比較した。

A study of the Bell-CHSH inequality in gauge field theories is presented. By using the Kugo-Ojima analysis of the BRST charge cohomology in Fock space, the Bell-CHSH inequality is formulated in a manifestly BRST invariant way. The examples of the free four-dimensional Maxwell theory and the Abelian Higgs model are scrutinized. The inequality is probed by using BRST invariant squeezed states, allowing for large Bell-CHSH inequality violations, close to Tsirelson's bound. An illustrative comparison with the entangled state of two $1/2$ spin particles in Quantum Mechanics is provided.
翻訳日:2023-10-18 22:09:00 公開日:2023-10-17
# 競合するVan der WaalsとRydberg原子の双極子-双極子相互作用からの量子相

Quantum Phases from Competing Van der Waals and Dipole-Dipole Interactions of Rydberg Atoms ( http://arxiv.org/abs/2303.17470v2 )

ライセンス: Link先を確認
Zeki Zeybek, Rick Mukherjee, Peter Schmelcher(参考訳) 競合する短距離と長距離の相互作用は、複雑な量子多体相の形成の際立った要素である。 彼らの研究は従来の量子シミュレータでは実現が難しい。 この点で、Rydberg原子は、その励起多様体が密度密度と交換相互作用の両方を持ち、強度と範囲は著しく変化するので例外を与える。 一次元系に着目して、ファンデルワールスとリドベルク原子の双極子-双極子相互作用を利用して、一様鎖と二量体モデルの零温度相図を得る。 一様鎖の場合、秩序相とルッティンガー液相の境界に影響を及ぼすことができる。 二元化の場合、新しい種類のボンド次密度波位相が同定される。 これは、短距離相互作用と長距離相互作用を同時に含む物理学を研究する際に、rydbergプラットフォームの汎用性を示す。

Competing short- and long-range interactions represent distinguished ingredients for the formation of complex quantum many-body phases. Their study is hard to realize with conventional quantum simulators. In this regard, Rydberg atoms provide an exception as their excited manifold of states have both density-density and exchange interactions whose strength and range can vary considerably. Focusing on one-dimensional systems, we leverage the van der Waals and dipole-dipole interactions of the Rydberg atoms to obtain the zero-temperature phase diagram for a uniform chain and a dimer model. For the uniform chain, we can influence the boundaries between ordered phases and a Luttinger liquid phase. For the dimerized case, a new type of bond-order-density-wave phase is identified. This demonstrates the versatility of the Rydberg platform in studying physics involving short- and long-ranged interactions simultaneously.
翻訳日:2023-10-18 22:08:34 公開日:2023-10-17
# ハイブリッドインテリジェンスにおけるオントロジー : 簡潔な文献レビュー

Ontology in Hybrid Intelligence: a concise literature review ( http://arxiv.org/abs/2303.17262v2 )

ライセンス: Link先を確認
Salvatore F. Pileggi(参考訳) AI技術の絶え間ない進化と普及の状況において、Hybrid Intelligenceは、人間と人工知能のバランスの取れた共存を指すために人気を集めている。 この用語は、過去20年間に複数の技術を含むインテリジェンスモデルを定義するために広く使われてきた。 この論文は提供することを目指しています (i)その定義にも拘わらず、ハイブリッド・インテリジェンスの広い文脈におけるオントロジーの採用の簡潔で焦点を絞った概要 (II)ハイブリッド知的システムにおける人間と人工知能のギャップを減らすためにオントロジーが果たす役割についての批判的議論。 概念レベルでは、オントロジーの効果的な利用によって得られる典型的な利点に加えて、オントロジーの質と正確性を改善するための重要な貢献と、拡張相互運用性、システムエンジニアリング、説明可能な/透過的なシステムを可能にするより具体的な役割を指摘した。 さらに、アプリケーション指向分析は、現在のシステム(70%以上)や、将来的なシステムにおいて重要な役割を担っている。 しかし、この話題に関する論文が比較的一貫しているにもかかわらず、人間と人工知能がバランスよく共存する次世代のハイブリッド・インテリジェント環境の確立に関する適切な全体論的議論は、文学において基本的に欠落している。 最後に言っておくが、現在ハイブリッドインテリジェントシステムでは、自動推論と推論に重点が置かれる割合が比較的低い。

In a context of constant evolution and proliferation of AI technology,Hybrid Intelligence is gaining popularity to refer a balanced coexistence between human and artificial intelligence. The term has been extensively used in the past two decades to define models of intelligence involving more than one technology. This paper aims to provide (i) a concise and focused overview of the adoption of Ontology in the broad context of Hybrid Intelligence regardless of its definition and (ii) a critical discussion on the possible role of Ontology to reduce the gap between human and artificial intelligence within hybrid intelligent systems. Beside the typical benefits provided by an effective use of ontologies, at a conceptual level, the conducted analysis has pointed out a significant contribution of Ontology to improve quality and accuracy, as well as a more specific role to enable extended interoperability, system engineering and explainable/transparent systems. Additionally, an application-oriented analysis has shown a significant role in present systems (70+% of the cases) and, potentially, in future systems. However, despite the relatively consistent number of papers on the topic, a proper holistic discussion on the establishment of the next generation of hybrid-intelligent environments with a balanced co-existence of human and artificial intelligence is fundamentally missed in literature. Last but not the least, there is currently a relatively low explicit focus on automatic reasoning and inference in hybrid intelligent systems.
翻訳日:2023-10-18 22:08:21 公開日:2023-10-17
# ChatGPTは推奨に値するか? 大規模言語モデル推薦における公平性の評価

Is ChatGPT Fair for Recommendation? Evaluating Fairness in Large Language Model Recommendation ( http://arxiv.org/abs/2305.07609v3 )

ライセンス: Link先を確認
Jizhi Zhang, Keqin Bao, Yang Zhang, Wenjie Wang, Fuli Feng, Xiangnan He(参考訳) LLM(Large Language Models)の顕著な成果は、新しいレコメンデーションパラダイム -- LLM (RecLLM)によるレコメンデーション -- の出現につながった。 それにもかかわらず、LLMは社会的偏見を含む可能性があるため、RecLLMによる勧告の公正性はさらなる調査が必要であることに注意する必要がある。 RecLLMの潜在的なリスクを避けるため、ユーザ側の様々な機密属性に対して、RecLLMの公平性を評価することが不可欠である。 RecLLMパラダイムと従来のレコメンデーションパラダイムの違いから、従来のレコメンデーションの公平性ベンチマークを直接使用するのは問題である。 このジレンマに対処するために,LLM (FaiRLLM) を用いたFairness of Recommendationと呼ばれる新しいベンチマークを提案する。 このベンチマークは、慎重に作成されたメトリクスと、音楽と映画という2つの推奨シナリオで8つのセンシティブな属性1を占めるデータセットで構成されている。 FaiRLLMベンチマークを用いて、ChatGPTの評価を行い、レコメンデーションを生成する際には、いくつかの機密属性に対して不公平であることがわかった。 コードとデータセットはhttps://github.com/jizhi-zhang/FaiRLLM.comで確認できます。

The remarkable achievements of Large Language Models (LLMs) have led to the emergence of a novel recommendation paradigm -- Recommendation via LLM (RecLLM). Nevertheless, it is important to note that LLMs may contain social prejudices, and therefore, the fairness of recommendations made by RecLLM requires further investigation. To avoid the potential risks of RecLLM, it is imperative to evaluate the fairness of RecLLM with respect to various sensitive attributes on the user side. Due to the differences between the RecLLM paradigm and the traditional recommendation paradigm, it is problematic to directly use the fairness benchmark of traditional recommendation. To address the dilemma, we propose a novel benchmark called Fairness of Recommendation via LLM (FaiRLLM). This benchmark comprises carefully crafted metrics and a dataset that accounts for eight sensitive attributes1 in two recommendation scenarios: music and movies. By utilizing our FaiRLLM benchmark, we conducted an evaluation of ChatGPT and discovered that it still exhibits unfairness to some sensitive attributes when generating recommendations. Our code and dataset can be found at https://github.com/jizhi-zhang/FaiRLLM.
翻訳日:2023-10-18 22:02:49 公開日:2023-10-17
# 深層強化学習によるメモリマッピングの最適化

Optimizing Memory Mapping Using Deep Reinforcement Learning ( http://arxiv.org/abs/2305.07440v2 )

ライセンス: Link先を確認
Pengming Wang, Mikita Sazanovich, Berkin Ilbeyi, Phitchaya Mangpo Phothilimthana, Manish Purohit, Han Yang Tay, Ng\^an V\~u, Miaosen Wang, Cosmin Paduraru, Edouard Leurent, Anton Zhernov, Po-Sen Huang, Julian Schrittwieser, Thomas Hubert, Robert Tung, Paula Kurylowicz, Kieran Milan, Oriol Vinyals and Daniel J. Mankowitz(参考訳) 資源のスケジューリングと割り当ては、混雑制御からクラウドコンピューティングまで、多くの高負荷システムの重要なコンポーネントである。 これらの問題に対するより最適な解決策を見つけることは、しばしば資源と時間の節約に重大な影響を与える。 本稿では,スケジューリング問題,すなわち,機械学習プログラムのコンパイル中に発生するメモリマッピング問題,すなわち,テンソルを異なるメモリ層にマッピングして実行時間を最適化する特定の事例に焦点を当てる。 本稿では,強化学習を用いたメモリマッピング問題の解法を提案する。 rlは、計画に適した逐次的意思決定問題や、高次元データ入力を持つ組合せ探索空間に適したソリューションパラダイムである。 そこで我々は,この問題をmallocGameと呼ぶ単一プレイヤーゲームとして定式化し,ゲームの高軌道がターゲットハードウェア上の効率的なメモリマッピングに対応するようにした。 また、Reinforcement LearningエージェントであるmalocMuZeroを導入し、このゲームをプレイすることで、MLアクセラレータ上での実際のMLワークロードの実行時間の短縮につながる、新しい改善されたメモリマッピングソリューションを見つけることができることを示す。 実際のMLワークロードのベンチマークで,malocMuZeroのパフォーマンスを,Accelerated Linear Algebra (XLA)コンパイラが使用しているデフォルトのソルバと比較した。 さらに、mallocmuzero は、最近発表された alphatensor matrix multiplication model の実行時間を改善することができることを示した。

Resource scheduling and allocation is a critical component of many high impact systems ranging from congestion control to cloud computing. Finding more optimal solutions to these problems often has significant impact on resource and time savings, reducing device wear-and-tear, and even potentially improving carbon emissions. In this paper, we focus on a specific instance of a scheduling problem, namely the memory mapping problem that occurs during compilation of machine learning programs: That is, mapping tensors to different memory layers to optimize execution time. We introduce an approach for solving the memory mapping problem using Reinforcement Learning. RL is a solution paradigm well-suited for sequential decision making problems that are amenable to planning, and combinatorial search spaces with high-dimensional data inputs. We formulate the problem as a single-player game, which we call the mallocGame, such that high-reward trajectories of the game correspond to efficient memory mappings on the target hardware. We also introduce a Reinforcement Learning agent, mallocMuZero, and show that it is capable of playing this game to discover new and improved memory mapping solutions that lead to faster execution times on real ML workloads on ML accelerators. We compare the performance of mallocMuZero to the default solver used by the Accelerated Linear Algebra (XLA) compiler on a benchmark of realistic ML workloads. In addition, we show that mallocMuZero is capable of improving the execution time of the recently published AlphaTensor matrix multiplication model.
翻訳日:2023-10-18 22:02:27 公開日:2023-10-17
# 自己注意力学におけるクラスターの出現

The emergence of clusters in self-attention dynamics ( http://arxiv.org/abs/2305.05465v3 )

ライセンス: Link先を確認
Borjan Geshkovski, Cyril Letrouit, Yury Polyanskiy, Philippe Rigollet(参考訳) 相互作用する粒子系としてトランスフォーマーを見ることにより,重みが時間に依存しない場合の学習表現の幾何学を記述する。 トークンを表す粒子は、時間とともに無限大となるため、特定の制限対象に向かって集結する傾向にある。 クラスタ位置は初期トークンによって決定され、Transformersが学習した表現のコンテキスト認識を確認する。 力学系と偏微分方程式の手法を用いて、出現する制限対象の型は値行列のスペクトルに依存することを示した。 さらに、一次元の場合、自己着行列が低階ブール行列に収束することを証明する。 これらの結果の組み合わせは、vaswaniらによる経験的観察を数学的に確認する。 [VSP'17]トランスフォーマーによって処理されると、リーダーが一連のトークンに現れる。

Viewing Transformers as interacting particle systems, we describe the geometry of learned representations when the weights are not time dependent. We show that particles, representing tokens, tend to cluster toward particular limiting objects as time tends to infinity. Cluster locations are determined by the initial tokens, confirming context-awareness of representations learned by Transformers. Using techniques from dynamical systems and partial differential equations, we show that the type of limiting object that emerges depends on the spectrum of the value matrix. Additionally, in the one-dimensional case we prove that the self-attention matrix converges to a low-rank Boolean matrix. The combination of these results mathematically confirms the empirical observation made by Vaswani et al. [VSP'17] that leaders appear in a sequence of tokens when processed by Transformers.
翻訳日:2023-10-18 22:01:53 公開日:2023-10-17
# 量子整数分解性能の最適化:スケーラブルな評価手法

Optimizing Quantum Integer Factorization Performance: A Scalable Evaluation Approach ( http://arxiv.org/abs/2305.05249v2 )

ライセンス: Link先を確認
Junseo Lee, Kibum Bae, Chang-Nyoung Song, Hyunchul Jung(参考訳) 量子技術の進歩により、量子コンピューティングシミュレータは性能の面で成熟し続けている。 量子コンピューティングがサイバーセキュリティに与える潜在的な脅威を踏まえると、現在の観点からその実用性を評価することが不可欠となる。 本研究では,行列積状態型のゲート型量子回路シミュレータ内の多種多様な数を考慮して,shorのアルゴリズムを用いて,整数分解に要する時間を測定することを目的とする。 さらに,shorのアルゴリズムの事前選択の影響を示す。 より具体的には、この事前選択により、整数分解の成功率が減少し、固定条件下でのパフォーマンス測定が容易になる。 パラメータのランダム選択と比較すると,パラメータの事前選択により,整数分解のスケーラブルな評価が可能となり,効率が大幅に向上した。

With the advancement of quantum technologies, quantum computing simulators have continued to mature in terms of performance. In light of the potential threat posed by quantum computing to cybersecurity, it becomes imperative to assess its practical feasibility from a current perspective. In this research, we aim to measure the time required for integer factorization at scale using Shor's algorithm, considering a variety of numbers within a gate-based quantum circuit simulator of the matrix product state type. Additionally, we demonstrate the influence of pre-selecting Shor's algorithm. More specifically, this pre-selection ensures a higher success rate for integer factorization with a reduced number of iterations, facilitating performance measurement under fixed conditions. When compared to the random selection of parameters, our results indicate that parameter pre-selection enables a scalable evaluation of integer factorization with significantly improved efficiency.
翻訳日:2023-10-18 22:01:41 公開日:2023-10-17
# 人工神経心理学 : 大きな言語モデルが実行機能を生み出すか?

Artificial Neuropsychology: Are Large Language Models Developing Executive Functions? ( http://arxiv.org/abs/2305.04134v2 )

ライセンス: Link先を確認
Hernan Ceferino Vazquez(参考訳) 人工知能(AI)は急速に進歩しており、言語処理、視覚認識、意思決定を含む幅広い認知タスクを実行する能力を示している。 この進歩の一部は、GPT(Generative Pre-Trained Transformers)ファミリーのようなLLM(Large Language Models)によるものである。 これらのモデルは、知的と見なされる行動を示すことができる。 神経心理学のほとんどの著者は、知的行動は、前頭葉におけるニューラルネットワークの正しい機能に依存するいくつかのオーバーアーキシングスキル(efs)に依存すると考え、それらを評価するための一連のテストを開発した。 本研究では,LLMが学習の一環として人間に類似したエグゼクティブ機能を開発しているかどうかを疑問視し,ハノイのタワーを用いたGPTの計画機能と作業記憶の評価を行った。 さらに,LLMトレーニングデータ(dataleakeage)に解が存在することを避けるため,従来の手法の新たな変種を導入する。 予備的な結果から,LLMはハノイのタワーズでほぼ最適解を生成し,タスク制約に従属し,迅速な計画能力と効率的なワーキングメモリ利用を示し,経営機能の発展の可能性を示している。 しかし、これらの能力は、タスクが分かっておらず、トレーニングデータの一部ではない場合、十分に訓練された人間よりもかなり限定的で悪い。

Artificial Intelligence (AI) has been rapidly advancing and has demonstrated its ability to perform a wide range of cognitive tasks, including language processing, visual recognition, and decision-making. Part of this progress is due to LLMs (Large Language Models) like those of the GPT (Generative Pre-Trained Transformers) family. These models are capable of exhibiting behavior that can be perceived as intelligent. Most authors in Neuropsychology consider intelligent behavior to depend on a number of overarching skills, or Executive Functions (EFs), which rely on the correct functioning of neural networks in the frontal lobes, and have developed a series of tests to evaluate them. In this work, we raise the question of whether LLMs are developing executive functions similar to those of humans as part of their learning, and we evaluate the planning function and working memory of GPT using the popular Towers of Hanoi method. Additionally, we introduce a new variant of the classical method in order to avoid that the solutions are found in the LLM training data (dataleakeage). Preliminary results show that LLMs generates near-optimal solutions in Towers of Hanoi related tasks, adheres to task constraints, and exhibits rapid planning capabilities and efficient working memory usage, indicating a potential development of executive functions. However, these abilities are quite limited and worse than well-trained humans when the tasks are not known and are not part of the training data.
翻訳日:2023-10-18 22:01:28 公開日:2023-10-17
# 量子制御マシン:量子プログラミングにおける制御フローの限界

Quantum Control Machine: The Limits of Control Flow in Quantum Programming ( http://arxiv.org/abs/2304.15000v3 )

ライセンス: Link先を確認
Charles Yuan, Agnes Villanyi, Michael Carbin(参考訳) 量子プログラミング言語は、量子アルゴリズムを実装する際にハードウェアレベルの論理ゲートを操作することの負担を軽減することを目的としている。 この目標のハードルは、量子的重ね合わせにおけるデータの値に依存する分岐や反復のような制御フローを表現することの難しさである。 制御フローを含む因子化、探索、シミュレーションのアルゴリズムを実装するために、量子言語は古典言語が提供する高レベル構造とは対照的にビットレベル論理ゲートを使用する必要があることが多い。 このギャップの理由は、古典的なコンピュータが、$\lambda$-calculusの項によるデータや関数的な抽象化に依存するプログラムカウンタによる制御フローの命令的抽象化をサポートしているのに対して、量子コンピュータの典型的なアーキテクチャは、重ね合わせのデータに依存するプログラムカウンタを提供しておらず、また重ね合わせで$\lambda$-termsの物理表現を提供していないからである。 原則として、そのような抽象化をサポートする量子アーキテクチャは、量子プログラムにおける制御フローの実装を単純化する。 しかし、本研究では、量子コンピュータが重ね合わせにおける従来の条件付きジャンプ命令や、重ね合わせにおける$\lambda$-termsの$\beta$-reductionを正しくサポートできないという量子プログラミングにおけるフロー制御の基本的な障害を特定する。 上記のような非インジェクティブ状態遷移セマンティクスを持つプログラミング抽象化が重ね合わせで不正確な結果をもたらすことを正式に証明する。 提案手法では,プログラムで正しく実現可能な重ね合わせにおける制御フローに必要な,十分な条件を提示する。 本稿では,これらの条件を満たす命令セットアーキテクチャである量子制御機を紹介し,位相推定や量子ウォーク,物理シミュレーションなどのアルゴリズムの実装に制御フローを利用する方法を示す。

Quantum programming languages aim to reduce the burden of manipulating hardware-level logic gates when implementing a quantum algorithm. A hurdle to this goal is the difficulty of expressing control flow, such as branching and iteration, that depends on the value of data in quantum superposition. To implement algorithms for factorization, search, and simulation that contain control flow, quantum languages often require the use of bit-level logic gates as opposed to the high-level constructs provided by classical languages. The reason for this gap is that whereas a classical computer supports imperative abstractions for control flow via a program counter that can depend on data and functional abstractions via terms in the $\lambda$-calculus, the typical architecture of a quantum computer does not provide a program counter that can depend on data in superposition, nor a physical representation of $\lambda$-terms in superposition. In principle, a quantum architecture supporting such abstractions would simplify the implementation of control flow in quantum programs. However, in this work, we identify a fundamental obstacle to control flow in quantum programming, which is that a quantum computer cannot correctly support the conventional conditional jump instruction in superposition, nor the $\beta$-reduction of $\lambda$-terms in superposition. We formally prove that programming abstractions with non-injective state transition semantics, such as the above, produce incorrect results in superposition. As a way forward, we present the necessary and sufficient conditions for control flow in superposition to be correctly realizable in a program. We introduce the quantum control machine, an instruction set architecture that satisfies these conditions, and show how it enables the use of control flow to implement algorithms such as phase estimation, quantum walk, and physical simulation.
翻訳日:2023-10-18 22:00:52 公開日:2023-10-17
# 医用画像分割のためのsegment anythingモデル

Customized Segment Anything Model for Medical Image Segmentation ( http://arxiv.org/abs/2304.13785v2 )

ライセンス: Link先を確認
Kaidong Zhang and Dong Liu(参考訳) 医療画像セグメンテーションのための一般的なソリューションであるSAMedを提案する。 従来の方法とは違って,SAMedは大規模画像分割モデルであるSAMment Anything Model(Segment Anything Model)に基づいて,医用画像分割のための大規模モデルをカスタマイズする新たな研究パラダイムを探求する。 SAMedは、SAMイメージエンコーダにローランクベース(LoRA)ファインタニング戦略を適用し、ラベル付き医用画像セグメンテーションデータセットにプロンプトエンコーダとマスクデコーダを併用する。 また,AdamWオプティマイザリードとウォームアップ微調整戦略も観察し,収束と損失低減に寄与した。 SAMと異なり、SAMedは医療画像のセマンティックセグメンテーションを行うことができる。 訓練されたSAMedモデルでは,Synapseのマルチオーガニックセグメンテーションデータセット上で,81.88 DSCと20.64 HDを実現している。 設計の有効性を検証するための広範な実験を行う。 SAMedはSAMパラメータのごく一部しか更新しないため、そのデプロイコストとストレージコストは実用的には極めて少ない。 SAMedのコードはhttps://github.com/hitachinsk/SAMedで公開されている。

We propose SAMed, a general solution for medical image segmentation. Different from the previous methods, SAMed is built upon the large-scale image segmentation model, Segment Anything Model (SAM), to explore the new research paradigm of customizing large-scale models for medical image segmentation. SAMed applies the low-rank-based (LoRA) finetuning strategy to the SAM image encoder and finetunes it together with the prompt encoder and the mask decoder on labeled medical image segmentation datasets. We also observe the warmup finetuning strategy and the AdamW optimizer lead SAMed to successful convergence and lower loss. Different from SAM, SAMed could perform semantic segmentation on medical images. Our trained SAMed model achieves 81.88 DSC and 20.64 HD on the Synapse multi-organ segmentation dataset, which is on par with the state-of-the-art methods. We conduct extensive experiments to validate the effectiveness of our design. Since SAMed only updates a small fraction of the SAM parameters, its deployment cost and storage cost are quite marginal in practical usage. The code of SAMed is available at https://github.com/hitachinsk/SAMed.
翻訳日:2023-10-18 21:59:49 公開日:2023-10-17
# LLMの内部状態がライティングのタイミングを知る

The Internal State of an LLM Knows When It's Lying ( http://arxiv.org/abs/2304.13734v2 )

ライセンス: Link先を確認
Amos Azaria, Tom Mitchell(参考訳) 大きな言語モデル(LLM)は様々なタスクにおいて例外的なパフォーマンスを示しているが、最も顕著な欠点の1つは、自信のあるトーンで不正確または偽の情報を生成することである。 本稿では, LLMの内部状態が文の真偽を明らかにするのに有効であることを示す。 これは LLM に提供されるステートメントと LLM が生成するステートメントの両方を含む。 我々のアプローチは、LCMの隠された層活性化に基づいて、文が真実である確率を出力する分類器を訓練することである。 実験により, 学習された分類器は, 半分が真で半分が偽である一組のテスト文を与えられた場合, 平均71\%から83\%の精度で, llmベースモデルにより真と偽の文をラベル付けする。 さらに, LLMによる文に割り当てられた確率に基づいて, 分類器の性能とアプローチの関係について検討する。 LLM指定文の確率は文の真理性に関連するが、この確率は文の長さや文中の単語の頻度にも依存しており、訓練された分類器は真理性を検出するためのより信頼性の高いアプローチを提供し、LLM生成コンテンツの信頼性と実世界のシナリオにおける実用性を高める可能性を強調している。

While Large Language Models (LLMs) have shown exceptional performance in various tasks, one of their most prominent drawbacks is generating inaccurate or false information with a confident tone. In this paper, we provide evidence that the LLM's internal state can be used to reveal the truthfulness of statements. This includes both statements provided to the LLM, and statements that the LLM itself generates. Our approach is to train a classifier that outputs the probability that a statement is truthful, based on the hidden layer activations of the LLM as it reads or generates the statement. Experiments demonstrate that given a set of test sentences, of which half are true and half false, our trained classifier achieves an average of 71\% to 83\% accuracy labeling which sentences are true versus false, depending on the LLM base model. Furthermore, we explore the relationship between our classifier's performance and approaches based on the probability assigned to the sentence by the LLM. We show that while LLM-assigned sentence probability is related to sentence truthfulness, this probability is also dependent on sentence length and the frequencies of words in the sentence, resulting in our trained classifier providing a more reliable approach to detecting truthfulness, highlighting its potential to enhance the reliability of LLM-generated content and its practical applicability in real-world scenarios.
翻訳日:2023-10-18 21:59:28 公開日:2023-10-17
# マルチフラクタル平坦性による非安定度測定

Measuring nonstabilizerness via multifractal flatness ( http://arxiv.org/abs/2305.11797v2 )

ライセンス: Link先を確認
Xhek Turkeshi and Marco Schir\`o and Piotr Sierant(参考訳) 普遍量子コンピューティングは非安定化器(魔法)量子状態を必要とする。 非安定化性を定量化し、他の量子資源と関連付けることは、量子多体系の複雑性を特徴付けるのに不可欠である。 本研究では、量子状態が安定化器であることと、そのクリフォード軌道に属する全ての状態が計算ベースで平坦な確率分布を持つことを証明する。 これは特に、多フラクタル状態が非安定化剤であることを意味する。 本稿では,波動関数分布平坦度を定量化する参加エントロピーに基づくマルチフラクタル平坦度を提案する。 この量は状態の安定度エントロピーと解析的に関係していることを示し、多フラクタリティと非安定度の関係を解明するいくつかの例を示す。 特に,マルチフラクタル平坦性は実験的で計算可能な非安定化器性証明を提供することを示す。 本研究は,量子状態の非安定化性と波動関数構造との直接関係を明らかにする。

Universal quantum computing requires nonstabilizer (magic) quantum states. Quantifying the nonstabilizerness and relating it to other quantum resources is vital for characterizing the complexity of quantum many-body systems. In this work, we prove that a quantum state is a stabilizer if and only if all states belonging to its Clifford orbit have a flat probability distribution on the computational basis. This implies, in particular, that multifractal states are nonstabilizers. We introduce multifractal flatness, a measure based on the participation entropy that quantifies the wave-function distribution flatness. We demonstrate that this quantity is analytically related to the stabilizer entropy of the state and present several examples elucidating the relationship between multifractality and nonstabilizerness. In particular, we show that the multifractal flatness provides an experimentally and computationally viable nonstabilizerness certification. Our work unravels the direct relation between the nonstabilizerness of a quantum state and its wave-function structure.
翻訳日:2023-10-18 21:50:55 公開日:2023-10-17
# TrueTeacher: 大規模言語モデルによる現実的一貫性評価の学習

TrueTeacher: Learning Factual Consistency Evaluation with Large Language Models ( http://arxiv.org/abs/2305.11171v2 )

ライセンス: Link先を確認
Zorik Gekhman and Jonathan Herzig and Roee Aharoni and Chen Elkind and Idan Szpektor(参考訳) 事実整合性評価は自然言語推論(nli)モデルを用いて行われることが多いが、これらのモデルは要約の評価に限定的な成功を示している。 以前の作業は、合成トレーニングデータでそのようなモデルを改善した。 しかし、データは典型的には、乱れた人書きの要約に基づいており、実際のモデル生成の要約と特徴が異なることが多く、事実の誤りをカバーできる範囲が限られている。 あるいは、最近、大言語モデル(llm)は生成的タスクを直接評価する有望な結果を示したが、実用には計算コストが高すぎる。 そこで我々は,LLMを用いた多種多様なモデル生成要約を注釈付けして合成データを生成するTrueTeacherを紹介した。 以前の作業とは異なり、TrueTeacherは人間が書いた要約に頼らず、本質的に多言語である。 TRUEベンチマークの実験では、我々のデータを用いて訓練された学生モデルが、同等の能力で最先端のモデルとLLMの教師の両方を著しく上回っていることが示されている。 本研究では,TrueTeacherを既存の合成データ生成手法と比較し,その優位性とドメインシフトに対する堅牢性を示す。 また,本手法が多言語シナリオに一般化することを示す。 最後に、TrueTeacherを用いて生成された大規模合成データセット(1.4M例)と、このデータに基づいてトレーニングされたチェックポイントをリリースする。

Factual consistency evaluation is often conducted using Natural Language Inference (NLI) models, yet these models exhibit limited success in evaluating summaries. Previous work improved such models with synthetic training data. However, the data is typically based on perturbed human-written summaries, which often differ in their characteristics from real model-generated summaries and have limited coverage of possible factual errors. Alternatively, large language models (LLMs) have recently shown promising results in directly evaluating generative tasks, but are too computationally expensive for practical use. Motivated by these limitations, we introduce TrueTeacher, a method for generating synthetic data by annotating diverse model-generated summaries using a LLM. Unlike prior work, TrueTeacher does not rely on human-written summaries, and is multilingual by nature. Experiments on the TRUE benchmark show that a student model trained using our data, substantially outperforms both the state-of-the-art model with similar capacity, and the LLM teacher. In a systematic study, we compare TrueTeacher to existing synthetic data generation methods and demonstrate its superiority and robustness to domain-shift. We also show that our method generalizes to multilingual scenarios. Lastly, we release our large scale synthetic dataset (1.4M examples), generated using TrueTeacher, and a checkpoint trained on this data.
翻訳日:2023-10-18 21:50:39 公開日:2023-10-17
# CLEME:文法的誤り訂正のためのマルチ参照評価

CLEME: Debiasing Multi-reference Evaluation for Grammatical Error Correction ( http://arxiv.org/abs/2305.10819v2 )

ライセンス: Link先を確認
Jingheng Ye, Yinghui Li, Qingyu Zhou, Yangning Li, Shirong Ma, Hai-Tao Zheng, Ying Shen(参考訳) 文法的誤り訂正(gec)システムの性能評価は,その主観性から難しい課題である。 GECタスクの開発には、可能な限り客観的な評価基準を設計することが不可欠である。 しかし、主流評価指標、すなわち参照ベースの指標は、複数の参照の存在を考慮せずに編集を抽出することで、マルチ参照評価にバイアスをもたらす。 この問題を解決するために,マルチ参照評価設定において,GECシステムの評価を目的としたチャンクレベルマルチ参照評価(CLEME)を提案する。 CLEMEは、ソース、仮説、参照の一貫性のあるバウンダリを持つチャンクシーケンスを構築し、一貫性のない編集バウンダリによって生じるバイアスを取り除く。 さらに、一貫した境界は文法的誤りの境界としても作用し、f$_{0.5}$スコアは補正独立性仮定に従って計算される。 我々は、CoNLL-2014共有タスクに基づく6つの英語参照セットの実験を行う。 CLEMEの発見の正しさと有効性を示す実験と詳細な分析を行った。 さらに分析したところ、CLEME は参照数やアノテーションスタイルの異なる参照セット間で GEC システムを評価するのに堅牢であることが判明した。

Evaluating the performance of Grammatical Error Correction (GEC) systems is a challenging task due to its subjectivity. Designing an evaluation metric that is as objective as possible is crucial to the development of GEC task. However, mainstream evaluation metrics, i.e., reference-based metrics, introduce bias into the multi-reference evaluation by extracting edits without considering the presence of multiple references. To overcome this issue, we propose Chunk-LEvel Multi-reference Evaluation (CLEME), designed to evaluate GEC systems in the multi-reference evaluation setting. CLEME builds chunk sequences with consistent boundaries for the source, the hypothesis and references, thus eliminating the bias caused by inconsistent edit boundaries. Furthermore, we observe the consistent boundary could also act as the boundary of grammatical errors, based on which the F$_{0.5}$ score is then computed following the correction independence assumption. We conduct experiments on six English reference sets based on the CoNLL-2014 shared task. Extensive experiments and detailed analyses demonstrate the correctness of our discovery and the effectiveness of CLEME. Further analysis reveals that CLEME is robust to evaluate GEC systems across reference sets with varying numbers of references and annotation style.
翻訳日:2023-10-18 21:50:14 公開日:2023-10-17
# 無限大ベイズ型ニューラルネットワークの非有界分散重みによる後方推定

Posterior Inference on Shallow Infinitely Wide Bayesian Neural Networks under Weights with Unbounded Variance ( http://arxiv.org/abs/2305.10664v2 )

ライセンス: Link先を確認
Jorge Lor\'ia and Anindya Bhadra(参考訳) neal (1996) の古典的かつ影響力のある著作から、1つの隠れた層を持つベイズ型ニューラルネットワークの無限幅のスケーリング限界はガウス過程であり、ネットワークの重みが有界な事前分散を持つとき \emph{when the network weights have bounded prior variance} であることが知られている。 Nealの結果は、複数の隠蔽層を持つネットワークや、ガウスのプロセススケーリング制限を伴う畳み込みニューラルネットワークにまで拡張されている。 ガウス過程のトラクタブルな性質は、単純後部推論と不確かさの定量化を可能にし、有限幅のネットワークと比較して極限過程の研究を著しく単純化する。 しかし、境界のない分散を持つニューラルネットワークの重み付けは、ユニークな課題をもたらす。 この場合、古典的な中心極限定理は崩壊し、スケーリング極限が適切な条件下での$\alpha$-stableプロセスであることはよく知られている。 しかし、現在の文献は主にこれらの過程における前方シミュレーションに限られており、そのような拡大限界の下での後方推論の問題はほとんど解決されていない。 この目的のために、我々の貢献は後部推論の解釈可能かつ計算学的に効率的な手順であり、非ガウス系におけるトラクタブル後部推論と不確実性定量化のためのガウス過程機構をフル活用することができる。

From the classical and influential works of Neal (1996), it is known that the infinite width scaling limit of a Bayesian neural network with one hidden layer is a Gaussian process, \emph{when the network weights have bounded prior variance}. Neal's result has been extended to networks with multiple hidden layers and to convolutional neural networks, also with Gaussian process scaling limits. The tractable properties of Gaussian processes then allow straightforward posterior inference and uncertainty quantification, considerably simplifying the study of the limit process compared to a network of finite width. Neural network weights with unbounded variance, however, pose unique challenges. In this case, the classical central limit theorem breaks down and it is well known that the scaling limit is an $\alpha$-stable process under suitable conditions. However, current literature is primarily limited to forward simulations under these processes and the problem of posterior inference under such a scaling limit remains largely unaddressed, unlike in the Gaussian process case. To this end, our contribution is an interpretable and computationally efficient procedure for posterior inference, using a \emph{conditionally Gaussian} representation, that then allows full use of the Gaussian process machinery for tractable posterior inference and uncertainty quantification in the non-Gaussian regime.
翻訳日:2023-10-18 21:49:53 公開日:2023-10-17
# Selective Amnesia: 深層生成モデル構築のための継続的な学習アプローチ

Selective Amnesia: A Continual Learning Approach to Forgetting in Deep Generative Models ( http://arxiv.org/abs/2305.10120v2 )

ライセンス: Link先を確認
Alvin Heng, Harold Soh(参考訳) 近年の大規模テキストから画像へのモデルの普及により、有害で誤解を招く、不適切なコンテンツを生み出すために誤用される可能性があるという懸念が高まっている。 本稿では,事前学習した深層生成モデルの概念を選択的に忘れるために,連続学習に触発されたテクニックを導出する。 本手法は選択的記憶喪失と呼ばれ,ユーザがどのように概念を忘れるべきかを制御可能とする。 選択的アムネシアは、変分オートエンコーダや大規模テキストから画像への拡散モデルなど、様々な一般的な深層生成フレームワークを含む条件付き変分確率モデルに適用することができる。 異なるモデルによる実験により、標準データセットのクラス全体からテキストから画像へのモデルのセレブやヌードのプロンプトまで、さまざまな概念の忘れが引き起こされることが示された。 私たちのコードはhttps://github.com/clear-nus/selective-amnesiaで公開されています。

The recent proliferation of large-scale text-to-image models has led to growing concerns that such models may be misused to generate harmful, misleading, and inappropriate content. Motivated by this issue, we derive a technique inspired by continual learning to selectively forget concepts in pretrained deep generative models. Our method, dubbed Selective Amnesia, enables controllable forgetting where a user can specify how a concept should be forgotten. Selective Amnesia can be applied to conditional variational likelihood models, which encompass a variety of popular deep generative frameworks, including variational autoencoders and large-scale text-to-image diffusion models. Experiments across different models demonstrate that our approach induces forgetting on a variety of concepts, from entire classes in standard datasets to celebrity and nudity prompts in text-to-image models. Our code is publicly available at https://github.com/clear-nus/selective-amnesia.
翻訳日:2023-10-18 21:48:46 公開日:2023-10-17
# あなたの意味を理解する解釈:音声翻訳によるエンドツーエンドの音声言語理解

The Interpreter Understands Your Meaning: End-to-end Spoken Language Understanding Aided by Speech Translation ( http://arxiv.org/abs/2305.09652v2 )

ライセンス: Link先を確認
Mutian He, Philip N. Garner(参考訳) SLU(End-to-end Speech Language Understanding)は、特に多言語の場合において、現在テキストや音声に事前訓練された言語モデルが使われている場合でも、いまだ解明されていない。 機械翻訳は、入力発話の高レベル意味論と、低レベル音響フレームで動作する音声モデルに望ましい異なる言語間の関連を捉えることができるため、テキストの強力な事前学習目標として確立されている。 特に言語間SLUの課題によって動機付けられ、音声翻訳(ST)の課題は、言語間および言語間の両方のシナリオにおいて、エンドツーエンドSLUのための音声モデルを事前学習する良い方法であることを示す。 STを導入することで、SLURP、MINDS-14、NMSQAベンチマークを用いた音声質問応答だけでなく、単言語および多言語意図分類に基づくベースラインよりも高い性能が得られる。 また,本手法の有効性を検証するために,音声要約や英語からフランス語やスペイン語への低リソース/ゼロショット転送のための,合成データと実データの両方から新たなベンチマークデータセットを作成する。 さらに,ST事前学習課題における知識保存の価値を,ベイズ変換正規化器を用いて,下流性能向上のために示す。

End-to-end spoken language understanding (SLU) remains elusive even with current large pretrained language models on text and speech, especially in multilingual cases. Machine translation has been established as a powerful pretraining objective on text as it enables the model to capture high-level semantics of the input utterance and associations between different languages, which is desired for speech models that work on lower-level acoustic frames. Motivated particularly by the task of cross-lingual SLU, we demonstrate that the task of speech translation (ST) is a good means of pretraining speech models for end-to-end SLU on both intra- and cross-lingual scenarios. By introducing ST, our models reach higher performance over baselines on monolingual and multilingual intent classification as well as spoken question answering using SLURP, MINDS-14, and NMSQA benchmarks. To verify the effectiveness of our methods, we also create new benchmark datasets from both synthetic and real sources, for speech summarization and low-resource/zero-shot transfer from English to French or Spanish. We further show the value of preserving knowledge for the ST pretraining task for better downstream performance, possibly using Bayesian transfer regularizers.
翻訳日:2023-10-18 21:48:28 公開日:2023-10-17
# マイクロ波-光量子界面用カラーセンタ付きダイヤモンド光機械的キャビティ

Diamond optomechanical cavity with a color center for microwave-to-optical quantum interfaces ( http://arxiv.org/abs/2305.08306v2 )

ライセンス: Link先を確認
Byunggi Kim, Hodaka Kurokawa, Katsuta Sakai, Kazuki Koshino, Hideo Kosaka, and Masahiro Nomura(参考訳) マイクロ波と光子間の量子伝達は、遠隔量子ビット間の量子通信において重要な役割を果たす。 通信光子を生成する量子トランスダクション方式はオプティメカルインタフェースを用いて実証されているが、低変換効率は複数の量子ビットからなる量子ネットワークの実装の障害として残っている。 本稿では,光メカニカルカップリングを伴わないカラーセンターエミッションで調律された1次元ダイヤモンド光メカニカル結晶空洞を用いた効率的な量子変換法を提案する。 光学結晶キャビティは、集光器キャビティ領域付近に窒化アルミニウム(AlN)パッド圧電カプラを内蔵し、それぞれ1.5\times 10^{-4}および~0.2({\lambda}/n)^3の超小径のメカニカルおよび光学モードボリュームを保持する。 コヒーレントな色中心電子のエネルギーレベルは16.4MHzまでの強いメカニカルモード-色中心電子結合速度で操作される。 本システムでは, 単一マイクロ波光子から光子への集団変換効率が, 現在の技術と組み合わせて15%に達することを理論的に予測する。 コヒーレント変換効率は10%以上であり、T^2_{*} > 10 ns の適度に純粋な崩壊時間である。 この結果から,原子色中心を光学結晶空洞に強く結合させることで,高効率な量子トランスダクションプラットフォームが得られることが示唆された。

Quantum transduction between microwave and optical photons plays a key role in quantum communication among remote qubits. Although the quantum transduction schemes generating communication photons have been successfully demonstrated by using optomechanical interfaces, the low conversion efficiency remains an obstacle to the implementation of a quantum network consisting of multiple qubits. Here, we present an efficient quantum transduction scheme using a one-dimensional diamond optomechanical crystal cavity tuned at a color-center emission without optomechanical coupling. The optomechanical crystal cavity incorporates a thin aluminum nitride (AlN) pad piezoelectric coupler near the concentrator cavity region, while retaining ultrasmall mechanical and optical mode volumes of about 1.5 \times 10^{-4} and ~0.2({\lambda}/n)^3, respectively. The energy level of a coherent color-center electron is manipulated by a strong mechanical-mode-color-center electron-coupling rate up to 16.4MHz. In our system, we theoretically predict that the population-conversion efficiency from a single microwave photon into an optical photon can reach 15% combined with current technologies. The coherent conversion efficiency is over 10% with a reasonably pure decay time of T^2_{*} > 10 ns. Our results imply that an atomic color center strongly coupled to the optomechanical crystal cavity will offer a highly efficient quantum transduction platform.
翻訳日:2023-10-18 21:48:05 公開日:2023-10-17
# 不均一データを用いたフェデレーション学習におけるモデル平均化の理解と改善

Understanding and Improving Model Averaging in Federated Learning on Heterogeneous Data ( http://arxiv.org/abs/2305.07845v3 )

ライセンス: Link先を確認
Tailin Zhou, Zehong Lin, Jun Zhang, Danny H.K. Tsang(参考訳) モデル平均化は、複数のクライアントモデルを集約してグローバルモデルを得るフェデレートラーニング(FL)において広く採用されている手法である。 FLにおけるモデル平均化は、非凸目的関数や異種局所データセットでクライアントモデルを訓練しても、優れたグローバルモデルが得られる。 しかし、その成功の根拠はよく分かっていない。 この問題を浮き彫りにするために、クライアントモデルとグローバルモデルによるFLの損失景観を視覚化し、それらの幾何学的性質を例証する。 可視化により、クライアントモデルは共通の盆地内のグローバルモデルを含み、興味深いことに、グローバルモデルは流域の底部から逸脱し、クライアントモデルよりも優れています。 FLにおけるモデル平均化に関するさらなる知見を得るため、グローバルモデルの損失をクライアントモデルに関連する5つの要因に分解する。 具体的には、初期トレーニング後のグローバルモデルの損失は主に、クライアントデータセットとグローバルデータセットの間の重複しないデータに対するクライアントモデルの損失と、グローバルモデルとクライアントモデルの間の最大距離である \textit{ii") から生じていることを明らかにします。 本研究は,ロスランドスケープの可視化と損失分解から得られた知見に基づいて,学習後期のグローバルモデルにおける反復移動平均化(IMA)を利用して,予測最小値からの偏差を低減し,グローバルモデルとクライアントモデルの間の最大距離を制限するクライアント探索を制約する。 実験により,既存のFL手法にIMAを組み込むことで,ベンチマークデータセットの異種データ設定における精度とトレーニング速度が大幅に向上することが示された。

Model averaging is a widely adopted technique in federated learning (FL) that aggregates multiple client models to obtain a global model. Remarkably, model averaging in FL can yield a superior global model, even when client models are trained with non-convex objective functions and on heterogeneous local datasets. However, the rationale behind its success remains poorly understood. To shed light on this issue, we first visualize the loss landscape of FL over client and global models to illustrate their geometric properties. The visualization shows that the client models encompass the global model within a common basin, and interestingly, the global model may deviate from the bottom of the basin while still outperforming the client models. To gain further insights into model averaging in FL, we decompose the expected loss of the global model into five factors related to the client models. Specifically, our analysis reveals that the loss of the global model after early training mainly arises from \textit{i)} the client model's loss on non-overlapping data between client datasets and the global dataset and \textit{ii)} the maximum distance between the global and client models. Based on these findings from our loss landscape visualization and loss decomposition, we propose utilizing iterative moving averaging (IMA) on the global model at the late training phase to reduce its deviation from the expected minimum, while constraining client exploration to limit the maximum distance between the global and client models. Our experiments demonstrate that incorporating IMA into existing FL methods significantly improves their accuracy and training speed on various heterogeneous data setups of benchmark datasets.
翻訳日:2023-10-18 21:47:40 公開日:2023-10-17
# tie matter: ペアワイズ精度とタイ校正による現代のメトリクスのメタ評価

Ties Matter: Meta-Evaluating Modern Metrics with Pairwise Accuracy and Tie Calibration ( http://arxiv.org/abs/2305.14324v2 )

ライセンス: Link先を確認
Daniel Deutsch and George Foster and Markus Freitag(参考訳) ケンドールのタウはしばしば、機械翻訳(MT)評価指標が個々の翻訳をどれだけよく評価するかをメタ評価するために使われる。 ペアのスコア比較に重点を置いているのは直感的だが、文献のさまざまなバリエーションを動機付けているグレーな領域である、関係をどのように扱うべきかという疑問が提起されている。 現代のmtメタ評価のような設定では、既存の変種は結合の取り扱いによって生じる弱点があり、いくつかの状況ではゲーム化できる。 そこで本研究では, 相関を正しく予測するための指標を与えるペアワイズ精度のバージョンと, メトリックスコアへの結合を自動的に導入し, 相関を予測しないメトリクス間の公正な比較を可能にするタイ校正手順を併用して, メトリクスをメタ評価する手法を提案する。 我々は、これらの変更がメートル法のパフォーマンスの公正なランキングに基づく評価につながるという実験的証拠を議論し、提示する。

Kendall's tau is frequently used to meta-evaluate how well machine translation (MT) evaluation metrics score individual translations. Its focus on pairwise score comparisons is intuitive but raises the question of how ties should be handled, a gray area that has motivated different variants in the literature. We demonstrate that, in settings like modern MT meta-evaluation, existing variants have weaknesses arising from their handling of ties, and in some situations can even be gamed. We propose instead to meta-evaluate metrics with a version of pairwise accuracy that gives metrics credit for correctly predicting ties, in combination with a tie calibration procedure that automatically introduces ties into metric scores, enabling fair comparison between metrics that do and do not predict ties. We argue and provide experimental evidence that these modifications lead to fairer ranking-based assessments of metric performance.
翻訳日:2023-10-18 21:41:40 公開日:2023-10-17
# R2H:リクエストに応答するマルチモーダルナビゲーションヘルパーの構築

R2H: Building Multimodal Navigation Helpers that Respond to Help Requests ( http://arxiv.org/abs/2305.14260v2 )

ライセンス: Link先を確認
Yue Fan, Jing Gu, Kaizhi Zheng, Xin Eric Wang(参考訳) 知的ナビゲーション支援エージェントは、環境認識と会話能力を通じて未知の領域のユーザをナビゲートし、障害を持つ個人へのアクセシビリティーツールとして役立つため、非常に重要である。 本稿では,新しいベンチマークであるrespond to help requests(r2h)を導入することで,既存のダイアログベースの具体化されたデータセットを利用して,ヘルプに応答可能なマルチモーダルナビゲーションヘルパの開発を促進する。 R2Hは主に2つのタスクを含む:(1)対話履歴(RDH)、(2)対話履歴に基づいて情報応答を生成するヘルパーエージェントの能力を評価する、(2)対話中の応答(RdI)、(2)タスクパフォーマーとの一貫性のある協調における応答の有効性と効率を評価する。 さらに,SeeReeと名づけられたタスク指向のマルチモーダル応答生成モデルを微調整し,マルチモーダルな大規模言語モデルをゼロショットで活用するなど,ナビゲーション・ヘルパーエージェントを構築するための2つのアプローチを検討する。 自動ベンチマークと人的評価の両方に基づいてタスクと手法の分析を行った。 プロジェクトウェブサイト: https://sites.google.com/view/response2helprequests/home

Intelligent navigation-helper agents are critical as they can navigate users in unknown areas through environmental awareness and conversational ability, serving as potential accessibility tools for individuals with disabilities. In this work, we first introduce a novel benchmark, Respond to Help Requests (R2H), to promote the development of multi-modal navigation helpers capable of responding to requests for help, utilizing existing dialog-based embodied datasets. R2H mainly includes two tasks: (1) Respond to Dialog History (RDH), which assesses the helper agent's ability to generate informative responses based on a given dialog history, and (2) Respond during Interaction (RdI), which evaluates the effectiveness and efficiency of the response during consistent cooperation with a task performer. Furthermore, we explore two approaches to construct the navigation-helper agent, including fine-tuning a novel task-oriented multi-modal response generation model that can see and respond, named SeeRee, and employing a multi-modal large language model in a zero-shot manner. Analysis of the task and method was conducted based on both automatic benchmarking and human evaluations. Project website: https://sites.google.com/view/response2helprequests/home.
翻訳日:2023-10-18 21:41:23 公開日:2023-10-17
# CLIP4STR: 事前学習型視覚言語モデルによるシーンテキスト認識のための簡易ベースライン

CLIP4STR: A Simple Baseline for Scene Text Recognition with Pre-trained Vision-Language Model ( http://arxiv.org/abs/2305.14014v2 )

ライセンス: Link先を確認
Shuai Zhao, Xiaohan Wang, Linchao Zhu, Ruijie Quan, Yi Yang(参考訳) 事前学習された視覚言語モデル~(VLM)は、様々な下流タスクのためのデファクト基礎モデルである。 しかし、シーンテキスト認識法は、VLMが強力なシーンテキストリーダーとして機能する可能性にもかかわらず、単一のモダリティ、すなわち視覚的モダリティで事前訓練されたバックボーンを好む。 例えば、CLIPは画像中の正規(水平)および不規則(回転、湾曲、ぼやけた、あるいは隠された)テキストを堅牢に識別することができる。 このようなメリットにより、CLIPをシーンテキストリーダーに変換し、CLIPのイメージエンコーダとテキストエンコーダ上に構築されたシンプルで効果的なSTRメソッドであるCLIP4STRを導入する。 ビジュアルブランチとクロスモーダルブランチの2つのエンコーダ/デコーダブランチがある。 視覚分岐は、視覚特徴に基づく初期予測を提供し、横断的分岐は、視覚特徴とテキスト意味論の相違に対処することによって、この予測を洗練させる。 両分岐の機能を完全に活用するために、推論のための2つの予測と再定義の復号方式を設計する。 CLIP4STRは11のSTRベンチマークで新しい最先端のパフォーマンスを実現する。 さらに、CLIPのSTRへの適応の理解を高めるための総合的な実証研究が提供される。 提案手法は,VLMを用いた今後のSTR研究において,単純だが強力なベースラインを確立するものである。

Pre-trained vision-language models~(VLMs) are the de-facto foundation models for various downstream tasks. However, scene text recognition methods still prefer backbones pre-trained on a single modality, namely, the visual modality, despite the potential of VLMs to serve as powerful scene text readers. For example, CLIP can robustly identify regular (horizontal) and irregular (rotated, curved, blurred, or occluded) text in images. With such merits, we transform CLIP into a scene text reader and introduce CLIP4STR, a simple yet effective STR method built upon image and text encoders of CLIP. It has two encoder-decoder branches: a visual branch and a cross-modal branch. The visual branch provides an initial prediction based on the visual feature, and the cross-modal branch refines this prediction by addressing the discrepancy between the visual feature and text semantics. To fully leverage the capabilities of both branches, we design a dual predict-and-refine decoding scheme for inference. CLIP4STR achieves new state-of-the-art performance on 11 STR benchmarks. Additionally, a comprehensive empirical study is provided to enhance the understanding of the adaptation of CLIP to STR. We believe our method establishes a simple but strong baseline for future STR research with VLMs.
翻訳日:2023-10-18 21:41:00 公開日:2023-10-17
# 画像テキストグラフ空間における粗相関学習による視覚・言語構成性の向上

Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for Improved Vision-Language Compositionality ( http://arxiv.org/abs/2305.13812v2 )

ライセンス: Link先を確認
Harman Singh, Pengchuan Zhang, Qifan Wang, Mengjiao Wang, Wenhan Xiong, Jingfei Du, Yu Chen(参考訳) 対照的に訓練された視覚言語モデルは、視覚と言語表現の学習において著しく進歩し、様々な下流のマルチモーダルタスクのための最先端のモデルに繋がった。 しかし、最近の研究では、オブジェクト、属性、関係性に対して構成的推論を行う能力において、これらのモデルの厳しい制限が強調されている。 シーングラフは、イメージを合成的に理解する効果的な方法として登場した。 これらは、オブジェクト、それらの属性、シーン内の他のオブジェクトとの関係を含む画像のグラフ構造化セマンティック表現である。 本研究では,テキストから解析したシーングラフを画像シーングラフのプロキシとして考慮し,様々な複雑な文を同じ画像にアライメントする画像とテキスト間の粗い相互差分学習目標とともに,グラフ分解と拡張フレームワークを提案する。 これと合わせて,属性結合と関係理解を改善するために,シーングラフ空間における新規な負のマイニング手法を提案する。 本研究では,提案する複数のベンチマークにおいて,属性結合,関係理解,系統的一般化,生産性を大幅に向上させる手法の有効性を実証すると共に,様々なマルチモーダルタスクにおけるクリップと同等あるいは優れた性能を実現するとともに,提案手法の有効性を実証する。

Contrastively trained vision-language models have achieved remarkable progress in vision and language representation learning, leading to state-of-the-art models for various downstream multimodal tasks. However, recent research has highlighted severe limitations of these models in their ability to perform compositional reasoning over objects, attributes, and relations. Scene graphs have emerged as an effective way to understand images compositionally. These are graph-structured semantic representations of images that contain objects, their attributes, and relations with other objects in a scene. In this work, we consider the scene graph parsed from text as a proxy for the image scene graph and propose a graph decomposition and augmentation framework along with a coarse-to-fine contrastive learning objective between images and text that aligns sentences of various complexities to the same image. Along with this, we propose novel negative mining techniques in the scene graph space for improving attribute binding and relation understanding. Through extensive experiments, we demonstrate the effectiveness of our approach that significantly improves attribute binding, relation understanding, systematic generalization, and productivity on multiple recently proposed benchmarks (For example, improvements upto $18\%$ for systematic generalization, $16.5\%$ for relation understanding over a strong baseline), while achieving similar or better performance than CLIP on various general multimodal tasks.
翻訳日:2023-10-18 21:40:37 公開日:2023-10-17
# 関連文書における意味的差異の教師なし認識に向けて

Towards Unsupervised Recognition of Semantic Differences in Related Documents ( http://arxiv.org/abs/2305.13303v2 )

ライセンス: Link先を確認
Jannis Vamvas and Rico Sennrich(参考訳) 2つの文書のセマンティックな違いを引き起こす単語を自動的にハイライトすることは、広範囲のアプリケーションに有用である。 トークンレベルの回帰タスクとして意味差(RSD)を認識し,マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。 アプローチを評価するために、まず英語の基本文から始め、より複雑で言語横断的な文書ペアに徐々に移行する。 本研究は,単語アライメントと文レベルのコントラスト学習に基づくアプローチが,ゴールドラベルと強い相関を持つことを示す。 しかし、すべての教師なしアプローチは依然として大きな改善点を残している。 実験を再現するコードはhttps://github.com/ZurichNLP/recognizing-semantic-differencesで公開されている。

Automatically highlighting words that cause semantic differences between two documents could be useful for a wide range of applications. We formulate recognizing semantic differences (RSD) as a token-level regression task and study three unsupervised approaches that rely on a masked language model. To assess the approaches, we begin with basic English sentences and gradually move to more complex, cross-lingual document pairs. Our results show that an approach based on word alignment and sentence-level contrastive learning has a robust correlation to gold labels. However, all unsupervised approaches still leave a large margin of improvement. Code to reproduce our experiments is available at https://github.com/ZurichNLP/recognizing-semantic-differences
翻訳日:2023-10-18 21:40:13 公開日:2023-10-17
# 形状のViT:計算最適モデル設計のためのスケーリング法則

Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design ( http://arxiv.org/abs/2305.13035v3 )

ライセンス: Link先を確認
Ibrahim Alabdulmohsin, Xiaohua Zhai, Alexander Kolesnikov, Lucas Beyer(参考訳) スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。 このような手法を改良して、幅や深さなどの計算最適モデル形状を推定し、視覚トランスフォーマーでこれをうまく実装した。 我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。 例えば、SoViT-400m/14はILSRCV2012で90.3%の微調整精度を達成し、はるかに大きなViT-g/14を超え、同じ設定でViT-G/14に近づく。 画像分類,キャプション,vqa,ゼロショット転送など,複数のタスクにわたって徹底的な評価を行い,幅広い領域にわたるモデルの有効性と限界の特定を実証した。 全体として、私たちの発見は視覚モデルを盲目的にスケールアップし、より詳細なスケーリングの道を開くという一般的なアプローチに挑戦しています。

Scaling laws have been recently employed to derive compute-optimal model size (number of parameters) for a given compute duration. We advance and refine such methods to infer compute-optimal model shapes, such as width and depth, and successfully implement this in vision transformers. Our shape-optimized vision transformer, SoViT, achieves results competitive with models that exceed twice its size, despite being pre-trained with an equivalent amount of compute. For example, SoViT-400m/14 achieves 90.3% fine-tuning accuracy on ILSRCV2012, surpassing the much larger ViT-g/14 and approaching ViT-G/14 under identical settings, with also less than half the inference cost. We conduct a thorough evaluation across multiple tasks, such as image classification, captioning, VQA and zero-shot transfer, demonstrating the effectiveness of our model across a broad range of domains and identifying limitations. Overall, our findings challenge the prevailing approach of blindly scaling up vision models and pave a path for a more informed scaling.
翻訳日:2023-10-18 21:40:00 公開日:2023-10-17
# ラベル破壊対応のためのメタラベル補正の強化

Enhanced Meta Label Correction for Coping with Label Corruption ( http://arxiv.org/abs/2305.12961v2 )

ライセンス: Link先を確認
Mitchell Keren Taraday, Chaim Baskin(参考訳) ノイズラベルのある従来の学習方法は、人工的に注入されたノイズを伴うデータセットをうまく扱ったが、それでも現実世界のノイズを適切に扱えない。 機械学習のさまざまな分野におけるメタラーニングの利用の増加に伴い、研究者は補助的な小さなクリーンデータセットを利用してトレーニングラベルをメタ補正した。 それでも、既存のメタラベル補正アプローチは、その潜在能力を十分に活用していない。 本研究では,雑音ラベル(LNL)問題に対するEMLCと略される拡張メタラベル補正手法を提案する。 メタ学習プロセスを再検討し、より高速で正確なメタ段階の導出を導入する。 本稿では,LNL問題に特化して,新たな学習目標を備えた新しい教員アーキテクチャを提案する。 EMLCは従来の手法より優れており、すべての標準ベンチマークで最先端の結果が得られる。 特に、EMLCは、ノイズの多い実世界のデータセットであるClothing1Mを1.52 %$で拡張し、エポック毎の0.5ドルの時間を必要とし、ベースラインアプローチと比較してメタオブジェクトの収束がはるかに速い。

Traditional methods for learning with the presence of noisy labels have successfully handled datasets with artificially injected noise but still fall short of adequately handling real-world noise. With the increasing use of meta-learning in the diverse fields of machine learning, researchers leveraged auxiliary small clean datasets to meta-correct the training labels. Nonetheless, existing meta-label correction approaches are not fully exploiting their potential. In this study, we propose an Enhanced Meta Label Correction approach abbreviated as EMLC for the learning with noisy labels (LNL) problem. We re-examine the meta-learning process and introduce faster and more accurate meta-gradient derivations. We propose a novel teacher architecture tailored explicitly to the LNL problem, equipped with novel training objectives. EMLC outperforms prior approaches and achieves state-of-the-art results in all standard benchmarks. Notably, EMLC enhances the previous art on the noisy real-world dataset Clothing1M by $1.52\%$ while requiring $\times 0.5$ the time per epoch and with much faster convergence of the meta-objective when compared to the baseline approach.
翻訳日:2023-10-18 21:39:38 公開日:2023-10-17
# MacLaSa: コンパクト潜在空間からの効率的なサンプリングによる多視点制御可能なテキスト生成

MacLaSa: Multi-Aspect Controllable Text Generation via Efficient Sampling from Compact Latent Space ( http://arxiv.org/abs/2305.12785v2 )

ライセンス: Link先を確認
Hanxing Ding, Liang Pang, Zihao Wei, Huawei Shen, Xueqi Cheng, Tat-Seng Chua(参考訳) マルチアスペクト制御可能なテキスト生成は、複数の望ましい属性を同時に持つ流動文を生成することを目的としている。 従来の手法では、デコード段階で多くの演算子を組み合わせ、しばしばコストのかかるイテレーションや離散テキスト空間での検索を組み合わせたり、それぞれのアスペクトに対して個別のコントローラを訓練することで、異なるアスペクト間の相違によるテキスト品質の劣化をもたらす。 これらの制約に対処するため,我々は,コンパクトな潜在空間を複数の側面から推定し,正規微分方程式(odes)に基づくロバストなスミアを用いて効率的なサンプリングを行うマルチスペクトル制御のための新しい手法,maclasaを導入する。 異なるアスペクト間のドメインギャップを解消するために、可変オートエンコーダ(VAE)ネットワークを用いて、異なるデータソースから近い潜在表現へテキストシーケンスをマッピングする。 推定潜在空間は、ジョイントエネルギーベースモデル(EBM)の定式化と、任意の属性判別器のプラグインにより、マルチアスペクト制御を実現する。 その後、我々はODEベースのサンプルを用いて潜在ベクトルサンプルを描画し、サンプルサンプルをVAEデコーダに供給し、ターゲットのテキストシーケンスを生成する。 実験結果から,MacLaSaは高い推論速度を維持しつつ,属性関連性やテキスト品質を高いベースラインで向上することが示された。

Multi-aspect controllable text generation aims to generate fluent sentences that possess multiple desired attributes simultaneously. Traditional methods either combine many operators in the decoding stage, often with costly iteration or search in the discrete text space, or train separate controllers for each aspect, resulting in a degeneration of text quality due to the discrepancy between different aspects. To address these limitations, we introduce a novel approach for multi-aspect control, namely MacLaSa, that estimates compact latent space for multiple aspects and performs efficient sampling with a robust sampler based on ordinary differential equations (ODEs). To eliminate the domain gaps between different aspects, we utilize a Variational Autoencoder (VAE) network to map text sequences from varying data sources into close latent representations. The estimated latent space enables the formulation of joint energy-based models (EBMs) and the plugging in of arbitrary attribute discriminators to achieve multi-aspect control. Afterwards, we draw latent vector samples with an ODE-based sampler and feed sampled examples to the VAE decoder to produce target text sequences. Experimental results demonstrate that MacLaSa outperforms several strong baselines on attribute relevance and textual quality while maintaining a high inference speed.
翻訳日:2023-10-18 21:39:18 公開日:2023-10-17
# Markov $\alpha$-Potential Games: Equilibrium Approximation and Regret Analysis

Markov $\alpha$-Potential Games: Equilibrium Approximation and Regret Analysis ( http://arxiv.org/abs/2305.12553v3 )

ライセンス: Link先を確認
Xin Guo and Xinyu Li and Chinmay Maheshwari and Shankar Sastry and Manxi Wu(参考訳) 本稿では,マルコフゲームにおけるマルチエージェントインタラクションを研究するための新しいフレームワーク,markov $\alpha$-potential gameを提案する。 ゲームがmarkov $\alpha$-potential gameと呼ばれるのは、マルコフゲームにおける一方的な方針偏差の下でのプレイヤーの価値関数の変化とマルコフポテンシャルゲームとのペアリー差が$\alpha$で区切られるような、マルコフポテンシャルゲームが存在する場合である。 特別の場合、マルコフポテンシャルゲームはマルコフ$\alpha$-ポテンシャルゲームと$\alpha=0$である。 ゲームパラメーターへの$\alpha$の依存は、実質的に関連する2種類のゲーム、すなわちマルコフ混雑ゲームと摂動したマルコフチームゲームによって明確に特徴づけられる。 一般的なマルコフゲームでは、与えられたゲームに最も近いマルコフポテンシャルゲームを$\alpha$で計算できる最適化ベースのアプローチが導入されている。 このアプローチは、ゲームがマルコフポテンシャルゲームであるかどうかの検証や、候補ポテンシャル機能の提供にも利用できる。 マルコフ$\alpha$-potential gamesにおける定常ナッシュ平衡を近似するために、投影勾配上昇アルゴリズムと系列最大1段階改善法という2つのアルゴリズムが提供され、対応するnash-regret解析が提示される。 数値実験により、単純なアルゴリズムはマルコフ$\alpha$-ポテンシャルゲームで近似平衡を見つけることができることを示した。

This paper proposes a new framework to study multi-agent interactions in Markov games: Markov $\alpha$-potential game. A game is called Markov $\alpha$-potential game if there exists a Markov potential game such that the pairwise difference between the change of a player's value function under a unilateral policy deviation in the Markov game and Markov potential game can be bounded by $\alpha$. As a special case, Markov potential games are Markov $\alpha$-potential games with $\alpha=0$. The dependence of $\alpha$ on the game parameters is also explicitly characterized in two classes of games that are practically-relevant: Markov congestion games and the perturbed Markov team games. For general Markov games, an optimization-based approach is introduced which can compute a Markov potential game which is closest to the given game in terms of $\alpha$. This approach can also be used to verify whether a game is a Markov potential game, and provide a candidate potential function. Two algorithms -- the projected gradient-ascent algorithm and the {sequential maximum one-stage improvement} -- are provided to approximate the stationary Nash equilibrium in Markov $\alpha$-potential games and the corresponding Nash-regret analysis is presented. The numerical experiments demonstrate that simple algorithms are capable of finding approximate equilibrium in Markov $\alpha$-potential games.
翻訳日:2023-10-18 21:38:53 公開日:2023-10-17
# オブジェクト発見のための回転機能

Rotating Features for Object Discovery ( http://arxiv.org/abs/2306.00600v2 )

ライセンス: Link先を確認
Sindy L\"owe, Phillip Lippe, Francesco Locatello, Max Welling(参考訳) 人間の認知における結合問題は、脳が神経接続の固定されたネットワーク内の物体をどのように表現し接続するかに関するものであり、激しい議論の対象となっている。 教師なしの設定でこの問題に対処する機械学習の取り組みの多くは、スロットベースの手法に重点を置いている。 最近、分散オブジェクト中心の表現を連続的に学習する代替手段として、複合オートエンコーダが提案されている。 しかし、これは単純な玩具データのみに適用できる。 本稿では,回転特徴,複素値特徴の高次元への一般化,分散表現からオブジェクトを抽出するための新しい評価手法を提案する。 さらに,事前学習した機能へのアプローチの適用性を示す。 これらの進歩によって、分散オブジェクト中心の表現を単純なおもちゃから現実世界のデータにスケールできるのです。 この作業は、機械学習のバインディング問題に対処するための新しいパラダイムを前進させ、この分野のさらなるイノベーションを刺激する可能性を秘めている。

The binding problem in human cognition, concerning how the brain represents and connects objects within a fixed network of neural connections, remains a subject of intense debate. Most machine learning efforts addressing this issue in an unsupervised setting have focused on slot-based methods, which may be limiting due to their discrete nature and difficulty to express uncertainty. Recently, the Complex AutoEncoder was proposed as an alternative that learns continuous and distributed object-centric representations. However, it is only applicable to simple toy data. In this paper, we present Rotating Features, a generalization of complex-valued features to higher dimensions, and a new evaluation procedure for extracting objects from distributed representations. Additionally, we show the applicability of our approach to pre-trained features. Together, these advancements enable us to scale distributed object-centric representations from simple toy to real-world data. We believe this work advances a new paradigm for addressing the binding problem in machine learning and has the potential to inspire further innovation in the field.
翻訳日:2023-10-18 21:30:05 公開日:2023-10-17
# 空間変換器ネットワークを用いた舌超音波によるサイレント音声インタフェースの適応

Adaptation of Tongue Ultrasound-Based Silent Speech Interfaces Using Spatial Transformer Networks ( http://arxiv.org/abs/2305.19130v3 )

ライセンス: Link先を確認
L\'aszl\'o T\'oth, Amin Honarmandi Shandiz, G\'abor Gosztolya, Csap\'o Tam\'as G\'abor(参考訳) 最新のディープラーニングアルゴリズムにより、サイレント音声インタフェース(SSI)は、特定の条件下での調音運動データから知覚可能な音声を合成できるようになった。 しかし、結果のモデルはかなりスピーカー固有のもので、ユーザー間で素早く切り替えるのが面倒だ。 同じ話者であっても、これらのモデルは、記録装置の降着と再装着後のクロスセッションが不十分である。 超音波舌画像を用いたSSIモデルの迅速な話者適応とセッション適応を支援するため,入力画像上でアフィン変換を行うことのできる空間トランスフォーマネットワーク(STN)モジュールを用いてディープネットワークを拡張した。 STNはネットワークの約10%を占めるが,本実験では,STNモジュールのみを適応させることで,ネットワーク全体を再トレーニングするよりも平均88%のMSEを削減できることを示した。 ネットワークを同じスピーカーから異なる録音セッションに適応させると、改善はさらに大きくなります(約92%)。

Thanks to the latest deep learning algorithms, silent speech interfaces (SSI) are now able to synthesize intelligible speech from articulatory movement data under certain conditions. However, the resulting models are rather speaker-specific, making a quick switch between users troublesome. Even for the same speaker, these models perform poorly cross-session, i.e. after dismounting and re-mounting the recording equipment. To aid quick speaker and session adaptation of ultrasound tongue imaging-based SSI models, we extend our deep networks with a spatial transformer network (STN) module, capable of performing an affine transformation on the input images. Although the STN part takes up only about 10% of the network, our experiments show that adapting just the STN module might allow to reduce MSE by 88% on the average, compared to retraining the whole network. The improvement is even larger (around 92%) when adapting the network to different recording sessions from the same speaker.
翻訳日:2023-10-18 21:29:31 公開日:2023-10-17
# パンデミック文化戦争:新型コロナに関する議論の道徳言語における党派的相違

Pandemic Culture Wars: Partisan Differences in the Moral Language of COVID-19 Discussions ( http://arxiv.org/abs/2305.18533v2 )

ライセンス: Link先を確認
Ashwin Rao, Siyi Guo, Sze-Yuh Nina Wang, Fred Morstatter and Kristina Lerman(参考訳) 新型コロナウイルスの感染拡大を抑制するには、マスクや隔離などの緩和策を協調的に採用する必要がある。 しかし、新型コロナウイルス(covid-19)パンデミックが示すように、政治部門は適切な対応に関する合意を妨げる可能性がある。 これらの部門をよりよく理解するため、本研究では新型コロナウイルス関連のツイートの膨大なコレクションを調査した。 われわれは新型コロナウイルス、ロックダウン、マスク、教育、ワクチンの5つの問題に焦点を当てている。 本稿では,問題関連ツイートを識別するための弱い教師付き手法について述べるとともに,モラル言語の分析や政治イデオロギーの推測に最先端の計算手法を用いる。 我々は、これらの問題について、パルチザンと道徳言語がどのように会話を形成するかを探る。 本研究は,異なる集団が使用する問題敬礼と道徳言語におけるイデオロギー的差異を明らかにする。 保守派はリベラル派よりも否定的な道徳的言語を使い、政治的エリートは多くの問題において非エリートよりも道徳的修辞学を多く用いている。 分裂問題の進化とモラル化を調べることは、新型コロナウイルスの議論のダイナミクスに関する貴重な洞察を与え、政策立案者がイデオロギー的分裂の出現をより深く理解するのを助けることができる。

Effective response to pandemics requires coordinated adoption of mitigation measures, like masking and quarantines, to curb a virus's spread. However, as the COVID-19 pandemic demonstrated, political divisions can hinder consensus on the appropriate response. To better understand these divisions, our study examines a vast collection of COVID-19-related tweets. We focus on five contentious issues: coronavirus origins, lockdowns, masking, education, and vaccines. We describe a weakly supervised method to identify issue-relevant tweets and employ state-of-the-art computational methods to analyze moral language and infer political ideology. We explore how partisanship and moral language shape conversations about these issues. Our findings reveal ideological differences in issue salience and moral language used by different groups. We find that conservatives use more negatively-valenced moral language than liberals and that political elites use moral rhetoric to a greater extent than non-elites across most issues. Examining the evolution and moralization on divisive issues can provide valuable insights into the dynamics of COVID-19 discussions and assist policymakers in better understanding the emergence of ideological divisions.
翻訳日:2023-10-18 21:29:14 公開日:2023-10-17
# 振動子変圧器によるタスクの模倣と動作計画

Imitating Task and Motion Planning with Visuomotor Transformers ( http://arxiv.org/abs/2305.16309v3 )

ライセンス: Link先を確認
Murtaza Dalal, Ajay Mandlekar, Caelan Garrett, Ankur Handa, Ruslan Salakhutdinov, Dieter Fox(参考訳) 模倣学習はロボット操作ポリシーをトレーニングするための強力なツールであり、手動プログラミングや試行錯誤なしに専門家によるデモンストレーションから学ぶことができる。 しかし、人間の監督のような一般的なデータ収集方法は、時間と労力がかかるため、スケールが貧弱である。 対照的に、タスク・アンド・モーション・プランニング(TAMP)は多様なデモンストレーションの大規模なデータセットを自律的に生成できる。 本研究では,tampスーパーバイザが生成する大規模データセットと,それらに適合するフレキシブルトランスフォーマーモデルの組み合わせがロボット操作の強力なパラダイムであることを示す。 そこで本研究では,TAMPエージェントを模倣して大規模ビジュモータトランスフォーマーポリシーを訓練する,OPTIMUSと呼ばれる新しい模倣学習システムを提案する。 OPTIMUSは、模倣学習用に特別にキュレートされたTAMPデータを生成するパイプラインを導入し、パフォーマンストランスフォーマーベースのポリシーのトレーニングに使用することができる。 本稿では,TAMP を模倣するために必要な設計上の決定を徹底的に検討し,OPTIMUS が70 以上の物体から70 以上の物体を対象とし,70 から80% の成功率を達成できることを示す。 ビデオ結果とコードはhttps://mihdal.github.io/optimus/

Imitation learning is a powerful tool for training robot manipulation policies, allowing them to learn from expert demonstrations without manual programming or trial-and-error. However, common methods of data collection, such as human supervision, scale poorly, as they are time-consuming and labor-intensive. In contrast, Task and Motion Planning (TAMP) can autonomously generate large-scale datasets of diverse demonstrations. In this work, we show that the combination of large-scale datasets generated by TAMP supervisors and flexible Transformer models to fit them is a powerful paradigm for robot manipulation. To that end, we present a novel imitation learning system called OPTIMUS that trains large-scale visuomotor Transformer policies by imitating a TAMP agent. OPTIMUS introduces a pipeline for generating TAMP data that is specifically curated for imitation learning and can be used to train performant transformer-based policies. In this paper, we present a thorough study of the design decisions required to imitate TAMP and demonstrate that OPTIMUS can solve a wide variety of challenging vision-based manipulation tasks with over 70 different objects, ranging from long-horizon pick-and-place tasks, to shelf and articulated object manipulation, achieving 70 to 80% success rates. Video results and code at https://mihdalal.github.io/optimus/
翻訳日:2023-10-18 21:28:32 公開日:2023-10-17
# 自然言語生成のためのアクティブラーニング

Active Learning for Natural Language Generation ( http://arxiv.org/abs/2305.15040v2 )

ライセンス: Link先を確認
Yotam Perlitz and Ariel Gera, Michal Shmueli-Scheuer, Dafna Sheinwald, Noam Slonim, Liat Ein-Dor(参考訳) 自然言語生成(NLG)の分野は、手作業のアノテーションに非常に高価で時間を要するため、ラベル付きデータの不足に悩まされている。 この問題に対処するための自然なアプローチは、最も有意義な例を選択的に選択することによって、アノテーション効率を改善するための有名な機械学習テクニックであるactive learning (al)である。 しかし、ALはテキスト分類の文脈でよく研究されてきたが、NLGへの応用はほとんど未調査である。 本稿では,多様なタスクセットと複数の指導的選択戦略を考慮したNLGの能動学習に関する最初の体系的研究を行い,強力な指導訓練モデルを用いた。 以上の結果から,既存のal戦略の性能は矛盾しており,ランダムな例選択のベースラインを上回っているが,そうでない場合もある。 分類シナリオと生成シナリオの顕著な違いを浮き彫りにして,既存のal戦略の選択行動を分析した。 本研究は,alを生成タスクに適用するための新しいアプローチを探求する動機付けである。

The field of Natural Language Generation (NLG) suffers from a severe shortage of labeled data due to the extremely expensive and time-consuming process involved in manual annotation. A natural approach for coping with this problem is active learning (AL), a well-known machine learning technique for improving annotation efficiency by selectively choosing the most informative examples to label. However, while AL has been well-researched in the context of text classification, its application to NLG remains largely unexplored. In this paper, we present a first systematic study of active learning for NLG, considering a diverse set of tasks and multiple leading selection strategies, and harnessing a strong instruction-tuned model. Our results indicate that the performance of existing AL strategies is inconsistent, surpassing the baseline of random example selection in some cases but not in others. We highlight some notable differences between the classification and generation scenarios, and analyze the selection behaviors of existing AL strategies. Our findings motivate exploring novel approaches for applying AL to generation tasks.
翻訳日:2023-10-18 21:27:28 公開日:2023-10-17
# Sophia: 言語モデル事前トレーニングのためのスケーラブルな確率的2次最適化

Sophia: A Scalable Stochastic Second-order Optimizer for Language Model Pre-training ( http://arxiv.org/abs/2305.14342v3 )

ライセンス: Link先を確認
Hong Liu, Zhiyuan Li, David Hall, Percy Liang, Tengyu Ma(参考訳) 言語モデルの事前学習の膨大なコストを考えると、最適化アルゴリズムの非自明な改善は、トレーニングの時間とコストの物質的削減につながるだろう。 アダムとその変種は長年最先端であり、より洗練された第2次最適化(ヘシアンベース)はしばしばステップ毎のオーバーヘッドを負う。 本稿では,対角ヘッシアンの軽量推定を前提条件として用いた,スケーラブルな2次最適化手法であるソフィアを提案する。 この更新は、推定されたヘッセンの移動平均で分割された勾配の移動平均であり、次いで要素ワイドクリッピングである。 クリップは最悪のケースの更新サイズを制御し、非凸性の悪影響と軌道に沿ったヘッセンの急速な変化を和らげる。 sophiaは一握りのイテレーションで対角ヘッシアンを見積もるだけで、ステップ毎の平均時間とメモリオーバーヘッドは無視できる。 125mから1.5bまでのサイズのgptモデルを用いた言語モデリングでは、sophiaはステップ数、計算総数、壁時計時間においてadamと比較して2倍のスピードアップを達成し、50%のステップ数、計算総数、壁時計時間の短縮で同じパープレキシティを達成する。 理論的には、ソフィアはより単純化された設定で、異なるパラメータ次元のヘテロジニアス曲率に適応し、損失の条件数に依存しない実行時境界を持つことを示す。

Given the massive cost of language model pre-training, a non-trivial improvement of the optimization algorithm would lead to a material reduction on the time and cost of training. Adam and its variants have been state-of-the-art for years, and more sophisticated second-order (Hessian-based) optimizers often incur too much per-step overhead. In this paper, we propose Sophia, Second-order Clipped Stochastic Optimization, a simple scalable second-order optimizer that uses a light-weight estimate of the diagonal Hessian as the pre-conditioner. The update is the moving average of the gradients divided by the moving average of the estimated Hessian, followed by element-wise clipping. The clipping controls the worst-case update size and tames the negative impact of non-convexity and rapid change of Hessian along the trajectory. Sophia only estimates the diagonal Hessian every handful of iterations, which has negligible average per-step time and memory overhead. On language modeling with GPT models of sizes ranging from 125M to 1.5B, Sophia achieves a 2x speed-up compared to Adam in the number of steps, total compute, and wall-clock time, achieving the same perplexity with 50% fewer steps, less total compute, and reduced wall-clock time. Theoretically, we show that Sophia, in a much simplified setting, adapts to the heterogeneous curvatures in different parameter dimensions, and thus has a run-time bound that does not depend on the condition number of the loss.
翻訳日:2023-10-18 21:27:11 公開日:2023-10-17
# 自己修復はコード生成のための銀の弾丸か?

Is Self-Repair a Silver Bullet for Code Generation? ( http://arxiv.org/abs/2306.09896v4 )

ライセンス: Link先を確認
Theo X. Olausson, Jeevana Priya Inala, Chenglong Wang, Jianfeng Gao, Armando Solar-Lezama(参考訳) 大規模な言語モデルはコード生成に顕著な適性を示しているが、それでも困難なタスクに苦戦している。 自己修復(Self-repair) — モデルが自身のコードでエラーをデバッグし修正する — は、最近、これらの設定のパフォーマンスを高める手段として人気になっている。 しかし、どのようにして自己修復が効果的に機能するかに関するごく限られた研究だけが文献に存在し、モデルがそもそも同じモデルによって生成されたコードの誤りをいかに修復できるかを疑問視しているかもしれない。 本稿では,人間性やアプリから発生する問題に対して,コードllama,gpt-3.5,gpt-4の自己修復能力を分析し,修復コストを考慮した場合,利得は控えめで,データのサブセット間で大きく異なり,時には存在しないことを発見した。 これは、自己修復は、モデルが自身のコードに対してフィードバックを提供する能力にボトルネックがあるためである、という仮説を立てている。 最後に,gpt-4においても,人体からのフィードバックによるモデル提供は修復に大いに有効であり,観察した違いを簡潔に定性的に分析する。

Large language models have shown remarkable aptitude in code generation, but still struggle on challenging tasks. Self-repair -- in which the model debugs and fixes mistakes in its own code -- has recently become a popular way to boost performance in these settings. However, only very limited studies on how and when self-repair works effectively exist in the literature, and one might wonder to what extent a model is really capable of repairing mistakes in code which was originally generated by that very same model. In this paper, we analyze Code Llama, GPT-3.5 and GPT-4's ability to perform self-repair on problems taken from HumanEval or APPS, finding that when the cost of carrying out repair is taken into account, gains are often modest, vary significantly between subsets of the data, and are sometimes not present at all. We hypothesize that this is because self-repair is bottlenecked by the model's ability to provide feedback on its own code; boosting the feedback with stronger models, we observe performance gains even in settings where the model does not benefit from self-repair. Finally, we find that providing the model with feedback from human participants greatly benefits repair even for GPT-4, and carry out a brief qualitative analysis of the differences observed.
翻訳日:2023-10-18 21:21:15 公開日:2023-10-17
# 安全なベイズ最適化による移動制御器のチューニング

Tuning Legged Locomotion Controllers via Safe Bayesian Optimization ( http://arxiv.org/abs/2306.07092v2 )

ライセンス: Link先を確認
Daniel Widmer, Dongho Kang, Bhavya Sukhija, Jonas H\"ubotter, Andreas Krause, Stelian Coros(参考訳) 本稿では,ロボットハードウェアプラットフォームにおけるモデルベースコントローラの展開を合理化するデータ駆動戦略を提案する。 本手法は,制御体系における単純化されたモデルと実システムとのミスマッチを解消し,制御ゲインのチューニングを自動化するためのモデルフリーセーフラーニングアルゴリズムを活用する。 この方法は、おそらく安全な領域内でサンプル効率良くパラメータを最適化することにより、ロボットとの危険な相互作用のリスクを実質的に軽減する。 さらに、異なる歩行パラメータをコンテキストとして組み込むためのアプローチの適用性を拡張し、多様な歩行パターンに対してモーションコントローラをチューニングできる安全なサンプル効率探索アルゴリズムを実現する。 本手法をシミュレーションとハードウェア実験により検証し,複数の歩行に対するモデルベースモーションコントローラのチューニング性能が良好であることを実証した。

This paper presents a data-driven strategy to streamline the deployment of model-based controllers in legged robotic hardware platforms. Our approach leverages a model-free safe learning algorithm to automate the tuning of control gains, addressing the mismatch between the simplified model used in the control formulation and the real system. This method substantially mitigates the risk of hazardous interactions with the robot by sample-efficiently optimizing parameters within a probably safe region. Additionally, we extend the applicability of our approach to incorporate the different gait parameters as contexts, leading to a safe, sample-efficient exploration algorithm capable of tuning a motion controller for diverse gait patterns. We validate our method through simulation and hardware experiments, where we demonstrate that the algorithm obtains superior performance on tuning a model-based motion controller for multiple gaits safely.
翻訳日:2023-10-18 21:20:49 公開日:2023-10-17
# CARSO:Blending Adversarial Training and Purificationは、Blending Adversarial Robustnessを改善する

CARSO: Blending Adversarial Training and Purification Improves Adversarial Robustness ( http://arxiv.org/abs/2306.06081v3 )

ライセンス: Link先を確認
Emanuele Ballarin, Alessio Ansuini, Luca Bortolussi(参考訳) 本研究では,画像分類のための新たな対角防御機構であるCARSOを提案する。 この方法は、敵対的に訓練された分類器を基盤とし、潜在的に混乱する可能性のある入力に関連する内部表現を仮のクリーンな再構築の分布にマッピングすることを学ぶ。 このような分布から得られた複数のサンプルは、逆向きに訓練されたモデルによって分類され、その出力の集約が最終的に関心の頑健な予測を構成する。 さまざまな画像データセットと分類器アーキテクチャにわたる、さまざまな強力な適応攻撃の確立されたベンチマークによる実験的評価は、carsoが確率的防御のために考案された適応的エンドツーエンド攻撃を含む、予期せぬ脅威や予期せぬ脅威に対して自らを防御できることを示している。 CIFAR-10 と CIFAR-100 $\ell_\infty$ の分類精度を AutoAttack に対して高い精度で向上させる。 コードと事前トレーニングされたモデルはhttps://github.com/emaballarin/CARSO で公開されている。

In this work, we propose a novel adversarial defence mechanism for image classification - CARSO - blending the paradigms of adversarial training and adversarial purification in a mutually-beneficial, robustness-enhancing way. The method builds upon an adversarially-trained classifier, and learns to map its internal representation associated with a potentially perturbed input onto a distribution of tentative clean reconstructions. Multiple samples from such distribution are classified by the adversarially-trained model itself, and an aggregation of its outputs finally constitutes the robust prediction of interest. Experimental evaluation by a well-established benchmark of varied, strong adaptive attacks, across different image datasets and classifier architectures, shows that CARSO is able to defend itself against foreseen and unforeseen threats, including adaptive end-to-end attacks devised for stochastic defences. Paying a tolerable clean accuracy toll, our method improves by a significant margin the state of the art for CIFAR-10 and CIFAR-100 $\ell_\infty$ robust classification accuracy against AutoAttack. Code and pre-trained models are available at https://github.com/emaballarin/CARSO .
翻訳日:2023-10-18 21:20:17 公開日:2023-10-17
# オフライン強化学習のための反復精製行動規則化

Iteratively Refined Behavior Regularization for Offline Reinforcement Learning ( http://arxiv.org/abs/2306.05726v2 )

ライセンス: Link先を確認
Xiaohan Hu, Yi Ma, Chenjun Xiao, Yan Zheng, Jianye Hao(参考訳) オフライン強化学習(RL)の基本的な課題の1つは、データ分散に対する堅牢性を保証することである。 データが最適に近いポリシーに由来するかどうかに関わらず、オフラインデータ固有の分布とシームレスに整合する効果的な制御ポリシーを学習する能力を示すアルゴリズムを期待する。 残念ながら、単純なオフラインRLアルゴリズムである振舞い正則化は、この点で苦労する傾向がある。 本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。 我々のキーとなる観察は、行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善し、また、破滅的な学習失敗を防ぐために、暗黙的にサンプル外アクションのクエリを避けることである。 このアルゴリズムは表の設定において、オフラインデータセットでカバーされる最適なポリシーを学習できることを実証する。 次に,関数近似を適用したアルゴリズムの実装の詳細について検討する。 結果として得られるアルゴリズムは実装が容易で、既存のメソッドにほんの数行のコード修正しか必要ありません。 d4rlベンチマークにおける実験結果から,本手法は従来の動作正規化よりも優れていることが判明した。

One of the fundamental challenges for offline reinforcement learning (RL) is ensuring robustness to data distribution. Whether the data originates from a near-optimal policy or not, we anticipate that an algorithm should demonstrate its ability to learn an effective control policy that seamlessly aligns with the inherent distribution of offline data. Unfortunately, behavior regularization, a simple yet effective offline RL algorithm, tends to struggle in this regard. In this paper, we propose a new algorithm that substantially enhances behavior-regularization based on conservative policy iteration. Our key observation is that by iteratively refining the reference policy used for behavior regularization, conservative policy update guarantees gradually improvement, while also implicitly avoiding querying out-of-sample actions to prevent catastrophic learning failures. We prove that in the tabular setting this algorithm is capable of learning the optimal policy covered by the offline dataset, commonly referred to as the in-sample optimal policy. We then explore several implementation details of the algorithm when function approximations are applied. The resulting algorithm is easy to implement, requiring only a few lines of code modification to existing methods. Experimental results on the D4RL benchmark indicate that our method outperforms previous state-of-the-art baselines in most tasks, clearly demonstrate its superiority over behavior regularization.
翻訳日:2023-10-18 21:19:56 公開日:2023-10-17
# 相関情報最大化:重み対称性のない深層ニューラルネットワークに対する生物学的にプラザブルなアプローチ

Correlative Information Maximization: A Biologically Plausible Approach to Supervised Deep Neural Networks without Weight Symmetry ( http://arxiv.org/abs/2306.04810v3 )

ライセンス: Link先を確認
Bariscan Bozkurt, Cengiz Pehlevan, Alper T Erdogan(参考訳) バックプロパゲーションアルゴリズムは、大規模ニューラルネットワークのトレーニングで顕著な成功を収めているが、その生物学的な可能性を強く批判されており、脳がそれに似た教師付き学習機構を使用しているかどうかという疑問が残されている。 本稿では,生体神経ネットワークにおける信号伝達を前方方向と後方方向の両方で記述する手法として,レイヤアクティベーション間の相関情報最大化を提案する。 この新しいフレームワークは、従来のニューラルネットワークとバックプロパゲーションアルゴリズムの生物学的可視性に関する多くの懸念に対処する。 対応する目的の座標降下に基づく最適化は、ラベル付き監督データを取り付ける平均二乗誤差損失関数と組み合わせられ、樹状処理と側方抑制ニューロンによるマルチコンパートメント錐体ニューロンのより生物学的に現実的なネットワークをエミュレートするニューラルネットワーク構造をもたらす。 さらに,本手法は,前方および後方の信号伝搬経路間の重み対称性問題に対する自然な解決法であり,従来のバックプロパゲーションアルゴリズムの可能性に対する重要な批判である。 これは、相関的な相互情報目的の2つの代替形式を活用することで達成される。 これらの代替案は本質的に重量対称性の問題のない前方および後方予測ネットワークに導かれ、この長年の課題に対する説得力のある解決策となった。

The backpropagation algorithm has experienced remarkable success in training large-scale artificial neural networks; however, its biological plausibility has been strongly criticized, and it remains an open question whether the brain employs supervised learning mechanisms akin to it. Here, we propose correlative information maximization between layer activations as an alternative normative approach to describe the signal propagation in biological neural networks in both forward and backward directions. This new framework addresses many concerns about the biological-plausibility of conventional artificial neural networks and the backpropagation algorithm. The coordinate descent-based optimization of the corresponding objective, combined with the mean square error loss function for fitting labeled supervision data, gives rise to a neural network structure that emulates a more biologically realistic network of multi-compartment pyramidal neurons with dendritic processing and lateral inhibitory neurons. Furthermore, our approach provides a natural resolution to the weight symmetry problem between forward and backward signal propagation paths, a significant critique against the plausibility of the conventional backpropagation algorithm. This is achieved by leveraging two alternative, yet equivalent forms of the correlative mutual information objective. These alternatives intrinsically lead to forward and backward prediction networks without weight symmetry issues, providing a compelling solution to this long-standing challenge.
翻訳日:2023-10-18 21:19:34 公開日:2023-10-17
# GeoDiffusion:オブジェクト検出データ生成のためのテキストプロンプト幾何制御

GeoDiffusion: Text-Prompted Geometric Control for Object Detection Data Generation ( http://arxiv.org/abs/2306.04607v5 )

ライセンス: Link先を確認
Kai Chen, Enze Xie, Zhe Chen, Yibo Wang, Lanqing Hong, Zhenguo Li, Dit-Yan Yeung(参考訳) 拡散モデルは、コンテンツを作成し、画像分類のようなタスクのためにデータを生成する素晴らしい能力のために、大きな注目を集めている。 しかし、高品質な物体検出データを生成するための拡散モデルの利用は、画像レベルの知覚的品質だけでなく、バウンディングボックスやカメラビューのような幾何学的条件も必要不可欠な領域である。 従来はコピー・ペースト合成やレイアウト・トゥ・イメージ(L2I)生成を利用していた。 本稿では,様々な幾何学的条件を柔軟にテキストプロンプトに変換し,高品質なデータ生成のための事前学習されたtext-to-image(t2i)拡散モデルを可能にするシンプルなフレームワークgeodiffusionを提案する。 従来のl2i法とは異なり、geodiffusionはバウンディングボックスだけでなく、自動運転シーンのカメラビューなどの余分な幾何学的条件もエンコードできる。 大規模な実験では、GeoDiffusionは従来のL2I法よりも高速に4倍のトレーニング時間を維持する。 私たちの知る限りでは、幾何学的な条件でレイアウトから画像への拡散モデルを採用し、l2i生成画像が物体検出器の性能向上に有用であることを実証するのはこれが初めてです。

Diffusion models have attracted significant attention due to the remarkable ability to create content and generate data for tasks like image classification. However, the usage of diffusion models to generate the high-quality object detection data remains an underexplored area, where not only image-level perceptual quality but also geometric conditions such as bounding boxes and camera views are essential. Previous studies have utilized either copy-paste synthesis or layout-to-image (L2I) generation with specifically designed modules to encode semantic layouts. In this paper, we propose GeoDiffusion, a simple framework that can flexibly translate various geometric conditions into text prompts and empower pre-trained text-to-image (T2I) diffusion models for high-quality detection data generation. Unlike previous L2I methods, our GeoDiffusion is able to encode not only the bounding boxes but also extra geometric conditions such as camera views in self-driving scenes. Extensive experiments demonstrate GeoDiffusion outperforms previous L2I methods while maintaining 4x training time faster. To the best of our knowledge, this is the first work to adopt diffusion models for layout-to-image generation with geometric conditions and demonstrate that L2I-generated images can be beneficial for improving the performance of object detectors.
翻訳日:2023-10-18 21:19:09 公開日:2023-10-17
# 異種グラフ学習のための置換同変グラフフレームレット

Permutation Equivariant Graph Framelets for Heterophilous Graph Learning ( http://arxiv.org/abs/2306.04265v3 )

ライセンス: Link先を確認
Jianfei Li, Ruigang Zheng, Han Feng, Ming Li, Xiaosheng Zhuang(参考訳) 相同性グラフの性質は相同性グラフと大きく異なるため、初期のグラフニューラルネットワークモデルでは困難を生じさせ、1-hop近傍を超えた集約を示唆する。 本稿では,グラフ上の深層学習タスクに対して,置換等分散,効率,スパーシティの望ましい特性を持つハール型グラフフレームレットを構築することにより,マルチスケール抽出を実現する新しい手法を提案する。 さらに、構築したグラフフレームレットに基づいて、グラフフレームレットニューラルネットワークモデルPEGFAN(Permutation Equivariant Graph Framelet Augmented Network)を設計する。 実験は、合成データセットと9つのベンチマークデータセットで行われ、パフォーマンスを他の最先端モデルと比較する。 その結果, 異種グラフの特定のデータセット(比較的大きなサイズとより密接な接続を持つ異種グラフの大多数を含む)における最良の性能と, 残りに対する競合性能が得られた。

The nature of heterophilous graphs is significantly different from that of homophilous graphs, which causes difficulties in early graph neural network models and suggests aggregations beyond the 1-hop neighborhood. In this paper, we develop a new way to implement multi-scale extraction via constructing Haar-type graph framelets with desired properties of permutation equivariance, efficiency, and sparsity, for deep learning tasks on graphs. We further design a graph framelet neural network model PEGFAN (Permutation Equivariant Graph Framelet Augmented Network) based on our constructed graph framelets. The experiments are conducted on a synthetic dataset and 9 benchmark datasets to compare performance with other state-of-the-art models. The result shows that our model can achieve the best performance on certain datasets of heterophilous graphs (including the majority of heterophilous datasets with relatively larger sizes and denser connections) and competitive performance on the remaining.
翻訳日:2023-10-18 21:18:47 公開日:2023-10-17
# ランダムにピボットされたcholeskyによるカーネル二次

Kernel quadrature with randomly pivoted Cholesky ( http://arxiv.org/abs/2306.03955v2 )

ライセンス: Link先を確認
Ethan N. Epperly and Elvira Moreno(参考訳) 本稿では、ランダムにピボットされたcholeskyとして知られるサンプリングアルゴリズムによって描画されたノードを用いて、再生核ヒルベルト空間における関数の新たな二次規則を提案する。 結果として得られる計算手順は、低い精度を達成するか、計算に難解なサンプリング問題を解決する必要がある以前のカーネル二次法と好適に比較される。 理論的および数値的な結果から、ランダムにピボットされたコレスキーは高速であり、連続的な体積サンプリング、薄型化、再結合に基づく計算コストの高い二次スキームと同等の二次誤差率を達成している。 ランダムにピボットされたコレスキーは任意のカーネルを持つ複雑な幾何学に容易に適応し、カーネルの二次的な新しいポテンシャルを解き放つ。

This paper presents new quadrature rules for functions in a reproducing kernel Hilbert space using nodes drawn by a sampling algorithm known as randomly pivoted Cholesky. The resulting computational procedure compares favorably to previous kernel quadrature methods, which either achieve low accuracy or require solving a computationally challenging sampling problem. Theoretical and numerical results show that randomly pivoted Cholesky is fast and achieves comparable quadrature error rates to more computationally expensive quadrature schemes based on continuous volume sampling, thinning, and recombination. Randomly pivoted Cholesky is easily adapted to complicated geometries with arbitrary kernels, unlocking new potential for kernel quadrature.
翻訳日:2023-10-18 21:18:30 公開日:2023-10-17
# ReContrast: コントラスト再構成によるドメイン特異的異常検出

ReContrast: Domain-Specific Anomaly Detection via Contrastive Reconstruction ( http://arxiv.org/abs/2306.02602v2 )

ライセンス: Link先を確認
Jia Guo, Shuai Lu, Lize Jia, Weihang Zhang, Huiqi Li(参考訳) 殆どの高度な教師なし異常検出(UAD)手法は、例えばImageNetのような大規模データセットで事前訓練された冷凍エンコーダネットワークの特徴表現をモデル化することに依存している。 しかし, 自然画像領域から借用したエンコーダから抽出した特徴は, 産業検査や医用画像などのUAD領域で要求される特徴とほとんど一致しない。 本稿では,ネットワーク全体を最適化し,事前学習した画像領域に対するバイアスを低減し,対象領域におけるネットワークの向き付けを行う,新たな認識論的uad法であるrecontrastを提案する。 まず、エラーから異常を検出する機能再構築アプローチから始める。 本質的に、コントラスト学習の要素を特徴再構成にエレガントに組み込んで、ネットワークが不安定、パターン崩壊、および同一のショートカットをトレーニングし、同時にターゲットドメイン上のエンコーダとデコーダの両方を最適化する。 様々な画像領域における転写能力を実証するために,2つの一般的な産業欠陥検出ベンチマークと3つの医療画像UADタスクにまたがる広範な実験を行った。

Most advanced unsupervised anomaly detection (UAD) methods rely on modeling feature representations of frozen encoder networks pre-trained on large-scale datasets, e.g. ImageNet. However, the features extracted from the encoders that are borrowed from natural image domains coincide little with the features required in the target UAD domain, such as industrial inspection and medical imaging. In this paper, we propose a novel epistemic UAD method, namely ReContrast, which optimizes the entire network to reduce biases towards the pre-trained image domain and orients the network in the target domain. We start with a feature reconstruction approach that detects anomalies from errors. Essentially, the elements of contrastive learning are elegantly embedded in feature reconstruction to prevent the network from training instability, pattern collapse, and identical shortcut, while simultaneously optimizing both the encoder and decoder on the target domain. To demonstrate our transfer ability on various image domains, we conduct extensive experiments across two popular industrial defect detection benchmarks and three medical image UAD tasks, which shows our superiority over current state-of-the-art methods.
翻訳日:2023-10-18 21:18:15 公開日:2023-10-17
# 生成逆ネットワークを用いたテキスト合成のための教師なしテキスト埋め込み空間生成

Unsupervised Text Embedding Space Generation Using Generative Adversarial Networks for Text Synthesis ( http://arxiv.org/abs/2306.17181v4 )

ライセンス: Link先を確認
Jun-Min Lee, Tae-Bin Ha(参考訳) GAN(Generative Adversarial Networks)は、データ合成のモデルであり、ジェネレータと識別器の競合を通じて可塑性データを生成する。 画像合成へのGANの適用は広く研究されているが、自然言語生成には固有の制限がある。 自然言語は離散トークンで構成されているため、生成元はバックプロパゲーションによる勾配の更新が困難であるため、ほとんどのテキストGAN研究は報酬システムに基づいてランダムトークンから始まる文を生成する。 このように、先行研究のジェネレータは、逆行訓練の前に自己回帰的に事前訓練され、合成文がトレーニングデータを再生するデータを記憶させる。 本稿では,従来のGANに類似したフレームワークを用いて文を合成する。 より具体的には、勾配バックプロパゲーション問題を解決するために、離散トークンの代わりに連続的なテキスト埋め込み空間を生成するtext embedded space generative adversarial networks (tesgan)を提案する。 さらに、テッガンは、データ記憶問題を克服するために、トレーニングデータのテキストを直接参照しない教師なし学習を行う。 この方法を採用することで、テッガンは新しい文を合成し、教師なし学習によるテキスト合成の可能性を示すことができる。 大規模言語モデルと,テキストを連続的な空間として見る新たな視点を組み合わせた,広範な研究が期待できる。

Generative Adversarial Networks (GAN) is a model for data synthesis, which creates plausible data through the competition of generator and discriminator. Although GAN application to image synthesis is extensively studied, it has inherent limitations to natural language generation. Because natural language is composed of discrete tokens, a generator has difficulty updating its gradient through backpropagation; therefore, most text-GAN studies generate sentences starting with a random token based on a reward system. Thus, the generators of previous studies are pre-trained in an autoregressive way before adversarial training, causing data memorization that synthesized sentences reproduce the training data. In this paper, we synthesize sentences using a framework similar to the original GAN. More specifically, we propose Text Embedding Space Generative Adversarial Networks (TESGAN) which generate continuous text embedding spaces instead of discrete tokens to solve the gradient backpropagation problem. Furthermore, TESGAN conducts unsupervised learning which does not directly refer to the text of the training data to overcome the data memorization issue. By adopting this novel method, TESGAN can synthesize new sentences, showing the potential of unsupervised learning for text synthesis. We expect to see extended research combining Large Language Models with a new perspective of viewing text as an continuous space.
翻訳日:2023-10-18 21:10:18 公開日:2023-10-17
# ベイズ境界補正によるブラックボックス識別

Defending Black-box Classifiers by Bayesian Boundary Correction ( http://arxiv.org/abs/2306.16979v2 )

ライセンス: Link先を確認
He Wang and Yunfeng Diao(参考訳) ディープニューラルネットワークに基づく分類器は、現在広く存在する脆弱性が潜在的な脅威からそれらを守るために研究を呼び起こしている敵の攻撃によって、最近挑戦されている。 脆弱な分類器が与えられた場合、既存の防御メソッドはほとんどがホワイトボックスであり、しばしば修正された損失関数/訓練レジームの下で被害者を再訓練する必要がある。 被害者のモデル/データ/トレーニング仕様は、通常はユーザーには利用できないが、限られた計算リソースなどの理由で、再トレーニングは不可能である。 そこで我々は,新しいブラックボックス防衛フレームワークを提案する。 事前訓練された分類器を、モデル仕様に関する知識がほとんどない回復力のあるものにすることができる。 これは、それらの結合確率を最大化するために、クリーンデータ、逆例、および分類器に関する新しい共同ベイズ処理によって達成される。 さらに、犠牲者を無傷に保つ新しいポストトレイン戦略も装備されている。 我々はベイズ境界補正フレームワーク(bbc)と命名する。 BBCは、さまざまなデータタイプに容易に適応できる汎用的で柔軟なフレームワークである。 我々は,静的データと動的データの両方に対して,画像分類と骨格に基づく人間の活動認識のためにBBCをインスタンス化する。 徹底的な評価の結果、bbcは従来の防御方法に比べて、堅牢性が優れており、クリーンな精度を損なうことなく堅牢性を高めることができることがわかった。

Classifiers based on deep neural networks have been recently challenged by Adversarial Attack, where the widely existing vulnerability has invoked the research in defending them from potential threats. Given a vulnerable classifier, existing defense methods are mostly white-box and often require re-training the victim under modified loss functions/training regimes. While the model/data/training specifics of the victim are usually unavailable to the user, re-training is unappealing, if not impossible for reasons such as limited computational resources. To this end, we propose a new black-box defense framework. It can turn any pre-trained classifier into a resilient one with little knowledge of the model specifics. This is achieved by new joint Bayesian treatments on the clean data, the adversarial examples and the classifier, for maximizing their joint probability. It is further equipped with a new post-train strategy which keeps the victim intact. We name our framework Bayesian Boundary Correction (BBC). BBC is a general and flexible framework that can easily adapt to different data types. We instantiate BBC for image classification and skeleton-based human activity recognition, for both static and dynamic data. Exhaustive evaluation shows that BBC has superior robustness and can enhance robustness without severely hurting the clean accuracy, compared with existing defense methods.
翻訳日:2023-10-18 21:09:57 公開日:2023-10-17
# ベクトル量子化近接場と高速高分解能テンプレートマッチング

Efficient High-Resolution Template Matching with Vector Quantized Nearest Neighbour Fields ( http://arxiv.org/abs/2306.15010v3 )

ライセンス: Link先を確認
Ankit Gupta and Ida-Maria Sintorn(参考訳) テンプレートマッチングはコンピュータビジョンにおける基本的な問題であり、オブジェクト検出、画像登録、オブジェクト追跡などの分野への応用がある。 現在の手法は近辺のNNマッチングに依存しており、クエリの特徴空間はテンプレート内の各クエリピクセルをNNで表現することでNN空間に変換される。 NNベースの手法は、オクルージョン、外観変化、非剛体変換においてより良い性能を示すことが示されているが、高分解能データと高機能次元ではあまりスケールしない。 本稿では,NN計算を効率よく削減し,NNフィールド(NNF)にフィルタリングを導入するNNベースの手法を提案する。 NN計算の前に、$k$機能でテンプレートを表現するベクトル量子化ステップを導入し、NNF上のフィルタ応答を使用して、機能上のテンプレートとクエリ分布を比較する。 その結果,低解像度データでは最先端の性能が得られ,高分解能では従来の手法を上回っていることがわかった。

Template matching is a fundamental problem in computer vision with applications in fields including object detection, image registration, and object tracking. Current methods rely on nearest-neighbour (NN) matching, where the query feature space is converted to NN space by representing each query pixel with its NN in the template. NN-based methods have been shown to perform better in occlusions, appearance changes, and non-rigid transformations; however, they scale poorly with high-resolution data and high feature dimensions. We present an NN-based method which efficiently reduces the NN computations and introduces filtering in the NN fields (NNFs). A vector quantization step is introduced before the NN calculation to represent the template with $k$ features, and the filter response over the NNFs is used to compare the template and query distributions over the features. We show that state-of-the-art performance is achieved in low-resolution data, and our method outperforms previous methods at higher resolution.
翻訳日:2023-10-18 21:09:25 公開日:2023-10-17
# 勾配不確かさとの戦い:拡散スコアマッチングによるオフライン強化学習

Fighting Uncertainty with Gradients: Offline Reinforcement Learning via Diffusion Score Matching ( http://arxiv.org/abs/2306.14079v2 )

ライセンス: Link先を確認
H.J. Terry Suh, Glen Chou, Hongkai Dai, Lujie Yang, Abhishek Gupta, Russ Tedrake(参考訳) 勾配法により高次元での効率的な探索が可能となる。 しかし、オフライン強化学習(RL)やImitation Learning(IL)のようなオフライン最適化パラダイムに効果的に適用するには、それらを最小化しようとする一階法との不確実性推定がどのように相互作用するかをより慎重に検討する必要がある。 不確実性指標としてデータとの距離の平滑化を研究し,2つの有益性があると主張した。 (i)不確実性を最小化しようとする勾配ベース手法により、平滑化をアニーリングしたデータにイテレートを流すことができる。 (ii)リプシッツ定数を用いたモデルバイアスの解析を容易にする。 データへの距離はオンラインで計算するのに費用がかかるので、この計算を償う必要がある設定を考えます。 しかし,距離を学習する代わりに,一階オプティマイザの託宣として,その勾配を直接学習することを提案する。 これらの勾配は,データ間の距離とデータ可能性の等価性を利用して,スコアマッチング手法により効率的に学習できることを示す。 この知見を用いて,ゼロ階法がスケールできず,アンサンブルが局所ミニマを克服できない高次元問題において,スコアマッチングを利用したオフラインRLの計画アルゴリズムであるスコアガイドプランニング(SGP)を提案する。 Webサイト: https://sites.google.com/view/score-guided-planning/home

Gradient-based methods enable efficient search capabilities in high dimensions. However, in order to apply them effectively in offline optimization paradigms such as offline Reinforcement Learning (RL) or Imitation Learning (IL), we require a more careful consideration of how uncertainty estimation interplays with first-order methods that attempt to minimize them. We study smoothed distance to data as an uncertainty metric, and claim that it has two beneficial properties: (i) it allows gradient-based methods that attempt to minimize uncertainty to drive iterates to data as smoothing is annealed, and (ii) it facilitates analysis of model bias with Lipschitz constants. As distance to data can be expensive to compute online, we consider settings where we need amortize this computation. Instead of learning the distance however, we propose to learn its gradients directly as an oracle for first-order optimizers. We show these gradients can be efficiently learned with score-matching techniques by leveraging the equivalence between distance to data and data likelihood. Using this insight, we propose Score-Guided Planning (SGP), a planning algorithm for offline RL that utilizes score-matching to enable first-order planning in high-dimensional problems, where zeroth-order methods were unable to scale, and ensembles were unable to overcome local minima. Website: https://sites.google.com/view/score-guided-planning/home
翻訳日:2023-10-18 21:08:47 公開日:2023-10-17
# L00Lエンタングルメントとツイスト量子消去器

L00L entanglement and the twisted quantum eraser ( http://arxiv.org/abs/2306.13620v3 )

ライセンス: Link先を確認
Dylan Danese, Sabine Wollmann, Saroch Leedumrongwatthanakun, Will McCutcheon, Manuel Erhard, William N. Plick, and Mehul Malik(参考訳) 1つの光子が基本(gauss)モードを持ち、もう1つの光子が非零アジムタール(\ell$)またはラジアル(p$)成分を持つ高次lgモードを持つラゲール・ガウシアン(lg)の非平衡2光子エンタングルメントの生成を実証する。 N00N$ state nomenclature からキューを受け取り、これらのタイプの状態を $\ell 00 \ell$-entangled と呼びます。 それらはlgモード空間で1つの光子を移動させ、ビームスプリッターで第2の(当初は無相関な)光子と結合し、その次に偶然検出することで生成される。 2光子コヒーレンスを検証するために、2光子 ``twisted' 量子消光器を実証し、そこでは香港・ウー・マンデル干渉を2つの区別可能な光子間で再現し、LG重畳基底に投影する。 絡み合いの証人を用いて、生成した状態は、それぞれの理想の最大絡み合い状態に対して95.31\%と89.80\%の忠実さを持つことが分かった。 基本的な興味の他に、この種の絡み合いは、平均的な量子物理学者の面白い骨をくすぐることに大きな影響を与える可能性が高い。

We demonstrate the generation of unbalanced two-photon entanglement in the Laguerre-Gaussian (LG) transverse-spatial degree-of-freedom, where one photon carries a fundamental (Gauss) mode and the other a higher-order LG mode with a non-zero azimuthal ($\ell$) or radial ($p$) component. Taking a cue from the $N00N$ state nomenclature, we call these types of states $\ell 00 \ell$-entangled. They are generated by shifting one photon in the LG mode space and combining it with a second (initially uncorrelated) photon at a beamsplitter, followed by coincidence detection. In order to verify two-photon coherence, we demonstrate a two-photon ``twisted'' quantum eraser, where Hong-Ou-Mandel interference is recovered between two distinguishable photons by projecting them into a rotated LG superposition basis. Using an entanglement witness, we find that our generated states have fidelities of 95.31\% and 89.80\% to their respective ideal maximally entangled states. Besides being of fundamental interest, this type of entanglement will likely have a significant impact on tickling the average quantum physicist's funny bone.
翻訳日:2023-10-18 21:08:22 公開日:2023-10-17
# ALP: 認知のための行動認識型身体学習

ALP: Action-Aware Embodied Learning for Perception ( http://arxiv.org/abs/2306.10190v2 )

ライセンス: Link先を確認
Xinran Liang, Anthony Han, Wilson Yan, Aditi Raghunathan, Pieter Abbeel(参考訳) 視覚モデルのトレーニングとベンチマークの現在の手法は、受動的でキュレートされたデータセットに対する過度な信頼を示す。 これらのデータセットでトレーニングされたモデルは、分類、検出、セグメンテーションといった幅広いタスクで強力なパフォーマンスを示しているが、入力データの分散シフトが絶え間なく変化するため、基本的に進化し続ける世界に一般化することはできない。 したがって、固定データセットのトレーニングの代わりに、より人間中心で適応的な方法で学習にアプローチできるだろうか? 本稿では、強化学習ポリシーの最適化と逆ダイナミクス予測の目的を組み合わせて、行動情報を表現学習に組み込む組込み学習フレームワークであるAction-Aware Embodied Learning for Perception (ALP)を紹介する。 本手法は複雑な3次元環境を探索し,タスクに依存しない視覚表現を学習し,下流のトレーニングデータを収集する。 alpは複数の下流知覚タスクにおいて既存のベースラインを上回っている。 さらに,本手法は,環境やタスクに関連性の高いデータを積極的に収集することで,ImageNetなどの固定データセット上で事前学習したモデルと比較して,下流タスクに頑健に一般化することを示す。

Current methods in training and benchmarking vision models exhibit an over-reliance on passive, curated datasets. Although models trained on these datasets have shown strong performance in a wide variety of tasks such as classification, detection, and segmentation, they fundamentally are unable to generalize to an ever-evolving world due to constant out-of-distribution shifts of input data. Therefore, instead of training on fixed datasets, can we approach learning in a more human-centric and adaptive manner? In this paper, we introduce Action-Aware Embodied Learning for Perception (ALP), an embodied learning framework that incorporates action information into representation learning through a combination of optimizing a reinforcement learning policy and an inverse dynamics prediction objective. Our method actively explores in complex 3D environments to both learn generalizable task-agnostic visual representations as well as collect downstream training data. We show that ALP outperforms existing baselines in several downstream perception tasks. In addition, we show that by training on actively collected data more relevant to the environment and task, our method generalizes more robustly to downstream tasks compared to models pre-trained on fixed datasets such as ImageNet.
翻訳日:2023-10-18 21:07:55 公開日:2023-10-17
# Optimizerの情報基準: データ駆動最適化におけるバイアスの分離と修正

Optimizer's Information Criterion: Dissecting and Correcting Bias in Data-Driven Optimization ( http://arxiv.org/abs/2306.10081v2 )

ライセンス: Link先を確認
Garud Iyengar, Henry Lam, Tianyu Wang(参考訳) データ駆動最適化では、得られた決定のサンプル性能は通常、オプティマイザの呪いとして知られる現象である真の性能に対する楽観的なバイアスを伴い、機械学習における過剰フィットと密接に関連している。 クロスバリデーションのようなこのバイアスを修正する一般的な手法は、追加の最適化問題を繰り返し解決する必要があるため、計算コストがかかる。 我々はOIC(Optimizer's Information Criterion)と呼ばれる一般的なバイアス補正手法を開発し、一階偏差を直接近似し、追加の最適化問題を解く必要がない。 oicは、データ駆動最適化における客観的性能を評価するために、有名な赤宅情報基準を一般化し、モデル適合性だけでなく下流最適化との相互作用も重要としている。 そのため、モデル選択のみではなく、意思決定に使用できる。 我々は,実験モデルとパラメトリックモデル,正規化モデル,さらに文脈最適化を含む,データ駆動型最適化定式化にアプローチを適用する。 最後に、合成および実世界のデータセット下でのアプローチの優れた性能に関する数値検証を行う。

In data-driven optimization, the sample performance of the obtained decision typically incurs an optimistic bias against the true performance, a phenomenon commonly known as the Optimizer's Curse and intimately related to overfitting in machine learning. Common techniques to correct this bias, such as cross-validation, require repeatedly solving additional optimization problems and are therefore computationally expensive. We develop a general bias correction approach, building on what we call Optimizer's Information Criterion (OIC), that directly approximates the first-order bias and does not require solving any additional optimization problems. Our OIC generalizes the celebrated Akaike Information Criterion to evaluate the objective performance in data-driven optimization, which crucially involves not only model fitting but also its interplay with the downstream optimization. As such it can be used for decision selection instead of only model selection. We apply our approach to a range of data-driven optimization formulations comprising empirical and parametric models, their regularized counterparts, and furthermore contextual optimization. Finally, we provide numerical validation on the superior performance of our approach under synthetic and real-world datasets.
翻訳日:2023-10-18 21:07:34 公開日:2023-10-17
# 医療・健康におけるチャットGPTと大規模言語モデルの可能性と課題

Opportunities and Challenges for ChatGPT and Large Language Models in Biomedicine and Health ( http://arxiv.org/abs/2306.10070v2 )

ライセンス: Link先を確認
Shubo Tian, Qiao Jin, Lana Yeganova, Po-Ting Lai, Qingqing Zhu, Xiuying Chen, Yifan Yang, Qingyu Chen, Won Kim, Donald C. Comeau, Rezarta Islamaj, Aadit Kapoor, Xin Gao, Zhiyong Lu(参考訳) ChatGPTはその卓越したテキスト生成能力を持つ一般とドメインの専門家からかなりの注目を集めている。 このことが、生物医学と健康分野における多様な応用の出現につながった。 本研究では, chatgpt などの大規模言語モデル (llm) のバイオメディカルや健康における多様な応用について検討する。 具体的には, 生体情報検索, 質問応答, 医用テキスト要約, 情報抽出, 医学教育の領域を探索し, LLMがこれらの課題に革命を起こすための変革力を持っているか, あるいは, 生体ドメインの複雑さが独特な課題を呈しているかを検討する。 広範な文献調査の結果,テキスト生成タスクの分野では,従来の最先端手法を超越した大きな進歩が見られた。 他のアプリケーションでは、進歩は控えめである。 全体として、LSMはまだバイオメディシンに革命を起こさないが、近年の急速な進歩は、これらの手法が発見と健康の向上に有用な手段を提供する大きな可能性を秘めていることを示している。 バイオメディシンや健康の分野でのチャットgptのようなllmの使用には、さまざまなリスクや課題が含まれており、その中には、生成した応答における情報の作成や、センシティブな患者データに関連する法的およびプライバシー上の懸念も含まれています。 本調査は,ChatGPTおよび他のLSMを用いたバイオメディカル・ヘルスの変革に関わる機会と課題について,バイオメディカル研究者や医療実践者に包括的かつタイムリーな概要を提供することができると考えている。

ChatGPT has drawn considerable attention from both the general public and domain experts with its remarkable text generation capabilities. This has subsequently led to the emergence of diverse applications in the field of biomedicine and health. In this work, we examine the diverse applications of large language models (LLMs), such as ChatGPT, in biomedicine and health. Specifically we explore the areas of biomedical information retrieval, question answering, medical text summarization, information extraction, and medical education, and investigate whether LLMs possess the transformative power to revolutionize these tasks or whether the distinct complexities of biomedical domain presents unique challenges. Following an extensive literature survey, we find that significant advances have been made in the field of text generation tasks, surpassing the previous state-of-the-art methods. For other applications, the advances have been modest. Overall, LLMs have not yet revolutionized biomedicine, but recent rapid progress indicates that such methods hold great potential to provide valuable means for accelerating discovery and improving health. We also find that the use of LLMs, like ChatGPT, in the fields of biomedicine and health entails various risks and challenges, including fabricated information in its generated responses, as well as legal and privacy concerns associated with sensitive patient data. We believe this survey can provide a comprehensive and timely overview to biomedical researchers and healthcare practitioners on the opportunities and challenges associated with using ChatGPT and other LLMs for transforming biomedicine and health.
翻訳日:2023-10-18 21:07:15 公開日:2023-10-17
# look before you leap: 大規模言語モデルにおける不確実性測定の探索的研究

Look Before You Leap: An Exploratory Study of Uncertainty Measurement for Large Language Models ( http://arxiv.org/abs/2307.10236v3 )

ライセンス: Link先を確認
Yuheng Huang, Jiayang Song, Zhijie Wang, Shengming Zhao, Huaming Chen, Felix Juefei-Xu, Lei Ma(参考訳) 最近の大規模言語モデル(llms)のパフォーマンス向上は、多くの産業アプリケーションやドメインにまたがる新しい機会を開く。 しかし、誤報、誤報、LLMによる幻覚といった誤った世代は、特に安全性、セキュリティ、信頼性に敏感なシナリオにおいて、LLMの信頼性に対する深刻な懸念を提起し、現実世界の採用を妨げる可能性がある。 不確実性推定は、一般的な機械学習(ML)モデルによる予測リスクを解釈する可能性を示しているが、LLMの能力を探究し、望ましくない振る舞いに対処するのにどの程度役立つかは、ほとんど分かっていない。 本稿では,このギャップを埋めるために,不確実性レンズからのLSMのリスク評価に関する探索的研究を開始する。 特に,4つの自然言語処理(NLP)タスクに対して,12の不確実性推定手法と4つのLLMを用いて実験を行い,LLMの予測リスクをどの程度評価できるかを検討した。 本研究は,LLMの不確かさ・非実効性予測に対する不確実性推定の有効性を検証した。 一般的なNLPタスクに加えて、2つのデータセット上のコード生成のための4つのLLMを用いて広範囲に実験を行う。 不確実性推定は,LSMが生成するバグプログラムを潜在的に発見する可能性がある。 本研究から得られた知見は,LLMの信頼性向上に向けた今後の設計・開発に光を当てたものである。

The recent performance leap of Large Language Models (LLMs) opens up new opportunities across numerous industrial applications and domains. However, erroneous generations, such as false predictions, misinformation, and hallucination made by LLMs, have also raised severe concerns for the trustworthiness of LLMs', especially in safety-, security- and reliability-sensitive scenarios, potentially hindering real-world adoptions. While uncertainty estimation has shown its potential for interpreting the prediction risks made by general machine learning (ML) models, little is known about whether and to what extent it can help explore an LLM's capabilities and counteract its undesired behavior. To bridge the gap, in this paper, we initiate an exploratory study on the risk assessment of LLMs from the lens of uncertainty. In particular, we experiment with twelve uncertainty estimation methods and four LLMs on four prominent natural language processing (NLP) tasks to investigate to what extent uncertainty estimation techniques could help characterize the prediction risks of LLMs. Our findings validate the effectiveness of uncertainty estimation for revealing LLMs' uncertain/non-factual predictions. In addition to general NLP tasks, we extensively conduct experiments with four LLMs for code generation on two datasets. We find that uncertainty estimation can potentially uncover buggy programs generated by LLMs. Insights from our study shed light on future design and development for reliable LLMs, facilitating further research toward enhancing the trustworthiness of LLMs.
翻訳日:2023-10-18 21:00:58 公開日:2023-10-17
# 演算子分割法と深部ニューラルネットワークの接続と画像分割への応用

Connections between Operator-splitting Methods and Deep Neural Networks with Applications in Image Segmentation ( http://arxiv.org/abs/2307.09052v3 )

ライセンス: Link先を確認
Hao Liu, Xue-Cheng Tai, Raymond Chan(参考訳) ディープニューラルネットワークは多くのタスクに強力なツールである。 なぜそれが成功し、数学的説明を提供するのかを理解することは重要な問題であり、過去数年間で人気のある研究の方向性であった。 ディープニューラルネットワークの数学的解析の文献では、表現理論の確立に多くの研究が費やされている。 ディープニューラルネットワークと数学的アルゴリズムの接続方法はまだ開発中だ。 本稿では,深層ニューラルネットワーク,特に演算子分割との関連について,アルゴリズムによる説明を行う。 特定の分割戦略により、演算子分割法はネットワークと同じ構造を持つことを示す。 この接続とPottsモデルを用いて,演算子分割法に着想を得た2つのネットワークを提案する。 2つのネットワークは、Pottsモデルを解く2つの演算子分割アルゴリズムである。 提案するネットワークの有効性を実証するために数値実験を行った。

Deep neural network is a powerful tool for many tasks. Understanding why it is so successful and providing a mathematical explanation is an important problem and has been one popular research direction in past years. In the literature of mathematical analysis of deep neural networks, a lot of works is dedicated to establishing representation theories. How to make connections between deep neural networks and mathematical algorithms is still under development. In this paper, we give an algorithmic explanation for deep neural networks, especially in their connections with operator splitting. We show that with certain splitting strategies, operator-splitting methods have the same structure as networks. Utilizing this connection and the Potts model for image segmentation, two networks inspired by operator-splitting methods are proposed. The two networks are essentially two operator-splitting algorithms solving the Potts model. Numerical experiments are presented to demonstrate the effectiveness of the proposed networks.
翻訳日:2023-10-18 21:00:34 公開日:2023-10-17
# 3ビーム衝突を伴う真空複屈折における軸共鳴の探索

Search for axion resonances in vacuum birefringence with three-beam collisions ( http://arxiv.org/abs/2307.08345v3 )

ライセンス: Link先を確認
Stefan Evans and Ralf Sch\"utzhold(参考訳) 超高強度の2光レーザービームの重ね合わせにおけるX線光子の複屈折散乱(偏光変化)を考察し、短寿命でもよい軸イオンまたは軸イオン様粒子の共鳴寄与について検討する。 Helmholtz International Beamline for Extreme Fields (HIBEF) の仕様を適用すると、この設定は、パラメータ空間の特定の領域における以前の光対光散乱(複屈折)や光対光スルーウォール実験よりも感度が高いことが分かる。 ポンプとプローブレーザーの向きと周波数を変えることで、異なる軸質量をスキャンすることもできる。

We consider birefringent (i.e., polarization changing) scattering of x-ray photons at the superposition of two optical laser beams of ultra-high intensity and study the resonant contributions of axions or axion-like particles, which could also be short-lived. Applying the specifications of the Helmholtz International Beamline for Extreme Fields (HIBEF), we find that this set-up can be more sensitive than previous light-by-light scattering (birefringence) or light-shining-through-wall experiments in a certain domain of parameter space. By changing the pump and probe laser orientations and frequencies, one can even scan different axion masses.
翻訳日:2023-10-18 21:00:05 公開日:2023-10-17
# アーノルドウェブの古典的ドリフトは量子非局在化遷移を誘導する

Classical Drift in the Arnold Web Induces Quantum Delocalization Transition ( http://arxiv.org/abs/2307.06717v3 )

ライセンス: Link先を確認
Jan Robert Schmidt, Arnd B\"acker, Roland Ketzmerick(参考訳) 高次元ハミルトニアン系のアーノルドウェブにおける量子力学的局在は、固有古典的ドリフトによって破壊される。 したがって、量子波パケットと固有状態は、以前予想されていたよりも複雑なアーノルドウェブを探索することができる。 このようなドリフトは典型的には、共鳴チャネルが大きなカオス領域や他の共鳴チャネルとの接合方向に広がるときに起こる。 このドリフトが十分に強ければ、動的局在が破壊されることが分かる。 このドリフト誘起非局在化遷移は普遍的であり、単一遷移パラメータによって記述される。 数値検証は4次元位相空間を持つ周期的にキックされたハミルトニアンを用いて行われる。

We demonstrate that quantum dynamical localization in the Arnold web of higher-dimensional Hamiltonian systems is destroyed by an intrinsic classical drift. Thus quantum wave packets and eigenstates may explore more of the intricate Arnold web than previously expected. Such a drift typically occurs, as resonance channels widen toward a large chaotic region or toward a junction with other resonance channels. If this drift is strong enough, we find that dynamical localization is destroyed. We establish that this drift-induced delocalization transition is universal and is described by a single transition parameter. Numerical verification is given using a time-periodically kicked Hamiltonian with a four-dimensional phase space.
翻訳日:2023-10-18 20:59:50 公開日:2023-10-17
# 大規模言語モデルの評価に関する調査

A Survey on Evaluation of Large Language Models ( http://arxiv.org/abs/2307.03109v8 )

ライセンス: Link先を確認
Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu, Linyi Yang, Kaijie Zhu, Hao Chen, Xiaoyuan Yi, Cunxiang Wang, Yidong Wang, Wei Ye, Yue Zhang, Yi Chang, Philip S. Yu, Qiang Yang, Xing Xie(参考訳) 大規模言語モデル(LLM)は、様々なアプリケーションにおける前例のない性能のため、学術と産業の両方で人気が高まっている。 LLMは研究と日常利用の両方において重要な役割を担い続けており、その評価はタスクレベルだけでなく社会レベルでもますます重要になり、潜在的なリスクの理解を深めている。 過去数年間、様々な観点からLSMを調べるための重要な努力が続けられてきた。 本稿では, これらのLCMの評価手法を総合的に検討し, 評価方法, 評価方法, 評価方法の3つの重要な側面に着目した。 まず,一般的な自然言語処理タスク,推論,医療利用,倫理,教育,自然科学,社会科学,エージェント応用など,評価タスクの観点から概観する。 第2に,LLMの性能評価において重要な要素である評価手法とベンチマークに飛び乗ることで,'where' と 'how' の質問に答える。 次に、異なるタスクにおけるLCMの成功事例と失敗事例を要約する。 最後に、llms評価の先にあるいくつかの将来の課題に光を当てた。 我々の目的は、LLMの評価の領域における研究者に貴重な洞察を提供することであり、それによってより熟練したLLMの開発を支援することである。 我々のキーポイントは、LCMの開発を支援するために、評価を必須の規律として扱うべきであるということです。 関連したオープンソース資料は、https://github.com/mlgroupjlu/llm-eval-surveyで一貫して保守しています。

Large language models (LLMs) are gaining increasing popularity in both academia and industry, owing to their unprecedented performance in various applications. As LLMs continue to play a vital role in both research and daily use, their evaluation becomes increasingly critical, not only at the task level, but also at the society level for better understanding of their potential risks. Over the past years, significant efforts have been made to examine LLMs from various perspectives. This paper presents a comprehensive review of these evaluation methods for LLMs, focusing on three key dimensions: what to evaluate, where to evaluate, and how to evaluate. Firstly, we provide an overview from the perspective of evaluation tasks, encompassing general natural language processing tasks, reasoning, medical usage, ethics, educations, natural and social sciences, agent applications, and other areas. Secondly, we answer the `where' and `how' questions by diving into the evaluation methods and benchmarks, which serve as crucial components in assessing performance of LLMs. Then, we summarize the success and failure cases of LLMs in different tasks. Finally, we shed light on several future challenges that lie ahead in LLMs evaluation. Our aim is to offer invaluable insights to researchers in the realm of LLMs evaluation, thereby aiding the development of more proficient LLMs. Our key point is that evaluation should be treated as an essential discipline to better assist the development of LLMs. We consistently maintain the related open-source materials at: https://github.com/MLGroupJLU/LLM-eval-survey.
翻訳日:2023-10-18 20:58:55 公開日:2023-10-17
# 退行学習が退行と拒絶に一致する場合

When No-Rejection Learning is Consistent for Regression with Rejection ( http://arxiv.org/abs/2307.02932v2 )

ライセンス: Link先を確認
Xiaocheng Li, Shang Liu, Chunlin Sun, Hanzhao Wang(参考訳) 拒絶による学習は、予測タスクにおける人間とAIの相互作用を研究するための原型モデルである。 サンプルインスタンスが到着すると、モデルはまず、リジェクタを使用して、ai予測器の受け入れと使用を判断し、予測を行うか、あるいは、そのサンプルを人間に拒否し、推論する。 そのようなモデルを学ぶと、元の損失関数の構造が変わり、しばしば望ましくない非凸性や矛盾の問題を引き起こす。 拒絶問題のある分類では、いくつかの研究が予測子と拒絶子の合同学習において一貫したサロゲート損失を生じさせるが、回帰問題に対する研究は少ない。 本稿では,レグレッションをリジェクション問題(RwR)を用いて検討し,すべてのデータを用いて予測器を学習するノンリジェクション学習戦略について検討する。 まず,そのような戦略の一貫性を,弱い実現可能性条件下で確立する。 そして, 弱実現可能性のない場合, 過大なリスクは予測誤差とキャリブレーション誤差の2つの部分の合計で上限を上回ることも可能であることを示した。 最後に,このような学習戦略の利点を実証的証拠で示す。

Learning with rejection has been a prototypical model for studying the human-AI interaction on prediction tasks. Upon the arrival of a sample instance, the model first uses a rejector to decide whether to accept and use the AI predictor to make a prediction or reject and defer the sample to humans. Learning such a model changes the structure of the original loss function and often results in undesirable non-convexity and inconsistency issues. For the classification with rejection problem, several works develop consistent surrogate losses for the joint learning of the predictor and the rejector, while there have been fewer works for the regression counterpart. This paper studies the regression with rejection (RwR) problem and investigates a no-rejection learning strategy that uses all the data to learn the predictor. We first establish the consistency for such a strategy under the weak realizability condition. Then for the case without the weak realizability, we show that the excessive risk can also be upper bounded with the sum of two parts: prediction error and calibration error. Lastly, we demonstrate the advantage of such a proposed learning strategy with empirical evidence.
翻訳日:2023-10-18 20:58:31 公開日:2023-10-17
# ゼロショットニューラルアーキテクチャ検索 - 課題、解決策、機会

Zero-Shot Neural Architecture Search: Challenges, Solutions, and Opportunities ( http://arxiv.org/abs/2307.01998v2 )

ライセンス: Link先を確認
Guihong Li, Duc Hoang, Kartikeya Bhardwaj, Ming Lin, Zhangyang Wang, Radu Marculescu(参考訳) 近年,費用のかかるトレーニングプロセスからnasを解放するために,ゼロショット(あるいはトレーニングフリー)ニューラルネットワーク検索 (nas) が提案されている。 ゼロショットNASアプローチの背景にある重要な考え方は、ネットワークパラメータを訓練することなく、与えられたネットワークの精度を予測できるプロキシを設計することである。 これまでに提案されたプロキシは通常、ディープラーニングの理論的理解の最近の進歩にインスパイアされ、いくつかのデータセットやNASベンチマークで大きなポテンシャルを示している。 本稿では,SOTAのゼロショットNASアプローチを概観的に検証し,ハードウェアの認識に重点を置いて比較することを目的とする。 この目的のために、まず主流のゼロショットプロキシをレビューし、それらの理論的基盤について議論する。 次に,これらゼロショットプロキシを大規模実験で比較し,ハードウェアアウェアとハードウェア指向のnasシナリオの両方においてその効果を示す。 最後に、より良いプロキシを設計するための有望なアイデアをいくつか挙げる。 ソースコードと関連論文のリストはhttps://github.com/SLDGroup/survey-zero-shot-nas.comで公開されている。

Recently, zero-shot (or training-free) Neural Architecture Search (NAS) approaches have been proposed to liberate NAS from the expensive training process. The key idea behind zero-shot NAS approaches is to design proxies that can predict the accuracy of some given networks without training the network parameters. The proxies proposed so far are usually inspired by recent progress in theoretical understanding of deep learning and have shown great potential on several datasets and NAS benchmarks. This paper aims to comprehensively review and compare the state-of-the-art (SOTA) zero-shot NAS approaches, with an emphasis on their hardware awareness. To this end, we first review the mainstream zero-shot proxies and discuss their theoretical underpinnings. We then compare these zero-shot proxies through large-scale experiments and demonstrate their effectiveness in both hardware-aware and hardware-oblivious NAS scenarios. Finally, we point out several promising ideas to design better proxies. Our source code and the list of related papers are available on https://github.com/SLDGroup/survey-zero-shot-nas.
翻訳日:2023-10-18 20:58:10 公開日:2023-10-17
# DeepVol: トレーニング済みのユニバーサルアセット変動モデル

DeepVol: A Pre-Trained Universal Asset Volatility Model ( http://arxiv.org/abs/2309.02072v2 )

ライセンス: Link先を確認
Chen Liu, Minh-Ngoc Tran, Chao Wang, Richard Gerlach, Robert Kohn(参考訳) 本稿では,従来のエコノメトリモデルよりも汎用的な,事前学習型ディープラーニングボラティリティモデルであるDeepVolを紹介する。 DeepVolは、トランスファー学習の力を活用して、単一のユニバーサルモデルを使用して、以前は目に見えないものを含むすべての金融資産のボラティリティのダイナミクスを効果的に捉え、モデル化する。 これは、それぞれの資産に対して独立したモデルを訓練する計量学文学における通常の慣習とは対照的である。 DeepVolの導入は、金融業界におけるボラティリティモデリングの新しい道を開き、ボラティリティの予測方法を変える可能性がある。

This paper introduces DeepVol, a pre-trained deep learning volatility model that is more general than traditional econometric models. DeepVol leverage the power of transfer learning to effectively capture and model the volatility dynamics of all financial assets, including previously unseen ones, using a single universal model. This contrasts to the usual practice in the econometrics literature, which trains a separate model for each asset. The introduction of DeepVol opens up new avenues for volatility modeling in the finance industry, potentially transforming the way volatility is predicted.
翻訳日:2023-10-18 20:49:46 公開日:2023-10-17
# ドメイン適応型メッセージパッシンググラフニューラルネットワーク

Domain-adaptive Message Passing Graph Neural Network ( http://arxiv.org/abs/2308.16470v2 )

ライセンス: Link先を確認
Xiao Shen, Shirui Pan, Kup-Sze Choi, Xi Zhou(参考訳) 豊富なラベルを持つソースネットワークから知識を転送することで,ラベル不足対象ネットワーク内のノードを分類することを目的としたクロスネットワークノード分類(cnnc)が近年注目を集めている。 CNNCに対処するために,グラフニューラルネットワーク(GNN)と条件付き対向ドメイン適応を統合した領域適応型メッセージパッシンググラフニューラルネットワーク(DM-GNN)を提案する。 DM-GNNは、ネットワーク間で転送可能なノード分類のための情報表現を学ぶことができる。 まず、GNNエンコーダを二重特徴抽出器で構成し、隣接する埋め込み学習からエゴ埋め込み学習を分離し、接続ノード間の共通性と識別を共同で取得する。 次に,各ノードのラベル予測を改良するために,各ノードのラベル予測と隣接ノードの予測を組み合わせたラベル伝達ノード分類器を提案する。 さらに、ラベル付きソースネットワークに対して、クラス間伝播を回避しつつクラス内伝播を促進するラベル対応伝搬方式を考案し、ラベル対応ソース埋め込みを実現する。 第三に、ネットワーク間のクラス条件分布をよりよく一致させることができるように、条件付き対向ドメイン適応を行い、近傍修正されたクラスラベル情報を対向ドメイン適応時に考慮する。 11の最先端手法との比較により,dm-gnnの有効性が示された。

Cross-network node classification (CNNC), which aims to classify nodes in a label-deficient target network by transferring the knowledge from a source network with abundant labels, draws increasing attention recently. To address CNNC, we propose a domain-adaptive message passing graph neural network (DM-GNN), which integrates graph neural network (GNN) with conditional adversarial domain adaptation. DM-GNN is capable of learning informative representations for node classification that are also transferrable across networks. Firstly, a GNN encoder is constructed by dual feature extractors to separate ego-embedding learning from neighbor-embedding learning so as to jointly capture commonality and discrimination between connected nodes. Secondly, a label propagation node classifier is proposed to refine each node's label prediction by combining its own prediction and its neighbors' prediction. In addition, a label-aware propagation scheme is devised for the labeled source network to promote intra-class propagation while avoiding inter-class propagation, thus yielding label-discriminative source embeddings. Thirdly, conditional adversarial domain adaptation is performed to take the neighborhood-refined class-label information into account during adversarial domain adaptation, so that the class-conditional distributions across networks can be better matched. Comparisons with eleven state-of-the-art methods demonstrate the effectiveness of the proposed DM-GNN.
翻訳日:2023-10-18 20:49:31 公開日:2023-10-17
# プログラム・オブ・思考は推論のためにいつ働くのか?

When Do Program-of-Thoughts Work for Reasoning? ( http://arxiv.org/abs/2308.15452v3 )

ライセンス: Link先を確認
Zhen Bi, Ningyu Zhang, Yinuo Jiang, Shumin Deng, Guozhou Zheng, Huajun Chen(参考訳) 大規模言語モデル(LLM)の推論能力は、組み込み人工知能の領域において重要な役割を果たす。 複雑な推論タスクに対処するためにプログラミング言語を使用するLLMのプログラム・オブ・シンクレット・プロンプトのような効果的な方法があるが、コードデータの推論能力改善に対する影響は未定のままである。 このギャップに対処するために、構造的属性と論理的属性を組み合わせた複雑性影響推論スコア(CIRS)を提案し、コードと推論能力の相関を測定する。 具体的には、抽象構文木を用いて構造情報をエンコードし、難易度と循環的複雑度を考慮して論理複雑性を計算する。 経験的分析により、複雑さのコードデータがLLMによって学習または理解されるわけではないことがわかった。 プログラム支援プロンプトによる推論能力の向上には最適な複雑性レベルが不可欠である。 次に,自動合成・階層化アルゴリズムを設計し,数学的推論のための命令生成とコード生成タスクのためのコードデータフィルタリングに適用する。 その結果,提案手法の有効性が示された。 コードはhttps://github.com/zjunlp/EasyInstructのEasyInstructフレームワークに統合される。

The reasoning capabilities of Large Language Models (LLMs) play a pivotal role in the realm of embodied artificial intelligence. Although there are effective methods like program-of-thought prompting for LLMs which uses programming language to tackle complex reasoning tasks, the specific impact of code data on the improvement of reasoning capabilities remains under-explored. To address this gap, we propose complexity-impacted reasoning score (CIRS), which combines structural and logical attributes, to measure the correlation between code and reasoning abilities. Specifically, we use the abstract syntax tree to encode the structural information and calculate logical complexity by considering the difficulty and the cyclomatic complexity. Through an empirical analysis, we find not all code data of complexity can be learned or understood by LLMs. Optimal level of complexity is critical to the improvement of reasoning abilities by program-aided prompting. Then we design an auto-synthesizing and stratifying algorithm, and apply it to instruction generation for mathematical reasoning and code data filtering for code generation tasks. Extensive results demonstrates the effectiveness of our proposed approach. Code will be integrated into the EasyInstruct framework at https://github.com/zjunlp/EasyInstruct.
翻訳日:2023-10-18 20:49:07 公開日:2023-10-17
# RAH! RecSys-Assistant-Human: LLMエージェントを用いた人間中心のレコメンデーションフレームワーク

RAH! RecSys-Assistant-Human: A Human-Centered Recommendation Framework with LLM Agents ( http://arxiv.org/abs/2308.09904v2 )

ライセンス: Link先を確認
Yubo Shu, Haonan Zhang, Hansu Gu, Peng Zhang, Tun Lu, Dongsheng Li, Ning Gu(参考訳) webの急速な進化は、コンテンツの指数関数的な成長をもたらした。 リコメンダシステムは、個人の好みに基づいてコンテンツを調整することで、ヒューマン・コンピュータインタラクション(HCI)において重要な役割を果たす。 その重要性にもかかわらず、ユーザの満足度とレコメンデーションの精度のバランス、ユーザのプライバシを維持しながらバイアスに対処すること、ドメイン横断の状況におけるコールドスタート問題の解決が課題である。 この研究は、これらの問題に対処することは単なるレコメンダシステムの責任ではなく、人間中心のアプローチが不可欠であると主張している。 我々は,認知,学習,アクト,批判,リフレクションといったLLMエージェントを用いた革新的なソリューションであるRAHレコメンダシステム,アシスタント,ヒューマン)フレームワークを導入し,ユーザの個性との整合性を強調した。 このフレームワークはLearn-Act-Criticループとリフレクション機構を利用してユーザーアライメントを改善する。 実世界のデータを用いて,ユーザの負担軽減からバイアス軽減,ユーザコントロールの向上に至るまで,RAHフレームワークの有効性を様々なレコメンデーション領域で実証した。 特に、私たちのコントリビューションは、さまざまなレコメンデーションモデルと効果的に提携する、人間中心のレコメンデーションフレームワークを提供しています。

The rapid evolution of the web has led to an exponential growth in content. Recommender systems play a crucial role in Human-Computer Interaction (HCI) by tailoring content based on individual preferences. Despite their importance, challenges persist in balancing recommendation accuracy with user satisfaction, addressing biases while preserving user privacy, and solving cold-start problems in cross-domain situations. This research argues that addressing these issues is not solely the recommender systems' responsibility, and a human-centered approach is vital. We introduce the RAH Recommender system, Assistant, and Human) framework, an innovative solution with LLM-based agents such as Perceive, Learn, Act, Critic, and Reflect, emphasizing the alignment with user personalities. The framework utilizes the Learn-Act-Critic loop and a reflection mechanism for improving user alignment. Using the real-world data, our experiments demonstrate the RAH framework's efficacy in various recommendation domains, from reducing human burden to mitigating biases and enhancing user control. Notably, our contributions provide a human-centered recommendation framework that partners effectively with various recommendation models.
翻訳日:2023-10-18 20:47:52 公開日:2023-10-17
# D-IF:不特定分布場による不確かさを意識した人間のデジタル化

D-IF: Uncertainty-aware Human Digitization via Implicit Distribution Field ( http://arxiv.org/abs/2308.08857v2 )

ライセンス: Link先を確認
Xueting Yang, Yihao Luo, Yuliang Xiu, Wei Wang, Hao Xu, Zhaoxin Fan(参考訳) リアルな仮想人間は、メタバース、インテリジェントヘルスケア、自動運転シミュレーションなど、多くの産業において重要な役割を果たす。 しかし、それらを高いレベルの現実主義で大規模に作ることは、依然として課題である。 深部陰影関数の利用は、画像ベースの3d衣料ヒト再構成の新しい時代を火花とし、細部でピクセル列形状の復元を可能にした。 その後、ほとんどの研究は、各点に対する決定論的暗黙の値を回帰することで、表面を探索する。 しかし、すべての点が表面との距離に関係なく等しく扱われるべきだろうか。 本稿では,暗黙的な値を適応不確実性分布に置き換えて,表面への距離に基づいて点を区別する手法を提案する。 この単純な ``value to distribution'' の遷移は、ほぼすべてのベースラインで大幅な改善をもたらす。 さらに, 不確実性分布損失を用いて訓練したモデルにより, より複雑なしわ, 現実的な手足を捕捉できることを示す。 コードとモデルは、https://github.com/psyai-net/d-if_releaseで研究目的に利用できる。

Realistic virtual humans play a crucial role in numerous industries, such as metaverse, intelligent healthcare, and self-driving simulation. But creating them on a large scale with high levels of realism remains a challenge. The utilization of deep implicit function sparks a new era of image-based 3D clothed human reconstruction, enabling pixel-aligned shape recovery with fine details. Subsequently, the vast majority of works locate the surface by regressing the deterministic implicit value for each point. However, should all points be treated equally regardless of their proximity to the surface? In this paper, we propose replacing the implicit value with an adaptive uncertainty distribution, to differentiate between points based on their distance to the surface. This simple ``value to distribution'' transition yields significant improvements on nearly all the baselines. Furthermore, qualitative results demonstrate that the models trained using our uncertainty distribution loss, can capture more intricate wrinkles, and realistic limbs. Code and models are available for research purposes at https://github.com/psyai-net/D-IF_release.
翻訳日:2023-10-18 20:47:31 公開日:2023-10-17
# XSTest:大規模言語モデルにおける過大な安全行動を特定するテストスイート

XSTest: A Test Suite for Identifying Exaggerated Safety Behaviours in Large Language Models ( http://arxiv.org/abs/2308.01263v2 )

ライセンス: Link先を確認
Paul R\"ottger, Hannah Rose Kirk, Bertie Vidgen, Giuseppe Attanasio, Federico Bianchi, Dirk Hovy(参考訳) 適切な保護がなければ、大きな言語モデルは悪質な指示に従い、有害なコンテンツを生成する。 このリスクは、モデルが役に立たず、無害になることを目標とする、レッドチームや大規模フィードバック学習のような安全努力を動機付ける。 しかし、これらの2つの目的の間には、無害性はモデルが安全でないプロンプトに従うことを拒否する必要があり、そのため役に立たないという緊張がある。 最近の逸話的証拠は、いくつかのモデルではバランスが悪く、安全でないプロンプトに類似の言語を使用したり、センシティブなトピックに言及した場合、明確な安全プロンプトが拒否される可能性があることを示唆している。 本稿では,これらeXaggerated Safetyの振る舞いを系統的に識別する,XSTestと呼ばれる新しいテストスイートを提案する。 xstestは、10のプロンプトタイプにまたがる250の安全プロンプトで構成されており、よく調整されたモデルが遵守を拒むべきではない。 我々は、xstestの作成と構成を説明し、さらにテストスイートを使用して、最先端言語モデルの系統的障害モードと、より安全な言語モデルを構築する際のより一般的な課題を強調する。

Without proper safeguards, large language models will readily follow malicious instructions and generate toxic content. This risk motivates safety efforts such as red-teaming and large-scale feedback learning, which aim to make models both helpful and harmless. However, there is a tension between these two objectives, since harmlessness requires models to refuse to comply with unsafe prompts, and thus not be helpful. Recent anecdotal evidence suggests that some models may have struck a poor balance, so that even clearly safe prompts are refused if they use similar language to unsafe prompts or mention sensitive topics. In this paper, we introduce a new test suite called XSTest to identify such eXaggerated Safety behaviours in a systematic way. XSTest comprises 250 safe prompts across ten prompt types that well-calibrated models should not refuse to comply with, and 200 unsafe prompts as contrasts that models, for most applications, should refuse. We describe XSTest's creation and composition, and then use the test suite to highlight systematic failure modes in state-of-the-art language models as well as more general challenges in building safer language models.
翻訳日:2023-10-18 20:47:01 公開日:2023-10-17
# LHCb頂点検出器におけるトラック再構成のための量子アルゴリズム

A quantum algorithm for track reconstruction in the LHCb vertex detector ( http://arxiv.org/abs/2308.00619v2 )

ライセンス: Link先を確認
Davide Nicotra, Miriam Lucio Martinez, Jacco Andreas de Vries, Marcel Merk, Kurt Driessens, Ronald Leonard Westra, Domenica Dibenedetto and Daniel Hugo C\'ampora P\'erez(参考訳) 高エネルギー物理学は、近未来の高光度時代のリアルタイムイベントレコンストラクションにおいて、ますます計算上の課題に直面している。 LHCb vertex 検出器をユースケースとして,Ising-like Hamiltonian の線形代数的アプローチによる最小化に基づく粒子軌道再構成の新しいアルゴリズムを探索する。 古典的行列逆転法を用いることで、現在の最先端技術と同様のパフォーマンスを追跡するが、時間のスケーリングの複雑さは悪化する。 この問題を解決するため,HHLハミルトンシミュレーションと読み出し問題による制限にもかかわらず,Harrow-Hassadim-Lloyd (HHL)アルゴリズムを用いて量子アルゴリズムの実装を提案する。 本論文では,高エネルギー物理における実時間粒子軌道再構成に量子コンピューティングを活用する可能性について述べる。

High-energy physics is facing increasingly computational challenges in real-time event reconstruction for the near-future high-luminosity era. Using the LHCb vertex detector as a use-case, we explore a new algorithm for particle track reconstruction based on the minimisation of an Ising-like Hamiltonian with a linear algebra approach. The use of a classical matrix inversion technique results in tracking performance similar to the current state-of-the-art but with worse scaling complexity in time. To solve this problem, we also present an implementation as quantum algorithm, using the Harrow-Hassadim-Lloyd (HHL) algorithm: this approach can potentially provide an exponential speedup as a function of the number of input hits over its classical counterpart, in spite of limitations due to the well-known HHL Hamiltonian simulation and readout problems. The findings presented in this paper shed light on the potential of leveraging quantum computing for real-time particle track reconstruction in high-energy physics.
翻訳日:2023-10-18 20:46:35 公開日:2023-10-17
# DCPT:夜間UAVでのダークネスの追跡

DCPT: Darkness Clue-Prompted Tracking in Nighttime UAVs ( http://arxiv.org/abs/2309.10491v2 )

ライセンス: Link先を確認
Jiawen Zhu, Huayi Tang, Zhi-Qi Cheng, Jun-Yan He, Bin Luo, Shihao Qiu, Shengming Li, Huchuan Lu(参考訳) 既存の夜間無人航空機(UAV)トラッカーは"Enhance-then-Track"アーキテクチャに従っている。 この分離された拡張とトラッキングは、エンドツーエンドのトレーニング可能なビジョンシステムの構築に失敗します。 そこで本研究では,夜間の強靭なUAV追跡を効率よく学習し,暗黙の手がかりを生成する,Darkness Clue-Prompted Tracking (DCPT) という新しいアーキテクチャを提案する。 別個のエンハンサーがなければ、DCPTは暗黒誘導プロンプト(DCP)を使用して、アンチダーク機能を直接プロンプトにエンコードする。 具体的には、DCPは暗黒の手がかりの投影を強調し、損なうことを反復的に学習する。 そして、学習した視覚的プロンプトを、トランスフォーマー層にまたがる固定パラメータで、昼間のトラッカーに注入する。 さらに、ゲート特徴集約機構は、プロンプトとプロンプトとベースモデルとの適応的な融合を可能にする。 複数のダークシナリオベンチマークにおいて,DCPTの最先端性能を示す実験を行った。 DCPTにおける拡張と追跡の統一的なエンドツーエンド学習は、より訓練可能なシステムを実現する。 暗黒の手がかりは、余分な加群なしで効率的に反暗黒の知識を注入する。 コードは \href{https://github.com/bearyi26/dcpt}{here} で入手できる。

Existing nighttime unmanned aerial vehicle (UAV) trackers follow an "Enhance-then-Track" architecture - first using a light enhancer to brighten the nighttime video, then employing a daytime tracker to locate the object. This separate enhancement and tracking fails to build an end-to-end trainable vision system. To address this, we propose a novel architecture called Darkness Clue-Prompted Tracking (DCPT) that achieves robust UAV tracking at night by efficiently learning to generate darkness clue prompts. Without a separate enhancer, DCPT directly encodes anti-dark capabilities into prompts using a darkness clue prompter (DCP). Specifically, DCP iteratively learns emphasizing and undermining projections for darkness clues. It then injects these learned visual prompts into a daytime tracker with fixed parameters across transformer layers. Moreover, a gated feature aggregation mechanism enables adaptive fusion between prompts and between prompts and the base model. Extensive experiments show state-of-the-art performance for DCPT on multiple dark scenario benchmarks. The unified end-to-end learning of enhancement and tracking in DCPT enables a more trainable system. The darkness clue prompting efficiently injects anti-dark knowledge without extra modules. Code is available at \href{https://github.com/bearyi26/DCPT}{here}.
翻訳日:2023-10-18 20:40:31 公開日:2023-10-17
# Q-Transformer: 自動回帰Q-Functionによるスケーラブルオフライン強化学習

Q-Transformer: Scalable Offline Reinforcement Learning via Autoregressive Q-Functions ( http://arxiv.org/abs/2309.10150v2 )

ライセンス: Link先を確認
Yevgen Chebotar, Quan Vuong, Alex Irpan, Karol Hausman, Fei Xia, Yao Lu, Aviral Kumar, Tianhe Yu, Alexander Herzog, Karl Pertsch, Keerthana Gopalakrishnan, Julian Ibarz, Ofir Nachum, Sumedh Sontakke, Grecia Salazar, Huong T Tran, Jodilyn Peralta, Clayton Tan, Deeksha Manjunath, Jaspiar Singht, Brianna Zitkovich, Tomas Jackson, Kanishka Rao, Chelsea Finn, Sergey Levine(参考訳) 本研究では、大規模なオフラインデータセットからマルチタスクポリシーをトレーニングするためのスケーラブルな強化学習手法を提案する。 本手法では,オフライン時間差分バックアップによりトレーニングしたQ関数のスケーラブルな表現にTransformerを用いる。 したがって、この手法をQ-Transformerと呼ぶ。 各動作次元を識別し、各アクション次元のq値を分離トークンとして表現することにより、q学習に効果的な高容量シーケンスモデリング手法を適用することができる。 我々は,オフラインrlトレーニングで優れた性能を実現する設計決定をいくつか提示し,q-transformerが従来のオフラインrlアルゴリズムや模倣学習技術を,多種多様な実世界のロボット操作タスクスイートで上回っていることを示す。 プロジェクトのWebサイトとビデオはhttps://qtransformer.github.ioで見ることができる。

In this work, we present a scalable reinforcement learning method for training multi-task policies from large offline datasets that can leverage both human demonstrations and autonomously collected data. Our method uses a Transformer to provide a scalable representation for Q-functions trained via offline temporal difference backups. We therefore refer to the method as Q-Transformer. By discretizing each action dimension and representing the Q-value of each action dimension as separate tokens, we can apply effective high-capacity sequence modeling techniques for Q-learning. We present several design decisions that enable good performance with offline RL training, and show that Q-Transformer outperforms prior offline RL algorithms and imitation learning techniques on a large diverse real-world robotic manipulation task suite. The project's website and videos can be found at https://qtransformer.github.io
翻訳日:2023-10-18 20:40:12 公開日:2023-10-17
# 大規模言語モデルを用いたPETレポートの自動印象生成

Automatic Personalized Impression Generation for PET Reports Using Large Language Models ( http://arxiv.org/abs/2309.10066v2 )

ライセンス: Link先を確認
Xin Tie, Muheon Shin, Ali Pirasteh, Nevein Ibrahim, Zachary Huemann, Sharon M. Castellino, Kara M. Kelly, John Garrett, Junjie Hu, Steve Y. Cho, Tyler J. Bradshaw(参考訳) 本研究では,超微調整された大言語モデル(LLM)が,全身PETレポートに対して正確でパーソナライズされた印象を生成できるかどうかを判定することを目的とした。 教師強制アルゴリズムを用いてPETレポートのコーパスを用いて12言語モデルを訓練し,報告結果を入力とし,臨床印象を参照した。 追加の入力トークンは、医師のidをエンコードし、モデルが医師固有のレポートスタイルを学習できるようにする。 当院では2010年から2022年の間に37,370件のPETレポートを収集した。 最良のllmを特定するために、30の評価指標が2人の核医学(nm)医師の品質スコアに対してベンチマークされ、最も整合した指標が専門家評価のモデルを選択した。 データの一部では,6つの品質次元(3点スケール)と総合効用スコア(5点スケール)に基づいて,モデル生成印象と原臨床印象を3つのNM医師によって評価した。 各医師は自身の報告書12点と他の医師12点をレビューした。 統計解析にはブートストラップ再サンプリングが用いられた。 すべての評価指標のうち、ドメイン適応型BARTScoreとPEGASUSScoreは、スピアーマンのランク相関が最も高い(0.568と0.563)。 これらの指標に基づき、細調整されたPEGASUSモデルをトップLLMとして選択した。 医師がPEGASUSの印象を自身のスタイルでレビューすると,89%が臨床的に許容され,平均効用率は5。 医師はこれらのパーソナライズされた印象を、他の医師によって規定された印象(4.03, P=0.41)に匹敵するものとみなした。 その結果,PEGASUSによるパーソナライズドインプレッションは臨床的に有用であり,PET報告の迅速化の可能性を強調した。

In this study, we aimed to determine if fine-tuned large language models (LLMs) can generate accurate, personalized impressions for whole-body PET reports. Twelve language models were trained on a corpus of PET reports using the teacher-forcing algorithm, with the report findings as input and the clinical impressions as reference. An extra input token encodes the reading physician's identity, allowing models to learn physician-specific reporting styles. Our corpus comprised 37,370 retrospective PET reports collected from our institution between 2010 and 2022. To identify the best LLM, 30 evaluation metrics were benchmarked against quality scores from two nuclear medicine (NM) physicians, with the most aligned metrics selecting the model for expert evaluation. In a subset of data, model-generated impressions and original clinical impressions were assessed by three NM physicians according to 6 quality dimensions (3-point scale) and an overall utility score (5-point scale). Each physician reviewed 12 of their own reports and 12 reports from other physicians. Bootstrap resampling was used for statistical analysis. Of all evaluation metrics, domain-adapted BARTScore and PEGASUSScore showed the highest Spearman's rank correlations (0.568 and 0.563) with physician preferences. Based on these metrics, the fine-tuned PEGASUS model was selected as the top LLM. When physicians reviewed PEGASUS-generated impressions in their own style, 89% were considered clinically acceptable, with a mean utility score of 4.08 out of 5. Physicians rated these personalized impressions as comparable in overall utility to the impressions dictated by other physicians (4.03, P=0.41). In conclusion, personalized impressions generated by PEGASUS were clinically useful, highlighting its potential to expedite PET reporting.
翻訳日:2023-10-18 20:39:55 公開日:2023-10-17
# 視覚トランスフォーマーにおけるsoftmaxをreluに置き換える

Replacing softmax with ReLU in Vision Transformers ( http://arxiv.org/abs/2309.08586v2 )

ライセンス: Link先を確認
Mitchell Wortsman, Jaehoon Lee, Justin Gilmer, Simon Kornblith(参考訳) 従来の研究では、注意ソフトマックスをReLUのようなポイントワイドアクティベーションに置き換える際の精度劣化が観察された。 視覚トランスフォーマーの文脈では、シーケンス長で分割するとこの劣化が軽減される。 我々はImageNet-21kで小型から大型の視覚変換器を訓練し、ReLUアテンションが計算関数としてのスケーリング動作においてソフトマックスアテンションの性能に近づいたり適合できることを示した。

Previous research observed accuracy degradation when replacing the attention softmax with a point-wise activation such as ReLU. In the context of vision transformers, we find that this degradation is mitigated when dividing by sequence length. Our experiments training small to large vision transformers on ImageNet-21k indicate that ReLU-attention can approach or match the performance of softmax-attention in terms of scaling behavior as a function of compute.
翻訳日:2023-10-18 20:39:25 公開日:2023-10-17
# spectrum-aware adjustment:主成分回帰への応用による新しいデバイアスフレームワーク

Spectrum-Aware Adjustment: A New Debiasing Framework with Applications to Principal Component Regression ( http://arxiv.org/abs/2309.07810v2 )

ライセンス: Link先を確認
Yufan Li, Pragya Sur(参考訳) 我々は,現代のデバイアス技術が与える共変量分布の制約を回避し,高次元線形回帰のための新しいデバイアスフレームワークを提案する。 我々は,特徴数とサンプル数が大小ともに比較可能な,一般的な設定について検討する。 この文脈では、最先端のデバイアス技術は自由度補正を用いて正規化推定器の収縮バイアスを除去し、推論を行う。 しかし、この方法では、観測されたサンプルは、すなわち、共変量は平均的なガウス分布に従っており、観測された特徴に対する信頼できる共分散行列推定が利用可能である。 このアプローチが苦労するのは (i)共変量は、重い尾または非対称分布を持つ非ガウシアンである。 (ii)意匠の行は、異質性又は依存関係を示し、 (iii)信頼性の高い特徴共分散推定が不足している。 そこで我々は,デバイアス補正を,サンプル共分散行列のスペクトルによって決定されるステップサイズで(好ましくは初期化)再スケールした勾配降下ステップとする新しい戦略を開発した。 以前の仕事とは異なり、この行列の固有ベクトルは直交群から一様引き分けられると仮定する。 この仮定は、複雑な行列依存、重み付き尾翼、非対称性、潜伏低ランク構造を含む、従来のデバイアスが失敗する様々な状況において有効であることを示す。 提案する推定器の漸近正規性(中心とスケール)を様々な収束概念の下で確立する。 さらに,その漸近的分散に対する一貫した推定器を開発した。 最後に,Spectrum-Awareアプローチを用いた脱バイアス主成分回帰(PCR)手法を提案する。 各種シミュレーションおよび実データ実験において,本手法が自由度デバイアスをマージンで上回ることを示した。

We introduce a new debiasing framework for high-dimensional linear regression that bypasses the restrictions on covariate distributions imposed by modern debiasing technology. We study the prevalent setting where the number of features and samples are both large and comparable. In this context, state-of-the-art debiasing technology uses a degrees-of-freedom correction to remove the shrinkage bias of regularized estimators and conduct inference. However, this method requires that the observed samples are i.i.d., the covariates follow a mean zero Gaussian distribution, and reliable covariance matrix estimates for observed features are available. This approach struggles when (i) covariates are non-Gaussian with heavy tails or asymmetric distributions, (ii) rows of the design exhibit heterogeneity or dependencies, and (iii) reliable feature covariance estimates are lacking. To address these, we develop a new strategy where the debiasing correction is a rescaled gradient descent step (suitably initialized) with step size determined by the spectrum of the sample covariance matrix. Unlike prior work, we assume that eigenvectors of this matrix are uniform draws from the orthogonal group. We show this assumption remains valid in diverse situations where traditional debiasing fails, including designs with complex row-column dependencies, heavy tails, asymmetric properties, and latent low-rank structures. We establish asymptotic normality of our proposed estimator (centered and scaled) under various convergence notions. Moreover, we develop a consistent estimator for its asymptotic variance. Lastly, we introduce a debiased Principal Components Regression (PCR) technique using our Spectrum-Aware approach. In varied simulations and real data experiments, we observe that our method outperforms degrees-of-freedom debiasing by a margin.
翻訳日:2023-10-18 20:39:15 公開日:2023-10-17
# 量子相関の境界とデバイス非依存応用に関する研究

Investigations of the boundary of quantum correlations and device-independent applications ( http://arxiv.org/abs/2309.06304v2 )

ライセンス: Link先を確認
Yuan Liu, Ho Yiu Chung and Ravishankar Ramanathan(参考訳) ベル試験における分離した参加者による測定結果の相関関係は、デバイス独立情報処理において極めて重要である。 しかし、この一連の量子相関を特徴づけることは難しい問題であり、多くのオープンな疑問がある。 ここでは、ベルシナリオにおけるこの集合を任意の数のプレイヤー、設定、結果で近似する量子ベルの不等式の族を示し、デバイスに依存しない情報処理への応用について研究する。 第一に、非信号境界上の量子相関が弱い音源からのDIランダムネス抽出のタスクにおいて重要であることが知られている。 2つの$k$-outcome測定を持つ2人のプレイヤーのベルのシナリオでは、非局所性蒸留と通信複雑性の崩壊から前の結果を延ばす、次元$\leq 4k-4$の非局所性ポリトープのクラスから量子境界の分離を示す不等式が導かれる。 第二に、$m$二分法を持つ2人のプレイヤーのシナリオでは、Tsirelson-Landau-Masanesによって発見された$m=2$の境界を一般化する量子境界の非自明な部分を考える。 この一般化境界上のすべての点が、2量子一重項と対応する$m$測定の自己テストに役立つことが証明される。 このシナリオでは、古典的相関の集合の境界と一致する量子境界の低次元領域も導き出す。

The set of correlations between measurement outcomes observed by separated parties in a Bell test is of vital importance in Device-Independent (DI) information processing. However, characterising this set of quantum correlations is a hard problem, with a number of open questions. Here, we present families of quantum Bell inequalities that approximate this set in Bell scenarios with an arbitrary number of players, settings and outcomes, and study their applications to device-independent information processing. Firstly, it is known that quantum correlations on the non-signaling boundary are of crucial importance in the task of DI randomness extraction from weak sources. In the Bell scenario of two players with two $k$-outcome measurements, we derive inequalities that show a separation of the quantum boundary from classes of non-local faces of the non-signaling polytope of dimension $\leq 4k-4$, extending previous results from nonlocality distillation and the collapse of communication complexity. Secondly, in the scenario of two players with $m$ binary measurements, we consider a non-trivial portion of the quantum boundary that generalizes the boundary that for $m=2$ discovered by Tsirelson-Landau-Masanes. We prove that all points on this generalized boundary serve to self-test the two-qubit singlet and the corresponding $m$ measurements. In this scenario, we also derive a low-dimensional region of the quantum boundary that coincides with the boundary of the set of classical correlations.
翻訳日:2023-10-18 20:38:45 公開日:2023-10-17
# Prefix-Diffusion: 横画像キャプションのための軽量拡散モデル

Prefix-diffusion: A Lightweight Diffusion Model for Diverse Image Captioning ( http://arxiv.org/abs/2309.04965v2 )

ライセンス: Link先を確認
Guisheng Liu, Yi Li, Zhengcong Fei, Haiyan Fu, Xiangyang Luo, Yanqing Guo(参考訳) 画像キャプションにおける印象的な性能は達成されているが、生成したキャプションの多様性と大きなパラメータスケールは、これらのシステムの実単語適用の大きな障壁である。 本研究では,連続拡散と組み合わせた軽量画像キャプションネットワークであるプレフィックス拡散を提案する。 多様性を達成するために, 拡散モデルの分母化プロセスにプレフィックス画像埋め込みを注入する効率的な手法を考案する。 トレーニング可能なパラメータを減らすために,事前学習モデルを用いて画像の特徴を抽出し,さらに余分なマッピングネットワークを設計する。 プレフィックス拡散は、拡散モデルの生成能力から恩恵を受けるキャプションの流速と関連性を保ちながら、パラメータが比較的少ない多様なキャプションを生成することができる。 本研究は,画像キャプションの拡散モデルのスケールアップを図り,近年のアプローチと比較して有望な性能を実現している。

While impressive performance has been achieved in image captioning, the limited diversity of the generated captions and the large parameter scale remain major barriers to the real-word application of these systems. In this work, we propose a lightweight image captioning network in combination with continuous diffusion, called Prefix-diffusion. To achieve diversity, we design an efficient method that injects prefix image embeddings into the denoising process of the diffusion model. In order to reduce trainable parameters, we employ a pre-trained model to extract image features and further design an extra mapping network. Prefix-diffusion is able to generate diverse captions with relatively less parameters, while maintaining the fluency and relevance of the captions benefiting from the generative capabilities of the diffusion model. Our work paves the way for scaling up diffusion models for image captioning, and achieves promising performance compared with recent approaches.
翻訳日:2023-10-18 20:37:56 公開日:2023-10-17
# 4次元走査透過電子顕微鏡における量子-古典情報伝達の最大化

Maximizing Quantum-to-Classical Information Transfer in Four-Dimensional Scanning Transmission Electron Microscopy ( http://arxiv.org/abs/2309.04701v2 )

ライセンス: Link先を確認
Christian Dwyer and David M. Paganin(参考訳) 我々は4次元走査透過電子顕微鏡で検出された古典情報への量子情報の転送を分析する。 試料の静電ポテンシャルのフーリエ係数のモジュラーと位相を推定するにあたり, 利用可能な量子フィッシャー情報の約半分を得る非局在化スペックルプローブにより, 近接オプティマイム情報転送が達成されることがわかった。 量子極限そのものは運動量空間の散乱を検出するために排除される。 直接位相コントラスト画像と比較し,Zernike相条件が光学系で認められた全ての空間周波数の量子限界に達する。 我々の結論は、可視光やX線といった他のコヒーレントなスカラー放射にも当てはまる。

We analyze the transfer of quantum information to detected classical information in four-dimensional scanning transmission electron microscopy. In estimating the moduli and phases of the Fourier coefficients of the sample's electrostatic potential, we find that near-optimum information transfer is achieved by a delocalized speckled probe, which attains about half of the available quantum Fisher information. The quantum limit itself is precluded due to detecting the scattering in momentum space. We compare with direct phase-contrast imaging, where a Zernike phase condition attains the quantum limit for all spatial frequencies admitted by the optical system. Our conclusions also apply to other forms of coherent scalar radiation, such as visible light and x-rays.
翻訳日:2023-10-18 20:37:41 公開日:2023-10-17
# 時空間注意に基づく生徒の授業行動検出手法

A Spatio-Temporal Attention-Based Method for Detecting Student Classroom Behaviors ( http://arxiv.org/abs/2310.02523v2 )

ライセンス: Link先を確認
Fan Yang(参考訳) 教室ビデオから生徒の行動を正確に検出することは,授業状況の分析と指導効率の向上に有用である。 しかし,学生の行動検出の精度が低いことが問題となっている。 この問題に対処するため,学生の授業行動検出のための時空間注意ベース手法(BDSTA)を提案する。 まず、SlowFastネットワークを使用して、動画から動きと環境情報の特徴マップを生成する。 次に、情報集約、圧縮、刺激プロセスを含む特徴マップに時空間注目モジュールを適用する。 その後、時間、チャネル、空間次元におけるアテンションマップを求め、これらのアテンションマップに基づいてマルチラベル動作分類を行う。 学生の授業行動データセットに存在する長期データ問題を解決するため、学習中のテールクラスデータにより重みを割り当てるために焦点損失関数を改良した。 STSCBという自作教室行動データセットを用いて実験を行った。 SlowFast モデルと比較すると,BDSTA を用いた学生行動分類の精度は8.94 %向上した。

Accurately detecting student behavior from classroom videos is beneficial for analyzing their classroom status and improving teaching efficiency. However, low accuracy in student classroom behavior detection is a prevalent issue. To address this issue, we propose a Spatio-Temporal Attention-Based Method for Detecting Student Classroom Behaviors (BDSTA). Firstly, the SlowFast network is used to generate motion and environmental information feature maps from the video. Then, the spatio-temporal attention module is applied to the feature maps, including information aggregation, compression and stimulation processes. Subsequently, attention maps in the time, channel and space dimensions are obtained, and multi-label behavior classification is performed based on these attention maps. To solve the long-tail data problem that exists in student classroom behavior datasets, we use an improved focal loss function to assign more weight to the tail class data during training. Experimental results are conducted on a self-made student classroom behavior dataset named STSCB. Compared with the SlowFast model, the average accuracy of student behavior classification detection improves by 8.94\% using BDSTA.
翻訳日:2023-10-18 20:29:34 公開日:2023-10-17
# 基礎モデルの有効長期スケーリング

Effective Long-Context Scaling of Foundation Models ( http://arxiv.org/abs/2309.16039v2 )

ライセンス: Link先を確認
Wenhan Xiong, Jingyu Liu, Igor Molybog, Hejia Zhang, Prajjwal Bhargava, Rui Hou, Louis Martin, Rashi Rungta, Karthik Abinav Sankararaman, Barlas Oguz, Madian Khabsa, Han Fang, Yashar Mehdad, Sharan Narang, Kshitiz Malik, Angela Fan, Shruti Bhosale, Sergey Edunov, Mike Lewis, Sinong Wang, Hao Ma(参考訳) 最大32,768個のトークンの効率的なコンテキストウィンドウをサポートする長文LLMを提案する。 我々のモデルシリーズは、Llama 2からの継続事前トレーニングと、長いテキストがアップサンプリングされたデータセットに基づいて構築されている。 我々は、言語モデリング、合成文脈探索タスク、および幅広い研究ベンチマークに関する広範囲な評価を行う。 研究ベンチマークでは、Llama 2上でのほとんどの通常のタスクに対する一貫した改善と長時間コンテキストタスクに対する大幅な改善を実現している。 特に、人間が注釈付き長い命令データを必要としないコスト効率の高い命令チューニング手順により、70bの派生型は、一連のロングコンテキストタスクにおけるgpt-3.5-turbo-16kの全体的な性能を既に上回ることができる。 これらの結果とともに,本手法の個々の成分について詳細な分析を行う。 我々はLlamaの位置エンコーディングを掘り下げ、長い依存関係をモデリングする際の制限について論じる。 また,データミックスやシーケンス長のトレーニングカリキュラムなど,プリトレーニングプロセスにおけるさまざまな設計選択の影響についても検討した。本実験では,プリトレーニングデータセットに豊富な長いテキストを持つことは,強力なパフォーマンスを実現する鍵ではないことを示唆する。

We present a series of long-context LLMs that support effective context windows of up to 32,768 tokens. Our model series are built through continual pretraining from Llama 2 with longer training sequences and on a dataset where long texts are upsampled. We perform extensive evaluation on language modeling, synthetic context probing tasks, and a wide range of research benchmarks. On research benchmarks, our models achieve consistent improvements on most regular tasks and significant improvements on long-context tasks over Llama 2. Notably, with a cost-effective instruction tuning procedure that does not require human-annotated long instruction data, the 70B variant can already surpass gpt-3.5-turbo-16k's overall performance on a suite of long-context tasks. Alongside these results, we provide an in-depth analysis on the individual components of our method. We delve into Llama's position encodings and discuss its limitation in modeling long dependencies. We also examine the impact of various design choices in the pretraining process, including the data mix and the training curriculum of sequence lengths -- our ablation experiments suggest that having abundant long texts in the pretrain dataset is not the key to achieving strong performance, and we empirically verify that long context continual pretraining is more efficient and similarly effective compared to pretraining from scratch with long sequences.
翻訳日:2023-10-18 20:29:18 公開日:2023-10-17
# show-1: テキスト対ビデオ生成のためのピクセルと潜在拡散モデルの統合

Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation ( http://arxiv.org/abs/2309.15818v2 )

ライセンス: Link先を確認
David Junhao Zhang, Jay Zhangjie Wu, Jia-Wei Liu, Rui Zhao, Lingmin Ran, Yuchao Gu, Difei Gao, Mike Zheng Shou(参考訳) 大規模事前学習されたテキストからビデオへの拡散モデル(vdms)の分野では大きな進歩があった。 しかし、従来の手法は、計算コストの高いピクセルベースのVDMや、テキスト・ビデオの正確なアライメントに苦しむラテントベースのVDMにのみ依存している。 本稿では,テキスト対ビデオ生成のためのピクセルベースと潜在型vdmsを融合したハイブリッドモデル show-1 を提案する。 我々のモデルは、まずピクセルベースのVDMを使用して、強いテキスト-ビデオ相関の低解像度ビデオを生成する。 その後,低解像度映像を高解像度化するために,潜伏型VDMを用いた新たな専門家翻訳手法を提案する。 ピクセルVDMと比較して、Show-1の方がはるかに効率的である(推論時のGPUメモリ使用量は15G対72G)。 また、標準ビデオ生成ベンチマークでモデルを検証する。 私たちのコードとモデルの重み付けはhttps://github.com/showlab/show-1で公開しています。

Significant advancements have been achieved in the realm of large-scale pre-trained text-to-video Diffusion Models (VDMs). However, previous methods either rely solely on pixel-based VDMs, which come with high computational costs, or on latent-based VDMs, which often struggle with precise text-video alignment. In this paper, we are the first to propose a hybrid model, dubbed as Show-1, which marries pixel-based and latent-based VDMs for text-to-video generation. Our model first uses pixel-based VDMs to produce a low-resolution video of strong text-video correlation. After that, we propose a novel expert translation method that employs the latent-based VDMs to further upsample the low-resolution video to high resolution. Compared to latent VDMs, Show-1 can produce high-quality videos of precise text-video alignment; Compared to pixel VDMs, Show-1 is much more efficient (GPU memory usage during inference is 15G vs 72G). We also validate our model on standard video generation benchmarks. Our code and model weights are publicly available at https://github.com/showlab/Show-1.
翻訳日:2023-10-18 20:28:53 公開日:2023-10-17
# セマンティック推論読解における単語レベルニューラル状態分類のためのLLM, EEG, アイトラックバイオマーカー解析の統合

Integrating LLM, EEG, and Eye-Tracking Biomarker Analysis for Word-Level Neural State Classification in Semantic Inference Reading Comprehension ( http://arxiv.org/abs/2309.15714v2 )

ライセンス: Link先を確認
Yuhong Zhang, Qin Li, Sujal Nahata, Tasnia Jamal, Shih-kuen Cheng, Gert Cauwenberghs, Tzyy-Ping Jung(参考訳) 近年,GPT(Generative Pre-trained Transformers)など,大規模言語モデル(LLM)の普及に伴い,意味言語の意味の人間的・機械的理解の探究に大きな変化が見られた。 このシフトは、認知科学と自然言語処理(NLP)を橋渡しする学際的な研究を要求する。 本研究の目的は,意味的関係理解タスクにおける個人の神経状態に関する洞察を提供することである。 本研究では,LLM,視線,脳波(EEG)データを共同で分析し,読解中にキーワードに関連性のある単語をどのように処理するかを検討する。 また,係留関連脳波データ分類の改善に機能工学的アプローチを適用し,キーワードの関連性が高い単語と低い単語を被験者が読み取る。 この単語レベルの分類における最良の検証精度は、12の被験者に対して60\%以上である。 推論キーワードの関連性が高い単語は1語あたり眼の固定が有意に高かった: 1.0584 は0.6576 であり、非固定語を除くと 0.5126 であり、それらを含むと 1.4026 である。 この研究は、LLM知識を用いて単語レベルで脳状態を分類する最初の試みである。 人間の認知能力と人工知能(AGI)の領域に関する貴重な洞察を提供し、読み取り支援技術を開発するためのガイダンスを提供する。

With the recent proliferation of large language models (LLMs), such as Generative Pre-trained Transformers (GPT), there has been a significant shift in exploring human and machine comprehension of semantic language meaning. This shift calls for interdisciplinary research that bridges cognitive science and natural language processing (NLP). This pilot study aims to provide insights into individuals' neural states during a semantic relation reading-comprehension task. We propose jointly analyzing LLMs, eye-gaze, and electroencephalographic (EEG) data to study how the brain processes words with varying degrees of relevance to a keyword during reading. We also use a feature engineering approach to improve the fixation-related EEG data classification while participants read words with high versus low relevance to the keyword. The best validation accuracy in this word-level classification is over 60\% across 12 subjects. Words of high relevance to the inference keyword had significantly more eye fixations per word: 1.0584 compared to 0.6576 when excluding no-fixation words, and 1.5126 compared to 1.4026 when including them. This study represents the first attempt to classify brain states at a word level using LLM knowledge. It provides valuable insights into human cognitive abilities and the realm of Artificial General Intelligence (AGI), and offers guidance for developing potential reading-assisted technologies.
翻訳日:2023-10-18 20:28:33 公開日:2023-10-17
# Wav2vecによる発声障害の検出と重症度分類

Wav2vec-based Detection and Severity Level Classification of Dysarthria from Speech ( http://arxiv.org/abs/2309.14107v2 )

ライセンス: Link先を確認
Farhad Javanmardi, Saska Tirronen, Manila Kodali, Sudarsana Reddy Kadiri, Paavo Alku(参考訳) 音響信号からのジステリアの自動検出と重症度レベルの分類は、医療診断のツールとして使用できる。 本研究では, 変形性関節症音声の重度レベル分類システムを構築するための特徴抽出器として, 事前訓練したwav2vec 2.0モデルについて検討した。 実験は広く使われているUA音声データベースを用いて行われた。 検出実験の結果,Wav2vecモデルの第1層からの埋め込みにより,最高性能の基準線特性(スペクトログラム)と比較して1.23%の精度向上が得られた。 その結果, 最終層からの埋め込みは, 最良基線特性 (メル周波数ケプストラル係数) と比較して, 絶対的に10.62%の精度向上が得られた。

Automatic detection and severity level classification of dysarthria directly from acoustic speech signals can be used as a tool in medical diagnosis. In this work, the pre-trained wav2vec 2.0 model is studied as a feature extractor to build detection and severity level classification systems for dysarthric speech. The experiments were carried out with the popularly used UA-speech database. In the detection experiments, the results revealed that the best performance was obtained using the embeddings from the first layer of the wav2vec model that yielded an absolute improvement of 1.23% in accuracy compared to the best performing baseline feature (spectrogram). In the studied severity level classification task, the results revealed that the embeddings from the final layer gave an absolute improvement of 10.62% in accuracy compared to the best baseline features (mel-frequency cepstral coefficients).
翻訳日:2023-10-18 20:27:36 公開日:2023-10-17
# 声門音源特徴を用いた病理音声の分析と検出

Analysis and Detection of Pathological Voice using Glottal Source Features ( http://arxiv.org/abs/2309.14080v2 )

ライセンス: Link先を確認
Sudarsana Reddy Kadiri and Paavo Alku(参考訳) 音声病理の自動検出は客観的な評価と早期診断を可能にする。 本研究は声門源の特徴を体系的に分析し,その音声病理検出効果について検討する。 擬似閉位相(qcp)声門逆フィルタリング法で推定される声門流れを用いて声門源の特徴を抽出し、ゼロ周波数フィルタリング(zff)法で算出した近似声門源信号を用いて音響音声信号を直接使用する。 さらに,QCPとZFFによって計算された声門音源波形からメリー周波数ケプストラム係数(MFCC)を導出し,声門音源スペクトルの変動を効果的に捉えることを提案する。 実験は,hupa(universitario principe de asturias)データベースとsaarbrucken voice disorder(svd)データベースの2つのデータベースを用いて行った。 特徴分析の結果,声門源は正常声と病的声を識別する情報を含んでいることが明らかとなった。 支持ベクトルマシン(SVM)を用いて病理診断実験を行った。 検出実験から,調査した声門音源特性で得られた性能は,従来のmfccおよび知覚線形予測(plp)特性と同等かそれ以上であることがわかった。 この特徴の相補的な性質を示す従来のMFCCとLPの特徴を組み合わせることで,最も優れた検出性能が得られた。

Automatic detection of voice pathology enables objective assessment and earlier intervention for the diagnosis. This study provides a systematic analysis of glottal source features and investigates their effectiveness in voice pathology detection. Glottal source features are extracted using glottal flows estimated with the quasi-closed phase (QCP) glottal inverse filtering method, using approximate glottal source signals computed with the zero frequency filtering (ZFF) method, and using acoustic voice signals directly. In addition, we propose to derive mel-frequency cepstral coefficients (MFCCs) from the glottal source waveforms computed by QCP and ZFF to effectively capture the variations in glottal source spectra of pathological voice. Experiments were carried out using two databases, the Hospital Universitario Principe de Asturias (HUPA) database and the Saarbrucken Voice Disorders (SVD) database. Analysis of features revealed that the glottal source contains information that discriminates normal and pathological voice. Pathology detection experiments were carried out using support vector machine (SVM). From the detection experiments it was observed that the performance achieved with the studied glottal source features is comparable or better than that of conventional MFCCs and perceptual linear prediction (PLP) features. The best detection performance was achieved when the glottal source features were combined with the conventional MFCCs and PLP features, which indicates the complementary nature of the features.
翻訳日:2023-10-18 20:27:24 公開日:2023-10-17
# AnglE最適化テキスト埋め込み

AnglE-optimized Text Embeddings ( http://arxiv.org/abs/2309.12871v3 )

ライセンス: Link先を確認
Xianming Li, Jing Li(参考訳) 高品質なテキスト埋め込みは、Large Language Model (LLM) アプリケーションにおいて重要なコンポーネントであるセマンティックテキスト類似性(STS)タスクの改善に重要である。 しかし、既存のテキスト埋め込みモデルが直面する共通の課題は、主に飽和ゾーンを持つ最適化目的におけるコサイン関数に依存することによる勾配の消失の問題である。 本稿では,AnglEと呼ばれる新しい角度最適化テキスト埋め込みモデルを提案する。 AnglEの中核となる考え方は、複素空間に角度最適化を導入することである。 この手法は、勾配を阻害し最適化を妨げうるコサイン関数における飽和域の悪影響を効果的に軽減する。 包括的なSTS評価を設定するために、既存の短文STSデータセットとGitHub Issuesから新たに収集された長文STSデータセットを試した。 さらに、ラベル付きデータに制限のあるドメイン固有のstsシナリオを検討し、アングルがllmアノテートデータとどのように連携するかを検討する。 短文STS、長文STS、ドメイン固有のSTSタスクなど、さまざまなタスクで大規模な実験が行われた。 その結果、AnglEはコサイン飽和ゾーンを無視したSOTA(State-of-the-art STS)モデルよりも優れていた。 これらの結果は、AnglEが高品質なテキスト埋め込みを生成する能力と、STSにおける角度最適化の有用性を示している。

High-quality text embedding is pivotal in improving semantic textual similarity (STS) tasks, which are crucial components in Large Language Model (LLM) applications. However, a common challenge existing text embedding models face is the problem of vanishing gradients, primarily due to their reliance on the cosine function in the optimization objective, which has saturation zones. To address this issue, this paper proposes a novel angle-optimized text embedding model called AnglE. The core idea of AnglE is to introduce angle optimization in a complex space. This novel approach effectively mitigates the adverse effects of the saturation zone in the cosine function, which can impede gradient and hinder optimization processes. To set up a comprehensive STS evaluation, we experimented on existing short-text STS datasets and a newly collected long-text STS dataset from GitHub Issues. Furthermore, we examine domain-specific STS scenarios with limited labeled data and explore how AnglE works with LLM-annotated data. Extensive experiments were conducted on various tasks including short-text STS, long-text STS, and domain-specific STS tasks. The results show that AnglE outperforms the state-of-the-art (SOTA) STS models that ignore the cosine saturation zone. These findings demonstrate the ability of AnglE to generate high-quality text embeddings and the usefulness of angle optimization in STS.
翻訳日:2023-10-18 20:26:58 公開日:2023-10-17
# 逆問題に対する教師なしニューラルネットワークの収束と回復保証

Convergence and Recovery Guarantees of Unsupervised Neural Networks for Inverse Problems ( http://arxiv.org/abs/2309.12128v2 )

ライセンス: Link先を確認
Nathan Buskulic, Jalal Fadili, Yvain Qu\'eau(参考訳) 近年、ニューラルネットワークは逆問題の解決に顕著なアプローチとなっている。 逆問題を経験的に解くためにこのような手法の多元性を開発したが、これらの方法に対する明確な理論的保証はいまだに欠如している。 一方で、多くの研究がニューラルネットワークの最適解に収束することを証明し、オーバーパラメトリゼーションをニューラルタンジェントカーネルを制御する方法として用いた。 本研究では,これら2つの世界を橋渡しする方法を調査し,逆問題を解くために訓練された教師なしフィードフォワード多層ニューラルネットワークのクラスに対して,決定論的収束と回復の保証を提供する。 また、スムーズなアクティベーション関数を持つ2層ディープ逆プリエントネットワークが保証の恩恵を受けるようなオーバーパラメトリゼーション境界を導出する。

Neural networks have become a prominent approach to solve inverse problems in recent years. While a plethora of such methods was developed to solve inverse problems empirically, we are still lacking clear theoretical guarantees for these methods. On the other hand, many works proved convergence to optimal solutions of neural networks in a more general setting using overparametrization as a way to control the Neural Tangent Kernel. In this work we investigate how to bridge these two worlds and we provide deterministic convergence and recovery guarantees for the class of unsupervised feedforward multilayer neural networks trained to solve inverse problems. We also derive overparametrization bounds under which a two-layers Deep Inverse Prior network with smooth activation function will benefit from our guarantees.
翻訳日:2023-10-18 20:26:36 公開日:2023-10-17
# AceGPT, アラビア語における大規模言語モデル

AceGPT, Localizing Large Language Models in Arabic ( http://arxiv.org/abs/2309.12053v4 )

ライセンス: Link先を確認
Huang Huang, Fei Yu, Jianqing Zhu, Xuening Sun, Hao Cheng, Dingjie Song, Zhihong Chen, Abdulmohsen Alharthi, Bang An, Juncai He, Ziche Liu, Zhiyi Zhang, Junying Chen, Jianquan Li, Benyou Wang, Lian Zhang, Ruoyu Sun, Xiang Wan, Haizhou Li, Jinchao Xu(参考訳) 本稿では,現在主流のモデルでは不十分な文化的特徴を付与したアラビア語を特化して,局所的な大規模言語モデル (LLM) の開発に着目する。 文化的感受性と地域価値に対処する際、重要な懸念が浮かび上がる。 そこで本稿では,アラビア語テキストの事前学習,ネイティブアラビア語命令を用いた教師付き微調整(sft),アラビア語でのgpt-4応答,地域文化や価値観に応じた報酬モデルを用いたaiフィードバックによる強化学習(rlaif)などを含む包括的解法を提案する。 目標は、アラビア語話者コミュニティの多様なアプリケーション固有のニーズに適応できる、文化的に認識され、価値あるアラビア語のllmを育成することである。 総合的な評価によると、結果として得られたモデルは「AceGPT」と呼ばれ、命令追従ベンチマーク(アラビア語 Vicuna-80 と アラビア語 AlpacaEval)、知識ベンチマーク(アラビア語 MMLU と EXAMs)、新しく導入されたアラビア文化と価値アライメントベンチマークなど、様々なベンチマークで、オープンアラビア LLM の最先端標準を定めている。 特にacegptは、gpt-4で評価された場合の人気のあるvicuna-80ベンチマークでturboよりも優れている。 コード、データ、モデルはhttps://github.com/FreedomIntelligence/AceGPTにある。

This paper is devoted to the development of a localized Large Language Model (LLM) specifically for Arabic, a language imbued with unique cultural characteristics inadequately addressed by current mainstream models. Significant concerns emerge when addressing cultural sensitivity and local values. To address this, the paper proposes a comprehensive solution that includes further pre-training with Arabic texts, Supervised Fine-Tuning (SFT) utilizing native Arabic instructions, and GPT-4 responses in Arabic, alongside Reinforcement Learning with AI Feedback (RLAIF) employing a reward model attuned to local culture and values. The goal is to cultivate culturally cognizant and value-aligned Arabic LLMs capable of accommodating the diverse, application-specific needs of Arabic-speaking communities. Comprehensive evaluations reveal that the resulting model, dubbed 'AceGPT', sets the state-of-the-art standard for open Arabic LLMs across various benchmarks, including the instruction-following benchmark (i.e., Arabic Vicuna-80 and Arabic AlpacaEval), knowledge benchmark (i.e., Arabic MMLU and EXAMs), and the newly introduced Arabic Cultural and Value Alignment benchmark. Notably, AceGPT outperforms Turbo in the popular Vicuna-80 benchmark when evaluated with GPT-4, despite the benchmark's limited scale. Codes, data, and models are in https://github.com/FreedomIntelligence/AceGPT.
翻訳日:2023-10-18 20:26:23 公開日:2023-10-17
# ビットフリップ符号を用いたバイアス保存計算

Bias-preserving computation with the bit-flip code ( http://arxiv.org/abs/2310.03264v2 )

ライセンス: Link先を確認
Shoichiro Tsutsui and Keita Kanno(参考訳) ビットフリップ誤りのみ発生可能なバイアスドノイズチャネルにおいて,ビットフリップ反復符号を用いたフォールトトレラント量子計算の実現可能性を検討する。 いくつかの論理ゲートは、そのようなチャネルでも位相フリップエラーを発生させることができるが、$S$、$H$、$\mathrm{CZ}$、$R_z$ gatesのバイアス保存実装を提案する。 本稿では,量子系の時間発展や変分量子固有解法など,いくつかのタスクにおける計算精度の向上を実証する。

We explore the feasibility of fault-tolerant quantum computation using the bit-flip repetition code in a biased noise channel where only the bit-flip error can occur. While several logic gates can potentially produce phase-flip errors even in such a channel, we propose bias-preserving implementation of $S$, $H$, $\mathrm{CZ}$, and $R_z$ gates. We demonstrate that our scheme improves the computational precision in several tasks such as the time evolution of quantum systems and variational quantum eigensolver.
翻訳日:2023-10-18 20:20:14 公開日:2023-10-17
# ReForm-Eval:タスク指向ベンチマークの統一再定式化による大規模視覚言語モデルの評価

ReForm-Eval: Evaluating Large Vision Language Models via Unified Re-Formulation of Task-Oriented Benchmarks ( http://arxiv.org/abs/2310.02569v2 )

ライセンス: Link先を確認
Zejun Li, Ye Wang, Mengfei Du, Qingwen Liu, Binhao Wu, Jiwen Zhang, Chengxing Zhou, Zhihao Fan, Jie Fu, Jingjing Chen, Xuanjing Huang, Zhongyu Wei(参考訳) 近年,大型視覚言語モデル(lvlms)の開発が目覚ましい進展を遂げている。 強力な言語バックボーンと効率的なクロスモーダルアライメント戦略により、LVLMは視覚信号を知覚し、視覚的に接地された推論を行う驚くべき能力を示す。 しかし,LVLMの能力は包括的かつ定量的に評価されていない。 既存のマルチモーダルベンチマークの多くはタスク指向の入力出力フォーマットを必要としており、LVLMのフリーフォームテキスト出力を自動的に評価する上で大きな課題となっている。 既存のベンチマークで利用可能なアノテーションを効果的に活用し、新しいベンチマーク構築に必要な手作業を削減するため、既存のベンチマークをLVLM互換の統一フォーマットに再フォーマットすることを提案する。 系統的なデータ収集と再構成を通じて,LVLMの様々な機能を評価するための重要なデータを提供するReForm-Evalベンチマークを提案する。 改革評価に基づいて広範な実験を行い、既存のlvlmの強みと弱みを徹底的に分析し、基礎となる要因を特定する。 当社のベンチマークおよび評価フレームワークは,LVLMの開発を進めるための基盤としてオープンソース化される予定である。

Recent years have witnessed remarkable progress in the development of large vision-language models (LVLMs). Benefiting from the strong language backbones and efficient cross-modal alignment strategies, LVLMs exhibit surprising capabilities to perceive visual signals and perform visually grounded reasoning. However, the capabilities of LVLMs have not been comprehensively and quantitatively evaluate. Most existing multi-modal benchmarks require task-oriented input-output formats, posing great challenges to automatically assess the free-form text output of LVLMs. To effectively leverage the annotations available in existing benchmarks and reduce the manual effort required for constructing new benchmarks, we propose to re-formulate existing benchmarks into unified LVLM-compatible formats. Through systematic data collection and reformulation, we present the ReForm-Eval benchmark, offering substantial data for evaluating various capabilities of LVLMs. Based on ReForm-Eval, we conduct extensive experiments, thoroughly analyze the strengths and weaknesses of existing LVLMs, and identify the underlying factors. Our benchmark and evaluation framework will be open-sourced as a cornerstone for advancing the development of LVLMs.
翻訳日:2023-10-18 20:20:05 公開日:2023-10-17
# zkFL:フェデレートラーニングのためのゼロ知識証明に基づくグラディエントアグリゲーション

zkFL: Zero-Knowledge Proof-based Gradient Aggregation for Federated Learning ( http://arxiv.org/abs/2310.02554v2 )

ライセンス: Link先を確認
Zhipeng Wang, Nanqing Dong, Jiahao Sun, William Knottenbelt(参考訳) Federated Learning(FL)は、中央アグリゲータのオーケストレーションの下で、複数の分散クライアントが協力してモデルをトレーニングできる機械学習パラダイムである。 従来のflソリューションは集中型アグリゲータの信頼の前提に依存しており、これは公正で正直な方法でクライアントのコホートを形成する。 しかし、実際には悪意のあるアグリゲータは、クライアントのトレーニングモデルを捨てて置き換えるか、偽のクライアントを挿入するためにsybil攻撃を開始することができる。 このような悪意ある行動によって、アグリゲータはfl設定でクライアントを制御でき、最終的なトレーニング結果を決定することができる。 本稿では,zkfl(zero-knowledge proofs (zkps) を利用して,トレーニングモデル集約プロセスにおける悪意のあるアグリゲータの問題に対処する。 正しい集計結果を保証するために、アグリゲータはラウンド毎の証明を提供する必要がある。 この証明は、クライアントにアグリゲータが意図した振る舞いを忠実に実行することを示すことができる。 クライアントの検証コストをさらに削減するため、マイナ(すなわち、ブロックチェーンデータの検証と維持を行うノード)がクライアントのローカルモデルや集約モデルを知ることなく、証明を検証できるゼロ知識の方法で、証明を処理するブロックチェーンを採用しました。 理論的解析と実証結果から、zkFLは基礎となるFLネットワーク構造を変更したり、トレーニング速度を著しく向上させることなく、従来のFLよりも優れたセキュリティとプライバシを実現することができることが示された。

Federated Learning (FL) is a machine learning paradigm, which enables multiple and decentralized clients to collaboratively train a model under the orchestration of a central aggregator. Traditional FL solutions rely on the trust assumption of the centralized aggregator, which forms cohorts of clients in a fair and honest manner. However, a malicious aggregator, in reality, could abandon and replace the client's training models, or launch Sybil attacks to insert fake clients. Such malicious behaviors give the aggregator more power to control clients in the FL setting and determine the final training results. In this work, we introduce zkFL, which leverages zero-knowledge proofs (ZKPs) to tackle the issue of a malicious aggregator during the training model aggregation process. To guarantee the correct aggregation results, the aggregator needs to provide a proof per round. The proof can demonstrate to the clients that the aggregator executes the intended behavior faithfully. To further reduce the verification cost of clients, we employ a blockchain to handle the proof in a zero-knowledge way, where miners (i.e., the nodes validating and maintaining the blockchain data) can verify the proof without knowing the clients' local and aggregated models. The theoretical analysis and empirical results show that zkFL can achieve better security and privacy than traditional FL, without modifying the underlying FL network structure or heavily compromising the training speed.
翻訳日:2023-10-18 20:19:45 公開日:2023-10-17
# ImagenHub:条件付き画像生成モデルの標準化

ImagenHub: Standardizing the evaluation of conditional image generation models ( http://arxiv.org/abs/2310.01596v2 )

ライセンス: Link先を確認
Max Ku, Tianle Li, Kai Zhang, Yujie Lu, Xingyu Fu, Wenwen Zhuang, Wenhu Chen(参考訳) 近年,テキスト対画像生成,テキストガイド画像編集,主題駆動画像生成,制御ガイド画像生成など,さまざまな下流タスクを行うための条件付き画像生成・編集モデルが数多く開発されている。 しかし,実験条件では,データセット,推論,評価指標の公正比較が困難である。 本稿では,条件付き画像生成モデルの推論と評価を標準化するワンストップライブラリであるImagenHubを提案する。 まず,7つのタスクを定義し,高品質な評価データセットをキュレートする。 次に、公正な比較を保証するために、統一的な推論パイプラインを構築しました。 第3に,感性一貫性と知覚品質という2つの評価スコアと,生成した画像を評価するための包括的なガイドラインを設計する。 提案した指標に基づいてモデル出力を評価するために,専門家のレーダを訓練する。 評価の結果,0.4以上の76%モデルにおいて,krippendorff's alphaの高い同僚間合意が得られた。 1) 既存のモデルの性能はテキスト誘導画像生成と主観駆動画像生成を除いて概ね不満足であり, 74% のモデルが 0.5 未満のスコアを達成している。 2) 論文のクレームを検証したところ, 83%が例外を除いて保持していることがわかった。 (3)既存の自動測度のうち,主観駆動画像生成以外のスピアマン相関は0.2以上である。 今後は、新たに公開されたモデルの評価と、条件付き画像生成の進捗状況を追跡するためのリーダーボードの更新を進めていく。

Recently, a myriad of conditional image generation and editing models have been developed to serve different downstream tasks, including text-to-image generation, text-guided image editing, subject-driven image generation, control-guided image generation, etc. However, we observe huge inconsistencies in experimental conditions: datasets, inference, and evaluation metrics - render fair comparisons difficult. This paper proposes ImagenHub, which is a one-stop library to standardize the inference and evaluation of all the conditional image generation models. Firstly, we define seven prominent tasks and curate high-quality evaluation datasets for them. Secondly, we built a unified inference pipeline to ensure fair comparison. Thirdly, we design two human evaluation scores, i.e. Semantic Consistency and Perceptual Quality, along with comprehensive guidelines to evaluate generated images. We train expert raters to evaluate the model outputs based on the proposed metrics. Our human evaluation achieves a high inter-worker agreement of Krippendorff's alpha on 76% models with a value higher than 0.4. We comprehensively evaluated a total of around 30 models and observed three key takeaways: (1) the existing models' performance is generally unsatisfying except for Text-guided Image Generation and Subject-driven Image Generation, with 74% models achieving an overall score lower than 0.5. (2) we examined the claims from published papers and found 83% of them hold with a few exceptions. (3) None of the existing automatic metrics has a Spearman's correlation higher than 0.2 except subject-driven image generation. Moving forward, we will continue our efforts to evaluate newly published models and update our leaderboard to keep track of the progress in conditional image generation.
翻訳日:2023-10-18 20:19:19 公開日:2023-10-17
# ETGraph:EthereumとTwitterを橋渡しするピアネリングデータセット

ETGraph: A Pioneering Dataset Bridging Ethereum and Twitter ( http://arxiv.org/abs/2310.01015v2 )

ライセンス: Link先を確認
Qian Wang, Zhen Zhang, Zemin Liu, Shengliang Lu, Bingqiao Luo, Bingsheng He(参考訳) 多くのパブリックブロックチェーンデータセットが利用可能だが、そのユーティリティはブロックチェーンデータに特化して制限されている。 この制約は、関連するソーシャルネットワークデータのブロックチェーン分析への取り込みを制限するため、導出可能な洞察の幅と深さを減少させる。 上記の制限に対処するため、ETGraphを紹介します。これはEthereumとTwitterを直交する新しいデータセットで、この種の最初の、そして最大のデータセットです。 ETGraphはEthereumトランザクションレコード(200万ノード、3000万エッジ)とTwitterに続くデータ(100万ノード、300万エッジ)を組み合わせて,3067のEthereumアドレスと,OpenSeaからの認証されたTwitterアカウントを結合する。 etgraphに関する詳細な統計分析では、twitterとtwitterにマッチしないethereumアドレスの構造的な違いが強調されている。 Ethereumリンク予測、ハッシュトレーディングEthereumアドレス検出、Twitter-Ethereumマッチングリンク予測などの大規模な実験は、Ethereum分析の強化におけるTwitterデータの重要性を強調している。 ETGraphはhttps://etgraph.deno.dev/.comで入手できる。

While numerous public blockchain datasets are available, their utility is constrained by a singular focus on blockchain data. This constraint limits the incorporation of relevant social network data into blockchain analysis, thereby diminishing the breadth and depth of insight that can be derived. To address the above limitation, we introduce ETGraph, a novel dataset that authentically links Ethereum and Twitter, marking the first and largest dataset of its kind. ETGraph combines Ethereum transaction records (2 million nodes and 30 million edges) and Twitter following data (1 million nodes and 3 million edges), bonding 30,667 Ethereum addresses with verified Twitter accounts sourced from OpenSea. Detailed statistical analysis on ETGraph highlights the structural differences between Twitter-matched and non-Twitter-matched Ethereum addresses. Extensive experiments, including Ethereum link prediction, wash-trading Ethereum addresses detection, and Twitter-Ethereum matching link prediction, emphasize the significant role of Twitter data in enhancing Ethereum analysis. ETGraph is available at https://etgraph.deno.dev/.
翻訳日:2023-10-18 20:18:04 公開日:2023-10-17
# 最先端監視深度と正規予測器の等分散性の改善

Improving Equivariance in State-of-the-Art Supervised Depth and Normal Predictors ( http://arxiv.org/abs/2309.16646v2 )

ライセンス: Link先を確認
Yuanyi Zhong, Anand Bhattad, Yu-Xiong Wang, David Forsyth(参考訳) 深度と表面の正常な予測器は、トリミングとリサイズに対する同変特性を持つべきであり、入力画像のトリミングは、同じ出力画像のトリミングをもたらす。 しかし、最先端の深度と通常の予測器は、性能が強いにもかかわらず、驚くほど同値ではない。 この問題は、トレーニング中に作物とサイズのデータ拡張が採用されている場合でも存在する。 そこで本研究では,平均化手法と自己整合性損失からなる同変正規化手法を提案する。 我々のアプローチはCNNとTransformerアーキテクチャの両方に適用でき、テスト中に余分なコストがかからず、特にタスクマイノミータスクにおける高密度予測器の教師付きおよび半教師付き学習性能が向上する。 最後に,未ラベル画像の微細化により,NYU-v2で評価した場合,均一性だけでなく,最先端の深度や正規予測値の精度も向上する。 githubのリンク: https://github.com/mikuhatsune/equivariance

Dense depth and surface normal predictors should possess the equivariant property to cropping-and-resizing -- cropping the input image should result in cropping the same output image. However, we find that state-of-the-art depth and normal predictors, despite having strong performances, surprisingly do not respect equivariance. The problem exists even when crop-and-resize data augmentation is employed during training. To remedy this, we propose an equivariant regularization technique, consisting of an averaging procedure and a self-consistency loss, to explicitly promote cropping-and-resizing equivariance in depth and normal networks. Our approach can be applied to both CNN and Transformer architectures, does not incur extra cost during testing, and notably improves the supervised and semi-supervised learning performance of dense predictors on Taskonomy tasks. Finally, finetuning with our loss on unlabeled images improves not only equivariance but also accuracy of state-of-the-art depth and normal predictors when evaluated on NYU-v2. GitHub link: https://github.com/mikuhatsune/equivariance
翻訳日:2023-10-18 20:17:23 公開日:2023-10-17
# RNAコントラスト学習で予測をスプリシングする

Splicing Up Your Predictions with RNA Contrastive Learning ( http://arxiv.org/abs/2310.08738v2 )

ライセンス: Link先を確認
Philip Fradkin, Ruian Shi, Bo Wang, Brendan Frey, Leo J. Lee(参考訳) ゲノムデータの急激な蓄積に直面して、RNA制御コードの理解はいまだに不完全である。 近年、他の領域における自己教師あり手法は、言語における文構造のようなデータ生成プロセスの基礎となるルールを学習する能力を示している。 そこで本研究では,交互スプライシングと遺伝子重複によって生成された配列間の機能的類似性を利用して,ゲノムデータとの対比学習技術を拡張した。 我々の新しいデータセットと対照的な目的は、一般化されたRNAアイソフォーム表現の学習を可能にする。 RNA半減期やリボソーム負荷予測などの下流タスクにおけるそれらの有用性を検証する。 事前学習戦略は,両タスクにおける線形プローブを用いた競争結果と,低データ条件におけるピアソン相関の最大2倍の増大をもたらす。 重要なことは、学習された潜伏空間を探索することで、我々の対照的な目的が意味的に意味のある表現をもたらし、RNA特性予測の貴重な初期化技術としての可能性を示している。

In the face of rapidly accumulating genomic data, our understanding of the RNA regulatory code remains incomplete. Recent self-supervised methods in other domains have demonstrated the ability to learn rules underlying the data-generating process such as sentence structure in language. Inspired by this, we extend contrastive learning techniques to genomic data by utilizing functional similarities between sequences generated through alternative splicing and gene duplication. Our novel dataset and contrastive objective enable the learning of generalized RNA isoform representations. We validate their utility on downstream tasks such as RNA half-life and mean ribosome load prediction. Our pre-training strategy yields competitive results using linear probing on both tasks, along with up to a two-fold increase in Pearson correlation in low-data conditions. Importantly, our exploration of the learned latent space reveals that our contrastive objective yields semantically meaningful representations, underscoring its potential as a valuable initialization technique for RNA property prediction.
翻訳日:2023-10-18 20:09:11 公開日:2023-10-17
# FABind:高速かつ高精度なタンパク質-リガンド結合

FABind: Fast and Accurate Protein-Ligand Binding ( http://arxiv.org/abs/2310.06763v3 )

ライセンス: Link先を確認
Qizhi Pei, Kaiyuan Gao, Lijun Wu, Jinhua Zhu, Yingce Xia, Shufang Xie, Tao Qin, Kun He, Tie-Yan Liu, Rui Yan(参考訳) タンパク質とリガンド間の相互作用をモデル化し、その結合構造を正確に予測することは、薬物の発見において非常に難しい課題である。 ディープラーニングの最近の進歩は、サンプリングベースと回帰ベースの方法が2つの顕著なアプローチとして登場し、この問題に対処する上で有望であることを示している。 しかし、これらの方法には顕著な制限がある。 サンプリングベースの方法は、選択のために複数の候補構造を生成する必要があるため、しばしば効率が低下する。 一方,回帰法では予測速度は速いが,精度は低下する可能性がある。 さらに、タンパク質サイズの変化は、しばしば適切な結合ポケットを選択するために外部モジュールを必要とする。 そこで本研究では,ポケット予測とドッキングを組み合わせて,高精度かつ高速なタンパク質-リガンド結合を実現するエンド・ツー・エンドモデルである $\mathbf{FABind}$ を提案する。 $\mathbf{FABind}$にはユニークなリガンドインフォームドポケット予測モジュールが組み込まれており、ドッキングポーズ推定にも利用される。 このモデルは、予測されたポケットを統合してタンパク質-リガンド結合を最適化し、トレーニングと推論の相違を減らすことでドッキングをさらに強化する。 ベンチマークデータセットに関する広範な実験を通じて,提案した$\mathbf{FABind}$は,既存手法と比較して有効性や効率性に強い優位性を示す。 私たちのコードは$\href{https://github.com/QizhiPei/FABind}{Github}$で利用可能です。

Modeling the interaction between proteins and ligands and accurately predicting their binding structures is a critical yet challenging task in drug discovery. Recent advancements in deep learning have shown promise in addressing this challenge, with sampling-based and regression-based methods emerging as two prominent approaches. However, these methods have notable limitations. Sampling-based methods often suffer from low efficiency due to the need for generating multiple candidate structures for selection. On the other hand, regression-based methods offer fast predictions but may experience decreased accuracy. Additionally, the variation in protein sizes often requires external modules for selecting suitable binding pockets, further impacting efficiency. In this work, we propose $\mathbf{FABind}$, an end-to-end model that combines pocket prediction and docking to achieve accurate and fast protein-ligand binding. $\mathbf{FABind}$ incorporates a unique ligand-informed pocket prediction module, which is also leveraged for docking pose estimation. The model further enhances the docking process by incrementally integrating the predicted pocket to optimize protein-ligand binding, reducing discrepancies between training and inference. Through extensive experiments on benchmark datasets, our proposed $\mathbf{FABind}$ demonstrates strong advantages in terms of effectiveness and efficiency compared to existing methods. Our code is available at $\href{https://github.com/QizhiPei/FABind}{Github}$.
翻訳日:2023-10-18 20:08:54 公開日:2023-10-17
# 超伝導量子シミュレータ上のスピン流体力学の研究

Probing spin hydrodynamics on a superconducting quantum simulator ( http://arxiv.org/abs/2310.06565v2 )

ライセンス: Link先を確認
Yun-Hao Shi, Zheng-Hang Sun, Yong-Yi Wang, Zheng-An Wang, Yu-Ran Zhang, Wei-Guo Ma, Hao-Tian Liu, Kui Zhao, Jia-Cheng Song, Gui-Han Liang, Zheng-Yang Mei, Jia-Chi Zhang, Hao Li, Chi-Tong Chen, Xiaohui Song, Jieci Wang, Guangming Xue, Haifeng Yu, Kaixuan Huang, Zhongcheng Xiang, Kai Xu, Dongning Zheng, and Heng Fan(参考訳) 量子力学における流体輸送の性質を特徴付けることは、物質のエキゾチックな非平衡相の基本的な理解に対する貴重な洞察を与える。 大規模複素量子システムにおける無限温度輸送のシミュレーションは、いまだに優れた課題である。 ここでは、制御可能でコヒーレントな超伝導量子シミュレータを用いて、ハール乱数状態の効率的に作成できるアナログ量子回路を実験的に実現し、無限温度でのスピン輸送をプローブする。 エルゴード力学を用いたはしご型量子シミュレータのユニタリ進化における拡散スピン輸送の観察を行った。 さらに, 熱処理の破壊に伴う異常なサブ拡散の兆候を明らかにするとともに, 強い障害やタイトル電位を受けるシステムの輸送特性について検討した。 我々の研究は、アナログ量子シミュレーター上で無限温度のスピン輸送を探索するスケーラブルな方法を示し、輸送の観点から他の興味深い非平衡現象を研究する方法を示している。

Characterizing the nature of hydrodynamical transport properties in quantum dynamics provides valuable insights into the fundamental understanding of exotic non-equilibrium phases of matter. Simulating infinite-temperature transport on large-scale complex quantum systems remains an outstanding challenge. Here, using a controllable and coherent superconducting quantum simulator, we experimentally realize the analog quantum circuit, which can efficiently prepare the Haar-random states, and probe spin transport at infinite temperature. We observe diffusive spin transport during the unitary evolution of the ladder-type quantum simulator with ergodic dynamics. Moreover, we explore the transport properties of the systems subjected to strong disorder or a titled potential, revealing signatures of anomalous subdiffusion in accompany with the breakdown of thermalization. Our work demonstrates a scalable method of probing infinite-temperature spin transport on analog quantum simulators, which paves the way to study other intriguing out-of-equilibrium phenomena from the perspective of transport.
翻訳日:2023-10-18 20:08:31 公開日:2023-10-17
# Tカウントの最適化はNPハードである

Optimising T-count is NP-hard ( http://arxiv.org/abs/2310.05958v2 )

ライセンス: Link先を確認
John van de Wetering, Matt Amy(参考訳) 本稿では,ブール整合性は量子回路のTゲートの最適個数が減少し,Tカウントの最適化がNPハードであることを示す。 同じ引数が可逆古典回路における toffoli ゲートの数を最適化するために拡張されることを示し、さらに$\text{np}^{\text{nqp}}$ の t-項問題に対する上限を見つける。

In this short note we show that Boolean satisfiability reduces to finding the optimal number of T gates of a quantum circuit, and hence that optimising T-count is NP-hard. We show that the same argument extends to optimising the number of Toffoli gates in a reversible classical circuit, and we furthermore find an upper bound to the T-count problem of $\text{NP}^{\text{NQP}}$.
翻訳日:2023-10-18 20:07:59 公開日:2023-10-17
# 軽量フルコンボリューションシアームトラッカー

Lightweight Full-Convolutional Siamese Tracker ( http://arxiv.org/abs/2310.05392v2 )

ライセンス: Link先を確認
Yunfeng Li, Bo Wang, Xueyi Wu, Zhuoyan Liu, Ye Li(参考訳) シングルオブジェクトトラッカーは高度な性能を達成しているが、大規模なモデルでは限られたリソースを持つプラットフォームに適用することは困難である。 さらに、既存の軽量トラッカーはパラメータ、パフォーマンス、Flops、FPSの2~3ポイントのバランスしか達成していない。 これらの点の最適バランスを実現するために,LightFCと呼ばれる軽量完全畳み込み式シームズトラッカーを提案する。 LightFCは、新しい効率的な相互相関モジュール (ECM) と、畳み込み追従パイプラインの非線形表現性を高めるために、新しい効率的な再中心ヘッド (ERH) を採用している。 ecmはアテンションライクなモジュール設計を採用し、融合特徴の空間的およびチャネル線形融合を行い、融合特徴の非線形性を高める。 さらに、現在の軽量トラッカーの成功要因を参照し、スキップ接続と検索エリア機能の再利用を導入している。 ERHは、標準センターヘッドにおける特徴次元ステージを再パラメータ化し、重要な特徴フローのボトルネックを最適化するためにチャンネルアテンションを導入する。 総合的な実験により、LightFCは性能、パラメータ、FlopsとFPSの最適なバランスを実現する。 lightfcの精度スコアは、それぞれrasotとtnl2kのmixformerv2-sを3.7 \%、6.5 \%上回り、5倍のパラメータと4.6倍のフロップを使用する。 さらに、LightFCはCPU上でMixFormerV2-Sより2倍高速で動作する。 私たちのコードと生の結果はhttps://github.com/LiYunfengLYF/LightFCで確認できます。

Although single object trackers have achieved advanced performance, their large-scale models make it difficult to apply them on the platforms with limited resources. Moreover, existing lightweight trackers only achieve balance between 2-3 points in terms of parameters, performance, Flops and FPS. To achieve the optimal balance among these points, this paper propose a lightweight full-convolutional Siamese tracker called LightFC. LightFC employs a novel efficient cross-correlation module (ECM) and a novel efficient rep-center head (ERH) to enhance the nonlinear expressiveness of the convolutional tracking pipeline. The ECM employs an attention-like module design, which conducts spatial and channel linear fusion of fused features and enhances the nonlinearly of the fused features. Additionally, it references successful factors of current lightweight trackers and introduces skip-connections and reuse of search area features. The ERH reparameterizes the feature dimensional stage in the standard center head and introduces channel attention to optimize the bottleneck of key feature flows. Comprehensive experiments show that LightFC achieves the optimal balance between performance, parameters, Flops and FPS. The precision score of LightFC outperforms MixFormerV2-S by 3.7 \% and 6.5 \% on LaSOT and TNL2K, respectively, while using 5x fewer parameters and 4.6x fewer Flops. Besides, LightFC runs 2x faster than MixFormerV2-S on CPUs. Our code and raw results can be found at https://github.com/LiYunfengLYF/LightFC
翻訳日:2023-10-18 20:07:49 公開日:2023-10-17
# InstructDET:一般化命令による参照対象検出の多様化

InstructDET: Diversifying Referring Object Detection with Generalized Instructions ( http://arxiv.org/abs/2310.05136v4 )

ライセンス: Link先を確認
Ronghao Dang, Jiangyan Feng, Haodong Zhang, Chongjian Ge, Lin Song, Lijun Gong, Chengju Liu, Qijun Chen, Feng Zhu, Rui Zhao, Yibing Song(参考訳) InstructDETはオブジェクト検出(ROD)を参照するデータ中心の手法であり、ユーザ命令に基づいて対象オブジェクトをローカライズする。 参照表現(REC)から派生する一方で、私たちが利用する命令は、オブジェクト検出に関連する一般的なユーザ意図を包含するように、大きく多様化している。 1つの画像に対して、各オブジェクトと複数のオブジェクトの異なる組み合わせを参照する膨大な命令を生成する。 各命令とその対応するオブジェクトバウンディングボックス(bbx)は、1つのトレーニングデータペアを構成する。 共通検出表現を包含するために,テキストプロンプトやオブジェクトbxによって誘導される命令を生成するために,新たな視覚言語モデル(VLM)と大規模言語モデル(LLM)が関与する。 構築したデータセットをInDETと名付けます。 基礎モデルからのイメージ、bbx、一般化された命令を含む。 我々のInDETは既存のRECデータセットとオブジェクト検出データセットから開発されており、InstructDETメソッドを使用してオブジェクトbbxを持つ任意のイメージを組み込むことが可能である。 InDETデータセットを使用することで、従来のRDDモデルは標準RECデータセットとInDETテストセットの既存のメソッドを超えることを示す。 基礎モデルを活用することでデータ拡張を自動的に行うデータ中心手法であるinstructdetは、rodが共通のオブジェクト検出命令を実行するために大きく多様化できるという有望なフィールドに指示する。

We propose InstructDET, a data-centric method for referring object detection (ROD) that localizes target objects based on user instructions. While deriving from referring expressions (REC), the instructions we leverage are greatly diversified to encompass common user intentions related to object detection. For one image, we produce tremendous instructions that refer to every single object and different combinations of multiple objects. Each instruction and its corresponding object bounding boxes (bbxs) constitute one training data pair. In order to encompass common detection expressions, we involve emerging vision-language model (VLM) and large language model (LLM) to generate instructions guided by text prompts and object bbxs, as the generalizations of foundation models are effective to produce human-like expressions (e.g., describing object property, category, and relationship). We name our constructed dataset as InDET. It contains images, bbxs and generalized instructions that are from foundation models. Our InDET is developed from existing REC datasets and object detection datasets, with the expanding potential that any image with object bbxs can be incorporated through using our InstructDET method. By using our InDET dataset, we show that a conventional ROD model surpasses existing methods on standard REC datasets and our InDET test set. Our data-centric method InstructDET, with automatic data expansion by leveraging foundation models, directs a promising field that ROD can be greatly diversified to execute common object detection instructions.
翻訳日:2023-10-18 20:07:24 公開日:2023-10-17
# 貨幣の新しい経済・金融理論

A new economic and financial theory of money ( http://arxiv.org/abs/2310.04986v3 )

ライセンス: Link先を確認
Michael E. Glinsky and Sharon Sievert(参考訳) 本論文は,電子通貨を含む経済・金融理論を根本的に改革する。 電子通貨の評価は、割引キャッシュフローのミクロ経済理論ではなく、マクロ経済理論と金融政策の基本方程式に基づいて行われる。 サブエコノミーの有形資産に付随する取引的エクイティとしての電子通貨の考え方は、主にサブエコノミーの無形資産に付随する株式としての株式の考え方とは対照的に発展する。 この見解は、実質的な(電子通貨の流動性のために)金融(電子通貨供給及び価値安定化)及び財政(投資及び運用)政策の調整を行う機関として、電子通貨管理会社によって策定される。 評価と意思決定で使用されるリスクモデルは、ディスカウント率につながるユビキタスで不適切な指数的リスクモデルではなく、真のリスクを捉えるマルチタイムスケールモデルになります。 意思決定は、多スケールリスクモデルと、Deep Reinforcement Learning、Generative Pretrained Transformers、その他の人工知能(DRL/GPT/AI)を利用したシステムコントローラによって与えられるシステム応答関数に基づいて、真のシステム制御の観点からアプローチされる。 最後に、サブエコノミーは、短期的な利用に関連する安定平衡と、マルチスケールのシステム応答関数とDRL/GPT/AIに基づくアクティブな非線形制御で安定化する必要がある不安定平衡の両方を持つ非線形複素物理系と見なされる。

This paper fundamentally reformulates economic and financial theory to include electronic currencies. The valuation of the electronic currencies will be based on macroeconomic theory and the fundamental equation of monetary policy, not the microeconomic theory of discounted cash flows. The view of electronic currency as a transactional equity associated with tangible assets of a sub-economy will be developed, in contrast to the view of stock as an equity associated mostly with intangible assets of a sub-economy. The view will be developed of the electronic currency management firm as an entity responsible for coordinated monetary (electronic currency supply and value stabilization) and fiscal (investment and operational) policies of a substantial (for liquidity of the electronic currency) sub-economy. The risk model used in the valuations and the decision-making will not be the ubiquitous, yet inappropriate, exponential risk model that leads to discount rates, but will be multi time scale models that capture the true risk. The decision-making will be approached from the perspective of true systems control based on a system response function given by the multi scale risk model and system controllers that utilize the Deep Reinforcement Learning, Generative Pretrained Transformers, and other methods of Artificial Intelligence (DRL/GPT/AI). Finally, the sub-economy will be viewed as a nonlinear complex physical system with both stable equilibriums that are associated with short-term exploitation, and unstable equilibriums that need to be stabilized with active nonlinear control based on the multi scale system response functions and DRL/GPT/AI.
翻訳日:2023-10-18 20:06:57 公開日:2023-10-17
# 変分逆推論を用いたオフライン模倣学習

Offline Imitation Learning with Variational Counterfactual Reasoning ( http://arxiv.org/abs/2310.04706v3 )

ライセンス: Link先を確認
Bowei He, Zexu Sun, Jinxin Liu, Shuai Zhang, Xu Chen, Chen Ma(参考訳) オフライン模倣学習(il)では、エージェントは、追加のオンライン環境の相互作用なしに最適な専門家の行動方針を学ぶことを目指している。 しかし、ロボット操作のような現実世界の多くのシナリオでは、オフラインデータセットは報酬なしで最適な振る舞いから収集される。 専門家データが少ないため、エージェントは通常、単に形容詞の悪い記憶に苦しめられ、環境の変化に弱いため、新しい環境に一般化する能力が欠如している。 エージェントをバイアスし、一般化を妨げるようなスプリアス的特徴を効果的に除去するために、OILCA(Ounderline{O}ffline \underline{I}mitation \underline{L}earning with \underline{C}ounterfactual data \underline{A}ugmentation)というフレームワークを提案する。 特に、識別可能な変分オートエンコーダを利用して \textit{counterfactual} サンプルを生成する。 理論的にカウンターファクトの同定と一般化の改善を解析する。 さらに,本手法は,分布内ロバスト性のベンチマークと分布外一般化のベンチマークの両方において,さまざまなベースラインを著しく上回ることを示すため,広範囲な実験を行った。

In offline Imitation Learning (IL), an agent aims to learn an optimal expert behavior policy without additional online environment interactions. However, in many real-world scenarios, such as robotics manipulation, the offline dataset is collected from suboptimal behaviors without rewards. Due to the scarce expert data, the agents usually suffer from simply memorizing poor trajectories and are vulnerable to the variations in the environments, lacking the capability of generalizing to new environments. To effectively remove spurious features that would otherwise bias the agent and hinder generalization, we propose a framework named \underline{O}ffline \underline{I}mitation \underline{L}earning with \underline{C}ounterfactual data \underline{A}ugmentation (OILCA). In particular, we leverage the identifiable variational autoencoder to generate \textit{counterfactual} samples. We theoretically analyze the counterfactual identification and the improvement of generalization. Moreover, we conduct extensive experiments to demonstrate that our approach significantly outperforms various baselines on both \textsc{DeepMind Control Suite} benchmark for in-distribution robustness and \textsc{CausalWorld} benchmark for out-of-distribution generalization.
翻訳日:2023-10-18 20:06:30 公開日:2023-10-17
# one-preference-for-all 言語モデルの多目的直接選好最適化

Beyond One-Preference-for-All: Multi-Objective Direct Preference Optimization for Language Models ( http://arxiv.org/abs/2310.03708v2 )

ライセンス: Link先を確認
Zhanhui Zhou, Jie Liu, Chao Yang, Jing Shao, Yu Liu, Xiangyu Yue, Wanli Ouyang, Yu Qiao(参考訳) 単一言語モデル(LM)は、人間からのフィードバック(RLHF)からの強化学習を通じて平均的なラベラーと整合するが、多種多様な人間の嗜好に普遍的に適合しない。 したがって、近年のアプローチはカスタマイズを追求し、異なるアライメント目標(例えば、有益性、無害性、正直性)を表現するために、原則に基づく報酬モデルを個別に訓練する。 異なるLMは、異なる目的重み付けを持つ多目的RLHF(MORLHF)によって異なる好みのために訓練することができる。 しかし、RLHFは不安定で、特に多様で通常矛盾する目的を持つMORLHFにとって、資源が豊富である。 本稿では,複数のアライメント目的に対して直接参照最適化(DPO)を拡張するRLフリーアルゴリズムであるMODPOを提案する。 本質的には、MODPOはLM学習を直接報酬モデリングに折り畳み、純粋なクロスエントロピー損失を用いたすべての原則に基づく報酬の重み付け和と一致する。 理論上は MORLHF と同じ最適解を生成することが保証されているが、MODPO は事実上より安定であり、計算効率が良く、値関数のモデリングやオンラインサンプル収集が不可能である。 安全アライメントと長時間の質問応答の実証結果から、MODPOは既存の手法と一致し、MORLHFの3倍の計算量で様々な好みに適合する最も競争力のあるLMフロントの1つを一貫して生成することを確認した。

A single language model (LM), despite aligning well with an average labeler through reinforcement learning from human feedback (RLHF), may not universally suit diverse human preferences. Recent approaches thus pursue customization, training separate principle-based reward models to represent different alignment objectives (e.g. helpfulness, harmlessness, or honesty). Different LMs can then be trained for different preferences through multi-objective RLHF (MORLHF) with different objective weightings. Yet, RLHF is unstable and resource-heavy, especially for MORLHF with diverse and usually conflicting objectives. In this paper, we present Multi-Objective Direct Preference Optimization (MODPO), an RL-free algorithm that extends Direct Preference Optimization (DPO) for multiple alignment objectives. Essentially, MODPO folds LM learning directly into reward modeling, aligning LMs with the weighted sum of all principle-based rewards using pure cross-entropy loss. While theoretically guaranteed to produce the same optimal solutions as MORLHF, MODPO is practically more stable and computationally efficient, obviating value function modeling and online sample collection. Empirical results in safety alignment and long-form question answering confirm that MODPO matches or outperforms existing methods, consistently producing one of the most competitive LM fronts that cater to diverse preferences with 3 times fewer computations compared with MORLHF.
翻訳日:2023-10-18 20:06:00 公開日:2023-10-17
# LoftQ: 大規模言語モデルのための LoRA-Fine-Tuning-Aware 量子化

LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models ( http://arxiv.org/abs/2310.08659v2 )

ライセンス: Link先を確認
Yixiao Li, Yifan Yu, Chen Liang, Pengcheng He, Nikos Karampatziakis, Weizhu Chen, Tuo Zhao(参考訳) 量子化は、LLM(Large Language Models)を提供するのに必須のテクニックであり、最近LoRAファインチューニングへの道を見つけた。 本研究では、事前学習モデルに量子化とLoRA微調整を併用するシナリオに焦点を当てる。 このような場合、完全な微調整と量子化とLoRA微調整のアプローチで下流タスクのパフォーマンスの一貫性のあるギャップを観察することが一般的である。 LLMの量子化を同時に行う新しい量子化フレームワークであるLoftQ(LoRA-Fine-Tuning-Aware Quantization)を提案する。 このような初期化は量子化モデルと完全精度モデルの相違を緩和し、下流タスクの一般化を大幅に改善する。 本稿では,自然言語理解,質問応答,要約,自然言語生成タスクについて評価する。 実験により,本手法は既存の量子化法,特に2ビットと2/4ビットの混合精度で高い性能を示した。 私たちはコードを公開します。

Quantization is an indispensable technique for serving Large Language Models (LLMs) and has recently found its way into LoRA fine-tuning. In this work we focus on the scenario where quantization and LoRA fine-tuning are applied together on a pre-trained model. In such cases it is common to observe a consistent gap in the performance on downstream tasks between full fine-tuning and quantization plus LoRA fine-tuning approach. In response, we propose LoftQ (LoRA-Fine-Tuning-aware Quantization), a novel quantization framework that simultaneously quantizes an LLM and finds a proper low-rank initialization for LoRA fine-tuning. Such an initialization alleviates the discrepancy between the quantized and full-precision model and significantly improves the generalization in downstream tasks. We evaluate our method on natural language understanding, question answering, summarization, and natural language generation tasks. Experiments show that our method is highly effective and outperforms existing quantization methods, especially in the challenging 2-bit and 2/4-bit mixed precision regimes. We will release our code.
翻訳日:2023-10-18 19:59:54 公開日:2023-10-17
# 有限領域上の知識伝達の基本限界に向けて

Towards the Fundamental Limits of Knowledge Transfer over Finite Domains ( http://arxiv.org/abs/2310.07838v2 )

ライセンス: Link先を確認
Qingyue Zhao and Banghua Zhu(参考訳) 教師からのサンプル$n$ から、ラベル$\mathcal a$ よりも入力空間$\mathcal s$ の確率的学生分類器への知識伝達の統計的効率を特徴付ける。 3つの段階の特権情報が転送を加速することを示す。 第1段階では、ハードラベルを持つサンプルのみが知られており、最大確率推定器が最小値$\sqrt{{|{\mathcal s}||{\mathcal a}|}/{n}}$に達する。 第2のレベルは、サンプルラベルの教師の確率も備えており、これは${{|{\mathcal s}||{\mathcal a}|}/{n}}$ の収束率を下げる結果となる。 しかし、この第2のデータ取得プロトコルでは、クロスエントロピー損失の単純適応が最小化され、漸近的に偏りが生じる。 この制限を克服し、二乗誤差ロジット損失の新たな経験的変種を用いて基本限界を達成する。 第3レベルはさらに、サンプル入力毎に与えられた${\mathcal a}$のソフトラベル(完全ロジット)を学生に供給し、それによって学生は${|{\mathcal s}|}/{n}$の$|{\mathcal a}|$を享受することができる。 最後のケースでは、Kulback-Leibler分散最小化器が最適である。 数値シミュレーションは4人の学習者を区別し、我々の理論を裏付ける。

We characterize the statistical efficiency of knowledge transfer through $n$ samples from a teacher to a probabilistic student classifier with input space $\mathcal S$ over labels $\mathcal A$. We show that privileged information at three progressive levels accelerates the transfer. At the first level, only samples with hard labels are known, via which the maximum likelihood estimator attains the minimax rate $\sqrt{{|{\mathcal S}||{\mathcal A}|}/{n}}$. The second level has the teacher probabilities of sampled labels available in addition, which turns out to boost the convergence rate lower bound to ${{|{\mathcal S}||{\mathcal A}|}/{n}}$. However, under this second data acquisition protocol, minimizing a naive adaptation of the cross-entropy loss results in an asymptotically biased student. We overcome this limitation and achieve the fundamental limit by using a novel empirical variant of the squared error logit loss. The third level further equips the student with the soft labels (complete logits) on ${\mathcal A}$ given every sampled input, thereby provably enables the student to enjoy a rate ${|{\mathcal S}|}/{n}$ free of $|{\mathcal A}|$. We find any Kullback-Leibler divergence minimizer to be optimal in the last case. Numerical simulations distinguish the four learners and corroborate our theory.
翻訳日:2023-10-18 19:59:32 公開日:2023-10-17
# コモンプール資源の持続性に及ぼす資源可用性と適合性の影響

Impact of resource availability and conformity effect on sustainability of common-pool resources ( http://arxiv.org/abs/2310.07577v2 )

ライセンス: Link先を確認
Chengyi Tu, Renfei Chen, Ying Fan, Xuwei Pan(参考訳) 共通プール資源の持続性は、人間と環境システム間の相互作用に依存する。 しかし、共通プール資源の抽出と、システム行動や成果を形成するさまざまな要因を考慮に入れた人間エージェントの協力をモデル化するための、新しく包括的な枠組みがまだ存在しない。 特に、さまざまなシナリオでリソースの持続性を確保する上で、依然として重要な価値が欠如しています。 本稿では,共同プール資源のための環境システムにおける資源抽出と協調を研究するための新しい枠組みを提案する。 資源の可利用性や適合性などの異なる要因がプレイヤーの判断やリソースの結果に与える影響について検討する。 各種シナリオ下で資源の持続可能性を確保するための重要な価値を同定する。 観察された現象は,モデルの複雑さや仮定に頑健であることを示し,今後の研究の限界や方向性とともに,政策や実践に対する我々の研究の意義について論じる。

Sustainability of common-pool resources hinges on the interplay between human and environmental systems. However, there is still a lack of a novel and comprehensive framework for modelling extraction of common-pool resources and cooperation of human agents that can account for different factors that shape the system behavior and outcomes. In particular, we still lack a critical value for ensuring resource sustainability under different scenarios. In this paper, we present a novel framework for studying resource extraction and cooperation in human-environmental systems for common-pool resources. We explore how different factors, such as resource availability and conformity effect, influence the players' decisions and the resource outcomes. We identify critical values for ensuring resource sustainability under various scenarios. We demonstrate the observed phenomena are robust to the complexity and assumptions of the models and discuss implications of our study for policy and practice, as well as the limitations and directions for future research.
翻訳日:2023-10-18 19:58:52 公開日:2023-10-17
# BioT5: 生物と化学知識と自然言語の相互統合を充実させる

BioT5: Enriching Cross-modal Integration in Biology with Chemical Knowledge and Natural Language Associations ( http://arxiv.org/abs/2310.07276v2 )

ライセンス: Link先を確認
Qizhi Pei, Wei Zhang, Jinhua Zhu, Kehan Wu, Kaiyuan Gao, Lijun Wu, Yingce Xia, Rui Yan(参考訳) 生物学的研究の最近の進歩は、分子、タンパク質、自然言語の統合を利用して薬物発見を促進する。 しかし、現在のモデルでは、不正な分子スマイルの生成、文脈情報の過小利用、構造化および非構造化知識の平等な扱いなど、いくつかの制限が示されている。 これらの問題に対処するために,我々は生物学におけるクロスモーダル統合と化学知識と自然言語関連を充実させる包括的事前学習フレームワークである$\mathbf{biot5}$を提案する。 $\mathbf{BioT5}$は、SELFIESを100%のロバストな分子表現に利用し、非構造生物文学におけるバイオエンティティの周囲の文脈から知識を抽出する。 さらに、$\mathbf{BioT5}$は構造化知識と非構造化知識を区別し、より効果的な情報利用につながる。 微調整後、BioT5は幅広いタスクにおいて優れたパフォーマンスを示し、バイオエンティティの基盤となる関係と特性を捉える強力な能力を示している。 私たちのコードは$\href{https://github.com/QizhiPei/BioT5}{Github}$で利用可能です。

Recent advancements in biological research leverage the integration of molecules, proteins, and natural language to enhance drug discovery. However, current models exhibit several limitations, such as the generation of invalid molecular SMILES, underutilization of contextual information, and equal treatment of structured and unstructured knowledge. To address these issues, we propose $\mathbf{BioT5}$, a comprehensive pre-training framework that enriches cross-modal integration in biology with chemical knowledge and natural language associations. $\mathbf{BioT5}$ utilizes SELFIES for $100%$ robust molecular representations and extracts knowledge from the surrounding context of bio-entities in unstructured biological literature. Furthermore, $\mathbf{BioT5}$ distinguishes between structured and unstructured knowledge, leading to more effective utilization of information. After fine-tuning, BioT5 shows superior performance across a wide range of tasks, demonstrating its strong capability of capturing underlying relations and properties of bio-entities. Our code is available at $\href{https://github.com/QizhiPei/BioT5}{Github}$.
翻訳日:2023-10-18 19:57:31 公開日:2023-10-17
# neuroinspect:クラス条件の可視化によるニューロンベースのデバッグフレームワーク

NeuroInspect: Interpretable Neuron-based Debugging Framework through Class-conditional Visualizations ( http://arxiv.org/abs/2310.07184v2 )

ライセンス: Link先を確認
Yeong-Joon Ju, Ji-Hoon Park, and Seong-Whan Lee(参考訳) 深層学習(DL)は様々な領域で顕著な進歩を遂げているが、DLモデルは依然として間違いを犯しやすい。 この問題は、DL実践者がネットワーク内の意思決定プロセスを理解するために効果的なデバッグツールを必要とする。 しかし、既存のデバッグメソッドは、しばしば追加のデータや決定プロセスへの調整を要求し、その適用性を制限する。 この問題に対処するために,ニューロインスペクション(neuroinspect)という,反事実的説明,特徴の可視化,誤った相関緩和という3つの重要な段階を持つ,解釈可能なニューロンベースのデバッグフレームワークを提案する。 私たちのデバッグフレームワークはまず、ネットワークのミスの原因となるニューロンをピンポイントし、次に人間の解釈可能なニューロンに埋め込まれた機能を視覚化します。 そこで本研究では,クラスで条件づけされた特徴を表現した画像を生成し,ニューロンと決定層との関係を調べる新しい特徴可視化手法である clip-illusion を提案する。 クラス情報を用いて従来の可視化手法の畳み込み説明を緩和し,混合特性を分離する。 このプロセスは、トレーニングされたネットワークの変更や追加データを必要とすることなく、モデルエラーに対してより人間解釈可能な説明を提供する。 さらに,確率的視点でデータセットから学習した偽相関を緩和し,主要な原因と考えられるニューロンの決定を変更する。 我々は,偽相関に対処し,実環境において最もパフォーマンスの悪いクラスに対する推論を改善することで,フレームワークの有効性を検証する。 また,NuroInspectは人的理解の評価を通じて,DLモデルの誤りのデバッグを支援することを示した。 コードはhttps://github.com/yeongjoonJu/NeuroInspect.comで公開されている。

Despite deep learning (DL) has achieved remarkable progress in various domains, the DL models are still prone to making mistakes. This issue necessitates effective debugging tools for DL practitioners to interpret the decision-making process within the networks. However, existing debugging methods often demand extra data or adjustments to the decision process, limiting their applicability. To tackle this problem, we present NeuroInspect, an interpretable neuron-based debugging framework with three key stages: counterfactual explanations, feature visualizations, and false correlation mitigation. Our debugging framework first pinpoints neurons responsible for mistakes in the network and then visualizes features embedded in the neurons to be human-interpretable. To provide these explanations, we introduce CLIP-Illusion, a novel feature visualization method that generates images representing features conditioned on classes to examine the connection between neurons and the decision layer. We alleviate convoluted explanations of the conventional visualization approach by employing class information, thereby isolating mixed properties. This process offers more human-interpretable explanations for model errors without altering the trained network or requiring additional data. Furthermore, our framework mitigates false correlations learned from a dataset under a stochastic perspective, modifying decisions for the neurons considered as the main causes. We validate the effectiveness of our framework by addressing false correlations and improving inferences for classes with the worst performance in real-world settings. Moreover, we demonstrate that NeuroInspect helps debug the mistakes of DL models through evaluation for human understanding. The code is openly available at https://github.com/yeongjoonJu/NeuroInspect.
翻訳日:2023-10-18 19:56:55 公開日:2023-10-17
# プライマリ・ヘルスケアにおける抑うつリスク評価のための音声データの利用

Using Audio Data to Facilitate Depression Risk Assessment in Primary Health Care ( http://arxiv.org/abs/2310.10928v1 )

ライセンス: Link先を確認
Adam Valen Levinson, Abhay Goyal, Roger Ho Chun Man, Roy Ka-Wei Lee, Koustuv Saha, Nimay Parekh, Frederick L. Altice, Lam Yin Cheung, Munmun De Choudhury and Navin Kumar(参考訳) テレヘルスは、うつ病が一般的な状態であるプライマリヘルスケア(PHC)にとって貴重なツールである。 PHCはうつ病患者にとって最初の接触点であるが、PHC医師による診断の約25%は不正確である。 その他の多くの障壁は、PHCのうつ病の検出と治療を妨げる。 人工知能(AI)は、PHCにおけるうつ病の誤診を減らし、全体的な診断と治療結果を改善するのに役立つ。 遠隔医療の相談には、接続不良や通話の欠落といったビデオの問題がしばしば発生する。 オーディオのみの遠隔医療は、安定したインターネット接続を欠く低所得の患者にとって、より実践的であることが多い。 そこで本研究では,うつ病リスクを予測するために音声データを用いた。 目的は次の通りである。 1)24人からの音声データを収集する(うつ病12人,精神疾患のない12人,重度健康診断のない12人)。 2)うつ病リスクを予測する機械学習モデルを構築する。 自動MLツールであるTPOTは、K-nearestの隣人分類器である機械学習アルゴリズムの選択に使用された。 選択されたモデルは抑うつリスクの分類において高い性能を示した(予測: 0.98, リコール: 0.93, f1-score: 0.96)。 これらの発見はうつ病のスクリーニングや治療に役立つ様々なツールにつながる可能性がある。 うつ病のリスクを検出するツールを開発することで、患者は初期スクリーニングのためにAI駆動のチャットボットにルーティングできる。 様々な利害関係者とのパートナーシップは、これらのソリューションの実装に不可欠です。 さらに、データプライバシやAIモデルの潜在的なバイアスに関する倫理的考慮は、メンタルヘルスケアにおけるAI主導の介入の最前線にいる必要がある。

Telehealth is a valuable tool for primary health care (PHC), where depression is a common condition. PHC is the first point of contact for most people with depression, but about 25% of diagnoses made by PHC physicians are inaccurate. Many other barriers also hinder depression detection and treatment in PHC. Artificial intelligence (AI) may help reduce depression misdiagnosis in PHC and improve overall diagnosis and treatment outcomes. Telehealth consultations often have video issues, such as poor connectivity or dropped calls. Audio-only telehealth is often more practical for lower-income patients who may lack stable internet connections. Thus, our study focused on using audio data to predict depression risk. The objectives were to: 1) Collect audio data from 24 people (12 with depression and 12 without mental health or major health condition diagnoses); 2) Build a machine learning model to predict depression risk. TPOT, an autoML tool, was used to select the best machine learning algorithm, which was the K-nearest neighbors classifier. The selected model had high performance in classifying depression risk (Precision: 0.98, Recall: 0.93, F1-Score: 0.96). These findings may lead to a range of tools to help screen for and treat depression. By developing tools to detect depression risk, patients can be routed to AI-driven chatbots for initial screenings. Partnerships with a range of stakeholders are crucial to implementing these solutions. Moreover, ethical considerations, especially around data privacy and potential biases in AI models, need to be at the forefront of any AI-driven intervention in mental health care.
翻訳日:2023-10-18 18:26:07 公開日:2023-10-17
# 創発的混合実験:創発的モジュラ構造から事前学習されたトランスフォーマーに相応しいか?

Emergent Mixture-of-Experts: Can Dense Pre-trained Transformers Benefit from Emergent Modular Structures? ( http://arxiv.org/abs/2310.10908v1 )

ライセンス: Link先を確認
Zihan Qiu, Zeyu Huang, Jie Fu(参考訳) モジュール設計をニューラルネットワークに組み込むことで、優れた一般化、学習効率などが証明される。 既存のモジュラーニューラルネットワークは、モジュールアーキテクチャが事前に定義されており、個々のモジュールが個別の機能を実装することが期待されているため、一般的に$\textit{explicit}$である。 逆に、最近の研究では、標準事前学習されたトランスフォーマーに$\textit{implicit}$モジュール構造が存在していることが明らかになっている。 これらのモジュラー構造は、事前訓練の初期段階に現れ、完全に自発的であることを示している。 しかし、ほとんどのトランスフォーマーはモジュラー性が不十分なモノリシックモデルとして扱われている。 したがって、明示的なモジュラーアーキテクチャの優れた特性を考えると、$\textit{whether と、事前学習されたトランスフォーマーが創発的なモジュラー構造からどのように恩恵を受けるかを探求する。 この問題を研究するために、我々は \textbf{e}mergent $\textbf{m}$ixture-$\textbf{o}$f-$\textbf{e}$xperts (emoe) を構築します。 追加のパラメータを導入することなく、EMoEはオリジナルのモデルのモジュラー版と見なすことができ、ダウンストリームチューニングに懸命に組み込むことができる。 様々な下流タスク(ビジョンと言語)とモデル(22Mから1.5B)に対する大規模な実験(1785モデルをチューニング)により、EMoEはドメイン内およびドメイン外の一般化能力を効果的に向上することを示した。 さらなる分析およびアブレーション研究により、EMoEは負の知識伝達を緩和し、様々な構成に対して堅牢であることが示唆された。 コードは \url{https://github.com/qiuzh20/EMoE} で入手できる。

Incorporating modular designs into neural networks demonstrates superior out-of-generalization, learning efficiency, etc. Existing modular neural networks are generally $\textit{explicit}$ because their modular architectures are pre-defined, and individual modules are expected to implement distinct functions. Conversely, recent works reveal that there exist $\textit{implicit}$ modular structures in standard pre-trained transformers, namely $\textit{Emergent Modularity}$. They indicate that such modular structures exhibit during the early pre-training phase and are totally spontaneous. However, most transformers are still treated as monolithic models with their modular natures underutilized. Therefore, given the excellent properties of explicit modular architecture, we explore $\textit{whether and how dense pre-trained transformers can benefit from emergent modular structures.}$ To study this question, we construct \textbf{E}mergent $\textbf{M}$ixture-$\textbf{o}$f-$\textbf{E}$xperts (EMoE). Without introducing additional parameters, EMoE can be seen as the modular counterpart of the original model and can be effortlessly incorporated into downstream tuning. Extensive experiments (we tune 1785 models) on various downstream tasks (vision and language) and models (22M to1.5B) demonstrate that EMoE effectively boosts in-domain and out-of-domain generalization abilities. Further analysis and ablation study suggest that EMoE mitigates negative knowledge transfer and is robust to various configurations. Code is available at \url{https://github.com/qiuzh20/EMoE}
翻訳日:2023-10-18 18:25:43 公開日:2023-10-17
# ジャンプ不連続関数に対するサロゲートアクティブ部分空間

Surrogate Active Subspaces for Jump-Discontinuous Functions ( http://arxiv.org/abs/2310.10907v1 )

ライセンス: Link先を確認
Nathan Wycoff(参考訳) サーロゲートモデリングとアクティブ部分空間は、計算科学と工学における強力なパラダイムとして登場してきた。 このような技術を社会科学の計算モデルに移植することは、離散的なアウトプットを持つエージェントベースのモデルのような不連続なシミュレータを扱う際の制限を大幅に緩和する。 それにもかかわらず、以前の応用研究は、そのような推定子に対するアクティブな部分空間の推測が興味深い結果をもたらすことを示した。 しかし、活性部分空間が勾配によって定義されることを考えると、この手法が不連続なシミュレータに適用されたとき、どの量が見積もられているかは明らかではない。 本稿は、そのような分析を行う際に生じるいくつかの病態を示すことから始める。 これにより、活性部分空間が不連続函数へと拡張され、そのような解析で実際に見積もられているものを明確にする。 また,合成テスト関数に関する数値実験を行い,連続関数および不連続関数上の活性部分空間のガウス過程推定を比較する。 最後に,難民行動のエージェントベースモデルであるfleeに方法論を展開し,アフリカと中東の8つの変位危機においてシミュレーションのパラメータが最も重要であることを示す新たな知見を得た。

Surrogate modeling and active subspaces have emerged as powerful paradigms in computational science and engineering. Porting such techniques to computational models in the social sciences brings into sharp relief their limitations in dealing with discontinuous simulators, such as Agent-Based Models, which have discrete outputs. Nevertheless, prior applied work has shown that surrogate estimates of active subspaces for such estimators can yield interesting results. But given that active subspaces are defined by way of gradients, it is not clear what quantity is being estimated when this methodology is applied to a discontinuous simulator. We begin this article by showing some pathologies that can arise when conducting such an analysis. This motivates an extension of active subspaces to discontinuous functions, clarifying what is actually being estimated in such analyses. We also conduct numerical experiments on synthetic test functions to compare Gaussian process estimates of active subspaces on continuous and discontinuous functions. Finally, we deploy our methodology on Flee, an agent-based model of refugee movement, yielding novel insights into which parameters of the simulation are most important across 8 displacement crises in Africa and the Middle East.
翻訳日:2023-10-18 18:25:13 公開日:2023-10-17
# \textit{omg}$プロトコルにおけるqubit型クロストークの排除

Eliminating qubit type cross-talk in the $\textit{omg}$ protocol ( http://arxiv.org/abs/2310.10905v1 )

ライセンス: Link先を確認
Samuel R. Vizvary, Zachary J. Wall, Matthew J. Boguslawski, Michael Bareian, Andrei Derevianko, Wesley C. Campbell, Eric R. Hudson(参考訳) textit{omg}$プロトコルは、量子情報処理中に各原子のヒルベルト空間内で複数のアプリケーション固有の量子ビット部分空間を使用する有望なパラダイムである。 $\textit{omg}$ 操作の重要な前提は、サブスペースが他のサブスペースに格納された情報に対して有害な影響なしに独立してアクセス可能であることである。 ある部分空間におけるレーザーベースの量子ゲートの強度ノイズは、他の部分空間の非一貫性を引き起こし、$\textit{omg}$演算を複雑化する可能性がある。 しかし、磁場によるベクトル光シフトは、このデコヒーレンスの原因を排除できることを示す。 この手法は、ゲートレーザーの特定の磁場に依存する偏光を単に選択する必要があるため、実装が簡単で、$\textit{omg}$ の量子技術に役立つ可能性がある。

The $\textit{omg}$ protocol is a promising paradigm that uses multiple, application-specific qubit subspaces within the Hilbert space of each single atom during quantum information processing. A key assumption for $\textit{omg}$ operation is that a subspace can be accessed independently without deleterious effects on information stored in other subspaces. We find that intensity noise during laser-based quantum gates in one subspace can cause decoherence in other subspaces, potentially complicating $\textit{omg}$ operation. We show, however, that a magnetic-field-induced vector light shift can be used to eliminate this source of decoherence. As this technique requires simply choosing a certain, magnetic field dependent, polarization for the gate lasers it is straightforward to implement and potentially helpful for $\textit{omg}$ based quantum technology.
翻訳日:2023-10-18 18:24:53 公開日:2023-10-17
# 創発的AI支援談話:ChatGPTを用いた第2言語作者の事例研究

Emergent AI-Assisted Discourse: Case Study of a Second Language Writer Authoring with ChatGPT ( http://arxiv.org/abs/2310.10903v1 )

ライセンス: Link先を確認
Sharin Jacob, Tamara Tate, Mark Warschauer(参考訳) ChatGPTの急速な普及は、人間の文章に対する影響に関する議論を引き起こした。 執筆基準の低下が懸念される中,特に言語学習者において,学術的文章作成の促進にchatgptが果たす役割について検討した。 ケーススタディアプローチを用いて,ChatGPTを学術的執筆プロセスを通じて統合した博士課程生Kailingの経験を考察した。 この研究は、活動理論を、生成的AIツールで書くことを理解するためのレンズとして利用し、分析されたデータには、半構造化インタビュー、筆記サンプル、GPTログが含まれる。 その結果,カイリングは様々な執筆段階においてChatGPTと効果的に協力し,権威的な声とエージェンシーを保っていることがわかった。 このことは、ChatGPTのようなAIツールが、個々の認証を覆すことなく、言語学習者の学術的記述を強化する可能性を浮き彫りにしている。 本研究は,ChatGPTを学術書記プロセスでどのように活用するか,およびツールに係わる際の学生の真正声の保存について,批判的な考察を行う。

The rapid proliferation of ChatGPT has incited debates regarding its impact on human writing. Amid concerns about declining writing standards, this study investigates the role of ChatGPT in facilitating academic writing, especially among language learners. Using a case study approach, this study examines the experiences of Kailing, a doctoral student, who integrates ChatGPT throughout their academic writing process. The study employs activity theory as a lens for understanding writing with generative AI tools and data analyzed includes semi-structured interviews, writing samples, and GPT logs. Results indicate that Kailing effectively collaborates with ChatGPT across various writing stages while preserving her distinct authorial voice and agency. This underscores the potential of AI tools such as ChatGPT to enhance academic writing for language learners without overshadowing individual authenticity. This case study offers a critical exploration of how ChatGPT is utilized in the academic writing process and the preservation of a student's authentic voice when engaging with the tool.
翻訳日:2023-10-18 18:24:36 公開日:2023-10-17
# サブネットによるインダクティブビアーゼの注入

Instilling Inductive Biases with Subnetworks ( http://arxiv.org/abs/2310.10899v1 )

ライセンス: Link先を確認
Enyan Zhang, Michael A. Lepori, Ellie Pavlick(参考訳) 最近はさまざまなタスクでニューラルネットワークが成功していますが、モデルが実装する正確なソリューションに関する知識やコントロールはほとんどありません。 インダクティブバイアス -- 他のソリューションよりもいくつかのソリューションを好む -- をこれらのモデルに注入することは、彼らの行動を理解し、制御するための有望な道の1つだ。 モデル固有の帰納バイアスを研究し、手作業で設計したアーキテクチャや慎重にキュレートされたトレーニングレギュラーを通じて異なる帰納バイアスを注入するために多くの研究がなされている。 本研究では,より機械的なアプローチであるサブタスク誘導について検討する。 本手法は、訓練モデル内で特定のサブタスクを実装する機能サブネットワークを発見し、そのサブタスクを利用したソリューションに対する帰納的バイアスを注入する。 サブタスク誘導は柔軟かつ効率的であり、2つの実験でその効果を示す。 まず,Subtaskインダクションは,モジュール型算術課題に対して,特定の一般化可能な解を採用するために必要なトレーニングデータの量を大幅に削減することを示す。 次に,畳み込み型およびトランスフォーマー型画像分類モデルのデータ効率を高めつつ,サブタスク誘導が人間の形状バイアスをうまく誘導することを示す。

Despite the recent success of artificial neural networks on a variety of tasks, we have little knowledge or control over the exact solutions these models implement. Instilling inductive biases -- preferences for some solutions over others -- into these models is one promising path toward understanding and controlling their behavior. Much work has been done to study the inherent inductive biases of models and instill different inductive biases through hand-designed architectures or carefully curated training regimens. In this work, we explore a more mechanistic approach: Subtask Induction. Our method discovers a functional subnetwork that implements a particular subtask within a trained model and uses it to instill inductive biases towards solutions utilizing that subtask. Subtask Induction is flexible and efficient, and we demonstrate its effectiveness with two experiments. First, we show that Subtask Induction significantly reduces the amount of training data required for a model to adopt a specific, generalizable solution to a modular arithmetic task. Second, we demonstrate that Subtask Induction successfully induces a human-like shape bias while increasing data efficiency for convolutional and transformer-based image classification models.
翻訳日:2023-10-18 18:24:18 公開日:2023-10-17
# コミュニティ検出のための近似・ヒューリスティック・グラフニューラルネットワークアルゴリズムにおけるモジュラリティ最大化の解析

Analyzing Modularity Maximization in Approximation, Heuristic, and Graph Neural Network Algorithms for Community Detection ( http://arxiv.org/abs/2310.10898v1 )

ライセンス: Link先を確認
Samin Aref and Mahdi Mostajabdaveh(参考訳) 計算科学における基本的な問題であるコミュニティ検出は、様々な分野の応用を見出す。 ヒューリスティックスは、ネットワークノードのパーティション上の目的関数、モジュラリティを最大化することで、コミュニティを検出するためにしばしば使用される。 本研究では,最適分割を達成する際のモジュラリティ最大化アルゴリズムの性能について考察する。 我々は104のネットワークを使用し、多様なコンテキストから実世界のインスタンスとモジュール構造を持つ合成グラフで構成されている。 我々は,モジュラリティをグローバルに最適化する厳密な整数計画法である厳密なベースラインに対して,モジュラリティに基づくアルゴリズムを10種類分析する。 解析された10のアルゴリズムには、8つのヒューリスティック、グラフニューラルネットワークアルゴリズムの2つのバリエーション、ベイアン近似アルゴリズムのいくつかのバリエーションが含まれる。 本研究は,モジュール性に基づく手法で得られる分割と,調整された相互情報メトリクスと縮小された相互情報メトリクスの両方で示されるネットワークの最適分割との間に,大きな相違点を明らかにする。 以上の結果から,至近距離分割はしばしば最適分割と不釣り合いに異なっていた。 まとめると、我々はコミュニティを発見するためによく使われるモジュール性に基づくモジュール性に基づく方法の限界を指摘している:それらはモジュラ構造を持つネットワーク上でも最適なパーティションや最適なパーティションに似たパーティションをほとんど生成しない。 モジュラリティがコミュニティの検出に使用される場合、近似最適化アルゴリズムは適用範囲内でのモジュラリティのより方法論的な使用を推奨する。

Community detection, a fundamental problem in computational sciences, finds applications in various domains. Heuristics are often employed to detect communities through maximizing an objective function, modularity, over partitions of network nodes. Our research delves into the performance of different modularity maximization algorithms in achieving optimal partitions. We use 104 networks, comprising real-world instances from diverse contexts and synthetic graphs with modular structures. We analyze ten inexact modularity-based algorithms against an exact baseline which is an exact integer programming method that globally optimizes modularity. The ten algorithms analyzed include eight heuristics, two variations of a graph neural network algorithm, and several variations of the Bayan approximation algorithm. Our analysis uncovers substantial dissimilarities between the partitions obtained by most commonly used modularity-based methods and any optimal partition of the networks, as indicated by both adjusted and reduced mutual information metrics. Importantly, our results show that near-optimal partitions are often disproportionately dissimilar to any optimal partition. Taken together, our analysis points to a crucial limitation of the commonly used unguaranteed modularity-based methods for discovering communities: they rarely produce an optimal partition or a partition resembling an optimal partition even on networks with modular structures. If modularity is to be used for detecting communities, approximate optimization algorithms are recommendable for a more methodologically sound usage of modularity within its applicability limits.
翻訳日:2023-10-18 18:23:58 公開日:2023-10-17
# キラル誘起スピン選択性の光学的制御

Optical Regulation of Chiral-Induced Spin Selectivity ( http://arxiv.org/abs/2310.10929v1 )

ライセンス: Link先を確認
Wei Liu, Jingqi Chen and Wenjie Dou(参考訳) 強い光間相互作用の観点から、光がカイラル誘起スピン選択性(ciss)をどのように制御するかを記述する非摂動理論を提案する。 研究結果によると 1)光はcissに反作用する可能性がある。 2) cissの違いは、スピン電子に結合した核の定常状態によって引き起こされる。 3) この定常状態の違いは、スピンアップとスピンダウン電子によって感じる異なる光誘起ローレンツ力によって引き起こされる。 これらの結果の根本的な理由は、光が複雑な過程であるスピン軌道結合(SOC)に与える影響である。 この理論的枠組みは、フロケSOC非断熱核力学の計算によって検証される。

We present a non-perturbative theory that describes how light regulates chiral-induced spin selectivity (CISS) from the perspective of strong light-matter interactions. The research results indicate that 1) light can have opposite effects on the CISS, 2) the difference in CISS is caused by the steady states of nuclei coupled to spin electrons and 3) this steady state differences are caused by the different light-induced Lorentz forces felt by spin-up and spin-down electrons. The fundamental reason for these results is the impact of light on spin-orbital coupling (SOC), which is a complex process. This theoretical framework is verified by the calculations of Floquet SOC non-adiabatic nuclear dynamics.
翻訳日:2023-10-18 18:15:57 公開日:2023-10-17
# 共鳴蛍光 : $\lambda$, $v$, $\xi$ -- type 3-level configurations

Resonance fluorescence in $\Lambda$, $V$ and $\Xi$ -- type three-level configurations ( http://arxiv.org/abs/2310.10924v1 )

ライセンス: Link先を確認
Surajit Sen, Tushar Kanti Dey, Bimalendu Deb(参考訳) 理論的には、ラムダ(\Lambda$)、vee(V$)、カスケード(\Xi$)型の3レベル構成の共鳴蛍光スペクトルについて研究する。 2つの復調周波数を持つ各系は、一般化された光ブロッホ方程式を導出するために$SU(3)$対称性群を用いてモデル化できることが示されている。 各構成について、この方程式は量子回帰定理を導出し、2時間相関関数を計算するために解かれる。 パワースペクトルの非コヒーレントな部分は、異なる構成で異なる特徴を持つ多重ピーク蛍光プロファイルを与える。 また, このような系の構造が, 蛍光スペクトルのクインタップレットプロファイルの起源をいかに説明できるかについても論じる。

We theoretically study the resonance fluorescence spectra of the lambda ($\Lambda$), vee ($V$) and cascade ($\Xi$) type three-level configurations. It is shown that each system with two detuning frequencies can be modelled using the $SU(3)$ symmetry group to derive a generalized optical Bloch equation. For each configuration, this equation is solved to calculate the two-time correlation function by invoking the quantum regression theorem. The incoherent part of the power spectra gives the characteristic multi-peak fluorescence profiles which are different for different configurations. We also discuss how the dressed-state structure of such system can explain the origin of quintuplet profile of the fluorescent spectrum.
翻訳日:2023-10-18 18:15:47 公開日:2023-10-17
# spatial hubert: マルチチャンネル音声からの単一話者のための自己教師付き空間音声表現学習

Spatial HuBERT: Self-supervised Spatial Speech Representation Learning for a Single Talker from Multi-channel Audio ( http://arxiv.org/abs/2310.10922v1 )

ライセンス: Link先を確認
Antoni Dimitriadis, Siqi Pan, Vidhyasaharan Sethu, Beena Ahmed(参考訳) 自己教師付き学習は、非ラベルデータを活用するために使われ、表現モデルの訓練を通じて、音声システムの精度と一般化を改善する。 近年の多くの研究は、様々な音響領域、言語、モダリティ、さらには同時話者の効果的な表現を作ろうとしているが、これらの研究はすべて単一チャンネルの音声録音に限られている。 本稿では,マルチチャネル音声入力を用いて,単一話者に関する音響情報と空間情報の両方を学習する自己教師付き音声表現モデルであるspatial hubertを提案する。 空間的 HuBERT は、特に残響環境と雑音環境において、様々な空間的下流タスクにおいて、最先端の単一チャネル音声表現より優れた表現を学習する。 また,Spatial HuBERTで学習した表現を,下流の音声の局所化に応用した。 本稿では,1次アンビソニクス室のインパルス応答をシミュレートした100,000の新たなデータセットを公開する。

Self-supervised learning has been used to leverage unlabelled data, improving accuracy and generalisation of speech systems through the training of representation models. While many recent works have sought to produce effective representations across a variety of acoustic domains, languages, modalities and even simultaneous speakers, these studies have all been limited to single-channel audio recordings. This paper presents Spatial HuBERT, a self-supervised speech representation model that learns both acoustic and spatial information pertaining to a single speaker in a potentially noisy environment by using multi-channel audio inputs. Spatial HuBERT learns representations that outperform state-of-the-art single-channel speech representations on a variety of spatial downstream tasks, particularly in reverberant and noisy environments. We also demonstrate the utility of the representations learned by Spatial HuBERT on a speech localisation downstream task. Along with this paper, we publicly release a new dataset of 100 000 simulated first-order ambisonics room impulse responses.
翻訳日:2023-10-18 18:15:33 公開日:2023-10-17
# ソフトウェア開発を改善するための知的ソフトウェアツール

Intelligent Software Tooling for Improving Software Development ( http://arxiv.org/abs/2310.10921v1 )

ライセンス: Link先を確認
Nathan Cooper(参考訳) ソフトウェアは、人々がソフトウェアを必要とする生活サービスに必要なものや品質で世界を食べてきた。 したがって、ソフトウェア開発エクスペリエンスを改善するツールは、コードやテストケースの生成、バグの検出、質問と回答、過去10年間のディープラーニング(DL)の成功など、世界に大きな影響を与える可能性がある。 この成功の主な理由は、GitHub経由で利用可能なオープンソースコードや、トレーニング対象とするRICOとReDRAWを備えたモバイルグラフィカルユーザインタフェース(GUI)の画像データセットなど、大規模なデータセットが利用可能であることだ。 したがって、私の論説では、中心的な研究課題は以下のとおりである。 膨大な量の非構造化ソフトウェアエンジニアリング成果物に対してDL技術を活用することによって、ソフトウェア開発プロセスを改善するにはどうすればよいのか?

Software has eaten the world with many of the necessities and quality of life services people use requiring software. Therefore, tools that improve the software development experience can have a significant impact on the world such as generating code and test cases, detecting bugs, question and answering, etc., The success of Deep Learning (DL) over the past decade has shown huge advancements in automation across many domains, including Software Development processes. One of the main reasons behind this success is the availability of large datasets such as open-source code available through GitHub or image datasets of mobile Graphical User Interfaces (GUIs) with RICO and ReDRAW to be trained on. Therefore, the central research question my dissertation explores is: In what ways can the software development process be improved through leveraging DL techniques on the vast amounts of unstructured software engineering artifacts?
翻訳日:2023-10-18 18:15:17 公開日:2023-10-17
# nuclearqa:核ドメインのための言語モデルのヒューマンメイドベンチマーク

NuclearQA: A Human-Made Benchmark for Language Models for the Nuclear Domain ( http://arxiv.org/abs/2310.10920v1 )

ライセンス: Link先を確認
Anurag Acharya, Sai Munikoti, Aaron Hellinger, Sara Smith, Sridevi Wagle, and Sameera Horawalavithana(参考訳) LLMが普及するにつれて、ほとんどすべての分野で使われている。 しかし、LLMの応用が一般的な分野から狭く焦点を絞った科学領域へと拡大するにつれ、それらの分野におけるそれらの効果を評価する方法のギャップはますます高まっている。 存在するベンチマークでは、それらの多くは、問題対象の適切な理解を必要としない質問に焦点を当てています。 本稿では,核領域における言語モデルを評価するための100問のヒューマンメイドベンチマークであるnucleonqaを提案する。 我々は、我々のアプローチを詳述し、いくつかのタイプの質問を混ぜ合わせることで、核領域のモデルを評価するベンチマークが特別に有益であることを示す。 また,既存の評価基準の制限によりllmの性能を評価するための評価基準を提案する。 我々の最先端モデルに関する実験は、最高のLLMでさえ、我々のベンチマークで満足できる性能を保ち、既存のLLMの科学的知識ギャップを実証することを示唆している。

As LLMs have become increasingly popular, they have been used in almost every field. But as the application for LLMs expands from generic fields to narrow, focused science domains, there exists an ever-increasing gap in ways to evaluate their efficacy in those fields. For the benchmarks that do exist, a lot of them focus on questions that don't require proper understanding of the subject in question. In this paper, we present NuclearQA, a human-made benchmark of 100 questions to evaluate language models in the nuclear domain, consisting of a varying collection of questions that have been specifically designed by experts to test the abilities of language models. We detail our approach and show how the mix of several types of questions makes our benchmark uniquely capable of evaluating models in the nuclear domain. We also present our own evaluation metric for assessing LLM's performances due to the limitations of existing ones. Our experiments on state-of-the-art models suggest that even the best LLMs perform less than satisfactorily on our benchmark, demonstrating the scientific knowledge gap of existing LLMs.
翻訳日:2023-10-18 18:15:03 公開日:2023-10-17
# 引き裂かれた光を分解する

Taking apart squeezed light ( http://arxiv.org/abs/2310.10919v1 )

ライセンス: Link先を確認
C. Drago and J. E. Sipe(参考訳) スペクトル-時間相関が大きい圧縮光を記述する形式論を考案する。 この記述は全ての状態において有効であるが、特に特定の時間における光子密度が小さい長いパルスから連続波の極限に当てはまるが、光子の総数は非常に大きい。 本手法は, シュイーズド光のジョイント時間振幅に適用したホイットテイカー・シャノン補間式に基づき, シュイーズド状態の「分解」を可能にする。 これは状態とその光子統計の局所的な記述を提供し、シュミット分解の使用よりも基礎となる物理学をより透明にする。 形式主義はシュミット分解が不可能なよりエキゾチックな非古典状態にまで容易に拡張できる。

We develop a formalism to describe squeezed light with large spectral-temporal correlations. This description is valid in all regimes, but is especially applicable in the long pulse to continuous-wave limit where the photon density at any particular time is small, although the total number of photons can be quite large. Our method relies on the Whittaker-Shannon interpolation formula applied to the joint temporal amplitude of squeezed light, which allows us to "take apart" the squeezed state. This provides a local description of the state and its photon statistics, making the underlying physics more transparent than does the use of the Schmidt decomposition. The formalism can easily be extended to more exotic nonclassical states where a Schmidt decomposition is not possible.
翻訳日:2023-10-18 18:14:45 公開日:2023-10-17
# イメージプロンプティング基礎モデルによるフリーオープンワールドセグメンテーションに向けて

Towards Training-free Open-world Segmentation via Image Prompting Foundation Models ( http://arxiv.org/abs/2310.10912v1 )

ライセンス: Link先を確認
Lv Tang, Peng-Tao Jiang, Hao-Ke Xiao, Bo Li(参考訳) コンピュータビジョンの領域は、自然言語処理の領域における大きな言語モデルの変換的影響を反映した、基礎モデルの出現によるパラダイムシフトを目撃している。 本稿では,オープンワールドセグメンテーションの探求を探究し,視覚基礎モデルのパワーを活用したイメージプロンプトセグメンテーション(ipseg)と呼ばれる新しいアプローチを提案する。 IPSegの核心にあるのは、イメージプロンプト技術を活用するトレーニングフリーパラダイムの原則である。 IPSegは、DINOv2やStable Diffusionのような視覚基盤モデルをクエリするためのフレキシブルプロンプトとして、主観的な視覚概念を含む単一のイメージを使用している。 提案手法は、プロンプト画像と入力画像のロバストな特徴を抽出し、入力表現とプロンプト表現を新しい特徴対話モジュールでマッチングし、入力画像中の対象オブジェクトをハイライトするポイントプロンプトを生成する。 生成されたポイントプロンプトは、さらにSegment Anything Modelを誘導して、ターゲットオブジェクトを入力画像にセグメントする。 提案手法は,総合的なトレーニングセッションの必要性を排除し,より効率的でスケーラブルなソリューションを提供する。 COCO、PASCAL VOC、その他のデータセットの実験では、直感的な画像プロンプトを用いたフレキシブルなオープンワールドセグメンテーションに対するIPSegの有効性が示されている。 この研究は、イメージに伝達される視覚概念を通して、オープンワールドの理解のための基礎モデルに取り組む先駆者である。

The realm of computer vision has witnessed a paradigm shift with the advent of foundational models, mirroring the transformative influence of large language models in the domain of natural language processing. This paper delves into the exploration of open-world segmentation, presenting a novel approach called Image Prompt Segmentation (IPSeg) that harnesses the power of vision foundational models. At the heart of IPSeg lies the principle of a training-free paradigm, which capitalizes on image prompting techniques. IPSeg utilizes a single image containing a subjective visual concept as a flexible prompt to query vision foundation models like DINOv2 and Stable Diffusion. Our approach extracts robust features for the prompt image and input image, then matches the input representations to the prompt representations via a novel feature interaction module to generate point prompts highlighting target objects in the input image. The generated point prompts are further utilized to guide the Segment Anything Model to segment the target object in the input image. The proposed method stands out by eliminating the need for exhaustive training sessions, thereby offering a more efficient and scalable solution. Experiments on COCO, PASCAL VOC, and other datasets demonstrate IPSeg's efficacy for flexible open-world segmentation using intuitive image prompts. This work pioneers tapping foundation models for open-world understanding through visual concepts conveyed in images.
翻訳日:2023-10-18 18:14:33 公開日:2023-10-17
# 量子時代の機械学習: 量子対古典的サポートベクターマシン

Machine Learning in the Quantum Age: Quantum vs. Classical Support Vector Machines ( http://arxiv.org/abs/2310.10910v1 )

ライセンス: Link先を確認
Davut Emre Tasar, Kutan Koruyan, Ceren Ocal Tasar(参考訳) この研究は、古典的および量子計算パラダイムにおける機械学習アルゴリズムの有効性を判断する努力である。 特に,SVM(Support Vector Machines)に着目して,Irisデータセット上の量子ハードウェア上で動作する古典的なSVMと量子サポートベクトルマシン(Quantum Support Vector Machines,QSVM)の分類技術を精査する。 この手法は、超パラメータ最適化とともに、Qiskitライブラリを通して編成された広範な実験をカプセル化する。 この結果から,特にQSVMでは,従来のSVMで動作可能な精度が向上していることがわかった。 さらに、量子計算能力の増強と並列性の大きさが量子機械学習アルゴリズムの性能を著しく改善できることを強調する。 この調査は、量子時代における機械学習応用の現在のシナリオと将来の可能性に関する貴重な洞察を提供する。 Colab: https://t.ly/QKuz0

This work endeavors to juxtapose the efficacy of machine learning algorithms within classical and quantum computational paradigms. Particularly, by emphasizing on Support Vector Machines (SVM), we scrutinize the classification prowess of classical SVM and Quantum Support Vector Machines (QSVM) operational on quantum hardware over the Iris dataset. The methodology embraced encapsulates an extensive array of experiments orchestrated through the Qiskit library, alongside hyperparameter optimization. The findings unveil that in particular scenarios, QSVMs extend a level of accuracy that can vie with classical SVMs, albeit the execution times are presently protracted. Moreover, we underscore that augmenting quantum computational capacity and the magnitude of parallelism can markedly ameliorate the performance of quantum machine learning algorithms. This inquiry furnishes invaluable insights regarding the extant scenario and future potentiality of machine learning applications in the quantum epoch. Colab: https://t.ly/QKuz0
翻訳日:2023-10-18 18:14:09 公開日:2023-10-17
# 異種メモリ拡張ニューラルネットワーク

Heterogenous Memory Augmented Neural Networks ( http://arxiv.org/abs/2310.10909v1 )

ライセンス: Link先を確認
Zihan Qiu, Zhen Liu, Shuicheng Yan, Shanghang Zhang, Jie Fu(参考訳) 標準ニューラルネットワークと外部メモリモジュールやデータ検索などの非パラメトリックコンポーネントを組み合わせた半パラメトリック手法は、データ不足や分散(ood)のシナリオにおいて特に有用であることが示されている。 しかし、既存の半パラメトリック手法は、主に独立した生データポイントに依存しており、この戦略は、高い計算コストと大量のトークンを持つ現在の注意機構の欠如により、スケールアップが困難である。 本稿では,学習可能なメモリトークンと注意機構を導入することで,膨大な計算オーバーヘッドを伴わずに性能を効果的に向上できる,ニューラルネットワークのための新しい異種メモリ拡張手法を提案する。 汎用手法は様々なバックボーン(MLP, CNN, GNN, Transformer)とプラグイン・アンド・プレイでシームレスに組み合わせることができる。 In-distriion (ID) と OOD の両条件下での様々な画像およびグラフベースのタスクに対するアプローチを広く評価し,タスク固有の最先端手法に対する競合性能を示す。 コードは \url{https://github.com/qiuzh20/HMA} で入手できる。

It has been shown that semi-parametric methods, which combine standard neural networks with non-parametric components such as external memory modules and data retrieval, are particularly helpful in data scarcity and out-of-distribution (OOD) scenarios. However, existing semi-parametric methods mostly depend on independent raw data points - this strategy is difficult to scale up due to both high computational costs and the incapacity of current attention mechanisms with a large number of tokens. In this paper, we introduce a novel heterogeneous memory augmentation approach for neural networks which, by introducing learnable memory tokens with attention mechanism, can effectively boost performance without huge computational overhead. Our general-purpose method can be seamlessly combined with various backbones (MLP, CNN, GNN, and Transformer) in a plug-and-play manner. We extensively evaluate our approach on various image and graph-based tasks under both in-distribution (ID) and OOD conditions and show its competitive performance against task-specific state-of-the-art methods. Code is available at \url{https://github.com/qiuzh20/HMA}.
翻訳日:2023-10-18 18:13:52 公開日:2023-10-17
# 多部系に対するワイルチャネル

Weyl channels for multipartite systems ( http://arxiv.org/abs/2310.10947v1 )

ライセンス: Link先を確認
Tomas Basile, Jose Alfredo de Leon, Alejandro Fonseca, Francois Leyvraz, Carlos Pineda(参考訳) 量子写像のサブセットである量子チャネルは、量子系のユニタリおよび非ユニタリ進化を記述する。 ワイル作用素を用いて、パウリ写像の概念を多部的高次元量子系に一般化する。 そのような写像が正の量子チャネルとなる条件、すなわち完全正の正則性はフーリエ変換行列によって導かれる。 これらの条件から、この一連のチャネルの極端点を見つけ、それらの中に埋め込まれたエレガントな代数構造を識別する。 これにより、著者による初期の研究で導入された「コンポーネント消去チャンネル」の概念を拡大することができる。 これらのチャネルは有限巡回群から引き出された要素によって完全に特徴づけられる。 このようなチャネルのアルゴリズム構成が提示され、集合全体を生成する消去チャネルの最小サブセットが決定される。

Quantum channels, a subset of quantum maps, describe the unitary and non-unitary evolution of quantum systems. We study a generalization of the concept of Pauli maps to the case of multipartite high dimensional quantum systems through the use of the Weyl operators. The condition for such maps to be valid quantum channels, i.e. complete positivity, is derived in terms of Fourier transform matrices. From these conditions, we find the extreme points of this set of channels and identify an elegant algebraic structure nested within them. In turn, this allows us to expand upon the concept of "component erasing channels" introduced in earlier work by the authors. We show that these channels are completely characterized by elements drawn of finite cyclic groups. An algorithmic construction for such channels is presented and the smallest subsets of erasing channels which generate the whole set are determined.
翻訳日:2023-10-18 18:04:32 公開日:2023-10-17
# ハード制約付きバンディット凸最適化の多点フィードバック

Multi-point Feedback of Bandit Convex Optimization with Hard Constraints ( http://arxiv.org/abs/2310.10946v1 )

ライセンス: Link先を確認
Yasunari Hikima(参考訳) 本稿では,学習者が損失関数の部分的情報に基づく決定列を生成し,累積損失を低減し,累積制約違反を同時に低減することを目的とした制約付きバンディット凸最適化について検討する。 これは $\sum_{t=1}^{T} \max\{g_t(\boldsymbol{x}_t), 0\}$ で定義される。 最大演算子のため、厳密な実現可能な解は、違反した制約の影響を、通常の値である \textit{long-term} 制約違反よりもキャンセルすることはできない。 本稿では, 2点関数評価で勾配を推定し, 後悔と累積的硬度制約違反の両方の線形成長を実現するペナルティに基づく近位勾配降下法を提案する。 正確には、このアルゴリズムは$o(d^2t^{\max\{c,1-c\}})$ regret 境界と$o(d^2t^{1-\frac{c}{2}})$ vex 損失関数と時変制約に対する累積的ハード制約違反境界を達成し、$d$ は実現可能な領域の次元であり $c\in[\frac{1}{2}, 1)$ はユーザ決定パラメータである。 また、損失関数が強く凸である場合にも結果を拡張し、後悔と制約違反の境界をさらに小さくすることができることを示す。

This paper studies bandit convex optimization with constraints, where the learner aims to generate a sequence of decisions under partial information of loss functions such that the cumulative loss is reduced as well as the cumulative constraint violation is simultaneously reduced. We adopt the cumulative \textit{hard} constraint violation as the metric of constraint violation, which is defined by $\sum_{t=1}^{T} \max\{g_t(\boldsymbol{x}_t), 0\}$. Owing to the maximum operator, a strictly feasible solution cannot cancel out the effects of violated constraints compared to the conventional metric known as \textit{long-term} constraints violation. We present a penalty-based proximal gradient descent method that attains a sub-linear growth of both regret and cumulative hard constraint violation, in which the gradient is estimated with a two-point function evaluation. Precisely, our algorithm attains $O(d^2T^{\max\{c,1-c\}})$ regret bounds and $O(d^2T^{1-\frac{c}{2}})$ cumulative hard constraint violation bounds for convex loss functions and time-varying constraints, where $d$ is the dimensionality of the feasible region and $c\in[\frac{1}{2}, 1)$ is a user-determined parameter. We also extend the result for the case where the loss functions are strongly convex and show that both regret and constraint violation bounds can be further reduced.
翻訳日:2023-10-18 18:04:20 公開日:2023-10-17
# TEQ:LLMの量子化のためのトレーニング可能な等価変換

TEQ: Trainable Equivalent Transformation for Quantization of LLMs ( http://arxiv.org/abs/2310.10944v1 )

ライセンス: Link先を確認
Wenhua Cheng, Yiyang Cai, Kaokao Lv, Haihao Shen(参考訳) 大規模言語モデル (LLMs) が普及するにつれて、これらの現代的なアーキテクチャの計算層要求を満たすため、精度を維持しつつ、新しい量子化手法の必要性が高まっている。 本稿では,低精度量子化,特に3ビットと4ビットの重みのみの量子化を生かしながら,モデル出力のFP32精度を維持する訓練可能な等価変換TEQを提案する。 トレーニングプロセスは軽量で、1Kステップしか必要とせず、オリジナルのモデルのトレーニング可能なパラメータの0.1%未満である。 さらに、変換は推論中に計算オーバーヘッドを追加することはない。 本研究の結果は, 典型的なLDMにおけるSOTA法と同等である。 当社のアプローチは,パフォーマンス向上のために,他の方法と組み合わせることが可能です。 コードはhttps://github.com/intel/neural-compressorで入手できる。

As large language models (LLMs) become more prevalent, there is a growing need for new and improved quantization methods that can meet the computationalast layer demands of these modern architectures while maintaining the accuracy. In this paper, we present TEQ, a trainable equivalent transformation that preserves the FP32 precision of the model output while taking advantage of low-precision quantization, especially 3 and 4 bits weight-only quantization. The training process is lightweight, requiring only 1K steps and fewer than 0.1 percent of the original model's trainable parameters. Furthermore, the transformation does not add any computational overhead during inference. Our results are on-par with the state-of-the-art (SOTA) methods on typical LLMs. Our approach can be combined with other methods to achieve even better performance. The code is available at https://github.com/intel/neural-compressor.
翻訳日:2023-10-18 18:03:43 公開日:2023-10-17
# 自律レースにおける限界の達成--強化学習と最適制御

Reaching the Limit in Autonomous Racing: Optimal Control versus Reinforcement Learning ( http://arxiv.org/abs/2310.10943v1 )

ライセンス: Link先を確認
Yunlong Song, Angel Romero, Matthias Mueller, Vladlen Koltun, Davide Scaramuzza(参考訳) ロボット工学における中心的な疑問は、アジャイルな移動ロボットの制御システムを設計する方法である。 本稿では,この課題を体系的に研究し,自律型ドローンレースという課題に焦点をあてる。 本稿では、強化学習(RL)で訓練されたニューラルネットワークコントローラが最適制御(OC)法より優れていることを示す。 次に, RL の成功に寄与する根本的要因と OC の制限について検討した。 本研究は, OCに対するRLの基本的な利点は, 目的を最適化することではなく, 目的を最適化することにある。 ocは問題を、インターフェースとして機能する軌道のような明示的な中間表現で計画と制御に分解する。 この分解はコントローラが表現できる動作の範囲を制限し、非モデル化効果に直面すると制御性能が低下する。 対照的に、RLはタスクレベルの目的を直接最適化することができ、ドメインのランダム化を利用してモデルの不確実性に対処し、より堅牢な制御応答の発見を可能にする。 その結果、アジャイルドローンを最大性能に押し上げることができ、最大加速速度は重力加速度の12倍以上、ピーク速度は時速108kmに達しました。 我々の方針は、標準ワークステーションでのトレーニングの数分で超人的制御を実現した。 この研究はアジャイルロボティクスにおけるマイルストーンを示し、ロボット制御におけるRLとOCの役割に光を当てている。

A central question in robotics is how to design a control system for an agile mobile robot. This paper studies this question systematically, focusing on a challenging setting: autonomous drone racing. We show that a neural network controller trained with reinforcement learning (RL) outperformed optimal control (OC) methods in this setting. We then investigated which fundamental factors have contributed to the success of RL or have limited OC. Our study indicates that the fundamental advantage of RL over OC is not that it optimizes its objective better but that it optimizes a better objective. OC decomposes the problem into planning and control with an explicit intermediate representation, such as a trajectory, that serves as an interface. This decomposition limits the range of behaviors that can be expressed by the controller, leading to inferior control performance when facing unmodeled effects. In contrast, RL can directly optimize a task-level objective and can leverage domain randomization to cope with model uncertainty, allowing the discovery of more robust control responses. Our findings allowed us to push an agile drone to its maximum performance, achieving a peak acceleration greater than 12 times the gravitational acceleration and a peak velocity of 108 kilometers per hour. Our policy achieved superhuman control within minutes of training on a standard workstation. This work presents a milestone in agile robotics and sheds light on the role of RL and OC in robot control.
翻訳日:2023-10-18 18:03:29 公開日:2023-10-17
# 不可解な視覚的質問に対する答え

Unanswerable Visual Question Answering ( http://arxiv.org/abs/2310.10942v1 )

ライセンス: Link先を確認
Yanyang Guo and Fangkai Jiao and Zhiqi Shen and Liqiang Nie and Mohan Kankanhalli(参考訳) VQA(Visual Question Answering)モデルは、信頼できるAIシステムを構築する上で不可欠である。 現存する研究はVQAの様々な側面を探求しているが、この特質は無視されている。 本稿では,UNK-VQAと呼ばれる包括的データセットを提供することで,研究ギャップを埋めることを目的とする。 データセットは、不可解な質問の課題に対処するために特別に設計されている。 この目的のために、私たちはまず、画像または疑問に対して意図的に摂動することで既存のデータを拡張します。 具体的には、質問画像のセマンティクスが元の未摂動分布に近いことを慎重に確認する。 これにより、解決不可能な質問の識別が難しくなり、単なる画像置換を含む他の問題とデータセットを分離する。 そこで我々は,新たなマルチモーダル大規模モデルのゼロショットと少数ショットのパフォーマンスを広範囲に評価し,データセットに適用した場合に,その重要な限界を見出す。 また,これらの疑問に対処するための簡単な手法も提案する。 このデータセットは、VQAモデルの禁断能力を高めるための貴重なベンチマークとなり、それによってAIシステムの信頼性が向上すると考えています。

Teaching Visual Question Answering (VQA) models to abstain from unanswerable questions is indispensable for building a trustworthy AI system. Existing studies, though have explored various aspects of VQA, yet marginally ignored this particular attribute. This paper aims to bridge the research gap by contributing a comprehensive dataset, called UNK-VQA. The dataset is specifically designed to address the challenge of questions that can be unanswerable. To this end, we first augment the existing data via deliberate perturbations on either the image or question. In specific, we carefully ensure that the question-image semantics remain close to the original unperturbed distribution. By means of this, the identification of unanswerable questions becomes challenging, setting our dataset apart from others that involve mere image replacement. We then extensively evaluate the zero- and few-shot performance of several emerging multi-modal large models and discover significant limitations of them when applied to our dataset. Additionally, we also propose a straightforward method to tackle these unanswerable questions. This dataset, we believe, will serve as a valuable benchmark for enhancing the abstention capability of VQA models, thereby leading to increased trustworthiness of AI systems.
翻訳日:2023-10-18 18:03:09 公開日:2023-10-17
# eRisk 2023におけるMASON-NLP:ソーシャルメディアテキストからの深層学習による抑うつ症状の検出

MASON-NLP at eRisk 2023: Deep Learning-Based Detection of Depression Symptoms from Social Media Texts ( http://arxiv.org/abs/2310.10941v1 )

ライセンス: Link先を確認
Fardin Ahsan Sakib, Ahnaf Atef Choudhury, Ozlem Uzuner(参考訳) うつ病は精神疾患であり、人々の生活に大きな影響を与える。 近年の研究によると、うつ病の兆候は、話し言葉とテキストの両方を通して、個人のコミュニケーションの仕方で検出できることが示唆されている。 特にソーシャルメディアの投稿は、うつ病の症状を調べるためのリッチで便利なテキストソースです。 beck depression inventory (bdi) アンケートは、うつ病の重症度を測定するために頻繁に用いられており、この研究に役立つ1つの指標である。 それぞれのBDI質問が特定のうつ症状と関連しているため、これらの症状のみに研究を絞り込むことができる。 うつ病のすべての人が一度にすべての症状を示すのではなく、それらを組み合わせていることを忘れてはなりません。 したがって、文章やユーザが生成したコンテンツが特定の条件に関係しているかどうかを判断できることは極めて有用である。 このことを念頭に、eRisk 2023 Task 1は、BDIアンケートで概説されたうつ病症状に対する異なる文の関連性を評価するために設計された。 今回の報告は、このサブタスクに我々のチームであるMason-NLPがどのように参加したかに関するものです。 我々は、MentalBERT、RoBERTa、LSTMを組み込んだディープラーニングアプローチを用いた。 我々の努力にもかかわらず、評価結果は予想よりも低く、適切な方法論の選択と重要な計算資源の両方を必要とする抑うつに関する広範なデータセットから、文章のランク付けに固有の課題を浮き彫りにした。 この共有タスクの将来的なイテレーションは、私たちの理解と技術が進化するにつれて、よりよい結果をもたらすことを期待しています。

Depression is a mental health disorder that has a profound impact on people's lives. Recent research suggests that signs of depression can be detected in the way individuals communicate, both through spoken words and written texts. In particular, social media posts are a rich and convenient text source that we may examine for depressive symptoms. The Beck Depression Inventory (BDI) Questionnaire, which is frequently used to gauge the severity of depression, is one instrument that can aid in this study. We can narrow our study to only those symptoms since each BDI question is linked to a particular depressive symptom. It's important to remember that not everyone with depression exhibits all symptoms at once, but rather a combination of them. Therefore, it is extremely useful to be able to determine if a sentence or a piece of user-generated content is pertinent to a certain condition. With this in mind, the eRisk 2023 Task 1 was designed to do exactly that: assess the relevance of different sentences to the symptoms of depression as outlined in the BDI questionnaire. This report is all about how our team, Mason-NLP, participated in this subtask, which involved identifying sentences related to different depression symptoms. We used a deep learning approach that incorporated MentalBERT, RoBERTa, and LSTM. Despite our efforts, the evaluation results were lower than expected, underscoring the challenges inherent in ranking sentences from an extensive dataset about depression, which necessitates both appropriate methodological choices and significant computational resources. We anticipate that future iterations of this shared task will yield improved results as our understanding and techniques evolve.
翻訳日:2023-10-18 18:02:50 公開日:2023-10-17
# 理論と実践における高速で単純なスペクトルクラスタリング

Fast and Simple Spectral Clustering in Theory and Practice ( http://arxiv.org/abs/2310.10939v1 )

ライセンス: Link先を確認
Peter Macgregor(参考訳) スペクトルクラスタリングは、グラフ$g$で$k$クラスタを見つけるように設計された人気で効果的なアルゴリズムである。 古典的なスペクトルクラスタリングアルゴリズムでは、グラフラプラシアン行列の$k$固有ベクトルを用いて、$g$の頂点を$\mathbb{r}^k$に埋め込む。 しかし、この埋め込みの計算は計算コストが高く、アルゴリズムの実行時間を支配している。 本稿では、電力法により計算された$O(\log(k))$ベクトルを用いた頂点埋め込みに基づく単純なスペクトルクラスタリングアルゴリズムを提案する。 頂点埋め込みはグラフのサイズに関してほぼ線形時間で計算され、アルゴリズムは入力グラフ上の自然な仮定の下で基底真理クラスタを確実に回復する。 合成および実世界の複数のデータセット上で新しいアルゴリズムを評価し,クラスタリングの精度をほぼ同一にしながら,他のクラスタリングアルゴリズムよりもはるかに高速であることを確認した。

Spectral clustering is a popular and effective algorithm designed to find $k$ clusters in a graph $G$. In the classical spectral clustering algorithm, the vertices of $G$ are embedded into $\mathbb{R}^k$ using $k$ eigenvectors of the graph Laplacian matrix. However, computing this embedding is computationally expensive and dominates the running time of the algorithm. In this paper, we present a simple spectral clustering algorithm based on a vertex embedding with $O(\log(k))$ vectors computed by the power method. The vertex embedding is computed in nearly-linear time with respect to the size of the graph, and the algorithm provably recovers the ground truth clusters under natural assumptions on the input graph. We evaluate the new algorithm on several synthetic and real-world datasets, finding that it is significantly faster than alternative clustering algorithms, while producing results with approximately the same clustering accuracy.
翻訳日:2023-10-18 18:02:24 公開日:2023-10-17
# ホームアシスタントのインテント検出とスロットフィリング:BanglaとSylhetiのデータセットと解析

Intent Detection and Slot Filling for Home Assistants: Dataset and Analysis for Bangla and Sylheti ( http://arxiv.org/abs/2310.10935v1 )

ライセンス: Link先を確認
Fardin Ahsan Sakib, A H M Rezaul Karim, Saadat Hasan Khan, Md Mushfiqur Rahman(参考訳) 音声アシスタントが技術的に先進的な社会においてその地位を固めるにつれ、低リソース言語の口語形式を含む多様な言語景観に対応する必要がある。 本研究は,10種類のインテントに対して計984のサンプルを収集し,インテント検出とスロットフィリングのための最初の包括的データセットを提案する。 分析の結果,下流タスクに不適切なデータで対処するための大規模言語モデルの堅牢性を明らかにした。 GPT-3.5モデルは、意図検出で0.94点、口語バングラで0.51点のスロットフィリングを達成している。

As voice assistants cement their place in our technologically advanced society, there remains a need to cater to the diverse linguistic landscape, including colloquial forms of low-resource languages. Our study introduces the first-ever comprehensive dataset for intent detection and slot filling in formal Bangla, colloquial Bangla, and Sylheti languages, totaling 984 samples across 10 unique intents. Our analysis reveals the robustness of large language models for tackling downstream tasks with inadequate data. The GPT-3.5 model achieves an impressive F1 score of 0.94 in intent detection and 0.51 in slot filling for colloquial Bangla.
翻訳日:2023-10-18 18:02:08 公開日:2023-10-17
# 最適化された非線形ホロノミック量子計算を実現するための一般手法

General approach to realize optimized nonadiabatic holonomic quantum computation ( http://arxiv.org/abs/2310.10933v1 )

ライセンス: Link先を確認
Yue Heng Liu and Xin-Ding Zhang(参考訳) 非線形ホロノミック量子計算は、量子計算領域において多くの注目を集めているが、循環的進化と並列輸送条件を厳密に満たす必要がある。 並列条件を緩和するため,最適化された非断熱ホロノミック量子計算法が提案され,多くの最適化スキームと組み合わせることが可能となった。 本稿では,最適化された非断熱ホロノミック計算ゲートを実現するために,逆ハミルトニアンの一般形式を提唱する。 ハミルトニアンは射影ヒルベルト空間における経路パラメータの関数のみであるため、任意の望ましい進化経路を持つ任意のホロノミックゲートを実現できる。 他の逆アプローチと同様に、逆ハミルトニアンを用いることで、経路の長さとパルス領域を減少させる特別な進化経路を選択して、進化時間を短縮することができる。 したがって、このアプローチは高忠実性量子ゲートを実現するための新たな地平線を与えるかもしれない。

The nonadiabatic holonomic quantum computation has attracted much attention in the quantum computation realm, however it is required to satisfy the cyclic evolution and parallel transport conditions strictly. In order to relax the parallel condition, the optimized nonadiabatic holonomic quantum computation was proposed which can be more possible to combine with most of the optimization schemes. In this paper, we put forward the general form of reverse Hamiltonian to realize the optimized nonadiabatic holonomic computation gate. The Hamiltonian is only the function of path parameters in projective Hilbert space, hence, we can realize arbitrary holonomic gates with any desired evolution path. As same as other reverse approach, by using our reverse Hamiltonian, we also can select some special evolution path to decrease the path length and the pulse area to decrease the evolution time. Therefore our approach might give a new horizon to realize high-fidelity quantum gate.
翻訳日:2023-10-18 18:01:53 公開日:2023-10-17
# 自然言語処理のための拡張トランスアーキテクチャ

Enhanced Transformer Architecture for Natural Language Processing ( http://arxiv.org/abs/2310.10930v1 )

ライセンス: Link先を確認
Woohyeon Moon, Taeyoung Kim, Bumgeun Park and Dongsoo Har(参考訳) Transformerは自然言語処理(NLP)分野における最先端のモデルである。 現在のNLPモデルは、主に処理性能を改善するためにトランスフォーマーの数を増やす。 しかし、この技術は計算能力などの多くのトレーニングリソースを必要とする。 本稿では,変圧器の新しい構造を提案する。 全層正規化、重み付き残差接続、強化学習を利用した位置符号化、マスク付きセルフアテンションが特徴である。 提案するトランスフォーマーモデル(enhanced transformer)は,マルチ30kの翻訳データセットで得られた2言語評価アンダースタディ(bleu)スコアによって検証される。 その結果、変換データセットを持つ元のトランスに比べて202.96%高いbleuスコアが得られる。

Transformer is a state-of-the-art model in the field of natural language processing (NLP). Current NLP models primarily increase the number of transformers to improve processing performance. However, this technique requires a lot of training resources such as computing capacity. In this paper, a novel structure of Transformer is proposed. It is featured by full layer normalization, weighted residual connection, positional encoding exploiting reinforcement learning, and zero masked self-attention. The proposed Transformer model, which is called Enhanced Transformer, is validated by the bilingual evaluation understudy (BLEU) score obtained with the Multi30k translation dataset. As a result, the Enhanced Transformer achieves 202.96% higher BLEU score as compared to the original transformer with the translation dataset.
翻訳日:2023-10-18 18:01:39 公開日:2023-10-17
# 大規模言語モデルを用いた意味論的コントラスト文表現学習

Semantic-Aware Contrastive Sentence Representation Learning with Large Language Models ( http://arxiv.org/abs/2310.10962v1 )

ライセンス: Link先を確認
Huiming Wang, Liying Cheng, Zhaodonghui Li, De Wen Soh, Lidong Bing(参考訳) コントラスト学習はより良い文表現の学習に有効であることが証明されている。 しかし、対照的な学習モデルを訓練するためには、自然言語推論(NLI)データセットのような正と負のペアを明示的に構築するためには、大量のラベル付き文が必要である。 残念なことに、十分な高品質なラベル付きデータを取得することは、時間とリソース集約の両方を要し、研究者は教師なしの文表現を学習する手法の開発に注力する。 これらの非構造化のランダムサンプリング文の間に明確な関係が存在しないため、正と負のペアを構築することは難解で問題となる。 本稿では,これらの課題に対処するため,セマンティック・アウェア・コントラッシブな文表現フレームワークであるSemCSRを提案する。 大規模言語モデル(llm)の生成・評価機能を活用することで、人間の注釈を使わずに高品質なnli型コーパスを自動構築し、さらに、生成した文対を対比文表現モデルの学習に組み込むことができる。 広範な実験と包括的解析により,llmsを用いた文表現改善のための枠組みの有効性が実証された。

Contrastive learning has been proven to be effective in learning better sentence representations. However, to train a contrastive learning model, large numbers of labeled sentences are required to construct positive and negative pairs explicitly, such as those in natural language inference (NLI) datasets. Unfortunately, acquiring sufficient high-quality labeled data can be both time-consuming and resource-intensive, leading researchers to focus on developing methods for learning unsupervised sentence representations. As there is no clear relationship between these unstructured randomly-sampled sentences, building positive and negative pairs over them is tricky and problematic. To tackle these challenges, in this paper, we propose SemCSR, a semantic-aware contrastive sentence representation framework. By leveraging the generation and evaluation capabilities of large language models (LLMs), we can automatically construct a high-quality NLI-style corpus without any human annotation, and further incorporate the generated sentence pairs into learning a contrastive sentence representation model. Extensive experiments and comprehensive analyses demonstrate the effectiveness of our proposed framework for learning a better sentence representation with LLMs.
翻訳日:2023-10-18 17:55:51 公開日:2023-10-17
# 線形予測によるディープニューラルネットワークのトレーニング効率と性能の向上

Enhancing Deep Neural Network Training Efficiency and Performance through Linear Prediction ( http://arxiv.org/abs/2310.10958v1 )

ライセンス: Link先を確認
Hejie Ying, Mengmeng Song, Yaohong Tang, Shungen Xiao, Zimin Xiao(参考訳) ディープニューラルネットワーク(DNN)は、コンピュータビジョンや自然言語処理など、さまざまな分野で大きな成功を収めている。 しかし、効果的なDNNモデルのトレーニングには依然として課題がある。 本稿では,モデル性能の向上を目的として,dnnのトレーニング効果を最適化する手法を提案する。 まず、訓練過程におけるdnnパラメータが一定の法則で変化するという観測から、モデルのトレーニング効率と性能を改善するためのパラメータ予測の可能性を見出した。 第二に、DNNモデルパラメータの大きさ、ハードウェアの制限、ノイズ耐性のための確率勾配Descent(SGD)の特性を考慮すると、パラメータ線形予測(PLP)法を用いてDNNパラメータ予測を行う。 最後に、いくつかの代表的バックボーン上で検証が行われる。 実験の結果,同じ訓練条件下での通常の訓練方法と比較すると,提案手法を用いて,cifar-100データセットに基づくvgg16,resnet18,googlenetにおける平均1%精度向上と0.01 top-1/top-5誤差低減が得られ,dnnトレーニング効率と性能向上に有効性が示された。

Deep neural networks (DNN) have achieved remarkable success in various fields, including computer vision and natural language processing. However, training an effective DNN model still poses challenges. This paper aims to propose a method to optimize the training effectiveness of DNN, with the goal of improving model performance. Firstly, based on the observation that the DNN parameters change in certain laws during training process, the potential of parameter prediction for improving model training efficiency and performance is discovered. Secondly, considering the magnitude of DNN model parameters, hardware limitations and characteristics of Stochastic Gradient Descent (SGD) for noise tolerance, a Parameter Linear Prediction (PLP) method is exploit to perform DNN parameter prediction. Finally, validations are carried out on some representative backbones. Experiment results show that compare to the normal training ways, under the same training conditions and epochs, by employing proposed PLP method, the optimal model is able to obtain average about 1% accuracy improvement and 0.01 top-1/top-5 error reduction for Vgg16, Resnet18 and GoogLeNet based on CIFAR-100 dataset, which shown the effectiveness of the proposed method on different DNN structures, and validated its capacity in enhancing DNN training efficiency and performance.
翻訳日:2023-10-18 17:55:32 公開日:2023-10-17
# スパース符号化デコーダによる医用画像分割

Medical Image Segmentation via Sparse Coding Decoder ( http://arxiv.org/abs/2310.10957v1 )

ライセンス: Link先を確認
Long Zeng, Kaigui Wu(参考訳) トランスフォーマーは、長距離の依存関係を捉える能力があるため、医療画像分割において大きな成功を収めている。 以前の作品では、畳み込み層をトランスフォーマーのエンコーダモジュールに組み込んでおり、ピクセル間の局所的な関係を学習する能力を高めている。 しかし、変換器はデコーダの空間的回復能力に乏しいため、限定的な一般化能力とロバスト性に悩まされる可能性がある。 この問題に対処するために,並列化多層畳み込み型スパースベクトル符号化デコーダ(cascscde)という畳み込みスパースベクトル符号化に基づくデコーダを提案する。 CSCSCDEの有効性を証明するために、広く使われているTransUNetモデルがデモ目的として選択され、CASCSCDEがTransUNetに組み込まれ、TransCASCSCDEアーキテクチャが確立される。 実験の結果,CASCSCDEを用いたTransUNetはSynapseベンチマークの性能を大幅に向上し,DICEとmIoUのスコアが最大3.15\%,1.16\%向上した。 cascscdeは畳み込みスパースベクトル符号化に基づくデコーダを構築する新しい方法を開く。

Transformers have achieved significant success in medical image segmentation, owing to its capability to capture long-range dependencies. Previous works incorporate convolutional layers into the encoder module of transformers, thereby enhancing their ability to learn local relationships among pixels. However, transformers may suffer from limited generalization capabilities and reduced robustness, attributed to the insufficient spatial recovery ability of their decoders. To address this issue, A convolution sparse vector coding based decoder is proposed , namely CAScaded multi-layer Convolutional Sparse vector Coding DEcoder (CASCSCDE), which represents features extracted by the encoder using sparse vectors. To prove the effectiveness of our CASCSCDE, The widely-used TransUNet model is chosen for the demonstration purpose, and the CASCSCDE is incorporated with TransUNet to establish the TransCASCSCDE architecture. Our experiments demonstrate that TransUNet with CASCSCDE significantly enhances performance on the Synapse benchmark, obtaining up to 3.15\% and 1.16\% improvements in DICE and mIoU scores, respectively. CASCSCDE opens new ways for constructing decoders based on convolutional sparse vector coding.
翻訳日:2023-10-18 17:55:09 公開日:2023-10-17
# 英語の幾何学的解析による最適なキーボードの計算

Computing the optimal keyboard through a geometric analysis of the English language ( http://arxiv.org/abs/2310.10956v1 )

ライセンス: Link先を確認
Jules Deschamps, Quentin Hubert, Lucas Ryckelynck(参考訳) comsw4995 002-幾何データ解析コースのためのグループプロジェクトの文脈において、我々は高速キーボードの設計に注意を向ける。 最適化フレームワークで幾何ツールを活用することで、より高速なタイピングを提供する新しいキーボードレイアウトを提案しました。

In the context of a group project for the course COMSW4995 002 - Geometric Data Analysis, we bring our attention to the design of fast-typing keyboards. Leveraging some geometric tools in an optimization framework allowed us to propose novel keyboard layouts that offer a faster typing.
翻訳日:2023-10-18 17:54:47 公開日:2023-10-17
# データセット効果のための状態ベクトルフレームワーク

A State-Vector Framework for Dataset Effects ( http://arxiv.org/abs/2310.10955v1 )

ライセンス: Link先を確認
Esmat Sahak, Zining Zhu, Frank Rudzicz(参考訳) 最近のディープニューラルネットワーク(dnn)ベースのシステムの成功は、トレーニングで使用される高品質なデータセットに大きく影響している。 しかし、データセット、特にそれらが相互にどのように相互作用するかは、未調査のままである。 この方向の厳密な研究を可能にするための状態ベクトルフレームワークを提案する。 このフレームワークは、ベクトル空間の基底として理想化された検査結果を用いる。 このフレームワークにより、スタンドアロンと相互作用するデータセットの両方の効果を定量化できます。 一般的に使われている言語理解データセットの有意な影響は特徴的であり,いくつかの言語的側面に集中していることを示す。 さらに、いくつかの ``spill-over'' 効果を観察した: データセットは、意図したタスクとは無関係に見える次元に沿ってモデルに影響を与える可能性がある。 当社のステートベクターフレームワークは、責任と堅牢なモデル開発において重要なコンポーネントであるデータセット効果を体系的に理解する方法を舗装しています。

The impressive success of recent deep neural network (DNN)-based systems is significantly influenced by the high-quality datasets used in training. However, the effects of the datasets, especially how they interact with each other, remain underexplored. We propose a state-vector framework to enable rigorous studies in this direction. This framework uses idealized probing test results as the bases of a vector space. This framework allows us to quantify the effects of both standalone and interacting datasets. We show that the significant effects of some commonly-used language understanding datasets are characteristic and are concentrated on a few linguistic dimensions. Additionally, we observe some ``spill-over'' effects: the datasets could impact the models along dimensions that may seem unrelated to the intended tasks. Our state-vector framework paves the way for a systematic understanding of the dataset effects, a crucial component in responsible and robust model development.
翻訳日:2023-10-18 17:54:42 公開日:2023-10-17
# 極小セル数と関連するキンクエネルギー計算を用いた量子ドットセルオートマトンにおけるフォールトフリーインバータ回路の設計

Design of a fault free Inverter Circuit using Minimum number of cells & related Kink Energy Calculation in Quantum dot Cellular Automata ( http://arxiv.org/abs/2310.10954v1 )

ライセンス: Link先を確認
Ratna Chakrabarty, Angshuman Khan(参考訳) 量子ドットセルラーオートマタ(Quantum dot Cellular Automata, QCA)は、マイクロエレクトロニクスとVLSIの分野で最も有望なナノテクノロジーである。 QCAベースの回路はCMOS技術に比べて動作のスイッチング速度が高いため、消費電力は少ない。 QCAインバータはQCA回路設計の基本構成要素の一つである。 従来のQCAインバータの設計には多くの細胞が必要である。 本稿では,より少ないセル数でQCAインバータ回路を設計する。 回路の分極だけでなくQCA実装インバータのkinkエネルギー計算を行った。

Quantum dot Cellular Automata (QCA) is the most promising nanotechnology in the field of microelectronics and VLSI systems. QCA-based circuits require less power with a high switching speed of operation compared to CMOS technology. QCA inverter is one of the basic building blocks of QCA circuit design. The conventional QCA inverter design requires many cells. In this paper, we design the QCA inverter circuit using a lesser number of cells. We showed the kink energy calculation for the QCA-implemented inverters as well as the polarization of the circuits.
翻訳日:2023-10-18 17:54:29 公開日:2023-10-17
# サンプリングベースGNNにおける局所グラフの視点

A Local Graph Limits Perspective on Sampling-Based GNNs ( http://arxiv.org/abs/2310.10953v1 )

ライセンス: Link先を確認
Yeganeh Alimohammadi, Luana Ruiz, Amin Saberi(参考訳) 本稿では,大規模入力グラフ上でグラフニューラルネットワーク(gnns)を訓練するための理論的枠組みを提案する。 このフレームワークは、GraphSAGEやFastGCNといった一般的なサンプリングベースのGNNなど、幅広いモデルに適用できる。 グラフ局所限界の理論を活用し、穏やかな仮定の下で、大きな入力グラフの小さなサンプルでサンプリングベースのgnnのトレーニングから得られたパラメータが、グラフ全体の同じアーキテクチャをトレーニングした結果の$\epsilon$-neighborhood内にあることを証明する。 我々は、サンプルの数、グラフのサイズ、および$\epsilon$の関数として必要とされるトレーニングステップに基づいて、境界を導出する。 本研究は,GNNの学習におけるサンプリングに関する理論的考察である。 彼らはまた、入力グラフの小さなサンプルでgnnをトレーニングすることで、最適なモデル、ハイパーパラメータ、サンプリングアルゴリズムをより効率的に識別し、選択することができることを示唆している。 我々は,局所サブグラフで学習したサンプリングベースのgnnが,元のグラフよりも12$\times$小さく,入力グラフでトレーニングされたものと同等の性能が得られることを観察し,ノード分類タスクにおける結果について実証的に示す。

We propose a theoretical framework for training Graph Neural Networks (GNNs) on large input graphs via training on small, fixed-size sampled subgraphs. This framework is applicable to a wide range of models, including popular sampling-based GNNs, such as GraphSAGE and FastGCN. Leveraging the theory of graph local limits, we prove that, under mild assumptions, parameters learned from training sampling-based GNNs on small samples of a large input graph are within an $\epsilon$-neighborhood of the outcome of training the same architecture on the whole graph. We derive bounds on the number of samples, the size of the graph, and the training steps required as a function of $\epsilon$. Our results give a novel theoretical understanding for using sampling in training GNNs. They also suggest that by training GNNs on small samples of the input graph, practitioners can identify and select the best models, hyperparameters, and sampling algorithms more efficiently. We empirically illustrate our results on a node classification task on large citation graphs, observing that sampling-based GNNs trained on local subgraphs 12$\times$ smaller than the original graph achieve comparable performance to those trained on the input graph.
翻訳日:2023-10-18 17:54:20 公開日:2023-10-17
# 制限的ツイーディ確率ブロックモデル

Restricted Tweedie Stochastic Block Models ( http://arxiv.org/abs/2310.10952v1 )

ライセンス: Link先を確認
Jie Jian, Mu Zhu, and Peijun Sang(参考訳) 確率的ブロックモデル(sbm)は、ネットワークのコミュニティ検出に広く使われているフレームワークであり、ネットワーク構造は通常、隣接行列で表現される。 しかし、従来のSBMは非負のゼロインフレード連続エッジ重みからなる隣接行列には直接適用されない。 エッジウェイトが国間の貿易価値を表す国際貿易ネットワークをモデル化するために,制限されたトウィーディー分布に基づく革新的なsbmを提案する。 さらに,各国間の地理的距離などの節情報も取り入れ,その辺重みに対する動的影響を考慮に入れている。 特に、この共変量効果を十分に多くのノードが与えられた場合、モデル内のパラメータの最大可能性推定器を計算する際に、各ノードのコミュニティラベルから独立に推定できることが示される。 この結果は、コバルト効果を他のパラメータから推定する効率的な2段階アルゴリズムの開発を可能にする。 提案手法の有効性を,広範囲なシミュレーション研究と実世界の国際取引データへの適用を通して実証する。

The stochastic block model (SBM) is a widely used framework for community detection in networks, where the network structure is typically represented by an adjacency matrix. However, conventional SBMs are not directly applicable to an adjacency matrix that consists of non-negative zero-inflated continuous edge weights. To model the international trading network, where edge weights represent trading values between countries, we propose an innovative SBM based on a restricted Tweedie distribution. Additionally, we incorporate nodal information, such as the geographical distance between countries, and account for its dynamic effect on edge weights. Notably, we show that given a sufficiently large number of nodes, estimating this covariate effect becomes independent of community labels of each node when computing the maximum likelihood estimator of parameters in our model. This result enables the development of an efficient two-step algorithm that separates the estimation of covariate effects from other parameters. We demonstrate the effectiveness of our proposed method through extensive simulation studies and an application to real-world international trading data.
翻訳日:2023-10-18 17:53:55 公開日:2023-10-17
# FusionU-Net: 画像分割のためのスキップ接続を強化したU-Net

FusionU-Net: U-Net with Enhanced Skip Connection for Pathology Image Segmentation ( http://arxiv.org/abs/2310.10951v1 )

ライセンス: Link先を確認
Zongyi Li, Hongbing Lyu, Jun Wang(参考訳) 近年,病的画像分割作業においてU-Netとその変種が広く用いられている。 U-Netの重要な設計の1つは、エンコーダとデコーダの間のスキップ接続を使用することである。 U-Netのほとんどのバリエーションはオリジナルのスキップ接続設計を採用しているが、エンコーダとデコーダの間に意味的なギャップがあり、モデルの性能に悪影響を及ぼす。 したがって、スキップ接続を行う前に、このセマンティックギャップを減らすことが重要である。 そこで本研究では,u-net 構造を基盤とし,異なるスキップ接続間の情報交換を行う fusion モジュールを組み込んだ fusionu-net と呼ばれる新しいセグメントネットワークを提案する。 既存のネットワークにおける他のフュージョンモジュールとは異なり、我々は隣り合うエンコーダ層出力と複数の層間の双方向情報交換の必要性を完全に考慮した2ラウンドのフュージョン設計に基づいている。 本研究では,複数の病理画像データセットを用いた広範囲な実験を行い,fusionu-netが他の競合手法よりも優れた性能を実現することを見出した。 我々の融合モジュールは既存のネットワークの設計よりも効果的であり、モデル性能を高めるために他のネットワークに簡単に組み込むことができると主張している。

In recent years, U-Net and its variants have been widely used in pathology image segmentation tasks. One of the key designs of U-Net is the use of skip connections between the encoder and decoder, which helps to recover detailed information after upsampling. While most variations of U-Net adopt the original skip connection design, there is semantic gap between the encoder and decoder that can negatively impact model performance. Therefore, it is important to reduce this semantic gap before conducting skip connection. To address this issue, we propose a new segmentation network called FusionU-Net, which is based on U-Net structure and incorporates a fusion module to exchange information between different skip connections to reduce semantic gaps. Unlike the other fusion modules in existing networks, ours is based on a two-round fusion design that fully considers the local relevance between adjacent encoder layer outputs and the need for bi-directional information exchange across multiple layers. We conducted extensive experiments on multiple pathology image datasets to evaluate our model and found that FusionU-Net achieves better performance compared to other competing methods. We argue our fusion module is more effective than the designs of existing networks, and it could be easily embedded into other networks to further enhance the model performance.
翻訳日:2023-10-18 17:53:38 公開日:2023-10-17
# 協調によるコンバット都市混雑:不均一GNNベースMARLによる協調プラトゥーニングと交通信号制御

Combat Urban Congestion via Collaboration: Heterogeneous GNN-based MARL for Coordinated Platooning and Traffic Signal Control ( http://arxiv.org/abs/2310.10948v1 )

ライセンス: Link先を確認
Xianyue Peng, Hang Gao, Hao Wang, H. Michael Zhang(参考訳) 長年にわたり、強化学習は信号制御と車両小隊戦略を独立的にあるいは階層的に開発するための一般的なアプローチとして現れてきた。 しかし、交通渋滞を軽減するためにリアルタイムに協調的に制御することは、信号制御と小隊間の物理的および行動的不均一性やそれらの調整など、新しい課題をもたらす。 本稿では、異種グラフ多エージェント強化学習と交通理論に基づいて、これらの課題に取り組む革新的なソリューションを提案する。 私たちのアプローチは 1) トラヒックフローを最適化するために,独自の観測,行動,報酬機能を備えた個別強化学習エージェントとして小隊と信号制御を設計すること。 2) エージェント間のシームレスな情報交換を容易にするため,マルチエージェント強化学習にグラフニューラルネットワークを組み込んだ協調設計を行う。 提案手法をSUMOシミュレーションにより評価し, 各種輸送指標の収束結果と, 単独信号や小隊制御よりも優れた性能を示す。

Over the years, reinforcement learning has emerged as a popular approach to develop signal control and vehicle platooning strategies either independently or in a hierarchical way. However, jointly controlling both in real-time to alleviate traffic congestion presents new challenges, such as the inherent physical and behavioral heterogeneity between signal control and platooning, as well as coordination between them. This paper proposes an innovative solution to tackle these challenges based on heterogeneous graph multi-agent reinforcement learning and traffic theories. Our approach involves: 1) designing platoon and signal control as distinct reinforcement learning agents with their own set of observations, actions, and reward functions to optimize traffic flow; 2) designing coordination by incorporating graph neural networks within multi-agent reinforcement learning to facilitate seamless information exchange among agents on a regional scale. We evaluate our approach through SUMO simulation, which shows a convergent result in terms of various transportation metrics and better performance over sole signal or platooning control.
翻訳日:2023-10-18 17:53:02 公開日:2023-10-17
# 音声認識のための言語モデル学習の補正

Correction Focused Language Model Training for Speech Recognition ( http://arxiv.org/abs/2310.11003v1 )

ライセンス: Link先を確認
Yingyi Ma, Zhe Liu, Ozlem Kalinli(参考訳) 言語モデル(lms)は、特にドメイン適応タスクにおける自動音声認識(asr)の性能を高めるために一般的に採用されている。 従来のlm訓練法はコーポラの全ての単語を等しく扱い、asrの性能を最適化する。 本研究では,ASRの誤り語を優先順位付けすることを目的とした,新しい修正型LMトレーニング手法を提案する。 ASR誤認識の可能性を表す単語レベルASR誤認スコアを定義し、LMトレーニングを導出するための先行単語分布として形成する。 テキストのみのコーパスによる修正集中トレーニングを実現するため,大規模言語モデル(LLM)をマルチタスク微調整による誤り度スコア予測器およびテキストジェネレータとして利用する。 ドメイン適応タスクの実験結果から,提案手法の有効性が示された。 従来のlmsと比較して、訂正焦点訓練は十分なテキストシナリオで5.5%の単語誤り率(wer)削減を達成している。 テキストシナリオが不十分な場合、LLM生成テキストによるLMトレーニングは、WERを最大13%削減する一方、修正集中トレーニングは、WERを最大6%削減する。

Language models (LMs) have been commonly adopted to boost the performance of automatic speech recognition (ASR) particularly in domain adaptation tasks. Conventional way of LM training treats all the words in corpora equally, resulting in suboptimal improvements in ASR performance. In this work, we introduce a novel correction focused LM training approach which aims to prioritize ASR fallible words. The word-level ASR fallibility score, representing the likelihood of ASR mis-recognition, is defined and shaped as a prior word distribution to guide the LM training. To enable correction focused training with text-only corpora, large language models (LLMs) are employed as fallibility score predictors and text generators through multi-task fine-tuning. Experimental results for domain adaptation tasks demonstrate the effectiveness of our proposed method. Compared with conventional LMs, correction focused training achieves up to relatively 5.5% word error rate (WER) reduction in sufficient text scenarios. In insufficient text scenarios, LM training with LLM-generated text achieves up to relatively 13% WER reduction, while correction focused training further obtains up to relatively 6% WER reduction.
翻訳日:2023-10-18 17:44:36 公開日:2023-10-17
# クエリ集約を用いたインストラクティブ対話要約

Instructive Dialogue Summarization with Query Aggregations ( http://arxiv.org/abs/2310.10981v1 )

ライセンス: Link先を確認
Bin Wang, Zhengyuan Liu, Nancy F. Chen(参考訳) 従来の対話要約手法は要約を直接生成し、ユーザの特定の興味を考慮しない。 これは、ユーザが特定のトピックや側面にもっと集中している場合の課題となる。 命令精細言語モデルの進歩に伴い、対話モデルの性能セットを拡張するために、インストラクションチューニングを対話に導入する。 本稿では,対話要約データの不足を克服するために,高品質な問合せベース要約トリプルを合成する3段階アプローチを提案する。 このプロセスには、要約型クエリ生成、クエリフィルタリング、クエリベースのサマリ生成が含まれる。 Instructive Dialogue Summarization(Instructive Dialogue Summarization)と呼ばれる統合モデルを,多目的のインストラクティブトリプルを用いた3つの要約データセット上で訓練することにより,対話要約モデルの能力を拡張する。 本手法は,対話要約と対話読解を含む4つのデータセットを用いて評価する。 実験結果から,本手法は最先端モデルや大型モデルよりも優れていることがわかった。 また,本モデルでは,人間の主観的評価によって高い一般化性と忠実性を示す。

Conventional dialogue summarization methods directly generate summaries and do not consider user's specific interests. This poses challenges in cases where the users are more focused on particular topics or aspects. With the advancement of instruction-finetuned language models, we introduce instruction-tuning to dialogues to expand the capability set of dialogue summarization models. To overcome the scarcity of instructive dialogue summarization data, we propose a three-step approach to synthesize high-quality query-based summarization triples. This process involves summary-anchored query generation, query filtering, and query-based summary generation. By training a unified model called InstructDS (Instructive Dialogue Summarization) on three summarization datasets with multi-purpose instructive triples, we expand the capability of dialogue summarization models. We evaluate our method on four datasets, including dialogue summarization and dialogue reading comprehension. Experimental results show that our approach outperforms the state-of-the-art models and even models with larger sizes. Additionally, our model exhibits higher generalizability and faithfulness, as confirmed by human subjective evaluations.
翻訳日:2023-10-18 17:44:17 公開日:2023-10-17
# 厳密な非線形状態推定

Exact nonlinear state estimation ( http://arxiv.org/abs/2310.10976v1 )

ライセンス: Link先を確認
Hristo G. Chipilski(参考訳) 地質学におけるデータ同化(DA)法の大部分はガウスの仮定に基づいている。 これらの仮定は効率的なアルゴリズムを促進するが、分析バイアスとその後の予測劣化を引き起こす。 非パラメトリックな粒子ベースDAアルゴリズムは精度が優れているが、高次元モデルへの応用は依然として運用上の課題となっている。 本稿では, 生成人工知能(AI)分野の最近の進歩から着想を得て, DA手法の既存のギャップを埋めようとする新しい非線形推定理論を提案する。 具体的には、共役変換フィルタ(ctf)を導出し、有名なカルマンフィルタを任意に非ガウス分布に一般化する。 新しいフィルタは、先行状態における統計的関係の保存や高精度な観測への収束など、いくつかの望ましい特性を持っている。 新しい理論(ectf)のアンサンブル近似も提示され、非ガウス分布を持つ有界な量を含む理想化された統計実験を用いて検証される。 これらの実験の結果、ectfの最大の利点は、観測誤差が予測の不確実性に対して小さいときと、状態変数が強い非線形依存を示すときである。 最終的に、新しいフィルタリング理論は、ai技術と原則的に統合することで、従来のdaアルゴリズムを改善するエキサイティングな方法を提供する。

The majority of data assimilation (DA) methods in the geosciences are based on Gaussian assumptions. While these assumptions facilitate efficient algorithms, they cause analysis biases and subsequent forecast degradations. Non-parametric, particle-based DA algorithms have superior accuracy, but their application to high-dimensional models still poses operational challenges. Drawing inspiration from recent advances in the field of generative artificial intelligence (AI), this article introduces a new nonlinear estimation theory which attempts to bridge the existing gap in DA methodology. Specifically, a Conjugate Transform Filter (CTF) is derived and shown to generalize the celebrated Kalman filter to arbitrarily non-Gaussian distributions. The new filter has several desirable properties, such as its ability to preserve statistical relationships in the prior state and convergence to highly accurate observations. An ensemble approximation of the new theory (ECTF) is also presented and validated using idealized statistical experiments that feature bounded quantities with non-Gaussian distributions, a prevalent challenge in Earth system models. Results from these experiments indicate that the greatest benefits from ECTF occur when observation errors are small relative to the forecast uncertainty and when state variables exhibit strong nonlinear dependencies. Ultimately, the new filtering theory offers exciting avenues for improving conventional DA algorithms through their principled integration with AI techniques.
翻訳日:2023-10-18 17:44:00 公開日:2023-10-17
# nice: cascading collaborative learning による panoptic narrative detection と segmentation の改善

NICE: Improving Panoptic Narrative Detection and Segmentation with Cascading Collaborative Learning ( http://arxiv.org/abs/2310.10975v1 )

ライセンス: Link先を確認
Haowei Wang, Jiayi Ji, Tianyu Guo, Yilong Yang, Yiyi Zhou, Xiaoshuai Sun, Rongrong Ji(参考訳) PND(Panoptic Narrative Detection)とSegmentation(Segmentation)は、画像中の複数のターゲットを、長い物語記述に従って識別し、位置決めする2つの課題である。 本稿では,これら2つの単視的物語認識タスクを共同で学習する,NICEと呼ばれる統一的で効果的なフレームワークを提案する。 既存の視覚的接地タスクは2分岐パラダイムを用いるが、これをPNDやPNSに直接適用すると、本質的な多対多のアライメント特性のために予測競合が発生する。 マスクのバリセンタをベースとした2つのカスケーディングモジュール(CGA)とBDL(Barycenter Driven Localization)を導入し,それぞれセグメンテーションと検出を行う。 PNSとPNDを連ねてセグメンテーションのバリセンタをアンカーとすることで,本手法は2つのタスクを自然に整列させ,相互に補完して性能を向上させる。 具体的には、CGAはバリセンタを検出の基準として提供し、BDLの多数の候補ボックスへの依存を減らす。 BDLはその優れた特性を利用して異なるインスタンスを区別し、セグメンテーションにおけるCGAの性能を向上させる。 大規模な実験により、NICEは既存のすべての手法を大きなマージンで上回り、PNDは4.1%、PNSは2.9%に達した。 これらの結果は,協調学習戦略の有効性を検証した。 この作業のプロジェクトはhttps://github.com/Mr-Neko/NICE.comで公開されている。

Panoptic Narrative Detection (PND) and Segmentation (PNS) are two challenging tasks that involve identifying and locating multiple targets in an image according to a long narrative description. In this paper, we propose a unified and effective framework called NICE that can jointly learn these two panoptic narrative recognition tasks. Existing visual grounding tasks use a two-branch paradigm, but applying this directly to PND and PNS can result in prediction conflict due to their intrinsic many-to-many alignment property. To address this, we introduce two cascading modules based on the barycenter of the mask, which are Coordinate Guided Aggregation (CGA) and Barycenter Driven Localization (BDL), responsible for segmentation and detection, respectively. By linking PNS and PND in series with the barycenter of segmentation as the anchor, our approach naturally aligns the two tasks and allows them to complement each other for improved performance. Specifically, CGA provides the barycenter as a reference for detection, reducing BDL's reliance on a large number of candidate boxes. BDL leverages its excellent properties to distinguish different instances, which improves the performance of CGA for segmentation. Extensive experiments demonstrate that NICE surpasses all existing methods by a large margin, achieving 4.1% for PND and 2.9% for PNS over the state-of-the-art. These results validate the effectiveness of our proposed collaborative learning strategy. The project of this work is made publicly available at https://github.com/Mr-Neko/NICE.
翻訳日:2023-10-18 17:43:40 公開日:2023-10-17
# 光ファイバにおける単一希土類原子の常温配置

Room-temperature addressing of single rare-earth atoms in optical fiber ( http://arxiv.org/abs/2310.10974v1 )

ライセンス: Link先を確認
Mikio Takezawa, Ryota Suzuki, Junichi Takahashi, Kaito Shimizu, Ayumu Naruki, Kazutaka Katsumata, Kae Nemoto, Mark Sadgrove, and Kaoru Sanaka(参考訳) 固体材料中の希土類(RE)原子は高温環境においてもコヒーレンスの性質のため、フォトニック量子情報システムにとって魅力的な成分である。 我々は,アモルファスシリカ光ファイバ中の単一レ原子の室温での単一サイト光分光と光アドレスを実験的に測定した。 テーパー付き再ドープファイバの単一サイト光分光は、非構造ファイバの場合に見られるものと類似した非共鳴発光線を示し、ファイバから放出される光子の自己相関関数は、テーパー付きファイバ構造によって与えられる空間的孤立による反バンチング効果を示す。 室温で単一RE原子に対処する能力は、可視波長から中赤外波長までの多数のスペクトルチャネルに基づいて、大規模量子光学ネットワークやその他の量子技術のための固体系を実現するための非常に安定かつ費用効率の良い技術プラットフォームを提供する。

Rare-earth (RE) atoms in solid-state materials are attractive components for photonic quantum information systems because of their coherence properties even in high-temperature environments. We have experimentally performed the single-site optical spectroscopy and optical addressing of a single RE atom in an amorphous silica optical fiber at room temperature. The single-site optical spectroscopy of the tapered RE-doped fiber shows nonresonant emission lines similar to those seen in the case of an unstructured fiber and the autocorrelation function of photons emitted from the fiber shows the antibunching effect due to the spatial isolation given by the tapered fiber structure. The ability to address single RE atoms at room temperature provides a very stable and cost-effective technical platform for the realization of a solid-state system for a large-scale quantum optical network and other quantum technologies based on a large number of spectral channels from visible to midinfrared wavelengths.
翻訳日:2023-10-18 17:43:10 公開日:2023-10-17
# 文脈認識メタラーニング

Context-Aware Meta-Learning ( http://arxiv.org/abs/2310.10971v1 )

ライセンス: Link先を確認
Christopher Fifty, Dennis Duan, Ronald G. Junkins, Ehsan Amid, Jure Leskovec, Christopher R\'e, Sebastian Thrun(参考訳) ChatGPTのような大規模言語モデルは、微調整なしで推論中に新しい概念を学ぶ能力を示す。 しかしながら、推論中に新しいオブジェクトを検出するように訓練されたビジュアルモデルは、この機能を再現することができず、代わりにパフォーマンスの悪いか、似たようなオブジェクトのメタトレーニングと/または微調整を必要とする。 本研究では,推論中,微調整せずに新しい視覚概念を学習することで,大規模言語モデルにエミュレートするメタラーニングアルゴリズムを提案する。 提案手法では,凍結した事前学習された特徴抽出器を利用して,未知のラベルを持つデータポイントと未知のラベルを持つテストデータポイントを用いて,メタラーニングをシーケンスモデリングとして再キャストする。 11のメタラーニングベンチマークのうち8つでは、メタトレーニングや微調整なしのアプローチが、これらのベンチマークでメタトレーニングされた最先端アルゴリズムであるP>M>Fを超え、一致します。

Large Language Models like ChatGPT demonstrate a remarkable capacity to learn new concepts during inference without any fine-tuning. However, visual models trained to detect new objects during inference have been unable to replicate this ability, and instead either perform poorly or require meta-training and/or fine-tuning on similar objects. In this work, we propose a meta-learning algorithm that emulates Large Language Models by learning new visual concepts during inference without fine-tuning. Our approach leverages a frozen pre-trained feature extractor, and analogous to in-context learning, recasts meta-learning as sequence modeling over datapoints with known labels and a test datapoint with an unknown label. On 8 out of 11 meta-learning benchmarks, our approach -- without meta-training or fine-tuning -- exceeds or matches the state-of-the-art algorithm, P>M>F, which is meta-trained on these benchmarks.
翻訳日:2023-10-18 17:42:55 公開日:2023-10-17
# SD-PINN:深層学習に基づく空間依存型PDEの回復

SD-PINN: Deep Learning based Spatially Dependent PDEs Recovery ( http://arxiv.org/abs/2310.10970v1 )

ライセンス: Link先を確認
Ruixian Liu, Peter Gerstoft(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、物理測定から直接空間領域全体を通して一定である偏微分方程式(PDE)係数を回復することができる。 本研究では,単一のニューラルネットワークを用いて空間依存型pdesにおける係数の回復を可能にする空間依存物理形ニューラルネットワーク(sd-pinn)を提案する。 提案手法は,物理制約の組み入れによる雑音に対するロバスト性を示す。 また、pde係数の空間変動の低位仮定を組み込んで、利用可能な測定値なしで位置の係数を回復することもできる。

The physics-informed neural network (PINN) is capable of recovering partial differential equation (PDE) coefficients that remain constant throughout the spatial domain directly from physical measurements. In this work, we propose a spatially dependent physics-informed neural network (SD-PINN), which enables the recovery of coefficients in spatially-dependent PDEs using a single neural network, eliminating the requirement for domain-specific physical expertise. The proposed method exhibits robustness to noise owing to the incorporation of physical constraints. It can also incorporate the low-rank assumption of the spatial variation for the PDE coefficients to recover the coefficients at locations without available measurements.
翻訳日:2023-10-18 17:42:38 公開日:2023-10-17
# EXMODD: 説明的マルチモーダルオープンドメイン対話データセット

EXMODD: An EXplanatory Multimodal Open-Domain Dialogue dataset ( http://arxiv.org/abs/2310.10967v1 )

ライセンス: Link先を確認
Hang Yin, Pinren Lu, Ziang Li, Bin Sun, Kan Li(参考訳) 高品質なデータの必要性は、対話作業の研究を妨げる重要な問題である。 最近の研究では、手作業、webクローリング、大規模事前学習モデルによるデータセットの構築が試みられている。 しかし、人為的なデータは高価であり、インターネットから収集されるデータは、一般的な応答、意味のないステートメント、有害な対話を含むことが多い。 大規模モデルによる自動データ生成はコスト効率のよい方法だが,オープンドメインのマルチモーダル対話タスクでは,まだ3つの欠点がある。 1) マルチモーダル入力を受理できるオープンソースの大規模モデルは現在存在しない。 2) モデルによって生成された内容は解釈可能性に欠ける。 3) 生成したデータは品質管理が難しく,収集に必要なリソースが豊富である。 データ収集における人的・資源的支出の軽減のために,マルチモーダルデータ構築フレームワーク(mdcf)を提案する。 MDCFは、大規模な事前学習型言語モデルに刺激を与える適切なプロンプトを設計する。 さらに、MDCFは、与えられた画像とその対応する対話を自動で説明し、ある程度の解釈可能性を提供し、手動の追従品質検査を容易にする。 そこで我々は,Explainatory Multimodal Open-Domain dialogue dataset (EXMODD) をリリースする。 実験は、モデルの正確な理解と高品質な応答を生成する能力の間に正の相関関係を示す。 私たちのコードとデータはhttps://github.com/poplpr/EXMODD.orgで参照できます。

The need for high-quality data has been a key issue hindering the research of dialogue tasks. Recent studies try to build datasets through manual, web crawling, and large pre-trained models. However, man-made data is expensive and data collected from the internet often includes generic responses, meaningless statements, and toxic dialogues. Automatic data generation through large models is a cost-effective method, but for open-domain multimodal dialogue tasks, there are still three drawbacks: 1) There is currently no open-source large model that can accept multimodal input; 2) The content generated by the model lacks interpretability; 3) The generated data is usually difficult to quality control and require extensive resource to collect. To alleviate the significant human and resource expenditure in data collection, we propose a Multimodal Data Construction Framework (MDCF). MDCF designs proper prompts to spur the large-scale pre-trained language model to generate well-formed and satisfactory content. Additionally, MDCF also automatically provides explanation for a given image and its corresponding dialogue, which can provide a certain degree of interpretability and facilitate manual follow-up quality inspection. Based on this, we release an Explanatory Multimodal Open-Domain dialogue dataset (EXMODD). Experiments indicate a positive correlation between the model's ability to generate accurate understandings and high-quality responses. Our code and data can be found at https://github.com/poplpr/EXMODD.
翻訳日:2023-10-18 17:42:27 公開日:2023-10-17
# 絶対値方程式を解くための遅延を伴うニューラルネットワークモデル

The neural network models with delays for solving absolute value equations ( http://arxiv.org/abs/2310.10965v1 )

ライセンス: Link先を確認
Dongmei Yu, Gehao Zhang, Cairong Chen, Deren Han(参考訳) 離散遅延を持つ逆自由ニューラルネットワークモデルを含む絶対値方程式 (AVE) $Ax -|x| - b =0$ の解法として、混合遅延を持つ逆自由ニューラルネットワークモデルを提案する。 Lyapunov-Krasovskii理論と線形行列不等式(LMI)法を用いることで、開発されたニューラルネットワークモデルがAVEの解に指数収束することが証明された。 AVEを解くための既存のニューラルネットワークモデルと比較して、提案モデルは$\|A^{-1}\|>1$でAVEのクラスを解く能力を備えている。 2つの遅延ニューラルネットワークモデルの有効性を示すために数値シミュレーションが行われる。

An inverse-free neural network model with mixed delays is proposed for solving the absolute value equation (AVE) $Ax -|x| - b =0$, which includes an inverse-free neural network model with discrete delay as a special case. By using the Lyapunov-Krasovskii theory and the linear matrix inequality (LMI) method, the developed neural network models are proved to be exponentially convergent to the solution of the AVE. Compared with the existing neural network models for solving the AVE, the proposed models feature the ability of solving a class of AVE with $\|A^{-1}\|>1$. Numerical simulations are given to show the effectiveness of the two delayed neural network models.
翻訳日:2023-10-18 17:42:04 公開日:2023-10-17
# 情報的特徴ベクトルとカーネル辞書学習を用いたMRI脳腫瘍のセグメンテーション

MRI brain tumor segmentation using informative feature vectors and kernel dictionary learning ( http://arxiv.org/abs/2310.10963v1 )

ライセンス: Link先を確認
Seyedeh Mahya Mousavi, Mohammad Mostafavi(参考訳) 本稿では,磁気共鳴画像(MRI)における脳腫瘍領域のセグメント化のためのカーネル辞書学習アルゴリズムを提案する。 脳MRIスキャンの画素周囲の大きさ3×3のパッチから一階統計特徴ベクトルと二階統計特徴ベクトルのセットを抽出する。 これらの特徴ベクトルは、健康組織と腫瘍組織のために2つのカーネル辞書を個別に訓練するために利用される。 辞書の効率を高め、トレーニング時間を短縮するために、相関に基づくサンプル選択手法を開発し、特徴ベクトルの最も情報的で識別性の高いサブセットを特定する。 本手法は,セグメンテーションタスクに有用な情報を提供する特徴ベクトルのサブセットを選択することにより,辞書の性能を向上させることを目的とする。 その後、線形分類器を用いて、学習辞書に基づいて、健康な画素と不健康な画素を区別する。 その結果,提案手法はセグメント化精度において他の既存手法よりも優れており,必要な時間とメモリの両方を著しく削減できることがわかった。

This paper presents a method based on a kernel dictionary learning algorithm for segmenting brain tumor regions in magnetic resonance images (MRI). A set of first-order and second-order statistical feature vectors are extracted from patches of size 3 * 3 around pixels in the brain MRI scans. These feature vectors are utilized to train two kernel dictionaries separately for healthy and tumorous tissues. To enhance the efficiency of the dictionaries and reduce training time, a correlation-based sample selection technique is developed to identify the most informative and discriminative subset of feature vectors. This technique aims to improve the performance of the dictionaries by selecting a subset of feature vectors that provide valuable information for the segmentation task. Subsequently, a linear classifier is utilized to distinguish between healthy and unhealthy pixels based on the learned dictionaries. The results demonstrate that the proposed method outperforms other existing methods in terms of segmentation accuracy and significantly reduces both the time and memory required, resulting in a remarkably fast training process.
翻訳日:2023-10-18 17:41:50 公開日:2023-10-17
# 隠れターゲット検出の量子限界

Quantum limits of covert target detection ( http://arxiv.org/abs/2310.11013v1 )

ライセンス: Link先を確認
Guo Yao Tham, Ranjith Nair and Mile Gu(参考訳) 隠れたターゲット検出において、アリスは、熱背景放射に埋め込まれた弱反射ターゲットがターゲット領域に存在するかどうかを光学またはマイクロ波プローブで検出し、ターゲットと同一位置にある敵のウィリーに検出されず、アリスに戻ることのない全ての光を集める。 我々はこの問題を現実的な設定で定式化し、ウィリーによる任意の固定レベルにおける絡み付き目標検出におけるアリスの誤差確率性能の量子力学的制限を導出する。 特に、アリスは、与えられた秘密度を維持するためには、プローブ光の最小エネルギーを消費しなければならないが、完全秘密度を維持しながらゼロ誤差確率指数を達成できることを示す。 2モードの真空プローブとガウス分布コヒーレント状態の性能と性能限界を比較した。 また、任意の2つの熱損失チャネルを識別する量子限界と、非通過信号仮定を伴わない非逆量子照明も得られる。

In covert target detection, Alice attempts to send optical or microwave probes to detect whether or not a weakly-reflecting target embedded in thermal background radiation is present in a target region while remaining undetected herself by an adversary Willie who is co-located with the target and collects all the light that does not return to Alice. We formulate this problem in a realistic setting and derive quantum-mechanical limits on Alice's error probability performance in entanglement-assisted target detection for any fixed level of her detectability by Willie. In particular, we show that Alice must expend a minimum energy in her probe light to maintain a given covertness level, but is also able to achieve a nonzero error probability exponent while remaining perfectly covert. We compare the performance of two-mode squeezed vacuum probes and Gaussian-distributed coherent states to our performance limits. We also obtain quantum limits for discriminating any two thermal loss channels and for non-adversarial quantum illumination without the no-passive-signature assumption.
翻訳日:2023-10-18 17:35:24 公開日:2023-10-17
# 因果表現から制御可能な因果生成へ:因果生成モデリングに関する調査

From Identifiable Causal Representations to Controllable Counterfactual Generation: A Survey on Causal Generative Modeling ( http://arxiv.org/abs/2310.11011v1 )

ライセンス: Link先を確認
Aneesh Komanduri, Xintao Wu, Yongkai Wu, Feng Chen(参考訳) 深層生成モデルは、有限サンプルからのデータ密度推定とデータ生成に多大な成功を収めている。 これらのモデルでは,データ中の特徴間の相関関係の学習による顕著な性能を示す一方で,その説明可能性の欠如,突発的相関を誘発する傾向,分布外挿不良などが根本的な欠点である。 このような課題を解決するために、深い生成モデルに因果性の理論を組み込むことができる。 構造因果モデル(SCM)は、システム内の変数間の複雑な因果関係とメカニズムをモデル化する。 したがって、scmは自然に深い生成モデルと組み合わせることができる。 因果モデルは、分散シフトのロバスト性、公平性、相互運用性など、深い生成モデルにいくつかの有益な特性を提供する。 因果表現学習と制御可能な反事実生成法に分類された因果生成モデルに関する技術的調査を行う。 我々は、公平性、プライバシ、分散一般化、精密医学における因果生成モデルの基本的な理論、定式化、欠点、データセット、メトリクス、および応用に焦点を当てる。 また,オープンな問題と今後の研究の方向性についても論じる。

Deep generative models have shown tremendous success in data density estimation and data generation from finite samples. While these models have shown impressive performance by learning correlations among features in the data, some fundamental shortcomings are their lack of explainability, the tendency to induce spurious correlations, and poor out-of-distribution extrapolation. In an effort to remedy such challenges, one can incorporate the theory of causality in deep generative modeling. Structural causal models (SCMs) describe data-generating processes and model complex causal relationships and mechanisms among variables in a system. Thus, SCMs can naturally be combined with deep generative models. Causal models offer several beneficial properties to deep generative models, such as distribution shift robustness, fairness, and interoperability. We provide a technical survey on causal generative modeling categorized into causal representation learning and controllable counterfactual generation methods. We focus on fundamental theory, formulations, drawbacks, datasets, metrics, and applications of causal generative models in fairness, privacy, out-of-distribution generalization, and precision medicine. We also discuss open problems and fruitful research directions for future work in the field.
翻訳日:2023-10-18 17:35:06 公開日:2023-10-17
# リンク予測のための適応ペアワイズ符号化

Adaptive Pairwise Encodings for Link Prediction ( http://arxiv.org/abs/2310.11009v1 )

ライセンス: Link先を確認
Harry Shomer, Yao Ma, Haitao Ma, Juanhui Li, Bo Wu, Jiliang Tang(参考訳) リンク予測は、さまざまなドメインでアプリケーションを見たグラフ構造化データに関する一般的なタスクである。 古典的には手作りのヒューリスティックが用いられた。 ヒューリスティック測度は、リンク形成に関連する基礎因子とよく相関するように選択される。 近年,メッセージパッシングニューラルネットワーク(MPNN)とヒューリスティックス手法の利点を組み合わせた新しい手法が出現している。 これらの手法は、候補リンク内のノード間の関係をキャプチャする"ペアワイズエンコーディング"と合わせて、MPNNの出力を用いて予測を行う。 多数のデータセットで高いパフォーマンスを達成することが示されている。 しかし、現在のペアエンコーディングはしばしば強い帰納バイアスを伴い、全てのリンクを分類するために同じ基礎的要素を使用する。 これは、異なる要因から形成される様々なリンクを適切に分類する方法を学ぶ既存の方法の能力を制限する。 この制限に対処するため,各リンクのペアエンコーディングを適応的に学習するLPFormerを提案する。 lpformerは、リンク予測に不可欠な複数の因子をモデル化することで、ノード間に存在するペアワイズエンコーディングを学習するアテンションモジュールを介してリンクファクタをモデル化する。 大規模な実験では、LPFormerは効率を保ちながら、多数のデータセット上でSOTA性能を達成することができる。

Link prediction is a common task on graph-structured data that has seen applications in a variety of domains. Classically, hand-crafted heuristics were used for this task. Heuristic measures are chosen such that they correlate well with the underlying factors related to link formation. In recent years, a new class of methods has emerged that combines the advantages of message-passing neural networks (MPNN) and heuristics methods. These methods perform predictions by using the output of an MPNN in conjunction with a "pairwise encoding" that captures the relationship between nodes in the candidate link. They have been shown to achieve strong performance on numerous datasets. However, current pairwise encodings often contain a strong inductive bias, using the same underlying factors to classify all links. This limits the ability of existing methods to learn how to properly classify a variety of different links that may form from different factors. To address this limitation, we propose a new method, LPFormer, which attempts to adaptively learn the pairwise encodings for each link. LPFormer models the link factors via an attention module that learns the pairwise encoding that exists between nodes by modeling multiple factors integral to link prediction. Extensive experiments demonstrate that LPFormer can achieve SOTA performance on numerous datasets while maintaining efficiency.
翻訳日:2023-10-18 17:34:47 公開日:2023-10-17
# iotセンサネットワークと機械学習技術を用いた超ローカル気象予報と異常検出

Spatially-resolved hyperlocal weather prediction and anomaly detection using IoT sensor networks and machine learning techniques ( http://arxiv.org/abs/2310.11001v1 )

ライセンス: Link先を確認
Anita B. Agarwal, Rohit Rajesh, Nitin Arul(参考訳) 農業から災害管理まで,様々な用途において,正確な局地的気象予報が不可欠である。 本稿では,IoTセンサネットワークと高度な機械学習技術を用いた局部気象予測と異常検出を組み合わせた新しい手法を提案する。 本研究では,空間分布が比較的近い複数の場所からのデータと,iotセンサを用いて,気温,気圧,湿度などの短時間,局所的な気象条件を予測可能な高分解能気象モデルを構築した。 これらの場所における気象パラメータの変化をモニタすることで,予測の空間分解能を高め,リアルタイムに異常を効果的に検出することができる。 さらに本システムは,教師なしの学習アルゴリズムを用いて異常気象パターンを識別し,タイムリーなアラートを提供する。 以上の結果から,本システムは意思決定を促進できる可能性が示唆された。

Accurate and timely hyperlocal weather predictions are essential for various applications, ranging from agriculture to disaster management. In this paper, we propose a novel approach that combines hyperlocal weather prediction and anomaly detection using IoT sensor networks and advanced machine learning techniques. Our approach leverages data from multiple spatially-distributed yet relatively close locations and IoT sensors to create high-resolution weather models capable of predicting short-term, localized weather conditions such as temperature, pressure, and humidity. By monitoring changes in weather parameters across these locations, our system is able to enhance the spatial resolution of predictions and effectively detect anomalies in real-time. Additionally, our system employs unsupervised learning algorithms to identify unusual weather patterns, providing timely alerts. Our findings indicate that this system has the potential to enhance decision-making.
翻訳日:2023-10-18 17:34:24 公開日:2023-10-17
# Node-Adaptive Propagationによるスケーラブルグラフニューラルネットワークの高速化

Accelerating Scalable Graph Neural Network Inference with Node-Adaptive Propagation ( http://arxiv.org/abs/2310.10998v1 )

ライセンス: Link先を確認
Xinyi Gao, Wentao Zhang, Junliang Yu, Yingxia Shao, Quoc Viet Hung Nguyen, Bin Cui, Hongzhi Yin(参考訳) グラフニューラルネットワーク(GNN)は、様々なアプリケーションにおいて極めて有効である。 しかし、大規模グラフの重大化は、GNNによるリアルタイム推論に重大な課題をもたらす。 既存のScalable GNNは、機能前処理とトレーニングと推論手順の高速化に線形伝搬を利用するが、機能前処理ではグラフの認識と修正が必要であるため、未確認ノードで推論を行う際のスケーラビリティの問題に悩まされている。 この帰納的環境下でのスケーラブルなGNNの推論をさらに加速するため,各ノードに対して,そのトポロジ情報に基づいて最適な伝搬深さをカスタマイズし,冗長な特徴伝搬を回避できる,オンライン伝搬フレームワークと2つの新しいノード適応伝搬手法を提案する。 精度とレイテンシのトレードオフは、さまざまなレイテンシ制約に対応するために、単純なハイパーパラメータを通じて柔軟に管理できる。 さらに, 伝播の早期終了による推定精度の低下を補うため, グラフ内の多元的受容場情報を利用するためのインセプション蒸留法も提案する。 スケールや特性の異なる公開データセットに関する厳密で包括的な実験により,提案手法が既存のグラフ推論法よりも精度と効率の面で優れていることが示された。 特に、我々のアプローチの優位性は、大きなスケールのデータセットで顕著であり、最大のOgbn-productsデータセットで75倍の推論速度が得られる。

Graph neural networks (GNNs) have exhibited exceptional efficacy in a diverse array of applications. However, the sheer size of large-scale graphs presents a significant challenge to real-time inference with GNNs. Although existing Scalable GNNs leverage linear propagation to preprocess the features and accelerate the training and inference procedure, these methods still suffer from scalability issues when making inferences on unseen nodes, as the feature preprocessing requires the graph to be known and fixed. To further accelerate Scalable GNNs inference in this inductive setting, we propose an online propagation framework and two novel node-adaptive propagation methods that can customize the optimal propagation depth for each node based on its topological information and thereby avoid redundant feature propagation. The trade-off between accuracy and latency can be flexibly managed through simple hyper-parameters to accommodate various latency constraints. Moreover, to compensate for the inference accuracy loss caused by the potential early termination of propagation, we further propose Inception Distillation to exploit the multi-scale receptive field information within graphs. The rigorous and comprehensive experimental study on public datasets with varying scales and characteristics demonstrates that the proposed inference acceleration framework outperforms existing state-of-the-art graph inference acceleration methods in terms of accuracy and efficiency. Particularly, the superiority of our approach is notable on datasets with larger scales, yielding a 75x inference speedup on the largest Ogbn-products dataset.
翻訳日:2023-10-18 17:34:10 公開日:2023-10-17
# 量子ゲートの高次保護-動的疎結合と協調したハミルトン工学

Higher-order protection of quantum gates: Hamiltonian engineering coordinated with dynamical decoupling ( http://arxiv.org/abs/2310.10991v1 )

ライセンス: Link先を確認
P. Z. Zhao, Sirui Liu, Jiangbin Gong(参考訳) 動的デカップリングは、量子記憶と量子ゲートの保護に向けた活発なアプローチである。 動的疎結合操作は系の時間進化に干渉する可能性があるため、量子ゲートの保護は量子状態のそれよりも困難である。 本研究では,量子ゲートの高次保護の実現に向けて,単純だが一般的なアプローチを提案する。 我々のアプローチの中心的な考え方は、量子記憶の保護のために提案された高階の動的疎結合配列と協調して量子ゲートハミルトンを設計することである。 図示のために提示した計算例では、特定の時間に外部駆動場の位相をクエンチするだけで必要な工学を実装できる。

Dynamical decoupling represents an active approach towards the protection of quantum memories and quantum gates. Because dynamical decoupling operations can interfere with system's own time evolution, the protection of quantum gates is more challenging than that of quantum states. In this work, we put forward a simple but general approach towards the realization of higher-order protection of quantum gates. The central idea of our approach is to engineer (hence regain the control of) the quantum gate Hamiltonian in coordination with higher-order dynamical decoupling sequences originally proposed for the protection of quantum memories. In our computational examples presented for illustration, the required engineering can be implemented by only quenching the phase of an external driving field at particular times.
翻訳日:2023-10-18 17:33:43 公開日:2023-10-17
# WGoM: 重み付き応答を持つカテゴリデータの新しいモデル

WGoM: A novel model for categorical data with weighted responses ( http://arxiv.org/abs/2310.10989v1 )

ライセンス: Link先を確認
Huan Qing(参考訳) graded of membership (gom) モデルは、カテゴリデータ内の潜在クラスを推論するための強力なツールであり、サブジェクトが複数の潜在クラスに属することができる。 しかし、その応用は非負の整数応答を持つ分類データに限られており、連続または負の応答を持つデータセットには不適切である。 この制限に対処するため,本論文では,WGoMモデルという新しいモデルを提案する。 GoMと比較して、我々のWGoMは応答行列の生成に関するGoMの分布制約を緩和し、GoMよりも一般的である。 次に、潜在混合メンバシップと他のWGoMパラメータを推定するアルゴリズムを提案する。 推定パラメータの誤差境界を導出し,アルゴリズムが統計的に一貫したことを示す。 アルゴリズムのパフォーマンスは、合成データと実世界のデータセットの両方で検証される。 その結果,本アルゴリズムは正確かつ効率的であり,実用化の可能性が高いことが示された。 本稿では,gomモデルの適用性を拡張する新しいモデルを導入し,重み付き応答を用いたカテゴリデータ解析のためのより柔軟なフレームワークを提供する。

The Graded of Membership (GoM) model is a powerful tool for inferring latent classes in categorical data, which enables subjects to belong to multiple latent classes. However, its application is limited to categorical data with nonnegative integer responses, making it inappropriate for datasets with continuous or negative responses. To address this limitation, this paper proposes a novel model named the Weighted Grade of Membership (WGoM) model. Compared with GoM, our WGoM relaxes GoM's distribution constraint on the generation of a response matrix and it is more general than GoM. We then propose an algorithm to estimate the latent mixed memberships and the other WGoM parameters. We derive the error bounds of the estimated parameters and show that the algorithm is statistically consistent. The algorithmic performance is validated in both synthetic and real-world datasets. The results demonstrate that our algorithm is accurate and efficient, indicating its high potential for practical applications. This paper makes a valuable contribution to the literature by introducing a novel model that extends the applicability of the GoM model and provides a more flexible framework for analyzing categorical data with weighted responses.
翻訳日:2023-10-18 17:33:32 公開日:2023-10-17
# なぜ学生は退学するの? 機械学習を用いた大学ドロップアウト予測と関連する因子分析

Why Do Students Drop Out? University Dropout Prediction and Associated Factor Analysis Using Machine Learning Techniques ( http://arxiv.org/abs/2310.10987v1 )

ライセンス: Link先を確認
Sean Kim and Eliot Yoo and Samuel Kim(参考訳) グラデーションとドロップアウト率は、教育機関や学生にとって常に深刻な考慮事項である。 高いドロップアウト率は、個々の学生と機関の生活に悪影響を及ぼす。 そこで本研究では,学術,人口統計,社会経済,マクロ経済データを用いた大学退学予測について検討した。 さらに, 卒業と退学状態の予測において, 機械学習モデルの性能に最も影響を及ぼすデータの種類を分析するために, 関連する因子分析を行った。 これらの特徴は、学生が卒業するか退学するかを決定するために、4つのバイナリ分類器を訓練するために使用された。 ドロップアウト状態の予測における分類器の総合的な性能は、平均ROC-AUCスコア0.935であった。 モデルの性能に最も影響を及ぼすデータ型は学術データであり, 平均ROC-AUCスコアは, データセットからすべての学術的特徴を除くと0.935から0.811に低下することがわかった。 予備結果は、データ型とドロップアウト状態の間に相関があることを示している。

Graduation and dropout rates have always been a serious consideration for educational institutions and students. High dropout rates negatively impact both the lives of individual students and institutions. To address this problem, this study examined university dropout prediction using academic, demographic, socioeconomic, and macroeconomic data types. Additionally, we performed associated factor analysis to analyze which type of data would be most influential on the performance of machine learning models in predicting graduation and dropout status. These features were used to train four binary classifiers to determine if students would graduate or drop out. The overall performance of the classifiers in predicting dropout status had an average ROC-AUC score of 0.935. The data type most influential to the model performance was found to be academic data, with the average ROC-AUC score dropping from 0.935 to 0.811 when excluding all academic-related features from the data set. Preliminary results indicate that a correlation does exist between data types and dropout status.
翻訳日:2023-10-18 17:33:14 公開日:2023-10-17
# 重み付き応答を用いた潜時クラス解析

Latent class analysis with weighted responses ( http://arxiv.org/abs/2310.10984v1 )

ライセンス: Link先を確認
Huan Qing(参考訳) 潜在クラスモデルは、社会、心理学、行動学、生物科学など様々な分野の分類データのクラスター分析のための強力なツールとして提案されている。 しかし、潜在クラスモデルの1つの重要な制限は、バイナリ応答を持つデータにのみ適しており、連続または負の応答を持つ実世界のデータをモデル化できないことである。 多くの応用において、重みを無視することは重みに含まれる潜在的に価値のある情報の多くを吐き出す。 そこで本研究では,新しい生成モデルである重み付き潜在クラスモデル(wlcm)を提案する。 本モデルにより,潜在クラス構造を持つ任意の分布からデータの応答行列を生成することができる。 潜在クラスモデルと比較して、我々のWLCMはより現実的で一般的です。 我々の知る限り、WLCMは重み付き応答を持つ潜在クラス分析の最初のモデルである。 モデルの同定可能性について検討し,潜在クラスやその他のモデルパラメータを推定する効率的なアルゴリズムを提案する。 本稿では,提案アルゴリズムが一貫した推定を楽しむことを示す。 提案アルゴリズムの性能は,コンピュータ生成と実世界の重み付き応答データの両方を用いて検討した。

The latent class model has been proposed as a powerful tool for cluster analysis of categorical data in various fields such as social, psychological, behavioral, and biological sciences. However, one important limitation of the latent class model is that it is only suitable for data with binary responses, making it fail to model real-world data with continuous or negative responses. In many applications, ignoring the weights throws out a lot of potentially valuable information contained in the weights. To address this limitation, we propose a novel generative model, the weighted latent class model (WLCM). Our model allows data's response matrix to be generated from an arbitrary distribution with a latent class structure. In comparison to the latent class model, our WLCM is more realistic and more general. To our knowledge, our WLCM is the first model for latent class analysis with weighted responses. We investigate the identifiability of the model and propose an efficient algorithm for estimating the latent classes and other model parameters. We show that the proposed algorithm enjoys consistent estimation. The performance of the proposed algorithm is investigated using both computer-generated and real-world weighted response data.
翻訳日:2023-10-18 17:32:57 公開日:2023-10-17
# 混合適応型大規模事前学習モデルによる領域一般化

Domain Generalization Using Large Pretrained Models with Mixture-of-Adapters ( http://arxiv.org/abs/2310.11031v1 )

ライセンス: Link先を確認
Gyuseong Lee, Wooseok Jang, Jin Hyeon Kim, Jaewoo Jung, Seungryong Kim(参考訳) 大規模な分散シフトにもかかわらず、堅牢なビジョンモデルを学ぶことは、実際の環境でのモデル展開に不可欠である。 特に、ドメイン一般化(DG)アルゴリズムは、トレーニング中に見られなかった異なる分布上で訓練されたモデルの性能を維持することを目的としている。 最も効果的な方法の1つは、大きな事前訓練されたモデルの学習済みの豊富な知識を活用することである。 しかし、大きなモデルをDGタスクに微調整することは、記憶力の制限、トレーニングの広範な時間要件、学習知識の劣化のリスクにより、事実上不可能であることが多い。 近年,訓練中の計算コストを低減し,大規模モデルを下流タスクに効率的に適応させるために,パラメータ効率の良い微調整(peft)法が提案されている。 本研究は,PEFT法におけるアダプタの使用により,トレーニング中の高い計算コストを低減できるだけでなく,DGタスクの効果的な正則化にも有効であることが確認された。 驚いたことに、大規模モデルの単純実装は共通のデータセット上で優れたパフォーマンスを実現する。 しかし,大規模分布シフトの場合,高度なアダプタ実装では,分布シフトの強度による最適正規化量などの追加要素を考慮する必要がある。 そこで本研究では,mixed-of-adapters (moa) と呼ばれる,エキスパート・ベースのアダプタ・微調整手法を提案する。 具体的には,様々なキャパシティを持つ複数のアダプタを採用し,学習可能なルータを用いて各トークンを適切なアダプタに割り当てる。 PEFT法とMoA法の両方を用いて,分散シフトによる性能劣化を効果的に軽減し,多種多様なDGベンチマークにおける最先端性能を実現する。

Learning a robust vision model despite large distribution shift is essential for model deployment in real-world settings. Especially, domain generalization (DG) algorithm aims to maintain the performance of a trained model on different distributions which were not seen during training. One of the most effective methods has been leveraging the already learned rich knowledge of large pretrained models. However, naively fine-tuning large models to DG tasks is often practically infeasible due to memory limitations, extensive time requirements for training, and the risk of learned knowledge deterioration. Recently, parameter-efficient fine-tuning (PEFT) methods have been proposed to reduce the high computational cost during training and efficiently adapt large models to downstream tasks. In this work, for the first time, we find that the use of adapters in PEFT methods not only reduce high computational cost during training but also serve as an effective regularizer for DG tasks. Surprisingly, a naive adapter implementation for large models achieve superior performance on common datasets. However, in situations of large distribution shifts, additional factors such as optimal amount of regularization due to the strength of distribution shifts should be considered for a sophisticated adapter implementation. To address this, we propose a mixture-of-expert based adapter fine-tuning method, dubbed as mixture-of-adapters (MoA). Specifically, we employ multiple adapters that have varying capacities, and by using learnable routers, we allocate each token to a proper adapter. By using both PEFT and MoA methods, we effectively alleviate the performance deterioration caused by distribution shifts and achieve state-of-the-art performance on diverse DG benchmarks.
翻訳日:2023-10-18 17:24:57 公開日:2023-10-17
# コアビルディングブロック:次世代地理空間GPTアプリケーション

Core Building Blocks: Next Gen Geo Spatial GPT Application ( http://arxiv.org/abs/2310.11029v1 )

ライセンス: Link先を確認
Ashley Fernandez, Swaraj Dube(参考訳) 本稿では,言語モデル,特に大規模言語モデル(LLM)の機能と空間データ処理技術を統合する新しい手法であるMapGPTを提案する。 本稿では,自然言語理解と空間データ分析のギャップを埋めることを目的としたMapGPTを提案する。 LLMと地理空間解析の長所を組み合わせることで、MapGPTは位置ベースのクエリに対するより正確で文脈的に認識された応答を可能にする。 提案手法は,空間情報に特有のトークン化とベクトル表現を活用し,空間データおよびテキストデータに基づくllmの構築を強調する。 また,空間ベクトル表現の生成に関わる課題についても検討する。 さらに,MapGPTにおける計算能力の可能性について考察し,地理空間計算を行い,可視化された出力を得る。 本研究は,MapGPTの構成要素と手法を概説し,自然言語処理アプリケーションにおける空間的データ理解と生成の促進の可能性を明らかにする。

This paper proposes MapGPT which is a novel approach that integrates the capabilities of language models, specifically large language models (LLMs), with spatial data processing techniques. This paper introduces MapGPT, which aims to bridge the gap between natural language understanding and spatial data analysis by highlighting the relevant core building blocks. By combining the strengths of LLMs and geospatial analysis, MapGPT enables more accurate and contextually aware responses to location-based queries. The proposed methodology highlights building LLMs on spatial and textual data, utilizing tokenization and vector representations specific to spatial information. The paper also explores the challenges associated with generating spatial vector representations. Furthermore, the study discusses the potential of computational capabilities within MapGPT, allowing users to perform geospatial computations and obtain visualized outputs. Overall, this research paper presents the building blocks and methodology of MapGPT, highlighting its potential to enhance spatial data understanding and generation in natural language processing applications.
翻訳日:2023-10-18 17:23:53 公開日:2023-10-17
# ランダム化低ランクと低精度因子化による行列圧縮

Matrix Compression via Randomized Low Rank and Low Precision Factorization ( http://arxiv.org/abs/2310.11028v1 )

ライセンス: Link先を確認
Rajarshi Saha, Varun Srivastava, Mert Pilanci(参考訳) 行列は、構造化された方法でデータを整理し操作するための便利なフレームワークを提供するため、様々な研究分野で非常に有用である。 しかし、現代の行列は数十億の要素を巻き込み、そのストレージと処理は計算資源やメモリ使用量の観点から非常に要求される。 極端に大きいが、そのような行列は概して低位であることが多い。 この構造を利用して任意の行列 $\mathbf{a}$ as $\mathbf{a} \approx \mathbf{l}\mathbf{r}$, ここで$\mathbf{l}$ と $\mathbf{r}$ の低階分解を求めるアルゴリズムを提案する。 \mathbf{l}$ と $\mathbf{r}$ の要素の総数は、$\mathbf{a}$ の要素よりもかなり少ない。 さらに、$\mathbf{l}$ と $\mathbf{r}$ のエントリは、低いランクと低い精度の因子化を与えることで$\mathbf{a}$ を圧縮する低精度フォーマットに量子化される。 我々のアルゴリズムはまず列をランダムにスケッチし、次にこの基底を構成するベクトルの量子化によって$\mathbf{A}$の範囲空間の近似基底を計算する。 そして、この量子化された基底に対して$\mathbf{A}$の列の近似射影を計算する。 アルゴリズムの近似誤差の上限を導出し、目標ランクと量子化ビット予算の影響を解析する。 圧縮比と近似精度のトレードオフにより、特定のアプリケーション要件に基づいてこれらのパラメータを選択する柔軟性がある。 画像圧縮,画像およびテキスト埋め込みの最も近い分類,llama-$7$bの圧縮におけるアルゴリズムの有効性を実証的に実証した。 その結果,従来の圧縮技術の性能を上回ったり維持したりしながら,行列座標当たり1ビット程度の攻撃的な圧縮比が得られることが分かった。

Matrices are exceptionally useful in various fields of study as they provide a convenient framework to organize and manipulate data in a structured manner. However, modern matrices can involve billions of elements, making their storage and processing quite demanding in terms of computational resources and memory usage. Although prohibitively large, such matrices are often approximately low rank. We propose an algorithm that exploits this structure to obtain a low rank decomposition of any matrix $\mathbf{A}$ as $\mathbf{A} \approx \mathbf{L}\mathbf{R}$, where $\mathbf{L}$ and $\mathbf{R}$ are the low rank factors. The total number of elements in $\mathbf{L}$ and $\mathbf{R}$ can be significantly less than that in $\mathbf{A}$. Furthermore, the entries of $\mathbf{L}$ and $\mathbf{R}$ are quantized to low precision formats $--$ compressing $\mathbf{A}$ by giving us a low rank and low precision factorization. Our algorithm first computes an approximate basis of the range space of $\mathbf{A}$ by randomly sketching its columns, followed by a quantization of the vectors constituting this basis. It then computes approximate projections of the columns of $\mathbf{A}$ onto this quantized basis. We derive upper bounds on the approximation error of our algorithm, and analyze the impact of target rank and quantization bit-budget. The tradeoff between compression ratio and approximation accuracy allows for flexibility in choosing these parameters based on specific application requirements. We empirically demonstrate the efficacy of our algorithm in image compression, nearest neighbor classification of image and text embeddings, and compressing the layers of LlaMa-$7$b. Our results illustrate that we can achieve compression ratios as aggressive as one bit per matrix coordinate, all while surpassing or maintaining the performance of traditional compression techniques.
翻訳日:2023-10-18 17:23:34 公開日:2023-10-17
# テキスト生成のためのデコーダに基づくllmに基づく自動評価手法の検討

Exploring Automatic Evaluation Methods based on a Decoder-based LLM for Text Generation ( http://arxiv.org/abs/2310.11026v1 )

ライセンス: Link先を確認
Tomohito Kasahara, Daisuke Kawahara(参考訳) 生成タスクの精度を向上させるためには,テキスト生成の自動評価が不可欠である。 より大規模なデコーダベース言語モデルへのトレンドを踏まえ、テキスト生成のためのそのようなモデルに基づく自動評価手法を検討する。 本稿では,日本語と英語の2つの言語における機械翻訳評価と意味テキストの類似性について,等条件下でのエンコーダベースモデルと大規模言語モデルとのチューニングなど,様々な手法を比較した。 実験結果から, 調律エンコーダモデルと比較して, 調律デコーダモデルの性能は低かった。 この原因の分析は、デコーダベースのモデルは表層単語のシーケンスにフォーカスしており、意味を捉えていないことを示唆している。 また、ChatGPTのような非常に大きなデコーダベースのモデルのコンテキスト内学習は、きめ細かいセマンティックな違いを識別することが困難であることも明らかにした。

Automatic evaluation of text generation is essential for improving the accuracy of generation tasks. In light of the current trend towards increasingly larger decoder-based language models, we investigate automatic evaluation methods based on such models for text generation. This paper compares various methods, including tuning with encoder-based models and large language models under equal conditions, on two different tasks, machine translation evaluation and semantic textual similarity, in two languages, Japanese and English. Experimental results show that compared to the tuned encoder-based models, the tuned decoder-based models perform poorly. The analysis of the causes for this suggests that the decoder-based models focus on surface word sequences and do not capture meaning. It is also revealed that in-context learning of very large decoder-based models such as ChatGPT makes it difficult to identify fine-grained semantic differences.
翻訳日:2023-10-18 17:22:59 公開日:2023-10-17
# SignGT:グラフ表現学習のための署名注意に基づくグラフ変換器

SignGT: Signed Attention-based Graph Transformer for Graph Representation Learning ( http://arxiv.org/abs/2310.11025v1 )

ライセンス: Link先を確認
Jinsong Chen, Gaichao Li, John E. Hopcroft, Kun He(参考訳) 新たなグラフトランスフォーマーは,グラフニューラルネットワーク(GNN)上でのグラフ表現学習において,優れたパフォーマンスを実現している。 本研究では,グラフ変換器のコアモジュールである自己アテンション機構を,完全連結グラフ上での2段階の集約操作とみなす。 正の注意値を生成する性質のため、自己注意機構は低周波情報を保持する全てのノードで円滑な操作を行うのに等しい。 しかし、低周波情報をキャプチャすることは、高周波情報が重要であるヘテロフィリーグラフのような多様なグラフ上のノードの複雑な関係を学ぶのに非効率である。 そこで本研究では,グラフから様々な周波数情報を適応的に取得する符号付き注意型グラフトランスフォーマ(signgt)を提案する。 具体的には、signgtはノード対の意味的関連性に応じて符号付き注意値を生成する新しいサイン付き自己アテンション機構(signsa)を開発する。 したがって、異なるノード対間の多様な周波数情報を慎重に保存することができる。 さらに、SignGTは、局所的なトポロジ情報を保存するために近隣バイアスを導入する構造対応フィードフォワードネットワーク(SFFN)を提案する。 このようにしてSignGTは、長距離依存と局所トポロジー情報の両方から情報的ノード表現を学習できる。 ノードレベルのタスクとグラフレベルのタスクの広範な実験結果は、最先端のGNNと同様に最先端のグラフ変換器に対するSignGTの優位性を示している。

The emerging graph Transformers have achieved impressive performance for graph representation learning over graph neural networks (GNNs). In this work, we regard the self-attention mechanism, the core module of graph Transformers, as a two-step aggregation operation on a fully connected graph. Due to the property of generating positive attention values, the self-attention mechanism is equal to conducting a smooth operation on all nodes, preserving the low-frequency information. However, only capturing the low-frequency information is inefficient in learning complex relations of nodes on diverse graphs, such as heterophily graphs where the high-frequency information is crucial. To this end, we propose a Signed Attention-based Graph Transformer (SignGT) to adaptively capture various frequency information from the graphs. Specifically, SignGT develops a new signed self-attention mechanism (SignSA) that produces signed attention values according to the semantic relevance of node pairs. Hence, the diverse frequency information between different node pairs could be carefully preserved. Besides, SignGT proposes a structure-aware feed-forward network (SFFN) that introduces the neighborhood bias to preserve the local topology information. In this way, SignGT could learn informative node representations from both long-range dependencies and local topology information. Extensive empirical results on both node-level and graph-level tasks indicate the superiority of SignGT against state-of-the-art graph Transformers as well as advanced GNNs.
翻訳日:2023-10-18 17:22:42 公開日:2023-10-17
# 不規則サンプリング型多変量時系列変換器

Compatible Transformer for Irregularly Sampled Multivariate Time Series ( http://arxiv.org/abs/2310.11022v1 )

ライセンス: Link先を確認
Yuxi Wei, Juntong Peng, Tong He, Chenxin Xu, Jian Zhang, Shirui Pan, Siheng Chen(参考訳) 多変量時系列を解析するために、従来のほとんどの手法は、隣り合う測定値とサンプル数の間の間隔が変化しない時系列の定期的なサブサンプリングを仮定する。 実際、データ収集システムは、センサーの故障と介入のために不規則にサンプリングされた時系列を生成することができる。 しかしながら、定期的な多変量時系列のサンプリングのために設計された既存の方法は、時間次元と変量次元の両方における不規則性を直接扱うことができない。 このギャップを埋めるために、不規則な多変量時系列における各サンプルに対する包括的な時間-相互作用特徴学習を実現する変換器ベースのエンコーダであるCompatible Transformer(CoFormer)を提案する。 CoFormerでは,各サンプルを一意な変量点とみなし,変量内/変量間注意を利用して,変量内/変量間隣人に基づく時間的/相互作用の特徴を学習する。 coformerをコアとして、分類や予測を含む多くの下流タスクで不規則にサンプリングされた多変量時系列を分析できる。 3つの実世界のデータセットについて広範な実験を行い,提案するコフォーマが既存の手法を大きく上回ることを検証した。

To analyze multivariate time series, most previous methods assume regular subsampling of time series, where the interval between adjacent measurements and the number of samples remain unchanged. Practically, data collection systems could produce irregularly sampled time series due to sensor failures and interventions. However, existing methods designed for regularly sampled multivariate time series cannot directly handle irregularity owing to misalignment along both temporal and variate dimensions. To fill this gap, we propose Compatible Transformer (CoFormer), a transformer-based encoder to achieve comprehensive temporal-interaction feature learning for each individual sample in irregular multivariate time series. In CoFormer, we view each sample as a unique variate-time point and leverage intra-variate/inter-variate attentions to learn sample-wise temporal/interaction features based on intra-variate/inter-variate neighbors. With CoFormer as the core, we can analyze irregularly sampled multivariate time series for many downstream tasks, including classification and prediction. We conduct extensive experiments on 3 real-world datasets and validate that the proposed CoFormer significantly and consistently outperforms existing methods.
翻訳日:2023-10-18 17:22:19 公開日:2023-10-17
# 動的量子回路のコンパイル

Dynamic quantum circuit compilation ( http://arxiv.org/abs/2310.11021v1 )

ライセンス: Link先を確認
Kun Fang, Munan Zhang, Ruqi Shi, and Yinan Li(参考訳) 量子コンピューティングは複雑な計算問題に対処する上で非常に有望であるが、実際の実現は量子ビットの計算能力の限界によって妨げられている。 量子ハードウェアの最近の進歩は、中回路計測とリセットを導入し、測定された量子ビットの再利用を可能にし、量子アルゴリズムの実行に必要な量子ビットを著しく削減した。 本研究では,静的量子回路を量子ビット再使用により量子ビット数を削減した動的等価回路に変換するプロセスである動的量子回路コンパイルの体系的研究を行う。 グラフ操作による動的回路コンパイルを最適化する最初の汎用フレームワークを構築した。 特に,バイナリ整数計画を用いた最適量子回路コンパイルを完全に特徴付けし,与えられた量子回路をより小さな回路に還元できるかどうかを判断するための効率的なアルゴリズムを提供し,動的コンパイルスキームを一般に考案するためのヒューリスティックアルゴリズムを提案する。 さらに,量子計算においてよく知られた量子アルゴリズムの最適コンパイル,量子機械学習で使用されるアンサッツ回路,量子ネットワークに不可欠な測定に基づく量子計算を提供する,実用的な量子回路の徹底的な解析を行う。 また、構造化量子回路とランダム量子回路の両方における手法の優れた性能を実証し、最先端手法との比較分析を行った。 我々のフレームワークは、量子ビット再利用による動的量子回路のコンパイルの厳密な基礎を築き、理論量子アルゴリズムと限られたリソースを持つ量子コンピュータへの物理実装のギャップを埋める。

Quantum computing has shown tremendous promise in addressing complex computational problems, yet its practical realization is hindered by the limited availability of qubits for computation. Recent advancements in quantum hardware have introduced mid-circuit measurements and resets, enabling the reuse of measured qubits and significantly reducing the qubit requirements for executing quantum algorithms. In this work, we present a systematic study of dynamic quantum circuit compilation, a process that transforms static quantum circuits into their dynamic equivalents with a reduced qubit count through qubit-reuse. We establish the first general framework for optimizing the dynamic circuit compilation via graph manipulation. In particular, we completely characterize the optimal quantum circuit compilation using binary integer programming, provide efficient algorithms for determining whether a given quantum circuit can be reduced to a smaller circuit and present heuristic algorithms for devising dynamic compilation schemes in general. Furthermore, we conduct a thorough analysis of quantum circuits with practical relevance, offering optimal compilations for well-known quantum algorithms in quantum computation, ansatz circuits utilized in quantum machine learning, and measurement-based quantum computation crucial for quantum networking. We also perform a comparative analysis against state-of-the-art approaches, demonstrating the superior performance of our methods in both structured and random quantum circuits. Our framework lays a rigorous foundation for comprehending dynamic quantum circuit compilation via qubit-reuse, bridging the gap between theoretical quantum algorithms and their physical implementation on quantum computers with limited resources.
翻訳日:2023-10-18 17:22:02 公開日:2023-10-17
# 読解順序事項:トークンパス予測による視覚豊かな文書からの情報抽出

Reading Order Matters: Information Extraction from Visually-rich Documents by Token Path Prediction ( http://arxiv.org/abs/2310.11016v1 )

ライセンス: Link先を確認
Chong Zhang, Ya Guo, Yi Tu, Huan Chen, Jinyang Tang, Huijia Zhu, Qi Zhang, Tao Gui(参考訳) マルチモーダル事前学習モデルにおける最近の進歩は,nlpの典型的設定に従って,トークンの生体情報タグを予測するためのシーケンスラベルタスクとして名前付きエンティティ認識(ner)を処理した,視覚リッチドキュメント(vrd)からの情報抽出を大幅に改善した。 しかし、BIOタグ付け方式は、テキストがOCRシステムによって認識され、配列されるスキャンされたVrD上で、実際のNERでは保証されないモデル入力の正しい順序に依存している。 このような読み順問題は、BIOタグ付け方式によるエンティティの正確なマーキングを妨げるため、シーケンシャルラベル法では正確な名前付きエンティティを予測できない。 読み出し順序問題に対処するために、文書内のトークンシーケンスとしてエンティティの参照を予測する単純な予測ヘッドであるトークンパス予測(TPP)を導入する。 トークン分類の代わりに、TPPは文書レイアウトをトークンの完全な有向グラフとしてモデル化し、グラフ内のトークンパスをエンティティとして予測する。 VrD-NERシステムのより良い評価のために,実世界のシナリオを反映できるスキャンされた文書上でのNERのベンチマークデータセットを2種類提案する。 実験の結果,提案手法の有効性を実証し,文書上の様々な情報抽出タスクに対する普遍的な解決の可能性を示した。

Recent advances in multimodal pre-trained models have significantly improved information extraction from visually-rich documents (VrDs), in which named entity recognition (NER) is treated as a sequence-labeling task of predicting the BIO entity tags for tokens, following the typical setting of NLP. However, BIO-tagging scheme relies on the correct order of model inputs, which is not guaranteed in real-world NER on scanned VrDs where text are recognized and arranged by OCR systems. Such reading order issue hinders the accurate marking of entities by BIO-tagging scheme, making it impossible for sequence-labeling methods to predict correct named entities. To address the reading order issue, we introduce Token Path Prediction (TPP), a simple prediction head to predict entity mentions as token sequences within documents. Alternative to token classification, TPP models the document layout as a complete directed graph of tokens, and predicts token paths within the graph as entities. For better evaluation of VrD-NER systems, we also propose two revised benchmark datasets of NER on scanned documents which can reflect real-world scenarios. Experiment results demonstrate the effectiveness of our method, and suggest its potential to be a universal solution to various information extraction tasks on documents.
翻訳日:2023-10-18 17:21:37 公開日:2023-10-17
# 非同期フェデレートバンディットにおける純粋探査

Pure Exploration in Asynchronous Federated Bandits ( http://arxiv.org/abs/2310.11015v1 )

ライセンス: Link先を確認
Zichen Wang, Chuanhao Li, Chenyu Song, Lianghui Wang, Quanquan Gu, Huazheng Wang(参考訳) マルチアームバンディットとリニアバンディットのフェデレートされた純粋な探索問題について検討し、M$エージェントが中央サーバとの通信を通じて最適なアームを協調的に識別する。 実用上一般的なエージェントのレイテンシに対するロバスト性と有効性を高めるため,信頼度の高い純粋探索のために,最初のフェデレーション型非同期多腕バンディットおよび線形バンディットアルゴリズムを提案する。 提案アルゴリズムは, 完全非同期環境において, ほぼ最適サンプルの複雑さと効率的な通信コストを実現する。 さらに,合成および実世界のデータに基づく実験結果は,提案アルゴリズムの有効性と通信コスト効率を実証的に解明する。

We study the federated pure exploration problem of multi-armed bandits and linear bandits, where $M$ agents cooperatively identify the best arm via communicating with the central server. To enhance the robustness against latency and unavailability of agents that are common in practice, we propose the first federated asynchronous multi-armed bandit and linear bandit algorithms for pure exploration with fixed confidence. Our theoretical analysis shows the proposed algorithms achieve near-optimal sample complexities and efficient communication costs in a fully asynchronous environment. Moreover, experimental results based on synthetic and real-world data empirically elucidate the effectiveness and communication cost-efficiency of the proposed algorithms.
翻訳日:2023-10-18 17:21:14 公開日:2023-10-17
# 光周波数コムとプログラム可能な光メモリを用いたハイパースペクトルインメモリコンピューティング

Hyperspectral In-Memory Computing with Optical Frequency Combs and Programmable Optical Memories ( http://arxiv.org/abs/2310.11014v1 )

ライセンス: Link先を確認
Mostafa Honari Latifpour, Byoung Jun Park, Yoshihisa Yamamoto, Myoung-Gyun Suh(参考訳) 多くの産業における機械学習の急速な進歩は、行列ベクトル乗算演算の需要を増大させ、従来のフォン・ノイマン計算アーキテクチャの能力に挑戦している。 これに対処するため、研究者は現在、より高速でエネルギー効率の良いハードウェアを開発するためのインメモリコンピューティングシステムのような代替手段を検討している。 特に、よりエネルギー効率の良い方法で行列ベクトル乗算を扱うことができる光学系に基づく計算システムへの関心が再燃している。 有望な最初の成果にもかかわらず、電子コンピューティングハードウェアに匹敵する高度に並列でプログラマブルでスケーラブルな光学計算システムの開発はいまだに不可能である。 本稿では,空間多重化と光周波数コムの周波数多重化を統合し,空間光変調器をプログラマブルな光メモリとして利用することにより,計算スループットとエネルギー効率を向上するハイパースペクトルインメモリアーキテクチャを提案する。 本研究では,行列ベクトルおよび行列行列行列乗算において,4ビット以上の精度を持つ乗算累積演算を実験的に実証した。 このシステムはモジュール性、スケーラビリティ、プログラム性を示し、光学ベースの計算アーキテクチャの伝統的な制限を効果的に超越している。 提案手法は,1秒あたりのペタ演算を超えてスケールする可能性を実証し,高スループットエネルギー効率光コンピューティングの実現に向けた重要なステップを示す。

The rapid advancements in machine learning across numerous industries have amplified the demand for extensive matrix-vector multiplication operations, thereby challenging the capacities of traditional von Neumann computing architectures. To address this, researchers are currently exploring alternatives such as in-memory computing systems to develop faster and more energy-efficient hardware. In particular, there is renewed interest in computing systems based on optics, which could potentially handle matrix-vector multiplication in a more energy-efficient way. Despite promising initial results, developing a highly parallel, programmable, and scalable optical computing system capable of rivaling electronic computing hardware still remains elusive. In this context, we propose a hyperspectral in-memory computing architecture that integrates space multiplexing with frequency multiplexing of optical frequency combs and uses spatial light modulators as a programmable optical memory, thereby boosting the computational throughput and the energy efficiency. We have experimentally demonstrated multiply-accumulate operations with higher than 4-bit precision in both matrix-vector and matrix-matrix multiplications, which suggests the system's potential for a wide variety of deep learning and optimization tasks. This system exhibits extraordinary modularity, scalability, and programmability, effectively transcending the traditional limitations of optics-based computing architectures. Our approach demonstrates the potential to scale beyond peta operations per second, marking a significant step towards achieving high-throughput energy-efficient optical computing.
翻訳日:2023-10-18 17:21:02 公開日:2023-10-17
# 伝達エントロピーによる因果的特徴選択

Causal Feature Selection via Transfer Entropy ( http://arxiv.org/abs/2310.11059v1 )

ライセンス: Link先を確認
Paolo Bonetti, Alberto Maria Metelli, Marcello Restelli(参考訳) 機械学習アルゴリズムは機能間の複雑な関係を捉えるように設計されている。 この文脈では、データの高次元性はしばしばモデルの性能が悪く、過度に適合するリスクがある。 機能選択(feature selection)とは、関連する機能と非冗長機能のサブセットを選択するプロセスであり、これらの問題を緩和するための重要なステップである。 しかし、古典的特徴選択手法は、選択した特徴と対象との因果関係を検査せず、現実の応用において誤解を招く可能性がある。 因果発見は、観察データを用いて特徴間の因果関係を識別することを目的としている。 本稿では,時系列に着目した特徴選択と因果発見の交差点における新しい手法を提案する。 本研究では,前向きと後向きの特徴選択手法に依存した新たな因果特徴選択手法を導入し,転送エントロピーを利用して特徴から対象への情報の流れを時系列で推定する。 提案手法は,単にモデルの性能だけでなく,因果情報の流れを捉えた特徴の選択を可能にする。 この文脈では、厳密ケースと有限サンプルケースの両方に対して回帰と分類エラーに関する理論的保証を提供する。 最後に、合成および実世界の回帰問題に関する数値検証を行い、検討されたベースラインと競合する結果を示す。

Machine learning algorithms are designed to capture complex relationships between features. In this context, the high dimensionality of data often results in poor model performance, with the risk of overfitting. Feature selection, the process of selecting a subset of relevant and non-redundant features, is, therefore, an essential step to mitigate these issues. However, classical feature selection approaches do not inspect the causal relationship between selected features and target, which can lead to misleading results in real-world applications. Causal discovery, instead, aims to identify causal relationships between features with observational data. In this paper, we propose a novel methodology at the intersection between feature selection and causal discovery, focusing on time series. We introduce a new causal feature selection approach that relies on the forward and backward feature selection procedures and leverages transfer entropy to estimate the causal flow of information from the features to the target in time series. Our approach enables the selection of features not only in terms of mere model performance but also captures the causal information flow. In this context, we provide theoretical guarantees on the regression and classification errors for both the exact and the finite-sample cases. Finally, we present numerical validations on synthetic and real-world regression problems, showing results competitive w.r.t. the considered baselines.
翻訳日:2023-10-18 17:15:09 公開日:2023-10-17
# Denevil: インストラクション学習による大規模言語モデルの倫理的価値の解読とナビゲート

Denevil: Towards Deciphering and Navigating the Ethical Values of Large Language Models via Instruction Learning ( http://arxiv.org/abs/2310.11053v1 )

ライセンス: Link先を確認
Shitong Duan, Xiaoyuan Yi, Peng Zhang, Tun Lu, Xing Xie, Ning Gu(参考訳) 大規模言語モデル(LLM)は前例のない突破口をたどったが、日常生活への統合が進むと、非倫理的コンテンツによって社会的リスクが生じる可能性がある。 偏見のような特定の問題に関する広範な研究にもかかわらず、LLMの本質的な価値は道徳哲学の観点からほとんど解明されていない。 この研究は道徳的基礎理論を生かした倫理的価値観へと発展する。 信頼性の低い従来の差別的評価を超えて、LLMの価値の脆弱性を動的に活用し、倫理の侵害を発生的方法で誘発する新しいプロンプト生成アルゴリズムであるDeNEVILを提案する。 そこで我々は,500以上の値の原理をカバーする2,397のプロンプトからなる高品質なデータセットであるMoralPromptを構築し,本質的な値をLLMのスペクトルにわたってベンチマークする。 ほとんどのモデルは本質的に不一致しており、さらなる倫理的価値の調整を必要としていることに気付きました。 そこで本研究では,LLM出力の値コンプライアンスを学習によって大幅に向上し,適切な値命令を生成するためのコンテキスト内アライメント手法であるVILMOを開発した。 我々の手法はブラックボックスやオープンソースモデルに適しており、LLMの倫理的価値を研究する上で有望な第一歩となる。

Large Language Models (LLMs) have made unprecedented breakthroughs, yet their increasing integration into everyday life might raise societal risks due to generated unethical content. Despite extensive study on specific issues like bias, the intrinsic values of LLMs remain largely unexplored from a moral philosophy perspective. This work delves into ethical values utilizing Moral Foundation Theory. Moving beyond conventional discriminative evaluations with poor reliability, we propose DeNEVIL, a novel prompt generation algorithm tailored to dynamically exploit LLMs' value vulnerabilities and elicit the violation of ethics in a generative manner, revealing their underlying value inclinations. On such a basis, we construct MoralPrompt, a high-quality dataset comprising 2,397 prompts covering 500+ value principles, and then benchmark the intrinsic values across a spectrum of LLMs. We discovered that most models are essentially misaligned, necessitating further ethical value alignment. In response, we develop VILMO, an in-context alignment method that substantially enhances the value compliance of LLM outputs by learning to generate appropriate value instructions, outperforming existing competitors. Our methods are suitable for black-box and open-source models, offering a promising initial step in studying the ethical values of LLMs.
翻訳日:2023-10-18 17:14:48 公開日:2023-10-17
# $k$-$t$ CLAIR:動的並列MR画像再構成のための自己整合性指導型マルチプライアラーニング

$k$-$t$ CLAIR: Self-Consistency Guided Multi-Prior Learning for Dynamic Parallel MR Image Reconstruction ( http://arxiv.org/abs/2310.11050v1 )

ライセンス: Link先を確認
Liping Zhang and Weitian Chen(参考訳) 心臓磁気共鳴画像(CMR)は、心臓疾患の診断に広く用いられている。 しかし、長い買収時間はリアルタイムアプリケーションの開発を妨げている。 本稿では,高アンサンプデータの時空間相関を利用して動的並列MRI再構成を高速化する,新しい自己整合性指導型多元学習フレームワークである$k$-$t$CLAIRを提案する。 x$-$t$、$x$-$f$、$k$-$t$ドメインで学んだ複数の相補的先行値を活用することで、動的MRIは時空間冗長度が高いため、徐々に忠実なイメージを再構築する。 さらに、$k$-$t$ CLAIRは、事前学習のための校正情報を組み込んでおり、より一貫性のある再構築をもたらす。 心シネ画像とT1W/T2W画像の実験結果から,k$-$t$ CLAIRは定量および定性の両方のパフォーマンスで高品質な動的MR再構成を実現することが示された。

Cardiac magnetic resonance imaging (CMR) has been widely used in clinical practice for the medical diagnosis of cardiac diseases. However, the long acquisition time hinders its development in real-time applications. Here, we propose a novel self-consistency guided multi-prior learning framework named $k$-$t$ CLAIR to exploit spatiotemporal correlations from highly undersampled data for accelerated dynamic parallel MRI reconstruction. The $k$-$t$ CLAIR progressively reconstructs faithful images by leveraging multiple complementary priors learned in the $x$-$t$, $x$-$f$, and $k$-$t$ domains in an iterative fashion, as dynamic MRI exhibits high spatiotemporal redundancy. Additionally, $k$-$t$ CLAIR incorporates calibration information for prior learning, resulting in a more consistent reconstruction. Experimental results on cardiac cine and T1W/T2W images demonstrate that $k$-$t$ CLAIR achieves high-quality dynamic MR reconstruction in terms of both quantitative and qualitative performance.
翻訳日:2023-10-18 17:14:25 公開日:2023-10-17
# Nonet at SemEval-2023 Task 6: Methodologies for Legal Evaluation

Nonet at SemEval-2023 Task 6: Methodologies for Legal Evaluation ( http://arxiv.org/abs/2310.11049v1 )

ライセンス: Link先を確認
Shubham Kumar Nigam, Aniket Deroy, Noel Shallum, Ayush Kumar Mishra, Anup Roy, Shubham Kumar Mishra, Arnab Bhattacharya, Saptarshi Ghosh, and Kripabandhu Ghosh(参考訳) 本稿では,SemEval-2023 for Task 6 on LegalEval: Understanding Legal Textsについて述べる。 提案課題は,タスクBの法的名義認識(L-NER),タスクC1の法的判断予測(LJP),タスクC2の裁判所判断予測(CJPE)の3つのサブタスクに集中した。 これらのサブタスクについて様々な実験を行い,データ統計や方法論など,その結果を詳細に提示した。 この研究で取り組んだような法的タスクが、法的分析とサポートの自動化の必要性の高まりによって重要性を増している点に注意が必要だ。 私たちのチームは、それぞれtask-b、task-c1、task-c2で15$^{th}$、11$^{th}$、1$^{st}$の競争ランキングを取得しました。

This paper describes our submission to the SemEval-2023 for Task 6 on LegalEval: Understanding Legal Texts. Our submission concentrated on three subtasks: Legal Named Entity Recognition (L-NER) for Task-B, Legal Judgment Prediction (LJP) for Task-C1, and Court Judgment Prediction with Explanation (CJPE) for Task-C2. We conducted various experiments on these subtasks and presented the results in detail, including data statistics and methodology. It is worth noting that legal tasks, such as those tackled in this research, have been gaining importance due to the increasing need to automate legal analysis and support. Our team obtained competitive rankings of 15$^{th}$, 11$^{th}$, and 1$^{st}$ in Task-B, Task-C1, and Task-C2, respectively, as reported on the leaderboard.
翻訳日:2023-10-18 17:14:03 公開日:2023-10-17
# 分散ロバスト最適化によるコントラスト学習の理解

Understanding Contrastive Learning via Distributionally Robust Optimization ( http://arxiv.org/abs/2310.11048v1 )

ライセンス: Link先を確認
Junkang Wu, Jiawei Chen, Jiancan Wu, Wentao Shi, Xiang Wang, Xiangnan He(参考訳) 本研究は,差分バイアスに対する比較学習(CL)の本質的寛容性を明らかにし,負のサンプルは類似のセマンティクス(エグラベル)を包含する可能性がある。 しかし、既存の説ではこの現象の説明が不足している。 We bridge this research gap by analyzing CL through the lens of distributionally robust optimization (DRO), yielding several key insights: (1) CL essentially conducts DRO over the negative sampling distribution, thus enabling robust performance across a variety of potential distributions and demonstrating robustness to sampling bias; (2) The design of the temperature $\tau$ is not merely heuristic but acts as a Lagrange Coefficient, regulating the size of the potential distribution set; (3) A theoretical connection is established between DRO and mutual information, thus presenting fresh evidence for ``InfoNCE as an estimate of MI'' and a new estimation approach for $\phi$-divergence-based generalized mutual information. また, CLの過保守性や異常値に対する感受性などの潜在的な欠点を同定し, これらの問題を緩和するための新しいAdjusted InfoNCE損失(ADNCE)を導入する。 ポテンシャル分布を洗練し、性能を改善し、収束を加速する。 様々な領域(画像、文、グラフ)における広範囲な実験が提案の有効性を検証する。 コードは \url{https://github.com/junkangwu/adnce} で入手できる。

This study reveals the inherent tolerance of contrastive learning (CL) towards sampling bias, wherein negative samples may encompass similar semantics (\eg labels). However, existing theories fall short in providing explanations for this phenomenon. We bridge this research gap by analyzing CL through the lens of distributionally robust optimization (DRO), yielding several key insights: (1) CL essentially conducts DRO over the negative sampling distribution, thus enabling robust performance across a variety of potential distributions and demonstrating robustness to sampling bias; (2) The design of the temperature $\tau$ is not merely heuristic but acts as a Lagrange Coefficient, regulating the size of the potential distribution set; (3) A theoretical connection is established between DRO and mutual information, thus presenting fresh evidence for ``InfoNCE as an estimate of MI'' and a new estimation approach for $\phi$-divergence-based generalized mutual information. We also identify CL's potential shortcomings, including over-conservatism and sensitivity to outliers, and introduce a novel Adjusted InfoNCE loss (ADNCE) to mitigate these issues. It refines potential distribution, improving performance and accelerating convergence. Extensive experiments on various domains (image, sentence, and graphs) validate the effectiveness of the proposal. The code is available at \url{https://github.com/junkangwu/ADNCE}.
翻訳日:2023-10-18 17:13:41 公開日:2023-10-17
# 構造に基づくニューラルタンジェントカーネルを用いた高速グラフ凝縮

Fast Graph Condensation with Structure-based Neural Tangent Kernel ( http://arxiv.org/abs/2310.11046v1 )

ライセンス: Link先を確認
Lin Wang, Wenqi Fan, Jiatong Li, Yao Ma, Qing Li(参考訳) インターネット技術の急速な発展は、膨大な量のグラフ構造化データを生み出している。 グラフニューラルネットワーク(GNN)は、グラフマイニングタスクに有効な手法であり、大規模グラフデータを扱う際にかなりの計算資源コストを発生させる。 大規模グラフデータセットをgnnの予測性能を犠牲にすることなく,より小さなグラフデータセットに集約するデータ中心型手法を提案する。 しかし、既存の取り組みは、計算集約的なbiレベル最適化アーキテクチャを通じてグラフ構造化データを凝縮する。 本稿では,二段階最適化の内ループにおいて,GNNを反復的に訓練する代わりに,KRRタスクとしてグラフ凝縮問題を修正することを提案する。 より具体的には、グラフ構造データのための新しいデータセット凝縮フレームワーク(GC-SNTK)を提案し、構造ベースのニューラルタンジェントカーネル(SNTK)を開発し、グラフのトポロジをキャプチャし、KRRパラダイムのカーネル関数として機能する。 総合実験により,高い予測性能を維持しつつグラフ凝縮を加速するモデルの有効性を実証した。

The rapid development of Internet technology has given rise to a vast amount of graph-structured data. Graph Neural Networks (GNNs), as an effective method for various graph mining tasks, incurs substantial computational resource costs when dealing with large-scale graph data. A data-centric manner solution is proposed to condense the large graph dataset into a smaller one without sacrificing the predictive performance of GNNs. However, existing efforts condense graph-structured data through a computational intensive bi-level optimization architecture also suffer from massive computation costs. In this paper, we propose reforming the graph condensation problem as a Kernel Ridge Regression (KRR) task instead of iteratively training GNNs in the inner loop of bi-level optimization. More specifically, We propose a novel dataset condensation framework (GC-SNTK) for graph-structured data, where a Structure-based Neural Tangent Kernel (SNTK) is developed to capture the topology of graph and serves as the kernel function in KRR paradigm. Comprehensive experiments demonstrate the effectiveness of our proposed model in accelerating graph condensation while maintaining high prediction performance.
翻訳日:2023-10-18 17:13:21 公開日:2023-10-17
# ユーザの移動にロバストな物理層におけるスプーフィング攻撃検出

Spoofing Attack Detection in the Physical Layer with Robustness to User Movement ( http://arxiv.org/abs/2310.11043v1 )

ライセンス: Link先を確認
Daniel Romero, Tien Ngoc Ha, and Peter Gerstoft(参考訳) スプーフィング攻撃において、攻撃者は正当なユーザを偽装して、後者に属するデータにアクセスまたは修正する。 物理層におけるスプーフィング検出の典型的なアプローチは、空間分散受信機によって測定された受信信号強度(rss)など、特定のチャネル特徴で変化が観測された場合に攻撃を宣言する。 しかし、例えばユーザの動きによってチャンネルが時間とともに変化するため、そのようなアプローチは現実的ではない。 本稿では,この制限を回避するために,深層ニューラルネットワークに基づく位置変化検出器の判断を組み合わせることにより,スプーフィングと動きを区別する手法を提案する。 グラフ上のコミュニティ検出に基づいて、受信したフレームのシーケンスをサブシーケンスに分割し、異なる場所からの同時送信を検出する。 このスキームは、計算や記録すら不要な数十箇所の小さな測定データセットを収集するだけなので、実際に簡単に展開できる。 このスキームは, この目的で収集した実データに基づいて評価される。

In a spoofing attack, an attacker impersonates a legitimate user to access or modify data belonging to the latter. Typical approaches for spoofing detection in the physical layer declare an attack when a change is observed in certain channel features, such as the received signal strength (RSS) measured by spatially distributed receivers. However, since channels change over time, for example due to user movement, such approaches are impractical. To sidestep this limitation, this paper proposes a scheme that combines the decisions of a position-change detector based on a deep neural network to distinguish spoofing from movement. Building upon community detection on graphs, the sequence of received frames is partitioned into subsequences to detect concurrent transmissions from distinct locations. The scheme can be easily deployed in practice since it just involves collecting a small dataset of measurements at a few tens of locations that need not even be computed or recorded. The scheme is evaluated on real data collected for this purpose.
翻訳日:2023-10-18 17:13:05 公開日:2023-10-17
# 病理画像登録のための教師なしセグメンテーションの共学習

Co-Learning Semantic-aware Unsupervised Segmentation for Pathological Image Registration ( http://arxiv.org/abs/2310.11040v1 )

ライセンス: Link先を確認
Yang Liu, Shi Gu(参考訳) 病理画像の登録は医学的応用において重要な役割を果たす。 その重要性にもかかわらず、この分野のほとんどの研究者は、主に正常な組織を正常な組織に登録することに焦点を当てている。 空間対応情報の喪失や組織の異常な歪みなど、焦点組織の負の影響はめったに考慮されない。 そこで本稿では,gir(genation, inpainting, and registration)の原則を通し,セグメンテーションとインペインティングを組み込んだ新しい病理画像登録手法であるgirenetを提案する。 集中領域のセグメンテーションとインペイントされたペアの登録を協調的に改善できるように、登録、セグメンテーション、およびインペイントモジュールを協調的に同時に訓練する。 全体として、病理画像の登録は完全に教師なしの学習フレームワークで行われる。 T1配列の磁気共鳴画像(MRI)を含む複数のデータセットの実験結果から,提案手法の有効性が示された。 以上より,病理像の登録を精度良く達成でき,画像診断の難易度においても病変を同定できることを示した。 非教師なしのアプローチは,病理画像の効率的かつ費用効率の良い登録のための有望なソリューションを提供する。 私たちのコードはhttps://github.com/brain-intelligence-lab/GIRNetで利用可能です。

The registration of pathological images plays an important role in medical applications. Despite its significance, most researchers in this field primarily focus on the registration of normal tissue into normal tissue. The negative impact of focal tissue, such as the loss of spatial correspondence information and the abnormal distortion of tissue, are rarely considered. In this paper, we propose GIRNet, a novel unsupervised approach for pathological image registration by incorporating segmentation and inpainting through the principles of Generation, Inpainting, and Registration (GIR). The registration, segmentation, and inpainting modules are trained simultaneously in a co-learning manner so that the segmentation of the focal area and the registration of inpainted pairs can improve collaboratively. Overall, the registration of pathological images is achieved in a completely unsupervised learning framework. Experimental results on multiple datasets, including Magnetic Resonance Imaging (MRI) of T1 sequences, demonstrate the efficacy of our proposed method. Our results show that our method can accurately achieve the registration of pathological images and identify lesions even in challenging imaging modalities. Our unsupervised approach offers a promising solution for the efficient and cost-effective registration of pathological images. Our code is available at https://github.com/brain-intelligence-lab/GIRNet.
翻訳日:2023-10-18 17:12:48 公開日:2023-10-17
# 実世界のラジオマップ推定:実証的検証と分析

Radio Map Estimation in the Real-World: Empirical Validation and Analysis ( http://arxiv.org/abs/2310.11036v1 )

ライセンス: Link先を確認
Raju Shrestha, Tien Ngoc Ha, Pham Q. Viet and Daniel Romero(参考訳) 無線地図は、地理的領域の各地点における受信信号強度その他の無線周波数環境の等級を定量化する。 これらのマップは、無線ネットワーク計画、スペクトル管理、通信システムの最適化など、多数のアプリケーションにおいて重要な役割を果たす。 しかし、既存の多くの無線地図推定器の実証的検証は非常に限られている。 このギャップを埋めるために、自律型無人航空機(uav)で大規模なデータ集合を収集し、これらの推定器の代表的なサブセットをこのデータで評価した。 性能・複雑さトレードオフと高速フェージングの影響を詳細に検討した。 ディープニューラルネットワーク(dnn)に基づく高度な推定器は、最も優れた性能を示すが、従来のスキームと比較してかなりの利点を提供するために、大量のトレーニングデータを必要とする。 両種類の推定器をブレンドする新しいアルゴリズムは、双方の利点を享受し、この研究の方向性をさらに探求する可能性を示唆している。

Radio maps quantify received signal strength or other magnitudes of the radio frequency environment at every point of a geographical region. These maps play a vital role in a large number of applications such as wireless network planning, spectrum management, and optimization of communication systems. However, empirical validation of the large number of existing radio map estimators is highly limited. To fill this gap, a large data set of measurements has been collected with an autonomous unmanned aerial vehicle (UAV) and a representative subset of these estimators were evaluated on this data. The performance-complexity trade-off and the impact of fast fading are extensively investigated. Although sophisticated estimators based on deep neural networks (DNNs) exhibit the best performance, they are seen to require large volumes of training data to offer a substantial advantage relative to more traditional schemes. A novel algorithm that blends both kinds of estimators is seen to enjoy the benefits of both, thereby suggesting the potential of exploring this research direction further.
翻訳日:2023-10-18 17:12:27 公開日:2023-10-17
# 歌詞-シンガーエントロピーが歌詞-歌詞の分類性能に及ぼす影響

Lyricist-Singer Entropy Affects Lyric-Lyricist Classification Performance ( http://arxiv.org/abs/2310.11035v1 )

ライセンス: Link先を確認
Mitsuki Morita and Masato Kikuchi and Tadachika Ozono(参考訳) 歌詞は音楽の重要な要素であるが,作詞家の特徴に関する音楽情報処理の研究はほとんど行われていない。 これらの特徴はレコメンデーションなどの音楽応用に有用であるため、さらなる研究が求められる。 歌詞から歌詞の特徴を表す特徴を抽出する潜在的手法を検討した。 これらの特徴は抽出前に識別する必要があるため、容易に識別できる特徴を持つ作詞家に焦点を当てた。 我々は,歌手に特有の特徴を共有する独特な歌を演奏することが望ましいと信じている。 それゆえ、作詞家たちは歌詞を書く歌手の独特な特徴を担っていると仮定した。 言い換えれば、歌詞・歌詞の分類性能や歌詞から歌詞の特徴を捉えることの容易さは、歌手の多様性に依存するかもしれない。 本研究では,作詞家・歌手のエントロピーと歌手の多様性との関係について検討した。 例えば、作詞家と歌手のエントロピーは、作詞家だけが1人の歌手のために歌詞を書く場合、最小限である。 実験では,リンガーエントロピーの観点から5つのグループに分類し,各グループにおけるリンガーの分類性能を評価した。 その結果、最も低いライリシスト・シンガーエントロピーを持つグループに対して最高のf1スコアが得られた。 以上の結果から,低濃度のライリシスト・シンガーエントロピー群におけるライリシスト分類性能に寄与する特徴のさらなる分析が,ライリシストの特徴抽出作業を改善する可能性が示唆された。

Although lyrics represent an essential component of music, few music information processing studies have been conducted on the characteristics of lyricists. Because these characteristics may be valuable for musical applications, such as recommendations, they warrant further study. We considered a potential method that extracts features representing the characteristics of lyricists from lyrics. Because these features must be identified prior to extraction, we focused on lyricists with easily identifiable features. We believe that it is desirable for singers to perform unique songs that share certain characteristics specific to the singer. Accordingly, we hypothesized that lyricists account for the unique characteristics of the singers they write lyrics for. In other words, lyric-lyricist classification performance or the ease of capturing the features of a lyricist from the lyrics may depend on the variety of singers. In this study, we observed a relationship between lyricist-singer entropy or the variety of singers associated with a single lyricist and lyric-lyricist classification performance. As an example, the lyricist-singer entropy is minimal when the lyricist writes lyrics for only one singer. In our experiments, we grouped lyricists among five groups in terms of lyricist-singer entropy and assessed the lyric-lyricist classification performance within each group. Consequently, the best F1 score was obtained for the group with the lowest lyricist-singer entropy. Our results suggest that further analyses of the features contributing to lyric-lyricist classification performance on the lowest lyricist-singer entropy group may improve the feature extraction task for lyricists.
翻訳日:2023-10-18 17:12:12 公開日:2023-10-17
# 忘れられた知識の再学習:DNNの蓄積, オーバーフィット, トレーニング不要なアンサンブルについて

Relearning Forgotten Knowledge: on Forgetting, Overfit and Training-Free Ensembles of DNNs ( http://arxiv.org/abs/2310.11094v1 )

ライセンス: Link先を確認
Uri Stern, Daphna Weinshall(参考訳) ディープニューラルネットワークにおける過剰適合の頻繁な発生は複雑である。 一方、理論はモデルが大きくなるにつれて、一般化の減少とともに、最終的には特定のトレーニングセットに特化しすぎると予測する。 対照的に、画像分類における経験的結果は、深層モデルのトレーニング時間の増加やより大きなモデルの使用が一般化をほとんど損なわないことを示している。 オーバーフィットの計測方法が制限されすぎているからでしょうか? 本稿では,検証データ上での深層モデルの忘れ度をモニタする,過剰適合度定量化のための新しいスコアを提案する。 このスコアは、一般化が全体として改善したとしても、データ空間の特定の領域が劣化していることを示している。 以上の結果から,検証精度を低下させることなくオーバーフィットが発生し,従来よりも一般的である可能性が示唆された。 この観察は、前述の紛らわしい絵を明確にするのに役立ちます。 我々は,1つのネットワークのトレーニング履歴のみに基づいて,新たなアンサンブル法を構築するために,我々の観測結果を用いて,トレーニング時間に余分なコストを伴わずに大幅な性能向上を実現する。 最新の深層モデルによる広範な経験的評価は、スクラッチからトレーニングする場合と、トランスファーラーニングでトレーニング済みのネットワークを使用する場合の両方において、複数のデータセット、ニューラルネットワークアーキテクチャ、トレーニングスキームにおける我々の方法の有用性を示している。 特に,imagenetにおける競合ネットワークの性能は,実装や利用が容易である一方で,比較対象の手法を上回っており,さらに1\%向上している。

The infrequent occurrence of overfit in deep neural networks is perplexing. On the one hand, theory predicts that as models get larger they should eventually become too specialized for a specific training set, with ensuing decrease in generalization. In contrast, empirical results in image classification indicate that increasing the training time of deep models or using bigger models almost never hurts generalization. Is it because the way we measure overfit is too limited? Here, we introduce a novel score for quantifying overfit, which monitors the forgetting rate of deep models on validation data. Presumably, this score indicates that even while generalization improves overall, there are certain regions of the data space where it deteriorates. When thus measured, we show that overfit can occur with and without a decrease in validation accuracy, and may be more common than previously appreciated. This observation may help to clarify the aforementioned confusing picture. We use our observations to construct a new ensemble method, based solely on the training history of a single network, which provides significant improvement in performance without any additional cost in training time. An extensive empirical evaluation with modern deep models shows our method's utility on multiple datasets, neural networks architectures and training schemes, both when training from scratch and when using pre-trained networks in transfer learning. Notably, our method outperforms comparable methods while being easier to implement and use, and further improves the performance of competitive networks on Imagenet by 1\%.
翻訳日:2023-10-18 17:04:27 公開日:2023-10-17
# 合成致死予測のためのマルチオミクスサンプリングに基づくグラフトランス

Multi-omics Sampling-based Graph Transformer for Synthetic Lethality Prediction ( http://arxiv.org/abs/2310.11082v1 )

ライセンス: Link先を確認
Xusheng Zhao, Hao Liu, Qiong Dai, Hao Peng, Xu Bai, Huailiang Peng(参考訳) 合成致死性(SL)予測は、2つの遺伝子の共変異が細胞死をもたらすかどうかを識別するために用いられる。 主な戦略は、SLデータ内の遺伝子ノードのエッジ分類タスクとしてSL予測を抽象化し、グラフニューラルネットワーク(GNN)を介して達成することである。 しかし、GNNはメッセージパッシング機構の制限に悩まされており、過度なスムース化や過剰なスキャッシングの問題がある。 また、大規模マルチオミクスデータ内の非sl遺伝子関係の情報を利用してsl予測を容易にすることは、非自明な課題となる。 これらの問題に対処するために、SL予測のためのマルチオミクスサンプリングベースのグラフ変換器(MSGT-SL)を提案する。 具体的には、SLデータとマルチオミクスデータの両方から局所構造パターンを取得するために、浅いマルチビューGNNを導入する。 さらに、マルチビュー情報をエンコードする遺伝子特徴を標準のセルフアテンションに入力し、長距離の依存関係を捉える。 特に、slデータからのバッチ遺伝子から始め、複数のomcs遺伝子グラフにまたがる並列ランダムウォークサンプリングを採用する。 このようなサンプリングは、自己認識を使用する前に、オミクスの遺伝子を構造認識的に効果的かつ緩やかに組み込む。 実世界のSLタスクにおけるMSGT-SLの有効性を示し、グラフトランスフォーマーとマルチオミクスデータから得られる経験的メリットを示す。

Synthetic lethality (SL) prediction is used to identify if the co-mutation of two genes results in cell death. The prevalent strategy is to abstract SL prediction as an edge classification task on gene nodes within SL data and achieve it through graph neural networks (GNNs). However, GNNs suffer from limitations in their message passing mechanisms, including over-smoothing and over-squashing issues. Moreover, harnessing the information of non-SL gene relationships within large-scale multi-omics data to facilitate SL prediction poses a non-trivial challenge. To tackle these issues, we propose a new multi-omics sampling-based graph transformer for SL prediction (MSGT-SL). Concretely, we introduce a shallow multi-view GNN to acquire local structural patterns from both SL and multi-omics data. Further, we input gene features that encode multi-view information into the standard self-attention to capture long-range dependencies. Notably, starting with batch genes from SL data, we adopt parallel random walk sampling across multiple omics gene graphs encompassing them. Such sampling effectively and modestly incorporates genes from omics in a structure-aware manner before using self-attention. We showcase the effectiveness of MSGT-SL on real-world SL tasks, demonstrating the empirical benefits gained from the graph transformer and multi-omics data.
翻訳日:2023-10-18 17:04:00 公開日:2023-10-17
# 教師付きコントラスト事前学習トランスフォーマによるソーシャルメディアの書き方理解

Understanding writing style in social media with a supervised contrastively pre-trained transformer ( http://arxiv.org/abs/2310.11081v1 )

ライセンス: Link先を確認
Javier Huertas-Tato, Alejandro Martin, David Camacho(参考訳) オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。 悪役は前例のない不正行為の自由を持ち、米国大統領選挙の議事堂襲撃や新型コロナウイルス(covid-19)パンデミックの反バスク運動など、深刻な社会不安や悲惨な結果をもたらしている。 オンライン言語を理解することは、これまで以上に迫りつつある。 既存の作品は主にコンテンツ分析に焦点を絞っているが、我々はそれぞれの著者に関連づけることで有害な行動の理解に焦点を移そうとしている。 多くの新しいアプローチが著者のスタイル的特徴をテキストで学ぼうとしているが、これらのアプローチの多くは小さなデータセットや準最適訓練損失によって制約されている。 これらの制約を克服するために,70kの異質な著者を含む4.5 x 10^6の著作物から派生した大規模コーパスをトレーニングしたStyle Transformer for Authorship Representations (STAR)を導入する。 我々のモデルはSupervised Contrastive Lossを利用して、同じ個人によって書かれたテキスト間の距離を最小化するモデルを教える。 この著者の事前学習タスクは、貢献とクラスタリングに関するPANの課題に対してゼロショットで競合するパフォーマンスをもたらす。 さらに,組込みエンコーダとして機能する単一の高密度層を用いたPAN検証の課題に対して,有望な結果が得られる。 最後に、redditのテストパーティションから結果を示します。 512トークンの8つのドキュメントのサポートベースを使用することで、少なくとも80\%の精度で、最大1616人の著者のセットから著者を識別することができる。 トレーニング済みのモデルをhanggingface(https://huggingface.co/AIDA-UPM/star)で共有し、コードはhttps://github.com/jahuerta92/starで公開しています。

Online Social Networks serve as fertile ground for harmful behavior, ranging from hate speech to the dissemination of disinformation. Malicious actors now have unprecedented freedom to misbehave, leading to severe societal unrest and dire consequences, as exemplified by events such as the Capitol assault during the US presidential election and the Antivaxx movement during the COVID-19 pandemic. Understanding online language has become more pressing than ever. While existing works predominantly focus on content analysis, we aim to shift the focus towards understanding harmful behaviors by relating content to their respective authors. Numerous novel approaches attempt to learn the stylistic features of authors in texts, but many of these approaches are constrained by small datasets or sub-optimal training losses. To overcome these limitations, we introduce the Style Transformer for Authorship Representations (STAR), trained on a large corpus derived from public sources of 4.5 x 10^6 authored texts involving 70k heterogeneous authors. Our model leverages Supervised Contrastive Loss to teach the model to minimize the distance between texts authored by the same individual. This author pretext pre-training task yields competitive performance at zero-shot with PAN challenges on attribution and clustering. Additionally, we attain promising results on PAN verification challenges using a single dense layer, with our model serving as an embedding encoder. Finally, we present results from our test partition on Reddit. Using a support base of 8 documents of 512 tokens, we can discern authors from sets of up to 1616 authors with at least 80\% accuracy. We share our pre-trained model at huggingface (https://huggingface.co/AIDA-UPM/star) and our code is available at (https://github.com/jahuerta92/star)
翻訳日:2023-10-18 17:03:36 公開日:2023-10-17
# 赤チームから学ぶ: 大きな言語モデルにおけるジェンダーバイアスの挑発と緩和

Learning from Red Teaming: Gender Bias Provocation and Mitigation in Large Language Models ( http://arxiv.org/abs/2310.11079v1 )

ライセンス: Link先を確認
Hsuan Su, Cheng-Chu Cheng, Hua Farn, Shachi H Kumar, Saurav Sahay, Shang-Tse Chen, Hung-yi Lee(参考訳) 近年,ChatGPTやGPT-4といった大規模言語モデル(LLM)の進歩に伴い,対話システムに大幅な改良が加えられている。 これらのLSMベースのチャットボットは、相互作用中に人間を傷つける可能性のある格差を維持しながら、潜在的なバイアスを符号化する。 従来の偏見調査手法は、しばしば人間によるテストケースに依存している。 しかし、これらのテストケースは通常高価で限られている。 本研究では,LSMの潜在的な性別バイアスを検出するテストケースを自動生成する手法を提案する。 提案手法を3つのよく知られたLCMに適用し, 生成したテストケースがバイアスの存在を効果的に識別できることを見出した。 同定されたバイアスに対処するため,パラメータ微調整の必要性を回避するために,テキスト内学習の実証として生成されたテストケースを利用する緩和戦略を提案する。 実験の結果, LLMは提案手法によりより公平な応答を生じさせることがわかった。

Recently, researchers have made considerable improvements in dialogue systems with the progress of large language models (LLMs) such as ChatGPT and GPT-4. These LLM-based chatbots encode the potential biases while retaining disparities that can harm humans during interactions. The traditional biases investigation methods often rely on human-written test cases. However, these test cases are usually expensive and limited. In this work, we propose a first-of-its-kind method that automatically generates test cases to detect LLMs' potential gender bias. We apply our method to three well-known LLMs and find that the generated test cases effectively identify the presence of biases. To address the biases identified, we propose a mitigation strategy that uses the generated test cases as demonstrations for in-context learning to circumvent the need for parameter fine-tuning. The experimental results show that LLMs generate fairer responses with the proposed approach.
翻訳日:2023-10-18 17:03:03 公開日:2023-10-17
# united we stand: オーバーフィットと戦うためのアンサンブルの画期的な合意

United We Stand: Using Epoch-wise Agreement of Ensembles to Combat Overfit ( http://arxiv.org/abs/2310.11077v1 )

ライセンス: Link先を確認
Uri Stern, Daniel Shwartz, Daphna Weinshall(参考訳) ディープニューラルネットワークは多くの画像分類タスクの解法となっているが、それは主に生画像上で定義された非常に複雑な関数に適合できるためである。 このような強力な学習者の欠点は、トレーニングセットを過度に適合させることの危険性であり、一般的には正規化や「早期停止」によって避けられるような一般化の欠如につながる。 本稿では,オーバーフィットに対して非常に効果的な深層ネットワークアンサンブル分類器を提案する。 まずは回帰モデルの理論的解析から始まり、その予測 - 過剰適合が発生すると分類器間のばらつきが増加する - は、一般的なディープネットワークで実証的に実証される。 これらの結果に基づいて,オーバーフィットと闘うための新たなアンサンブルベースの予測手法を構築し,トレーニング全体を通して最も合意的な予測によって予測が決定される。 複数の画像およびテキスト分類データセットにおいて、正規アンサンブルが過剰適合に苦しむ場合、過剰適合による一般化の有害な低減を排除し、早期停止によって得られる性能を超越することを示す。 本手法は実装が容易で,トレーニングセット以上の事前知識を必要とせず,任意のトレーニングスキームやアーキテクチャに統合することができる。 したがって、オーバーフィットを克服するための実用的かつ有用なツールである。

Deep neural networks have become the method of choice for solving many image classification tasks, largely because they can fit very complex functions defined over raw images. The downside of such powerful learners is the danger of overfitting the training set, leading to poor generalization, which is usually avoided by regularization and "early stopping" of the training. In this paper, we propose a new deep network ensemble classifier that is very effective against overfit. We begin with the theoretical analysis of a regression model, whose predictions - that the variance among classifiers increases when overfit occurs - is demonstrated empirically in deep networks in common use. Guided by these results, we construct a new ensemble-based prediction method designed to combat overfit, where the prediction is determined by the most consensual prediction throughout the training. On multiple image and text classification datasets, we show that when regular ensembles suffer from overfit, our method eliminates the harmful reduction in generalization due to overfit, and often even surpasses the performance obtained by early stopping. Our method is easy to implement, and can be integrated with any training scheme and architecture, without additional prior knowledge beyond the training set. Accordingly, it is a practical and useful tool to overcome overfit.
翻訳日:2023-10-18 17:02:50 公開日:2023-10-17
# 電流外乱時のAUV安定化のための適応制御パラメータの同時移行

Sim-to-Real Transfer of Adaptive Control Parameters for AUV Stabilization under Current Disturbance ( http://arxiv.org/abs/2310.11075v1 )

ライセンス: Link先を確認
Thomas Chaffre, Jonathan Wheare, Andrew Lammas, Paulo Santos, Gilles Le Chenadec, Karl Sammut, Benoit Clement(参考訳) 学習に基づく適応制御手法は、自律エージェントが人間の介入を最小限に抑えてプロセスのバリエーションの効果を減らせるという前提を持っている。 しかし、自律型水中車両(AUV)への応用は、これまで制限されてきた。 1) センサ能力の制限により適切にモデル化できない、あるいは測定できない海流の乱れによる未知の動力学 2) いくつかの動作点におけるコントローラ応答が他の動作点における仕様を満たすために過度に保守的でなければならないAUVタスクの非線形性。 Deep Reinforcement Learning(DRL)は、汎用ニューラルネットワークポリシをトレーニングすることで、これらの制限を軽減することができるが、DRLアルゴリズムのAUVへの適用は、その固有の高サンプルの複雑さと分散シフトの問題のために、シミュレーション環境に限定されている。 本稿では,最大エントロピー深層強化学習フレームワークを古典的なモデルベース制御アーキテクチャと組み合わせ,適応制御系を定式化する手法を提案する。 本フレームワークでは,バイオインスパイアされた体験再生機構,拡張されたドメインランダム化手法,物理プラットフォーム上で実行される評価プロトコルなどを含むSim-to-Real転送戦略を導入する。 実験により,AUVの準最適モデルから有能なポリシを効果的に学習し,実車への移動時の制御性能をモデルベースで非適応的かつ最適なモデルに比べて3倍に向上することを示した。

Learning-based adaptive control methods hold the premise of enabling autonomous agents to reduce the effect of process variations with minimal human intervention. However, its application to autonomous underwater vehicles (AUVs) has so far been restricted due to 1) unknown dynamics under the form of sea current disturbance that we can not model properly nor measure due to limited sensor capability and 2) the nonlinearity of AUVs tasks where the controller response at some operating points must be overly conservative in order to satisfy the specification at other operating points. Deep Reinforcement Learning (DRL) can alleviates these limitations by training general-purpose neural network policies, but applications of DRL algorithms to AUVs have been restricted to simulated environments, due to their inherent high sample complexity and distribution shift problem. This paper presents a novel approach, merging the Maximum Entropy Deep Reinforcement Learning framework with a classic model-based control architecture, to formulate an adaptive controller. Within this framework, we introduce a Sim-to-Real transfer strategy comprising the following components: a bio-inspired experience replay mechanism, an enhanced domain randomisation technique, and an evaluation protocol executed on a physical platform. Our experimental assessments demonstrate that this method effectively learns proficient policies from suboptimal simulated models of the AUV, resulting in control performance 3 times higher when transferred to a real-world vehicle, compared to its model-based nonadaptive but optimal counterpart.
翻訳日:2023-10-18 17:02:27 公開日:2023-10-17
# チェーンワイド刺激ラマンショートカット-アディバティックパスによる超低温深層分子の高効率創製と検出

Highly Efficient Creation and Detection of Ultracold Deeply-Bound Molecules via Chainwise Stimulated Raman Shortcut-to-Adiabatic Passage ( http://arxiv.org/abs/2310.11071v1 )

ライセンス: Link先を確認
Jiahui Zhang, Li Deng, Yueping Niu, Shangqing Gong(参考訳) M型分子系における連鎖的に刺激されたラマン断熱通路(C-STIRAP)は、状態間のフランク・コンドン因子の弱さにより典型的なSTIRAPが機能しない場合、超低温のディープバウンド分子を生成する良い方法である。 しかし、スムーズな進化の過程における生成効率は概して低い。 この過程の間、中間状態の個体群は急速に崩壊し、強いレーザーパルスは多光子過程を誘導する。 本稿では,C-STIRAPの性能向上に,ショートカット・トゥ・アディバティック(STA)パスが適していることを示す。 現在、連鎖的に刺激されたラマン短絡-断熱通路(C-STIRSAP)に関する関連する議論は稀である。 ここでは、このトピックを断熱的除去の下で検討する。 4つの入射パルスの関係を考えると、m型系が最も単純な共振結合を持つ効果的な {\lambda} 型構造に一般化できることは非常に興味深い。 したがって、三状態系に対するstaの可能な全ての方法が借用できる。 分子システム上での処理を実証するために, 反断熱駆動法と "chosen path" 法を例に挙げた。 本手法は, 励起状態が強い場合, 実3状態系ではうまく動作しないが, 両方式のC-STIRSAPプロトコルは, M型系では高効率で極低温の深い分子を生成できる。 強度レーザーパルスを使わずに進化時間を短縮し、STAのロバスト性は良好に保存される。 最後に,超低温深層分子の検出について論じる。

Chainwise stimulated Raman adiabatic passage (C-STIRAP) in M-type molecular system is a good alternative in creating ultracold deeply-bound molecules when the typical STIRAP in {\Lambda}-type system does not work due to weak Frank-Condon factors between states. However, its creation efficiency under the smooth evolution is generally low. During the process, the population in the intermediate states may decay out quickly and the strong laser pulses may induce multi-photon processes. In this paper, we find that shortcut-to-adiabatic (STA) passage fits very well in improving the performance of the C-STIRAP. Currently, related discussions on the so-called chainwise stimulated Raman shortcut-to-adiabatic passage (C-STIRSAP) are rare. Here, we investigate this topic under the adiabatic elimination. Given a relation among the four incident pulses, it is quite interesting that the M-type system can be generalized into an effective {\Lambda}-type structure with the simplest resonant coupling. Consequently, all possible methods of STA for three-state system can be borrowed. We take the counter-diabatic driving and "chosen path" method as instances to demonstrate our treatment on the molecular system. Although the "chosen path" method does not work well in real three-state system if there is strong decay in the excited state, our C-STIRSAP protocol under both the two methods can create ultracold deeply-bound molecules with high efficiency in the M-type system. The evolution time is shortened without strong laser pulses and the robustness of STA is well preserved. Finally, the detection of ultracold deeply-bound molecules is discussed.
翻訳日:2023-10-18 17:02:00 公開日:2023-10-17
# VoxArabica:ロバストな方言対応アラビア語音声認識システム

VoxArabica: A Robust Dialect-Aware Arabic Speech Recognition System ( http://arxiv.org/abs/2310.11069v1 )

ライセンス: Link先を確認
Abdul Waheed, Bashar Talafha, Peter Suvellin, Abdelrahman Elmadney, Muhammad Abdul-Mageed(参考訳) アラビア語は複雑な言語であり、世界中で4億5000万以上の方言が話されている。 言語的多様性とバリエーションのため、アラビア語のための堅牢で一般化されたASRシステムを構築することは困難である。 本研究では、方言識別(DID)とアラビア語の自動音声認識(ASR)のためのVoxArabicaと呼ばれるシステムを開発し、デモすることで、このギャップに対処する。 我々は、アラビアDIDおよびASRタスクの教師付き設定において、HuBERT(DID)、Whisper、XLS-R(ASR)などの広範囲のモデルを訓練する。 我々のDIDモデルは、MSAに加えて17種類の方言を識別するように訓練されている。 MSA、エジプト、モロッコ、および混合データでASRモデルを微調整します。 さらに、ASRの残りの方言に対しては、ゼロショット設定でWhisperやMMSなどの様々なモデルを選択するオプションを提供する。 私たちはこれらのモデルを単一Webインターフェースに統合し、オーディオ記録、ファイルアップロード、モデル選択、誤出力のためのフラグを掲げるオプションなど様々な機能を提供します。 全体としては、VoxArabicaはアラビア研究に関する幅広い聴衆にとって有用であると考えています。 私たちのシステムは、現在https://cdce-206-12-100-168.ngrok.io/で動作しています。

Arabic is a complex language with many varieties and dialects spoken by over 450 millions all around the world. Due to the linguistic diversity and variations, it is challenging to build a robust and generalized ASR system for Arabic. In this work, we address this gap by developing and demoing a system, dubbed VoxArabica, for dialect identification (DID) as well as automatic speech recognition (ASR) of Arabic. We train a wide range of models such as HuBERT (DID), Whisper, and XLS-R (ASR) in a supervised setting for Arabic DID and ASR tasks. Our DID models are trained to identify 17 different dialects in addition to MSA. We finetune our ASR models on MSA, Egyptian, Moroccan, and mixed data. Additionally, for the remaining dialects in ASR, we provide the option to choose various models such as Whisper and MMS in a zero-shot setting. We integrate these models into a single web interface with diverse features such as audio recording, file upload, model selection, and the option to raise flags for incorrect outputs. Overall, we believe VoxArabica will be useful for a wide range of audiences concerned with Arabic research. Our system is currently running at https://cdce-206-12-100-168.ngrok.io/.
翻訳日:2023-10-18 17:01:31 公開日:2023-10-17
# 高精度不確かさ定量化のための確率的勾配降下チープのサンプリング

Resampling Stochastic Gradient Descent Cheaply for Efficient Uncertainty Quantification ( http://arxiv.org/abs/2310.11065v1 )

ライセンス: Link先を確認
Henry Lam, Zitong Wang(参考訳) 確率勾配勾配(SGD)や確率近似はモデルトレーニングや確率最適化に広く用いられている。 収束の解析には膨大な文献があるが、SGDから得られた解に対する推論は近年研究されているばかりであるが、不確実性定量化の必要性が高まっているため重要である。 本稿では,SGDソリューションの信頼性区間を構築するために,計算的に安価に再サンプリングする2つの手法について検討する。 1つは複数のsgdをデータの代わりに再サンプリングすることで並行して使用し、もう1つはオンライン方式で運用する。 本手法は,既存のバッチ方式の複雑な混合条件を回避しつつ,再サンプリング要求の観点から計算労力を大幅に削減するために,確立されたブートストラップ方式の強化とみなすことができる。 我々は、最近の安価なブートストラップアイデアと、SGDのためのBerry-Esseen型バウンドによって実現した。

Stochastic gradient descent (SGD) or stochastic approximation has been widely used in model training and stochastic optimization. While there is a huge literature on analyzing its convergence, inference on the obtained solutions from SGD has only been recently studied, yet is important due to the growing need for uncertainty quantification. We investigate two computationally cheap resampling-based methods to construct confidence intervals for SGD solutions. One uses multiple, but few, SGDs in parallel via resampling with replacement from the data, and another operates this in an online fashion. Our methods can be regarded as enhancements of established bootstrap schemes to substantially reduce the computation effort in terms of resampling requirements, while at the same time bypassing the intricate mixing conditions in existing batching methods. We achieve these via a recent so-called cheap bootstrap idea and Berry-Esseen-type bound for SGD.
翻訳日:2023-10-18 17:01:07 公開日:2023-10-17
# 局所微分プライベートグラフ埋め込み

Locally Differentially Private Graph Embedding ( http://arxiv.org/abs/2310.11060v1 )

ライセンス: Link先を確認
Zening Li, Rong-Hua Li, Meihao Liao, Fusheng Jin, Guoren Wang(参考訳) グラフ埋め込みは、グラフ内のノードの潜在表現を学ぶための強力なツールであることが示されている。 しかしながら、さまざまなグラフベースの機械学習タスクでパフォーマンスは優れていますが、グラフ上の学習は、グラフデータが機密情報を含む場合に、大きなプライバシー上の懸念を生じさせます。 そこで本稿では,局所差分プライバシー(LDP)を満たすグラフ埋め込みアルゴリズムの開発について検討する。 ノードデータのプライバシを保護するために,新しいプライバシー保護グラフ埋め込みフレームワーク LDP-GE を提案する。 具体的には,ノードデータの難読化とパーソナライズされたページランクをノード表現学習のための近接尺度として採用するldp機構を提案する。 そこで我々は, LDP-GEフレームワークのプライバシー保証と実用性を理論的に分析した。 複数の実世界のグラフデータセット上で実施された大規模な実験は、LDP-GEが良好なプライバシーとユーティリティのトレードオフを達成し、ノード分類とリンク予測タスクの両方において既存のアプローチを著しく上回っていることを示している。

Graph embedding has been demonstrated to be a powerful tool for learning latent representations for nodes in a graph. However, despite its superior performance in various graph-based machine learning tasks, learning over graphs can raise significant privacy concerns when graph data involves sensitive information. To address this, in this paper, we investigate the problem of developing graph embedding algorithms that satisfy local differential privacy (LDP). We propose LDP-GE, a novel privacy-preserving graph embedding framework, to protect the privacy of node data. Specifically, we propose an LDP mechanism to obfuscate node data and adopt personalized PageRank as the proximity measure to learn node representations. Then, we theoretically analyze the privacy guarantees and utility of the LDP-GE framework. Extensive experiments conducted over several real-world graph datasets demonstrate that LDP-GE achieves favorable privacy-utility trade-offs and significantly outperforms existing approaches in both node classification and link prediction tasks.
翻訳日:2023-10-18 17:00:51 公開日:2023-10-17
# Tor を用いたフランスにおける小児ポルノの実態調査

Unveiling Local Patterns of Child Pornography Consumption in France using Tor ( http://arxiv.org/abs/2310.11099v1 )

ライセンス: Link先を確認
Till Koebe, Zinnya del Villar, Brahmani Nutakki, Nursulu Sagimbayeva, Ingmar Weber(参考訳) 児童ポルノは子供の搾取と被害者化の深刻な形態を表しており、被害者は感情的および身体的なトラウマを負っている。 本研究では,torネットワーク関連webサービスのきめ細かなモバイルトラフィックデータを用いて,フランスの20大都市圏における児童ポルノ消費の地域パターンを分析することを目的とする。 私たちはそれを控えめに見積もっている。 フランスで見られたtorモバイルダウンロードトラフィックの3.3 %は、児童性的虐待の教材を、現地レベルのポルノの消費パターンと関連付けることで消費している。 これは、Tor上の児童ポルノコンテンツの世界的なシェアと見積もる割合の16.9%に匹敵する。 In line with existing literature on the link between sexual child abuse and the consumption of image-based content thereof, we observe a positive and statistically significant effect of our child pornography consumption estimates on the reported number of victims of sexual violence and vice versa across 1341 French communes, which validates our findings, after controlling for a set of spatial and non-spatial features including socio-demographic characteristics, voting behaviour, nearby points of interest and Google Trends queries. これは、空間疫学的な角度から児童ポルノを探索する最初の試みであるが、この研究は公衆衛生当局に、公衆の認知キャンペーンのターゲットエリアを優先順位付けし、その領域における将来の研究の道筋を知らせる貴重な情報を提供すると信じている。

Child pornography represents a severe form of exploitation and victimization of children, leaving the victims with emotional and physical trauma. In this study, we aim to analyze local patterns of child pornography consumption in 20 metropolitan regions of France using fine-grained mobile traffic data of Tor network-related web services. We conservatively estimate that approx. 3.3 % of Tor mobile download traffic observed in France is linked to the consumption of child sexual abuse materials by correlating it with local-level temporal porn consumption patterns. This compares to 16.9 % of what we estimate to be the global share of child pornographic content on Tor. In line with existing literature on the link between sexual child abuse and the consumption of image-based content thereof, we observe a positive and statistically significant effect of our child pornography consumption estimates on the reported number of victims of sexual violence and vice versa across 1341 French communes, which validates our findings, after controlling for a set of spatial and non-spatial features including socio-demographic characteristics, voting behaviour, nearby points of interest and Google Trends queries. While this is a first, exploratory attempt to look at child pornography from a spatial epidemiological angle, we believe this research provides public health officials with valuable information to prioritize target areas for public awareness campaigns and hopefully inform future paths of research in that area.
翻訳日:2023-10-18 16:54:47 公開日:2023-10-17
# 偽情報コンバットのためのAI技術の実験:IDMOプロジェクト

Experimenting AI Technologies for Disinformation Combat: the IDMO Project ( http://arxiv.org/abs/2310.11097v1 )

ライセンス: Link先を確認
Lorenzo Canale, Alberto Messina(参考訳) イタリアのデジタルメディア天文台(IDMO)プロジェクトは、偽情報や偽ニュースに対抗することに焦点を当てている。 本報告では,プロジェクトへのrai-critsからの貢献について概説する。 (i)試験技術のための新規データセットの作成 (ii)幅広い分析を容易にするためにpagella politica verdictsを分類する自動モデルの開発 (iii)フィーバーデータセットにおける例外的正確性を伴う文章の包含認識のための自動モデルの作成 4) GPT-4 を用いたテキスト・エントリメンの識別 (v)全国のイベントで偽ニュースに対する意識を高めるゲーム。

The Italian Digital Media Observatory (IDMO) project, part of a European initiative, focuses on countering disinformation and fake news. This report outlines contributions from Rai-CRITS to the project, including: (i) the creation of novel datasets for testing technologies (ii) development of an automatic model for categorizing Pagella Politica verdicts to facilitate broader analysis (iii) creation of an automatic model for recognizing textual entailment with exceptional accuracy on the FEVER dataset (iv) assessment using GPT-4 to identify textual entailmen (v) a game to raise awareness about fake news at national events.
翻訳日:2023-10-18 16:54:24 公開日:2023-10-17
# スパースDySta:スパースマルチDNNワークロードのためのスポーサリティ対応動的および静的スケジューリング

Sparse-DySta: Sparsity-Aware Dynamic and Static Scheduling for Sparse Multi-DNN Workloads ( http://arxiv.org/abs/2310.11096v1 )

ライセンス: Link先を確認
Hongxiang Fan, Stylianos I. Venieris, Alexandros Kouris, Nicholas D. Lane(参考訳) 複数のディープニューラルネットワーク(DNN)を並列に実行することは、例えば、日々のアクティビティのために複数のタスクが単一ユーザに提供する携帯電話や、大規模言語モデルで見られるように、数百万のユーザからさまざまな要求が寄せられるデータセンタといった、エッジデバイスの両方において、新たなワークロードとなっている。 これらのワークロードのコストのかかる計算とメモリの要求を減らすために、様々な効率的なスペーシフィケーションアプローチが導入され、様々なタイプのDNNモデルにまたがって広範なスペーシリティをもたらす。 この文脈では、スパースなマルチDNNワークロードをスケジューリングする必要性が高まっている。 本稿では,複数のスパースDNNのユースケースを体系的に分析し,最適化の機会について検討する。 これらの結果に基づき、スパースマルチDNNスケジューリングに静的なスケジューラと動的スケジューラ情報の両方を利用する新しいバイレベル動的および静的スケジューラDystaを提案する。 dystaの静的コンポーネントと動的コンポーネントは共にソフトウェアとハードウェアレベルで設計されており、スケジューリングアプローチの改善と洗練が図られている。 このタイプのワークロードの研究の今後の進展を促進するために,携帯電話やar/vrウェアラブルからデータセンタに至るまで,さまざまなデプロイシナリオにまたがる分散マルチdnnワークロードを含む公開ベンチマークを構築した。 スパースマルチDNNベンチマークの総合評価により,提案手法は遅延制約違反率を最大10%削減し,平均正規化ターンアラウンド時間で約4倍に向上することを示した。 私たちのアーティファクトとコードは、https://github.com/SamsungLabs/Sparse-Multi-DNN-Schedulingで公開されています。

Running multiple deep neural networks (DNNs) in parallel has become an emerging workload in both edge devices, such as mobile phones where multiple tasks serve a single user for daily activities, and data centers, where various requests are raised from millions of users, as seen with large language models. To reduce the costly computational and memory requirements of these workloads, various efficient sparsification approaches have been introduced, resulting in widespread sparsity across different types of DNN models. In this context, there is an emerging need for scheduling sparse multi-DNN workloads, a problem that is largely unexplored in previous literature. This paper systematically analyses the use-cases of multiple sparse DNNs and investigates the opportunities for optimizations. Based on these findings, we propose Dysta, a novel bi-level dynamic and static scheduler that utilizes both static sparsity patterns and dynamic sparsity information for the sparse multi-DNN scheduling. Both static and dynamic components of Dysta are jointly designed at the software and hardware levels, respectively, to improve and refine the scheduling approach. To facilitate future progress in the study of this class of workloads, we construct a public benchmark that contains sparse multi-DNN workloads across different deployment scenarios, spanning from mobile phones and AR/VR wearables to data centers. A comprehensive evaluation on the sparse multi-DNN benchmark demonstrates that our proposed approach outperforms the state-of-the-art methods with up to 10% decrease in latency constraint violation rate and nearly 4X reduction in average normalized turnaround time. Our artifacts and code are publicly available at: https://github.com/SamsungLabs/Sparse-Multi-DNN-Scheduling.
翻訳日:2023-10-18 16:54:15 公開日:2023-10-17
# SODA: テスト時間データアダプタのロバストトレーニング

SODA: Robust Training of Test-Time Data Adaptors ( http://arxiv.org/abs/2310.11093v1 )

ライセンス: Link先を確認
Zige Wang, Yonggang Zhang, Zhen Fang, Long Lan, Wenjing Yang, Bo Han(参考訳) テストディストリビューションにデプロイされたモデルの適用は、分散シフトに起因するパフォーマンス低下を軽減することができる。 しかし、プライバシの懸念はモデルパラメータをアクセス不能にする可能性がある。 有望なアプローチのひとつは、データアダプタをトレーニングし、デプロイされたモデルに適合するテストデータを適用するために、ゼロ次最適化(zoo)を活用することだ。 それでも、ZOOでトレーニングされたデータアダプタは、データアダプタによって引き起こされるデータ機能の破損により、一般的に制限された改善をもたらす。 この問題に対処するため、テスト時間データ適応の文脈でZOOを再考する。 この問題は、テストデータに割り当てられた擬似ラベルの信頼性の低い性質のため、データ適応器の最適化に使用される勾配の信頼性が低いことに直接起因している。 そこで本研究では,データ適応性能を向上させるために,擬似ラベル・ロバストデータ適応(SODA)を提案する。 具体的には、高い信頼度を持つ予測ラベルを信頼できるラベルとして活用し、zooによるデータアダプタを最適化してラベル予測を行う。 信頼性の低いデータに対して、SODAは、データ破損を軽減するためにデータ情報を保存することをアダプタに推奨する。 実験結果から,SODAはモデルパラメータへのアクセスを必要とせずに,分散シフトが存在する場合の配置モデルの性能を大幅に向上させることができることが示された。

Adapting models deployed to test distributions can mitigate the performance degradation caused by distribution shifts. However, privacy concerns may render model parameters inaccessible. One promising approach involves utilizing zeroth-order optimization (ZOO) to train a data adaptor to adapt the test data to fit the deployed models. Nevertheless, the data adaptor trained with ZOO typically brings restricted improvements due to the potential corruption of data features caused by the data adaptor. To address this issue, we revisit ZOO in the context of test-time data adaptation. We find that the issue directly stems from the unreliable estimation of the gradients used to optimize the data adaptor, which is inherently due to the unreliable nature of the pseudo-labels assigned to the test data. Based on this observation, we propose pseudo-label-robust data adaptation (SODA) to improve the performance of data adaptation. Specifically, SODA leverages high-confidence predicted labels as reliable labels to optimize the data adaptor with ZOO for label prediction. For data with low-confidence predictions, SODA encourages the adaptor to preserve data information to mitigate data corruption. Empirical results indicate that SODA can significantly enhance the performance of deployed models in the presence of distribution shifts without requiring access to model parameters.
翻訳日:2023-10-18 16:53:44 公開日:2023-10-17
# DORec:2次元自己監督機能を利用した分解物再構成

DORec: Decomposed Object Reconstruction Utilizing 2D Self-Supervised Features ( http://arxiv.org/abs/2310.11092v1 )

ライセンス: Link先を確認
Jun Wu, Sicheng Li, Sihui Ji, Yue Wang, Rong Xiong, and Yiyi Liao(参考訳) 複雑な背景から対象のオブジェクトを分解して再構築することは難しい。 ほとんどのアプローチは手動ラベルを使ってオブジェクトインスタンスの認識を取得するが、アノテーションの手順は高価である。 最近の2d自己教師付き学習の進歩は、オブジェクト認識表現に新たな展望をもたらしたが、このようなノイズの多い2d機能をクリーンな分解に活用する方法はまだ不明である。 本稿では,神経的暗黙表現に基づく分解型オブジェクト再構成(dorec)ネットワークを提案する。 我々のキーとなるアイデアは、2次元の自己監督された特徴を2段階の粒度のマスクに転送して分解を監督することであり、その中には前景領域を示すバイナリマスクと、意味的に類似した領域を示すKクラスターマスクが含まれる。 これら2つのマスクは互いに相補的であり、堅牢な分解をもたらす。 実験結果から, 各種データセットにおける前景オブジェクトのセグメンテーションおよび再構成におけるDORecの優位性を示した。

Decomposing a target object from a complex background while reconstructing is challenging. Most approaches acquire the perception for object instances through the use of manual labels, but the annotation procedure is costly. The recent advancements in 2D self-supervised learning have brought new prospects to object-aware representation, yet it remains unclear how to leverage such noisy 2D features for clean decomposition. In this paper, we propose a Decomposed Object Reconstruction (DORec) network based on neural implicit representations. Our key idea is to transfer 2D self-supervised features into masks of two levels of granularity to supervise the decomposition, including a binary mask to indicate the foreground regions and a K-cluster mask to indicate the semantically similar regions. These two masks are complementary to each other and lead to robust decomposition. Experimental results show the superiority of DORec in segmenting and reconstructing the foreground object on various datasets.
翻訳日:2023-10-18 16:53:26 公開日:2023-10-17
# MeKB-Rec: クロスドメインレコメンデーションのための個人知識グラフ学習

MeKB-Rec: Personal Knowledge Graph Learning for Cross-Domain Recommendation ( http://arxiv.org/abs/2310.11088v1 )

ライセンス: Link先を確認
Xin Su, Yao Zhou, Zifei Shan and Qian Chen(参考訳) 現代のレコメンデーションシステムでは、新しいユーザー、すなわちコールドスタート問題に対して効果的にレコメンデーションを行うことが長年の課題である。 CDR(Cross-Domain Recommendation)はこの課題に対処するために提案されているが、現在のシステム間でのユーザの関心を表現する方法はまだ限られている。 ドメイン不変な関心表現としてPersonal Knowledge Graph(PKG)を導入し,MeKB-Recという新しいCDRパラダイムを提案する。 まず,知識ベース内のユーザとエンティティをリンクして,ユーザ関心のpkgを構築する。 次に、ドメイン横断レコメンデーションのためのMeKBの意味表現を学ぶ。 CDRの限られたトレーニングデータを効率的に活用するために、MeKB-Recは事前訓練された言語モデルを使用して、世界の知識をユーザーの興味を理解するために注入する。 既存のシステム以外には、ドメイン間のセマンティックマッピングを構築し、ドメイン内のユーザ動作の要求を破り、低リソースドメインの新規ユーザに対するゼロショットレコメンデーションを可能にする。 我々は、確立された公開CDRデータセット上でMeKB-Recを実験し、新しい定式化 % が以前のアプローチよりも強力であることを示すとともに、ターゲットドメインに振る舞いのないゼロショットユーザーのHR@10に対して105倍の改善を施した、HR@10 と NDCG@10 のメトリクスを大幅に改善する新しい最先端技術を達成する。 WeXinレコメンデーションシナリオにMeKB-Recをデプロイし、コアオンラインメトリクスの大幅な向上を実現しています。 mekb-recは現在、現実世界の製品に何億人ものユーザーを提供している。

It is a long-standing challenge in modern recommender systems to effectively make recommendations for new users, namely the cold-start problem. Cross-Domain Recommendation (CDR) has been proposed to address this challenge, but current ways to represent users' interests across systems are still severely limited. We introduce Personal Knowledge Graph (PKG) as a domain-invariant interest representation, and propose a novel CDR paradigm named MeKB-Rec. We first link users and entities in a knowledge base to construct a PKG of users' interests, named MeKB. Then we learn a semantic representation of MeKB for the cross-domain recommendation. To efficiently utilize limited training data in CDR, MeKB-Rec employs Pretrained Language Models to inject world knowledge into understanding users' interests. Beyond most existing systems, our approach builds a semantic mapping across domains which breaks the requirement for in-domain user behaviors, enabling zero-shot recommendations for new users in a low-resource domain. We experiment MeKB-Rec on well-established public CDR datasets, and demonstrate that the new formulation % is more powerful than previous approaches, achieves a new state-of-the-art that significantly improves HR@10 and NDCG@10 metrics over best previous approaches by 24\%--91\%, with a 105\% improvement for HR@10 of zero-shot users with no behavior in the target domain. We deploy MeKB-Rec in WeiXin recommendation scenarios and achieve significant gains in core online metrics. MeKB-Rec is now serving hundreds of millions of users in real-world products.
翻訳日:2023-10-18 16:53:09 公開日:2023-10-17
# feature pyramid bilstm: 移動モード検出にスマートフォンセンサを使用する

Feature Pyramid biLSTM: Using Smartphone Sensors for Transportation Mode Detection ( http://arxiv.org/abs/2310.11087v1 )

ライセンス: Link先を確認
Qinrui Tang, Hao Cheng(参考訳) スマートフォンの広範な利用は、慣性測定ユニットに広範な可用性を提供し、輸送モードの検出に有利な幅広いセンサーデータを提供する。 本研究の目的は,スマートフォンから収集したセンサデータ量の削減を効果的に探索し,日常の日常行動において正確なモード検出を実現するための,新しいエンドツーエンドアプローチを提案することである。 提案手法は,FPbiLSTM (Feature Pyramid biLSTM) と呼ばれ,センサの数を削減し,処理要求を低減し,その結果,既存のモデルよりも精度を犠牲にすることなく,より効率的なモデリングプロセスを実現する。 FPbiLSTMは、様々な輸送モードにおける時間移動パターンを捉えるために、浅い層豊かさと深い層の特徴レジリエンスの両方の利点を生かして、既存のCNN biLSTMモデルをFeature Pyramid Networkで拡張する。 2018年のSussex-Huawei Locomotion (SHL)チャレンジデータセットでは、7つのセンサーのうち3つ(加速度計、ジャイロスコープ、磁力計)から収集されたデータを使用し、95.1%の精度とF1スコアの94.7%の8つの異なる輸送モードを検出する。

The widespread utilization of smartphones has provided extensive availability to Inertial Measurement Units, providing a wide range of sensory data that can be advantageous for the detection of transportation modes. The objective of this study is to propose a novel end-to-end approach to effectively explore a reduced amount of sensory data collected from a smartphone to achieve accurate mode detection in common daily traveling activities. Our approach, called Feature Pyramid biLSTM (FPbiLSTM), is characterized by its ability to reduce the number of sensors required and processing demands, resulting in a more efficient modeling process without sacrificing the quality of the outcomes than the other current models. FPbiLSTM extends an existing CNN biLSTM model with the Feature Pyramid Network, leveraging the advantages of both shallow layer richness and deeper layer feature resilience for capturing temporal moving patterns in various transportation modes. It exhibits an excellent performance by employing the data collected from only three out of seven sensors, i.e. accelerometers, gyroscopes, and magnetometers, in the 2018 Sussex-Huawei Locomotion (SHL) challenge dataset, attaining a noteworthy accuracy of 95.1% and an F1-score of 94.7% in detecting eight different transportation modes.
翻訳日:2023-10-18 16:52:37 公開日:2023-10-17
# 事前学習言語モデルによる文脈差関係抽出

In-Context Few-Shot Relation Extraction via Pre-Trained Language Models ( http://arxiv.org/abs/2310.11085v1 )

ライセンス: Link先を確認
Yilmazcan Ozyurt, Stefan Feuerriegel, Ce Zhang(参考訳) 関係抽出は、テキスト文書から構造化された人間知識を推測することを目的としている。 言語モデルに基づく最先端のメソッドは、一般的に2つの制限がある: (1) 名前付きエンティティは入力として与えられるか推論されるか、追加のノイズをもたらすか、(2) ドキュメントの人間のアノテーションを必要とする。 本稿では,事前学習された言語モデルによる文脈内少数ショット関係抽出のための新しい枠組みを提案する。 私たちの知識を最大限に活用するために、関係抽出タスクをコンテキスト内数ショット学習パラダイムとして再構成したのは、私たちが初めてです。 これにより、名前付きエンティティ認識と文書の人的アノテーションの両方の必要性をなくすことで、重要なメリットが得られる。 微調整に基づく既存の手法とは異なり、我々のフレームワークは柔軟であり、再トレーニングなしに新しい関係に対して簡単に更新できる。 ドキュメントレベルの関係抽出のための最大の公開データセットであるdocredを用いて,我々のフレームワークを評価し,そのフレームワークが最先端のパフォーマンスを達成できることを実証する。 最後に、我々のフレームワークは、欠落したアノテーションを識別できるので、私たちのフレームワークはDocREDの開発セットのオリジナルのラベルよりもはるかに優れたパフォーマンスを示します。

Relation extraction aims at inferring structured human knowledge from textual documents. State-of-the-art methods based on language models commonly have two limitations: (1) they require named entities to be either given as input or infer them, which introduces additional noise, and (2) they require human annotations of documents. As a remedy, we present a novel framework for in-context few-shot relation extraction via pre-trained language models. To the best of our knowledge, we are the first to reformulate the relation extraction task as a tailored in-context few-shot learning paradigm. Thereby, we achieve crucial benefits in that we eliminate the need for both named entity recognition and human annotation of documents. Unlike existing methods based on fine-tuning, our framework is flexible in that it can be easily updated for a new set of relations without re-training. We evaluate our framework using DocRED, the largest publicly available dataset for document-level relation extraction, and demonstrate that our framework achieves state-of-the-art performance. Finally, our framework allows us to identify missing annotations, and we thus show that our framework actually performs much better than the original labels from the development set of DocRED.
翻訳日:2023-10-18 16:52:11 公開日:2023-10-17
# CSG:手話グラフのためのカリキュラム表現学習

CSG: Curriculum Representation Learning for Signed Graph ( http://arxiv.org/abs/2310.11083v1 )

ライセンス: Link先を確認
Zeyu Zhang, Jiamou Liu, Kaiqi Zhao, Yifei Wang, Pengqian Han, Xianda Zheng, Qiqi Wang, Zijian Zhang(参考訳) 符号付きグラフは、正および負の接続を持つ複雑な関係をモデル化するのに有用であり、符号付きグラフニューラルネットワーク(SGNN)はその解析にとって重要なツールとなっている。 しかし,本研究に先立ち,SGNNの具体的な学習計画はなく,従来のランダムサンプリング手法ではグラフ構造内の学習困難に対処できなかった。 本研究では,人間学習に触発され,サンプルが容易から複雑に進行するカリキュラムベースのトレーニング手法を提案する。 学習難度を測定するために,我々は軽量なメカニズムを導入し,CSGのためのカリキュラム表現学習フレームワークを開発した。 このフレームワークは、サンプルがSGNNモデルに提示される順序を最適化する。 6つの実世界のデータセットに対する実証検証の結果、SGNNモデルの精度を最大23.7%向上させ、AUCスコアの標準偏差を最大8.4減らして安定性を大幅に改善した。

Signed graphs are valuable for modeling complex relationships with positive and negative connections, and Signed Graph Neural Networks (SGNNs) have become crucial tools for their analysis. However, prior to our work, no specific training plan existed for SGNNs, and the conventional random sampling approach did not address varying learning difficulties within the graph's structure. We proposed a curriculum-based training approach, where samples progress from easy to complex, inspired by human learning. To measure learning difficulty, we introduced a lightweight mechanism and created the Curriculum representation learning framework for Signed Graphs (CSG). This framework optimizes the order in which samples are presented to the SGNN model. Empirical validation across six real-world datasets showed impressive results, enhancing SGNN model accuracy by up to 23.7% in link sign prediction (AUC) and significantly improving stability with an up to 8.4 reduction in the standard deviation of AUC scores.
翻訳日:2023-10-18 16:51:51 公開日:2023-10-17
# 機械学習に基づく確率的露光モデルを用いたドイツにおける新しい高分解能屋内ラドンマップ

A new high-resolution indoor radon map for Germany using a machine learning based probabilistic exposure model ( http://arxiv.org/abs/2310.11143v1 )

ライセンス: Link先を確認
Eric Petermann, Peter Bossew, Joachim Kemski, Valeria Gruber, Nils Suhr and Bernd Hoffmann(参考訳) ラドン(radon)は、屋内で蓄積できる発癌性放射性ガスである。 全国規模での屋内ラドン曝露は通常、広範囲な測定キャンペーンに基づいて推定される。 しかし, 試料の特性は, 地質学的ラドンや床面レベルなど, 関連する要因が多いため, 個体群の特徴とは異なることが多い。 さらに、試料サイズは通常、空間分解能の高い露光推定を許さない。 本研究では,空間分解能の高い屋内ラドン分布を,純粋データベースアプローチよりもリアルに推定できるモデルベースアプローチを提案する。 2段階モデリング手法を適用した。 1)ドイツ各住宅のフロアレベルごとに屋内ラドンの確率分布関数を推定するために, 環境・建物データを用いた質的回帰林を適用し, (2) 確率的モンテカルロサンプリング手法により, 床面積予測の組合せと人口重み付けが可能となった。 このように、個々の予測の不確実性は、集約されたレベルでの可変性の推定に効果的に伝播される。 その結果、算術平均は63Bq/m3、幾何学平均は41Bq/m3、95%は180Bq/m3となる。 100 bq/m3 と 300 bq/m3 の超過確率はそれぞれ 12.5 % (10.5 万人) と 2.2 % (190 万人) である。 大都市では、個々の屋内ラドン曝露が農村部よりも一般的に低いが、これは人口の床面における分布が異なるためである。 私たちのアプローチの利点は 1)メインコントロールファクターに関して調査が完全に代表的でない場合でも,正確な露出推定を行う。 2) 基本的な記述統計よりも空間分解能がはるかに高い露光分布の推定。

Radon is a carcinogenic, radioactive gas that can accumulate indoors. Indoor radon exposure at the national scale is usually estimated on the basis of extensive measurement campaigns. However, characteristics of the sample often differ from the characteristics of the population due to the large number of relevant factors such as the availability of geogenic radon or floor level. Furthermore, the sample size usually does not allow exposure estimation with high spatial resolution. We propose a model-based approach that allows a more realistic estimation of indoor radon distribution with a higher spatial resolution than a purely data-based approach. We applied a two-stage modelling approach: 1) a quantile regression forest using environmental and building data as predictors was applied to estimate the probability distribution function of indoor radon for each floor level of each residential building in Germany; (2) a probabilistic Monte Carlo sampling technique enabled the combination and population weighting of floor-level predictions. In this way, the uncertainty of the individual predictions is effectively propagated into the estimate of variability at the aggregated level. The results give an arithmetic mean of 63 Bq/m3, a geometric mean of 41 Bq/m3 and a 95 %ile of 180 Bq/m3. The exceedance probability for 100 Bq/m3 and 300 Bq/m3 are 12.5 % (10.5 million people) and 2.2 % (1.9 million people), respectively. In large cities, individual indoor radon exposure is generally lower than in rural areas, which is a due to the different distribution of the population on floor levels. The advantages of our approach are 1) an accurate exposure estimation even if the survey was not fully representative with respect to the main controlling factors, and 2) an estimate of the exposure distribution with a much higher spatial resolution than basic descriptive statistics.
翻訳日:2023-10-18 16:43:37 公開日:2023-10-17
# マイクロ波パルス条件がエナンチオマー特異的状態伝達に及ぼす影響

The influence of microwave pulse conditions on enantiomer-specific state transfer ( http://arxiv.org/abs/2310.11120v1 )

ライセンス: Link先を確認
JuHyeon Lee, Johannes Bischoff, A.O. Hernandez-Castillo, Elahe Abdiha, Boris G. Sartakov, Gerard Meijer, and Sandra Eibenberger-Arias(参考訳) マイクロ波パルス持続時間がエナンチオマー特異的状態移動に及ぼす影響に関する実験と理論の組合せについて報告する。 キラル分子(1-インダノール)内の2つの回転状態が選択され、可能なシナリオに対処する。 絶対基底状態に連結された三位子では、すべてのキラル分子に最も単純な三位子であり、エナンチオマー特異的な状態転移過程は2段階遷移の列に単純化される。 2つ目の三重項は、より高い回転状態を含む、遷移ごとに複数のラビ周波数を含むより一般的なシナリオを表す。 本研究は,最も単純な三つ組では最初に最低レベルのみを投入する場合を除き,従来の$\frac{\pi}{2}-\pi-\frac{\pi}{2}$パルス列は最適選択ではないことを示す。 その結果,第1パルスと第2パルスの短パルスを用いると,ターゲット状態の総人口を犠牲にしながらも,状態特異的なエナンチオマーの富化が著しく増加することがわかった。 実験結果は,エナンチオマー特異的状態転移の定量的理解を裏付ける理論と非常によく一致している。

We report a combined experimental and theoretical study on the influence of microwave pulse durations on enantiomer-specific state transfer. Two triads of rotational states within a chiral molecule (1-indanol) are selected to address the possible scenarios. In the triad connected to the absolute ground state, the simplest triad that exists for all chiral molecules, the enantiomer-specific state transfer process simplifies into a sequence of two-level transitions. The second triad, including higher rotational states, represents a more generic scenario that involves multiple Rabi frequencies for each transition. Our study reveals that the conventional $\frac{\pi}{2}-\pi-\frac{\pi}{2}$ pulse sequence is not the optimal choice, except for the ideal case when in the simplest triad only the lowest level is initially populated. We find that employing a shorter duration for the first and last pulse of the sequence leads to significantly higher state-specific enantiomeric enrichment, albeit at the expense of overall population in the target state. Our experimental results are in very good agreement with theory, substantiating the quantitative understanding of enantiomer-specific state transfer.
翻訳日:2023-10-18 16:43:10 公開日:2023-10-17
# USDC: Visual Transformer用の統一静的および動的圧縮

USDC: Unified Static and Dynamic Compression for Visual Transformer ( http://arxiv.org/abs/2310.11117v1 )

ライセンス: Link先を確認
Huan Yuan, Chao Liao, Jianchao Tan, Peng Yao, Jiyuan Jia, Bin Chen, Chengru Song, Di Zhang(参考訳) 視覚トランスフォーマーは、分類、検出など、ほぼすべての視覚タスクで大きな成功を収めています。 しかし、視覚変換器のモデル複雑さと推論速度は、産業製品への展開を妨げる。 様々なモデル圧縮技術は、モデル性能を維持しながら、視覚変換器を直接圧縮することに焦点を当てるが、圧縮比が大きいと性能が劇的に低下する。 さらに、複数の動的ネットワーク技術を用いて動的に圧縮し、推論期間中に入力適応効率のよいサブ構造を得ることができ、圧縮比とモデル性能のトレードオフをより良く得ることができる。 動的モデルのメモリの上限は、元のビジュアルトランスフォーマーモデル全体と追加のコントロールゲーティングモジュールを一緒にデバイスにロードして推論する必要があるため、実際のデプロイメントでは減少しない。 本研究では,2種類の手法の2つの欠点を解消するために,静的圧縮と動的圧縮を一体化して入力適応圧縮モデルを得る手法を提案する。 さらに、実際のデプロイメントでは、トレーニングステージと推論ステージのバッチサイズは通常異なり、モデル推論のパフォーマンスは、以前のすべての動的ネットワーク論文では触れられていないモデルトレーニングパフォーマンスよりも悪化する。 この性能低下問題を解決するために,サブグループゲート拡張手法を提案する。 DeiTやT2T-ViTなどの様々なベースライン視覚変換器において,本手法の優位性を示す実験を行った。

Visual Transformers have achieved great success in almost all vision tasks, such as classification, detection, and so on. However, the model complexity and the inference speed of the visual transformers hinder their deployments in industrial products. Various model compression techniques focus on directly compressing the visual transformers into a smaller one while maintaining the model performance, however, the performance drops dramatically when the compression ratio is large. Furthermore, several dynamic network techniques have also been applied to dynamically compress the visual transformers to obtain input-adaptive efficient sub-structures during the inference stage, which can achieve a better trade-off between the compression ratio and the model performance. The upper bound of memory of dynamic models is not reduced in the practical deployment since the whole original visual transformer model and the additional control gating modules should be loaded onto devices together for inference. To alleviate two disadvantages of two categories of methods, we propose to unify the static compression and dynamic compression techniques jointly to obtain an input-adaptive compressed model, which can further better balance the total compression ratios and the model performances. Moreover, in practical deployment, the batch sizes of the training and inference stage are usually different, which will cause the model inference performance to be worse than the model training performance, which is not touched by all previous dynamic network papers. We propose a sub-group gates augmentation technique to solve this performance drop problem. Extensive experiments demonstrate the superiority of our method on various baseline visual transformers such as DeiT, T2T-ViT, and so on.
翻訳日:2023-10-18 16:42:49 公開日:2023-10-17
# クロスプラットフォームソーシャルダイナミクス:ChatGPTとCOVID-19ワクチンの会話の分析

Cross-Platform Social Dynamics: An Analysis of ChatGPT and COVID-19 Vaccine Conversations ( http://arxiv.org/abs/2310.11116v1 )

ライセンス: Link先を確認
Shayan Alipour, Alessandro Galeazzi, Emanuele Sangiorgio, Michele Avalle, Ljubisa Bojic, Matteo Cinelli, Walter Quattrociocchi(参考訳) 近年,情報伝達とアジェンダ設定におけるソーシャルメディアの役割が大幅に拡大している。 リアルタイムの対話を提供することによって、オンラインプラットフォームは、重要な出来事に対する社会的反応を研究するための貴重なツールになっている。 しかし,外部開発に対するオンライン反応は,イベントの性質やオンライン環境など,さまざまな要因の影響を受けている。 本研究は,デジタルプラットフォーム上での公開談話のダイナミクスを考察し,この問題を明らかにした。 2022年のChatGPTのリリースと2021年のCOVID-19ワクチンに関する世界的な議論の2つの重要な出来事に関する1200万件以上の投稿とニュース記事を分析した。 データはTwitter、Facebook、Instagram、Reddit、YouTube、GDELTなど、複数のプラットフォームから収集された。 トピックモデリング手法を用いて,各プラットフォームにおける個別のテーマ的流行を解明し,それぞれの特徴と対象オーディエンスを反映させた。 さらに、感情分析により、研究対象に関する様々な公的な認識が明らかになった。 最後に、プラットフォーム間のエンゲージメントの進化を比較し、同じトピックに対するユニークなパターンを公開しました。 特筆すべきは、新型コロナウイルスワクチンに関する議論は、新型コロナウイルスの感染拡大により急速に広がり、chatgptに関する議論はその技術的重要性にもかかわらず、徐々に伝播していったことである。

The role of social media in information dissemination and agenda-setting has significantly expanded in recent years. By offering real-time interactions, online platforms have become invaluable tools for studying societal responses to significant events as they unfold. However, online reactions to external developments are influenced by various factors, including the nature of the event and the online environment. This study examines the dynamics of public discourse on digital platforms to shed light on this issue. We analyzed over 12 million posts and news articles related to two significant events: the release of ChatGPT in 2022 and the global discussions about COVID-19 vaccines in 2021. Data was collected from multiple platforms, including Twitter, Facebook, Instagram, Reddit, YouTube, and GDELT. We employed topic modeling techniques to uncover the distinct thematic emphases on each platform, which reflect their specific features and target audiences. Additionally, sentiment analysis revealed various public perceptions regarding the topics studied. Lastly, we compared the evolution of engagement across platforms, unveiling unique patterns for the same topic. Notably, discussions about COVID-19 vaccines spread more rapidly due to the immediacy of the subject, while discussions about ChatGPT, despite its technological importance, propagated more gradually.
翻訳日:2023-10-18 16:42:26 公開日:2023-10-17
# 深層学習保存組織構造による病理組織学的凍結切片の超解像

Super resolution of histopathological frozen sections via deep learning preserving tissue structure ( http://arxiv.org/abs/2310.11112v1 )

ライセンス: Link先を確認
Elad Yoshai, Gil Goldinger, Miki Haifler, and Natan T. Shaked(参考訳) 病理は医療診断において重要な役割を担っている。 病理組織学的に永久的な切片を調製するのとは対照的に, 凍結切片の調製は有意に高速であり, 検体走査時間を最適化した手術中に行うことができる。 超高分解能技術により、試料を低倍率で走査時間で撮像することができる。 本稿では, 重要な診断情報を損なう可能性のあるフォトリアリスティックな画像の追求よりも, より優れた歪み測定の達成に焦点をあてた, 病理組織学的凍結切片の超解像に対する新しいアプローチを提案する。 当社のディープラーニングアーキテクチャでは,補間画像と実画像の誤差を学習することで,重要な画像詳細を維持しながら高解像度画像を生成し,診断ミス解釈のリスクを低減する。 これは周波数領域における損失関数を利用して、複雑な高周波成分の再構成により高い重みを割り当てる。 従来の方法と比較して, 構造類似度指数 (SSIM) とピーク信号-雑音比 (PSNR) の面では有意な改善がみられた。 提案手法は, 画像試料の高分解能を保ちながら, より高速な凍結断面積撮影を実現する大きな可能性を秘めている。

Histopathology plays a pivotal role in medical diagnostics. In contrast to preparing permanent sections for histopathology, a time-consuming process, preparing frozen sections is significantly faster and can be performed during surgery, where the sample scanning time should be optimized. Super-resolution techniques allow imaging the sample in lower magnification and sparing scanning time. In this paper, we present a new approach to super resolution for histopathological frozen sections, with focus on achieving better distortion measures, rather than pursuing photorealistic images that may compromise critical diagnostic information. Our deep-learning architecture focuses on learning the error between interpolated images and real images, thereby it generates high-resolution images while preserving critical image details, reducing the risk of diagnostic misinterpretation. This is done by leveraging the loss functions in the frequency domain, assigning higher weights to the reconstruction of complex, high-frequency components. In comparison to existing methods, we obtained significant improvements in terms of Structural Similarity Index (SSIM) and Peak Signal-to-Noise Ratio (PSNR), as well as indicated details that lost in the low-resolution frozen-section images, affecting the pathologist's clinical decisions. Our approach has a great potential in providing more-rapid frozen-section imaging, with less scanning, while preserving the high resolution in the imaged sample.
翻訳日:2023-10-18 16:42:06 公開日:2023-10-17
# 最小インフォームド線形判別分析:非競合データを用いたLDAモデルの訓練

Minimally Informed Linear Discriminant Analysis: training an LDA model with unlabelled data ( http://arxiv.org/abs/2310.11110v1 )

ライセンス: Link先を確認
Nicolas Heintz, Tom Francart, Alexander Bertrand(参考訳) 線形判別分析(LDA)は、教師付き分類問題の最も古く最も一般的な線形手法の1つである。 本稿では,最小限の事前情報が利用可能であれば,ラベルのないデータに基づいてLDAモデルからの正確な投影ベクトルを計算できることを実証する。 より正確には、(1)2つのクラスのうちの1つのクラス平均、(2)2つのクラス平均の差(スケーリングまで)、(3)クラス共分散行列(スケーリングまで)である。 これらの理論的結果は数値実験で検証され、この最小情報に基づく線形判別分析(MILDA)モデルが教師付きLDAモデルの性能と密接に一致していることが示されている。 さらに、MILDA投影ベクトルはLDAに匹敵する計算コストで閉じた形で計算でき、非定常データに迅速に適応できることを示し、適応型分類器としての使用に適していることを示す。

Linear Discriminant Analysis (LDA) is one of the oldest and most popular linear methods for supervised classification problems. In this paper, we demonstrate that it is possible to compute the exact projection vector from LDA models based on unlabelled data, if some minimal prior information is available. More precisely, we show that only one of the following three pieces of information is actually sufficient to compute the LDA projection vector if only unlabelled data are available: (1) the class average of one of the two classes, (2) the difference between both class averages (up to a scaling), or (3) the class covariance matrices (up to a scaling). These theoretical results are validated in numerical experiments, demonstrating that this minimally informed Linear Discriminant Analysis (MILDA) model closely matches the performance of a supervised LDA model. Furthermore, we show that the MILDA projection vector can be computed in a closed form with a computational cost comparable to LDA and is able to quickly adapt to non-stationary data, making it well-suited to use as an adaptive classifier.
翻訳日:2023-10-18 16:41:40 公開日:2023-10-17
# 2次元写真における歯のアライメントのための3次元構造誘導ネットワーク

3D Structure-guided Network for Tooth Alignment in 2D Photograph ( http://arxiv.org/abs/2310.11106v1 )

ライセンス: Link先を確認
Yulong Dou, Lanzhuju Mei, Dinggang Shen, Zhiming Cui(参考訳) 矯正学は不整列歯(すなわち咬合)の矯正に焦点をあて、顎機能と審美性の両方に影響を及ぼす。 しかし、矯正治療にはしばしば複雑で長い処置が必要となる。 そのため, 矯正治療に先立って歯列が整列した2次元写真を作成することは, 効果的な歯科医療コミュニケーション, より重要なのは, 患者に矯正介入を奨励するために重要である。 本稿では,2d画像の入力(スマートフォンで撮影した写真など)として,2d画像空間内の歯を整列させ,審美的に整列した歯を特徴とする矯正比較写真を生成する3d構造誘導歯列ネットワークを提案する。 このプロセスは2次元画像空間内で動作するが,本手法では歯科矯正治療について学ぶために,クリニックで収集した3次元口腔内スキャンモデルを用いて,歯科補綴前および歯列後3次元構造を2次元歯列に投影し,その後に拡散モデルを用いてマッピング関係を学習する。 最終的に、アライメントされた歯輪郭は、審美的に心地よい歯列とリアルなテクスチャで2d写真の生成を導くために活用される。 各種顔写真におけるネットワークの評価を行い, 歯科矯正産業における優れた性能と高い適用性を示した。

Orthodontics focuses on rectifying misaligned teeth (i.e., malocclusions), affecting both masticatory function and aesthetics. However, orthodontic treatment often involves complex, lengthy procedures. As such, generating a 2D photograph depicting aligned teeth prior to orthodontic treatment is crucial for effective dentist-patient communication and, more importantly, for encouraging patients to accept orthodontic intervention. In this paper, we propose a 3D structure-guided tooth alignment network that takes 2D photographs as input (e.g., photos captured by smartphones) and aligns the teeth within the 2D image space to generate an orthodontic comparison photograph featuring aesthetically pleasing, aligned teeth. Notably, while the process operates within a 2D image space, our method employs 3D intra-oral scanning models collected in clinics to learn about orthodontic treatment, i.e., projecting the pre- and post-orthodontic 3D tooth structures onto 2D tooth contours, followed by a diffusion model to learn the mapping relationship. Ultimately, the aligned tooth contours are leveraged to guide the generation of a 2D photograph with aesthetically pleasing, aligned teeth and realistic textures. We evaluate our network on various facial photographs, demonstrating its exceptional performance and strong applicability within the orthodontic industry.
翻訳日:2023-10-18 16:41:21 公開日:2023-10-17
# 顔形態提示攻撃のためのCNNアーキテクチャの一般化可能性

Generalizability of CNN Architectures for Face Morph Presentation Attack ( http://arxiv.org/abs/2310.11105v1 )

ライセンス: Link先を確認
Sherko R. HmaSalah and Aras Asaad(参考訳) 自動境界制御システムは世界中の近代空港に広く普及している。 顔バイオメトリックスへのモーフィング攻撃は、空港や国境管理に配備された顔認識システムのセキュリティと信頼性を損なう深刻な脅威である。 したがって、特にセキュリティ担当者が機械よりも形態を検出できないことが示されているため、国境を越える犯罪者を偽の識別で阻止するために、堅牢な機械学習(ML)システムの開発が必要である。 本研究では,畳み込みニューラルネットワーク(CNN)アーキテクチャのモーフィング攻撃に対する一般化力について検討する。 この調査では、ShuffleNet、DenseNet201、VGG16、EffecientNet-B0、InceptionResNet-v2という5つのCNNを利用している。 各CNNアーキテクチャは、様々なコンピュータビジョンアプリケーションにまたがるパラメータ数、アーキテクチャ設計、性能の点で、よく知られたCNNモデルのファミリーを表す。 堅牢な評価を確保するために、民族、性別、年齢、照明条件、カメラ設定のバリエーションをカバーするさまざまなデジタル顔画像を含む4つの異なるデータセット(Utrecht、London、Defacto、KurdFace)を使用します。 mlシステム設計の基本的な概念の1つは、それまで見つからなかったデータに効果的に一般化できることであり、個々のデータセットにおけるcnnモデルのパフォーマンスを評価するだけでなく、複合データセットのパフォーマンスを探求し、各データセットをテストフェーズのみに調査する。 4つのデータセットから8千以上の画像(genuineとmorph)に対する実験的結果から、inceptionresnet-v2はデータを認識せず、他の4つのcnnモデルよりも優れています。

Automatic border control systems are wide spread in modern airports worldwide. Morphing attacks on face biometrics is a serious threat that undermines the security and reliability of face recognition systems deployed in airports and border controls. Therefore, developing a robust Machine Learning (ML) system is necessary to prevent criminals crossing borders with fake identifications especially since it has been shown that security officers cannot detect morphs better than machines. In this study, we investigate the generalization power of Convolutional Neural Network (CNN) architectures against morphing attacks. The investigation utilizes 5 distinct CNNs namely ShuffleNet, DenseNet201, VGG16, EffecientNet-B0 and InceptionResNet-v2. Each CNN architecture represents a well-known family of CNN models in terms of number of parameters, architectural design and performance across various computer vision applications. To ensure robust evaluation, we employ 4 different datasets (Utrecht, London, Defacto and KurdFace) that contain a diverse range of digital face images which cover variations in ethnicity, gender, age, lighting condition and camera setting. One of the fundamental concepts of ML system design is the ability to generalize effectively to previously unseen data, hence not only we evaluate the performance of CNN models within individual datasets but also explore their performance across combined datasets and investigating each dataset in testing phase only. Experimental results on more than 8 thousand images (genuine and morph) from the 4 datasets show that InceptionResNet-v2 generalizes better to unseen data and outperforms the other 4 CNN models.
翻訳日:2023-10-18 16:40:58 公開日:2023-10-17
# ReLU-FNNの局所リプシッツ定数計算:精度検証による上界計算

Local Lipschitz Constant Computation of ReLU-FNNs: Upper Bound Computation with Exactness Verification ( http://arxiv.org/abs/2310.11104v1 )

ライセンス: Link先を確認
Yoshio Ebihara and Xin Dai and Victor Magron and Dimitri Peaucelle and Sophie Tarbouriech(参考訳) 本稿では, フィードフォワードニューラルネットワーク(FNN)の局所リプシッツ定数の補正線形単位(ReLU)の活性化関数を用いた計算について述べる。 目標入力に対するFNNの局所リプシッツ定数は、その信頼性を定量的に評価するための妥当な尺度である。 ReLUの挙動を捉える乗算器を用いた標準的な手順に従うことにより、まず局所リプシッツ定数の上界計算問題を半定値プログラミング問題(SDP)に還元する。 本稿では,ReLUの挙動を正確に捉えるための共正乗算器を提案する。 次に、上界計算のためのsdpの双対を考えることにより、計算された上界の厳密性を結論付けるための実行可能なテストの導出を行う。 しかし、これらのSDPは数百のReLUを持つ実用的なFNNにとって難易度が高い。 この問題に対処するため,我々は,対象入力の近傍において,入力出力特性が元のfnnと同一である縮小順序モデルを構築する手法を提案する。 実用FNNの数値例を用いて,モデルの縮小と精度検証手法の有効性を論じる。

This paper is concerned with the computation of the local Lipschitz constant of feedforward neural networks (FNNs) with activation functions being rectified linear units (ReLUs). The local Lipschitz constant of an FNN for a target input is a reasonable measure for its quantitative evaluation of the reliability. By following a standard procedure using multipliers that capture the behavior of ReLUs,we first reduce the upper bound computation problem of the local Lipschitz constant into a semidefinite programming problem (SDP). Here we newly introduce copositive multipliers to capture the ReLU behavior accurately. Then, by considering the dual of the SDP for the upper bound computation, we second derive a viable test to conclude the exactness of the computed upper bound. However, these SDPs are intractable for practical FNNs with hundreds of ReLUs. To address this issue, we further propose a method to construct a reduced order model whose input-output property is identical to the original FNN over a neighborhood of the target input. We finally illustrate the effectiveness of the model reduction and exactness verification methods with numerical examples of practical FNNs.
翻訳日:2023-10-18 16:40:32 公開日:2023-10-17
# hgcvae:ヘテロジニアスグラフ学習のための生成的および対比的学習の統合

HGCVAE: Integrating Generative and Contrastive Learning for Heterogeneous Graph Learning ( http://arxiv.org/abs/2310.11102v1 )

ライセンス: Link先を確認
Yulan Hu, Zhirui Yang, Sheng Ouyang, Yong Liu(参考訳) 生成的自己教師型学習(SSL)は大きな可能性を示し、グラフ学習への関心が高まっている。 本研究では,ヘテロジニアスグラフ学習(HGL)におけるSSL生成問題について検討する。 ヘテロジニアスグラフに対する以前のSSLアプローチは主にコントラスト学習に依存しており、ヘテロジニアスを捉えるために複雑なビューの設計を必要とする。 しかし、既存の生成SSLメソッドは、HGLの課題に対処するために生成モデルの能力を十分に活用していない。 本稿では,hglを複雑な異種捕獲の負担から解放する,新しいコントラスト変動グラフ自動エンコーダであるhgcvaeを提案する。 複雑な異種性に焦点を当てる代わりに、HGCVAEは生成性SSLの可能性を最大限活用する。 HGCVAEは、対照的な学習と生成的SSLを革新的に統合し、いくつかの重要なイノベーションを導入している。 まず, 差分推論の力を利用して, 比較学習のための高品質な硬質負のサンプルを生成するための進行的メカニズムを用いる。 さらに,効果的かつ安定した学習を実現するための動的マスク戦略を提案する。 さらに,より優れた属性再構成のための基準として,拡張スケールのコサイン誤りを提案する。 HGCVAEは、生成的かつコントラスト的なSSLを組み合わせる最初のステップとして、様々な最先端のベースラインと比較して顕著な結果をもたらし、その優位性を確認する。

Generative self-supervised learning (SSL) has exhibited significant potential and garnered increasing interest in graph learning. In this study, we aim to explore the problem of generative SSL in the context of heterogeneous graph learning (HGL). The previous SSL approaches for heterogeneous graphs have primarily relied on contrastive learning, necessitating the design of complex views to capture heterogeneity. However, existing generative SSL methods have not fully leveraged the capabilities of generative models to address the challenges of HGL. In this paper, we present HGCVAE, a novel contrastive variational graph auto-encoder that liberates HGL from the burden of intricate heterogeneity capturing. Instead of focusing on complicated heterogeneity, HGCVAE harnesses the full potential of generative SSL. HGCVAE innovatively consolidates contrastive learning with generative SSL, introducing several key innovations. Firstly, we employ a progressive mechanism to generate high-quality hard negative samples for contrastive learning, utilizing the power of variational inference. Additionally, we present a dynamic mask strategy to ensure effective and stable learning. Moreover, we propose an enhanced scaled cosine error as the criterion for better attribute reconstruction. As an initial step in combining generative and contrastive SSL, HGCVAE achieves remarkable results compared to various state-of-the-art baselines, confirming its superiority.
翻訳日:2023-10-18 16:40:15 公開日:2023-10-17
# ニューラルネットワーク強化流体流計測による壁面応力ダイナミクスの解明

Uncovering wall-shear stress dynamics from neural-network enhanced fluid flow measurements ( http://arxiv.org/abs/2310.11147v1 )

ライセンス: Link先を確認
Esther Lagemann, Steven L. Brunton and Christian Lagemann(参考訳) 物体の通過や内部を移動する乱流からの摩擦抵抗は、輸送、公共事業インフラ、エネルギー技術、健康といった分野において重要な役割を担っている。 せん断によって引き起こされる摩擦力の直接の尺度として、壁面応力の正確な予測は、民間航空の持続性、資源の保存、炭素の中立性、および血管疾患や癌に対する治療の強化に寄与する。 現代社会にとってこのような重要性はありますが、壁面のストレスダイナミクスを捉えるための十分な実験方法がまだ欠如しています。 本稿では,物理知識を持つ深部光流量推定器を用いた流れ計測から,空間的および時間的分解能に印象的な速度場と壁面応力場を導出する総合的手法を提案する。 導出した流動量の妥当性と物理的正当性は, 関連する流体を包含する合成および実世界の実験データを用いて実証した。

Friction drag from a turbulent fluid moving past or inside an object plays a crucial role in domains as diverse as transportation, public utility infrastructure, energy technology, and human health. As a direct measure of the shear-induced friction forces, an accurate prediction of the wall-shear stress can contribute to sustainability, conservation of resources, and carbon neutrality in civil aviation as well as enhanced medical treatment of vascular diseases and cancer. Despite such importance for our modern society, we still lack adequate experimental methods to capture the instantaneous wall-shear stress dynamics. In this contribution, we present a holistic approach that derives velocity and wall-shear stress fields with impressive spatial and temporal resolution from flow measurements using a deep optical flow estimator with physical knowledge. The validity and physical correctness of the derived flow quantities is demonstrated with synthetic and real-world experimental data covering a range of relevant fluid flows.
翻訳日:2023-10-18 16:32:58 公開日:2023-10-17
# 言語と大規模言語モデルの関係の定性

The Quo Vadis of the Relationship between Language and Large Language Models ( http://arxiv.org/abs/2310.11146v1 )

ライセンス: Link先を確認
Evelina Leivada, Vittoria Dentella, Elliot Murphy(参考訳) 人工知能(AI)の分野では,Large Language Models (LLMs) を利用した自然言語処理(NLP)のいくつかの進歩が,言語科学モデルとしてのLLMの採用を奨励している。 LLMのキャラクタリゼーションに使用される用語は、彼らの受け入れを好んでいるが、彼らが表現しようとしているターゲットシステムについての洞察を提供する場所であるかどうかは不明だ。 透明性を欠いた科学的モデルの採用によってもたらされる最も重要な理論的・実証的リスクを特定し、各科学モデルの基本的な構成要素である対象、媒体、意味、ユーザに関連するllmについて論じる。 我々は,その開発段階において,LLMは言語の説明をほとんど提供せず,その上で,この話題に関するより情報に富む研究方向の展望を提示する。

In the field of Artificial (General) Intelligence (AI), the several recent advancements in Natural language processing (NLP) activities relying on Large Language Models (LLMs) have come to encourage the adoption of LLMs as scientific models of language. While the terminology employed for the characterization of LLMs favors their embracing as such, it is not clear that they are in a place to offer insights into the target system they seek to represent. After identifying the most important theoretical and empirical risks brought about by the adoption of scientific models that lack transparency, we discuss LLMs relating them to every scientific model's fundamental components: the object, the medium, the meaning and the user. We conclude that, at their current stage of development, LLMs hardly offer any explanations for language, and then we provide an outlook for more informative future research directions on this topic.
翻訳日:2023-10-18 16:32:34 公開日:2023-10-17
# bayesdiff:ベイズ推論による拡散の画素方向の不確かさの推定

BayesDiff: Estimating Pixel-wise Uncertainty in Diffusion via Bayesian Inference ( http://arxiv.org/abs/2310.11142v1 )

ライセンス: Link先を確認
Siqi Kou, Lei Gan, Dequan Wang, Chongxuan Li, Zhijie Deng(参考訳) 拡散モデルは印象的な画像生成能力を持つが、低品質な世代はいまだに存在し、適切なサンプル単位の計量が欠如しているため、その同定は依然として困難である。 これを解決するために,ベイズ推定に基づく拡散モデルから世代別不確実性推定器であるベイズディフを提案する。 特に,拡散の不確かさのダイナミクスを特徴付けるための新しい不確かさ反復原理を導出し,ラプラス近似を用いてベイズ推定を効率的に行う。 推定画素単位の不確実性は、低忠実度画像をフィルタリングするサンプルワイドメトリックに集約できるだけでなく、成功した世代を増大させ、テキスト・ツー・イメージタスクの失敗世代におけるアーティファクトの修正に役立つ。 大規模な実験はベイズディフの有効性と実用化への期待を示す。

Diffusion models have impressive image generation capability, but low-quality generations still exist, and their identification remains challenging due to the lack of a proper sample-wise metric. To address this, we propose BayesDiff, a pixel-wise uncertainty estimator for generations from diffusion models based on Bayesian inference. In particular, we derive a novel uncertainty iteration principle to characterize the uncertainty dynamics in diffusion, and leverage the last-layer Laplace approximation for efficient Bayesian inference. The estimated pixel-wise uncertainty can not only be aggregated into a sample-wise metric to filter out low-fidelity images but also aids in augmenting successful generations and rectifying artifacts in failed generations in text-to-image tasks. Extensive experiments demonstrate the efficacy of BayesDiff and its promise for practical applications.
翻訳日:2023-10-18 16:32:16 公開日:2023-10-17
# 長文同時音声翻訳:論文提案

Long-form Simultaneous Speech Translation: Thesis Proposal ( http://arxiv.org/abs/2310.11141v1 )

ライセンス: Link先を確認
Peter Pol\'ak(参考訳) 同時音声翻訳 (SST) は, 話者が文を終了する前であっても, 発話言語をリアルタイムに翻訳することを目的としている。 伝統的に、SSTは主に、タスクを音声認識、セグメンテーション、機械翻訳を含むサブタスクに分解するカスケードシステムによって対処されてきた。 しかし、ディープラーニングの出現はエンド・ツー・エンド(E2E)システムに大きな関心を呼んだ。 しかしながら、現在の文献で報告されているE2E SSTに対するほとんどのアプローチの最大の制限は、原文が文に事前分割されていると仮定していることである。 この論文の提案は、特に長文設定において、特に事前分割なしで、エンドツーエンドの同時音声翻訳に対処する。 本稿では、E2E SSTの最近の進歩について調査を行い、SSTの主な障害とその長期シナリオとの関連性を評価し、これらの課題に取り組むためのアプローチを提案する。

Simultaneous speech translation (SST) aims to provide real-time translation of spoken language, even before the speaker finishes their sentence. Traditionally, SST has been addressed primarily by cascaded systems that decompose the task into subtasks, including speech recognition, segmentation, and machine translation. However, the advent of deep learning has sparked significant interest in end-to-end (E2E) systems. Nevertheless, a major limitation of most approaches to E2E SST reported in the current literature is that they assume that the source speech is pre-segmented into sentences, which is a significant obstacle for practical, real-world applications. This thesis proposal addresses end-to-end simultaneous speech translation, particularly in the long-form setting, i.e., without pre-segmentation. We present a survey of the latest advancements in E2E SST, assess the primary obstacles in SST and its relevance to long-form scenarios, and suggest approaches to tackle these challenges.
翻訳日:2023-10-18 16:31:59 公開日:2023-10-17
# 各種軌道の維持--連続制御におけるアンサンブル政策の推進

Keep Various Trajectories: Promoting Exploration of Ensemble Policies in Continuous Control ( http://arxiv.org/abs/2310.11138v1 )

ライセンス: Link先を確認
Chao Li, Chen Gong, Qiang He, Xinwen Hou(参考訳) 深部強化学習(DRL)とアンサンブル法の組み合わせは複雑な逐次決定問題に対処するのに非常に有効であることが証明されている。 この成功は主に、ポリシーの堅牢性と値関数推定の精度の両方を高める複数のモデルの利用に起因する。 しかし、現在のアンサンブルrl法の実証的成功については、これまでのところ限定的な分析がなされている。 我々の新しい分析によると、従来のアンサンブルDRLアルゴリズムのサンプル効率は、できるだけ多様でないサブ政治によって制限される可能性がある。 これらの知見に触発された本研究では,新しいアンサンブルRLアルゴリズム,すなわち,awar\textbf{E} \textbf{E}nsemble Exploratio\textbf{N} (TEEN) を導入する。 TEENの主な目標は、より多様な軌道を推進しながら、期待されるリターンを最大化することである。 広範な実験により,ティーンは,サブポリティシーのみを用いた場合に比べてアンサンブルポリシーのサンプル多様性を高めるだけでなく,アンサンブルrlアルゴリズムの性能を向上させることを実証した。 TEENは、試験された代表環境において、ベースラインアンサンブルDRLアルゴリズムを平均41倍の性能で上回る。

The combination of deep reinforcement learning (DRL) with ensemble methods has been proved to be highly effective in addressing complex sequential decision-making problems. This success can be primarily attributed to the utilization of multiple models, which enhances both the robustness of the policy and the accuracy of value function estimation. However, there has been limited analysis of the empirical success of current ensemble RL methods thus far. Our new analysis reveals that the sample efficiency of previous ensemble DRL algorithms may be limited by sub-policies that are not as diverse as they could be. Motivated by these findings, our study introduces a new ensemble RL algorithm, termed \textbf{T}rajectories-awar\textbf{E} \textbf{E}nsemble exploratio\textbf{N} (TEEN). The primary goal of TEEN is to maximize the expected return while promoting more diverse trajectories. Through extensive experiments, we demonstrate that TEEN not only enhances the sample diversity of the ensemble policy compared to using sub-policies alone but also improves the performance over ensemble RL algorithms. On average, TEEN outperforms the baseline ensemble DRL algorithms by 41\% in performance on the tested representative environments.
翻訳日:2023-10-18 16:31:43 公開日:2023-10-17
# 混合連続類型変数に対する非パラメトリック条件独立性テスト:新しい手法と数値評価

Non-parametric Conditional Independence Testing for Mixed Continuous-Categorical Variables: A Novel Method and Numerical Evaluation ( http://arxiv.org/abs/2310.11132v1 )

ライセンス: Link先を確認
Oana-Iuliana Popescu, Andreas Gerhardus, Jakob Runge(参考訳) 条件独立テスト(CIT)は、例えば変数選択のための機械学習において一般的なタスクであり、制約ベースの因果探索の主要なコンポーネントである。 現在のほとんどのCITアプローチでは、全ての変数は数値的であるか、あるいは全ての変数は分類型であると仮定しているが、現実の多くのアプリケーションは数値と分類型を含む混合型データセットを含んでいる。 非パラメトリックCITは、条件付き相互情報(CMI)推定器と局所的な置換スキームを組み合わせて行うことができる。 近年,k-nearest-neighbors(k-NN)に基づく混合型データセットに対する2つの新しいCMI推定器が提案されている。 任意のk-NN法と同様に、これらの推定子は距離計量の定義に依存する。 あるアプローチはカテゴリ変数の1ホット符号化によって距離を計算し、本質的にはカテゴリ変数を離散数値として扱い、もう一方はカテゴリ変数が条件のみとして現れるエントロピー項でCMIを表現する。 本研究では,これらの推定器について検討し,分類変数を数値として扱わない前者のアプローチのバリエーションを提案する。 数値実験により,異なるデータ分布と前処理型にまたがる依存性をより頑健に検出できることを示した。

Conditional independence testing (CIT) is a common task in machine learning, e.g., for variable selection, and a main component of constraint-based causal discovery. While most current CIT approaches assume that all variables are numerical or all variables are categorical, many real-world applications involve mixed-type datasets that include numerical and categorical variables. Non-parametric CIT can be conducted using conditional mutual information (CMI) estimators combined with a local permutation scheme. Recently, two novel CMI estimators for mixed-type datasets based on k-nearest-neighbors (k-NN) have been proposed. As with any k-NN method, these estimators rely on the definition of a distance metric. One approach computes distances by a one-hot encoding of the categorical variables, essentially treating categorical variables as discrete-numerical, while the other expresses CMI by entropy terms where the categorical variables appear as conditions only. In this work, we study these estimators and propose a variation of the former approach that does not treat categorical variables as numeric. Our numerical experiments show that our variant detects dependencies more robustly across different data distributions and preprocessing types.
翻訳日:2023-10-18 16:31:20 公開日:2023-10-17
# FROST: エネルギー効率のよいAI-on-5Gプラットフォームを目指す - GPUパワーキャッピング評価

FROST: Towards Energy-efficient AI-on-5G Platforms -- A GPU Power Capping Evaluation ( http://arxiv.org/abs/2310.11131v1 )

ライセンス: Link先を確認
Ioannis Mavromatis and Stefano De Feo and Pietro Carnelli and Robert J. Piechocki and Aftab Khan(参考訳) Open Radio Access Network (O-RAN) は急成長中の市場であり、今後の成長が見込まれている。 RANはCAPEXのネットワークへの影響が最も高く、最も重要なのは総エネルギーの73%を消費していることだ。 これにより、機械学習(ml)の統合による最適化の理想的なターゲットとなる。 しかし、このような生態系ではMLのエネルギー消費がしばしば見過ごされている。 私たちの研究は、O-RANの仕様と原則に準拠した、エネルギーを意識したMLパイプラインのためのソリューションであるOnline System Tuningを使ったFROSTFlexible Reconfigurationメソッドを提供することで、この重要な側面に対処しています。 FROSTは、MLパイプラインのエネルギー消費をプロファイリングし、それに応じてハードウェアを最適化し、パワードローを制限する。 以上の結果から,FROSTはモデルの精度を損なうことなく最大26.4%の省エネが可能であった。

The Open Radio Access Network (O-RAN) is a burgeoning market with projected growth in the upcoming years. RAN has the highest CAPEX impact on the network and, most importantly, consumes 73% of its total energy. That makes it an ideal target for optimisation through the integration of Machine Learning (ML). However, the energy consumption of ML is frequently overlooked in such ecosystems. Our work addresses this critical aspect by presenting FROST - Flexible Reconfiguration method with Online System Tuning - a solution for energy-aware ML pipelines that adhere to O-RAN's specifications and principles. FROST is capable of profiling the energy consumption of an ML pipeline and optimising the hardware accordingly, thereby limiting the power draw. Our findings indicate that FROST can achieve energy savings of up to 26.4% without compromising the model's accuracy or introducing significant time delays.
翻訳日:2023-10-18 16:30:59 公開日:2023-10-17
# ReLUニューラルネットワークのトポロジカル表現性

Topological Expressivity of ReLU Neural Networks ( http://arxiv.org/abs/2310.11130v1 )

ライセンス: Link先を確認
Ekin Ergen, Moritz Grillo(参考訳) 本稿では,2値分類問題の設定におけるReLUニューラルネットワークの表現性をトポロジ的観点から検討する。 近年の実証研究では、ニューラルネットワークがトポロジーを変化させて動作し、トポロジー的に複雑なデータセットをレイヤーを通過するときにトポロジー的により単純なデータセットに変換することが示されている。 この位相的単純化は、位相空間の代数的不変量であるベッチ数によって測定されている。 我々は同じ尺度を用いて、ReLUニューラルネットワークが与えられたアーキテクチャで達成できるトポロジカル単純化に関する下限と上限を確立する。 そこで本研究では,2次分類問題におけるreluニューラルネットワークの表現性について,基礎となる位相構造を捉える能力に光を当てることでより理解を深める。 特に、深部ReLUニューラルネットワークは、トポロジカル単純化の観点から、浅部よりも指数関数的に強力であることを示す。 これにより、より深いネットワークが複雑でトポロジカルにリッチなデータセットを扱うのに優れている理由を数学的に厳密に説明できる。

We study the expressivity of ReLU neural networks in the setting of a binary classification problem from a topological perspective. Recently, empirical studies showed that neural networks operate by changing topology, transforming a topologically complicated data set into a topologically simpler one as it passes through the layers. This topological simplification has been measured by Betti numbers, which are algebraic invariants of a topological space. We use the same measure to establish lower and upper bounds on the topological simplification a ReLU neural network can achieve with a given architecture. We therefore contribute to a better understanding of the expressivity of ReLU neural networks in the context of binary classification problems by shedding light on their ability to capture the underlying topological structure of the data. In particular the results show that deep ReLU neural networks are exponentially more powerful than shallow ones in terms of topological simplification. This provides a mathematically rigorous explanation why deeper networks are better equipped to handle complex and topologically rich datasets.
翻訳日:2023-10-18 16:30:40 公開日:2023-10-17
# 感度を意識したベイズ推定

Sensitivity-Aware Amortized Bayesian Inference ( http://arxiv.org/abs/2310.11122v1 )

ライセンス: Link先を確認
Lasse Elsem\"uller, Hans Olischl\"ager, Marvin Schmitt, Paul-Christian B\"urkner, Ullrich K\"othe, Stefan T.Radev(参考訳) ベイズ推論は不確実性の下で確率的推論と決定を行うための強力なフレームワークである。 現代のベイズワークフローの基本的選択は、可能性関数と事前分布、後部近似器、およびデータに関するものである。 各選択はモデルに基づく推論とその後の決定に大きく影響し、感度分析を必要とする。 本研究では,無形ベイズ推論(abi,すなわちニューラルネットワークを用いたシミュレーションベース推論)に感度解析を統合するための多面的手法を提案する。 まず,計算オーバーヘッドを最小に抑えながら,学習プロセスにおける代替可能性と事前仕様との間の構造的類似性を符号化するために,重みの共有を利用する。 第2に,ニューラルネットワークの迅速な推論を利用して,様々なデータ摂動や前処理に対する感度を評価する。 他のほとんどのベイズ的アプローチとは対照的に、どちらのステップも、確率、事前、データセットの選択ごとにモデルを再フィッティングするコストのかかるボトルネックを回避する。 最後に,ニューラルネットワークアンサンブルを用いて,未知データに対する信頼できない近似による結果のばらつきを評価することを提案する。 本稿では,本手法の応用モデリング問題における有効性を示す。疫病の発生動態と地球温暖化閾値の推定から,人為的意思決定モデルの比較まで。 実験では,モデル選択と推論的帰結の間の隠れた関係を効果的に明らかにする手法を示す。

Bayesian inference is a powerful framework for making probabilistic inferences and decisions under uncertainty. Fundamental choices in modern Bayesian workflows concern the specification of the likelihood function and prior distributions, the posterior approximator, and the data. Each choice can significantly influence model-based inference and subsequent decisions, thereby necessitating sensitivity analysis. In this work, we propose a multifaceted approach to integrate sensitivity analyses into amortized Bayesian inference (ABI, i.e., simulation-based inference with neural networks). First, we utilize weight sharing to encode the structural similarities between alternative likelihood and prior specifications in the training process with minimal computational overhead. Second, we leverage the rapid inference of neural networks to assess sensitivity to various data perturbations or pre-processing procedures. In contrast to most other Bayesian approaches, both steps circumvent the costly bottleneck of refitting the model(s) for each choice of likelihood, prior, or dataset. Finally, we propose to use neural network ensembles to evaluate variation in results induced by unreliable approximation on unseen data. We demonstrate the effectiveness of our method in applied modeling problems, ranging from the estimation of disease outbreak dynamics and global warming thresholds to the comparison of human decision-making models. Our experiments showcase how our approach enables practitioners to effectively unveil hidden relationships between modeling choices and inferential conclusions.
翻訳日:2023-10-18 16:30:21 公開日:2023-10-17
# オンラインミュージアム仮想ツアーにおける行動とユーザエクスペリエンスの分析

Analyzing Behavior and User Experience in Online Museum Virtual Tours ( http://arxiv.org/abs/2310.11176v1 )

ライセンス: Link先を確認
Roman Shikhri, Lev Poretski, Joel Lanir(参考訳) 新型コロナウイルスの感染拡大に伴う観光・旅行の混乱は、仮想観光が文化体験に広くアクセス可能な手段を提供する可能性を浮き彫りにした。 360度仮想ツアーは、物理的な場所をリアルに表現し、仮想観光客は文化遺産を体験し、自宅の快適さと安全性からコレクションと交流することができる。 しかし、そのようなツアーの設計には明確な基準はなく、来訪者の体験はプラットフォームによって大きく異なる可能性がある。 まず,既存の40の仮想ツアーを総合的に分析し,仮想ツアーの重要なコンポーネントと特徴を理解するための記述フレームワークを構築した。 次に,vtユーザが直面する実体験と課題について深い洞察を得るために,遠隔ユーザビリティスタディを実施した。 調査の結果,仮想ツアーのユーザのメンタルモデルと実際のシステム行動の相違が明らかとなった。 これらの問題を議論し、ユーザーフレンドリーな360度バーチャルツアーを作成するための具体的な勧告を提供する。

The disruption to tourism and travel caused by the COVID-related health crisis highlighted the potential of virtual tourism to provide a universally accessible way to engage in cultural experiences. 360-degree virtual tours, showing a realistic representation of the physical location, enable virtual tourists to experience cultural heritage sites and engage with their collections from the comfort and safety of their home. However, there is no clear standard for the design of such tours and the experience of visitors may vary widely from platform to platform. We first conducted a comprehensive analysis of 40 existing virtual tours, constructing a descriptive framework for understanding the key components and characteristics of virtual tours. Next, we conducted a remote usability study to gain deeper insights into the actual experiences and challenges faced by VT users. Our investigation revealed a significant disparity between users' mental models of virtual tours and the actual system behavior. We discuss these issues and provide concrete recommendations for the creation of better, user-friendly 360-degree virtual tours.
翻訳日:2023-10-18 16:21:36 公開日:2023-10-17
# 大規模画像記録からの大規模言語と視覚モデルを用いた知識抽出と蒸留

Knowledge Extraction and Distillation from Large-Scale Image-Text Colonoscopy Records Leveraging Large Language and Vision Models ( http://arxiv.org/abs/2310.11173v1 )

ライセンス: Link先を確認
Shuo Wang, Yan Zhu, Xiaoyuan Luo, Zhiwei Yang, Yizhe Zhang, Peiyao Fu, Manning Wang, Zhijian Song, Quanlin Li, Pinghong Zhou, Yike Guo(参考訳) 大腸内視鏡検査のための人工知能システムの開発は、しばしば専門家による画像データセットを必要とする。 しかし、データセットのサイズと多様性の制限はモデルの性能と一般化を妨げる。 何百万もの画像とテキストレポートからなる定期的な臨床実践から得られた画像-テキスト大腸内視鏡記録は、労働集約的であるが、貴重なデータソースとして機能する。 本稿では,大規模言語とビジョンモデルの最近の進歩を活用し,深層知識抽出・蒸留のためのデータマイニングパラダイムであるEndoKEDを提案する。 EndoKEDは、生の大腸内視鏡記録をピクセルレベルのアノテーションで画像データセットに自動変換する。 大腸内視鏡検査データ(約100万画像)の多中心データセットを用いてEndoKEDを検証し,ポリープ検出とセグメンテーションモデルの訓練において優れた性能を示した。 さらに、EndoKED事前学習された視覚バックボーンは、光生検のためのデータ効率と一般化可能な学習を可能にし、振り返りと予測バリデーションの両方において専門家レベルのパフォーマンスを達成する。

The development of artificial intelligence systems for colonoscopy analysis often necessitates expert-annotated image datasets. However, limitations in dataset size and diversity impede model performance and generalisation. Image-text colonoscopy records from routine clinical practice, comprising millions of images and text reports, serve as a valuable data source, though annotating them is labour-intensive. Here we leverage recent advancements in large language and vision models and propose EndoKED, a data mining paradigm for deep knowledge extraction and distillation. EndoKED automates the transformation of raw colonoscopy records into image datasets with pixel-level annotation. We validate EndoKED using multi-centre datasets of raw colonoscopy records (~1 million images), demonstrating its superior performance in training polyp detection and segmentation models. Furthermore, the EndoKED pre-trained vision backbone enables data-efficient and generalisable learning for optical biopsy, achieving expert-level performance in both retrospective and prospective validation.
翻訳日:2023-10-18 16:21:21 公開日:2023-10-17
# 時系列異常検出のためのマルチモーダル空間時間グラフアテンションネットワークMST-GAT

MST-GAT: A Multimodal Spatial-Temporal Graph Attention Network for Time Series Anomaly Detection ( http://arxiv.org/abs/2310.11169v1 )

ライセンス: Link先を確認
Chaoyue Ding, Shiliang Sun, Jing Zhao(参考訳) マルチモーダル時系列(MTS)異常検出は作業装置(例えば、水処理システムや宇宙船)の安全性と安定性を維持するために重要である。 近年のディープラーニング手法は異常検出において大きな可能性を示しているが、異なるモダリティの不定な時系列間の空間的-時間的関係を明示的に捉えていない。 本稿では,この問題に対処するためのマルチモーダル時空間グラフアテンションネットワーク(MST-GAT)を提案する。 MST-GATは、まずマルチモーダルグラフアテンションネットワーク(M-GAT)と時間畳み込みネットワークを用いて、マルチモーダル時系列における時空間相関を捉える。 具体的には,マルチヘッドアテンションモジュールと2つのリレーショナルアテンションモジュール(イントラモーダルアテンションとインターモーダルアテンション)を用いて,モーダル相関をモデル化する。 さらに、MST-GATは再構築モジュールと予測モジュールを同時に最適化する。 4つのマルチモーダルベンチマーク実験の結果、MST-GATは最先端のベースラインより優れていることが示された。 さらに解析した結果,MST-GATは検出された異常の解釈可能性を高めることが示唆された。

Multimodal time series (MTS) anomaly detection is crucial for maintaining the safety and stability of working devices (e.g., water treatment system and spacecraft), whose data are characterized by multivariate time series with diverse modalities. Although recent deep learning methods show great potential in anomaly detection, they do not explicitly capture spatial-temporal relationships between univariate time series of different modalities, resulting in more false negatives and false positives. In this paper, we propose a multimodal spatial-temporal graph attention network (MST-GAT) to tackle this problem. MST-GAT first employs a multimodal graph attention network (M-GAT) and a temporal convolution network to capture the spatial-temporal correlation in multimodal time series. Specifically, M-GAT uses a multi-head attention module and two relational attention modules (i.e., intra- and inter-modal attention) to model modal correlations explicitly. Furthermore, MST-GAT optimizes the reconstruction and prediction modules simultaneously. Experimental results on four multimodal benchmarks demonstrate that MST-GAT outperforms the state-of-the-art baselines. Further analysis indicates that MST-GAT strengthens the interpretability of detected anomalies by locating the most anomalous univariate time series.
翻訳日:2023-10-18 16:21:04 公開日:2023-10-17
# ViSoBERT:ベトナムのソーシャルメディアテキスト処理のための事前学習言語モデル

ViSoBERT: A Pre-Trained Language Model for Vietnamese Social Media Text Processing ( http://arxiv.org/abs/2310.11166v1 )

ライセンス: Link先を確認
Quoc-Nam Nguyen, Thang Chau Phan, Duc-Vu Nguyen, Kiet Van Nguyen(参考訳) 資源豊富な言語として知られる英語と中国語は、自然言語処理タスクのためのトランスフォーマーベースの言語モデルの発展を目撃している。 ベトナムには約1億人がベトナム語を話すが、PhoBERT、ViBERT、vELECTRAといった事前訓練されたモデルは、POSタグ付けや名前付きエンティティ認識などベトナムの一般的なNLPタスクでうまく機能している。 これらの事前訓練された言語モデルは依然としてベトナムのソーシャルメディアに限られている。 本稿では,ベトナム語ソーシャルメディアテキストを対象としたモノリンガル事前学習型言語モデルViSoBERTについて,XLM-Rアーキテクチャを用いた高品質かつ多様なベトナム語ソーシャルメディアテキストの大規模コーパスで事前学習を行った。 さらに,ベトナムのソーシャルメディア上で,感情認識,ヘイトスピーチ検出,感情分析,スパムレビュー検出,ヘイトスピーチスパン検出という,5つの重要な自然言語下流タスクに関する事前学習モデルを探索した。 我々の実験では、ViSoBERTはパラメータがはるかに少ないため、ベトナムのソーシャルメディアタスクにおける過去の最先端モデルを上回っている。 私たちのViSoBERTモデルは、研究目的でのみ利用可能です。

English and Chinese, known as resource-rich languages, have witnessed the strong development of transformer-based language models for natural language processing tasks. Although Vietnam has approximately 100M people speaking Vietnamese, several pre-trained models, e.g., PhoBERT, ViBERT, and vELECTRA, performed well on general Vietnamese NLP tasks, including POS tagging and named entity recognition. These pre-trained language models are still limited to Vietnamese social media tasks. In this paper, we present the first monolingual pre-trained language model for Vietnamese social media texts, ViSoBERT, which is pre-trained on a large-scale corpus of high-quality and diverse Vietnamese social media texts using XLM-R architecture. Moreover, we explored our pre-trained model on five important natural language downstream tasks on Vietnamese social media texts: emotion recognition, hate speech detection, sentiment analysis, spam reviews detection, and hate speech spans detection. Our experiments demonstrate that ViSoBERT, with far fewer parameters, surpasses the previous state-of-the-art models on multiple Vietnamese social media tasks. Our ViSoBERT model is available\footnote{\url{https://huggingface.co/uitnlp/visobert}} only for research purposes.
翻訳日:2023-10-18 16:20:39 公開日:2023-10-17
# serenade: ループ内自動コード推定のためのモデル

Serenade: A Model for Human-in-the-loop Automatic Chord Estimation ( http://arxiv.org/abs/2310.11165v1 )

ライセンス: Link先を確認
Hendrik Vincent Koops, Gianluca Micchi, Ilaria Manco, Elio Quinton(参考訳) 自動セグメンテーション,コーパス解析,コードラベルの自動推定などのMIRタスクでは,計算調和解析が重要である。 しかし、近年の音楽ハーモニーの曖昧さに関する研究により、レート間合意が限定され、正確性などの一般的な指標にガラスの天井があることが明らかになっている。 一般的に、これらの問題はトレーニングデータ自身で多数ルールのアノテーションを作成するか、ソフトターゲットを学習してトレーニングフェーズ中に対処される。 本稿では,人間と自己回帰モデルが協調して音声トラックの調和アノテーションを作成する,新たなアプローチを提案する。 自動で調和予測を生成した後、人間はモデルの信頼度が低い箇所をわずかにアノテートし、モデルはその予測を人間の指示に従って調整する。 ポピュラー音楽のデータセットを用いて,本モデルの評価を行い,本手法を用いることで,モデルのみのアプローチよりも高調波解析性能が向上することを示す。 人間の貢献は、モデルの2番目の制約付き予測によって増幅される。

Computational harmony analysis is important for MIR tasks such as automatic segmentation, corpus analysis and automatic chord label estimation. However, recent research into the ambiguous nature of musical harmony, causing limited inter-rater agreement, has made apparent that there is a glass ceiling for common metrics such as accuracy. Commonly, these issues are addressed either in the training data itself by creating majority-rule annotations or during the training phase by learning soft targets. We propose a novel alternative approach in which a human and an autoregressive model together co-create a harmonic annotation for an audio track. After automatically generating harmony predictions, a human sparsely annotates parts with low model confidence and the model then adjusts its predictions following human guidance. We evaluate our model on a dataset of popular music and we show that, with this human-in-the-loop approach, harmonic analysis performance improves over a model-only approach. The human contribution is amplified by the second, constrained prediction of the model.
翻訳日:2023-10-18 16:20:19 公開日:2023-10-17
# IMTLab:対話型機械翻訳システムの構築、評価、診断のためのオープンソースプラットフォーム

IMTLab: An Open-Source Platform for Building, Evaluating, and Diagnosing Interactive Machine Translation Systems ( http://arxiv.org/abs/2310.11163v1 )

ライセンス: Link先を確認
Xu Huang, Zhirui Zhang, Ruize Gao, Yichao Du, Lemao Liu, Gouping Huang, Shuming Shi, Jiajun Chen, Shujian Huang(参考訳) 我々は、IMTシステムプラットフォームであるIMTLabを紹介し、研究者が最先端モデルでIMTシステムを迅速に構築し、エンドツーエンド評価を行い、システムの弱点を診断できるようにする。 IMTLabは、対話的な翻訳プロセス全体を、人間のループ設定によるタスク指向の対話として扱う。 この目的のために、汎用通信インタフェースは、柔軟なIMTアーキテクチャとユーザポリシーをサポートするように設計されている。 提案する設計に基づき, エンド・ツー・エンド評価を実現し, 従来のimtシステムを体系的に評価するために, シミュレーションおよび実環境を構築する。 シミュレーションおよび手作業による実験により,プレフィックス制約による復号化手法は,エンド・ツー・エンドで編集コストが最も低く,一方bitiimtはよりインタラクティブな操作で同等の編集コストを達成していることが示された。

We present IMTLab, an open-source end-to-end interactive machine translation (IMT) system platform that enables researchers to quickly build IMT systems with state-of-the-art models, perform an end-to-end evaluation, and diagnose the weakness of systems. IMTLab treats the whole interactive translation process as a task-oriented dialogue with a human-in-the-loop setting, in which human interventions can be explicitly incorporated to produce high-quality, error-free translations. To this end, a general communication interface is designed to support the flexible IMT architectures and user policies. Based on the proposed design, we construct a simulated and real interactive environment to achieve end-to-end evaluation and leverage the framework to systematically evaluate previous IMT systems. Our simulated and manual experiments show that the prefix-constrained decoding approach still gains the lowest editing cost in the end-to-end evaluation, while BiTIIMT achieves comparable editing cost with a better interactive experience.
翻訳日:2023-10-18 16:20:02 公開日:2023-10-17
# 国際貿易フローの正確な予測:知識グラフの活用とその埋め込み

Accurate prediction of international trade flows: Leveraging knowledge graphs and their embeddings ( http://arxiv.org/abs/2310.11161v1 )

ライセンス: Link先を確認
Diego Rincon-Yanez, Chahinez Ounoughi, Bassem Sellami, Tarmo Kalvet, Marek Tiits, Sabrina Senatore, Sadok Ben Yahia(参考訳) 知識表現(kr)は、実世界の事実を表現し、自動意思決定タスクを促進するために記号表記を設計するのに不可欠である。 知識グラフ(KG)はKRの一般的な形式として登場し、文脈的かつ人間的な知識表現を提供する。 国際経済において、kgは商品、企業、国間の複雑な相互作用を捉えるのに有用であることが証明されている。 共通の経済枠組みである重力モデルをKGの構築プロセスに組み込むことで、貿易関係に影響を与える重要な要因を考慮し、国際貿易パターンを予測することができる。 本稿では,国際貿易をモデル化するために知識グラフ埋め込みを活用し,埋め込みを用いたリンク予測に焦点をあてた手法を提案する。 したがって、政策立案者、企業、経済学者には貴重な洞察が提供され、国際貿易システムの変化の影響を予測できる。 さらに、意思決定木やグラフニューラルネットワークなど、従来の機械学習手法とkg埋め込みの統合も検討されている。 本研究は,予測精度を向上させる可能性を示し,知識表現における説明可能性の埋め込みに関する洞察を提供する。 また,他の知的アルゴリズムに対する埋め込み手法の影響を包括的に解析する。

Knowledge representation (KR) is vital in designing symbolic notations to represent real-world facts and facilitate automated decision-making tasks. Knowledge graphs (KGs) have emerged so far as a popular form of KR, offering a contextual and human-like representation of knowledge. In international economics, KGs have proven valuable in capturing complex interactions between commodities, companies, and countries. By putting the gravity model, which is a common economic framework, into the process of building KGs, important factors that affect trade relationships can be taken into account, making it possible to predict international trade patterns. This paper proposes an approach that leverages Knowledge Graph embeddings for modeling international trade, focusing on link prediction using embeddings. Thus, valuable insights are offered to policymakers, businesses, and economists, enabling them to anticipate the effects of changes in the international trade system. Moreover, the integration of traditional machine learning methods with KG embeddings, such as decision trees and graph neural networks are also explored. The research findings demonstrate the potential for improving prediction accuracy and provide insights into embedding explainability in knowledge representation. The paper also presents a comprehensive analysis of the influence of embedding methods on other intelligent algorithms.
翻訳日:2023-10-18 16:19:29 公開日:2023-10-17
# 大規模言語モデルの創造性を証明する:モデルは分岐意味関係を創出できるか?

Probing the Creativity of Large Language Models: Can models produce divergent semantic association? ( http://arxiv.org/abs/2310.11158v1 )

ライセンス: Link先を確認
Honghua Chen and Nai Ding(参考訳) 大きな言語モデルは、言語を処理できる能力を持っているが、これらのモデルがさらに創造的なコンテンツを生み出すかどうかは不明だ。 本研究の目的は,認知的視点から大規模言語モデルの創造的思考を検討することである。 本研究では,モデルに無関係な単語を生成し,それらの間の意味的距離を計算するための,創造性の客観的な測定である発散関連タスク(DAT)を利用する。 さまざまなモデルとデコード戦略で結果を比較します。 以上の結果から,(1)greedy search 戦略を用いた場合,GPT-4 は全体の 96% を上回り,GPT-3.5-turbo は平均的な人間よりも優れていた。 2) GPT-4以外のモデルでは, 統計的サンプリングと温度スケーリングが有効であるが, 創造性と安定性のトレードオフに直面している。 これらの結果は、先進的な大規模言語モデルは、創造性の基礎となる基本的なプロセスである、異なる意味的関連を持つことを示唆している。

Large language models possess remarkable capacity for processing language, but it remains unclear whether these models can further generate creative content. The present study aims to investigate the creative thinking of large language models through a cognitive perspective. We utilize the divergent association task (DAT), an objective measurement of creativity that asks models to generate unrelated words and calculates the semantic distance between them. We compare the results across different models and decoding strategies. Our findings indicate that: (1) When using the greedy search strategy, GPT-4 outperforms 96% of humans, while GPT-3.5-turbo exceeds the average human level. (2) Stochastic sampling and temperature scaling are effective to obtain higher DAT scores for models except GPT-4, but face a trade-off between creativity and stability. These results imply that advanced large language models have divergent semantic associations, which is a fundamental process underlying creativity.
翻訳日:2023-10-18 16:19:11 公開日:2023-10-17
# 動的要求知識を用いた因果発見

Causal discovery using dynamically requested knowledge ( http://arxiv.org/abs/2310.11154v1 )

ライセンス: Link先を確認
Neville K Kitson and Anthony C Constantinou(参考訳) Causal Bayesian Networks (CBN) は、複雑な実世界のシステムにおいて不確実性の下で推論するための重要なツールである。 CBNのグラフィカルな構造を決定することは依然として重要な課題であり、人間からそれを引き出すか、機械学習を使ってデータから学習するか、これら2つのアプローチを組み合わせることで実行されます。 後者の場合、開始前に人的知識がアルゴリズムに提供されるのが一般的であるが、構造学習アルゴリズム自体が構造学習中に不確実であると認識する関係について、動的に知識を識別・要求する新しいアプローチを考察する。 本稿では,この手法をタブ構造学習アルゴリズムに統合し,既存の知識統合手法に比べて構造精度が大幅に向上することを示す。 本研究は,実践者が因果関係の知識をほとんど持っていない場合に,弧方向情報のみを要求する変種が特に有用であることを示唆する。 精度の向上に加えて、このアプローチは人間の専門知識をより効果的に活用し、構造学習プロセスの透明性向上に寄与する。

Causal Bayesian Networks (CBNs) are an important tool for reasoning under uncertainty in complex real-world systems. Determining the graphical structure of a CBN remains a key challenge and is undertaken either by eliciting it from humans, using machine learning to learn it from data, or using a combination of these two approaches. In the latter case, human knowledge is generally provided to the algorithm before it starts, but here we investigate a novel approach where the structure learning algorithm itself dynamically identifies and requests knowledge for relationships that the algorithm identifies as uncertain during structure learning. We integrate this approach into the Tabu structure learning algorithm and show that it offers considerable gains in structural accuracy, which are generally larger than those offered by existing approaches for integrating knowledge. We suggest that a variant which requests only arc orientation information may be particularly useful where the practitioner has little preexisting knowledge of the causal relationships. As well as offering improved accuracy, the approach can use human expertise more effectively and contributes to making the structure learning process more transparent.
翻訳日:2023-10-18 16:18:51 公開日:2023-10-17
# マスクオートエンコーダを用いたecg解析のための教師なし事前学習

Unsupervised Pre-Training Using Masked Autoencoders for ECG Analysis ( http://arxiv.org/abs/2310.11153v1 )

ライセンス: Link先を確認
Guoxin Wang, Qingyuan Wang, Ganesh Neelakanta Iyer, Avishek Nag and Deepu John(参考訳) データセットの大規模利用とコンピュータビジョンや自然言語処理タスクの高精度化により,教師なし学習手法が深層学習においてますます重要になっている。 教師なし学習手法を他のドメインに拡張する傾向が強まり、大量の不正なデータを活用するのに役立ちます。 本稿では、心電図(ECG)信号のためのマスク付きオートエンコーダ(MAE)に基づく教師なし事前トレーニング手法を提案する。 さらに、ECG分析のための完全なフレームワークを形成するためのタスク固有の微調整を提案する。 フレームワークは高レベルで普遍的で、特定のモデルアーキテクチャやタスクに個別に適応していない。 様々なモデルアーキテクチャと大規模データセットを用いて実験を行い、その結果、心電図不整脈分類タスクのためのmitdbデータセットで94.39%の精度が得られた。 その結果, 提案手法では, 教師あり手法に比べ, 従来認識されていなかったデータの分類性能が向上した。

Unsupervised learning methods have become increasingly important in deep learning due to their demonstrated large utilization of datasets and higher accuracy in computer vision and natural language processing tasks. There is a growing trend to extend unsupervised learning methods to other domains, which helps to utilize a large amount of unlabelled data. This paper proposes an unsupervised pre-training technique based on masked autoencoder (MAE) for electrocardiogram (ECG) signals. In addition, we propose a task-specific fine-tuning to form a complete framework for ECG analysis. The framework is high-level, universal, and not individually adapted to specific model architectures or tasks. Experiments are conducted using various model architectures and large-scale datasets, resulting in an accuracy of 94.39% on the MITDB dataset for ECG arrhythmia classification task. The result shows a better performance for the classification of previously unseen data for the proposed approach compared to fully supervised methods.
翻訳日:2023-10-18 16:18:35 公開日:2023-10-17
# ビデオディープフェイク検出の改善: パッチレベル解析を用いたDCTに基づくアプローチ

Improving Video Deepfake Detection: A DCT-Based Approach with Patch-Level Analysis ( http://arxiv.org/abs/2310.11204v1 )

ライセンス: Link先を確認
Luca Guarnera (1), Salvatore Manganello (1), Sebastiano Battiato (1) ((1) University of Catania)(参考訳) ディープフェイク(deepfake)とは、生成モデルを用いて合成またはゼロから生成されたマルチメディアコンテンツの総称である。 この現象は、実際のコンテンツと区別できない操作されたコンテンツをレンダリングできる、正確で効率的なアーキテクチャの使用により、広まりつつある。 この強力な技術を不正に利用するためには、合成コンテンツを現実のものと区別できるアルゴリズムを開発する必要がある。 本研究では,デジタルビデオにおけるディープフェイク検出のための新しいアルゴリズムを提案し,法医学的な視点から高速かつ説明可能な手法を作成することの主な目標について述べる。 この目的を達成するため、Iフレームは文献に記述されたアプローチよりも高速な計算と分析を提供するために抽出された。 さらに、個々のビデオフレーム内で最も識別された領域を特定するために、フレーム全体、背景、顔、目、鼻、口、顔フレームを別々に分析した。 離散コサイン変換(DCT)から、ベータ成分をAC係数から抽出し、標準分類器(k-NN、SVMなど)への入力として使用して、問題のタスクを解く上で最も識別しやすい周波数を特定した。 Faceforensics++とCeleb-DF(v2)データセットで得られた実験結果は、目と口の領域が最も識別され、フレーム全体の分析よりも信頼性の高いビデオの性質を判断できることを示している。 本研究で提案する手法は解析的で高速であり,計算能力はあまり必要ではない。

The term deepfake refers to all those multimedia contents that were synthetically altered or created from scratch through the use of generative models. This phenomenon has become widespread due to the use of increasingly accurate and efficient architectures capable of rendering manipulated content indistinguishable from real content. In order to fight the illicit use of this powerful technology, it has become necessary to develop algorithms able to distinguish synthetic content from real ones. In this study, a new algorithm for the detection of deepfakes in digital videos is presented, focusing on the main goal of creating a fast and explainable method from a forensic perspective. To achieve this goal, the I-frames were extracted in order to provide faster computation and analysis than approaches described in literature. In addition, to identify the most discriminating regions within individual video frames, the entire frame, background, face, eyes, nose, mouth, and face frame were analyzed separately. From the Discrete Cosine Transform (DCT), the Beta components were extracted from the AC coefficients and used as input to standard classifiers (e.g., k-NN, SVM, and others) in order to identify those frequencies most discriminative for solving the task in question. Experimental results obtained on the Faceforensics++ and Celeb-DF (v2) datasets show that the eye and mouth regions are those most discriminative and able to determine the nature of the video with greater reliability than the analysis of the whole frame. The method proposed in this study is analytical, fast and does not require much computational power.
翻訳日:2023-10-18 16:12:40 公開日:2023-10-17
# 非空在一般化境界を用いた連合学習

Federated Learning with Nonvacuous Generalisation Bounds ( http://arxiv.org/abs/2310.11203v1 )

ライセンス: Link先を確認
Pierre Jobic and Maxime Haddouche and Benjamin Guedj(参考訳) ネットワークの各ノードは、ローカルな予測器をリリースしてプライバシを保ちながら、他のノードに対してトレーニングデータセットを秘密にすることで、プライバシを保とうとしている。 次に,pac-ベイズ一般化境界の意味で局所プライベート予測器の特性を継承する大域的ランダム化予測器を構築する。 すべてのノードが同じトレーニング目標(一般化境界から派生した)を共有している同期ケースと、各ノードが独自のトレーニング目標を持つ非同期ケースを考える。 提案手法がノード間ですべてのデータセットを共有するバッチアプローチと同等の予測性能を達成していることを示す数値実験を行った。 さらに、予測子は、各ノードのプライバシーを保持しながら、数値的に空でない一般化境界によってサポートされる。 私たちは、バッチ設定とフェデレーション設定の間の予測パフォーマンスと一般化に関するインクリメントを明示的に計算し、プライバシを維持するための料金を強調します。

We introduce a novel strategy to train randomised predictors in federated learning, where each node of the network aims at preserving its privacy by releasing a local predictor but keeping secret its training dataset with respect to the other nodes. We then build a global randomised predictor which inherits the properties of the local private predictors in the sense of a PAC-Bayesian generalisation bound. We consider the synchronous case where all nodes share the same training objective (derived from a generalisation bound), and the asynchronous case where each node may have its own personalised training objective. We show through a series of numerical experiments that our approach achieves a comparable predictive performance to that of the batch approach where all datasets are shared across nodes. Moreover the predictors are supported by numerically nonvacuous generalisation bounds while preserving privacy for each node. We explicitly compute the increment on predictive performance and generalisation bounds between batch and federated settings, highlighting the price to pay to preserve privacy.
翻訳日:2023-10-18 16:12:14 公開日:2023-10-17
# 脳波運動画像復号:チャンネル注意機構を用いた比較分析のための枠組み

EEG motor imagery decoding: A framework for comparative analysis with channel attention mechanisms ( http://arxiv.org/abs/2310.11198v1 )

ライセンス: Link先を確認
Martin Wimpff, Leonardo Gizzi, Jan Zerfowski, Bin Yang(参考訳) 本研究の目的は,脳-コンピュータインタフェース(bci)領域における各種チャネル注意機構の運動画像復号への応用を検討することである。 チャネルアテンション機構は、伝統的に運動画像復号に用いられる空間フィルターの強力な進化と見なすことができる。 本研究は、これらのメカニズムを軽量アーキテクチャフレームワークに統合し、その影響を評価することによって体系的に比較する。 我々は,異なるチャネルアテンション機構をシームレスに統合する,単純で軽量なベースラインアーキテクチャを慎重に構築する。 このアプローチは、1つのアテンションメカニズムのみを調査し、通常非常に複雑で時にネストしたアーキテクチャを構築する以前の作品とは対照的である。 我々のフレームワークは、異なる注意メカニズムの影響を同じ状況下で評価し、比較することができる。 異なるチャネルアテンション機構の容易な統合と計算の複雑さの低減により、3つのデータセットに対して幅広い実験を行い、ベースラインモデルとアテンション機構の有効性を徹底的に評価することができる。 私たちの実験では、アーキテクチャフレームワークの強みと汎用性を実証するとともに、ベースラインアーキテクチャの少ないメモリフットプリントと低い計算複雑性を維持しながら、チャネルアテンション機構がパフォーマンスをいかに改善できるかを示しました。 我々のアーキテクチャは単純さを重視し、チャネルアテンション機構の容易な統合を提供しながら、データセット間の高度な一般化性を維持し、脳-コンピュータインタフェース内の脳波運動画像復号のための汎用的で効率的なソリューションである。

The objective of this study is to investigate the application of various channel attention mechanisms within the domain of brain-computer interface (BCI) for motor imagery decoding. Channel attention mechanisms can be seen as a powerful evolution of spatial filters traditionally used for motor imagery decoding. This study systematically compares such mechanisms by integrating them into a lightweight architecture framework to evaluate their impact. We carefully construct a straightforward and lightweight baseline architecture designed to seamlessly integrate different channel attention mechanisms. This approach is contrary to previous works which only investigate one attention mechanism and usually build a very complex, sometimes nested architecture. Our framework allows us to evaluate and compare the impact of different attention mechanisms under the same circumstances. The easy integration of different channel attention mechanisms as well as the low computational complexity enables us to conduct a wide range of experiments on three datasets to thoroughly assess the effectiveness of the baseline model and the attention mechanisms. Our experiments demonstrate the strength and generalizability of our architecture framework as well as how channel attention mechanisms can improve the performance while maintaining the small memory footprint and low computational complexity of our baseline architecture. Our architecture emphasizes simplicity, offering easy integration of channel attention mechanisms, while maintaining a high degree of generalizability across datasets, making it a versatile and efficient solution for EEG motor imagery decoding within brain-computer interfaces.
翻訳日:2023-10-18 16:11:58 公開日:2023-10-17
# フラクトン場理論における局所クエンチ--非因果ダイナミクスとフラクタル励起パターン

Local quenches in fracton field theory: non-causal dynamics and fractal excitation patterns ( http://arxiv.org/abs/2310.11197v1 )

ライセンス: Link先を確認
Dmitry S. Ageev, Andrey A. Bagrov, Aleksandr I. Belokon, Askar Iliasov, Vasilii V. Pushkarev, Femke Verheijen(参考訳) フラクトン場理論における局所摂動による平衡外ダイナミクスについて検討する。 2点グリーン関数、$\langle \phi^2\rangle$ condensate、エネルギー密度、双極子運動量といったいくつかの観測可能な理論の時間ダイナミクスを計算する。 時間依存的考察は、自由フラクタル理論が因果関係を破り、たとえ系の速度制限を強制するために追加の相対論的項を含むとしても、瞬時に信号伝達を示すことを強調する。 有限体積の理論については、フラクトン波面が非自明なハウスドルフ次元のフラクタル形状を取得することを示し、この現象は単純な自己干渉効果によって説明できないと主張する。

We study the out-of-equilibrium dynamics induced by a local perturbation in fracton field theory. For the ${\mathbb Z}_4$ and ${\mathbb Z}_8$-symmetric free fractonic theories, we compute the time dynamics of several observables such as the two-point Green function, $\langle \phi^2\rangle$ condensate, energy density, and the dipole momentum. The time-dependent considerations highlight that the free fractonic theory breaks causality and exhibits instantaneous signal propagation, even if an additional relativistic term is included to enforce a speed limit in the system. For the theory in finite volume, we show that the fracton wave front acquires fractal shape with non-trivial Hausdorff dimension, and argue that this phenomenon cannot be explained by a simple self-interference effect.
翻訳日:2023-10-18 16:11:36 公開日:2023-10-17
# ペニングトラップ中の単一分子イオンからのエレクトロ弱核特性

Electroweak Nuclear Properties from Single Molecular Ions in a Penning Trap ( http://arxiv.org/abs/2310.11192v1 )

ライセンス: Link先を確認
Jonas Karthein, Silviu-Marian Udrescu, Scott B. Moroch, Ivana Belosevic, Klaus Blaum, Anastasia Borschevsky, Yuly Chamorro, David DeMille, Jens Dilling, Ronald F. Garcia Ruiz, Nick R. Hutzler, Luk\'a\v{s} F. Pa\v{s}teka, Ryan Ringle(参考訳) 本稿では,単一分子イオン中のパリティ違反(parity violation,pv)をペニングトラップで測定し,電気弱核特性を調べる新しい手法を提案する。 トラップの強磁場ゼーマンは、逆パリティ回転と超微細構造の分子状態がほぼ縮退する。 これらの縮退状態間の弱い相互作用によって引き起こされる混合は、12桁以上の原子よりも大きくなり、PV効果を大幅に増幅する。 単一分子の感度は、希少かつ不安定な核を含む核チャート上の核への応用に適している。

We present a novel technique to probe electroweak nuclear properties by measuring parity violation (PV) in single molecular ions in a Penning trap. The trap's strong magnetic field Zeeman shifts opposite-parity rotational and hyperfine molecular states into near degeneracy. The weak interaction-induced mixing between these degenerate states can be larger than in atoms by more than twelve orders of magnitude, thereby vastly amplifying PV effects. The single molecule sensitivity would be suitable for applications to nuclei across the nuclear chart, including rare and unstable nuclei.
翻訳日:2023-10-18 16:11:20 公開日:2023-10-17
# 医用テキストの簡易化: dislikelihood training と reranked beam search decoding による読みやすさの最適化

Medical Text Simplification: Optimizing for Readability with Unlikelihood Training and Reranked Beam Search Decoding ( http://arxiv.org/abs/2310.11191v1 )

ライセンス: Link先を確認
Lorenzo Jaime Yu Flores, Heyuan Huang, Kejian Shi, Sophie Chheang, Arman Cohan(参考訳) テキストの単純化は、医学などの専門分野におけるコミュニケーションギャップを橋渡しするためのaiのますます有用な応用として現れており、レキシコンはしばしば技術的な用語と複雑な構造によって支配されている。 顕著な進歩にもかかわらず、医学的単純化の方法は、品質と多様性の低い生成されたテキストをもたらすことがある。 本稿では,医療領域におけるテキスト簡易化の可読性をさらに向上させる方法について検討する。 そこで本研究では,(1)簡易な用語の生成を促す新たな類似性損失と,(2)単純さを最適化し,3つのデータセットの可読性指標の性能向上を図るリランクビーム探索復号法を提案する。 本研究の結果は,医療分野におけるテキスト簡易化に有望な道筋を示している。

Text simplification has emerged as an increasingly useful application of AI for bridging the communication gap in specialized fields such as medicine, where the lexicon is often dominated by technical jargon and complex constructs. Despite notable progress, methods in medical simplification sometimes result in the generated text having lower quality and diversity. In this work, we explore ways to further improve the readability of text simplification in the medical domain. We propose (1) a new unlikelihood loss that encourages generation of simpler terms and (2) a reranked beam search decoding method that optimizes for simplicity, which achieve better performance on readability metrics on three datasets. This study's findings offer promising avenues for improving text simplification in the medical field.
翻訳日:2023-10-18 16:11:11 公開日:2023-10-17
# マルチユーザ遅延フィードバックを用いた逆帯域修正EXP3とその適応変数

A Modified EXP3 and Its Adaptive Variant in Adversarial Bandits with Multi-User Delayed Feedback ( http://arxiv.org/abs/2310.11188v1 )

ライセンス: Link先を確認
Yandi Li, Jianxiong Guo(参考訳) 遅延フィードバックを伴う敵対的マルチアームドバンディット問題に対して,遅延フィードバックの結果は複数のユーザによるものであり,内部分布に制限がないと考える。 プレイヤーが腕を選ぶと、事前にプレイヤーに不明な任意の遅延時間後、複数のユーザーからのフィードバックがすぐに受信されない場合がある。 ラウンド内の異なるユーザにとって、フィードバックの遅延には遅延相関がない。 そこで本研究では,マルチユーザ遅延フィードバックによる対向型多腕バンディット問題を定式化し,異なるユーザから受信したフィードバックの重み付け推定値を考慮して各ラウンドにおいて決定を行うmud-exp3と呼ばれる修正exp3アルゴリズムを設計した。 既知の端末ラウンドインデックス$T$, ユーザ数$M$, アーム数$N$, 遅延上限$d_{max}$の前提で、$\mathcal{O}(\sqrt{TM^2\ln{N}(N\mathrm{e}+4d_{max})} の後悔を証明する。 さらに、未知の$T$のより一般的な場合、AMUD-EXP3と呼ばれる適応アルゴリズムが$T$に対するサブ線形後悔と共に提案される。 最後に,アルゴリズムの正しさと有効性を示すため,広範な実験を行った。

For the adversarial multi-armed bandit problem with delayed feedback, we consider that the delayed feedback results are from multiple users and are unrestricted on internal distribution. As the player picks an arm, feedback from multiple users may not be received instantly yet after an arbitrary delay of time which is unknown to the player in advance. For different users in a round, the delays in feedback have no latent correlation. Thus, we formulate an adversarial multi-armed bandit problem with multi-user delayed feedback and design a modified EXP3 algorithm named MUD-EXP3, which makes a decision at each round by considering the importance-weighted estimator of the received feedback from different users. On the premise of known terminal round index $T$, the number of users $M$, the number of arms $N$, and upper bound of delay $d_{max}$, we prove a regret of $\mathcal{O}(\sqrt{TM^2\ln{N}(N\mathrm{e}+4d_{max})})$. Furthermore, for the more common case of unknown $T$, an adaptive algorithm named AMUD-EXP3 is proposed with a sublinear regret with respect to $T$. Finally, extensive experiments are conducted to indicate the correctness and effectiveness of our algorithms.
翻訳日:2023-10-18 16:10:58 公開日:2023-10-17
# 大きなグラフを効率的に視覚化する

Efficiently Visualizing Large Graphs ( http://arxiv.org/abs/2310.11186v1 )

ライセンス: Link先を確認
Xinyu Li, Yao Xiao, Yuchen Zhou(参考訳) 次元減少に基づく既存のグラフ可視化手法の多くは、性能上の問題により、比較的小さなグラフに限られている。 本稿では,t-distributed stochastic graph neighbor embedded (t-sgne) と呼ばれるグラフ可視化のための新しい次元縮小法を提案する。 t-SGNEはグラフ内のクラスタ構造を可視化するように設計されている。 標準の t-SNE 法の変種として、t-SGNE はペアの類似性の計算に要しない。 その代わりに、グラフの隣接する構造を用いて、時間複雑性を二次から線型に減らし、より大きなグラフをサポートする。 さらに, t-SGNEに適合するグラフ埋め込みアルゴリズムであるShortestPath Laplacian Eigenmaps Embedding (SPLEE) をグラフ内の最短経路アルゴリズムと組み合わせた。 SPLEEを用いて大規模グラフの高次元埋め込みを行い,t-SGNEを用いてその次元を可視化し,最大300Kノードと1Mエッジを持つグラフを5分以内で可視化し,約10%の可視化品質の向上を実現する。 コードとデータはhttps://github.com/Charlie-XIAO/embedding-visualization-testで公開されている。

Most existing graph visualization methods based on dimension reduction are limited to relatively small graphs due to performance issues. In this work, we propose a novel dimension reduction method for graph visualization, called t-Distributed Stochastic Graph Neighbor Embedding (t-SGNE). t-SGNE is specifically designed to visualize cluster structures in the graph. As a variant of the standard t-SNE method, t-SGNE avoids the time-consuming computations of pairwise similarity. Instead, it uses the neighbor structures of the graph to reduce the time complexity from quadratic to linear, thus supporting larger graphs. In addition, to suit t-SGNE, we combined Laplacian Eigenmaps with the shortest path algorithm in graphs to form the graph embedding algorithm ShortestPath Laplacian Eigenmaps Embedding (SPLEE). Performing SPLEE to obtain a high-dimensional embedding of the large-scale graph and then using t-SGNE to reduce its dimension for visualization, we are able to visualize graphs with up to 300K nodes and 1M edges within 5 minutes and achieve approximately 10% improvement in visualization quality. Codes and data are available at https://github.com/Charlie-XIAO/embedding-visualization-test.
翻訳日:2023-10-18 16:10:34 公開日:2023-10-17
# スパースなマルチオブジェクトレンダリング・アンド・コンプリート

Sparse Multi-Object Render-and-Compare ( http://arxiv.org/abs/2310.11184v1 )

ライセンス: Link先を確認
Florian Langer, Ignas Budvytis, Roberto Cipolla(参考訳) 1枚の画像から静止物体の3d形状とポーズを再構築することは、ロボティクス、拡張現実、デジタルコンテンツ作成など、さまざまな産業にとって必須の課題である。 これは、様々な表現で3D形状を直接予測したり、データベースからCADモデルを検索してアライメントを予測することで実現できる。 直接的に3Dの形状を予測すると、非現実的で、過度に滑らかな形状が生じる。 CADモデルを取得することは、現実的な形状を保証するが、堅牢で正確なアライメントを必要とする。 画像特徴からCADモデルのポーズを直接予測する学習は困難で不正確である。 ROCAのような作業は、予測された正規化されたオブジェクト座標のポーズを計算し、より正確であるが、体系的な失敗の影響を受けやすい。 SPARCは、ネットワークが自身の予測を反復的に改善する'render-and-compare'アプローチに従って、正確なアライメントを実現することを示した。 それでも、画像で検出されたすべてのオブジェクトに対して個々のcadアライメントを実行する。 このアプローチは、時間複雑性がオブジェクトの数と線形に増大し、オブジェクト間の関係を学習できないため、多くのオブジェクトに適用すると遅い。 新しいネットワークアーキテクチャの導入 マルチSPARCでは、複数の検出対象に対してCADモデルアライメントを共同で実行する。 他のシングルビュー手法と比較して、挑戦的な現実世界のデータセットであるScanNetで最先端のパフォーマンスを達成する。 インスタンスアライメントの精度を31.8%から40.3%に向上させることで、最先端のマルチビューメソッドと同じようなパフォーマンスを実現している。

Reconstructing 3D shape and pose of static objects from a single image is an essential task for various industries, including robotics, augmented reality, and digital content creation. This can be done by directly predicting 3D shape in various representations or by retrieving CAD models from a database and predicting their alignments. Directly predicting 3D shapes often produces unrealistic, overly smoothed or tessellated shapes. Retrieving CAD models ensures realistic shapes but requires robust and accurate alignment. Learning to directly predict CAD model poses from image features is challenging and inaccurate. Works, such as ROCA, compute poses from predicted normalised object coordinates which can be more accurate but are susceptible to systematic failure. SPARC demonstrates that following a ''render-and-compare'' approach where a network iteratively improves upon its own predictions achieves accurate alignments. Nevertheless, it performs individual CAD alignment for every object detected in an image. This approach is slow when applied to many objects as the time complexity increases linearly with the number of objects and can not learn inter-object relations. Introducing a new network architecture Multi-SPARC we learn to perform CAD model alignments for multiple detected objects jointly. Compared to other single-view methods we achieve state-of-the-art performance on the challenging real-world dataset ScanNet. By improving the instance alignment accuracy from 31.8% to 40.3% we perform similar to state-of-the-art multi-view methods.
翻訳日:2023-10-18 16:10:12 公開日:2023-10-17
# FocDepthFormer:焦点深度推定のためのLSTM変換器

FocDepthFormer: Transformer with LSTM for Depth Estimation from Focus ( http://arxiv.org/abs/2310.11178v1 )

ライセンス: Link先を確認
Xueyang Kang, Fengze Han, Abdur Fayjie, Dong Gong(参考訳) 焦点スタックからの深さ推定は、画像スタックのフォーカス/デフォーカスキューから深度を推定することを目的とした基本的なコンピュータビジョン問題である。 既存の手法の多くは、固定スタックイメージの集合の上に2dまたは3d畳み込みを持つ畳み込みニューラルネットワーク(cnns)を適用して、画像とスタック間で機能を学ぶことでこの問題に対処している。 それらの性能はCNNの局所的な性質によって制限されており、列車と推論で一貫性のある固定数のスタックを処理し、一般化を任意のスタックの長さに制限する。 上記の制限に対処するため,LSTMモジュールとCNNデコーダを備えたトランスフォーマーを中心に,新しいトランスフォーマーネットワークであるFocDepthFormerを開発した。 Transformerの自己注意は、暗黙の非ローカルなクロスリファレンスを通じて、より情報的な機能を学ぶことを可能にする。 LSTMモジュールは任意のイメージでスタック全体の表現を統合するために学習される。 様々なフォーカス/デフォーカスの低レベル特徴を直接キャプチャするために,初期エンコーダのマルチスケール畳み込みカーネルを提案する。 LSTMで設計したFocDepthFormerは、視覚的パターンキャプチャーのための豊富な単色RGB深度推定データで事前学習が可能で、難解な焦点スタックデータの需要を軽減できる。 様々な焦点スタックベンチマークデータセットに対する大規模な実験により、我々のモデルは、複数のメトリクスの最先端モデルよりも優れています。

Depth estimation from focal stacks is a fundamental computer vision problem that aims to infer depth from focus/defocus cues in the image stacks. Most existing methods tackle this problem by applying convolutional neural networks (CNNs) with 2D or 3D convolutions over a set of fixed stack images to learn features across images and stacks. Their performance is restricted due to the local properties of the CNNs, and they are constrained to process a fixed number of stacks consistent in train and inference, limiting the generalization to the arbitrary length of stacks. To handle the above limitations, we develop a novel Transformer-based network, FocDepthFormer, composed mainly of a Transformer with an LSTM module and a CNN decoder. The self-attention in Transformer enables learning more informative features via an implicit non-local cross reference. The LSTM module is learned to integrate the representations across the stack with arbitrary images. To directly capture the low-level features of various degrees of focus/defocus, we propose to use multi-scale convolutional kernels in an early-stage encoder. Benefiting from the design with LSTM, our FocDepthFormer can be pre-trained with abundant monocular RGB depth estimation data for visual pattern capturing, alleviating the demand for the hard-to-collect focal stack data. Extensive experiments on various focal stack benchmark datasets show that our model outperforms the state-of-the-art models on multiple metrics.
翻訳日:2023-10-18 16:09:49 公開日:2023-10-17
# 未記述の言語モデルに対処するためにビーム探索木を視覚的に調査する

Revealing the Unwritten: Visual Investigation of Beam Search Trees to Address Language Model Prompting Challenges ( http://arxiv.org/abs/2310.11252v1 )

ライセンス: Link先を確認
Thilo Spinner, Rebecca Kehlbeck, Rita Sevastjanova, Tobias St\"ahle, Daniel A. Keim, Oliver Deussen, Andreas Spitz, Mennatallah El-Assady(参考訳) 生成言語モデルの人気が高まり、モデル出力をガイドするインタラクティブな手法への関心が高まっている。 プロンプト精製はこれらの方法の出力に影響を与える最も効果的な方法の1つである。 我々は,大規模言語モデルに係わるいくつかの課題を,データ,モデル固有,言語,社会言語的課題に分類する。 これらの問題に対処するには、次点候補とその対応する確率を含むモデル出力の包括的な検討が必要である。 モデル出力をサンプリングする一般的なアルゴリズムであるビーム探索木は、本質的にこの情報を供給することができる。 その結果,ビーム探索木を探索するインタラクティブな視覚的手法を導入し,生成時のモデルによる決定の分析を容易にする。 ビーム探索木を露出させる価値を定量的に示し,特定課題に対する5つの詳細な分析シナリオを提案する。 我々の方法論は既存の結果を検証し、さらなる洞察を提供する。

The growing popularity of generative language models has amplified interest in interactive methods to guide model outputs. Prompt refinement is considered one of the most effective means to influence output among these methods. We identify several challenges associated with prompting large language models, categorized into data- and model-specific, linguistic, and socio-linguistic challenges. A comprehensive examination of model outputs, including runner-up candidates and their corresponding probabilities, is needed to address these issues. The beam search tree, the prevalent algorithm to sample model outputs, can inherently supply this information. Consequently, we introduce an interactive visual method for investigating the beam search tree, facilitating analysis of the decisions made by the model during generation. We quantitatively show the value of exposing the beam search tree and present five detailed analysis scenarios addressing the identified challenges. Our methodology validates existing results and offers additional insights.
翻訳日:2023-10-18 16:01:18 公開日:2023-10-17
# より良いサンプルを学ぶ

Learning to Sample Better ( http://arxiv.org/abs/2310.11232v1 )

ライセンス: Link先を確認
Michael S. Albergo and Eric Vanden-Eijnden(参考訳) これらの講義ノートは、簡単な基準測度からのサンプルを対象測度からのサンプルにマッピングすることで、測定の動的輸送に基づく生成モデリング手法の最近の進歩を紹介するものである。 重要サンプリングやマルコフ連鎖モンテカルロ (MCMC) スキームのようなモンテカルロ (MC) サンプリング技術へのこれらの手法の適用に特に重点を置いている。 この文脈では、MCサンプリングによって生成されたデータを用いて、どのようにマップを変動的に学習するか、そして、そのようなサンプリングを正のフィードバックループで改善するためにどのように使用できるかを示す。

These lecture notes provide an introduction to recent advances in generative modeling methods based on the dynamical transportation of measures, by means of which samples from a simple base measure are mapped to samples from a target measure of interest. Special emphasis is put on the applications of these methods to Monte-Carlo (MC) sampling techniques, such as importance sampling and Markov Chain Monte-Carlo (MCMC) schemes. In this context, it is shown how the maps can be learned variationally using data generated by MC sampling, and how they can in turn be used to improve such sampling in a positive feedback loop.
翻訳日:2023-10-18 16:01:02 公開日:2023-10-17
# Zipformer: 音声認識のための高速で優れたエンコーダ

Zipformer: A faster and better encoder for automatic speech recognition ( http://arxiv.org/abs/2310.11230v1 )

ライセンス: Link先を確認
Zengwei Yao, Liyong Guo, Xiaoyu Yang, Wei Kang, Fangjun Kuang, Yifan Yang, Zengrui Jin, Long Lin, Daniel Povey(参考訳) Conformerは自動音声認識(ASR)のための最も人気のあるエンコーダモデルとなっている。 ローカル依存とグローバル依存の両方を学ぶために、トランスフォーマーに畳み込みモジュールを追加する。 本研究では,Zipformerと呼ばれる高速で,メモリ効率が高く,パフォーマンスも向上したトランスフォーマーについて述べる。 モデリングの変更は以下のとおりである。 1) 中間スタックが低フレームレートで作動するu-netライクエンコーダ構造 2) 効率のために注意重みを再利用するより多くのモジュールを備えた再編成されたブロック構造 3) BiasNormと呼ばれるLayerNormの修正版は、いくつかの長さ情報を保持できます。 4) 新しいアクティベーション機能 SwooshR と SwooshL は Swish より優れている。 また,各テンソルの現在のスケールで更新をスケールし,相対的な変化をほぼ同じ状態に保ちながら,パラメータスケールを明示的に学習する,scaledadamと呼ばれる新しい最適化器を提案する。 これはAdamよりも早く収束し、パフォーマンスを向上させる。 LibriSpeech、Aishell-1、WenetSpeechデータセットの大規模な実験は、提案したZipformerが他の最先端のASRモデルに対して有効であることを示す。 私たちのコードはhttps://github.com/k2-fsa/icefallで公開されています。

The Conformer has become the most popular encoder model for automatic speech recognition (ASR). It adds convolution modules to a transformer to learn both local and global dependencies. In this work we describe a faster, more memory-efficient, and better-performing transformer, called Zipformer. Modeling changes include: 1) a U-Net-like encoder structure where middle stacks operate at lower frame rates; 2) reorganized block structure with more modules, within which we re-use attention weights for efficiency; 3) a modified form of LayerNorm called BiasNorm allows us to retain some length information; 4) new activation functions SwooshR and SwooshL work better than Swish. We also propose a new optimizer, called ScaledAdam, which scales the update by each tensor's current scale to keep the relative change about the same, and also explictly learns the parameter scale. It achieves faster convergence and better performance than Adam. Extensive experiments on LibriSpeech, Aishell-1, and WenetSpeech datasets demonstrate the effectiveness of our proposed Zipformer over other state-of-the-art ASR models. Our code is publicly available at https://github.com/k2-fsa/icefall.
翻訳日:2023-10-18 16:00:50 公開日:2023-10-17
# realbehavior: 基礎モデルの人間様行動機構を忠実に特徴付けるフレームワーク

RealBehavior: A Framework for Faithfully Characterizing Foundation Models' Human-like Behavior Mechanisms ( http://arxiv.org/abs/2310.11227v1 )

ライセンス: Link先を確認
Enyu Zhou, Rui Zheng, Zhiheng Xi, Songyang Gao, Xiaoran Fan, Zichu Fei, Jingting Ye, Tao Gui, Qi Zhang, Xuanjing Huang(参考訳) 基礎モデルにおける人間のような行動の報告は増加しており、心理学理論はこれらの行動を調べるための永続的なツールを提供する。 しかし、現在の研究では、結果の忠実性を検証することなく、これらの人間指向ツールを直接適用する傾向がある。 本稿では,モデルのヒューマノイドな振る舞いを忠実に表現するフレームワークであるRealBehaviorを紹介する。 単に行動を測定するだけでなく、再現性、内部および外部の一貫性、一般化性に基づいて結果の忠実度を評価する。 本研究は, 心理的ツールのシンプルな応用は, すべての人間の行動に忠実に特徴付けることはできないことを示唆している。 さらに,モデルと人的・社会的価値の整合が与える影響について論じ,制約された特徴を持つモデルの作成を防止するために,アライメント目的の多様化の必要性を論じる。

Reports of human-like behaviors in foundation models are growing, with psychological theories providing enduring tools to investigate these behaviors. However, current research tends to directly apply these human-oriented tools without verifying the faithfulness of their outcomes. In this paper, we introduce a framework, RealBehavior, which is designed to characterize the humanoid behaviors of models faithfully. Beyond simply measuring behaviors, our framework assesses the faithfulness of results based on reproducibility, internal and external consistency, and generalizability. Our findings suggest that a simple application of psychological tools cannot faithfully characterize all human-like behaviors. Moreover, we discuss the impacts of aligning models with human and social values, arguing for the necessity of diversifying alignment objectives to prevent the creation of models with restricted characteristics.
翻訳日:2023-10-18 16:00:34 公開日:2023-10-17
# KG-GPT:大規模言語モデルを用いた知識グラフの推論のための汎用フレームワーク

KG-GPT: A General Framework for Reasoning on Knowledge Graphs Using Large Language Models ( http://arxiv.org/abs/2310.11220v1 )

ライセンス: Link先を確認
Jiho Kim, Yeonsu Kwon, Yohan Jo, Edward Choi(参考訳) 大規模言語モデル(llm)は、構造化されていないテキストの理解と生成においてかなりの進歩を遂げてきたが、構造化データへのそれらの応用は未検討のままである。 特に、知識グラフ(KG)上の複雑な推論タスクにLLMを使うことは、ほとんど手を加えていない。 そこで本稿では,KG を利用したタスクに LLM を活用する多目的フレームワーク KG-GPT を提案する。 kg-gptは、文分割、グラフ検索、推論の3つのステップで構成されており、それぞれ、文の分割、関連するグラフコンポーネントの検索、論理的結論の導出を目的としている。 KGベースの事実検証とKGQAベンチマークを用いてKG-GPTを評価する。 我々の研究は、LLMの領域内で構造化および非構造化データ処理を統合するための重要なステップとなる。

While large language models (LLMs) have made considerable advancements in understanding and generating unstructured text, their application in structured data remains underexplored. Particularly, using LLMs for complex reasoning tasks on knowledge graphs (KGs) remains largely untouched. To address this, we propose KG-GPT, a multi-purpose framework leveraging LLMs for tasks employing KGs. KG-GPT comprises three steps: Sentence Segmentation, Graph Retrieval, and Inference, each aimed at partitioning sentences, retrieving relevant graph components, and deriving logical conclusions, respectively. We evaluate KG-GPT using KG-based fact verification and KGQA benchmarks, with the model showing competitive and robust performance, even outperforming several fully-supervised models. Our work, therefore, marks a significant step in unifying structured and unstructured data processing within the realm of LLMs.
翻訳日:2023-10-18 16:00:19 公開日:2023-10-17
# 手書き文書の非破壊検査のための革新的方法

Innovative Methods for Non-Destructive Inspection of Handwritten Documents ( http://arxiv.org/abs/2310.11217v1 )

ライセンス: Link先を確認
Eleonora Breci (1), Luca Guarnera (1), Sebastiano Battiato (1) ((1) University of Catania)(参考訳) 手書き文書分析は法医学の一分野であり、本質的特徴の検証を通じて文書の著者シップを確立することを目的としている。 法執行機関は手書き文書のマニュアル処理に基づく標準プロトコルを使用する。 この方法は時間がかかり、しばしばその評価に主観的であり、複製可能ではない。 この制約を克服するために,本稿では,テキスト行の高さ,単語間空間,文字サイズに関する本質的尺度を画像処理と深層学習手法を用いて抽出・分析できる枠組みを提案する。 各文書の最終的な特徴ベクトルは、収集された各種類の測度の平均偏差と標準偏差からなる。 比較対象文書の特徴ベクトル間のユークリッド距離を定量化することにより、著者シップを識別することができる。 また,124人による紙やデジタルデバイスに書かれた362個の手書き原稿からなる,新しい,挑戦的なデータセットも提案した。 本研究は,従来の手書き文書とデジタルツール(タブレットなど)を用いた文書との比較を開拓した。 実験により, 異なる筆記媒体において著者を客観的に決定する手法が, 芸術の状態を上回っていることを示す。

Handwritten document analysis is an area of forensic science, with the goal of establishing authorship of documents through examination of inherent characteristics. Law enforcement agencies use standard protocols based on manual processing of handwritten documents. This method is time-consuming, is often subjective in its evaluation, and is not replicable. To overcome these limitations, in this paper we present a framework capable of extracting and analyzing intrinsic measures of manuscript documents related to text line heights, space between words, and character sizes using image processing and deep learning techniques. The final feature vector for each document involved consists of the mean and standard deviation for every type of measure collected. By quantifying the Euclidean distance between the feature vectors of the documents to be compared, authorship can be discerned. We also proposed a new and challenging dataset consisting of 362 handwritten manuscripts written on paper and digital devices by 124 different people. Our study pioneered the comparison between traditionally handwritten documents and those produced with digital tools (e.g., tablets). Experimental results demonstrate the ability of our method to objectively determine authorship in different writing media, outperforming the state of the art.
翻訳日:2023-10-18 16:00:01 公開日:2023-10-17
# アルゴリズムフェアネスにおけるフェアネスサロゲート関数の理解

Understanding Fairness Surrogate Functions in Algorithmic Fairness ( http://arxiv.org/abs/2310.11211v1 )

ライセンス: Link先を確認
Wei Yao, Zhanke Zhou, Zhicong Li, Bo Han, Yong Liu(参考訳) 機械学習アルゴリズムは特定の集団に対して偏りのある予測を示すことが観察されている。 このようなバイアスを最小限の精度で軽減するために、有望なアプローチは、関係する公正定義の代理関数を導入し、制約付き最適化問題を解くことである。 しかし、以前の研究で興味深い問題は、そのような公正な代理関数が不公平な結果をもたらす可能性があることである。 本研究は、この問題を深く理解するために、広く使われている公平性の定義、人口統計学的パリティを例に挙げ、公正性定義と公正な代理関数の間に代理的公正性ギャップがあることを理論的かつ実証的に示す。 ギャップ」は、代理関数がフェアネス定義の適切な代用であるかどうかを直接決定する。 また、「ギャップ」に関する理論的解析と実験結果から、非有界なサロゲート関数は決定境界から遠く離れた点に影響されることが示唆された。 そこで本研究では,厳密で信頼性の高い公平性保証を備えた一般シグモイドサロゲートを提案する。 興味深いことに、この理論は大きなマージンポイントを扱う2つの重要な問題に対する洞察を提供し、よりバランスの取れたデータセットを取得することは公平性にとって有益である。 さらに,「gap」を反復的に削減し,公平性を改善する「バランスド・サーロゲート」と呼ばれる新しい一般アルゴリズムを考案した。 最後に,本手法が実世界の3つのデータセットの公平性を向上することを示す実証的証拠を提供する。

It has been observed that machine learning algorithms exhibit biased predictions against certain population groups. To mitigate such bias while achieving comparable accuracy, a promising approach is to introduce surrogate functions of the concerned fairness definition and solve a constrained optimization problem. However, an intriguing issue in previous work is that such fairness surrogate functions may yield unfair results. In this work, in order to deeply understand this issue, taking a widely used fairness definition, demographic parity as an example, we both theoretically and empirically show that there is a surrogate-fairness gap between the fairness definition and the fairness surrogate function. The "gap" directly determines whether a surrogate function is an appropriate substitute for a fairness definition. Also, the theoretical analysis and experimental results about the "gap" motivate us that the unbounded surrogate functions will be affected by the points far from the decision boundary, which is the large margin points issue investigated in this paper. To address it, we propose the general sigmoid surrogate with a rigorous and reliable fairness guarantee. Interestingly, the theory also provides insights into two important issues that deal with the large margin points as well as obtaining a more balanced dataset are beneficial to fairness. Furthermore, we elaborate a novel and general algorithm called Balanced Surrogate, which iteratively reduces the "gap" to improve fairness. Finally, we provide empirical evidence showing that our methods achieve better fairness performance in three real-world datasets.
翻訳日:2023-10-18 15:59:44 公開日:2023-10-17
# テキストから画像への人物再同定のためのよりリッチな自己表現の学習

Learning Comprehensive Representations with Richer Self for Text-to-Image Person Re-Identification ( http://arxiv.org/abs/2310.11210v1 )

ライセンス: Link先を確認
Shuanglin Yan, Neng Dong, Jun Liu, Liyan Zhang, Jinhui Tang(参考訳) TIReID(Text-to-image person re-identification)は、クエリテキストに基づいて同一人物の歩行者画像を取得する。 しかし、TIReIDの既存の手法では、通常は1対1の画像テキストマッチングの問題として扱われ、ビュー内の画像テキストペア間の関係にのみ焦点を当てている。 同じアイデンティティの下でのビュー間の画像-テキストペアの多対多マッチングは考慮されていないため、既存のメソッドのパフォーマンスが低かった主な理由のひとつだ。 そこで本研究では,同一同一性の多対多対応を,新しい視点から両様相の包括的表現を学習することによりモデル化する,lcr$^2$sと呼ばれる単純かつ効果的な枠組みを提案する。 同一のアイデンティティの下で他の画像(テキスト)を用いて各画像(テキスト)に対するサポートセットを構築し、画像(テキスト)とそのサポートセットを融合させるマルチヘッド注意融合モジュールを設計する。 その結果、リッチな画像とテキストは複数のビューから情報を取り除き、多くの対多対応を持つよりリッチなTIReIDモデルをトレーニングするように整列する。 サポートセットは推論中に使用できないため、"リッチ"モデルによって学習された知識を、単一の画像/テキストを入力として推論のための軽量モデルに抽出する。 この軽量モデルはマルチビュー情報の意味的関連付けと推論に焦点を当てており、シングルビュー入力のみを含むマルチビュー情報を含む包括的な表現を生成して、推論中に正確なテキストから画像への検索を行うことができる。 特に、モーダル内特徴と「リッチ」モデルのモーダル間意味関係を用いて、軽量モデルを監督し、その強力な能力を継承する。 大規模な実験はLCR$^2$Sの有効性を示し、3つのTIReIDデータセット上で新しい最先端性能を実現する。

Text-to-image person re-identification (TIReID) retrieves pedestrian images of the same identity based on a query text. However, existing methods for TIReID typically treat it as a one-to-one image-text matching problem, only focusing on the relationship between image-text pairs within a view. The many-to-many matching between image-text pairs across views under the same identity is not taken into account, which is one of the main reasons for the poor performance of existing methods. To this end, we propose a simple yet effective framework, called LCR$^2$S, for modeling many-to-many correspondences of the same identity by learning comprehensive representations for both modalities from a novel perspective. We construct a support set for each image (text) by using other images (texts) under the same identity and design a multi-head attentional fusion module to fuse the image (text) and its support set. The resulting enriched image and text features fuse information from multiple views, which are aligned to train a "richer" TIReID model with many-to-many correspondences. Since the support set is unavailable during inference, we propose to distill the knowledge learned by the "richer" model into a lightweight model for inference with a single image/text as input. The lightweight model focuses on semantic association and reasoning of multi-view information, which can generate a comprehensive representation containing multi-view information with only a single-view input to perform accurate text-to-image retrieval during inference. In particular, we use the intra-modal features and inter-modal semantic relations of the "richer" model to supervise the lightweight model to inherit its powerful capability. Extensive experiments demonstrate the effectiveness of LCR$^2$S, and it also achieves new state-of-the-art performance on three popular TIReID datasets.
翻訳日:2023-10-18 15:59:16 公開日:2023-10-17
# 大規模言語モデルに自己説明は可能か? LLMによる自己説明の検討

Can Large Language Models Explain Themselves? A Study of LLM-Generated Self-Explanations ( http://arxiv.org/abs/2310.11207v1 )

ライセンス: Link先を確認
Shiyuan Huang, Siddarth Mamidanna, Shreedhar Jangam, Yilun Zhou, Leilani H. Gilpin(参考訳) ChatGPTのような大規模言語モデル(LLM)は、感情分析、数学的推論、要約を含む様々な自然言語処理(NLP)タスクにおいて優れた性能を示している。 さらに、これらのモデルは人間の会話を指導して「楽しい」応答を生成するため、自己説明(self-explanations)と呼ばれる応答とともに説明を生成できる。 例えば、映画レビューの感情を分析した場合、モデルは感情の肯定性だけでなく説明も出力することができる(例えば、レビューで「fantastic」や「memorable」といった感情に満ちた単語をリストアップすることで)。 これらの自動生成自己説明はどの程度優れているか? 本稿では,感情分析の課題と特徴帰属説明について検討し,解釈可能性の文献(ChatGPT前モデル)において最もよく研究されている設定の1つである。 具体的には, 自己説明を抽出し, 評価指標の集合に対する信頼度を評価し, 隠蔽マップやLIMEサリエンシマップなどの従来の説明手法と比較する。 広範な実験を通じて、chatgptの自己説明は従来のものと同等に機能するが、様々な合意基準でそれとは大きく異なることが分かり、一方で(予測と共に生成されるように)生産するコストもずっと安くなることがわかった。 さらに,それらの興味深い特徴を明らかにし,ChatGPT(-like) LLMの時代に,現在のモデル解釈可能性の実践を再考するきっかけとなった。

Large language models (LLMs) such as ChatGPT have demonstrated superior performance on a variety of natural language processing (NLP) tasks including sentiment analysis, mathematical reasoning and summarization. Furthermore, since these models are instruction-tuned on human conversations to produce "helpful" responses, they can and often will produce explanations along with the response, which we call self-explanations. For example, when analyzing the sentiment of a movie review, the model may output not only the positivity of the sentiment, but also an explanation (e.g., by listing the sentiment-laden words such as "fantastic" and "memorable" in the review). How good are these automatically generated self-explanations? In this paper, we investigate this question on the task of sentiment analysis and for feature attribution explanation, one of the most commonly studied settings in the interpretability literature (for pre-ChatGPT models). Specifically, we study different ways to elicit the self-explanations, evaluate their faithfulness on a set of evaluation metrics, and compare them to traditional explanation methods such as occlusion or LIME saliency maps. Through an extensive set of experiments, we find that ChatGPT's self-explanations perform on par with traditional ones, but are quite different from them according to various agreement metrics, meanwhile being much cheaper to produce (as they are generated along with the prediction). In addition, we identified several interesting characteristics of them, which prompt us to rethink many current model interpretability practices in the era of ChatGPT(-like) LLMs.
翻訳日:2023-10-18 15:58:45 公開日:2023-10-17
# 熱相転移検出における絡み合いエントロピーの限界

Limitations of entanglement entropy in detecting thermal phase transitions ( http://arxiv.org/abs/2310.11205v1 )

ライセンス: Link先を確認
Niko Jokela, Helime Ruotsalainen, Javier G. Subils(参考訳) ホログラフィック的に記述されたゲージ理論の族における熱相転移を検出するツールとしての絡み合いエントロピーの有効性について検討する。 これらの理論の豊かな位相図は、臨界点と三点と同様に、一階と二階の位相遷移を含む。 絡み合い測度はプラズマ相間の遷移の探索に成功しているものの、ガッピング相につながる相転移に適用すると不十分であることが証明される。 それでも、絡み合い対策は観測された相転移に関連する臨界指数を正確に決定し、これらのシステムの臨界挙動に関する貴重な洞察を与える。

We explore the efficacy of entanglement entropy as a tool for detecting thermal phase transitions in a family of gauge theories described holographically. The rich phase diagram of these theories encompasses first and second-order phase transitions, as well as a critical and a triple point. While entanglement measures demonstrate some success in probing transitions between plasma phases, they prove inadequate when applied to phase transitions leading to gapped phases. Nonetheless, entanglement measures excel in accurately determining the critical exponent associated with the observed phase transitions, providing valuable insight into the critical behavior of these systems.
翻訳日:2023-10-18 15:58:18 公開日:2023-10-17
# 弱視を利用してインドネシアの保全データセットを生成する

Utilizing Weak Supervision To Generate Indonesian Conservation Dataset ( http://arxiv.org/abs/2310.11258v1 )

ライセンス: Link先を確認
Mega Fransiska, Diah Pitaloka, Saripudin, Satrio Putra, Lintang Sutawika(参考訳) 弱監視は、NLP開発を加速する需要の増加に対応する、迅速かつ大規模データセット作成のための有望なアプローチとして現れている。 ラベル機能を利用することで、弱い監督により、ソフトラベル付きデータセットを生成する学習ラベルモデルを作成することで、実践者が迅速にデータセットを生成することができる。 本稿では,インドネシアのNLPデータセットを保護ニューステキストから構築する方法について述べる。 マルチクラス分類と感情分類の2種類のデータセットを構築した。 次に、様々な事前学習言語モデルを用いてベースライン実験を行う。 これらの基準値は59.79%の精度と55.72%のF1スコア、66.87%のF1スコアマクロ、71.5%のF1スコアマイクロ、83.67%のROC-AUCの試験結果を示している。 さらに,本研究で使用されるデータセットとラベル機能もリリースして,さらなる研究と探索を行う。

Weak supervision has emerged as a promising approach for rapid and large-scale dataset creation in response to the increasing demand for accelerated NLP development. By leveraging labeling functions, weak supervision allows practitioners to generate datasets quickly by creating learned label models that produce soft-labeled datasets. This paper aims to show how such an approach can be utilized to build an Indonesian NLP dataset from conservation news text. We construct two types of datasets: multi-class classification and sentiment classification. We then provide baseline experiments using various pretrained language models. These baseline results demonstrate test performances of 59.79% accuracy and 55.72% F1-score for sentiment classification, 66.87% F1-score-macro, 71.5% F1-score-micro, and 83.67% ROC-AUC for multi-class classification. Additionally, we release the datasets and labeling functions used in this work for further research and exploration.
翻訳日:2023-10-18 15:52:33 公開日:2023-10-17
# ドローン熱画像と物体検出を用いた野生生物の自動検出に関する実証的研究

An empirical study of automatic wildlife detection using drone thermal imaging and object detection ( http://arxiv.org/abs/2310.11257v1 )

ライセンス: Link先を確認
Miao Chang and Tan Vuong and Manas Palaparthi and Lachlan Howell and Alessio Bonti and Mohamed Abdelrazek and Duc Thanh Nguyen(参考訳) 人工知能は、野生動物データの収集と解釈のための費用対効果の高い方法を通じて、野生動物管理に有用な貢献をする可能性がある。 遠隔操縦型航空機システム(RPAS)や熱画像技術の最近の進歩は、野生生物データを収集するための新しいアプローチを生み出している。 これらの新興技術は、標準的なフィールド技術に代わる有望な代替手段を提供し、さらに広い範囲をカバーする可能性がある。 本研究では,ドローンを用いた野生生物検出の総合的レビューと実証研究を行う。 具体的には、ドローン由来の野生動物熱検出の現実的なデータセットを収集する。 野生生物(例えばコアラ、phascolarctos cinereus)および地上居住種を含む)の検出は、専門家によるバウンディングボックスによって注釈付けされる。 次に、収集したデータセット上で最先端のオブジェクト検出アルゴリズムをベンチマークする。 これらの実験結果を用いて,ドローンを用いた動物自動モニタリングにおける課題を特定し,今後の方向性について考察する。

Artificial intelligence has the potential to make valuable contributions to wildlife management through cost-effective methods for the collection and interpretation of wildlife data. Recent advances in remotely piloted aircraft systems (RPAS or ``drones'') and thermal imaging technology have created new approaches to collect wildlife data. These emerging technologies could provide promising alternatives to standard labourious field techniques as well as cover much larger areas. In this study, we conduct a comprehensive review and empirical study of drone-based wildlife detection. Specifically, we collect a realistic dataset of drone-derived wildlife thermal detections. Wildlife detections, including arboreal (for instance, koalas, phascolarctos cinereus) and ground dwelling species in our collected data are annotated via bounding boxes by experts. We then benchmark state-of-the-art object detection algorithms on our collected dataset. We use these experimental results to identify issues and discuss future directions in automatic animal monitoring using drones.
翻訳日:2023-10-18 15:52:17 公開日:2023-10-17
# ガウス混合模型空間におけるgromov-wassertein様距離

Gromov-Wassertein-like Distances in the Gaussian Mixture Models Space ( http://arxiv.org/abs/2310.11256v1 )

ライセンス: Link先を確認
Antoine Salmona, Julie Delon, Agn\`es Desolneux(参考訳) 本稿ではGromov-Wasserstein-type distances on the set of Gaussian mix modelについて述べる。 1つは、ガウス測度空間の2つの離散分布子の間のグロモフ・ワッサーシュタイン距離の形式をとる。 この距離はgromov-wassersteinの代替として、分布が互いにどれだけ離れているかを評価することしか必要とせず、点の雲間の最適輸送計画を直接導出することができないアプリケーションで使用できる。 このような交通計画を定義する方法を設計するために、グロモフ=ワッセルシュタインと密接な関係にあることが判明した、非比較可能な空間に住む測度間の別の距離を導入する。 この後者において、許容される輸送結合の集合をそれ自体がガウス混合モデルに制限する場合、これはグロモフ=ワッサーシュタインの代替として使用でき、点間の最適な割り当てを導出できるガウス混合モデルの間の別の距離を定義する。 最後に,第1距離と第2距離の類似による交通計画の設計を行い,形状マッチングやハイパースペクトル画像色移動といった中規模から大規模の課題に対する実用的利用について述べる。

In this paper, we introduce two Gromov-Wasserstein-type distances on the set of Gaussian mixture models. The first one takes the form of a Gromov-Wasserstein distance between two discrete distributionson the space of Gaussian measures. This distance can be used as an alternative to Gromov-Wasserstein for applications which only require to evaluate how far the distributions are from each other but does not allow to derive directly an optimal transportation plan between clouds of points. To design a way to define such a transportation plan, we introduce another distance between measures living in incomparable spaces that turns out to be closely related to Gromov-Wasserstein. When restricting the set of admissible transportation couplings to be themselves Gaussian mixture models in this latter, this defines another distance between Gaussian mixture models that can be used as another alternative to Gromov-Wasserstein and which allows to derive an optimal assignment between points. Finally, we design a transportation plan associated with the first distance by analogy with the second, and we illustrate their practical uses on medium-to-large scale problems such as shape matching and hyperspectral image color transfer.
翻訳日:2023-10-18 15:52:01 公開日:2023-10-17
# 産業データ中心R&Dサイクルの自動進化のための大規模言語モデルの導入

Leveraging Large Language Model for Automatic Evolving of Industrial Data-Centric R&D Cycle ( http://arxiv.org/abs/2310.11249v1 )

ライセンス: Link先を確認
Xu Yang, Xiao Yang, Weiqing Liu, Jinhui Li, Peng Yu, Zeqi Ye, Jiang Bian(参考訳) 無関係なデジタルトランスフォーメーションの結果として、データ駆動ソリューションは、予測、異常検出、計画、さらには複雑な意思決定といった多種多様な産業タスクに対処する強力なツールとして登場しています。 データ中心のR&Dはこれらのソリューションを活用する上で重要な役割を担っているが、人間、計算、時間資源といった面では大きなコストが伴うことが多い。 本稿では,データ中心R&Dの進化サイクルを早めるために,大規模言語モデル(LLM)の可能性を検討する。 ヘテロジニアスなタスク関連データ、多面的ドメイン知識、多様なコンピューティング機能ツールなど、データ中心のR&Dの基礎的要素を評価し、LLMがドメイン固有の要件をどのように理解し、プロフェッショナルなアイデアを生成し、ドメイン固有のツールを使用して実験を行い、結果を解釈し、過去の取り組みから得た知識を取り入れて、新たな課題に取り組みます。 我々は、産業データ中心R&Dシナリオの典型例として量的投資研究を取り上げ、我々のフルスタックのオープンソースの量的研究プラットフォームQlib上で提案された枠組みを検証し、産業データ中心R&Dサイクルの自動進化というビジョンに光を当てた有望な結果を得た。

In the wake of relentless digital transformation, data-driven solutions are emerging as powerful tools to address multifarious industrial tasks such as forecasting, anomaly detection, planning, and even complex decision-making. Although data-centric R&D has been pivotal in harnessing these solutions, it often comes with significant costs in terms of human, computational, and time resources. This paper delves into the potential of large language models (LLMs) to expedite the evolution cycle of data-centric R&D. Assessing the foundational elements of data-centric R&D, including heterogeneous task-related data, multi-facet domain knowledge, and diverse computing-functional tools, we explore how well LLMs can understand domain-specific requirements, generate professional ideas, utilize domain-specific tools to conduct experiments, interpret results, and incorporate knowledge from past endeavors to tackle new challenges. We take quantitative investment research as a typical example of industrial data-centric R&D scenario and verified our proposed framework upon our full-stack open-sourced quantitative research platform Qlib and obtained promising results which shed light on our vision of automatic evolving of industrial data-centric R&D cycle.
翻訳日:2023-10-18 15:51:41 公開日:2023-10-17
# CrossCodeEval:クロスファイルコード補完のための多言語ベンチマーク

CrossCodeEval: A Diverse and Multilingual Benchmark for Cross-File Code Completion ( http://arxiv.org/abs/2310.11248v1 )

ライセンス: Link先を確認
Yangruibo Ding, Zijian Wang, Wasi Uddin Ahmad, Hantian Ding, Ming Tan, Nihal Jain, Murali Krishna Ramanathan, Ramesh Nallapati, Parminder Bhatia, Dan Roth, Bing Xiang(参考訳) 近年、コード補完モデルは大幅に進歩しているが、HumanEvalやMBPPといった一般的な評価データセットは、主に単一のファイル内のコード補完タスクに焦点を当てている。 この単純化された設定は、多数のクロスファイル依存関係を持つ複数のファイルにレポジトリがまたがる実際のソフトウェア開発シナリオを表現するものではありません。 このギャップを埋めるために、我々はCrossCodeEvalを提案する。CrossCodeEvalは多種多様な多言語コード補完ベンチマークで、正確にコードを完成させるために、詳細なクロスファイルのコンテキスト理解を必要とする。 CrossCodeEvalは、Python、Java、TypeScript、C#という4つの人気のあるプログラミング言語で、さまざまな現実世界、オープンソース、パーミッシブライセンスのリポジトリ上に構築されている。 正確な完了のためにクロスファイルコンテキストを厳密に要求する例を作成するために、我々は、現在のファイル内でクロスファイルコンテキストの使用をピンポイントする、単純かつ効率的な静的分析に基づくアプローチを提案する。 CodeGenやStarCoderのような最先端のコード言語モデルに関する大規模な実験では、関連するクロスファイルコンテキストが欠如している場合、CrossCodeEvalは非常に難しいことが示されています。 しかしながら、このような改善にもかかわらず、最高性能のモデルでさえ、パフォーマンスの頂点は明らかに未完成であり、CrossCodeEvalは、コード補完を改善するために広範囲なコンテキストを活用するモデルの能力も評価できることを示している。 最後に、クロスファイルコンテキストの検索において様々なメソッドをベンチマークし、コード検索の能力を測定するためにCrossCodeEvalを使用できることを示す。

Code completion models have made significant progress in recent years, yet current popular evaluation datasets, such as HumanEval and MBPP, predominantly focus on code completion tasks within a single file. This over-simplified setting falls short of representing the real-world software development scenario where repositories span multiple files with numerous cross-file dependencies, and accessing and understanding cross-file context is often required to complete the code correctly. To fill in this gap, we propose CrossCodeEval, a diverse and multilingual code completion benchmark that necessitates an in-depth cross-file contextual understanding to complete the code accurately. CrossCodeEval is built on a diverse set of real-world, open-sourced, permissively-licensed repositories in four popular programming languages: Python, Java, TypeScript, and C#. To create examples that strictly require cross-file context for accurate completion, we propose a straightforward yet efficient static-analysis-based approach to pinpoint the use of cross-file context within the current file. Extensive experiments on state-of-the-art code language models like CodeGen and StarCoder demonstrate that CrossCodeEval is extremely challenging when the relevant cross-file context is absent, and we see clear improvements when adding these context into the prompt. However, despite such improvements, the pinnacle of performance remains notably unattained even with the highest-performing model, indicating that CrossCodeEval is also capable of assessing model's capability in leveraging extensive context to make better code completion. Finally, we benchmarked various methods in retrieving cross-file context, and show that CrossCodeEval can also be used to measure the capability of code retrievers.
翻訳日:2023-10-18 15:51:17 公開日:2023-10-17
# query2triple: 知識グラフ上の多様な複雑なクエリに応答する統一クエリエンコーディング

Query2Triple: Unified Query Encoding for Answering Diverse Complex Queries over Knowledge Graphs ( http://arxiv.org/abs/2310.11246v1 )

ライセンス: Link先を確認
Yao Xu, Shizhu He, Cunguang Wang, Li Cai, Kang Liu, Jun Zhao(参考訳) 複雑なクエリ応答(cqa)は、知識グラフのチャレンジタスク(kg)である。 KGの不完全性のため、クエリとエンティティを同じ埋め込み空間にエンコードし、論理演算子をニューラルネットワーク演算子として扱い、答えを得るためにQE法が提案されている。 しかし、これらの手法は単純な(ワンホップ)クエリと複雑(マルチホップと論理)クエリの両方でKG埋め込みとニューラルセット演算子を同時に訓練し、単純なクエリのパフォーマンス劣化とトレーニング効率の低下を引き起こす。 本稿では、単純で複雑なクエリのトレーニングを分離する新しいアプローチであるQuery to Triple (Q2T)を提案する。 Q2Tはトレーニングを2段階に分割する: 1) 単純なクエリでニューラルリンク予測器を事前訓練し、ヘッドエンティティとリレーションに基づいてテールエンティティを予測する。 2) 複雑なクエリのクエリエンコーダを訓練し,様々な複雑なクエリを事前学習したニューラルネットワーク予測器で効率的に解ける3重形式に符号化する。 提案するq2tは, 学習に効率的であるだけでなく, モジュール性にも優れており, 様々なニューラルネットワーク予測器に容易に適応できる。 大規模な実験では、ニューラルネットワーク演算子の明示的なモデリングがなくても、Q2Tは3つの公開ベンチマークで様々な複雑なクエリに対して最先端のパフォーマンスを達成している。

Complex Query Answering (CQA) is a challenge task of Knowledge Graph (KG). Due to the incompleteness of KGs, query embedding (QE) methods have been proposed to encode queries and entities into the same embedding space, and treat logical operators as neural set operators to obtain answers. However, these methods train KG embeddings and neural set operators concurrently on both simple (one-hop) and complex (multi-hop and logical) queries, which causes performance degradation on simple queries and low training efficiency. In this paper, we propose Query to Triple (Q2T), a novel approach that decouples the training for simple and complex queries. Q2T divides the training into two stages: (1) Pre-training a neural link predictor on simple queries to predict tail entities based on the head entity and relation. (2) Training a query encoder on complex queries to encode diverse complex queries into a unified triple form that can be efficiently solved by the pretrained neural link predictor. Our proposed Q2T is not only efficient to train, but also modular, thus easily adaptable to various neural link predictors that have been studied well. Extensive experiments demonstrate that, even without explicit modeling for neural set operators, Q2T still achieves state-of-the-art performance on diverse complex queries over three public benchmarks.
翻訳日:2023-10-18 15:50:46 公開日:2023-10-17
# 大規模言語モデルを用いたエンティティマッチング

Entity Matching using Large Language Models ( http://arxiv.org/abs/2310.11244v1 )

ライセンス: Link先を確認
Ralph Peeters, Christian Bizer(参考訳) エンティティマッチングは、2つのエンティティ記述が同じ現実世界のエンティティを指すかどうかを決定するタスクである。 エンティティマッチングは、ほとんどのデータ統合パイプラインにおける中心的なステップであり、異なるベンダーの製品にマッチする必要がある多くのEコマースアプリケーションのためのイネーブラーである。 最先端のエンティティマッチング手法は、BERTやRoBERTaのような事前訓練された言語モデル(PLM)に依存することが多い。 エンティティマッチングのためのこれらのモデルの2つの大きな欠点は 一 相当量のタスク特化訓練データを必要とするモデル (ii) 細調整されたモデルは分布外エンティティに関して堅牢ではない。 本稿では,エンティティマッチングのための大規模言語モデル (LLM) を,ドメイン固有のトレーニングデータに頼らず,PLMベースのマーカに代わる堅牢な代替手段として利用することを検討する。 本研究は, GPT3.5 や GPT4 などのホスト LLM と,Llama2 をベースとしたオープンソース LLM をローカルで実行可能にする。 タスク固有のトレーニングデータが利用可能なシナリオと同様に、ゼロショットシナリオでこれらのモデルを評価する。 ゼロショットシナリオにおいて、異なるプロンプト設計とモデルの迅速な感度を比較した。 調査して (i)文脈内デモの選択。 (二)一致規則の生成及び一致規則 3)異なるアプローチで同じトレーニングデータのプールを使用して,第2のシナリオでGPT3.5を微調整する。 実験の結果,タスク固有のトレーニングデータを持たないGPT4は,5つのベンチマークデータセットのうち,F1スコアの約90%に到達し,微調整されたPLM(RoBERTa,Ditto)よりも優れていた。 文脈内学習とルール生成による実験は、GPT4の傍にある全てのモデルがこれらの技術(平均5.9%と2.2% F1)の恩恵を受けていることを示している。

Entity Matching is the task of deciding whether two entity descriptions refer to the same real-world entity. Entity Matching is a central step in most data integration pipelines and an enabler for many e-commerce applications which require to match products offers from different vendors. State-of-the-art entity matching methods often rely on pre-trained language models (PLMs) such as BERT or RoBERTa. Two major drawbacks of these models for entity matching are that (i) the models require significant amounts of task-specific training data and (ii) the fine-tuned models are not robust concerning out-of-distribution entities. In this paper, we investigate using large language models (LLMs) for entity matching as a less domain-specific training data reliant and more robust alternative to PLM-based matchers. Our study covers hosted LLMs, such as GPT3.5 and GPT4, as well as open source LLMs based on Llama2 which can be run locally. We evaluate these models in a zero-shot scenario as well as a scenario where task-specific training data is available. We compare different prompt designs as well as the prompt sensitivity of the models in the zero-shot scenario. We investigate (i) the selection of in-context demonstrations, (ii) the generation of matching rules, as well as (iii) fine-tuning GPT3.5 in the second scenario using the same pool of training data across the different approaches. Our experiments show that GPT4 without any task-specific training data outperforms fine-tuned PLMs (RoBERTa and Ditto) on three out of five benchmark datasets reaching F1 scores around 90%. The experiments with in-context learning and rule generation show that all models beside of GPT4 benefit from these techniques (on average 5.9% and 2.2% F1), while GPT4 does not need such additional guidance in most cases...
翻訳日:2023-10-18 15:50:19 公開日:2023-10-17
# LiDARによる4次元作業完了と予測

LiDAR-based 4D Occupancy Completion and Forecasting ( http://arxiv.org/abs/2310.11239v1 )

ライセンス: Link先を確認
Xinhao Liu, Moonjun Gong, Qi Fang, Haoyu Xie, Yiming Li, Hang Zhao, Chen Feng(参考訳) シーンの完成と予測は、自動運転車のようなモバイルエージェントの研究における2つの一般的な認識問題である。 既存のアプローチは2つの問題を分離して扱い、2つの側面を別々に認識する。 本稿では、自律運転の文脈において、これらの側面を結合的な枠組みに統一する新しいLiDAR認識タスクであるOccupancy Completion and Forecasting(OCF)を紹介する。 本課題は,(1)スパース・トゥ・デンス再構成,(2)部分的・完全幻覚,(3)3次元から4次元の予測という3つの課題に対処する新しいアルゴリズムを必要とする。 監視と評価を可能にするため、公共の自動運転データセットからOCFBenchと呼ばれる大規模データセットをキュレートする。 我々は,我々のデータセット上で,既存のベースラインモデルと私たち自身のモデルのパフォーマンスを分析する。 この研究は、この進化し重要な4D知覚領域のさらなる研究を呼び起こすことを期待している。 データキュレーションとベースライン実装のコードはhttps://github.com/ai4ce/occ4cast.com/で利用可能です。

Scene completion and forecasting are two popular perception problems in research for mobile agents like autonomous vehicles. Existing approaches treat the two problems in isolation, resulting in a separate perception of the two aspects. In this paper, we introduce a novel LiDAR perception task of Occupancy Completion and Forecasting (OCF) in the context of autonomous driving to unify these aspects into a cohesive framework. This task requires new algorithms to address three challenges altogether: (1) sparse-to-dense reconstruction, (2) partial-to-complete hallucination, and (3) 3D-to-4D prediction. To enable supervision and evaluation, we curate a large-scale dataset termed OCFBench from public autonomous driving datasets. We analyze the performance of closely related existing baseline models and our own ones on our dataset. We envision that this research will inspire and call for further investigation in this evolving and crucial area of 4D perception. Our code for data curation and baseline implementation is available at https://github.com/ai4ce/Occ4cast.
翻訳日:2023-10-18 15:49:52 公開日:2023-10-17
# 軽量量子化による透かしLDM

Watermarking LLMs with Weight Quantization ( http://arxiv.org/abs/2310.11237v1 )

ライセンス: Link先を確認
Linyang Li, Botian Jiang, Pengyu Wang, Ke Ren, Hang Yan, Xipeng Qiu(参考訳) 大きな言語モデルの使用は、大きな言語モデルが驚くべきスピードでデプロイされているため、高いリスクを明らかにします。 オープンソースの大規模言語モデルのライセンスに違反する悪質な使用を避けるために、モデル重みを守ることが重要である。 本稿では,推論中に事前定義されたトリガーを使わずに,大規模言語モデルの量子化過程に透かしを植え込む新しい透かし戦略を提案する。 ウォーターマークは、モデルがfp32モードで使用され、モデルが int8 に量子化されると隠されたままであるときに機能する。 GPT-Neo や LLaMA など,オープンソースの大規模言語モデルに透かしを組み込むことに成功した。 提案手法は,大規模言語モデルアプリケーションの時代において,モデル重みを保護できる可能性を秘めている。

Abuse of large language models reveals high risks as large language models are being deployed at an astonishing speed. It is important to protect the model weights to avoid malicious usage that violates licenses of open-source large language models. This paper proposes a novel watermarking strategy that plants watermarks in the quantization process of large language models without pre-defined triggers during inference. The watermark works when the model is used in the fp32 mode and remains hidden when the model is quantized to int8, in this way, the users can only inference the model without further supervised fine-tuning of the model. We successfully plant the watermark into open-source large language model weights including GPT-Neo and LLaMA. We hope our proposed method can provide a potential direction for protecting model weights in the era of large language model applications.
翻訳日:2023-10-18 15:49:32 公開日:2023-10-17
# 代数的操作によるダイアグラムの充実

Enriching Diagrams with Algebraic Operations ( http://arxiv.org/abs/2310.11288v1 )

ライセンス: Link先を確認
Alejandro Villoria, Henning Basold, Alfons Laarman(参考訳) 本稿では,代数演算と方程式を持つモノイド圏の図式推論を拡張する。 我々は、モナドに対するアイレンバーグ-ムーア環の圏に富むモノイド圏を考えることによってこれを達成する。 このモナドがモノイドとアフィンであるという条件の下で、モナドに対する対称モノイド圏と対称モノイド圏の間の結合を構築する。 これにより、有限分布モナドの代数である凸代数を自由に拡張することにより、確率的選択を持つZX-計算の拡張とその意味論を考案することができる。 この構成を量子システムにおけるノイズの図式推論に利用できることを示す。

In this paper, we extend diagrammatic reasoning in monoidal categories with algebraic operations and equations. We achieve this by considering monoidal categories that are enriched in the category of Eilenberg-Moore algebras for a monad. Under the condition that this monad is monoidal and affine, we construct an adjunction between symmetric monoidal categories and symmetric monoidal categories enriched over algebras for the monad. This allows us to devise an extension, and its semantics, of the ZX-calculus with probabilistic choices by freely enriching over convex algebras, which are the algebras of the finite distribution monad. We show how this construction can be used for diagrammatic reasoning of noise in quantum systems.
翻訳日:2023-10-18 15:41:39 公開日:2023-10-17
# 人道援助の食品安全保障への影響評価

Evaluating the Impact of Humanitarian Aid on Food Security ( http://arxiv.org/abs/2310.11287v1 )

ライセンス: Link先を確認
Jordi Cerd\`a-Bautista, Jos\'e Mar\'ia T\'arraga, Vasileios Sitokonstantinou and Gustau Camps-Valls(参考訳) 気候変動による干ばつに直面し、脆弱な地域は食料安全保障への深刻な脅威に直面し、緊急の人道支援を要求している。 本稿では,現金による介入が食糧危機に与える影響を評価することを目的としたアフリカホーンの因果推論フレームワークを提案する。 我々の貢献は、食品安全保障システム内の因果関係の特定、包括的データベースの調和、栄養失調に対する人道的介入の因果効果の推定を含む。 以上の結果から,食品の安全性などの多分野システムに対する理解の限界から,サンプルサイズやデータ品質の限界,不完全な因果グラフなど,有意な影響は認められなかった。 これは、人道支援における透明性と説明責任の改善、より効果的な将来の介入とポリシーのために、データ収集を強化し、ドメインエキスパートと因果モデルを洗練する必要性を強調する。

In the face of climate change-induced droughts, vulnerable regions encounter severe threats to food security, demanding urgent humanitarian assistance. This paper introduces a causal inference framework for the Horn of Africa, aiming to assess the impact of cash-based interventions on food crises. Our contributions encompass identifying causal relationships within the food security system, harmonizing a comprehensive database, and estimating the causal effect of humanitarian interventions on malnutrition. Our results revealed no significant effects, likely due to limited sample size, suboptimal data quality, and an imperfect causal graph resulting from our limited understanding of multidisciplinary systems like food security. This underscores the need to enhance data collection and refine causal models with domain experts for more effective future interventions and policies, improving transparency and accountability in humanitarian aid.
翻訳日:2023-10-18 15:41:18 公開日:2023-10-17
# 局所剛性を用いた自己監督型3次元シーンフロー推定と動き予測

Self-Supervised 3D Scene Flow Estimation and Motion Prediction using Local Rigidity Prior ( http://arxiv.org/abs/2310.11284v1 )

ライセンス: Link先を確認
Ruibo Li, Chi Zhang, Zhe Wang, Chunhua Shen, Guosheng Lin(参考訳) 本稿では,点雲上での自己監督型3次元シーンフロー推定とクラス非依存動作予測について検討する。 現実的なシーンは、厳格に動く部品の集合としてうまくモデル化できるので、そのシーンフローは、これらの個々の部品の剛性運動の組合せとして表現することができる。 そこで本研究では,各領域を局所的に分解し,各領域を剛性として扱う,厳密な動き推定により,自己教師型学習のための擬似シーンフローラベルを生成することを提案する。 ターゲット点雲に各領域を強固に配向させることにより、その擬似フローラベルを生成するための領域固有の剛性変換が得られる。 ラベル生成における潜在的な外れ値の影響を軽減するため,各領域の厳密な登録を解く際には,点対応の確立,対応の信頼度の測定,対応と信頼度に基づいて剛性変換を更新する3つのステップを交互に実施する。 その結果、信頼度対応がラベル生成を支配し、生成した擬似ラベルに対して妥当性マスクが導出される。 疑似ラベルと有効性マスクを併用して監視することで、モデルを自己監督で訓練することができる。 FlyingThings3D と KITTI データセットの大規模な実験により,本手法が自己監督型シーンフロー学習における新たな最先端性能を実現することを示す。 さらに,本手法はクラス非依存の動作予測にも拡張され,従来のnuScenesデータセットの自己管理手法よりも優れていた。

In this article, we investigate self-supervised 3D scene flow estimation and class-agnostic motion prediction on point clouds. A realistic scene can be well modeled as a collection of rigidly moving parts, therefore its scene flow can be represented as a combination of the rigid motion of these individual parts. Building upon this observation, we propose to generate pseudo scene flow labels for self-supervised learning through piecewise rigid motion estimation, in which the source point cloud is decomposed into local regions and each region is treated as rigid. By rigidly aligning each region with its potential counterpart in the target point cloud, we obtain a region-specific rigid transformation to generate its pseudo flow labels. To mitigate the impact of potential outliers on label generation, when solving the rigid registration for each region, we alternately perform three steps: establishing point correspondences, measuring the confidence for the correspondences, and updating the rigid transformation based on the correspondences and their confidence. As a result, confident correspondences will dominate label generation and a validity mask will be derived for the generated pseudo labels. By using the pseudo labels together with their validity mask for supervision, models can be trained in a self-supervised manner. Extensive experiments on FlyingThings3D and KITTI datasets demonstrate that our method achieves new state-of-the-art performance in self-supervised scene flow learning, without any ground truth scene flow for supervision, even performing better than some supervised counterparts. Additionally, our method is further extended to class-agnostic motion prediction and significantly outperforms previous state-of-the-art self-supervised methods on nuScenes dataset.
翻訳日:2023-10-18 15:40:52 公開日:2023-10-17
# ChapGTP, ILLCによるベイビーフィルムのライジングの試み: 自動タスク形成によるデータ効率の向上

ChapGTP, ILLC's Attempt at Raising a BabyLM: Improving Data Efficiency by Automatic Task Formation ( http://arxiv.org/abs/2310.11282v1 )

ライセンス: Link先を確認
Jaap Jumelet, Michael Hanna, Marianne de Heer Kloots, Anna Langedijk, Charlotte Pouw, Oskar van der Wal(参考訳) 我々は,アムステルダム大学のbabylm challenge (warstadt et al., 2023) への illc の提出について,厳格な小型トラックで紹介する。 最後のモデルであるChapGTPは200のエポックでトレーニングされたマスキング言語モデルであり、Automatic Task Formationと呼ばれる新しいデータ拡張技術によって支援されている。 本稿では,BLiMP,(Super)GLUE,MSGSの3つの評価スイートにおいて,このモデルの性能について詳細に論じる。 さらに,最終的にはモデルに含まれなかったが,低リソース環境でのlmsトレーニングにインスピレーションを与える可能性がある,幅広い手法を提案する。

We present the submission of the ILLC at the University of Amsterdam to the BabyLM challenge (Warstadt et al., 2023), in the strict-small track. Our final model, ChapGTP, is a masked language model that was trained for 200 epochs, aided by a novel data augmentation technique called Automatic Task Formation. We discuss in detail the performance of this model on the three evaluation suites: BLiMP, (Super)GLUE, and MSGS. Furthermore, we present a wide range of methods that were ultimately not included in the model, but may serve as inspiration for training LMs in low-resource settings.
翻訳日:2023-10-18 15:40:15 公開日:2023-10-17
# 自己スーパービジョンがカーネルグラフニューラルモデルに到達:アーキテクチャから拡張へ

Self-supervision meets kernel graph neural models: From architecture to augmentations ( http://arxiv.org/abs/2310.11281v1 )

ライセンス: Link先を確認
Jiawang Dan, Ruofan Wu, Yunpeng Liu, Baokun Wang, Changhua Meng, Tengfei Liu, Tianyi Zhang, Ningtao Wang, Xing Fu, Qi Li, Weiqiang Wang(参考訳) グラフ表現学習は、現在最も普及しているアルゴリズムツールであるメッセージパッシンググラフニューラルネットワーク(mpnn)のフレームワークを用いて、グラフ構造化データを扱う際のデファクトスタンダードとなっている。 人気にもかかわらず、MPNNの家族は透明性や表現性といったいくつかの欠点に悩まされている。 近年、グラフカーネルの理論を用いたグラフ上のニューラルモデルの設計は、カーネルグラフニューラルネットワーク(kgnns)として知られるmpnnの代替として、より透明で表現力に富むものになってきた。 KGNNの開発は現在、アルゴリズム設計から自己教師型学習などの他の学習パラダイムへの適応に至るまで、いくつかの課題を残している。 本稿では,KGNNの設計と学習を改善する。 まず、ランダムウォークグラフカーネルのような従来の提案を包含するより柔軟なグラフレベルの類似性定義と、組合せ学習手順を導入する必要性を緩和するスムーズな最適化目標を提供することにより、KGNNのアルゴリズム定式化を拡張する。 次に,新しい構造保存型グラフデータ拡張法である潜在グラフ拡張法(lga)の開発により,自己スーパービジョンのレンズを通してkgnnを増強する。 最後に,提案手法の有効性を実証するための広範な実験評価を行った。 ベンチマークデータセットに対する実験結果から,提案手法は,グラフ分類タスクの自己監督の有無にかかわらず,最先端のグラフ表現学習フレームワークに匹敵する,あるいは,時として優れる競合性能を実現することが示唆された。 従来のグラフデータ拡張手法との比較により,提案手法がグラフレベルの不変性のセマンティクスを向上することを確認した。

Graph representation learning has now become the de facto standard when handling graph-structured data, with the framework of message-passing graph neural networks (MPNN) being the most prevailing algorithmic tool. Despite its popularity, the family of MPNNs suffers from several drawbacks such as transparency and expressivity. Recently, the idea of designing neural models on graphs using the theory of graph kernels has emerged as a more transparent as well as sometimes more expressive alternative to MPNNs known as kernel graph neural networks (KGNNs). Developments on KGNNs are currently a nascent field of research, leaving several challenges from algorithmic design and adaptation to other learning paradigms such as self-supervised learning. In this paper, we improve the design and learning of KGNNs. Firstly, we extend the algorithmic formulation of KGNNs by allowing a more flexible graph-level similarity definition that encompasses former proposals like random walk graph kernel, as well as providing a smoother optimization objective that alleviates the need of introducing combinatorial learning procedures. Secondly, we enhance KGNNs through the lens of self-supervision via developing a novel structure-preserving graph data augmentation method called latent graph augmentation (LGA). Finally, we perform extensive empirical evaluations to demonstrate the efficacy of our proposed mechanisms. Experimental results over benchmark datasets suggest that our proposed model achieves competitive performance that is comparable to or sometimes outperforming state-of-the-art graph representation learning frameworks with or without self-supervision on graph classification tasks. Comparisons against other previously established graph data augmentation methods verify that the proposed LGA augmentation scheme captures better semantics of graph-level invariance.
翻訳日:2023-10-18 15:39:57 公開日:2023-10-17
# グループ化残差ネットワークを用いたビデオ超解像

Video Super-Resolution Using a Grouped Residual in Residual Network ( http://arxiv.org/abs/2310.11276v1 )

ライセンス: Link先を確認
MohammadHossein Ashoori, and Arash Amini(参考訳) 超解像 (SR) は画質改善に伴う画像/映像コンテンツの名目上の解像度を高める技術である。 ビデオ超解像(VSR)は、単一画像超解像(SISR)の一般化と見なすことができる。 この一般化は、隣接する入力フレームを使用して出力にさらに詳細が生成されるようにすべきである。 本稿では,VSRのためのグループ化残差ネットワーク(GRRN)を提案する。 提案手法のハイパーパラメータを調整することで,パラメータの異なる3つのネットワークを訓練し,その定量的・定性的結果を既存の手法と比較した。 いくつかの定量的基準に基づき、GRRNは既存の手法よりも優れた結果を提供していないが、出力画像の品質は許容できる性能を持っている。

Super-resolution (SR) is the technique of increasing the nominal resolution of image / video content accompanied with quality improvement. Video super-resolution (VSR) can be considered as the generalization of single image super-resolution (SISR). This generalization should be such that more detail is created in the output using adjacent input frames. In this paper, we propose a grouped residual in residual network (GRRN) for VSR. By adjusting the hyperparameters of the proposed structure, we train three networks with different numbers of parameters and compare their quantitative and qualitative results with the existing methods. Although based on some quantitative criteria, GRRN does not provide better results than the existing methods, in terms of the quality of the output image it has acceptable performance.
翻訳日:2023-10-18 15:39:27 公開日:2023-10-17
# xMEN: 言語間医療エンティティ正規化のためのモジュールツールキット

xMEN: A Modular Toolkit for Cross-Lingual Medical Entity Normalization ( http://arxiv.org/abs/2310.11275v1 )

ライセンス: Link先を確認
Florian Borchert, Ignacio Llorca, Roland Roller, Bert Arnrich, Matthieu-P. Schapranow(参考訳) 目的: 多くの言語、特に英語に比べて言語リソースが少ない場合に、医療エンティティの正規化のパフォーマンスを改善すること。 材料と方法:我々は,言語間医療エンティティ正規化のためのモジュールシステムであるxmenを紹介する。 対象言語におけるシノニムが与えられた用語に乏しい場合、英語のエイリアスを言語間候補生成によって活用する。 候補ランキングには、対象タスクのアノテーションが利用可能であれば、トレーニング可能なクロスエンコーダモデルを組み込む。 また、高リソース領域からの機械翻訳データセットに基づいて、弱い教師の方法で訓練されたクロスエンコーダを評価する。 当社のシステムは、拡張可能なpythonツールキットとして公開されています。 結果: xMENは、幅広い多言語ベンチマークデータセットで最先端のパフォーマンスを改善する。 弱い教師付きクロスエンコーダは、対象タスクのトレーニングデータがない場合に有効である。 xMENとBigBIOフレームワークとの互換性により、既存の予測データセットで簡単に使用することができる。 考察: クロスエンコーダの損失関数におけるランク正規化項により, 汎用候補生成器とトレーニング可能な再ランカとの出力のバランスをとることの重要性を示す。 しかし、エラー解析により、マルチワード式や他の複雑なエンティティは依然として困難であることが分かる。 結論: xMENは、ラベル付きデータやターゲット言語の用語エイリアスが少ない場合でも、複数の言語で医療エンティティの正規化に強い性能を示す。 その構成システムと評価モジュールは再現可能なベンチマークを可能にする。 モデルとコードは以下のURLでオンラインで公開されている。

Objective: To improve performance of medical entity normalization across many languages, especially when fewer language resources are available compared to English. Materials and Methods: We introduce xMEN, a modular system for cross-lingual medical entity normalization, which performs well in both low- and high-resource scenarios. When synonyms in the target language are scarce for a given terminology, we leverage English aliases via cross-lingual candidate generation. For candidate ranking, we incorporate a trainable cross-encoder model if annotations for the target task are available. We also evaluate cross-encoders trained in a weakly supervised manner based on machine-translated datasets from a high resource domain. Our system is publicly available as an extensible Python toolkit. Results: xMEN improves the state-of-the-art performance across a wide range of multilingual benchmark datasets. Weakly supervised cross-encoders are effective when no training data is available for the target task. Through the compatibility of xMEN with the BigBIO framework, it can be easily used with existing and prospective datasets. Discussion: Our experiments show the importance of balancing the output of general-purpose candidate generators with subsequent trainable re-rankers, which we achieve through a rank regularization term in the loss function of the cross-encoder. However, error analysis reveals that multi-word expressions and other complex entities are still challenging. Conclusion: xMEN exhibits strong performance for medical entity normalization in multiple languages, even when no labeled data and few terminology aliases for the target language are available. Its configuration system and evaluation modules enable reproducible benchmarks. Models and code are available online at the following URL: https://github.com/hpi-dhc/xmen
翻訳日:2023-10-18 15:39:15 公開日:2023-10-17
# 駆動型準一次元双極子凝縮体におけるストライプとチェッカーボードのパターン

Stripe and checkerboard patterns in a stack of driven quasi-one-dimensional dipolar condensates ( http://arxiv.org/abs/2310.11274v1 )

ライセンス: Link先を確認
Shreyas Nadiger, Sandra M. Jose, Ratheejit Ghosh, Inderpreet Kaur and Rejish Nath(参考訳) 準1次元均質双極性凝縮体のスタックにおける一過性チェッカーボードとストライプパターンの出現について検討した。 $s$波散乱長のパラメトリック駆動は、ボゴリューボフモードの最低値の励起に繋がる。 低次モードの特性は、隣接する凝縮体における相外および相内密度変調に対応する双極子の配向に大きく依存し、チェッカーボードやストライプパターンをもたらす。 さらに,初期パターンが周期的駆動によって形成されると,双極子配向を直線的あるいは突然にクエンチすることで,チェッカーボードとストライプパターン間の動的遷移を実現することができることを示す。

The emergence of transient checkerboard and stripe patterns in a stack of driven quasi-one-dimensional homogeneous dipolar condensates is studied. The parametric driving of the $s$-wave scattering length leads to the excitation of the lowest collective Bogoliubov mode. The character of the lowest mode depends critically on the orientation of the dipoles, corresponding to out-of-phase and in-phase density modulations in neighboring condensates, resulting in checkerboard and stripe patterns. Further, we show that a dynamical transition between the checkerboard and stripe patterns can be realized by quenching the dipole orientation either linearly or abruptly once the initial pattern is formed via periodic driving.
翻訳日:2023-10-18 15:38:50 公開日:2023-10-17
# 専門家レベル医療質問に対する認知過程のエミュレート-大規模言語モデルによる回答

Emulating Human Cognitive Processes for Expert-Level Medical Question-Answering with Large Language Models ( http://arxiv.org/abs/2310.11266v1 )

ライセンス: Link先を確認
Khushboo Verma, Marina Moore, Stephanie Wottrich, Karla Robles L\'opez, Nishant Aggarwal, Zeel Bhatt, Aagamjit Singh, Bradford Unroe, Salah Basheer, Nitish Sachdeva, Prinka Arora, Harmanjeet Kaur, Tanupreet Kaur, Tevon Hood, Anahi Marquez, Tushar Varshney, Nanfu Deng, Azaan Ramani, Pawanraj Ishwara, Maimoona Saeed, Tatiana L\'opez Velarde Pe\~na, Bryan Barksdale, Sushovan Guha, Satwant Kumar(参考訳) 医療における高度な臨床問題解決ツールの必要性への対応として,大型言語モデル(llm)に基づく新たなフレームワークであるbooksmedを紹介する。 BooksMedは、GRADE(Grading of Recommendations, Assessment, Development, and Evaluations)フレームワークを使用して、証拠強度を効果的に定量化する。 臨床意思決定を適切に評価するには、臨床的に調整され検証される評価基準が必要である。 そこで,我々はexpertmedqaを提案する。expertmedqaはオープンエンドで専門家レベルの臨床質問で構成され,医療専門家の多様なグループによって検証される多種多様な臨床ベンチマークである。 最新の臨床文献の深い理解と批判的評価を求めることにより、ExpertMedQAはLSMのパフォーマンスを厳格に評価する。 BooksMedは、様々な医療シナリオにおいて、既存の最先端モデルMed-PaLM 2、Almanac、ChatGPTを上回っている。 したがって、人間の認知段階を模倣するフレームワークは、臨床検査に対する信頼性とエビデンスに基づく応答を提供するのに役立つ。

In response to the pressing need for advanced clinical problem-solving tools in healthcare, we introduce BooksMed, a novel framework based on a Large Language Model (LLM). BooksMed uniquely emulates human cognitive processes to deliver evidence-based and reliable responses, utilizing the GRADE (Grading of Recommendations, Assessment, Development, and Evaluations) framework to effectively quantify evidence strength. For clinical decision-making to be appropriately assessed, an evaluation metric that is clinically aligned and validated is required. As a solution, we present ExpertMedQA, a multispecialty clinical benchmark comprised of open-ended, expert-level clinical questions, and validated by a diverse group of medical professionals. By demanding an in-depth understanding and critical appraisal of up-to-date clinical literature, ExpertMedQA rigorously evaluates LLM performance. BooksMed outperforms existing state-of-the-art models Med-PaLM 2, Almanac, and ChatGPT in a variety of medical scenarios. Therefore, a framework that mimics human cognitive stages could be a useful tool for providing reliable and evidence-based responses to clinical inquiries.
翻訳日:2023-10-18 15:38:37 公開日:2023-10-17
# 注意型ニューラルネットワークのみを用いた画像圧縮

Image Compression using only Attention based Neural Networks ( http://arxiv.org/abs/2310.11265v1 )

ライセンス: Link先を確認
Natacha Luka, Romain Negrel and David Picard(参考訳) 最近の研究で、Learned Image Compressionは従来の手作りパイプライン、特に低ビットレートのパイプラインを上回る能力で有名になった。 既存の手法では畳み込み前処理と時折アテンションブロックを組み込んで長距離依存に対処するが、コンピュータビジョンの最近の進歩はアテンション機構に基づく完全トランスフォーマーベースのアーキテクチャへの転換を提唱している。 本稿では,新しいモデルQPressFormerにおける注目層のみを用いた画像圧縮の実現可能性について検討する。 クロスアテンションによりパッチ情報を集約する学習画像クエリの概念を導入し,次いで量子化と符号化手法を提案する。 広範な評価を通じて,我々の研究は,人気のkodak,div2k,clicデータセットにわたる畳み込みフリーアーキテクチャによって達成された競合性能を示す。

In recent research, Learned Image Compression has gained prominence for its capacity to outperform traditional handcrafted pipelines, especially at low bit-rates. While existing methods incorporate convolutional priors with occasional attention blocks to address long-range dependencies, recent advances in computer vision advocate for a transformative shift towards fully transformer-based architectures grounded in the attention mechanism. This paper investigates the feasibility of image compression exclusively using attention layers within our novel model, QPressFormer. We introduce the concept of learned image queries to aggregate patch information via cross-attention, followed by quantization and coding techniques. Through extensive evaluations, our work demonstrates competitive performance achieved by convolution-free architectures across the popular Kodak, DIV2K, and CLIC datasets.
翻訳日:2023-10-18 15:38:16 公開日:2023-10-17
# 容積医用画像分割のための汎用半教師付き枠組みの提案

Towards Generic Semi-Supervised Framework for Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2310.11320v1 )

ライセンス: Link先を確認
Haonan Wang, Xiaomeng Li(参考訳) 3次元医用画像のボリュームワイド表示は専門知識を必要とする時間を要する作業である。 その結果、ラベル付きデータに制限のあるモデルをトレーニングするために、半教師付き学習(SSL)技術を使うことへの関心が高まっている。 しかし、課題と実践的応用はSSLを超えて、unsupervised domain adaptation (UDA) や semi-supervised domain generalization (SemiDG) といった設定にまで拡張されている。 この作業は,3つの設定をすべて処理可能な汎用SSLフレームワークの開発を目標としている。 既存のSSLフレームワークでこの目標を達成するための2つの障害を特定します。 1) 分布不変の特徴を捉えた弱点,及び 2)ラベルなしのデータがラベル付きデータに圧倒される傾向があり、トレーニング中にラベル付きデータに過剰フィッティングを生じさせる。 これらの問題に対処するため、我々はAggregating & Decouplingフレームワークを提案する。 集約部は、複数の分散/ドメインから集約された情報から分布不変の特徴を抽出して共通知識セットを構築する拡散エンコーダからなる。 分離部は3つのデコーダからなり、ラベル付きデータとラベルなしデータとを分離し、ラベル付きデータ、特定のドメイン、クラスへの過度な適合を避ける。 提案するフレームワークを,SSL,クラス不均衡SSL,UDA,セミDGの4つのベンチマークデータセット上で評価した。 その結果、4つの設定すべてで最先端のメソッドと比較して顕著な改善が見られ、より困難なSSLシナリオに取り組むためのフレームワークの可能性を示している。 コードとモデルはhttps://github.com/xmed-lab/genericsslで利用可能である。

Volume-wise labeling in 3D medical images is a time-consuming task that requires expertise. As a result, there is growing interest in using semi-supervised learning (SSL) techniques to train models with limited labeled data. However, the challenges and practical applications extend beyond SSL to settings such as unsupervised domain adaptation (UDA) and semi-supervised domain generalization (SemiDG). This work aims to develop a generic SSL framework that can handle all three settings. We identify two main obstacles to achieving this goal in the existing SSL framework: 1) the weakness of capturing distribution-invariant features; and 2) the tendency for unlabeled data to be overwhelmed by labeled data, leading to over-fitting to the labeled data during training. To address these issues, we propose an Aggregating & Decoupling framework. The aggregating part consists of a Diffusion encoder that constructs a common knowledge set by extracting distribution-invariant features from aggregated information from multiple distributions/domains. The decoupling part consists of three decoders that decouple the training process with labeled and unlabeled data, thus avoiding over-fitting to labeled data, specific domains and classes. We evaluate our proposed framework on four benchmark datasets for SSL, Class-imbalanced SSL, UDA and SemiDG. The results showcase notable improvements compared to state-of-the-art methods across all four settings, indicating the potential of our framework to tackle more challenging SSL scenarios. Code and models are available at: https://github.com/xmed-lab/GenericSSL.
翻訳日:2023-10-18 15:32:56 公開日:2023-10-17
# 主題メタデータに注釈をつけるための大規模言語モデルの利用:オーストラリア国立研究データカタログを事例として

Utilising a Large Language Model to Annotate Subject Metadata: A Case Study in an Australian National Research Data Catalogue ( http://arxiv.org/abs/2310.11318v1 )

ライセンス: Link先を確認
Shiwei Zhang, Mingfang Wu, Xiuzhen Zhang(参考訳) オープンで再現可能な研究の支援により、研究のために利用できるデータセットは急速に増えている。 データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。 しかし、データセットは、データキュレーションのためのリソースが限られているため、品質の高いメタデータを欠くことが多い。 一方、人工知能や大規模言語モデル(LLM)などの技術は急速に進歩している。 最近、chatgptのようなこれらの技術に基づくシステムは、特定のデータキュレーションタスクに有望な能力を示している。 本稿では,LLMを用いたテキスト内学習を通じて,コスト効率のよいメタデータのアノテーションとしてLLMを活用することを提案する。 提案手法では,GPT-3.5とアノテートのためのプロンプトを併用し,自動メタデータアノテーションにおける有望な性能を示す。 しかし、文脈内学習に基づくモデルは規律固有のルールを習得できないため、いくつかのカテゴリでパフォーマンスが低下する。 この制限は、主題推論に利用可能な限られた文脈情報から生じる。 我々の知識を最大限に活用するために、私たちは初めて、大規模言語モデルを利用して自動主題メタデータアノテーションを学習するコンテキスト内学習手法を導入しています。

In support of open and reproducible research, there has been a rapidly increasing number of datasets made available for research. As the availability of datasets increases, it becomes more important to have quality metadata for discovering and reusing them. Yet, it is a common issue that datasets often lack quality metadata due to limited resources for data curation. Meanwhile, technologies such as artificial intelligence and large language models (LLMs) are progressing rapidly. Recently, systems based on these technologies, such as ChatGPT, have demonstrated promising capabilities for certain data curation tasks. This paper proposes to leverage LLMs for cost-effective annotation of subject metadata through the LLM-based in-context learning. Our method employs GPT-3.5 with prompts designed for annotating subject metadata, demonstrating promising performance in automatic metadata annotation. However, models based on in-context learning cannot acquire discipline-specific rules, resulting in lower performance in several categories. This limitation arises from the limited contextual information available for subject inference. To the best of our knowledge, we are introducing, for the first time, an in-context learning method that harnesses large language models for automated subject metadata annotation.
翻訳日:2023-10-18 15:32:30 公開日:2023-10-17
# MonoSKD:スピアマン相関係数によるモノクロ3次元物体検出のための一般蒸留フレームワーク

MonoSKD: General Distillation Framework for Monocular 3D Object Detection via Spearman Correlation Coefficient ( http://arxiv.org/abs/2310.11316v1 )

ライセンス: Link先を確認
Sen Wang, Jin Zheng(参考訳) 単眼的3次元物体検出は,単一の画像から正確な3次元位置推定を予測することが困難であるため,本質的に不適切な問題である。 既存のモノクロ3D検出知識蒸留法は、通常、LiDARを画像平面に投影し、教師ネットワークを訓練する。 lidarベースのモデル知識をrgbベースのモデルに移すことはより複雑であり、一般的な蒸留戦略が必要である。 クロスモーダルなプロブレムを緩和するために,スピアマン相関係数に基づくモノクル3次元検出のための新しい知識蒸留フレームワークMonoSKDを提案し,クロスモーダルな特徴間の相対的相関を学習する。 これらの特徴間の大きなギャップを考慮すると、特徴の厳密なアライメントはトレーニングを誤解させる可能性があるため、より緩やかなスピアマン損失を提案する。 さらに,適切な蒸留位置を選択し,冗長モジュールを削除することにより,既存の方法よりも多くのgpuリソースを節約し,高速にトレーニングを行う。 KITTI 3Dオブジェクト検出ベンチマークにおけるフレームワークの有効性を検証するため,大規模な実験を行った。 提案手法は計算コストを増すことなく,提出まで最先端の性能を実現する。 私たちのコードはhttps://github.com/Senwang98/MonoSKDで利用可能です。

Monocular 3D object detection is an inherently ill-posed problem, as it is challenging to predict accurate 3D localization from a single image. Existing monocular 3D detection knowledge distillation methods usually project the LiDAR onto the image plane and train the teacher network accordingly. Transferring LiDAR-based model knowledge to RGB-based models is more complex, so a general distillation strategy is needed. To alleviate cross-modal prob-lem, we propose MonoSKD, a novel Knowledge Distillation framework for Monocular 3D detection based on Spearman correlation coefficient, to learn the relative correlation between cross-modal features. Considering the large gap between these features, strict alignment of features may mislead the training, so we propose a looser Spearman loss. Furthermore, by selecting appropriate distillation locations and removing redundant modules, our scheme saves more GPU resources and trains faster than existing methods. Extensive experiments are performed to verify the effectiveness of our framework on the challenging KITTI 3D object detection benchmark. Our method achieves state-of-the-art performance until submission with no additional inference computational cost. Our codes are available at https://github.com/Senwang98/MonoSKD
翻訳日:2023-10-18 15:32:13 公開日:2023-10-17
# 分類器誘導拡散生成の設計空間の解明

Elucidating The Design Space of Classifier-Guided Diffusion Generation ( http://arxiv.org/abs/2310.11311v1 )

ライセンス: Link先を確認
Jiajun Ma, Tianyang Hu, Wenjia Wang and Jiacheng Sun(参考訳) 条件拡散生成の指導は試料の品質と制御性にとって非常に重要である。 しかし、既存の指導方法が望まれている。 一方、分類器ガイダンスや分類器フリーガイダンスといった主流の手法では、ラベル付きデータによる追加トレーニングが必要であり、新しい条件に適応できない。 一方、ユニバーサルガイダンスのようなトレーニングフリーな手法は柔軟ではあるが、同等のパフォーマンスをまだ示していない。 本研究は,設計空間の包括的調査を通じて,既設の分類器をトレーニングフリーで活用し,両世界のベストを享受することにより,既存の指導方式よりも大幅な性能向上を実現することができることを示す。 キャリブレーションを一般的なガイドラインとして用い,事前学習したオフザシェルフ分類器による拡散誘導手法を提案する。 ImageNetの大規模な実験により提案手法の有効性を検証し,計算コストの少ないオフ・ザ・シェルフ分類器を用いて,最先端拡散モデル (DDPM, EDM, DiT) をさらに改善 (最大20%) できることを示した。 公開事前学習型分類器の普及に伴い,提案手法は大きな可能性を秘めており,テキスト・画像生成タスクにも容易に拡張できる。 コードはhttps://github.com/alexmaols/elucd/tree/mainで入手できる。

Guidance in conditional diffusion generation is of great importance for sample quality and controllability. However, existing guidance schemes are to be desired. On one hand, mainstream methods such as classifier guidance and classifier-free guidance both require extra training with labeled data, which is time-consuming and unable to adapt to new conditions. On the other hand, training-free methods such as universal guidance, though more flexible, have yet to demonstrate comparable performance. In this work, through a comprehensive investigation into the design space, we show that it is possible to achieve significant performance improvements over existing guidance schemes by leveraging off-the-shelf classifiers in a training-free fashion, enjoying the best of both worlds. Employing calibration as a general guideline, we propose several pre-conditioning techniques to better exploit pretrained off-the-shelf classifiers for guiding diffusion generation. Extensive experiments on ImageNet validate our proposed method, showing that state-of-the-art diffusion models (DDPM, EDM, DiT) can be further improved (up to 20%) using off-the-shelf classifiers with barely any extra computational cost. With the proliferation of publicly available pretrained classifiers, our proposed approach has great potential and can be readily scaled up to text-to-image generation tasks. The code is available at https://github.com/AlexMaOLS/EluCD/tree/main.
翻訳日:2023-10-18 15:31:51 公開日:2023-10-17
# 反事実と双フィールド量子デジタル署名のためのプロトコル

Protocols for counterfactual and twin-field quantum digital signature ( http://arxiv.org/abs/2310.11308v1 )

ライセンス: Link先を確認
Vinod N. Rao, Shrikant Utagi, Anirban Pathak and R. Srikanth(参考訳) 量子デジタルシグネチャ(quantum digital signature, qds)は、古典的シグネチャの量子バージョンであり、量子力学的なno-go原則に基づいて、拒絶、シグネチャ鍛造、外部盗聴などの攻撃に対するセキュリティを提供する。 本稿では,インタラクションフリー計測の概念を生かした量子反事実性に基づくqdsスキームを提案する。 ツインフィールド暗号の背景にあるアイデアを用いて、この双方向プロトコルが、より実用的で理論上も第一プロトコルの実験的実現可能性を評価するのに有用である、等価なノンカウンタリー・ワンウェイプロトコルにどのように変換できるかを示す。 提案するqdsプロトコルは、現行の量子技術で実験的に実装できる。

Quantum digital signature (QDS) is the quantum version of its classical counterpart, and can offer security against attacks of repudiation, signature forging and external eavesdropping, on the basis of quantum mechanical no-go principles. Here we propose a QDS scheme based on quantum counterfactuality, which leverages the concept of interaction-free measurement. Employing the idea behind twin-field cryptography, we show how this two-way protocol can be turned into an equivalent non-counterfactual, one-way protocol, that is both more practical and also theoretically helpful in assessing the experimental feasibility of the first protocol. The proposed QDS protocol can be experimentally implemented with current quantum technology.
翻訳日:2023-10-18 15:31:26 公開日:2023-10-17
# インテリジェントトランスミッション検出のための多機能自己監督型プリファインチュアトランスフォーマーフュージョン

Multi Self-supervised Pre-fine-tuned Transformer Fusion for Better Intelligent Transportation Detection ( http://arxiv.org/abs/2310.11307v1 )

ライセンス: Link先を確認
Juwu Zheng and Jiangtao Ren(参考訳) インテリジェントトランスポートシステムは、高度な情報技術を組み合わせて、監視、検出、そして現代の交通に対する早期警告のようなインテリジェントなサービスを提供する。 インテリジェントトランスポート検出は、オブジェクト検出方法を通じてタスクターゲットを識別することで、多くのインテリジェントなトラフィックサービスの基盤となる。 しかし、知的輸送における既存の検出方法は2つの側面に制限されている。 まず、大規模データセット上で事前訓練されたモデル知識と、ターゲットタスクに必要な知識との間には違いがある。 第二に、ほとんどの検出モデルは、学習能力を制限する単一ソース学習のパターンに従う。 これらの問題に対処するために、教師なしのドメイン知識学習とマルチモデル融合目標タスク学習の2つのステップからなるマルチセルフ教師付きプレファインチューニングトランスフォーマーフュージョン(MSPTF)ネットワークを提案する。 第1段階では,自己教師付き学習手法をトランスフォーマモデルに導入し,データコストを削減し,事前学習したモデルと対象タスクの知識ギャップを軽減した。 第2のステップでは、異なるモデルアーキテクチャと異なるプレファインチューンタスク間の特徴情報の違いを考慮に入れ、チャネル意味整合性および特徴ベクトル意味整合性を考慮して異なるトランスフォーマーモデル特徴を組み合わせたマルチモデルセマンティック・コンシステンシー・クロスアテンション・フュージョン(MSCCF)ネットワークを提案する。 提案手法を車両認識データセットと道路病検出データセットで実験し,ベースラインに比べて1.1%,5.5%,4.2%改善し,ソタに比べて0.7%,1.8%,1.7%改善した。

Intelligent transportation system combines advanced information technology to provide intelligent services such as monitoring, detection, and early warning for modern transportation. Intelligent transportation detection is the cornerstone of many intelligent traffic services by identifying task targets through object detection methods. However existing detection methods in intelligent transportation are limited by two aspects. First, there is a difference between the model knowledge pre-trained on large-scale datasets and the knowledge required for target task. Second, most detection models follow the pattern of single-source learning, which limits the learning ability. To address these problems, we propose a Multi Self-supervised Pre-fine-tuned Transformer Fusion (MSPTF) network, consisting of two steps: unsupervised pre-fine-tune domain knowledge learning and multi-model fusion target task learning. In the first step, we introduced self-supervised learning methods into transformer model pre-fine-tune which could reduce data costs and alleviate the knowledge gap between pre-trained model and target task. In the second step, we take feature information differences between different model architectures and different pre-fine-tune tasks into account and propose Multi-model Semantic Consistency Cross-attention Fusion (MSCCF) network to combine different transformer model features by considering channel semantic consistency and feature vector semantic consistency, which obtain more complete and proper fusion features for detection task. We experimented the proposed method on vehicle recognition dataset and road disease detection dataset and achieved 1.1%, 5.5%, 4.2% improvement compared with baseline and 0.7%, 1.8%, 1.7% compared with sota, which proved the effectiveness of our method.
翻訳日:2023-10-18 15:31:11 公開日:2023-10-17
# MiniZero: Go, Othello, Atari GamesにおけるAlphaZeroとMuZeroの比較分析

MiniZero: Comparative Analysis of AlphaZero and MuZero on Go, Othello, and Atari Games ( http://arxiv.org/abs/2310.11305v1 )

ライセンス: Link先を確認
Ti-Rong Wu, Hung Guei, Po-Wei Huang, Pei-Chiun Peng, Ting Han Wei, Chung-Chin Shih, Yun-Jui Tsai(参考訳) 本稿では,AlphaZero,MuZero,Gumbel AlphaZero,Gumbel MuZeroの4つの最先端アルゴリズムをサポートするゼロ知識学習フレームワークであるMiniZeroを提案する。 これらのアルゴリズムは多くのゲームで超人的性能を示しているが、どのアルゴリズムが特定のタスクに最も適しているか、それとも効率的かは定かではない。 minizeroを通じて,2つのボードゲーム,9x9 goと8x8 othelloおよび57のatariゲームにおける各アルゴリズムのパフォーマンスを体系的に評価した。 実験結果は以下の通りである。 2つのボードゲームでは、より多くのシミュレーションを使用することでパフォーマンスが向上する。 しかし、AlphaZero と MuZero の選択はゲームの性質によって異なる可能性がある。 Atariのゲームでは、MuZeroとGumbel MuZeroの両方が検討に値する。 各ゲームに固有の特徴があるため、異なるアルゴリズムとシミュレーションが様々な結果をもたらす。 さらに,より効率的に計算を割り当てるため,訓練中のシミュレーション予算を漸進的に増加させるプログレッシブ・シミュレーションという手法を導入する。 実験の結果,プログレッシブシミュレーションは2つのボードゲームにおいて有意に優れた性能が得られることがわかった。 本論文は,我々のフレームワークと学習モデルを公開することにより,ゼロ知識学習アルゴリズムの今後の研究のためのベンチマークを提供し,これらのゼロ知識学習ベースラインに対する研究者のアルゴリズム選択と比較を支援する。

This paper presents MiniZero, a zero-knowledge learning framework that supports four state-of-the-art algorithms, including AlphaZero, MuZero, Gumbel AlphaZero, and Gumbel MuZero. While these algorithms have demonstrated super-human performance in many games, it remains unclear which among them is most suitable or efficient for specific tasks. Through MiniZero, we systematically evaluate the performance of each algorithm in two board games, 9x9 Go and 8x8 Othello, as well as 57 Atari games. Our empirical findings are summarized as follows. For two board games, using more simulations generally results in higher performance. However, the choice of AlphaZero and MuZero may differ based on game properties. For Atari games, both MuZero and Gumbel MuZero are worth considering. Since each game has unique characteristics, different algorithms and simulations yield varying results. In addition, we introduce an approach, called progressive simulation, which progressively increases the simulation budget during training to allocate computation more efficiently. Our empirical results demonstrate that progressive simulation achieves significantly superior performance in two board games. By making our framework and trained models publicly available, this paper contributes a benchmark for future research on zero-knowledge learning algorithms, assisting researchers in algorithm selection and comparison against these zero-knowledge learning baselines.
翻訳日:2023-10-18 15:30:36 公開日:2023-10-17
# QADYNAMICS:Zero-Shot Commonsense Question Answeringのための動的駆動型QA診断

QADYNAMICS: Training Dynamics-Driven Synthetic QA Diagnostic for Zero-Shot Commonsense Question Answering ( http://arxiv.org/abs/2310.11303v1 )

ライセンス: Link先を確認
Haochen Shi, Weiqi Wang, Tianqing Fang, Baixuan Xu, Wenxuan Ding, Xin Liu, Yangqiu Song(参考訳) Zero-shot Commonsense Question-Answering (QA) は、特定のベンチマークを超える一般的な状況をモデルに推論する必要がある。 State-of-the-artは、CSKB(CommonSense Knowledge Bases)から構築されたQAペア上での微調整言語モデルにアプローチし、QAコンテキストにおいてより常識的な知識を持つモデルを装備する。 しかし、現在のQA合成プロトコルはCSKBからのノイズを導入し、非文法的な質問と偽陰性オプションを生成し、モデルが一般化する能力を妨げている。 そこで本研究では,QA診断と改善のためのトレーニング動的フレームワークQADYNAMICSを提案する。 提案手法では,各QAペアのトレーニングダイナミクスを質問レベルとオプションレベルの両方で解析し,非形式的QAペアと誤ラベルあるいは偽陰性オプションを除去することにより,マシン検出可能なアーティファクトを破棄する。 大規模な実験により,ChatGPT などの LLM も含む合成データの33% しか使用せず,すべてのベースラインに優れるアプローチの有効性が示された。 さらに,本フレームワークはQA合成の質を著しく向上させることを確認した。 私たちのコードとモデルチェックポイントは、https://github.com/hkust-knowcomp/qadynamicsで利用可能です。

Zero-shot commonsense Question-Answering (QA) requires models to reason about general situations beyond specific benchmarks. State-of-the-art approaches fine-tune language models on QA pairs constructed from CommonSense Knowledge Bases (CSKBs) to equip the models with more commonsense knowledge in a QA context. However, current QA synthesis protocols may introduce noise from the CSKBs and generate ungrammatical questions and false negative options, which impede the model's ability to generalize. To address these issues, we propose QADYNAMICS, a training dynamics-driven framework for QA diagnostics and refinement. Our approach analyzes the training dynamics of each QA pair at both the question level and option level, discarding machine-detectable artifacts by removing uninformative QA pairs and mislabeled or false-negative options. Extensive experiments demonstrate the effectiveness of our approach, which outperforms all baselines while using only 33% of the synthetic data, even including LLMs such as ChatGPT. Moreover, expert evaluations confirm that our framework significantly improves the quality of QA synthesis. Our codes and model checkpoints are available at https://github.com/HKUST-KnowComp/QaDynamics.
翻訳日:2023-10-18 15:30:13 公開日:2023-10-17
# CorrTalk:3次元アニメーションにおける階層型音声と顔活動変数の相関

CorrTalk: Correlation Between Hierarchical Speech and Facial Activity Variances for 3D Animation ( http://arxiv.org/abs/2310.11295v1 )

ライセンス: Link先を確認
Zhaojie Chu, Kailing Guo, Xiaofen Xing, Yilin Lan, Bolun Cai, and Xiangmin Xu(参考訳) 音声駆動の3d顔アニメーションは、研究の関心を集めているクロスモーダルな課題である。 発声活動中、口は強い動きを示し、他の顔領域は一般的に比較的弱い活動レベルを示す。 既存のアプローチでは、顔のアニメーション全体に単一レベルの音声特徴を直接マッピングすることで、プロセスを単純化することが多い。 本研究では,階層型音声特徴と異なる領域における異なる強度の顔活動の時間的相関を効果的に確立する新しいフレームワークであるCorrTalkを提案する。 顔の頂点変位の短時間フーリエ変換を計算し, 顔活動の強さと弱さを識別するために, 新たな顔活動強度指標を定式化した。 顔活動のバラツキに基づいて, 顔動作を同期的に合成するデュアルブランチデコーディングフレームワークを提案し, より高強度な顔アニメーション合成を保証した。 さらに, 重み付き階層的特徴エンコーダを提案し, 音声特徴と顔活動の時間的相関を異なる強度で確立し, 唇同期とプラウジブルな表情を確実にする。 定性的かつ定量的な実験とユーザスタディは、CorrTalkが既存の最先端手法よりも優れていることを示している。 ソースコードと補足ビデオは、https://zjchu.github.io/projects/CorrTalk/で公開されている。

Speech-driven 3D facial animation is a challenging cross-modal task that has attracted growing research interest. During speaking activities, the mouth displays strong motions, while the other facial regions typically demonstrate comparatively weak activity levels. Existing approaches often simplify the process by directly mapping single-level speech features to the entire facial animation, which overlook the differences in facial activity intensity leading to overly smoothed facial movements. In this study, we propose a novel framework, CorrTalk, which effectively establishes the temporal correlation between hierarchical speech features and facial activities of different intensities across distinct regions. A novel facial activity intensity metric is defined to distinguish between strong and weak facial activity, obtained by computing the short-time Fourier transform of facial vertex displacements. Based on the variances in facial activity, we propose a dual-branch decoding framework to synchronously synthesize strong and weak facial activity, which guarantees wider intensity facial animation synthesis. Furthermore, a weighted hierarchical feature encoder is proposed to establish temporal correlation between hierarchical speech features and facial activity at different intensities, which ensures lip-sync and plausible facial expressions. Extensive qualitatively and quantitatively experiments as well as a user study indicate that our CorrTalk outperforms existing state-of-the-art methods. The source code and supplementary video are publicly available at: https://zjchu.github.io/projects/CorrTalk/
翻訳日:2023-10-18 15:29:49 公開日:2023-10-17
# より高速な収束と急降下を実現する自動学習率スケジューリングアルゴリズム

An Automatic Learning Rate Schedule Algorithm for Achieving Faster Convergence and Steeper Descent ( http://arxiv.org/abs/2310.11291v1 )

ライセンス: Link先を確認
Zhao Song, Chiwun Yang(参考訳) デルタバーデルタアルゴリズムは、現在の重み更新と以前の重み更新の違いに基づいて学習率を動的にスケジューリングすることにより、最適化におけるトレーニングプロセスの収束速度を向上させる学習率適応手法として認識される。 このアルゴリズムは、AdamやSGDのような最先端のアルゴリズムと比較して、完全なデータ最適化において強力な競合性を示しているが、ノイズ勾配の存在によりミニバッチ最適化シナリオにおいて収束問題に遭遇する可能性がある。 本研究では,実世界のニューラルネットワーク最適化におけるデルタバーデルタアルゴリズムの収束挙動を徹底的に検討する。 そこで我々はrdbd(regrettable delta-bar-delta)と呼ばれる新しい手法を提案する。 提案手法は,バイアス付き学習率調整の迅速な修正を可能にし,最適化プロセスの収束を保証する。 さらに, rdbdは任意の最適化アルゴリズムとシームレスに統合でき, 収束速度を大幅に向上できることを示す。 広範囲な実験と評価を行うことで,提案手法の有効性と有効性を検証する。 その結果、ミニバッチ最適化における収束問題を克服する能力と、様々な最適化アルゴリズムの収束速度を高める可能性を示した。 本研究は、ニューラルネットワークトレーニングにおける最適化技術の進歩に寄与し、より高速な収束と最適化結果の改善を実現するための信頼性の高い自動学習率スケジューラを提供する。

The delta-bar-delta algorithm is recognized as a learning rate adaptation technique that enhances the convergence speed of the training process in optimization by dynamically scheduling the learning rate based on the difference between the current and previous weight updates. While this algorithm has demonstrated strong competitiveness in full data optimization when compared to other state-of-the-art algorithms like Adam and SGD, it may encounter convergence issues in mini-batch optimization scenarios due to the presence of noisy gradients. In this study, we thoroughly investigate the convergence behavior of the delta-bar-delta algorithm in real-world neural network optimization. To address any potential convergence challenges, we propose a novel approach called RDBD (Regrettable Delta-Bar-Delta). Our approach allows for prompt correction of biased learning rate adjustments and ensures the convergence of the optimization process. Furthermore, we demonstrate that RDBD can be seamlessly integrated with any optimization algorithm and significantly improve the convergence speed. By conducting extensive experiments and evaluations, we validate the effectiveness and efficiency of our proposed RDBD approach. The results showcase its capability to overcome convergence issues in mini-batch optimization and its potential to enhance the convergence speed of various optimization algorithms. This research contributes to the advancement of optimization techniques in neural network training, providing practitioners with a reliable automatic learning rate scheduler for achieving faster convergence and improved optimization outcomes.
翻訳日:2023-10-18 15:29:24 公開日:2023-10-17
# パースペクティブデバイアスによるマルチカメラ3次元物体検出の一般化に向けて

Towards Generalizable Multi-Camera 3D Object Detection via Perspective Debiasing ( http://arxiv.org/abs/2310.11346v1 )

ライセンス: Link先を確認
Hao Lu, Yunpeng Zhang, Qing Lian, Dalong Du, Yingcong Chen(参考訳) マルチカメラ(MC3D-Det)と呼ばれる複数のカメラを用いた3D空間の物体検出は,鳥眼ビュー(BEV)アプローチの出現によって注目されている。 しかし、これらの手法は、様々な視点や環境を含む多様なトレーニングデータが欠如しているため、慣れないテスト環境に直面している場合が多い。 そこで本研究では, 2次元カメラ平面による3次元検出を統一的かつ高精度に行う新しい手法を提案する。 私たちのフレームワークは、視点の偏りを保ち、ドメインシフトに耐性のある機能の学習に役立ちます。 提案手法では,BEVの特徴から多様なビューマップを描画し,これらのマップの視点バイアスを補正し,暗黙のフォアグラウンドボリュームを利用してカメラとBEV平面をブリッジする。 この2段階のプロセスは、視点やコンテキストに依存しない特徴の学習を促進し、様々な視点、カメラパラメータ、環境条件の正確な物体検出に不可欠である。 特に、モデルに依存しないアプローチは、追加の推論コストを伴わずに元のネットワーク構造を保持し、さまざまなモデル間のシームレスな統合を促進し、デプロイを単純化します。 さらに本手法は,仮想データセットのみを用いてトレーニングした場合に,実際のデータで満足な結果が得られることを示す。 ドメイン一般化(DG)とUnsupervised Domain Adaptation(UDA)の両方の実験結果は、その効果を明らかに示している。 私たちのコードはリリースされます。

Detecting objects in 3D space using multiple cameras, known as Multi-Camera 3D Object Detection (MC3D-Det), has gained prominence with the advent of bird's-eye view (BEV) approaches. However, these methods often struggle when faced with unfamiliar testing environments due to the lack of diverse training data encompassing various viewpoints and environments. To address this, we propose a novel method that aligns 3D detection with 2D camera plane results, ensuring consistent and accurate detections. Our framework, anchored in perspective debiasing, helps the learning of features resilient to domain shifts. In our approach, we render diverse view maps from BEV features and rectify the perspective bias of these maps, leveraging implicit foreground volumes to bridge the camera and BEV planes. This two-step process promotes the learning of perspective- and context-independent features, crucial for accurate object detection across varying viewpoints, camera parameters and environment conditions. Notably, our model-agnostic approach preserves the original network structure without incurring additional inference costs, facilitating seamless integration across various models and simplifying deployment. Furthermore, we also show our approach achieves satisfactory results in real data when trained only with virtual datasets, eliminating the need for real scene annotations. Experimental results on both Domain Generalization (DG) and Unsupervised Domain Adaptation (UDA) clearly demonstrate its effectiveness. Our code will be released.
翻訳日:2023-10-18 15:21:25 公開日:2023-10-17
# ポルトガルの偽ニューステキスト分類におけるステミングと補綴の効果

The effect of stemming and lemmatization on Portuguese fake news text classification ( http://arxiv.org/abs/2310.11344v1 )

ライセンス: Link先を確認
Lucca de Freitas Santos, Murilo Varges da Silva(参考訳) インターネット, スマートフォン, ソーシャルメディアの普及に伴い, 情報を迅速かつ容易に広めることによって, 世界の情報トラフィックが増大しつつあるが, 偽ニュースの普及によって社会に悪影響を及ぼす問題がある。 情報の流れが大きくなり、偽情報や偽ニュースを広めようとしている人もいる。 The automatic detection of fake news is a challenging task because to obtain a good result is necessary to deal with linguistics problems, especially when we are dealing with languages that not have been comprehensively studied yet, besides that, some techniques can help to reach a good result when we are dealing with text data, although, the motivation of detecting this deceptive information it is in the fact that the people need to know which information is true and trustful and which one is not. 本研究では,葉書化や造語などの前処理手法が偽ニュース分類に与える影響を考察し,異なる前処理手法を適用した分類器モデルを設計した。 その結果,より優れた結果を得るためには,前処理ステップが重要であり,ステムと補間技術は興味深い手法であり,より優れた結果を得るためにはポルトガル語に焦点をあてた技術を開発するためにより研究する必要があることがわかった。

With the popularization of the internet, smartphones and social media, information is being spread quickly and easily way, which implies bigger traffic of information in the world, but there is a problem that is harming society with the dissemination of fake news. With a bigger flow of information, some people are trying to disseminate deceptive information and fake news. The automatic detection of fake news is a challenging task because to obtain a good result is necessary to deal with linguistics problems, especially when we are dealing with languages that not have been comprehensively studied yet, besides that, some techniques can help to reach a good result when we are dealing with text data, although, the motivation of detecting this deceptive information it is in the fact that the people need to know which information is true and trustful and which one is not. In this work, we present the effect the pre-processing methods such as lemmatization and stemming have on fake news classification, for that we designed some classifier models applying different pre-processing techniques. The results show that the pre-processing step is important to obtain betters results, the stemming and lemmatization techniques are interesting methods and need to be more studied to develop techniques focused on the Portuguese language so we can reach better results.
翻訳日:2023-10-18 15:20:59 公開日:2023-10-17
# 混合スピン-ボソンハミルトニアンの量子計算シミュレーションとそのキャビティ量子電磁力学問題への応用

Quantum Computing Simulation of a Mixed Spin-Boson Hamiltonian and Its Performance for a Cavity Quantum Electrodynamics Problem ( http://arxiv.org/abs/2310.11342v1 )

ライセンス: Link先を確認
Maria Tudorovskaya, David Mu\~noz Ramo(参考訳) 本稿では,量子コンピュータの応用可能性のスペクトルを広げ,その能力を利用してキャビティ量子電磁力学(キャビティqed)の効果を調べることを目的とする。 興味深い応用例としては、材料特性、超放射能のような多光子効果、強い場-物質結合を持つ系などがある。 qed応用の場合、実験研究は困難であり、古典的なシミュレーションはしばしば高価である。 したがって、量子コンピュータの能力の探求は興味深い。 以下に、光子ホッピングを可能にする一対の結合キャビティにおける相転移をシミュレーションする手法を示す。 スピン系とボーソン系をレジスタの一部にマッピングし、一階ロータライズを用いて波動関数を時間伝達する。 位相遷移の観測可能な順序パラメータは、数演算子とその正方形を測定することで計算される。 マルチフォトニック・マルチアトム・ケーススタディを容易にするため,boson-to-qubitマッピングを導入する。 我々の写像スキームは逆ホルシュタイン-プリマコフ変換に基づいている。 多光子系では、ボソン作用素は高スピン作用素を介して表現され、パウリ作用素を用いて回路上にマッピングされる。 我々はニュートン級数展開を用いて平方根作用素の厳密な処理を可能にする。 ノイズのない6量子ビットシミュレーションによる相転移の古典シミュレーションの結果を再現する。 シミュレーションは少なからぬ量の量子リソースで実行可能であることが判明した。 最後に、ノイズエミュレータのシミュレーションを行い、ノイズと信号の区別に緩和技術が不可欠であることを示す。

In this paper, we aim to broaden the spectrum of possible applications of quantum computers and use their capabilities to investigate effects in cavity quantum electrodynamics ("cavity QED"). Interesting application examples are material properties, multiphoton effects such as superradiance, systems with strong field-matter coupling, and others. For QED applications, experimental studies are challenging, and classical simulations are often expensive. Therefore, exploring the capabilities of quantum computers is of interest. Below we present a methodology for simulating a phase transition in a pair of coupled cavities that permit photon hopping. We map the spin and boson systems to separate parts of the register and use first-order Trotterization to time-propagate the wavefunction. The order parameter, which is the observable for the phase transition, is calculated by measuring the number operator and its square. We introduce a boson-to-qubit mapping to facilitate a multi-photon, multi-atom case study. Our mapping scheme is based on the inverse Holstein-Primakoff transformation. In the multi-photon regime, boson operators are expressed via higher-spin operators which are subsequently mapped on a circuit using Pauli operators. We use a Newton series expansion to enable rigorous treatment of the square root operator. We reproduce the results of classical simulations of a phase transition with a noiseless 6-qubit simulation. We find that the simulation can be performed with a modest amount of quantum resources. Finally, we perform simulations on noisy emulators and find that mitigation techniques are essential to distinguish signal from noise.
翻訳日:2023-10-18 15:20:41 公開日:2023-10-17
# デュアル認知アーキテクチャ:生涯学習のためのバイアスとマルチメモリシステム

Dual Cognitive Architecture: Incorporating Biases and Multi-Memory Systems for Lifelong Learning ( http://arxiv.org/abs/2310.11341v1 )

ライセンス: Link先を確認
Shruthi Gowda, Bahram Zonooz, Elahe Arani(参考訳) ニューラルネットワーク(ANN)は、定常的な独立したデータに関する専門知識の狭い範囲を示す。 しかし、実世界のデータは連続的かつ動的であり、ANNは学習知識を保持して生涯学習者となるためには、新しいシナリオに適応する必要がある。 これらのタスクに優れる人間の能力は、認知的計算構造、認知バイアス、脳内のマルチメモリシステムなど、様々な要因によって引き起こされる。 これらからキーとなる概念を取り入れ、新しいフレームワーク、複数のサブシステム、暗黙的および明示的な知識表現二分法、帰納的バイアス、マルチメモリシステムを含むdual cognitive architecture(duca)を設計した。 DUCA内の帰納バイアス学習者は形状情報の符号化に役立ち、ANNが局所的なテクスチャを学習する傾向に効果的に対抗できる。 同時に、セマンティックメモリサブモジュールが組み込まれ、知識の段階的な統合が促進され、高速で遅い学習システムで観察されるダイナミクスが複製され、人間の認知において補完的な学習システムを支える原則が思い出される。 DUCAはさまざまな設定やデータセットにまたがって改善を示し、余分な情報を必要とせずにタスクの遅延バイアスを低減する。 分散シフトが困難な場合,生涯学習法の汎用性をさらに検証するために,新しいドメインインクリメンタルデータセットdn4ilを提案する。 既存のベンチマークのパフォーマンス向上に加えて、DUCAはこの複雑なデータセットで優れたパフォーマンスを示す。

Artificial neural networks (ANNs) exhibit a narrow scope of expertise on stationary independent data. However, the data in the real world is continuous and dynamic, and ANNs must adapt to novel scenarios while also retaining the learned knowledge to become lifelong learners. The ability of humans to excel at these tasks can be attributed to multiple factors ranging from cognitive computational structures, cognitive biases, and the multi-memory systems in the brain. We incorporate key concepts from each of these to design a novel framework, Dual Cognitive Architecture (DUCA), which includes multiple sub-systems, implicit and explicit knowledge representation dichotomy, inductive bias, and a multi-memory system. The inductive bias learner within DUCA is instrumental in encoding shape information, effectively countering the tendency of ANNs to learn local textures. Simultaneously, the inclusion of a semantic memory submodule facilitates the gradual consolidation of knowledge, replicating the dynamics observed in fast and slow learning systems, reminiscent of the principles underpinning the complementary learning system in human cognition. DUCA shows improvement across different settings and datasets, and it also exhibits reduced task recency bias, without the need for extra information. To further test the versatility of lifelong learning methods on a challenging distribution shift, we introduce a novel domain-incremental dataset DN4IL. In addition to improving performance on existing benchmarks, DUCA also demonstrates superior performance on this complex dataset.
翻訳日:2023-10-18 15:20:16 公開日:2023-10-17
# 文脈型機械学習

Contextualized Machine Learning ( http://arxiv.org/abs/2310.11340v1 )

ライセンス: Link先を確認
Benjamin Lengerich, Caleb N. Ellington, Andrea Rubbi, Manolis Kellis, Eric P. Xing(参考訳) 異種および文脈に依存した効果を学習するためのパラダイムであるコンテキスト型機械学習(ML)について検討する。 文脈化MLは、文脈情報と文脈特化パラメトリックモデルの間のメタ関係に深層学習を適用することで異種関数を推定する。 これは、クラスタ分析とコホートモデリングを含む既存のフレームワークを統一した様々な係数モデリングの形式であり、再利用可能な概念として、サンプルコンテキストをモデルパラメータに変換するコンテキストエンコーダと、サンプル予測子で動作するサンプル固有モデルである。 本稿では,文脈モデルの開発プロセス,文脈モデルからの非パラメトリック推論,文脈モデルの識別可能性条件について概説する。 最後に、オープンソースのPyTorchパッケージContextualizedMLを紹介する。

We examine Contextualized Machine Learning (ML), a paradigm for learning heterogeneous and context-dependent effects. Contextualized ML estimates heterogeneous functions by applying deep learning to the meta-relationship between contextual information and context-specific parametric models. This is a form of varying-coefficient modeling that unifies existing frameworks including cluster analysis and cohort modeling by introducing two reusable concepts: a context encoder which translates sample context into model parameters, and sample-specific model which operates on sample predictors. We review the process of developing contextualized models, nonparametric inference from contextualized models, and identifiability conditions of contextualized models. Finally, we present the open-source PyTorch package ContextualizedML.
翻訳日:2023-10-18 15:19:51 公開日:2023-10-17
# 強化学習における非エルゴード性:エルゴード性変換による堅牢性

Non-ergodicity in reinforcement learning: robustness via ergodicity transformations ( http://arxiv.org/abs/2310.11335v1 )

ライセンス: Link先を確認
Dominik Baumann and Erfaun Noorani and James Price and Ole Peters and Colm Connaughton and Thomas B. Sch\"on(参考訳) 強化学習(RL)の応用分野には、自律運転、精密農業、金融などが含まれており、実世界での意思決定にはRLエージェントが必要である。 これらの領域におけるRL法の採用を妨げる重要な課題は、従来のアルゴリズムの非ロバスト性である。 本稿では,ロバスト性の欠如に寄与する根本的な問題は,唯一の「正しい」最適化目標であるリターンの期待値に着目することにあると論じる。 期待値は、無限に多くの軌道の統計的アンサンブルの平均である。 非エルゴード的なリターンの場合、この平均は1つのが無限に長い軌道上の平均と異なる。 その結果、期待値の最適化は、確率ゼロで例外的に高いリターンをもたらすが、ほぼ確実に破滅的な結果をもたらすポリシーにつながる。 この問題は、収集されたリターンの時系列をエルゴディックインクリメントの時系列に変換することで回避できる。 この変換により、無限に多くの軌道にまたがる平均よりも、個々のエージェントの長期的なリターンを最適化することで、堅牢なポリシーを学ぶことができる。 本研究では,データからエルゴード変換を学習するアルゴリズムを提案し,その効果を指示的,非エルゴード環境および標準rlベンチマークで実証する。

Envisioned application areas for reinforcement learning (RL) include autonomous driving, precision agriculture, and finance, which all require RL agents to make decisions in the real world. A significant challenge hindering the adoption of RL methods in these domains is the non-robustness of conventional algorithms. In this paper, we argue that a fundamental issue contributing to this lack of robustness lies in the focus on the expected value of the return as the sole "correct" optimization objective. The expected value is the average over the statistical ensemble of infinitely many trajectories. For non-ergodic returns, this average differs from the average over a single but infinitely long trajectory. Consequently, optimizing the expected value can lead to policies that yield exceptionally high returns with probability zero but almost surely result in catastrophic outcomes. This problem can be circumvented by transforming the time series of collected returns into one with ergodic increments. This transformation enables learning robust policies by optimizing the long-term return for individual agents rather than the average across infinitely many trajectories. We propose an algorithm for learning ergodicity transformations from data and demonstrate its effectiveness in an instructive, non-ergodic environment and on standard RL benchmarks.
翻訳日:2023-10-18 15:19:38 公開日:2023-10-17
# エージェント特異的効果

Agent-Specific Effects ( http://arxiv.org/abs/2310.11334v1 )

ライセンス: Link先を確認
Stelios Triantafyllou, Aleksa Sukovic, Debmalya Mandal, Goran Radanovic(参考訳) 行動と成果の因果関係を確立することは、説明責任のあるマルチエージェントの意思決定に不可欠である。 しかし、そのような関係に対するエージェントの貢献の解釈と定量化は大きな課題となる。 これらの課題は、エージェントの行動が結果に与える因果効果が、他のエージェントがその行動にどう反応するかに依存するマルチエージェントのシーケンシャルな意思決定の文脈において特に顕著である。 本稿では,エージェントの行動が他のエージェントに与える影響に因果的影響をもたらすための体系的アプローチを提案する。 我々は,マルチエージェントマルコフ決定プロセスに着目し,エージェント特異的効果 (ase) について紹介する。 次に, ASE (cf-ASE) の対実的対応に目を向け, cf-ASE の同定に十分な条件セットを提供し, その推定のための実用的なサンプリングベースアルゴリズムを提案する。 最後に,セプシス管理環境を含むシミュレーションベースのテストベッドを用いてcf-aseの有用性を実験的に評価した。

Establishing causal relationships between actions and outcomes is fundamental for accountable multi-agent decision-making. However, interpreting and quantifying agents' contributions to such relationships pose significant challenges. These challenges are particularly prominent in the context of multi-agent sequential decision-making, where the causal effect of an agent's action on the outcome depends on how the other agents respond to that action. In this paper, our objective is to present a systematic approach for attributing the causal effects of agents' actions to the influence they exert on other agents. Focusing on multi-agent Markov decision processes, we introduce agent-specific effects (ASE), a novel causal quantity that measures the effect of an agent's action on the outcome that propagates through other agents. We then turn to the counterfactual counterpart of ASE (cf-ASE), provide a sufficient set of conditions for identifying cf-ASE, and propose a practical sampling-based algorithm for estimating it. Finally, we experimentally evaluate the utility of cf-ASE through a simulation-based testbed, which includes a sepsis management environment.
翻訳日:2023-10-18 15:19:19 公開日:2023-10-17
# ロボット果実ピッキングのためのキーポイントに基づくストローベリーの配向推定

Key Point-based Orientation Estimation of Strawberries for Robotic Fruit Picking ( http://arxiv.org/abs/2310.11333v1 )

ライセンス: Link先を確認
Justin Le Lou\"edec and Grzegorz Cielniak(参考訳) 選択的ロボット収穫は、世界の多くの地域で現代の農業に影響を与える労働不足に対処するための有望な技術ソリューションである。 ロボット収穫機は、正確で効率的な摘み取り工程のために、果実の正確な位置と方向を要求され、エンドエフェクタの軌道を効果的に計画する。 フルーツオリエンテーションを推定する現在の手法は、一般的に複数のビューからの登録を必要とする完全3D情報か、あるいは参照オリエンテーションのマニュアルアノテーションが難しい完全教師付き学習技術に依存している。 本稿では,2次元画像から直接3次元方向の予測が可能な,キーポイントに基づく果実方位推定手法を提案する。 提案手法は,完全な3次元方向アノテーションを使わずに機能するが,その情報を利用して精度を向上させることもできる。 実世界のデータ収集シナリオから得られたイチゴ画像の2つのデータセットについて検討した。 提案手法は, 平均誤差が8^{\circ}$であり, 予測値が-\cite{wagner2021 efficient} で提示された従来の手法と比較して$\sim30\%$向上する。 さらに,本手法は,高速推論時間$\sim30$msのリアルタイムロボットアプリケーションに適している。

Selective robotic harvesting is a promising technological solution to address labour shortages which are affecting modern agriculture in many parts of the world. For an accurate and efficient picking process, a robotic harvester requires the precise location and orientation of the fruit to effectively plan the trajectory of the end effector. The current methods for estimating fruit orientation employ either complete 3D information which typically requires registration from multiple views or rely on fully-supervised learning techniques, which require difficult-to-obtain manual annotation of the reference orientation. In this paper, we introduce a novel key-point-based fruit orientation estimation method allowing for the prediction of 3D orientation from 2D images directly. The proposed technique can work without full 3D orientation annotations but can also exploit such information for improved accuracy. We evaluate our work on two separate datasets of strawberry images obtained from real-world data collection scenarios. Our proposed method achieves state-of-the-art performance with an average error as low as $8^{\circ}$, improving predictions by $\sim30\%$ compared to previous work presented in~\cite{wagner2021efficient}. Furthermore, our method is suited for real-time robotic applications with fast inference times of $\sim30$ms.
翻訳日:2023-10-18 15:19:00 公開日:2023-10-17
# 言語モデルのプロンプトデザインにおける純粋特徴に対する感受性の定量化

Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting ( http://arxiv.org/abs/2310.11324v1 )

ライセンス: Link先を確認
Melanie Sclar, Yejin Choi, Yulia Tsvetkov, Alane Suhr(参考訳) 大規模言語モデル(LLM)が言語技術の基本コンポーネントとして採用されているため,その性能を正確に評価することが重要である。 プロンプトデザインの選択はモデルの振る舞いに強く影響するので、この設計プロセスは、現代の事前学習された生成言語モデルを使うのに不可欠である。 本研究は, 意味保存設計選択の重要クラスである即時フォーマッティングに対するLCM感度に着目した。 LLaMA-2-13B を用いて評価すると,いくつかのオープンソース LLM は,数ショット設定でのプロンプトフォーマットの微妙な変更に対して極めて敏感であることがわかった。 感性は、モデルサイズ、数ショットの例の数、あるいは命令チューニングを実行する場合にも持続する。 分析の結果,従来の1つのフォーマットで性能を報告する手法ではなく,プロンプトベースの手法でLCMを評価する作業は,有効なプロンプトフォーマットにまたがる幅広いパフォーマンスを報告することのメリットが示唆された。 また,フォーマット性能はモデル間の相関が弱く,モデルと任意に選択された固定されたプロンプト形式を比較する方法論的妥当性に疑問を呈する。 体系的解析を容易にするため,我々は,与えられたタスクの可能なプロンプトフォーマットのサンプルセットを迅速に評価し,モデル重み付けにアクセスせずに期待性能の間隔を報告するアルゴリズムである formatpread を提案する。 さらに、この感度の性質を特徴づける一連の分析を行い、特定の原子摂動と特定のフォーマットの内部表現の影響について検討する。

As large language models (LLMs) are adopted as a fundamental component of language technologies, it is crucial to accurately characterize their performance. Because choices in prompt design can strongly influence model behavior, this design process is critical in effectively using any modern pre-trained generative language model. In this work, we focus on LLM sensitivity to a quintessential class of meaning-preserving design choices: prompt formatting. We find that several widely used open-source LLMs are extremely sensitive to subtle changes in prompt formatting in few-shot settings, with performance differences of up to 76 accuracy points when evaluated using LLaMA-2-13B. Sensitivity remains even when increasing model size, the number of few-shot examples, or performing instruction tuning. Our analysis suggests that work evaluating LLMs with prompting-based methods would benefit from reporting a range of performance across plausible prompt formats, instead of the currently-standard practice of reporting performance on a single format. We also show that format performance only weakly correlates between models, which puts into question the methodological validity of comparing models with an arbitrarily chosen, fixed prompt format. To facilitate systematic analysis we propose FormatSpread, an algorithm that rapidly evaluates a sampled set of plausible prompt formats for a given task, and reports the interval of expected performance without accessing model weights. Furthermore, we present a suite of analyses that characterize the nature of this sensitivity, including exploring the influence of particular atomic perturbations and the internal representation of particular formats.
翻訳日:2023-10-18 15:18:39 公開日:2023-10-17
# 量子状態判別のための古典的シミュラブル測定の限界

Limitations of Classically-Simulable Measurements for Quantum State Discrimination ( http://arxiv.org/abs/2310.11323v1 )

ライセンス: Link先を確認
Chengkai Zhu, Zhiping Liu, Chenghong Zhu, Xin Wang(参考訳) フォールトトレラント量子コンピューティングの分野では、スタビライザー演算は古典シミュレーションにおける顕著な効率を特徴とする重要な役割を担っている。 この効率は、計算資源理論における非安定化演算と区別する。 本研究では、古典的にシミュレート可能な測定の限界、特に量子状態の区別において、全ての安定化器測定を含む正の離散ウィグナー関数を持つPOVMについて検討する。 任意の純魔法状態とその奇素次元の直交補集合は、状態のコピー数に関係なく、正の離散ウィグナー函数を持つPOVMによって明確に区別できないことを示す。 また、ストレンジ状態とその直交相補体を区別するための漸近誤差確率を与える。 さらに,任意の直交純安定状態の組は正の離散ウィグナー関数を持つ povm を通じて曖昧に区別できることを証明し,これはエンタングルメント理論における拡張不能な積基底の存在とは異なる。 以上の結果から,魔法状態の量子資源理論と量子状態判別における絡み合いの固有類似性と区別が明らかになった。 この結果は古典的にシミュレート可能な測定の固有の限界を強調し、量子古典境界の深い理解に寄与する。

In the realm of fault-tolerant quantum computing, stabilizer operations play a pivotal role, characterized by their remarkable efficiency in classical simulation. This efficiency sets them apart from non-stabilizer operations within the computational resource theory. In this work, we investigate the limitations of classically-simulable measurements, specifically POVMs with positive discrete Wigner functions which include all stabilizer measurements, in distinguishing quantum states. We demonstrate that any pure magic state and its orthogonal complement of odd prime dimension cannot be unambiguously distinguished by POVMs with positive discrete Wigner functions, regardless of how many copies of the states are supplied. We also give the asymptotic error probability for distinguishing the Strange state and its orthogonal complement. Moreover, we prove that every set of orthogonal pure stabilizer states can be unambiguously distinguished via POVMs with positive discrete Wigner functions, which is different from the existence of an unextendible product basis in entanglement theory. Our results reveal intrinsic similarities and distinctions between the quantum resource theory of magic states and entanglement in quantum state discrimination. The results emphasize the inherent limitations of classically-simulable measurements and contribute to a deeper understanding of the quantum-classical boundary.
翻訳日:2023-10-18 15:18:08 公開日:2023-10-17
# 2段マルチレゾリューションアンサンブルによるロバストなウェイクアップワード検出

Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles ( http://arxiv.org/abs/2310.11379v1 )

ライセンス: Link先を確認
Fernando L\'opez, Jordi Luque, Carlos Segura, Pablo G\'omez(参考訳) 音声ベースのインタフェースは、デバイスとの通信を開始するための起動ワード機構に依存している。 しかし、堅牢でエネルギー効率が高く、迅速な検出を実現することは依然として課題である。 本稿では、時間的アライメントによるデータ向上と、マルチレゾリューションによる2つの位相に基づく検出により、これらの実運用ニーズに対処する。 オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、検出を洗練するための異種アーキテクチャのアンサンブルであるサーバ側の検証モデルである。 この方式は2つの操作点の最適化を可能にする。 プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。 本研究は,オンデバイス検出用と検証モデル用を選択するための特徴抽出のためのパラメトリック構成について検討した。 さらに,13種類の音声分類器を性能と推定時間で比較した。 提案するアンサンブルは,すべての雑音条件において,より強固な分類器を上回る。

Voice-based interfaces rely on a wake-up word mechanism to initiate communication with devices. However, achieving a robust, energy-efficient, and fast detection remains a challenge. This paper addresses these real production needs by enhancing data with temporal alignments and using detection based on two phases with multi-resolution. It employs two models: a lightweight on-device model for real-time processing of the audio stream and a verification model on the server-side, which is an ensemble of heterogeneous architectures that refine detection. This scheme allows the optimization of two operating points. To protect privacy, audio features are sent to the cloud instead of raw audio. The study investigated different parametric configurations for feature extraction to select one for on-device detection and another for the verification model. Furthermore, thirteen different audio classifiers were compared in terms of performance and inference time. The proposed ensemble outperforms our stronger classifier in every noise condition.
翻訳日:2023-10-18 15:12:19 公開日:2023-10-17
# 一般化平均デンストグラフ問題に対する高速アルゴリズム

Faster Algorithms for Generalized Mean Densest Subgraph Problem ( http://arxiv.org/abs/2310.11377v1 )

ライセンス: Link先を確認
Chenglin Fan, Ping Li, Hanyu Peng(参考訳) 大きなグラフの最も密度の高い部分グラフは、通常、平均次数が最も高い部分グラフを指し、~\citet{veldt2021generalized} によって$p$-means の高密度部分グラフの対象の族に拡張される。 $p$-mean の高密度部分グラフ問題は最も高い$p$-th-power のグラフを求めるが、標準的な高密度部分グラフ問題は単純な平均学位のグラフを求める。 その結果,標準剥離アルゴリズムは,0<p<1$のとき,0<p<1$のとき,一般目的に対して任意に粗悪な処理を行うことができた。 本稿では,標準的な剥離アルゴリズムが,0<p < 1$の場合に対して,まだ2^{1/p}$-approximationを得られることを示す最初の方法である。 (veldt 2021) は新たな一般化ピーリングアルゴリズム (genpeel) を提案し、これは$p \geq 1$ に対して近似保証比 $(p+1)^{1/p}$ と時間複雑性 $o(mn)$ を持ち、$m$ と $n$ はそれぞれグラフの辺数とノード数を表す。 アルゴリズム的貢献の観点からは、新しいより高速な一般化ピーリングアルゴリズム (genpeel++ と呼ばれる) を提案し、これは$p \in [1, +\infty)$ に対して近似保証比 $(2(p+1))^{1/p}$ と時間複雑性 $o(m(\log n))$ を持ち、ここで $m$ と $n$ はそれぞれグラフのエッジ数とノード数を表す。 この近似比は 1 に収束して $p \rightarrow \infty$ となる。

The densest subgraph of a large graph usually refers to some subgraph with the highest average degree, which has been extended to the family of $p$-means dense subgraph objectives by~\citet{veldt2021generalized}. The $p$-mean densest subgraph problem seeks a subgraph with the highest average $p$-th-power degree, whereas the standard densest subgraph problem seeks a subgraph with a simple highest average degree. It was shown that the standard peeling algorithm can perform arbitrarily poorly on generalized objective when $p>1$ but uncertain when $0<p<1$. In this paper, we are the first to show that a standard peeling algorithm can still yield $2^{1/p}$-approximation for the case $0<p < 1$. (Veldt 2021) proposed a new generalized peeling algorithm (GENPEEL), which for $p \geq 1$ has an approximation guarantee ratio $(p+1)^{1/p}$, and time complexity $O(mn)$, where $m$ and $n$ denote the number of edges and nodes in graph respectively. In terms of algorithmic contributions, we propose a new and faster generalized peeling algorithm (called GENPEEL++ in this paper), which for $p \in [1, +\infty)$ has an approximation guarantee ratio $(2(p+1))^{1/p}$, and time complexity $O(m(\log n))$, where $m$ and $n$ denote the number of edges and nodes in graph, respectively. This approximation ratio converges to 1 as $p \rightarrow \infty$.
翻訳日:2023-10-18 15:12:05 公開日:2023-10-17
# 対話LLM:会話における感情認識のための文脈・感情知識調整LLaMAモデル

DialogueLLM: Context and Emotion Knowledge-Tuned LLaMA Models for Emotion Recognition in Conversations ( http://arxiv.org/abs/2310.11374v1 )

ライセンス: Link先を確認
Yazhou Zhang, Mengyao Wang, Prayag Tiwari, Qiuchi Li, Benyou Wang, Jing Qin(参考訳) 大規模言語モデル(LLM)とその変種は、多くの下流自然言語処理(NLP)タスクに対して異常な有効性を示しており、NLPの開発に対する新たなビジョンを示している。 自然言語生成(NLG)における顕著な性能にもかかわらず、LLMは感情理解領域に明確な焦点をあてていない。 その結果、LLMを感情認識に使用すると、最適でない精度と不適切な精度が生じる可能性がある。 LLMのもうひとつの制限は、マルチモーダル情報を活用することなく訓練されることだ。 これらの制限を克服するために,13,638個のマルチモーダル(テキストとビデオ)感情対話を用いたLLaMAモデルを用いて,文脈と感情の知識を調整したLLMであるダイアログLLMを提案する。 視覚情報は、高品質な指示を構築するための補足的な知識と見なされる。 本稿では,会話(ERC)データセットにおける3つの感情認識のベンチマークモデルについて総合評価を行い,その結果をSOTAベースラインや他のSOTALLMと比較する。 さらに、DialogueLLM-7Bは、40GBのA100 GPU上で5時間でLoRAを使って簡単にトレーニングできる。

Large language models (LLMs) and their variants have shown extraordinary efficacy across numerous downstream natural language processing (NLP) tasks, which has presented a new vision for the development of NLP. Despite their remarkable performance in natural language generating (NLG), LLMs lack a distinct focus on the emotion understanding domain. As a result, using LLMs for emotion recognition may lead to suboptimal and inadequate precision. Another limitation of LLMs is that they are typical trained without leveraging multi-modal information. To overcome these limitations, we propose DialogueLLM, a context and emotion knowledge tuned LLM that is obtained by fine-tuning LLaMA models with 13,638 multi-modal (i.e., texts and videos) emotional dialogues. The visual information is considered as the supplementary knowledge to construct high-quality instructions. We offer a comprehensive evaluation of our proposed model on three benchmarking emotion recognition in conversations (ERC) datasets and compare the results against the SOTA baselines and other SOTA LLMs. Additionally, DialogueLLM-7B can be easily trained using LoRA on a 40GB A100 GPU in 5 hours, facilitating reproducibility for other researchers.
翻訳日:2023-10-18 15:11:29 公開日:2023-10-17
# vechr:欧州人権裁判所における脆弱性タイプの説明可能かつロバストな分類のためのデータセット

VECHR: A Dataset for Explainable and Robust Classification of Vulnerability Type in the European Court of Human Rights ( http://arxiv.org/abs/2310.11368v1 )

ライセンス: Link先を確認
Shanshan Xu, Leon Staufer, Santosh T.Y.S.S, Oana Ichim, Corina Heri, Matthias Grabmair(参考訳) 脆弱性を認識することは,対象とするサポートの理解と実装において極めて重要である。 これは欧州人権裁判所(ECtHR)において特に重要であり、裁判所は条約の基準を実際の個人のニーズに適合させ、それによって効果的な人権保護を確保する。 しかし、脆弱性の概念はECtHRではいまだ解明されておらず、これまでのNLP研究では対応していない。 そこで本研究では,脆弱性型分類と説明的根拠からなる,新たな専門家によるマルチラベルデータセットであるVECHRを提案する。 予測可能性と説明可能性の両方の観点から,VECHRの最先端モデルの性能をベンチマークする。 結果は,予測性能が低く,モデルと専門家の合意が限られているタスクの難易度を示す。 さらに,out-of-domain(ood)データを扱う際のモデルのロバスト性を分析し,全体の性能を観測する。 私たちのデータセットは、パフォーマンス、説明可能性、堅牢性に関する大きな改善の余地を提供するユニークな課題をもたらします。

Recognizing vulnerability is crucial for understanding and implementing targeted support to empower individuals in need. This is especially important at the European Court of Human Rights (ECtHR), where the court adapts Convention standards to meet actual individual needs and thus ensures effective human rights protection. However, the concept of vulnerability remains elusive at the ECtHR and no prior NLP research has dealt with it. To enable future research in this area, we present VECHR, a novel expert-annotated multi-label dataset comprising of vulnerability type classification and explanation rationale. We benchmark the performance of state-of-the-art models on VECHR from both prediction and explainability perspectives. Our results demonstrate the challenging nature of the task with lower prediction performance and limited agreement between models and experts. Further, we analyze the robustness of these models in dealing with out-of-domain (OOD) data and observe overall limited performance. Our dataset poses unique challenges offering significant room for improvement regarding performance, explainability, and robustness.
翻訳日:2023-10-18 15:11:05 公開日:2023-10-17
# 等価ニューラルネットワークのためのリー群分解

Lie Group Decompositions for Equivariant Neural Networks ( http://arxiv.org/abs/2310.11366v1 )

ライセンス: Link先を確認
Mircea Mironenco, Patrick Forr\'e(参考訳) 幾何変換に対する不変性と等価性は、特に低データ構造において、トレーニング(畳み込み)ニューラルネットワークモデルにおいて非常に有用な帰納的バイアスであることが証明されている。 多くの研究は、採用される対称性群がコンパクトあるいはアーベル群あるいはその両方である場合に焦点を当てている。 近年の研究は、リー群の場合に用いられる変換の類を、主にリー代数(英語版)や群指数関数写像(英語版)や対数写像(英語版)(logarithm map)を用いて拡張することを検討している。 より大きな変換群へのそのような方法の適用性は、利息の群 G$ に依存して指数写像は全射的でないという事実によって制限される。 さらなる制限は、$G$がコンパクトでもアーベルでもないときに発生する。 リー群とその同次空間の構造と幾何学を用いて、リー群 $G = \text{GL}^{+}(n, \mathbb{R})$ と $G = \text{SL}(n, \mathbb{R})$ と、アフィン変換 $\mathbb{R}^{n} \rtimes G$ に主に焦点を絞ったそのような群を扱うことができる枠組みを示す。 不変積分と大域パラメトリゼーションは `larger` 群を個別に扱うことができる部分群と部分多様体に分解することで実現される。 この枠組みでは、コンボリューションカーネルをパラメータ化してアフィン変換に対する同変モデルを構築する方法を示す。 我々は,本モデルのロバスト性と分布の一般化性を標準アフィン不変ベンチマーク分類タスクで評価した。

Invariance and equivariance to geometrical transformations have proven to be very useful inductive biases when training (convolutional) neural network models, especially in the low-data regime. Much work has focused on the case where the symmetry group employed is compact or abelian, or both. Recent work has explored enlarging the class of transformations used to the case of Lie groups, principally through the use of their Lie algebra, as well as the group exponential and logarithm maps. The applicability of such methods to larger transformation groups is limited by the fact that depending on the group of interest $G$, the exponential map may not be surjective. Further limitations are encountered when $G$ is neither compact nor abelian. Using the structure and geometry of Lie groups and their homogeneous spaces, we present a framework by which it is possible to work with such groups primarily focusing on the Lie groups $G = \text{GL}^{+}(n, \mathbb{R})$ and $G = \text{SL}(n, \mathbb{R})$, as well as their representation as affine transformations $\mathbb{R}^{n} \rtimes G$. Invariant integration as well as a global parametrization is realized by decomposing the `larger` groups into subgroups and submanifolds which can be handled individually. Under this framework, we show how convolution kernels can be parametrized to build models equivariant with respect to affine transformations. We evaluate the robustness and out-of-distribution generalisation capability of our model on the standard affine-invariant benchmark classification task, where we outperform all previous equivariant models as well as all Capsule Network proposals.
翻訳日:2023-10-18 15:10:47 公開日:2023-10-17
# プライバシ保護BERTの言語能力の両立

Disentangling the Linguistic Competence of Privacy-Preserving BERT ( http://arxiv.org/abs/2310.11363v1 )

ライセンス: Link先を確認
Stefan Arnold, Nils Kemmerzell, and Annika Schreiner(参考訳) ディファレンシャルプライバシ(dp)は、テキスト間民営化のユニークな課題に対処するために調整されている。 しかし、テキストからテキストへのプライベート化は、摂動テキストで訓練された場合の言語モデルの性能を劣化させることで知られている。 乱用前文で訓練されたbertから抽出された内部表現の一連の解釈手法を用いて,差分プライバシーによって引き起こされる歪みを言語レベルで分離する。 表象的類似性解析による実験の結果、内部表現の全体的類似性は実質的に減少していることが示された。 この相違点を解き明かすために探索タスクを用いることで、テキストからテキストへの民話化が複数の形式主義をまたいだ言語能力に影響を及ぼし、単語の局所的特性を符号化する一方で、単語間の文脈的関係の符号化に不足する証拠を見出した。

Differential Privacy (DP) has been tailored to address the unique challenges of text-to-text privatization. However, text-to-text privatization is known for degrading the performance of language models when trained on perturbed text. Employing a series of interpretation techniques on the internal representations extracted from BERT trained on perturbed pre-text, we intend to disentangle at the linguistic level the distortion induced by differential privacy. Experimental results from a representational similarity analysis indicate that the overall similarity of internal representations is substantially reduced. Using probing tasks to unpack this dissimilarity, we find evidence that text-to-text privatization affects the linguistic competence across several formalisms, encoding localized properties of words while falling short at encoding the contextual relationships between spans of words.
翻訳日:2023-10-18 15:10:13 公開日:2023-10-17
# 意味単位を用いたニューラルマシン翻訳の強化

Enhancing Neural Machine Translation with Semantic Units ( http://arxiv.org/abs/2310.11360v1 )

ライセンス: Link先を確認
Langlin Huang, Shuhao Gu, Zhuocheng Zhang, Yang Feng(参考訳) 従来のニューラルネットワーク翻訳(NMT)モデルは、通常、モデル入力と理解の基本単位としてサブワードと単語を使用する。 しかし、複数のトークンからなる完全な単語や句はしばしば意味論を表現する基本単位であり、意味論単位と呼ばれる。 この問題に対処するために,文内の意味単位の積分的意味をモデル化し,それらを利用して文を理解するための新たな視点を提供する意味翻訳用意味翻訳ユニット (SU4MT) を提案する。 具体的には,意味単位の境界を識別するためのフレーズ抽出手法であるWord Pair Encoding (WPE)を提案する。 次に、複数のサブワードのセマンティクスを単一のベクトル、すなわち意味単位表現に統合するために、ASF(Attentive Semantic Fusion)層を設計する。 最後に、意味単位レベルの文表現をトークンレベルの表現に連結し、エンコーダの入力として結合する。 実験により,提案手法は,意味単位レベルの情報を効果的にモデル化し,活用し,強力なベースラインを上回ることを示した。 コードはhttps://github.com/ictnlp/su4mtで入手できる。

Conventional neural machine translation (NMT) models typically use subwords and words as the basic units for model input and comprehension. However, complete words and phrases composed of several tokens are often the fundamental units for expressing semantics, referred to as semantic units. To address this issue, we propose a method Semantic Units for Machine Translation (SU4MT) which models the integral meanings of semantic units within a sentence, and then leverages them to provide a new perspective for understanding the sentence. Specifically, we first propose Word Pair Encoding (WPE), a phrase extraction method to help identify the boundaries of semantic units. Next, we design an Attentive Semantic Fusion (ASF) layer to integrate the semantics of multiple subwords into a single vector: the semantic unit representation. Lastly, the semantic-unit-level sentence representation is concatenated to the token-level one, and they are combined as the input of encoder. Experimental results demonstrate that our method effectively models and leverages semantic-unit-level information and outperforms the strong baselines. The code is available at https://github.com/ictnlp/SU4MT.
翻訳日:2023-10-18 15:09:51 公開日:2023-10-17
# 最大効率量子力学スクランブルのスケーリング理論

Scaling theory of maximally efficient quantum-dynamical scrambling ( http://arxiv.org/abs/2310.11355v1 )

ライセンス: Link先を確認
Tara Kalsi, Alessandro Romito, Henning Schomerus(参考訳) 複雑な量子系のエルゴード定常状態への進化に関する重要な予想は、この過程が最も効率的であるときに普遍的な特徴を取得することである。 このシナリオに対する単一パラメータスケーリング理論を開発し、完全なスクランブルダイナミクスに沿ったスペクトル相関の正確な自己相似性を具現化する。 スケーリング予測は特権付き確率過程で一致し、他の動的スクランブルシナリオのバウンダリとして機能し、すべての時間スケールで非効率または不完全スクランブルを定量化できるようにする。

A key conjecture about the evolution of complex quantum systems towards an ergodic steady state, known as scrambling, is that this process acquires universal features when it is most efficient. We develop a single-parameter scaling theory for this scenario, which embodies exact self-similarity of the spectral correlations along the complete scrambling dynamics. We establish that the scaling predictions are matched by a privileged stochastic process, and serve as bounds for other dynamical scrambling scenarios, allowing one to quantify inefficient or incomplete scrambling on all timescales.
翻訳日:2023-10-18 15:09:32 公開日:2023-10-17
# デジタル病理における腫瘍分類のためのハイブリッド量子古典グラフニューラルネットワーク

Hybrid quantum-classical graph neural networks for tumor classification in digital pathology ( http://arxiv.org/abs/2310.11353v1 )

ライセンス: Link先を確認
Anupama Ray, Dhiraj Madan, Srushti Patil, Maria Anna Rapsomaniki, Pushpak Pati(参考訳) 古典的機械学習と単一細胞技術の進歩は、疾患細胞と腫瘍の微小環境の間の相互作用を理解し、治療の発見を加速する方法を開拓した。 しかし、これらの機械学習手法の課題と空間生物学におけるNPハード問題により、量子コンピューティングアルゴリズムの機会が生まれる。 我々は、GNNと変分量子分類器(VQC)を組み合わせたハイブリッド量子古典グラフニューラルネットワーク(GNN)を作成し、乳癌のサブタイピングにおけるバイナリサブタスクを分類する。 本稿では,GNN+VQCのエンドツーエンドトレーニングと,GNNパラメータを固定した2つの変種について検討する。 その結果、ハイブリッド量子ニューラルネットワーク(QNN)は、重み付き精度、リコール、F1スコアの観点から、最先端の古典的グラフニューラルネットワーク(GNN)と同等であることが示された。 また,振幅符号化により,量子ビット数で情報を圧縮し,従来の圧縮法よりも優れた性能が得られることを示した。 最後に、エンドツーエンドトレーニングにより、固定されたGNNパラメータよりも改善でき、同じ次元のバニラGNNよりもわずかに改善できることを示す。

Advances in classical machine learning and single-cell technologies have paved the way to understand interactions between disease cells and tumor microenvironments to accelerate therapeutic discovery. However, challenges in these machine learning methods and NP-hard problems in spatial Biology create an opportunity for quantum computing algorithms. We create a hybrid quantum-classical graph neural network (GNN) that combines GNN with a Variational Quantum Classifier (VQC) for classifying binary sub-tasks in breast cancer subtyping. We explore two variants of the same, the first with fixed pretrained GNN parameters and the second with end-to-end training of GNN+VQC. The results demonstrate that the hybrid quantum neural network (QNN) is at par with the state-of-the-art classical graph neural networks (GNN) in terms of weighted precision, recall and F1-score. We also show that by means of amplitude encoding, we can compress information in logarithmic number of qubits and attain better performance than using classical compression (which leads to information loss while keeping the number of qubits required constant in both regimes). Finally, we show that end-to-end training enables to improve over fixed GNN parameters and also slightly improves over vanilla GNN with same number of dimensions.
翻訳日:2023-10-18 15:09:22 公開日:2023-10-17
# 非エルミートフロッケ系における絡み合い相転移

Entanglement phase transitions in non-Hermitian Floquet systems ( http://arxiv.org/abs/2310.11351v1 )

ライセンス: Link先を確認
Longwen Zhou(参考訳) ユニタリ時間発展と量子測定の競合は、量子多体力学の絡み合い特性における相転移を引き起こす可能性がある。 本研究では,非エルミートフロケット系の文脈において,そのような絡み合い遷移を明らかにする。 利得/損失のバランスと周期的クエンチの下での代表的二部格子の非相互作用フェルミオンに着目し, 駆動と非エルミタン効果の相互作用による絡み合い遷移の豊富なパターンを明らかにする。 特に、クエンチドホッピング振幅の単調増加は、ボリュームロー位相と領域ロー絡みフロッケ相の間を反転させ、交互に絡み合う遷移をもたらす可能性がある。 一方、利得/損失強度の上昇は、非駆動系において異常かつ非常に予期せぬ定常的絡み合いエントロピーのスケーリング挙動におけるボリュームローリエンタントラント遷移を引き起こす可能性がある。 Floquetスペクトルにおける絡み合い遷移とパリティ時間反転(PT)遷移の関連性をさらに確立する。 本研究は,Floquet の非エルミートセットアップにおける絡み合い相転移の探索の基礎となるだけでなく,運転場による遷移の工学・制御にも有効であることを示す。

The competition between unitary time-evolution and quantum measurements could induce phase transitions in the entanglement characteristics of quantum many-body dynamics. In this work, we reveal such entanglement transitions in the context of non-Hermitian Floquet systems. Focusing on noninteracting fermions in a representative bipartite lattice with balanced gain/loss and under time-periodic quenches, we uncover rich patterns of entanglement transitions due to the interplay between driving and non-Hermitian effects. Specially, we find that the monotonic increase of quenched hopping amplitude could flip the system between volume-law and area-law entangled Floquet phases, yielding alternated entanglement transitions. Meanwhile, the raise of gain/loss strength could trigger area-law to volume-law reentrant transitions in the scaling behavior of steady-state entanglement entropy, which are abnormal and highly unexpected in non-driven systems. Connections between entanglement transitions and parity-time-reversal (PT) transitions in Floquet spectra are further established. Our findings not only build a foundation for exploring entanglement phase transitions in Floquet non-Hermitian setups, but also provide efficient means to engineer and control such transitions by driving fields.
翻訳日:2023-10-18 15:09:02 公開日:2023-10-17
# 斜め森林を用いたオンライン環境におけるグループフェアネス向上

Enhancing Group Fairness in Online Settings Using Oblique Decision Forests ( http://arxiv.org/abs/2310.11401v1 )

ライセンス: Link先を確認
Somnath Basu Roy Chowdhury, Nicholas Monath, Ahmad Beirami, Rahul Kidambi, Avinava Dubey, Amr Ahmed, Snigdha Chaturvedi(参考訳) 公平性、特にグループ公平性は、機械学習システムのコンテキストにおいて重要な考慮事項である。 最も一般的に採用されているグループフェアネスエンハンシングテクニックは、トレーニングプロセス中にフェアネス目標(例えば、人口比パリティ)とタスク固有の目標(例えば、クロスエントロピー)の混合に依存するインプロセッシング手法である。 しかし、データがオンライン形式で(一度に1つのインスタンス)到着すると、このような公正な目標を最適化することは、いくつかの課題を引き起こします。 特に、グループフェアネスの目標は、異なる人口集団にわたる予測の予測を用いて定義される。 アルゴリズムが一度に1つのインスタンスにアクセスできるオンライン設定では、グループフェアネスの目標を推定するには、追加のストレージと、タスク固有の目標よりもはるかに多くの計算(例えば、前方/後方通過)が必要である。 本稿では,オンライン環境で公平な意思決定を行うために,斜め決定木のアンサンブルであるaranyaniを提案する。 アラニーニの階層木構造はパラメータ分離を可能にし、事前決定の集計統計値を用いて公平度勾配を効率的に計算し、追加ストレージや前方/後方通過の必要性を排除できる。 また,aranyaniを訓練するための効率的な枠組みを提案し,その性質を理論的に解析する。 5つの公開ベンチマーク(ビジョンと言語データセットを含む)で実証的な評価を行い、Aranyaniがベースラインアプローチよりも精度-公正トレードオフが優れていることを示す。

Fairness, especially group fairness, is an important consideration in the context of machine learning systems. The most commonly adopted group fairness-enhancing techniques are in-processing methods that rely on a mixture of a fairness objective (e.g., demographic parity) and a task-specific objective (e.g., cross-entropy) during the training process. However, when data arrives in an online fashion -- one instance at a time -- optimizing such fairness objectives poses several challenges. In particular, group fairness objectives are defined using expectations of predictions across different demographic groups. In the online setting, where the algorithm has access to a single instance at a time, estimating the group fairness objective requires additional storage and significantly more computation (e.g., forward/backward passes) than the task-specific objective at every time step. In this paper, we propose Aranyani, an ensemble of oblique decision trees, to make fair decisions in online settings. The hierarchical tree structure of Aranyani enables parameter isolation and allows us to efficiently compute the fairness gradients using aggregate statistics of previous decisions, eliminating the need for additional storage and forward/backward passes. We also present an efficient framework to train Aranyani and theoretically analyze several of its properties. We conduct empirical evaluations on 5 publicly available benchmarks (including vision and language datasets) to show that Aranyani achieves a better accuracy-fairness trade-off compared to baseline approaches.
翻訳日:2023-10-18 15:00:33 公開日:2023-10-17
# Gottesman-Kitaev-Preskill状態の自律的量子誤差補正

Autonomous quantum error correction of Gottesman-Kitaev-Preskill states ( http://arxiv.org/abs/2310.11400v1 )

ライセンス: Link先を確認
Dany Lachance-Quirion, Marc-Antoine Lemonde, Jean Olivier Simoneau, Lucas St-Jean, Pascal Lemieux, Sara Turcotte, Wyatt Wright, Am\'elie Lacroix, Jo\"elle Fr\'echette-Viens, Ross Shillito, Florian Hopfmueller, Maxime Tremblay, Nicholas E. Frattini, Julien Camirand Lemyre, Philippe St-Jean(参考訳) Gottesman-Kitaev-Preskill (GKP) 符号は、論理キュービットを1光子損失に対するレジリエンスを持つボソニック系に符号化する。 本稿では,超伝導装置の貯留層工学に基づくGKP状態の量子誤差補正実験を行った。 エラー訂正は、補助トランスモンキュービットの無条件リセットによって自律的に行われる。 論理量子ビットの寿命は量子誤差補正から増加することが示され、生成するよりも多くの誤差が修正される点に達する。

The Gottesman-Kitaev-Preskill (GKP) code encodes a logical qubit into a bosonic system with resilience against single-photon loss, the predominant error in most bosonic systems. Here we present experimental results demonstrating quantum error correction of GKP states based on reservoir engineering of a superconducting device. Error correction is made autonomous through an unconditional reset of an auxiliary transmon qubit. The lifetime of the logical qubit is shown to be increased from quantum error correction, therefore reaching the point at which more errors are corrected than generated.
翻訳日:2023-10-18 15:00:06 公開日:2023-10-17
# ニューラルネットワークを用いた自己注意機構におけるQKV計算の強化

Neural Attention: Enhancing QKV Calculation in Self-Attention Mechanism with Neural Networks ( http://arxiv.org/abs/2310.11398v1 )

ライセンス: Link先を確認
Muhan Zhang(参考訳) ディープラーニングの領域では、自己認識メカニズムは、自然言語処理やコンピュータビジョンを含む、無数のタスクにまたがる重要な役割を実証している。 多様なアプリケーションで成功しているにもかかわらず、従来の自己認識メカニズムは主にクエリ、キー、値(QKV)の計算に線形変換を利用する。 本稿では,qkv計算のための新しい手法を探究し,特別に設計されたニューラルネットワーク構造を用いて計算を行う。 改良されたマリアンモデルを用いて、IWSLT 2017ドイツ語翻訳タスクデータセットの実験を行い、従来の手法で近似した。 実験結果から,BLEUスコアの大幅な向上が得られた。 さらに,wikitext-103データセットを用いてrobertaモデルをトレーニングする際にも,モデルのパープレキシティが当初のデータに比べて著しく低下していることを反映して,その優越性が示された。 これらの実験結果から,本手法の有効性を検証できるだけでなく,ニューラルネットワークを用いたqkv計算による自己着脱機構の最適化の可能性も明らかにした。 提案手法のソースコードと実装の詳細はhttps://github.com/ocislyjrti/NeuralAttention.comでアクセスできます。

In the realm of deep learning, the self-attention mechanism has substantiated its pivotal role across a myriad of tasks, encompassing natural language processing and computer vision. Despite achieving success across diverse applications, the traditional self-attention mechanism primarily leverages linear transformations for the computation of query, key, and value (QKV), which may not invariably be the optimal choice under specific circumstances. This paper probes into a novel methodology for QKV computation-implementing a specially-designed neural network structure for the calculation. Utilizing a modified Marian model, we conducted experiments on the IWSLT 2017 German-English translation task dataset and juxtaposed our method with the conventional approach. The experimental results unveil a significant enhancement in BLEU scores with our method. Furthermore, our approach also manifested superiority when training the Roberta model with the Wikitext-103 dataset, reflecting a notable reduction in model perplexity compared to its original counterpart. These experimental outcomes not only validate the efficacy of our method but also reveal the immense potential in optimizing the self-attention mechanism through neural network-based QKV computation, paving the way for future research and practical applications. The source code and implementation details for our proposed method can be accessed at https://github.com/ocislyjrti/NeuralAttention.
翻訳日:2023-10-18 14:59:54 公開日:2023-10-17
# ラストワンスタンド: ソフトプロンプトチューニング, LoRA, コンテキスト内学習のセキュリティとプライバシの比較分析

Last One Standing: A Comparative Analysis of Security and Privacy of Soft Prompt Tuning, LoRA, and In-Context Learning ( http://arxiv.org/abs/2310.11397v1 )

ライセンス: Link先を確認
Rui Wen, Tianhao Wang, Michael Backes, Yang Zhang, Ahmed Salem(参考訳) 大きな言語モデル(LLM)は自然言語処理のための強力なツールであり、新しいアプリケーションやユーザエクスペリエンスを可能にする。 しかし、最適なパフォーマンスを得るためには、LLMはプライベートデータへの適応を必要とすることが多く、プライバシとセキュリティ上の問題を引き起こす。 Low-Rank Adaptation (LoRA)、Soft Prompt Tuning (SPT)、In-Context Learning (ICL)など、LLMをプライベートデータに適応させる技術が提案されているが、それらのプライバシーとセキュリティ特性は体系的に研究されていない。 本研究では,データ漏洩(プライバシー)を暴露するメンバシップ推論,悪意のある行動(セキュリティ)を注入するバックドア,知的財産(プライバシーとセキュリティ)を侵害するモデル盗みの3種類の攻撃に対して,lora,spt,iclのロバスト性を評価することにより,このギャップを埋める。 その結果,llm適応ではプライバシとセキュリティに銀の弾丸はなく,それぞれに長所と短所があることがわかった。

Large Language Models (LLMs) are powerful tools for natural language processing, enabling novel applications and user experiences. However, to achieve optimal performance, LLMs often require adaptation with private data, which poses privacy and security challenges. Several techniques have been proposed to adapt LLMs with private data, such as Low-Rank Adaptation (LoRA), Soft Prompt Tuning (SPT), and In-Context Learning (ICL), but their comparative privacy and security properties have not been systematically investigated. In this work, we fill this gap by evaluating the robustness of LoRA, SPT, and ICL against three types of well-established attacks: membership inference, which exposes data leakage (privacy); backdoor, which injects malicious behavior (security); and model stealing, which can violate intellectual property (privacy and security). Our results show that there is no silver bullet for privacy and security in LLM adaptation and each technique has different strengths and weaknesses.
翻訳日:2023-10-18 14:59:33 公開日:2023-10-17
# NISQハードウェアにおける量子ファイナンシャルモデリング:近似量子カウントを用いたランダムウォーク

Quantum Financial Modeling on NISQ Hardware: Random Walks using Approximate Quantum Counting ( http://arxiv.org/abs/2310.11394v1 )

ライセンス: Link先を確認
Dominic Widdows(参考訳) 量子コンピュータは、経済プロセスのモデリングをより効率的かつ正確に行うことが期待されている。 量子ハードウェアは現在比較的小さなスケールで利用可能であるが、有効アルゴリズムは論理ゲートの数によって制限されており、ゲート不正確なノイズが結果を支配する傾向にある。 長年提案され研究されてきたいくつかの理論アルゴリズムは、実際には量子ハードウェア上ではまだうまく機能していない。 これにより、限られた文脈で同様の役割を果たす適切な代替アルゴリズムの開発が促進される。 本稿では,量子ウォークにおける位置の追跡のための成分として用いられる量子計数(quantum counting)の場合には,この戦略を実装し,資産価格の経時変化をシミュレーションするモデルとして用いる。 従来の2進位置符号化による量子カウントよりも、2量子ビットの絡み合いゲートをはるかに少ない量子近似計数回路を導入する。 これらの回路のノイズに対する堅牢性を示す。 本論文は主にロバストな簡易量子回路設計について述べるが,結果のいくつかの側面を株価変動分布と比較し,中間測定値の有無と住宅市場の動向を比較した。

Quantum computers are expected to contribute more efficient and accurate ways of modeling economic processes. Quantum hardware is currently available at a relatively small scale, but effective algorithms are limited by the number of logic gates that can be used, before noise from gate inaccuracies tends to dominate results. Some theoretical algorithms that have been proposed and studied for years do not perform well yet on quantum hardware in practice. This encourages the development of suitable alternative algorithms that play similar roles in limited contexts. This paper implements this strategy in the case of quantum counting, which is used as a component for keeping track of position in a quantum walk, which is used as a model for simulating asset prices over time. We introduce quantum approximate counting circuits that use far fewer 2-qubit entangling gates than traditional quantum counting that relies on binary positional encoding. The robustness of these circuits to noise is demonstrated. While this paper is mainly about robust simplified quantum circuit designs, we compare some aspects of the results with price change distributions from stock indices, and compare the behavior of circuits with and without mid-measurement to trends in the housing market.
翻訳日:2023-10-18 14:59:08 公開日:2023-10-17
# 大規模言語モデルを用いた衛星画像自動キャプション生成に向けて

Towards Automatic Satellite Images Captions Generation Using Large Language Models ( http://arxiv.org/abs/2310.11392v1 )

ライセンス: Link先を確認
Yingxu He and Qiqi Sun(参考訳) 自動キャプションは自然言語を用いた視覚情報伝達に有望な技術である。 環境モニタリング、資源管理、災害管理など、衛星リモートセンシングの様々なタスクに役立てることができる。 しかし、この領域の主な課題の1つは、大量の人間の専門知識と労力を必要とする大規模な画像キャプチャデータセットの欠如である。 大規模言語モデル(llms)に関する最近の研究は、自然言語理解と生成タスクにおけるその印象的なパフォーマンスを実証している。 しかし、多くの場合は画像を扱うことができない(GPT-3.5、ファルコン、クロードなど)が、通常の地上画像で事前訓練されたキャプションモデルは、航空画像(BLIP、GIT、CM3、CM3Leonなど)の詳細な正確なキャプションを作成できないことが多い。 そこで本研究では,遠隔センシング画像に対するキャプションを自動的に収集する自動リモートセンシング画像キャプション(arsic)を提案する。 また,事前に学習した生成画像2テキストモデル(git)を用いて,リモートセンシング画像に対して高品質なキャプションを生成するベンチマークモデルを提案する。 本評価は,リモートセンシング画像に対するキャプション収集手法の有効性を示す。

Automatic image captioning is a promising technique for conveying visual information using natural language. It can benefit various tasks in satellite remote sensing, such as environmental monitoring, resource management, disaster management, etc. However, one of the main challenges in this domain is the lack of large-scale image-caption datasets, as they require a lot of human expertise and effort to create. Recent research on large language models (LLMs) has demonstrated their impressive performance in natural language understanding and generation tasks. Nonetheless, most of them cannot handle images (GPT-3.5, Falcon, Claude, etc.), while conventional captioning models pre-trained on general ground-view images often fail to produce detailed and accurate captions for aerial images (BLIP, GIT, CM3, CM3Leon, etc.). To address this problem, we propose a novel approach: Automatic Remote Sensing Image Captioning (ARSIC) to automatically collect captions for remote sensing images by guiding LLMs to describe their object annotations. We also present a benchmark model that adapts the pre-trained generative image2text model (GIT) to generate high-quality captions for remote-sensing images. Our evaluation demonstrates the effectiveness of our approach for collecting captions for remote sensing images.
翻訳日:2023-10-18 14:58:50 公開日:2023-10-17
# マルコフコスト過程におけるVaRとCVaRの推定:下および上の境界

VaR\ and CVaR Estimation in a Markov Cost Process: Lower and Upper Bounds ( http://arxiv.org/abs/2310.11389v1 )

ライセンス: Link先を確認
Sanjay Bhat, Prashanth L.A. and Gugan Thoppe(参考訳) 本稿では,マルコフコストプロセスにおいて,無限水平割引コストの値-at-Risk (VaR) と条件値-at-Risk (CVaR) を推定する問題に取り組む。 まず、期待値と確率値の両方を保持する$\Omega(1/\sqrt{n})$のミニマックス下界を導出する。 そして、有限ホライズントランケーションスキームを用いて、CVaR推定における誤差の上限を導出する。 最後に,特定の連続性基準を満たすより一般的なリスク対策,例えばスペクトルリスク尺度,実用性に基づく不足リスクを対象とする評価手法の拡張について論じる。 私たちの知識を最大限に活用するために、マルコフの設定内のあらゆるリスク尺度に対する推定誤差の上下境界を初めて提供する。 我々の下限は、無限水平割引コストの平均にまで拡大する。 その場合でも、我々の結果 $\Omega(1/\sqrt{n}) $ は既存の結果 $\Omega(1/n)$[13] を改善する。

We tackle the problem of estimating the Value-at-Risk (VaR) and the Conditional Value-at-Risk (CVaR) of the infinite-horizon discounted cost within a Markov cost process. First, we derive a minimax lower bound of $\Omega(1/\sqrt{n})$ that holds both in an expected and in a probabilistic sense. Then, using a finite-horizon truncation scheme, we derive an upper bound for the error in CVaR estimation, which matches our lower bound up to constant factors. Finally, we discuss an extension of our estimation scheme that covers more general risk measures satisfying a certain continuity criterion, e.g., spectral risk measures, utility-based shortfall risk. To the best of our knowledge, our work is the first to provide lower and upper bounds on the estimation error for any risk measure within Markovian settings. We remark that our lower bounds also extend to the infinite-horizon discounted costs' mean. Even in that case, our result $\Omega(1/\sqrt{n}) $ improves upon the existing result $\Omega(1/n)$[13].
翻訳日:2023-10-18 14:58:27 公開日:2023-10-17
# 脳年齢予測へのボクセルレベルのアプローチ:局所的脳老化評価法

A voxel-level approach to brain age prediction: A method to assess regional brain aging ( http://arxiv.org/abs/2310.11385v1 )

ライセンス: Link先を確認
Neha Gianchandani, Mahsa Dibaji, Johanna Ospel, Fernando Vega, Mariana Bento, M. Ethan MacDonald, Roberto Souza(参考訳) 脳の老化は地域現象であり、機械学習手法を用いた脳年齢予測研究の領域では、比較的未開拓のままである。 voxelレベルの予測は、局所的な脳年齢の推定を提供し、地域の老化過程に関する詳細な洞察を提供する。 これは,健常者と疾患者における老化軌跡の違いを理解する上で重要である。 本研究では,t1強調磁気共鳴画像からのボクセルレベル脳年齢予測のために,深層学習に基づくマルチタスクモデルを提案する。 提案モデルは, 文献に存在するモデルよりも優れており, 健常者と病人の両方に応用した場合に有意義な臨床知見が得られる。 ボクセルレベル脳年齢予測(voxel-level brain age predictions)を用いて、脳の既知の解剖学的領域の老化の軌跡を把握し、認知症やアルツハイマー病などの基礎疾患と比較して、健常者の加齢の軌跡に差があることを示す。 私たちのコードはhttps://github.com/nehagianchandani/voxel-level-brain-age-predictionで利用可能です。

Brain aging is a regional phenomenon, a facet that remains relatively under-explored within the realm of brain age prediction research using machine learning methods. Voxel-level predictions can provide localized brain age estimates that can provide granular insights into the regional aging processes. This is essential to understand the differences in aging trajectories in healthy versus diseased subjects. In this work, a deep learning-based multitask model is proposed for voxel-level brain age prediction from T1-weighted magnetic resonance images. The proposed model outperforms the models existing in the literature and yields valuable clinical insights when applied to both healthy and diseased populations. Regional analysis is performed on the voxel-level brain age predictions to understand aging trajectories of known anatomical regions in the brain and show that there exist disparities in regional aging trajectories of healthy subjects compared to ones with underlying neurological disorders such as Dementia and more specifically, Alzheimer's disease. Our code is available at https://github.com/nehagianchandani/Voxel-level-brain-age-prediction.
翻訳日:2023-10-18 14:58:06 公開日:2023-10-17
# シリコン中の局所量子ドット温度計を用いた低温電子加熱の測定

Measurement of cryoelectronics heating using a local quantum dot thermometer in silicon ( http://arxiv.org/abs/2310.11383v1 )

ライセンス: Link先を確認
Mathieu de Kruijf, Grayson M. Noah, Alberto Gomez-Saiz, John J. L. Morton, M. Fernando Gonzalez-Zalba(参考訳) シリコン技術は量子回路と古典電子回路のモノリシックな統合の機会を提供する。 しかし、古典的な電子機器の消費電力レベルは、局所的なチップ温度や量子ビット操作の忠実さを損なう可能性がある。 本研究では,産業標準シリコン電界効果トランジスタ(fet)に埋め込まれた量子ドット型温度計を用いて,近接配置した活性fetによる局所温度上昇を評価する。 静的動作と動的動作の両方の影響について検討する。 fetを静的に操作すると、100nmの分離で45nwの電力予算が見つかるが、216$\mu$mの電力予算は150$\mu$wになる。 動的に動作した場合,スイッチ周波数の無視可能な温度上昇を10mhzまで観測した。 本研究は、固体量子プロセッサから離れた場所で利用可能な電力予算を正確にマッピングする方法を述べるとともに、クライオエレクトロニクス回路がハイブリッド量子古典系の動作を許容する条件を示す。

Silicon technology offers the enticing opportunity for monolithic integration of quantum and classical electronic circuits. However, the power consumption levels of classical electronics may compromise the local chip temperature and hence the fidelity of qubit operations. Here, we utilize a quantum-dot-based thermometer embedded in an industry-standard silicon field-effect transistor (FET), to assess the local temperature increase produced by an active FET placed in close proximity. We study the impact of both static and dynamic operation regimes. When the FET is operated statically, we find a power budget of 45 nW at 100 nm separation whereas at 216 $\mu$m the power budget raises to 150 $\mu$W. When operated dynamically, we observe negligible temperature increase for the switch frequencies tested up to 10 MHz. Our work describes a method to accurately map out the available power budget at a distance from a solid-state quantum processor and indicate under which conditions cryoelectronics circuits may allow the operation of hybrid quantum-classical systems.
翻訳日:2023-10-18 14:57:47 公開日:2023-10-17
# 散逸リウビリアンダイナミクスによるキラルベル状態転移

Chiral Bell-state transfer via dissipative Liouvillian dynamics ( http://arxiv.org/abs/2310.11381v1 )

ライセンス: Link先を確認
Shishir Khandelwal, Weijian Chen, Kater W. Murch, G\'eraldine Haack(参考訳) 例外点近傍の閉ループに沿ったキラル状態移動は、非エルミート物理学における多くの反直観的観測の1つである。 この性質を原理の証明、特に量子物理学における応用は、公然の疑問である。 本研究では,完全量子リウビリアンダイナミクスによる一重項と三重項ベル状態のカイラル状態変換を示す。 重要なことに、この性質は、分離可能な状態からのベル状態のキラル生成に利用でき、高い忠実度と幅広いパラメータに対して有効であることを示す。 さらに, 選択後の力学から量子ジャンプを除去すれば, 初期分離状態からほぼ完全ベル状態が得られることを示した。 我々の研究は、新しいタイプの量子制御への道のりと、量子情報処理における非エルミート物理学の潜在的応用への道を開いた。

Chiral state transfer along closed loops in the vicinity of an exceptional point is one of the many counter-intuitive observations in non-Hermitian physics. The application of this property beyond proof-of-principle, specifically in quantum physics, is an open question. In this work, we demonstrate chiral state conversion between singlet and triplet Bell states through fully-quantum Liouvillian dynamics. Crucially, we demonstrate that this property can be used for the chiral production of Bell states from separable states with a high fidelity and for a large range of parameters. Additionally, we show that the removal of quantum jumps from the dynamics through postselection can result in near-perfect Bell states from initially separable states. Our work paves the way to a novel type of quantum control and a potential application of non-Hermitian physics in quantum information processing.
翻訳日:2023-10-18 14:57:31 公開日:2023-10-17
# 非直線性レンズによるディープニューラルネットワークの理解

Understanding deep neural networks through the lens of their non-linearity ( http://arxiv.org/abs/2310.11439v1 )

ライセンス: Link先を確認
Quentin Bouniot, Ievgen Redko, Anton Mallasto, Charlotte Laclau, Karol Arndt, Oliver Struckmeier, Markus Heinonen, Ville Kyrki, Samuel Kaski(参考訳) ディープニューラルネットワーク(DNN)の顕著な成功は、しばしばその高い表現力と、任意の複雑性の関数を近似する能力に起因している。 実際、DNNは非常に非線形モデルであり、それらに導入されたアクティベーション機能は、主にこれに責任がある。 多くの研究が近似能力のレンズを通してDNNの表現力を研究しているが、DNNの非線形性や個々のアクティベーション関数の定量化は未解決の問題である。 本稿では,深部ニューラルネットワークにおける非線形伝搬をコンピュータビジョンアプリケーションに特化して追跡する,最初の理論的手法を提案する。 提案した親和性スコアにより、さまざまなアーキテクチャや学習パラダイムの内部動作に関する洞察を得ることができる。 提案する親和性スコアの実用性とその長期応用の可能性に注目した広範な実験結果を提供する。

The remarkable success of deep neural networks (DNN) is often attributed to their high expressive power and their ability to approximate functions of arbitrary complexity. Indeed, DNNs are highly non-linear models, and activation functions introduced into them are largely responsible for this. While many works studied the expressive power of DNNs through the lens of their approximation capabilities, quantifying the non-linearity of DNNs or of individual activation functions remains an open problem. In this paper, we propose the first theoretically sound solution to track non-linearity propagation in deep neural networks with a specific focus on computer vision applications. Our proposed affinity score allows us to gain insights into the inner workings of a wide range of different architectures and learning paradigms. We provide extensive experimental results that highlight the practical utility of the proposed affinity score and its potential for long-reaching applications.
翻訳日:2023-10-18 14:52:57 公開日:2023-10-17
# 人工・生体神経系における解釈可能な視覚特徴の同定

Identifying Interpretable Visual Features in Artificial and Biological Neural Systems ( http://arxiv.org/abs/2310.11431v1 )

ライセンス: Link先を確認
David Klindt, Sophia Sanborn, Francisco Acosta, Fr\'ed\'eric Poitevin, Nina Miolane(参考訳) ニューラルネットワークの単一ニューロンは、個々の直感的に意味のある特徴を表すため、しばしば 'interpretable' である。 しかし、多くのニューロンは$\textit{mixed selectivity}$、すなわち複数の無関係な特徴を表す。 最近の仮説では、自然データにおける解釈可能な特徴の数は、一般に与えられたネットワーク内のニューロンの数よりも大きいため、深層ネットワークの特徴は、例えば複数のニューロンによって非直交軸上に$\textit{superposition}$で表される可能性がある。 したがって、個々のニューロンと一致しない活性化空間において有意義な方向を見つけることができるべきである。 本稿では,(1) ニューロンの解釈可能性に関するヒトの精神物理学的判断の大規模データベースに対して検証される視覚理解可能性の自動定量化手法と,(2)ネットワーク活性化空間における有意な方向を求める手法を提案する。 我々は、これらの手法を利用して、個々のニューロンよりも直感的に有意な畳み込みニューラルネットワークの方向を探索する。 さらに、脳内の視覚神経応答の2つのデータセットに同じ手法を適用し、私たちの結論が実際の神経データに大きく移行していることを発見し、重ね合わせが脳によって展開される可能性があることを示唆した。 これはまた、絡み合いとリンクを提供し、人工神経系と生物学的神経系の両方における堅牢で効率的で分解された表現に関する根本的な疑問を提起する。

Single neurons in neural networks are often ``interpretable'' in that they represent individual, intuitively meaningful features. However, many neurons exhibit $\textit{mixed selectivity}$, i.e., they represent multiple unrelated features. A recent hypothesis proposes that features in deep networks may be represented in $\textit{superposition}$, i.e., on non-orthogonal axes by multiple neurons, since the number of possible interpretable features in natural data is generally larger than the number of neurons in a given network. Accordingly, we should be able to find meaningful directions in activation space that are not aligned with individual neurons. Here, we propose (1) an automated method for quantifying visual interpretability that is validated against a large database of human psychophysics judgments of neuron interpretability, and (2) an approach for finding meaningful directions in network activation space. We leverage these methods to discover directions in convolutional neural networks that are more intuitively meaningful than individual neurons, as we confirm and investigate in a series of analyses. Moreover, we apply the same method to two recent datasets of visual neural responses in the brain and find that our conclusions largely transfer to real neural data, suggesting that superposition might be deployed by the brain. This also provides a link with disentanglement and raises fundamental questions about robust, efficient and factorized representations in both artificial and biological neural systems.
翻訳日:2023-10-18 14:52:41 公開日:2023-10-17
# 大規模言語モデルを用いた翻訳仮説の実証的研究

An Empirical Study of Translation Hypothesis Ensembling with Large Language Models ( http://arxiv.org/abs/2310.11430v1 )

ライセンス: Link先を確認
Ant\'onio Farinhas, Jos\'e G. C. de Souza, Andr\'e F. T. Martins(参考訳) 大規模言語モデル (LLMs) は単相のソリューションになりつつあるが、時には幻覚や信頼できない出力を生成する。 本稿では,LLMを用いた機械翻訳の特定の問題に対して,仮説アンサンブルが生成したテキストの品質を向上する方法について検討する。 本研究は,ChatGPT,LLaMA,AlpacaなどのLLMが生み出す仮説を整理するためのいくつかの手法を実験した。 本研究では,仮説(多重プロンプト,温度ベースサンプリング,ビーム探索)の生成方法と,最終翻訳(指示ベース,品質ベースリランキング,最小ベイズリスク(mbr)復号)を作成する戦略を含む,多次元の包括的研究を行った。 その結果,mbrデコードは非常に効果的な手法であり,少数のサンプルを用いて翻訳品質を向上させることが可能であり,命令チューニングは仮説の多様性とサンプリング温度の関係に大きな影響を与えることがわかった。

Large language models (LLMs) are becoming a one-fits-many solution, but they sometimes hallucinate or produce unreliable output. In this paper, we investigate how hypothesis ensembling can improve the quality of the generated text for the specific problem of LLM-based machine translation. We experiment with several techniques for ensembling hypotheses produced by LLMs such as ChatGPT, LLaMA, and Alpaca. We provide a comprehensive study along multiple dimensions, including the method to generate hypotheses (multiple prompts, temperature-based sampling, and beam search) and the strategy to produce the final translation (instruction-based, quality-based reranking, and minimum Bayes risk (MBR) decoding). Our results show that MBR decoding is a very effective method, that translation quality can be improved using a small number of samples, and that instruction tuning has a strong impact on the relation between the diversity of the hypotheses and the sampling temperature.
翻訳日:2023-10-18 14:52:17 公開日:2023-10-17
# SGDノイズの蝶効果:行動クローニングと自己回帰における誤差増幅

Butterfly Effects of SGD Noise: Error Amplification in Behavior Cloning and Autoregression ( http://arxiv.org/abs/2310.11428v1 )

ライセンス: Link先を確認
Adam Block, Dylan J. Foster, Akshay Krishnamurthy, Max Simchowitz, Cyril Zhang(参考訳) 本研究は,ディープニューラルネットワークを用いた行動クローニングの不安定性のトレーニングを行う。 トレーニング中のSGD更新の最小化は, 行動クローニング損失に悪影響を及ぼすが, 長期的報酬の急激な振動をもたらす。 我々はこれらの振動の統計的および計算的原因を実証的に解き、不安定な閉ループ力学によるミニバッチSGDノイズのカオス伝播から引き起こす。 SGDノイズは、単一ステップの動作予測目標において良性であるが、長い地平線上での破滅的エラーの蓄積は、勾配分散増幅(GVA)と呼ばれる効果である。 多くの標準緩和技術はGVAを緩和しないが、指数移動平均(EMA)が驚くほど効果的であることを示す。 連続制御と自己回帰言語生成の両方において、GVAの存在とEMAによる改善を示すことによって、この現象の一般性を示す。 最後に,egaの緩和におけるemaのメリットを強調する理論的ヴィグネットを提供し,古典凸モデルがディープラーニングにおける反復平均化のメリットを理解するのにどの程度役立つかを明らかにする。

This work studies training instabilities of behavior cloning with deep neural networks. We observe that minibatch SGD updates to the policy network during training result in sharp oscillations in long-horizon rewards, despite negligibly affecting the behavior cloning loss. We empirically disentangle the statistical and computational causes of these oscillations, and find them to stem from the chaotic propagation of minibatch SGD noise through unstable closed-loop dynamics. While SGD noise is benign in the single-step action prediction objective, it results in catastrophic error accumulation over long horizons, an effect we term gradient variance amplification (GVA). We show that many standard mitigation techniques do not alleviate GVA, but find an exponential moving average (EMA) of iterates to be surprisingly effective at doing so. We illustrate the generality of this phenomenon by showing the existence of GVA and its amelioration by EMA in both continuous control and autoregressive language generation. Finally, we provide theoretical vignettes that highlight the benefits of EMA in alleviating GVA and shed light on the extent to which classical convex models can help in understanding the benefits of iterate averaging in deep learning.
翻訳日:2023-10-18 14:52:02 公開日:2023-10-17
# 固有状態熱化仮説に対する't Hooft 異常の影響に関する考察

Remarks on effects of 't Hooft anomaly on eigenstate thermalization hypothesis ( http://arxiv.org/abs/2310.11425v1 )

ライセンス: Link先を確認
Osamu Fukushima(参考訳) $(d+1)$-次元量子場における$p$-形式対称性の存在は、ある仮定の下で対称性演算子以外のある$(d-p)$-次元作用素に対する固有状態熱化仮説(ETH)の分解を常に導くことが知られている。 この仮定は、与えられたエネルギー殻内の対称性のセクタの混合を含むが、スペクトルの中央にある固有状態に関する情報を必要とするため、検証が難しい。 この困難を避けるために,「t hooft anomaly」の観点からこの仮定を再考する。 $\mathbb{Z}_N$ 対称性の場合、$\mathbb{Z}_N\times\mathbb{Z}_N$-対称理論を混合した 't Hooft 異常で考慮し、関心のある$\mathbb{Z}_N$ 対称性の1つを保ちながらハミルトニアンを摂動させることで、困難を回避することができる。 また、$(1+1) のスピンチェーンと$(2+1) の$-次元の$\mathbb{z}_2$ の格子ゲージ理論の数値解析も行う。

The existence of $p$-form symmetry in $(d+1)$-dimensional quantum field is known to always lead to the breakdown of the eigenstate thermalization hypothesis (ETH) for certain $(d-p)$-dimensional operators other than symmetry operators under some assumptions. The assumptions include the mixing of symmetry sectors within a given energy shell, which is rather challenging to verify because it requires information on the eigenstates in the middle of the spectrum. We reconsider this assumption from the viewpoint of the 't Hooft anomaly to avoid this difficulty. In the case of $\mathbb{Z}_N$ symmetries, we can circumvent the difficulty by considering $\mathbb{Z}_N\times\mathbb{Z}_N$-symmetric theories with a mixed 't Hooft anomaly, and perturbing the Hamiltonian while preserving one of the $\mathbb{Z}_N$ symmetries of our interest. We also perform numerical analyses for $(1+1)$-dimensional spin chains and the $(2+1)$-dimensional $\mathbb{Z}_2$ lattice gauge theory.
翻訳日:2023-10-18 14:51:40 公開日:2023-10-17
# 教師なし非リジッド形状マッチングのための地図関係の再検討

Revisiting Map Relations for Unsupervised Non-Rigid Shape Matching ( http://arxiv.org/abs/2310.11420v1 )

ライセンス: Link先を確認
Dongliang Cao, Paul Roetzer, Florian Bernard(参考訳) 非剛性3次元形状マッチングのための教師なし学習手法を提案する。 提案手法は,最近の最先端の深層関数マップ法を改良し,様々なシナリオに適用可能である。 従来のディープファンクショナルマップ手法は主に特徴抽出に焦点を当てており、機能マップ計算のためのより表現力のある特徴の獲得を目標としている。 しかし、関数写像計算自体の重要性は無視されることが多く、関数写像と点マップの関係は未解明である。 本稿では,機能地図解法と特徴類似性に基づく点マップとの結合関係を系統的に検討する。 そこで本研究では,異なる形状マッチングシナリオに対する関数マップの正則化を,頂点方向のコントラスト損失とともに調整し,より識別的な特徴を得る自己適応型関数マップソルバを提案する。 非等尺性、トポロジカルノイズ、部分性を含む)異なる挑戦的データセットを用いて、本手法が従来の最先端手法を大幅に上回ることを示す。

We propose a novel unsupervised learning approach for non-rigid 3D shape matching. Our approach improves upon recent state-of-the art deep functional map methods and can be applied to a broad range of different challenging scenarios. Previous deep functional map methods mainly focus on feature extraction and aim exclusively at obtaining more expressive features for functional map computation. However, the importance of the functional map computation itself is often neglected and the relationship between the functional map and point-wise map is underexplored. In this paper, we systematically investigate the coupling relationship between the functional map from the functional map solver and the point-wise map based on feature similarity. To this end, we propose a self-adaptive functional map solver to adjust the functional map regularisation for different shape matching scenarios, together with a vertex-wise contrastive loss to obtain more discriminative features. Using different challenging datasets (including non-isometry, topological noise and partiality), we demonstrate that our method substantially outperforms previous state-of-the-art methods.
翻訳日:2023-10-18 14:51:04 公開日:2023-10-17
# vct: リモートセンシング画像変化検出のためのビジュアルチェンジトランス

VcT: Visual change Transformer for Remote Sensing Image Change Detection ( http://arxiv.org/abs/2310.11417v1 )

ライセンス: Link先を確認
Bo Jiang, Zitian Wang, Xixi Wang, Ziyan Zhang, Lan Chen, Xiao Wang, Bin Luo(参考訳) 既存の視覚変化検出器は、通常、特徴表現学習にcnnやトランスフォーマーを採用し、画像間の変化領域の効果的な表現の学習に焦点を当てている。 変化領域の特徴を増強することで良好な性能が得られるが、背景の背景情報に変化がないことが主な理由として、これらの作品に制限が課せられている。 変化検出の主な課題の1つは、空間変動、日光強度などの異なる変化を含む2つの画像に対して、一貫性のある表現を得る方法である。 本研究では、2つの画像の一貫性のある表現を学習するために、共通背景情報を慎重にマイニングすることが重要な手がかりであることを示し、視覚的変化検出問題を容易にする。 そこで本研究では,視覚変化検出問題に対する新しい視覚変化トランスフォーマ(vct)モデルを提案する。 具体的には、まず共有バックボーンネットワークを使用して、与えられた画像対の特徴マップを抽出する。 次に、特徴マップの各画素をグラフノードとみなし、粗い変化マップ予測のための構造化情報をモデル化するためにグラフニューラルネットワークを提案する。 top-kの信頼性の高いトークンはマップから掘り出され、クラスタリングアルゴリズムを使って洗練される。 次に、これらの信頼性トークンは、まず自己/クロスアテンションスキームを利用し、次にアンカー・プライマリ・アテンション学習モジュールを介して元の特徴と対話することによって強化される。 最後に、より正確な変更マップを得るために予測ヘッドを提案する。 複数のベンチマークデータセットに対する大規模な実験により,提案したVcTモデルの有効性が検証された。

Existing visual change detectors usually adopt CNNs or Transformers for feature representation learning and focus on learning effective representation for the changed regions between images. Although good performance can be obtained by enhancing the features of the change regions, however, these works are still limited mainly due to the ignorance of mining the unchanged background context information. It is known that one main challenge for change detection is how to obtain the consistent representations for two images involving different variations, such as spatial variation, sunlight intensity, etc. In this work, we demonstrate that carefully mining the common background information provides an important cue to learn the consistent representations for the two images which thus obviously facilitates the visual change detection problem. Based on this observation, we propose a novel Visual change Transformer (VcT) model for visual change detection problem. To be specific, a shared backbone network is first used to extract the feature maps for the given image pair. Then, each pixel of feature map is regarded as a graph node and the graph neural network is proposed to model the structured information for coarse change map prediction. Top-K reliable tokens can be mined from the map and refined by using the clustering algorithm. Then, these reliable tokens are enhanced by first utilizing self/cross-attention schemes and then interacting with original features via an anchor-primary attention learning module. Finally, the prediction head is proposed to get a more accurate change map. Extensive experiments on multiple benchmark datasets validated the effectiveness of our proposed VcT model.
翻訳日:2023-10-18 14:50:16 公開日:2023-10-17
# 量子制限進行波パラメトリック増幅器のための高速度インダクタンスNbTiN膜

High kinetic inductance NbTiN films for quantum limited travelling wave parametric amplifiers ( http://arxiv.org/abs/2310.11410v1 )

ライセンス: Link先を確認
Felix Ahrens (1 and 2), Matteo Borghesi (3 and 4 and 5), Paolo Falferi (1 and 6 and 2), Luca Fasolo (7), Marco Faverzani (3 and 4 and 5), Elena Ferri (4), Andrea Giachero (3 and 4 and 5), Danilo Labranca (3 and 4 and 5), Federica Mantegazzini (1 and 2), Benno Margesin (1 and 2), Renato Mezzena (8 and 2), Roberto Moretti (3 and 4 and 5), Angelo Nucciotti (3 and 4 and 5), Luca Origo (3 and 4 and 5), Andrea Vinante (1 and 6 and 2), Mario Zannoni (3 and 4 and 5)(参考訳) マイクロ波領域における広帯域幅かつ低ノイズ増幅鎖は、マイクロ波速度インダクタンス検出器(mkid)、トランジッションエッジセンサ(tess)、磁気マイクロカロリメータ(mmcs)、rfキャビティなどの超伝導検出器に基づく量子システムの効率的な読み出しに不可欠である。 3波混合方式で動作したインダクタンス進行波パラメトリック増幅器 (ki-twpas) は, 量子限界に接近する特異なダイナミックレンジと低ノイズ性能を示した。 これらの増幅器は、高速度インダクタンスフィルムの単層を用いて、分散工学により位相整合帯域を制御できる弱分散人工伝送線路として製造することができる。 本研究では,nb80%t20ターゲットを用いたnbtin薄膜の高周波スパッタ成膜過程の最適化を行い,高転移温度を維持しながら高速度インダクタンスを実現することを目的とした。 KI-TWPAの製造に使用するNbTiN薄膜の微細調整パラメータとして, 圧力, 電力, 窒素流量などの異なるスパッタリング条件に関するパラメータランドスケープが検討され, 膜厚が用いられている。 最終結果として,ki-twpaプロトタイプ装置の試作に用いた動力学的インダクタンス8.5 ph/sqのnbtin膜を作製し,有望な増幅性能を示した。

A wide-bandwidth and low-noise amplification chain in the microwave regime is crucial for the efficient read-out of quantum systems based on superconducting detectors, such as Microwave Kinetic Inductance Detectors (MKIDs), Transition Edge Sensors (TESs), Magnetic Microcalorimeters (MMCs), and RF cavities, as well as qubits. Kinetic Inductance Travelling Wave Parametric Amplifiers (KI-TWPAs) operated in a three-wave mixing fashion have demonstrated exceptional dynamic range and low-noise performance, approaching the quantum limit. These amplifiers can be fabricated using a single layer of a high kinetic inductance film as weakly dispersive artificial transmission lines, with the ability to control the phase-matched bandwidth through dispersion engineering. In this study, we present the optimisation of the rf sputter-deposition process of NbTiN films using a Nb80%T20 target, with the goal of achieving precise control over film characteristics, resulting in high kinetic inductance while maintaining a high transition temperature. The parameter landscape related to the different sputtering conditions, such as pressure, power, and nitrogen flow, has been explored and the film thickness has been used as a fine-tuning parameter to adjust the properties of the final NbTiN films used for the fabrication of KI-TWPAs. As a final result, we have obtained a NbTiN film with a kinetic inductance of 8.5 pH/sq which we have exploited to fabricate KI-TWPA prototype devices, showing promising amplification performance.
翻訳日:2023-10-18 14:49:34 公開日:2023-10-17
# プリビレージエスカレーションシナリオにおけるLCMの評価

Evaluating LLMs for Privilege-Escalation Scenarios ( http://arxiv.org/abs/2310.11409v1 )

ライセンス: Link先を確認
Andreas Happe, Aaron Kaplan, J\"urgen Cito(参考訳) サイバーセキュリティの重要なコンポーネントである侵入テストは、システム内の脆弱性を積極的に識別し、修正することで、潜在的なサイバー攻撃に対する防御メカニズムを強化することができる。 浸透試験の領域における最近の進歩の1つは言語モデル(LLM)の利用である。 LLMと浸透試験の交わりを探索し、私的エスカレーションの文脈におけるそれらの能力と課題について考察する。 ローカル仮想マシンを利用した自動Linux特権エスカレーションベンチマークを作成する。 異なるLLMの評価とベンチマークに対する戦略の促進を目的として,LLM誘導型特権エスカレーションツールを提案する。 我々は、異なるプロンプト設計の影響、文脈内学習の利点、LLMに高レベルのガイダンスを提供することの利点を分析する。 テスト中のフォーカスの維持、エラーへの対処、そして最終的には確率的なオウムと人間のハッカーとの比較など、LLMの課題領域について論じる。

Penetration testing, an essential component of cybersecurity, allows organizations to proactively identify and remediate vulnerabilities in their systems, thus bolstering their defense mechanisms against potential cyberattacks. One recent advancement in the realm of penetration testing is the utilization of Language Models (LLMs). We explore the intersection of LLMs and penetration testing to gain insight into their capabilities and challenges in the context of privilige escalation. We create an automated Linux privilege-escalation benchmark utilizing local virtual machines. We introduce an LLM-guided privilege-escalation tool designed for evaluating different LLMs and prompt strategies against our benchmark. We analyze the impact of different prompt designs, the benefits of in-context learning, and the advantages of offering high-level guidance to LLMs. We discuss challenging areas for LLMs, including maintaining focus during testing, coping with errors, and finally comparing them with both stochastic parrots as well as with human hackers.
翻訳日:2023-10-18 14:49:03 公開日:2023-10-17
# 群パリティへの群盲最適輸送とその制約付き変種

Group-blind optimal transport to group parity and its constrained variants ( http://arxiv.org/abs/2310.11407v1 )

ライセンス: Link先を確認
Quan Zhou, Jakub Marecek(参考訳) フェアネスは機械学習の領域において重要な役割を担っており、特に性別、人種などのセンシティブな属性によって分類されたグループに対処する場合において重要である。 フェアラーニングにおける一般的なアルゴリズムは、少なくともトレーニングプロセスにおいて、これらのセンシティブな属性のアクセシビリティや推定に大きく依存する。 本手法では,各サンプルに対する保護属性の値や,その使用法を必要とせずに,ソースデータ中の両方のグループの特徴分布を整列し,グループパリティを達成できる単一グループブラインドプロジェクションマップを設計する。 提案手法は, 搭乗者集団における特権的・特権的グループの特徴分布と, 情報源データが人口の偏りのない表現であることを前提とした。 合成データと実データに関する数値結果を示す。

Fairness holds a pivotal role in the realm of machine learning, particularly when it comes to addressing groups categorised by sensitive attributes, e.g., gender, race. Prevailing algorithms in fair learning predominantly hinge on accessibility or estimations of these sensitive attributes, at least in the training process. We design a single group-blind projection map that aligns the feature distributions of both groups in the source data, achieving (demographic) group parity, without requiring values of the protected attribute for individual samples in the computation of the map, as well as its use. Instead, our approach utilises the feature distributions of the privileged and unprivileged groups in a boarder population and the essential assumption that the source data are unbiased representation of the population. We present numerical results on synthetic data and real data.
翻訳日:2023-10-18 14:48:48 公開日:2023-10-17
# VeRA:ベクトルベースランダム行列適応

VeRA: Vector-based Random Matrix Adaptation ( http://arxiv.org/abs/2310.11454v1 )

ライセンス: Link先を確認
Dawid Jan Kopiczko, Tijmen Blankevoort, Yuki Markus Asano(参考訳) ローランク適応(LoRA)は、大きな言語モデルを微調整する際のトレーニング可能なパラメータの数を減少させる一般的な手法であるが、より大きなモデルへのスケーリングや、ユーザ毎またはタスク毎の適応モデルへのデプロイでは、依然として急激なストレージ上の課題に直面している。 本研究では,学習可能なパラメータの数をloraと比較して10倍削減するベクタベースランダム行列適応法(vera)を提案する。 これは、すべての層で共有される1対の低ランク行列を使用して、代わりに小さなスケーリングベクトルを学習することで実現される。 GLUE と E2E のベンチマークでの有効性を示し,Llama2 7B モデルを用いた 1.4M パラメータのみを用いた命令追従への応用を示す。

Low-rank adapation (LoRA) is a popular method that reduces the number of trainable parameters when finetuning large language models, but still faces acute storage challenges when scaling to even larger models or deploying numerous per-user or per-task adapted models. In this work, we present Vector-based Random Matrix Adaptation (VeRA), which reduces the number of trainable parameters by 10x compared to LoRA, yet maintains the same performance. It achieves this by using a single pair of low-rank matrices shared across all layers and learning small scaling vectors instead. We demonstrate its effectiveness on the GLUE and E2E benchmarks, and show its application in instruction-following with just 1.4M parameters using the Llama2 7B model.
翻訳日:2023-10-18 14:39:54 公開日:2023-10-17
# BitNet: 大きな言語モデルのための1ビットトランスフォーマーのスケーリング

BitNet: Scaling 1-bit Transformers for Large Language Models ( http://arxiv.org/abs/2310.11453v1 )

ライセンス: Link先を確認
Hongyu Wang, Shuming Ma, Li Dong, Shaohan Huang, Huaijie Wang, Lingxiao Ma, Fan Yang, Ruiping Wang, Yi Wu, Furu Wei(参考訳) 大規模言語モデルの拡大は、デプロイメントの課題を提起し、高エネルギー消費による環境への影響に対する懸念を提起した。 本稿では,大規模言語モデル用に設計されたスケーラブルで安定な1ビットトランスフォーマアーキテクチャであるbitnetを紹介する。 具体的には、BitLinear を nn.Linear 層のドロップイン置換として導入し、1ビット重量をゼロからトレーニングする。 言語モデリング実験の結果、BitNetは、最先端の8ビット量子化法やFP16トランスフォーマーベースラインと比較して、メモリフットプリントとエネルギー消費を大幅に削減しながら、競合性能を実現していることがわかった。 さらにBitNetは、フル精度トランスフォーマーに似たスケーリング法則を示し、効率とパフォーマンスのメリットを維持しながら、より大きな言語モデルへの効果的なスケーリングの可能性を示している。

The increasing size of large language models has posed challenges for deployment and raised concerns about environmental impact due to high energy consumption. In this work, we introduce BitNet, a scalable and stable 1-bit Transformer architecture designed for large language models. Specifically, we introduce BitLinear as a drop-in replacement of the nn.Linear layer in order to train 1-bit weights from scratch. Experimental results on language modeling show that BitNet achieves competitive performance while substantially reducing memory footprint and energy consumption, compared to state-of-the-art 8-bit quantization methods and FP16 Transformer baselines. Furthermore, BitNet exhibits a scaling law akin to full-precision Transformers, suggesting its potential for effective scaling to even larger language models while maintaining efficiency and performance benefits.
翻訳日:2023-10-18 14:39:38 公開日:2023-10-17
# ニューラルナゲットの探索:パラメトリック視点による大規模言語モデルの知識伝達

Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective ( http://arxiv.org/abs/2310.11451v1 )

ライセンス: Link先を確認
Ming Zhong, Chenxin An, Weizhu Chen, Jiawei Han, Pengcheng He(参考訳) 大規模言語モデル(LLM)は本質的に、幅広いコーパスの事前学習を通じて、パラメータ内の豊富な知識を符号化する。 以前の研究では、これらのパラメータの操作によって、基礎となる暗黙の知識(検出、編集、マージを含む)を操作するが、スケールの異なるモデル間での伝達可能性についてはあいまいな理解が残っている。 本稿では,パラメトリックな視点から,大規模モデルから小型モデルへの知識伝達を実証的に検討する。 そこで我々は、感度に基づく手法を用いて、異なるLLM間で知識固有のパラメータを抽出・調整する。 さらに、LoRAモジュールは、抽出した知識を小さなモデルに注入する仲介機構として使用される。 提案手法の有効性を4つのベンチマークで検証した。 本研究は,パラメトリック知識の伝達過程に寄与する重要な要因を浮き彫りにして,異なるスケールのllmにおけるモデルパラメータの伝達可能性を明らかにする。 コードとデータは \url{https://github.com/maszhongming/ParaKnowTransfer} でリリースします。

Large Language Models (LLMs) inherently encode a wealth of knowledge within their parameters through pre-training on extensive corpora. While prior research has delved into operations on these parameters to manipulate the underlying implicit knowledge (encompassing detection, editing, and merging), there remains an ambiguous understanding regarding their transferability across models with varying scales. In this paper, we seek to empirically investigate knowledge transfer from larger to smaller models through a parametric perspective. To achieve this, we employ sensitivity-based techniques to extract and align knowledge-specific parameters between different LLMs. Moreover, the LoRA module is used as the intermediary mechanism for injecting the extracted knowledge into smaller models. Evaluations across four benchmarks validate the efficacy of our proposed method. Our findings highlight the critical factors contributing to the process of parametric knowledge transfer, underscoring the transferability of model parameters across LLMs of different scales. We release code and data at \url{https://github.com/maszhongming/ParaKnowTransfer}.
翻訳日:2023-10-18 14:39:25 公開日:2023-10-17
# 振動概念を用いたベアリング故障検出のためのディープニューラルネットワーク

Explaining Deep Neural Networks for Bearing Fault Detection with Vibration Concepts ( http://arxiv.org/abs/2310.11450v1 )

ライセンス: Link先を確認
Thomas Decker, Michael Lebacher and Volker Tresp(参考訳) 概念に基づく説明手法、例えば概念活性化ベクトルは、入力データの抽象的あるいは高レベルな特性が複雑なディープニューラルネットワークの予測にどのように影響するかを定量化する強力な手段である。 しかし、個々のユースケースや特定のデータタイプに対して適切な概念を定義し、アクセスする方法がすぐには明確でないため、産業的な予測問題に適用することは困難である。 本研究では, 振動信号を用いた深層ニューラルネットワークによる故障検出の文脈において, 確立された概念に基づく説明手法をどのように活用するかを検討する。 ほぼすべての回転装置でベアリングが普及しているため、不透明な故障検出モデルの信頼性を確保することは、産業機械のコストのかかる修理やダウンタイムを防止するために重要である。 振動概念の観点から不透明なモデルを説明することで,人間の内的動作に関する理解や直感的な洞察が得られ,その基礎となる仮定を慎重に検証する必要がある。

Concept-based explanation methods, such as Concept Activation Vectors, are potent means to quantify how abstract or high-level characteristics of input data influence the predictions of complex deep neural networks. However, applying them to industrial prediction problems is challenging as it is not immediately clear how to define and access appropriate concepts for individual use cases and specific data types. In this work, we investigate how to leverage established concept-based explanation techniques in the context of bearing fault detection with deep neural networks trained on vibration signals. Since bearings are prevalent in almost every rotating equipment, ensuring the reliability of intransparent fault detection models is crucial to prevent costly repairs and downtimes of industrial machinery. Our evaluations demonstrate that explaining opaque models in terms of vibration concepts enables human-comprehensible and intuitive insights about their inner workings, but the underlying assumptions need to be carefully validated first.
翻訳日:2023-10-18 14:39:07 公開日:2023-10-17
# DELIFFAS:高速アバター合成のための変形可能な光場

DELIFFAS: Deformable Light Fields for Fast Avatar Synthesis ( http://arxiv.org/abs/2310.11449v1 )

ライセンス: Link先を確認
Youngjoong Kwon, Lingjie Liu, Henry Fuchs, Marc Habermann, Christian Theobalt(参考訳) 制御可能でフォトリアリスティックなデジタルアバターを生成することは、ビジョンとグラフィックにおいて長年にわたって重要な問題である。 近年の手法では、光現実性や推論速度の面で大きな進歩が見られる一方で、2つの望ましい性質の組み合わせは未解決のままである。 そこで本研究では,人体を制御可能で変形可能なメッシュモデルに付加した表面光場として,人間の外観をパラメータ化するDELIFFASという新しい手法を提案する。 中心となるのは、変形可能な2面パラメータ化によって人間のまわりの光場を表現し、それによって人間の外観を素早く正確に推測することができる。 これにより、個々のピクセルや小さなパッチのみを監視できる従来のアプローチと比較して、フルイメージの知覚的な監視が可能になる。 慎重に設計された人間の表現と監督戦略は、最先端の合成結果と推測時間につながる。 ビデオの結果とコードはhttps://vcai.mpi-inf.mpg.de/projects/DELIFFASで公開されている。

Generating controllable and photorealistic digital human avatars is a long-standing and important problem in Vision and Graphics. Recent methods have shown great progress in terms of either photorealism or inference speed while the combination of the two desired properties still remains unsolved. To this end, we propose a novel method, called DELIFFAS, which parameterizes the appearance of the human as a surface light field that is attached to a controllable and deforming human mesh model. At the core, we represent the light field around the human with a deformable two-surface parameterization, which enables fast and accurate inference of the human appearance. This allows perceptual supervision on the full image compared to previous approaches that could only supervise individual pixels or small patches due to their slow runtime. Our carefully designed human representation and supervision strategy leads to state-of-the-art synthesis results and inference time. The video results and code are available at https://vcai.mpi-inf.mpg.de/projects/DELIFFAS.
翻訳日:2023-10-18 14:38:49 公開日:2023-10-17
# 4K4D:4K解像度でのリアルタイム4Dビュー合成

4K4D: Real-Time 4D View Synthesis at 4K Resolution ( http://arxiv.org/abs/2310.11448v1 )

ライセンス: Link先を確認
Zhen Xu, Sida Peng, Haotong Lin, Guangzhao He, Jiaming Sun, Yujun Shen, Hujun Bao, Xiaowei Zhou(参考訳) 本稿では、4K解像度で動的3Dシーンを高忠実かつリアルタイムに合成することを目的とする。 近年,動的ビュー合成法によっては印象的なレンダリング品質が示されている。 しかし、高解像度画像のレンダリングでは、その速度は限られている。 この問題を解決するため、4k4dは、ハードウェアラスタライズをサポートし、前例のないレンダリング速度を実現する4dポイントクラウド表現である。 我々の表現は、4D機能グリッド上に構築されており、ポイントは自然に正規化され、堅牢に最適化できる。 さらに,効率を保ちつつレンダリング品質を大幅に向上させるハイブリッドな外観モデルを設計した。 さらに,rgbビデオから提案モデルを効果的に学習するための微分可能な奥行き剥離アルゴリズムを開発した。 実験では,rtx 4090 gpuを用いた4k解像度で,dnaレンダリングデータセット上で400fps以上,enerf-outdoorデータセットで80fps以上,rtx 4090 gpuで4k解像度でレンダリングできることを示した。 再現性のためにコードをリリースします。

This paper targets high-fidelity and real-time view synthesis of dynamic 3D scenes at 4K resolution. Recently, some methods on dynamic view synthesis have shown impressive rendering quality. However, their speed is still limited when rendering high-resolution images. To overcome this problem, we propose 4K4D, a 4D point cloud representation that supports hardware rasterization and enables unprecedented rendering speed. Our representation is built on a 4D feature grid so that the points are naturally regularized and can be robustly optimized. In addition, we design a novel hybrid appearance model that significantly boosts the rendering quality while preserving efficiency. Moreover, we develop a differentiable depth peeling algorithm to effectively learn the proposed model from RGB videos. Experiments show that our representation can be rendered at over 400 FPS on the DNA-Rendering dataset at 1080p resolution and 80 FPS on the ENeRF-Outdoor dataset at 4K resolution using an RTX 4090 GPU, which is 30x faster than previous methods and achieves the state-of-the-art rendering quality. We will release the code for reproducibility.
翻訳日:2023-10-18 14:38:31 公開日:2023-10-17
# ウォーターマーク大形変圧器の機能不変量

Functional Invariants to Watermark Large Transformers ( http://arxiv.org/abs/2310.11446v1 )

ライセンス: Link先を確認
Fernandez Pierre, Couairon Guillaume, Furon Teddy, Douze Matthijs(参考訳) トランスフォーマーベースのモデルの急速な成長は、その完全性と所有権保険に対する懸念を高める。 Watermarkingはモデルにユニークな識別子を埋め込むことでこの問題に対処し、パフォーマンスを保っている。 しかし、既存のアプローチの多くは、計算コストのためスケールに適さないウォーターマーク信号をインプリントするために重みを最適化する必要がある。 本稿では,非盲点ホワイトボックス設定(原点と透かし付きネットワークの両方へのアクセスを想定して)に適用可能な,計算コストをほとんど必要としない透かしについて検討する。 彼らは次元の置換やスケーリング/アンスケーリングといった操作を通じて、モデルの不変性を利用して機能的に等価なコピーを生成する。 これにより、出力を変更することなくモデルを透かし、ステルス性を保つことができる。 実験では、アプローチの有効性と様々なモデル変換(微調整、量子化、プルーニング)に対する堅牢性を示し、大きなモデルの完全性を保護するための実用的な解決策である。

The rapid growth of transformer-based models increases the concerns about their integrity and ownership insurance. Watermarking addresses this issue by embedding a unique identifier into the model, while preserving its performance. However, most existing approaches require to optimize the weights to imprint the watermark signal, which is not suitable at scale due to the computational cost. This paper explores watermarks with virtually no computational cost, applicable to a non-blind white-box setting (assuming access to both the original and watermarked networks). They generate functionally equivalent copies by leveraging the models' invariance, via operations like dimension permutations or scaling/unscaling. This enables to watermark models without any change in their outputs and remains stealthy. Experiments demonstrate the effectiveness of the approach and its robustness against various model transformations (fine-tuning, quantization, pruning), making it a practical solution to protect the integrity of large models.
翻訳日:2023-10-18 14:38:13 公開日:2023-10-17
# 非logconcave分布の確率的量子サンプリングと分割関数の推定

Stochastic Quantum Sampling for Non-Logconcave Distributions and Estimating Partition Functions ( http://arxiv.org/abs/2310.11445v1 )

ライセンス: Link先を確認
Guneykan Ozgul, Xiantao Li, Mehrdad Mahdavi, Chunhao Wang(参考訳) 本稿では,非logconcave確率分布から$\pi(x) \propto \exp(-\beta f(x))$でサンプリングする量子アルゴリズムを提案する。 ここで、$f$ は有限和 $f(x):= \frac{1}{N}\sum_{k=1}^N f_k(x)$ と書くことができる。 提案手法は,未調整のランゲヴィンアルゴリズムから導出されるゆっくりと変化するマルコフ鎖の量子的アニーリングに基づいて,混合モデリングと多安定系の大規模データセットに対して計算コストのかかる関数評価の必要性を除去する。 また、ミニバッチ勾配のみを用いて量子ウォーク演算子を不正確に実装する確率勾配オラクルも組み込んだ。 その結果、確率勾配に基づくアルゴリズムは、量子ウォークを実装する際にデータポイントの小さなサブセットにのみアクセスする。 マルコフ連鎖の定量化の課題は、それらが一般に詳細なバランス条件を満たさないことである。 したがって、アルゴリズムの混合時間は遷移密度のスペクトルギャップの観点からは表現できないため、量子アルゴリズムは解析が容易ではない。 これらの課題を克服するために、まずは可逆的かつ対象分布に収束する仮説的マルコフ連鎖を構築する。 そして,この仮説チェーンをブリッジとして,アルゴリズムの出力と目標分布との距離を定量化し,全複雑性を確定した。 我々の量子アルゴリズムは、最もよく知られた古典的アルゴリズムと比較して、次元と精度の両面で多項式の高速化を示す。

We present quantum algorithms for sampling from non-logconcave probability distributions in the form of $\pi(x) \propto \exp(-\beta f(x))$. Here, $f$ can be written as a finite sum $f(x):= \frac{1}{N}\sum_{k=1}^N f_k(x)$. Our approach is based on quantum simulated annealing on slowly varying Markov chains derived from unadjusted Langevin algorithms, removing the necessity for function evaluations which can be computationally expensive for large data sets in mixture modeling and multi-stable systems. We also incorporate a stochastic gradient oracle that implements the quantum walk operators inexactly by only using mini-batch gradients. As a result, our stochastic gradient based algorithm only accesses small subsets of data points in implementing the quantum walk. One challenge of quantizing the resulting Markov chains is that they do not satisfy the detailed balance condition in general. Consequently, the mixing time of the algorithm cannot be expressed in terms of the spectral gap of the transition density, making the quantum algorithms nontrivial to analyze. To overcome these challenges, we first build a hypothetical Markov chain that is reversible, and also converges to the target distribution. Then, we quantified the distance between our algorithm's output and the target distribution by using this hypothetical chain as a bridge to establish the total complexity. Our quantum algorithms exhibit polynomial speedups in terms of both dimension and precision dependencies when compared to the best-known classical algorithms.
翻訳日:2023-10-18 14:37:58 公開日:2023-10-17
# GPT-4Vにおける視界外接地によるマークのセット

Set-of-Mark Prompting Unleashes Extraordinary Visual Grounding in GPT-4V ( http://arxiv.org/abs/2310.11441v1 )

ライセンス: Link先を確認
Jianwei Yang, Hao Zhang, Feng Li, Xueyan Zou, Chunyuan Li, Jianfeng Gao(参考訳) GPT-4Vのような大規模マルチモーダルモデル(LMM)の視覚的グラウンドリング能力を解き放つための新しい視覚的プロンプト手法であるSet-of-Mark(SoM)を提案する。 図1(右)に示すように、SAMのような市販のインタラクティブセグメンテーションモデルを用いて、イメージを異なるレベルの粒度の領域に分割し、これらの領域を、アルファ数値、マスク、ボックスなどの一連のマークでオーバーレイする。 マーク付きイメージを入力として、gpt-4vは視覚的な接地を必要とする質問に答えることができる。 我々は,SoMの広範囲な視覚およびマルチモーダルタスクにおける有効性を検証するための総合的な実証的研究を行った。 例えば、SoMを用いたGPT-4Vは、ゼロショット設定でRefCOCOg上の最先端の完全精細参照セグメンテーションモデルより優れていることを示す。

We present Set-of-Mark (SoM), a new visual prompting method, to unleash the visual grounding abilities of large multimodal models (LMMs), such as GPT-4V. As illustrated in Fig. 1 (right), we employ off-the-shelf interactive segmentation models, such as SAM, to partition an image into regions at different levels of granularity, and overlay these regions with a set of marks e.g., alphanumerics, masks, boxes. Using the marked image as input, GPT-4V can answer the questions that require visual grounding. We perform a comprehensive empirical study to validate the effectiveness of SoM on a wide range of fine-grained vision and multimodal tasks. For example, our experiments show that GPT-4V with SoM outperforms the state-of-the-art fully-finetuned referring segmentation model on RefCOCOg in a zero-shot setting.
翻訳日:2023-10-18 14:37:36 公開日:2023-10-17
# EvalCrafter: 大規模なビデオ生成モデルのベンチマークと評価

EvalCrafter: Benchmarking and Evaluating Large Video Generation Models ( http://arxiv.org/abs/2310.11440v1 )

ライセンス: Link先を確認
Yaofang Liu, Xiaodong Cun, Xuebo Liu, Xintao Wang, Yong Zhang, Haoxin Chen, Yang Liu, Tieyong Zeng, Raymond Chan, Ying Shan(参考訳) ビジョンと言語生成モデルは近年、過剰な成長を遂げている。 ビデオ生成では、様々なオープンソースモデルと、高画質ビデオを生成するパブリックサービスが提供される。 しかし、これらの手法は、FVDやISといったいくつかの学術的指標を使って性能を評価することが多い。 これらのモデルはしばしば、多視点能力を持つ非常に大きなデータセットで訓練されているため、単純な指標から大きな条件生成モデルを判断することは困難である。 そこで本研究では,生成したビデオの性能を徹底的に評価する新しいフレームワークとパイプラインを提案する。 これを実現するために,まず,実世界のプロンプトリストを大規模言語モデルを用いて解析し,テキスト対ビデオ生成のための新しいプロンプトリストを作成する。 そこで本研究では,映像品質,コンテンツ品質,モーション品質,テキスト・キャプチャアライメントについて,約18の客観的指標を用いて,注意深く設計したベンチマークを用いて,最先端のビデオ生成モデルを評価する。 モデルの最終的なリーダーボードを得るためには,客観的な指標をユーザの意見に合わせるために,一連の係数を適合させる。 提案手法に基づいて,提案手法の有効性を示した結果,評価値の平均値よりも高い相関性を示した。

The vision and language generative models have been overgrown in recent years. For video generation, various open-sourced models and public-available services are released for generating high-visual quality videos. However, these methods often use a few academic metrics, for example, FVD or IS, to evaluate the performance. We argue that it is hard to judge the large conditional generative models from the simple metrics since these models are often trained on very large datasets with multi-aspect abilities. Thus, we propose a new framework and pipeline to exhaustively evaluate the performance of the generated videos. To achieve this, we first conduct a new prompt list for text-to-video generation by analyzing the real-world prompt list with the help of the large language model. Then, we evaluate the state-of-the-art video generative models on our carefully designed benchmarks, in terms of visual qualities, content qualities, motion qualities, and text-caption alignment with around 18 objective metrics. To obtain the final leaderboard of the models, we also fit a series of coefficients to align the objective metrics to the users' opinions. Based on the proposed opinion alignment method, our final score shows a higher correlation than simply averaging the metrics, showing the effectiveness of the proposed evaluation method.
翻訳日:2023-10-18 14:37:18 公開日:2023-10-17
# LLM-CXR:CXR画像理解・生成のための命令型LCM

LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation ( http://arxiv.org/abs/2305.11490v4 )

ライセンス: Link先を確認
Suhyeon Lee, Won Jun Kim, Jinho Chang, Jong Chul Ye(参考訳) LLMの印象的な発展に続いて、マルチモーダル推論と視覚IOを可能にするために、LLMの視覚言語アライメントが活発に研究されている。 この研究の方向性は、医用画像分析と生成が視覚特徴と事前知識の組み合わせに基づく推論で構成されているため、特に医用画像に関係している。 近年の多くの研究は、画像処理ネットワークとllm間の情報ブリッジとして機能するアダプタネットワークの訓練に焦点を当てているが、おそらくは、視覚情報に対するllmの最大推論能力を達成するために、視覚機能と言語機能はより自由に相互作用できるべきである。 これは、胸部X線(CXR)などの医用画像の理解と生成が、正確な視覚的および言語に基づく推論だけでなく、2つのモダリティ間のより親密なマッピングを必要とするため、医療領域において特に重要である。 そこで本稿では, 双方向画像とテキスト生成のためのトランスフォーマとVQ-GANの組み合わせに関する以前の研究から着想を得て, テキストのみに事前学習したLLMを指導し, 医用画像の視覚言語能力を得る手法を開発した。 具体的には、事前学習されたLLMの既存の質問回答と指示追従能力を利用して、画像入力に関する質問に答えるよう指示し、左右対称に、画像ベースのテキスト生成とテキストベースの画像生成を含む多様なタスクでLLMをチューニングすることにより、所定のクエリに適したテキストと画像応答を出力する。 提案手法で学習したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示すとともに,より狭い範囲のタスクを実行する従来開発されたモデルよりも小型であることを示す。 コードはhttps://github.com/hyn2028/llm-cxr。

Following the impressive development of LLMs, vision-language alignment in LLMs is actively being researched to enable multimodal reasoning and visual IO. This direction of research is particularly relevant to medical imaging because medical image analysis and generation consist of reasoning based on a combination of visual features and prior knowledge. Many recent works have focused on training adapter networks that serve as an information bridge between image processing networks and LLMs; but presumably, in order to achieve maximum reasoning potential of LLMs on visual information as well, visual and language features should be allowed to interact more freely. This is especially important in the medical domain because understanding and generating medical images such as chest X-rays (CXR) require not only accurate visual and language-based reasoning but also a more intimate mapping between the two modalities. Thus, taking inspiration from previous work on the transformer and VQ-GAN combination for bidirectional image and text generation, we build upon this approach and develop a method for instruction-tuning an LLM pre-trained only on text to gain vision-language capabilities for medical images. Specifically, we leverage a pretrained LLM's existing question-answering and instruction-following abilities to teach it to understand visual inputs by instructing it to answer questions about image inputs and, symmetrically, output both text and image responses appropriate to a given query by tuning the LLM with diverse tasks that encompass image-based text-generation and text-based image-generation. We show that our model, LLM-CXR, trained in this approach shows better image-text alignment in both CXR understanding and generation tasks while being smaller in size compared to previously developed models that perform a narrower range of tasks. The code is at https://github.com/hyn2028/llm-cxr.
翻訳日:2023-10-18 11:17:36 公開日:2023-10-17
# 低リソース地震探査のための伝搬構造を持つ一貫したコントラスト伝達フレームワーク

A Unified Contrastive Transfer Framework with Propagation Structure for Boosting Low-Resource Rumor Detection ( http://arxiv.org/abs/2304.01492v5 )

ライセンス: Link先を確認
Hongzhan Lin, Jing Ma, Ruichao Yang, Zhiwei Yang, Mingfei Cheng(参考訳) 事実は、ニュースや人気の話題とともに広まる巨大な噂によって著しく妨げられている。 モデルトレーニングのために同じドメインから集めた十分なコーパスがあるため、既存の噂検出アルゴリズムは昨日のニュースで有望なパフォーマンスを示している。 しかし、十分な訓練データや事前の専門家知識が欠如しているため、予期せぬ出来事、特に異なる言語(低資源体制)で伝播した出来事に関する噂を見つけるのが苦手である。 本稿では,噂データから得られた特徴を,少数のアノテーションを用いた低リソース化に適応させることで,噂を検出するための一貫したコントラッシブトランスファーフレームワークを提案する。 より具体的には、まずソーシャルメディア上で流布された噂を、ユーザの意見の相互作用を強化するための無向的トポロジーとして表現し、次いで、統合されたコントラストパラダイムを介してマルチスケールグラフ畳み込みネットワークを訓練し、ポストセマンティクスと伝播構造から効果的な手がかりを同時に抽出する。 我々のモデルは、言語アライメントと新しいドメイン適応型コントラスト学習機構を通じて、ドメインおよび/または言語問題の障壁を明示的に破る。 対象イベントに注釈を付けて表現学習を高度に一般化するため,うわさ表示信号は,その分布の均一性と密接な相関関係にあることを明らかにした。 対象イベントを識別して表現を統一できる,3つのイベントレベルデータ拡張戦略を備えたターゲットワイドコントラストトレーニング機構を設計する。 実世界のマイクロブログプラットフォームから収集した4つの低リソースデータセットによる大規模な実験により、我々のフレームワークは最先端の手法よりもはるかに優れた性能を示し、早期に噂を検出する能力を示している。

The truth is significantly hampered by massive rumors that spread along with breaking news or popular topics. Since there is sufficient corpus gathered from the same domain for model training, existing rumor detection algorithms show promising performance on yesterday's news. However, due to a lack of substantial training data and prior expert knowledge, they are poor at spotting rumors concerning unforeseen events, especially those propagated in different languages (i.e., low-resource regimes). In this paper, we propose a unified contrastive transfer framework to detect rumors by adapting the features learned from well-resourced rumor data to that of the low-resourced with only few-shot annotations. More specifically, we first represent rumor circulated on social media as an undirected topology for enhancing the interaction of user opinions, and then train a Multi-scale Graph Convolutional Network via a unified contrastive paradigm to mine effective clues simultaneously from post semantics and propagation structure. Our model explicitly breaks the barriers of the domain and/or language issues, via language alignment and a novel domain-adaptive contrastive learning mechanism. To well-generalize the representation learning using a small set of annotated target events, we reveal that rumor-indicative signal is closely correlated with the uniformity of the distribution of these events. We design a target-wise contrastive training mechanism with three event-level data augmentation strategies, capable of unifying the representations by distinguishing target events. Extensive experiments conducted on four low-resource datasets collected from real-world microblog platforms demonstrate that our framework achieves much better performance than state-of-the-art methods and exhibits a superior capacity for detecting rumors at early stages.
翻訳日:2023-10-18 11:17:02 公開日:2023-10-17
# 機械翻訳におけるChatGPTの活用に向けて

Towards Making the Most of ChatGPT for Machine Translation ( http://arxiv.org/abs/2303.13780v3 )

ライセンス: Link先を確認
Keqin Peng, Liang Ding, Qihuang Zhong, Li Shen, Xuebo Liu, Min Zhang, Yuanxin Ouyang, Dacheng Tao(参考訳) ChatGPTは機械翻訳(MT)の優れた機能を示す。 いくつかの先行研究は、高リソース言語の商用システムに匹敵する結果が得られたが、低リソースや遠言語対訳といった複雑なタスクでは遅れていることを示している。 しかし、彼らは通常、ChatGPTの能力を十分に引き出すことができない単純なプロンプトを採用する。 本稿では,ChatGPTの翻訳能力について,温度,タスク情報,ドメイン情報といったいくつかの側面を再考し,最適温度設定と,タスク特化プロンプト(TSP)とドメイン特化プロンプト(DSP)の2つのプロンプトを提案する。 ご覧の通りです 1)ChatGPTの性能は温度に大きく依存し,低い温度では高い性能が得られる。 2)タスク情報の強調は,特に複雑なMTタスクにおいて,ChatGPTの性能をさらに向上させる。 3) ドメイン情報の導入により,chatgptの一般化能力が向上し,そのドメインにおける性能が向上する。 4)ChatGPTは非英語中心のMTタスクに対して幻覚を引き起こす傾向があり,これは提案したプロンプトによって部分的に対処できるが,MT/NLPコミュニティでは強調する必要がある。 また、高度な文脈内学習戦略の効果を探究し、(否定的だが興味深い)観察を見出す: 強力な連鎖的プロンプトは、単語毎の翻訳行動につながり、翻訳の大幅な低下をもたらす。

ChatGPT shows remarkable capabilities for machine translation (MT). Several prior studies have shown that it achieves comparable results to commercial systems for high-resource languages, but lags behind in complex tasks, e.g., low-resource and distant-language-pairs translation. However, they usually adopt simple prompts which can not fully elicit the capability of ChatGPT. In this paper, we aim to further mine ChatGPT's translation ability by revisiting several aspects: temperature, task information, and domain information, and correspondingly propose an optimal temperature setting and two (simple but effective) prompts: Task-Specific Prompts (TSP) and Domain-Specific Prompts (DSP). We show that: 1) The performance of ChatGPT depends largely on temperature, and a lower temperature usually can achieve better performance; 2) Emphasizing the task information can further improve ChatGPT's performance, particularly in complex MT tasks; 3) Introducing domain information can elicit ChatGPT's generalization ability and improve its performance in the specific domain; 4) ChatGPT tends to generate hallucinations for non-English-centric MT tasks, which can be partially addressed by our proposed prompts but still need to be highlighted for the MT/NLP community. We also explore the effects of advanced in-context learning strategies and find a (negative but interesting) observation: the powerful chain-of-thought prompt leads to word-by-word translation behavior, thus bringing significant translation degradation.
翻訳日:2023-10-18 11:16:30 公開日:2023-10-17
# 密度検索のためのロバスト加速器Hybrid Inverted Index

Hybrid Inverted Index Is a Robust Accelerator for Dense Retrieval ( http://arxiv.org/abs/2210.05521v3 )

ライセンス: Link先を確認
Peitian Zhang, Zheng Liu, Shitao Xiao, Zhicheng Dou, Jing Yao(参考訳) 逆ファイル構造は高密度検索を高速化する一般的な手法である。 ドキュメントは埋め込みに基づいてクラスタ化され、検索中に近くのクラスタw.r.t.を探索し、後続のコーデックによるドキュメントの評価のみを行う。 しかしながら、クラスタリングは常に失われるので、調査対象クラスタ内の関連ドキュメントのミスが発生し、検索品質が低下する。 対照的に、健全な用語の重複のような語彙マッチングは、関係する文書を特定するのに強い特徴である。 本研究では,組込みクラスタとサラエント項が協調的に動作するハイブリッド逆インデックス(hi$^2$)を提案する。 有効性と効率の両立を図るため,クラスタセレクタとタームセレクタを考案し,コンパクトな逆リストを構築し,それらを効率的に探索する。 さらに、単純な教師なしアルゴリズムとエンドツーエンドの知識蒸留を利用してこれらの2つのモジュールを学習し、後者の有効性をさらに向上させる。 一般的な検索ベンチマークの総合的な実験に基づいて、クラスタと用語が互いに実際に補完していることを確認し、HI$^2$で、さまざまなインデックス設定の競争効率で、損失のない検索品質を達成できる。 私たちのコードとチェックポイントはhttps://github.com/namespace-Pt/Adon/tree/HI2で公開されています。

Inverted file structure is a common technique for accelerating dense retrieval. It clusters documents based on their embeddings; during searching, it probes nearby clusters w.r.t. an input query and only evaluates documents within them by subsequent codecs, thus avoiding the expensive cost of exhaustive traversal. However, the clustering is always lossy, which results in the miss of relevant documents in the probed clusters and hence degrades retrieval quality. In contrast, lexical matching, such as overlaps of salient terms, tends to be strong feature for identifying relevant documents. In this work, we present the Hybrid Inverted Index (HI$^2$), where the embedding clusters and salient terms work collaboratively to accelerate dense retrieval. To make best of both effectiveness and efficiency, we devise a cluster selector and a term selector, to construct compact inverted lists and efficiently searching through them. Moreover, we leverage simple unsupervised algorithms as well as end-to-end knowledge distillation to learn these two modules, with the latter further boosting the effectiveness. Based on comprehensive experiments on popular retrieval benchmarks, we verify that clusters and terms indeed complement each other, enabling HI$^2$ to achieve lossless retrieval quality with competitive efficiency across various index settings. Our code and checkpoint are publicly available at https://github.com/namespace-Pt/Adon/tree/HI2.
翻訳日:2023-10-18 11:16:03 公開日:2023-10-17
# コントラスト学習と多スケールグラフ畳み込みネットワークを用いた深部画像クラスタリング

Deep Image Clustering with Contrastive Learning and Multi-scale Graph Convolutional Networks ( http://arxiv.org/abs/2207.07173v3 )

ライセンス: Link先を確認
Yuankun Xu, Dong Huang, Chang-Dong Wang, Jian-Huang Lai(参考訳) ディープクラスタリングは、ディープニューラルネットワークによる共同表現学習とクラスタリングにおいて有望な能力を示している。 この大きな進歩にもかかわらず、既存のディープクラスタリングは主に分散ベースのクラスタリング損失を利用しており、表現学習とマルチスケール構造学習を統合する能力が欠如している。 そこで本論文では,畳み込みニューラルネットワーク(CNN)とグラフ畳み込みネットワーク(GCN)のギャップを埋める,コントラスト学習とマルチスケール構造学習のギャップを埋める,コントラスト学習とマルチスケールグラフ畳み込みネットワーク(IcicleGCN)を用いた画像クラスタリング手法を提案する。 このフレームワークは、cnnベースのバックボーン、インスタンス類似モジュール(ism)、jc-slim(joint cluster structure learning and instance reconstruction module)、マルチスケールgcnモジュール(m-gcn)の4つの主要なモジュールから構成されている。 具体的には、2つの重み共有ビューを持つバックボーンネットワークを用いて、2つの強化サンプル(各画像から)の表現を学習する。 次に、JC-SLIMにおけるオートエンコーダが、M-GCNモジュールへのブリッジとして機能するように事前訓練される、連立インスタンスレベルとクラスタレベルのコントラスト学習のためのISMとJC-SLIMに、学習された表現が供給される。 さらに、マルチスケールな近隣構造学習を実施するために、GCNとオートエンコーダの2つのストリームを同時にトレーニングする。 一 表象融合及び表象融合との層間相互作用 (ii)共同自己適応学習。 複数の画像データセットの実験は、最先端のIcicleGCNよりも優れたクラスタリング性能を示している。 コードはhttps://github.com/xuyuankun631/IcicleGCNで入手できる。

Deep clustering has shown its promising capability in joint representation learning and clustering via deep neural networks. Despite the significant progress, the existing deep clustering works mostly utilize some distribution-based clustering loss, lacking the ability to unify representation learning and multi-scale structure learning. To address this, this paper presents a new deep clustering approach termed image clustering with contrastive learning and multi-scale graph convolutional networks (IcicleGCN), which bridges the gap between convolutional neural network (CNN) and graph convolutional network (GCN) as well as the gap between contrastive learning and multi-scale structure learning for the deep clustering task. Our framework consists of four main modules, namely, the CNN-based backbone, the Instance Similarity Module (ISM), the Joint Cluster Structure Learning and Instance reconstruction Module (JC-SLIM), and the Multi-scale GCN module (M-GCN). Specifically, the backbone network with two weight-sharing views is utilized to learn the representations for the two augmented samples (from each image). The learned representations are then fed to ISM and JC-SLIM for joint instance-level and cluster-level contrastive learning, respectively, during which an auto-encoder in JC-SLIM is also pretrained to serve as a bridge to the M-GCN module. Further, to enforce multi-scale neighborhood structure learning, two streams of GCNs and the auto-encoder are simultaneously trained via (i) the layer-wise interaction with representation fusion and (ii) the joint self-adaptive learning. Experiments on multiple image datasets demonstrate the superior clustering performance of IcicleGCN over the state-of-the-art. The code is available at https://github.com/xuyuankun631/IcicleGCN.
翻訳日:2023-10-18 11:15:39 公開日:2023-10-17
# CTRモデル: CTR予測に言語モデルを適用するための強力なプロンプト生成器

ClickPrompt: CTR Models are Strong Prompt Generators for Adapting Language Models to CTR Prediction ( http://arxiv.org/abs/2310.09234v2 )

ライセンス: Link先を確認
Jianghao Lin, Bo Chen, Hangyu Wang, Yunjia Xi, Yanru Qu, Xinyi Dai, Kangning Zhang, Ruiming Tang, Yong Yu, Weinan Zhang(参考訳) クリックスルー率(CTR)予測は、様々なインターネットアプリケーションにとってますます不可欠になっている。 従来のCTRモデルは、マルチフィールド分類データをワンホット符号化によりID特徴に変換し、特徴間の協調信号を抽出する。 このようなパラダイムは意味情報損失の問題に悩まされる。 別の研究は、入力データをハードプロンプトテンプレートでテキスト文に変換することで、ctr予測のための事前学習言語モデル(plm)の可能性を探る。 セマンティクス信号は保存されるが、一般的には、大きなモデルサイズによってもたらされる許容できない推論オーバーヘッドは言うまでもなく、協調的な情報(機能インタラクションや純粋なid機能など)を捉えることができない。 本稿では,CTR推定における意味的知識と協調的知識の両方をモデル化することを目的とした。 両者の利点を享受し、ギャップを縮めるために、新しいモデル非依存フレームワーク(clickprompt)を提案し、plmのインタラクション対応ソフトプロンプトを生成するためにctrモデルを組み込む。 本研究では,PA-MLMプリトレーニングタスクを設計し,PLMは言語コンテキストに基づいてマスク付きトークンを復元し,CTRモデルによって生成されたソフトプロンプトを復元する。 IDとテキスト機能からの協調的および意味的な知識は、プロンプトインターフェースを介して明示的に整列され、相互作用される。 そして、優れた性能を得るためにCTRモデルをPLMで調整するか、あるいは推論効率のためにPLMなしでCTRモデルを調整できる。 4つの実世界のデータセットの実験は、既存のベースラインと比較してClickPromptの有効性を検証する。

Click-through rate (CTR) prediction has become increasingly indispensable for various Internet applications. Traditional CTR models convert the multi-field categorical data into ID features via one-hot encoding, and extract the collaborative signals among features. Such a paradigm suffers from the problem of semantic information loss. Another line of research explores the potential of pretrained language models (PLMs) for CTR prediction by converting input data into textual sentences through hard prompt templates. Although semantic signals are preserved, they generally fail to capture the collaborative information (e.g., feature interactions, pure ID features), not to mention the unacceptable inference overhead brought by the huge model size. In this paper, we aim to model both the semantic knowledge and collaborative knowledge for accurate CTR estimation, and meanwhile address the inference inefficiency issue. To benefit from both worlds and close their gaps, we propose a novel model-agnostic framework (i.e., ClickPrompt), where we incorporate CTR models to generate interaction-aware soft prompts for PLMs. We design a prompt-augmented masked language modeling (PA-MLM) pretraining task, where PLM has to recover the masked tokens based on the language context, as well as the soft prompts generated by CTR model. The collaborative and semantic knowledge from ID and textual features would be explicitly aligned and interacted via the prompt interface. Then, we can either tune the CTR model with PLM for superior performance, or solely tune the CTR model without PLM for inference efficiency. Experiments on four real-world datasets validate the effectiveness of ClickPrompt compared with existing baselines.
翻訳日:2023-10-18 11:10:27 公開日:2023-10-17
# datt:クワッドローター制御のための深い適応軌道追跡

DATT: Deep Adaptive Trajectory Tracking for Quadrotor Control ( http://arxiv.org/abs/2310.09053v2 )

ライセンス: Link先を確認
Kevin Huang, Rwik Rana, Alexander Spitzer, Guanya Shi, Byron Boots(参考訳) 四元数に対する精密な任意の軌道追跡は、未知の非線形ダイナミクス、軌道不実現性、アクティベーション限界のために困難である。 これらの課題に対処するために,実世界の大きな乱れの存在下で,任意の,潜在的に不可能な軌跡を正確に追跡する学習ベースのアプローチであるDeep Adaptive Trajectory Tracking (DATT)を提案する。 DATTは、強化学習を用いたシミュレーションで訓練された新しいフィードフォワードフィードバック適応制御構造に基づいている。 実際のハードウェアにデプロイする際、DATTはクローズドループにおけるL1適応制御を用いた外乱推定器で拡張される。 DATTは、ベースラインが完全に故障する挑戦的なシナリオを含む非定常風場において、実行不可能なスムーズな軌道と不可能な軌道の両方に対して、競争適応性のある非線形およびモデル予測コントローラを著しく上回っている。 さらに、dattは、適応非線形モデル予測制御ベースラインの1/4未満の3.2ms未満の推論時間で効率的にオンライン実行することができる。

Precise arbitrary trajectory tracking for quadrotors is challenging due to unknown nonlinear dynamics, trajectory infeasibility, and actuation limits. To tackle these challenges, we present Deep Adaptive Trajectory Tracking (DATT), a learning-based approach that can precisely track arbitrary, potentially infeasible trajectories in the presence of large disturbances in the real world. DATT builds on a novel feedforward-feedback-adaptive control structure trained in simulation using reinforcement learning. When deployed on real hardware, DATT is augmented with a disturbance estimator using L1 adaptive control in closed-loop, without any fine-tuning. DATT significantly outperforms competitive adaptive nonlinear and model predictive controllers for both feasible smooth and infeasible trajectories in unsteady wind fields, including challenging scenarios where baselines completely fail. Moreover, DATT can efficiently run online with an inference time less than 3.2 ms, less than 1/4 of the adaptive nonlinear model predictive control baseline
翻訳日:2023-10-18 11:10:00 公開日:2023-10-17
# 対話生成における知識内部化のための多段階適応型コントラスト学習

Multi-level Adaptive Contrastive Learning for Knowledge Internalization in Dialogue Generation ( http://arxiv.org/abs/2310.08943v2 )

ライセンス: Link先を確認
Chenxu Yang, Zheng Lin, Lanrui Wang, Chong Tian, Liang Pang, Jiangnan Li, Qirong Ho, Yanan Cao, Weiping Wang(参考訳) 知識基底対話生成は、文脈を補うために外部知識を取り入れることで、テキストの劣化を緩和することを目的としている。 しかし、このモデルは、しばしば、この情報を人間のような方法で応答に内部化できない。 代わりに、提供される知識のセグメントを一般的な応答に挿入する。 その結果、生成した応答は退屈で不整合性があり、縮退問題は未解決であることを意味する相互作用性の欠如が生じる傾向にある。 そこで本研究では,このような複写スタイルの退化は,主に弱い可能性目標が原因であり,オーバーラップに基づく表面パターンマッチングにおいて,単に知識セグメントを重複させることで,目的を「熱く」することができる。 この課題を克服するために、陰例を動的にサンプリングし、トークンレベルとシーケンスレベルの両方で退化挙動を罰する多レベル適応コントラスト学習(MACL)フレームワークを提案する。 WoWデータセットの大規模な実験により、様々な事前学習モデルにまたがるアプローチの有効性が示された。

Knowledge-grounded dialogue generation aims to mitigate the issue of text degeneration by incorporating external knowledge to supplement the context. However, the model often fails to internalize this information into responses in a human-like manner. Instead, it simply inserts segments of the provided knowledge into generic responses. As a result, the generated responses tend to be tedious, incoherent, and in lack of interactivity which means the degeneration problem is still unsolved. In this work, we first find that such copying-style degeneration is primarily due to the weak likelihood objective, which allows the model to "cheat" the objective by merely duplicating knowledge segments in a superficial pattern matching based on overlap. To overcome this challenge, we then propose a Multi-level Adaptive Contrastive Learning (MACL) framework that dynamically samples negative examples and subsequently penalizes degeneration behaviors at both the token-level and sequence-level. Extensive experiments on the WoW dataset demonstrate the effectiveness of our approach across various pre-trained models.
翻訳日:2023-10-18 11:09:40 公開日:2023-10-17
# 動的スパースなしトレーニング:スパースllmのトレーニングフリー微調整

Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs ( http://arxiv.org/abs/2310.08915v2 )

ライセンス: Link先を確認
Yuxin Zhang, Lirui Zhao, Mingbao Lin, Yunyun Sun, Yiwu Yao, Xingjia Han, Jared Tanner, Shiwei Liu, Rongrong Ji(参考訳) 今後も増え続ける大型言語モデル(LLM)は、今後の人工知能(AI)への潜在的な道を開く一方で、デバイス上での展開に向けて途方もない障害を乗り越えている。 モデル複雑性の低減において、LLMが確立したアプローチの1つとして、ネットワークプルーニングは、大量のモデルパラメータとトレーニングデータの下で、コストのかかる微調整(または再訓練)の必要性のため、LLMの時代に遅れているように見える。 この業界と学界のギャップを埋めるために、私たちは、高価なバックプロパゲーションやウェイトアップデートなしに、わずかにスパースLSMを更新するトレーニング不要の微調整アプローチであるDynamic Sparse No Training (DSnoT)を導入しました。 Dynamic Sparse TrainingにインスパイアされたDSnoTは、Sparse LLM上で反復的に重量を刈り上げ、成長させる方法で、高密度LLMとスパースLLMの再構成誤差を最小限に抑える。 この目的を達成するため、DSnoTは特に、各重みを成長させるための差分w.r.t.異なる入力データと同様に、刈り込みおよび成長のための復元誤差の期待値の低減を考慮に入れている。 このプラクティスは、微調整LDMのバックプロパゲーションの必要性を排除し、線形時間で効率的に実行できる。 各種ベンチマークを用いたLLaMA-V1/V2, Vicuna, OPTの大規模実験により, スパースLDMの性能向上におけるDSnoTの有効性が示された。 例えば、DSnoTは、LLaMA-7Bと70%の間隔で26.79パープレキシティで最先端のワンダより優れている。 本稿は, LLMのスパースを, 効率的なトレーニングのない方法で微調整し, 新しい会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。 コードはhttps://github.com/zyxxmu/dsnotで入手できる。

The ever-increasing large language models (LLMs), though opening a potential path for the upcoming artificial general intelligence, sadly drops a daunting obstacle on the way towards their on-device deployment. As one of the most well-established pre-LLMs approaches in reducing model complexity, network pruning appears to lag behind in the era of LLMs, due mostly to its costly fine-tuning (or re-training) necessity under the massive volumes of model parameter and training data. To close this industry-academia gap, we introduce Dynamic Sparse No Training (DSnoT), a training-free fine-tuning approach that slightly updates sparse LLMs without the expensive backpropagation and any weight updates. Inspired by the Dynamic Sparse Training, DSnoT minimizes the reconstruction error between the dense and sparse LLMs, in the fashion of performing iterative weight pruning-and-growing on top of sparse LLMs. To accomplish this purpose, DSnoT particularly takes into account the anticipated reduction in reconstruction error for pruning and growing, as well as the variance w.r.t. different input data for growing each weight. This practice can be executed efficiently in linear time since its obviates the need of backpropagation for fine-tuning LLMs. Extensive experiments on LLaMA-V1/V2, Vicuna, and OPT across various benchmarks demonstrate the effectiveness of DSnoT in enhancing the performance of sparse LLMs, especially at high sparsity levels. For instance, DSnoT is able to outperform the state-of-the-art Wanda by 26.79 perplexity at 70% sparsity with LLaMA-7B. Our paper offers fresh insights into how to fine-tune sparse LLMs in an efficient training-free manner and open new venues to scale the great potential of sparsity to LLMs. Codes are available at https://github.com/zyxxmu/DSnoT.
翻訳日:2023-10-18 11:09:21 公開日:2023-10-17
# R&B: ゼロショット接地画像生成における領域と境界認識

R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image Generation ( http://arxiv.org/abs/2310.08872v2 )

ライセンス: Link先を確認
Jiayu Xiao, Liang Li, Henglei Lv, Shuhui Wang, Qingming Huang(参考訳) 近年のテキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトを入力とする高品質な画像の生成が顕著に進んでいる。 しかし、これらのモデルはレイアウト命令によって指定された適切な空間構成を伝達できない。 本研究では,入力レイアウト情報に対応する画像を生成する拡散モデルを用いて,補助モジュールの訓練や拡散モデルの微調整を行わずにゼロショットグラウンドt2i生成を探索する。 本研究では,生成過程において拡散モデルの注意マップを徐々に変調し,(1)高い忠実度,(2)テキスト入力と高い適合性,(3)レイアウト命令の正確な解釈を支援する領域・境界(r&b)対応のクロス・アテンション誘導手法を提案する。 具体的には,連続したアテンションマップと離散レイアウト制約とのギャップを埋めるために離散サンプリングを利用し,拡散過程における生成レイアウトを洗練するために領域認識損失を設計する。 さらに,対象領域における識別可能性を高めるための境界認識損失を提案する。 実験結果から,提案手法は,既存のゼロショットグラウンドドT2I生成手法よりも,定性的かつ定量的に,複数のベンチマークで大きなマージンを達成できた。

Recent text-to-image (T2I) diffusion models have achieved remarkable progress in generating high-quality images given text-prompts as input. However, these models fail to convey appropriate spatial composition specified by a layout instruction. In this work, we probe into zero-shot grounded T2I generation with diffusion models, that is, generating images corresponding to the input layout information without training auxiliary modules or finetuning diffusion models. We propose a Region and Boundary (R&B) aware cross-attention guidance approach that gradually modulates the attention maps of diffusion model during generative process, and assists the model to synthesize images (1) with high fidelity, (2) highly compatible with textual input, and (3) interpreting layout instructions accurately. Specifically, we leverage the discrete sampling to bridge the gap between consecutive attention maps and discrete layout constraints, and design a region-aware loss to refine the generative layout during diffusion process. We further propose a boundary-aware loss to strengthen object discriminability within the corresponding regions. Experimental results show that our method outperforms existing state-of-the-art zero-shot grounded T2I generation methods by a large margin both qualitatively and quantitatively on several benchmarks.
翻訳日:2023-10-18 11:08:42 公開日:2023-10-17
# BERTの一般化性に及ぼす人体と親和性サンプルの影響

Effects of Human Adversarial and Affable Samples on BERT Generalizability ( http://arxiv.org/abs/2310.08008v3 )

ライセンス: Link先を確認
Aparna Elangovan, Jiayuan He, Yuan Li, Karin Verspoor(参考訳) bertベースのモデルは、leaderboardsでパフォーマンスが高かったが、現実の世界では一般化を必要とする状況では、かなり悪くなっている。 限られた量のトレーニングデータは、機械学習における一般化性を達成するための鍵となる障害とみなされる。 本稿では,モデルの一般化性に対する量ではなく,データ品質のトレーニングが与える影響について検討する。 訓練データの特徴として,人間-敵関係 (h-敵関係) の部分,すなわち,一見小さな差異があるが接地ラベルが異なるサンプルペア,および人間-適応(h-親和性)訓練サンプル,すなわち,接地ラベルは同じ接地ラベルを持つサンプルペアの2つを検討した。 サンプルの固定サイズについては,親指の規則として10~30%のh-adversarialインスタンスを持つと精度が向上し,F1はテキスト分類や関係抽出のタスクにおいて最大20ポイント向上することがわかった。 この範囲を超えてh-adversarialが増加すると、パフォーマンスのプラトーや劣化が起きる。 対照的に、h-affablesはモデルの一般化可能性に寄与せず、一般化性能を低下させることもある。

BERT-based models have had strong performance on leaderboards, yet have been demonstrably worse in real-world settings requiring generalization. Limited quantities of training data is considered a key impediment to achieving generalizability in machine learning. In this paper, we examine the impact of training data quality, not quantity, on a model's generalizability. We consider two characteristics of training data: the portion of human-adversarial (h-adversarial), i.e., sample pairs with seemingly minor differences but different ground-truth labels, and human-affable (h-affable) training samples, i.e., sample pairs with minor differences but the same ground-truth label. We find that for a fixed size of training samples, as a rule of thumb, having 10-30% h-adversarial instances improves the precision, and therefore F1, by up to 20 points in the tasks of text classification and relation extraction. Increasing h-adversarials beyond this range can result in performance plateaus or even degradation. In contrast, h-affables may not contribute to a model's generalizability and may even degrade generalization performance.
翻訳日:2023-10-18 11:08:21 公開日:2023-10-17
# MRフィンガープリンティング改善のためのマニフォールド構造データ先行処理

Exploiting Manifold Structured Data Priors for Improved MR Fingerprinting Reconstruction ( http://arxiv.org/abs/2310.05647v3 )

ライセンス: Link先を確認
Peng Li, Yuping Ji, Yue Hu(参考訳) 組織パラメータマップを高精度かつ高精度に推定することはMRフィンガープリント(MRF)における大きな課題の1つとなる。 多くの既存の研究は、復元されたボクセル指紋をブロッホ多様体に投影し、復元性能を向上させる。 しかし、指紋間の潜在多様体構造を利用した研究はほとんどない。 このギャップを埋めるために,多様体構造データに基づく新しいMDF再構成フレームワークを提案する。 指紋多様体構造を直接推定することは困難であるため,組織パラメータを低次元パラメータ多様体上の点としてモデル化する。 フィンガープリント多様体は、異なるユークリッド空間に埋め込まれているにもかかわらず、パラメータ多様体と同じ固有位相を持つ。 mrfデータの非線形および非局所冗長性を利用するため、mrfデータを空間パッチに分割し、パラメータ多様体内の対応するパッチ間のユークリッド距離を用いてデータパッチ間の類似度測定を正確に得ることができる。 測定された類似性は、指紋多様体構造を表すグラフラプラシアン作用素を構成するために使われる。 従って、低次元パラメータ多様体を用いて、再構築フレームワークに指紋多様体構造を導入する。 さらに,各パッチの局所的相関を活用し,復元性能を向上させるために,復元フレームワークに先行する局所的低ランクを組み込んだ。 また,非カーテシアンサンプリングシナリオの再構成を高速化するために,gpuによるnufftライブラリも採用した。 実験の結果,本手法は最先端手法よりも計算時間を短縮し,復元性能を大幅に向上できることがわかった。

Estimating tissue parameter maps with high accuracy and precision from highly undersampled measurements presents one of the major challenges in MR fingerprinting (MRF). Many existing works project the recovered voxel fingerprints onto the Bloch manifold to improve reconstruction performance. However, little research focuses on exploiting the latent manifold structure priors among fingerprints. To fill this gap, we propose a novel MRF reconstruction framework based on manifold structured data priors. Since it is difficult to directly estimate the fingerprint manifold structure, we model the tissue parameters as points on a low-dimensional parameter manifold. We reveal that the fingerprint manifold shares the same intrinsic topology as the parameter manifold, although being embedded in different Euclidean spaces. To exploit the non-linear and non-local redundancies in MRF data, we divide the MRF data into spatial patches, and the similarity measurement among data patches can be accurately obtained using the Euclidean distance between the corresponding patches in the parameter manifold. The measured similarity is then used to construct the graph Laplacian operator, which represents the fingerprint manifold structure. Thus, the fingerprint manifold structure is introduced in the reconstruction framework by using the low-dimensional parameter manifold. Additionally, we incorporate the locally low-rank prior in the reconstruction framework to further utilize the local correlations within each patch for improved reconstruction performance. We also adopt a GPU-accelerated NUFFT library to accelerate reconstruction in non-Cartesian sampling scenarios. Experimental results demonstrate that our method can achieve significantly improved reconstruction performance with reduced computational time over the state-of-the-art methods.
翻訳日:2023-10-18 11:08:01 公開日:2023-10-17
# IPMix:ロバスト分類器の学習のためのラベル保存データ拡張法

IPMix: Label-Preserving Data Augmentation Method for Training Robust Classifiers ( http://arxiv.org/abs/2310.04780v4 )

ライセンス: Link先を確認
Zhenglin Huang, Xianan Bao, Na Zhang, Qingqi Zhang, Xiaomei Tu, Biao Wu, Xi Yang(参考訳) データ拡張は、過剰フィッティングを防止し、高精度畳み込みニューラルネットワーク分類器のトレーニングに有効であることが証明されている。 しかし、現実世界のシナリオでディープニューラルネットワークを構築するには、クリーンなデータに対する高い精度だけでなく、データ分布が変化する際のロバスト性も必要となる。 従来の手法では精度とロバスト性の間にトレードオフがあることが提案されているが, クリーンな精度を損なうことなくロバスト性を改善するシンプルなデータ拡張手法であるIMMixを提案する。 ipmixは3つのレベルのデータ拡張(イメージレベル、パッチレベル、ピクセルレベル)をコヒーレントでラベル保存技術に統合し、計算オーバーヘッドの少ないトレーニングデータの多様性を高める。 堅牢性をさらに向上するため、IMMixは様々なレベルで構造的複雑さを導入し、より多様な画像を生成し、マルチスケール情報融合にランダム混合法を採用する。 実験により、IMMixはCIFAR-CとImageNet-Cで最先端の破損堅牢性を上回っていることが示された。 さらに, IPMixは, 対向摂動, キャリブレーション, 予測整合性, 異常検出の堅牢性, ImageNet-R, ImageNet-A, ImageNet-O など,いくつかのベンチマークにおいて, 最先端ないし同等の結果が得られた。

Data augmentation has been proven effective for training high-accuracy convolutional neural network classifiers by preventing overfitting. However, building deep neural networks in real-world scenarios requires not only high accuracy on clean data but also robustness when data distributions shift. While prior methods have proposed that there is a trade-off between accuracy and robustness, we propose IPMix, a simple data augmentation approach to improve robustness without hurting clean accuracy. IPMix integrates three levels of data augmentation (image-level, patch-level, and pixel-level) into a coherent and label-preserving technique to increase the diversity of training data with limited computational overhead. To further improve the robustness, IPMix introduces structural complexity at different levels to generate more diverse images and adopts the random mixing method for multi-scale information fusion. Experiments demonstrate that IPMix outperforms state-of-the-art corruption robustness on CIFAR-C and ImageNet-C. In addition, we show that IPMix also significantly improves the other safety measures, including robustness to adversarial perturbations, calibration, prediction consistency, and anomaly detection, achieving state-of-the-art or comparable results on several benchmarks, including ImageNet-R, ImageNet-A, and ImageNet-O.
翻訳日:2023-10-18 11:07:37 公開日:2023-10-17
# 連立直交訓練--連立学習における世界大惨事の回避

Federated Orthogonal Training: Mitigating Global Catastrophic Forgetting in Continual Federated Learning ( http://arxiv.org/abs/2309.01289v3 )

ライセンス: Link先を確認
Yavuz Faruk Bakman, Duygu Nur Yaldiz, Yahya H. Ezzeldin, Salman Avestimehr(参考訳) Federated Learning (FL)は、分散データによるプライバシー保護トレーニングを可能にする能力によって、大きな注目を集めている。 FLの現在の文献は主にシングルタスク学習に焦点を当てている。 しかし、時間が経つにつれて、クライアントに新しいタスクが現れ、グローバルモデルは以前のタスクを忘れずにこれらのタスクを学習すべきである。 この現実世界のシナリオはcontinual federated learning (cfl)として知られている。 CFLの主な課題はGlobal Catastrophic Forgettingであり、これは、グローバルモデルが新しいタスクで訓練されると、古いタスクのパフォーマンスが低下するという事実に対応する。 近年CFLにおいて、世界的な破滅的な忘れの問題に対処する手法を提案する研究がいくつか行われている。 しかしながら、これらの作業は過去のデータサンプルの可用性に関する非現実的な仮定を持つか、flのプライバシ原則に違反する。 本稿では,これらの欠点を克服し,CFLにおける世界的な破滅的忘れを解消する新たな手法であるFOTを提案する。 提案手法は,古いタスクに対する各レイヤのグローバル入力サブスペースを抽出し,新しいタスクの集約された更新を,各レイヤの古いタスクのグローバルプリンシパルサブスペースと直交するように修正する。 これにより、タスク間の干渉が減少する。 実験により,fotはcfl設定において最先端の連続学習手法を上回っており,最大15%の精度向上を達成し,最小の計算と通信コストを伴わずに27%の精度で学習できることを示した。

Federated Learning (FL) has gained significant attraction due to its ability to enable privacy-preserving training over decentralized data. Current literature in FL mostly focuses on single-task learning. However, over time, new tasks may appear in the clients and the global model should learn these tasks without forgetting previous tasks. This real-world scenario is known as Continual Federated Learning (CFL). The main challenge of CFL is Global Catastrophic Forgetting, which corresponds to the fact that when the global model is trained on new tasks, its performance on old tasks decreases. There have been a few recent works on CFL to propose methods that aim to address the global catastrophic forgetting problem. However, these works either have unrealistic assumptions on the availability of past data samples or violate the privacy principles of FL. We propose a novel method, Federated Orthogonal Training (FOT), to overcome these drawbacks and address the global catastrophic forgetting in CFL. Our algorithm extracts the global input subspace of each layer for old tasks and modifies the aggregated updates of new tasks such that they are orthogonal to the global principal subspace of old tasks for each layer. This decreases the interference between tasks, which is the main cause for forgetting. We empirically show that FOT outperforms state-of-the-art continual learning methods in the CFL setting, achieving an average accuracy gain of up to 15% with 27% lower forgetting while only incurring a minimal computation and communication cost.
翻訳日:2023-10-18 11:07:10 公開日:2023-10-17
# ChatGPTはStackOverflowを置き換えることができるか? 大規模言語モデルコード生成のロバスト性と信頼性に関する研究

Can ChatGPT replace StackOverflow? A Study on Robustness and Reliability of Large Language Model Code Generation ( http://arxiv.org/abs/2308.10335v4 )

ライセンス: Link先を確認
Li Zhong, Zilong Wang(参考訳) 近年,大規模言語モデル (LLM) は,自然言語の理解とプログラミングコード生成に極めて優れた能力を示している。 コーディング問題に遭遇する際、LLMに相談するのは、ソフトウェアエンジニアがよく行うプラクティスである。 構文エラーを回避し、コードを意図した意味と整合させる努力がなされているが、LLMからのコード生成の信頼性と堅牢性はまだ十分に研究されていない。 実行可能なコードは、特に現実世界のソフトウェア開発のコンテキストにおいて、信頼性が高く堅牢なコードと等価ではない。 生成されたコードにおけるAPIの誤用は、リソースリークやプログラムクラッシュといった深刻な問題を引き起こす可能性がある。 さらに悪いことに、llmコード生成サービスのユーザは、実際にはこれらのコードに対して最も脆弱な開発者であり、正しいように思える -- 彼らは常にllmがコードを生成するapiに精通していない初心者開発者である。 したがって、LLMが生成したコードの誤用をほとんど知ることができず、現実世界のソフトウェアに適用される誤ったコードをさらに容易にする。 既存のコード評価ベンチマークとデータセットは、コーディング面接のプログラミング質問のような小さなタスクの作成にフォーカスしているが、これは開発者がllmに実際のコーディング支援を求める問題から逸脱している。 そこで本研究では,LLMが生成するコードの信頼性とロバスト性を評価するためのデータセットRobostAPIを提案する。 StackOverflowから24の代表的なJava APIで1208のコーディング質問を収集します。 これらのAPIの一般的な誤用パターンを要約し,現在普及しているLCMを評価した。 GPT-4では,生成コードの62%にAPI誤用があり,実際のソフトウェアにコードが導入されると予期せぬ結果が生じる。

Recently, the large language models (LLMs) have shown extraordinary ability in understanding natural language and generating programming code. It has been a common practice of software engineers to consult LLMs when encountering coding questions. Although efforts have been made to avoid syntax errors and align the code with the intended semantics, the reliability and robustness of the code generationfrom LLMs have not yet been thoroughly studied. The executable code is not equivalent to the reliable and robust code, especially in the context of real-world software development. The misuse of APIs in the generated code could lead to severe problem, such as resource leaks, program crashes. To make things worse, the users of LLM code generation services are actually the developers that are most vulnerable to these code that seems right -- They are always novice developers that are not familiar with the APIs that LLMs generate code for them. Therefore, they could hardly tell the misuse in the code generated by LLMs, which further facilitates the incorrect code applied in real-world software. Existing code evaluation benchmark and datasets focus on crafting small tasks such as programming questions in coding interviews, which however deviates from the problem that developers would ask LLM for real-world coding help. To fill the missing piece, in this work, we propose a dataset RobustAPI for evaluating the reliability and robustness of code generated by LLMs. We collect 1208 coding questions from StackOverflow on 24 representative Java APIs. We summarize thecommon misuse patterns of these APIs and evaluate them oncurrent popular LLMs. The evaluation results show that evenfor GPT-4, 62% of the generated code contains API misuses,which would cause unexpected consequences if the code isintroduced into real-world software.
翻訳日:2023-10-18 11:06:42 公開日:2023-10-17
# 自身のスキルをブートストラップする - 大規模言語モデルガイダンスによる新しいタスクの解決を学ぶ

Bootstrap Your Own Skills: Learning to Solve New Tasks with Large Language Model Guidance ( http://arxiv.org/abs/2310.10021v2 )

ライセンス: Link先を確認
Jesse Zhang, Jiahui Zhang, Karl Pertsch, Ziyi Liu, Xiang Ren, Minsuk Chang, Shao-Hua Sun, Joseph J. Lim(参考訳) 我々は,学習スキルライブラリを最小限の監督で拡張することにより,新しい長方形,複雑,有意義なタスクを自動的に解く手法であるbossを提案する。 強化学習における以前の仕事は、長期的タスクを学ぶために、デモンストレーションや豊富な報酬関数の形で専門家の監督を必要とする。 代わりに、私たちのアプローチであるBOSS(BOotStrapping your own Skills)は、プリミティブスキルセットを持つエージェントが環境と対話して、初期スキルセット外のタスクに対する報酬フィードバックを受けずに新しいスキルを実践する、"スキルブートストラッピング"を実行することで、新しいタスクを達成することを学びます。 このブートストラッピングフェーズは、エージェントにチェーンする意味のあるスキルを知らせる大きな言語モデル(LLM)によってガイドされる。 このプロセスを通じて、BOSSはプリミティブスキルの基本的なセットから、幅広い複雑さと有用な振る舞いを構築する。 我々は, LLM誘導型ブートストラップ法で訓練されたエージェントが実生活環境において, 従来の非教師なしスキル獲得手法よりも優れており, 新たな環境下での非教師なしロングホライゾンタスクのゼロショット実行を実証する。 website at clvrai.com/boss.com

We propose BOSS, an approach that automatically learns to solve new long-horizon, complex, and meaningful tasks by growing a learned skill library with minimal supervision. Prior work in reinforcement learning require expert supervision, in the form of demonstrations or rich reward functions, to learn long-horizon tasks. Instead, our approach BOSS (BOotStrapping your own Skills) learns to accomplish new tasks by performing "skill bootstrapping," where an agent with a set of primitive skills interacts with the environment to practice new skills without receiving reward feedback for tasks outside of the initial skill set. This bootstrapping phase is guided by large language models (LLMs) that inform the agent of meaningful skills to chain together. Through this process, BOSS builds a wide range of complex and useful behaviors from a basic set of primitive skills. We demonstrate through experiments in realistic household environments that agents trained with our LLM-guided bootstrapping procedure outperform those trained with naive bootstrapping as well as prior unsupervised skill acquisition methods on zero-shot execution of unseen, long-horizon tasks in new environments. Website at clvrai.com/boss.
翻訳日:2023-10-18 11:01:08 公開日:2023-10-17
# 車両経路最適化のための分岐境界の統計的学習について

On Statistical Learning of Branch and Bound for Vehicle Routing Optimization ( http://arxiv.org/abs/2310.09986v2 )

ライセンス: Link先を確認
Andrew Naguib, Waleed A. Yousef, Issa Traor\'e, Mohammad Mamun(参考訳) 近年,分枝境界アルゴリズムの機械学習により,np問題に対する有能解の近似が期待されている。 本稿では,3つのニューラルネットワーク – Graph Convolutional Neural Network (GCNN), GraphSAGE, Graph attention Network (GAT) の結果を総合的に比較し,静電容量化車両ルーティング問題を解決する。 計算コストの高いStrong Branching戦略の決定過程をエミュレートするために,これらのニューラルネットワークをトレーニングする。 ニューラルネットワークは、CVRPLIBとは異なるトポロジを持つ6つのインスタンスでトレーニングされ、8つの追加インスタンスで評価される。 さらに,CVRPインスタンスの解決に必要な車両の最小数を,同様の方法で対処したビンパッケージ問題に削減した。 厳密な実験により、この手法は、計算時間を大幅に削減しつつ、Strong Branching戦略と分岐およびバウンドアルゴリズムの性能を一致または改善できることがわかった。 私たちの研究成果と方法論に対応するソースコードは、簡単にアクセスでき、以下のWebアドレスで参照することができる。

Recently, machine learning of the branch and bound algorithm has shown promise in approximating competent solutions to NP-hard problems. In this paper, we utilize and comprehensively compare the outcomes of three neural networks--graph convolutional neural network (GCNN), GraphSAGE, and graph attention network (GAT)--to solve the capacitated vehicle routing problem. We train these neural networks to emulate the decision-making process of the computationally expensive Strong Branching strategy. The neural networks are trained on six instances with distinct topologies from the CVRPLIB and evaluated on eight additional instances. Moreover, we reduced the minimum number of vehicles required to solve a CVRP instance to a bin-packing problem, which was addressed in a similar manner. Through rigorous experimentation, we found that this approach can match or improve upon the performance of the branch and bound algorithm with the Strong Branching strategy while requiring significantly less computational time. The source code that corresponds to our research findings and methodology is readily accessible and available for reference at the following web address: https://isotlaboratory.github.io/ml4vrp
翻訳日:2023-10-18 11:00:45 公開日:2023-10-17
# GPT-4V(ision)は医療応用に有効か? マルチモーダル医療診断のためのgpt-4vのケーススタディ

Can GPT-4V(ision) Serve Medical Applications? Case Studies on GPT-4V for Multimodal Medical Diagnosis ( http://arxiv.org/abs/2310.09909v2 )

ライセンス: Link先を確認
Chaoyi Wu, Jiayu Lei, Qiaoyu Zheng, Weike Zhao, Weixiong Lin, Xiaoman Zhang, Xiao Zhou, Ziheng Zhao, Ya Zhang, Yanfeng Wang and Weidi Xie(参考訳) 大規模なファンデーションモデルによって主導された人工知能の開発は、最近大きな進歩を目の当たりにしており、一般大衆の関心が高まっている。 本研究では,openaiの最新モデルであるgpt-4v(ision)の性能をマルチモーダル医療診断の分野で評価することを目的とした。 Our evaluation encompasses 17 human body systems, including Central Nervous System, Head and Neck, Cardiac, Chest, Hematology, Hepatobiliary, Gastrointestinal, Urogenital, Gynecology, Obstetrics, Breast, Musculoskeletal, Spine, Vascular, Oncology, Trauma, Pediatrics, with images taken from 8 modalities used in daily clinic routine, e.g., X-ray, Computed Tomography (CT), Magnetic Resonance Imaging (MRI), Positron Emission Tomography (PET), Digital Subtraction Angiography (DSA), Mammography, Ultrasound, and Pathology. 画像診断,解剖学的認識,疾患診断,レポート生成,疾患局所化など,特許歴の有無に関わらず,複数の臨床課題においてgpt-4vの能力を調べる。 以上の結果から,GPT-4Vは医用画像モダリティと解剖学を区別する能力を示したが,疾患の診断や包括的報告の獲得には大きな課題があった。 これらの結果は、大規模なマルチモーダルモデルがコンピュータビジョンと自然言語処理に大きな進歩を遂げた一方で、現実の医療応用や臨床的意思決定を効果的にサポートするには程遠いことを示している。 このレポートで使用されるすべての画像はhttps://github.com/chaoyi-wu/GPT-4V_Medical_Evaluationで見ることができる。

Driven by the large foundation models, the development of artificial intelligence has witnessed tremendous progress lately, leading to a surge of general interest from the public. In this study, we aim to assess the performance of OpenAI's newest model, GPT-4V(ision), specifically in the realm of multimodal medical diagnosis. Our evaluation encompasses 17 human body systems, including Central Nervous System, Head and Neck, Cardiac, Chest, Hematology, Hepatobiliary, Gastrointestinal, Urogenital, Gynecology, Obstetrics, Breast, Musculoskeletal, Spine, Vascular, Oncology, Trauma, Pediatrics, with images taken from 8 modalities used in daily clinic routine, e.g., X-ray, Computed Tomography (CT), Magnetic Resonance Imaging (MRI), Positron Emission Tomography (PET), Digital Subtraction Angiography (DSA), Mammography, Ultrasound, and Pathology. We probe the GPT-4V's ability on multiple clinical tasks with or without patent history provided, including imaging modality and anatomy recognition, disease diagnosis, report generation, disease localisation. Our observation shows that, while GPT-4V demonstrates proficiency in distinguishing between medical image modalities and anatomy, it faces significant challenges in disease diagnosis and generating comprehensive reports. These findings underscore that while large multimodal models have made significant advancements in computer vision and natural language processing, it remains far from being used to effectively support real-world medical applications and clinical decision-making. All images used in this report can be found in https://github.com/chaoyi-wu/GPT-4V_Medical_Evaluation.
翻訳日:2023-10-18 11:00:24 公開日:2023-10-17
# 株価予測における最適技術指標の同定のための特徴選択性能の評価

Evaluation of feature selection performance for identification of best effective technical indicators on stock market price prediction ( http://arxiv.org/abs/2310.09903v2 )

ライセンス: Link先を確認
Fatemeh Moodi, Amir Jahangard-Rafsanjani(参考訳) 技術指標を含む多くの要因が株式市場の予測に与える影響から、最適な指標を選択することが特徴選択である。 特徴選択時のモデルの性能を考慮した特徴選択手法の1つは,ラッパー特徴選択法である。 本研究の目的は, 市場価格を最小限の誤差で予測するために, 特徴選択による最高の株式市場指標の組み合わせを特定することである。 株式市場予測におけるラッパーの特徴選択技術の影響を評価するため,Apple社の過去13年間で,10の推定値と123の技術的指標を持つSFSとSBSについて検討した。 また,提案手法により,3日間の時間ウィンドウで作成したデータを回帰法に適した入力に変換した。 1) 各ラッパー特徴選択法は, 異なる機械学習手法で異なる結果が得られ, それぞれの手法は, 株式市場の特定の技術指標とより相関する。 2)リッジとlrの見積もりだけで,ラッパー特徴の選択方法がsfsとsbsの2つで,市場予測のすべての評価基準で最高の結果を得た。 (3) R2, MSE, RMSE, MAE, MAPE のすべてのR2, MSE, MAPEを併用したリッジ・アンド・LR法は, 市場予測に最適である。 また、MLP回帰法はシークエンシャル・フォワード・セレクション(Sequential Forwards Selection)やMSE(MSE)と共に最高のパフォーマンスを示した。 SVRレグレッションは、SFSとMSEとともに、すべての指標でSVRレグレッションよりも大幅に改善されている。 (4) 異なる評価パラメータを持つ異なるML法により異なる特徴が選択されることが観察された。 (5)ほとんどのML手法では、Squeeze_pro, Percentage Price Oscillator, Thermo, Decay, Archer On-Balance Volume, Bollinger Bands, Squeeze,ichimokuが使用されている。

Due to the influence of many factors, including technical indicators on stock market prediction, feature selection is important to choose the best indicators. One of the feature selection methods that consider the performance of models during feature selection is the wrapper feature selection method. The aim of this research is to identify a combination of the best stock market indicators through feature selection to predict the stock market price with the least error. In order to evaluate the impact of wrapper feature selection techniques on stock market prediction, in this paper SFS and SBS with 10 estimators and 123 technical indicators have been examined on the last 13 years of Apple Company. Also, by the proposed method, the data created by the 3-day time window were converted to the appropriate input for regression methods. Based on the results observed: (1) Each wrapper feature selection method has different results with different machine learning methods, and each method is more correlated with a specific set of technical indicators of the stock market. (2) Ridge and LR estimates alone, and with two methods of the wrapper feature selection, namely SFS and SBS; They had the best results with all assessment criteria for market forecast. (3)The Ridge and LR method with all the R2, MSE, RMSE, MAE and MAPE have the best stock market prediction results. Also, the MLP Regression Method, along with the Sequential Forwards Selection and the MSE, had the best performance. SVR regression, along with the SFS and the MSE, has improved greatly compared to the SVR regression with all indicators. (4) It was also observed that different features are selected by different ML methods with different evaluation parameters. (5) Most ML methods have used the Squeeze_pro, Percentage Price Oscillator, Thermo, Decay, Archer On-Balance Volume, Bollinger Bands, Squeeze and Ichimoku indicator.
翻訳日:2023-10-18 10:59:56 公開日:2023-10-17
# 災害管理のためのプロトタイプ指向教師なし変更検出

Prototype-oriented Unsupervised Change Detection for Disaster Management ( http://arxiv.org/abs/2310.09759v2 )

ライセンス: Link先を確認
Youngtack Oh, Minseok Seo, Doyi Kim, Junghoon Seo(参考訳) 気候変動は洪水やサイクロンのような自然災害の頻度を増加させた。 これは効果的な災害監視の重要性を強調している。 これに対し、リモートセンシングコミュニティは変更検出方法を模索している。 これらの手法は主に教師あり技術に分類され、正確な結果を得るが、高いラベル付けコストが伴い、教師なし技術はラベル付けの必要をなくすが、複雑なハイパーパラメータチューニングが伴う。 そこで本研究では,災害管理のための非教師なし変更検出手法であるprototype-oriented unsupervised change detection for disaster managementを提案する。 PUCDは、基本モデルを介して、プレイベント、ポストイベント、プロトタイプ指向の変更合成画像の特徴を比較することで変化を捉え、Segment Anything Model (SAM)を使用して結果を洗練する。 PUCDは教師なしの変更検出であるが、複雑なハイパーパラメータチューニングを必要としない。 我々は, LEVIR-Extensionデータセットと災害データセットのPUCDフレームワークを評価し, LEVIR-Extensionデータセットの他の手法と比較して最先端の性能を実現する。

Climate change has led to an increased frequency of natural disasters such as floods and cyclones. This emphasizes the importance of effective disaster monitoring. In response, the remote sensing community has explored change detection methods. These methods are primarily categorized into supervised techniques, which yield precise results but come with high labeling costs, and unsupervised techniques, which eliminate the need for labeling but involve intricate hyperparameter tuning. To address these challenges, we propose a novel unsupervised change detection method named Prototype-oriented Unsupervised Change Detection for Disaster Management (PUCD). PUCD captures changes by comparing features from pre-event, post-event, and prototype-oriented change synthesis images via a foundational model, and refines results using the Segment Anything Model (SAM). Although PUCD is an unsupervised change detection, it does not require complex hyperparameter tuning. We evaluate PUCD framework on the LEVIR-Extension dataset and the disaster dataset and it achieves state-of-the-art performance compared to other methods on the LEVIR-Extension dataset.
翻訳日:2023-10-18 10:59:21 公開日:2023-10-17
# 意味格子解析による自動音声認識システムにおける文脈認識の改善

Improved Contextual Recognition In Automatic Speech Recognition Systems By Semantic Lattice Rescoring ( http://arxiv.org/abs/2310.09680v2 )

ライセンス: Link先を確認
Ankitha Sudarshan, Vinay Samuel, Parth Patwa, Ibtihel Amara, Aman Chadha(参考訳) 自動音声認識(asr)は大きな研究の関心を集めている。 近年のブレークスルーは、会話エージェントの構築において重要な進歩である音声言語を忠実に翻訳するなど、ASRシステムに異なる見通しを与えている。 しかし、文脈依存の単語や句を正確に識別するという課題はいまだに差し迫っている。 本研究では,多種多様な語彙や話し言葉の書き起こしを正確に配信する深層学習モデルの力を活用した意味的格子処理により,ASRシステム内の文脈認識を強化する新しい手法を提案する。 提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,より高精度な言語モデルと音響モデルを統合する。 我々は,変換器モデルを用いて,単語誤り率(WER)を低下させることで,単語格子が優れた能力を発揮することを適切に評価した。 実験分析により,提案フレームワークがlibrispeechデータセット上で有効であることを示す。

Automatic Speech Recognition (ASR) has witnessed a profound research interest. Recent breakthroughs have given ASR systems different prospects such as faithfully transcribing spoken language, which is a pivotal advancement in building conversational agents. However, there is still an imminent challenge of accurately discerning context-dependent words and phrases. In this work, we propose a novel approach for enhancing contextual recognition within ASR systems via semantic lattice processing leveraging the power of deep learning models in accurately delivering spot-on transcriptions across a wide variety of vocabularies and speaking styles. Our solution consists of using Hidden Markov Models and Gaussian Mixture Models (HMM-GMM) along with Deep Neural Networks (DNN) models integrating both language and acoustic modeling for better accuracy. We infused our network with the use of a transformer-based model to properly rescore the word lattice achieving remarkable capabilities with a palpable reduction in Word Error Rate (WER). We demonstrate the effectiveness of our proposed framework on the LibriSpeech dataset with empirical analyses.
翻訳日:2023-10-18 10:59:04 公開日:2023-10-17
# 数式生成のための表現木デコード戦略

An Expression Tree Decoding Strategy for Mathematical Equation Generation ( http://arxiv.org/abs/2310.09619v2 )

ライセンス: Link先を確認
Wenqi Zhang, Yongliang Shen, Qingpeng Nong, Zeqi Tan Yanna Ma, Weiming Lu(参考訳) 自然言語から数学的方程式を生成するには、式間の関係を正確に理解する必要がある。 既存のアプローチはトークンレベルと式レベルの生成に大まかに分類できる。 前者は方程式を数学的言語として扱い、連続して数学トークンを生成する。 式レベルメソッドは、各式を1つずつ生成する。 しかしながら、各式は解決ステップを表しており、これらのステップの間に自然に平行あるいは依存的な関係が存在し、これは現在のシーケンシャルな方法によって無視される。 そこで,木構造を表現レベル生成に統合し,表現ツリー復号戦略を提唱する。 各層で複数の独立した式(リーフノード)を並列にデコードし、レイヤ毎に並列デコード層を繰り返して、他の層に依存するこれらの親ノード式を順次生成する。 さらに、複数の予測を各レイヤのアノテーションに合わせるために、二部マッチングアルゴリズムが採用されている。 実験により, 複素構造を持つこれらの方程式に対して, 本手法は他のベースラインよりも優れることが示された。

Generating mathematical equations from natural language requires an accurate understanding of the relations among math expressions. Existing approaches can be broadly categorized into token-level and expression-level generation. The former treats equations as a mathematical language, sequentially generating math tokens. Expression-level methods generate each expression one by one. However, each expression represents a solving step, and there naturally exist parallel or dependent relations between these steps, which are ignored by current sequential methods. Therefore, we integrate tree structure into the expression-level generation and advocate an expression tree decoding strategy. To generate a tree with expression as its node, we employ a layer-wise parallel decoding strategy: we decode multiple independent expressions (leaf nodes) in parallel at each layer and repeat parallel decoding layer by layer to sequentially generate these parent node expressions that depend on others. Besides, a bipartite matching algorithm is adopted to align multiple predictions with annotations for each layer. Experiments show our method outperforms other baselines, especially for these equations with complex structures.
翻訳日:2023-10-18 10:58:52 公開日:2023-10-17
# Reward-Augmented Decoding:一方向リワードモデルによる効率的なテキスト生成

Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model ( http://arxiv.org/abs/2310.09520v2 )

ライセンス: Link先を確認
Haikang Deng, Colin Raffel(参考訳) 大規模な言語モデルは、ダウンストリームアプリケーションで効果的であることが証明されているが、しばしば問題のあるテキストを生成したり、望ましい属性を欠いたりする。 本稿では,小さな一方向報酬モデルを用いたテキスト生成手法であるReward-Augmented Decoding(RAD)を紹介する。 具体的には、RADは報酬モデルを使用して、生成した世代をスコアし、サンプリング確率を再スケールし、ハイリワードトークンを好む。 一方向の報酬モデルを使用することで、RADは前世代からのアクティベーションをキャッシュすることで、計算オーバーヘッドを低減できる。 非有毒で感情制御されたテキストを生成する実験を通じて、radは生成手順のみを変更し、言語モデルの再学習を伴う最先端のメソッドのパフォーマンスに合致する手法の中で最高の性能を示す。 さらに、RADは計算オーバーヘッドを最小限に抑えつつ、非常に大きな言語モデルに有効であることを示す。

While large language models have proven effective in a huge range of downstream applications, they often generate text that is problematic or lacks a desired attribute. In this paper, we introduce Reward-Augmented Decoding (RAD), a text generation procedure that uses a small unidirectional reward model to encourage a language model to generate text that has certain properties. Specifically, RAD uses the reward model to score generations as they are produced and rescales sampling probabilities to favor high-reward tokens. By using a unidirectional reward model, RAD can cache activations from prior generation steps to decrease computational overhead. Through experiments on generating non-toxic and sentiment-controlled text, we demonstrate that RAD performs best among methods that change only the generation procedure and matches the performance of state-of-the-art methods that involve re-training the language model. We further validate that RAD is effective on very large language models while incurring a minimal computational overhead.
翻訳日:2023-10-18 10:58:36 公開日:2023-10-17
# Mirage: グラフ分類のためのモデル非依存グラフ蒸留

Mirage: Model-Agnostic Graph Distillation for Graph Classification ( http://arxiv.org/abs/2310.09486v2 )

ライセンス: Link先を確認
Mridul Gupta and Sahil Manchanda and Hariprasad Kodamana and Sayan Ranu(参考訳) 他のディープラーニングモデルと同様、GNNもデータと計算に飢えている。 低リソース環境での使用を可能にするため、大規模なデータセット上でGNNのトレーニングをスケールする必要がある。 グラフ蒸留は、モデル性能を著しく損なうことなく、元のトレーニングデータからより小さな合成訓練セットを構築することを目的としている。 1)既存のグラフ蒸留アルゴリズム自体が、グラフ蒸留の前提を損なう完全なデータセットによるトレーニングに依存している。 2) 蒸留プロセスは, ターゲットのGNNアーキテクチャやハイパーパラメータに特有であり, モデリングパイプラインの変化に対して堅牢ではない。 グラフ分類のためのMirageと呼ばれる蒸留アルゴリズムを設計することで,これらの制限を回避する。 MirageはメッセージパスGNNが入力グラフを複数の計算ツリーに分解するという知見に基づいて構築されている。 さらに, 計算木の周波数分布は自然に歪んでいて, このデータを簡潔な蒸留要約にまとめることができる。 計算データ自体を圧縮することにより、元のトレーニングセット上の勾配流をエミュレートする代わりに、日付ミレージ変換を教師なしかつアーキテクチャに依存しない蒸留アルゴリズムに変換する。 実世界のデータセットに対する広範囲なベンチマークは、Mirageの優位性を強調し、最先端のベースラインと比較して、一般化の正確さ、データ圧縮、蒸留効率の向上を示している。

GNNs, like other deep learning models, are data and computation hungry. There is a pressing need to scale training of GNNs on large datasets to enable their usage on low-resource environments. Graph distillation is an effort in that direction with the aim to construct a smaller synthetic training set from the original training data without significantly compromising model performance. While initial efforts are promising, this work is motivated by two key observations: (1) Existing graph distillation algorithms themselves rely on training with the full dataset, which undermines the very premise of graph distillation. (2) The distillation process is specific to the target GNN architecture and hyper-parameters and thus not robust to changes in the modeling pipeline. We circumvent these limitations by designing a distillation algorithm called Mirage for graph classification. Mirage is built on the insight that a message-passing GNN decomposes the input graph into a multiset of computation trees. Furthermore, the frequency distribution of computation trees is often skewed in nature, enabling us to condense this data into a concise distilled summary. By compressing the computation data itself, as opposed to emulating gradient flows on the original training set-a prevalent approach to date-Mirage transforms into an unsupervised and architecture-agnostic distillation algorithm. Extensive benchmarking on real-world datasets underscores Mirage's superiority, showcasing enhanced generalization accuracy, data compression, and distillation efficiency when compared to state-of-the-art baselines.
翻訳日:2023-10-18 10:58:18 公開日:2023-10-17
# 分布外論理推論課題における大規模言語モデルの体系的評価

A Systematic Evaluation of Large Language Models on Out-of-Distribution Logical Reasoning Tasks ( http://arxiv.org/abs/2310.09430v2 )

ライセンス: Link先を確認
Qiming Bao, Gael Gendron, Alex Yuxuan Peng, Wanjun Zhong, Neset Tan, Yang Chen, Michael Witbrock, Jiamou Liu(参考訳) GPT-3.5やGPT-4のような大規模言語モデル(LLM)は、様々な自然言語処理タスクにおける人工システムの性能を大幅に向上させた。 しかし、論理的な推論を行うための一般化と堅牢性は未評価のままである。 この能力を探索するために,まずランダムにシャッフルされた選択肢の1つ,第2の選択肢が正しい選択肢の1つに置き換わる「ReClor-plus」「LogiQA-plus」「LogiQAv2-plus」という3つの新しい論理的推論データセットと,それ以前の2つのサブセットの組み合わせを提案する。 識別と生成の両方でこれらのデータセットの実験を行い、これらの単純なトリックが言語モデルの性能を著しく損なうことを示す。 オリジナルの公開データセットでのパフォーマンスは優れていますが、私たちはすべてのモデルが新しく構築されたデータセットに答えるのに苦労しています。 本研究では,相当量のトレーニング集合を摂動させることで,論理推論タスクにおけるモデルの一般化とロバスト性が著しく向上することを示す。 さらに、微調整に論理駆動データ拡張を適用すると、プロンプトと組み合わせることで、判別型大言語モデルと生成型大言語モデルの双方の一般化性能が向上する。 これらの結果は、論理推論タスクのための大規模言語モデルの一般化と堅牢性の評価と改善に関する洞察を提供する。 ソースコードとデータは \url{https://github.com/strong-ai-lab/logical-and-abstract-reasoning} で公開しています。

Large language models (LLMs), such as GPT-3.5 and GPT-4, have greatly advanced the performance of artificial systems on various natural language processing tasks to human-like levels. However, their generalisation and robustness to perform logical reasoning remain under-evaluated. To probe this ability, we propose three new logical reasoning datasets named "ReClor-plus", "LogiQA-plus" and "LogiQAv2-plus", each featuring three subsets: the first with randomly shuffled options, the second with the correct choices replaced by "none of the other options are correct", and a combination of the previous two subsets. We carry out experiments on these datasets with both discriminative and generative LLMs and show that these simple tricks greatly hinder the performance of the language models. Despite their superior performance on the original publicly available datasets, we find that all models struggle to answer our newly constructed datasets. We show that introducing task variations by perturbing a sizable training set can markedly improve the model's generalisation and robustness in logical reasoning tasks. Moreover, applying logic-driven data augmentation for fine-tuning, combined with prompting can enhance the generalisation performance of both discriminative large language models and generative large language models. These results offer insights into assessing and improving the generalisation and robustness of large language models for logical reasoning tasks. We make our source code and data publicly available \url{https://github.com/Strong-AI-Lab/Logical-and-abstract-reasoning}.
翻訳日:2023-10-18 10:57:52 公開日:2023-10-17
# ワッサーシュタインラグランジアン流れを解くための計算フレームワーク

A Computational Framework for Solving Wasserstein Lagrangian Flows ( http://arxiv.org/abs/2310.10649v2 )

ライセンス: Link先を確認
Kirill Neklyudov, Rob Brekelmans, Alexander Tong, Lazar Atanackovic, Qiang Liu, Alireza Makhzani(参考訳) 最適輸送の動的定式化は、基礎となる幾何(\textit{kinetic energy}$)と密度経路の正規化(\textit{potential energy}$)の様々な選択を通して拡張することができる。 これらの組み合わせは異なる変分問題("\textit{Lagrangians}$")をもたらし、シュリンガー橋、不均衡の最適輸送、物理的制約のある最適輸送など、最適な輸送問題の多くのバリエーションを含んでいる。 一般に、最適密度経路は未知であり、これらの変動問題の解法は計算的に困難である。 そこで,ラグランジアンの二重定式化を活かし,これらすべての問題に対して統一的な視点からアプローチする新しい深層学習型フレームワークを提案する。 本手法では,学習力学の軌跡をシミュレーションしたり逆伝播したりする必要はなく,最適結合へのアクセスは不要である。 本稿では, 単一セル軌道推定における従来の手法よりも優れた手法として, 従来の知識を動的に組み込むことが, 正しい予測に不可欠であることを示す。

The dynamical formulation of the optimal transport can be extended through various choices of the underlying geometry ($\textit{kinetic energy}$), and the regularization of density paths ($\textit{potential energy}$). These combinations yield different variational problems ($\textit{Lagrangians}$), encompassing many variations of the optimal transport problem such as the Schr\"odinger bridge, unbalanced optimal transport, and optimal transport with physical constraints, among others. In general, the optimal density path is unknown, and solving these variational problems can be computationally challenging. Leveraging the dual formulation of the Lagrangians, we propose a novel deep learning based framework approaching all of these problems from a unified perspective. Our method does not require simulating or backpropagating through the trajectories of the learned dynamics, and does not need access to optimal couplings. We showcase the versatility of the proposed framework by outperforming previous approaches for the single-cell trajectory inference, where incorporating prior knowledge into the dynamics is crucial for correct predictions.
翻訳日:2023-10-18 10:48:37 公開日:2023-10-17
# 二次元計測エントロピー生成とモジュラー理論に関する一考察

A note on two-times measurement entropy production and modular theory ( http://arxiv.org/abs/2310.10582v2 )

ライセンス: Link先を確認
Tristan Benoist and Laurent Bruneau and Vojkan Jaksic and Annalisa Panati and Claude-Alain Pillet(参考訳) 量子統計力学における2回測定エントロピー生成(2TMEP)に関する最近の理論的研究は、量子力学的確率則の数学と物理学に新たな光を当てている。 注目すべき発展としては、量子領域へのエントロピーゆらぎ関係の拡張、2TMEPと作用素代数のモジュラー理論の間の深いリンクの発見がある。 これらすべての展開は、最初の測定の瞬間におけるシステムの状態がエントロピー生成を測定する状態と同じであるような設定に関するものである。 この研究では、これらの2つの状態が異なる場合を考え、より一般的な 2temp をモジュラー理論に結びつける。 確立された接続により、一般のエルゴード性仮定の下では、2TEMPは、第1の測定によって引き起こされるデコヒーレンス効果により、第1の測定の瞬間に系の状態の選択から本質的に独立であることを示すことができる。 この安定性は量子エントロピー生成の概念、特に有名な古典ガラヴォッティ-コーエンゆらぎ理論の量子定式化について新しい光を放ち、この研究の継続について研究される。

Recent theoretical investigations of the two-times measurement entropy production (2TMEP) in quantum statistical mechanics have shed a new light on the mathematics and physics of the quantum-mechanical probabilistic rules. Among notable developments are the extensions of entropic fluctuation relations to quantum domain and discovery of a deep link between 2TMEP and modular theory of operator algebras. All these developments concerned the setting where the state of the system at the instant of the first measurement is the same as the state whose entropy production is measured. In this work we consider the case where these two states are different and link this more general 2TEMP to modular theory. The established connection allows us to show that under general ergodicity assumptions the 2TEMP is essentially independent of the choice of the system state at the instant of the first measurement due to a decoherence effect induced by the first measurement. This stability sheds a new light on the concept of quantum entropy production, and, in particular, on possible quantum formulations of the celebrated classical Gallavotti--Cohen Fluctuation Theorem which will be studied in the continuation of this work.
翻訳日:2023-10-18 10:48:16 公開日:2023-10-17
# tacticai: サッカー戦術のためのaiアシスタント

TacticAI: an AI assistant for football tactics ( http://arxiv.org/abs/2310.10553v2 )

ライセンス: Link先を確認
Zhe Wang, Petar Veli\v{c}kovi\'c, Daniel Hennes, Nenad Toma\v{s}ev, Laurel Prince, Michael Kaisers, Yoram Bachrach, Romuald Elie, Li Kevin Wenliang, Federico Piccinini, William Spearman, Ian Graham, Jerome Connor, Yi Yang, Adri\`a Recasens, Mina Khan, Nathalie Beauguerlange, Pablo Sprechmann, Pol Moreno, Nicolas Heess, Michael Bowling, Demis Hassabis, Karl Tuyls(参考訳) ライバルチームが実施した戦術の重要なパターンを特定し、効果的な反応を開発することは、現代のサッカーの核心にある。 しかし、アルゴリズムは依然としてオープンな研究課題である。 この課題に対処するために,リバプールFCのドメインエキスパートと緊密に連携して開発されたAIフットボール戦術アシスタントTacticAIを提案する。 コーチに最も直接的な介入と改善の機会を提供するため、コーナーキックの分析に集中しています。 TacticAIには予測コンポーネントと生成コンポーネントの両方が組み込まれており、コーチは各コーナーキックルーチンの代替プレイヤー設定を効果的にサンプリングし、探索し、最も高い確率で成功する確率で選択することができる。 我々はTacticAIを,レシーバの予測やショット試行,プレイヤー位置調整の推奨など,関連する多くのベンチマークタスクで検証する。 TacticAIの実用性は、リバプールFCのサッカー分野の専門家による質的研究によって検証されている。 我々は,TacticAIのモデル提案が実際の戦術と区別できないだけでなく,既存の戦術よりも90%の時間で有利であり,TacticAIが効果的なコーナーキック検索システムを提供していることを示す。 TacticAIは、金標準データの入手が限られているにもかかわらず、これらの結果を達成する。

Identifying key patterns of tactics implemented by rival teams, and developing effective responses, lies at the heart of modern football. However, doing so algorithmically remains an open research challenge. To address this unmet need, we propose TacticAI, an AI football tactics assistant developed and evaluated in close collaboration with domain experts from Liverpool FC. We focus on analysing corner kicks, as they offer coaches the most direct opportunities for interventions and improvements. TacticAI incorporates both a predictive and a generative component, allowing the coaches to effectively sample and explore alternative player setups for each corner kick routine and to select those with the highest predicted likelihood of success. We validate TacticAI on a number of relevant benchmark tasks: predicting receivers and shot attempts and recommending player position adjustments. The utility of TacticAI is validated by a qualitative study conducted with football domain experts at Liverpool FC. We show that TacticAI's model suggestions are not only indistinguishable from real tactics, but also favoured over existing tactics 90% of the time, and that TacticAI offers an effective corner kick retrieval system. TacticAI achieves these results despite the limited availability of gold-standard data, achieving data efficiency through geometric deep learning.
翻訳日:2023-10-18 10:48:00 公開日:2023-10-17
# アフィニティ伝播によるラベル効率の高いセグメンテーション

Label-efficient Segmentation via Affinity Propagation ( http://arxiv.org/abs/2310.10533v2 )

ライセンス: Link先を確認
Wentong Li, Yuqian Yuan, Song Wang, Wenyu Liu, Dongqi Tang, Jian Liu, Jianke Zhu, Lei Zhang(参考訳) ラベル効率の低いスパースアノテーションによる弱教師付きセグメンテーションは、手間のかかるピクセルワイドラベリングプロセスのコストを削減するために研究の注目を集め、一方、ペアワイドアフィニティモデリング技術はこのタスクにおいて重要な役割を担っている。 既存のアプローチのほとんどは、近傍のペアワイズポテンシャルのモデル化にローカルな外観カーネルを使うことに重点を置いている。 しかし、そのようなローカル操作は長距離の依存関係を捉えることができず、オブジェクトのトポロジを無視する。 本研究では,親和性モデリングを親和性伝播プロセスとして定式化し,局所的および大域的親和性項を提案し,正確なソフト擬似ラベルを生成する。 計算コストを大幅に削減する効率的なアルゴリズムも開発されている。 提案手法は,既存のセグメンテーションネットワークに容易に接続できる。 例えば、box-supervised instance segmentation、point/scribble-supervised semantic segmentation、 clip-guided semantic segmentationの3つの典型的なラベル効率の良いセグメンテーションタスクの実験は、提案手法の優れた性能を示している。

Weakly-supervised segmentation with label-efficient sparse annotations has attracted increasing research attention to reduce the cost of laborious pixel-wise labeling process, while the pairwise affinity modeling techniques play an essential role in this task. Most of the existing approaches focus on using the local appearance kernel to model the neighboring pairwise potentials. However, such a local operation fails to capture the long-range dependencies and ignores the topology of objects. In this work, we formulate the affinity modeling as an affinity propagation process, and propose a local and a global pairwise affinity terms to generate accurate soft pseudo labels. An efficient algorithm is also developed to reduce significantly the computational cost. The proposed approach can be conveniently plugged into existing segmentation networks. Experiments on three typical label-efficient segmentation tasks, i.e. box-supervised instance segmentation, point/scribble-supervised semantic segmentation and CLIP-guided semantic segmentation, demonstrate the superior performance of the proposed approach.
翻訳日:2023-10-18 10:47:38 公開日:2023-10-17
# remax: 大きな言語モデルを調整するためのシンプルで効果的で効率的な強化学習法

ReMax: A Simple, Effective, and Efficient Reinforcement Learning Method for Aligning Large Language Models ( http://arxiv.org/abs/2310.10505v2 )

ライセンス: Link先を確認
Ziniu Li, Tian Xu, Yushun Zhang, Yang Yu, Ruoyu Sun, Zhi-Quan Luo(参考訳) アライメントは、大きな言語モデル(LLM)のトレーニングにおいて重要である。 この問題に対処する主要な戦略は、PPOがデファクトアルゴリズムとして機能するReinforcement Learning from Human Feedback (RLHF)である。 しかし、PPOは計算不効率に悩まされていることが知られており、これは本論文が目指す課題である。 PPOでは利用できない高速シミュレーション,決定論的遷移,軌道レベルの報酬の3つの重要な特性を同定する。 このような観測に基づいて,ReMaxと呼ばれるRLHFに適した新しいアルゴリズムを開発した。 remaxのアルゴリズム設計は有名なアルゴリズム強化に基づいているが、新しい分散還元技術を備えている。 提案手法はPPOに対して3倍の利点がある: まず、ReMaxは実装が簡単で、PPOの多くのハイパーパラメータを除去する。 第二に、ReMaxは原則として約50%のメモリ使用量を節約する。 その結果、PPO は 8xA100-40GB GPU 上で Llama2 (7B) モデルを微調整するとメモリ不足となる。 このメモリ改善は、PPOの値モデルを削除することにより達成される。 第3に、我々の計算から、PPOがLlama2 (7B)の訓練を受けることができると仮定しても、ReMaxより約2倍遅いことが分かる。 これはReMaxには存在しない値モデルの計算オーバーヘッドが原因である。 重要なことに、上記の計算改善は性能を犠牲にしない。 より大規模なモデルでこれらの利点を維持できると仮定する。 ReMaxの実装はhttps://github.com/liziniu/ReMaxで利用可能です。

Alignment is of critical importance for training large language models (LLMs). The predominant strategy to address this is through Reinforcement Learning from Human Feedback (RLHF), where PPO serves as the de-facto algorithm. Yet, PPO is known to suffer from computational inefficiency, which is a challenge that this paper aims to address. We identify three important properties in RLHF tasks: fast simulation, deterministic transitions, and trajectory-level rewards, which are not leveraged in PPO. Based on such observations, we develop a new algorithm tailored for RLHF, called ReMax. The algorithm design of ReMax is built on a celebrated algorithm REINFORCE but is equipped with a new variance-reduction technique. Our method has three-fold advantages over PPO: first, ReMax is simple to implement and removes many hyper-parameters in PPO, which are scale-sensitive and laborious to tune. Second, ReMax saves about 50% memory usage in principle. As a result, PPO runs out-of-memory when fine-tuning a Llama2 (7B) model on 8xA100-40GB GPUs, whereas ReMax can afford training. This memory improvement is achieved by removing the value model in PPO. Third, based on our calculations, we find that even assuming PPO can afford the training of Llama2 (7B), it would still run about 2x slower than ReMax. This is due to the computational overhead of the value model, which does not exist in ReMax. Importantly, the above computational improvements do not sacrifice the performance. We hypothesize these advantages can be maintained in larger-scaled models. Our implementation of ReMax is available at https://github.com/liziniu/ReMax
翻訳日:2023-10-18 10:47:13 公開日:2023-10-17
# 聴覚選択的聴覚機構を用いたターゲット話者の定位

LocSelect: Target Speaker Localization with an Auditory Selective Hearing Mechanism ( http://arxiv.org/abs/2310.10497v2 )

ライセンス: Link先を確認
Yu Chen, Xinyuan Qian, Zexu Pan, Kainan Chen, Haizhou Li(参考訳) 雑音耐性および残響耐性のローカライゼーションアルゴリズムは,話者の同一性に関係なく,多話者シナリオにおける話者毎の方向出力の分離と提供を重視している。 本稿では,選択的補聴器を用いたターゲット話者定位アルゴリズムを提案する。 対象話者の参照音声が与えられた場合、まず話者依存スペクトログラムマスクを作成し、干渉話者の音声を除去する。 その後、Long Short-term memory(LSTM)ネットワークを用いて、フィルタされた分光図からターゲット話者の位置を抽出する。 実験により,SNR条件下での既存アルゴリズムと比較して,提案手法の優位性を検証した。 具体的には、SNR = -10 dB において、提案するネットワーク LocSelect は平均絶対誤差(MAE)が 3.55 で精度(ACC)が 87.40% である。

The prevailing noise-resistant and reverberation-resistant localization algorithms primarily emphasize separating and providing directional output for each speaker in multi-speaker scenarios, without association with the identity of speakers. In this paper, we present a target speaker localization algorithm with a selective hearing mechanism. Given a reference speech of the target speaker, we first produce a speaker-dependent spectrogram mask to eliminate interfering speakers' speech. Subsequently, a Long short-term memory (LSTM) network is employed to extract the target speaker's location from the filtered spectrogram. Experiments validate the superiority of our proposed method over the existing algorithms for different scale invariant signal-to-noise ratios (SNR) conditions. Specifically, at SNR = -10 dB, our proposed network LocSelect achieves a mean absolute error (MAE) of 3.55 and an accuracy (ACC) of 87.40%.
翻訳日:2023-10-18 10:46:44 公開日:2023-10-17
# 暗号資産規制のためのNLP:ロードマップ

NLP for Crypto-Asset Regulation: A Roadmap ( http://arxiv.org/abs/2310.10333v2 )

ライセンス: Link先を確認
Carolina Camassa(参考訳) 暗号資産の急速に発展する分野では、ホワイトペーパーは投資家の指導に欠かせない文書であり、現在はEUの暗号資産規制(MiCAR)の下で前例のない内容の要求を受けている。 自然言語処理は、これらの文書の分析と規制の遵守を支援する強力なツールとなり得る。 本稿ではこの話題に2つの貢献をする。 まず,無規制の暗号解読白書に対するテキスト解析の既存の応用を調査し,学際的コラボレーションに橋渡しできる研究のギャップを明らかにする。 次に、MiCARが導入した変更を分析し、新しい規制フレームワークにNLPを統合する機会と課題を強調します。 この発見はさらなる研究の舞台となり、規制当局、暗号通貨発行者、投資家に利益をもたらす可能性がある。

In the rapidly evolving field of crypto-assets, white papers are essential documents for investor guidance, and are now subject to unprecedented content requirements under the EU's Markets in Crypto-Assets Regulation (MiCAR). Natural Language Processing can serve as a powerful tool for both analyzing these documents and assisting in regulatory compliance. This paper delivers two contributions to the topic. First, we survey existing applications of textual analysis to unregulated crypto-asset white papers, uncovering a research gap that could be bridged with interdisciplinary collaboration. We then conduct an analysis of the changes introduced by MiCAR, highlighting the opportunities and challenges of integrating NLP within the new regulatory framework. The findings set the stage for further research, with the potential to benefit regulators, crypto-asset issuers, and investors.
翻訳日:2023-10-18 10:46:28 公開日:2023-10-17
# MoConVQ: スケーラブル離散表現による統一物理に基づく運動制御

MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete Representations ( http://arxiv.org/abs/2310.10198v2 )

ライセンス: Link先を確認
Heyuan Yao, Zhenhua Song, Yuyang Zhou, Tenglong Ao, Baoquan Chen, Libin Liu(参考訳) 本稿では,スケーラブルな離散表現を用いた物理ベースの運動制御のための新しい統一フレームワークであるmoconvqを提案する。 ベクトル量子化変分オートエンコーダ(vq-vae)とモデルに基づく強化学習に基づいて,数万時間の動作例にまたがる大規模非構造化データセットからの動作埋め込みを効果的に学習する。 結果として得られるモーション表現は、多様なモーションスキルをキャプチャするだけでなく、さまざまなアプリケーションに対して堅牢で直感的なインターフェースを提供する。 様々なモーションソースからのユニバーサルトラッキング制御、教師付き学習を用いた潜在モーション表現による対話型文字制御、gptフレームワークを用いた自然言語記述からの物理ベースのモーション生成、そして最も興味深いのは、複雑で抽象的なタスクに取り組むためのコンテキスト内学習を備えた大規模言語モデル(llm)とのシームレスな統合である。

In this work, we present MoConVQ, a novel unified framework for physics-based motion control leveraging scalable discrete representations. Building upon vector quantized variational autoencoders (VQ-VAE) and model-based reinforcement learning, our approach effectively learns motion embeddings from a large, unstructured dataset spanning tens of hours of motion examples. The resultant motion representation not only captures diverse motion skills but also offers a robust and intuitive interface for various applications. We demonstrate the versatility of MoConVQ through several applications: universal tracking control from various motion sources, interactive character control with latent motion representations using supervised learning, physics-based motion generation from natural language descriptions using the GPT framework, and, most interestingly, seamless integration with large language models (LLMs) with in-context learning to tackle complex and abstract tasks.
翻訳日:2023-10-18 10:46:13 公開日:2023-10-17
# AutoDIR: 遅延拡散によるオールインワン画像の自動復元

AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion ( http://arxiv.org/abs/2310.10123v2 )

ライセンス: Link先を確認
Yitong Jiang, Zhaoyang Zhang, Tianfan Xue and Jinwei Gu(参考訳) 本稿では,ある画像が未知の劣化を生じさせる複雑な実世界の画像復元状況を解決することを目的とする。 そこで本研究では,複数の未知の劣化を自動的に検出し対処できる,潜在拡散(autodir)を備えたオールインワン画像復元フレームワークを提案する。 まず,ブラインド画像品質評価モジュール(biqa)を用いて,画像の未知の支配的画像劣化型の自動検出と同定を行う。 次に、オールインワンイメージリファインメント(AIR)モジュールは、BIQAのガイダンスにより、複数の種類の劣化画像復元を処理する。 最後に,AIRで歪んだ画像の復元のために,SCM(Structure Correction Module)を提案する。 総合的な評価から,autodirはより広い範囲のタスクをサポートしながら,優れた修復結果を達成し,最先端のアプローチに勝ることが示された。 特にAutoDIRは、複数の未知の劣化を伴う実シナリオイメージを自動的に処理する最初の方法でもある。

In this paper, we aim to solve complex real-world image restoration situations, in which, one image may have a variety of unknown degradations. To this end, we propose an all-in-one image restoration framework with latent diffusion (AutoDIR), which can automatically detect and address multiple unknown degradations. Our framework first utilizes a Blind Image Quality Assessment Module (BIQA) to automatically detect and identify the unknown dominant image degradation type of the image. Then, an All-in-One Image Refinement (AIR) Module handles multiple kinds of degradation image restoration with the guidance of BIQA. Finally, a Structure Correction Module (SCM) is proposed to recover the image details distorted by AIR. Our comprehensive evaluation demonstrates that AutoDIR outperforms state-of-the-art approaches by achieving superior restoration results while supporting a wider range of tasks. Notably, AutoDIR is also the first method to automatically handle real-scenario images with multiple unknown degradations.
翻訳日:2023-10-18 10:45:56 公開日:2023-10-17
# TransOM: LLM訓練のための高効率耐故障性システム

TRANSOM: An Efficient Fault-Tolerant System for Training LLMs ( http://arxiv.org/abs/2310.10046v2 )

ライセンス: Link先を確認
Baodong Wu, Lei Xia, Qingping Li, Kangyu Li, Xu Chen, Yongqiang Guo, Tieyao Xiang, Yuheng Chen, Shigang Li(参考訳) chatgptで例示される大規模な言語モデル(llm)は、さまざまな領域で大きな進歩を遂げており、数十億、あるいは数十兆のパラメータを持つllmは、私たちの日常生活に革命をもたらし続けることを示唆している。 しかし、そのような超大規模モデルのトレーニングには、より強力なGPUクラスタと数ヶ月間のトレーニング期間が要求される。 断続的かつ長期にわたるトレーニングの維持は、これらの広範なクラスタでハードウェアとソフトウェアの障害のため、非常に困難になっている。 本研究は, 省力化, 省力化, 省力化, アナノマリ検出, 再起動などのタスクに相当量のトレーニング時間を費やし, 総合訓練効率の大幅な低下を招き, これらの課題に対処するために, TransOM という新しいフォールトトレラントな大規模モデルトレーニングシステムを導入する。 本システムは、トレーニングパイプライン自動耐故障回復機構(TOL)、トレーニングタスク多次元メートル法自動異常検出システム(TEE)、トレーニングチェックポイント非同期アクセス自動耐故障回復技術(TCE)の3つの統合コンポーネントから構成される。 ここで、TOLはトレーニングタスクのオペレーティングシステムとして機能し、TEEはタスクの監視とエラー処理を担当し、即座に異常を検出してTOLにリレーする。 その後、TOLはトレーニングタスクのフォールトトレランス戦略を自律的に決定、実装し、TEはフォールトトレランスプロセス中に非同期チェックポイントの保存とロードを容易にする。 実験結果から,TransOMはクラスタ上での大規模LLMトレーニングの効率を著しく向上させることが示された。 具体的には, GPT3-175Bの事前学習時間を28%削減し, チェックポイントの保存およびロード性能は20。

Large language models (LLMs), exemplified by chatGPT, have made significant strides in various domains, indicating that LLMs with hundreds of billions or even trillions of parameters will continue to revolutionize our daily lives. However, training such super-large-scale models demands even more powerful GPU clusters and extended training periods spanning months. Maintaining uninterrupted and long-duration training has become exceptionally challenging due to hardware and software failures in these extensive clusters. A substantial amount of training time is devoted to tasks checkpointing saving and loading, ananomaly detection and restarts, leading to a notable reduction in overall training efficiency.To address these challenges, we introduce novel fault-tolerant large-scale model training system named TRANSOM. This system comprises three integral components: the training pipeline automatic fault tolerance and recovery mechanism (TOL), the training task multi-dimensional metric automatic anomaly detection system (TEE), and the training checkpoint asynchronous access automatic fault tolerance and recovery technology (TCE). Here, TOL serves as the operating system for the training task, while TEE is responsible for task monitoring and error handling, promptly detecting anomalies and relaying them to TOL. Subsequently, TOL autonomously determines and implements fault tolerance strategies for the training task, with the TCE facilitating asynchronous checkpoint saving and loading during the fault tolerance process. The experimental results indicate that TRANSOM significantly enhances the efficiency of large-scale LLM training on clusters. Specifically, the pre-training time for GPT3-175B has been reduced by 28%, while checkpoint saving and loading performance have improved by a factor of 20.
翻訳日:2023-10-18 10:45:40 公開日:2023-10-17