このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20231026となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# ソリスティックNetwOrk設計と解析のための多層環境とツールチェーン
Multilayer Environment and Toolchain for Holistic NetwOrk Design and Analysis ( http://arxiv.org/abs/2310.16190v2 ) ライセンス: Link先を確認 | Filip Rezabek, Kilian Glas, Richard von Seck, Achraf Aroua, Tizian Leonhardt, Georg Carle, | (参考訳) 分散台帳技術とブロックチェーンの最近の開発と研究は、分散システムの採用の増加に寄与している。
システムの振る舞いに関する関連する知見を収集するため,テストスループットに基づくシステムを中心に,多くの評価フレームワークを観察する。
しかしながら、これらのフレームワークは、特に分散アプリケーションの層間アプローチを採用する際に、より包括性と汎用性を必要とすることが多い。
本研究は分散システム評価の要件を詳細に分析する。
我々はこれらの知見を, MethodA と呼ばれる構造化された方法論と実験フレームワークにまとめる。
当社のアプローチでは,分散システムの広い範囲のセットアップと評価を重視し,注目すべき研究ギャップに対処する。
4つの異なるシステムとその相互作用を評価し、8つの慎重に選択されたメトリクスと12の必須パラメータの多様なセットを活用することにより、フレームワークの有効性を実証する。
実験と分析を通じて、さまざまなユースケースにまたがって価値ある洞察を提供するフレームワークの機能を示します。
例えば,Trusted Execution Environmentsとしきい値シグネチャスキームFROSTの組み合わせは,SI{40}{\ms} あたりの平均遅延を最小限に抑える。
本稿では,現実的なシステム行動のエミュレーションを紹介する。例えば,最大抽出可能な値が可能であり,そのようなダイナミクスをさらにモデル化するために使用できる。
METHODAフレームワークは分散システムのより深い理解を可能にし、現代のコンピューティングインフラの複雑な景観をナビゲートする研究者や実践者にとって強力なツールである。
The recent developments and research in distributed ledger technologies and blockchain have contributed to the increasing adoption of distributed systems. To collect relevant insights into systems' behavior, we observe many evaluation frameworks focusing mainly on the system under test throughput. However, these frameworks often need more comprehensiveness and generality, particularly in adopting a distributed applications' cross-layer approach. This work analyses in detail the requirements for distributed systems assessment. We summarize these findings into a structured methodology and experimentation framework called METHODA. Our approach emphasizes setting up and assessing a broader spectrum of distributed systems and addresses a notable research gap. We showcase the effectiveness of the framework by evaluating four distinct systems and their interaction, leveraging a diverse set of eight carefully selected metrics and 12 essential parameters. Through experimentation and analysis we demonstrate the framework's capabilities to provide valuable insights across various use cases. For instance, we identify that a combination of Trusted Execution Environments with threshold signature scheme FROST introduces minimal overhead on the performance with average latency around \SI{40}{\ms}. We showcase an emulation of realistic systems behavior, e.g., Maximal Extractable Value is possible and could be used to further model such dynamics. The METHODA framework enables a deeper understanding of distributed systems and is a powerful tool for researchers and practitioners navigating the complex landscape of modern computing infrastructures. | 翻訳日:2024-03-25 13:55:39 公開日:2023-10-26 |
# フローシーケンスとBERTフレームワークを用いたネットワーク侵入検出手法
A Method for Network Intrusion Detection Using Flow Sequence and BERT Framework ( http://arxiv.org/abs/2310.17127v1 ) ライセンス: Link先を確認 | Loc Gia Nguyen, Kohei Watabe, | (参考訳) ネットワーク侵入検知システム(NIDS)は、ネットワークに対する潜在的な脅威を特定するツールである。
近年,機械学習(ML)アルゴリズムを用いたフローベースNIDSの設計が,侵入を効率的に検出する手法として提案されている。
しかし、従来のMLベースの分類器はドメイン適応能力の貧弱さのため、現実世界では広く採用されていない。
本研究の目的は,ネットワーク侵入検知システムの領域適応性を向上させるために,フローのシーケンスを用いることの可能性を検討することである。
提案手法は,自然言語処理技術とトランスフォーマーフレームワークからの双方向エンコーダ表現を採用し,そのコンテキストを考慮したデータモデリングに有効な手法である。
初期の実証実験の結果,従来のアプローチに比べてドメイン適応能力が改善された。
提案手法は,ロバストな侵入検知システムを構築するための新しい研究手法を提供する。
A Network Intrusion Detection System (NIDS) is a tool that identifies potential threats to a network. Recently, different flow-based NIDS designs utilizing Machine Learning (ML) algorithms have been proposed as solutions to detect intrusions efficiently. However, conventional ML-based classifiers have not seen widespread adoption in the real world due to their poor domain adaptation capability. In this research, our goal is to explore the possibility of using sequences of flows to improve the domain adaptation capability of network intrusion detection systems. Our proposal employs natural language processing techniques and Bidirectional Encoder Representations from Transformers framework, which is an effective technique for modeling data with respect to its context. Early empirical results show that our approach has improved domain adaptation capability compared to previous approaches. The proposed approach provides a new research method for building a robust intrusion detection system. | 翻訳日:2024-03-19 01:44:24 公開日:2023-10-26 |
# エッジ指向グラフマルチヘッドアテンションネットワークによるネットワーク侵入検出
Network Intrusion Detection with Edge-Directed Graph Multi-Head Attention Networks ( http://arxiv.org/abs/2310.17348v1 ) ライセンス: Link先を確認 | Xiang Li, Jing Zhang, Yali Yuan, Cangqi Zhou, | (参考訳) ネットワーク侵入は通常、複数のネットワークロケーションを含む。
これらの場所(通常IPアドレスで表される)におけるデータフロー(侵入行動によって生成されたデータを含む)は自然にグラフを形成する。
このように、グラフニューラルネットワーク(GNN)は、近年、侵入データフローのグラフトポロジ的特徴を捉える能力に優れており、侵入検出モデルの構築に用いられている。
しかし、既存のGNNモデルはノード情報集約においてノード平均アグリゲーションを等しく扱う。
実際には、ノードとその隣人とリンクエッジの相関は異なる。
ノードやエッジに高い重みを高い類似度で割り当てると、それらの相関が強調され、モデルの精度と表現性が向上する。
そこで本研究では,ネットワーク侵入検出のためのエッジ指向グラフマルチヘッドアテンションネットワーク(EDGMAT)を提案する。
EDGMATモデルでは,侵入検知モデルにマルチヘッドアテンション機構を導入する。
付加的な重み学習は、マルチヘッドアテンション機構とエッジ特徴を組み合わせることで実現される。
重み付けアグリゲーションは、異なるネットワークトラフィックデータ間の関係をよりよく利用する。
最近の4つのNIDSベンチマークデータセットによる実験結果から、重み付きF1-ScoreにおけるEDGMATの性能は、マルチクラス検出タスクにおける4つの最先端モデルよりも著しく優れていることが示された。
A network intrusion usually involves a number of network locations. Data flow (including the data generated by intrusion behaviors) among these locations (usually represented by IP addresses) naturally forms a graph. Thus, graph neural networks (GNNs) have been used in the construction of intrusion detection models in recent years since they have an excellent ability to capture graph topological features of intrusion data flow. However, existing GNN models treat node mean aggregation equally in node information aggregation. In reality, the correlations of nodes and their neighbors as well as the linked edges are different. Assigning higher weights to nodes and edges with high similarity can highlight the correlation among them, which will enhance the accuracy and expressiveness of the model. To this end, this paper proposes novel Edge-Directed Graph Multi-Head Attention Networks (EDGMAT) for network intrusion detection. The proposed EDGMAT model introduces a multi-head attention mechanism into the intrusion detection model. Additional weight learning is realized through the combination of a multi-head attention mechanism and edge features. Weighted aggregation makes better use of the relationship between different network traffic data. Experimental results on four recent NIDS benchmark datasets show that the performance of EDGMAT in terms of weighted F1-Score is significantly better than that of four state-of-the-art models in multi-class detection tasks. | 翻訳日:2024-03-19 01:44:24 公開日:2023-10-26 |
# 未知および未知の攻撃の能動的学習によるほぼ自律的・漸進的侵入検知システム
A near-autonomous and incremental intrusion detection system through active learning of known and unknown attacks ( http://arxiv.org/abs/2310.17430v1 ) ライセンス: Link先を確認 | Lynda Boukela, Gongxuan Zhang, Meziane Yacoub, Samia Bouzefrane, | (参考訳) 侵入検知は、セキュリティ専門家の伝統的な慣行であるが、まだ対処すべき問題がいくつかある。
そこで本稿では,これらの問題を強調した上で,既知の攻撃と未知の攻撃の両方を適応的かつ漸進的に検出するハイブリッド侵入検知システム(IDS)のアーキテクチャを提案する。
IDSは教師付きモジュールと教師なしモジュール、すなわちディープニューラルネットワーク(DNN)とK-Nearest Neighbors(KNN)アルゴリズムで構成されている。
専門家の介入は、アクティブラーニング(AL)アプローチによって最小化されるので、提案システムはほぼ自律的である。
ラベル付けプロセスのクエリ戦略を提示し、教師付きモジュールに未知の攻撃を検出し、既に知られている攻撃の検出を改善することを目的とする。
この教育は、DNNが時間とともに利用可能になったときに再訓練される段階的なスライディングウインドウ(SW)によって達成され、IDSはネットワークトラフィックの進化的な側面に適応する。
IDSの性能を評価するため、CICIDS2017データセット上で一連の実験を行い、有望な結果を得た。
Intrusion detection is a traditional practice of security experts, however, there are several issues which still need to be tackled. Therefore, in this paper, after highlighting these issues, we present an architecture for a hybrid Intrusion Detection System (IDS) for an adaptive and incremental detection of both known and unknown attacks. The IDS is composed of supervised and unsupervised modules, namely, a Deep Neural Network (DNN) and the K-Nearest Neighbors (KNN) algorithm, respectively. The proposed system is near-autonomous since the intervention of the expert is minimized through the active learning (AL) approach. A query strategy for the labeling process is presented, it aims at teaching the supervised module to detect unknown attacks and improve the detection of the already-known attacks. This teaching is achieved through sliding windows (SW) in an incremental fashion where the DNN is retrained when the data is available over time, thus rendering the IDS adaptive to cope with the evolutionary aspect of the network traffic. A set of experiments was conducted on the CICIDS2017 dataset in order to evaluate the performance of the IDS, promising results were obtained. | 翻訳日:2024-03-19 01:44:24 公開日:2023-10-26 |
# BlackJack: ハードウェアベースのシャッフルによるIoTデバイス上でのセキュアな機械学習
BlackJack: Secure machine learning on IoT devices through hardware-based shuffling ( http://arxiv.org/abs/2310.17804v1 ) ライセンス: Link先を確認 | Karthik Ganesan, Michal Fishkin, Ourong Lin, Natalie Enright Jerger, | (参考訳) ニューラルネットワークは、医療、スマートホーム、産業監視など、さまざまなモノのインターネット(IoT)アプリケーションでの利用が増加している。
彼らの広く利用されている利用は、ニューラルネットワークを盗難の利益のターゲットにしている。
攻撃者は、トレーニングデータにアクセスしたり、トレーニングコストを発生させることなく、モデルを取得することができる。
また、プライベートデータ(例えば医療記録)を使ってトレーニングされたネットワークは、このデータに関する情報を明らかにすることができる。
ネットワークを実行しているIoTデバイスの電力トレースなどのサイドチャネルを活用することで、ネットワークを盗むことができる。
攻撃者はネットワークを盗むために、デバイスのいくつかのトレースを収集し、分析する必要がある。
したがって、このような攻撃を防ぐために、我々は毎回操作の順序をランダムにシャッフルする。
シャッフルでは、各操作が実行毎にさまざまな点で実行可能になり、攻撃が引き起こされる。
しかし、ソフトウェアにおけるシャッフルは、この解決策を覆すのに使える情報を漏らす可能性があることを示す。
したがって、セキュアなシャッフルとレイテンシ低減のために、CPU内の機能ユニットとして追加されたハードウェアであるBlackJackを提示する。
BlackJackは、攻撃に必要な時間を何世紀にもわたって増加させ、ARM M0+ SoCに2.46%の領域、3.28%の電力、0.56%の遅延オーバーヘッドを追加することにより、IoTデバイス上のニューラルネットワークをセキュアにする。
Neural networks are seeing increased use in diverse Internet of Things (IoT) applications such as healthcare, smart homes and industrial monitoring. Their widespread use makes neural networks a lucrative target for theft. An attacker can obtain a model without having access to the training data or incurring the cost of training. Also, networks trained using private data (e.g., medical records) can reveal information about this data. Networks can be stolen by leveraging side channels such as power traces of the IoT device when it is running the network. Existing attacks require operations to occur in the same order each time; an attacker must collect and analyze several traces of the device to steal the network. Therefore, to prevent this type of attack, we randomly shuffle the order of operations each time. With shuffling, each operation can now happen at many different points in each execution, making the attack intractable. However, we show that shuffling in software can leak information which can be used to subvert this solution. Therefore, to perform secure shuffling and reduce latency, we present BlackJack, hardware added as a functional unit within the CPU. BlackJack secures neural networks on IoT devices by increasing the time needed for an attack to centuries, while adding just 2.46% area, 3.28% power and 0.56% latency overhead on an ARM M0+ SoC. | 翻訳日:2024-03-19 01:44:24 公開日:2023-10-26 |
# CMOSベースのシングルサイクルインメモリXOR/XNOR
CMOS-based Single-Cycle In-Memory XOR/XNOR ( http://arxiv.org/abs/2310.18375v1 ) ライセンス: Link先を確認 | Shamiul Alam, Jack Hutchins, Nikhil Shukla, Kazi Asifuzzaman, Ahmedullah Aziz, | (参考訳) ビッグデータアプリケーションは増加傾向にあり、データセンターの数も増えている。
継続的に増加する巨大なデータプールは、セキュアな環境で定期的にバックアップする必要があります。
さらに、画像分類のためのバイナリ畳み込みニューラルネットワークのトレーニングには、大量のセキュアなバックアップデータが必要である。
XORとXNORの操作は、大規模なデータのコピー検証、暗号化、分類アルゴリズムに不可欠である。
既存の計算およびメモリユニットの不均等な速度は、フォン・ノイマンのアーキテクチャをこれらのブール演算の実行に非効率にする。
計算インメモリ(CiM)は、そのようなバルク計算に最適な手法であることが証明されている。
既存のCiMベースのXOR/XNOR技術は、計算に複数のサイクルを必要とするか、製造プロセスの複雑さを増す。
本稿では,シングルサイクルインメモリXOR/XNOR演算のためのCMOSベースのハードウェアトポロジを提案する。
私たちの設計では、既存のCMOS互換ソリューションと比較して、レイテンシが少なくとも2倍改善されています。
提案手法を回路/システムレベルのシミュレーションにより検証し,5000点モンテカルロ変動解析を用いてロバスト性を評価する。
この全CMOS設計は、大規模技術ノードにおけるCiM XOR/XNORの実践的実装の道を開くものである。
Big data applications are on the rise, and so is the number of data centers. The ever-increasing massive data pool needs to be periodically backed up in a secure environment. Moreover, a massive amount of securely backed-up data is required for training binary convolutional neural networks for image classification. XOR and XNOR operations are essential for large-scale data copy verification, encryption, and classification algorithms. The disproportionate speed of existing compute and memory units makes the von Neumann architecture inefficient to perform these Boolean operations. Compute-in-memory (CiM) has proved to be an optimum approach for such bulk computations. The existing CiM-based XOR/XNOR techniques either require multiple cycles for computing or add to the complexity of the fabrication process. Here, we propose a CMOS-based hardware topology for single-cycle in-memory XOR/XNOR operations. Our design provides at least 2 times improvement in the latency compared with other existing CMOS-compatible solutions. We verify the proposed system through circuit/system-level simulations and evaluate its robustness using a 5000-point Monte Carlo variation analysis. This all-CMOS design paves the way for practical implementation of CiM XOR/XNOR at scaled technology nodes. | 翻訳日:2024-03-19 01:44:24 公開日:2023-10-26 |
# Few-Shotカウントのための意味的生成拡張 Semantic Generative Augmentations for Few-Shot Counting ( http://arxiv.org/abs/2311.16122v1 ) ライセンス: Link先を確認 | Perla Doubinsky (CEDRIC - VERTIGO, CNAM), Nicolas Audebert (CEDRIC - VERTIGO, CNAM), Michel Crucianu (CEDRIC - VERTIGO), Herv\'e Le Borgne (CEA) | (参考訳) 近年,強力なテキスト・画像拡散モデルが利用可能となり,画像分類性能を向上させるために合成データの利用が検討されている。
これらの研究は、実際のデータを効果的に拡張したり、置き換えたりできることを示している。
本研究では,合成データがクラス非依存数にどのように役立つかを検討する。
これは与えられたオブジェクトの入力数に対応する画像を生成する必要がある。
しかし、テキスト・ツー・イメージモデルはカウントの概念を理解するのに苦労する。
本稿では,数秒カウントのためのトレーニングデータセットを増強するために,プロンプトと密度マップを併用した安定拡散の二重条件化を提案する。
データセットのサイズが小さいため、微調整されたモデルはトレーニング画像に近い画像を生成する傾向がある。
本研究では,画像間のキャプションを交換することにより,合成画像の多様性を高めることを目的とする。
実験の結果,FSC147とCARPKの2つの最近の数量モデルにおいて,多種多様な生成戦略により精度が向上することが示された。 With the availability of powerful text-to-image diffusion models, recent works have explored the use of synthetic data to improve image classification performances. These works show that it can effectively augment or even replace real data. In this work, we investigate how synthetic data can benefit few-shot class-agnostic counting. This requires to generate images that correspond to a given input number of objects. However, text-to-image models struggle to grasp the notion of count. We propose to rely on a double conditioning of Stable Diffusion with both a prompt and a density map in order to augment a training dataset for few-shot counting. Due to the small dataset size, the fine-tuned model tends to generate images close to the training images. We propose to enhance the diversity of synthesized images by exchanging captions between images thus creating unseen configurations of object types and spatial layout. Our experiments show that our diversified generation strategy significantly improves the counting accuracy of two recent and performing few-shot counting models on FSC147 and CARPK. | 翻訳日:2023-12-03 13:28:30 公開日:2023-10-26 |
# ブロック圧縮特徴を用いたリアルタイム神経材料 Real-Time Neural Materials using Block-Compressed Features ( http://arxiv.org/abs/2311.16121v1 ) ライセンス: Link先を確認 | Cl\'ement Weinreich, Louis de Oliveira, Antoine Houdard, Georges Nader | (参考訳) 神経材料は典型的にはデコーダネットワークと共に神経特徴の集合から成る。
このようなモデルをリアルタイムレンダリングパイプラインに統合する上での大きな課題は、GPUメモリに機能を格納するために必要な大きなサイズと、ネットワークを効率的に評価する複雑性にある。
本稿では,機能とデコーダをリアルタイムレンダリングパイプライン用に特別に設計したニューラルマテリアルモデルを提案する。
我々のフレームワークはハードウェアベースのブロック圧縮(BC)テクスチャフォーマットを利用して学習した特徴を記憶し、そのモデルに空間と規模で連続的に材料情報を出力するように訓練する。
これを実現するため、ブロックベースで特徴を整理し、トレーニング中にBC6の圧縮をエミュレートし、通常のBC6テクスチャとしてエクスポートする。
この構造により、メモリフットプリントを低く保ちながら高解像度の機能を利用することができます。
これにより、モデル全体の能力が向上し、シェーダ内で直接評価可能な軽量でシンプルなデコーダアーキテクチャが利用可能になります。
さらに、学習した機能は継続的に復号化できるため、ランダムuvサンプリングとスケール間のスムーズな遷移を、その後のフィルタリングを必要とせずに実現することができる。
その結果、我々の神経材料はメモリフットプリントが小さく、非常に高速にデコードでき、レンダリングパイプラインに最小の計算オーバーヘッドを加えることができる。 Neural materials typically consist of a collection of neural features along with a decoder network. The main challenge in integrating such models in real-time rendering pipelines lies in the large size required to store their features in GPU memory and the complexity of evaluating the network efficiently. We present a neural material model whose features and decoder are specifically designed to be used in real-time rendering pipelines. Our framework leverages hardware-based block compression (BC) texture formats to store the learned features and trains the model to output the material information continuously in space and scale. To achieve this, we organize the features in a block-based manner and emulate BC6 decompression during training, making it possible to export them as regular BC6 textures. This structure allows us to use high resolution features while maintaining a low memory footprint. Consequently, this enhances our model's overall capability, enabling the use of a lightweight and simple decoder architecture that can be evaluated directly in a shader. Furthermore, since the learned features can be decoded continuously, it allows for random uv sampling and smooth transition between scales without needing any subsequent filtering. As a result, our neural material has a small memory footprint, can be decoded extremely fast adding a minimal computational overhead to the rendering pipeline. | 翻訳日:2023-12-03 13:28:15 公開日:2023-10-26 |
# OptScaler: クラウドにおけるロバスト自動スケーリングのためのハイブリッドなProactive-Reactiveフレームワーク OptScaler: A Hybrid Proactive-Reactive Framework for Robust Autoscaling in the Cloud ( http://arxiv.org/abs/2311.12864v1 ) ライセンス: Link先を確認 | Ding Zou, Wei Lu, Zhibo Zhu, Xingyu Lu, Jun Zhou, Xiaojin Wang, Kangyu Liu, Haiqing Wang, Kefan Wang, Renen Sun | (参考訳) オートスケーリングはクラウドコンピューティングにおいて重要なメカニズムであり、動的ワークロード下でのコンピューティングリソースの自律的な調整をサポートする。
自動スケーリングの主な目的は、望ましいレベルでリソース利用を安定させることであり、サービスレベル目標(slos)の満足度とリソース節約の必要性を調和させることである。
既存のアクティブ自動スケーリング手法は将来のワークロードを予測し、事前にリソースをスケールするが、信頼性はクラウドワークロードの頻繁な変動とノイズに起因する予測偏差に悩まされる可能性がある。
そこで本稿では,cpu使用率を調節するproactiveとreactiveの両方の方法を統合するハイブリッドオートスケーリングフレームワーク optscaler を提案する。
具体的には、 optscaler の proactive module は高度なワークロード予測モデルと最適化モデルで構成されており、前者は最適なスケーリング決定を行うために後者に信頼できる入力を提供する。
リアクティブモジュールは最適化モデルにCPU利用の自己チューニング推定器を提供する。
モデル予測制御(mpc)機構とロバスト最適化手法を最適化モデルに組み込んで信頼性をさらに向上させる。
オンラインサービスのシナリオにおいて、ワークロード予測モデルとOptScalerのハイブリッドフレームワークの両方が、一般的なリアクティブ、プロアクティブ、ハイブリッドオートスケーラと比較して優れていることを示す。
OptScalerはAlipayにデプロイされ、世界リードの支払いプラットフォームにおけるアプレットの自動スケーリングをサポートする。 Autoscaling is a vital mechanism in cloud computing that supports the autonomous adjustment of computing resources under dynamic workloads. A primary goal of autoscaling is to stabilize resource utilization at a desirable level, thus reconciling the need for resource-saving with the satisfaction of Service Level Objectives (SLOs). Existing proactive autoscaling methods anticipate the future workload and scale the resources in advance, whereas the reliability may suffer from prediction deviations arising from the frequent fluctuations and noise of cloud workloads; reactive methods rely on real-time system feedback, while the hysteretic nature of reactive methods could cause violations of the rigorous SLOs. To this end, this paper presents OptScaler, a hybrid autoscaling framework that integrates the power of both proactive and reactive methods for regulating CPU utilization. Specifically, the proactive module of OptScaler consists of a sophisticated workload prediction model and an optimization model, where the former provides reliable inputs to the latter for making optimal scaling decisions. The reactive module provides a self-tuning estimator of CPU utilization to the optimization model. We embed Model Predictive Control (MPC) mechanism and robust optimization techniques into the optimization model to further enhance its reliability. Numerical results have demonstrated the superiority of both the workload prediction model and the hybrid framework of OptScaler in the scenario of online services compared to prevalent reactive, proactive, or hybrid autoscalers. OptScaler has been successfully deployed at Alipay, supporting the autoscaling of applets in the world-leading payment platform. | 翻訳日:2023-11-27 00:21:27 公開日:2023-10-26 |
# コンピュータネットワークを横断する敵攻撃伝達可能性の修正 Unscrambling the Rectification of Adversarial Attacks Transferability across Computer Networks ( http://arxiv.org/abs/2311.03373v1 ) ライセンス: Link先を確認 | Ehsan Nowroozi, Samaneh Ghelichkhani, Imran Haider and Ali Dehghantanha | (参考訳) 畳み込みニューラルネットワーク(cnns)モデルは、様々な技術分野で最先端のパフォーマンスを達成する上で重要な役割を果たす。
CNNは自然言語処理(NLP)やコンピュータビジョン(CV)に限らず、他の技術分野、特にサイバーセキュリティにも応用されている。
cnnのモデルの信頼性は、現実のシナリオで無益に、容易に適用され、転送される敵の攻撃に対する感受性によって損なわれる可能性がある。
本稿では,cnnにおける攻撃の強度向上と,その強度変化時の攻撃例の移動性評価,およびコンピュータネットワークアプリケーションにおける転送性問題の有無を評価するための,新しい総合的手法を提案する。
本研究の文脈では,まず,carlyni and wagner (c&w), fast gradient sign method (fgsm), iterative fast gradient sign method (i-fgsm), jacobian-based saliency map (jsma), limited-memory broyden fletcher goldfarb shanno (l-bfgs), projected gradient descent (pgd) の6つの異なる攻撃方法を検討した。
これらの攻撃手法をCICとUNSWの2つの一般的なデータセットに適用した。
実験の結果,FGSM,JSMA,LBFGS,その他の攻撃を想定したシナリオにおいて,転送可能性の向上が見られた。
さらに,コンピュータネットワークアプリケーションにおいても,セキュリティに対する脅威は,dlベースの技術の安全性を高めるために,新たな防御機構の開発を必要とすることが示唆された。 Convolutional neural networks (CNNs) models play a vital role in achieving state-of-the-art performances in various technological fields. CNNs are not limited to Natural Language Processing (NLP) or Computer Vision (CV) but also have substantial applications in other technological domains, particularly in cybersecurity. The reliability of CNN's models can be compromised because of their susceptibility to adversarial attacks, which can be generated effortlessly, easily applied, and transferred in real-world scenarios. In this paper, we present a novel and comprehensive method to improve the strength of attacks and assess the transferability of adversarial examples in CNNs when such strength changes, as well as whether the transferability property issue exists in computer network applications. In the context of our study, we initially examined six distinct modes of attack: the Carlini and Wagner (C&W), Fast Gradient Sign Method (FGSM), Iterative Fast Gradient Sign Method (I-FGSM), Jacobian-based Saliency Map (JSMA), Limited-memory Broyden fletcher Goldfarb Shanno (L-BFGS), and Projected Gradient Descent (PGD) attack. We applied these attack techniques on two popular datasets: the CIC and UNSW datasets. The outcomes of our experiment demonstrate that an improvement in transferability occurs in the targeted scenarios for FGSM, JSMA, LBFGS, and other attacks. Our findings further indicate that the threats to security posed by adversarial examples, even in computer network applications, necessitate the development of novel defense mechanisms to enhance the security of DL-based techniques. | 翻訳日:2023-11-12 19:49:36 公開日:2023-10-26 |
# ソフトウェア独立宣言 A Declaration of Software Independence ( http://arxiv.org/abs/2311.03372v1 ) ライセンス: Link先を確認 | Wojciech Jamroga, Peter Y.A. Ryan, Steve Schneider, Carsten Schurmann, Philip B. Stark | (参考訳) 投票システムは単に結果を報告するだけでなく、報告された結果が正しいと合理的なオブザーバーを説得するための十分な証拠を提供するべきである。
多くのデプロイシステム、特に紙のないDREマシンは、米国大統領選挙でまだ使われているが、確実に第2位に失敗し、おそらく最初の要件である。
RivestとWackは投票システムの原則と要件として、ソフトウェア独立(SI)の原則を提案した。
基本的には、投票システムは、ソフトウェアへの依存度が 'Tamper-evident'' である場合、すなわち、ソフトウェアを検査せずに、ソフトウェアに物質的変更が加えられたことを検知する方法がある場合、SIである。
この重要な概念は、これまで非公式にのみ定式化されてきた。
ここでは、SIのより正式な数学的定義を提供する。
これは、システムのどの要素が選挙またはシステムに対して信頼されなければならないか、選挙結果の変更の「判断」を形式化する方法、SIが検知機構のセット(法的かつ実用的でなければならない)に関する事実、誤報を制限する必要性、社会選択関数が決定論的でない場合にSIがどのように適用されるか、といった、元の定義の微妙さとギャップを露呈している。 A voting system should not merely report the outcome: it should also provide sufficient evidence to convince reasonable observers that the reported outcome is correct. Many deployed systems, notably paperless DRE machines still in use in US elections, fail certainly the second, and quite possibly the first of these requirements. Rivest and Wack proposed the principle of software independence (SI) as a guiding principle and requirement for voting systems. In essence, a voting system is SI if its reliance on software is ``tamper-evident'', that is, if there is a way to detect that material changes were made to the software without inspecting that software. This important notion has so far been formulated only informally. Here, we provide more formal mathematical definitions of SI. This exposes some subtleties and gaps in the original definition, among them: what elements of a system must be trusted for an election or system to be SI, how to formalize ``detection'' of a change to an election outcome, the fact that SI is with respect to a set of detection mechanisms (which must be legal and practical), the need to limit false alarms, and how SI applies when the social choice function is not deterministic. | 翻訳日:2023-11-12 19:49:06 公開日:2023-10-26 |
# llms級短期学習者の理解質問 : lmicにおける基礎的リテラシー評価 Can LLMs Grade Short-answer Reading Comprehension Questions : Foundational Literacy Assessment in LMICs ( http://arxiv.org/abs/2310.18373v1 ) ライセンス: Link先を確認 | Owen Henkel, Libby Hills, Bill Roberts, Joshua McGrane | (参考訳) 本稿では,生成的大言語モデル(GPT-4)を用いて,短文読解質問を確実に評価する手法を提案する。
具体的には,ガーナの150名以上の学生を対象に実施した読解評価から得られた新しいデータセットから,様々な構成の生成型(llm)が学生の反応を評価する方法について検討する。
このデータセットは新規であり、したがってGPTのトレーニングに使用されないため、高所得の北米諸国のデータに基づいて主に設計され、訓練された生成LDMのドメインシフトのテストと一般化性を評価する機会を提供する。
その結果, GPT-4は, 新規データセット(Quadratic Weighted Kappa 0.923, F1 0.88)の評価に極めて優れており, トランスファーラーニングに基づくアプローチよりも優れており, また, 熟練したレーダ(Quadratic Weighted Kappa 0.915, F1 0.87)よりも優れていた。
我々の知識を最大限に活用するために,本研究は,実生データを用いて,短時間質問読解における生成LDMの性能を実証的に評価し,基礎的リテラシーを確実に評価する可能性を示唆する。
現在、多くの低所得国や中所得国(LMIC)では、大規模に実施するコストと運用上の複雑さのため、形式的リテラシーと数字性の評価はまれである。
読解評価のための格付けプロセスの自動化は、より広い利用を可能にし、カリキュラム、学校管理、教室レベルでの教育実践に関する意思決定を改善することができる。
対照的に、トランスファーラーニングに基づくアプローチでは、ジェネレーティブ LLM が一般化し、それらの利用の技術的障壁は低く、リソース教育の文脈を低くして実装し、拡張しやすくする。 This paper presents emerging evidence of using generative large language models (i.e., GPT-4) to reliably evaluate short-answer reading comprehension questions. Specifically, we explore how various configurations of generative (LLMs) are able to evaluate student responses from a new dataset, drawn from a battery of reading assessments conducted with over 150 students in Ghana. As this dataset is novel and hence not used in training runs of GPT, it offers an opportunity to test for domain shift and evaluate the generalizability of generative LLMs, which are predominantly designed and trained on data from high-income North American countries. We found that GPT-4, with minimal prompt engineering performed extremely well on evaluating the novel dataset (Quadratic Weighted Kappa 0.923, F1 0.88), substantially outperforming transfer-learning based approaches, and even exceeding expert human raters (Quadratic Weighted Kappa 0.915, F1 0.87). To the best of our knowledge, our work is the first to empirically evaluate the performance of generative LLMs on short-answer reading comprehension questions, using real student data, and suggests that generative LLMs have the potential to reliably evaluate foundational literacy. Currently the assessment of formative literacy and numeracy is infrequent in many low and middle-income countries (LMICs) due to the cost and operational complexities of conducting them at scale. Automating the grading process for reading assessment could enable wider usage, and in turn improve decision-making regarding curricula, school management, and teaching practice at the classroom level. Importantly, in contrast transfer learning based approaches, generative LLMs generalize well and the technical barriers to their use are low, making them more feasible to implement and scale in lower resource educational contexts. | 翻訳日:2023-10-31 18:59:07 公開日:2023-10-26 |
# 複合QAにおける質問分解のための文脈内能力伝達 In-Context Ability Transfer for Question Decomposition in Complex QA ( http://arxiv.org/abs/2310.18371v1 ) ライセンス: Link先を確認 | Venktesh V, Sourangshu Bhattacharya, Avishek Anand | (参考訳) 複雑な質問への回答は、問題分解と解に到達するための多段階推論を必要とする課題である。
既存の教師なしおよび教師なしのアプローチは特定のタスクに特化しており、トレーニングを含むが、最近提案されたプロンプトベースのアプローチは、様々な複雑な質問応答(QA)タスクに取り組むための一般化可能なソリューションを提供する。
しかし、複雑なQAタスクに有効な既存のプロンプトベースのアプローチは、有理性の形で専門家の高価な手書きアノテーションを伴い、より新しい複雑なQAシナリオやタスクには一般化できない。
我々は,LLMの微調整や手動によるインコンテキストサンプルのアノテーションを使わずに,LLMにおける推論能力を誘導するicat(In-Context Ability Transfer)を提案する。
複雑な質問を簡易な質問に分解したり、関連タスクの利用可能なデータソースから慎重に選択することで、LCMにステップバイステップの合理性を生成することができる。
また,トランスファーデータソースからサンプルを選択するための,不確実性を考慮した自動例選択手法を提案する。
最後に, 数値的推論, 構成的複素QA, 分解的推論を必要とする複素QAを含む様々な複雑なQAタスクについて, 大規模に実験を行った。
ICATは、モデルトレーニングを伴わずに既存のプロンプトベースのソリューションを確実に上回り、既存の能力の再利用の利点を示す。 Answering complex questions is a challenging task that requires question decomposition and multistep reasoning for arriving at the solution. While existing supervised and unsupervised approaches are specialized to a certain task and involve training, recently proposed prompt-based approaches offer generalizable solutions to tackle a wide variety of complex question-answering (QA) tasks. However, existing prompt-based approaches that are effective for complex QA tasks involve expensive hand annotations from experts in the form of rationales and are not generalizable to newer complex QA scenarios and tasks. We propose, icat (In-Context Ability Transfer) which induces reasoning capabilities in LLMs without any LLM fine-tuning or manual annotation of in-context samples. We transfer the ability to decompose complex questions to simpler questions or generate step-by-step rationales to LLMs, by careful selection from available data sources of related tasks. We also propose an automated uncertainty-aware exemplar selection approach for selecting examples from transfer data sources. Finally, we conduct large-scale experiments on a variety of complex QA tasks involving numerical reasoning, compositional complex QA, and heterogeneous complex QA which require decomposed reasoning. We show that ICAT convincingly outperforms existing prompt-based solutions without involving any model training, showcasing the benefits of re-using existing abilities. | 翻訳日:2023-10-31 18:58:30 公開日:2023-10-26 |
# 新しいブール充足可能性問題ヒューリスティック戦略:最小正負の製品戦略 New Boolean satisfiability problem heuristic strategy: Minimal Positive Negative Product Strategy ( http://arxiv.org/abs/2310.18370v1 ) ライセンス: Link先を確認 | Qun Zhao, Xintao Wang, Menghui Yang | (参考訳) 本研究は, ブール適合性問題の解法においてCDCLアルゴリズムを導出する「最小正負積戦略」と呼ばれる新しいヒューリスティックアルゴリズムを提案する。
このアルゴリズムは、DLIS(Dynamic Largest Individual Sum)やVSIDS(Variable State Independent Decaying Sum)といった広く使われているヒューリスティックよりも優れているという数学的説明を提供する。
実験結果により, このヒューリスティック戦略の有効性が検証された。 This study presents a novel heuristic algorithm called the "Minimal Positive Negative Product Strategy" to guide the CDCL algorithm in solving the Boolean satisfiability problem. It provides a mathematical explanation for the superiority of this algorithm over widely used heuristics such as the Dynamic Largest Individual Sum (DLIS) and the Variable State Independent Decaying Sum (VSIDS). Experimental results further confirm the effectiveness of this heuristic strategy in problem-solving. | 翻訳日:2023-10-31 18:57:47 公開日:2023-10-26 |
# 制約学習を用いた混合整数最適化 Mixed-Integer Optimization with Constraint Learning ( http://arxiv.org/abs/2111.04469v3 ) ライセンス: Link先を確認 | Donato Maragno, Holly Wiberg, Dimitris Bertsimas, S. Ilker Birbil, Dick den Hertog, Adejuyigbe Fajemisin | (参考訳) 学習制約を伴う混合整数最適化のための幅広い方法論基盤を確立する。
本稿では,機械学習を用いたデータから制約や目標を直接学習し,学習したモデルを最適化定式化に組み込む,データ駆動意思決定のためのエンドツーエンドパイプラインを提案する。
我々は、線形モデル、決定木、アンサンブル、多層パーセプトロンを含む多くの機械学習手法の混合整数最適化表現性を利用して、決定、文脈変数、結果の間の様々な基礎的関係を捉えることができる。
また,データから学習する本来の不確実性に対処するための2つのアプローチを提案する。
まず,観察の凸部を用いて決定信頼領域を特徴付けることにより,信頼性の高い勧告を確実にし,外挿を避ける。
この表現をカラム生成を用いて効率的に取り入れ,低密度領域と高次元データセットを扱うための,より柔軟な定式化を提案する。
次に,複数のブートストラップ推定器や複数のアルゴリズムに対して制約満足度を強制するアンサンブル学習手法を提案する。
ドメイン駆動コンポーネントと組み合わせることで、組込みモデルと信頼領域は処方薬生成のための混合整数最適化問題を定義する。
我々はこのフレームワークを実践者向けにpythonパッケージ(opticl)として実装する。
本手法は,World Food Programme計画と化学療法最適化の両方で実証する。
ケーススタディでは、信頼領域に付加される価値だけでなく、高品質な処方薬を生成できるフレームワークの能力、モデルの堅牢性を制御するアンサンブルの使用、複数の機械学習手法の考察、複数の学習制約の包含などが示されている。 We establish a broad methodological foundation for mixed-integer optimization with learned constraints. We propose an end-to-end pipeline for data-driven decision making in which constraints and objectives are directly learned from data using machine learning, and the trained models are embedded in an optimization formulation. We exploit the mixed-integer optimization-representability of many machine learning methods, including linear models, decision trees, ensembles, and multi-layer perceptrons, which allows us to capture various underlying relationships between decisions, contextual variables, and outcomes. We also introduce two approaches for handling the inherent uncertainty of learning from data. First, we characterize a decision trust region using the convex hull of the observations, to ensure credible recommendations and avoid extrapolation. We efficiently incorporate this representation using column generation and propose a more flexible formulation to deal with low-density regions and high-dimensional datasets. Then, we propose an ensemble learning approach that enforces constraint satisfaction over multiple bootstrapped estimators or multiple algorithms. In combination with domain-driven components, the embedded models and trust region define a mixed-integer optimization problem for prescription generation. We implement this framework as a Python package (OptiCL) for practitioners. We demonstrate the method in both World Food Programme planning and chemotherapy optimization. The case studies illustrate the framework's ability to generate high-quality prescriptions as well as the value added by the trust region, the use of ensembles to control model robustness, the consideration of multiple machine learning methods, and the inclusion of multiple learned constraints. | 翻訳日:2023-10-30 19:05:19 公開日:2023-10-26 |
# 固有学習フレームワーク : カーネル回帰と広域ニューラルネットワークに関する保存則の展望 The Eigenlearning Framework: A Conservation Law Perspective on Kernel Regression and Wide Neural Networks ( http://arxiv.org/abs/2110.03922v6 ) ライセンス: Link先を確認 | James B. Simon, Madeline Dickens, Dhruva Karkada, Michael R. DeWeese | (参考訳) テストリスクとkernel ridge regression(krr)の他の一般化指標に対する単純なクローズドフォーム推定を導出する。
先行研究と比較して、導出は大幅に単純化され、最終表現はより容易に解釈できる。
これらの改善は、KRRが関数の正則基底を学習する能力を制限するシャープな保存法則の同定によって可能となる。
テストリスクおよび他の関心の対象は、カーネル固有ベイジで評価された保存量の観点から透過的に表現される。
改良されたフレームワークを使って
i) nakkiran et al (2020)の「ディープブートストラップ」に関する理論的説明を提供する
二 古典パリティ問題の難しさに関する前の結果を一般化すること。
三 敵対的堅牢性の研究のための理論的な道具を造ること、及び
四 統計物理学において、KRRとよく研究されたシステムとの密接な類似性を描くこと。 We derive simple closed-form estimates for the test risk and other generalization metrics of kernel ridge regression (KRR). Relative to prior work, our derivations are greatly simplified and our final expressions are more readily interpreted. These improvements are enabled by our identification of a sharp conservation law which limits the ability of KRR to learn any orthonormal basis of functions. Test risk and other objects of interest are expressed transparently in terms of our conserved quantity evaluated in the kernel eigenbasis. We use our improved framework to: i) provide a theoretical explanation for the "deep bootstrap" of Nakkiran et al (2020), ii) generalize a previous result regarding the hardness of the classic parity problem, iii) fashion a theoretical tool for the study of adversarial robustness, and iv) draw a tight analogy between KRR and a well-studied system in statistical physics. | 翻訳日:2023-10-30 19:04:29 公開日:2023-10-26 |
# 不確実性の異なる影響:肯定的行動と肯定的情報 The Disparate Impact of Uncertainty: Affirmative Action vs. Affirmative Information ( http://arxiv.org/abs/2102.10019v4 ) ライセンス: Link先を確認 | Claire Lazar Reich | (参考訳) ローン承認、医療介入、大学入学などの決定は、不確実性の存在下での予測によって導かれる。
本稿では,不確実性が異なる影響があることを証明する。
平均的な結果の高いグループは通常、偽陽性率が高いグループに割り当てられるが、平均的な結果の低いグループは、偽陰性率が高いグループに割り当てられる。
付加的なデータ取得は、格差を排除し、機会へのアクセスを拡大できることを示す。
私たちがAffirmative Informationと呼ぶこの戦略は、Affirmative Actionの代替となるかもしれません。 Critical decisions like loan approvals, medical interventions, and college admissions are guided by predictions made in the presence of uncertainty. In this paper, we prove that uncertainty has a disparate impact. While it imparts errors across all demographic groups, the types of errors vary systematically: Groups with higher average outcomes are typically assigned higher false positive rates, while those with lower average outcomes are assigned higher false negative rates. We show that additional data acquisition can eliminate the disparity and broaden access to opportunity. The strategy, which we call Affirmative Information, could stand as an alternative to Affirmative Action. | 翻訳日:2023-10-30 19:04:18 公開日:2023-10-26 |
# LR-Sum:低リソース言語のための要約 LR-Sum: Summarization for Less-Resourced Languages ( http://arxiv.org/abs/2212.09674v2 ) ライセンス: Link先を確認 | Chester Palen-Michel and Constantine Lignos | (参考訳) LR-Sumは、低リソース言語の自動要約のさらなる研究を可能にするために作られた新しいパーミッシブライセンスデータセットである。
LR-Sumには40言語のための人間による要約が含まれており、その多くはオープンソースではない。
本稿では,多言語オープンテキストコーパス(Palen-Michel et al.,2022)からデータセットを抽出・フィルタリングするプロセスについて述べる。
ソースデータはVoice of Americaのウェブサイトから収集されたパブリックドメインのニュースワイヤであり、LR-SumはCreative Commonsライセンス(CC BY 4.0)の下でリリースされ、最もオープンにライセンスされた多言語要約データセットの1つである。
実験のモデリングにデータをどのように利用するかを説明し、データセットの制限について論じる。 This preprint describes work in progress on LR-Sum, a new permissively-licensed dataset created with the goal of enabling further research in automatic summarization for less-resourced languages. LR-Sum contains human-written summaries for 40 languages, many of which are less-resourced. We describe our process for extracting and filtering the dataset from the Multilingual Open Text corpus (Palen-Michel et al., 2022). The source data is public domain newswire collected from from Voice of America websites, and LR-Sum is released under a Creative Commons license (CC BY 4.0), making it one of the most openly-licensed multilingual summarization datasets. We describe how we plan to use the data for modeling experiments and discuss limitations of the dataset. | 翻訳日:2023-10-30 18:58:30 公開日:2023-10-26 |
# CORL: 深部オフライン強化学習ライブラリ CORL: Research-oriented Deep Offline Reinforcement Learning Library ( http://arxiv.org/abs/2210.07105v4 ) ライセンス: Link先を確認 | Denis Tarasov, Alexander Nikulin, Dmitry Akimov, Vladislav Kurenkov, Sergey Kolesnikov | (参考訳) CORLはオープンソースのライブラリで、オフラインとオフラインの強化学習アルゴリズムの両方で、徹底的にベンチマークされた単一ファイルの実装を提供する。
簡単なコードベースと現代的な分析追跡ツールを使って、シンプルな開発体験を強調する。
CORLでは、メソッドの実装を個別のファイルに分離し、パフォーマンス関連の詳細を認識しやすくする。
さらに、メトリクス、ハイパーパラメータ、依存関係などをクラウドにログする実験追跡機能も提供されている。
最後に、一般的なD4RLデータセットをベンチマークすることで実装の信頼性を保証し、パフォーマンスプロファイルや改善の確率、期待されるオンラインパフォーマンスなどの堅牢な評価ツールに再利用可能な、透過的な結果のソースを提供する。 CORL is an open-source library that provides thoroughly benchmarked single-file implementations of both deep offline and offline-to-online reinforcement learning algorithms. It emphasizes a simple developing experience with a straightforward codebase and a modern analysis tracking tool. In CORL, we isolate methods implementation into separate single files, making performance-relevant details easier to recognize. Additionally, an experiment tracking feature is available to help log metrics, hyperparameters, dependencies, and more to the cloud. Finally, we have ensured the reliability of the implementations by benchmarking commonly employed D4RL datasets providing a transparent source of results that can be reused for robust evaluation tools such as performance profiles, probability of improvement, or expected online performance. | 翻訳日:2023-10-30 18:56:19 公開日:2023-10-26 |
# 欠測データを用いた深層学習一般化線形モデル Deeply-Learned Generalized Linear Models with Missing Data ( http://arxiv.org/abs/2207.08911v3 ) ライセンス: Link先を確認 | David K Lim and Naim U Rashid and Junier B Oliva and Joseph G Ibrahim | (参考訳) 深層学習法(deep learning, dl)は近年急速に普及し, 生物医学における学習問題を監督する分野への応用が著しい成長を遂げている。
しかし、現代のバイオメディカルデータセットにおける欠落データの存在率と複雑さは、DL法に重大な課題をもたらしている。
本稿では,回帰問題と分類問題のための教師付きdlアーキテクチャである深層学習型線形モデルの文脈における欠落データの形式的扱いについて述べる。
本稿では,入力機能と学習時の応答の欠如の無知パターンと無知パターンの両方を柔軟に説明できる新しいアーキテクチャである「textit{dlglm}」を提案する。
統計的シミュレーションにより,MNARの欠落の有無に関わらず,教師あり学習課題に対する既存手法よりも優れていることを示す。
UCI Machine Learning Repositoryのバンクマーケティングデータセットのケーススタディで、電話調査データに基づいてクライアントが製品に加入するかどうかを予測する。
この記事の補足資料はオンラインで入手できる。 Deep Learning (DL) methods have dramatically increased in popularity in recent years, with significant growth in their application to supervised learning problems in the biomedical sciences. However, the greater prevalence and complexity of missing data in modern biomedical datasets present significant challenges for DL methods. Here, we provide a formal treatment of missing data in the context of deeply learned generalized linear models, a supervised DL architecture for regression and classification problems. We propose a new architecture, \textit{dlglm}, that is one of the first to be able to flexibly account for both ignorable and non-ignorable patterns of missingness in input features and response at training time. We demonstrate through statistical simulation that our method outperforms existing approaches for supervised learning tasks in the presence of missing not at random (MNAR) missingness. We conclude with a case study of a Bank Marketing dataset from the UCI Machine Learning Repository, in which we predict whether clients subscribed to a product based on phone survey data. Supplementary materials for this article are available online. | 翻訳日:2023-10-30 18:55:20 公開日:2023-10-26 |
# 組合せ最適化問題を解くためのアニーリングによる繰り返しニューラルネットワークの補間 Supplementing Recurrent Neural Networks with Annealing to Solve Combinatorial Optimization Problems ( http://arxiv.org/abs/2207.08189v2 ) ライセンス: Link先を確認 | Shoummo Ahsan Khandoker, Jawaril Munshad Abedin, Mohamed Hibat-Allah | (参考訳) 組合せ最適化問題は、熱ゆらぎによる大規模な探索空間内での最適解を見つけることを目的としたシミュレートアニーリング(SA)のようなヒューリスティックアルゴリズムによって解決できる。
このアルゴリズムはマルコフ連鎖モンテカルロ法による新しい解を生成する。
このサンプリングスキームは、緩やかな収束や、小さな温度で同じ局所的な探索空間に留まる傾向など、厳しい制限をもたらす可能性がある。
これらの欠点を克服するために、自動回帰リカレントニューラルネットワーク(RNN)と従来のアニーリングを組み合わせた変分古典的アニーリング(VCA)フレームワークを、非相関なサンプルソリューションに使用しています。
本稿では,実世界の最適化問題に対するアプローチとして,VCAを用いる可能性を示す。
我々は,最大カット問題 (Max-Cut) ,看護スケジューリング問題 (NSP) ,旅行セールスマン問題 (TSP) の3つの一般的な最適化問題の解法において,VCAの性能をSAと比較した。
3つの問題すべてにおいて、vcaは平均的な漸近限界において平均で1桁以上の相対誤差でsaを上回ることが分かる。
興味深いことに、TSPのシステムサイズは最大で256ドルに達する。
また、ベストケースシナリオでは、SAが最適解を見つけられなかった場合、VCAは優れた代替手段として機能する。 Combinatorial optimization problems can be solved by heuristic algorithms such as simulated annealing (SA) which aims to find the optimal solution within a large search space through thermal fluctuations. The algorithm generates new solutions through Markov-chain Monte Carlo techniques. This sampling scheme can result in severe limitations, such as slow convergence and a tendency to stay within the same local search space at small temperatures. To overcome these shortcomings, we use the variational classical annealing (VCA) framework that combines autoregressive recurrent neural networks (RNNs) with traditional annealing to sample solutions that are uncorrelated. In this paper, we demonstrate the potential of using VCA as an approach to solving real-world optimization problems. We explore VCA's performance in comparison with SA at solving three popular optimization problems: the maximum cut problem (Max-Cut), the nurse scheduling problem (NSP), and the traveling salesman problem (TSP). For all three problems, we find that VCA outperforms SA on average in the asymptotic limit by one or more orders of magnitude in terms of relative error. Interestingly, we reach large system sizes of up to $256$ cities for the TSP. We also conclude that in the best case scenario, VCA can serve as a great alternative when SA fails to find the optimal solution. | 翻訳日:2023-10-30 18:55:04 公開日:2023-10-26 |
# 有限次元量子系における精度とゆらぎのトレードオフ Trade-offs between precision and fluctuations in charging finite-dimensional quantum systems ( http://arxiv.org/abs/2303.16676v2 ) ライセンス: Link先を確認 | Pharnam Bakhshinezhad, Beniamin R. Jablonski, Felix C. Binder, Nicolai Friis | (参考訳) 量子熱力学において、多くのタスクは、しばしば量子バッテリと呼ばれる平衡外量子系で表される仕事の源を必要とするプロセスによってモデル化される。
ここでは, 循環ハミルトニアン過程を通じて荷電される熱平衡において, 有限次元量子系としてモデル化した量子電池を考える。
同一の2レベルシステムと個別のd$レベルシステムに対して、充電精度と充電中の動作変動の点で等間隔のエネルギーギャップを持つ最適または至近のプロトコルを提案する。
我々は、これらのメリットの数字と、地域およびグローバルオペレーションのパフォーマンスのトレードオフを分析する。 Within quantum thermodynamics, many tasks are modelled by processes that require work sources represented by out-of-equilibrium quantum systems, often dubbed quantum batteries, in which work can be deposited or from which work can be extracted. Here we consider quantum batteries modelled as finite-dimensional quantum systems initially in thermal equilibrium that are charged via cyclic Hamiltonian processes. We present optimal or near-optimal protocols for $N$ identical two-level systems and individual $d$-level systems with equally spaced energy gaps in terms of the charging precision and work fluctuations during the charging process. We analyze the trade-off between these figures of merit as well as the performance of local and global operations. | 翻訳日:2023-10-30 18:46:28 公開日:2023-10-26 |
# 量子気象学における一般化条件予測の操作意味 Operational meanings of a generalized conditional expectation in quantum metrology ( http://arxiv.org/abs/2212.13162v6 ) ライセンス: Link先を確認 | Mankei Tsang | (参考訳) 量子力学に対する一般化条件付き期待(gce)の統一的形式論が最近浮上しているが、量子観測可能性の遡及に関する物理的意義は議論を呼んでいる。
ここでは、量子パラメータ推定の文脈において、GCEのバージョンに対して運用上の意味を提供する。
量子センサがデコヒーレンスによって破損した場合、GCEはデコヒーレンス前後の演算子値の最適推定器を関連付ける。
さらに、デコヒーレンスに起因する誤りの増加または後悔は、2つの推定器間のばらつきに等しいことが示される。
GCEの特別な場合における真の弱い値は、最適推定において同じ役割を果たす。
gceのアプリケーションでは、推定誤差を最小限に抑えるコントローラを設計するために動的プログラミングが利用可能であることを示します。
頻繁な設定については、GCEが量子的ラオ・ブラックウェルの定理を導いており、特に量子距離論と熱-光の感知に重要な意味を持つことを示す。
これらの結果から、GCEと関連する発散は、量子決定と制御理論において自然で有用で不可逆的な役割を果たす。 A unifying formalism of generalized conditional expectations (GCEs) for quantum mechanics has recently emerged, but its physical implications regarding the retrodiction of a quantum observable remain controversial. To address the controversy, here I offer operational meanings for a version of the GCEs in the context of quantum parameter estimation. When a quantum sensor is corrupted by decoherence, the GCE is found to relate the operator-valued optimal estimators before and after the decoherence. Furthermore, the error increase, or regret, caused by the decoherence is shown to be equal to a divergence between the two estimators. The real weak value as a special case of the GCE plays the same role in suboptimal estimation -- its divergence from the optimal estimator is precisely the regret for not using the optimal measurement. For an application of the GCE, I show that it enables the use of dynamic programming for designing a controller that minimizes the estimation error. For the frequentist setting, I show that the GCE leads to a quantum Rao-Blackwell theorem, which offers significant implications for quantum metrology and thermal-light sensing in particular. These results give the GCE and the associated divergence a natural, useful, and incontrovertible role in quantum decision and control theory. | 翻訳日:2023-10-30 18:42:11 公開日:2023-10-26 |
# zip-nerf:アンチエイリアスグリッドベースのニューラルネットワーク Zip-NeRF: Anti-Aliased Grid-Based Neural Radiance Fields ( http://arxiv.org/abs/2304.06706v3 ) ライセンス: Link先を確認 | Jonathan T. Barron, Ben Mildenhall, Dor Verbin, Pratul P. Srinivasan, Peter Hedman | (参考訳) ニューラルレージアンスフィールドトレーニングは、空間座標から色と体積密度への学習マッピングにおけるグリッドベースの表現を使用することで加速することができる。
しかし、これらのグリッドベースのアプローチはスケールの明確な理解を欠いているため、通常はジャギーやシーン内容の欠如という形でエイリアスを導入することが多い。
Mip-NeRF 360は、線に沿った点ではなく、円錐に沿ってサブボリュームを発生させるが、このアプローチは現在のグリッドベースの技術とネイティブに互換性がない。
我々は,mip-nerf 360 と instant ngp のようなグリッドベースモデルを組み合わせて,従来の手法よりも 8% - 77% 低い誤差率を実現し,mip-nerf 360 よりも 24 倍高速にトレーニングする手法を,レンダリングと信号処理のアイデアを用いて構築する方法を示す。 Neural Radiance Field training can be accelerated through the use of grid-based representations in NeRF's learned mapping from spatial coordinates to colors and volumetric density. However, these grid-based approaches lack an explicit understanding of scale and therefore often introduce aliasing, usually in the form of jaggies or missing scene content. Anti-aliasing has previously been addressed by mip-NeRF 360, which reasons about sub-volumes along a cone rather than points along a ray, but this approach is not natively compatible with current grid-based techniques. We show how ideas from rendering and signal processing can be used to construct a technique that combines mip-NeRF 360 and grid-based models such as Instant NGP to yield error rates that are 8% - 77% lower than either prior technique, and that trains 24x faster than mip-NeRF 360. | 翻訳日:2023-10-30 18:33:54 公開日:2023-10-26 |
# 故障予測のためのディープラーニングモデルの系統的評価 Systematic Evaluation of Deep Learning Models for Failure Prediction ( http://arxiv.org/abs/2303.07230v2 ) ライセンス: Link先を確認 | Fatemeh Hadadi, Joshua H. Dawes, Donghwan Shin, Domenico Bianculli, Lionel Briand | (参考訳) ソフトウェアシステムの複雑さとスコープが増大するにつれ、その信頼性は不可欠である。
システム実行中に記録されたログデータの解析により、エンジニアは実行時に自動的に障害を予測できる。
このようなタスクを自動化するために、従来のMLやディープラーニング(DL)を含む機械学習(ML)技術が提案されている。
しかしながら、現在の実証研究は、すべての主要なDLタイプ - Recurrent Neural Network (RNN)、Convolutional Neural Network (CNN)、Transformer -- をカバーするとともに、幅広い多様なデータセットでそれらを調べるという観点で限定されている。
本稿では、障害予測のためのログデータ埋め込み戦略とDLタイプの組み合わせを体系的に検討し、これらの課題に対処することを目的とする。
そこで我々は,組込み戦略とDLベースのエンコーダの様々な構成に対応するモジュールアーキテクチャを提案する。
さらに,データセットサイズや故障率などのデータセット特性がモデル精度にどのように影響するかを検討するために,系統的および自動生成アプローチに基づく3つの異なるシステム行動モデルに対して,異なる特徴を持つ360データセットを合成した。
また,F1スコア測定値を用いて,Logkey2vecを用いたCNNベースのエンコーダが最適であることを示す。
さらに,データセットサイズが350以上,障害率が7.5%以上という,特定のデータセット条件を提供する。 With the increasing complexity and scope of software systems, their dependability is crucial. The analysis of log data recorded during system execution can enable engineers to automatically predict failures at run time. Several Machine Learning (ML) techniques, including traditional ML and Deep Learning (DL), have been proposed to automate such tasks. However, current empirical studies are limited in terms of covering all main DL types -- Recurrent Neural Network (RNN), Convolutional Neural network (CNN), and transformer -- as well as examining them on a wide range of diverse datasets. In this paper, we aim to address these issues by systematically investigating the combination of log data embedding strategies and DL types for failure prediction. To that end, we propose a modular architecture to accommodate various configurations of embedding strategies and DL-based encoders. To further investigate how dataset characteristics such as dataset size and failure percentage affect model accuracy, we synthesised 360 datasets, with varying characteristics, for three distinct system behavioral models, based on a systematic and automated generation approach. Using the F1 score metric, our results show that the best overall performing configuration is a CNN-based encoder with Logkey2vec. Additionally, we provide specific dataset conditions, namely a dataset size >350 or a failure percentage >7.5%, under which this configuration demonstrates high accuracy for failure prediction. | 翻訳日:2023-10-30 18:31:01 公開日:2023-10-26 |
# retinexformer:低光度画像強調用1段retinexベースのトランス Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement ( http://arxiv.org/abs/2303.06705v3 ) ライセンス: Link先を確認 | Yuanhao Cai, Hao Bian, Jing Lin, Haoqian Wang, Radu Timofte, Yulun Zhang | (参考訳) 低照度画像を強化する場合、多くのディープラーニングアルゴリズムはretinex理論に基づいている。
しかし、Retinexモデルは、暗黒に隠されたり、ライトアッププロセスによって導入された汚職を考慮していない。
さらに、これらの手法は通常、面倒なマルチステージトレーニングパイプラインを必要とし、畳み込みニューラルネットワークに依存し、長距離依存関係をキャプチャする際の制限を示す。
本稿では,単純な一段階Retinex-based Framework (ORF) を定式化する。
ORFはまず照明情報を推定し、低照度画像を照らす。
我々は照明表現を利用した照明誘導変換器(IGT)を設計し、照明条件の異なる領域の非局所的な相互作用をモデル化する。
IGTをORFに接続することで、我々のアルゴリズムであるRetinexformerを得る。
我々のRetinexformerは13のベンチマークで最先端の手法を大幅に上回っている。
低照度物体検出のユーザスタディと応用により,本手法の実用的価値も明らかにした。
コード、モデル、結果はhttps://github.com/caiyuanhao1998/retinexformerで入手できる。 When enhancing low-light images, many deep learning algorithms are based on the Retinex theory. However, the Retinex model does not consider the corruptions hidden in the dark or introduced by the light-up process. Besides, these methods usually require a tedious multi-stage training pipeline and rely on convolutional neural networks, showing limitations in capturing long-range dependencies. In this paper, we formulate a simple yet principled One-stage Retinex-based Framework (ORF). ORF first estimates the illumination information to light up the low-light image and then restores the corruption to produce the enhanced image. We design an Illumination-Guided Transformer (IGT) that utilizes illumination representations to direct the modeling of non-local interactions of regions with different lighting conditions. By plugging IGT into ORF, we obtain our algorithm, Retinexformer. Comprehensive quantitative and qualitative experiments demonstrate that our Retinexformer significantly outperforms state-of-the-art methods on thirteen benchmarks. The user study and application on low-light object detection also reveal the latent practical values of our method. Code, models, and results are available at https://github.com/caiyuanhao1998/Retinexformer | 翻訳日:2023-10-30 18:30:36 公開日:2023-10-26 |
# リプシッツニューラルネットワークに関する統一代数的視点 A Unified Algebraic Perspective on Lipschitz Neural Networks ( http://arxiv.org/abs/2303.03169v2 ) ライセンス: Link先を確認 | Alexandre Araujo, Aaron Havens, Blaise Delattre, Alexandre Allauzen, Bin Hu | (参考訳) 重要な研究は、制御されたリプシッツ定数を持つニューラルネットワークの設計と訓練に焦点を当てている。
目標は、敵の攻撃に対する堅牢性を高め、時には保証することである。
最近の有望な技術は、異なる背景からインスピレーションを得て、1-Lipschitzニューラルネットワークを設計する。 連続力学系の離散化から導かれる凸ポテンシャル層(convex potential layer)は、行列再スケーリングのための調整された方法を提案する。
しかし、今日では、新しく改良された層をより良く設計するための共通の理論レンズの下で、この分野における最近の有望な貢献を考えることが重要である。
本稿では,前述した手法を含む様々なタイプの1-リプシッツニューラルネットワークと,直交法とスペクトル法に基づく手法を統一した,新しい代数的視点を提案する。
興味深いことに,sdp (common semidefinite programming) 条件の解析解を求めることにより,既存の手法の多くを導出し,一般化できることが示されている。
また、AOLは、ある数学的方法で直交行列の集合に近いものに対して、スケールした重量を偏っていることを証明しています。
さらに、ゲルシュゴリンの円定理と組み合わされた代数的条件は、1-リプシッツネットワーク層に対する新しい多様なパラメータ化をもたらす。
SDPベースのLipschitz Layers (SLL)と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
最後に,画像分類実験の包括的集合は,sllが認証されたロバスト精度に対する従来のアプローチよりも優れていることを示している。
コードはhttps://github.com/araujoalexandre/Lipschitz-SLL-Networksで公開されている。 Important research efforts have focused on the design and training of neural networks with a controlled Lipschitz constant. The goal is to increase and sometimes guarantee the robustness against adversarial attacks. Recent promising techniques draw inspirations from different backgrounds to design 1-Lipschitz neural networks, just to name a few: convex potential layers derive from the discretization of continuous dynamical systems, Almost-Orthogonal-Layer proposes a tailored method for matrix rescaling. However, it is today important to consider the recent and promising contributions in the field under a common theoretical lens to better design new and improved layers. This paper introduces a novel algebraic perspective unifying various types of 1-Lipschitz neural networks, including the ones previously mentioned, along with methods based on orthogonality and spectral methods. Interestingly, we show that many existing techniques can be derived and generalized via finding analytical solutions of a common semidefinite programming (SDP) condition. We also prove that AOL biases the scaled weight to the ones which are close to the set of orthogonal matrices in a certain mathematical manner. Moreover, our algebraic condition, combined with the Gershgorin circle theorem, readily leads to new and diverse parameterizations for 1-Lipschitz network layers. Our approach, called SDP-based Lipschitz Layers (SLL), allows us to design non-trivial yet efficient generalization of convex potential layers. Finally, the comprehensive set of experiments on image classification shows that SLLs outperform previous approaches on certified robust accuracy. Code is available at https://github.com/araujoalexandre/Lipschitz-SLL-Networks. | 翻訳日:2023-10-30 18:29:50 公開日:2023-10-26 |
# 視覚オブジェクトを推論する学習 Learning to reason over visual objects ( http://arxiv.org/abs/2303.02260v2 ) ライセンス: Link先を確認 | Shanka Subhra Mondal, Taylor Webb, Jonathan D. Cohen | (参考訳) 人間の知性の中核的な構成要素は、Raven's Progressive Matrices (RPM)のような視覚的推論タスクによって実証された、複雑な高次元知覚データに固有の抽象パターンを識別する能力である。
この能力でAIシステムを設計するという目標を掲げた最近の研究は、ニューラルネットワークがRPMのような問題を解決することができるかどうかを評価することに重点を置いている。
従来の研究では、これらの問題に対する強い性能は、RPM問題形式に特有の帰納的バイアスを組み込むことを必要としており、そのようなモデルがより広範に有用かどうかという疑問が提起されていた。
本研究では,視覚シーンの汎用的処理機構が,抽象的視覚推論の促進にどの程度役立つかを検討した。
対象中心エンコーダとトランスフォーマー推論モジュールのみからなる単純なモデルは,rpmライクな2つのベンチマーク(pgmとi-raven)と,視覚複雑性(clevr-matrices)の高い新しいベンチマーク(clevr-matrices)の両方において最先端の結果を得た。
これらの結果は、オブジェクト中心の処理に対する帰納的バイアスは抽象的視覚的推論の重要な要素であり、問題固有の帰納的バイアスの必要性を暗示している。 A core component of human intelligence is the ability to identify abstract patterns inherent in complex, high-dimensional perceptual data, as exemplified by visual reasoning tasks such as Raven's Progressive Matrices (RPM). Motivated by the goal of designing AI systems with this capacity, recent work has focused on evaluating whether neural networks can learn to solve RPM-like problems. Previous work has generally found that strong performance on these problems requires the incorporation of inductive biases that are specific to the RPM problem format, raising the question of whether such models might be more broadly useful. Here, we investigated the extent to which a general-purpose mechanism for processing visual scenes in terms of objects might help promote abstract visual reasoning. We found that a simple model, consisting only of an object-centric encoder and a transformer reasoning module, achieved state-of-the-art results on both of two challenging RPM-like benchmarks (PGM and I-RAVEN), as well as a novel benchmark with greater visual complexity (CLEVR-Matrices). These results suggest that an inductive bias for object-centric processing may be a key component of abstract visual reasoning, obviating the need for problem-specific inductive biases. | 翻訳日:2023-10-30 18:29:21 公開日:2023-10-26 |
# curve your enthusiasm: 微分可能一般化加法モデルにおけるconcurvity regularization Curve Your Enthusiasm: Concurvity Regularization in Differentiable Generalized Additive Models ( http://arxiv.org/abs/2305.11475v2 ) ライセンス: Link先を確認 | Julien Siems, Konstantin Ditschuneit, Winfried Ripken, Alma Lindborg, Maximilian Schambach, Johannes S. Otterbach, Martin Genzel | (参考訳) 一般化加法モデル(GAM)は、最近、その解釈可能性によって、特徴の非線形変換の和として目的値を表現することから、人気が回復した。
GAMに対する現在の熱意にもかかわらず、その不確実性への感受性、すなわち機能間の(おそらく非線形ではない)依存関係は、ほとんど見過ごされてしまった。
本稿では, コンカービリティがガンの解釈可能性に悪影響を及ぼすことを実証し, 非線型変換された特徴変数の対関係をペナライズする概念的単純かつ効果的な正則化法を提案する。
この手順は、Neural Additive ModelsやNeuralProphetなど、任意の微分可能な付加モデルに適用でき、自己キャンセル機能によるあいまいさを排除して解釈性を高める。
時系列および表データのための実世界のデータセットと合成実験における正規化器の有効性を検証する。
実験の結果,GAMの精度は予測品質を著しく損なうことなく低下し,解釈性が向上し,特徴量のばらつきを低減できることがわかった。 Generalized Additive Models (GAMs) have recently experienced a resurgence in popularity due to their interpretability, which arises from expressing the target value as a sum of non-linear transformations of the features. Despite the current enthusiasm for GAMs, their susceptibility to concurvity - i.e., (possibly non-linear) dependencies between the features - has hitherto been largely overlooked. Here, we demonstrate how concurvity can severly impair the interpretability of GAMs and propose a remedy: a conceptually simple, yet effective regularizer which penalizes pairwise correlations of the non-linearly transformed feature variables. This procedure is applicable to any differentiable additive model, such as Neural Additive Models or NeuralProphet, and enhances interpretability by eliminating ambiguities due to self-canceling feature contributions. We validate the effectiveness of our regularizer in experiments on synthetic as well as real-world datasets for time-series and tabular data. Our experiments show that concurvity in GAMs can be reduced without significantly compromising prediction quality, improving interpretability and reducing variance in the feature importances. | 翻訳日:2023-10-30 18:20:43 公開日:2023-10-26 |
# mLongT5: より長いシーケンスのための多言語で効率的なテキスト間変換器 mLongT5: A Multilingual and Efficient Text-To-Text Transformer for Longer Sequences ( http://arxiv.org/abs/2305.11129v2 ) ライセンス: Link先を確認 | David Uthus, Santiago Onta\~n\'on, Joshua Ainslie, Mandy Guo | (参考訳) 本稿では,長文入力処理に適した多言語・高能率テキスト変換器の開発について述べる。
このモデルはmLongT5と呼ばれ、LongT5のアーキテクチャの上に構築され、mT5の事前トレーニングとUL2の事前トレーニングタスクに使用される多言語データセットを活用する。
このモデルを多言語要約および質問応答タスクで評価し,mBARTやM-BERTといった既存の多言語モデルと比較してmLongT5の性能が向上した。 We present our work on developing a multilingual, efficient text-to-text transformer that is suitable for handling long inputs. This model, called mLongT5, builds upon the architecture of LongT5, while leveraging the multilingual datasets used for pretraining mT5 and the pretraining tasks of UL2. We evaluate this model on a variety of multilingual summarization and question-answering tasks, and the results show stronger performance for mLongT5 when compared to existing multilingual models such as mBART or M-BERT. | 翻訳日:2023-10-30 18:20:13 公開日:2023-10-26 |
# unlearnを学ぶ: 機械学習に関する調査 Learn to Unlearn: A Survey on Machine Unlearning ( http://arxiv.org/abs/2305.07512v2 ) ライセンス: Link先を確認 | Youyang Qu, Xin Yuan, Ming Ding, Wei Ni, Thierry Rakotoarivelo, David Smith | (参考訳) 機械学習(ML)モデルは、機密情報を潜在的に漏洩させることで、ML駆動アプリケーションにおけるプライバシー上の懸念を引き起こすことが示されている。
このことは、訓練されたMLモデルから特定のデータサンプルの影響を取り除くという最近の研究に影響を与えた。
このような効率的な除去により、MLは多くの法律で「忘れられる権利」に従うことができ、低品質または有毒なサンプルのパフォーマンスボトルネックにも対処できる。
この文脈では、モデルをスクラッチから再トレーニングするしばしば不可能になるアプローチの代替として、モデルに指定されたデータサンプルの寄与を消去する機械学習手法が提案されている。
本稿では,最近の機械学習技術,検証機構,潜在的な攻撃について概観する。
新たな課題と今後の研究の方向性(レジリエンスや公正性の懸念など)をさらに強調する。
本論文は,MLシステムにプライバシ,エクイティ,レジリエンスを統合する上で貴重なリソースを提供することを目標としている。 Machine Learning (ML) models have been shown to potentially leak sensitive information, thus raising privacy concerns in ML-driven applications. This inspired recent research on removing the influence of specific data samples from a trained ML model. Such efficient removal would enable ML to comply with the "right to be forgotten" in many legislation, and could also address performance bottlenecks from low-quality or poisonous samples. In that context, machine unlearning methods have been proposed to erase the contributions of designated data samples on models, as an alternative to the often impracticable approach of retraining models from scratch. This article presents a comprehensive review of recent machine unlearning techniques, verification mechanisms, and potential attacks. We further highlight emerging challenges and prospective research directions (e.g. resilience and fairness concerns). We aim for this paper to provide valuable resources for integrating privacy, equity, andresilience into ML systems and help them "learn to unlearn". | 翻訳日:2023-10-30 18:18:56 公開日:2023-10-26 |
# エキゾチックなトランスバーサルゲートを持つ量子符号の一家系 A Family of Quantum Codes with Exotic Transversal Gates ( http://arxiv.org/abs/2305.07023v4 ) ライセンス: Link先を確認 | Eric Kubischta and Ian Teixeira | (参考訳) 最近、二進イコサヘドラル群 $\2I$ と$T$のようなゲートが、最も効率的なシングルキュービット普遍ゲート集合を形成するアルゴリズムが構築されている。
アルゴリズムのフォールトトレラントな実行には、$\ico$transversallyを実装するコードが必要である。
しかし、そのようなコードは文献で実証されていない。
この空白を埋めるために、距離 $d = 3$ コードの集合を構築します。
このファミリーの驚くべき特徴は、コードは2Iドルしか払えない対称性の考慮から完全に推論できるということだ。 Recently an algorithm has been constructed that shows the binary icosahedral group $\2I$ together with a $T$-like gate forms the most efficient single-qubit universal gate set. To carry out the algorithm fault tolerantly requires a code that implements $\ico$ transversally. However, no such code has ever been demonstrated in the literature. We fill this void by constructing a family of distance $d = 3$ codes that all implement $2I$ transversally. A surprising feature of this family is that the codes can be deduced entirely from symmetry considerations that only $2I$ affords. | 翻訳日:2023-10-30 18:18:37 公開日:2023-10-26 |
# 変圧器言語モデルの性能に及ぼすサブワードセグメンテーションの影響 Effects of sub-word segmentation on performance of transformer language models ( http://arxiv.org/abs/2305.05480v3 ) ライセンス: Link先を確認 | Jue Hou, Anisia Katinskaia, Anh-Duc Vu and Roman Yangarber | (参考訳) 言語モデリングは自然言語処理の基本的な課題であり、様々なアーキテクチャやハイパーパラメータで徹底的に研究されてきた。
しかし、サブワードセグメンテーションが言語モデル(LM)の性能に与える影響に注目する研究はほとんどない。
本稿では,統計的セグメンテーションアルゴリズム(BPE)とモーフソルとステートモルフの2つの教師なしアルゴリズム(MorfessorとStateMorph)で訓練されたGPTモデルとBERTモデルを比較し,その性能を異なるセグメンテーションアルゴリズム,語彙サイズ,モデルサイズと比較する。
その結果, 形態的セグメンテーションによるトレーニングにより, LMは以下のようになることがわかった。
1. 難易度を低くする
2 訓練時間の観点からより効率的に収束し、
3. 下流タスクで同等またはより良い評価スコアを達成する。
最後に示すのは
4) 形態的セグメンテーションを用いた小サイズのLMは,(1)パープレキシティ,(3)下流タスクにおけるスコアの両面において,BPEで訓練したより大きなサイズのモデルに比較可能であった。
ポイント(2)と(4)はモデルコスト:サイズと計算時間を減らすため、lmsの持続性に影響を与える。
2) はトレーニング段階でのみコストを削減するが、(4) は推論段階でもコストを削減する。 Language modeling is a fundamental task in natural language processing, which has been thoroughly explored with various architectures and hyperparameters. However, few studies focus on the effect of sub-word segmentation on the performance of language models (LMs). In this paper, we compare GPT and BERT models trained with the statistical segmentation algorithm BPE vs. two unsupervised algorithms for morphological segmentation -- Morfessor and StateMorph. We train the models for several languages -- including ones with very rich morphology -- and compare their performance with different segmentation algorithms, vocabulary sizes, and model sizes. The results show that training with morphological segmentation allows the LMs to: 1. achieve lower perplexity, 2. converge more efficiently in terms of training time, and 3. achieve equivalent or better evaluation scores on downstream tasks. Lastly, we show 4. that LMs of smaller size using morphological segmentation can perform comparably to models of larger size trained with BPE -- both in terms of (1) perplexity and (3) scores on downstream tasks. Points (2) and (4) impact on sustainability of LMs, since they reduce the model cost: size and computation time. While (2) reduces cost only in the training phase, (4) does so also in the inference phase. | 翻訳日:2023-10-30 18:18:15 公開日:2023-10-26 |
# ゼロショット学習を用いた企業分類 Company classification using zero-shot learning ( http://arxiv.org/abs/2305.01028v2 ) ライセンス: Link先を確認 | Maryan Rizinski, Andrej Jankov, Vignesh Sankaradas, Eugene Pinsky, Igor Miskovski, Dimitar Trajanov | (参考訳) 近年,感情分析,テキスト分類,名前付きエンティティ認識など,さまざまなビジネスアプリケーションにおいて自然言語処理(NLP)の重要性が高まっている。
本論文では,NLPとゼロショット学習を用いた企業分類手法を提案する。
本手法は,事前に学習したトランスフォーマモデルを用いて企業説明から特徴を抽出し,各カテゴリの特定のトレーニングデータを必要としない企業を関連カテゴリに分類する。
我々は、上場企業のテキスト記述を含むwharton research data services (wrds) によって得られたデータセットに対するアプローチを評価した。
本稿では,企業分類のプロセスの合理化を図り,グローバル産業分類基準(GICS)などの従来の手法で必要とされる時間と資源を削減できることを実証する。
その結果, この手法は企業分類の自動化の可能性を秘めており, 今後の研究の道筋として有望であることがわかった。 In recent years, natural language processing (NLP) has become increasingly important in a variety of business applications, including sentiment analysis, text classification, and named entity recognition. In this paper, we propose an approach for company classification using NLP and zero-shot learning. Our method utilizes pre-trained transformer models to extract features from company descriptions, and then applies zero-shot learning to classify companies into relevant categories without the need for specific training data for each category. We evaluate our approach on a dataset obtained through the Wharton Research Data Services (WRDS), which comprises textual descriptions of publicly traded companies. We demonstrate that the approach can streamline the process of company classification, thereby reducing the time and resources required in traditional approaches such as the Global Industry Classification Standard (GICS). The results show that this method has potential for automation of company classification, making it a promising avenue for future research in this area. | 翻訳日:2023-10-30 18:17:10 公開日:2023-10-26 |
# プラグイン性能最適化 Plug-in Performative Optimization ( http://arxiv.org/abs/2305.18728v2 ) ライセンス: Link先を確認 | Licong Lin, Tijana Zrnic | (参考訳) 予測が実行された場合、どの予測器をデプロイするかの選択は将来の観測の分布に影響を与える。
演奏性の下での学習における過大な目標とは、低い‘emph{performative risk}’、すなわち、誘導分布における優れたパフォーマンスを持つ予測子を見つけることである。
バンディットやその他の微分自由法を含むパフォーマンスリスクを最適化する解の族は、パフォーマンスフィードバックのいかなる構造にも依存せず、収束率が極端に遅い。
補完的な解の族は、戦略的分類における最良の応答モデルのようなフィードバックに明示的な \emph{models} を利用する。
しかし、これらのレートはフィードバックモデルが十分に特定されていることに依存している。
この研究では、性能予測におけるおそらく \emph{misspecified} モデルの使用に関する研究を開始する。
モデルを利用するための一般的なプロトコルである \emph{plug-in performative optimization} を研究し、その過剰なリスクの境界を証明する。
私たちは、プラグインの実行最適化がモデルに依存しない戦略よりもずっと効率的であることを示します。
いずれにせよ,本研究の結果は,モデルが不特定であっても,実行条件下での学習に役立つという仮説を支持している。 When predictions are performative, the choice of which predictor to deploy influences the distribution of future observations. The overarching goal in learning under performativity is to find a predictor that has low \emph{performative risk}, that is, good performance on its induced distribution. One family of solutions for optimizing the performative risk, including bandits and other derivative-free methods, is agnostic to any structure in the performative feedback, leading to exceedingly slow convergence rates. A complementary family of solutions makes use of explicit \emph{models} for the feedback, such as best-response models in strategic classification, enabling significantly faster rates. However, these rates critically rely on the feedback model being well-specified. In this work we initiate a study of the use of possibly \emph{misspecified} models in performative prediction. We study a general protocol for making use of models, called \emph{plug-in performative optimization}, and prove bounds on its excess risk. We show that plug-in performative optimization can be far more efficient than model-agnostic strategies, as long as the misspecification is not too extreme. Altogether, our results support the hypothesis that models--even if misspecified--can indeed help with learning in performative settings. | 翻訳日:2023-10-30 18:09:32 公開日:2023-10-26 |
# 大規模言語モデルにおける実体バイアスの因果的見方 A Causal View of Entity Bias in (Large) Language Models ( http://arxiv.org/abs/2305.14695v2 ) ライセンス: Link先を確認 | Fei Wang, Wenjie Mo, Yiwei Wang, Wenxuan Zhou, Muhao Chen | (参考訳) エンティティバイアスは事前訓練された(大規模な)言語モデルに大きく影響し、不信な予測を行うためにパラメトリックな知識に依存する。
因果性に触発された手法は、実体バイアスを緩和する大きな可能性を示したが、実際に基礎となる因果モデルのパラメータを正確に推定することは困難である。
ブラックボックスLSMの台頭は、アクセス不能なパラメータと未調整のロジットのため、事態をさらに悪化させる。
これらの問題に対処するため、パラメーターが比較的容易に推定できる特定の構造因果モデル(SCM)を提案する。
このSCMに基づいて、ホワイトボックスとブラックボックスの設定の両方において、エンティティバイアスを軽減する因果介入手法を提案する。
提案された因果的介入は、元のエンティティと隣のエンティティを摂動させる。
この介入は、同じエンティティから十分な意味情報を保存しながら、元のエンティティに関連する特定のバイアス情報を減らす。
ホワイトボックス設定では,関係抽出(re)および機械読解(mrc)におけるplmのood性能を,それぞれ5.7ポイント,9.1ポイント改善した。
ブラックボックス設定下では, 文脈内介入は, GPT-3.5の実体に基づく知識紛争を効果的に軽減し, MRCの正確な一致精度を最大20.5ポイント, REの記憶率を最大17.6ポイント向上させる。
私たちのコードはhttps://github.com/luka-group/Causal-View-of-Entity-Biasで利用可能です。 Entity bias widely affects pretrained (large) language models, causing them to rely on (biased) parametric knowledge to make unfaithful predictions. Although causality-inspired methods have shown great potential to mitigate entity bias, it is hard to precisely estimate the parameters of underlying causal models in practice. The rise of black-box LLMs also makes the situation even worse, because of their inaccessible parameters and uncalibrated logits. To address these problems, we propose a specific structured causal model (SCM) whose parameters are comparatively easier to estimate. Building upon this SCM, we propose causal intervention techniques to mitigate entity bias for both white-box and black-box settings. The proposed causal intervention perturbs the original entity with neighboring entities. This intervention reduces specific biasing information pertaining to the original entity while still preserving sufficient semantic information from similar entities. Under the white-box setting, our training-time intervention improves OOD performance of PLMs on relation extraction (RE) and machine reading comprehension (MRC) by 5.7 points and by 9.1 points, respectively. Under the black-box setting, our in-context intervention effectively reduces the entity-based knowledge conflicts of GPT-3.5, achieving up to 20.5 points of improvement of exact match accuracy on MRC and up to 17.6 points of reduction in memorization ratio on RE. Our code is available at https://github.com/luka-group/Causal-View-of-Entity-Bias. | 翻訳日:2023-10-30 18:07:03 公開日:2023-10-26 |
# INSTRUCTSCORE:きめ細かいフィードバックによる説明可能なテキスト生成評価 INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained Feedback ( http://arxiv.org/abs/2305.14282v3 ) ライセンス: Link先を確認 | Wenda Xu, Danqing Wang, Liangming Pan, Zhenqiao Song, Markus Freitag, William Yang Wang, Lei Li | (参考訳) 言語生成の品質を自動評価することが重要である。
近年の学習指標は人間の判断と高い相関性を示すが、これらの指標は評価を説明できないし、結果が生成したテキストの欠陥と関連付けることもできない。
この制限に対処するために,テキスト生成のための説明可能な評価指標であるinstructscoreを提案する。
GPT-4の明示的な人的指導と暗黙的な知識の両方を活用することで、LLaMAに基づくテキスト評価基準を微調整し、生成されたテキストのスコアと可読性診断レポートの両方を生成する。
翻訳,キャプション,データ・ツー・テキスト,コモンセンス生成など,様々な生成タスクにおいてinstructscoreを評価する。
実験の結果、我々の7Bモデルは175B GPT-3 や GPT-4 など、他の教師なしの指標を上回ることがわかった。
驚いたことに、私たちのInstructScoreは、人間の評価データを直接監督しなくても、人間の評価に基づいて微調整されたCOMET22のような最先端のメトリクスと同等のパフォーマンスレベルを達成する。 Automatically evaluating the quality of language generation is critical. Although recent learned metrics show high correlation with human judgement, these metrics can not explain their verdict or associate the scores with defects in generated text. To address this limitation, we present InstructScore, an explainable evaluation metric for text generation. By harnessing both explicit human instruction and the implicit knowledge of GPT-4, we fine-tune a text evaluation metric based on LLaMA, producing both a score for generated text and a human readable diagnostic report. We evaluate InstructScore on a variety of generation tasks, including translation, captioning, data-to-text and commonsense generation. Experiments show that our 7B model surpasses all other unsupervised metrics, including those based on 175B GPT-3 and GPT-4. Surprisingly, our InstructScore, even without direct supervision from human-rated data, achieves performance levels on par with state-of-the-art metrics like COMET22, which were fine-tuned on human ratings. | 翻訳日:2023-10-30 18:06:38 公開日:2023-10-26 |
# 大規模言語モデルによる誤情報汚染のリスクについて On the Risk of Misinformation Pollution with Large Language Models ( http://arxiv.org/abs/2305.13661v2 ) ライセンス: Link先を確認 | Yikang Pan, Liangming Pan, Wenhu Chen, Preslav Nakov, Min-Yen Kan, William Yang Wang | (参考訳) 本稿では,情報集約型アプリケーション,特にオープンドメイン質問回答システム(ODQA)における,信頼度の高い誤情報を生成するための現代大規模言語モデル(LLM)の誤用の可能性について,包括的に検討する。
脅威モデルを構築し,意図的および意図的の両方において潜在的誤用シナリオをシミュレートし,LSMが誤情報を生成できる範囲を評価する。
本研究は,LDMが効果的な誤情報発生器として機能し,ODQAシステムの性能が著しく低下することを明らかにする。
LLMが生成した誤情報による被害を軽減するため、我々は3つの防衛戦略を探索する: 促進、誤情報検出、多数決。
最初の結果はこれらの防衛戦略に有望な傾向を示しているが、誤った情報汚染の課題に対処するためにもっと多くの作業が必要である。
本研究は,LLM生成誤報に対処し,LCMの責任ある利用を促進するために,さらなる研究と学際協力の必要性を強調するものである。 In this paper, we comprehensively investigate the potential misuse of modern Large Language Models (LLMs) for generating credible-sounding misinformation and its subsequent impact on information-intensive applications, particularly Open-Domain Question Answering (ODQA) systems. We establish a threat model and simulate potential misuse scenarios, both unintentional and intentional, to assess the extent to which LLMs can be utilized to produce misinformation. Our study reveals that LLMs can act as effective misinformation generators, leading to a significant degradation in the performance of ODQA systems. To mitigate the harm caused by LLM-generated misinformation, we explore three defense strategies: prompting, misinformation detection, and majority voting. While initial results show promising trends for these defensive strategies, much more work needs to be done to address the challenge of misinformation pollution. Our work highlights the need for further research and interdisciplinary collaboration to address LLM-generated misinformation and to promote responsible use of LLMs. | 翻訳日:2023-10-30 18:05:12 公開日:2023-10-26 |
# ブラインド逆問題に対するブロックコーディネートプラグアンドプレイ法 Block Coordinate Plug-and-Play Methods for Blind Inverse Problems ( http://arxiv.org/abs/2305.12672v2 ) ライセンス: Link先を確認 | Weijie Gan, Shirin Shoushtari, Yuyang Hu, Jiaming Liu, Hongyu An, Ulugbek S. Kamilov | (参考訳) プラグ・アンド・プレイ (Plug-and-play, PnP) は、物理測定モデルと学習画像復号器を組み合わせた演算子の固定点を計算することで、逆問題の解法としてよく知られた手法である。
pnp法は既知の測定演算子による画像復元に広く用いられてきたが、ブラインド逆問題を解くためのpnpの作業はほとんどない。
未知の画像と未知の測定演算子の両方に先行する学習デノイザを導入することにより、この結合推定問題を効率的に解決するブロックコーディネートPnP(BC-PnP)法を提案することにより、このギャップに対処する。
我々は,BC-PnPの非凸データ忠実度項と拡張デノイザを考慮し,ブラインド逆問題に適合する新しい収束理論を提案する。
我々の理論は、BC-PnPの最小二乗誤差(MMSE)に付随する暗黙関数の定常点への収束を解析する。
磁気共鳴画像(MRI)における自動コイル感度推定とブラインド画像の劣化の2つの問題に対して,本手法を数値的に検証した。
以上の結果から,bc-pnpはデノワザをpnpプリミティブとして用いるための効率的かつ原則的な枠組みを提供し,測定演算子と画像の同時推定を行う。 Plug-and-play (PnP) prior is a well-known class of methods for solving imaging inverse problems by computing fixed-points of operators combining physical measurement models and learned image denoisers. While PnP methods have been extensively used for image recovery with known measurement operators, there is little work on PnP for solving blind inverse problems. We address this gap by presenting a new block-coordinate PnP (BC-PnP) method that efficiently solves this joint estimation problem by introducing learned denoisers as priors on both the unknown image and the unknown measurement operator. We present a new convergence theory for BC-PnP compatible with blind inverse problems by considering nonconvex data-fidelity terms and expansive denoisers. Our theory analyzes the convergence of BC-PnP to a stationary point of an implicit function associated with an approximate minimum mean-squared error (MMSE) denoiser. We numerically validate our method on two blind inverse problems: automatic coil sensitivity estimation in magnetic resonance imaging (MRI) and blind image deblurring. Our results show that BC-PnP provides an efficient and principled framework for using denoisers as PnP priors for jointly estimating measurement operators and images. | 翻訳日:2023-10-30 18:04:30 公開日:2023-10-26 |
# オブザーバビリティを損なう効率的な強化学習:遅延状態と欠落状態の観察で行動する学習 Efficient Reinforcement Learning with Impaired Observability: Learning to Act with Delayed and Missing State Observations ( http://arxiv.org/abs/2306.01243v2 ) ライセンス: Link先を確認 | Minshuo Chen, Jie Meng, Yu Bai, Yinyu Ye, H. Vincent Poor, Mengdi Wang | (参考訳) 実世界の強化学習(RL)システムでは、様々な形態の可観測性が複雑になる可能性がある。
これらの状況は、エージェントが待ち時間やチャネルの損失のためにシステムの最新の状態を監視できない場合に発生するが、エージェントはリアルタイムな判断をしなければならない。
本稿では,エージェントが遅延状態の観察を行なわなければならない制御系における効率的なRLに関する理論的研究を紹介する。
我々は,遅延観測環境においてrlに対して,アルゴリズムを提示し,最上および下限の近似的後悔($\tilde{\mathcal{o}}(\sqrt{{\rm poly}(h) sak})$)を定式化する。
ここで$S$と$A$は状態空間とアクション空間のサイズであり、$H$は時間軸であり、$K$はエピソードの数である。
方針クラスや計画に重大な課題をもたらす可観測性を損なうにもかかわらず、本研究は学習が効率的であり、後悔は元のシステムの状態行動サイズに応じて最適に束縛されていることを実証する。
さらに, 可観測性に障害のある最適政策の性能を, 完全な可観測性を持つ最適値と比較して評価する。
私たちの理論を支持する数値的な結果が得られます。 In real-world reinforcement learning (RL) systems, various forms of {\it impaired observability} can complicate matters. These situations arise when an agent is unable to observe the most recent state of the system due to latency or lossy channels, yet the agent must still make real-time decisions. This paper introduces a theoretical investigation into efficient RL in control systems where agents must act with delayed and missing state observations. We present algorithms and establish near-optimal regret upper and lower bounds, of the form $\tilde{\mathcal{O}}(\sqrt{{\rm poly}(H) SAK})$, for RL in the delayed and missing observation settings. Here $S$ and $A$ are the sizes of state and action spaces, $H$ is the time horizon and $K$ is the number of episodes. Despite impaired observability posing significant challenges to the policy class and planning, our results demonstrate that learning remains efficient, with the regret bound optimally depending on the state-action size of the original system. Additionally, we provide a characterization of the performance of the optimal policy under impaired observability, comparing it to the optimal value obtained with full observability. Numerical results are provided to support our theory. | 翻訳日:2023-10-30 17:56:20 公開日:2023-10-26 |
# 思考クローン:人間の思考を模倣して行動しながら考えることを学ぶ Thought Cloning: Learning to Think while Acting by Imitating Human Thinking ( http://arxiv.org/abs/2306.00323v2 ) ライセンス: Link先を確認 | Shengran Hu and Jeff Clune | (参考訳) 言語はしばしば人間の思考の重要な側面と見なされ、新しい状況への一般化、探索、計画、計画、適応の特別な能力を与えてくれる。
しかしながら、強化学習(rl)エージェントは、これらの能力の人間レベルのパフォーマンスとは程遠い。
このような認知的欠陥の1つの理由は、言語における思考の利点が欠けていること、そして人間のように考えるように訓練することでAIエージェントを改善することができることである。
我々は、人間のデモ参加者の行動をクローンするだけでなく、人間がこうした行動を行うときに持つ思考をクローンする、新しいImitation Learning framework、Thought Cloningを導入する。
我々は、行動中に大声で思考する人間のインターネットサイズのデータセット(例えば、書き起こしを含むオンラインビデオ)に、思考クローンが真に光ることを期待しているが、ここでは思考と行動データが合成的に生成される領域で実験を行う。
その結果、Thought Cloningは振舞いクローンよりもはるかに早く学習し、そのパフォーマンス上の優位性は、分散テストタスクの更なるアウトオブアウトを増大させ、新しい状況に対処する能力を強調している。
Thought Cloningはまた、AIの安全性と解釈可能性に重要なメリットを提供し、AIのデバッグと改善を容易にする。
エージェントの思考を観察できるので、(1)物事がなぜうまくいかなかったのかをより容易に診断でき、問題の修正が容易になったり、(2)思考の修正によってエージェントを操ったり、(3)計画している安全でないことをするのを防ぐことができる。
全体として、エージェントの思考と行動の訓練によって、Thought Cloningはより安全で強力なエージェントを生み出します。 Language is often considered a key aspect of human thinking, providing us with exceptional abilities to generalize, explore, plan, replan, and adapt to new situations. However, Reinforcement Learning (RL) agents are far from human-level performance in any of these abilities. We hypothesize one reason for such cognitive deficiencies is that they lack the benefits of thinking in language and that we can improve AI agents by training them to think like humans do. We introduce a novel Imitation Learning framework, Thought Cloning, where the idea is to not just clone the behaviors of human demonstrators, but also the thoughts humans have as they perform these behaviors. While we expect Thought Cloning to truly shine at scale on internet-sized datasets of humans thinking out loud while acting (e.g. online videos with transcripts), here we conduct experiments in a domain where the thinking and action data are synthetically generated. Results reveal that Thought Cloning learns much faster than Behavioral Cloning and its performance advantage grows the further out of distribution test tasks are, highlighting its ability to better handle novel situations. Thought Cloning also provides important benefits for AI Safety and Interpretability, and makes it easier to debug and improve AI. Because we can observe the agent's thoughts, we can (1) more easily diagnose why things are going wrong, making it easier to fix the problem, (2) steer the agent by correcting its thinking, or (3) prevent it from doing unsafe things it plans to do. Overall, by training agents how to think as well as behave, Thought Cloning creates safer, more powerful agents. | 翻訳日:2023-10-30 17:55:35 公開日:2023-10-26 |
# 教師なしフレーム対セグメントアライメントによる順列認識アクションセグメンテーション Permutation-Aware Action Segmentation via Unsupervised Frame-to-Segment Alignment ( http://arxiv.org/abs/2305.19478v4 ) ライセンス: Link先を確認 | Quoc-Huy Tran, Ahmed Mehmood, Muhammad Ahmed, Muhammad Naufil, Anas Zafar, Andrey Konin, M. Zeeshan Zia | (参考訳) 本稿では,フレームレベルのキューだけでなくセグメントレベルのキューも活用した,時間的アクティビティセグメンテーションのための教師なしトランスフォーマティブフレームワークを提案する。
これは、フレームレベルの情報のみに依存する従来の方法とは対照的である。
我々のアプローチは、トランスフォーマーエンコーダを介してフレームワイズアクションクラスを推定するフレームレベル予測モジュールから始まる。
フレームレベルの予測モジュールは、時間的最適輸送を介して教師なしの方法で訓練される。
セグメントレベル情報を活用するために,セグメントレベル予測モジュールとフレーム間アライメントモジュールを用いる。
前者はビデオの書き起こしを推定するトランスデコーダを含み、後者はフレームレベルの特徴とセグメントレベルの特徴をマッチさせ、順列対応のセグメンテーション結果が得られる。
さらに,時間的最適移動に触発されて,上述のモジュールの教師なし学習のための単純イット有効擬似ラベルを導入する。
4つのパブリックデータセット、すなわち50のサラダ、youtubeのインストラクション、朝食、デスクトップアセンブリの実験では、教師なしアクティビティセグメンテーションにおける従来の方法と同等あるいは優れたパフォーマンスを達成しています。 This paper presents an unsupervised transformer-based framework for temporal activity segmentation which leverages not only frame-level cues but also segment-level cues. This is in contrast with previous methods which often rely on frame-level information only. Our approach begins with a frame-level prediction module which estimates framewise action classes via a transformer encoder. The frame-level prediction module is trained in an unsupervised manner via temporal optimal transport. To exploit segment-level information, we utilize a segment-level prediction module and a frame-to-segment alignment module. The former includes a transformer decoder for estimating video transcripts, while the latter matches frame-level features with segment-level features, yielding permutation-aware segmentation results. Moreover, inspired by temporal optimal transport, we introduce simple-yet-effective pseudo labels for unsupervised training of the above modules. Our experiments on four public datasets, i.e., 50 Salads, YouTube Instructions, Breakfast, and Desktop Assembly show that our approach achieves comparable or better performance than previous methods in unsupervised activity segmentation. | 翻訳日:2023-10-30 17:54:11 公開日:2023-10-26 |
# ビジュアルリッチな文書画像のテーブル検出 Table Detection for Visually Rich Document Images ( http://arxiv.org/abs/2305.19181v2 ) ライセンス: Link先を確認 | Bin Xiao, Murat Simsek, Burak Kantarci, Ala Abu Alkheir | (参考訳) テーブル検出(td)は、視覚的にリッチな文書理解を可能にする基本的なタスクであり、モデルが情報を失うことなく情報を抽出する必要がある。
しかし、一般的なIoU(Intersection over Union)に基づく評価指標と、検出モデルに対するIoUに基づく損失関数は、予測結果に対する情報損失の程度を直接表現することはできない。
そこで,本論文では,IoUを,予測結果の情報損失を測定するために前者を用いるような,基礎的真理カバレッジ項と予測カバレッジ項に分離することを提案する。
また,文書画像中のテーブルのスパース分布を考慮すると,SparseR-CNNをベースモデルとし,ガウス雑音強調画像サイズ領域の提案と多対一のラベル割り当てを用いてモデルを改善する。
包括的実験の結果,提案手法は様々なデータセットの下で異なるIoU基準の計測値を用いて常に最先端の手法より優れており,提案手法は情報損失を軽減できることを示した。 Table Detection (TD) is a fundamental task to enable visually rich document understanding, which requires the model to extract information without information loss. However, popular Intersection over Union (IoU) based evaluation metrics and IoU-based loss functions for the detection models cannot directly represent the degree of information loss for the prediction results. Therefore, we propose to decouple IoU into a ground truth coverage term and a prediction coverage term, in which the former can be used to measure the information loss of the prediction results. Besides, considering the sparse distribution of tables in document images, we use SparseR-CNN as the base model and further improve the model by using Gaussian Noise Augmented Image Size region proposals and many-to-one label assignments. Results under comprehensive experiments show that the proposed method can consistently outperform state-of-the-art methods with different IoU-based metrics under various datasets and demonstrate that the proposed decoupled IoU loss can enable the model to alleviate information loss. | 翻訳日:2023-10-30 17:53:48 公開日:2023-10-26 |
# ブロック状態変換器 Block-State Transformers ( http://arxiv.org/abs/2306.09539v3 ) ライセンス: Link先を確認 | Mahan Fathi and Jonathan Pilault and Pierre-Luc Bacon and Christopher Pal and Orhan Firat and Ross Goroshin | (参考訳) 状態空間モデル(ssm)は、長い範囲の依存関係をモデル化し、その実行時の複雑さのために長いシーケンスに効率的にスケールする必要があるタスクで印象的な結果を示している。
元々は連続的な信号のために設計されていたが、SSMは視覚やオーディオにおいて多くのタスクにおいて優れたパフォーマンスを示してきた。
本研究では,長期コンテキスト化のためのSSMサブレイヤと,シーケンスの短期表現のためのBlock-State Transformerサブレイヤを内部的に組み合わせたBST(Block-State Transformer)というハイブリッド層を提案する。
SSMとブロックワイズを統合した3つの異なる並列化可能な変種について検討する。
我々のモデルは言語モデリングの難易度において類似のTransformerベースのアーキテクチャよりも優れており、より長いシーケンスに一般化できることを示す。
また、ブロック状態変圧器は、モデル並列化を行う際のブロックリカレント変圧器と比較して、層レベルで10倍以上の速度向上を示す。 State space models (SSMs) have shown impressive results on tasks that require modeling long-range dependencies and efficiently scale to long sequences owing to their subquadratic runtime complexity. Originally designed for continuous signals, SSMs have shown superior performance on a plethora of tasks, in vision and audio; however, SSMs still lag Transformer performance in Language Modeling tasks. In this work, we propose a hybrid layer named Block-State Transformer (BST), that internally combines an SSM sublayer for long-range contextualization, and a Block Transformer sublayer for short-term representation of sequences. We study three different, and completely parallelizable, variants that integrate SSMs and block-wise attention. We show that our model outperforms similar Transformer-based architectures on language modeling perplexity and generalizes to longer sequences. In addition, the Block-State Transformer demonstrates more than tenfold increase in speed at the layer level compared to the Block-Recurrent Transformer when model parallelization is employed. | 翻訳日:2023-10-30 17:45:02 公開日:2023-10-26 |
# Katakomba: データ駆動NetHackのツールとベンチマーク Katakomba: Tools and Benchmarks for Data-Driven NetHack ( http://arxiv.org/abs/2306.08772v2 ) ライセンス: Link先を確認 | Vladislav Kurenkov, Alexander Nikulin, Denis Tarasov, Sergey Kolesnikov | (参考訳) NetHackは強化学習研究のフロンティアとして知られており、学習ベースの手法は依然としてルールベースのソリューションに追いつく必要がある。
ブレークスルーの有望な方向の1つは、ロボット工学やレコメンダシステムなどの最近の開発に類似したデータセットを、オフライン強化学習(orl)の傘下で使用することである。
最近、大規模なNetHackデータセットがリリースされた。これは必要なステップだったが、まだORLコミュニティで広く採用されていない。
本研究では、リソースワイド、実装ワイド、ベンチマークワイドの3つの大きな障害が存在すると論じる。
そこで我々は, ORLコミュニティに慣れ親しんだワークフローの基礎を提供するオープンソースライブラリを開発した。D4RLスタイルのタスク, 乱雑なベースライン実装, クラウドに同期した設定とログを備えた信頼性評価ツールである。 NetHack is known as the frontier of reinforcement learning research where learning-based methods still need to catch up to rule-based solutions. One of the promising directions for a breakthrough is using pre-collected datasets similar to recent developments in robotics, recommender systems, and more under the umbrella of offline reinforcement learning (ORL). Recently, a large-scale NetHack dataset was released; while it was a necessary step forward, it has yet to gain wide adoption in the ORL community. In this work, we argue that there are three major obstacles for adoption: resource-wise, implementation-wise, and benchmark-wise. To address them, we develop an open-source library that provides workflow fundamentals familiar to the ORL community: pre-defined D4RL-style tasks, uncluttered baseline implementations, and reliable evaluation tools with accompanying configs and logs synced to the cloud. | 翻訳日:2023-10-30 17:44:26 公開日:2023-10-26 |
# RVQGANの改良による高忠実度オーディオ圧縮 High-Fidelity Audio Compression with Improved RVQGAN ( http://arxiv.org/abs/2306.06546v2 ) ライセンス: Link先を確認 | Rithesh Kumar, Prem Seetharaman, Alejandro Luebs, Ishaan Kumar, Kundan Kumar | (参考訳) 言語モデルは、画像、音声、音楽などの自然信号のモデル化に成功している。
これらのモデルの主要な構成要素は、高次元の自然信号を低次元の離散トークンに圧縮できる高品質なニューラル圧縮モデルである。
その目的のために,44.1KHzの音声をたった8kbpsの帯域でトークンに約90倍の圧縮を実現する,高忠実なユニバーサルニューラルオーディオ圧縮アルゴリズムを導入する。
我々は,高忠実度音声生成の進歩と,画像領域からのベクトル量子化技術の改善と,逆および再構成損失の改善を組み合わせることにより,これを実現する。
我々は、すべてのドメイン(音声、環境、音楽など)を単一の普遍モデルで圧縮し、全てのオーディオの生成モデルに広く適用する。
競合する音声圧縮アルゴリズムと比較し,本手法の方が優れていた。
すべての設計選択に対して徹底的なアブレーションを行い、オープンソースコードとトレーニングされたモデル重み付けを提供します。
われわれの研究が次世代の高忠実なオーディオモデリングの基礎を築けることを願っている。 Language models have been successfully used to model natural signals, such as images, speech, and music. A key component of these models is a high quality neural compression model that can compress high-dimensional natural signals into lower dimensional discrete tokens. To that end, we introduce a high-fidelity universal neural audio compression algorithm that achieves ~90x compression of 44.1 KHz audio into tokens at just 8kbps bandwidth. We achieve this by combining advances in high-fidelity audio generation with better vector quantization techniques from the image domain, along with improved adversarial and reconstruction losses. We compress all domains (speech, environment, music, etc.) with a single universal model, making it widely applicable to generative modeling of all audio. We compare with competing audio compression algorithms, and find our method outperforms them significantly. We provide thorough ablations for every design choice, as well as open-source code and trained model weights. We hope our work can lay the foundation for the next generation of high-fidelity audio modeling. | 翻訳日:2023-10-30 17:42:20 公開日:2023-10-26 |
# ランダム特徴回帰におけるベイズ不確かさ推定の漸近 Asymptotics of Bayesian Uncertainty Estimation in Random Features Regression ( http://arxiv.org/abs/2306.03783v2 ) ライセンス: Link先を確認 | Youngsoo Baek, Samuel I. Berchuck, Sayan Mukherjee | (参考訳) 本稿では, 過パラメータ化状態における乱特徴回帰モデルに対して, 後部予測分布の挙動と, 最大後部推定器のリスクとを比較し, 比較する。
我々は,後方予測分布(ベイズモデル平均値)のばらつきに着目し,その漸近性とマップ推定器のリスクの比較を行う。
モデル次元がサンプル数のどの定数倍よりも速く成長する体制では、これらの2つの量間の漸近的一致は信号対雑音比の位相遷移によって制御される。
また、サンプルの数がモデル次元の任意の定数倍よりも速く成長する場合にも漸近的に一致する。
数値シミュレーションは、有限次元における2つの量のより細かい分布特性を示す。
ガウス的揺らぎを持つと推測し、それ以前の著者が独立した理論的な関心を持つガウス列モデルで見出した同様の性質を示す。 In this paper we compare and contrast the behavior of the posterior predictive distribution to the risk of the maximum a posteriori estimator for the random features regression model in the overparameterized regime. We will focus on the variance of the posterior predictive distribution (Bayesian model average) and compare its asymptotics to that of the risk of the MAP estimator. In the regime where the model dimensions grow faster than any constant multiple of the number of samples, asymptotic agreement between these two quantities is governed by the phase transition in the signal-to-noise ratio. They also asymptotically agree with each other when the number of samples grow faster than any constant multiple of model dimensions. Numerical simulations illustrate finer distributional properties of the two quantities for finite dimensions. We conjecture they have Gaussian fluctuations and exhibit similar properties as found by previous authors in a Gaussian sequence model, which is of independent theoretical interest. | 翻訳日:2023-10-30 17:40:50 公開日:2023-10-26 |
# 民話weisfeiler-lehmanによるグラフニューラルネットワークの設計空間の拡張 Extending the Design Space of Graph Neural Networks by Rethinking Folklore Weisfeiler-Lehman ( http://arxiv.org/abs/2306.03266v2 ) ライセンス: Link先を確認 | Jiarui Feng, Lecheng Kong, Hao Liu, Dacheng Tao, Fuhai Li, Muhan Zhang, Yixin Chen | (参考訳) 近年、グラフニューラルネットワーク(GNN)の最も人気のあるフレームワークとして、メッセージパッシングニューラルネットワーク(MPNN)が登場している。
しかし、その表現力は1次元のWeisfeiler-Lehman (1-WL) テストによって制限される。
いくつかの作品は$k$-WL/FWL(Folklore WL)にインスパイアされ、対応するニューラルバージョンを設計する。
表現力が高いにもかかわらず、この研究には深刻な制限がある。
特に、(1)$k$-WL/FWL は少なくとも$O(n^k)$空間複雑性を必要とし、これは$k=3$; (2)$k$-WL/FWL の設計空間は厳密であり、唯一の調整可能なハイパーパラメータは$k$である。
最初の制限に対処するために、$(k,t)$-FWLの拡張を提案する。
理論的には、空間複雑性を$O(n^k)$ (任意の$k\geq 2$) in $(k,t)$-FWL に固定しても、グラフ同型問題を解くまで表現性階層を構築することができる。
2つ目の問題に取り組むために、全てのノードの代わりに任意の同変集合を隣人として考える$k$-FWL+を提案し、その結果、設計空間を$k$-FWLに拡大する。
これら2つの修正を組み合わせると、柔軟性と強力なフレームワーク $(k,t)$-fwl+ が得られる。
我々は、$(k,t)$-FWL+が、表現性にマッチする既存のモデルを実装することを実証する。
次に、(k,t)$-FWL+ である Neighborhood$^2$-FWL (N$^2$-FWL) の例を導入する。
N$^2$-FWL は 3WL に劣らず強力であり、O(n^2)$空間のみを必要としながら多くの部分構造を符号化できる。
最後に、N$^2$-GNNというニューラルバージョンを設計し、各種タスクの性能を評価する。
N$^2$-GNN は ZINC-Subset (0.059) と ZINC-Full (0.013) で記録破りの結果を達成し、以前の SOTA の結果をそれぞれ 10.6% と 40.9% で上回った。
さらに、N$^2$-GNNは、既存のすべての高表現性GNN手法の中でBRECデータセット(71.8%)で新しいSOTA結果を達成する。 Message passing neural networks (MPNNs) have emerged as the most popular framework of graph neural networks (GNNs) in recent years. However, their expressive power is limited by the 1-dimensional Weisfeiler-Lehman (1-WL) test. Some works are inspired by $k$-WL/FWL (Folklore WL) and design the corresponding neural versions. Despite the high expressive power, there are serious limitations in this line of research. In particular, (1) $k$-WL/FWL requires at least $O(n^k)$ space complexity, which is impractical for large graphs even when $k=3$; (2) The design space of $k$-WL/FWL is rigid, with the only adjustable hyper-parameter being $k$. To tackle the first limitation, we propose an extension, $(k,t)$-FWL. We theoretically prove that even if we fix the space complexity to $O(n^k)$ (for any $k\geq 2$) in $(k,t)$-FWL, we can construct an expressiveness hierarchy up to solving the graph isomorphism problem. To tackle the second problem, we propose $k$-FWL+, which considers any equivariant set as neighbors instead of all nodes, thereby greatly expanding the design space of $k$-FWL. Combining these two modifications results in a flexible and powerful framework $(k,t)$-FWL+. We demonstrate $(k,t)$-FWL+ can implement most existing models with matching expressiveness. We then introduce an instance of $(k,t)$-FWL+ called Neighborhood$^2$-FWL (N$^2$-FWL), which is practically and theoretically sound. We prove that N$^2$-FWL is no less powerful than 3-WL, and can encode many substructures while only requiring $O(n^2)$ space. Finally, we design its neural version named N$^2$-GNN and evaluate its performance on various tasks. N$^2$-GNN achieves record-breaking results on ZINC-Subset (0.059) and ZINC-Full (0.013), outperforming previous SOTA results by 10.6% and 40.9%, respectively. Moreover, N$^2$-GNN achieves new SOTA results on the BREC dataset (71.8%) among all existing high-expressive GNN methods. | 翻訳日:2023-10-30 17:40:35 公開日:2023-10-26 |
# pareto optimal self-supervision による生成大言語モデルの自動校正と誤り訂正 Automatic Calibration and Error Correction for Generative Large Language Models via Pareto Optimal Self-Supervision ( http://arxiv.org/abs/2306.16564v3 ) ライセンス: Link先を確認 | Theodore Zhao, Mu Wei, J. Samuel Preston, Hoifung Poon | (参考訳) 生成型大規模言語モデル(LLM)は、広範囲のアプリケーションで顕著な機能を示しているが、未処理や誤応答の低減は依然として大きな成長領域である。
タスク固有のモデルとは異なり、潜在的なエラーを示すためにLCM応答の信頼性レベルを調整し、ループ内検証を容易にする効果的な方法がない。
キャリブレーションの重要な情報源は、しばしば低コストで利用できるが、ノイズやカバレッジといった独自の制限がある専門家が選択したプログラムの監督に由来する。
本稿では,利用可能なプログラム的監督を活用し,追加の手動作業なしに,llm応答毎にリスクスコアを作成することで,llm応答を体系的に校正することができるpareto最適自己スーパービジョンフレームワークを提案する。
これはllm出力や他の弱い監督源に合わせて調和子モデルを学習することで実現される。
このモデルは、より不確定なllm応答により高いリスクスコアを割り当て、エラー訂正を容易にする。
バイオメディカルおよび一般領域における標準関係抽出および分類タスクの実験により、提案したリスクスコアが実際のLCM誤差率と高い相関性を示す。
リスクスコアに基づく動的プロンプト戦略を用いることで,既製のLCMの精度向上,SOTA(State-of-the-art)弱監視モデルによるGPT-3.5結果,SOTAが監督する評価データセットによるGPT-4結果の精度向上を実現した。 Generative Large language models (LLMs) have demonstrated remarkable capabilities for a wide range of applications, but reducing ungrounded or erroneous responses remains a major growth area. Unlike task-specific models, there lack an effective method to calibrate the confidence level of LLM responses to indicate potential errors and facilitate human-in-the-loop verification. An important source of calibration stems from expert-stipulated programmatic supervision, which is often available at low cost but has its own limitations such as noise and coverage. In this paper, we introduce a Pareto optimal self-supervision framework that can leverage available programmatic supervision to systematically calibrate LLM responses by producing a risk score for every LLM response, without any additional manual efforts. This is accomplished by learning a harmonizer model to align with LLM output as well as other weak supervision sources. The model assigns higher risk scores to more uncertain LLM responses and facilitate error correction. Experiments on standard relation extraction and classification tasks in biomedical and general domains demonstrate that the proposed risk score is highly correlated with the actual LLM error rate. By using a dynamic prompting strategy based on the risk score, we observed significant accuracy improvement for off-the-shelf LLMs, boosting GPT-3.5 results past state-of-the-art (SOTA) weak supervision model and GPT-4 results past SOTA supervised results on challenging evaluation datasets. | 翻訳日:2023-10-30 17:30:24 公開日:2023-10-26 |
# youtube-asl:大規模でオープンドメインのアメリカ手話-英語並列コーパス YouTube-ASL: A Large-Scale, Open-Domain American Sign Language-English Parallel Corpus ( http://arxiv.org/abs/2306.15162v2 ) ライセンス: Link先を確認 | David Uthus, Garrett Tanzer, Manfred Georg | (参考訳) 手話の機械学習はデータによってボトルネックされる。
本稿では,ASL(American Sign Language)ビデオの大規模オープンドメインコーパスであるYouTube-ASLについて紹介する。
1000時間の動画と2500のユニークなシグナで、YouTube-ASLは3倍程度の大きさで、ASLデータセットの最大の10倍のユニークなシグナを持つ。
我々は、aslのベースラインモデルをyoutube-aslの英語翻訳に訓練し、how2signでそれらを評価し、12.39 bleuの新しい微調整状態を達成し、初めてゼロショットの結果を報告した。 Machine learning for sign languages is bottlenecked by data. In this paper, we present YouTube-ASL, a large-scale, open-domain corpus of American Sign Language (ASL) videos and accompanying English captions drawn from YouTube. With ~1000 hours of videos and >2500 unique signers, YouTube-ASL is ~3x as large and has ~10x as many unique signers as the largest prior ASL dataset. We train baseline models for ASL to English translation on YouTube-ASL and evaluate them on How2Sign, where we achieve a new finetuned state of the art of 12.39 BLEU and, for the first time, report zero-shot results. | 翻訳日:2023-10-30 17:29:17 公開日:2023-10-26 |
# thinker: 計画と行動を学ぶ Thinker: Learning to Plan and Act ( http://arxiv.org/abs/2307.14993v2 ) ライセンス: Link先を確認 | Stephen Chung, Ivan Anokhin, David Krueger | (参考訳) 本稿では,強化学習エージェントが学習世界モデルと自律的に対話し,活用できる新しい手法であるThinkerアルゴリズムを提案する。
思考アルゴリズムは環境を世界モデルで包み、世界モデルと対話するために設計された新しいアクションを導入する。
これらのモデル-インタラクションアクションは、エージェントが環境内で実行する最終アクションを選択する前に、世界モデルに代替計画を提案することによって、計画を実行することができる。
このアプローチは、エージェントが自律的に計画の仕方を学べることによって、手作りの計画アルゴリズムの必要性を排除し、可視化によるエージェントの計画の解釈を容易にする。
本稿では,ソコバンとアタリ2600ベンチマークのゲームにおいて,実験結果によるアルゴリズムの有効性を実証する。
thinkerアルゴリズムで訓練されたエージェントの可視化は、よりよいアクションを選択するために世界モデルと効果的に計画することを学んだことを示している。
thinkerは、rlエージェントが複雑な環境で学習した世界モデルで計画を学ぶことができることを示す最初の仕事である。 We propose the Thinker algorithm, a novel approach that enables reinforcement learning agents to autonomously interact with and utilize a learned world model. The Thinker algorithm wraps the environment with a world model and introduces new actions designed for interacting with the world model. These model-interaction actions enable agents to perform planning by proposing alternative plans to the world model before selecting a final action to execute in the environment. This approach eliminates the need for handcrafted planning algorithms by enabling the agent to learn how to plan autonomously and allows for easy interpretation of the agent's plan with visualization. We demonstrate the algorithm's effectiveness through experimental results in the game of Sokoban and the Atari 2600 benchmark, where the Thinker algorithm achieves state-of-the-art performance and competitive results, respectively. Visualizations of agents trained with the Thinker algorithm demonstrate that they have learned to plan effectively with the world model to select better actions. Thinker is the first work showing that an RL agent can learn to plan with a learned world model in complex environments. | 翻訳日:2023-10-30 17:17:34 公開日:2023-10-26 |
# セミスーパービジョンオブジェクト検出のためのトレーニングベースモデル再構成と表現分離 Training-based Model Refinement and Representation Disagreement for Semi-Supervised Object Detection ( http://arxiv.org/abs/2307.13755v4 ) ライセンス: Link先を確認 | Seyed Mojtaba Marvasti-Zadeh, Nilanjan Ray, Nadir Erbilgin | (参考訳) 半教師付きオブジェクト検出(SSOD)は,限られたラベル付きデータと広範囲なラベル付きデータを利用することで,既存のオブジェクト検出の性能と一般化を向上することを目的としている。
多くの進歩にもかかわらず、最近のSSOD法は、古典的指数移動平均(EMA)戦略によるモデル改良の不適切さ、訓練後期の教師・学生モデルのコンセンサス(特色を失うこと)、ノイズ/ミスリードの擬似ラベルによって、いまだに挑戦されている。
本稿では,従来のEMAの限界とコンセンサス問題に対処するための,新しいトレーニングベースモデル改良(TMR)ステージと,シンプルで効果的な表現不一致(RD)戦略を提案する。
Teacher-StudentモデルのTMRステージは、軽量なスケーリング操作を最適化し、モデルの重みを洗練し、学習パターンがラベルなしのデータから過度に適合したり忘れたりするのを防ぐ。
一方、RD戦略はこれらのモデルを分散させ続け、学生モデルがラベルのないデータに追加のパターンを探索することを奨励するのに役立つ。
提案手法は確立されたSSOD法に統合可能であり,カスケード回帰を伴う2つのベースライン法を用いて実証的に検証し,より信頼性の高い擬似ラベルを生成する。
SSOD法に対する我々のアプローチの優れた性能を示す大規模な実験を行った。
具体的には,COCO標準,COCO付加およびパスカルVOCデータセット上で平均mAPマージン2.23,2.1,3.36(&2.07,1.9,3.27)で,Unbiased-Teacher-v2(&Unbiased-Teacher-v1)法をそれぞれ上回っている。 Semi-supervised object detection (SSOD) aims to improve the performance and generalization of existing object detectors by utilizing limited labeled data and extensive unlabeled data. Despite many advances, recent SSOD methods are still challenged by inadequate model refinement using the classical exponential moving average (EMA) strategy, the consensus of Teacher-Student models in the latter stages of training (i.e., losing their distinctiveness), and noisy/misleading pseudo-labels. This paper proposes a novel training-based model refinement (TMR) stage and a simple yet effective representation disagreement (RD) strategy to address the limitations of classical EMA and the consensus problem. The TMR stage of Teacher-Student models optimizes the lightweight scaling operation to refine the model's weights and prevent overfitting or forgetting learned patterns from unlabeled data. Meanwhile, the RD strategy helps keep these models diverged to encourage the student model to explore additional patterns in unlabeled data. Our approach can be integrated into established SSOD methods and is empirically validated using two baseline methods, with and without cascade regression, to generate more reliable pseudo-labels. Extensive experiments demonstrate the superior performance of our approach over state-of-the-art SSOD methods. Specifically, the proposed approach outperforms the baseline Unbiased-Teacher-v2 (& Unbiased-Teacher-v1) method by an average mAP margin of 2.23, 2.1, and 3.36 (& 2.07, 1.9, and 3.27) on COCO-standard, COCO-additional, and Pascal VOC datasets, respectively. | 翻訳日:2023-10-30 17:17:17 公開日:2023-10-26 |
# 乗法的平滑化による特徴属性の安定性保証 Stability Guarantees for Feature Attributions with Multiplicative Smoothing ( http://arxiv.org/abs/2307.05902v2 ) ライセンス: Link先を確認 | Anton Xue, Rajeev Alur, Eric Wong | (参考訳) 機械学習モデルの説明方法は、正式な保証を提供しておらず、根底にある意思決定プロセスを反映しない傾向がある。
本研究では,安定度を信頼性のある特徴帰属特性として解析する。
モデルが特徴のマスキングに関して十分リプシッツである場合、緩和された安定性の変種は保証される。
このようなモデルを実現するために,Multiplelicative Smoothing (MuS) と呼ばれる平滑化手法を開発した。
MuS は標準平滑化手法の理論的限界を克服し,任意の分類器や特徴属性法と統合可能であることを示す。
LIME や SHAP などの様々な特徴属性法による視覚モデルや言語モデル上で MuS を評価するとともに, MuS が非自明な安定性を保証する特徴属性を付与することを示す。 Explanation methods for machine learning models tend not to provide any formal guarantees and may not reflect the underlying decision-making process. In this work, we analyze stability as a property for reliable feature attribution methods. We prove that relaxed variants of stability are guaranteed if the model is sufficiently Lipschitz with respect to the masking of features. We develop a smoothing method called Multiplicative Smoothing (MuS) to achieve such a model. We show that MuS overcomes the theoretical limitations of standard smoothing techniques and can be integrated with any classifier and feature attribution method. We evaluate MuS on vision and language models with various feature attribution methods, such as LIME and SHAP, and demonstrate that MuS endows feature attributions with non-trivial stability guarantees. | 翻訳日:2023-10-30 17:14:53 公開日:2023-10-26 |
# 医用画像用球面cnn:画像再構成と雑音化における等分散の重要性 Spherical CNN for Medical Imaging Applications: Importance of Equivariance in image reconstruction and denoising ( http://arxiv.org/abs/2307.03298v2 ) ライセンス: Link先を確認 | Amirreza Hashemi, Yuemeng Feng, Hamid Sabet | (参考訳) 本研究は,トモグラフィ応用における等価ネットワークの効率的かつ高性能なアプローチとしての重要性を強調する。
本研究は従来の畳み込みニューラルネットワーク(cnns)の限界を基礎とし,様々な医用画像処理システムにおいて有望であることを示す。
しかし、従来のCNNの効率性は、未完成で適切なトレーニングセットに大きく依存している。
そこで本研究では,CNNが特定のトレーニングセットへの依存を減らすことを目的とした同変ネットワークを提案する。
2次元および3次元の医療画像問題に対する同変球状CNN(SCNN)の有効性を評価する。
本研究は,ベンチマーク問題の解法と再構成において,SCNNの品質と計算効率が優れていることを示す。
さらに,従来の画像再構成ツールの補完としてSCNNを用いる新たな手法を提案する。
いずれの場合も,CNNと比較して,SCNNと同等あるいは高画質の画像処理を継続しながら,計算コストの大幅な低下を観察する。
さらに,このネットワークの広範なトモグラフィ応用,特に全方位表現を必要とするネットワークの可能性について検討する。 This work highlights the significance of equivariant networks as efficient and high-performance approaches for tomography applications. Our study builds upon the limitations of conventional Convolutional Neural Networks (CNNs), which have shown promise in post-processing various medical imaging systems. However, the efficiency of conventional CNNs heavily relies on an undiminished and proper training set. To tackle this issue, in this study, we introduce an equivariant network, aiming to reduce CNN's dependency on specific training sets. We evaluate the efficacy of equivariant spherical CNNs (SCNNs) for 2- and 3- dimensional medical imaging problems. Our results demonstrate superior quality and computational efficiency of SCNNs in denoising and reconstructing benchmark problems. Furthermore, we propose a novel approach to employ SCNNs as a complement to conventional image reconstruction tools, enhancing the outcomes while reducing reliance on the training set. Across all cases, we observe a significant decrease in computational costs while maintaining the same or higher quality of image processing using SCNNs compared to CNNs. Additionally, we explore the potential of this network for broader tomography applications, particularly those requiring omnidirectional representation. | 翻訳日:2023-10-30 17:13:56 公開日:2023-10-26 |
# 決定論的共起のためのカーネル単一プロキシ制御 Kernel Single Proxy Control for Deterministic Confounding ( http://arxiv.org/abs/2308.04585v2 ) ライセンス: Link先を確認 | Liyuan Xu, Arthur Gretton | (参考訳) 本研究では,未観測の共同設立者による因果効果推定の問題点を考察し,共同設立者に関連するプロキシ変数を観察する。
Proxy causal learning (PCL) は2つのプロキシ変数を用いて真の因果効果を回復するが、結果が決定論的に生成されると、単一のプロキシ変数が因果推定に十分であることを示す。
本研究では,2段階回帰法と最大モーメント制限法を組み合わせた2つのカーネルベース手法を提案する。
両手法が常に因果効果を推定できることを実証し,挑戦的な合成ベンチマークにおける因果効果の回復を実証した。 We consider the problem of causal effect estimation with an unobserved confounder, where we observe a proxy variable that is associated with the confounder. Although Proxy causal learning (PCL) uses two proxy variables to recover the true causal effect, we show that a single proxy variable is sufficient for causal estimation if the outcome is generated deterministically, generalizing Control Outcome Calibration Approach (COCA). We propose two kernel-based methods for this setting: the first based on the two-stage regression approach, and the second based on a maximum moment restriction approach. We prove that both approaches can consistently estimate the causal effect, and we empirically demonstrate that we can successfully recover the causal effect on challenging synthetic benchmarks. | 翻訳日:2023-10-30 17:02:54 公開日:2023-10-26 |
# p-Adic Schr\"odinger方程式と量子力学における2分割実験 The p-Adic Schr\"odinger Equation and the Two-slit Experiment in Quantum Mechanics ( http://arxiv.org/abs/2308.01283v2 ) ライセンス: Link先を確認 | W. A. Z\'u\~niga-Galindo | (参考訳) p-進量子力学は、N-次元 p-進空間 Q_{p}^{N} 上の二乗可積分函数を持つ量子状態を特定するディラック・ヴォン・ノイマン公理から構成される。
この選択は空間の離散性の仮説と等価である。
時間は実変数であると仮定される。
p-進量子力学は、空間が離散的な性質を持つ場合、標準量子力学はどうなるのか?
量子状態の時間進化は、時間的ウィック回転によりp進熱方程式から得られる非局所的なシュリンガー方程式によって制御される。
このp進熱方程式は、Q_{p}^{N}でランダムな運動を行う粒子を記述する。
ハミルトニアンは非局所作用素であるため、シュリンガー方程式は非局所相互作用の下での量子状態の進化を記述する。
この枠組みでは、schr\"odinger方程式は複素値平面波解を許容し、p進ドブロイ波と解釈する。
これらの数学的波動はすべての波長 p^{-1} を持つ。
このとき、p進フレームワークでは、ド・ブロイ波の干渉を用いて二重スリット実験を説明できない。
波動関数はド・ブロイ波の収束級数として表すことができる。
そして、これらの関数はただの数学的対象である。
波動関数のモジュラスの正方形のみが時間依存確率密度として物理的意味を持つ。
これらの確率密度は、「量子波」によって生じる古典的な干渉パターンを示す。
「p進法では、二重スリット実験では、各粒子は1つのスリットのみを通り抜ける。」
最後に、古典的ド・ブロイ波動-粒子双対性は時空の離散性の顕在化であることを示す。 p-Adic quantum mechanics is constructed from the Dirac-von Neumann axioms identifying quantum states with square-integrable functions on the N-dimensional p-adic space, Q_{p}^{N}. This choice is equivalent to the hypothesis of the discreteness of the space. The time is assumed to be a real variable. p-Adic quantum mechanics is the response to the question: what happens with the standard quantum mechanics if the space has a discrete nature? The time evolution of a quantum state is controlled by a nonlocal Schr\"odinger equation obtained from a p-adic heat equation by a temporal Wick rotation. This p-adic heat equation describes a particle performing a random motion in Q_{p}^{N}. The Hamiltonian is a nonlocal operator; thus, the Schr\"odinger equation describes the evolution of a quantum state under nonlocal interactions. In this framework, the Schr\"odinger equation admits complex-valued plane wave solutions, which we interpret as p-adic de Broglie waves. These mathematical waves have all wavelength p^{-1}. Then, in the p-adic framework, the double-slit experiment cannot be explained using the interference of the de Broglie waves. The wavefunctions can be represented as convergent series in the de Broglie waves. Then, these functions are just mathematical objects. Only the square of the modulus of a wave function has a physical meaning as a time-dependent probability density. These probability densities exhibit the classical interference patterns produced by `quantum waves.' In the p-adic framework, in the double-slit experiment, each particle goes through one slit only. Finally, we propose that the classical de Broglie wave-particle duality is a manifestation of the discreteness of space-time. | 翻訳日:2023-10-30 17:01:56 公開日:2023-10-26 |
# 洪水浸水マッピングのための新しいGeoAI基盤モデルの評価 Assessment of a new GeoAI foundation model for flood inundation mapping ( http://arxiv.org/abs/2309.14500v3 ) ライセンス: Link先を確認 | Wenwen Li, Hyunho Lee, Sizhe Wang, Chia-Yu Hsu, Samantha T. Arundel | (参考訳) ビジョンファウンデーションモデルは、地理空間的問題解決と地理知識発見のためにAIを適用し拡張する学際的な研究領域であるGeoAI(Geospatial Artificial Intelligence)の新しいフロンティアである。
そこで本稿は,IBM-NASAのPrithviによる地空間基盤モデルの性能評価を行い,地空間解析の重要課題である洪水浸水マッピングを支援する。
このモデルは、畳み込みニューラルネットワークや視覚トランスフォーマーベースのアーキテクチャと、浸水した地域のマッピング精度で比較される。
ベンチマークデータセットであるsen1floods11を実験に使用し、そのモデルによって完全に認識されていないテストデータセットとデータセットの両方に基づいて、モデルの予測可能性、一般化性、転送性を評価する。
以上の結果から, 未確認領域におけるセグメンテーションにおけるPrithviモデルの性能上の優位性が示された。
また,マルチスケールな表現学習の導入,高レベルの画像解析タスクのためのエンドツーエンドパイプラインの開発,入力データバンドの柔軟性の向上などにより,Prithviモデルの改善を図っている。 Vision foundation models are a new frontier in Geospatial Artificial Intelligence (GeoAI), an interdisciplinary research area that applies and extends AI for geospatial problem solving and geographic knowledge discovery, because of their potential to enable powerful image analysis by learning and extracting important image features from vast amounts of geospatial data. This paper evaluates the performance of the first-of-its-kind geospatial foundation model, IBM-NASA's Prithvi, to support a crucial geospatial analysis task: flood inundation mapping. This model is compared with convolutional neural network and vision transformer-based architectures in terms of mapping accuracy for flooded areas. A benchmark dataset, Sen1Floods11, is used in the experiments, and the models' predictability, generalizability, and transferability are evaluated based on both a test dataset and a dataset that is completely unseen by the model. Results show the good transferability of the Prithvi model, highlighting its performance advantages in segmenting flooded areas in previously unseen regions. The findings also indicate areas for improvement for the Prithvi model in terms of adopting multi-scale representation learning, developing more end-to-end pipelines for high-level image analysis tasks, and offering more flexibility in terms of input data bands. | 翻訳日:2023-10-30 16:53:25 公開日:2023-10-26 |
# グローバル深層学習による治療反応予測と患者特異的薬物動態予測 Forecasting Response to Treatment with Global Deep Learning and Patient-Specific Pharmacokinetic Priors ( http://arxiv.org/abs/2309.13135v3 ) ライセンス: Link先を確認 | Willa Potosnak, Cristian Challu, Kin G. Olivares, Artur Dubrawski | (参考訳) 予後の早期発見や患者のモニタリングには,医療時系列の予測が不可欠である。
しかし、ノイズや間欠的なデータのために予測が難しい場合がある。
これらの課題は、薬物投与などの外因性要因によって引き起こされる変化点によって、しばしば悪化する。
これらの課題に対処するために,患者固有の治療効果の深層学習モデルを示す,新しいグローバルローカルアーキテクチャと薬物動態エンコーダを提案する。
現実的にシミュレーションされた実世界データと実世界データの両方を用いて,血糖予測タスクの精度向上に向けたアプローチの有効性を示す。
我々のグローバルローカルアーキテクチャは患者固有のモデルよりも9.2-14.6%改善している。
さらに、我々の薬物動態エンコーダは、シミュレーションデータでは4.4%、実世界のデータでは2.1%で代替符号化技術よりも改善されている。
提案手法は, 予期せぬ治療反応に対する早期警告の発行や, 薬物吸収および除去特性の観点から, 患者固有の治療効果を特徴付けるなど, 臨床実践において有益である。 Forecasting healthcare time series is crucial for early detection of adverse outcomes and for patient monitoring. Forecasting, however, can be difficult in practice due to noisy and intermittent data. The challenges are often exacerbated by change points induced via extrinsic factors, such as the administration of medication. To address these challenges, we propose a novel hybrid global-local architecture and a pharmacokinetic encoder that informs deep learning models of patient-specific treatment effects. We showcase the efficacy of our approach in achieving significant accuracy gains for a blood glucose forecasting task using both realistically simulated and real-world data. Our global-local architecture improves over patient-specific models by 9.2-14.6%. Additionally, our pharmacokinetic encoder improves over alternative encoding techniques by 4.4% on simulated data and 2.1% on real-world data. The proposed approach can have multiple beneficial applications in clinical practice, such as issuing early warnings about unexpected treatment responses, or helping to characterize patient-specific treatment effects in terms of drug absorption and elimination characteristics. | 翻訳日:2023-10-30 16:52:47 公開日:2023-10-26 |
# 自己組織型ガウス混合モデルによる増分多モード表面マッピング Incremental Multimodal Surface Mapping via Self-Organizing Gaussian Mixture Models ( http://arxiv.org/abs/2309.10900v2 ) ライセンス: Link先を確認 | Kshitij Goel, Wennie Tabib | (参考訳) 本文では,環境を連続確率モデルとして表わすインクリメンタルなマルチモーダル表面マッピング手法について述べる。
このモデルは空間および強度点雲データを同時に圧縮しながら高分解能再構成を可能にする。
この研究で使用される戦略は環境を表現するためにガウス混合モデル(GMM)を用いる。
従来のGMMマッピングでは、情報理論技術を用いて混合成分の個数を決定する手法が開発されているが、これらの手法は個々のセンサ観測で動作し、インクリメンタルマッピングには適さないか、特に高忠実度モデリングが必要なアプリケーションではリアルタイムに実行できない。
このギャップを埋めるために、このレターは、高速gmmサブマップ抽出のための空間ハッシュマップと、ポイントクラウドにおける関連データおよび冗長データを決定するためのアプローチを導入している。
これらの寄与は、最先端のインクリメンタルGMMベースのマッピングと比較して、計算速度を桁違いに向上させる。
さらに,提案手法は,現状の地図手法(GMMベースではなく,GMMベース)と比較して,地図の精度と大きさのトレードオフが優れている。
シミュレーションデータと実世界データの両方を用いて評価を行う。
このソフトウェアは、ロボティクスコミュニティに利益をもたらすためにオープンソースとしてリリースされた。 This letter describes an incremental multimodal surface mapping methodology, which represents the environment as a continuous probabilistic model. This model enables high-resolution reconstruction while simultaneously compressing spatial and intensity point cloud data. The strategy employed in this work utilizes Gaussian mixture models (GMMs) to represent the environment. While prior GMM-based mapping works have developed methodologies to determine the number of mixture components using information-theoretic techniques, these approaches either operate on individual sensor observations, making them unsuitable for incremental mapping, or are not real-time viable, especially for applications where high-fidelity modeling is required. To bridge this gap, this letter introduces a spatial hash map for rapid GMM submap extraction combined with an approach to determine relevant and redundant data in a point cloud. These contributions increase computational speed by an order of magnitude compared to state-of-the-art incremental GMM-based mapping. In addition, the proposed approach yields a superior tradeoff in map accuracy and size when compared to state-of-the-art mapping methodologies (both GMM- and not GMM-based). Evaluations are conducted using both simulated and real-world data. The software is released open-source to benefit the robotics community. | 翻訳日:2023-10-30 16:51:44 公開日:2023-10-26 |
# 確率サイクルカウントパワーを有する距離制限型エルクローヤ・レスファイラー・リーマンGNN Distance-Restricted Folklore Weisfeiler-Leman GNNs with Provable Cycle Counting Power ( http://arxiv.org/abs/2309.04941v2 ) ライセンス: Link先を確認 | Junru Zhou, Jiarui Feng, Xiyuan Wang, Muhan Zhang | (参考訳) グラフニューラルネットワーク(GNN)が特定のグラフサブ構造、特にサイクルをカウントする能力は、幅広いタスクにおいてGNNの成功にとって重要である。
GNNの表現力を評価するための一般的な指標として最近使用されている。
証明可能なサイクルカウント能力を持つ多くのGNNモデルは、入力グラフからサブグラフの袋を抽出し、各サブグラフの表現を生成し、それらを使用して入力グラフの表現を増強する。
しかし、これらの手法は重い前処理を必要とし、高い時間とメモリコストに悩まされる。
本稿では,GNNの新たなクラスである$d$-Distance-Restricted FWL(2) GNN,あるいは$d$-DRFWL(2) GNNを提案することによって,前述のGNNの制限を克服する。
$d$-DRFWL(2) GNNは、表現力と複雑性のバランスをとるためにメッセージパッシングの単位として、互いに距離が最大$d$のノードペアを使用する。
元のグラフで距離制限ノードペア間でメッセージパッシングを行うことで、$d$-DRFWL(2) GNNはグラフGNNにおける高価なサブグラフ抽出操作を避け、時間と空間の複雑さを下げる。
理論的には、$d$-DRFWL(2) GNNの判別力は、$d$の増加とともに厳密に増加する。
さらに重要なのは、$d$-DRFWL(2) GNNは、$d=2$であっても、確実に強力なサイクルカウント能力を持つことだ。
6-サイクル(例えばベンゼン環)は有機分子中でユビキタスであるため、分子のタスクにおいて堅牢で一般化可能な性能を達成するためには、それらを検出して数えることができる。
合成データセットと分子データセットの両方の実験は、この理論を検証する。
我々の知る限りでは、我々のモデルは6サイクルまで数えられる最も効率的なGNNモデルである(理論的にも経験的にも)。 The ability of graph neural networks (GNNs) to count certain graph substructures, especially cycles, is important for the success of GNNs on a wide range of tasks. It has been recently used as a popular metric for evaluating the expressive power of GNNs. Many of the proposed GNN models with provable cycle counting power are based on subgraph GNNs, i.e., extracting a bag of subgraphs from the input graph, generating representations for each subgraph, and using them to augment the representation of the input graph. However, those methods require heavy preprocessing, and suffer from high time and memory costs. In this paper, we overcome the aforementioned limitations of subgraph GNNs by proposing a novel class of GNNs -- $d$-Distance-Restricted FWL(2) GNNs, or $d$-DRFWL(2) GNNs. $d$-DRFWL(2) GNNs use node pairs whose mutual distances are at most $d$ as the units for message passing to balance the expressive power and complexity. By performing message passing among distance-restricted node pairs in the original graph, $d$-DRFWL(2) GNNs avoid the expensive subgraph extraction operations in subgraph GNNs, making both the time and space complexity lower. We theoretically show that the discriminative power of $d$-DRFWL(2) GNNs strictly increases as $d$ increases. More importantly, $d$-DRFWL(2) GNNs have provably strong cycle counting power even with $d=2$: they can count all 3, 4, 5, 6-cycles. Since 6-cycles (e.g., benzene rings) are ubiquitous in organic molecules, being able to detect and count them is crucial for achieving robust and generalizable performance on molecular tasks. Experiments on both synthetic datasets and molecular datasets verify our theory. To the best of our knowledge, our model is the most efficient GNN model to date (both theoretically and empirically) that can count up to 6-cycles. | 翻訳日:2023-10-30 16:50:14 公開日:2023-10-26 |
# 埋め込み構造が重要:多言語語彙を新しい言語に適応させる方法の比較 Embedding structure matters: Comparing methods to adapt multilingual vocabularies to new languages ( http://arxiv.org/abs/2309.04679v2 ) ライセンス: Link先を確認 | C.M. Downey, Terra Blevins, Nora Goldfine, Shane Steinert-Threlkeld | (参考訳) 事前訓練された多言語言語モデルは、英語以外の現代のNLPツールの大部分を支えている。
これらのモデルを特定の言語に特化するための強力なベースラインはLanguage-Adaptive Pre-Training (LAPT)である。
しかし、大きな言語間語彙と埋め込みマトリクスを保持することは、適応中の計算コストを大幅に超過する。
本研究では,言語間語彙をコンパクトな言語固有の語彙に置き換える,いくつかの簡単な手法を提案する。
すなわち、語彙特殊化後のトークン埋め込み行列の再初期化戦略に対処する。
次に,最近提案したFocus法に加えて,本手法の系統的比較を行った。
私たちはそれを証明しています。
1) 単言語移動文学における埋め込み置換技術は多言語モデルの適応には不十分である。
2) 言語間の語彙を小さい専門語に置き換えることで,低リソース言語の性能向上に寄与する。
3) 補助モデルから得られた類似度スコアに依存するFocusのような,スクリプトワイズサブディストリビューションの競合技術に基づく簡易な組込み再初期化手法。 Pre-trained multilingual language models underpin a large portion of modern NLP tools outside of English. A strong baseline for specializing these models for specific languages is Language-Adaptive Pre-Training (LAPT). However, retaining a large cross-lingual vocabulary and embedding matrix comes at considerable excess computational cost during adaptation. In this study, we propose several simple techniques to replace a cross-lingual vocabulary with a compact, language-specific one. Namely, we address strategies for re-initializing the token embedding matrix after vocabulary specialization. We then provide a systematic experimental comparison of our techniques, in addition to the recently-proposed Focus method. We demonstrate that: 1) Embedding-replacement techniques in the monolingual transfer literature are inadequate for adapting multilingual models. 2) Replacing cross-lingual vocabularies with smaller specialized ones provides an efficient method to improve performance in low-resource languages. 3) Simple embedding re-initialization techniques based on script-wise sub-distributions rival techniques such as Focus, which rely on similarity scores obtained from an auxiliary model. | 翻訳日:2023-10-30 16:48:39 公開日:2023-10-26 |
# Reward-Augmented Decoding:一方向リワードモデルによる効率的なテキスト生成 Reward-Augmented Decoding: Efficient Controlled Text Generation With a Unidirectional Reward Model ( http://arxiv.org/abs/2310.09520v3 ) ライセンス: Link先を確認 | Haikang Deng, Colin Raffel | (参考訳) 大規模な言語モデルは、ダウンストリームアプリケーションで効果的であることが証明されているが、しばしば問題のあるテキストを生成したり、望ましい属性を欠いたりする。
本稿では,小さな一方向報酬モデルを用いたテキスト生成手法であるReward-Augmented Decoding(RAD)を紹介する。
具体的には、RADは報酬モデルを使用して、生成した世代をスコアし、サンプリング確率を再スケールし、ハイリワードトークンを好む。
一方向の報酬モデルを使用することで、RADは前世代からのアクティベーションをキャッシュすることで、計算オーバーヘッドを低減できる。
非有毒で感情制御されたテキストを生成する実験を通じて、radは生成手順のみを変更し、言語モデルの再学習を伴う最先端のメソッドのパフォーマンスに合致する手法の中で最高の性能を示す。
さらに、RADは計算オーバーヘッドを最小限に抑えつつ、非常に大きな言語モデルに有効であることを示す。 While large language models have proven effective in a huge range of downstream applications, they often generate text that is problematic or lacks a desired attribute. In this paper, we introduce Reward-Augmented Decoding (RAD), a text generation procedure that uses a small unidirectional reward model to encourage a language model to generate text that has certain properties. Specifically, RAD uses the reward model to score generations as they are produced and rescales sampling probabilities to favor high-reward tokens. By using a unidirectional reward model, RAD can cache activations from prior generation steps to decrease computational overhead. Through experiments on generating non-toxic and sentiment-controlled text, we demonstrate that RAD performs best among methods that change only the generation procedure and matches the performance of state-of-the-art methods that involve re-training the language model. We further validate that RAD is effective on very large language models while incurring a minimal computational overhead. | 翻訳日:2023-10-30 16:40:16 公開日:2023-10-26 |
# パラメータのすべて:動的不均一モデル削減によるフェデレーション学習の収束性の確保 Every Parameter Matters: Ensuring the Convergence of Federated Learning with Dynamic Heterogeneous Models Reduction ( http://arxiv.org/abs/2310.08670v2 ) ライセンス: Link先を確認 | Hanhan Zhou, Tian Lan, Guru Venkataramani and Wenbo Ding | (参考訳) クロスデバイスフェデレーション学習(fl)は、リソースボトルネックのため、潜在的にユニークな貢献が可能なローエンドクライアントが大規模モデルのトレーニングから除外されるという、重大な課題に直面している。
近年,グローバルモデルから小型モデルを抽出し,それに応じてローカルクライアントに適用することによって,モデル不均一FLに焦点を当てている。
経験的成功にもかかわらず、この方法に対する一般的な理論的な収束の保証は未解決の問題である。
本稿では,オンラインモデル抽出を用いた不均一FLアルゴリズムの一元化フレームワークを提案し,一般収束解析を初めて提供する。
特に, 一定の条件下で, IIDおよび非IIDデータに対して, これらのアルゴリズムは一般のスムーズなコスト関数に対して標準FLの定常点に収束することを示す。
さらに,ヘテロジニアスフェデレーション学習の収束を決定するモデル低減雑音とともに,最小カバレッジ指標の概念を導入することにより,ヘテロジニアスフェデレーション学習の効率を高めるための両要因を考慮した総合的アプローチを提唱する。 Cross-device Federated Learning (FL) faces significant challenges where low-end clients that could potentially make unique contributions are excluded from training large models due to their resource bottlenecks. Recent research efforts have focused on model-heterogeneous FL, by extracting reduced-size models from the global model and applying them to local clients accordingly. Despite the empirical success, general theoretical guarantees of convergence on this method remain an open question. This paper presents a unifying framework for heterogeneous FL algorithms with online model extraction and provides a general convergence analysis for the first time. In particular, we prove that under certain sufficient conditions and for both IID and non-IID data, these algorithms converge to a stationary point of standard FL for general smooth cost functions. Moreover, we introduce the concept of minimum coverage index, together with model reduction noise, which will determine the convergence of heterogeneous federated learning, and therefore we advocate for a holistic approach that considers both factors to enhance the efficiency of heterogeneous federated learning. | 翻訳日:2023-10-30 16:39:57 公開日:2023-10-26 |
# ニューラルバウンディング Neural Bounding ( http://arxiv.org/abs/2310.06822v2 ) ライセンス: Link先を確認 | Wenxin Liu, Michael Fischer, Paul D. Yoo, Tobias Ritschel | (参考訳) 境界ボリュームはコンピュータグラフィックスや視覚タスクにおいて確立された概念であるが、初期からほとんど変化していない。
本研究では,ニューラルネットワークを境界体積としての利用について検討する。
我々のキーとなる観察は、これまで計算幾何学の問題と考えられてきた境界は、空間を自由あるいは占有に分類する学習の課題として再定義できるということである。
この学習に基づくアプローチは、ニューラルネットワークが優れていることが知られている複雑なクエリを持つアニメーションシーンのような、高次元空間において特に有利である。
しかし、神経境界の解錠にはツイストが必要である: 偽陽性を許容する一方で、偽陰性の数が厳密にゼロであることを保証する。
動的に重み付けられた非対称損失関数を用いて、そのような厳密で保守的な結果を実現する。
以上の結果から,我々の神経境界は従来の方法よりも桁違いに偽陽性を生じさせることがわかった。 Bounding volumes are an established concept in computer graphics and vision tasks but have seen little change since their early inception. In this work, we study the use of neural networks as bounding volumes. Our key observation is that bounding, which so far has primarily been considered a problem of computational geometry, can be redefined as a problem of learning to classify space into free or occupied. This learning-based approach is particularly advantageous in high-dimensional spaces, such as animated scenes with complex queries, where neural networks are known to excel. However, unlocking neural bounding requires a twist: allowing -- but also limiting -- false positives, while ensuring that the number of false negatives is strictly zero. We enable such tight and conservative results using a dynamically-weighted asymmetric loss function. Our results show that our neural bounding produces up to an order of magnitude fewer false positives than traditional methods. | 翻訳日:2023-10-30 16:38:51 公開日:2023-10-26 |
# cpseg:chain-of-thought languageプロンプトによる細かな画像意味セグメンテーション CPSeg: Finer-grained Image Semantic Segmentation via Chain-of-Thought Language Prompting ( http://arxiv.org/abs/2310.16069v2 ) ライセンス: Link先を確認 | Lei Li | (参考訳) 自然シーン分析とリモートセンシング画像は、大規模言語誘導コンテキスト認識データ利用の進歩に大きな可能性を秘めている。
このポテンシャルは、設計言語プロンプトによるオブジェクト検出やセグメンテーションといった下流タスクのパフォーマンス向上に特に重要である。
そこで本稿では,画像に関連づけられたテキスト情報を活用した新たな「思考の連鎖」プロセスを統合することにより,画像分割性能を向上させるための革新的なフレームワークである cpseg を紹介する。
この画期的なアプローチは洪水災害のシナリオに適用されている。
CPSegは、様々な文から派生したプロンプトテキストを符号化し、コヒーレント連鎖を定式化する。
我々は、画像、セマンティックマスク、および対応するテキスト情報を含む新しい視覚言語データセット、FloodPromptを提案する。
これはシナリオの意味的理解を強化するだけでなく、ピクセルとテキストのマッチングマップの相互作用を通じて意味的セグメンテーションの重要なタスクを支援する。
CPSegの有効性を質的,定量的に検証した。 Natural scene analysis and remote sensing imagery offer immense potential for advancements in large-scale language-guided context-aware data utilization. This potential is particularly significant for enhancing performance in downstream tasks such as object detection and segmentation with designed language prompting. In light of this, we introduce the CPSeg, Chain-of-Thought Language Prompting for Finer-grained Semantic Segmentation), an innovative framework designed to augment image segmentation performance by integrating a novel "Chain-of-Thought" process that harnesses textual information associated with images. This groundbreaking approach has been applied to a flood disaster scenario. CPSeg encodes prompt texts derived from various sentences to formulate a coherent chain-of-thought. We propose a new vision-language dataset, FloodPrompt, which includes images, semantic masks, and corresponding text information. This not only strengthens the semantic understanding of the scenario but also aids in the key task of semantic segmentation through an interplay of pixel and text matching maps. Our qualitative and quantitative analyses validate the effectiveness of CPSeg. | 翻訳日:2023-10-30 16:27:59 公開日:2023-10-26 |
# MEMPSEP III。
多変量アンサンブル法を用いた太陽エネルギー粒子イベントの発生と特性予測のための機械学習指向多変量データセット MEMPSEP III. A machine learning-oriented multivariate data set for forecasting the Occurrence and Properties of Solar Energetic Particle Events using a Multivariate Ensemble Approach ( http://arxiv.org/abs/2310.15390v2 ) ライセンス: Link先を確認 | Kimberly Moreland, Maher Dayeh, Hazel M. Bain, Subhamoy Chatterjee, Andres Munoz-Jaramillo, Samuel Hart | (参考訳) 本研究では,太陽エネルギー粒子(seps)の生成に関与する物理プロセスと関連があることを示す,実地およびリモートセンシングヘリオマフィア計測を収集する複数の宇宙船を用いた,新しい多変量データセットを提案する。
太陽周期 (SC) 23 および SC 24 (1998-2013) の一部から地球環境衛星 (GOES) のフレアイベントリストを用いて, SEP を発生させる252の太陽イベント (フレア) と、そうでない17,542のイベントを同定した。
特定された事象ごとに、エネルギー陽子と電子データ、上流の太陽風条件、および様々な機器を搭載させたadvanced composition explorer(ace)宇宙船を用いて惑星間磁場ベクトル量などの1auの局所プラズマ特性を取得する。
また、SDO(Solar Dynamic Observatory)、SoHO(Solar and Heliospheric Observatory)、WAVES(Wind Solar Radio instrument)からリモートセンシングデータを収集する。
データセットは、ヘリオフィジカルスにおける機械学習(ml)の入力と特徴のバリエーションを可能にするために設計されており、sepイベントの発生とその後の特性を予測するための特別な目的を持っている。
本稿では,機械学習パイプラインの検証,クリーン化,精査を行う複数の公開観測源から作成したデータセットについて述べる。
このデータセットは、新たに開発された太陽エネルギー粒子の確率予測モデル(MEMPSEP; MEMPSEP I (Chatterjee et al., 2023) とMEMPSEP II (Dayeh et al., 2023) を駆動するために使用されている。 We introduce a new multivariate data set that utilizes multiple spacecraft collecting in-situ and remote sensing heliospheric measurements shown to be linked to physical processes responsible for generating solar energetic particles (SEPs). Using the Geostationary Operational Environmental Satellites (GOES) flare event list from Solar Cycle (SC) 23 and part of SC 24 (1998-2013), we identify 252 solar events (flares) that produce SEPs and 17,542 events that do not. For each identified event, we acquire the local plasma properties at 1 au, such as energetic proton and electron data, upstream solar wind conditions, and the interplanetary magnetic field vector quantities using various instruments onboard GOES and the Advanced Composition Explorer (ACE) spacecraft. We also collect remote sensing data from instruments onboard the Solar Dynamic Observatory (SDO), Solar and Heliospheric Observatory (SoHO), and the Wind solar radio instrument WAVES. The data set is designed to allow for variations of the inputs and feature sets for machine learning (ML) in heliophysics and has a specific purpose for forecasting the occurrence of SEP events and their subsequent properties. This paper describes a dataset created from multiple publicly available observation sources that is validated, cleaned, and carefully curated for our machine-learning pipeline. The dataset has been used to drive the newly-developed Multivariate Ensemble of Models for Probabilistic Forecast of Solar Energetic Particles (MEMPSEP; see MEMPSEP I (Chatterjee et al., 2023) and MEMPSEP II (Dayeh et al., 2023) for associated papers). | 翻訳日:2023-10-30 16:27:39 公開日:2023-10-26 |
# GNNEvaluator:ラベルなしで見えないグラフ上でのGNNパフォーマンスの評価 GNNEvaluator: Evaluating GNN Performance On Unseen Graphs Without Labels ( http://arxiv.org/abs/2310.14586v2 ) ライセンス: Link先を確認 | Xin Zheng, Miao Zhang, Chunyang Chen, Soheila Molaei, Chuan Zhou, Shirui Pan | (参考訳) グラフニューラルネットワーク(GNN)の性能評価は、トレーニング-テストグラフの分布のミスマッチのため、目立たないテストグラフとラベル付けされていないテストグラフを推測すると、デプロイされたGNNが重大なパフォーマンスの不確実性に直面しているため、実用的なGNNモデルのデプロイと提供にとって必須のタスクである。
本稿では,ラベル付きおよび観測グラフ上で訓練された特定のGNNモデルの性能を評価することを目的とした,新しい問題であるGNNモデル評価について,ラベルのない未確認グラフ上での性能(ノード分類精度など)を正確に推定することを目的とした。
具体的には,(1) DiscGraph セットの構成と(2) GNNEvaluator トレーニングと推論を含む2段階の GNN モデル評価フレームワークを提案する。
DiscGraphセットは、遅延ノード埋め込みとノードクラス予測に関連するGNNの出力を利用する、差分測定機能を通じて、広範囲で多様なグラフデータ分散の相違をキャプチャする。
DiscGraphセットからの効果的なトレーニング監督の下で、GNNEvaluatorは、評価対象であるGNNモデルのノード分類精度を正確に推定し、GNNモデルの性能を評価するための正確な推論を行う。
実世界の未発見およびラベルのないテストグラフに関する広範囲な実験により,提案手法がgnnモデル評価に有効であることを実証した。 Evaluating the performance of graph neural networks (GNNs) is an essential task for practical GNN model deployment and serving, as deployed GNNs face significant performance uncertainty when inferring on unseen and unlabeled test graphs, due to mismatched training-test graph distributions. In this paper, we study a new problem, GNN model evaluation, that aims to assess the performance of a specific GNN model trained on labeled and observed graphs, by precisely estimating its performance (e.g., node classification accuracy) on unseen graphs without labels. Concretely, we propose a two-stage GNN model evaluation framework, including (1) DiscGraph set construction and (2) GNNEvaluator training and inference. The DiscGraph set captures wide-range and diverse graph data distribution discrepancies through a discrepancy measurement function, which exploits the outputs of GNNs related to latent node embeddings and node class predictions. Under the effective training supervision from the DiscGraph set, GNNEvaluator learns to precisely estimate node classification accuracy of the to-be-evaluated GNN model and makes an accurate inference for evaluating GNN model performance. Extensive experiments on real-world unseen and unlabeled test graphs demonstrate the effectiveness of our proposed method for GNN model evaluation. | 翻訳日:2023-10-30 16:25:39 公開日:2023-10-26 |
# 複合粒子の散乱シミュレーション Simulating Scattering of Composite Particles ( http://arxiv.org/abs/2310.13742v2 ) ライセンス: Link先を確認 | Michael Kreshchuk, James P. Vary, Peter J. Love | (参考訳) 我々は、古典的および量子コンピュータ上での散乱をシミュレーションする非摂動的アプローチを開発し、初期状態と最終状態は一定数の複合粒子を含む。
この構造は、2つの複合粒子が接触する粒子衝突を模倣するように設計されている。
初期状態は、真空から相互作用理論の固有状態を生成する作用素の連続的適用によって組み立てられる。
これらの作用素はm{\o}ller波作用素(英語版)の助けを借りて定義され、断熱状態準備や二重整流流方程式のような手法で構成することができる。
このアプローチは、相対論的および非相対論的設定の両方において強結合系を研究するのに適している。
相対論的系では、個々の境界状態の性質の研究や外部場における散乱のシミュレーションに従来用いられてきた光前量子化の言語が用いられ、現在では境界状態系の散乱研究に採用されている。
古典計算機上でのシミュレーションでは、運動量グリッドサイズが指数関数的なコスト(メモリと時間)を持つ散乱確率を正確に(離散化理論の意味で)計算するアルゴリズムを記述する。
このような計算はそれ自体が興味深いもので、開発されたフレームワークの主要な応用である量子シミュレーションアルゴリズムのベンチマーク結果に使用できる。
私たちは、$\phi^4$理論を1+1\rm d$で適用してアイデアを説明します。 We develop a non-perturbative approach to simulating scattering on classical and quantum computers, in which the initial and final states contain a fixed number of composite particles. The construction is designed to mimic a particle collision, wherein two composite particles are brought in contact. The initial states are assembled via consecutive application of operators creating eigenstates of the interacting theory from vacuum. These operators are defined with the aid of the M{\o}ller wave operator, which can be constructed using such methods as adiabatic state preparation or double commutator flow equation. The approach is well-suited for studying strongly coupled systems in both relativistic and non-relativistic settings. For relativistic systems, we employ the language of light-front quantization, which has been previously used for studying the properties of individual bound states, as well as for simulating their scattering in external fields, and is now adopted to the studies of scattering of bound state systems. For simulations on classical computers, we describe an algorithm for calculating exact (in the sense of a given discretized theory) scattering probabilities, which has cost (memory and time) exponential in momentum grid size. Such calculations may be interesting in their own right and can be used for benchmarking results of a quantum simulation algorithm, which is the main application of the developed framework. We illustrate our ideas with an application to the $\phi^4$ theory in $1+1\rm D$. | 翻訳日:2023-10-30 16:24:43 公開日:2023-10-26 |
# ブロックチェーン上でランダム、フェア、検証可能なゲームを構築する。
Suiネットワーク上のラッフルスマートコントラクト設計 Building Random, Fair, and Verifiable Games on Blockchain. Raffle smart contract designs on Sui Network ( http://arxiv.org/abs/2310.12305v3 ) ライセンス: Link先を確認 | Eason Chen, Justa Liang, Ray Huang, Pierce Hung, Damien Chen, Ashley Hsu, Konstantinos Chalkias, Stefanos Pleros | (参考訳) 現代のオンラインゲームにおいてランダム性は重要な役割を担っているが、勝利確率の正確性をめぐって論争が持ち上がり、法的問題とゲーム会社に対する財政的欠点が生じた。
幸いなことに、ブロックチェーンベースのゲームは、ランダム性に関する透明性と公平性の問題に対する解決策を提供する。
さらに、su networkのような新興のブロックチェーン技術は、非効率や高価な取引手数料といった従来のweb3障壁を排除することで、スマートコントラクトの効率を高める。
これにより、大規模な分散ゲームアプリケーションの可能性が解き放たれる。
本稿は,ブロックチェーン上での公正で検証可能な,効率的なスマートコントラクトゲームの設計に関する洞察を,Swiネットワーク上でのラッフル構築の例として提供することを目的とする。
DRAND委員会ベースの分散ランダムビーコンや,単一のプライベートキーベースの検証可能なランダム関数(VRF)など,スマートコントラクトにランダム性を実装する効率的な方法を検討する。
そして、基本から包括的なスマートコントラクト設計へと前進する。
データ入力やストレージスペースの制約など、ブロックチェーンゲーム全般の開発における制限に対処しました。
本稿では,オブジェクトテーブル,デリゲートオブジェクト生成,ゼロ知識証明(ZKP)の利用を包含して,ストレージと入力効率を最適化する対応ソリューションを提案する。
デザインをテストした結果、DRANDビーコンとプライベートキーベースのVRFの取引手数料は似ていることがわかった。
さらに、オブジェクトテーブルは全体的な取引手数料を高くし、ZKPセットアップ料金は安く、検証プロセス中に非常に高価になる。
さらに、異なるスマートコントラクト実装の長所と短所を比較して、異なるアプリケーションシナリオに適した設計を特定した。
我々の発見は、スマートコントラクトでランダムで公正で検証可能なゲームを構築するための、将来の研究者や開発者にとって貴重なガイダンスを提供する。 Randomness plays a pivotal role in modern online gaming, but disputes have arisen over the accuracy of stated winning chances, resulting in legal issues and financial setbacks for gaming companies. Fortunately, blockchain-based games offer a solution to the transparency and fairness issue regarding randomness. Furthermore, emerging blockchain technology like Sui Network enhances the efficiency of smart contracts by eliminating traditional web3 barriers, such as inefficiencies and expensive transaction fees. This unlocks the potential for extensive decentralized gaming applications. This paper aims to provide insights into designing a fair, verifiable, and efficient smart contract game on blockchain by the example of building raffles on the Sui Network. We explore efficient methods for implementing randomness on smart contracts, including DRAND committee-based decentralized random beacons and single private-key-based verifiable random functions (VRF). Then, progress from basic to comprehensive smart contract design. We addressed limitations in developing blockchain games in general, such as data input and storage space constraints. We propose corresponding solutions, encompassing the utilization of Object Tables, Delegate Object Creation, and Zero-Knowledge Proofs (ZKP) to optimize storage and input efficiency. After testing our designs, we found that the transaction fees for DRAND beacons and private-key-based VRFs are similar. Moreover, Object Tables incur higher overall transaction fees, while the ZKP setup fee is cheap but becomes very expensive during the verification process. Moreover, we identified suitable designs for different application scenarios by comparing the pros and cons of different smart contract implementations. Our findings provide valuable guidance for future researchers and developers in building random, fair, and verifiable games with smart contracts. | 翻訳日:2023-10-30 16:23:29 公開日:2023-10-26 |
# 脳腫瘍検出の高度化:MRI画像解析におけるCNN,クラスタリング,SoftMax分類の詳細な検討 Advancing Brain Tumor Detection: A Thorough Investigation of CNNs, Clustering, and SoftMax Classification in the Analysis of MRI Images ( http://arxiv.org/abs/2310.17720v1 ) ライセンス: Link先を確認 | Jonayet Miah, Duc M Cao, Md Abu Sayed3, Md Siam Taluckder, Md Sabbirul Haque, and Fuad Mahmud | (参考訳) 脳腫瘍は、すべての年齢層で高い有病率と死亡率のため、世界的な健康上の課題となる。
早期の脳腫瘍の検出は、効果的な治療と患者の予後に不可欠である。
本研究は,MRI画像を用いた脳腫瘍検出における畳み込みニューラルネットワーク(CNN)の使用に関する総合的研究である。
このデータセットは、健康な個人と脳腫瘍患者のMRIスキャンで作成され、CNNアーキテクチャーに入力された。
画像の分類にはSoftMax Fully Connectedレイヤが使用され、精度は98%に達した。
CNNの性能を評価するために、他の2つの分類器である放射基底関数(RBF)と決定木(DT)がそれぞれ98.24%と95.64%の精度で使用された。
また,特徴抽出のためのクラスタリング手法も導入し,cnnの精度が向上した。
ネットワークの性能を包括的に評価するために、感度、特異性、正確性が精度とともに用いられた。
特にsoftmax分類器は分類器の中で最高精度を示し、テストデータで99.52%の精度を達成した。
本研究は,医学画像解析における深層学習の分野に寄与する。
CNNとMRIデータの組み合わせは、脳腫瘍を正確に検出するための有望なツールを提供する。 Brain tumors pose a significant global health challenge due to their high prevalence and mortality rates across all age groups. Detecting brain tumors at an early stage is crucial for effective treatment and patient outcomes. This study presents a comprehensive investigation into the use of Convolutional Neural Networks (CNNs) for brain tumor detection using Magnetic Resonance Imaging (MRI) images. The dataset, consisting of MRI scans from both healthy individuals and patients with brain tumors, was processed and fed into the CNN architecture. The SoftMax Fully Connected layer was employed to classify the images, achieving an accuracy of 98%. To evaluate the CNN's performance, two other classifiers, Radial Basis Function (RBF) and Decision Tree (DT), were utilized, yielding accuracy rates of 98.24% and 95.64%, respectively. The study also introduced a clustering method for feature extraction, improving CNN's accuracy. Sensitivity, Specificity, and Precision were employed alongside accuracy to comprehensively evaluate the network's performance. Notably, the SoftMax classifier demonstrated the highest accuracy among the categorizers, achieving 99.52% accuracy on test data. The presented research contributes to the growing field of deep learning in medical image analysis. The combination of CNNs and MRI data offers a promising tool for accurately detecting brain tumors, with potential implications for early diagnosis and improved patient care. | 翻訳日:2023-10-30 16:15:27 公開日:2023-10-26 |
# 自己超越による非競合文表現 Non-contrastive sentence representations via self-supervision ( http://arxiv.org/abs/2310.17690v1 ) ライセンス: Link先を確認 | Marco Farina and Duccio Pappadopulo | (参考訳) サンプルコントラスト法(英: Sample contrastive method、典型的には単にコントラスト法と呼ばれる)は、テキストと文の埋め込みを学習するほとんど教師なしの方法の基礎である。
一方、コンピュータビジョンコミュニティでは、異なるタイプの自己監督的損失関数や手法が検討されており、次元を対照的に捉えている。
本稿では,この手法をコントラスト文埋め込みの標準ベースラインであるSimCSEと徹底的に比較する。
次元の対比目的を用いて訓練された自己教師付き埋め込みは、補助損失関数を必要とせずに下流タスクのsimcseを上回ることができる。 Sample contrastive methods, typically referred to simply as contrastive are the foundation of most unsupervised methods to learn text and sentence embeddings. On the other hand, a different class of self-supervised loss functions and methods have been considered in the computer vision community and referred to as dimension contrastive. In this paper, we thoroughly compare this class of methods with the standard baseline for contrastive sentence embeddings, SimCSE. We find that self-supervised embeddings trained using dimension contrastive objectives can outperform SimCSE on downstream tasks without needing auxiliary loss functions. | 翻訳日:2023-10-30 16:15:02 公開日:2023-10-26 |
# 急激な進歩の時代におけるAIリスクの管理 Managing AI Risks in an Era of Rapid Progress ( http://arxiv.org/abs/2310.17688v1 ) ライセンス: Link先を確認 | Yoshua Bengio, Geoffrey Hinton, Andrew Yao, Dawn Song, Pieter Abbeel, Yuval Noah Harari, Ya-Qin Zhang, Lan Xue, Shai Shalev-Shwartz, Gillian Hadfield, Jeff Clune, Tegan Maharaj, Frank Hutter, At{\i}l{\i}m G\"une\c{s} Baydin, Sheila McIlraith, Qiqi Gao, Ashwin Acharya, David Krueger, Anca Dragan, Philip Torr, Stuart Russell, Daniel Kahneman, Jan Brauner, S\"oren Mindermann | (参考訳) 本稿では,今後のAIシステムのリスクについて概説する。
我々は、大規模社会被害と悪意のある利用、および自律型AIシステムに対する人間の制御の不可逆的な喪失について検討する。
AIの迅速かつ継続的な進歩を踏まえ、我々はAI研究開発とガバナンスの優先順位を提案する。 In this short consensus paper, we outline risks from upcoming, advanced AI systems. We examine large-scale social harms and malicious uses, as well as an irreversible loss of human control over autonomous AI systems. In light of rapid and continuing AI progress, we propose priorities for AI R&D and governance. | 翻訳日:2023-10-30 16:14:53 公開日:2023-10-26 |
# 生成逆ネットワークを用いた予測の対実的公正性 Counterfactual Fairness for Predictions using Generative Adversarial Networks ( http://arxiv.org/abs/2310.17687v1 ) ライセンス: Link先を確認 | Yuchen Ma, Dennis Frauen, Valentyn Melnychuk, Stefan Feuerriegel | (参考訳) 予測の公正性は、法的、倫理的、社会的理由により、実践において直接的に重要である。
これはしばしば反事実的公平性によって達成され、異なる敏感な属性の下での反事実的世界における個人の予測と同一であることが保証される。
しかし、反事実の公平性を達成することは、反事実が観察できないため困難である。
本稿では,生成的対実的公正性ネットワーク(GCFN)と呼ばれる,対実的公正性の下で予測を行う新しいディープニューラルネットワークを開発する。
具体的には、直列生成対向ネットワークを利用して、センシティブ属性の子孫の反実的分布を直接学習し、新しい反実的媒介者正規化を通じて公正な予測を行う。
反事実分布が十分に学べば, 反事実分布の概念を確実にするために数学的に保証される。
これにより、我々のGCFNは、潜在変数の推論に基づく既存のベースラインの重要な欠点に対処する。
a)は敏感な属性と相関する可能性があり、従ってバイアスを引き起こす。
b)潜在表現を構成する能力が弱いため、予測性能が低い。
様々な実験において,本手法は最先端の性能を実現する。
recidivism predictionによる実世界のケーススタディを用いて,本手法が実際に有意義な予測を行うことを示す。 Fairness in predictions is of direct importance in practice due to legal, ethical, and societal reasons. It is often achieved through counterfactual fairness, which ensures that the prediction for an individual is the same as that in a counterfactual world under a different sensitive attribute. However, achieving counterfactual fairness is challenging as counterfactuals are unobservable. In this paper, we develop a novel deep neural network called Generative Counterfactual Fairness Network (GCFN) for making predictions under counterfactual fairness. Specifically, we leverage a tailored generative adversarial network to directly learn the counterfactual distribution of the descendants of the sensitive attribute, which we then use to enforce fair predictions through a novel counterfactual mediator regularization. If the counterfactual distribution is learned sufficiently well, our method is mathematically guaranteed to ensure the notion of counterfactual fairness. Thereby, our GCFN addresses key shortcomings of existing baselines that are based on inferring latent variables, yet which (a) are potentially correlated with the sensitive attributes and thus lead to bias, and (b) have weak capability in constructing latent representations and thus low prediction performance. Across various experiments, our method achieves state-of-the-art performance. Using a real-world case study from recidivism prediction, we further demonstrate that our method makes meaningful predictions in practice. | 翻訳日:2023-10-30 16:14:50 公開日:2023-10-26 |
# LEI:データ共有を実現するための家畜イベント情報スキーマ LEI: Livestock Event Information Schema for Enabling Data Sharing ( http://arxiv.org/abs/2310.17684v1 ) ライセンス: Link先を確認 | Mahir Habib, Muhammad Ashad Kabir, Lihong Zheng, Shawn McGrath | (参考訳) データ駆動の進歩は乳製品の生産を大幅に改善した。
しかし、肉産業はデータ駆動アプローチの採用に遅れをとっており、生産性を最大化し、コストを節約し、市場へのアクセスを増やすためにシームレスなデータ伝達を促進するためのデータ標準化の必要性を強調している。
このギャップに対処するため,家畜のイベントを正確に均一に記録するための新しいデータスキーマであるLivestock Event Information (LEI) スキーマを提案する。
LEIは、ICAR(International Committee for Animal Recording)とISC(Integration System Company)のスキーマに準拠し、データ標準化を提供し、生産者と消費者の間でのデータ共有を可能にする。
LEIの優位性を検証するため,構造指標分析と包括的ケーススタディを行った。
解析の結果、LEIはICARおよびICCスキーマよりも優れた性能を示し、ケーススタディでは家畜のイベント情報を捕捉する優れた能力が確認された。
本研究は、家畜管理におけるデータ駆動型開発の可能性を高めるため、LEIスキーマの実装の基礎を築いた。
さらに、ライの万能性は、養鶏、漁業、作物を含む他の農業分野への将来の拡大への道を開く。
LEIの採用は、データ精度の向上、コスト削減、生産性の向上など、肉産業における持続可能性の新しい時代を象徴する大きなメリットを約束する。 Data-driven advances have resulted in significant improvements in dairy production. However, the meat industry has lagged behind in adopting data-driven approaches, underscoring the crucial need for data standardisation to facilitate seamless data transmission to maximise productivity, save costs, and increase market access. To address this gap, we propose a novel data schema, Livestock Event Information (LEI) schema, designed to accurately and uniformly record livestock events. LEI complies with the International Committee for Animal Recording (ICAR) and Integrity System Company (ISC) schemas to deliver this data standardisation and enable data sharing between producers and consumers. To validate the superiority of LEI, we conducted a structural metrics analysis and a comprehensive case study. The analysis demonstrated that LEI outperforms the ICAR and ISC schemas in terms of design, while the case study confirmed its superior ability to capture livestock event information. Our findings lay the foundation for the implementation of the LEI schema, unlocking the potential for data-driven advances in livestock management. Moreover, LEI's versatility opens avenues for future expansion into other agricultural domains, encompassing poultry, fisheries, and crops. The adoption of LEI promises substantial benefits, including improved data accuracy, reduced costs, and increased productivity, heralding a new era of sustainability in the meat industry. | 翻訳日:2023-10-30 16:14:32 公開日:2023-10-26 |
# sliceformer: 判別タスクのソートのように、マルチヘッドの注意をシンプルにする Sliceformer: Make Multi-head Attention as Simple as Sorting in Discriminative Tasks ( http://arxiv.org/abs/2310.17683v1 ) ライセンス: Link先を確認 | Shen Yuan and Hongteng Xu | (参考訳) 最も人気のあるニューラルネットワークモジュールの1つであるTransformerは、コンピュータビジョンのViTや自然言語処理のBERTやGPTなど、多くの基本的なディープラーニングモデルにおいて中心的な役割を果たす。
Transformerの有効性は、MHA(Multi-head attention)メカニズムによることが多い。
本研究では,'query-key-value'アーキテクチャによる計算複雑性の増大や,そのソフトマックス演算による数値問題など,MHAの限界について論じる。
以上の問題と近年の注目層の発展傾向を踏まえ,スライスフォーマと呼ばれるトランスフォーマの効果的かつ効率的なサロゲートを提案する。
我々のスライスフォーマーは古典的なMHA機構を極めて単純な「スライシング・ソート」演算で置き換える、すなわち、入力を潜在空間に線形に射影し、異なる特徴次元(すなわちチャンネルと呼ばれる)に沿ってソートする。
各特徴次元について、ソート操作は暗黙的にスパース、フルランク、二重確率構造を持つ暗黙の注意マップを生成する。
我々はスライシングソート操作の異なる実装を検討し、スライスフォーマーへの影響を分析する。
画像分類,テキスト分類,分子特性予測においてスライスフォームをテストし,計算複雑性および識別タスクにおける普遍的有効性を示す。
我々のSliceformerは、Transformerとその変種よりもメモリコストが低く、高速な性能を実現しています。
また,sliceformerの適用は,データ表現時のモード崩壊のリスクを経験的に抑制できることを示した。
コードは \url{https://github.com/sds-lab/sliceformer} で入手できる。 As one of the most popular neural network modules, Transformer plays a central role in many fundamental deep learning models, e.g., the ViT in computer vision and the BERT and GPT in natural language processing. The effectiveness of the Transformer is often attributed to its multi-head attention (MHA) mechanism. In this study, we discuss the limitations of MHA, including the high computational complexity due to its ``query-key-value'' architecture and the numerical issue caused by its softmax operation. Considering the above problems and the recent development tendency of the attention layer, we propose an effective and efficient surrogate of the Transformer, called Sliceformer. Our Sliceformer replaces the classic MHA mechanism with an extremely simple ``slicing-sorting'' operation, i.e., projecting inputs linearly to a latent space and sorting them along different feature dimensions (or equivalently, called channels). For each feature dimension, the sorting operation implicitly generates an implicit attention map with sparse, full-rank, and doubly-stochastic structures. We consider different implementations of the slicing-sorting operation and analyze their impacts on the Sliceformer. We test the Sliceformer in the Long-Range Arena benchmark, image classification, text classification, and molecular property prediction, demonstrating its advantage in computational complexity and universal effectiveness in discriminative tasks. Our Sliceformer achieves comparable or better performance with lower memory cost and faster speed than the Transformer and its variants. Moreover, the experimental results reveal that applying our Sliceformer can empirically suppress the risk of mode collapse when representing data. The code is available at \url{https://github.com/SDS-Lab/sliceformer}. | 翻訳日:2023-10-30 16:14:07 公開日:2023-10-26 |
# 1次元における無秩序ボソンのスケール不変相転移 Scale-invariant phase transition of disordered bosons in one dimension ( http://arxiv.org/abs/2310.17682v1 ) ライセンス: Link先を確認 | Tanul Gupta, Guido Masella, Francesco Mattiotti, Nikolay V. Prokof'ev, and Guido Pupillo | (参考訳) 1次元のボゾン粒子の超流動状態と非超流動状態の間の障害誘起量子相転移は、一般的にベレジンスキー-コステリッツ-Thouless (BKT)型であることが期待される。
ここで、可積分なパワーローホッピングを持つハードコア格子ボソンが、スピン言語で1/r^\alpha$で崩壊し、パワーローカップリングを持つxy$モデルに対応することを示し、代わりに非bkt連続相転移を行う。
正確な量子モンテカルロ法を用いて指数 $\alpha > 2$ の異なる値の位相図を決定する。
超流動剛性とシステムサイズとのスケーリングは、任意の$\alpha\leq 3$の遷移点においてスケール不変であり、bktのシナリオと相容れない振る舞いであり、より高次元の連続相転移の典型例である。
遷移点付近で解析をスケールすることにより、我々のデータはHarris境界の$\nu \geq 2$を満たす相関長指数と一致し、1次元で不規則なボソンの新しい普遍的挙動を示す。
$\alpha>3$のデータは、無限小障害によって液体が固定されるBKTシナリオと一致している。 The disorder-induced quantum phase transition between superfluid and non-superfluid states of bosonic particles in one dimension is generally expected to be of the Berezinskii-Kosterlitz-Thouless (BKT) type. Here, we show that hard-core lattice bosons with integrable power-law hopping decaying with distance as $1/r^\alpha$ - corresponding in spin language to a $XY$ model with power-law couplings - undergo a non-BKT continuous phase transition instead. We use exact quantum Monte-Carlo methods to determine the phase diagram for different values of the exponent $\alpha$, focusing on the regime $\alpha > 2$. We find that the scaling of the superfluid stiffness with the system size is scale-invariant at the transition point for any $\alpha\leq 3$ - a behavior incompatible with the BKT scenario and typical of continuous phase transitions in higher dimension. By scaling analysis near the transition point, we find that our data are consistent with a correlation length exponent satisfying the Harris bound $\nu \geq 2$ and demonstrate a new universal behavior of disordered bosons in one dimension. For $\alpha>3$ our data are consistent with a BKT scenario where the liquid is pinned by infinitesimal disorder. | 翻訳日:2023-10-30 16:13:34 公開日:2023-10-26 |
# 機械学習による惑星科学データセットの特徴抽出と分類 Feature Extraction and Classification from Planetary Science Datasets enabled by Machine Learning ( http://arxiv.org/abs/2310.17681v1 ) ライセンス: Link先を確認 | Conor Nixon, Zachary Yahn, Ethan Duncan, Ian Neidel, Alyssa Mills, Beno\^it Seignovert (OSUNA), Andrew Larsen, Kathryn Gansler, Charles Liles, Catherine Walker, Douglas Trent, John Santerre | (参考訳) 本稿では、外惑星ミッションの画像データセットに機械学習(ml)ニューラルネットワーク(nn)を適用し、特徴認識を実現するという最近の研究の例を2つ紹介する。
最初の調査は、エウロパの砕氷のカオス領域にある氷のブロック(いかだ、プレート、多角形)を認識することでした。
我々はトランスファーラーニングアプローチを採用し、業界標準のMask R-CNN(Region-based Convolutional Neural Network)に新しいレイヤを追加し、トレーニングデータセットでラベル付きブロックを認識する。
その後、更新されたモデルは、68%の精度で新しいデータセットに対してテストされた。
別のアプリケーションでは、Titan上の雲を認識するためにMask R-CNNを適用しました。
我々は,我々の手法の相対的成功を評価し,訓練と認識をさらに改善する方法を提案する。
私たちが惑星のデータセットに用いた新しいアプローチは、地球を含む他の惑星の同様の認識タスクにも適用できます。
特に外惑星の画像の場合、この技術は、最も興味深い画像サブセットのオンボード識別や、最終データストリームの情報量を大幅に増大させる差分データ(変化が起こった画像)のみを返すことによって、返されるデータの量を大幅に減少させる可能性がある。 In this paper we present two examples of recent investigations that we have undertaken, applying Machine Learning (ML) neural networks (NN) to image datasets from outer planet missions to achieve feature recognition. Our first investigation was to recognize ice blocks (also known as rafts, plates, polygons) in the chaos regions of fractured ice on Europa. We used a transfer learning approach, adding and training new layers to an industry-standard Mask R-CNN (Region-based Convolutional Neural Network) to recognize labeled blocks in a training dataset. Subsequently, the updated model was tested against a new dataset, achieving 68% precision. In a different application, we applied the Mask R-CNN to recognize clouds on Titan, again through updated training followed by testing against new data, with a precision of 95% over 369 images. We evaluate the relative successes of our techniques and suggest how training and recognition could be further improved. The new approaches we have used for planetary datasets can further be applied to similar recognition tasks on other planets, including Earth. For imagery of outer planets in particular, the technique holds the possibility of greatly reducing the volume of returned data, via onboard identification of the most interesting image subsets, or by returning only differential data (images where changes have occurred) greatly enhancing the information content of the final data stream. | 翻訳日:2023-10-30 16:13:12 公開日:2023-10-26 |
# CodeFusion: コード生成のための事前トレーニング付き拡散モデル CodeFusion: A Pre-trained Diffusion Model for Code Generation ( http://arxiv.org/abs/2310.17680v1 ) ライセンス: Link先を確認 | Mukul Singh, Jos\'e Cambronero, Sumit Gulwani, Vu Le, Carina Negreanu, Gust Verbruggen | (参考訳) 最後のコード行しか変更できない開発者が、それが正しくなる前に、スクラッチから関数を書き始める頻度を想像してください。
自然言語からコードを生成するための自動回帰モデルにも同じような制限がある。
符号化自然言語で条件付けられた完全なプログラムを反復的にデノベートすることにより,この制限に対処する,事前学習された拡散コード生成モデルであるcodefusionを導入する。
我々は,Bash,Python,Microsoft Excel条件書式(CF)ルールに対して,自然言語のタスクからコード生成までのCodeFusionを評価する。
実験の結果、CodeFusion(75Mパラメータ)は最先端の自己回帰システム(350M-175Bパラメータ)と同等に動作し、多様性と品質のバランスが良く、トップ3とトップ5の精度で性能が向上していることがわかった。 Imagine a developer who can only change their last line of code, how often would they have to start writing a function from scratch before it is correct? Auto-regressive models for code generation from natural language have a similar limitation: they do not easily allow reconsidering earlier tokens generated. We introduce CodeFusion, a pre-trained diffusion code generation model that addresses this limitation by iteratively denoising a complete program conditioned on the encoded natural language. We evaluate CodeFusion on the task of natural language to code generation for Bash, Python, and Microsoft Excel conditional formatting (CF) rules. Experiments show that CodeFusion (75M parameters) performs on par with state-of-the-art auto-regressive systems (350M-175B parameters) in top-1 accuracy and outperforms them in top-3 and top-5 accuracy due to its better balance in diversity versus quality. | 翻訳日:2023-10-30 16:12:48 公開日:2023-10-26 |
# ベストオーダースコア探索とグロースシンクツリーを用いたDAGの高速かつ高精度な探索 Fast Scalable and Accurate Discovery of DAGs Using the Best Order Score Search and Grow-Shrink Trees ( http://arxiv.org/abs/2310.17679v1 ) ライセンス: Link先を確認 | Bryan Andrews, Joseph Ramsey, Ruben Sanchez-Romero, Jazmin Camchong, Erich Kummerfeld | (参考訳) グラフィカルな条件付き独立構造を学ぶことは、機械学習の重要な問題であり、因果発見の基盤である。
しかし、学習アルゴリズムの精度と実行時間は通常、数百の高結合変数(例えばfMRIデータから脳ネットワークを回復する)の問題にスケールするのに苦労する。
本稿では,このパラダイムで有向非巡回グラフ(DAG)を学習するためのベストオーダースコアサーチ(BOSS)とGST(Grow-Shrink Tree)を紹介する。
BOSSは変数の置換を丁寧に検索し、GSTを使って置換からDAGを構築してスコア付けする。
GSTは効率よくスコアをキャッシュし、冗長な計算をなくす。
BOSSは精度と実行時間の最先端性能を達成し、幅広い条件下で様々な組合せおよび勾配に基づく学習アルゴリズムと比較した。
その実用性を示すために、BOSSを2種類の静止状態fMRIデータに適用する: ランダム化された経験的fMRI皮質信号から得られた擬似経験的雑音分布と、3T fMRIスキャンから得られた臨床データと、皮質パーセルに処理した。
BOSSは、PythonとRラッパーを含むTETRADプロジェクトで利用可能である。 Learning graphical conditional independence structures is an important machine learning problem and a cornerstone of causal discovery. However, the accuracy and execution time of learning algorithms generally struggle to scale to problems with hundreds of highly connected variables -- for instance, recovering brain networks from fMRI data. We introduce the best order score search (BOSS) and grow-shrink trees (GSTs) for learning directed acyclic graphs (DAGs) in this paradigm. BOSS greedily searches over permutations of variables, using GSTs to construct and score DAGs from permutations. GSTs efficiently cache scores to eliminate redundant calculations. BOSS achieves state-of-the-art performance in accuracy and execution time, comparing favorably to a variety of combinatorial and gradient-based learning algorithms under a broad range of conditions. To demonstrate its practicality, we apply BOSS to two sets of resting-state fMRI data: simulated data with pseudo-empirical noise distributions derived from randomized empirical fMRI cortical signals and clinical data from 3T fMRI scans processed into cortical parcels. BOSS is available for use within the TETRAD project which includes Python and R wrappers. | 翻訳日:2023-10-30 16:12:30 公開日:2023-10-26 |
# 時空間メタコントラスト学習 Spatio-Temporal Meta Contrastive Learning ( http://arxiv.org/abs/2310.17678v1 ) ライセンス: Link先を確認 | Jiabin Tang and Lianghao Xia and Jie Hu and Chao Huang | (参考訳) 時空間予測は、交通予測や犯罪予測など、公共交通と安全管理の改善を目的とした多くの現実世界のアプリケーションにおいて不可欠である。
多くの最先端モデルでは、複雑な時空間相関を捉えるために時空間グラフニューラルネットワーク(STGNN)の強い能力を示している。
しかし、その効果にもかかわらず、既存のアプローチはいくつかの重要な課題を十分に解決していない。
データ品質の問題、例えばデータ不足やスパーシリティは、データノイズと教師付き信号の欠如を引き起こし、STGNNの性能を著しく制限する。
対照的な学習を伴う最近のSTGNNモデルはこれらの課題に対処することを目的としているが、そのほとんどは手動設計に大きく依存し、異なる時空間グラフ(STG)シナリオではカスタマイズできない事前定義された拡張戦略を使用している。
これらの課題に対処するために,STG拡張パラダイムを通じて頑健で一般化可能なSTG表現を符号化する新しい時空間コントラスト学習(CL4ST)フレームワークを提案する。
具体的にはメタビュー生成器を設計し、データ駆動方式で各非交叉空間グラフと時間グラフに対するノードおよびエッジ拡張ビューを自動的に構築する。
メタビュージェネレータは、パラメータ化された生成モデルを持つメタネットワークを使用して、各入力の強化をカスタマイズする。
これにより、STG毎に強化戦略をパーソナライズし、時空間情報による学習フレームワークを提供する。
さらに,提案するメタビュー生成器と2分岐グラフコントラスト学習パラダイムと,統合した時空間グラフアテンションネットワークを統合する。
大規模実験により, CL4STは交通・犯罪予測において, 各種技術ベースラインの性能を著しく向上させることが示された。 Spatio-temporal prediction is crucial in numerous real-world applications, including traffic forecasting and crime prediction, which aim to improve public transportation and safety management. Many state-of-the-art models demonstrate the strong capability of spatio-temporal graph neural networks (STGNN) to capture complex spatio-temporal correlations. However, despite their effectiveness, existing approaches do not adequately address several key challenges. Data quality issues, such as data scarcity and sparsity, lead to data noise and a lack of supervised signals, which significantly limit the performance of STGNN. Although recent STGNN models with contrastive learning aim to address these challenges, most of them use pre-defined augmentation strategies that heavily depend on manual design and cannot be customized for different Spatio-Temporal Graph (STG) scenarios. To tackle these challenges, we propose a new spatio-temporal contrastive learning (CL4ST) framework to encode robust and generalizable STG representations via the STG augmentation paradigm. Specifically, we design the meta view generator to automatically construct node and edge augmentation views for each disentangled spatial and temporal graph in a data-driven manner. The meta view generator employs meta networks with parameterized generative model to customize the augmentations for each input. This personalizes the augmentation strategies for every STG and endows the learning framework with spatio-temporal-aware information. Additionally, we integrate a unified spatio-temporal graph attention network with the proposed meta view generator and two-branch graph contrastive learning paradigms. Extensive experiments demonstrate that our CL4ST significantly improves performance over various state-of-the-art baselines in traffic and crime prediction. | 翻訳日:2023-10-30 16:12:06 公開日:2023-10-26 |
# gnn-gmvo: 類似商品推薦におけるグロス商品価値最適化のためのグラフニューラルネットワーク GNN-GMVO: Graph Neural Networks for Optimizing Gross Merchandise Value in Similar Item Recommendation ( http://arxiv.org/abs/2310.17732v1 ) ライセンス: Link先を確認 | Ramin Giahi, Reza Yousefi Maragheh, Nima Farrokhsiar, Jianpeng Xu, Jason Cho, Evren Korpeoglu, Sushant Kumar, Kannan Achan | (参考訳) 類似商品のレコメンデーションはeコマース業界において重要なタスクであり、顧客が興味のある製品に基づいて類似商品や関連する選択肢を探索するのに役立つ。
従来の機械学習モデルにもかかわらず、graph neural networks(gnns)は設計上、製品間の類似性のような複雑な関係を理解できる。
しかし、検索タスクで広く使われていることと、その妥当性の最適化に重点を置いているのとは対照的に、現在のGNNアーキテクチャは、Eコマース企業にとって主要なビジネス指標であるGross Merchandise Value(GMV)のような収益関連目標の最大化に向いていない。
さらに、gnnにおける正確なエッジ関係の定義は、アイテムとアイテムの関係が異質であるため、大規模なeコマースシステムでは非自明である。
この研究は、GNN-GMVO(Graph Neural Network - Gross Merchandise Value Optimizer)と呼ばれる新しいGNNアーキテクチャを設計することで、これらの問題を解決することを目的としている。
このモデルはアイテム間の複雑な関係を考慮してgmvを直接最適化する。
さらに,類似項目推薦タスクに向けてモデルを調整し,ノイズや複雑な項目-項目関係を緩和するためのエッジ構築手法を提案する。
実世界の3つのデータセットに関する総合的な実験では,提案モデルが推奨する上位項目の予測性能と予測GMVが,選択した最先端ベンチマークモデルと比較された。 Similar item recommendation is a critical task in the e-Commerce industry, which helps customers explore similar and relevant alternatives based on their interested products. Despite the traditional machine learning models, Graph Neural Networks (GNNs), by design, can understand complex relations like similarity between products. However, in contrast to their wide usage in retrieval tasks and their focus on optimizing the relevance, the current GNN architectures are not tailored toward maximizing revenue-related objectives such as Gross Merchandise Value (GMV), which is one of the major business metrics for e-Commerce companies. In addition, defining accurate edge relations in GNNs is non-trivial in large-scale e-Commerce systems, due to the heterogeneity nature of the item-item relationships. This work aims to address these issues by designing a new GNN architecture called GNN-GMVO (Graph Neural Network - Gross Merchandise Value Optimizer). This model directly optimizes GMV while considering the complex relations between items. In addition, we propose a customized edge construction method to tailor the model toward similar item recommendation task and alleviate the noisy and complex item-item relations. In our comprehensive experiments on three real-world datasets, we show higher prediction performance and expected GMV for top ranked items recommended by our model when compared with selected state-of-the-art benchmark models. | 翻訳日:2023-10-30 16:02:28 公開日:2023-10-26 |
# グラフニューラルネットワークを用いたインテリジェント交通システムにおける交通密度予測の改善 Improving Traffic Density Forecasting in Intelligent Transportation Systems Using Gated Graph Neural Networks ( http://arxiv.org/abs/2310.17729v1 ) ライセンス: Link先を確認 | Razib Hayat Khan, Jonayet Miah, S M Yasir Arafat, M M Mahbubul Syeed, Duc M Ca | (参考訳) この研究は、インテリジェント交通システムにおいて重要な側面である交通予測の領域におけるグラフニューラルネットワークの適用について検討する。
正確な交通予測は、旅行計画、交通制御、車両のルーティングといった機能にとって不可欠である。
グラフ畳み込みネットワーク(グラフサンプルとアグリゲーション)とゲートグラフニューラルネットワークの3つの著名なgnnアーキテクチャが、トラフィック予測のコンテキストで検討されている。
各アーキテクチャの方法論は、レイヤ構成、アクティベーション関数、ハイパーパラメータなど、徹底的に検討されている。
主な目標は予測エラーを最小限に抑えることであり、ggnnは3つのモデルの中で最も効果的な選択となっている。
この研究は各アーキテクチャの結果を概説し、ルート平均二乗誤差と平均絶対誤差(MAE)を通して予測性能を解明する。
gcns は rmse を 9.10 と mae を 8.00 と表示し、graphsage は rmse を 8.3 と 7.5 で改善している。
Gated Graph Neural Networks (GGNN) は最低のRMSEを9.15で、印象的な7.1のMAEを示し、それらを最前線と位置づけている。 This study delves into the application of graph neural networks in the realm of traffic forecasting, a crucial facet of intelligent transportation systems. Accurate traffic predictions are vital for functions like trip planning, traffic control, and vehicle routing in such systems. Three prominent GNN architectures Graph Convolutional Networks (Graph Sample and Aggregation) and Gated Graph Neural Networks are explored within the context of traffic prediction. Each architecture's methodology is thoroughly examined, including layer configurations, activation functions,and hyperparameters. The primary goal is to minimize prediction errors, with GGNNs emerging as the most effective choice among the three models. The research outlines outcomes for each architecture, elucidating their predictive performance through root mean squared error and mean absolute error (MAE). Hypothetical results reveal intriguing insights: GCNs display an RMSE of 9.10 and an MAE of 8.00, while GraphSAGE shows improvement with an RMSE of 8.3 and an MAE of 7.5. Gated Graph Neural Networks (GGNNs) exhibit the lowest RMSE at 9.15 and an impressive MAE of 7.1, positioning them as the frontrunner. | 翻訳日:2023-10-30 16:02:00 公開日:2023-10-26 |
# ZeroQuant-HERO: W8A8変換器のためのハードウェア拡張ロバスト最適化後量子化フレームワーク ZeroQuant-HERO: Hardware-Enhanced Robust Optimized Post-Training Quantization Framework for W8A8 Transformers ( http://arxiv.org/abs/2310.17723v1 ) ライセンス: Link先を確認 | Zhewei Yao, Reza Yazdani Aminabadi, Stephen Youn, Xiaoxia Wu, Elton Zheng, Yuxiong He | (参考訳) 量子化技術は、ディープニューラルネットワーク推論のメモリと計算要求を減らす上で重要である。
ZeroQuantのような既存のソリューションはBERTやGPTのようなモデルに対して動的量子化を提供するが、重要なメモリバウンド演算子やトーケン量子化の複雑さを見落としている。
これらのギャップに対処し,新しいハードウェアエンハンスドロバスト最適化w8a8量子化フレームワークであるzeroquant-heroを提案する。
このフレームワークはメモリ帯域幅と計算集約演算子の両方を統合し、最適なハードウェア性能を目標としている。
さらに、特定のINT8モジュールをFP16/BF16モードに切り替え、精度を高めることで柔軟性を提供する。 Quantization techniques are pivotal in reducing the memory and computational demands of deep neural network inference. Existing solutions, such as ZeroQuant, offer dynamic quantization for models like BERT and GPT but overlook crucial memory-bounded operators and the complexities of per-token quantization. Addressing these gaps, we present a novel, fully hardware-enhanced robust optimized post-training W8A8 quantization framework, ZeroQuant-HERO. This framework uniquely integrates both memory bandwidth and compute-intensive operators, aiming for optimal hardware performance. Additionally, it offers flexibility by allowing specific INT8 modules to switch to FP16/BF16 mode, enhancing accuracy. | 翻訳日:2023-10-30 16:01:39 公開日:2023-10-26 |
# 具体化タスクの一般化ポリシーとしての大規模言語モデル Large Language Models as Generalizable Policies for Embodied Tasks ( http://arxiv.org/abs/2310.17722v1 ) ライセンス: Link先を確認 | Andrew Szot, Max Schwarzer, Harsh Agrawal, Bogdan Mazoure, Walter Talbott, Katherine Metcalf, Natalie Mackraz, Devon Hjelm, Alexander Toshev | (参考訳) 大規模言語モデル(LLM)は,視覚的タスクを具現化するための一般化可能なポリシーであることを示す。
我々のアプローチはLarge LAnguage Model Reinforcement Learning Policy (LLaRP)と呼ばれ、学習済みの凍結LDMに適応し、入力テキスト命令と視覚的自我中心の観察と出力動作を環境内で直接行う。
強化学習を用いて,LLaRPを学習し,環境相互作用のみで行動する。
llarpはタスク命令の複雑なパラフレージングに頑健であり、新しい最適動作を必要とする新しいタスクに一般化できることを示す。
特に1,000の未発見のタスクでは、42%の成功率、その他の一般的な学習ベースラインの成功率1.7倍、あるいはllmのゼロショット応用を達成している。
最後に、言語条件付き、巨大なマルチタスク、具体化されたaiの問題を研究するコミュニティを助けるために、私たちは15万のトレーニングと1000のテストタスクからなる新しいベンチマーク、言語再構成をリリースします。
unseen language rerangement instructionsのllarpのビデオ例は、https://llm-rl.github.ioにある。 We show that large language models (LLMs) can be adapted to be generalizable policies for embodied visual tasks. Our approach, called Large LAnguage model Reinforcement Learning Policy (LLaRP), adapts a pre-trained frozen LLM to take as input text instructions and visual egocentric observations and output actions directly in the environment. Using reinforcement learning, we train LLaRP to see and act solely through environmental interactions. We show that LLaRP is robust to complex paraphrasings of task instructions and can generalize to new tasks that require novel optimal behavior. In particular, on 1,000 unseen tasks it achieves 42% success rate, 1.7x the success rate of other common learned baselines or zero-shot applications of LLMs. Finally, to aid the community in studying language conditioned, massively multi-task, embodied AI problems we release a novel benchmark, Language Rearrangement, consisting of 150,000 training and 1,000 testing tasks for language-conditioned rearrangement. Video examples of LLaRP in unseen Language Rearrangement instructions are at https://llm-rl.github.io. | 翻訳日:2023-10-30 16:01:24 公開日:2023-10-26 |
# トランスクリプトから洞察へ - ジェネレーティブAIを用いた企業リスクの発見 From Transcripts to Insights: Uncovering Corporate Risks Using Generative AI ( http://arxiv.org/abs/2310.17721v1 ) ライセンス: Link先を確認 | Alex Kim, Maximilian Muhn, Valeri Nikolaev | (参考訳) 我々は、ChatGPTのような生成AIツールの価値を探り、投資家が企業リスクの次元を明らかにする手助けをする。
我々は、政治、気候、ai関連のリスクに晒されるリスクに関する企業レベルの尺度を開発し、検証する。
GPT 3.5モデルを用いて、収支報告書の提示した文脈からリスクサマリーと評価を生成し、GPTベースの措置が重要な情報内容を有し、企業レベルのボラティリティの予測(異常)や投資やイノベーションなどの企業の選択よりも優れていることを示す。
重要なことは、リスクアセスメントの情報がリスクサマリを支配し、一般的なAI知識の価値を確立することである。
生成的AIは、近年の四半期で急増しているAIリスクのような、新たなリスクを検出するのにも有効であることもわかっています。
当社の措置はgptのトレーニングウィンドウ内外でも良好に機能し,株式市場では価格が設定されている。
総合すると、aiベースのリスク測定アプローチは、低コストで企業情報開示のユーザに有用な洞察を提供する。 We explore the value of generative AI tools, such as ChatGPT, in helping investors uncover dimensions of corporate risk. We develop and validate firm-level measures of risk exposure to political, climate, and AI-related risks. Using the GPT 3.5 model to generate risk summaries and assessments from the context provided by earnings call transcripts, we show that GPT-based measures possess significant information content and outperform the existing risk measures in predicting (abnormal) firm-level volatility and firms' choices such as investment and innovation. Importantly, information in risk assessments dominates that in risk summaries, establishing the value of general AI knowledge. We also find that generative AI is effective at detecting emerging risks, such as AI risk, which has soared in recent quarters. Our measures perform well both within and outside the GPT's training window and are priced in equity markets. Taken together, an AI-based approach to risk measurement provides useful insights to users of corporate disclosures at a low cost. | 翻訳日:2023-10-30 16:01:02 公開日:2023-10-26 |
# 統一化(量子)統計およびパラメータ化(量子)アルゴリズム Unifying (Quantum) Statistical and Parametrized (Quantum) Algorithms ( http://arxiv.org/abs/2310.17716v1 ) ライセンス: Link先を確認 | Alexander Nietner | (参考訳) Kearns's statistics query (SQ) oracle (STOC'93) は、ほとんどの古典的な機械学習アルゴリズムに統一的な視点を与える。
これは、多くの設定が認めない量子学習において、SQアナログでも量子統計クエリ(QSQ)アナログでも真である。
本研究では,kearns sq oracle と valiant の弱い評価 oracle (toct'14) から着想を得て,統計的およびパラメータ化された学習パラダイムを新たな方法で橋渡しする統一的な視点を確立する。
本稿では,関数値の見積を行う評価オラクルから学習する問題について検討し,評価クエリから学習する非条件の下限を出力する広範かつ直感的なフレームワークを導入し,線形関数クラスを学習する際のクエリ複雑性を特徴付ける。
このフレームワークは、QSQ設定と、損失関数最適化に基づく事実上全てのアルゴリズムに直接適用できる。
我々の最初の応用は、量子回路とクリフォードユニタリの出力分布をsqから(マルチコピー)qsq設定へ学習し、(マルチコピー)qsqから(量子コピー)qsqsから学習安定状態の間で指数関数的な分離を示唆する。
第2のアプリケーションは、一般的な量子機械学習(QML)設定を分析することです。
我々は,多くのQMLタスクの難易度を直感的に把握し,バレンプラトーや統計次元といった既存の手法を超越し,重要な設定依存的含意を含む。
我々のフレームワークは、コスト集中と統一言語における統計次元の視点を統一するだけでなく、それらの連結性と類似性を明らかにする。 Kearns' statistical query (SQ) oracle (STOC'93) lends a unifying perspective for most classical machine learning algorithms. This ceases to be true in quantum learning, where many settings do not admit, neither an SQ analog nor a quantum statistical query (QSQ) analog. In this work, we take inspiration from Kearns' SQ oracle and Valiant's weak evaluation oracle (TOCT'14) and establish a unified perspective bridging the statistical and parametrized learning paradigms in a novel way. We explore the problem of learning from an evaluation oracle, which provides an estimate of function values, and introduce an extensive yet intuitive framework that yields unconditional lower bounds for learning from evaluation queries and characterizes the query complexity for learning linear function classes. The framework is directly applicable to the QSQ setting and virtually all algorithms based on loss function optimization. Our first application is to extend prior results on the learnability of output distributions of quantum circuits and Clifford unitaries from the SQ to the (multi-copy) QSQ setting, implying exponential separations between learning stabilizer states from (multi-copy) QSQs versus from quantum samples. Our second application is to analyze some popular quantum machine learning (QML) settings. We gain an intuitive picture of the hardness of many QML tasks which goes beyond existing methods such as barren plateaus and the statistical dimension, and contains crucial setting-dependent implications. Our framework not only unifies the perspective of cost concentration with that of the statistical dimension in a unified language but exposes their connectedness and similarity. | 翻訳日:2023-10-30 16:00:43 公開日:2023-10-26 |
# タスク固有の知識をエンコードするoutlier次元 Outlier Dimensions Encode Task-Specific Knowledge ( http://arxiv.org/abs/2310.17715v1 ) ライセンス: Link先を確認 | William Rudman, Catherine Chen, and Carsten Eickhoff | (参考訳) 大規模言語モデル(LLM)からの表現は、非常に高い分散を持つ次元の小さなサブセットによって支配されていることが知られている。
従来の研究は、LLM表現におけるこれらの外接次元の非難は下流のパフォーマンスを損なうが、外接次元は埋め込みの表現品質に有害であると主張している。
本研究では,微調整が外周寸法に与える影響について検討し,その有効性を示す。
1)事前訓練で発生する外周寸法は微調整モデルで継続する。
2) 1つの外れ値次元は、最小エラー率で下流タスクを完了することができる。
結果から,外乱次元は重要なタスク固有知識を符号化し,一方の外乱次元における表現の値が下流モデル決定を駆動できることが示唆された。 Representations from large language models (LLMs) are known to be dominated by a small subset of dimensions with exceedingly high variance. Previous works have argued that although ablating these outlier dimensions in LLM representations hurts downstream performance, outlier dimensions are detrimental to the representational quality of embeddings. In this study, we investigate how fine-tuning impacts outlier dimensions and show that 1) outlier dimensions that occur in pre-training persist in fine-tuned models and 2) a single outlier dimension can complete downstream tasks with a minimal error rate. Our results suggest that outlier dimensions can encode crucial task-specific knowledge and that the value of a representation in a single outlier dimension drives downstream model decisions. | 翻訳日:2023-10-30 16:00:13 公開日:2023-10-26 |
# 財務文書からの関係抽出のためのベクトル化レクシコ・シンタティックパターンに基づく最寄り探索 Nearest Neighbor Search over Vectorized Lexico-Syntactic Patterns for Relation Extraction from Financial Documents ( http://arxiv.org/abs/2310.17714v1 ) ライセンス: Link先を確認 | Pawan Kumar Rajpoot, Ankur Parikh | (参考訳) 関係抽出(re)は、事前学習された言語モデルの助けを借りて、著しく進歩した。
しかし、既存のreモデルは、通常2つの状況を扱うことができない。暗黙的な表現と、言語の複雑さとデータのスパーシティによって引き起こされるロングテール関係クラスである。
さらに、これらのアプローチやモデルは、大きな言語モデル(llm)や、教師付きトレーニングや微調整のためのインフラストラクチャに直接アクセスできないユーザにはほとんどアクセスできない。
ルールベースのシステムは暗黙の表現にも苦労する。
これとは別に、上場企業の10-Xレポート(10-K、10-Qなど)などの現実世界の財務文書は、より長く複雑な文でルールベースのシステムにまた別の課題をもたらす。
本稿では,レキシコ・シンタクティック・パターンの高密度ベクトルを最寄りで探索することで,テスト時のトレーニング関係を相談する簡単なアプローチを提案し,上記の課題に対処するためのシンプルかつ効果的な手段を提供する。
精錬アプローチを評価し,その手法が最先端の性能を達成していることを示す。
さらに、少数のアノテーションが利用できる場合、ループ設定で人間に良いスタートを提供することができ、また、ドメインの専門家が高品質なパターンを提供することができれば有益であることを示す。 Relation extraction (RE) has achieved remarkable progress with the help of pre-trained language models. However, existing RE models are usually incapable of handling two situations: implicit expressions and long-tail relation classes, caused by language complexity and data sparsity. Further, these approaches and models are largely inaccessible to users who don't have direct access to large language models (LLMs) and/or infrastructure for supervised training or fine-tuning. Rule-based systems also struggle with implicit expressions. Apart from this, Real world financial documents such as various 10-X reports (including 10-K, 10-Q, etc.) of publicly traded companies pose another challenge to rule-based systems in terms of longer and complex sentences. In this paper, we introduce a simple approach that consults training relations at test time through a nearest-neighbor search over dense vectors of lexico-syntactic patterns and provides a simple yet effective means to tackle the above issues. We evaluate our approach on REFinD and show that our method achieves state-of-the-art performance. We further show that it can provide a good start for human in the loop setup when a small number of annotations are available and it is also beneficial when domain experts can provide high quality patterns. | 翻訳日:2023-10-30 15:59:59 公開日:2023-10-26 |
# Node2Vecが学習した埋め込みを用いたコミュニティ検出と分類保証 Community Detection and Classification Guarantees Using Embeddings Learned by Node2Vec ( http://arxiv.org/abs/2310.17712v1 ) ライセンス: Link先を確認 | Andrew Davison, S. Carlyle Morgan, Owen G. Ward | (参考訳) 大規模ネットワークのノードをユークリッド空間に埋め込むことは、現代の機械学習において共通の目的であり、さまざまなツールが利用可能である。
これらの埋め込みは、コミュニティ検出/ノードクラスタリングやリンク予測などのタスクのフィーチャとして使用することができ、パフォーマンスの状態を実現できる。
スペクトルクラスタリング法を除いて、埋め込みを学習する他の一般的なアプローチに対する理論的理解はほとんどない。
本研究では node2vec で学習した埋め込みの理論的性質について検討する。
本研究の主な成果は, node2vec が生成する埋め込みベクトル上で k-means クラスタリングを行うことで, 確率ブロックモデルにおいて, ノードに対して弱い一貫したコミュニティリカバリを実現することである。
また、これらの埋め込みをノードおよびリンク予測タスクに利用することについても論じる。
この結果を実証的に実証し,ネットワークデータに対する他の埋め込みツールとの関係について検討する。 Embedding the nodes of a large network into an Euclidean space is a common objective in modern machine learning, with a variety of tools available. These embeddings can then be used as features for tasks such as community detection/node clustering or link prediction, where they achieve state of the art performance. With the exception of spectral clustering methods, there is little theoretical understanding for other commonly used approaches to learning embeddings. In this work we examine the theoretical properties of the embeddings learned by node2vec. Our main result shows that the use of k-means clustering on the embedding vectors produced by node2vec gives weakly consistent community recovery for the nodes in (degree corrected) stochastic block models. We also discuss the use of these embeddings for node and link prediction tasks. We demonstrate this result empirically, and examine how this relates to other embedding tools for network data. | 翻訳日:2023-10-30 15:59:41 公開日:2023-10-26 |
# 説明は治療か?
短期的・長期的誤情報の緩和 Is Explanation the Cure? Misinformation Mitigation in the Short Term and Long Term ( http://arxiv.org/abs/2310.17711v1 ) ライセンス: Link先を確認 | Yi-Li Hsu, Shih-Chieh Dai, Aiping Xiong, Lun-Wei Ku | (参考訳) 自然言語処理(NLP)モデルの進歩に伴い、ソーシャルメディアプラットフォーム上での誤情報を軽減し、偽ニュースを識別する警告ラベルを追加する自動説明生成が提案されている。
多くの研究者は、良い説明を生み出すことに力を入れているが、この説明がいかに人間が偽ニュースと戦うのに本当に役立つかは未解明である。
本研究は,誤報における警告ラベルの有効性と,GPT-4が生み出す最先端の事実的説明とを比較した。
2ウェーブのオンライン人物調査において、参加者(N = 215)は、いかなる介入なしに偽コンテンツを表示する制御グループ、偽クレームをラベル付けした警告タググループ、または、偽コンテンツにGPT-4を付加した説明グループにランダムに割り当てられた。
以上の結果から,両者の介入は,短期的・長期的に同等に偽の主張に対する自己申告的信念を著しく低下させることが示唆された。
今後のNLPに基づく誤情報拡散戦略の発見と方向性について考察する。 With advancements in natural language processing (NLP) models, automatic explanation generation has been proposed to mitigate misinformation on social media platforms in addition to adding warning labels to identified fake news. While many researchers have focused on generating good explanations, how these explanations can really help humans combat fake news is under-explored. In this study, we compare the effectiveness of a warning label and the state-of-the-art counterfactual explanations generated by GPT-4 in debunking misinformation. In a two-wave, online human-subject study, participants (N = 215) were randomly assigned to a control group in which false contents are shown without any intervention, a warning tag group in which the false claims were labeled, or an explanation group in which the false contents were accompanied by GPT-4 generated explanations. Our results show that both interventions significantly decrease participants' self-reported belief in fake claims in an equivalent manner for the short-term and long-term. We discuss the implications of our findings and directions for future NLP-based misinformation debunking strategies. | 翻訳日:2023-10-30 15:59:28 公開日:2023-10-26 |
# セマンティック通信を利用した無線AI生成コンテンツ(AIGC)プロビジョニングフレームワーク A Wireless AI-Generated Content (AIGC) Provisioning Framework Empowered by Semantic Communication ( http://arxiv.org/abs/2310.17705v1 ) ライセンス: Link先を確認 | Runze Cheng, Yao Sun, Dusit Niyato, Lan Zhang, Lei Zhang, and Muhammad Ali Imran | (参考訳) 生成型AIアプリケーションは、多種多様な高品質なAI生成コンテンツ(AIGC)を作成することで、最近、巨大なユーザベースに対応している。
モバイルデバイスの普及とモバイルトラフィックの急速な増加により、無線通信ネットワークによる高品質なAIGCサービスへのユビキタスアクセスが、AIGC製品の将来的な方向性になりつつある。
しかし、不安定なチャネル、限られた帯域リソース、不均一な分散計算リソースを備えた無線ネットワークで最適なAIGCサービスを提供することは困難である。
これらの課題に対処するために、セムコムを用いたセマンティック通信(セムコム)によるAIGC(セムAIGC)生成および送信フレームワークを提案する。
具体的には、セマンティックエンコーダとデコーダに拡散モデルを統合し、効率的なコンテンツ生成と送信機と受信機の両方の計算負荷の柔軟な調整を行う。
一方、リソース対応のワークロードトレードオフ(ROOT)方式をSemAIGCフレームワークに導入し、送信/受信者のワークロードをインテリジェントに決定し、サービス要求に応じて計算リソースの利用を調整する。
提案するSemAIGCフレームワークは,従来の手法に比べてレイテンシとコンテンツ品質の面で優れている。 Generative AI applications are recently catering to a vast user base by creating diverse and high-quality AI-generated content (AIGC). With the proliferation of mobile devices and rapid growth of mobile traffic, providing ubiquitous access to high-quality AIGC services via wireless communication networks is becoming the future direction for AIGC products. However, it is challenging to provide optimal AIGC services in wireless networks with unstable channels, limited bandwidth resources, and unevenly distributed computational resources. To tackle these challenges, we propose a semantic communication (SemCom)-empowered AIGC (SemAIGC) generation and transmission framework, where only semantic information of the content rather than all the binary bits should be extracted and transmitted by using SemCom. Specifically, SemAIGC integrates diffusion-based models within the semantic encoder and decoder for efficient content generation and flexible adjustment of the computing workload of both transmitter and receiver. Meanwhile, we devise a resource-aware workload trade-off (ROOT) scheme into the SemAIGC framework to intelligently decide transmitter/receiver workload, thus adjusting the utilization of computational resource according to service requirements. Simulations verify the superiority of our proposed SemAIGC framework in terms of latency and content quality compared to conventional approaches. | 翻訳日:2023-10-30 15:59:09 公開日:2023-10-26 |
# aiチャットボットが患者のメッセージに反応する影響 The impact of using an AI chatbot to respond to patient messages ( http://arxiv.org/abs/2310.17703v1 ) ライセンス: Link先を確認 | Shan Chen, Marco Guevara, Shalini Moningi, Frank Hoebers, Hesham Elhalawani, Benjamin H. Kann, Fallon E. Chipidza, Jonathan Leeman, Hugo J.W.L. Aerts, Timothy Miller, Guergana K. Savova, Raymond H. Mak, Maryam Lustberg, Majid Afshar, Danielle S. Bitterman | (参考訳) ドキュメントの負担は臨床医のバーンアウトの大きな貢献であり、全国的に増加しており、患者のケア能力に対する緊急の脅威となっている。
ChatGPTのような人工知能(AI)チャットボットは、ドキュメントの支援によって臨床の負担を軽減することができる。
多くの病院が電子カルテシステムにそうしたシステムを積極的に組み込んでいるが、AIチャットボットの有用性と臨床意思決定への影響は研究されていない。
臨床医の患者質問に対する回答作成支援に, 大規模言語モデルの有用性を初めて検討した。
2段階の横断研究で、6人の腫瘍医が100のリアルな合成がん患者のシナリオと、一般的な医療状況を反映したポータルメッセージに回答しました。
AIによる応答は長く、読めないが、58%の時間を編集せずに許容できるドラフトを提供した。
AIアシストは効率を77%改善し、損傷リスクは低い(82%が安全)。
しかし、7.7%の未処理のAI応答は深刻なダメージを与える可能性がある。
31%の症例では、医師はAIドラフトは人間によるものだと考えた。
AI支援により、患者の教育勧告が増加し、手動の反応よりも臨床行動が少なくなった。
以上の結果から,aiはドキュメント作成を支援することで臨床医の効率と患者のケアを改善することが期待される。
安全な実装には、モデル出力の監視と人間とAIのインタラクションが不可欠だ。 Documentation burden is a major contributor to clinician burnout, which is rising nationally and is an urgent threat to our ability to care for patients. Artificial intelligence (AI) chatbots, such as ChatGPT, could reduce clinician burden by assisting with documentation. Although many hospitals are actively integrating such systems into electronic medical record systems, AI chatbots utility and impact on clinical decision-making have not been studied for this intended use. We are the first to examine the utility of large language models in assisting clinicians draft responses to patient questions. In our two-stage cross-sectional study, 6 oncologists responded to 100 realistic synthetic cancer patient scenarios and portal messages developed to reflect common medical situations, first manually, then with AI assistance. We find AI-assisted responses were longer, less readable, but provided acceptable drafts without edits 58% of time. AI assistance improved efficiency 77% of time, with low harm risk (82% safe). However, 7.7% unedited AI responses could severely harm. In 31% cases, physicians thought AI drafts were human-written. AI assistance led to more patient education recommendations, fewer clinical actions than manual responses. Results show promise for AI to improve clinician efficiency and patient care through assisting documentation, if used judiciously. Monitoring model outputs and human-AI interaction remains crucial for safe implementation. | 翻訳日:2023-10-30 15:58:47 公開日:2023-10-26 |
# 超伝導量子ビットをカオスに駆動する Driving superconducting qubits into chaos ( http://arxiv.org/abs/2310.17698v1 ) ライセンス: Link先を確認 | Jorge Ch\'avez-Carlos, Rodrigo G. Corti\~nas, Miguel A. Prado Reynoso, Ignacio Garc\'ia-Mata, Victor S. Batista, Francisco P\'erez-Bernal, Diego A. Wisniacki, Lea F. Santos | (参考訳) カーパラメトリック発振器は、フォールトトレラント量子コンピュータのためのビルディングブロックである。
彼らはKerr-cat量子ビットを安定化し、エラー保護された量子情報のエンコーディングと操作の利点を提供する。
kerr-cat量子ビットは非線形性とスクイーズ駆動を組み合わせたスネールトランスモン超伝導回路で最近実現されている。
これらの超伝導量子ビットは、大きなアンハーモニック性にアクセスできるため、ゲート時間が速くなる。
しかし, 非線形性が大きく, 駆動力が強い場合には, カオスが量子ビットに点在し, 融解することを示す。
正則性とカオスの境界に関する方程式を提供し、カーキャット量子ビットが崩壊する方向を決定する。
これは、駆動系の準エネルギー状態とフロケ状態の量子解析を通じて行われ、ポアンカーの切断やリャプノフ指数を含む古典的なツールで補完される。
パラメトリック量子計算の危険領域を特定することで、量子カオスを調査するデバイスである駆動型超伝導回路の別の応用を明らかにする。 Kerr parametric oscillators are potential building blocks for fault-tolerant quantum computers. They can stabilize Kerr-cat qubits, which offer advantages towards the encoding and manipulation of error-protected quantum information. Kerr-cat qubits have been recently realized with the SNAIL transmon superconducting circuit by combining nonlinearities and a squeezing drive. These superconducting qubits can lead to fast gate times due to their access to large anharmonicities. However, we show that when the nonlinearities are large and the drive strong, chaos sets in and melts the qubit away. We provide an equation for the border between regularity and chaos and determine the regime of validity of the Kerr-cat qubit, beyond which it disintegrates. This is done through the quantum analysis of the quasienergies and Floquet states of the driven system, and is complemented with classical tools that include Poincar\'e sections and Lyapunov exponents. By identifying the danger zone for parametric quantum computation, we uncover another application for driven superconducting circuits, that of devices to investigate quantum chaos. | 翻訳日:2023-10-30 15:58:25 公開日:2023-10-26 |
# XY表面コードにおける時間的脆弱性の緩和 Mitigating Temporal Fragility in the XY Surface Code ( http://arxiv.org/abs/2310.17697v1 ) ライセンス: Link先を確認 | Pei-Kai Tsai, Yue Wu, Shruti Puri | (参考訳) 偏りのあるポーリノイズを補正するためにxy表面符号を十分に活用するために克服しなければならない重要な課題は、標準論理状態準備および測定プロトコル中に発生する脆弱な時間境界現象である。
この課題に対処するために、我々は、XY符号状態に配置する安定化器の測定を行う前に、局所的量子ビットを小さなグリーンベルガー・ホルン・ザイリンガー状態にエンタングする新しい論理状態準備プロトコルを提案する。
この新たな手順において、単一の格子境界に沿って高いレートのエラーが論理的な故障を引き起こすことを証明し、標準的な状態準備アプローチと比較して、フォールト構成の数がほぼ2倍に減少することを示した。
さらに、コードはハイレートエラーの繰り返し符号と等価となり、無限バイアスノイズに対する状態準備中に50%のコード容量閾値が保証される。
簡易マッチングデコーダを用いて,測定値が信頼性に乏しく,実験的に現実的なバイアスを持つフォールトトレラントシステムにおいて,本プロトコルがしきい値と論理誤差率の両方で標準値を上回ることを確認した。
また、我々の状態準備プロトコルが、同様の脆弱な境界緩和論理状態測定にどのように逆化できるかについても論じる。 An important outstanding challenge that must be overcome in order to fully utilize the XY surface code for correcting biased Pauli noise is the phenomena of fragile temporal boundaries that arise during the standard logical state preparation and measurement protocols. To address this challenge we propose a new logical state preparation protocol based on locally entangling qubits into small Greenberger-Horne-Zeilinger-like states prior to making the stabilizer measurements that place them in the XY-code state. We prove that in this new procedure $O(\sqrt{n})$ high-rate errors along a single lattice boundary can cause a logical failure, leading to an almost quadratic reduction in the number of fault-configurations compared to the standard state-preparation approach. Moreover, the code becomes equivalent to a repetition code for high-rate errors, guaranteeing a 50% code-capacity threshold during state preparation for infinitely biased noise. With a simple matching decoder we confirm that our preparation protocol outperforms the standard one in terms of both threshold and logical error rate in the fault-tolerant regime where measurements are unreliable and at experimentally realistic biases. We also discuss how our state-preparation protocol can be inverted for similar fragile-boundary-mitigated logical-state measurement. | 翻訳日:2023-10-30 15:58:09 公開日:2023-10-26 |
# 凸最適化におけるアルゴリズム再現性と勾配複雑性の最適保証 Optimal Guarantees for Algorithmic Reproducibility and Gradient Complexity in Convex Optimization ( http://arxiv.org/abs/2310.17759v1 ) ライセンス: Link先を確認 | Liang Zhang, Junchi Yang, Amin Karbasi, Niao He | (参考訳) アルゴリズム再現性は、トレーニングプロセスの小さな変更による機械学習アルゴリズムの出力偏差を測定する。
以前の研究は、再現性を改善するためには1階法で収束率(段階的複雑さ)をトレードオフする必要があることを示唆している。
本研究は, 最適再現性と近似収束保証の両方を, 様々なエラー発生オラクル設定下での滑らかな凸最小化と滑らかな凸最小化のために達成できることを実証する。
特に、不正確な初期化オラクルを考えると、我々の正規化に基づくアルゴリズムは、最小化と最小化の最適化のために、世界最適再現性とほぼ最適勾配の複雑さの両方の長所を達成する。
不正確な勾配オラクルでは、準最適保証はミニマックス最適化にも有効である。
さらに,確率的勾配オラクルを用いて,確率的勾配降下が再現性と勾配複雑性の両方において最適であることを示す。
我々の結果は,凸最適化の文脈における再現性・収束性トレードオフの理解を深める効果があると信じている。 Algorithmic reproducibility measures the deviation in outputs of machine learning algorithms upon minor changes in the training process. Previous work suggests that first-order methods would need to trade-off convergence rate (gradient complexity) for better reproducibility. In this work, we challenge this perception and demonstrate that both optimal reproducibility and near-optimal convergence guarantees can be achieved for smooth convex minimization and smooth convex-concave minimax problems under various error-prone oracle settings. Particularly, given the inexact initialization oracle, our regularization-based algorithms achieve the best of both worlds - optimal reproducibility and near-optimal gradient complexity - for minimization and minimax optimization. With the inexact gradient oracle, the near-optimal guarantees also hold for minimax optimization. Additionally, with the stochastic gradient oracle, we show that stochastic gradient descent ascent is optimal in terms of both reproducibility and gradient complexity. We believe our results contribute to an enhanced understanding of the reproducibility-convergence trade-off in the context of convex optimization. | 翻訳日:2023-10-30 15:49:17 公開日:2023-10-26 |
# 量子LDPC符号の復号化のためのグラフニューラルネットワーク Graph Neural Networkrs for Enhanced Decoding of Quantum LDPC Codes ( http://arxiv.org/abs/2310.17758v1 ) ライセンス: Link先を確認 | Anqi Gong, Sebastian Cammerer, Joseph M. Renes | (参考訳) 本研究では,量子低密度パリティチェック(LDPC)符号に対する完全微分可能な反復デコーダを提案する。
提案アルゴリズムは,古典的信念伝達(BP)復号段階と中間グラフニューラルネットワーク(GNN)層から構成される。
両方のコンポーネントデコーダは同じスパースデコードグラフ上で定義され、大きなコードへのシームレスな統合とスケーラビリティを実現する。
核となるアイデアは、連続するbp実行間でgnnコンポーネントを使用することであり、前回のbp実行からの知識が、デコードグラフのセットや短いサイクルをトラッピングすることによって引き起こされるローカルなミニマに詰まれば、次のbp実行をより初期化するために活用できる。
これにより、提案するデコーダは、量子LDPC符号の設計制約から生じる準最適BPデコーダグラフの補償を学ぶことができる。
デコーダ全体が微分可能であるため、勾配降下に基づくトレーニングが可能である。
提案手法は,ランダム摂動,強化フィードバック,拡張,順序統計復号 (osd) などの後処理手法と比較し,注意深く設計した学習プロセスが誤差床を著しく低下させることを示す。
その結果,提案するデコーダは,処理後試行回数を大幅に減らして,従来の3つの手法よりも優れていた。
実験のソースコードはオンラインで入手できます。 In this work, we propose a fully differentiable iterative decoder for quantum low-density parity-check (LDPC) codes. The proposed algorithm is composed of classical belief propagation (BP) decoding stages and intermediate graph neural network (GNN) layers. Both component decoders are defined over the same sparse decoding graph enabling a seamless integration and scalability to large codes. The core idea is to use the GNN component between consecutive BP runs, so that the knowledge from the previous BP run, if stuck in a local minima caused by trapping sets or short cycles in the decoding graph, can be leveraged to better initialize the next BP run. By doing so, the proposed decoder can learn to compensate for sub-optimal BP decoding graphs that result from the design constraints of quantum LDPC codes. Since the entire decoder remains differentiable, gradient descent-based training is possible. We compare the error rate performance of the proposed decoder against various post-processing methods such as random perturbation, enhanced feedback, augmentation, and ordered-statistics decoding (OSD) and show that a carefully designed training process lowers the error-floor significantly. As a result, our proposed decoder outperforms the former three methods using significantly fewer post-processing attempts. The source code of our experiments is available online. | 翻訳日:2023-10-30 15:49:03 公開日:2023-10-26 |
# MRIを用いた深層学習によるアルツハイマー病診断 Alzheimers Disease Diagnosis by Deep Learning Using MRI-Based Approaches ( http://arxiv.org/abs/2310.17755v1 ) ライセンス: Link先を確認 | Sarasadat Foroughipoor, Kimia Moradi, Hamidreza Bolhasani | (参考訳) 神経系の最も頻繁な認知症、アルツハイマー病は、いくつかの脳のプロセス(記憶など)を弱め、最終的には死に至る。
臨床研究はADの診断にMRIを用いている。
ディープラーニングアルゴリズムは、入力された生データからパターン認識と特徴抽出を行うことができる。
早期診断とステージ検出は、患者のケアと治療の成果を高める上で最も重要な要素であるため、MRI画像の深層学習アルゴリズムは、最近、疾患の早期診断とアルツハイマー病の症状の特定を可能にしている。
その結果,2021年から2023年にかけてのMRIに基づくディープラーニングアルゴリズムを用いて,AD診断に焦点を当てた5つの特定の研究を分析した。
これらの手法の違いを完全に説明し、ディープラーニングアルゴリズムがいかに機能するかを理解するために、我々は選択したアプローチを深く探求しようとした。 The most frequent kind of dementia of the nervous system, Alzheimer's disease, weakens several brain processes (such as memory) and eventually results in death. The clinical study uses magnetic resonance imaging to diagnose AD. Deep learning algorithms are capable of pattern recognition and feature extraction from the inputted raw data. As early diagnosis and stage detection are the most crucial elements in enhancing patient care and treatment outcomes, deep learning algorithms for MRI images have recently allowed for diagnosing a medical condition at the beginning stage and identifying particular symptoms of Alzheimer's disease. As a result, we aimed to analyze five specific studies focused on AD diagnosis using MRI-based deep learning algorithms between 2021 and 2023 in this study. To completely illustrate the differences between these techniques and comprehend how deep learning algorithms function, we attempted to explore selected approaches in depth. | 翻訳日:2023-10-30 15:48:41 公開日:2023-10-26 |
# PockEngine: ポケットの中のスパースで効率的なファインチューニング PockEngine: Sparse and Efficient Fine-tuning in a Pocket ( http://arxiv.org/abs/2310.17752v1 ) ライセンス: Link先を確認 | Ligeng Zhu, Lanxiang Hu, Ji Lin, Wei-Chen Wang, Wei-Ming Chen, Chuang Gan, Song Han | (参考訳) オンデバイス学習と効率的な微調整は、継続的かつプライバシーを保ったカスタマイズを可能にする(例えば、パーソナライズされたデータ上で大きな言語モデルをローカルに微調整する)。
しかし、既存のトレーニングフレームワークは、強力なアクセラレータ(GPU、TPUなど)を持つクラウドサーバ向けに設計されており、リソース制限やエッジハードウェアの多様性といった課題に直面しているエッジで学ぶための最適化が欠けている。
さまざまなエッジデバイスで微調整が可能な,小型でスパースで効率的なエンジンであるPockEngineを紹介します。
PockEngineはスパースバックプロパゲーションをサポートし、モデル品質を維持しながら、後方グラフをプルークし、測定メモリの節約と遅延低減でモデルをスパース更新する。
次に、pockengineがコンパイルファーストである。 トレーニンググラフ全体(前方、後方、最適化ステップを含む)はコンパイル時に導き出され、ランタイムのオーバーヘッドが削減され、グラフ変換の機会がもたらされる。
pockengineはまた、豊富なトレーニンググラフ最適化を統合しており、オペレータの再注文やバックエンドスイッチなど、トレーニングコストをさらに加速することができる。
PyTorch/TensorFlow/Jaxで定義されたモデルを柔軟にコンパイルし、チューニングし、モバイルCPU/GPU/DSPにバイナリをデプロイする。
我々はpockengineを視覚モデルと大規模言語モデルの両方で評価した。
PockEngineは、市販のTensorFlow(Raspberry Pi)よりも最大15$\times$スピードアップし、5.6$\times$メモリ節約バックプロパゲーション(Jetson AGX Orin)を実現している。
注目すべきなのは、PockEngineはNVIDIA Jetson AGX OrinのLLaMav2-7Bを550トークン/秒で微調整できることだ。 On-device learning and efficient fine-tuning enable continuous and privacy-preserving customization (e.g., locally fine-tuning large language models on personalized data). However, existing training frameworks are designed for cloud servers with powerful accelerators (e.g., GPUs, TPUs) and lack the optimizations for learning on the edge, which faces challenges of resource limitations and edge hardware diversity. We introduce PockEngine: a tiny, sparse and efficient engine to enable fine-tuning on various edge devices. PockEngine supports sparse backpropagation: it prunes the backward graph and sparsely updates the model with measured memory saving and latency reduction while maintaining the model quality. Secondly, PockEngine is compilation first: the entire training graph (including forward, backward and optimization steps) is derived at compile-time, which reduces the runtime overhead and brings opportunities for graph transformations. PockEngine also integrates a rich set of training graph optimizations, thus can further accelerate the training cost, including operator reordering and backend switching. PockEngine supports diverse applications, frontends and hardware backends: it flexibly compiles and tunes models defined in PyTorch/TensorFlow/Jax and deploys binaries to mobile CPU/GPU/DSPs. We evaluated PockEngine on both vision models and large language models. PockEngine achieves up to 15 $\times$ speedup over off-the-shelf TensorFlow (Raspberry Pi), 5.6 $\times$ memory saving back-propagation (Jetson AGX Orin). Remarkably, PockEngine enables fine-tuning LLaMav2-7B on NVIDIA Jetson AGX Orin at 550 tokens/s, 7.9$\times$ faster than the PyTorch. | 翻訳日:2023-10-30 15:48:28 公開日:2023-10-26 |
# 生成型AIアプリケーションにおける応答性AIハームの自動計測フレームワーク A Framework for Automated Measurement of Responsible AI Harms in Generative AI Applications ( http://arxiv.org/abs/2310.17750v1 ) ライセンス: Link先を確認 | Ahmed Magooda, Alec Helyar, Kyle Jackson, David Sullivan, Chad Atalla, Emily Sheng, Dan Vann, Richard Edgar, Hamid Palangi, Roman Lutz, Hongliang Kong, Vincent Yun, Eslam Kamal, Federico Zarfati, Hanna Wallach, Sarah Bird, Mei Chen | (参考訳) 本稿では,大規模言語モデル(LLM)と関連する製品やサービスを対象としたAI(RAI)メトリクスの自動計測のためのフレームワークを提案する。
本フレームワークは,既存の技術・社会工学的知識を基盤として,GPT-4 などの最先端の LLM の能力を活用している。
我々は、このフレームワークを使用して、異なるLLMがRAI関連の原則にどのように違反するかを研究するいくつかのケーススタディを実行します。
この枠組みは、将来新たな害領域の測定を行うために、ドメイン固有の社会技術専門知識と共に用いられる。
このフレームワークを実装することで、より高度な調和測定とLCMの責任ある利用の実現を目指している。 We present a framework for the automated measurement of responsible AI (RAI) metrics for large language models (LLMs) and associated products and services. Our framework for automatically measuring harms from LLMs builds on existing technical and sociotechnical expertise and leverages the capabilities of state-of-the-art LLMs, such as GPT-4. We use this framework to run through several case studies investigating how different LLMs may violate a range of RAI-related principles. The framework may be employed alongside domain-specific sociotechnical expertise to create measurements for new harm areas in the future. By implementing this framework, we aim to enable more advanced harm measurement efforts and further the responsible use of LLMs. | 翻訳日:2023-10-30 15:47:52 公開日:2023-10-26 |
# salespeople vs salesbot: 会話型推薦システムにおける教育的価値の役割を探る Salespeople vs SalesBot: Exploring the Role of Educational Value in Conversational Recommender Systems ( http://arxiv.org/abs/2310.17749v1 ) ライセンス: Link先を確認 | Lidiya Murakhovs'ka, Philippe Laban, Tian Xie, Caiming Xiong, Chien-Sheng Wu | (参考訳) 大きな購入を行うためには、消費者はドメインの専門知識を得るために販売担当者を調査または相談する必要がある。
しかし、既存の会話レコメンデータシステム(CRS)は、ユーザのバックグラウンド知識の欠如を見落とし、好みの収集に集中する。
本研究では,混合型混合開始ダイアログによる製品推薦と教育的価値の提供を目的とした対話エージェントのための新しい問題空間を定義する。
本稿では,大規模言語モデル(llm)の最近の進歩を活かし,システムシミュレーションと評価を容易にするフレームワークである salesops を紹介する。
私たちは、フレームワークの両側をシミュレートできるLLMベースのエージェントであるSalesBotとShopperBotを構築しています。
包括的な人間による研究は、SalesBotとプロのセールスパーソンを比較し、SalesBotが専門的なパフォーマンスにアプローチしているにもかかわらず、推奨品質は遅れていることを明らかにした。
我々は,CRSの文脈における忠実性の確保という課題を強調し,真理情報提供における両面の異なる限界を強調した。
私たちはコードをリリースし、すべてのデータを利用可能にします。 Making big purchases requires consumers to research or consult a salesperson to gain domain expertise. However, existing conversational recommender systems (CRS) often overlook users' lack of background knowledge, focusing solely on gathering preferences. In this work, we define a new problem space for conversational agents that aim to provide both product recommendations and educational value through mixed-type mixed-initiative dialog. We introduce SalesOps, a framework that facilitates the simulation and evaluation of such systems by leveraging recent advancements in large language models (LLMs). We build SalesBot and ShopperBot, a pair of LLM-powered agents that can simulate either side of the framework. A comprehensive human study compares SalesBot against professional salespeople, revealing that although SalesBot approaches professional performance in terms of fluency and informativeness, it lags behind in recommendation quality. We emphasize the distinct limitations both face in providing truthful information, highlighting the challenges of ensuring faithfulness in the CRS context. We release our code and make all data available. | 翻訳日:2023-10-30 15:47:39 公開日:2023-10-26 |
# ベンチマークにおけるエンドユーザの優先性: 教師なし時系列異常検出のためのOrionBench Making the End-User a Priority in Benchmarking: OrionBench for Unsupervised Time Series Anomaly Detection ( http://arxiv.org/abs/2310.17748v1 ) ライセンス: Link先を確認 | Sarah Alnegheimish, Laure Berti-Equille, Kalyan Veeramachaneni | (参考訳) 時系列異常検出は、医療における患者のモニタリング、財務の予測、エネルギーの予測メンテナンスなど、多くのアプリケーション領域で一般的な問題である。
これにより、最近ではディープラーニングベースの手法を含む、多くの異常検出方法が出現した。
新しく開発されたモデルを比較するためにいくつかのベンチマークが提案されているが、通常は限られたデータセットに対して1回の実行に依存しており、比較はいくつかのモデルに限定されている。
我々はorionbenchを提案する。orionbenchは教師なし時系列異常検出のためのユーザ中心の連続保守型ベンチマークである。
このフレームワークは、モデルを表現するための普遍的な抽象化、新しいパイプラインとデータセットを追加する拡張性、ハイパーパラメータの標準化、パイプライン検証、公開ベンチマークによる頻繁なリリースを提供する。
OrionBenchの使用状況と,3年間で公開された15リリースにわたるパイプラインの進行状況について紹介する。
さらに、OrionBenchで経験した2つの実際のシナリオを調べ、教師なし時系列異常検出における連続ベンチマークの重要性を強調します。 Time series anomaly detection is a prevalent problem in many application domains such as patient monitoring in healthcare, forecasting in finance, or predictive maintenance in energy. This has led to the emergence of a plethora of anomaly detection methods, including more recently, deep learning based methods. Although several benchmarks have been proposed to compare newly developed models, they usually rely on one-time execution over a limited set of datasets and the comparison is restricted to a few models. We propose OrionBench -- a user centric continuously maintained benchmark for unsupervised time series anomaly detection. The framework provides universal abstractions to represent models, extensibility to add new pipelines and datasets, hyperparameter standardization, pipeline verification, and frequent releases with published benchmarks. We demonstrate the usage of OrionBench, and the progression of pipelines across 15 releases published over the course of three years. Moreover, we walk through two real scenarios we experienced with OrionBench that highlight the importance of continuous benchmarks in unsupervised time series anomaly detection. | 翻訳日:2023-10-30 15:47:18 公開日:2023-10-26 |
# StyleBART: 教師なしストリスティック見出し生成のためのスタイルアダプタ付きプレトレーニングモデル StyleBART: Decorate Pretrained Model with Style Adapters for Unsupervised Stylistic Headline Generation ( http://arxiv.org/abs/2310.17743v1 ) ライセンス: Link先を確認 | Hanqing Wang, Yajing Luo, Boya Xiong, Guanhua Chen, Yun Chen | (参考訳) スタイル的見出し生成(sylistic headline generation)とは、記事の内容を要約するだけでなく、ユーザを惹きつける所望のスタイルを反映する見出しを生成するタスクである。
スタイル固有の記事-見出しペアは少ないため、以前の研究では、標準的な見出し生成データセットとモノスタイルコーパスによる教師なしアプローチに重点を置いていた。
本稿では,この行に従って,スタイル的見出し生成のための教師なしアプローチであるstylebartを提案する。
提案手法は,事前学習したBARTモデルを,異なるスタイルに責任を持つアダプタでデコレーションし,単にアダプタを切り替えることで,多様なスタイルで見出しを生成する。
以前の作業とは異なり、StyleBARTはスタイル学習と見出し生成のタスクを分離し、推論中にベースモデルとスタイルアダプタを自由に組み合わせることを可能にする。
さらに,スタイルアダプタを強化するための逆パラフレージングタスクも提案する。
大規模自動評価と人的評価により、StyleBARTは教師なしのスタイルの見出し生成タスクにおいて新しい最先端のパフォーマンスを実現し、望ましいスタイルで高品質な見出しを生成する。 Stylistic headline generation is the task to generate a headline that not only summarizes the content of an article, but also reflects a desired style that attracts users. As style-specific article-headline pairs are scarce, previous researches focus on unsupervised approaches with a standard headline generation dataset and mono-style corpora. In this work, we follow this line and propose StyleBART, an unsupervised approach for stylistic headline generation. Our method decorates the pretrained BART model with adapters that are responsible for different styles and allows the generation of headlines with diverse styles by simply switching the adapters. Different from previous works, StyleBART separates the task of style learning and headline generation, making it possible to freely combine the base model and the style adapters during inference. We further propose an inverse paraphrasing task to enhance the style adapters. Extensive automatic and human evaluations show that StyleBART achieves new state-of-the-art performance in the unsupervised stylistic headline generation task, producing high-quality headlines with the desired style. | 翻訳日:2023-10-30 15:47:01 公開日:2023-10-26 |
# BERT-PIN: 時系列ロードプロファイルの欠落データセグメントを復元するBERTベースのフレームワーク BERT-PIN: A BERT-based Framework for Recovering Missing Data Segments in Time-series Load Profiles ( http://arxiv.org/abs/2310.17742v1 ) ライセンス: Link先を確認 | Yi Hu, Kai Ye, Hyeonjin Kim and Ning Lu | (参考訳) 本稿では、自然言語処理とコンピュータビジョンにおけるTransformerモデルの成功に触発されて、BERTを用いた双方向エンコーダ表現であるBERT-PINを紹介する。
BERT-PINは、負荷と温度の時系列プロファイルを入力として、複数の欠落データセグメント(MDS)を復元する。
プロファイルインペインティングのための標準トランスモデル構造を採用するために,負荷と温度プロファイルを線分に分割し,各セグメントを単語として,各プロファイルを文として扱う。
BERT-PINにはトップ候補選択プロセスが組み込まれており、ユーザが複数の信頼性レベルを反映した複数の有意なインプットデータセットを生成可能な確率分布列を生成することができる。
我々は,複数のMDSの回復と要求応答ベースライン推定という,実世界のデータセットを用いたBERT-PINの開発と評価を行った。
シミュレーションの結果、BERT-PINは既存の手法よりも精度が高く、より長いウィンドウ内で複数のMDSを復元できることがわかった。
BERT-PINは、事前訓練されたモデルとして機能し、分類や超解像といった多くの下流タスクを実行するために微調整することができる。 Inspired by the success of the Transformer model in natural language processing and computer vision, this paper introduces BERT-PIN, a Bidirectional Encoder Representations from Transformers (BERT) powered Profile Inpainting Network. BERT-PIN recovers multiple missing data segments (MDSs) using load and temperature time-series profiles as inputs. To adopt a standard Transformer model structure for profile inpainting, we segment the load and temperature profiles into line segments, treating each segment as a word and the entire profile as a sentence. We incorporate a top candidates selection process in BERT-PIN, enabling it to produce a sequence of probability distributions, based on which users can generate multiple plausible imputed data sets, each reflecting different confidence levels. We develop and evaluate BERT-PIN using real-world dataset for two applications: multiple MDSs recovery and demand response baseline estimation. Simulation results show that BERT-PIN outperforms the existing methods in accuracy while is capable of restoring multiple MDSs within a longer window. BERT-PIN, served as a pre-trained model, can be fine-tuned for conducting many downstream tasks, such as classification and super resolution. | 翻訳日:2023-10-30 15:46:40 公開日:2023-10-26 |
# 位相場理論の測定:格子モデルと場理論記述 Measuring Topological Field Theories: Lattice Models and Field-Theoretic Description ( http://arxiv.org/abs/2310.17740v1 ) ライセンス: Link先を確認 | Yabo Li, Mikhail Litvinov, Tzu-Chieh Wei | (参考訳) 近年、物質のトポロジカルなフェーズ、例えば対称性保護トポロジカルな位相(SPT)とトポロジカルな順序で測定することへの関心が高まっている。
特に、特定のspt状態の測定は、クラマース・ワンニエ双対性やヨルダン・ウィグナー変換と関連しており、長距離の絡み合い状態やキタエフ鎖のような可逆相を生み出している。
さらに、位相秩序状態の測定は電荷凝縮に対応する。
本研究では、トポロジカル場の理論における測定を記述するための場理論フレームワークを提案する。
トポロジカル位相における局所対称性作用素の測定結果を示すために,様々な格子モデルを用いて,場の理論的記述からの予測との一致を示す。
これらの測定により,SPT,自然対称性の破れ,位相的に秩序づけられた位相に繋がることを示した。
具体的には、測定後の創発対称性が存在する場合、残りの対称性と創発対称性は混合異常を持ち、長距離の絡み合いにつながる。 Recent years have witnessed a surge of interest in performing measurements within topological phases of matter, e.g., symmetry-protected topological (SPT) phases and topological orders. Notably, measurements of certain SPT states have been known to be related to Kramers-Wannier duality and Jordan-Wigner transformations, giving rise to long-range entangled states and invertible phases, such as the Kitaev chain. Moreover, measurements of topologically ordered states correspond to charge condensations. In this work, we present a field-theoretic framework for describing measurements within topological field theories. We employ various lattice models as examples to illustrate the outcomes of measuring local symmetry operators within topological phases, demonstrating their agreement with the predictions from field-theoretic descriptions. We demonstrate that these measurements can lead to SPT, spontaneous symmetry-breaking, and topologically ordered phases. Specifically, when there is emergent symmetry after measurement, the remaining symmetry and emergent symmetry will have a mixed anomaly, which leads to long-ranged entanglement. | 翻訳日:2023-10-30 15:46:19 公開日:2023-10-26 |
# 低エネルギー核状態の深い量子回路シミュレーション Deep Quantum Circuit Simulations of Low-Energy Nuclear States ( http://arxiv.org/abs/2310.17739v1 ) ライセンス: Link先を確認 | Ang Li and Alessandro Baroni and Ionel Stetcu and Travis S. Humble | (参考訳) 数値シミュレーションは、低エネルギー核状態のシミュレーションに使われる量子回路を検証する重要な方法である。
しかし、原子核理論における量子コンピューティングの現実的な応用は、しばしば従来のシミュレーション手法で要求されるメモリと処理の要求を満たすディープ量子回路を生成する。
本稿では,低エネルギー核物理応用の精度を効率的に検証するために,深部量子回路の高性能数値シミュレーションの進歩について述べる。
提案手法は,1および2キュービットゲート融合法を含む数値シミュレーションを高速化する新しい手法と,状態準備回路の検証のための模擬中回路計測の管理を用いる。
これらの手法を様々な高性能コンピューティングシステムでテストした結果,21キュービットまでの回路と15,000,000以上のゲートを効率的にシミュレーションできることが判明した。 Numerical simulation is an important method for verifying the quantum circuits used to simulate low-energy nuclear states. However, real-world applications of quantum computing for nuclear theory often generate deep quantum circuits that place demanding memory and processing requirements on conventional simulation methods. Here, we present advances in high-performance numerical simulations of deep quantum circuits to efficiently verify the accuracy of low-energy nuclear physics applications. Our approach employs several novel methods for accelerating the numerical simulation including 1- and 2-qubit gate fusion techniques as well as management of simulated mid-circuit measurements to verify state preparation circuits. We test these methods across a variety of high-performance computing systems and our results show that circuits up to 21 qubits and more than 115,000,000 gates can be efficiently simulated. | 翻訳日:2023-10-30 15:46:00 公開日:2023-10-26 |
# archbert: ニューラルアーキテクチャと自然言語に関するバイモーダルな理解 ArchBERT: Bi-Modal Understanding of Neural Architectures and Natural Languages ( http://arxiv.org/abs/2310.17737v1 ) ライセンス: Link先を確認 | Mohammad Akbari, Saeed Ranjbar Alvar, Behnam Kamranian, Amin Banitalebi-Dehkordi, Yong Zhang | (参考訳) 近年では、自然言語(すなわちテキスト情報)とともに画像、ビデオ、音声などの付加的なモダリティが学習される、マルチモーダル言語モデルの構築がトレンドとなっている。
異なるモダリティを持つマルチモーダル言語モデルの成功にもかかわらず、ニューラルネットワークアーキテクチャと自然言語に対する既存のソリューションは存在しない。
ニューラルアーキテクチャ情報を新しいモダリティとして提供することにより、単一推論で高速なアーキテクチャ-2-textとテキスト-2-architecture検索/生成サービスをクラウド上に提供できます。
このようなソリューションは、初心者と中間MLユーザが、単純なテキストクエリでより優れたニューラルアーキテクチャやAutoMLアプローチを思いつくのを助けるという点で価値がある。
本稿では,ニューラルアーキテクチャと自然言語を共同学習し理解するためのバイモーダルモデルであるarchbertを提案する。
また,より一般化された共同学習のためのMAM(Masked Architecture Modeling)という事前学習戦略を導入する。
さらに,本手法のトレーニングと検証のための2つの新しいバイモーダルデータセットを導入,公開する。
ArchBERTのパフォーマンスは、アーキテクチャ指向の推論、質問応答、キャプション(要約)など、さまざまな下流タスクに関する数値実験を通じて検証される。
データセット、コード、デモは補足資料として利用できる。 Building multi-modal language models has been a trend in the recent years, where additional modalities such as image, video, speech, etc. are jointly learned along with natural languages (i.e., textual information). Despite the success of these multi-modal language models with different modalities, there is no existing solution for neural network architectures and natural languages. Providing neural architectural information as a new modality allows us to provide fast architecture-2-text and text-2-architecture retrieval/generation services on the cloud with a single inference. Such solution is valuable in terms of helping beginner and intermediate ML users to come up with better neural architectures or AutoML approaches with a simple text query. In this paper, we propose ArchBERT, a bi-modal model for joint learning and understanding of neural architectures and natural languages, which opens up new avenues for research in this area. We also introduce a pre-training strategy named Masked Architecture Modeling (MAM) for a more generalized joint learning. Moreover, we introduce and publicly release two new bi-modal datasets for training and validating our methods. The ArchBERT's performance is verified through a set of numerical experiments on different downstream tasks such as architecture-oriented reasoning, question answering, and captioning (summarization). Datasets, codes, and demos are available supplementary materials. | 翻訳日:2023-10-30 15:45:45 公開日:2023-10-26 |
# 連続フェルミオン類のリーブ・ロビンソン境界について On Lieb-Robinson bounds for a class of continuum fermions ( http://arxiv.org/abs/2310.17736v1 ) ライセンス: Link先を確認 | Benjamin Hinrichs, Marius Lemm, Oliver Siebert | (参考訳) 我々は, [m] で以前に研究したように, 紫外正規化対相互作用を持つ r^d$ の多重フェルミオン系の量子力学を考える。
Gebert, B. Nachtergaele, J. Reschke, R. Sims, Ann
アンリ・ポアンカー 21.11 (2020)]
我々は、ポテンシャルに対する実質的に緩和された仮定の下で束縛されたリーブ・ロビンソンを提供する。
また、L^2$-オーバーラップ上の関連する単体リーブ-ロビンソンは、同じ緩和された仮定の下で、ほぼ弾道的な(すなわち、ほぼ直線的な光円錐)に改善する。
応用例としては、スペクトルギャップの存在下での無限体積ダイナミクスの存在と基底状態のクラスタリングがある。
また、条件付き予想というフェルミオン連続体の概念を開発し、それを局所的に時間発展するフェルミオン可観測物に近似させ、リーブ・ロビンソン境界の他の応用への扉を開く。 We consider the quantum dynamics of a many-fermion system in $\mathbb R^d$ with an ultraviolet regularized pair interaction as previously studied in [M. Gebert, B. Nachtergaele, J. Reschke, and R. Sims, Ann. Henri Poincar\'e 21.11 (2020)]. We provide a Lieb-Robinson bound under substantially relaxed assumptions on the potentials. We also improve the associated one-body Lieb--Robinson bound on $L^2$-overlaps to an almost ballistic one (i.e., an almost linear light cone) under the same relaxed assumptions. Applications include the existence of the infinite-volume dynamics and clustering of ground states in the presence of a spectral gap. We also develop a fermionic continuum notion of conditional expectation and use it to approximate time-evolved fermionic observables by local ones, which opens the door to other applications of the Lieb-Robinson bounds. | 翻訳日:2023-10-30 15:45:22 公開日:2023-10-26 |
# 協調量子ゲームの価値 Values of cooperative quantum games ( http://arxiv.org/abs/2310.17735v1 ) ライセンス: Link先を確認 | Jason Crann, Rupert H. Levene, Ivan G.Todorov, Lyudmila Turowska | (参考訳) 我々は,量子入力と出力,および量子確率ハイパーグラフの値を用いて,2人のプレイヤーによる1ラウンド協調ゲームの価値を定量化できる資源理論的手法を開発した。
我々は,量子非シグナリング相関の型階層から生じる量子ゲーム値を分析し,それぞれの相関型に対してテンソルノルム式を確立する。
結果として、LOSR と LOCC を経由して状態変換可能性の計量的特徴付けを行い、その経路において、作用素の三元環の最大テンソル積の代替記述を得る。 We develop a resource-theoretical approach that allows us to quantify values of two-player, one-round cooperative games with quantum inputs and outputs, as well as values of quantum probabilistic hypergraphs. We analyse the quantum game values arising from the type hierarchy of quantum no-signalling correlations, establishing tensor norm expressions for each of the correlation types. As a consequence, we provide metric characterisations of state convertibility via LOSR and LOCC.En route, we obtain an alternative description of the maximal tensor products of ternary rings of operators. | 翻訳日:2023-10-30 15:45:04 公開日:2023-10-26 |
# ユニバーサルアノテーションによる多言語照合解決の検討 Investigating Multilingual Coreference Resolution by Universal Annotations ( http://arxiv.org/abs/2310.17734v1 ) ライセンス: Link先を確認 | Haixia Chai and Michael Strube | (参考訳) MCR(Multilingual coreference resolution)は長年にわたる課題である。
新たに提案された多言語共参照データセットcorefud(nedoluzhko et al., 2022)を用いて,その調和したユニバーサルモルフォシンタクティクスと共参照アノテーションを用いてタスクの検討を行う。
まず,複数言語間のコリファレンスの特徴に関する洞察を得るために,参照,エンティティ,ドキュメントレベル,ジャンルの異なる言語レベルでの根拠真理データを調べ,コリファレンスについて検討する。
第2に,共通アノテーションを用いたCRAC 2022共有タスクにおいて,SotAシステムが解決に失敗する最も困難なケースのエラー解析を行う。
最後に,本解析に基づいて,ユニバーサルモルフォシンタティックアノテーションから特徴を抽出し,それらの機能をベースラインシステムに統合することで,mcrタスクの潜在的メリットを評価する。
以上の結果から,機能設定がベースラインを0.9%向上することがわかった。 Multilingual coreference resolution (MCR) has been a long-standing and challenging task. With the newly proposed multilingual coreference dataset, CorefUD (Nedoluzhko et al., 2022), we conduct an investigation into the task by using its harmonized universal morphosyntactic and coreference annotations. First, we study coreference by examining the ground truth data at different linguistic levels, namely mention, entity and document levels, and across different genres, to gain insights into the characteristics of coreference across multiple languages. Second, we perform an error analysis of the most challenging cases that the SotA system fails to resolve in the CRAC 2022 shared task using the universal annotations. Last, based on this analysis, we extract features from universal morphosyntactic annotations and integrate these features into a baseline system to assess their potential benefits for the MCR task. Our results show that our best configuration of features improves the baseline by 0.9% F1 score. | 翻訳日:2023-10-30 15:44:55 公開日:2023-10-26 |
# 効率的な損傷評価のための画像優先と後条件確率表現 Image Prior and Posterior Conditional Probability Representation for Efficient Damage Assessment ( http://arxiv.org/abs/2310.17801v1 ) ライセンス: Link先を確認 | Jie Wei, Weicong Feng, Erik Blasch, Erika Ardiles-Cruz, Haibin Ling | (参考訳) 人的援助・災害対応(hadr)適用のための被害評価(da)の定量化が重要である。
本稿では,hadrにおける効率的かつスケーラブルなdaを実現するために,画像の前・後条件確率(ip2cp)を効率的な計算画像表現として開発する。
IP2CP表現を具備し、一致した前・後画像は、1つの画像に効果的に符号化され、深層学習手法を用いて処理され、損傷レベルを決定する。
HADRアプリケーションにおけるDAの実用上重要な2つのシナリオとして,画素ワイズセマンティックセマンティックセグメンテーションとパッチベースのコントラスト学習に基づくグローバルダメージ分類について検討した。
両シナリオでIP2CPが達成した結果は有望な性能を示し、ディープラーニングフレームワーク内のIP2CPベースの手法が、HADRアプリケーションにおいてDAにとって最も重要なデータと計算効率を効果的に達成できることを示します。 It is important to quantify Damage Assessment (DA) for Human Assistance and Disaster Response (HADR) applications. In this paper, to achieve efficient and scalable DA in HADR, an image prior and posterior conditional probability (IP2CP) is developed as an effective computational imaging representation. Equipped with the IP2CP representation, the matching pre- and post-disaster images are effectively encoded into one image that is then processed using deep learning approaches to determine the damage levels. Two scenarios of crucial importance for the practical use of DA in HADR applications are examined: pixel-wise semantic segmentation and patch-based contrastive learning-based global damage classification. Results achieved by IP2CP in both scenarios demonstrate promising performances, showing that our IP2CP-based methods within the deep learning framework can effectively achieve data and computational efficiency, which is of utmost importance for the DA in HADR applications. | 翻訳日:2023-10-30 15:37:27 公開日:2023-10-26 |
# エネルギー負荷予測のための言語モデルの利用 Utilizing Language Models for Energy Load Forecasting ( http://arxiv.org/abs/2310.17788v1 ) ライセンス: Link先を確認 | Hao Xue and Flora D. Salim | (参考訳) エネルギー負荷予測は、資源配分を最適化し、建物や都市におけるエネルギー消費を管理する上で重要な役割を果たす。
本稿では,エネルギー負荷予測のための言語モデルを活用した新しい手法を提案する。
我々は,エネルギー消費データを記述文に変換し,言語モデルの微調整を可能にするプロンプト手法を採用する。
提案手法は, 自己回帰的生成手法を採用することで, 将来のエネルギー消費の様々な地平線を予測できる。
実世界のデータセットに関する広範な実験を通じて,提案手法の有効性と精度を示す。
その結果,エネルギー負荷予測のための言語モデルの利用は,エネルギー効率の向上とエネルギーシステムのインテリジェントな意思決定の促進に期待できることがわかった。 Energy load forecasting plays a crucial role in optimizing resource allocation and managing energy consumption in buildings and cities. In this paper, we propose a novel approach that leverages language models for energy load forecasting. We employ prompting techniques to convert energy consumption data into descriptive sentences, enabling fine-tuning of language models. By adopting an autoregressive generating approach, our proposed method enables predictions of various horizons of future energy load consumption. Through extensive experiments on real-world datasets, we demonstrate the effectiveness and accuracy of our proposed method. Our results indicate that utilizing language models for energy load forecasting holds promise for enhancing energy efficiency and facilitating intelligent decision-making in energy systems. | 翻訳日:2023-10-30 15:37:08 公開日:2023-10-26 |
# インド語 lgbti+ lexicon を用いた大規模言語モデルの評価 Evaluation of large language models using an Indian language LGBTI+ lexicon ( http://arxiv.org/abs/2310.17787v1 ) ライセンス: Link先を確認 | Aditya Joshi, Shruta Rawat, Alpana Dange | (参考訳) 大規模言語モデル(LLM)は通常、MMLUのようなタスクベースのベンチマークに基づいて評価される。
このようなベンチマークは、特定の文脈におけるLCMの責任ある振る舞いを調査しない。
これはLGBTI+の文脈において特に当てはまり、社会ステレオタイプはLGBTI+の用語に変化をもたらす可能性がある。
したがって、ドメイン固有の辞書や辞書は、LLMの振る舞いを評価する必要がある単語の代表リストとして有用である。
本稿では,インド語におけるLGBTI+レキシコンを用いたLCMの評価手法を提案する。
方法論は4つのステップから構成される: 期待される振る舞いに関連するNLPタスクを定式化し、LSMをテストするプロンプトを作成し、LSMを使用して出力を取得し、最後に手動で結果を評価する。
質的分析の結果,実験中の3つのllmでは,憎悪コンテンツの検出が不可能であることが判明した。
同様に、英語以外の言語の自然言語理解を評価する手段として機械翻訳を使用する際の制限も観察する。
本稿では,他の言語におけるLGBTI+レキシコンおよび他のドメイン固有レキシコンに有用であることを示す。
本研究は、LGBTI+コミュニティにおける社会的認知の場として、LCMの責任ある行動に対する道を開いたものである。 Large language models (LLMs) are typically evaluated on the basis of task-based benchmarks such as MMLU. Such benchmarks do not examine responsible behaviour of LLMs in specific contexts. This is particularly true in the LGBTI+ context where social stereotypes may result in variation in LGBTI+ terminology. Therefore, domain-specific lexicons or dictionaries may be useful as a representative list of words against which the LLM's behaviour needs to be evaluated. This paper presents a methodology for evaluation of LLMs using an LGBTI+ lexicon in Indian languages. The methodology consists of four steps: formulating NLP tasks relevant to the expected behaviour, creating prompts that test LLMs, using the LLMs to obtain the output and, finally, manually evaluating the results. Our qualitative analysis shows that the three LLMs we experiment on are unable to detect underlying hateful content. Similarly, we observe limitations in using machine translation as means to evaluate natural language understanding in languages other than English. The methodology presented in this paper can be useful for LGBTI+ lexicons in other languages as well as other domain-specific lexicons. The work done in this paper opens avenues for responsible behaviour of LLMs, as demonstrated in the context of prevalent social perception of the LGBTI+ community. | 翻訳日:2023-10-30 15:36:58 公開日:2023-10-26 |
# 動的不変データ拡張によるモデルフリー強化学習更新の理解 Understanding when Dynamics-Invariant Data Augmentations Benefit Model-Free Reinforcement Learning Updates ( http://arxiv.org/abs/2310.17786v1 ) ライセンス: Link先を確認 | Nicholas E. Corrado, Josiah P. Hanna | (参考訳) 近年,強化学習(RL)タスクにおいて,ドメイン知識を活用する手法としてデータ拡張(DA)が登場し,データ効率が大幅に向上することも多い。
これまでの作業では,拡張データをモデルフリーなRL更新に直接組み込むことの有用性が実証されているが,特定のDA戦略がデータ効率を向上するかどうかについてはよく理解されていない。
本稿では,観察的学習改善に寄与するDAの一般的な側面を明らかにする。
本研究では,動的不変なデータ拡張機能を備えたスパース・リワードタスクに着目し,DAのより一般的な理解とRLトレーニングへの統合に向けた最初のステップとなる。
実験により,DAの3つの関連する側面として,状態-行動カバレッジ,報酬密度,更新毎に発生する拡張遷移の数(再生率)を分離した。
実験の結果,1) 報酬密度の増加よりも, 状態-行動カバレッジの増大がデータ効率に与える影響が大きく, 2) リプレイ率の増大はデータ効率を大幅に向上させることがわかった。
実際、実験的な研究における特定のタスクは、リプレイ比率が十分に低い場合にのみ解決可能である。 Recently, data augmentation (DA) has emerged as a method for leveraging domain knowledge to inexpensively generate additional data in reinforcement learning (RL) tasks, often yielding substantial improvements in data efficiency. While prior work has demonstrated the utility of incorporating augmented data directly into model-free RL updates, it is not well-understood when a particular DA strategy will improve data efficiency. In this paper, we seek to identify general aspects of DA responsible for observed learning improvements. Our study focuses on sparse-reward tasks with dynamics-invariant data augmentation functions, serving as an initial step towards a more general understanding of DA and its integration into RL training. Experimentally, we isolate three relevant aspects of DA: state-action coverage, reward density, and the number of augmented transitions generated per update (the augmented replay ratio). From our experiments, we draw two conclusions: (1) increasing state-action coverage often has a much greater impact on data efficiency than increasing reward density, and (2) decreasing the augmented replay ratio substantially improves data efficiency. In fact, certain tasks in our empirical study are solvable only when the replay ratio is sufficiently low. | 翻訳日:2023-10-30 15:36:39 公開日:2023-10-26 |
# パラメータ化マニピュレーションプリミティブによる外部デキスタリティの学習 Learning Extrinsic Dexterity with Parameterized Manipulation Primitives ( http://arxiv.org/abs/2310.17785v1 ) ライセンス: Link先を確認 | Shih-Min Yang, Martin Magnusson, Johannes A. Stork, Todor Stoyano | (参考訳) 実際には関連する多くのロボット把持問題は、例えば環境によって、すべての把持がオクルードされる対象オブジェクトを特徴としている。
このようなシナリオでは、シングルショットの把握計画が必ず失敗する。
代わりに、まずオブジェクトを把握可能な構成に操作する必要があります。
環境を利用してオブジェクトのポーズを変える一連のアクションを学習することで、この問題を解決する。
具体的には,階層的強化学習を用いて,学習パラメータ化操作プリミティブの列を合成する。
低レベルの操作ポリシーを学習することにより、オブジェクト、グリップ、環境間の相互作用を利用してオブジェクトの状態を制御することができる。
このような複雑な振る舞いを解析的に設計することは、相互作用と接触ダイナミクスの正確な物理的モデリングを必要とするため、制御不能な条件下では不可能である。
対照的に,対象検出やポーズ推定,コントローラの手動設計を必要とせず,深度知覚データに基づいて直接動作する階層的ポリシモデルを学ぶ。
制約のあるテーブルトップワークスペースから, 様々な重量, 形状, 摩擦特性を有する箱型物体を選定するアプローチを評価した。
提案手法は実際のロボットに移動し,98 %の実験実験で対象物抽出作業の完了を達成できる。 Many practically relevant robot grasping problems feature a target object for which all grasps are occluded, e.g., by the environment. Single-shot grasp planning invariably fails in such scenarios. Instead, it is necessary to first manipulate the object into a configuration that affords a grasp. We solve this problem by learning a sequence of actions that utilize the environment to change the object's pose. Concretely, we employ hierarchical reinforcement learning to combine a sequence of learned parameterized manipulation primitives. By learning the low-level manipulation policies, our approach can control the object's state through exploiting interactions between the object, the gripper, and the environment. Designing such a complex behavior analytically would be infeasible under uncontrolled conditions, as an analytic approach requires accurate physical modeling of the interaction and contact dynamics. In contrast, we learn a hierarchical policy model that operates directly on depth perception data, without the need for object detection, pose estimation, or manual design of controllers. We evaluate our approach on picking box-shaped objects of various weight, shape, and friction properties from a constrained table-top workspace. Our method transfers to a real robot and is able to successfully complete the object picking task in 98\% of experimental trials. | 翻訳日:2023-10-30 15:36:18 公開日:2023-10-26 |
# 複素固有値を用いた動的モード分解と行列固有値分解の量子アルゴリズム Quantum Algorithm for Dynamic Mode Decomposition and Matrix Eigenvalue Decomposition with Complex Eigenvalues ( http://arxiv.org/abs/2310.17783v1 ) ライセンス: Link先を確認 | Yuta Mizuno, Tamiki Komatsuzaki | (参考訳) 量子微分方程式解法によりシミュレーションされた時系列データを解析する量子アルゴリズムを提案する。
提案アルゴリズムは流体力学や疫学などの様々な分野で使用される動的モード分解アルゴリズムの量子バージョンである。
量子アルゴリズムは、対応する線形力学系を分析して行列固有値を抽出することもできる。
我々のアルゴリズムは、特定の行列型に限定された既存の効率的な量子固有解法とは異なり、複雑な固有値を持つ幅広い行列を扱う。
我々の量子アルゴリズムの複雑さは、$N$次元システムに対して$O(\operatorname{poly}\log N)$である。
これは既知の古典的アルゴリズムに対する指数的なスピードアップであり、少なくともO(N)$複雑性を持つ。
したがって, 量子アルゴリズムでは, 高次元力学系解析と行列固有値分解が可能であり, 古典的計算機では難解である。 We present a quantum algorithm that analyzes time series data simulated by a quantum differential equation solver. The proposed algorithm is a quantum version of the dynamic mode decomposition algorithm used in diverse fields such as fluid dynamics and epidemiology. Our quantum algorithm can also extract matrix eigenvalues by analyzing the corresponding linear dynamical system. Our algorithm handles a broader range of matrices with complex eigenvalues, unlike existing efficient quantum eigensolvers limited to specific matrix types. The complexity of our quantum algorithm is $O(\operatorname{poly}\log N)$ for an $N$-dimensional system. This is an exponential speedup over known classical algorithms with at least $O(N)$ complexity. Thus, our quantum algorithm is expected to enable high-dimensional dynamical system analysis and large matrix eigenvalue decomposition, intractable for classical computers. | 翻訳日:2023-10-30 15:35:58 公開日:2023-10-26 |
# AutoCT:CTの自動登録、セグメンテーション、定量化 AutoCT: Automated CT registration, segmentation, and quantification ( http://arxiv.org/abs/2310.17780v1 ) ライセンス: Link先を確認 | Zhe Bai, Abdelilah Essiari, Talita Perciano, Kristofer E. Bouchard | (参考訳) CT画像の処理と解析は基礎的科学的発展と臨床応用の両方において重要である。
AutoCTでは, エンドツーエンドの自動前処理, 登録, セグメンテーション, 3次元CTスキャンの定量的解析を統合した包括的パイプラインを提供する。
エンジニアリングされたパイプラインは、効率的な前方および逆写像を通して微分同相変換を利用するアトラスベースのCTセグメント化と定量化を可能にする。
変形領域から抽出された局所的な特徴は、医学的診断を容易にする下流の統計的学習を可能にする。
軽量でポータブルなソフトウェアプラットフォーム上で、AutoCTは、人工知能駆動アプリケーションのデプロイを支えるために、CTイメージングコミュニティのための新しいツールキットを提供する。 The processing and analysis of computed tomography (CT) imaging is important for both basic scientific development and clinical applications. In AutoCT, we provide a comprehensive pipeline that integrates an end-to-end automatic preprocessing, registration, segmentation, and quantitative analysis of 3D CT scans. The engineered pipeline enables atlas-based CT segmentation and quantification leveraging diffeomorphic transformations through efficient forward and inverse mappings. The extracted localized features from the deformation field allow for downstream statistical learning that may facilitate medical diagnostics. On a lightweight and portable software platform, AutoCT provides a new toolkit for the CT imaging community to underpin the deployment of artificial intelligence-driven applications. | 翻訳日:2023-10-30 15:35:47 公開日:2023-10-26 |
# 単語、サブワード、モーフィム:超越的な読む時間関係で本当に重要なのは何か? Words, Subwords, and Morphemes: What Really Matters in the Surprisal-Reading Time Relationship? ( http://arxiv.org/abs/2310.17774v1 ) ライセンス: Link先を確認 | Sathvik Nair and Philip Resnik | (参考訳) LLMを精神言語学的データに使用するという重要な仮定は、検証されていない。
LLMに基づく予測は、単語を形態素に分解するのではなく、サブワードトークン化に基づいている。
それが問題か?
本研究は, 読み出し時刻データに対して, 正書法, 形態学およびBPEトークン化を用いて, 予備推定値を比較し, 慎重に検証する。
以上の結果から,bpeトークン化を用いた予測は形態的および正書法的セグメント化に比較しては耐えられないことが示唆された。
しかし、よりきめ細かい分析は、BPEベースのトークン化に頼る際の潜在的な問題と、形態学的に認識された予備推定を含む有望な結果を提供し、形態学的予測の新しい方法を提案する。 An important assumption that comes with using LLMs on psycholinguistic data has gone unverified. LLM-based predictions are based on subword tokenization, not decomposition of words into morphemes. Does that matter? We carefully test this by comparing surprisal estimates using orthographic, morphological, and BPE tokenization against reading time data. Our results replicate previous findings and provide evidence that in the aggregate, predictions using BPE tokenization do not suffer relative to morphological and orthographic segmentation. However, a finer-grained analysis points to potential issues with relying on BPE-based tokenization, as well as providing promising results involving morphologically-aware surprisal estimates and suggesting a new method for evaluating morphological prediction. | 翻訳日:2023-10-30 15:35:37 公開日:2023-10-26 |
# 複雑な交通シナリオ分類のためのグラフ畳み込みネットワーク Graph Convolutional Networks for Complex Traffic Scenario Classification ( http://arxiv.org/abs/2310.17773v1 ) ライセンス: Link先を確認 | Tobias Hoek, Holger Caesar, Andreas Falkov\'en, Tommy Johansson | (参考訳) シナリオベースのテストアプローチは、自動走行システム(ads)の安全性の統計的に有意な証拠を得るのに要する時間を削減できる。
これらのシナリオを自動化して識別することは難しい作業です。
シナリオ分類のほとんどの方法は、様々な環境(ハイウェイ、都市)と他のトラフィックエージェントとの相互作用を伴う複雑なシナリオでは機能しない。
これは、個々の車両を環境に関してモデル化するアプローチに反映されるが、複数の車両(例えば、カットイン、静止誘導車両)間の相互作用を無視する。
さらに、既存のデータセットには多様性がなく、シナリオの開始と終了を正確に学習するフレーム単位のアノテーションがない。
本研究では,車両と環境の相互作用をモデル化する複雑な交通シナリオ分類手法を提案する。
グラフ畳み込みネットワークを用いて,これらのシナリオの空間的および時間的側面をモデル化する。
nuScenesとArgoverse 2の駆動データセットを拡張し、異なる駆動環境をカバーするシナリオラベル付きデータセットを導入し、フレーム毎に注釈を付ける。
このデータセット上で本手法を訓練し,フレーム単位の複雑なシナリオ分類の今後の研究に期待できるベースラインを示す。 A scenario-based testing approach can reduce the time required to obtain statistically significant evidence of the safety of Automated Driving Systems (ADS). Identifying these scenarios in an automated manner is a challenging task. Most methods on scenario classification do not work for complex scenarios with diverse environments (highways, urban) and interaction with other traffic agents. This is mirrored in their approaches which model an individual vehicle in relation to its environment, but neglect the interaction between multiple vehicles (e.g. cut-ins, stationary lead vehicle). Furthermore, existing datasets lack diversity and do not have per-frame annotations to accurately learn the start and end time of a scenario. We propose a method for complex traffic scenario classification that is able to model the interaction of a vehicle with the environment, as well as other agents. We use Graph Convolutional Networks to model spatial and temporal aspects of these scenarios. Expanding the nuScenes and Argoverse 2 driving datasets, we introduce a scenario-labeled dataset, which covers different driving environments and is annotated per frame. Training our method on this dataset, we present a promising baseline for future research on per-frame complex scenario classification. | 翻訳日:2023-10-30 15:35:24 公開日:2023-10-26 |
# 分布シフトに頑健な最適分類木を学ぶ Learning Optimal Classification Trees Robust to Distribution Shifts ( http://arxiv.org/abs/2310.17772v1 ) ライセンス: Link先を確認 | Nathan Justin, Sina Aghaei, Andr\'es G\'omez, Phebe Vayanos | (参考訳) トレーニングとテスト/デプロイデータ間の分散シフトに頑健な分類木を学習する問題を考える。
この問題は、例えば、質問のフレーミング、調査の時期と場所、インタビュアーと情報を共有する際のインタビュアーが持つ快適さのレベルなど、質問のフレーミングに敏感な自己報告調査によってデータが収集されることが多い、公衆衛生やソーシャルワークといった高利害率設定で頻繁に発生する。
混合整数型ロバスト最適化技術に基づく最適ロバスト分類木を学習する手法を提案する。
特に、最適ロバスト木を学習する問題は、高度に非線形で不連続な目的を持つ単段混合整数ロバスト最適化問題としてキャストできることを示した。
我々はこの問題を2段階線形ロバスト最適化問題として等価に再構成し、制約生成に基づく最適解法を考案する。
我々は,多数の公開データセットに対する我々のアプローチの性能を評価し,その性能を正規化された非ロバスト最適木と比較する。
最悪の場合には最大12.48%、いくつかのデータセットでは平均4.85%の増加を示し、ロバストではないソリューションに比べてロバストなソリューションを使うことから分散への移行を示している。 We consider the problem of learning classification trees that are robust to distribution shifts between training and testing/deployment data. This problem arises frequently in high stakes settings such as public health and social work where data is often collected using self-reported surveys which are highly sensitive to e.g., the framing of the questions, the time when and place where the survey is conducted, and the level of comfort the interviewee has in sharing information with the interviewer. We propose a method for learning optimal robust classification trees based on mixed-integer robust optimization technology. In particular, we demonstrate that the problem of learning an optimal robust tree can be cast as a single-stage mixed-integer robust optimization problem with a highly nonlinear and discontinuous objective. We reformulate this problem equivalently as a two-stage linear robust optimization problem for which we devise a tailored solution procedure based on constraint generation. We evaluate the performance of our approach on numerous publicly available datasets, and compare the performance to a regularized, non-robust optimal tree. We show an increase of up to 12.48% in worst-case accuracy and of up to 4.85% in average-case accuracy across several datasets and distribution shifts from using our robust solution in comparison to the non-robust one. | 翻訳日:2023-10-30 15:35:05 公開日:2023-10-26 |
# GROOViST:ビジュアルストーリーテリングにおけるオブジェクトのグラウンド化基準 GROOViST: A Metric for Grounding Objects in Visual Storytelling ( http://arxiv.org/abs/2310.17770v1 ) ライセンス: Link先を確認 | Aditya K Surikuchi, Sandro Pezzelle, Raquel Fern\'andez | (参考訳) 視覚的ストーリーテリングと呼ばれる一連の画像に対して生成されたストーリーの適切な評価は、コヒーレンス、文法的正確性、視覚的グラウンドニングといった複数の側面を考慮する必要がある。
本研究は,画像に表示されたエンティティについて,ストーリーがどの程度の程度であるかという,グラウンドングの程度を評価することに焦点を当てる。
我々は、この目的と一般的な視覚テキストアライメントの両方のために、現在のメトリクスを分析します。
それらの観察された欠点を考慮し,クロスモーダルな依存関係,時間的不一致(ストーリー内に存在するエンティティと画像シーケンスが一致しないという事実),視覚接地における人間の直観を考慮し,新たな評価ツールgroovistを提案する。
GROOViSTのさらなる利点はモジュール設計であり、各コンポーネントのコントリビューションを個別に評価し解釈することができる。 A proper evaluation of stories generated for a sequence of images -- the task commonly referred to as visual storytelling -- must consider multiple aspects, such as coherence, grammatical correctness, and visual grounding. In this work, we focus on evaluating the degree of grounding, that is, the extent to which a story is about the entities shown in the images. We analyze current metrics, both designed for this purpose and for general vision-text alignment. Given their observed shortcomings, we propose a novel evaluation tool, GROOViST, that accounts for cross-modal dependencies, temporal misalignments (the fact that the order in which entities appear in the story and the image sequence may not match), and human intuitions on visual grounding. An additional advantage of GROOViST is its modular design, where the contribution of each component can be assessed and interpreted individually. | 翻訳日:2023-10-30 15:34:39 公開日:2023-10-26 |
# ソーシャルコントラクトAI: 不正なグループノルムによるAIアシスタントの調整 Social Contract AI: Aligning AI Assistants with Implicit Group Norms ( http://arxiv.org/abs/2310.17769v1 ) ライセンス: Link先を確認 | Jan-Philipp Fr\"anken, Sam Kwok, Peixuan Ye, Kanishk Gandhi, Dilip Arumugam, Jared Moore, Alex Tamkin, Tobias Gerstenberg, Noah D. Goodman | (参考訳) 我々は、観察したインタラクションからユーザの(未知の)好みのモデルを反転させることで、aiアシスタントを連携させるアイデアを探求する。
提案手法を検証するために,我々は,シミュレーションされたプレイヤーの行動を導くポリシーとして,ユーザの好みを定式化する,概念実証シミュレーションを行う。
AIアシスタントは、経済文献(例えば、利己的、利他的)の標準方針と一致するように、その振る舞いを正確に整合させる。
しかし、助手の学習方針は堅牢性に欠けており、助手の訓練分布に含まれない通貨(例えば、薬のグラム)と対立した場合、分配外設定において限定的な一般化を示す。
さらに、言語使用と未知の政策(例えば、無作為な言語と組み合わせた利他主義的な政策)の関係に矛盾がある場合、その政策に対するアシスタントの学習は遅くなる。
全体としては,aiアシスタントが多様なユーザの好みを推測する必要があるシミュレーションフレームワークの開発が,実践的アライメント問題の研究に有用なアプローチとなることを示唆する。 We explore the idea of aligning an AI assistant by inverting a model of users' (unknown) preferences from observed interactions. To validate our proposal, we run proof-of-concept simulations in the economic ultimatum game, formalizing user preferences as policies that guide the actions of simulated players. We find that the AI assistant accurately aligns its behavior to match standard policies from the economic literature (e.g., selfish, altruistic). However, the assistant's learned policies lack robustness and exhibit limited generalization in an out-of-distribution setting when confronted with a currency (e.g., grams of medicine) that was not included in the assistant's training distribution. Additionally, we find that when there is inconsistency in the relationship between language use and an unknown policy (e.g., an altruistic policy combined with rude language), the assistant's learning of the policy is slowed. Overall, our preliminary results suggest that developing simulation frameworks in which AI assistants need to infer preferences from diverse users can provide a valuable approach for studying practical alignment questions. | 翻訳日:2023-10-30 15:34:22 公開日:2023-10-26 |
# Relighted 3D Interacting Hands のデータセット A Dataset of Relighted 3D Interacting Hands ( http://arxiv.org/abs/2310.17768v1 ) ライセンス: Link先を確認 | Gyeongsik Moon, Shunsuke Saito, Weipeng Xu, Rohan Joshi, Julia Buffalini, Harley Bellan, Nicholas Rosen, Jesse Richardson, Mallorie Mize, Philippe de Bree, Tomas Simon, Bo Peng, Shubham Garg, Kevyn McPhail, Takaaki Shiratori | (参考訳) 両手の相互作用は、自己相似性、複雑な調音、手の閉塞のために分析する最も難しい信号の1つである。
双方向インタラクション分析のためにいくつかのデータセットが提案されているが、いずれも達成されていない。
1)多様で現実的な画像の出現
2)多様で大規模なグラウンドトラス(gt)3dポーズを同時に行う。
本研究では,この2つの目標を達成する3DインタラクションハンドのデータセットであるRe:InterHandを提案する。
この目的のために、我々は、正確に追跡された両手の3Dポーズを備えた最先端の手のリライトネットワークを採用している。
Re:InterHandと既存の3Dインタラクションハンドデータセットを比較し、そのメリットを示します。
私たちのRe:InterHandはhttps://mks0601.github.io/ReInterHand/で利用可能です。 The two-hand interaction is one of the most challenging signals to analyze due to the self-similarity, complicated articulations, and occlusions of hands. Although several datasets have been proposed for the two-hand interaction analysis, all of them do not achieve 1) diverse and realistic image appearances and 2) diverse and large-scale groundtruth (GT) 3D poses at the same time. In this work, we propose Re:InterHand, a dataset of relighted 3D interacting hands that achieve the two goals. To this end, we employ a state-of-the-art hand relighting network with our accurately tracked two-hand 3D poses. We compare our Re:InterHand with existing 3D interacting hands datasets and show the benefit of it. Our Re:InterHand is available in https://mks0601.github.io/ReInterHand/. | 翻訳日:2023-10-30 15:34:01 公開日:2023-10-26 |
# SynergyNet: 正確な医用画像分割のための離散表現と連続表現のギャップを埋める SynergyNet: Bridging the Gap between Discrete and Continuous Representations for Precise Medical Image Segmentation ( http://arxiv.org/abs/2310.17764v1 ) ライセンス: Link先を確認 | Vandan Gorade, Sparsh Mittal, Debesh Jha, Ulas Bagci | (参考訳) 近年,医療画像解析のための連続潜時空間(CLS)と離散潜時空間(DLS)深層学習モデルが提案されている。
しかし、これらのモデルは異なる課題に直面する。
CLSモデルは複雑な詳細を捉えるが、低レベルの特徴に重点を置いているため、構造表現やロバスト性の観点からは解釈性に欠けることが多い。
逆にdlsモデルは、構造化された潜在空間によって、解釈可能性、堅牢性、粗い粒度の情報をキャプチャする能力を提供する。
しかし、DLSモデルは細かな詳細を捉えるのに有効である。
既存のエンコーダとデコーダのセグメンテーションフレームワークを強化するために設計された,新たなボトルネックアーキテクチャであるSynergyNetを提案する。
synergynetは、離散表現と連続表現をシームレスに統合し、補完的情報を活用し、学習した表現の細部と粗部の両方をうまく保存する。
複数臓器のセグメンテーションと心臓のデータセットに関する広範な実験により、SynergyNetはTransUNetを含む他の技術手法よりも優れており、それぞれ2.16%、Hausdorffは11.13%向上している。
皮膚病変および脳腫瘍分画データセットを評価する際,皮膚病変分画の交叉結合スコアが1.71%,脳腫瘍分画が8.58%と著明な改善を示した。
我々の革新的なアプローチは、医用画像解析の重要な領域において、ディープラーニングモデルの全体的な性能と能力を高める方法である。 In recent years, continuous latent space (CLS) and discrete latent space (DLS) deep learning models have been proposed for medical image analysis for improved performance. However, these models encounter distinct challenges. CLS models capture intricate details but often lack interpretability in terms of structural representation and robustness due to their emphasis on low-level features. Conversely, DLS models offer interpretability, robustness, and the ability to capture coarse-grained information thanks to their structured latent space. However, DLS models have limited efficacy in capturing fine-grained details. To address the limitations of both DLS and CLS models, we propose SynergyNet, a novel bottleneck architecture designed to enhance existing encoder-decoder segmentation frameworks. SynergyNet seamlessly integrates discrete and continuous representations to harness complementary information and successfully preserves both fine and coarse-grained details in the learned representations. Our extensive experiment on multi-organ segmentation and cardiac datasets demonstrates that SynergyNet outperforms other state of the art methods, including TransUNet: dice scores improving by 2.16%, and Hausdorff scores improving by 11.13%, respectively. When evaluating skin lesion and brain tumor segmentation datasets, we observe a remarkable improvement of 1.71% in Intersection-over Union scores for skin lesion segmentation and of 8.58% for brain tumor segmentation. Our innovative approach paves the way for enhancing the overall performance and capabilities of deep learning models in the critical domain of medical image analysis. | 翻訳日:2023-10-30 15:33:51 公開日:2023-10-26 |
# 分散パーソナライズされた経験的リスク最小化 Distributed Personalized Empirical Risk Minimization ( http://arxiv.org/abs/2310.17761v1 ) ライセンス: Link先を確認 | Yuyang Deng, Mohammad Mahdi Kamani, Pouria Mahdavinia, Mehrdad Mahdavi | (参考訳) 本稿では、参加デバイスが共有する計算リソースに制約を課すことなく、異種データソースからの学習を容易にする新しいパラダイムであるPersonalized Empirical Risk Minimization(PERM)を提案する。
PERMでは,データ分布間の統計的差を効果的に推定し,各局所分布の最適統計精度を推定し,データの不均一性問題を克服することにより,各クライアントの個別モデルを学ぶことを目的としている。
パーソナライズされたモデルを大規模に学習するために,モデルシャッフルを標準モデルに置き換えた分散アルゴリズムを提案し,PERMの目的を全デバイスで同時に最適化する。
これにより、異なるクライアントに対して異なるモデルアーキテクチャ(例えば、パラメータの異なるニューラルネットワーク)を学習し、基礎となるメモリと個々のクライアントの計算リソースを集約することが可能になる。
本稿では,提案アルゴリズムの収束を厳密に分析し,提案手法の有効性を裏付ける実験を行う。 This paper advocates a new paradigm Personalized Empirical Risk Minimization (PERM) to facilitate learning from heterogeneous data sources without imposing stringent constraints on computational resources shared by participating devices. In PERM, we aim to learn a distinct model for each client by learning who to learn with and personalizing the aggregation of local empirical losses by effectively estimating the statistical discrepancy among data distributions, which entails optimal statistical accuracy for all local distributions and overcomes the data heterogeneity issue. To learn personalized models at scale, we propose a distributed algorithm that replaces the standard model averaging with model shuffling to simultaneously optimize PERM objectives for all devices. This also allows us to learn distinct model architectures (e.g., neural networks with different numbers of parameters) for different clients, thus confining underlying memory and compute resources of individual clients. We rigorously analyze the convergence of the proposed algorithm and conduct experiments that corroborate the effectiveness of the proposed paradigm. | 翻訳日:2023-10-30 15:33:22 公開日:2023-10-26 |
# 特徴学習のためのスペクトル条件 A Spectral Condition for Feature Learning ( http://arxiv.org/abs/2310.17813v1 ) ライセンス: Link先を確認 | Greg Yang, James B. Simon, Jeremy Bernstein | (参考訳) より大きなニューラルネットワークをトレーニングする動きは、ネットワーク幅の広い初期化とトレーニングの研究の動機となっている。
重要な課題は、ネットワークの内部表現があらゆる幅で非自明に進化するように、トレーニングをスケールさせることである。
ここでは,重み行列のスペクトルノルムと,それに対する$\sqrt{\textt{fan-out}/\texttt{fan-in}}$のような更新を,Frobeniusノルムとエントリサイズに基づいて,広く使用されているがヒューリスティックなスケーリングと対照的に,特徴学習が達成されることを示す。
また,スペクトルスケーリング解析により,emph{maximal update parametrization} の初等微分が導かれる。
全体として、ニューラルネットワークにおける特徴学習について、読者にしっかりとした概念的理解を提供することを目指している。 The push to train ever larger neural networks has motivated the study of initialization and training at large network width. A key challenge is to scale training so that a network's internal representations evolve nontrivially at all widths, a process known as feature learning. Here, we show that feature learning is achieved by scaling the spectral norm of weight matrices and their updates like $\sqrt{\texttt{fan-out}/\texttt{fan-in}}$, in contrast to widely used but heuristic scalings based on Frobenius norm and entry size. Our spectral scaling analysis also leads to an elementary derivation of \emph{maximal update parametrization}. All in all, we aim to provide the reader with a solid conceptual understanding of feature learning in neural networks. | 翻訳日:2023-10-30 15:25:14 公開日:2023-10-26 |
# マイクロ波シールド超低温分子の熱化への展望 Prospects for thermalization of microwave-shielded ultracold molecules ( http://arxiv.org/abs/2310.17812v1 ) ライセンス: Link先を確認 | Reuben R. W. Wang and John L. Bohn | (参考訳) マイクロ波遮蔽極性分子フェルミオン希薄気体における異方性熱分解の研究を行った。
しきい値以上の衝突エネルギーについては, 前方散乱の強い好みと全断面のエネルギー低下により熱化が抑制され, 蒸発冷却の効率が著しく低下することがわかった。
Dengらによって導かれる有効ポテンシャルエネルギー面について密結合計算を行う。
[Phys. Rev. 130, 183001 (2023)], 衝突エネルギー範囲にわたって正確な2体弾性差動断面積を得る。
ガウス過程回帰(gaussian process regression)を用いて、広い範囲の衝突角とエネルギーにわたって微分断面積の大域的な表現を得る。
平衡への経路は、熱化を達成するための衝突効率の尺度によって定量化され、クロス次元再熱化実験によって分析される。 We study anisotropic thermalization in dilute gases of microwave shielded polar molecular fermions. For collision energies above the threshold regime, we find that thermalization is suppressed due to a strong preference for forward scattering and a reduction in total cross section with energy, significantly reducing the efficiency of evaporative cooling. We perform close-coupling calculations on the effective potential energy surface derived by Deng et al. [Phys. Rev. Lett. 130, 183001 (2023)], to obtain accurate 2-body elastic differential cross sections across a range of collision energies. We use Gaussian process regression to obtain a global representation of the differential cross section, over a wide range of collision angles and energies. The route to equilibrium is then analyzed with cross-dimensional rethermalization experiments, quantified by a measure of collisional efficiency toward achieving thermalization. | 翻訳日:2023-10-30 15:24:56 公開日:2023-10-26 |
# radgraph と no-shot プロンプトを用いたスタイルアウェアラジオロジーレポート生成 Style-Aware Radiology Report Generation with RadGraph and Few-Shot Prompting ( http://arxiv.org/abs/2310.17811v1 ) ライセンス: Link先を確認 | Benjamin Yan, Ruochen Liu, David E. Kuo, Subathra Adithan, Eduardo Pontes Reis, Stephen Kwak, Vasantha Kumar Venugopal, Chloe P. O'Connell, Agustina Saenz, Pranav Rajpurkar, Michael Moor | (参考訳) 医療画像から自動生成された報告は、放射線技師のワークフローを改善することを約束する。
既存の手法では、画像から本格的なレポートを直接生成することにより、画像からレポートへのモデリングタスクを考える。
しかし、これはレポートの内容(例:発見とその属性)をそのスタイル(例:単語の形式と選択)と混同し、臨床的に不正確な報告につながる可能性がある。
そこで本稿では,放射線レポート生成のための2段階アプローチを提案する。
まず,画像から抽出した内容から抽出した内容を,特定の放射線科医のスタイルにマッチしたレポートに言語化する。
そのため、レポートのグラフ表現であるRadGraphと、大きな言語モデル(LLM)を活用しています。
定量的評価では、我々のアプローチが有益なパフォーマンスをもたらすことが分かりました。
臨床ティッカーを用いた人間の評価では、AIが生成した報告は、文脈としてほんの数例しか活用していないにもかかわらず、個々の放射線科医のスタイルに相応しいことが強調されている。 Automatically generated reports from medical images promise to improve the workflow of radiologists. Existing methods consider an image-to-report modeling task by directly generating a fully-fledged report from an image. However, this conflates the content of the report (e.g., findings and their attributes) with its style (e.g., format and choice of words), which can lead to clinically inaccurate reports. To address this, we propose a two-step approach for radiology report generation. First, we extract the content from an image; then, we verbalize the extracted content into a report that matches the style of a specific radiologist. For this, we leverage RadGraph -- a graph representation of reports -- together with large language models (LLMs). In our quantitative evaluations, we find that our approach leads to beneficial performance. Our human evaluation with clinical raters highlights that the AI-generated reports are indistinguishably tailored to the style of individual radiologist despite leveraging only a few examples as context. | 翻訳日:2023-10-30 15:24:40 公開日:2023-10-26 |
# clover: クローズドループ検証コード生成 Clover: Closed-Loop Verifiable Code Generation ( http://arxiv.org/abs/2310.17807v1 ) ライセンス: Link先を確認 | Chuyue Sun, Ying Sheng, Oded Padon, Clark Barrett | (参考訳) コード生成に大規模言語モデルを使用することは、ソフトウェア開発の急速な増加傾向である。
しかし、生成されたコードの正確性を保証する効果的な方法がなければ、この傾向は、望ましくない結果をもたらす可能性がある。
本稿では,この課題に対処するためのビジョンを述べる。cloverパラダイム(クローズドループ検証コード生成の略)は,一貫性チェックという課題に正確性チェックを還元するものだ。
Cloverの中核には、コード、ドキュストリング、フォーマルアノテーション間の一貫性チェックを実行するチェッカーがある。
このチェッカーは,形式検証ツールと大規模言語モデルの新たな統合によって実装されている。
我々は,cloverが一貫性チェックに効果的であるべきという仮説を支持する理論的分析を行う。
また,注記Dafnyプログラムを教科書の難易度で記述した手書きデータセット(CloverBench)の有効性を実証的に検討した。
実験の結果、このデータセットは
一 LLM は、形式仕様を自動生成するのに適当に成功し、
(ii)一貫性チェッカーは、不正なインスタンスに対する許容度(偽陽性なし)を維持しつつ、正しいインスタンスに対する有望な受け入れ率(最大87%)を達成します。 The use of large language models for code generation is a rapidly growing trend in software development. However, without effective methods for ensuring the correctness of generated code, this trend could lead to any number of undesirable outcomes. In this paper, we lay out a vision for addressing this challenge: the Clover paradigm, short for Closed-Loop Verifiable Code Generation, which reduces correctness checking to the more accessible problem of consistency checking. At the core of Clover lies a checker that performs consistency checks among code, docstrings, and formal annotations. The checker is implemented using a novel integration of formal verification tools and large language models. We provide a theoretical analysis to support our thesis that Clover should be effective at consistency checking. We also empirically investigate its feasibility on a hand-designed dataset (CloverBench) featuring annotated Dafny programs at a textbook level of difficulty. Experimental results show that for this dataset, (i) LLMs are reasonably successful at automatically generating formal specifications; and (ii) our consistency checker achieves a promising acceptance rate (up to 87%) for correct instances while maintaining zero tolerance for incorrect ones (no false positives). | 翻訳日:2023-10-30 15:23:25 公開日:2023-10-26 |
# DreamerV3トリップによる近似政策最適化のための逆スケールロバストネス Reward Scale Robustness for Proximal Policy Optimization via DreamerV3 Tricks ( http://arxiv.org/abs/2310.17805v1 ) ライセンス: Link先を確認 | Ryan Sullivan, Akarsh Kumar, Shengyi Huang, John P. Dickerson, Joseph Suarez | (参考訳) ほとんどの強化学習方法は、密集した正規化された環境報酬に大きく依存している。
DreamerV3は最近、これらの制限を緩和する多くのトリックを備えたモデルベースの手法を導入し、単一のハイパーパラメータのセットで幅広いベンチマークで最先端を達成した。
この結果は、他の強化学習アルゴリズムに適用できるように見えるため、トリックの一般性に関する議論を引き起こした。
私たちの研究はDreamerV3のトリックをPPOに適用し、オリジナルの作品以外では初めての実験的な研究です。
驚くべきことに、提示されたトリックはPPOの一般的な改善として転送されない。
我々は、高品質なPPO参照実装を使用し、Arcade Learning EnvironmentとDeepMind Control Suiteで合計10,000A100時間以上のアブレーション研究を行っている。
実験の結果,これらの手法は一般的にPPOを上回りませんが,成功事例を特定し,実装手法の関係について考察する。
特に、これらのトリックを持つPPOは、アタリゲーム上のPPOに対して、報酬クリッピングで比較可能であり、報酬クリッピングなしでPPOを著しく上回る。 Most reinforcement learning methods rely heavily on dense, well-normalized environment rewards. DreamerV3 recently introduced a model-based method with a number of tricks that mitigate these limitations, achieving state-of-the-art on a wide range of benchmarks with a single set of hyperparameters. This result sparked discussion about the generality of the tricks, since they appear to be applicable to other reinforcement learning algorithms. Our work applies DreamerV3's tricks to PPO and is the first such empirical study outside of the original work. Surprisingly, we find that the tricks presented do not transfer as general improvements to PPO. We use a high quality PPO reference implementation and present extensive ablation studies totaling over 10,000 A100 hours on the Arcade Learning Environment and the DeepMind Control Suite. Though our experiments demonstrate that these tricks do not generally outperform PPO, we identify cases where they succeed and offer insight into the relationship between the implementation tricks. In particular, PPO with these tricks performs comparably to PPO on Atari games with reward clipping and significantly outperforms PPO without reward clipping. | 翻訳日:2023-10-30 15:23:03 公開日:2023-10-26 |
# 量子鍵分布におけるレーザーシード攻撃の定量化効果 Quantified Effects of the Laser Seeding Attack in Quantum Key Distribution ( http://arxiv.org/abs/2310.17803v1 ) ライセンス: Link先を確認 | Victor Lovic, Davide G. Marangon, Peter. R. Smith, Robert I. Woodward, Andrew J. Shields | (参考訳) 量子鍵分布(QKD)は、情報理論セキュリティを用いたプライベート通信を可能にする。
QKDの実用的安全性を保証するため、QKDシステムは理論的要件に従って実装され、サイドチャネル攻撃に対して堅牢であることが不可欠である。
本稿では,レーザーシード攻撃(LSA)として知られるQKD送信機に対する顕著な攻撃について検討する。
送信機のレーザーに光子を注入することで、射出光を何らかの方法で修正し、盗聴者にとって有益である。
本研究では,qkd送信機のlsaへの応答を,注入された光パワーの関数として測定し,攻撃緩和に必要な光減衰レベルを定量化する。
さらに, 利得切替レーザに対するlsaの効果を数値シミュレーションするために, レーザー速度方程式モデルを用いた。
このモデルにより、従来の実験結果を再現し、異なるレーザ電流駆動パラメータでQKD送信機を動作させた場合のLSAの影響を調べることにより、LSAに対する新たな洞察を生成することができる。 Quantum key distribution (QKD) enables private communications with information-theoretic security. To guarantee the practical security of QKD, it is essential that QKD systems are implemented in accordance to theoretical requirements and robust against side-channel attacks. Here we study a prominent attack on QKD transmitters known as the laser seeding attack (LSA). It consists in injecting photons into the laser of the transmitter in an attempt to modify the outgoing light in some way that is beneficial to the eavesdropper. In this work we measure the response of a QKD transmitter to the LSA as a function of the optical power injected, allowing us to quantify the level of optical attenuation required to mitigate the attack. Further, we employ a laser rate equation model to numerically simulate the effects of the LSA on a gain-switched laser. With this model we are able to reproduce previous experimental results, as well as generate new insight into the LSA by examining the effects of the LSA when the QKD transmitter is operated with different laser current driving parameters. | 翻訳日:2023-10-30 15:22:45 公開日:2023-10-26 |
# TIMELINE:ニュース記事におけるイベントの自動順序付けを支援する時間関係の抽出的アノテーション TIMELINE: Exhaustive Annotation of Temporal Relations Supporting the Automatic Ordering of Events in News Articles ( http://arxiv.org/abs/2310.17802v1 ) ライセンス: Link先を確認 | Sarah Alsayyahi and Riza Batista-Navarro | (参考訳) 時間的関係抽出モデルは,(1) 時間的関係として数えられるものに関して,アノテーションガイドラインの特異性の欠如によるアノテータ間合意の低さ,(2) 与えられた文書内での長距離関係の排除(異なる段落にまたがる),(3) 動詞に基づかない事象の排除など,既存の時間的関係注釈付きニュースデータセットの多くの問題によってこれまでに妨げられている。
本論文は, 時相関係の基準を明確に定義した新しいアノテーションスキームを提案することで, この問題を緩和することを目的としたものである。
さらに、このスキームは動詞として表現されていなくてもイベントを含む(例:名付けられたイベント)。
さらに, 時間的関係 - 長距離関係を含む- をアノテートする手法を提案し, プロセスの自動化によりアノテータの時間と手作業の削減を図っている。
その結果,前回報告した時間関係データセットと比較して,アノテーション間合意の改善が得られた新しいデータセットであるタイムラインコーパスが得られた。
新たなコーパスを用いた時間的関係抽出モデルのトレーニングと評価の結果を報告し, 広く使用されているMATRESコーパスと比較した。 Temporal relation extraction models have thus far been hindered by a number of issues in existing temporal relation-annotated news datasets, including: (1) low inter-annotator agreement due to the lack of specificity of their annotation guidelines in terms of what counts as a temporal relation; (2) the exclusion of long-distance relations within a given document (those spanning across different paragraphs); and (3) the exclusion of events that are not centred on verbs. This paper aims to alleviate these issues by presenting a new annotation scheme that clearly defines the criteria based on which temporal relations should be annotated. Additionally, the scheme includes events even if they are not expressed as verbs (e.g., nominalised events). Furthermore, we propose a method for annotating all temporal relations -- including long-distance ones -- which automates the process, hence reducing time and manual effort on the part of annotators. The result is a new dataset, the TIMELINE corpus, in which improved inter-annotator agreement was obtained, in comparison with previously reported temporal relation datasets. We report the results of training and evaluating baseline temporal relation extraction models on the new corpus, and compare them with results obtained on the widely used MATRES corpus. | 翻訳日:2023-10-30 15:22:27 公開日:2023-10-26 |
# イベントシーケンス予測のための相互作用拡散過程 Interacting Diffusion Processes for Event Sequence Forecasting ( http://arxiv.org/abs/2310.17800v1 ) ライセンス: Link先を確認 | Mai Zeng, Florence Regol, Mark Coates | (参考訳) ニューラル・テンポラル・ポイント・プロセス(TPP)は、不規則な時間間隔で発生する事象のシーケンスを予測する主要なフレームワークとして登場したが、そのシーケンシャルな性質は長期の予測のパフォーマンスを妨げうる。
そこで本研究では,拡散生成モデルを組み込んだ新しい手法を提案する。
このモデルはシーケンシャル・ツー・シーケンス予測を容易にし、過去のイベントシーケンスに基づく多段階予測を可能にする。
従来のアプローチとは対照的に,複数の事象に対する型と対数時間の合同確率分布を直接学習する。
これにより、現代生成モデルの高次元モデリング能力をフル活用することができる。
我々のモデルは2つの拡散過程で構成されており、1つは時間間隔、もう1つはイベントタイプである。
これらのプロセスは、両方のプロセスから入力中間表現として取り得るそれぞれの分母関数を通して相互作用し、モデルが複雑な相互作用を学ぶことができる。
提案手法はTPPの長期予測における最先端のベースラインよりも優れていることを示す。 Neural Temporal Point Processes (TPPs) have emerged as the primary framework for predicting sequences of events that occur at irregular time intervals, but their sequential nature can hamper performance for long-horizon forecasts. To address this, we introduce a novel approach that incorporates a diffusion generative model. The model facilitates sequence-to-sequence prediction, allowing multi-step predictions based on historical event sequences. In contrast to previous approaches, our model directly learns the joint probability distribution of types and inter-arrival times for multiple events. This allows us to fully leverage the high dimensional modeling capability of modern generative models. Our model is composed of two diffusion processes, one for the time intervals and one for the event types. These processes interact through their respective denoising functions, which can take as input intermediate representations from both processes, allowing the model to learn complex interactions. We demonstrate that our proposal outperforms state-of-the-art baselines for long-horizon forecasting of TPP. | 翻訳日:2023-10-30 15:22:01 公開日:2023-10-26 |
# ニューロモルフィックオンラインクラスタリングと分類 Neuromorphic Online Clustering and Classification ( http://arxiv.org/abs/2310.17797v1 ) ライセンス: Link先を確認 | J. E. Smith | (参考訳) ニューロモルフィックアーキテクチャの下位2層は、オンラインクラスタリングと教師付き分類が可能なように設計されている。
アクティブスパイキングデンドライトモデルを使用し、単一の樹状体セグメントは古典的な統合点と発火点ニューロンと本質的に同じ機能を発揮する。
1つのデンドライトは複数のセグメントで構成され、オンラインクラスタリングが可能である。
この研究は主にデンドライト機能に焦点を当てているが、複数のデンドライトを組み合わせることで多点ニューロンを形成することができる。
クラスタリング能力を示すために、脳-コンピュータインターフェースアプリケーションの重要なコンポーネントであるスパイクソートにデンドライトを適用する。
監視されたオンライン分類は、複数のデンドライトと単純な投票機構からなるネットワークとして実装されている。
デンドライトは独立して平行に作用する。
ネットワークはオンラインで学習し、入力ストリームのマクロレベルの変更に適応することができる。
脳のような能力、効率、適応性を達成するには、計算集約的なバック伝搬を通じて学習する従来のディープネットワークとは大きく異なるアプローチが必要である。
ここで述べたモデルは、そのようなアプローチの基盤となるかもしれない。 The bottom two layers of a neuromorphic architecture are designed and shown to be capable of online clustering and supervised classification. An active spiking dendrite model is used, and a single dendritic segment performs essentially the same function as a classic integrate-and-fire point neuron. A single dendrite is then composed of multiple segments and is capable of online clustering. Although this work focuses primarily on dendrite functionality, a multi-point neuron can be formed by combining multiple dendrites. To demonstrate its clustering capability, a dendrite is applied to spike sorting, an important component of brain-computer interface applications. Supervised online classification is implemented as a network composed of multiple dendrites and a simple voting mechanism. The dendrites operate independently and in parallel. The network learns in an online fashion and can adapt to macro-level changes in the input stream. Achieving brain-like capabilities, efficiencies, and adaptability will require a significantly different approach than conventional deep networks that learn via compute-intensive back propagation. The model described herein may serve as the foundation for such an approach. | 翻訳日:2023-10-30 15:21:47 公開日:2023-10-26 |
# ControlLLM: グラフ検索によるツールによる言語モデルの拡張 ControlLLM: Augment Language Models with Tools by Searching on Graphs ( http://arxiv.org/abs/2310.17796v1 ) ライセンス: Link先を確認 | Zhaoyang Liu, Zeqiang Lai, Zhangwei Gao, Erfei Cui, Xizhou Zhu, Lewei Lu, Qifeng Chen, Yu Qiao, Jifeng Dai, Wenhai Wang | (参考訳) 我々は,大規模言語モデル(LLM)が複雑な実世界のタスクを解くためのマルチモーダルツールを利用できる新しいフレームワークであるControlLLMを提案する。
LLMの顕著な性能にもかかわらず、不明瞭なユーザプロンプト、不正確なツールの選択とパラメータ化、非効率なツールスケジューリングによるツール呼び出しに苦戦している。
To overcome these challenges, our framework comprises three key components: (1) a \textit{task decomposer} that breaks down a complex task into clear subtasks with well-defined inputs and outputs; (2) a \textit{Thoughts-on-Graph (ToG) paradigm} that searches the optimal solution path on a pre-built tool graph, which specifies the parameter and dependency relations among different tools; and (3) an \textit{execution engine with a rich toolbox} that interprets the solution path and runs the tools efficiently on different computational devices.
我々は,画像,音声,映像処理を含む多種多様なタスクの枠組みを評価し,既存の手法と比較して,その精度,効率,汎用性を示す。 We present ControlLLM, a novel framework that enables large language models (LLMs) to utilize multi-modal tools for solving complex real-world tasks. Despite the remarkable performance of LLMs, they still struggle with tool invocation due to ambiguous user prompts, inaccurate tool selection and parameterization, and inefficient tool scheduling. To overcome these challenges, our framework comprises three key components: (1) a \textit{task decomposer} that breaks down a complex task into clear subtasks with well-defined inputs and outputs; (2) a \textit{Thoughts-on-Graph (ToG) paradigm} that searches the optimal solution path on a pre-built tool graph, which specifies the parameter and dependency relations among different tools; and (3) an \textit{execution engine with a rich toolbox} that interprets the solution path and runs the tools efficiently on different computational devices. We evaluate our framework on diverse tasks involving image, audio, and video processing, demonstrating its superior accuracy, efficiency, and versatility compared to existing methods. | 翻訳日:2023-10-30 15:21:31 公開日:2023-10-26 |
# 専門家言語アノテータ」:抽象的意味表現のアナライザーとしてのLLMの限界 "You Are An Expert Linguistic Annotator": Limits of LLMs as Analyzers of Abstract Meaning Representation ( http://arxiv.org/abs/2310.17793v1 ) ライセンス: Link先を確認 | Allyson Ettinger, Jena D. Hwang, Valentina Pyatkin, Chandra Bhagavatula, Yejin Choi | (参考訳) 大規模言語モデル(LLM)は、言語の使用において驚くほどの習熟度と習熟度を示す。
これはまた、言語に関する洞察に富んだ言語知識も獲得したことを意味するのだろうか。
本稿では,文意味構造の解析におけるgpt-3,chatgpt,gpt-4モデルの成功と限界について検討し,表層形式を抽象化しながら文意味構造のリッチな表現を提供する抽象的意味表現 (amr; banarescu et al. 2013) に着目した。
モデルによるこの意味構造の解析を2つの設定で比較する。
1)ゼロショットプロンプトと少数ショットプロンプトに基づくAMR解析の直接生成
2) メタリング的自然言語クエリによるamrの間接的部分再構成(例えば「この文の一次事象とその事象に対応する述語を識別する」)。
これらの設定を通して、モデルがamrの基本的なフォーマットを確実に再現でき、しばしばコアイベント、引数、修飾子構造をキャプチャできることがわかった -- しかし、モデルの出力は頻繁で大きなエラーを起こしやすい。
自然言語応答の誘発は、同様のエラーパターンを生み出す。
全体としては,これらのモデルではセマンティック構造の側面を捉えることができるが,完全に正確なセマンティック解析や解析をサポートする能力には重要な制限がある。 Large language models (LLMs) show amazing proficiency and fluency in the use of language. Does this mean that they have also acquired insightful linguistic knowledge about the language, to an extent that they can serve as an "expert linguistic annotator"? In this paper, we examine the successes and limitations of the GPT-3, ChatGPT, and GPT-4 models in analysis of sentence meaning structure, focusing on the Abstract Meaning Representation (AMR; Banarescu et al. 2013) parsing formalism, which provides rich graphical representations of sentence meaning structure while abstracting away from surface forms. We compare models' analysis of this semantic structure across two settings: 1) direct production of AMR parses based on zero- and few-shot prompts, and 2) indirect partial reconstruction of AMR via metalinguistic natural language queries (e.g., "Identify the primary event of this sentence, and the predicate corresponding to that event."). Across these settings, we find that models can reliably reproduce the basic format of AMR, and can often capture core event, argument, and modifier structure -- however, model outputs are prone to frequent and major errors, and holistic analysis of parse acceptability shows that even with few-shot demonstrations, models have virtually 0% success in producing fully accurate parses. Eliciting natural language responses produces similar patterns of errors. Overall, our findings indicate that these models out-of-the-box can capture aspects of semantic structure, but there remain key limitations in their ability to support fully accurate semantic analyses or parses. | 翻訳日:2023-10-30 15:21:13 公開日:2023-10-26 |
# 低次弾塑性と破壊のための神経応力場 Neural Stress Fields for Reduced-order Elastoplasticity and Fracture ( http://arxiv.org/abs/2310.17790v1 ) ライセンス: Link先を確認 | Zeshun Zong, Xuan Li, Minchen Li, Maurizio M. Chiaramonte, Wojciech Matusik, Eitan Grinspun, Kevin Carlberg, Chenfanfu Jiang, Peter Yichen Chen | (参考訳) 弾塑性と破壊の低次モデリングのためのハイブリッドニューラルネットワークと物理フレームワークを提案する。
物質点法(MPM)のような最先端の科学計算モデルは、大規模な変形弾塑性と破壊力学を忠実にシミュレートする。
しかし、その長いランタイムと大きなメモリ消費は、計算時間やメモリ使用量(例えば仮想現実)に制約されたアプリケーションには適さない。
これらの障壁を克服するため、我々は低次フレームワークを提案する。
我々の重要な革新は、暗黙の神経表現を通してキルヒホフ応力場に対する低次元多様体を訓練することである。
この低次元神経ストレス場(NSF)は、任意の空間位置における応力値とそれに対応する内部力の効率的な評価を可能にする。
さらに,神経変形とアフィン場を訓練し,変形とアフィン運動量場のための低次元多様体を構築する。
これらの神経応力、変形、アフィン場は同じ低次元の潜在空間を共有し、高次元のシミュレーション状態が一意に埋め込まれている。
トレーニング後、この単一の潜伏空間で進化して新しいシミュレーションを実行し、計算時間とメモリ消費を大幅に削減する。
我々の一般的な連続力学に基づく還元次数フレームワークは、エラストダイナミックス方程式によって支配されるあらゆる現象に適用できる。
フレームワークの汎用性を示すために,弾性,砂,金属,非ニュートン流体,破壊,接触,衝突などの幅広い物質挙動をシミュレートした。
我々は最大10万倍の次元縮小と最大10倍の時間節約を示す。 We propose a hybrid neural network and physics framework for reduced-order modeling of elastoplasticity and fracture. State-of-the-art scientific computing models like the Material Point Method (MPM) faithfully simulate large-deformation elastoplasticity and fracture mechanics. However, their long runtime and large memory consumption render them unsuitable for applications constrained by computation time and memory usage, e.g., virtual reality. To overcome these barriers, we propose a reduced-order framework. Our key innovation is training a low-dimensional manifold for the Kirchhoff stress field via an implicit neural representation. This low-dimensional neural stress field (NSF) enables efficient evaluations of stress values and, correspondingly, internal forces at arbitrary spatial locations. In addition, we also train neural deformation and affine fields to build low-dimensional manifolds for the deformation and affine momentum fields. These neural stress, deformation, and affine fields share the same low-dimensional latent space, which uniquely embeds the high-dimensional simulation state. After training, we run new simulations by evolving in this single latent space, which drastically reduces the computation time and memory consumption. Our general continuum-mechanics-based reduced-order framework is applicable to any phenomena governed by the elastodynamics equation. To showcase the versatility of our framework, we simulate a wide range of material behaviors, including elastica, sand, metal, non-Newtonian fluids, fracture, contact, and collision. We demonstrate dimension reduction by up to 100,000X and time savings by up to 10X. | 翻訳日:2023-10-30 15:20:44 公開日:2023-10-26 |
# スパースベイズ多次元項目応答理論 Sparse Bayesian Multidimensional Item Response Theory ( http://arxiv.org/abs/2310.17820v1 ) ライセンス: Link先を確認 | Jiguang Li, Robert Gibbons, and Veronika Rockova | (参考訳) 多変量項目応答理論 (mirt) は, アンケートデータに基づく解釈可能(スパース)な説明を求めて, 広く研究されている。
しかし、実際にはこのようなスパルシリティ発見ツールの需要は小さくない。
本稿では, 並列化可能な特徴を持つ比較的大規模なデータセットに対して, 最小限のチューニングとスケールを必要とする, バイナリおよび順序項目MIRTのためのベイズプラットフォームを開発した。
mirtモデルのためのベイジアン手法は伝統的にmcmcシミュレーションに依存しており、これは実際には遅くなるだけでなく、追加のしきい値なしで正確なスパーシティ回復を不可能にすることもしばしばある。
本研究では,2次および順序項目応答からスパース因子負荷を推定するスケーラブルなベイズEMアルゴリズムを開発した。
ベイズ的非パラメトリックによる因子数推定ツールを用いて、未知の潜在因子次元の予想不可能な問題に対処する。
パラメータ展開による疎性への回転は、識別可能性制約なしで収束と解釈性をさらに向上させる。
シミュレーション研究により,本手法は高次元合成データにおける因子次元と潜時構造の両方を,小サンプルにおいても確実に復元することを示した。
本手法は,教育項目応答データセットとqol測定データセットの2つのデータセットにおいて実用的有用性を示す。
どちらの実証も、ツールが解釈可能な推定値をもたらし、純粋な確認因子分析設定で気づかないかもしれない興味深い発見を促進することを示している。
mirtツールキットに便利な追加機能であり、実践者のためのgo-toメソッドとして役立つ、使いやすいソフトウェアを提供する。 Multivariate Item Response Theory (MIRT) is sought-after widely by applied researchers looking for interpretable (sparse) explanations underlying response patterns in questionnaire data. There is, however, an unmet demand for such sparsity discovery tools in practice. Our paper develops a Bayesian platform for binary and ordinal item MIRT which requires minimal tuning and scales well on relatively large datasets due to its parallelizable features. Bayesian methodology for MIRT models has traditionally relied on MCMC simulation, which cannot only be slow in practice, but also often renders exact sparsity recovery impossible without additional thresholding. In this work, we develop a scalable Bayesian EM algorithm to estimate sparse factor loadings from binary and ordinal item responses. We address the seemingly insurmountable problem of unknown latent factor dimensionality with tools from Bayesian nonparametrics which enable estimating the number of factors. Rotations to sparsity through parameter expansion further enhance convergence and interpretability without identifiability constraints. In our simulation study, we show that our method reliably recovers both the factor dimensionality as well as the latent structure on high-dimensional synthetic data even for small samples. We demonstrate the practical usefulness of our approach on two datasets: an educational item response dataset and a quality-of-life measurement dataset. Both demonstrations show that our tool yields interpretable estimates, facilitating interesting discoveries that might otherwise go unnoticed under a pure confirmatory factor analysis setting. We provide an easy-to-use software which is a useful new addition to the MIRT toolkit and which will hopefully serve as the go-to method for practitioners. | 翻訳日:2023-10-30 15:08:37 公開日:2023-10-26 |
# 超広帯域における量子情報の多重処理 Multiplexed Processing of Quantum Information Across an Ultra-wide Optical Bandwidth ( http://arxiv.org/abs/2310.17819v1 ) ライセンス: Link先を確認 | Alon Eldan, Ofek Gilon, Asher Lagimi, Elai Forman, Avi Pe'er | (参考訳) 量子情報処理は量子技術の基礎である。
量子情報のプロトコルは、セキュアな通信(量子鍵分布)、テレポート量子状態、および量子計算の中心となる2つの遠隔者間で秘密を共有する。
様々な量子通信プロトコルがすでに実現され、商用化されているが、その通信速度は一般的には、利用可能な量子光学光源(10-100 THz)の光帯域よりも低いMHzからGHzの範囲における測定装置の狭い電子帯域幅によって制限されている。
本稿では、パラメトリックホモダイン検出による全チャネルの同時測定により、これらのブロードバンドソースを並列に多重周波数チャネル上に並列に処理する効率的な方法を提案する。
具体的には、多重連続可変量子鍵分布(CV-QKD)と多重連続可変量子テレポーテーションプロトコルの2つの基本プロトコルを提案する。
そこで本研究では,23以上の非相関スペクトルチャネルに対するqkdの検証に成功し,いずれにおいても盗聴を検知する能力を示した。
これらの多重化手法(および類似)は、数百のチャネル上で並列に量子処理を実行し、量子プロトコルのスループットを桁違いに増加させる可能性がある。 Quantum information processing is the foundation of quantum technology. Protocols of quantum information share secrets between two distant parties for secure communication (quantum key distribution), teleport quantum states, and stand at the heart of quantum computation. While various protocols of quantum communication have already been realized, and even commercialized, their communication speed is generally low, limited by the narrow electronic bandwidth of the measurement apparatus in the MHz-to-GHz range, which is orders-of-magnitude lower than the optical bandwidth of available quantum optical sources (10-100 THz). We present and demonstrate an efficient method to process quantum information with such broadband sources in parallel over multiplexed frequency channels using parametric homodyne detection for simultaneous measurement of all the channels. Specifically, we propose two basic protocols: A multiplexed Continuous-Variable Quantum Key Distribution (CV-QKD) and A multiplexed continuous-variable quantum teleportation protocol. We demonstrate the multiplexed CV-QKD protocol in a proof-of-principle experiment, where we successfully carry out QKD over 23 uncorrelated spectral channels and show the ability to detect eavesdropping in any of them. These multiplexed methods (and similar) will enable to carry out quantum processing in parallel over hundreds of channels, potentially increasing the throughput of quantum protocols by orders of magnitude | 翻訳日:2023-10-30 15:08:15 公開日:2023-10-26 |
# 多変量時系列データのMIM-GANによる異常検出 MIM-GAN-based Anomaly Detection for Multivariate Time Series Data ( http://arxiv.org/abs/2310.18257v1 ) ライセンス: Link先を確認 | Shan Lu, Zhicheng Dong, Donghong Cai, Fang Fang and Dongcai Zhao | (参考訳) GAN(Generative Adversarial Network)の損失関数は,異常検出のための生成サンプルの品質と多様性に影響を与える重要な要因である。
本稿では,メッセージ重要度尺度(MIM-GAN)を用いたGANに基づく教師なし多重時系列異常検出アルゴリズムを提案する。
特に、時系列データはスライディングウインドウを用いてサブシーケンスに分割される。
次に、Long Short-Term Memory(LSTM)に基づいて設計されたジェネレータと判別器を用いて時系列データの時間相関をキャプチャする。
損失関数の局所最適解とモデル崩壊を避けるため, GANの損失関数に指数的情報測度を導入する。
また、識別と再構成損失からなる判別的再構成スコアも考慮される。
損失関数に対する大域的最適解を導出し,提案するmim-ganに基づく異常検出アルゴリズムでモデル崩壊を回避できることを証明した。
実験の結果,MIM-GANに基づく異常検出アルゴリズムは精度,リコール,F1スコアにおいて優れた性能を示した。 The loss function of Generative adversarial network(GAN) is an important factor that affects the quality and diversity of the generated samples for anomaly detection. In this paper, we propose an unsupervised multiple time series anomaly detection algorithm based on the GAN with message importance measure(MIM-GAN). In particular, the time series data is divided into subsequences using a sliding window. Then a generator and a discriminator designed based on the Long Short-Term Memory (LSTM) are employed to capture the temporal correlations of the time series data. To avoid the local optimal solution of loss function and the model collapse, we introduce an exponential information measure into the loss function of GAN. Additionally, a discriminant reconstruction score consisting on discrimination and reconstruction loss is taken into account. The global optimal solution for the loss function is derived and the model collapse is proved to be avoided in our proposed MIM-GAN-based anomaly detection algorithm. Experimental results show that the proposed MIM-GAN-based anomaly detection algorithm has superior performance in terms of precision, recall, and F1 score. | 翻訳日:2023-10-30 13:09:24 公開日:2023-10-26 |
# lightspeed: モバイルデバイス上の光と高速のニューラルライトフィールド LightSpeed: Light and Fast Neural Light Fields on Mobile Devices ( http://arxiv.org/abs/2310.16832v2 ) ライセンス: Link先を確認 | Aarush Gupta, Junli Cao, Chaoyang Wang, Ju Hu, Sergey Tulyakov, Jian Ren, L\'aszl\'o A Jeni | (参考訳) モバイルデバイス上でのリアルタイムのノベルビュー画像合成は、計算能力とストレージの制限により禁止されている。
モバイルデバイス上でのNeRFやそのデリバティブといったボリュームレンダリング手法は、ボリュームレンダリングの計算コストが高いため不適当である。
一方,近年の光場表現の進歩により,モバイルデバイス上でのリアルタイムビュー合成の結果が期待できる。
ニューラル光場法は、光線表現から画素色への直接マッピングを学習する。
現在の光線表現の選択は成層線サンプリングまたはプルッカー座標のいずれかであり、古典的な光スラブ(2面)表現を見渡して、光界ビュー間の補間に好まれる表現である。
本研究では,光スラブ表現を用いたニューラル光場学習が効率的な表現であることを示す。
さらに重要なことは、訓練とレンダリングが大幅に高速な特徴格子を用いて、4次元の光空間を学習できる低次元の光線表現である。
主にフロントビュー用に設計されているが、分割コンカニオン戦略を用いて、ライトスラブ表現を非フロントシーンに拡張できることが示されている。
本手法は従来の光フィールド法に比べて優れたレンダリング品質を提供し,レンダリング品質と速度のトレードオフを著しく改善する。 Real-time novel-view image synthesis on mobile devices is prohibitive due to the limited computational power and storage. Using volumetric rendering methods, such as NeRF and its derivatives, on mobile devices is not suitable due to the high computational cost of volumetric rendering. On the other hand, recent advances in neural light field representations have shown promising real-time view synthesis results on mobile devices. Neural light field methods learn a direct mapping from a ray representation to the pixel color. The current choice of ray representation is either stratified ray sampling or Plucker coordinates, overlooking the classic light slab (two-plane) representation, the preferred representation to interpolate between light field views. In this work, we find that using the light slab representation is an efficient representation for learning a neural light field. More importantly, it is a lower-dimensional ray representation enabling us to learn the 4D ray space using feature grids which are significantly faster to train and render. Although mostly designed for frontal views, we show that the light-slab representation can be further extended to non-frontal scenes using a divide-and-conquer strategy. Our method offers superior rendering quality compared to previous light field methods and achieves a significantly improved trade-off between rendering quality and speed. | 翻訳日:2023-10-30 10:53:58 公開日:2023-10-26 |
# バイアスの理由を特定する:議論に基づくアプローチ Identifying Reasons for Bias: An Argumentation-Based Approach ( http://arxiv.org/abs/2310.16506v2 ) ライセンス: Link先を確認 | Madeleine Waller, Odinaldo Rodrigues, Oana Cocarascu | (参考訳) アルゴリズムによる意思決定システムが社会で普及するにつれて、これらのシステムの公平性がますます重要になっている。
公平なアルゴリズム的意思決定システムの構築にはかなりの研究がなされているが、その大半は個人的特徴を含むトレーニングデータへのアクセスを必要としており、どの個人が不公平に分類されているかは明確ではない。
本稿では,個人が類似する個人に対して,なぜ異なる分類をするのかを判断するためのモデル非依存な議論に基づく新しい手法を提案する。
本手法では,個々の属性値対と類似した属性値対を定量的に表現するために,定量的な議論フレームワークを用いて,属性値対を識別するためによく知られたセマンティクスを用いる。
フェアネス文献でよく用いられる2つのデータセットを用いて本手法の評価を行い,バイアスの同定に有効であることを示す。 As algorithmic decision-making systems become more prevalent in society, ensuring the fairness of these systems is becoming increasingly important. Whilst there has been substantial research in building fair algorithmic decision-making systems, the majority of these methods require access to the training data, including personal characteristics, and are not transparent regarding which individuals are classified unfairly. In this paper, we propose a novel model-agnostic argumentation-based method to determine why an individual is classified differently in comparison to similar individuals. Our method uses a quantitative argumentation framework to represent attribute-value pairs of an individual and of those similar to them, and uses a well-known semantics to identify the attribute-value pairs in the individual contributing most to their different classification. We evaluate our method on two datasets commonly used in the fairness literature and illustrate its effectiveness in the identification of bias. | 翻訳日:2023-10-30 10:52:25 公開日:2023-10-26 |
# dfpenet-geology:コサイスミック地すべりの高精度認識とセグメンテーションのための深層学習フレームワーク DFPENet-geology: A Deep Learning Framework for High Precision Recognition and Segmentation of Co-seismic Landslides ( http://arxiv.org/abs/1908.10907v3 ) ライセンス: Link先を確認 | Qingsong Xu, Chaojun Ouyang, Tianhai Jiang, Xuanmei Fan, Duoxiang Cheng | (参考訳) 大規模地震における災害評価・緩和の基盤となる地震地すべりの同定において, 自動認識・分割手法が必須条件となっている。
このアプローチは、以前はピクセルベースあるいはオブジェクト指向の方法で実施されていた。
しかし,大規模なリモートセンシングデータ,異なる地震シナリオの変動,地震後の救助の効率要求などにより,これらの手法は,地震時地すべり認識のための高精度で迅速で包括的で汎用的なソリューションへと発展するのは難しい。
本稿では,リモートセンシング画像におけるオブジェクトのマルチスケール特徴の理解と融合を目的とした,エンコーダデコーダネットワーク(DFPENet)を用いたロバストモデルDense Feature Pyramidを開発する。
提案手法は,ISPRS 2D Semantic上での競合セグメンテーション精度を実現する。
さらに, dfpenetモデルから抽出した画像特徴, 地質学的特徴, 時間分解能, 地すべり空間解析, 伝達学習を統合し, rgb画像のみを使用する, 共地震地すべり認識のための包括的かつ広く利用されている手法を提案する。
提案手法は,中国,北海道の2つの地すべり地すべりに対して,地震前・地震後リモートセンシング画像を用いて,その実現可能性と適用性について検討する。 Automatic recognition and segmentation methods now become the essential requirement in identifying co-seismic landslides, which are fundamental for disaster assessment and mitigation in large-scale earthquakes. This approach used to be carried out through pixel-based or object-oriented methods. However, due to the massive amount of remote sensing data, variations in different earthquake scenarios, and the efficiency requirement for post-earthquake rescue, these methods are difficult to develop into an accurate, rapid, comprehensive, and general (cross-scene) solution for co-seismic landslide recognition. This paper develops a robust model, Dense Feature Pyramid with Encoder-decoder Network (DFPENet), to understand and fuse the multi-scale features of objects in remote sensing images. The proposed method achieves a competitive segmentation accuracy on the public ISPRS 2D Semantic. Furthermore, a comprehensive and widely-used scheme is proposed for co-seismic landslide recognition, which integrates image features extracted from the DFPENet model, geologic features, temporal resolution, landslide spatial analysis, and transfer learning, while only RGB images are used. To corroborate its feasibility and applicability, the proposed scheme is applied to two earthquake-triggered landslides in Jiuzhaigou (China) and Hokkaido (Japan), using available pre- and post-earthquake remote sensing images. | 翻訳日:2023-10-29 16:21:41 公開日:2023-10-26 |
# 連続制約満足度問題の分類について On Classifying Continuous Constraint Satisfaction Problems ( http://arxiv.org/abs/2106.02397v5 ) ライセンス: Link先を確認 | Tillmann Miltzow and Reinier F. Schmiermann | (参考訳) 連続制約満足度問題 (CCSP) は、間隔領域 $U \subset \mathbb{R}$ を持つ制約満足度問題(CSP)である。
我々は実数の存在論的理論、すなわち er-complete の完全な ccsps を分類する体系的な研究を行っている。
このクラスを定義するために、まず、実数の存在論的理論を表すetrの問題を考える。
この問題の例では、 $\exists x_1, \ldots, x_n \in \mathbb{R} : \Phi(x_1, \ldots, x_n)$, ここで、$\Phi$ は記号 $\{0, 1, +, \cdot, \geq, >, \wedge, \vee, \neg\}$ からなる十分に整形された量子化式である。
現在、クラス ER は多項式時間倍数 1 の ETR 還元を許容するすべての問題の族である。
NP $\subseteq$ ER $\subseteq$ PSPACE が知られている。
我々は、追加制約(x + y = z$)およびその他の穏やかな技術的条件でCCSPに対する注意を制限する。
以前は、乗法制約(x \cdot y = z$)、スクアリング制約(x^2 = y$)、逆制約(x\cdot y = 1$)はER完全性を確立するのに十分であることが示された。
平等の制約に対して最も強い意味でこれを拡張します。
CCSP (加法的制約およびその他の穏やかな技術的条件を含む) は1つの有向曲線等式制約(f(x,y) = 0$)が ER 完全であることを示す。
我々はさらに不平等な制約に結果を広げる。
任意の凸凸曲線および凸曲線不等式制約 (f(x,y) \geq 0$ および $g(x,y) \geq 0$) は、そのようなccspのクラスにおけるer完全性を示す。 A continuous constraint satisfaction problem (CCSP) is a constraint satisfaction problem (CSP) with an interval domain $U \subset \mathbb{R}$. We engage in a systematic study to classify CCSPs that are complete of the Existential Theory of the Reals, i.e., ER-complete. To define this class, we first consider the problem ETR, which also stands for Existential Theory of the Reals. In an instance of this problem we are given some sentence of the form $\exists x_1, \ldots, x_n \in \mathbb{R} : \Phi(x_1, \ldots, x_n)$, where $\Phi$ is a well-formed quantifier-free formula consisting of the symbols $\{0, 1, +, \cdot, \geq, >, \wedge, \vee, \neg\}$, the goal is to check whether this sentence is true. Now the class ER is the family of all problems that admit a polynomial-time many-one reduction to ETR. It is known that NP $\subseteq$ ER $\subseteq$ PSPACE. We restrict our attention on CCSPs with addition constraints ($x + y = z$) and some other mild technical condition. Previously, it was shown that multiplication constraints ($x \cdot y = z$), squaring constraints ($x^2 = y$), or inversion constraints ($x\cdot y = 1$) are sufficient to establish ER-completeness. We extend this in the strongest possible sense for equality constraints as follows. We show that CCSPs (with addition constraints and some other mild technical condition) that have any one well-behaved curved equality constraint ($f(x,y) = 0$) are ER-complete. We further extend our results to inequality constraints. We show that any well-behaved convexly curved and any well-behaved concavely curved inequality constraint ($f(x,y) \geq 0$ and $g(x,y) \geq 0$) imply ER-completeness on the class of such CCSPs. | 翻訳日:2023-10-28 07:35:19 公開日:2023-10-26 |
# 資源理論的視点を用いた準備・測定シナリオの量子一般化文脈性の構築 Using a resource theoretic perspective to witness and engineer quantum generalized contextuality for prepare-and-measure scenarios ( http://arxiv.org/abs/2102.10469v2 ) ライセンス: Link先を確認 | Rafael Wagner, Roberto D. Baldij\~ao, Alisson Tezzin and B\'arbara Amaral | (参考訳) 我々は, 一般文脈性という資源理論を, 準備・測定シナリオの構造解析のツールとして採用する。
このフレームワークは複雑なシナリオにおける量子コンテキスト性の証明を単純化し、実験実装の堅牢性に関する既存の議論を強化している。
事例研究として,資源理論と計測シミュラビリティの関係に着目し,有用なシナリオのクラスに対して,非自明な非文脈性不等式に関連する量子文脈性を示す。
さらに、単純なシナリオから複雑なシナリオをエンジニアリングできる正式なコンポジションルールを公開します。
このアプローチは複雑なシナリオに対する非コンテキストポリトープ構造に関する洞察を与え、非コンテキスト不等式の量子違反の発見を容易にする。 We employ the resource theory of generalized contextuality as a tool for analyzing the structure of prepare-and-measure scenarios. We argue that this framework simplifies proofs of quantum contextuality in complex scenarios and strengthens existing arguments regarding robustness of experimental implementations. As a case study, we demonstrate quantum contextuality associated with any nontrivial noncontextuality inequality for a class of useful scenarios by noticing a connection between the resource theory and measurement simulability. Additionally, we expose a formal composition rule that allows engineering complex scenarios from simpler ones. This approach provides insights into the noncontextual polytope structure for complex scenarios and facilitates the identification of possible quantum violations of noncontextuality inequalities. | 翻訳日:2023-10-28 07:26:23 公開日:2023-10-26 |
# 新型コロナウイルス対策戦略の要件調査
第2部:要求の緩和 A Survey of Requirements for COVID-19 Mitigation Strategies. Part II: Elicitation of Requirements ( http://arxiv.org/abs/2101.09241v2 ) ライセンス: Link先を確認 | Wojciech Jamroga | (参考訳) 新型コロナウイルスのパンデミックは、私たちの生活のあらゆる側面に影響を与えています。
世界中の国々は、社会的、政治的、技術的手段に基づく様々な緩和戦略を適用してきた。
マルチエージェントシステムは、それらの本質を研究(およびバランス)するための共通のプラットフォームを提供することができると仮定する。
また, メディアスニペットから「蒸留」することで, 総合的な特性リストを得る方法を示す。
最後に,マルチエージェント論理のアイデアを用いて,形式仕様の予備的考察を行う。 The COVID-19 pandemic has influenced virtually all aspects of our lives. Across the world, countries have applied various mitigation strategies, based on social, political, and technological instruments. We postulate that multi-agent systems can provide a common platform to study (and balance) their essential properties. We also show how to obtain a comprehensive list of the properties by "distilling" them from media snippets. Finally, we present a preliminary take on their formal specification, using ideas from multi-agent logics. | 翻訳日:2023-10-28 07:26:09 公開日:2023-10-26 |
# 低レベルビジョンのためのアーキテクチャ拡張と制御機構を用いた最適化型学習 Optimization-Inspired Learning with Architecture Augmentations and Control Mechanisms for Low-Level Vision ( http://arxiv.org/abs/2012.05435v2 ) ライセンス: Link先を確認 | Risheng Liu, Zhu Liu, Pan Mu, Xin Fan, Zhongxuan Luo | (参考訳) 近年,低レベルの視覚課題を解決するために,学習可能なモジュールと数値最適化を組み合わせることへの関心が高まっている。
しかし、既存のほとんどのアプローチは、画像/特徴伝搬を生成するための特別なスキームの設計に焦点を当てている。
伝播モジュールの構築,理論解析ツールの提供,効果的な学習機構の設計など,統一的な検討の欠如がある。
そこで本稿では,様々な最適化モデルに対して強い一般化を伴い,生成的,識別的,修正的(略してgdc)原則を集約する統一的最適化学習フレームワークを提案する。
具体的には, 一般エネルギー最小化モデルを導入し, 異なる視点から降下方向を定式化する(すなわち, 判別計量と最適性に基づく補正に基づく生成的手法)ことにより, 3つの伝播加群を構築し, 柔軟に組み合わせて最適化モデルを効果的に解く。
完全かつ部分的に定義された最適化の定式化に対して、非自明な理論的保証を提供する2つの制御機構を設計する。
理論的保証の支持のもと,正規化や探索などの多様なアーキテクチャ拡張戦略を導入し,安定な伝播を保証するとともに,それぞれ適切なモジュールをシームレスに統合する。
様々な低レベル視覚タスクにわたる広範囲な実験は、GDCの有効性と適応性を検証する。
コードはhttps://github.com/liuzhu-cv/gdc-optimizationlearningで入手できる。 In recent years, there has been a growing interest in combining learnable modules with numerical optimization to solve low-level vision tasks. However, most existing approaches focus on designing specialized schemes to generate image/feature propagation. There is a lack of unified consideration to construct propagative modules, provide theoretical analysis tools, and design effective learning mechanisms. To mitigate the above issues, this paper proposes a unified optimization-inspired learning framework to aggregate Generative, Discriminative, and Corrective (GDC for short) principles with strong generalization for diverse optimization models. Specifically, by introducing a general energy minimization model and formulating its descent direction from different viewpoints (i.e., in a generative manner, based on the discriminative metric and with optimality-based correction), we construct three propagative modules to effectively solve the optimization models with flexible combinations. We design two control mechanisms that provide the non-trivial theoretical guarantees for both fully- and partially-defined optimization formulations. Under the support of theoretical guarantees, we can introduce diverse architecture augmentation strategies such as normalization and search to ensure stable propagation with convergence and seamlessly integrate the suitable modules into the propagation respectively. Extensive experiments across varied low-level vision tasks validate the efficacy and adaptability of GDC. The codes are available at https://github.com/LiuZhu-CV/GDC-OptimizationLearning | 翻訳日:2023-10-28 07:26:02 公開日:2023-10-26 |
# イベントストリームのためのネットワークポイントプロセスのオンライン推定とコミュニティ検出 Online Estimation and Community Detection of Network Point Processes for Event Streams ( http://arxiv.org/abs/2009.01742v3 ) ライセンス: Link先を確認 | Guanhua Fang and Owen G. Ward and Tian Zheng | (参考訳) ネットワークモデリングにおける共通の目標は、ノード間に存在する潜在コミュニティ構造を明らかにすることである。
多くの実世界のネットワークでは、真の接続はストリームとして到着するイベントから成り、それを集約してエッジを形成し、動的テンポラリコンポーネントを無視する。
これらの相互作用の時間的ダイナミクスを考慮に入れる自然な方法は、ネットワークモデルの基礎としてポイントプロセスを使用することである。
計算複雑性は、そのようなアプローチの大規模スパースネットワークへのスケーラビリティを阻害する。
この課題を回避するために,ネットワーク上の動的イベント到着に基づく潜時構造を連続時間プロセス潜時ネットワークモデルを用いて推定する高速オンライン変分推定アルゴリズムを提案する。
本稿では,コミュニティ構造を捉えるネットワークモデルについて述べる。
この構造は、ネットワーク上で新しいイベントが観測され、推測されたコミュニティ割り当てが更新されるときに学習することができる。
このような推論スキームの理論的性質を調査し、この手順の損失関数に対する後悔の限界を与える。
提案手法は、シミュレーション研究と実データの両方を用いて、非オンライン変種と徹底的に比較される。
オンライン推論によって,非オンライン型に対するコミュニティリカバリと同等のパフォーマンスが得られると同時に,計算能力の向上が実現可能であることを実証した。
提案する推論フレームワークは,他の一般的なネットワーク構造を組み込むために容易に修正できる。 A common goal in network modeling is to uncover the latent community structure present among nodes. For many real-world networks, the true connections consist of events arriving as streams, which are then aggregated to form edges, ignoring the dynamic temporal component. A natural way to take account of these temporal dynamics of interactions is to use point processes as the foundation of network models for community detection. Computational complexity hampers the scalability of such approaches to large sparse networks. To circumvent this challenge, we propose a fast online variational inference algorithm for estimating the latent structure underlying dynamic event arrivals on a network, using continuous-time point process latent network models. We describe this procedure for networks models capturing community structure. This structure can be learned as new events are observed on the network, updating the inferred community assignments. We investigate the theoretical properties of such an inference scheme, and provide regret bounds on the loss function of this procedure. The proposed inference procedure is then thoroughly compared, using both simulation studies and real data, to non-online variants. We demonstrate that online inference can obtain comparable performance, in terms of community recovery, to non-online variants, while realising computational gains. Our proposed inference framework can also be readily modified to incorporate other popular network structures. | 翻訳日:2023-10-28 07:25:39 公開日:2023-10-26 |
# 協調型マルチエージェント強化学習のためのローカルアドバンテージネットワーク Local Advantage Networks for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2112.12458v3 ) ライセンス: Link先を確認 | Rapha\"el Avalos, Mathieu Reymond, Ann Now\'e, Diederik M. Roijers | (参考訳) 近年,協調的部分観測可能な環境のためのマルチエージェント強化学習 (MARL) アルゴリズムが成功している。
独立Qラーナーの構造に基づいて、我々のLANアルゴリズムは根本的に異なるアプローチをとり、各エージェントに対して個別の利点関数を介して分散化されたベストレスポンスポリシーを学ぶためにデュエルアーキテクチャを活用する。
学習は、個人の利益の移動目標問題を減らすことを主目的とする集中的な批評家によって安定化される。
ネットワークのサイズがエージェントの数とは無関係である批評家は、学習後に脇に置かれる。
StarCraft IIマルチエージェントチャレンジベンチマークの評価は、LANが最先端のパフォーマンスに達し、エージェントの数に関して非常にスケーラブルであることを示し、MARL研究の有望な代替方向を開く。 Many recent successful off-policy multi-agent reinforcement learning (MARL) algorithms for cooperative partially observable environments focus on finding factorized value functions, leading to convoluted network structures. Building on the structure of independent Q-learners, our LAN algorithm takes a radically different approach, leveraging a dueling architecture to learn for each agent a decentralized best-response policies via individual advantage functions. The learning is stabilized by a centralized critic whose primary objective is to reduce the moving target problem of the individual advantages. The critic, whose network's size is independent of the number of agents, is cast aside after learning. Evaluation on the StarCraft II multi-agent challenge benchmark shows that LAN reaches state-of-the-art performance and is highly scalable with respect to the number of agents, opening up a promising alternative direction for MARL research. | 翻訳日:2023-10-28 07:15:55 公開日:2023-10-26 |
# 道路網による細粒度都市交通流推定 Road Network Guided Fine-Grained Urban Traffic Flow Inference ( http://arxiv.org/abs/2109.14251v3 ) ライセンス: Link先を確認 | Lingbo Liu and Mengmeng Liu and Guanbin Li and Ziyi Wu and Junfan Lin and Liang Lin | (参考訳) 粗粒度からの細粒度トラフィックフローの正確な推定は,コスト削減に必要なトラフィック監視センサの数を大幅に削減する上で,新たな重要な問題である。
本研究は,道路網と交通流の相関性が高いことに着目し,従来の道路網の外部要因として完全に無視されたり,単に扱われていたりする。
この問題を解決するために,道路網の先行知識を明示的に活用し,詳細な交通流の空間分布を学習する新しい道路対応交通流磁化器(RATFM)を提案する。
具体的には,道路ネットワークの意味的特徴を抽出するために,まず多方向1次元畳み込み層を導入する。
次に,道路網の特徴と粗粒流の特徴を取り入れ,道路関連交通の流れの短距離空間分布モデルを定式化する。
さらに,道路網の特徴を問合せとして,トランスフォーマーアーキテクチャを用いて交通流の長距離空間分布を抽出する。
本手法は道路認識推論機構を利用して,高品質な交通流図を作成できる。
3つの実世界のデータセットに対する大規模な実験により、提案されたRATFMは様々なシナリオ下で最先端のモデルより優れていることが示された。
コードとデータセットは {\url{https://github.com/luimoli/RATFM}}で公開されています。 Accurate inference of fine-grained traffic flow from coarse-grained one is an emerging yet crucial problem, which can help greatly reduce the number of the required traffic monitoring sensors for cost savings. In this work, we notice that traffic flow has a high correlation with road network, which was either completely ignored or simply treated as an external factor in previous works. To facilitate this problem, we propose a novel Road-Aware Traffic Flow Magnifier (RATFM) that explicitly exploits the prior knowledge of road networks to fully learn the road-aware spatial distribution of fine-grained traffic flow. Specifically, a multi-directional 1D convolutional layer is first introduced to extract the semantic feature of the road network. Subsequently, we incorporate the road network feature and coarse-grained flow feature to regularize the short-range spatial distribution modeling of road-relative traffic flow. Furthermore, we take the road network feature as a query to capture the long-range spatial distribution of traffic flow with a transformer architecture. Benefiting from the road-aware inference mechanism, our method can generate high-quality fine-grained traffic flow maps. Extensive experiments on three real-world datasets show that the proposed RATFM outperforms state-of-the-art models under various scenarios. Our code and datasets are released at {\url{https://github.com/luimoli/RATFM}}. | 翻訳日:2023-10-28 07:15:21 公開日:2023-10-26 |
# 一般化ベル状態の局所的に区別できない集合を見つける Finding out all locally indistinguishable sets of generalized Bell states ( http://arxiv.org/abs/2109.07390v3 ) ライセンス: Link先を確認 | Jiang-Tao Yuan, Ying-Hui Yang, and Cai-Hong Wang | (参考訳) In general, for a bipartite quantum system $\mathbb{C}^{d}\otimes\mathbb{C}^{d}$ and an integer $k$ such that $4\leq k\le d$,there are few necessary and sufficient conditions for local discrimination of sets of $k$ generalized Bell states (GBSs) and it is difficult to locally distinguish $k$-GBS sets.The purpose of this paper is to completely solve the problem of local discrimination of GBS sets in some bipartite quantum systems.Firstly three practical and effective sufficient conditions are given,Fan$^{,}$s and Wang et al.
$^{,}$s results [Phys Rev Lett 92, 177905 (2004); Phys Rev A 99, 022307 (2019)] can be deduced as special cases of these conditions.Secondly in $\mathbb{C}^{4}\otimes\mathbb{C}^{4}$, a necessary and sufficient condition for local discrimination of GBS sets is provided, and a list of all locally indistinguishable 4-GBS sets is provided,and then the problem of local discrimination of GBS sets is completely solved.In $\mathbb{C}^{5}\otimes\mathbb{C}^{5}$, a concise necessary and sufficient condition for one-way local discrimination of GBS sets is obtained,which gives an affirmative answer to the case $d=5$ of the problem proposed by Wang et al. In general, for a bipartite quantum system $\mathbb{C}^{d}\otimes\mathbb{C}^{d}$ and an integer $k$ such that $4\leq k\le d$,there are few necessary and sufficient conditions for local discrimination of sets of $k$ generalized Bell states (GBSs) and it is difficult to locally distinguish $k$-GBS sets.The purpose of this paper is to completely solve the problem of local discrimination of GBS sets in some bipartite quantum systems.Firstly three practical and effective sufficient conditions are given,Fan$^{,}$s and Wang et al.$^{,}$s results [Phys Rev Lett 92, 177905 (2004); Phys Rev A 99, 022307 (2019)] can be deduced as special cases of these conditions.Secondly in $\mathbb{C}^{4}\otimes\mathbb{C}^{4}$, a necessary and sufficient condition for local discrimination of GBS sets is provided, and a list of all locally indistinguishable 4-GBS sets is provided,and then the problem of local discrimination of GBS sets is completely solved.In $\mathbb{C}^{5}\otimes\mathbb{C}^{5}$, a concise necessary and sufficient condition for one-way local discrimination of GBS sets is obtained,which gives an affirmative answer to the case $d=5$ of the problem proposed by Wang et al. | 翻訳日:2023-10-28 07:14:57 公開日:2023-10-26 |
# 部分的知識に基づく最適スコーリングルール設計 Optimal Scoring Rule Design under Partial Knowledge ( http://arxiv.org/abs/2107.07420v2 ) ライセンス: Link先を確認 | Yiling Chen and Fang-Yi Yu | (参考訳) 本稿では,エージェントの信号分布に関する部分的知識を有する場合の最適採点規則の設計について検討する。
最近の研究は、エージェントの信号分布がプリンシパルに完全に知られていると仮定して、エージェントが以前の予測から後続の信条を洗練するためにコストのかかる信号にアクセスする場合、エージェントのペイオフの増加を最大化する適切なスコアリングルールを特徴付ける。
我々の設定では、プリンシパルはエージェントの信号分布が属する一連の分布についてのみ知っている。
我々は,最大値最適化としてスコアリングルール設計問題を定式化し,各分布の最悪の増加率を最大化する。
分布の集合が有限であるときに最適なスコアリングルールを計算するための効率的なアルゴリズムを提案し、様々な無限集合の分布に対応する完全多項式時間近似スキームを考案する。
さらに,2次ルールやログルールなど広く使用されているスコアリングルールや,完全知識に基づく最適スコアリングルールが,我々の部分的知識設定において最適とは程遠い,とも述べている。 This paper studies the design of optimal proper scoring rules when the principal has partial knowledge of an agent's signal distribution. Recent work characterizes the proper scoring rules that maximize the increase of an agent's payoff when the agent chooses to access a costly signal to refine a posterior belief from her prior prediction, under the assumption that the agent's signal distribution is fully known to the principal. In our setting, the principal only knows about a set of distributions where the agent's signal distribution belongs. We formulate the scoring rule design problem as a max-min optimization that maximizes the worst-case increase in payoff across the set of distributions. We propose an efficient algorithm to compute an optimal scoring rule when the set of distributions is finite, and devise a fully polynomial-time approximation scheme that accommodates various infinite sets of distributions. We further remark that widely used scoring rules, such as the quadratic and log rules, as well as previously identified optimal scoring rules under full knowledge, can be far from optimal in our partial knowledge settings. | 翻訳日:2023-10-28 07:14:07 公開日:2023-10-26 |
# 語彙データのための深層学習モデルの再検討 Revisiting Deep Learning Models for Tabular Data ( http://arxiv.org/abs/2106.11959v5 ) ライセンス: Link先を確認 | Yury Gorishniy, Ivan Rubachev, Valentin Khrulkov, Artem Babenko | (参考訳) 表形式のデータに対するディープラーニングに関する既存の文献は、幅広い新しいアーキテクチャを提案し、様々なデータセットで競合する結果を報告している。
しかしながら、提案されたモデルは、通常、互いに適切に比較されないため、既存の作業では、しばしば異なるベンチマークと実験プロトコルを使用する。
その結果、研究者と実践者の両方にとって、どのモデルが優れているかは明らかでない。
さらに、フィールドには効果的なベースライン、すなわち様々な問題にまたがる競争性能を提供する使いやすいモデルがない。
本研究では,2つの単純かつ強力な深層アーキテクチャを識別することにより,表層データに対するDLアーキテクチャのメインファミリーの概要と表層DLにおけるベースラインのバーを高める。
ひとつはResNetのようなアーキテクチャで、以前の作業でしばしば欠落する強力なベースラインであることが分かりました。
第2のモデルは、表データに対するTransformerアーキテクチャの簡単な適応であり、ほとんどのタスクにおいて他のソリューションよりも優れています。
どちらのモデルも、同じトレーニングおよびチューニングプロトコルの下で様々なタスクセットで既存のアーキテクチャと比較される。
また、最高のDLモデルとGradient Boosted Decision Treesを比較して、まだ普遍的に優れたソリューションがないと結論づける。 The existing literature on deep learning for tabular data proposes a wide range of novel architectures and reports competitive results on various datasets. However, the proposed models are usually not properly compared to each other and existing works often use different benchmarks and experiment protocols. As a result, it is unclear for both researchers and practitioners what models perform best. Additionally, the field still lacks effective baselines, that is, the easy-to-use models that provide competitive performance across different problems. In this work, we perform an overview of the main families of DL architectures for tabular data and raise the bar of baselines in tabular DL by identifying two simple and powerful deep architectures. The first one is a ResNet-like architecture which turns out to be a strong baseline that is often missing in prior works. The second model is our simple adaptation of the Transformer architecture for tabular data, which outperforms other solutions on most tasks. Both models are compared to many existing architectures on a diverse set of tasks under the same training and tuning protocols. We also compare the best DL models with Gradient Boosted Decision Trees and conclude that there is still no universally superior solution. | 翻訳日:2023-10-28 07:13:47 公開日:2023-10-26 |
# 語彙データのための深層学習モデルの再検討 Revisiting Deep Learning Models for Tabular Data ( http://arxiv.org/abs/2106.11959v4 ) ライセンス: Link先を確認 | Yury Gorishniy, Ivan Rubachev, Valentin Khrulkov, Artem Babenko | (参考訳) 表形式のデータに対するディープラーニングに関する既存の文献は、幅広い新しいアーキテクチャを提案し、様々なデータセットで競合する結果を報告している。
しかしながら、提案されたモデルは、通常、互いに適切に比較されないため、既存の作業では、しばしば異なるベンチマークと実験プロトコルを使用する。
その結果、研究者と実践者の両方にとって、どのモデルが優れているかは明らかでない。
さらに、フィールドには効果的なベースライン、すなわち様々な問題にまたがる競争性能を提供する使いやすいモデルがない。
本研究では,2つの単純かつ強力な深層アーキテクチャを識別することにより,表層データに対するDLアーキテクチャのメインファミリーの概要と表層DLにおけるベースラインのバーを高める。
ひとつはResNetのようなアーキテクチャで、以前の作業でしばしば欠落する強力なベースラインであることが分かりました。
第2のモデルは、表データに対するTransformerアーキテクチャの簡単な適応であり、ほとんどのタスクにおいて他のソリューションよりも優れています。
どちらのモデルも、同じトレーニングおよびチューニングプロトコルの下で様々なタスクセットで既存のアーキテクチャと比較される。
また、最高のDLモデルとGradient Boosted Decision Treesを比較して、まだ普遍的に優れたソリューションがないと結論づける。 The existing literature on deep learning for tabular data proposes a wide range of novel architectures and reports competitive results on various datasets. However, the proposed models are usually not properly compared to each other and existing works often use different benchmarks and experiment protocols. As a result, it is unclear for both researchers and practitioners what models perform best. Additionally, the field still lacks effective baselines, that is, the easy-to-use models that provide competitive performance across different problems. In this work, we perform an overview of the main families of DL architectures for tabular data and raise the bar of baselines in tabular DL by identifying two simple and powerful deep architectures. The first one is a ResNet-like architecture which turns out to be a strong baseline that is often missing in prior works. The second model is our simple adaptation of the Transformer architecture for tabular data, which outperforms other solutions on most tasks. Both models are compared to many existing architectures on a diverse set of tasks under the same training and tuning protocols. We also compare the best DL models with Gradient Boosted Decision Trees and conclude that there is still no universally superior solution. | 翻訳日:2023-10-28 07:13:28 公開日:2023-10-26 |
# pysentimiento: 意見マイニングとソーシャルNLPタスクのためのPythonツールキット pysentimiento: A Python Toolkit for Opinion Mining and Social NLP tasks ( http://arxiv.org/abs/2106.09462v2 ) ライセンス: Link先を確認 | Juan Manuel P\'erez, Mariela Rajngewerc, Juan Carlos Giudici, Dami\'an A. Furman, Franco Luque, Laura Alonso Alemany, Mar\'ia Vanina Mart\'inez | (参考訳) 近年、利用者が生成したテキストから意見や情報を抽出することは、主にソーシャルメディアのコンテンツが前例のない量であることから、多くの関心を集めている。
しかし、社会的研究者はこれらのタスクに最先端のツールを採用する際にいくつかの問題に直面しており、それは通常、商用apiの背後にあるか、英語以外の言語で使用できないか、あるいは非専門家で使うのが非常に複雑である。
これらの問題に対処するために、意見マイニングやその他のソーシャルNLPタスク用に設計された総合多言語Pythonツールキットpysentimientoを提案する。
このオープンソースのライブラリは、スペイン語、英語、イタリア語、ポルトガル語の最新のモデルを、使いやすいpythonライブラリで提供する。
本稿では,様々なタスク,言語,データセットにまたがる事前学習された言語モデルの性能を総合的に評価し,その結果の公平性を評価する。 In recent years, the extraction of opinions and information from user-generated text has attracted a lot of interest, largely due to the unprecedented volume of content in Social Media. However, social researchers face some issues in adopting cutting-edge tools for these tasks, as they are usually behind commercial APIs, unavailable for other languages than English, or very complex to use for non-experts. To address these issues, we present pysentimiento, a comprehensive multilingual Python toolkit designed for opinion mining and other Social NLP tasks. This open-source library brings state-of-the-art models for Spanish, English, Italian, and Portuguese in an easy-to-use Python library, allowing researchers to leverage these techniques. We present a comprehensive assessment of performance for several pre-trained language models across a variety of tasks, languages, and datasets, including an evaluation of fairness in the results. | 翻訳日:2023-10-28 07:13:09 公開日:2023-10-26 |
# 顔解析のための品質認識ネットワーク Quality-Aware Network for Face Parsing ( http://arxiv.org/abs/2106.07368v2 ) ライセンス: Link先を確認 | Lu Yang, Qing Song, Xueshi Xin, Wenhe Jia, Zhiwei Liu | (参考訳) これは非常に短い技術的レポートで、CVPR 2021の3番目の人物(PIC)ワークショップとチャレンジのショートビデオ顔解析トラックのためのチームBUPT-CASIAのソリューションを紹介します。
顔解析は、アプリケーションの可能性の多さから、最近関心が高まっている。
一般的に言えば、タスク設定、データ特性、カテゴリ数など、ヒューマンパースと多くの共通点がある。
そこで本研究では,最先端のヒューマンパース手法を顔解析タスクに適用し,それらの類似点と相違点を探索する。
我々の応募は86.84%のスコアを獲得し、この挑戦で2位を獲得した。 This is a very short technical report, which introduces the solution of the Team BUPT-CASIA for Short-video Face Parsing Track of The 3rd Person in Context (PIC) Workshop and Challenge at CVPR 2021. Face parsing has recently attracted increasing interest due to its numerous application potentials. Generally speaking, it has a lot in common with human parsing, such as task setting, data characteristics, number of categories and so on. Therefore, this work applies state-of-the-art human parsing method to face parsing task to explore the similarities and differences between them. Our submission achieves 86.84% score and wins the 2nd place in the challenge. | 翻訳日:2023-10-28 07:12:53 公開日:2023-10-26 |
# ユニタリ量子チャネルの集合の凸特性化について On the convex characterisation of the set of unital quantum channels ( http://arxiv.org/abs/2111.13705v3 ) ライセンス: Link先を確認 | Constantino Rodriguez-Ramos and Colin M. Wilmott | (参考訳) 本稿では,$d$次元のユニタリ量子チャネルの凸集合について考察する。
特に、私たちは写像の族をパラメトリゼーションし、このパラメトリゼーションを通じて、このチャネルの族に関してユニタリ量子写像の集合の部分的特徴付けを提供する。
量子チャネルの場合、集合の極端点とそれらの分類はクラウスランクに関して考慮される。
この設定では、パラメトリッド写像の族がクラウス階数3の写像に対応することが分かる。
さらに、クラウス階数4の四重項ユニタリ量子チャネルの新たな族を導入し、可能なすべてのクラウス階数上の集合の極点を考える。
これら二つのチャネルの明確な例を構築し、これらのチャネルが量子ユニタリチャネルの集合の極端な点に対応するかどうかを考察する。
最後に、よく知られたチャネルが示す例とどのように関連しているかを示す。 In this paper, we consider the convex set of $d$ dimensional unital quantum channels. In particular, we parametrise a family of maps and through this parametrisation we provide a partial characterisation of the set of unital quantum maps with respect to this family of channels. For the case of qutrit channels, we consider the extreme points of the set and their classification with respect to the Kraus rank. In this setting, we see that the parametrised family of maps corresponds to maps with Kraus rank three. Furthermore, we introduce a novel family of qutrit unital quantum channels with Kraus rank four to consider the extreme points of the set over all possible Kraus ranks. We construct explicit examples of these two families of channels and we consider the question of whether these channels correspond to extreme points of the set of quantum unital channels. Finally, we demonstrate how well-known channels relate to the examples presented. | 翻訳日:2023-10-28 07:05:05 公開日:2023-10-26 |
# aksharantar: 次の10億ユーザのためのオープンインデックス言語翻訳データセットとモデル Aksharantar: Open Indic-language Transliteration datasets and models for the Next Billion Users ( http://arxiv.org/abs/2205.03018v2 ) ライセンス: Link先を確認 | Yash Madhani, Sushane Parthan, Priyanka Bedekar, Gokul NC, Ruchi Khapra, Anoop Kunchukuttan, Pratyush Kumar, Mitesh M. Khapra | (参考訳) 翻訳は、複数のスクリプトの使用とローマ字入力の普及により、インドの文脈において非常に重要である。
しかし、トレーニングや評価のセットは公開されていない。
Aksharantarは、モノリンガルとパラレルコーパスからのマイニングと、人間のアノテーションからのデータの収集によって生成された、インド語のための最大公用翻訳データセットである。
データセットには、12のスクリプトを使用して、3つの言語ファミリーから21のIndic言語に対する2600万の文字ペアが含まれている。
Aksharantarは、既存のデータセットの21倍の大きさで、7つの言語と1つの言語ファミリーのための最初の公開データセットである。
また、19言語にまたがる103kワード対からなるAksharantar Testetを導入し、原語、外国語、頻繁な単語、希少な単語の翻訳モデルのきめ細かい分析を可能にする。
この学習セットを用いて,dakshinaテストセットの精度を15%向上させ,本研究で導入されたaksharantarテストセットに強いベースラインを確立する多言語翻訳モデルindicxlitを訓練した。
モデル、マイニングスクリプト、翻訳ガイドライン、データセットはhttps://github.com/AI4Bharat/IndicXlitでオープンソースライセンスで公開されている。
このような大規模でオープンなリソースが利用可能になれば,indic language transliterationやダウンストリームアプリケーションのイノベーションが促進されることを願っています。
このような大規模でオープンなリソースが利用可能になれば,indic language transliterationやダウンストリームアプリケーションのイノベーションが促進されることを願っています。 Transliteration is very important in the Indian language context due to the usage of multiple scripts and the widespread use of romanized inputs. However, few training and evaluation sets are publicly available. We introduce Aksharantar, the largest publicly available transliteration dataset for Indian languages created by mining from monolingual and parallel corpora, as well as collecting data from human annotators. The dataset contains 26 million transliteration pairs for 21 Indic languages from 3 language families using 12 scripts. Aksharantar is 21 times larger than existing datasets and is the first publicly available dataset for 7 languages and 1 language family. We also introduce the Aksharantar testset comprising 103k word pairs spanning 19 languages that enables a fine-grained analysis of transliteration models on native origin words, foreign words, frequent words, and rare words. Using the training set, we trained IndicXlit, a multilingual transliteration model that improves accuracy by 15% on the Dakshina test set, and establishes strong baselines on the Aksharantar testset introduced in this work. The models, mining scripts, transliteration guidelines, and datasets are available at https://github.com/AI4Bharat/IndicXlit under open-source licenses. We hope the availability of these large-scale, open resources will spur innovation for Indic language transliteration and downstream applications. We hope the availability of these large-scale, open resources will spur innovation for Indic language transliteration and downstream applications. | 翻訳日:2023-10-28 06:54:08 公開日:2023-10-26 |
# 非IIDフェデレーション学習のためのデータフリー知識蒸留による微調整グローバルモデル Fine-tuning Global Model via Data-Free Knowledge Distillation for Non-IID Federated Learning ( http://arxiv.org/abs/2203.09249v2 ) ライセンス: Link先を確認 | Lin Zhang, Li Shen, Liang Ding, Dacheng Tao, Ling-Yu Duan | (参考訳) フェデレートラーニング(Federated Learning, FL)は、プライバシ制約下での分散学習パラダイムである。
データの不均一性はFLの主な課題の1つであり、結果として収束が遅く、性能が劣化する。
既存のアプローチのほとんどは、クライアントのローカルモデル更新を制限し、直接グローバルモデルアグリゲーションによるパフォーマンス低下を無視して、不均一性に対処するだけである。
代わりに,直接モデル集約の問題を軽減するために,サーバのグローバルモデル(fedftg)を微調整するデータフリー知識蒸留法を提案する。
具体的には、FedFTGはローカルモデルの入力空間をジェネレータを介して探索し、ローカルモデルからの知識をグローバルモデルに転送する。
さらに, トレーニングを通して効果的な知識蒸留を実現するため, ハードサンプルマイニング手法を提案する。
さらに,知識の最大利用を導出するために,カスタマイズされたラベルサンプリングとクラスレベルのアンサンブルを開発し,クライアント間の分布の不一致を暗黙的に緩和する。
我々のFedFTGは最先端(SOTA)のFLアルゴリズムよりも優れており、FedAvg、FedProx、FedDyn、SCAFFOLDの強化のための強力なプラグインとして機能する。 Federated Learning (FL) is an emerging distributed learning paradigm under privacy constraint. Data heterogeneity is one of the main challenges in FL, which results in slow convergence and degraded performance. Most existing approaches only tackle the heterogeneity challenge by restricting the local model update in client, ignoring the performance drop caused by direct global model aggregation. Instead, we propose a data-free knowledge distillation method to fine-tune the global model in the server (FedFTG), which relieves the issue of direct model aggregation. Concretely, FedFTG explores the input space of local models through a generator, and uses it to transfer the knowledge from local models to the global model. Besides, we propose a hard sample mining scheme to achieve effective knowledge distillation throughout the training. In addition, we develop customized label sampling and class-level ensemble to derive maximum utilization of knowledge, which implicitly mitigates the distribution discrepancy across clients. Extensive experiments show that our FedFTG significantly outperforms the state-of-the-art (SOTA) FL algorithms and can serve as a strong plugin for enhancing FedAvg, FedProx, FedDyn, and SCAFFOLD. | 翻訳日:2023-10-28 06:52:50 公開日:2023-10-26 |
# タブラルディープラーニングにおける数値的特徴の埋め込みについて On Embeddings for Numerical Features in Tabular Deep Learning ( http://arxiv.org/abs/2203.05556v4 ) ライセンス: Link先を確認 | Yury Gorishniy and Ivan Rubachev and Artem Babenko | (参考訳) 近年,トランスフォーマーのような深層アーキテクチャは表型データ問題に対して高い性能を示している。
MLPのような従来のモデルとは異なり、これらのアーキテクチャはスカラー値の数値特徴をメインのバックボーンに混ぜる前に高次元の埋め込みにマッピングする。
本研究では,従来の GBDT 対応ベンチマークにおいて,より強力な DL モデルの構築と GBDT との競合を可能にするため,数値的特徴の埋め込みは,表型 DL の過度な自由度である,と論じる。
まず、埋め込み加群を構築するための概念的に異なる2つのアプローチについて説明する: 1つはスカラー値の断片的線形符号化に基づくもので、2つ目は周期的アクティベーションを利用する。
次に,これら2つのアプローチが,線形層やreluアクティベーションといった従来のブロックに基づく組込みと比較して,大幅なパフォーマンス向上につながることを実証する。
重要なのは,トランスフォーマーだけでなく,多くのバックボーンにも数値的特徴を埋め込むことが有益であることを示すことである。
具体的には、適切な埋め込みの後、単純なMLPのようなモデルは注意に基づくアーキテクチャと同等に機能する。
全体として、数値的な特徴の埋め込みを重要な設計の側面として強調し、表状DLのさらなる改善の可能性を秘めている。 Recently, Transformer-like deep architectures have shown strong performance on tabular data problems. Unlike traditional models, e.g., MLP, these architectures map scalar values of numerical features to high-dimensional embeddings before mixing them in the main backbone. In this work, we argue that embeddings for numerical features are an underexplored degree of freedom in tabular DL, which allows constructing more powerful DL models and competing with GBDT on some traditionally GBDT-friendly benchmarks. We start by describing two conceptually different approaches to building embedding modules: the first one is based on a piecewise linear encoding of scalar values, and the second one utilizes periodic activations. Then, we empirically demonstrate that these two approaches can lead to significant performance boosts compared to the embeddings based on conventional blocks such as linear layers and ReLU activations. Importantly, we also show that embedding numerical features is beneficial for many backbones, not only for Transformers. Specifically, after proper embeddings, simple MLP-like models can perform on par with the attention-based architectures. Overall, we highlight embeddings for numerical features as an important design aspect with good potential for further improvements in tabular DL. | 翻訳日:2023-10-28 06:52:27 公開日:2023-10-26 |
# 半教師付きディープマルチビューステレオ Semi-supervised Deep Multi-view Stereo ( http://arxiv.org/abs/2207.11699v4 ) ライセンス: Link先を確認 | Hongbin Xu, Weitao Chen, Yang Liu, Zhipeng Zhou, Haihong Xiao, Baigui Sun, Xuansong Xie, Wenxiong Kang | (参考訳) 学習に基づくマルチビューステレオ (mvs) では,教師なしと教師なしの設定で有意な進歩が見られた。
そこで本稿では,その精度と完全性を両立し,高価なラベル付きデータの需要を低減しつつ,mvsデータのごく一部に濃密な地底真理を付加する半教師付き設定において,学習に基づくmvsの問題を検討する。
しかし、シナリオの膨大なバリエーションとビューの柔軟な設定により、ラベル付きデータとラベル付きデータが同一のラベル空間とデータ分布を共有している古典的な半教師付き学習における基本的な前提を破る可能性がある。
これらの問題に対処するため、我々はSDA-MVSと呼ばれる半教師付き分散拡張MVSフレームワークを提案する。
MVSデータで基本的な仮定が機能する単純な場合、一貫性の正則化はモデルの予測を元のサンプルとランダムに増補されたサンプルとで整合するように促す。
さらに,mvsデータに基本仮定が矛盾する場合には,分布ギャップに起因する負の効果を緩和する新しいスタイルの一貫性損失を提案する。
ラベル付けされていないサンプルの視覚的スタイルをラベル付きサンプルに転送してギャップを小さくし、生成されたサンプルのモデル予測をさらにラベル付きサンプルで監督する。
複数のMVSデータセットの半教師付き設定実験の結果,提案手法の優れた性能を示す。
バックボーンネットワークにおける同じ設定により,提案したSDA-MVSは,完全に教師付き,教師なしのベースラインよりも優れている。 Significant progress has been witnessed in learning-based Multi-view Stereo (MVS) under supervised and unsupervised settings. To combine their respective merits in accuracy and completeness, meantime reducing the demand for expensive labeled data, this paper explores the problem of learning-based MVS in a semi-supervised setting that only a tiny part of the MVS data is attached with dense depth ground truth. However, due to huge variation of scenarios and flexible settings in views, it may break the basic assumption in classic semi-supervised learning, that unlabeled data and labeled data share the same label space and data distribution, named as semi-supervised distribution-gap ambiguity in the MVS problem. To handle these issues, we propose a novel semi-supervised distribution-augmented MVS framework, namely SDA-MVS. For the simple case that the basic assumption works in MVS data, consistency regularization encourages the model predictions to be consistent between original sample and randomly augmented sample. For further troublesome case that the basic assumption is conflicted in MVS data, we propose a novel style consistency loss to alleviate the negative effect caused by the distribution gap. The visual style of unlabeled sample is transferred to labeled sample to shrink the gap, and the model prediction of generated sample is further supervised with the label in original labeled sample. The experimental results in semi-supervised settings of multiple MVS datasets show the superior performance of the proposed method. With the same settings in backbone network, our proposed SDA-MVS outperforms its fully-supervised and unsupervised baselines. | 翻訳日:2023-10-28 06:46:33 公開日:2023-10-26 |
# 時系列領域における分布外検出--新しい季節比スコア法 Out-of-Distribution Detection in Time-Series Domain: A Novel Seasonal Ratio Scoring Approach ( http://arxiv.org/abs/2207.04306v3 ) ライセンス: Link先を確認 | Taha Belkhouja, Yan Yan, Janardhan Rao Doppa | (参考訳) リアルタイムアプリケーションのための時系列分類器の安全なデプロイは、トレーニングデータと同じディストリビューションから生成されたデータを検出する能力に依存している。
このタスクはout-of-distribution (ood) detectionと呼ばれる。
時系列領域におけるood検出の新たな問題を考える。
時系列データによって生じるユニークな課題を議論し、画像領域のメソッドがなぜパフォーマンスが悪いのかを説明します。
これらの課題に触発された本研究では,新しい季節比スコアリング(SRS)手法を提案する。
srsは3つの主要なアルゴリズムからなる。
まず、各入力はクラスワイドのセマンティックコンポーネントと残りに分割される。
第二に、この分解は深い生成モデルを用いて入力と残りのクラスごとの条件付き確率を推定するために用いられる。
これらの推定値から季節比が計算される。
第3に、分布内データからしきい値間隔を特定してOOD例を検出する。
各種実世界のベンチマーク実験により,SRS法は基準法と比較して時系列OOD検出に適していることが示された。
SRSメソッドのオープンソースコードはhttps://github.com/tahabelkhouja/SRSで提供されている。 Safe deployment of time-series classifiers for real-world applications relies on the ability to detect the data which is not generated from the same distribution as training data. This task is referred to as out-of-distribution (OOD) detection. We consider the novel problem of OOD detection for the time-series domain. We discuss the unique challenges posed by time-series data and explain why prior methods from the image domain will perform poorly. Motivated by these challenges, this paper proposes a novel {\em Seasonal Ratio Scoring (SRS)} approach. SRS consists of three key algorithmic steps. First, each input is decomposed into class-wise semantic component and remainder. Second, this decomposition is employed to estimate the class-wise conditional likelihoods of the input and remainder using deep generative models. The seasonal ratio score is computed from these estimates. Third, a threshold interval is identified from the in-distribution data to detect OOD examples. Experiments on diverse real-world benchmarks demonstrate that the SRS method is well-suited for time-series OOD detection when compared to baseline methods. Open-source code for SRS method is provided at https://github.com/tahabelkhouja/SRS | 翻訳日:2023-10-28 06:45:53 公開日:2023-10-26 |
# シャッフル型勾配アルゴリズムの大域解への収束について On the Convergence to a Global Solution of Shuffling-Type Gradient Algorithms ( http://arxiv.org/abs/2206.05869v2 ) ライセンス: Link先を確認 | Lam M. Nguyen, Trang H. Tran | (参考訳) 確率的勾配降下(sgd)アルゴリズムは、拡張性と大規模問題への対処効率により、多くの機械学習タスクで選択される方法である。
本稿では,本研究の主流である実用的ヒューリスティックスと一致するSGDのシャッフルバージョンに着目した。
過パラメータ設定下での非凸関数のクラスに対してSGDをシャッフルする大域的解の収束性を示す。
我々の分析では、以前の文献よりも緩和された非凸仮定を採用している。
それでも、一般凸設定においてシャッフルSGDが達成した計算複雑性は維持される。 Stochastic gradient descent (SGD) algorithm is the method of choice in many machine learning tasks thanks to its scalability and efficiency in dealing with large-scale problems. In this paper, we focus on the shuffling version of SGD which matches the mainstream practical heuristics. We show the convergence to a global solution of shuffling SGD for a class of non-convex functions under over-parameterized settings. Our analysis employs more relaxed non-convex assumptions than previous literature. Nevertheless, we maintain the desired computational complexity as shuffling SGD has achieved in the general convex setting. | 翻訳日:2023-10-28 06:43:58 公開日:2023-10-26 |
# ランク最小化における正規化SGDの帰属バイアスの特徴付け Characterizing the Implicit Bias of Regularized SGD in Rank Minimization ( http://arxiv.org/abs/2206.05794v6 ) ライセンス: Link先を確認 | Tomer Galanti, Zachary S. Siegel, Aparna Gupte, Tomaso Poggio | (参考訳) 本研究では,SGD(Stochastic Gradient Descent)の偏りについて検討し,深層ニューラルネットワークのトレーニングにおいて低ランクの重み行列を学習する。
以上の結果から,SGDと重み劣化によるニューラルネットワークのトレーニングは,重み行列のランク最小化に偏りがあることが示唆された。
具体的には、理論的にも経験的にも、より小さなバッチサイズ、学習率の向上、体重減少の増加などにより、このバイアスはより顕著であることを示す。
さらに、このバイアスを達成するには重量減衰が必要であることを実証的に予測し、観察する。
これまでの文献とは異なり、我々の分析は重量行列のデータ、収束、最適性に関する仮定に依存しておらず、幅や深さの広いニューラルネットワークアーキテクチャに適用できる。
最後に,このバイアスと一般化との関係を実証的に検討し,一般化に限界的な影響があることを見いだした。 We study the bias of Stochastic Gradient Descent (SGD) to learn low-rank weight matrices when training deep neural networks. Our results show that training neural networks with mini-batch SGD and weight decay causes a bias towards rank minimization over the weight matrices. Specifically, we show, both theoretically and empirically, that this bias is more pronounced when using smaller batch sizes, higher learning rates, or increased weight decay. Additionally, we predict and observe empirically that weight decay is necessary to achieve this bias. Unlike previous literature, our analysis does not rely on assumptions about the data, convergence, or optimality of the weight matrices and applies to a wide range of neural network architectures of any width or depth. Finally, we empirically investigate the connection between this bias and generalization, finding that it has a marginal effect on generalization. | 翻訳日:2023-10-28 06:43:49 公開日:2023-10-26 |
# リモートコラボレーションはブレークスルーのアイデアを邪魔する Remote Collaboration Fuses Fewer Breakthrough Ideas ( http://arxiv.org/abs/2206.01878v4 ) ライセンス: Link先を確認 | Yiling Lin, Carl Benedikt Frey, Lingfei Wu | (参考訳) イノベーションの理論は、突破発見のファシリテーターとしてのソーシャルネットワークとチームの役割を強調している。
世界中の科学者や発明家は、これまで以上に豊かで相互接続されている。
しかし、新しい方法で再構成できるアイデアが増えている一方で、新たなアイデアが組み合わさった成長理論を見つけるのが難しくなっていることを研究は示唆している。
本稿では、この明らかなパズルに新しい光を当てた。
過去半世紀にわたって2000万件の研究論文と400万件の特許出願を分析し、我々は都市間の遠隔コラボレーションの台頭を文書化し、世界中の科学者と発明家の相互接続性を高めた。
さらに、すべての分野、期間、チームサイズにおいて、これらのリモートチームの研究者は、オンサイトチームと比較してブレークスルーの発見をしにくいことを示しています。
チーム内の知識生産と宇宙全体の労働力の分担を調査できるデータセットを作成することで、分散チームメンバーの間では、よりコーデレートされた知識を含む、後期的な技術的タスクのコラボレーションセンタが見られます。
しかし、新しいアイデアを思いついたり、研究の知識を設計したりといった概念的なタスクに力を入れる可能性は低い。
近年、デジタル技術が大幅に改善されているにもかかわらず、リモートチームはメンバーの知識を統合して新しい破壊的なアイデアを生み出す可能性は低いと結論付けている。 Theories of innovation emphasize the role of social networks and teams as facilitators of breakthrough discoveries. Around the world, scientists and inventors today are more plentiful and interconnected than ever before. But while there are more people making discoveries, and more ideas that can be reconfigured in novel ways, research suggests that new ideas are getting harder to find-contradicting recombinant growth theory. In this paper, we shed new light on this apparent puzzle. Analyzing 20 million research articles and 4 million patent applications across the globe over the past half-century, we begin by documenting the rise of remote collaboration across cities, underlining the growing interconnectedness of scientists and inventors globally. We further show that across all fields, periods, and team sizes, researchers in these remote teams are consistently less likely to make breakthrough discoveries relative to their onsite counterparts. Creating a dataset that allows us to explore the division of labor in knowledge production within teams and across space, we find that among distributed team members, collaboration centers on late-stage, technical tasks involving more codified knowledge. Yet they are less likely to join forces in conceptual tasks-such as conceiving new ideas and designing research-when knowledge is tacit. We conclude that despite striking improvements in digital technology in recent years, remote teams are less likely to integrate the knowledge of their members to produce new, disruptive ideas. | 翻訳日:2023-10-28 06:43:35 公開日:2023-10-26 |
# 一般費用関数を用いた神経最適輸送 Neural Optimal Transport with General Cost Functionals ( http://arxiv.org/abs/2205.15403v3 ) ライセンス: Link先を確認 | Arip Asadulaev, Alexander Korotin, Vage Egiazarian, Petr Mokrov, Evgeny Burnaev | (参考訳) 一般費用関数のための最適輸送(OT)計画を計算するニューラルネットワークに基づく新しいアルゴリズムを提案する。
通常のユークリッドコスト、すなわち $\ell^1$ や $\ell^2$ とは対照的に、そのような関数はより柔軟性を提供し、クラスラベルのような補助情報を使って必要な輸送マップを構築することができる。
既存の一般的なコストのメソッドは離散的であり、実際には制限がある。
画像などの高次元空間における新たなデータポイントに一般化する一般的なコストに対して,連続OTアプローチを設計する上での課題に対処する。
さらに, 回収した輸送計画の理論的エラー解析を行う。
アプリケーションとして,クラス構造を維持しながらデータ分布をマップするコスト関数を構築する。 We introduce a novel neural network-based algorithm to compute optimal transport (OT) plans for general cost functionals. In contrast to common Euclidean costs, i.e., $\ell^1$ or $\ell^2$, such functionals provide more flexibility and allow using auxiliary information, such as class labels, to construct the required transport map. Existing methods for general costs are discrete and have limitations in practice, i.e. they do not provide an out-of-sample estimation. We address the challenge of designing a continuous OT approach for general costs that generalizes to new data points in high-dimensional spaces, such as images. Additionally, we provide the theoretical error analysis for our recovered transport plans. As an application, we construct a cost functional to map data distributions while preserving the class-wise structure. | 翻訳日:2023-10-28 06:43:13 公開日:2023-10-26 |
# 多モジュールグラフニューラルネットワークのフレキシブル表現による一般化に向けて Towards Better Generalization with Flexible Representation of Multi-Module Graph Neural Networks ( http://arxiv.org/abs/2209.06589v4 ) ライセンス: Link先を確認 | Hyungeun Lee, Kijung Yoon | (参考訳) グラフニューラルネットワーク(GNN)は、グラフ構造化データの学習と推論を行うように設計されている。
しかし、より大きなグラフにスケールし、out-of-distribution (ood)入力に一般化するためのgnnの基本的な制限を理解するための作業はほとんど行われていない。
本稿では,グラフのサイズと構造がGNNの予測性能に与える影響を,ランダムなグラフ生成器を用いて体系的に検討する。
本稿では,GNNが未確認グラフに一般化できるかどうかを判断する上で,平均ノード次数が重要な特徴であることを示すとともに,複数ノード更新関数を用いることで,マルチモーダル度分布のグラフを扱う場合のGNNの一般化性能を向上させることができることを示す。
そこで本研究では,集約された入力に対して単一の正準非線形変換を一般化することにより,ネットワークが新しいグラフに柔軟に対応可能なマルチモジュールGNNフレームワークを提案する。
その結果,マルチモジュールGNNは多様な構造的特徴の方向に様々な推論タスクのOOD一般化を改善した。 Graph neural networks (GNNs) have become compelling models designed to perform learning and inference on graph-structured data. However, little work has been done to understand the fundamental limitations of GNNs for scaling to larger graphs and generalizing to out-of-distribution (OOD) inputs. In this paper, we use a random graph generator to systematically investigate how the graph size and structural properties affect the predictive performance of GNNs. We present specific evidence that the average node degree is a key feature in determining whether GNNs can generalize to unseen graphs, and that the use of multiple node update functions can improve the generalization performance of GNNs when dealing with graphs of multimodal degree distributions. Accordingly, we propose a multi-module GNN framework that allows the network to adapt flexibly to new graphs by generalizing a single canonical nonlinear transformation over aggregated inputs. Our results show that the multi-module GNNs improve the OOD generalization on a variety of inference tasks in the direction of diverse structural features. | 翻訳日:2023-10-28 06:34:32 公開日:2023-10-26 |
# 責任あるAIシステムのための規範倫理原則:分類学と今後の方向性 Normative Ethics Principles for Responsible AI Systems: Taxonomy and Future Directions ( http://arxiv.org/abs/2208.12616v3 ) ライセンス: Link先を確認 | Jessica Woodgate and Nirav Ajmeri | (参考訳) 責任あるAIは人間の価値を考慮し、人間の道徳によって正当化される決定を下さなければならない。
哲学から推論される規範的倫理原則の運用は責任ある推論を支持する。
我々は,コンピュータ科学の文献を調査し,AIで運用可能な23の規範的倫理原則の分類法を開発した。
それぞれの原則がこれまでどのように運用されてきたかを説明し、倫理的原則を実装しようとするAI実践者が認識すべき重要なテーマを強調します。
我々は,この分類が,責任あるAIシステムに規範的倫理原則を組み込む方法論の開発を促進することを想定している。 Responsible AI must be able to make decisions that consider human values and can be justified by human morals. Operationalising normative ethical principles inferred from philosophy supports responsible reasoning. We survey computer science literature and develop a taxonomy of 23 normative ethical principles which can be operationalised in AI. We describe how each principle has previously been operationalised, highlighting key themes that AI practitioners seeking to implement ethical principles should be aware of. We envision that this taxonomy will facilitate the development of methodologies to incorporate normative ethical principles in responsible AI systems. | 翻訳日:2023-10-28 06:33:37 公開日:2023-10-26 |
# 減衰線形共振器に隠れた反パリティ時対称性 Anti-parity-time symmetry hidden in a damping linear resonator ( http://arxiv.org/abs/2208.08187v2 ) ライセンス: Link先を確認 | Xun-Wei Xu, Jie-Qiao Liao, Hui Jing, Le-Man Kuang | (参考訳) 過減衰状態から過減衰状態への相転移は物理系においてユビキタスな現象である。
しかしながら、この相転移に関連するどんな対称性が破られるかは、まだ不明である。
ここで、この相転移は1つの減衰線形共振器に隠れた反パリティ時間(anti-$\mathcal{pt}$)対称性によって決定され、2つ以上のモードを持つ従来の反$\mathcal{pt}$-対称系とは大きく異なることが分かる。
反$\mathcal{PT}$対称性の破れは、臨界減衰状態に対応する例外点(EP)を持つ過損傷状態から過損傷状態への相転移をもたらすことを示す。
さらに, 二次光学系における光学ばね効果を用いて, この反$\mathcal{pt}$対称性の破れを示す光学力学的スキームを提案する。
また, 反$\mathcal{PT}=対称性の破れに対して, EPの周囲に感度が著しく向上した光学センサを提案する。
我々の研究は減衰振動に隠れた反$\mathcal{PT}$対称性を明らかにし、従って単一減衰線形共振器における広い反$\mathcal{PT}$対称性の応用に新たな可能性を開く。 Phase transition from the over-damping to under-damping states is a ubiquitous phenomenon in physical systems. However, what kind of symmetry is broken associated with this phase transition remains unclear. Here, we discover that this phase transition is determined by an anti-parity-time (anti-$\mathcal{PT}$) symmetry hidden in a single damping linear resonator, which is significantly different from the conventional anti-$\mathcal{PT}$-symmetric systems with two or more modes. We show that the breaking of the anti-$\mathcal{PT}$ symmetry yields the phase transition from the over-damping to under-damping states, with an exceptional point (EP) corresponding to the critical-damping state. Moreover, we propose an optomechanical scheme to show this anti-$\mathcal{PT}$ symmetry breaking by using the optical spring effect in a quadratic optomechanical system. We also suggest an optomechanical sensor with the sensitivity enhanced significantly around the EPs for the anti-$\mathcal{PT}$ symmetry breaking. Our work unveils the anti-$\mathcal{PT}$ symmetry hidden in damping oscillations and hence opens up new possibilities for exploiting wide anti-$\mathcal{PT}$ symmetry applications in single damping linear resonators. | 翻訳日:2023-10-28 06:33:29 公開日:2023-10-26 |
# 超高解像度画像のセマンティックセグメンテーションに対するロバストな形態的アプローチ A Robust Morphological Approach for Semantic Segmentation of Very High Resolution Images ( http://arxiv.org/abs/2208.01254v2 ) ライセンス: Link先を確認 | Siddharth Saravanan, Aditya Challa, Sravan Danda | (参考訳) 画像のセマンティックセグメンテーションのための最先端の手法には、計算集約型ニューラルネットワークアーキテクチャが含まれる。
これらの手法の多くは、メモリや他の計算問題による高解像度画像分割には適応できない。
文学における典型的なアプローチは、低解像度画像からグローバル情報と高解像度画像からのローカル情報とを融合できるニューラルネットワークアーキテクチャの設計である。
しかし、高解像度画像を処理するために設計されたアーキテクチャは、必要以上に複雑であり、調整が難しい多くのハイパーパラメータが伴う。
また、これらのアーキテクチャのほとんどは、高解像度画像の基底真理アノテーションを必要とするため、入手は困難である。
本稿では,既存のセマンティクスセグメンテーションアルゴリズムを高分解能画像にシームレスに拡張可能な,数学的形態的(mm)演算子に基づくロバストパイプラインを開発した。
提案手法では,高解像度画像の真理アノテーションは不要である。
低解像度画像からの情報を効率よく利用し、高解像度画像の勾配情報を利用する。
従来の形態的演算子を用いて低解像度画像上の推論ラベルから高品質な種子を取得し、ランダムウォーカーを用いて種子ラベルを伝播させ、境界線のセマンティックラベルを洗練させる。
本手法により得られた意味セグメンテーションの結果は,高分解能画像上で既存の最先端アルゴリズムを上回った。
パイプラインで使用されるハイパーパラメータに対するアプローチの堅牢性を実証的に証明します。
さらに,パイプラインが適用可能ないくつかの必要条件を特徴付けるとともに,提案手法の詳細な分析を行う。 State-of-the-art methods for semantic segmentation of images involve computationally intensive neural network architectures. Most of these methods are not adaptable to high-resolution image segmentation due to memory and other computational issues. Typical approaches in literature involve design of neural network architectures that can fuse global information from low-resolution images and local information from the high-resolution counterparts. However, architectures designed for processing high resolution images are unnecessarily complex and involve a lot of hyper parameters that can be difficult to tune. Also, most of these architectures require ground truth annotations of the high resolution images to train, which can be hard to obtain. In this article, we develop a robust pipeline based on mathematical morphological (MM) operators that can seamlessly extend any existing semantic segmentation algorithm to high resolution images. Our method does not require the ground truth annotations of the high resolution images. It is based on efficiently utilizing information from the low-resolution counterparts, and gradient information on the high-resolution images. We obtain high quality seeds from the inferred labels on low-resolution images using traditional morphological operators and propagate seed labels using a random walker to refine the semantic labels at the boundaries. We show that the semantic segmentation results obtained by our method beat the existing state-of-the-art algorithms on high-resolution images. We empirically prove the robustness of our approach to the hyper parameters used in our pipeline. Further, we characterize some necessary conditions under which our pipeline is applicable and provide an in-depth analysis of the proposed approach. | 翻訳日:2023-10-28 06:32:45 公開日:2023-10-26 |
# 項目応答理論に基づく説明(eXirt):信頼視点におけるツリー・アンサンブルモデルを記述するためのモデル特異的手法 Explanations Based on Item Response Theory (eXirt): A Model-Specific Method to Explain Tree-Ensemble Model in Trust Perspective ( http://arxiv.org/abs/2210.09933v2 ) ライセンス: Link先を確認 | Jos\'e Ribeiro, Lucas Cardoso, Ra\'issa Silva, Vitor Cirilo, N\'ikolas Carneiro and Ronnie Alves | (参考訳) 近年、XAI研究者はブラックボックスモデルを説明するための提案を形式化し、新しい方法を開発してきたが、コミュニティではこれらのモデルを説明するためにどの方法を使うかという一般的なコンセンサスはなく、この選択は特定の方法の人気とほぼ直接的に結びついている。
ciu、dalex、eli5、lofo、shap、スケーターといった手法は、異なる方法論に基づいた機能関連性のグローバルなランキングを通じてブラックボックスモデルを説明し、モデルの入力がどのようにその予測を説明するかを示すグローバルな説明を生成するという提案とともに登場した。
この文脈では、41のデータセットと4つのツリーアンサンブルアルゴリズム(Light Gradient Boosting、CatBoost、Random Forest、Gradient Boosting)と6つのXAIメソッドが、アイテム応答理論IRTに基づく新しいXAIメソッドであるeXirtのローンチをサポートするために用いられ、二分分類問題に言及した表データを用いた木アンサンブルブラックボックスモデルを対象としていた。
最初の分析では、eXirtのグローバルな特徴関連ランク164を、文献に存在する他のXAIメソッドの984のランクと比較し、それらの類似点と相違点を強調した。
第2の分析では、モデル信頼を理解するのに役立つ説明に基づくeXirtの排他的説明が提示された。
そこで exirt は,irt を通じて,木センブルモデルの大域的説明やモデルインスタンスの局所的な説明を生成できることを検証し,この統合理論が機械学習においてどのように活用され,説明可能かつ信頼性の高いモデルが得られるかを示した。 In recent years, XAI researchers have been formalizing proposals and developing new methods to explain black box models, with no general consensus in the community on which method to use to explain these models, with this choice being almost directly linked to the popularity of a specific method. Methods such as Ciu, Dalex, Eli5, Lofo, Shap and Skater emerged with the proposal to explain black box models through global rankings of feature relevance, which based on different methodologies, generate global explanations that indicate how the model's inputs explain its predictions. In this context, 41 datasets, 4 tree-ensemble algorithms (Light Gradient Boosting, CatBoost, Random Forest, and Gradient Boosting), and 6 XAI methods were used to support the launch of a new XAI method, called eXirt, based on Item Response Theory - IRT and aimed at tree-ensemble black box models that use tabular data referring to binary classification problems. In the first set of analyses, the 164 global feature relevance ranks of the eXirt were compared with 984 ranks of the other XAI methods present in the literature, seeking to highlight their similarities and differences. In a second analysis, exclusive explanations of the eXirt based on Explanation-by-example were presented that help in understanding the model trust. Thus, it was verified that eXirt is able to generate global explanations of tree-ensemble models and also local explanations of instances of models through IRT, showing how this consolidated theory can be used in machine learning in order to obtain explainable and reliable models. | 翻訳日:2023-10-28 06:26:36 公開日:2023-10-26 |
# 地熱資源評価のためのベイズニューラルネットワーク:不確かさによる予測 Bayesian Neural Networks for Geothermal Resource Assessment: Prediction with Uncertainty ( http://arxiv.org/abs/2209.15543v3 ) ライセンス: Link先を確認 | Stephen Brown, William L. Rodi, Marco Seracini, Chen Gu, Michael Fehler, James Faulds, Connor M. Smith, and Sven Treitel | (参考訳) 地熱資源ポテンシャル評価への機械学習の適用について考察する。
教師付き学習問題は、アメリカ合衆国ネバダ州内の10の地質学的・物理的特徴の地図を用いて、広い地域にわたって地熱ポテンシャルを定義することで定義される。
我々は、比較的小さな正のトレーニングサイト(既知の資源や活性発電所)と負のトレーニングサイト(不適切な地熱条件を持つ既知のドリルサイト)を入手し、この分類タスクのために人工ニューラルネットワークの制約と最適化に使用しました。
主な目的は, 決定的特徴が知られている広い地域において, 未知の場所での地熱資源ポテンシャルの予測である。
これらの予測は、さらなる詳細な調査のために有望な分野を標的にすることができる。
特定のニューラルネットワークアーキテクチャの定義から、トレーニングと最適化トライアルまで、私たちの作業の進化について説明する。
解析すると、モデル変数の避けられない問題と予測の不確実性が明らかになる。
最後に,ネットワークトレーニングにおける正規化に対するヒューリスティックアプローチであるベイズニューラルネットワークの概念を適用し,それらが提供する形式的不確実性対策の実践的解釈を利用する。 We consider the application of machine learning to the evaluation of geothermal resource potential. A supervised learning problem is defined where maps of 10 geological and geophysical features within the state of Nevada, USA are used to define geothermal potential across a broad region. We have available a relatively small set of positive training sites (known resources or active power plants) and negative training sites (known drill sites with unsuitable geothermal conditions) and use these to constrain and optimize artificial neural networks for this classification task. The main objective is to predict the geothermal resource potential at unknown sites within a large geographic area where the defining features are known. These predictions could be used to target promising areas for further detailed investigations. We describe the evolution of our work from defining a specific neural network architecture to training and optimization trials. Upon analysis we expose the inevitable problems of model variability and resulting prediction uncertainty. Finally, to address these problems we apply the concept of Bayesian neural networks, a heuristic approach to regularization in network training, and make use of the practical interpretation of the formal uncertainty measures they provide. | 翻訳日:2023-10-28 06:23:49 公開日:2023-10-26 |
# 地熱資源評価のためのベイズニューラルネットワーク:不確かさによる予測 Bayesian Neural Networks for Geothermal Resource Assessment: Prediction with Uncertainty ( http://arxiv.org/abs/2209.15543v2 ) ライセンス: Link先を確認 | Stephen Brown, William L. Rodi, Marco Seracini, Chen Gu, Michael Fehler, James Faulds, Connor M. Smith, and Sven Treitel | (参考訳) 地熱資源ポテンシャル評価への機械学習の適用について考察する。
教師付き学習問題は、アメリカ合衆国ネバダ州内の10の地質学的・物理的特徴の地図を用いて、広い地域にわたって地熱ポテンシャルを定義することで定義される。
我々は、比較的小さな正のトレーニングサイト(既知の資源や活性発電所)と負のトレーニングサイト(不適切な地熱条件を持つ既知のドリルサイト)を入手し、この分類タスクのために人工ニューラルネットワークの制約と最適化に使用しました。
主な目的は, 決定的特徴が知られている広い地域において, 未知の場所での地熱資源ポテンシャルの予測である。
これらの予測は、さらなる詳細な調査のために有望な分野を標的にすることができる。
特定のニューラルネットワークアーキテクチャの定義から、トレーニングと最適化トライアルまで、私たちの作業の進化について説明する。
解析すると、モデル変数の避けられない問題と予測の不確実性が明らかになる。
最後に,ネットワークトレーニングにおける正規化に対するヒューリスティックアプローチであるベイズニューラルネットワークの概念を適用し,それらが提供する形式的不確実性対策の実践的解釈を利用する。 We consider the application of machine learning to the evaluation of geothermal resource potential. A supervised learning problem is defined where maps of 10 geological and geophysical features within the state of Nevada, USA are used to define geothermal potential across a broad region. We have available a relatively small set of positive training sites (known resources or active power plants) and negative training sites (known drill sites with unsuitable geothermal conditions) and use these to constrain and optimize artificial neural networks for this classification task. The main objective is to predict the geothermal resource potential at unknown sites within a large geographic area where the defining features are known. These predictions could be used to target promising areas for further detailed investigations. We describe the evolution of our work from defining a specific neural network architecture to training and optimization trials. Upon analysis we expose the inevitable problems of model variability and resulting prediction uncertainty. Finally, to address these problems we apply the concept of Bayesian neural networks, a heuristic approach to regularization in network training, and make use of the practical interpretation of the formal uncertainty measures they provide. | 翻訳日:2023-10-28 06:23:34 公開日:2023-10-26 |
# 動的MDETR:ビジュアルグラウンド化のための動的マルチモーダルトランスフォーマーデコーダ Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding ( http://arxiv.org/abs/2209.13959v2 ) ライセンス: Link先を確認 | Fengyuan Shi, Ruopeng Gao, Weilin Huang, Limin Wang | (参考訳) マルチモーダルトランスは、視覚的な接地のために画像とテキストを整列させる高い能力と柔軟性を示す。
しかし、既存のエンコーダのみの接地フレームワーク(例えばTransVG)は、2次時間複雑性を持つ自己アテンション演算のために重い計算に苦しむ。
この問題を解決するために,動的MDETR(Dynamic Mutilmodal DETR)と呼ばれる新しいマルチモーダルトランスフォーマーアーキテクチャを提案する。
重要な観察は、画像に高い空間冗長性が存在することである。
そこで我々は,視覚的グラウンド処理の高速化に先立って,この空間を利用して動的マルチモーダルトランスフォーマーデコーダを考案した。
具体的には,動的デコーダは2次元適応サンプリングモジュールとテキスト案内復号モジュールから構成される。
サンプリングモジュールは、基準点に関するオフセットを予測し、これらの情報パッチを選択することを目的としており、デコードモジュールは、画像特徴とテキスト特徴との交差注意を行うことで、接地対象情報を抽出する。
これら2つのモジュールは、徐々にモダリティギャップをブリッジし、接地対象の基準点を反復的に洗練するために積み重ねられ、最終的に視覚的接地という目的を実現する。
5つのベンチマークにおいて,提案した動的MDETRが計算と精度の競合的なトレードオフを達成できることを示す。
特に、デコーダの9%の機能点しか使用していないため、マルチモーダルトランスの約44%のGFLOPを削減できるが、エンコーダのみよりも精度が高い。
さらに、その一般化能力を検証し、Dynamic MDETRをスケールアップするために、最初のワンステージのCLIP強化ビジュアルグラウンドフレームワークを構築し、これらのベンチマークで最先端のパフォーマンスを達成する。 Multimodal transformer exhibits high capacity and flexibility to align image and text for visual grounding. However, the existing encoder-only grounding framework (e.g., TransVG) suffers from heavy computation due to the self-attention operation with quadratic time complexity. To address this issue, we present a new multimodal transformer architecture, coined as Dynamic Mutilmodal DETR (Dynamic MDETR), by decoupling the whole grounding process into encoding and decoding phases. The key observation is that there exists high spatial redundancy in images. Thus, we devise a new dynamic multimodal transformer decoder by exploiting this sparsity prior to speed up the visual grounding process. Specifically, our dynamic decoder is composed of a 2D adaptive sampling module and a text guided decoding module. The sampling module aims to select these informative patches by predicting the offsets with respect to a reference point, while the decoding module works for extracting the grounded object information by performing cross attention between image features and text features. These two modules are stacked alternatively to gradually bridge the modality gap and iteratively refine the reference point of grounded object, eventually realizing the objective of visual grounding. Extensive experiments on five benchmarks demonstrate that our proposed Dynamic MDETR achieves competitive trade-offs between computation and accuracy. Notably, using only 9% feature points in the decoder, we can reduce ~44% GFLOPs of the multimodal transformer, but still get higher accuracy than the encoder-only counterpart. In addition, to verify its generalization ability and scale up our Dynamic MDETR, we build the first one-stage CLIP empowered visual grounding framework, and achieve the state-of-the-art performance on these benchmarks. | 翻訳日:2023-10-28 06:23:19 公開日:2023-10-26 |
# うつ病予測のための機械学習における公平性とバイアス補正:4つの研究結果から Fairness and bias correction in machine learning for depression prediction: results from four study populations ( http://arxiv.org/abs/2211.05321v3 ) ライセンス: Link先を確認 | Vien Ngoc Dang, Anna Cascarano, Rosa H. Mulder, Charlotte Cecil, Maria A. Zuluaga, Jer\'onimo Hern\'andez-Gonz\'alez, Karim Lekadir | (参考訳) スティグマと不平等のかなりのレベルが精神医療、特に低給仕人口に存在している。
不等式は科学的目的のために収集されたデータに反映される。
適切に説明されていない場合、データから学習する機械学習(ML)モデルは、これらの構造的不平等やバイアスを強化することができる。
本稿では、異なる国と人口をカバーする4つのケーススタディにおいて、抑うつを予測するために設計されたMLモデルにおけるバイアスの体系的研究について述べる。
標準MLアプローチは定期的にバイアスのある振る舞いを示す。
また, 標準法とポストホック法の両方による緩和手法が, 不公平なバイアスの低減に有効であることを示した。
うつ病予測のための最高のMLモデルが結果の平等を提供することはない。
これは、モデル選択における公平さの分析と、デバイアス介入の影響に関する透過的な報告の重要性を強調している。
最後に,抑うつリスク予測のためのバイアス対応mlモデルの開発を実践的に推奨する。 A significant level of stigma and inequality exists in mental healthcare, especially in under-served populations. Inequalities are reflected in the data collected for scientific purposes. When not properly accounted for, machine learning (ML) models leart from data can reinforce these structural inequalities or biases. Here, we present a systematic study of bias in ML models designed to predict depression in four different case studies covering different countries and populations. We find that standard ML approaches show regularly biased behaviors. We also show that mitigation techniques, both standard and our own post-hoc method, can be effective in reducing the level of unfair bias. No single best ML model for depression prediction provides equality of outcomes. This emphasizes the importance of analyzing fairness during model selection and transparent reporting about the impact of debiasing interventions. Finally, we provide practical recommendations to develop bias-aware ML models for depression risk prediction. | 翻訳日:2023-10-28 06:13:43 公開日:2023-10-26 |
# エンタングル位相変調多モードコヒーレント状態による量子リピータ Quantum repeater via entangled phase modulated multimode coherent states ( http://arxiv.org/abs/2211.03597v3 ) ライセンス: Link先を確認 | Roman Goncharov, Alexei D. Kiselev, Fedor Kiselev, Eugene S. Moiseev, Eduard Samsonov, Sergei A. Moiseev, Vladimir Egorov | (参考訳) 本稿では,対称および反対称シュリンガー猫状態の電気的変調により得られる,絡み合った多モードコヒーレント状態を用いる量子リピータのスキームを提案する。
この方法では、リモートパーティによって生成された位相変調状態のサブキャリアモードを、中央ノードの対称ビームスプリッタに送信する。
ビームスプリッタの出力チャネルにおける光子計数測定により、絡み合ったコヒーレント状態が把握される。
量子チャネルにおけるデコヒーレンスの影響が、光数と対応する忠実度の統計に与える影響について検討する。
提案手法は, 生成した絡み付き量子テレポーテーションを利用して, サブキャリア波符号化により量子鍵分布の範囲を拡張できることを示す。 We present a scheme of quantum repeater that uses entangled multimode coherent states which are obtained by electro-optic modulation of symmetric and antisymmetric Schr\"odinger cat states. In this method subcarrier modes of the phase modulated states generated by the remote parties are sent to a symmetric beam splitter at the central node. The entangled coherent states are heraldedly prepared by photon counting measurements at the output channels of the beam splitter. We study how the effects of decoherence in the quantum channel affect statistics of photocounts and corresponding fidelity. We show how the proposed scheme can be useful for extending range of quantum key distribution with sub carrier wave encoding by exploiting quantum teleportation with the generated entanglement. | 翻訳日:2023-10-28 06:13:07 公開日:2023-10-26 |
# 重み付きばらつき可変オートエンコーダモデルによる音声強調 A weighted-variance variational autoencoder model for speech enhancement ( http://arxiv.org/abs/2211.00990v2 ) ライセンス: Link先を確認 | Ali Golmakani (MULTISPEECH), Mostafa Sadeghi (MULTISPEECH), Xavier Alameda-Pineda (ROBOTLEARN), Romain Serizel (MULTISPEECH) | (参考訳) 本稿では,時間周波数(tf)領域における音声先行分布の学習を含む変分オートエンコーダに基づく音声強調について述べる。
ゼロ平均複素値ガウス分布は、通常生成モデルに対して仮定され、音声情報は潜在変数の関数として分散で符号化される。
この一般的なアプローチとは対照的に、パラメータ学習における各スペクトログラム時間枠の寄与を重み付けした重み付き分散生成モデルを提案する。
重み付けにガンマ事前分布を課すことで, ガウス型ではなく, 生徒のt分布を, 音声生成モデルに効果的に導く。
提案する生成モデルに基づく効率的な学習・音声強調アルゴリズムを開発した。
スペクトログラム自動エンコーディングと音声強調に関する実験結果は,標準非重み付き分散モデルと比較して,提案手法の有効性と頑健性を示す。 We address speech enhancement based on variational autoencoders, which involves learning a speech prior distribution in the time-frequency (TF) domain. A zero-mean complex-valued Gaussian distribution is usually assumed for the generative model, where the speech information is encoded in the variance as a function of a latent variable. In contrast to this commonly used approach, we propose a weighted variance generative model, where the contribution of each spectrogram time-frame in parameter learning is weighted. We impose a Gamma prior distribution on the weights, which would effectively lead to a Student's t-distribution instead of Gaussian for speech generative modeling. We develop efficient training and speech enhancement algorithms based on the proposed generative model. Our experimental results on spectrogram auto-encoding and speech enhancement demonstrate the effectiveness and robustness of the proposed approach compared to the standard unweighted variance model. | 翻訳日:2023-10-28 06:12:55 公開日:2023-10-26 |
# 多視点一貫性による学習伝達可能逆ロバスト表現 Learning Transferable Adversarial Robust Representations via Multi-view Consistency ( http://arxiv.org/abs/2210.10485v2 ) ライセンス: Link先を確認 | Minseon Kim, Hyeonjeong Ha, Dong Bok Lee, Sung Ju Hwang | (参考訳) 少数の学習問題で成功したにもかかわらず、ほとんどのメタ学習モデルでは、クリーンな例での優れたパフォーマンスを達成することのみに重点を置いている。
近年の研究では、対人学習とメタラーニングを組み合わせることで、対人攻撃に対するメタラーナーの堅牢性を高めることが示されているが、これはメタラーニングの最終的な目標である未確認領域やタスクに対する一般化可能な対人ロバスト性を達成できない。
この課題に対処するために,デュアルエンコーダを用いたメタ・アドバンサ型多視点表現学習フレームワークを提案する。
具体的には、まずエンコーダパラメータを更新し、その差を最大化するためにラベルのない新たな攻撃を課すことにより、同一データインスタンスの2つの異なる拡張サンプル間での相違を導入する。
そして、ビュー全体の一貫性を最大化し、ドメインやタスク間で転送可能な堅牢な表現を学ぶ。
複数のベンチマークを実験的に検証することにより,未発見の領域からの少数ショット学習タスクにおけるフレームワークの有効性を実証し,先行するメタラーニングベースラインに対して10~%強固な精度改善を実現した。 Despite the success on few-shot learning problems, most meta-learned models only focus on achieving good performance on clean examples and thus easily break down when given adversarially perturbed samples. While some recent works have shown that a combination of adversarial learning and meta-learning could enhance the robustness of a meta-learner against adversarial attacks, they fail to achieve generalizable adversarial robustness to unseen domains and tasks, which is the ultimate goal of meta-learning. To address this challenge, we propose a novel meta-adversarial multi-view representation learning framework with dual encoders. Specifically, we introduce the discrepancy across the two differently augmented samples of the same data instance by first updating the encoder parameters with them and further imposing a novel label-free adversarial attack to maximize their discrepancy. Then, we maximize the consistency across the views to learn transferable robust representations across domains and tasks. Through experimental validation on multiple benchmarks, we demonstrate the effectiveness of our framework on few-shot learning tasks from unseen domains, achieving over 10\% robust accuracy improvements against previous adversarial meta-learning baselines. | 翻訳日:2023-10-28 06:11:39 公開日:2023-10-26 |
# 対人的自己監視学習のための効果的な標的攻撃 Effective Targeted Attacks for Adversarial Self-Supervised Learning ( http://arxiv.org/abs/2210.10482v2 ) ライセンス: Link先を確認 | Minseon Kim, Hyeonjeong Ha, Sooel Son, Sung Ju Hwang | (参考訳) 近年,ラベル情報のないモデルにおいて頑健性を実現する手段として,教師なし対人訓練(AT)が注目されている。
unsupervised atでのこれまでの研究は、主に、インスタンス単位の分類損失を最大化し、逆の例を生成する自己教師付き学習(ssl)フレームワークの実装に重点を置いてきた。
しかし,非競合攻撃による自己監督型トレーニング損失の最大化は,訓練モデルの堅牢性,特に負の例のない非競合性SSLフレームワークの改善に寄与しない非効率な敵をしばしば生み出すことが観察された。
この問題に対処するため,我々は,sslフレームワークの効果的な敵を生成するために,ターゲットとする敵攻撃に対する新たなポジティブマイニングを提案する。
具体的には、エントロピーと類似性に基づいて、与えられたインスタンスの最も紛らわしいが類似したターゲットインスタンスを選択し、そのインスタンスを選択されたターゲットに向けて摂動させるアルゴリズムを導入する。
本手法は,非コントラスト型SSLフレームワークに適用した場合のロバストネスの大幅な向上と,ベンチマークデータセット上での対照的なSSLフレームワークとの一貫性の低下を示す。 Recently, unsupervised adversarial training (AT) has been highlighted as a means of achieving robustness in models without any label information. Previous studies in unsupervised AT have mostly focused on implementing self-supervised learning (SSL) frameworks, which maximize the instance-wise classification loss to generate adversarial examples. However, we observe that simply maximizing the self-supervised training loss with an untargeted adversarial attack often results in generating ineffective adversaries that may not help improve the robustness of the trained model, especially for non-contrastive SSL frameworks without negative examples. To tackle this problem, we propose a novel positive mining for targeted adversarial attack to generate effective adversaries for adversarial SSL frameworks. Specifically, we introduce an algorithm that selects the most confusing yet similar target example for a given instance based on entropy and similarity, and subsequently perturbs the given instance towards the selected target. Our method demonstrates significant enhancements in robustness when applied to non-contrastive SSL frameworks, and less but consistent robustness improvements with contrastive SSL frameworks, on the benchmark datasets. | 翻訳日:2023-10-28 06:11:16 公開日:2023-10-26 |
# リニア光学を用いたノイズレス線形増幅のための最大成功確率境界の飽和 Saturating the Maximum Success Probability Bound for Noiseless Linear Amplification using Linear Optics ( http://arxiv.org/abs/2212.04274v2 ) ライセンス: Link先を確認 | Joshua J. Guanzon, Matthew S. Winnel, Deepesh Singh, Austin P. Lund, Timothy C. Ralph | (参考訳) ノイズレス線形増幅器(NLA)は、量子物理学の規則で許容される最高品質の増幅を行う。
残念なことに、これらの同じ規則はNLA演算を確率過程の領域に制約する非閉定理を通じて我々に反する。
それでも、これは様々な量子プロトコルに有用であり、最大成功確率で実行する最適なNLAデバイスへのアクセスを仮定する多くの提案がある。
本稿では,knill-laflamme-milburnニア決定性テレポータを増幅器に修正することにより,この成功確率を漸近的に達成する最初の線形光学nlaプロトコルを提案する。 A noiseless linear amplifier (NLA) performs the highest quality amplification allowable under the rules of quantum physics. Unfortunately, these same rules conspire against us via the no-cloning theorem, which constrains NLA operations to the domain of probabilistic processes. Nevertheless, they are useful for a wide variety of quantum protocols, with numerous proposals assuming access to an optimal NLA device which performs with the maximum possible success probability. Here we propose the first linear optics NLA protocol which asymptotically achieves this success probability bound, by modifying the Knill-Laflamme-Milburn near-deterministic teleporter into an amplifier. | 翻訳日:2023-10-28 06:03:44 公開日:2023-10-26 |
# グラフニューラルネットワークのためのノード指向スペクトルフィルタリング Node-oriented Spectral Filtering for Graph Neural Networks ( http://arxiv.org/abs/2212.03654v3 ) ライセンス: Link先を確認 | Shuai Zheng, Zhenfeng Zhu, Zhizhe Liu, Youru Li, and Yao Zhao | (参考訳) グラフニューラルネットワーク(GNN)は、GNNの固有のローパスフィルタリング特性により、非ホモフィルグラフデータを扱う場合、好ましくないグラフデータに対して顕著な性能を示した。
一般に、実世界のグラフは多彩なサブグラフパターンの複雑な混合であるため、グローバルな視点からグラフ上の普遍的なスペクトルフィルタを学習することは、現在のほとんどの研究において、局所的なパターンの変化に適応する上で大きな困難を被る可能性がある。
局所パターンの理論的解析に基づいて,既存のスペクトルフィルタリング法を再考し,グラフニューラルネットワーク(nfgnn)のノード指向スペクトルフィルタリングを提案する。
各ノードのノード指向のスペクトルフィルタを推定することにより、nfgnnは一般化された変換演算子を介して正確な局所ノード位置決め機能を備えることにより、局所ホモフィリパターンのバリエーションを適応的に判別する。
一方、再パラメータ化の利用は、ノード指向スペクトルフィルタを学習するための大域的一貫性と局所感度のトレードオフをもたらす。
さらに,NFGNNの局所化特性を理論的に解析し,適応フィルタリング後の信号が対応するノードの周囲に留まっていることを示す。
実験の結果,提案したNFGNNの方が良好な性能を示した。 Graph neural networks (GNNs) have shown remarkable performance on homophilic graph data while being far less impressive when handling non-homophilic graph data due to the inherent low-pass filtering property of GNNs. In general, since real-world graphs are often complex mixtures of diverse subgraph patterns, learning a universal spectral filter on the graph from the global perspective as in most current works may still suffer from great difficulty in adapting to the variation of local patterns. On the basis of the theoretical analysis of local patterns, we rethink the existing spectral filtering methods and propose the node-oriented spectral filtering for graph neural network (namely NFGNN). By estimating the node-oriented spectral filter for each node, NFGNN is provided with the capability of precise local node positioning via the generalized translated operator, thus discriminating the variations of local homophily patterns adaptively. Meanwhile, the utilization of re-parameterization brings a good trade-off between global consistency and local sensibility for learning the node-oriented spectral filters. Furthermore, we theoretically analyze the localization property of NFGNN, demonstrating that the signal after adaptive filtering is still positioned around the corresponding node. Extensive experimental results demonstrate that the proposed NFGNN achieves more favorable performance. | 翻訳日:2023-10-28 06:03:31 公開日:2023-10-26 |
# 大規模言語モデルにおける事象知識 : 不可能と不可能とのギャップ Event knowledge in large language models: the gap between the impossible and the unlikely ( http://arxiv.org/abs/2212.01488v4 ) ライセンス: Link先を確認 | Carina Kauf, Anna A. Ivanova, Giulia Rambelli, Emmanuele Chersoni, Jingyuan Selena She, Zawad Chowdhury, Evelina Fedorenko, Alessandro Lenci | (参考訳) 言語コーパスにおける単語共起パターンには驚くべき概念知識が含まれている。
大きな言語モデル(LLM)は、文脈における単語の予測のために訓練され、これらのパターンを活用し、世界の知識を必要とする多様な意味的タスクにおいて印象的なパフォーマンスを達成する。
LLMのセマンティック能力に関する重要なが未調査の疑問は、共通事象の一般的な知識を取得するかどうかである。
ここでは、2018年のBERTから2023年のMPTまでの5つの事前訓練LSMが、同一事象の最小限の異なる可聴性バージョンよりも、エージェントと患者間の相互作用のもっともらしい記述に高い確率を割り当てているかどうかを検証する。
3組の最小文対 (total n=1,215) を用いて, 事前学習した LLM がイベント知識を有し, その他の分散言語モデルよりも優れた結果を得た。
特に、ほとんどの場合、不可能なイベントよりも高い確率を割り当てる(教師はノートパソコン、教師はノートパソコンを購入した)。
しかし、llmは、ありそうにない出来事に対して、より一貫性のない好みを示す(乳母が男の子を、乳母が乳母を教育した)。
フォローアップ分析では、
i) LLMスコアは、可視性と表面レベルの文特徴の両方によって駆動される。
(ii)llmスコアは、構文的変種(アクティブ対パッシブ構成)にまたがるが、意味的変種(synonymous sentences)に収まらない。
三 人間の判断の曖昧さを反映したLLMエラー
(iv)文の可読性は、内部llm表現の整理次元として機能する。
以上の結果から,イベント・ナレッジの重要な側面は,分布型言語パターンから自然に現れるだけでなく,可能/不可能な事象の表現のギャップも浮き彫りにしている。 Word co-occurrence patterns in language corpora contain a surprising amount of conceptual knowledge. Large language models (LLMs), trained to predict words in context, leverage these patterns to achieve impressive performance on diverse semantic tasks requiring world knowledge. An important but understudied question about LLMs' semantic abilities is whether they acquire generalized knowledge of common events. Here, we test whether five pre-trained LLMs (from 2018's BERT to 2023's MPT) assign higher likelihood to plausible descriptions of agent-patient interactions than to minimally different implausible versions of the same event. Using three curated sets of minimal sentence pairs (total n=1,215), we found that pre-trained LLMs possess substantial event knowledge, outperforming other distributional language models. In particular, they almost always assign higher likelihood to possible vs. impossible events (The teacher bought the laptop vs. The laptop bought the teacher). However, LLMs show less consistent preferences for likely vs. unlikely events (The nanny tutored the boy vs. The boy tutored the nanny). In follow-up analyses, we show that (i) LLM scores are driven by both plausibility and surface-level sentence features, (ii) LLM scores generalize well across syntactic variants (active vs. passive constructions) but less well across semantic variants (synonymous sentences), (iii) some LLM errors mirror human judgment ambiguity, and (iv) sentence plausibility serves as an organizing dimension in internal LLM representations. Overall, our results show that important aspects of event knowledge naturally emerge from distributional linguistic patterns, but also highlight a gap between representations of possible/impossible and likely/unlikely events. | 翻訳日:2023-10-28 06:03:10 公開日:2023-10-26 |
# フロッケ状態 Floquet States ( http://arxiv.org/abs/2301.12676v2 ) ライセンス: Link先を確認 | Naoto Tsuji | (参考訳) 時間周期場によって駆動される量子系は凝縮物質物理学のプラットフォームであり、「フロッケ状態」と呼ばれる有効(準)定常状態は、運転中に外界の準粒子で現れる。
例えば、孤立駆動量子系における前熱的中間状態として、あるいは環境に結合した開放量子系における非平衡定常状態として現れる。
フロッケ状態は様々な興味深い物理的性質を持ち、それらのいくつかは平衡における元の非駆動系のものと大きく異なる。
本稿では,Floquet状態の基本的側面を概観し,凝縮物質物理学におけるFloquet状態の最近の話題と応用について論じる。 Quantum systems driven by a time-periodic field are a platform of condensed matter physics where effective (quasi)stationary states, termed "Floquet states", can emerge with external-field-dressed quasiparticles during driving. They appear, for example, as a prethermal intermediate state in isolated driven quantum systems or as a nonequilibrium steady state in driven open quantum systems coupled to environment. Floquet states may have various intriguing physical properties, some of which can be drastically different from those of the original undriven systems in equilibrium. In this article, we review fundamental aspects of Floquet states, and discuss recent topics and applications of Floquet states in condensed matter physics. | 翻訳日:2023-10-28 05:53:40 公開日:2023-10-26 |
# ハイパースペクトルリモートセンシング画像のためのマルチラベル予測分類器の訓練方法 Training Methods of Multi-label Prediction Classifiers for Hyperspectral Remote Sensing Images ( http://arxiv.org/abs/2301.06874v2 ) ライセンス: Link先を確認 | Salma Haidar and Jos\'e Oramas | (参考訳) スペクトル深度と幾何分解能の組み合わせにより、ハイパースペクトルリモートセンシング画像は、従来のコンピュータビジョン技術に挑戦する複雑な非線形情報を埋め込んでいる。
しかし、その表現学習能力で知られるディープラーニング手法は、そのような複雑さを扱うのにより適している。
ハイパースペクトルリモートセンシング画像の単一ラベル・ピクセルレベル分類に焦点をあてたアプリケーションとは異なり,2成分深層学習ネットワークに基づくマルチラベル・パッチレベル分類手法を提案する。
リモートセンシング画像から抽出した空間次元を縮小したパッチと全スペクトル深度を用いた。
さらに,ネットワークのための3つのトレーニングスキーム(イテレーティブ,ジョイント,カスケード)を調査した。
実験により、ジョイントスキームは最もパフォーマンスの高いスキームであることが示唆されるが、その応用には損失成分の最適重みの組み合わせの探索が必要となる。
イテレーティブスキームは、トレーニングの初期段階において、ネットワークの2つの部分間で機能の共有を可能にする。
マルチラベルで複雑なデータを改善する。
さらに, 抽出およびラベル付けを行った場合, 異なるアーキテクチャで設計した手法が良好に動作することを示した。 With their combined spectral depth and geometric resolution, hyperspectral remote sensing images embed a wealth of complex, non-linear information that challenges traditional computer vision techniques. Yet, deep learning methods known for their representation learning capabilities prove more suitable for handling such complexities. Unlike applications that focus on single-label, pixel-level classification methods for hyperspectral remote sensing images, we propose a multi-label, patch-level classification method based on a two-component deep-learning network. We use patches of reduced spatial dimension and a complete spectral depth extracted from the remote sensing images. Additionally, we investigate three training schemes for our network: Iterative, Joint, and Cascade. Experiments suggest that the Joint scheme is the best-performing scheme; however, its application requires an expensive search for the best weight combination of the loss constituents. The Iterative scheme enables the sharing of features between the two parts of the network at the early stages of training. It performs better on complex data with multi-labels. Further experiments showed that methods designed with different architectures performed well when trained on patches extracted and labeled according to our sampling method. | 翻訳日:2023-10-28 05:53:28 公開日:2023-10-26 |
# 古典的問題に対する資源制約量子回路の耐障害性限界 Limits of Fault-Tolerance on Resource-Constrained Quantum Circuits for Classical Problems ( http://arxiv.org/abs/2301.02158v2 ) ライセンス: Link先を確認 | Uthirakalyani.G, Anuj K. Nayak, Avhishek Chatterjee, Lav R. Varshney | (参考訳) 既存のフォールトトレラント量子回路の冗長性の低い境界は、入力と出力の両方が量子状態であるときに適用できる。
しかし、これらの境界は、Deutsch-Jozsa、Grover、Shorアルゴリズムのように、入力と出力が古典的なビットであるときに必ずしも保持されない。
ここでは、既存の境界から得られる雑音閾値が、Deutsch-Jozsaアルゴリズムの単純なフォールトトレラントな実装には適用されないことを示す。
次に、古典的な入力と出力を持つフォールトトレラント量子回路の最小要求冗長性に関する第1の下位境界を求める。
最近の結果は、量子回路の物理的資源制約により冗長性が増大するとノイズが増大し、結果として多くのフォールトトレランススキームが役に立たなくなることを示している。
したがって、フォールトトレラント量子回路の基本的限界に対する資源制約の影響を、実用的および理論的に特徴づけることが重要である。
したがって、下限の適用として、リソース制約によるノイズモデルの下での、フォールトトレラント量子回路の古典的な入力と出力の基本的な限界を特徴付ける。 Existing lower bounds on redundancy in fault-tolerant quantum circuits are applicable when both the input and the intended output are quantum states. These bounds may not necessarily hold, however, when the input and the intended output are classical bits, as in the Deutsch-Jozsa, Grover, or Shor algorithms. Here we show that indeed, noise thresholds obtained from existing bounds do not apply to a simple fault-tolerant implementation of the Deutsch-Jozsa algorithm. Then we obtain the first lower bound on the minimum required redundancy for fault-tolerant quantum circuits with classical inputs and outputs. Recent results show that due to physical resource constraints in quantum circuits, increasing redundancy can increase noise, which in turn may render many fault-tolerance schemes useless. So it is of both practical and theoretical interest to characterize the effect of resource constraints on the fundamental limits of fault-tolerant quantum circuits. Thus as an application of our lower bound, we characterize the fundamental limit of fault-tolerant quantum circuits with classical inputs and outputs under resource constraint-induced noise models. | 翻訳日:2023-10-28 05:53:12 公開日:2023-10-26 |
# Ponder: ニューラルネットワークによるポイントクラウド事前トレーニング Ponder: Point Cloud Pre-training via Neural Rendering ( http://arxiv.org/abs/2301.00157v2 ) ライセンス: Link先を確認 | Di Huang, Sida Peng, Tong He, Honghui Yang, Xiaowei Zhou, Wanli Ouyang | (参考訳) 微分可能なニューラルレンダリングによる点雲表現の自己教師付き学習手法を提案する。
インフォメーションポイントクラウド機能はリッチなジオメトリと外観の手がかりをエンコードでき、リアルな画像をレンダリングできるという事実に動機づけられ、大量のrgb-dデータ上にレンダリングされた画像と実際の画像を比較して、考案されたポイントベースのニューラルレンダ内でポイントクラウドエンコーダを訓練する。
学習したポイントクラウドエンコーダは、3D検出やセグメンテーションといったハイレベルなタスクだけでなく、3D再構成や画像合成といった低レベルなタスクを含む、さまざまな下流タスクに簡単に統合できる。
様々な課題に対する広範囲な実験は,既存の事前学習法と比較して,アプローチが優れていることを示している。 We propose a novel approach to self-supervised learning of point cloud representations by differentiable neural rendering. Motivated by the fact that informative point cloud features should be able to encode rich geometry and appearance cues and render realistic images, we train a point-cloud encoder within a devised point-based neural renderer by comparing the rendered images with real images on massive RGB-D data. The learned point-cloud encoder can be easily integrated into various downstream tasks, including not only high-level tasks like 3D detection and segmentation, but low-level tasks like 3D reconstruction and image synthesis. Extensive experiments on various tasks demonstrate the superiority of our approach compared to existing pre-training methods. | 翻訳日:2023-10-28 05:52:54 公開日:2023-10-26 |
# 局所測定による量子ネットワークトポロジーの推定 Inferring Quantum Network Topology using Local Measurements ( http://arxiv.org/abs/2212.07987v4 ) ライセンス: Link先を確認 | Daniel T. Chen, Brian Doolittle, Jeffrey M. Larson, Zain H. Saleem, Eric Chitambar | (参考訳) 量子ネットワーク内のノード間で発生する統計的相関は、そのトポロジに決定的に依存する。
しかし、このトポロジカルな情報は事前の知識がないかもしれないし、検証する必要があるかもしれない。
本稿では,量子ネットワークのトポロジを識別し,推定するための効率的なプロトコルを提案する。
エントロピー量、すなわちフォン・ノイマンエントロピーと測定された相互情報、および測定共分散を利用して位相を一意に特徴づける。
エントロピー量はGHZ状態を生成する2つのネットワークを区別するのに十分であることを示す。
さらに、量子ビット測定が利用可能であれば、エントロピー量と共分散は状態準備の仮定なしにネットワークトポロジーを推測するのに使うことができる。
このプロトコルはノイズに対して完全にロバストであり、量子変分最適化によって実装できることを示す。
古典的シミュレータと量子ハードウェアの両方での数値実験により、共分散は一般にトポロジを正確に効率的に推論するために信頼性が高いが、エントロピーに基づく手法は低ショット状態における絡み合いの欠如を識別するのに優れていることが示されている。 Statistical correlations that can be generated across the nodes in a quantum network depend crucially on its topology. However, this topological information might not be known a priori, or it may need to be verified. In this paper, we propose an efficient protocol for distinguishing and inferring the topology of a quantum network. We leverage entropic quantities -- namely, the von Neumann entropy and the measured mutual information -- as well as measurement covariance to uniquely characterize the topology. We show that the entropic quantities are sufficient to distinguish two networks that prepare GHZ states. Moreover, if qubit measurements are available, both entropic quantities and covariance can be used to infer the network topology without state-preparation assumptions. We show that the protocol can be entirely robust to noise and can be implemented via quantum variational optimization. Numerical experiments on both classical simulators and quantum hardware show that covariance is generally more reliable for accurately and efficiently inferring the topology, whereas entropy-based methods are often better at identifying the absence of entanglement in the low-shot regime. | 翻訳日:2023-10-28 05:50:47 公開日:2023-10-26 |
# 位置スケール騒音モデルにおける因果効果推定--最大確率と独立性テスト Cause-Effect Inference in Location-Scale Noise Models: Maximum Likelihood vs. Independence Testing ( http://arxiv.org/abs/2301.12930v3 ) ライセンス: Link先を確認 | Xiangyu Sun, Oliver Schulte | (参考訳) 因果発見の根本的な問題は因果推論であり、2つの確率変数間の正しい因果方向を学習する。
原因関数と雑音項の関数としての効果をモデル化することで、生成関数のクラスに関する仮定を活用できる重要な進歩がなされた。
最近導入されたヘテロセダスティックな位置スケールノイズ汎関数モデル(LSNM)は、表現力と識別可能性を保証する。
最大化可能性に基づくLSNMモデル選択は、ノイズ分布が正しく特定されたときに最先端の精度を達成する。
しかし, 広範囲な実験的評価により, 雑音分布形態がユーザによって不特定化されると, 精度が著しく低下することを示す。
本分析は, 原因方向よりも反因果方向の条件分散が小さい場合に主に発生することを示す。
代替として、残差独立試験による因果モデル選択は、ノイズの特定や条件分散の誤解を招きやすいことを発見した。 A fundamental problem of causal discovery is cause-effect inference, learning the correct causal direction between two random variables. Significant progress has been made through modelling the effect as a function of its cause and a noise term, which allows us to leverage assumptions about the generating function class. The recently introduced heteroscedastic location-scale noise functional models (LSNMs) combine expressive power with identifiability guarantees. LSNM model selection based on maximizing likelihood achieves state-of-the-art accuracy, when the noise distributions are correctly specified. However, through an extensive empirical evaluation, we demonstrate that the accuracy deteriorates sharply when the form of the noise distribution is misspecified by the user. Our analysis shows that the failure occurs mainly when the conditional variance in the anti-causal direction is smaller than that in the causal direction. As an alternative, we find that causal model selection through residual independence testing is much more robust to noise misspecification and misleading conditional variance. | 翻訳日:2023-10-28 05:43:49 公開日:2023-10-26 |
# グラフ生成モデル評価のための曲率濾過 Curvature Filtrations for Graph Generative Model Evaluation ( http://arxiv.org/abs/2301.12906v3 ) ライセンス: Link先を確認 | Joshua Southern, Jeremy Wayland, Michael Bronstein, Bastian Rieck | (参考訳) グラフ生成モデル評価は、分布レベルでのグラフ間の理解の違いを必要とする。
これにより、グラフのサルエント属性を効率的に活用できるようになる。
曲線はグラフの特徴付けにおいてその有用性を最近証明した性質の1つである。
しかし、モデル評価における表現的性質、安定性、実用性はほとんど未解明のままである。
グラフ生成モデルを評価するためのロバストで表現豊かな記述子を得るために,グラフ曲率記述子とトポロジカルデータ解析の新しい手法を組み合わせる。 Graph generative model evaluation necessitates understanding differences between graphs on the distributional level. This entails being able to harness salient attributes of graphs in an efficient manner. Curvature constitutes one such property that has recently proved its utility in characterising graphs. Its expressive properties, stability, and practical utility in model evaluation remain largely unexplored, however. We combine graph curvature descriptors with emerging methods from topological data analysis to obtain robust, expressive descriptors for evaluating graph generative models. | 翻訳日:2023-10-28 05:43:31 公開日:2023-10-26 |
# 分布的ロバストな安全強化学習のためのリスク-逆モデル不確かさ Risk-Averse Model Uncertainty for Distributionally Robust Safe Reinforcement Learning ( http://arxiv.org/abs/2301.12593v2 ) ライセンス: Link先を確認 | James Queeney and Mouhacine Benosman | (参考訳) 多くの現実世界のドメインは、不確実な環境で安全な意思決定を必要とする。
本研究では,この重要な問題にアプローチするための深層強化学習フレームワークを提案する。
遷移モデル上の分布を考察し、コヒーレント歪みリスク尺度を用いてモデル不確実性に対するリスク-逆視点を適用する。
我々は,このフレームワークに対するロバスト性保証を,分散的ロバストな安全強化学習問題の特定のクラスと等価であることを示すことによって提供する。
しかし、深い強化学習におけるロバスト性に対する既存のアプローチとは異なり、我々の定式化は最小限の最適化を伴わない。
これにより、単一のトレーニング環境からの標準データ収集のみを必要とする、効率的なモデルフリーなアプローチが実現されます。
安全制約のある継続的制御タスクの実験において、我々は、フレームワークが様々な摂動テスト環境にまたがって、デプロイ時に堅牢なパフォーマンスと安全性をもたらすことを実証する。 Many real-world domains require safe decision making in uncertain environments. In this work, we introduce a deep reinforcement learning framework for approaching this important problem. We consider a distribution over transition models, and apply a risk-averse perspective towards model uncertainty through the use of coherent distortion risk measures. We provide robustness guarantees for this framework by showing it is equivalent to a specific class of distributionally robust safe reinforcement learning problems. Unlike existing approaches to robustness in deep reinforcement learning, however, our formulation does not involve minimax optimization. This leads to an efficient, model-free implementation of our approach that only requires standard data collection from a single training environment. In experiments on continuous control tasks with safety constraints, we demonstrate that our framework produces robust performance and safety at deployment time across a range of perturbed test environments. | 翻訳日:2023-10-28 05:43:24 公開日:2023-10-26 |
# 入力不確実性下におけるリスク対策の多目的ベイズ最適化 Bounding Box-based Multi-objective Bayesian Optimization of Risk Measures under Input Uncertainty ( http://arxiv.org/abs/2301.11588v2 ) ライセンス: Link先を確認 | Yu Inatsu, Shion Takeno, Hiroyuki Hanada, Kazuki Iwata, Ichiro Takeuchi | (参考訳) 本研究では,入力不確実性(IU)の存在下でのブラックボックス関数のリスク測定によって定義されるパレートフロント(PF)を効率的に同定する,新しい多目的ベイズ最適化手法を提案する。
IUの存在下でのパレート最適化のための既存のBO法はリスク固有あるいは理論的保証がないが、提案手法は一般的なリスク対策に対処し、理論的保証を有する。
提案手法の基本的な考え方は,ブラックボックス関数に対するガウス過程(GP)モデルを仮定し,GPモデルを用いたリスク対策のための高確率バウンディングボックスを構築することである。
さらに,非支配的境界ボックスの不確実性を低減するため,有界ボックスに基づく準距離の最大値で定義される最大距離を用いて次の評価点を選択する手法を提案する。
理論的解析として,ベイズリスク,最悪のケースリスク,リスク価値といった様々なリスク対策において,アルゴリズムは有限個の反復で任意の精度の解を高い確率で返すことができることを証明した。
また, PF の有限近似やサンプリングに基づく有界箱の近似など, 無視できない近似誤差が存在するため, 近似誤差を考慮に入れた理論的解析を行う。
提案手法は,IUの設定だけでなく,数値実験による通常のMOBOの設定においても,既存の手法よりも優れていることを確認した。 In this study, we propose a novel multi-objective Bayesian optimization (MOBO) method to efficiently identify the Pareto front (PF) defined by risk measures for black-box functions under the presence of input uncertainty (IU). Existing BO methods for Pareto optimization in the presence of IU are risk-specific or without theoretical guarantees, whereas our proposed method addresses general risk measures and has theoretical guarantees. The basic idea of the proposed method is to assume a Gaussian process (GP) model for the black-box function and to construct high-probability bounding boxes for the risk measures using the GP model. Furthermore, in order to reduce the uncertainty of non-dominated bounding boxes, we propose a method of selecting the next evaluation point using a maximin distance defined by the maximum value of a quasi distance based on bounding boxes. As theoretical analysis, we prove that the algorithm can return an arbitrary-accurate solution in a finite number of iterations with high probability, for various risk measures such as Bayes risk, worst-case risk, and value-at-risk. We also give a theoretical analysis that takes into account approximation errors because there exist non-negligible approximation errors (e.g., finite approximation of PFs and sampling-based approximation of bounding boxes) in practice. We confirm that the proposed method outperforms compared with existing methods not only in the setting with IU but also in the setting of ordinary MOBO through numerical experiments. | 翻訳日:2023-10-28 05:43:09 公開日:2023-10-26 |
# ロバスト最適化による反事実的説明領域の探索 Finding Regions of Counterfactual Explanations via Robust Optimization ( http://arxiv.org/abs/2301.11113v3 ) ライセンス: Link先を確認 | Donato Maragno, Jannis Kurtz, Tabea E. R\"ober, Rob Goedhart, \c{S}. Ilker Birbil, Dick den Hertog | (参考訳) 反事実的説明は、バイアスの検出とデータ駆動分類モデルの説明可能性の改善において重要な役割を果たす。
反事実的説明(CE)は、モデルの決定が変化する最小の摂動データポイントである。
既存のメソッドのほとんどは1つのCEしか提供できないが、ユーザにとっては達成できないかもしれない。
本研究では,特徴がわずかに乱れた後も有効であるような頑健なCEを反復的に計算する手法を導出する。
この目的のために,提案手法はCEの全体領域を提供し,ユーザが適切なレコースを選択して望ましい結果を得ることを可能にする。
我々はロバスト最適化からのアルゴリズム的アイデアを用いて,ロジスティック回帰,決定木,ランダムフォレスト,ニューラルネットワークなど,最も一般的な機械学習手法における収束結果を証明する。
提案手法は,様々な共通データセットや分類モデルに対して,大域的に最適なロバストCEを効率的に生成できることを示す。 Counterfactual explanations play an important role in detecting bias and improving the explainability of data-driven classification models. A counterfactual explanation (CE) is a minimal perturbed data point for which the decision of the model changes. Most of the existing methods can only provide one CE, which may not be achievable for the user. In this work we derive an iterative method to calculate robust CEs, i.e. CEs that remain valid even after the features are slightly perturbed. To this end, our method provides a whole region of CEs allowing the user to choose a suitable recourse to obtain a desired outcome. We use algorithmic ideas from robust optimization and prove convergence results for the most common machine learning methods including logistic regression, decision trees, random forests, and neural networks. Our experiments show that our method can efficiently generate globally optimal robust CEs for a variety of common data sets and classification models. | 翻訳日:2023-10-28 05:42:18 公開日:2023-10-26 |
# 映像分解と予測のための物体中心表現の時間条件生成モデル Time-Conditioned Generative Modeling of Object-Centric Representations for Video Decomposition and Prediction ( http://arxiv.org/abs/2301.08951v4 ) ライセンス: Link先を確認 | Chengmin Gao and Bin Li | (参考訳) 複数の視点から世界を認識すると、ある視点から完全に排除された場合でも、人間は構成的な方法で完全な物体を推論する能力を持つ。
一方、人間は複数の視点を観察した後、新しい視点を想像することができる。
多視点オブジェクト指向学習の最近の顕著な進歩は、未解決の問題を残している。
1) 部分的又は完全に閉塞された物体の形状は、十分に再構成できない。
2)新しい視点予測は,ビュー表現における暗黙のルールではなく,高価な視点アノテーションに依存する。
本稿では,ビデオの時間条件生成モデルを提案する。
オブジェクトの完全な形状を正確に再構築するため,時刻条件付きビューの潜在表現とトランスを併用し,スロット注意の逐次拡張に入力してオブジェクト中心表現を学習する,オブジェクトとビューの潜在表現間の不連続性を高める。
また、ガウス過程はビュー潜在変数の優先としてビデオ生成や視点アノテーションなしでのノベルビュー予測に採用されている。
複数のデータセットの実験により、提案モデルがオブジェクト中心のビデオ分解を行い、隠蔽されたオブジェクトの完全な形状を再構築し、新しいビュー予測を行うことを示す。 When perceiving the world from multiple viewpoints, humans have the ability to reason about the complete objects in a compositional manner even when an object is completely occluded from certain viewpoints. Meanwhile, humans are able to imagine novel views after observing multiple viewpoints. Recent remarkable advances in multi-view object-centric learning still leaves some unresolved problems: 1) The shapes of partially or completely occluded objects can not be well reconstructed. 2) The novel viewpoint prediction depends on expensive viewpoint annotations rather than implicit rules in view representations. In this paper, we introduce a time-conditioned generative model for videos. To reconstruct the complete shape of an object accurately, we enhance the disentanglement between the latent representations of objects and views, where the latent representations of time-conditioned views are jointly inferred with a Transformer and then are input to a sequential extension of Slot Attention to learn object-centric representations. In addition, Gaussian processes are employed as priors of view latent variables for video generation and novel-view prediction without viewpoint annotations. Experiments on multiple datasets demonstrate that the proposed model can make object-centric video decomposition, reconstruct the complete shapes of occluded objects, and make novel-view predictions. | 翻訳日:2023-10-28 05:41:42 公開日:2023-10-26 |
# ケルディッシュ展開による雑音駆動量子系に対する完全正の写像 Completely Positive Map for Noisy Driven Quantum Systems Derived by Keldysh Expansion ( http://arxiv.org/abs/2303.11491v4 ) ライセンス: Link先を確認 | Ziwen Huang, Yunwei Lu, Anna Grassellino, Alexander Romanenko, Jens Koch, Shaojiang Zhu | (参考訳) 量子プロセッサにおけるデコヒーレンス誤差の正確なモデリングは、ゲートフィダリティの解析と改善に不可欠である。
リンドブラッドの力学図の精度を高めるために、いくつかの一般化が提案され、より単純でより体系的なフレームワークの探索が続いている。
本稿では,ケルディシュ形式に基づくデコヒーレンスモデルを提案する。
この定式化により、非周期駆動と相関量子ノイズをモデルに含めることができる。
応用範囲の広さに加えて,本手法は数値的に単純であり,CPTPマップを生成する。
これらの機能により、keldyshマップを量子最適制御技術に統合することができます。
この戦略は、量子ビット状態移動とゲート演算における相関量子ノイズを緩和するパルスを生成する。 Accurate modeling of decoherence errors in quantum processors is crucial for analyzing and improving gate fidelities. To increase the accuracy beyond that of the Lindblad dynamical map, several generalizations have been proposed, and the exploration of simpler and more systematic frameworks is still ongoing. In this paper, we introduce a decoherence model based on the Keldysh formalism. This formalism allows us to include non-periodic drives and correlated quantum noise in our model. In addition to its wide range of applications, our method is also numerically simple, and yields a CPTP map. These features allow us to integrate the Keldysh map with quantum-optimal-control techniques. We demonstrate that this strategy generates pulses that mitigate correlated quantum noise in qubit state-transfer and gate operations. | 翻訳日:2023-10-28 05:33:47 公開日:2023-10-26 |
# 量子エンジンとしてのジョセフソン接合 The Josephson junction as a quantum engine ( http://arxiv.org/abs/2302.04762v3 ) ライセンス: Link先を確認 | Robert Alicki and Micha{\l} Horodecki and Alejandro Jenkins and Marcin {\L}obejko and Gerardo Su\'arez | (参考訳) ジョゼフソン接合(jj)の超伝導電極におけるクーパー対を開放系として扱い、アンドレエフ散乱を介して電子の外部浴槽に結合する。
浴槽間の不平衡はJJに適用される直流バイアスを生成する。
弱結合極限では、電流電圧特性の形式、ヒステリシス、離散シャピロステップのAC駆動の下での出現を含む、JJの主特徴と一致する単純な動的記述を提供するマルコフマスター方程式を得る。
本モデルでは, 周波数$\omega = 2 e V / \hbar$を平均電圧$V$付近でJJの電気双極子の自己発振を示す。
この自己振動は、非線形運動方程式の「隠れ引力」と関連付けられ、周波数$\omega$とその調和を持つ非熱放射の観測結果を説明する。
量子エンジンとしてのJJのこの図は、ジョセフソン効果を不可逆的な過程として解き、量子熱力学や力学系の理論において新たな視点を開こうとするものである。 We treat the Cooper pairs in the superconducting electrodes of a Josephson junction (JJ) as an open system, coupled via Andreev scattering to external baths of electrons. The disequilibrium between the baths generates the DC bias applied to the JJ. In the weak-coupling limit we obtain a Markovian master equation that provides a simple dynamical description consistent with the main features of the JJ, including the form of the current-voltage characteristic, its hysteresis, and the appearance under AC driving of discrete Shapiro steps. For small dissipation, our model also exhibits a self-oscillation of the JJ's electrical dipole with frequency $\omega = 2 e V / \hbar$ around mean voltage $V$. This self-oscillation, associated with "hidden attractors" of the nonlinear equations of motion, explains the observed production of non-thermal radiation with frequency $\omega$ and its harmonics. We argue that this picture of the JJ as a quantum engine resolves open questions about the Josephson effect as an irreversible process and could open new perspectives in quantum thermodynamics and in the theory of dynamical systems. | 翻訳日:2023-10-28 05:33:37 公開日:2023-10-26 |
# 報酬の読み書き:指導マニュアルの助けを借りてatariをプレイすることを学ぶ Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals ( http://arxiv.org/abs/2302.04449v3 ) ライセンス: Link先を確認 | Yue Wu, Yewen Fan, Paul Pu Liang, Amos Azaria, Yuanzhi Li, Tom M. Mitchell | (参考訳) 高いサンプルの複雑さは、長い間RLにとって課題だった。
一方、人間は対話やデモンストレーションだけでなく、構造化されていないテキスト文書(例えば指示マニュアル)を読むことでタスクを実行することを学ぶ。
インストラクションマニュアルやwikiページは、貴重な機能やポリシー、タスク固有の環境ダイナミクスや報酬構造をエージェントに知らせる最も豊富なデータである。
そこで本研究では,人手による指導マニュアルを活用すれば,特定のタスクの学習方針を支援する能力が,より効率的で優れたエージェントとなると仮定する。
我々は read and reward framework を提案する。
read and rewardは、atari game developersがリリースしたマニュアルを読むことで、atari gamesのrlアルゴリズムを高速化する。
本フレームワークは,手動から関連情報を抽出・要約するQA抽出モジュールと,手動からの情報に基づいてオブジェクトとエージェントのインタラクションを評価するReasoningモジュールから構成される。
そして、相互作用を検出すると、標準A2C RL剤に補助報酬が付与される。
実験により,様々なrlアルゴリズムにより,設計支援時の性能とトレーニング速度が大幅に向上した。 High sample complexity has long been a challenge for RL. On the other hand, humans learn to perform tasks not only from interaction or demonstrations, but also by reading unstructured text documents, e.g., instruction manuals. Instruction manuals and wiki pages are among the most abundant data that could inform agents of valuable features and policies or task-specific environmental dynamics and reward structures. Therefore, we hypothesize that the ability to utilize human-written instruction manuals to assist learning policies for specific tasks should lead to a more efficient and better-performing agent. We propose the Read and Reward framework. Read and Reward speeds up RL algorithms on Atari games by reading manuals released by the Atari game developers. Our framework consists of a QA Extraction module that extracts and summarizes relevant information from the manual and a Reasoning module that evaluates object-agent interactions based on information from the manual. An auxiliary reward is then provided to a standard A2C RL agent, when interaction is detected. Experimentally, various RL algorithms obtain significant improvement in performance and training speed when assisted by our design. | 翻訳日:2023-10-28 05:33:19 公開日:2023-10-26 |
# 局所的非遺伝性からのスケールフリー局在とpt対称性の破れ Scale-free localization and PT symmetry breaking from local non-Hermiticity ( http://arxiv.org/abs/2302.04256v2 ) ライセンス: Link先を確認 | Bo Li, He-Ran Wang, Fei Song and Zhong Wang | (参考訳) エルミート格子系における局所非エルミート摂動は、連続スペクトル固有状態のスケールフリーな局在をジェネリックに誘導する。
摂動が境界まで有限距離にあるとき、スケールフリーの固有状態は指数関数的に局所化されたモードに促進され、その数は距離に比例する。
さらに、局所非エルミート摂動がパリティ時間(pt)対称性を尊重する場合、pt対称性の破れは常にスケールフリーまたは指数的局在の出現を伴う。
興味深いことに、スケールフリーモードの連続スペクトル PT 破れが発生するだけでなく、正確な PT 破れエネルギーウィンドウが生じる場合にも、簡潔なバンド構造条件が示される。
その結果、pt対称性と興味深い相互作用を持つ局所非エルミート摂動によって引き起こされる予期せぬ現象の連続が明らかになった。 We show that a local non-Hermitian perturbation in a Hermitian lattice system generically induces scale-free localization for the continuous-spectrum eigenstates. When the perturbation lies at a finite distance to the boundary, the scale-free eigenstates are promoted to exponentially localized modes, whose number is proportional to the distance. Furthermore, when the local non-Hermitian perturbation respects parity-time (PT) symmetry, the PT symmetry breaking is always accompanied by the emergence of scale-free or exponential localization. Intriguingly, we find a concise band-structure condition, which tells not only when the continuous-spectrum PT breaking of scale-free modes can occur, but also the precise PT-breaking energy window. Our results uncover a series of unexpected generic phenomena induced by a local non-Hermitian perturbation, which has interesting interplay with PT symmetry. | 翻訳日:2023-10-28 05:33:01 公開日:2023-10-26 |
# ZipLM: 言語モデルの推論を考慮した構造化プルーニング ZipLM: Inference-Aware Structured Pruning of Language Models ( http://arxiv.org/abs/2302.04089v2 ) ライセンス: Link先を確認 | Eldar Kurtic, Elias Frantar, Dan Alistarh | (参考訳) 大規模言語モデル(LLM)のブレークスルー性能には、大きな計算フットプリントと高いデプロイメントコストが伴う。
本稿では, ZipLM と呼ばれる LLM のための新しい構造化圧縮手法を提案することにより, この問題の解決に向けて前進する。
ziplmは任意の推論環境で所望のターゲットランタイムのスピードアップをマッチングしながら、最先端の精度とvsスピードアップを実現している。
具体的には、モデル、データセット、推論環境、および一連のスピードアップターゲットが与えられた場合、ZipLMは、最悪のロスランタイムトレードオフを伴うコンポーネントを反復的に識別し、削除する。
ポストトレーニング/ワンショットまたは段階圧縮設定を専門とする従来の方法とは異なり、BERT(エンコーダ)やGPT(デコーダ)のような特定のモデルのファミリーでのみ、ZipLMはこれらすべての設定で最先端の圧縮モデルを生成する。
さらに, ZipLM は, 従来の蒸留法とプルーニング法と比較して計算コストのごく一部で優れた結果が得られ, 所望の推論仕様を満たすように, より小型で高速で高精度なモデル群を生成するためのコスト効率の良いアプローチとなる。
特にZipLMは、CoFi、MiniLM、TinyBERTなど、以前のBERTベースの蒸留およびプルーニング技術よりも優れている。
さらに,高度に最適化されたMobileBERTモデルの性能は,ベースラインのBERT-largeモデルを単純に刈り取るだけで,アーキテクチャ探索によって得られる。
GPT2を圧縮する場合、ZipLMはDistilGPT2よりも60%小さく30%高速である。
私たちのコードは、https://github.com/IST-DASLab/ZipLM.comで利用可能です。 The breakthrough performance of large language models (LLMs) comes with major computational footprints and high deployment costs. In this paper, we progress towards resolving this problem by proposing a novel structured compression approach for LLMs, called ZipLM. ZipLM achieves state-of-the-art accuracy-vs-speedup, while matching a set of desired target runtime speedups in any given inference environment. Specifically, given a model, a dataset, an inference environment, as well as a set of speedup targets, ZipLM iteratively identifies and removes components with the worst loss-runtime trade-off. Unlike prior methods that specialize in either the post-training/one-shot or the gradual compression setting, and only for specific families of models such as BERT (encoder) or GPT (decoder), ZipLM produces state-of-the-art compressed models across all these settings. Furthermore, ZipLM achieves superior results for a fraction of the computational cost relative to prior distillation and pruning techniques, making it a cost-effective approach for generating an entire family of smaller, faster, and highly accurate models, guaranteed to meet the desired inference specifications. In particular, ZipLM outperforms all prior BERT-base distillation and pruning techniques, such as CoFi, MiniLM, and TinyBERT. Moreover, it matches the performance of the heavily optimized MobileBERT model, obtained via extensive architecture search, by simply pruning the baseline BERT-large model. When compressing GPT2, ZipLM outperforms DistilGPT2 while being 60% smaller and 30% faster. Our code is available at: https://github.com/IST-DASLab/ZipLM. | 翻訳日:2023-10-28 05:32:44 公開日:2023-10-26 |
# ロバストネスを考慮したコアセット選択による効率よい対人コントラスト学習 Efficient Adversarial Contrastive Learning via Robustness-Aware Coreset Selection ( http://arxiv.org/abs/2302.03857v5 ) ライセンス: Link先を確認 | Xilie Xu, Jingfeng Zhang, Feng Liu, Masashi Sugiyama, Mohan Kankanhalli | (参考訳) ACL(Adversarial contrastive Learning)は、高価なデータアノテーションを必要としないが、敵攻撃に耐える堅牢な表現を出力し、幅広い下流タスクに一般化する。
しかし、ACLは、すべてのトレーニングデータの逆の変種を生成するために、膨大な実行時間を必要とします。
ACLを高速化するために,ロバストネス対応コアセット選択法(RCS)を提案する。
RCSはラベル情報を必要とせず、自然なデータとその仮想逆数との表現の距離である表現の発散を最小限に抑える情報的サブセットを検索する。
すべての可能な部分集合をトラバースするRCSのバニラ解は計算的に禁じられている。
そこで, 理論上はrcsをサブモジュラー最大化のサロゲート問題に変換し, グリーディ探索は元の問題に対して最適性を保証する効率的な解である。
実験的な結果から、RCSはロバスト性伝達性を著しく損なうことなく、大きなマージンでACLを高速化できることを示す。
特に,我々の知る限りでは,大規模な ImageNet-1K データセット上で ACL を効率的に実行し,RCS による効率的なロバスト表現を実現するのは初めてである。
ソースコードはhttps://github.com/GodXuxilie/Efficient_ACL_via_RCSにあります。 Adversarial contrastive learning (ACL) does not require expensive data annotations but outputs a robust representation that withstands adversarial attacks and also generalizes to a wide range of downstream tasks. However, ACL needs tremendous running time to generate the adversarial variants of all training data, which limits its scalability to large datasets. To speed up ACL, this paper proposes a robustness-aware coreset selection (RCS) method. RCS does not require label information and searches for an informative subset that minimizes a representational divergence, which is the distance of the representation between natural data and their virtual adversarial variants. The vanilla solution of RCS via traversing all possible subsets is computationally prohibitive. Therefore, we theoretically transform RCS into a surrogate problem of submodular maximization, of which the greedy search is an efficient solution with an optimality guarantee for the original problem. Empirically, our comprehensive results corroborate that RCS can speed up ACL by a large margin without significantly hurting the robustness transferability. Notably, to the best of our knowledge, we are the first to conduct ACL efficiently on the large-scale ImageNet-1K dataset to obtain an effective robust representation via RCS. Our source code is at https://github.com/GodXuxilie/Efficient_ACL_via_RCS. | 翻訳日:2023-10-28 05:31:47 公開日:2023-10-26 |
# 知識グラフ上の関係性weisfeiler-lemanによるリンク予測の理論 A Theory of Link Prediction via Relational Weisfeiler-Leman on Knowledge Graphs ( http://arxiv.org/abs/2302.02209v4 ) ライセンス: Link先を確認 | Xingyue Huang, Miguel Romero Orth, \.Ismail \.Ilkan Ceylan, Pablo Barcel\'o | (参考訳) グラフニューラルネットワークは、グラフ構造化データ上での表現学習のための顕著なモデルである。
これらのモデルの能力と限界は単純なグラフではよく理解されているが、知識グラフの文脈では理解が不十分である。
我々の目標は、リンク予測の顕著なタスクに関連する知識グラフのためのグラフニューラルネットワークの展望を体系的に理解することである。
我々の分析は、一見無関係なモデルに対する統一的な視点を必要とし、他のモデルもアンロックする。
様々なモデルの表現力は対応する関係性ワイスフィラー・ルマンアルゴリズムによって特徴づけられる。
この分析は、グラフニューラルネットワークのクラスによってキャプチャされる関数のクラスを正確に論理的に特徴づけるために拡張される。
本論文で提示された理論的知見は, 実証的に検証された実用的設計選択の利点を説明するものである。 Graph neural networks are prominent models for representation learning over graph-structured data. While the capabilities and limitations of these models are well-understood for simple graphs, our understanding remains incomplete in the context of knowledge graphs. Our goal is to provide a systematic understanding of the landscape of graph neural networks for knowledge graphs pertaining to the prominent task of link prediction. Our analysis entails a unifying perspective on seemingly unrelated models and unlocks a series of other models. The expressive power of various models is characterized via a corresponding relational Weisfeiler-Leman algorithm. This analysis is extended to provide a precise logical characterization of the class of functions captured by a class of graph neural networks. The theoretical findings presented in this paper explain the benefits of some widely employed practical design choices, which are validated empirically. | 翻訳日:2023-10-28 05:31:04 公開日:2023-10-26 |
# RS-Del:ランダム化削除によるシーケンス分類のための編集距離ロバストネス証明書 RS-Del: Edit Distance Robustness Certificates for Sequence Classifiers via Randomized Deletion ( http://arxiv.org/abs/2302.01757v2 ) ライセンス: Link先を確認 | Zhuoqun Huang, Neil G. Marchant, Keane Lucas, Lujo Bauer, Olga Ohrimenko and Benjamin I. P. Rubinstein | (参考訳) ランダム化平滑化(Randomized smoothing)は、逆例に対して確実に堅牢な分類器を構築するための主要なアプローチである。
ランダム化平滑化に関する既存の研究は、画像のような連続入力を持つ分類器に焦点を当てており、ここでは$\ell_p$-normの有界な敵が一般的に研究されている。
しかし、異なる脅威モデルと平滑化メカニズムを必要とするソースコードなど、離散的または可変サイズの入力を持つ分類器の作業は限られている。
本研究では,ランダム化平滑化を離散シーケンス分類器に適用し,距離制限付き敵に対するロバスト性を確認した。
提案するスムース化機構は, ランダム化削除 (RS-Del) を用いて, 対向的削除, 挿入, 置換に対するロバスト性を確保するのに十分である。
私たちの認証証明は、確立されたneyman-pearsonアプローチから逸脱しています。
本稿では,分類器回避が確立された脅威モデルであるバイト列上のバイナリ分類問題であるマルウェア検出のケーススタディを提案する。
一般的なMalConvマルウェア検出モデルに適用すると、スムーシング機構RS-Delは128バイトの編集距離半径で91%の精度を達成できる。 Randomized smoothing is a leading approach for constructing classifiers that are certifiably robust against adversarial examples. Existing work on randomized smoothing has focused on classifiers with continuous inputs, such as images, where $\ell_p$-norm bounded adversaries are commonly studied. However, there has been limited work for classifiers with discrete or variable-size inputs, such as for source code, which require different threat models and smoothing mechanisms. In this work, we adapt randomized smoothing for discrete sequence classifiers to provide certified robustness against edit distance-bounded adversaries. Our proposed smoothing mechanism randomized deletion (RS-Del) applies random deletion edits, which are (perhaps surprisingly) sufficient to confer robustness against adversarial deletion, insertion and substitution edits. Our proof of certification deviates from the established Neyman-Pearson approach, which is intractable in our setting, and is instead organized around longest common subsequences. We present a case study on malware detection--a binary classification problem on byte sequences where classifier evasion is a well-established threat model. When applied to the popular MalConv malware detection model, our smoothing mechanism RS-Del achieves a certified accuracy of 91% at an edit distance radius of 128 bytes. | 翻訳日:2023-10-28 05:30:53 公開日:2023-10-26 |
# boosted learning を用いたポジトロントモグラフィ検出器のタイミング分解能向上 -残留物理学的アプローチ- Improving the Timing Resolution of Positron Emission Tomography Detectors Using Boosted Learning -- A Residual Physics Approach ( http://arxiv.org/abs/2302.01681v2 ) ライセンス: Link先を確認 | Stephan Naunheim, Yannick Kuhl, David Schug, Volkmar Schulz, Florian Mueller | (参考訳) 人工知能(AI)は、主に画像再構成を強化する医療画像の分野に参入している。
それでも、信号検出から計算まで、処理全体の改善は、大きなメリットをもたらす可能性がある。
本稿では,機械学習(ml)と残留物理学を用いた検出器最適化手法を提案する。
この概念をPET (positron emission tomography) に適用し, 一致時間分解能(CTR)の向上を目的とした。
PETはシンチレーション検出器で光子を検出することで体内の代謝過程を可視化する。
改善されたCTR性能は、患者に対する放射線被曝を減らす利点を提供する。
洗練された概念と読み出しトポロジーを持つ現代のPET検出器は、専用の校正技術を必要とする複雑な物理的および電子的システムを表す。
従来の手法は主に分析的な定式化に依存し、主検出器の特性をうまく記述した。
しかし、高次効果を考慮すると、追加の複雑さが実験現実と一致する理論モデルを引き起こす。
私たちの研究は、従来のキャリブレーションとAIと残留物理学を組み合わせることで、この課題に対処しています。
本稿では,グラデーションツリーブースティングと物理誘導データ生成を用いた残留物理ベースの戦略を提案する。
説明可能なAIフレームワークSHAP(SHapley Additive ExPlanations)は、学習パターンによる既知の物理的影響を特定するために使用された。
さらに、モデルは基本的な物理法則に対してテストされた。
臨床的に有意な19mmの検出器ではCTRを有意に改善し(20%以上)、185 ps (450-550 keV) のCTRに到達した。 Artificial intelligence (AI) is entering medical imaging, mainly enhancing image reconstruction. Nevertheless, improvements throughout the entire processing, from signal detection to computation, potentially offer significant benefits. This work presents a novel and versatile approach to detector optimization using machine learning (ML) and residual physics. We apply the concept to positron emission tomography (PET), intending to improve the coincidence time resolution (CTR). PET visualizes metabolic processes in the body by detecting photons with scintillation detectors. Improved CTR performance offers the advantage of reducing radioactive dose exposure for patients. Modern PET detectors with sophisticated concepts and read-out topologies represent complex physical and electronic systems requiring dedicated calibration techniques. Traditional methods primarily depend on analytical formulations successfully describing the main detector characteristics. However, when accounting for higher-order effects, additional complexities arise matching theoretical models to experimental reality. Our work addresses this challenge by combining traditional calibration with AI and residual physics, presenting a highly promising approach. We present a residual physics-based strategy using gradient tree boosting and physics-guided data generation. The explainable AI framework SHapley Additive exPlanations (SHAP) was used to identify known physical effects with learned patterns. In addition, the models were tested against basic physical laws. We were able to improve the CTR significantly (more than 20%) for clinically relevant detectors of 19 mm height, reaching CTRs of 185 ps (450-550 keV). | 翻訳日:2023-10-28 05:30:28 公開日:2023-10-26 |
# kernel stein discrepancy thinning:病理学の理論的展望と正規化による実際的修正 Kernel Stein Discrepancy thinning: a theoretical perspective of pathologies and a practical fix with regularization ( http://arxiv.org/abs/2301.13528v3 ) ライセンス: Link先を確認 | Cl\'ement B\'enard, Brian Staber, S\'ebastien Da Veiga (CREST) | (参考訳) Stein Thinning は (Riabiz et al., 2022) がマルコフ連鎖モンテカルロ (MCMC) のポストプロセッシング出力に対して提案した有望なアルゴリズムである。
主な原理は、ログターゲット分布の勾配だけを必要とする核化されたスタイン差分(KSD)を強引に最小化することであり、したがってベイズ推定に適している。
スタイン薄型化の主な利点は、バーンイン期間の自動除去、最近のMCMCアルゴリズムによるバイアスの補正、および目標分布に対する収束の漸近特性である。
それでも、スタインの薄型化はいくつかの経験的病理に悩まされ、文献で見られるように、近似が貧弱になる可能性がある。
本稿では,これらの病理を理論的に解析し,関連するメカニズムを明確に同定し,改善戦略を提案する。
次に, 同定された病理を緩和する正則化スタインシンキングアルゴリズムを導入する。
最後に、理論的な保証と広範な実験により、提案アルゴリズムの高効率性を示す。
python と JAX のkernaxライブラリとして正規化された Stein シンニングの実装は https://gitlab.com/drti/kernax.com で公開されている。 Stein thinning is a promising algorithm proposed by (Riabiz et al., 2022) for post-processing outputs of Markov chain Monte Carlo (MCMC). The main principle is to greedily minimize the kernelized Stein discrepancy (KSD), which only requires the gradient of the log-target distribution, and is thus well-suited for Bayesian inference. The main advantages of Stein thinning are the automatic remove of the burn-in period, the correction of the bias introduced by recent MCMC algorithms, and the asymptotic properties of convergence towards the target distribution. Nevertheless, Stein thinning suffers from several empirical pathologies, which may result in poor approximations, as observed in the literature. In this article, we conduct a theoretical analysis of these pathologies, to clearly identify the mechanisms at stake, and suggest improved strategies. Then, we introduce the regularized Stein thinning algorithm to alleviate the identified pathologies. Finally, theoretical guarantees and extensive experiments show the high efficiency of the proposed algorithm. An implementation of regularized Stein thinning as the kernax library in python and JAX is available at https://gitlab.com/drti/kernax. | 翻訳日:2023-10-28 05:30:07 公開日:2023-10-26 |
# 自律運転のためのクロスセマンティクス生成センサ融合を用いたペナルティに基づく模倣学習 Penalty-Based Imitation Learning With Cross Semantics Generation Sensor Fusion for Autonomous Driving ( http://arxiv.org/abs/2303.11888v4 ) ライセンス: Link先を確認 | Hongkuan Zhou, Aifen Sui, Letian Shi, and Yinxian Li | (参考訳) 近年では、エンドツーエンドの自動運転技術に注目が集まっている。
この技術は、より単純な構造とより高速な推論時間を持つ単一のニューラルネットワークで、運転パイプライン全体を置き換えることを含む。
しかし、このアプローチは駆動パイプラインのコンポーネント数を減らす一方で、解釈可能性と安全性に関する課題も提示する。
例えば、トレーニングされたポリシーが常にトラフィックルールに従うとは限らないため、中間出力が不足しているため、そのような誤動作の原因を判断することは困難である。
さらに, 自律走行技術の実現は, 周辺環境を正確に把握するために, センサデータの信頼性と迅速処理に大きく依存している。
本稿では,複数の情報モダリティを効率的に統合し,自律エージェントが交通規制を効果的に遵守できるようにするために,クロスセマンティクス生成センサ融合技術(P-CSG)と組み合わせたペナルティに基づく模倣学習手法を提案する。
提案手法は町長ベンチマークで評価され,最先端(sota)モデルであるinterfuserと比較して運転スコアが12%以上向上しているのを観察した。
特に, この性能向上を実現するとともに, 推論速度を7倍に増やし, モデルサイズを約30%削減した。
コードベースのリソースを含む詳細な情報はhttps://hk-zh.github.io/p-csg/にある。 In recent times, there has been a growing focus on end-to-end autonomous driving technologies. This technology involves the replacement of the entire driving pipeline with a single neural network, which has a simpler structure and faster inference time. However, while this approach reduces the number of components in the driving pipeline, it also presents challenges related to interpretability and safety. For instance, the trained policy may not always comply with traffic rules, and it is difficult to determine the reason for such misbehavior due to the lack of intermediate outputs. Additionally, the successful implementation of autonomous driving technology heavily depends on the reliable and expedient processing of sensory data to accurately perceive the surrounding environment. In this paper, we provide penalty-based imitation learning approach combined with cross semantics generation sensor fusion technologies (P-CSG) to efficiently integrate multiple modalities of information and enable the autonomous agent to effectively adhere to traffic regulations. Our model undergoes evaluation within the Town 05 Long benchmark, where we observe a remarkable increase in the driving score by more than 12% when compared to the state-of-the-art (SOTA) model, InterFuser. Notably, our model achieves this performance enhancement while achieving a 7-fold increase in inference speed and reducing the model size by approximately 30%. For more detailed information, including code-based resources, they can be found at https://hk-zh.github.io/p-csg/ | 翻訳日:2023-10-28 05:23:42 公開日:2023-10-26 |
# 異常な弱値がコヒーレンスを必要とするという単純な証明 A simple proof that anomalous weak values require coherence ( http://arxiv.org/abs/2303.08700v2 ) ライセンス: Link先を確認 | Rafael Wagner and Ernesto F. Galv\~ao | (参考訳) 量子力学的弱値 $a_w=\left\langle \phi|a|\psi \right \rangle / \left\langle \phi | \psi \right\rangle$ of an observable $a$ および pre- and post-selected states $\vert\psi \rangle, \vert \phi \rangle$ に関連する測定可能な量である。
a$の固有値の範囲外にある異常な弱値の意味とメトロロジー利用について多くの議論がなされている。
我々は、異常な弱値が(おそらく混合された)事前選択状態とポストセレクション状態が、$A$の固有基底においてコヒーレンスを持つ必要があるという単純な証明を示す。
また、異常$A_w$が一般化された文脈性の証人であり、運用上の弱い測定設定を不要とする条件も提示する。 The quantum mechanical weak value $A_w=\left\langle \phi|A|\psi \right \rangle / \left\langle \phi | \psi \right\rangle$ of an observable $A$ is a measurable quantity associated with an observable $A$ and pre- and post-selected states $\vert\psi \rangle, \vert \phi \rangle$. Much has been discussed about the meaning and metrological uses of anomalous weak values, lying outside of the range of eigenvalues of $A$. We present a simple proof that anomalous weak values require that the (possibly mixed) pre- and post- selection states have coherence in the eigenbasis of $A$. We also present conditions under which anomalous $A_w$ are witnesses of generalized contextuality, dispensing with the operational weak measurement set-up. | 翻訳日:2023-10-28 05:23:21 公開日:2023-10-26 |
# RoCNet:ディープラーニングを用いたポイントクラウドの3次元ロバスト登録 RoCNet: 3D Robust Registration of Point-Clouds using Deep Learning ( http://arxiv.org/abs/2303.07963v2 ) ライセンス: Link先を確認 | Karim Slimani, Brahim Tamadazte, Catherine Achard | (参考訳) 本稿では,ディープラーニングに基づく3Dポイントクラウド登録手法を提案する。
アーキテクチャは3つの異なるブロックで構成されている。
(i)各点の直近近傍を符号化する畳み込みグラフに基づく記述子と、表面正規値の変動を符号化する注意機構とからなるエンコーダ。
このような記述子は、同じ集合の点と2つの集合の点の間の注意を強調することで洗練される。
(ii)シンクホーンアルゴリズムを用いて対応の行列を推定するマッチングプロセス。
(iii) 最後に、対応行列からのkcベストスコアを用いて、2つの点雲間の剛性変換をransacにより計算する。
我々はModelNet40データセット上で実験を行い、提案アーキテクチャはガウス雑音による部分的な重なり合いやデータ拡張を含む、ほとんどのシミュレーション構成において最先端の手法よりも優れていることを示す。 This paper introduces a new method for 3D point cloud registration based on deep learning. The architecture is composed of three distinct blocs: (i) an encoder composed of a convolutional graph-based descriptor that encodes the immediate neighbourhood of each point and an attention mechanism that encodes the variations of the surface normals. Such descriptors are refined by highlighting attention between the points of the same set and then between the points of the two sets. (ii) a matching process that estimates a matrix of correspondences using the Sinkhorn algorithm. (iii) Finally, the rigid transformation between the two point clouds is calculated by RANSAC using the Kc best scores from the correspondence matrix. We conduct experiments on the ModelNet40 dataset, and our proposed architecture shows very promising results, outperforming state-of-the-art methods in most of the simulated configurations, including partial overlap and data augmentation with Gaussian noise. | 翻訳日:2023-10-28 05:23:04 公開日:2023-10-26 |
# ステップ依存コインで2d$のローカライズを探求 Exploring $2d$ localization with a step dependent coin ( http://arxiv.org/abs/2303.06769v2 ) ライセンス: Link先を確認 | Kallol Sen | (参考訳) コイン演算子である \cite{zahed_2023} を一般化し、2d$ でローカライズを誘導するステップ依存の特徴を含む。
これは、局所化された歩行の分類にさらに使用できる確率分布から明らかである。
局所化はエントロピー測度からも明らかである。
3つの異なる尺度を計算し比較し
(a)位置と硬貨空間におけるシャノンエントロピー
(b)位置とスピン空間の間の絡み合いエントロピー、
c) ステップ依存の密度演算子のPOVMであり、独立したコインをステップする量子相対エントロピー。
シャノンエントロピーとエンタングルメントエントロピーは時間ステップの周期的および有界な関数である。
シャノンの零点とエンタングルメントエントロピーは波動関数の完全な局在を示す。
量子相対エントロピーと量子情報バリアンスは、ステップ依存とステップ独立ウォークが一致するゼロミニマを持つ同様の周期的特徴を示す。
最後に、ステップ依存コインをエネルギーの関数として数値的な局所化長(リアプノフ指数の逆)を計算し、近似摂動計算と比較し、ステップ依存コインをステップ依存コインの背景に摂動として配置する。
いずれの場合においても、局在長は運動量空間のほぼ同じ位置でピークとなる。 We generalize the coin operator of \cite{Zahed_2023}, to include a step dependent feature which induces localization in $2d$. This is evident from the probability distributions which can be further used to categorize the localized walks. Localization is also evident from the entropic measures. We compute and compare three distinct measures (a) Shannon Entropy in the position and coin space, (b) Entanglement entropy between position and spin space, and (c) Quantum Relative Entropy which is a POVM of density operators of the step dependent and step independent coins. Shannon Entropy and Entanglement Entropy are periodic and bounded functions of the time steps. The zeros of Shannon and Entanglement entropies signify a complete localization of the wave-function. The Quantum Relative Entropy and Quantum Information Variance exhibit a similar periodic feature with a zero minima where the step dependent and step independent walks coincide. Finally, we compute the numerical localization length (inverse of the Lyapunov Exponent) for the step dependent coin as a function of energy and compare with an approximate perturbative computation, where we put the step dependent coin as a perturbation in the background of a step independent coin. In both the instances, we find that the localization length peaks at approximately the same positions in the momentum space. | 翻訳日:2023-10-28 05:22:47 公開日:2023-10-26 |
# しわ方向検出によるロボット布の平滑化 Robotic Fabric Flattening with Wrinkle Direction Detection ( http://arxiv.org/abs/2303.04909v3 ) ライセンス: Link先を確認 | Yulei Qiu, Jihong Zhu, Cosimo Della Santina, Michael Gienger, Jens Kober | (参考訳) Deformable Object Manipulation (DOM) は, 自動布地処理, ケーブルルーティング, 外科手術などの実用化に寄与する重要な研究分野である。
知覚は複雑なダイナミクスと変形可能な物体の自由度によってdomの主要な課題の1つと考えられている。
本稿では,Gaborフィルタを用いた新しい画像処理アルゴリズムを開発し,布から有用な特徴を抽出し,これに基づいて布地平滑化作業の戦略を考案する。
また、全体のフレームワークを実験的に評価し、3人のオペレータと比較した。
その結果,本アルゴリズムは実際のロボット実験と同様にシミュレーションにより,布のしわの方向を正確に決定できることがわかった。
さらに,提案手法をベースライン法と比較した。
実験ビデオはhttps://sites.google.com/view/robotic-fabric-flattening/homeで閲覧できる。 Deformable Object Manipulation (DOM) is an important field of research as it contributes to practical tasks such as automatic cloth handling, cable routing, surgical operation, etc. Perception is considered one of the major challenges in DOM due to the complex dynamics and high degree of freedom of deformable objects. In this paper, we develop a novel image-processing algorithm based on Gabor filters to extract useful features from cloth, and based on this, devise a strategy for cloth flattening tasks. We also evaluate the overall framework experimentally and compare it with three human operators. The results show that our algorithm can determine the direction of wrinkles on the cloth accurately in simulation as well as in real robot experiments. Furthermore, our dewrinkling strategy compares favorably to baseline methods. The experiment video is available on https://sites.google.com/view/robotic-fabric-flattening/home | 翻訳日:2023-10-28 05:22:25 公開日:2023-10-26 |
# 連続および離散空間における疎ガウス過程による回帰からの効率的なセンサ配置 Efficient Sensor Placement from Regression with Sparse Gaussian Processes in Continuous and Discrete Spaces ( http://arxiv.org/abs/2303.00028v6 ) ライセンス: Link先を確認 | Kalvik Jakkala, Srinivas Akella | (参考訳) センサ配置問題は温度、降水量、塩分濃度などの相関現象を監視する際に発生する一般的な問題である。
この問題に対する既存のアプローチは、相互情報~(mi)のような情報メトリクスの最大化として定式化され、離散領域における欲望アルゴリズムのような最適化法や、連続領域における遺伝的アルゴリズムのような微分なし最適化法を用いる。
しかし、センサ配置のためのmiの計算には環境の離散化が必要であり、計算コストは離散化環境の大きさに依存する。
この制限は、これらのアプローチをスケーリングから大きな問題に制限する。
我々は,センサ配置問題とスパースガウス過程-(sgp)との新たな関係を発見した。
我々のアプローチはSGPを活用し、勾配に基づくので、継続的環境における解の配置を効率的に見つけることができる。
我々はこの手法を一般化して離散環境も扱う。
4つの実世界のデータセットを用いた実験結果から,miと再構成品質の両面で,従来と同等かそれ以上のセンサ配置を,いずれも大幅に高速で生成できることが判明した。
我々の計算効率の良いアプローチは、情報経路計画アルゴリズムのための大規模センサー配置と高速ロボットセンサ配置の両方を可能にする。 The sensor placement problem is a common problem that arises when monitoring correlated phenomena, such as temperature, precipitation, and salinity. Existing approaches to this problem typically formulate it as the maximization of information metrics, such as mutual information~(MI), and use optimization methods such as greedy algorithms in discrete domains, and derivative-free optimization methods such as genetic algorithms in continuous domains. However, computing MI for sensor placement requires discretizing the environment, and its computation cost depends on the size of the discretized environment. This limitation restricts these approaches from scaling to large problems. We have uncovered a novel connection between the sensor placement problem and sparse Gaussian processes~(SGP). Our approach leverages SGPs and is gradient-based, which allows us to efficiently find solution placements in continuous environments. We generalize our method to also handle discrete environments. Our experimental results on four real-world datasets demonstrate that our approach generates sensor placements consistently on par with or better than the prior state-of-the-art approaches in terms of both MI and reconstruction quality, all while being significantly faster. Our computationally efficient approach enables both large-scale sensor placement and fast robotic sensor placement for informative path planning algorithms. | 翻訳日:2023-10-28 05:22:12 公開日:2023-10-26 |
# 星-三角関係からの可積分量子回路 Integrable Quantum Circuits from the Star-Triangle Relation ( http://arxiv.org/abs/2302.12675v4 ) ライセンス: Link先を確認 | Yuan Miao, Eric Vernier | (参考訳) 恒星-三角関係は、古典的な2次元統計力学モデルに対して正確な結果を提供する、正確に解けるモデルの領域において重要な役割を果たす。
本稿では、星-三角関係を用いた可積分量子回路を構築する。
この構成は、星-三角関係によって解かれた統計力学モデルに対して相互に可換な2パラメータ転移行列の族に依存しており、yang-baxter可積分頂点モデルに基づく既知構成とは異なる。
スペクトルパラメータの特別な値において、転送行列は積分可能な量子回路にマッピングされ、そこでは局所保存電荷の無限の族が導出される。
我々は、最近ロトコフらによって予想された積分性を持つ$Q$状態ポッツ回路と、我々の知識に新しい$\mathbb{Z}_Q$回路という、$Q$状態ポッツ回路の連鎖に作用する回路の2つの例を示す。
最初の例では、$Q=3$ を Zamolodchikov-Fateev 19-頂点モデルに接続する。 The star-triangle relation plays an important role in the realm of exactly solvable models, offering exact results for classical two-dimensional statistical mechanical models. In this article, we construct integrable quantum circuits using the star-triangle relation. Our construction relies on families of mutually commuting two-parameter transfer matrices for statistical mechanical models solved by the star-triangle relation, and differs from previously known constructions based on Yang-Baxter integrable vertex models. At special value of the spectral parameter, the transfer matrices are mapped into integrable quantum circuits, for which infinite families of local conserved charges can be derived. We demonstrate the construction by giving two examples of circuits acting on a chain of $Q-$state qudits: $Q$-state Potts circuits, whose integrability has been conjectured recently by Lotkov et al., and $\mathbb{Z}_Q$ circuits, which are novel to our knowledge. In the first example, we present for $Q=3$ a connection to the Zamolodchikov-Fateev 19-vertex model. | 翻訳日:2023-10-28 05:21:51 公開日:2023-10-26 |
# dualstreamfoveanet:ロバストなfovea局在を解剖学的に認識するデュアルストリーム融合アーキテクチャ DualStreamFoveaNet: A Dual Stream Fusion Architecture with Anatomical Awareness for Robust Fovea Localization ( http://arxiv.org/abs/2302.06961v3 ) ライセンス: Link先を確認 | Sifan Song, Jinfeng Wang, Zilong Wang, Shaopeng Wang, Jionglong Su, Xiaowei Ding, Kang Dang | (参考訳) 網膜疾患の分析には正確なfovea局在が不可欠である。
現在のディープラーニングベースの手法は従来の手法よりも優れていますが、胎児の周囲の局所的な解剖学的ランドマークの欠如、病気の網膜画像の堅牢な処理能力の欠如、画像条件の変化といった課題に直面しています。
本稿では,マルチキュー核融合のためのDualStreamFoveaNet (DSFN) と呼ばれるトランスフォーマーアーキテクチャを提案する。
このアーキテクチャは、ロバストなfoveaローカライゼーションのために、網膜と血管分布を用いた長距離接続とグローバルな特徴を明示的に組み込んでいる。
両ストリームエンコーダに空間的注意機構を導入し,自己学習型解剖情報を抽出・融合し,血管に沿って分布する特徴に着目し,トークン数を減らして計算コストを大幅に削減する。
提案アーキテクチャは,2つの公開データセットと1つの大規模プライベートデータセットに対して,最先端のパフォーマンスを実現する。
さらに、DSFNは正常および疾患網膜像の両方においてより堅牢であり、クロスデータセット実験においてより高度な一般化能力を有することを示した。 Accurate fovea localization is essential for analyzing retinal diseases to prevent irreversible vision loss. While current deep learning-based methods outperform traditional ones, they still face challenges such as the lack of local anatomical landmarks around the fovea, the inability to robustly handle diseased retinal images, and the variations in image conditions. In this paper, we propose a novel transformer-based architecture called DualStreamFoveaNet (DSFN) for multi-cue fusion. This architecture explicitly incorporates long-range connections and global features using retina and vessel distributions for robust fovea localization. We introduce a spatial attention mechanism in the dual-stream encoder to extract and fuse self-learned anatomical information, focusing more on features distributed along blood vessels and significantly reducing computational costs by decreasing token numbers. Our extensive experiments show that the proposed architecture achieves state-of-the-art performance on two public datasets and one large-scale private dataset. Furthermore, we demonstrate that the DSFN is more robust on both normal and diseased retina images and has better generalization capacity in cross-dataset experiments. | 翻訳日:2023-10-28 05:21:31 公開日:2023-10-26 |
# 変圧器-CNNセグメンテーションによるリチウム電池の品質管理 Lithium Metal Battery Quality Control via Transformer-CNN Segmentation ( http://arxiv.org/abs/2302.04824v2 ) ライセンス: Link先を確認 | Jerome Quenum, Iryna Zenyuk, and Daniela Ushizima | (参考訳) リチウム・メタル・バッテリ(LMB)は理論エネルギー密度が高いため次世代のバッテリシステムとなる可能性がある。
しかし、デンドライトとして知られる欠陥は、LMBの開発と利用を妨げる不均一なリチウム(Li)めっきによって形成される。
デンドライト形態を観察する非破壊的手法は、X線CT(Computerd tomography)を用いて断面ビューを提供することが多い。
電池内部の3次元構造を検索するためには,XCT画像の定量的解析に画像セグメンテーションが不可欠である。
本稿では,xctデータからデンドライトをセグメント化可能なtransforcnnと呼ばれるトランスフォーマーベースのニューラルネットワークを用いた,新たな意味セグメンテーション手法を提案する。
さらに,提案するTransforCNNの性能を,XCT解析のためのEnsemble NetworkモデルからなるU-Net,Y-Net,E-Netの3つのアルゴリズムと比較した。
以上の結果から,mIoU平均とmDSC平均の2次元的類似度係数 (Dice similarity Coefficient, MDSC平均) や,いくつかの定性的に比較した視覚化によって,TransforCNNを用いることの利点が示された。 Lithium metal battery (LMB) has the potential to be the next-generation battery system because of its high theoretical energy density. However, defects known as dendrites are formed by heterogeneous lithium (Li) plating, which hinders the development and utilization of LMBs. Non-destructive techniques to observe the dendrite morphology often use X-ray computed tomography (XCT) to provide cross-sectional views. To retrieve three-dimensional structures inside a battery, image segmentation becomes essential to quantitatively analyze XCT images. This work proposes a new semantic segmentation approach using a transformer-based neural network called TransforCNN that is capable of segmenting out dendrites from XCT data. In addition, we compare the performance of the proposed TransforCNN with three other algorithms, such as U-Net, Y-Net, and E-Net, consisting of an Ensemble Network model for XCT analysis. Our results show the advantages of using TransforCNN when evaluating over-segmentation metrics, such as mean Intersection over Union (mIoU) and mean Dice Similarity Coefficient (mDSC) as well as through several qualitatively comparative visualizations. | 翻訳日:2023-10-28 05:21:09 公開日:2023-10-26 |
# 測定によるキラル性II:拡散と障害 Measurement Induced Chirality II: Diffusion and Disorder ( http://arxiv.org/abs/2306.11150v2 ) ライセンス: Link先を確認 | Brian J J Khor, Matthew Wampler, Gil Refael, Israel Klich | (参考訳) 反復量子測定は、物質中の効果的な新しい非平衡ダイナミクスを生み出すことができる。
ここでは,このような計測駆動システムと障害を組み合わせる。
特に,システム内の拡散挙動と種々の障害が測定誘導キラル輸送プロトコル[1]に及ぼす影響について検討した。
クリーンなシステムで測定自体が生み出す拡散挙動を特徴付けることから始める。
次に, 測定サイクル当たりの粒子のエッジフローを, サイト希釈, 格子歪み, およびオンサイト化学ポテンシャルの3種類の障害に対して検討した。
量子ゼノ極限では、格子歪みとランダムなオンサイトポテンシャルを持つ乱れ測定系に対する効果的な記述は古典的確率モデルとしてモデル化することができ、これらの障害の増加による全体的な効果は、完全な流れからゼロ輸送へのクロスオーバーを引き起こす。
一方、格子内に空隙が存在する場合、測定サイクル毎の粒子の流れは、一意からゼロへのパーコレーション相転移、パーコレーションしきい値$p_c \approx 0.26$、臨界指数$\nu \approx 1.35$となる。
また,Zeno の限界から数値的な結果が得られ,Zeno 効果から遠ざかることによる全体的な効果は,我々のプロトコルにおける測定周波数が小さくなると,サイクル当たりの粒子流量を減少させることに注意する。 Repeated quantum measurements can generate effective new non-equilibrium dynamics in matter. Here we combine such a measurement driven system with disorder. In particular, we investigate the diffusive behavior in the system and the effect of various types of disorder on the measurement induced chiral transport protocol [1]. We begin by characterizing the diffusive behavior produced by the measurements themselves in a clean system. We then examine the edge flow of particles per measurement cycle for three different types of disorder: site dilution, lattice distortion, and disorder in onsite chemical potential. In the quantum Zeno limit, the effective descriptions for the disordered measurement system with lattice distortions and random onsite potential can be modelled as a classical stochastic model, and the overall effect of increasing these disorders induces a crossover from perfect flow to zero transport. On the other hand if vacancies are present in the lattice the flow of particles per measurement cycle undergoes a percolation phase transition from unity to zero with percolation threshold $p_c \approx 0.26$, with critical exponent $\nu \approx 1.35$. We also present numerical results away from Zeno limit and note that the overall effect of moving away from the Zeno effect is to reduce particle flow per cycle when the measurement frequency in our protocol is reduced. | 翻訳日:2023-10-28 05:11:44 公開日:2023-10-26 |
# グローバル駆動rydberg原子配列における普遍量子計算 Universal Quantum Computation in Globally Driven Rydberg Atom Arrays ( http://arxiv.org/abs/2305.19220v2 ) ライセンス: Link先を確認 | Francesco Cesa and Hannes Pichler | (参考訳) 我々は、量子ビットの局所的なアドレス付けを必要とせず、大域的な駆動のみに依存するRydberg原子配列を用いた量子計算モデルを構築し、任意の回路は、静的原子配列上の大域的共振レーザーパルスのシーケンスによって実行される。
まず、回路は原子のトラップ位置にインプリントされ、パルスによって実行される。第2に、原子配置は回路に依存しず、アルゴリズムは完全にグローバル駆動シーケンスにエンコードされる。
特に原子番号の2次オーバーヘッドは、普遍量子プロセッサを実現するための局所制御の必要性を排除するのに十分であることを示す。
我々は任意の量子計算の全てのステップに対して明示的なプロトコルを提供し、モデル特有のエラー抑制の戦略について論じる。
提案手法は、rydberg 制約制約を受ける原子を持つデュアル種プロセッサに基づいているが、他のセットアップにも変換される可能性がある。 We develop a model for quantum computation with Rydberg atom arrays, which only relies on global driving, without the need of local addressing of the qubits: any circuit is executed by a sequence of global, resonant laser pulses on a static atomic arrangement. We present two constructions: for the first, the circuit is imprinted in the trap positions of the atoms and executed by the pulses; for the second, the atom arrangement is circuit-independent, and the algorithm is entirely encoded in the global driving sequence. Our results show in particular that a quadratic overhead in atom number is sufficient to eliminate the need for local control to realize a universal quantum processor. We give explicit protocols for all steps of an arbitrary quantum computation, and discuss strategies for error suppression specific to our model. Our scheme is based on dual-species processors with atoms subjected to Rydberg blockade constraints, but it might be transposed to other setups as well. | 翻訳日:2023-10-28 05:11:18 公開日:2023-10-26 |
# 多モードキャビティにおける光子を介する相互作用のチューニング:超固体から絶縁液滴への音波励起 Tuning photon-mediated interactions in a multimode cavity: from supersolid to insulating droplets hosting phononic excitations ( http://arxiv.org/abs/2305.16244v2 ) ライセンス: Link先を確認 | Natalia Masalaeva, Helmut Ritsch, Farokh Mivehvar | (参考訳) レーザー生成光格子に閉じ込められた超低温原子は、量子シミュレーションの汎用プラットフォームとして機能する。
しかし、これらの格子は無限に硬いため、フォノン自由度をエミュレートすることはできない。
この制限は、多モードキャビティ内の出現した光学格子で持ち上げることができる。
マルチモードキャビティQEDの最近の実験的進歩により,Boseガスをリングキャビティの長手モードに結合させることにより,フォノン様格子励起による超固体および液滴状態の実装と研究を行う手法を提案する。
接触衝突型と可変範囲のキャビティを媒介する相互作用の相互作用は、超ラジアント相転移の連続的なモーメントに対するロートン型モード軟化を示す絶縁液滴相だけでなく弾性超固体を含むリッチな相図へと導かれる。
局所密度摂動に対する系の非自明な動的応答は、さらにフォノン様モードの存在を証明している。 Ultracold atoms trapped in laser-generated optical lattices serve as a versatile platform for quantum simulations. However, as these lattices are infinitely stiff, they do not allow to emulate phonon degrees of freedom. This restriction can be lifted in emerged optical lattices inside multimode cavities. Motivated by recent experimental progress in multimode cavity QED, we propose a scheme to implement and study supersolid and droplet states with phonon-like lattice excitations by coupling a Bose gas to many longitudinal modes of a ring cavity. The interplay between contact collisional and tunable-range cavity-mediated interactions leads to a rich phase diagram, which includes elastic supersolid as well as insulating droplet phases exhibiting roton-type mode softening for a continuous range of momenta across the superradiant phase transition. The non-trivial dynamic response of the system to local density perturbations further proves the existence of phonon-like modes. | 翻訳日:2023-10-28 05:11:03 公開日:2023-10-26 |
# Sketch-and-Project Meets Newton Method: Global $\mathcal O(k^{-2})$ Convergence with Low-Rank Updates Sketch-and-Project Meets Newton Method: Global $\mathcal O(k^{-2})$ Convergence with Low-Rank Updates ( http://arxiv.org/abs/2305.13082v2 ) ライセンス: Link先を確認 | Slavom\'ir Hanzely | (参考訳) 本稿では,自己共役関数に対して高速に$\mathcal o(k^{-2})$大域収束率を持つ最初のスケッチ・アンド・プロジェクトニュートン法を提案する。
我々の方法であるSGNは3つの方法で見ることができる。
一 ニュートン法の更新を投影するスケッチ・アンド・プロジェクトアルゴリズムとして
二 スケッチ部分空間における立方体正規化ニュートンエトドとして、及び
三 スケッチ部分空間における減衰ニュートン法として
SGNは、スケッチ・アンド・プロジェクト方式の安価なイテレーションコスト、最先端の$\mathcal O(k^{-2})$フルランクニュートン方式のグローバル収束率、減衰ニュートン方式のアルゴリズム単純さの3つを継承している。
最後に、ベースラインアルゴリズムに匹敵する経験的性能を示す。 In this paper, we propose the first sketch-and-project Newton method with fast $\mathcal O(k^{-2})$ global convergence rate for self-concordant functions. Our method, SGN, can be viewed in three ways: i) as a sketch-and-project algorithm projecting updates of Newton method, ii) as a cubically regularized Newton ethod in sketched subspaces, and iii) as a damped Newton method in sketched subspaces. SGN inherits best of all three worlds: cheap iteration costs of sketch-and-project methods, state-of-the-art $\mathcal O(k^{-2})$ global convergence rate of full-rank Newton-like methods and the algorithm simplicity of damped Newton methods. Finally, we demonstrate its comparable empirical performance to baseline algorithms. | 翻訳日:2023-10-28 05:10:47 公開日:2023-10-26 |
# 高速カロリーメータシミュレーションのための幾何学的自己回帰モデル(GAAM)による新しいジオメトリへの一般化 Generalizing to new geometries with Geometry-Aware Autoregressive Models (GAAMs) for fast calorimeter simulation ( http://arxiv.org/abs/2305.11531v3 ) ライセンス: Link先を確認 | Junze Liu, Aishik Ghosh, Dylan Smith, Pierre Baldi, Daniel Whiteson | (参考訳) 衝突生成物に対するシミュレート検出器の応答は素粒子物理学のデータ解析に不可欠であるが、計算量は非常に高価である。
1つのサブ検出器であるカロリメータは、細胞の粒度が高く、相互作用の複雑さのために計算時間を支配している。
生成モデルは、より迅速なサンプル生産を提供することができるが、現在、特定の検出器ジオメトリのパフォーマンスを最適化するためにかなりの労力を必要としており、しばしば、他のジオメトリに一般化することなく、様々なセルサイズや配置を記述するために多くのモデルが必要となる。
我々は,温度計の応答が幾何によってどう変化するかを学習し,余分なトレーニングを伴わずに未知の測地に対するシミュレーション応答を生成できる,$\textit{geometry-aware}$ autoregressive modelを開発した。
幾何認識モデルは、生成したワッサーシュタイン距離や、シミュレーションされた応答を要約する鍵量の真の分布といったいくつかの指標において、ベースライン無意識モデルよりも50\%以上優れている。
1つの幾何学的認識モデルは、大型ハドロン衝突型加速器で収集されたデータを分析する物理学者によって、現在カロリーメーターシミュレーション用に設計された数百の生成モデルを置き換えることができる。
この概念実証研究は、将来の検出器の研究に不可欠な道具となる基礎モデルの設計を動機付け、通常生成熱量計モデルを開発するのに必要な大規模な事前投資を劇的に削減する。 Generation of simulated detector response to collision products is crucial to data analysis in particle physics, but computationally very expensive. One subdetector, the calorimeter, dominates the computational time due to the high granularity of its cells and complexity of the interactions. Generative models can provide more rapid sample production, but currently require significant effort to optimize performance for specific detector geometries, often requiring many models to describe the varying cell sizes and arrangements, without the ability to generalize to other geometries. We develop a $\textit{geometry-aware}$ autoregressive model, which learns how the calorimeter response varies with geometry, and is capable of generating simulated responses to unseen geometries without additional training. The geometry-aware model outperforms a baseline unaware model by over $50\%$ in several metrics such as the Wasserstein distance between the generated and the true distributions of key quantities which summarize the simulated response. A single geometry-aware model could replace the hundreds of generative models currently designed for calorimeter simulation by physicists analyzing data collected at the Large Hadron Collider. This proof-of-concept study motivates the design of a foundational model that will be a crucial tool for the study of future detectors, dramatically reducing the large upfront investment usually needed to develop generative calorimeter models. | 翻訳日:2023-10-28 05:10:29 公開日:2023-10-26 |
# 3モードの非ガウス量子照明 Non-Gaussian Quantum Illumination with three modes ( http://arxiv.org/abs/2305.10458v3 ) ライセンス: Link先を確認 | Ricardo Gallego Torrom\'e | (参考訳) 信号状態が2つのモードを記述し、アイドラーが1つのフォトンモードを記述した3モード非ガウス状態の量子照明は、高雑音下で標準ガウス量子照明を上回ることができることが示されている。 It is shown that quantum illumination with three-mode non-Gaussian states, where the signal states describes two modes and the idler is described one photon mode state, can outperform standard Gaussian quantum illumination in a high noisy background. | 翻訳日:2023-10-28 05:10:06 公開日:2023-10-26 |
# 接合系における点ギャップ位相位相のバルクエッジ対応 Bulk-Edge Correspondence for Point-Gap Topological Phases in Junction Systems ( http://arxiv.org/abs/2305.08548v3 ) ライセンス: Link先を確認 | Geonhwi Hwang and Hideaki Obuse | (参考訳) バルクエッジ対応は、物質のトポロジカル位相の理論において最も重要な要素の1つである。
独立位相不変量を持つ2つのサブシステム同士が接続するエルミート接合系にはバルクエッジ対応が適用できるが、非エルミート点-ガップ位相位相を持つ接合系については議論されていない。
本稿では,非ブロッホバンド理論の接合系への拡張により得られた解析結果に基づき,接合系における点ギャップ位相相のバルクエッジ対応を確立する。
また、ほとんど全ての固有状態は「非エルミート近接効果」と呼ばれる界面近傍に局在していることも確認する。
ユニークな特徴の1つは、両方のサブシステムで局所化の長さが同じになることであるが、これらのモデルパラメータは異なる。 The bulk-edge correspondence is one of the most important ingredients in the theory of topological phases of matter. While the bulk-edge correspondence is applicable for Hermitian junction systems where two subsystems with independent topological invariants are connected to each other, it has not been discussed for junction systems with non-Hermitian point-gap topological phases. In this Letter, based on analytical results obtained by the extension of non-Bloch band theory to junction systems, we establish the bulk-edge correspondence for point-gap topological phases in junction systems. We also confirm that almost all the eigenstates are localized near the interface which are called the "non-Hermitian proximity effects". One of the unique properties is that the localization length becomes the same for both subsystems nevertheless those model-parameters are different. | 翻訳日:2023-10-28 05:09:59 公開日:2023-10-26 |
# 長距離量子系から短距離量子系への動的遷移の枠組み Framework of dynamical transitions from long-range to short-range quantum systems ( http://arxiv.org/abs/2305.02945v2 ) ライセンス: Link先を確認 | Leela Ganesh Chandra Lakkaraju, Srijon Ghosh, Debasis Sadhukhan, Aditi Sen De | (参考訳) 量子多体系は、局所パラメータと大域パラメータの異なる異なる種の相転移を行う。
本研究では,グローバル(粗粒度基準)やローカルシステムパラメータ(微細粒度基準)にまたがるクエンチの挙動を動的に変化させ,グローバル遷移点を明らかにする枠組みを提案する。
横磁場の存在下での長距離拡張Isingモデルを用いて,本手法について述べる。
定常状態における全相関の代数的スケーリングと指数的スケーリングを区別することにより、従来のレート関数のような指標が検出できない最初の遷移点を特定することができる。
後者を決定するために、従来のローカルクエンチを利用する。
局所パラメータに沿って臨界点を越えることなくクエンチの間、トータル相関は、その大域的な位相によって同じか異なるスケーリング則に従う。 A quantum many-body system undergoes phase transitions of distinct species with variations of local and global parameters. We propose a framework in which a dynamical quantity can change its behavior for quenches across global (coarse-grained criterion) or local system parameters (fine-grained criterion), revealing the global transition points. We illustrate our technique by employing the long-range extended Ising model in the presence of a transverse magnetic field. We report that by distinguishing between algebraic and exponential scaling of the total correlation in the steady state, one can identify the first transition point that conventional indicators such as the rate function fail to detect. To determine the second one, we exploit the traditional local quenches. During quenches with and without crossing the critical points along the local parameter, total correlation follows either the same or different scaling laws depending on its global phase. | 翻訳日:2023-10-28 05:09:28 公開日:2023-10-26 |
# 自己回帰ニューラルネットワークからのスピン系の相互情報 Mutual information of spin systems from autoregressive neural networks ( http://arxiv.org/abs/2304.13412v2 ) ライセンス: Link先を確認 | Piotr Bia{\l}as, Piotr Korcyl, Tomasz Stebel | (参考訳) 自己回帰ニューラルネットワークにより強化されたモンテカルロサンプリングに基づく古典スピン系の2成分相互情報を推定する新しい直接法について述べる。
これはサブシステムの任意の幾何学を研究でき、古典場理論に一般化することができる。
多重接続された偶対除算を含む4つのパーティショニングのIsingモデルでこれを実証する。
面積法則は臨界温度から離れた温度で満たされ、定数項は普遍的であるのに対し、比例係数は偶数分割に対して異なることを示す。 We describe a new direct method to estimate bipartite mutual information of a classical spin system based on Monte Carlo sampling enhanced by autoregressive neural networks. It allows studying arbitrary geometries of subsystems and can be generalized to classical field theories. We demonstrate it on the Ising model for four partitionings, including a multiply-connected even-odd division. We show that the area law is satisfied for temperatures away from the critical temperature: the constant term is universal, whereas the proportionality coefficient is different for the even-odd partitioning. | 翻訳日:2023-10-28 05:09:13 公開日:2023-10-26 |
# 部分観測状態からの時空間連続型PDEの学習 Learning Space-Time Continuous Neural PDEs from Partially Observed States ( http://arxiv.org/abs/2307.04110v2 ) ライセンス: Link先を確認 | Valerii Iakovlev, Markus Heinonen, Harri L\"ahdesm\"aki | (参考訳) 本稿では,不規則時空間格子上の雑音および部分観測から偏微分方程式(pdes)を学習するための新しい格子非依存モデルを提案する。
本稿では,効率的な確率的枠組みを持つ時空連続潜在性ニューラルpdeモデルと,データ効率とグリッド独立性を改善する新しいエンコーダ設計を提案する。
潜在状態力学は、コロケーション法とライン法を組み合わせたPDEモデルによって制御される。
近似後推定にアモータイズされた変分推定を用い、訓練速度と安定性を向上させるために多重射撃法を用いる。
本モデルは,複雑な合成データと実世界のデータセットにおける最先端のパフォーマンスを示し,従来のアプローチの限界を克服し,部分的に観測されたデータを効果的に処理する。
提案手法は,データ駆動pdeモデリングを前進させる可能性を示し,複雑な部分観測動的プロセスのロバストでグリッド非依存なモデリングを可能にする。 We introduce a novel grid-independent model for learning partial differential equations (PDEs) from noisy and partial observations on irregular spatiotemporal grids. We propose a space-time continuous latent neural PDE model with an efficient probabilistic framework and a novel encoder design for improved data efficiency and grid independence. The latent state dynamics are governed by a PDE model that combines the collocation method and the method of lines. We employ amortized variational inference for approximate posterior estimation and utilize a multiple shooting technique for enhanced training speed and stability. Our model demonstrates state-of-the-art performance on complex synthetic and real-world datasets, overcoming limitations of previous approaches and effectively handling partially-observed data. The proposed model outperforms recent methods, showing its potential to advance data-driven PDE modeling and enabling robust, grid-independent modeling of complex partially-observed dynamic processes. | 翻訳日:2023-10-28 05:03:27 公開日:2023-10-26 |
# CEIL: 一般化文脈模倣学習 CEIL: Generalized Contextual Imitation Learning ( http://arxiv.org/abs/2306.14534v2 ) ライセンス: Link先を確認 | Jinxin Liu, Li He, Yachen Kang, Zifeng Zhuang, Donglin Wang, Huazhe Xu | (参考訳) 本稿では、模倣学習(IL)のための汎用かつ広く適用可能なアルゴリズムである「textbf{C}ont\textbf{E}xtual \textbf{I}mitation \textbf{L}earning~(CEIL)を提案する。
後視情報マッチングの定式化に触発されて,後視埋め込み関数を,後視埋め込みを用いたコンテキストポリシーとともに明示的に学習することでCEILを導出する。
ILの専門的マッチング目的を達成するため,専門家の行動を模倣する文脈的ポリシーに偏りが生じるような文脈的変数の最適化を提唱する。
デモ(LfD)設定からの一般的な学習以外にも、CEILは、1) ~ 観測(LfO)から学ぶこと、2) ~ オフラインIL、3) クロスドメインIL(ミスマッチした専門家)、および4) ワンショットIL設定など、複数の設定に効果的に適用できるジェネリストである。
実験により,一般的な MuJoCo タスク (オンライン) および D4RL データセット (オフライン) 上でCEIL を評価した。
従来の最先端のベースラインと比較すると、CEILはオンラインのほとんどのILタスクではサンプリング効率が良く、オフラインタスクではより良いパフォーマンスや競争性能が得られる。 In this paper, we present \textbf{C}ont\textbf{E}xtual \textbf{I}mitation \textbf{L}earning~(CEIL), a general and broadly applicable algorithm for imitation learning (IL). Inspired by the formulation of hindsight information matching, we derive CEIL by explicitly learning a hindsight embedding function together with a contextual policy using the hindsight embeddings. To achieve the expert matching objective for IL, we advocate for optimizing a contextual variable such that it biases the contextual policy towards mimicking expert behaviors. Beyond the typical learning from demonstrations (LfD) setting, CEIL is a generalist that can be effectively applied to multiple settings including: 1)~learning from observations (LfO), 2)~offline IL, 3)~cross-domain IL (mismatched experts), and 4) one-shot IL settings. Empirically, we evaluate CEIL on the popular MuJoCo tasks (online) and the D4RL dataset (offline). Compared to prior state-of-the-art baselines, we show that CEIL is more sample-efficient in most online IL tasks and achieves better or competitive performances in offline tasks. | 翻訳日:2023-10-28 05:03:11 公開日:2023-10-26 |
# documentnet: ドキュメント事前トレーニングにおけるデータギャップの橋渡し DocumentNet: Bridging the Data Gap in Document Pre-Training ( http://arxiv.org/abs/2306.08937v3 ) ライセンス: Link先を確認 | Lijun Yu, Jin Miao, Xiaoyu Sun, Jiayi Chen, Alexander G. Hauptmann, Hanjun Dai, Wei Wei | (参考訳) ドキュメント理解タスク、特に、Visually-rich Document Entity Retrieval (VDER)は、エンタープライズAIにおける幅広い応用のおかげで、近年大きな注目を集めている。
しかし、プライバシーの厳格な制約と高いアノテーションコストのために、これらのタスクでは公開データが不足している。
さらに悪いことに、異なるデータセットからの重複しないエンティティ空間は、ドキュメントタイプ間の知識転送を妨げる。
本稿では,VDERモデルの学習を支援するため,Webから大規模かつ弱いラベル付きデータを収集する手法を提案する。
DocumentNetという名前の収集データセットは、特定のドキュメントタイプやエンティティセットに依存しないので、すべてのVDERタスクに普遍的に適用できます。
現在のDocumentNetは、400近いドキュメントタイプを4レベルオントロジーでまとめた3000万のドキュメントで構成されている。
広く採用されているVDERタスクの実験は、DocumentNetが古典的および数ショットの学習設定の事前トレーニングに組み込まれたときに、大幅に改善されている。
最近の large language model (llms) の登場により、documentnet は vder のマルチモーダル機能を拡張するために大きなデータソースを提供する。 Document understanding tasks, in particular, Visually-rich Document Entity Retrieval (VDER), have gained significant attention in recent years thanks to their broad applications in enterprise AI. However, publicly available data have been scarce for these tasks due to strict privacy constraints and high annotation costs. To make things worse, the non-overlapping entity spaces from different datasets hinder the knowledge transfer between document types. In this paper, we propose a method to collect massive-scale and weakly labeled data from the web to benefit the training of VDER models. The collected dataset, named DocumentNet, does not depend on specific document types or entity sets, making it universally applicable to all VDER tasks. The current DocumentNet consists of 30M documents spanning nearly 400 document types organized in a four-level ontology. Experiments on a set of broadly adopted VDER tasks show significant improvements when DocumentNet is incorporated into the pre-training for both classic and few-shot learning settings. With the recent emergence of large language models (LLMs), DocumentNet provides a large data source to extend their multi-modal capabilities for VDER. | 翻訳日:2023-10-28 05:02:46 公開日:2023-10-26 |
# フォトニック量子コンピュータにおける非共有原子間相互作用のモデル化 Modeling Non-Covalent Interatomic Interactions on a Photonic Quantum Computer ( http://arxiv.org/abs/2306.08544v2 ) ライセンス: Link先を確認 | Matthieu Sarkis, Alessio Fallani, Alexandre Tkatchenko | (参考訳) 非共有結合相互作用は、材料、分子、生体複合体の構造、安定性、ダイナミクスを決定する重要な要素である。
しかし、これらの相互作用を正確に捉えることは複雑な量子多体問題であり、古典的コンピュータでは効率的な解は得られない。
非共有相互作用を正確かつ効率的にモデル化するために広く使われているモデルはクーロン結合量子ドルド振動子(cqdo)多体ハミルトニアンであり、正確な解は知られていない。
我々は,cQDOモデルが自然にフォトニック量子コンピュータ上でのシミュレーションに有効であることを示し,XanaduのStrawberry Fieldsフォトニクスライブラリを利用して2原子系の結合エネルギー曲線を計算する。
本研究は、非共有結合相互作用に対する概念実証的応用を小さな分子の標準的な電子構造問題を超えて示すことにより、量子コンピューティングの原子論的モデリングへの適用性を実質的に拡張する。
興味深いことに、2つの結合したボソニックQDOは安定結合を示す。
さらに,従来の計算機に最適化可能なcQDO波動関数の効率的な関数形式を提案し,原子間距離を増大させるために結合-非共有遷移を捉える。
興味深いことに、2つの結合したボソニックQDOは安定結合を示す。
さらに,従来の計算機に最適化可能なcQDO波動関数の効率的な関数形式を提案し,原子間距離を増大させるために結合-非共有遷移を捉える。 Non-covalent interactions are a key ingredient to determine the structure, stability, and dynamics of materials, molecules, and biological complexes. However, accurately capturing these interactions is a complex quantum many-body problem, with no efficient solution available on classical computers. A widely used model to accurately and efficiently model non-covalent interactions is the Coulomb-coupled quantum Drude oscillator (cQDO) many-body Hamiltonian, for which no exact solution is known. We show that the cQDO model lends itself naturally to simulation on a photonic quantum computer, and we calculate the binding energy curve of diatomic systems by leveraging Xanadu's Strawberry Fields photonics library. Our study substantially extends the applicability of quantum computing to atomistic modeling, by showing a proof-of-concept application to non-covalent interactions, beyond the standard electronic-structure problem of small molecules. Remarkably, we find that two coupled bosonic QDOs exhibit a stable bond. In addition, our study suggests efficient functional forms for cQDO wavefunctions that can be optimized on classical computers, and capture the bonded-to-noncovalent transition for increasing interatomic distances. Remarkably, we find that two coupled bosonic QDOs exhibit a stable bond. In addition, our study suggests efficient functional forms for cQDO wavefunctions that can be optimized on classical computers, and capture the bonded-to-noncovalent transition for increasing interatomic distances. | 翻訳日:2023-10-28 05:02:27 公開日:2023-10-26 |
# 安全なベイズ最適化による移動制御器のチューニング Tuning Legged Locomotion Controllers via Safe Bayesian Optimization ( http://arxiv.org/abs/2306.07092v3 ) ライセンス: Link先を確認 | Daniel Widmer, Dongho Kang, Bhavya Sukhija, Jonas H\"ubotter, Andreas Krause, Stelian Coros | (参考訳) 本稿では,ロボットハードウェアプラットフォームにおけるモデルベースコントローラの展開を合理化するデータ駆動戦略を提案する。
本手法は,制御体系における単純化されたモデルと実システムとのミスマッチを解消し,制御ゲインのチューニングを自動化するためのモデルフリーセーフラーニングアルゴリズムを活用する。
この方法は、おそらく安全な領域内でサンプル効率良くパラメータを最適化することにより、ロボットとの危険な相互作用のリスクを実質的に軽減する。
さらに、異なる歩行パラメータをコンテキストとして組み込むためのアプローチの適用性を拡張し、多様な歩行パターンに対してモーションコントローラをチューニングできる安全なサンプル効率探索アルゴリズムを実現する。
本手法をシミュレーションとハードウェア実験により検証し,複数の歩行に対するモデルベースモーションコントローラのチューニング性能が良好であることを実証した。 This paper presents a data-driven strategy to streamline the deployment of model-based controllers in legged robotic hardware platforms. Our approach leverages a model-free safe learning algorithm to automate the tuning of control gains, addressing the mismatch between the simplified model used in the control formulation and the real system. This method substantially mitigates the risk of hazardous interactions with the robot by sample-efficiently optimizing parameters within a probably safe region. Additionally, we extend the applicability of our approach to incorporate the different gait parameters as contexts, leading to a safe, sample-efficient exploration algorithm capable of tuning a motion controller for diverse gait patterns. We validate our method through simulation and hardware experiments, where we demonstrate that the algorithm obtains superior performance on tuning a model-based motion controller for multiple gaits safely. | 翻訳日:2023-10-28 05:01:51 公開日:2023-10-26 |
# DEMIST : 深層学習に基づく心筋灌流SPECTのためのタスク特異的 denoising アプローチ DEMIST: A deep-learning-based task-specific denoising approach for myocardial perfusion SPECT ( http://arxiv.org/abs/2306.04249v3 ) ライセンス: Link先を確認 | Md Ashequr Rahman, Zitong Yu, Richard Laforest, Craig K. Abbey, Barry A. Siegel, Abhinav K. Jha | (参考訳) 低放射線量で取得した心筋血流イメージング(mpi)spect画像および/または取得時間を処理する方法が必要であり、この処理画像は灌流欠陥の検出に関する臨床課題において観察者性能を向上させる。
このニーズに対処するために、モデル・オブザーバ理論と人間の視覚システムの理解に基づいて、MPI SPECT画像(DEMIST)を識別するタスク固有の深層学習に基づくアプローチを提案する。
この手法は、遮音性能が検出タスクに影響を及ぼす特徴を保存するために設計されている。
2台のスキャナー(N=338)でMPIを施行した患者を対象に,匿名臨床データを用いた再検討を行い,DEMISTを客観的に評価した。
評価は低線量率6.25%, 12.5%, 25%で行われ, 人為的チャネル化ホテルリング観測者を用いて行った。
受信動作特性曲線 (AUC) 下での性能を定量化した。
DEMISTで認識された画像は、対応する低用量画像や、一般的に使われているタスク非依存のDLベースの画像と比較してAUCが有意に高かった。
同様の結果は, 性差と欠陥タイプに基づく成層分析で観察された。
さらに、DEMISTはルート平均二乗誤差と構造類似度指標を用いて定量化され、低線量画像の視覚的忠実度を改善した。
数学的解析により、DEMISTはノイズ特性を改善しながら検出タスクを補助する機能を保存し、観測性能を向上した。
以上の結果から,MPI SPECTで低位像を呈示するDEMISTのさらなる臨床評価が示唆された。 There is an important need for methods to process myocardial perfusion imaging (MPI) SPECT images acquired at lower radiation dose and/or acquisition time such that the processed images improve observer performance on the clinical task of detecting perfusion defects. To address this need, we build upon concepts from model-observer theory and our understanding of the human visual system to propose a Detection task-specific deep-learning-based approach for denoising MPI SPECT images (DEMIST). The approach, while performing denoising, is designed to preserve features that influence observer performance on detection tasks. We objectively evaluated DEMIST on the task of detecting perfusion defects using a retrospective study with anonymized clinical data in patients who underwent MPI studies across two scanners (N = 338). The evaluation was performed at low-dose levels of 6.25%, 12.5% and 25% and using an anthropomorphic channelized Hotelling observer. Performance was quantified using area under the receiver operating characteristics curve (AUC). Images denoised with DEMIST yielded significantly higher AUC compared to corresponding low-dose images and images denoised with a commonly used task-agnostic DL-based denoising method. Similar results were observed with stratified analysis based on patient sex and defect type. Additionally, DEMIST improved visual fidelity of the low-dose images as quantified using root mean squared error and structural similarity index metric. A mathematical analysis revealed that DEMIST preserved features that assist in detection tasks while improving the noise properties, resulting in improved observer performance. The results provide strong evidence for further clinical evaluation of DEMIST to denoise low-count images in MPI SPECT. | 翻訳日:2023-10-28 05:01:10 公開日:2023-10-26 |
# 量子コンピュータにおける状態サンプリングと実時間ダイナミクスによる熱観測器のロバスト抽出 Robust Extraction of Thermal Observables from State Sampling and Real-Time Dynamics on Quantum Computers ( http://arxiv.org/abs/2305.19322v2 ) ライセンス: Link先を確認 | Khaldoon Ghanem, Alexander Schuckert and Henrik Dreyer | (参考訳) 量子物質の特性のシミュレーションは、近・長期の量子計算の最も有望な応用の1つである。
リアルタイムダイナミクスは簡単に実装できるが、有限温度アンサンブルは、近距離量子コンピュータの実装を極めて困難にする非ユニタリ作用素を含む。
近年、[Lu, Ba\~nuls and Cirac, PRX Quantum 2, 020321 (2021)] は、Wickの回転とモンテカルロサンプリングによりリアルタイムシミュレーションから有限温度特性を抽出することでこの問題を回避する「時系列量子モンテカルロ法」を提案した。
本稿では,2次元横フィールドイジングモデルをテストベッドとして利用し,本手法の実用化に関わる課題に対処する。
wickの回転によるボルツマン重みの推定は,時間領域切断や統計的ショットノイズに非常に敏感であることを示す。
この問題を緩和するために、状態の密度、特にその非負性性に制約を課す手法を導入し、この方法で、ノイズのある時系列からボルツマン重みを確実に抽出できることを示す。
さらに,Wolffクラスタアルゴリズムの再重み付けによるモンテカルロサンプリングの統計的誤差を低減する方法を示す。
本研究は,多体量子システムの有限温度特性を現代量子コンピュータ上で解析する時系列アルゴリズムの実装を可能にする。 Simulating properties of quantum materials is one of the most promising applications of quantum computation, both near- and long-term. While real-time dynamics can be straightforwardly implemented, the finite temperature ensemble involves non-unitary operators that render an implementation on a near-term quantum computer extremely challenging. Recently, [Lu, Ba\~nuls and Cirac, PRX Quantum 2, 020321 (2021)] suggested a "time-series quantum Monte Carlo method" which circumvents this problem by extracting finite temperature properties from real-time simulations via Wick's rotation and Monte Carlo sampling of easily preparable states. In this paper, we address the challenges associated with the practical applications of this method, using the two-dimensional transverse field Ising model as a testbed. We demonstrate that estimating Boltzmann weights via Wick's rotation is very sensitive to time-domain truncation and statistical shot noise. To alleviate this problem, we introduce a technique that imposes constraints on the density of states, most notably its non-negativity, and show that this way, we can reliably extract Boltzmann weights from noisy time series. In addition, we show how to reduce the statistical errors of Monte Carlo sampling via a reweighted version of the Wolff cluster algorithm. Our work enables the implementation of the time-series algorithm on present-day quantum computers to study finite temperature properties of many-body quantum systems. | 翻訳日:2023-10-28 05:00:41 公開日:2023-10-26 |
# デコヒーレンス下における2量子超導体系の熱的局所量子不確かさ Thermal local quantum uncertainty in a two-qubit-superconducting system under decoherence ( http://arxiv.org/abs/2308.03596v3 ) ライセンス: Link先を確認 | M. R. Pourkarimi, S. Haddadi, M. Nashaat, K. V. Kulikov and Yu. M. Shukrinov | (参考訳) 量子相関の尺度として局所量子不確実性(LQU)を考慮し、2量子超伝導系の熱的進化について検討した。
相互結合やジョセフソンエネルギーなどのハミルトンパラメータを操作することで熱LQUを増大させることができるが、特定の温度で突然遷移する。
さらに, 熱LQUに及ぼすデコヒーリングチャネルの影響について詳細な解析を行った。
この工学的応用における制御可能なlquは、量子コンピュータや量子電池の設計における超伝導電荷量子ビットの利点を明らかにすることができる。 By considering the local quantum uncertainty (LQU) as a measure of quantum correlations, the thermal evolution of a two-qubit-superconducting system is investigated. We show that the thermal LQU can be increased by manipulating the Hamiltonian parameters such as the mutual coupling and Josephson energies, however, it undergoes sudden transitions at specific temperatures. Furthermore, a detailed analysis is presented regarding the impact of decohering channels on thermal LQU. This controllable LQU in engineering applications can disclose the advantage enabled in the superconducting charge qubits for designing quantum computers and quantum batteries. | 翻訳日:2023-10-28 04:50:46 公開日:2023-10-26 |
# グラウンドブレーキング機械学習研究の総合的研究:60年間にわたる高度に引用され影響力のある出版物の分析 A Comprehensive Study of Groundbreaking Machine Learning Research: Analyzing highly cited and impactful publications across six decades ( http://arxiv.org/abs/2308.00855v2 ) ライセンス: Link先を確認 | Absalom E. Ezugwu, Japie Greeff, Yuh-Shan Ho | (参考訳) 機械学習(ML)は、コンピュータ科学やその他の関連分野の研究の顕著な分野として登場し、他の分野の関心を喚起している。
この分野が発展を続けるにつれて、重要なトレンド、影響力のある著者、そしてこれまでの重要な貢献を識別するために、高度に引用された出版物の風景を理解することが不可欠である。
本稿では,高度に引用されたML出版物の総合的文献計測分析を行う。
1959年から2022年までの数年間にわたるMLカンファレンスやジャーナルから,上位に暗唱された論文からなるデータセットを収集した。
本研究では,引用分析,共著者分析,キーワード分析,出版トレンドなど,さまざまな書誌分析手法を用いて分析を行った。
その結果,最も影響力のある論文,高度に引用された著者,および機械学習コミュニティ内の協調ネットワークが明らかになった。
人気の高い研究テーマを特定し,近年注目されている話題を明らかにする。
さらに,高引用率出版物の地理的分布について検討し,ml研究における特定の国の支配を強調する。
高度に引用されたML出版物の状況に光を当てることで、この急速に発展する分野における重要な発展と動向を理解しようとする研究者、政策立案者、実践者に貴重な洞察を提供する。 Machine learning (ML) has emerged as a prominent field of research in computer science and other related fields, thereby driving advancements in other domains of interest. As the field continues to evolve, it is crucial to understand the landscape of highly cited publications to identify key trends, influential authors, and significant contributions made thus far. In this paper, we present a comprehensive bibliometric analysis of highly cited ML publications. We collected a dataset consisting of the top-cited papers from reputable ML conferences and journals, covering a period of several years from 1959 to 2022. We employed various bibliometric techniques to analyze the data, including citation analysis, co-authorship analysis, keyword analysis, and publication trends. Our findings reveal the most influential papers, highly cited authors, and collaborative networks within the machine learning community. We identify popular research themes and uncover emerging topics that have recently gained significant attention. Furthermore, we examine the geographical distribution of highly cited publications, highlighting the dominance of certain countries in ML research. By shedding light on the landscape of highly cited ML publications, our study provides valuable insights for researchers, policymakers, and practitioners seeking to understand the key developments and trends in this rapidly evolving field. | 翻訳日:2023-10-28 04:50:36 公開日:2023-10-26 |
# TabR:2023年で最も隣人に近いのはタブラルディープラーニング TabR: Tabular Deep Learning Meets Nearest Neighbors in 2023 ( http://arxiv.org/abs/2307.14338v2 ) ライセンス: Link先を確認 | Yury Gorishniy, Ivan Rubachev, Nikolay Kartashev, Daniil Shlenskii, Akim Kotelnikov, Artem Babenko | (参考訳) 表型データ問題(分類、回帰など)のためのディープラーニング(dl)モデルは、研究者からますます注目を集めている。
しかし、最近の取り組みにもかかわらず、勾配ブースト決定木(gbdt)に基づく非dlアルゴリズムは、これらの問題に対する強力な解決策である。
表型dlの位置を改善するための研究方向の一つは、いわゆる検索型モデルの設計である。
対象オブジェクトに対して、そのようなモデルは利用可能なトレーニングデータから他のオブジェクト(例えば、近隣のオブジェクト)を検索し、それらの特徴とラベルを使ってより良い予測を行う。
この作業では、TabR -- 基本的には、中央にカスタムk-Nearest-Neighborsのようなコンポーネントを備えたフィードフォワードネットワークを提供します。
列挙型DLモデルの中で最高の平均パフォーマンスを示し、いくつかのデータセットで新しい最先端技術となり、最近提案された"GBDTフレンドリ"ベンチマークではGBDTモデルよりも優れています(図1参照)。
TabRを駆動する重要な発見と技術的な詳細のうち、主なものは、近くの隣人を回収し、それらから貴重な信号を抽出する、注意のようなメカニズムにある。
高いパフォーマンスに加えて、TabRは従来の検索ベースの表型DLモデルに比べてシンプルではるかに効率的である。 Deep learning (DL) models for tabular data problems (e.g. classification, regression) are currently receiving increasingly more attention from researchers. However, despite the recent efforts, the non-DL algorithms based on gradient-boosted decision trees (GBDT) remain a strong go-to solution for these problems. One of the research directions aimed at improving the position of tabular DL involves designing so-called retrieval-augmented models. For a target object, such models retrieve other objects (e.g. the nearest neighbors) from the available training data and use their features and labels to make a better prediction. In this work, we present TabR -- essentially, a feed-forward network with a custom k-Nearest-Neighbors-like component in the middle. On a set of public benchmarks with datasets up to several million objects, TabR marks a big step forward for tabular DL: it demonstrates the best average performance among tabular DL models, becomes the new state-of-the-art on several datasets, and even outperforms GBDT models on the recently proposed "GBDT-friendly" benchmark (see Figure 1). Among the important findings and technical details powering TabR, the main ones lie in the attention-like mechanism that is responsible for retrieving the nearest neighbors and extracting valuable signal from them. In addition to the much higher performance, TabR is simple and significantly more efficient compared to prior retrieval-based tabular DL models. | 翻訳日:2023-10-28 04:50:16 公開日:2023-10-26 |
# 不定因数順序下におけるブール関数の量子クエリ複素性 Quantum Query Complexity of Boolean Functions under Indefinite Causal Order ( http://arxiv.org/abs/2307.10285v2 ) ライセンス: Link先を確認 | Alastair A. Abbott, Mehdi Mhalla, Pierre Pocreau | (参考訳) 量子回路の標準モデルは、演算が一定のシーケンシャルな順序で適用されると仮定している。
近年,この制約を緩和して因果不確定な計算が得られる可能性が注目されている。
例えば、量子スイッチは、演算の順序をコヒーレントに制御するために量子システムを使用する。
アドホックな計算と情報理論の利点がいくつか実証され、より統一された複雑性理論の枠組みで利点が得られるかという疑問が提起されている。
本稿では,一般高次量子計算におけるブール関数の問合せ複雑性の研究により,この問題に対処する。
この目的のために,量子回路から量子スーパーマップへのクエリ複雑性の枠組みを一般化し,等価な基盤上で異なるモデルを比較する。
最近導入された因果順序の量子制御を持つ量子回路のクラスは、クエリの複雑さの低減には至らず、因果不定のスーパーマップから生じる潜在的な利点は、量子回路の場合のように多項式法によって境界づけられることが示される。
それでも、因果不確定なスーパーマップを利用する場合、2つのクエリで計算できる最小誤差が厳密に低い関数がある。 The standard model of quantum circuits assumes operations are applied in a fixed sequential "causal" order. In recent years, the possibility of relaxing this constraint to obtain causally indefinite computations has received significant attention. The quantum switch, for example, uses a quantum system to coherently control the order of operations. Several ad hoc computational and information-theoretical advantages have been demonstrated, raising questions as to whether advantages can be obtained in a more unified complexity theoretic framework. In this paper, we approach this problem by studying the query complexity of Boolean functions under general higher order quantum computations. To this end, we generalise the framework of query complexity from quantum circuits to quantum supermaps to compare different models on an equal footing. We show that the recently introduced class of quantum circuits with quantum control of causal order cannot lead to any reduction in query complexity, and that any potential advantage arising from causally indefinite supermaps can be bounded by the polynomial method, as is the case with quantum circuits. Nevertheless, we find some functions for which the minimum error with which they can be computed using two queries is strictly lower when exploiting causally indefinite supermaps. | 翻訳日:2023-10-28 04:49:56 公開日:2023-10-26 |
# ランダム古典情報の局所的アクセス性 : 条件付き非局所性要求の絡み合い Local Inaccessibility of Random Classical Information : Conditional Nonlocality demands Entanglement ( http://arxiv.org/abs/2307.08457v2 ) ライセンス: Link先を確認 | Subhendu B. Ghosh, Snehasish Roy Chowdhury, Tathagata Gupta, Anandamay Das Bhowmik, Sutapa Saha, Some Sankar Bhattacharya, and Tamal Guha | (参考訳) 局所的な演算と古典的通信(LOCC)の下での量子状態の識別は、古典的な情報の局所的な検索の文脈において興味深い問題である。
これまでに考慮された全ての局所量子状態判別の前提は、空間的に分離された復号装置が追加入力とは独立である基本的な通信セットを模倣している。
本稿では,局所的ランダム認証(lra)と呼ばれる,入力に依存した局所的量子状態識別のためのフレームワークを提案する。
非局所性(nonlocality)という用語は、しばしば、地域国家差別の不合理性を示すために用いられ、タスクLRAに関連する不合理性に対して条件付き非局所性( conditional nonlocality)という用語を造る。
本報告では, 条件付き非局所性は, アンサンブルにおける絡み合った状態の存在を必要とすることを報告する。
逆に、完全基底集合内の全ての状態が絡み合うことは条件付き非局所性を意味する。
しかし、LRAの不合理性は、より条件のない非局所性を示す。
完全かつ決定的な場合においても、LRAの可能性と多部量子状態の集合に対する局所状態判別の関係も確立されている。
その結果、ネットワーク内の情報のセキュリティとLOCCパラダイムによる量子絡み合いの相互作用の全く新しい側面が浮かび上がった。 Discrimination of quantum states under local operations and classical communication (LOCC) is an intriguing question in the context of local retrieval of classical information, encoded in the multipartite quantum systems. All the local quantum state discrimination premises, considered so far, mimic a basic communication set-up, where the spatially separated decoding devices are independent of any additional input. Here, exploring a generalized communication scenario we introduce a framework for input-dependent local quantum state discrimination, which we call local random authentication (LRA). Referring to the term nonlocality, often used to indicate the impossibility of local state discrimination, we coin the term conditional nonlocality for the impossibility associated with the task LRA. We report that conditional nonlocality necessitates the presence of entangled states in the ensemble, a feature absent from erstwhile nonlocality arguments based on local state discrimination. Conversely, all the states in a complete basis set being entangled implies conditional nonlocality. However, the impossibility of LRA also exhibits more conditional nonlocality with less entanglement. The relation between the possibility of LRA and local state discrimination for sets of multipartite quantum states, both in the perfect and conclusive cases, has also been established. The results highlight a completely new aspect of the interplay between the security of information in a network and quantum entanglement under the LOCC paradigm. | 翻訳日:2023-10-28 04:49:37 公開日:2023-10-26 |
# TinyTracker: 視線推定のための超高速かつ超低消費電力エッジビジョンインセンサー TinyTracker: Ultra-Fast and Ultra-Low-Power Edge Vision In-Sensor for Gaze Estimation ( http://arxiv.org/abs/2307.07813v4 ) ライセンス: Link先を確認 | Pietro Bonazzi, Thomas Ruegg, Sizhen Bian, Yawei Li, Michele Magno | (参考訳) インテリジェントエッジビジョンタスクは、エッジプラットフォームに課される計算負荷が通常重いため、電力とレイテンシの効率を確保するという重要な課題に直面する。この作業は、Sonyによる最初の"センサー内のAI"ビジョンプラットフォームであるIMX500を活用して、超高速で超低消費電力のエッジビジョンアプリケーションを実現する。
imx500を評価し、google coral dev microやsony spresenseといった他のエッジプラットフォームと比較し、視線の推定をケーススタディとして検討した。
本研究では,エッジビジョンシステムの性能を最大化するために設計された2次元視線推定のための高効率,完全量子化モデルであるtinytrackerを提案する。
tinytracker は itracker [1] と比較して41倍のサイズ削減 (600kb) を達成し、視線推定精度(全量子化時最大 0.16 cm)を損なうことはない。
TinyTrackerのSony IMX500ビジョンセンサーへの展開により、エンドツーエンドのレイテンシは約19ミリ秒になる。
カメラは17.9ミリ秒で読み出し、処理し、加速器に送信する。
ネットワークの推論時間は 0.86ms で、センサから結果を取得するのに 0.24 ms を追加する。
エンド・ツー・エンドのシステム全体のエネルギー消費は4.9 mJであり、推論は0.06 mJである。
エンドツーエンドの調査では、IMX500はCoralMicro(19ms vs 34.4ms)より1.7倍高速で、電力効率は7倍(4.9mJ VS 34.2mJ)である。 Intelligent edge vision tasks encounter the critical challenge of ensuring power and latency efficiency due to the typically heavy computational load they impose on edge platforms.This work leverages one of the first "AI in sensor" vision platforms, IMX500 by Sony, to achieve ultra-fast and ultra-low-power end-to-end edge vision applications. We evaluate the IMX500 and compare it to other edge platforms, such as the Google Coral Dev Micro and Sony Spresense, by exploring gaze estimation as a case study. We propose TinyTracker, a highly efficient, fully quantized model for 2D gaze estimation designed to maximize the performance of the edge vision systems considered in this study. TinyTracker achieves a 41x size reduction (600Kb) compared to iTracker [1] without significant loss in gaze estimation accuracy (maximum of 0.16 cm when fully quantized). TinyTracker's deployment on the Sony IMX500 vision sensor results in end-to-end latency of around 19ms. The camera takes around 17.9ms to read, process and transmit the pixels to the accelerator. The inference time of the network is 0.86ms with an additional 0.24 ms for retrieving the results from the sensor. The overall energy consumption of the end-to-end system is 4.9 mJ, including 0.06 mJ for inference. The end-to-end study shows that IMX500 is 1.7x faster than CoralMicro (19ms vs 34.4ms) and 7x more power efficient (4.9mJ VS 34.2mJ) | 翻訳日:2023-10-28 04:48:43 公開日:2023-10-26 |
# 変分量子固有解法を用いた変分量子モンテカルロの加速 Accelerating variational quantum Monte Carlo using the variational quantum eigensolver ( http://arxiv.org/abs/2307.07719v2 ) ライセンス: Link先を確認 | Ashley Montanaro and Stasja Stanisic | (参考訳) 変分モンテカルロ(vmc)法は、効率的な古典的記述を持つ量子状態に対応する分布から古典的にサンプリングするために用いられる。
VMCメソッドは、単純な初期分布からのサンプルから始まるマルコフチェーンの複数のステップを実行することに基づいている。
本稿では,この初期分布を量子コンピュータを用いて生成したサンプル,例えば変分量子固有解法(VQE)で置き換えることを提案する。
数値シミュレーションや量子ハードウェアの実験によって生成された初期分布を用いて、古典的なサンプルと比較して目標分布への収束を加速し、VQEによる状態のエネルギーと比較してエネルギーを低減し、小さな量子コンピュータによって生成されたVQE状態を用いてVMCの大規模インスタンスを加速できることが示されている。
量子強化VMCは、量子コンピュータの最小限の要件を定め、複雑な量子システムの基底状態を正確に表現できない、短期量子コンピュータのノイズの多いサンプルを用いて古典的な手法を加速する可能性を提供する。 Variational Monte Carlo (VMC) methods are used to sample classically from distributions corresponding to quantum states which have an efficient classical description. VMC methods are based on performing a number of steps of a Markov chain starting with samples from a simple initial distribution. Here we propose replacing this initial distribution with samples produced using a quantum computer, for example using the variational quantum eigensolver (VQE). We show that, based on the use of initial distributions generated by numerical simulations and by experiments on quantum hardware, convergence to the target distribution can be accelerated compared with classical samples; the energy can be reduced compared with the energy of the state produced by VQE; and VQE states produced by small quantum computers can be used to accelerate large instances of VMC. Quantum-enhanced VMC makes minimal requirements of the quantum computer and offers the prospect of accelerating classical methods using noisy samples from near-term quantum computers which are not yet able to accurately represent ground states of complex quantum systems. | 翻訳日:2023-10-28 04:48:14 公開日:2023-10-26 |
# SVDエンタングルメントエントロピー SVD Entanglement Entropy ( http://arxiv.org/abs/2307.06531v2 ) ライセンス: Link先を確認 | Arthur J. Parzygnat, Tadashi Takayanagi, Yusuke Taki, Zixia Wei | (参考訳) 本稿では,SVDエンタングルメントエントロピーと呼ばれる新しい量を導入する。
これは、前と後の選択過程のように2つの異なる状態に依存することによる絡み合いエントロピーの一般化である。
このSVD絡み合いエントロピーは非負の実値を取り、ヒルベルト空間次元の対数で有界である。
svdのエントロピーは、中間状態から蒸留可能なベル対の平均数として解釈できる。
逆場イジングモデルの明示的な例において、2つの状態が異なる量子相にあるとき、SVDエンタングルメントエントロピーが増大するのを観察する。
さらに,様々な場理論におけるR'enyi SVDエントロピーを計算し,AdS/CFT対応を用いたホログラフィック計算について検討する。 In this paper, we introduce a new quantity called SVD entanglement entropy. This is a generalization of entanglement entropy in that it depends on two different states, as in pre- and post-selection processes. This SVD entanglement entropy takes non-negative real values and is bounded by the logarithm of the Hilbert space dimensions. The SVD entanglement entropy can be interpreted as the average number of Bell pairs distillable from intermediates states. We observe that the SVD entanglement entropy gets enhanced when the two states are in the different quantum phases in an explicit example of the transverse-field Ising model. Moreover, we calculate the R\'enyi SVD entropy in various field theories and examine holographic calculations using the AdS/CFT correspondence. | 翻訳日:2023-10-28 04:47:56 公開日:2023-10-26 |
# SpaceRank:時空間データに基づくNDCG最適化による都市イベントランキング SpatialRank: Urban Event Ranking with NDCG Optimization on Spatiotemporal Data ( http://arxiv.org/abs/2310.00270v5 ) ライセンス: Link先を確認 | Bang An, Xun Zhou, Yongjian Zhong, Tianbao Yang | (参考訳) 都市イベントランキングの問題は、交通事故や犯罪などの将来のイベントの最もリスクの高い場所を予測することを目的としている。
この問題は公共の安全と都市行政にとって、特に資源が限られている場合には、重要な問題である。
しかし、この問題は、場所間の複雑でダイナミックな時空間相関、空間における都市イベントの不均一な分布、および類似した特徴で近くの場所を正しくランク付けすることが難しいため、困難である。
イベント予測に関する先行研究は主に、すべての場所における実際のリスクスコアやイベントのカウントを正確に予測することを目的としている。
このようなランク付けは通常、予測誤差により品質が低い。
正規化カウント累積ゲイン (NDCG) などの手法を直接最適化する学習 to ランク法は, 場所間の時空間自己相関を扱えない。
本稿では,空間ランクと呼ばれる新しい空間イベントランキング手法を提案することで,そのギャップを橋渡しする。
spatialrankは適応型グラフ畳み込み層を特徴とし、データから場所間の時空間依存性を動的に学習する。
さらに, このモデルでは, NDCGのハイブリッド損失を空間成分で補うことで, 近傍の空間位置のランク付けを最適化する。
トレーニング中の損失を効果的に評価するために,空間フィルタリングアルゴリズムを用いた重要サンプリングを設計する。
3つの実世界のデータセットに関する総合的な実験により、SpatialRankは犯罪や交通事故の最も危険な場所を効果的に特定でき、NDCGの観点では最先端の手法を最大12.7%上回っている。 The problem of urban event ranking aims at predicting the top-k most risky locations of future events such as traffic accidents and crimes. This problem is of fundamental importance to public safety and urban administration especially when limited resources are available. The problem is, however, challenging due to complex and dynamic spatio-temporal correlations between locations, uneven distribution of urban events in space, and the difficulty to correctly rank nearby locations with similar features. Prior works on event forecasting mostly aim at accurately predicting the actual risk score or counts of events for all the locations. Rankings obtained as such usually have low quality due to prediction errors. Learning-to-rank methods directly optimize measures such as Normalized Discounted Cumulative Gain (NDCG), but cannot handle the spatiotemporal autocorrelation existing among locations. In this paper, we bridge the gap by proposing a novel spatial event ranking approach named SpatialRank. SpatialRank features adaptive graph convolution layers that dynamically learn the spatiotemporal dependencies across locations from data. In addition, the model optimizes through surrogates a hybrid NDCG loss with a spatial component to better rank neighboring spatial locations. We design an importance-sampling with a spatial filtering algorithm to effectively evaluate the loss during training. Comprehensive experiments on three real-world datasets demonstrate that SpatialRank can effectively identify the top riskiest locations of crimes and traffic accidents and outperform state-of-art methods in terms of NDCG by up to 12.7%. | 翻訳日:2023-10-28 04:42:16 公開日:2023-10-26 |
# 機械学習におけるLeave-out Distinguishability Leave-one-out Distinguishability in Machine Learning ( http://arxiv.org/abs/2309.17310v3 ) ライセンス: Link先を確認 | Jiayuan Ye, Anastasia Borovykh, Soufiane Hayou, Reza Shokri | (参考訳) 我々は、機械学習アルゴリズムの出力分布の変化を、トレーニングセットにいくつかのデータポイントを含めて定量化する新しい分析フレームワーク、LOOD(Left-out-out distinguishability)の概念を導入する。
この問題は、機械学習におけるデータ**記憶*と**情報リーク**と、モデル予測におけるトレーニングデータポイントの**インフルエンス**を測定する上で鍵となる。
本手法は,学習データに関連する記憶とプライバシーのリスクに関する既存の経験的尺度を拡張・洗練する方法を示す。
我々はガウス過程を用いて機械学習アルゴリズムのランダム性をモデル化し、メンバーシップ推論攻撃を用いた情報漏洩の広範な実証分析によりLOODを検証する。
我々の理論的枠組みは,情報漏洩の原因と漏洩が高い場所を調査することを可能にする。
例えば、アクティベーション関数がデータの記憶に与える影響を分析します。
さらに,本手法では,トレーニングデータに関する最も重要な情報を明らかにするクエリの最適化を行うことができる。
トレーニングデータの正確な ** 再構成** に最適なクエリが利用できることを示す。 We introduce a new analytical framework to quantify the changes in a machine learning algorithm's output distribution following the inclusion of a few data points in its training set, a notion we define as leave-one-out distinguishability (LOOD). This problem is key to measuring data **memorization** and **information leakage** in machine learning, and the **influence** of training data points on model predictions. We illustrate how our method broadens and refines existing empirical measures of memorization and privacy risks associated with training data. We use Gaussian processes to model the randomness of machine learning algorithms, and validate LOOD with extensive empirical analysis of information leakage using membership inference attacks. Our theoretical framework enables us to investigate the causes of information leakage and where the leakage is high. For example, we analyze the influence of activation functions, on data memorization. Additionally, our method allows us to optimize queries that disclose the most significant information about the training data in the leave-one-out setting. We illustrate how optimal queries can be used for accurate **reconstruction** of training data. | 翻訳日:2023-10-28 04:41:48 公開日:2023-10-26 |
# 長期相関を保存する拡散係数:ボソニックボゴリューボフ系におけるアインシュタイン関係と絡み合いの関係 Diffusion coefficients preserving long-time correlations: Consequences on the Einstein relation and on entanglement in a bosonic Bogoliubov system ( http://arxiv.org/abs/2309.16651v2 ) ライセンス: Link先を確認 | Yamen Hamdouni | (参考訳) 我々は、n$結合調和振動子の系を永続相関を示す平衡状態へと駆動する拡散係数を解析的に導出する。
後者の主な効果は、振動子の自然周波数と摩擦係数の再正規化である。
物理的制約が満たされている場合, アインシュタイン関係は周波数依存性の有効摩擦係数を持つ低温で満たされる可能性がある。
また, 2成分系ボソニックボゴリューボフ系の熱圧縮状態での絡み合い進化についても検討した。
期待とは対照的に、強い結合は絡み合いの急激な死を遅くし、最初に分離可能な状態の場合、絡み合いの発生が起こる可能性がある。 We analytically derive the diffusion coefficients that drive a system of $N$ coupled harmonic oscillators to an equilibrium state exhibiting persistent correlations. It is shown that the main effect of the latter consists in a renormalization of the natural frequencies and the friction coefficients of the oscillators. We find that the Einstein relation may be satisfied at low temperatures with frequency-dependent effective friction coefficients, provided that the physical constraints are fulfilled. We also investigate the entanglement evolution in a bipartite bosonic Bogoliubov system initially prepared in a thermal squeezed state. It is found that, in contrast to what one may expect, strong coupling slows down the entanglement sudden death, and for initially separable states, entanglement generation may occur. | 翻訳日:2023-10-28 04:41:11 公開日:2023-10-26 |
# トポロジカルに自明な非エルミート系をゲージ場を介して非自明にする Making topologically trivial non-Hermitian systems nontrivial via gauge fields ( http://arxiv.org/abs/2309.14042v2 ) ライセンス: Link先を確認 | W. B. Rui, Y. X. Zhao, and Z. D. Wang | (参考訳) 非エルミキシー性は、物理学における対称性とトポロジーの概念を著しく強化する。
特に非ハーミティー性は、非ハーミティアンハミルトニアン$H$が$H^\dagger$に変換されるような分岐対称性をもたらす。
時間反転(T$)および超格子対称性については、様々な非エルミート皮膚効果を持つ新しいトポロジカル分類につながる6つの有理対称性クラスが存在する。
人工結晶は6つの分岐対称性クラスにおいて位相物理学を実現するための対称性障壁が存在する: 人工結晶は、スピンレスクラスで$t^2=1$であるが、非自明な分類は$t^2=-1$のスピンフルクラスで支配的に現れる。
ここでは、対称性障壁を横断する一般的なメカニズムを示す。
内部パリティ対称性 $p$ により、$\tilde{t}=pt$ の組み合わせの平方形は適切なゲージフラックスによって修正できる。
一般的な機構を用いて、1次元および2次元の非エルミートスピニング位相のスピンレスモデルを構築し、実験的に実現する。
我々の研究はゲージ構造が基本レベルで非エルミート物理学を著しく豊かにすることができることを示唆している。 Non-Hermiticity significantly enriches the concepts of symmetry and topology in physics. Particularly, non-Hermiticity gives rise to the ramified symmetries, where the non-Hermitian Hamiltonian $H$ is transformed to $H^\dagger$. For time-reversal ($T$) and sublattice symmetries, there are six ramified symmetry classes leading to novel topological classifications with various non-Hermitian skin effects. As artificial crystals are the main experimental platforms for non-Hermitian physics, there exists the symmetry barrier for realizing topological physics in the six ramified symmetry classes: While artificial crystals are in spinless classes with $T^2=1$, nontrivial classifications dominantly appear in spinful classes with $T^2=-1$. Here, we present a general mechanism to cross the symmetry barrier. With an internal parity symmetry $P$, the square of the combination $\tilde{T}=PT$ can be modified by appropriate gauge fluxes. Using the general mechanism, we systematically construct spinless models for all non-Hermitian spinful topological phases in one and two dimensions, which are experimentally realizable. Our work suggests that gauge structures may significantly enrich non-Hermitian physics at the fundamental level. | 翻訳日:2023-10-28 04:40:41 公開日:2023-10-26 |
# 2モード相関多光子束放出 Two-mode correlated multiphoton bundle emission ( http://arxiv.org/abs/2309.08858v3 ) ライセンス: Link先を確認 | Yi Wang, Fen Zou, Jie-Qiao Liao | (参考訳) 相関多光子源の作成は、量子光学と量子情報科学において重要な研究トピックである。
ここでは, 2つのキャビティモードを結合した2レベルシステムからなる非退化多光子Jaynes-Cummingsモデルにおける2モード相関多光子束放出について検討した。
2レベルシステムは、モロー状態がこの系の物理過程を支配するように、ほぼ共鳴強いレーザーによって駆動される。
ある共鳴条件下では、ゼロ光子状態 $|0\rangle_{a}|0\rangle_{b}$ と、(n+m$)-光子状態 $|n\rangle_{a}|m\rangle_{b}$ の間の完全な超ラビ振動が起こる。
光子崩壊によって引き起こされる2モード相関多光子束放出はこの系で起こる。
さらに重要なことは、強い相関を持つ光子束の間に反結合効果があることを示し、この系は反結合(n+m$)光子源として振る舞う。
この研究は、現代の量子技術に潜在的な応用をもたらす2モード相関多光子源デバイスを実現するための道を開く。 The preparation of correlated multiphoton sources is an important research topic in quantum optics and quantum information science. Here, two-mode correlated multiphoton bundle emission in a nondegenerate multiphoton Jaynes-Cummings model, which is comprised of a two-level system coupled with two cavity modes is studied. The two-level system is driven by a near-resonant strong laser such that the Mollow regime dominates the physical processes in this system. Under certain resonance conditions, a perfect super-Rabi oscillation between the zero-photon state $|0\rangle_{a}|0\rangle_{b}$ and the ($n+m$)-photon state $|n\rangle_{a}|m\rangle_{b}$ of the two cavity modes can take place. Induced by the photon decay, the two-mode correlated multiphoton bundle emission occurs in this system. More importantly, the results show that there is an antibunching effect between the strongly-correlated photon bundles, so that the system behaves as an antibunched ($n+m$)-photon source. The work opens up a route towards achieving two-mode correlated multiphoton source device, which has potential applications in modern quantum technology. | 翻訳日:2023-10-28 04:40:17 公開日:2023-10-26 |
# 一般化キャプションとデュアルフュージョン強化を伴う拡散モデルにおける緩和レプリケーションとコピー Mitigate Replication and Copying in Diffusion Models with Generalized Caption and Dual Fusion Enhancement ( http://arxiv.org/abs/2309.07254v2 ) ライセンス: Link先を確認 | Chenghao Li, Dake Chen, Yuke Zhang, Peter A. Beerel | (参考訳) 拡散モデルは高品質な画像を生成する素晴らしい能力を示しているが、トレーニングデータを‘複製’する傾向はプライバシの懸念を生じさせる。
最近の研究では、この複製は訓練用データキャプションの一般化や訓練用画像の重複に起因する可能性があるが、効果的な緩和戦略はいまだに解明されていない。
このギャップに対処するため,本稿では,まずキャプションの一般性を測定し,大言語モデル(LLM)を用いてトレーニングキャプションの一般化を行う。
その後,一般化キャプションを活用し,拡散モデルの複製を緩和する新しい二重融合拡張手法を提案する。
実験により,提案手法は,世代間の多様性と品質を維持しつつ,元の拡散モデルと比較して43.5%の再現性を著しく低減できることを示した。 While diffusion models demonstrate a remarkable capability for generating high-quality images, their tendency to `replicate' training data raises privacy concerns. Although recent research suggests that this replication may stem from the insufficient generalization of training data captions and duplication of training images, effective mitigation strategies remain elusive. To address this gap, our paper first introduces a generality score that measures the caption generality and employ large language model (LLM) to generalize training captions. Subsequently, we leverage generalized captions and propose a novel dual fusion enhancement approach to mitigate the replication of diffusion models. Our empirical results demonstrate that our proposed methods can significantly reduce replication by 43.5% compared to the original diffusion model while maintaining the diversity and quality of generations. | 翻訳日:2023-10-28 04:39:51 公開日:2023-10-26 |
# フラットミニマと対向ロバスト性による活性化空間の理論的説明 A Theoretical Explanation of Activation Sparsity through Flat Minima and Adversarial Robustness ( http://arxiv.org/abs/2309.03004v4 ) ライセンス: Link先を確認 | Ze Peng, Lei Qi, Yinghuan Shi, Yang Gao | (参考訳) 近年のMLPブロックにおける活性化間隔のLi et al., 2022bは, 計算コストを大幅に削減する機会となっている。
アクティベーションスパーシティの既存の理論的な説明は、トレーニングダイナミクスによるものであるが、多くのステップで標準的に訓練された深層モデルに出現したにもかかわらず、浅いネットワーク、小さなトレーニングステップ、特別なトレーニングに限定されている。
これらのギャップを埋めるために、勾配空間を活性化空間の1つの源とする概念とそれに基づく理論的な説明を提案する。これは、よく学習されたモデルにおけるミニマの平坦さを概ね表すような、隠れた特徴やパラメータに逆らうための必要なステップである。
この理論は標準的に訓練されたLayerNorm-ed MLPや、ウェイトノイズで訓練されたトランスフォーマーや他のアーキテクチャにも適用される。
また, 重み行列の非零特異値の最大値と最小値の比率が小さいことを発見した。
このスペクトル集中の出現について論じる際、確率的勾配雑音を解析するための強力なツールとしてランダム行列理論(RMT)を用いる。
勾配スパーシティーに基づく説明を検証するための検証実験を行った。
本稿では2つのプラグ・アンド・プレイ・モジュールを提案する。
imagenet-1kとc4の実験では、50%のスパース性が改善され、トレーニングと推論の両方でさらなるコスト削減が期待できる。 A recent empirical observation (Li et al., 2022b) of activation sparsity in MLP blocks offers an opportunity to drastically reduce computation costs for free. Although having attributed it to training dynamics, existing theoretical explanations of activation sparsity are restricted to shallow networks, small training steps and special training, despite its emergence in deep models standardly trained for a large number of steps. To fill these gaps, we propose the notion of gradient sparsity as one source of activation sparsity and a theoretical explanation based on it that sees sparsity a necessary step to adversarial robustness w.r.t. hidden features and parameters, which is approximately the flatness of minima for well-learned models. The theory applies to standardly trained LayerNorm-ed MLPs, and further to Transformers or other architectures trained with weight noises. Eliminating other sources of flatness except for sparsity, we discover the phenomenon that the ratio between the largest and smallest non-zero singular values of weight matrices is small. When discussing the emergence of this spectral concentration, we use random matrix theory (RMT) as a powerful tool to analyze stochastic gradient noises. Validational experiments are conducted to verify our gradient-sparsity-based explanation. We propose two plug-and-play modules for both training and finetuning for sparsity. Experiments on ImageNet-1k and C4 demonstrate their 50% sparsity improvements, indicating further potential cost reduction in both training and inference. | 翻訳日:2023-10-28 04:39:37 公開日:2023-10-26 |
# 不信な量子ステアリング Distrustful quantum steering ( http://arxiv.org/abs/2308.15337v2 ) ライセンス: Link先を確認 | Shubhayan Sarkar | (参考訳) 量子ステアリング(quantum steering)は、非対称な量子非局所性の形式であり、当事者の1つの測定を信頼することができる。
本研究は,実用的考察から着想を得て,測定装置を完全に信頼できず,ある程度の精度しか持たないシナリオを検討する。
まず, 標準デバイス依存型量子トモグラフィーにそのような不正確さが及ぼす影響について検討する。
次に、この結果を用いて、相手の計測装置の1つに与える信頼の量に応じて、任意の一般的な操舵不平等の局所的な境界の変動を計算する。
これは、Aliceに対する小さな不信でさえ、量子状態が不安定である場合でも、当事者がステアビリティを観察する可能性があることを示すため、特に重要である。
さらに、この効果は高次元の量子ステアリングを観察する際により重要となる。 Quantum steering is an asymmetric form of quantum nonlocality where one can trust the measurements of one of the parties. In this work, inspired by practical considerations we investigate the scenario if one can not fully trust their measurement devices but only up to some precision. We first find the effect of such an imprecision on standard device-dependent quantum tomography. We then utilise this result to compute the variation in the local bound of any general steering inequality depending on the amount of trust one puts in one of the party's measurement devices. This is particularly important as we show that even a small distrust on Alice might cause the parties to observe steerability even if the quantum state is unsteerable. Furthermore, this effect becomes more relevant when observing higher dimensional quantum steering. | 翻訳日:2023-10-28 04:39:11 公開日:2023-10-26 |
# インフォーマティブ外挿による分布外検出のための可変外周露法 Diversified Outlier Exposure for Out-of-Distribution Detection via Informative Extrapolation ( http://arxiv.org/abs/2310.13923v2 ) ライセンス: Link先を確認 | Jianing Zhu, Geng Yu, Jiangchao Yao, Tongliang Liu, Gang Niu, Masashi Sugiyama, Bo Han | (参考訳) Out-of-Distribution(OOD)検出は、現実のアプリケーションに信頼性の高い機械学習モデルをデプロイするために重要である。
最近のoutlier exposureの進歩は、情報的にサンプリングされた補助的なoutlierを持つ微調整モデルによるood検出の有望な結果を示している。
しかし, 従来の手法では, 収集した外れ値が十分に大きくなり, IDデータとOODデータの境界をカバーできると考えられていた。
本研究では,与えられた補助外乱に基づいて情報的外挿によるOOD検出を効果的に行うための,DivOE(Diversified Outlier Exposure)という新しいフレームワークを提案する。
具体的には、divoeは新しい学習目標を導入し、トレーニング中の補間のためにより有益な外れ値を明確に合成することで補助分布を多様化する。
マルチステップ最適化手法を利用して、外周露光の多くの変種と互換性のある、元のものを超える新しい外周を生成する。
提案するdivoeの有効性を特徴付けるために,広範な実験と解析が行われている。
コードはhttps://github.com/tmlr-group/DivOE.comで公開されている。 Out-of-distribution (OOD) detection is important for deploying reliable machine learning models on real-world applications. Recent advances in outlier exposure have shown promising results on OOD detection via fine-tuning model with informatively sampled auxiliary outliers. However, previous methods assume that the collected outliers can be sufficiently large and representative to cover the boundary between ID and OOD data, which might be impractical and challenging. In this work, we propose a novel framework, namely, Diversified Outlier Exposure (DivOE), for effective OOD detection via informative extrapolation based on the given auxiliary outliers. Specifically, DivOE introduces a new learning objective, which diversifies the auxiliary distribution by explicitly synthesizing more informative outliers for extrapolation during training. It leverages a multi-step optimization method to generate novel outliers beyond the original ones, which is compatible with many variants of outlier exposure. Extensive experiments and analyses have been conducted to characterize and demonstrate the effectiveness of the proposed DivOE. The code is publicly available at: https://github.com/tmlr-group/DivOE. | 翻訳日:2023-10-28 04:30:59 公開日:2023-10-26 |
# 量子ラビモデルに対するスペーシング分布 Spacing distribution for quantum Rabi models ( http://arxiv.org/abs/2310.09811v2 ) ライセンス: Link先を確認 | Daniel Braak, Linh Thi Hoai Nguyen, Cid Reyes-Bustos and Masato Wakayama | (参考訳) 非対称量子ラビモデル (AQRM) は、光と物質の相互作用を記述する量子光学の基本モデルである。
直近の物理的関心に加えて、AQRMは興味深い数学的構造を持ち、完全には理解されていない。
本稿では、aqrmの連続固有値と高エネルギーの限界、すなわち大きな量子数との差であるレベル間隔の分布に着目した。
対称の場合、これは量子ラビモデル(QRM)であり、各パリティの間隔分布($\mathbb{Z}_2$-対称性によって与えられる)は、デ・モンヴェルとジーリンスキによって導かれる漸近的表現によって完全に解明されるが、完全なスペクトル間隔については疑問が残る。
しかし、一般的なAQRMの場合、固有値に対するパリティ分解や漸近表現は存在しない。
最初の4万の固有状態に対する数値的精密な研究に関連して、バイアスパラメータに対する新しいタイプの周期性と分布の対称な振る舞いによって特徴づけられるaqrmの間隔分布について述べる。
結果は、半整数バイアスで現れるaqrmの隠れた対称性を反映している。
さらに、我々はAQRMにおいて、バイアスパラメータの大きな値に対する励起状態量子相転移を観察し、これは大きな量子ビットエネルギーを持つQRMと類似しており、固定バイアスに対するレベル間隔分布の内部対称性である。
この新しい対称性は半整数バイアスの対称性とは独立であり、現在の理論的知識では説明できない。 The asymmetric quantum Rabi model (AQRM) is a fundamental model in quantum optics describing the interaction of light and matter. Besides its immediate physical interest, the AQRM possesses an intriguing mathematical structure which is far from being completely understood. In this paper, we focus on the distribution of the level spacing, the difference between consecutive eigenvalues of the AQRM in the limit of high energies, i.e. large quantum numbers. In the symmetric case, that is the quantum Rabi model (QRM), the spacing distribution for each parity (given by the $\mathbb{Z}_2$-symmetry) is fully clarified by an asymptotic expression derived by de Monvel and Zielinski, though some questions remain for the full spectrum spacing. However, in the general AQRM case, there is neither a parity decomposition or an asymptotic expression for the eigenvalues. In connection with numerically exact studies for the first 40,000 eigenstates we describe the spacing distribution for the AQRM which is characterized by a new type of periodicity and symmetric behavior of the distribution with respect to the bias parameter. The results reflects the hidden symmetry of the AQRM known to appear for half-integer bias. In addition, we observe in the AQRM the excited state quantum phase transition for large values of the bias parameter, analogous to the QRM with large qubit energy, and an internal symmetry of the level spacing distribution for fixed bias. This novel symmetry is independent from the symmetry for half-integer bias and not explained by current theoretical knowledge. | 翻訳日:2023-10-28 04:29:10 公開日:2023-10-26 |
# Angular Momentum Flowは、何も持たない Angular Momentum Flows without anything carrying it ( http://arxiv.org/abs/2310.07568v2 ) ライセンス: Link先を確認 | Yakir Aharonov, Daniel Collins, Sandu Popescu | (参考訳) 2つの遠隔領域間で保存された量の移動は、一般的にかなり簡単なプロセスであると仮定される: 保存された量を運ぶ粒子の束は、ある領域から別の領域に伝播する。
しかしながら、ある領域から別の領域への角運動量のフローは、任意の粒子(または場)が存在するという、消えるほど小さな確率が存在する空間の領域にまたがる。
これは、保存法がどのように機能するかに関する通常の見解を再考する必要があることを示している。 Transfer of conserved quantities between two remote regions is generally assumed to be a rather trivial process: a flux of particles carrying the conserved quantities propagates from one region to another. We however demonstrate a flow of angular momentum from one region to another across a region of space in which there is a vanishingly small probability of any particles (or fields) being present. This shows that the usual view of how conservation laws work needs to be revisited. | 翻訳日:2023-10-28 04:28:42 公開日:2023-10-26 |
# DSAC-T:3つのリファインメントを持つ分布型ソフトアクター臨界 DSAC-T: Distributional Soft Actor-Critic with Three Refinements ( http://arxiv.org/abs/2310.05858v3 ) ライセンス: Link先を確認 | Jingliang Duan, Wenxuan Wang, Liming Xiao, Jiaxin Gao, and Shengbo Eben Li | (参考訳) 強化学習(rl)は複雑な意思決定と制御タスクに取り組むのに非常に効果的であることが証明されている。
しかし、一般的なモデルなしRL法は、よく知られた過大評価問題のために、しばしば深刻な性能劣化に直面している。
そこで,我々は最近,分散型ソフトアクタ-クリティック(dsac,dsac-v1)と呼ばれるオフポリシーrlアルゴリズムを導入し,連続ガウス値分布を学習することにより,値推定精度を効果的に向上させた。
それでも、標準的なDSACには、時折不安定な学習プロセスやタスク固有の報酬スケーリングの必要性など、独自の欠点がある。
本稿では,これらの問題点に対処するため,標準DSACに3つの重要な改良点を紹介する。
これらの改良は、評価勾配調整、ツイン値分布学習、分散ベースの目標リターンクリッピングからなる。
改良された RL アルゴリズムは 3 つの改良 (DSAC-T または DSAC-v2) を持つ DSAC と命名され、その性能は様々なベンチマークタスクで体系的に評価される。
タスク固有のハイパーパラメータチューニングがなければ、DSAC-TはSAC、TD3、DDPG、TRPO、PPOを含む多くの主要なモデルなしRLアルゴリズムを超越する。
さらに、DSAC-Tは標準的なバージョンとは異なり、高度に安定した学習プロセスを確保し、様々な報酬スケールで同様のパフォーマンスを提供する。 Reinforcement learning (RL) has proven to be highly effective in tackling complex decision-making and control tasks. However, prevalent model-free RL methods often face severe performance degradation due to the well-known overestimation issue. In response to this problem, we recently introduced an off-policy RL algorithm, called distributional soft actor-critic (DSAC or DSAC-v1), which can effectively improve the value estimation accuracy by learning a continuous Gaussian value distribution. Nonetheless, standard DSAC has its own shortcomings, including occasionally unstable learning processes and needs for task-specific reward scaling, which may hinder its overall performance and adaptability in some special tasks. This paper further introduces three important refinements to standard DSAC in order to address these shortcomings. These refinements consist of critic gradient adjusting, twin value distribution learning, and variance-based target return clipping. The modified RL algorithm is named as DSAC with three refinements (DSAC-T or DSAC-v2), and its performances are systematically evaluated on a diverse set of benchmark tasks. Without any task-specific hyperparameter tuning, DSAC-T surpasses a lot of mainstream model-free RL algorithms, including SAC, TD3, DDPG, TRPO, and PPO, in all tested environments. Additionally, DSAC-T, unlike its standard version, ensures a highly stable learning process and delivers similar performance across varying reward scales. | 翻訳日:2023-10-28 04:28:34 公開日:2023-10-26 |
# 縦型NMR緩和におけるマジックアングルスピン効果:L-ヒスチジンの15N Magic Angle Spinning Effects on Longitudinal NMR Relaxation: 15N in L-Histidine ( http://arxiv.org/abs/2310.03029v2 ) ライセンス: Link先を確認 | Armin Afrough, Nichlas Vous Christensen, Rune Wittendorff M{\o}nster Jensen, Dennis Wilkens Juhl, and Thomas Vosegaard | (参考訳) 固体磁気共鳴は、原子分解能を持つ複雑な生物学的システムの力学を明らかにするユニークな技術である。
縦方向緩和は、非コヒーレントなプロセスによって、縦方向の核磁化を熱平衡に戻すメカニズムである。
しかし、測定された経時緩和速度定数は、核磁化の変化に対する不整合とコヒーレントの両方の寄与の組合せを表す。
本研究は,l-histidine hydrochloride一水和物およびグリシンがイソトープに富む生体材料のプロキシーとして働く2種類のモデル化合物の縦緩和速度定数に及ぼすマジックアングル回転速度の影響を示す。
特に、ヒスチジンのイミダゾール環における2つの窒素核の長手15N緩和は、アミンとの回転共鳴条件下でほぼ3桁程度減少し、これらの条件下ではアミン緩和速度定数が増加することが示されている。
観察された現象は、生体物理学や材料における固体磁気共鳴、特に力学の適切な測定、および動的核分極における選択的シリアル転送ステップに急進的な意味を持つ可能性がある。 Solid-state magnetic resonance is a unique technique that can reveal the dynamics of complex biological systems with atomic resolution. Longitudinal relaxation is a mechanism that returns longitudinal nuclear magnetization to its thermal equilibrium by incoherent processes. The measured longitudinal relaxation rate constant however represents the combination of both incoherent and coherent contributions to the change of nuclear magnetization. This work demonstrates the effect of magic angle spinning rate on the longitudinal relaxation rate constant in two model compounds: L-histidine hydrochloride monohydrate and glycine serving as proxies for isotopically-enriched biological materials. Most notably, it is demonstrated that the longitudinal 15N relaxation of the two nitrogen nuclei in the imidazole ring in histidine is reduced by almost three orders of magnitude at the condition of rotational resonance with the amine, while the amine relaxation rate constant is increased at these conditions. The observed phenomenon may have radical implications for the solid-state magnetic resonance in biophysics and materials, especially in the proper measurement of dynamics and as a selective serial transfer step in dynamic nuclear polarization. | 翻訳日:2023-10-28 04:28:07 公開日:2023-10-26 |
# 有限サムモノトン包有物の分散低減Halpernイテレーション Variance Reduced Halpern Iteration for Finite-Sum Monotone Inclusions ( http://arxiv.org/abs/2310.02987v2 ) ライセンス: Link先を確認 | Xufeng Cai, Ahmet Alacaoglu, Jelena Diakonikolas | (参考訳) 対向的ロバスト性やマルチエージェント設定といった基準に頼った機械学習アプローチは、ゲーム理論平衡問題の解決の必要性を高めている。
これらの応用の特に関連性は有限サム構造をターゲットにした手法であり、これらの文脈における学習問題の経験的変種に一般化的に現れる。
さらに、計算可能な近似誤差を持つメソッドは、検証可能な出口基準を提供するため、非常に望ましい。
これらの応用により、平衡問題の幅広いクラスをモデル化する有限サム単調包含問題を研究する。
我々の主な貢献は、分散還元を利用する古典的ハルパーンの反復の変種であり、有限和の$n$成分作用素が 'on average'' であるような複雑性を保証するために、パラメータ$L$ を持つcocoercive あるいは Lipschitz の連続かつ単調である。
最後の反復と(計算可能な)作用素のノルム残量を保証するメソッドのオラクルの複雑さは、$\widetilde{\mathcal{O}}(n + \sqrt{n}L\varepsilon^{-1})$であり、既存のメソッドを最大$\sqrt{n}$まで改善する。
これは、一般の有限和単調包含物と、作用素ノルム残差が最適測度であるときに凸凹最適化のようなより具体的な問題に対する最初の分散還元型結果を構成する。
さらに、この複雑さが単調なリプシッツ設定では改善不可能である、すなわち、与えられた結果がほぼ最適である、とも主張する。 Machine learning approaches relying on such criteria as adversarial robustness or multi-agent settings have raised the need for solving game-theoretic equilibrium problems. Of particular relevance to these applications are methods targeting finite-sum structure, which generically arises in empirical variants of learning problems in these contexts. Further, methods with computable approximation errors are highly desirable, as they provide verifiable exit criteria. Motivated by these applications, we study finite-sum monotone inclusion problems, which model broad classes of equilibrium problems. Our main contributions are variants of the classical Halpern iteration that employ variance reduction to obtain improved complexity guarantees in which $n$ component operators in the finite sum are ``on average'' either cocoercive or Lipschitz continuous and monotone, with parameter $L$. The resulting oracle complexity of our methods, which provide guarantees for the last iterate and for a (computable) operator norm residual, is $\widetilde{\mathcal{O}}( n + \sqrt{n}L\varepsilon^{-1})$, which improves upon existing methods by a factor up to $\sqrt{n}$. This constitutes the first variance reduction-type result for general finite-sum monotone inclusions and for more specific problems such as convex-concave optimization when operator norm residual is the optimality measure. We further argue that, up to poly-logarithmic factors, this complexity is unimprovable in the monotone Lipschitz setting; i.e., the provided result is near-optimal. | 翻訳日:2023-10-28 04:27:48 公開日:2023-10-26 |
# NeRF固有の4つ: 逆内在カメラパラメータと外在カメラパラメータの同時最適化 NeRFtrinsic Four: An End-To-End Trainable NeRF Jointly Optimizing Diverse Intrinsic and Extrinsic Camera Parameters ( http://arxiv.org/abs/2303.09412v4 ) ライセンス: Link先を確認 | Hannah Schieber, Fabian Deuser, Bernhard Egger, Norbert Oswald, Daniel Roth | (参考訳) ニューラル放射場(NeRF)を用いた新しいビュー合成は、新しい視点から高品質な画像を生成する最先端技術である。
既存の手法では、極端および内在的なカメラパラメータに関する事前知識が必要である。
これにより、前処理ステップが必要な合成シーンや現実世界のシナリオへの適用が制限される。
カメラパラメータとNeRFの合同最適化に関する最近の研究は、ノイズのある外部カメラパラメータの精製に重点を置いており、しばしば固有のカメラパラメータの事前処理に依存している。
さらなるアプローチは、1つのカメラのみを本質的にカバーすることに限られる。
これらの制約に対処するため、我々はNeRFtrinsic Fourと呼ばれる新しいエンドツーエンドのトレーニング可能なアプローチを提案する。
我々は,gaussian fourier特徴を用いて,外部カメラパラメータを推定し,投影誤差の監視により,固有カメラパラメータの変動を動的に予測する。
提案手法はLLFFとBLEFFの既存の共同最適化手法よりも優れている。
これら既存のデータセットに加えて,固有カメラパラメータの異なるiffと呼ばれる新しいデータセットも導入する。
nerftrinsic fourは、nerfベースのビュー合成を共同最適化するステップであり、カメラパラメータの異なる現実世界のシナリオにおいて、よりリアルで柔軟なレンダリングを可能にする。 Novel view synthesis using neural radiance fields (NeRF) is the state-of-the-art technique for generating high-quality images from novel viewpoints. Existing methods require a priori knowledge about extrinsic and intrinsic camera parameters. This limits their applicability to synthetic scenes, or real-world scenarios with the necessity of a preprocessing step. Current research on the joint optimization of camera parameters and NeRF focuses on refining noisy extrinsic camera parameters and often relies on the preprocessing of intrinsic camera parameters. Further approaches are limited to cover only one single camera intrinsic. To address these limitations, we propose a novel end-to-end trainable approach called NeRFtrinsic Four. We utilize Gaussian Fourier features to estimate extrinsic camera parameters and dynamically predict varying intrinsic camera parameters through the supervision of the projection error. Our approach outperforms existing joint optimization methods on LLFF and BLEFF. In addition to these existing datasets, we introduce a new dataset called iFF with varying intrinsic camera parameters. NeRFtrinsic Four is a step forward in joint optimization NeRF-based view synthesis and enables more realistic and flexible rendering in real-world scenarios with varying camera parameters. | 翻訳日:2023-10-28 02:40:57 公開日:2023-10-26 |
# 将来の蒸留と推論を考慮したオフライン音声翻訳モデルへの適応 Adapting Offline Speech Translation Models for Streaming with Future-Aware Distillation and Inference ( http://arxiv.org/abs/2303.07914v2 ) ライセンス: Link先を確認 | Biao Fu, Minpeng Liao, Kai Fan, Zhongqiang Huang, Boxing Chen, Yidong Chen, Xiaodong Shi | (参考訳) ストリーミング音声翻訳の一般的なアプローチは、さまざまなレイテンシ要件をサポートするために、wait-kポリシを備えた単一のオフラインモデルを採用することだ。
しかし、完全発話で訓練されたモデルを用いて部分的な入力を伴うストリーミング推論を行う場合、ミスマッチの問題が発生する。
ストリーム入力の最後に抽出された音声表現は,完全発話から抽出した音声とは大きく異なることを示す。
この問題に対処するため,FAST(Future-Aware Streaming Translation)と呼ばれる新しいアプローチを提案し,ストリーミング入力にオフラインSTモデルを適用する。
FASTには、トレーニング可能なマスク埋め込みを通じて将来のコンテキストを組み込むFuture-Aware Inference(FAI)戦略と、完全な音声の近似からストリーミング入力へ将来のコンテキストを転送するFuture-Aware Distillation(FAD)フレームワークが含まれている。
MuST-C EnDe, EnEs, EnFr のベンチマーク実験により,FAST は翻訳品質とレイテンシのトレードオフが強いベースラインよりも優れていることが示された。
本手法は,オフライントレーニングとオンライン推論のミスマッチ問題を効果的に緩和するものである。 A popular approach to streaming speech translation is to employ a single offline model with a wait-k policy to support different latency requirements, which is simpler than training multiple online models with different latency constraints. However, there is a mismatch problem in using a model trained with complete utterances for streaming inference with partial input. We demonstrate that speech representations extracted at the end of a streaming input are significantly different from those extracted from a complete utterance. To address this issue, we propose a new approach called Future-Aware Streaming Translation (FAST) that adapts an offline ST model for streaming input. FAST includes a Future-Aware Inference (FAI) strategy that incorporates future context through a trainable masked embedding, and a Future-Aware Distillation (FAD) framework that transfers future context from an approximation of full speech to streaming input. Our experiments on the MuST-C EnDe, EnEs, and EnFr benchmarks show that FAST achieves better trade-offs between translation quality and latency than strong baselines. Extensive analyses suggest that our methods effectively alleviate the aforementioned mismatch problem between offline training and online inference. | 翻訳日:2023-10-28 02:40:37 公開日:2023-10-26 |
# Aucklet: 接地された知覚カテゴリー記述の生成 Describe me an Aucklet: Generating Grounded Perceptual Category Descriptions ( http://arxiv.org/abs/2303.04053v3 ) ライセンス: Link先を確認 | Bill Noble, Nikolai Ilinykh | (参考訳) 人間の話者は、インスタンスレベルから抽象化された知覚概念の記述を生成することができる。
さらに、そのような記述は他の話者がこれらの概念の仮表現を学ぶのに使うことができる。
抽象的な知覚概念の学習と使用は、言語と視覚の分野では未調査である。
この問題はマルチモーダルNLPにおける表現学習の分野にも深く関係している。
本稿では,マルチモーダル言語モデルにおけるカテゴリーレベルの知覚的接地をテストするためのフレームワークを提案する。
特に,視覚カテゴリの記述を生成・解釈するために,別々のニューラルネットワークを訓練する。
解釈モデルのゼロショット分類性能を用いて2つのモデルの通信的成功を計測し,知覚的接地を示す指標として考察した。
このフレームワークを用いて,プロトタイプおよび模範表現の性能を比較する。
最後に,コミュニケーションの成功は,従来のnlg評価指標ではなく,ジェネレーションモデルのパフォーマンス問題を露呈することを示し,これらの問題はカテゴリレベルで言語を適切に理解できないことに起因すると論じる。 Human speakers can generate descriptions of perceptual concepts, abstracted from the instance-level. Moreover, such descriptions can be used by other speakers to learn provisional representations of those concepts. Learning and using abstract perceptual concepts is under-investigated in the language-and-vision field. The problem is also highly relevant to the field of representation learning in multi-modal NLP. In this paper, we introduce a framework for testing category-level perceptual grounding in multi-modal language models. In particular, we train separate neural networks to generate and interpret descriptions of visual categories. We measure the communicative success of the two models with the zero-shot classification performance of the interpretation model, which we argue is an indicator of perceptual grounding. Using this framework, we compare the performance of prototype- and exemplar-based representations. Finally, we show that communicative success exposes performance issues in the generation model, not captured by traditional intrinsic NLG evaluation metrics, and argue that these issues stem from a failure to properly ground language in vision at the category level. | 翻訳日:2023-10-28 02:40:00 公開日:2023-10-26 |
# Wasserstein Believer:Reliable Latent Space Modelによる部分観測可能な環境に対する信頼度更新の学習 The Wasserstein Believer: Learning Belief Updates for Partially Observable Environments through Reliable Latent Space Models ( http://arxiv.org/abs/2303.03284v3 ) ライセンス: Link先を確認 | Raphael Avalos, Florent Delgrange, Ann Now\'e, Guillermo A. P\'erez, Diederik M. Roijers | (参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)は、エージェントによって完全な状態が認識できない環境をモデル化するために使用される。
このように、エージェントは過去の観察と行動を考慮する必要がある。
しかし、歴史空間の指数的な成長のため、単に歴史全体を記憶することは一般的に難解である。
真の状態に関する信念をモデル化する確率分布を維持することは、歴史の十分な統計量として使用できるが、その計算は環境のモデルへのアクセスを必要とし、しばしば難解である。
SOTAアルゴリズムは、十分な統計学学習を目的とした観測行動履歴の圧縮にリカレントニューラルネットワークを使用するが、成功の保証が欠如しており、準最適ポリシーにつながる可能性がある。
そこで本研究では,pomdpの潜在モデルと信念更新の近似を学習するrlアルゴリズムであるwasserstein belief updaterを提案する。
我々のアプローチは、我々の出力された信念が最適な値関数を学習できるように、近似の品質に関する理論的保証が伴う。 Partially Observable Markov Decision Processes (POMDPs) are used to model environments where the full state cannot be perceived by an agent. As such the agent needs to reason taking into account the past observations and actions. However, simply remembering the full history is generally intractable due to the exponential growth in the history space. Maintaining a probability distribution that models the belief over what the true state is can be used as a sufficient statistic of the history, but its computation requires access to the model of the environment and is often intractable. While SOTA algorithms use Recurrent Neural Networks to compress the observation-action history aiming to learn a sufficient statistic, they lack guarantees of success and can lead to sub-optimal policies. To overcome this, we propose the Wasserstein Belief Updater, an RL algorithm that learns a latent model of the POMDP and an approximation of the belief update. Our approach comes with theoretical guarantees on the quality of our approximation ensuring that our outputted beliefs allow for learning the optimal value function. | 翻訳日:2023-10-28 02:39:46 公開日:2023-10-26 |
# ロバスト視覚知覚のための畳み込み視覚プロンプト Convolutional Visual Prompt for Robust Visual Perception ( http://arxiv.org/abs/2303.00198v2 ) ライセンス: Link先を確認 | Yun-Yun Tsai, Chengzhi Mao, Junfeng Yang | (参考訳) 視覚モデルは、適応することなく、しばしばオフ・オブ・ディストリビューション(OOD)サンプルに対して脆弱である。
視覚プロンプトは、大規模な視覚モデルに対する入力空間適応の軽量な方法を提供するが、それらは高次元の加算ベクトルとラベル付きデータに依存している。
これはラベルなしで自己管理されたテスト時間設定でモデルを適応する際の過度な適合につながる。
頑健な視覚知覚のためのラベルなしテスト時間適応のための畳み込み視覚プロンプト(CVP)を導入する。
CVPの構造的な性質はトレーニング可能なパラメータが少なく、標準の視覚的プロンプトに比べて1\%以下であり、オーバーフィッティングと戦っている。
多様なOOD視覚認知タスクの広範囲な実験と分析により、我々のアプローチが効果的であることを示し、複数の大規模モデルに対して最大5.87%の堅牢性を向上した。 Vision models are often vulnerable to out-of-distribution (OOD) samples without adapting. While visual prompts offer a lightweight method of input-space adaptation for large-scale vision models, they rely on a high-dimensional additive vector and labeled data. This leads to overfitting when adapting models in a self-supervised test-time setting without labels. We introduce convolutional visual prompts (CVP) for label-free test-time adaptation for robust visual perception. The structured nature of CVP demands fewer trainable parameters, less than 1\% compared to standard visual prompts, combating overfitting. Extensive experiments and analysis on a wide variety of OOD visual perception tasks show that our approach is effective, improving robustness by up to 5.87% over several large-scale models. | 翻訳日:2023-10-28 02:38:55 公開日:2023-10-26 |
# マルチアーマッドバンドのためのベスト・オブ・ボス・ワールド・保証の改善:汎用正規化器と複数の最適アームを備えたFTRL Improved Best-of-Both-Worlds Guarantees for Multi-Armed Bandits: FTRL with General Regularizers and Multiple Optimal Arms ( http://arxiv.org/abs/2302.13534v2 ) ライセンス: Link先を確認 | Tiancheng Jin, Junyan Liu, Haipeng Luo | (参考訳) 本研究では,確率的設定と敵対的設定の両方において最適に動作する適応型マルチアームバンディットアルゴリズムを設計する問題(しばしば両世界最高の保証として知られる)について検討する。
最近の研究の行は、構成と解析を適切に行うと、FTRL(Follow-the-Regularized-Leader)アルゴリズムが元来、対数的設定のために設計され、実際に確率的設定にも最適に適応できることを示している。
しかし、そのような結果は一つの一意的な最適腕が存在するという仮定に批判的である。
最近、伊藤 (2021) は、$\frac{1}{2}$-Tsallis entropy regularizer を用いて、ある特定の FTRL アルゴリズムに対してそのような望ましくない一意性仮定を除去する第一歩を踏み出した。
本研究では,幅広い正規化器群と新しい学習率スケジュールを持つftrlでは,一意性が不要であることを示すため,この結果を大幅に改善し,一般化する。
一部の正則化器では、一意性が保たれたとしても、我々の後悔の限界は以前の結果にも改善される。
我々はさらに,この手法が広く適用可能であることを実証し,非結合な探索・搾取問題に適用する。 We study the problem of designing adaptive multi-armed bandit algorithms that perform optimally in both the stochastic setting and the adversarial setting simultaneously (often known as a best-of-both-world guarantee). A line of recent works shows that when configured and analyzed properly, the Follow-the-Regularized-Leader (FTRL) algorithm, originally designed for the adversarial setting, can in fact optimally adapt to the stochastic setting as well. Such results, however, critically rely on an assumption that there exists one unique optimal arm. Recently, Ito (2021) took the first step to remove such an undesirable uniqueness assumption for one particular FTRL algorithm with the $\frac{1}{2}$-Tsallis entropy regularizer. In this work, we significantly improve and generalize this result, showing that uniqueness is unnecessary for FTRL with a broad family of regularizers and a new learning rate schedule. For some regularizers, our regret bounds also improve upon prior results even when uniqueness holds. We further provide an application of our results to the decoupled exploration and exploitation problem, demonstrating that our techniques are broadly applicable. | 翻訳日:2023-10-28 02:38:42 公開日:2023-10-26 |
# 外部映像知識とユーザネットワークを用いた映画レビューにおけるスポイラーの検出 Detecting Spoilers in Movie Reviews with External Movie Knowledge and User Networks ( http://arxiv.org/abs/2304.11411v2 ) ライセンス: Link先を確認 | Heng Wang, Wenqian Zhang, Yuyang Bai, Zhaoxuan Tan, Shangbin Feng, Qinghua Zheng, Minnan Luo | (参考訳) オンライン映画レビュープラットフォームは、映画業界と一般向けにクラウドソースによるフィードバックを提供しており、スポイラーレビューはユーザーエクスペリエンスを損なう。
スポイラーを自動的に識別するための予備的な研究努力は行われたが、レビュー内容そのものにのみ焦点をあてるだけで、ロバストなスポイラー検出には、映画に関する事実や知識、映画レビュープラットフォームにおけるユーザー行動などのコンテキストにレビューを組み込む必要がある。
これらの課題を踏まえ、まず、大規模ネットワークベースのスポイラー検出データセットlcsと、総合的かつ最新の映画知識ベースukmをキュレーションする。
次に,映画レビュープラットフォーム上での映画やユーザ活動の外部知識を考慮した,新しいマルチビュースポイラー検出フレームワークであるMVSDを提案する。
具体的には、MVSDは、多様なデータソースとその多視点特性をモデル化するための3つの相互接続した異種情報ネットワークを構築し、ノードレベルの分類としてスポイラー検出のための新しい異種グラフニューラルネットワークアーキテクチャを設計、採用する。
大規模な実験により、MVSDは2つのスポイラー検出データセットの最先端を推し進める一方、外部知識の導入とユーザインタラクションは堅牢なスポイラー検出を支援する。
私たちのデータとコードはhttps://github.com/Arthur-Heng/Spoiler-Detectionで公開されています。 Online movie review platforms are providing crowdsourced feedback for the film industry and the general public, while spoiler reviews greatly compromise user experience. Although preliminary research efforts were made to automatically identify spoilers, they merely focus on the review content itself, while robust spoiler detection requires putting the review into the context of facts and knowledge regarding movies, user behavior on film review platforms, and more. In light of these challenges, we first curate a large-scale network-based spoiler detection dataset LCS and a comprehensive and up-to-date movie knowledge base UKM. We then propose MVSD, a novel Multi-View Spoiler Detection framework that takes into account the external knowledge about movies and user activities on movie review platforms. Specifically, MVSD constructs three interconnecting heterogeneous information networks to model diverse data sources and their multi-view attributes, while we design and employ a novel heterogeneous graph neural network architecture for spoiler detection as node-level classification. Extensive experiments demonstrate that MVSD advances the state-of-the-art on two spoiler detection datasets, while the introduction of external knowledge and user interactions help ground robust spoiler detection. Our data and code are available at https://github.com/Arthur-Heng/Spoiler-Detection | 翻訳日:2023-10-28 02:29:29 公開日:2023-10-26 |
# pointdc:クロスモーダル蒸留とスーパーボクセルクラスタリングによる3次元点雲の教師なしセグメンテーション PointDC:Unsupervised Semantic Segmentation of 3D Point Clouds via Cross-modal Distillation and Super-Voxel Clustering ( http://arxiv.org/abs/2304.08965v4 ) ライセンス: Link先を確認 | Zisheng Chen, Hongbin Xu, Weitao Chen, Zhipeng Zhou, Haihong Xiao, Baigui Sun, Xuansong Xie, Wenxiong Kang | (参考訳) 点雲の意味セグメンテーションは、通常、人間のアノテーションの枯渇する努力を必要とするため、ラベルのない、またはより弱い形のアノテーションから学ぶことの難しいトピックに広く注目される。
本稿では,アノテーションを使わずに意味論的に意味のあるオブジェクトを記述することを目的とした,ポイントクラウドの完全教師なしセマンティックセマンティックセマンティックセマンティック化の試みを行う。
2dイメージに対する教師なしパイプラインの以前の作業は、ポイントクラウドのこのタスクでは失敗する。
1) データの大きさの制限とクラス分布の不均衡による曖昧さのクラスタリング
2)点雲の不規則なスパース性に起因する不規則な曖昧さ。
そこで本稿では, 上記の問題をそれぞれ処理する2つのステップ, クロスモーダル蒸留 (CMD) とスーパーボクセルクラスタリング (SVC) からなる新しいフレームワークであるPointDCを提案する。
CMDの第1段階では、多視点視覚特徴は3次元空間にバックプロジェクションされ、統一された点特徴に集約され、点表現の訓練を蒸留する。
svcの第2段階では、ポイント機能はスーパーボクセルに集約され、セマンティクスクラスを発掘するために反復クラスタリングプロセスに供給される。
pointdc は、scannet-v2 (+18.4 miou) と s3dis (+11.5 miou) のセマンティクスセグメンテーションベンチマークの両方において、以前の最先端の教師なしメソッドを大きく改善する。 Semantic segmentation of point clouds usually requires exhausting efforts of human annotations, hence it attracts wide attention to the challenging topic of learning from unlabeled or weaker forms of annotations. In this paper, we take the first attempt for fully unsupervised semantic segmentation of point clouds, which aims to delineate semantically meaningful objects without any form of annotations. Previous works of unsupervised pipeline on 2D images fails in this task of point clouds, due to: 1) Clustering Ambiguity caused by limited magnitude of data and imbalanced class distribution; 2) Irregularity Ambiguity caused by the irregular sparsity of point cloud. Therefore, we propose a novel framework, PointDC, which is comprised of two steps that handle the aforementioned problems respectively: Cross-Modal Distillation (CMD) and Super-Voxel Clustering (SVC). In the first stage of CMD, multi-view visual features are back-projected to the 3D space and aggregated to a unified point feature to distill the training of the point representation. In the second stage of SVC, the point features are aggregated to super-voxels and then fed to the iterative clustering process for excavating semantic classes. PointDC yields a significant improvement over the prior state-of-the-art unsupervised methods, on both the ScanNet-v2 (+18.4 mIoU) and S3DIS (+11.5 mIoU) semantic segmentation benchmarks. | 翻訳日:2023-10-28 02:29:04 公開日:2023-10-26 |
# control3diff: 学習制御可能な3次元拡散モデル Control3Diff: Learning Controllable 3D Diffusion Models from Single-view Images ( http://arxiv.org/abs/2304.06700v2 ) ライセンス: Link先を確認 | Jiatao Gu, Qingzhe Gao, Shuangfei Zhai, Baoquan Chen, Lingjie Liu and Josh Susskind | (参考訳) 拡散モデルは最近、2次元領域における生成モデリングのデファクトアプローチとなっている。
しかし,3次元基底真理データ取得の難しさから,拡散モデルを3次元に拡張することは困難である。
一方、暗黙的な3D表現をGANに統合する3D GANは、単一ビューの画像データセットのみをトレーニングした場合、顕著な3D認識生成を示す。
しかし、3D GANは画像合成を正確に制御する方法を提供していない。
これらの課題に対処するため,我々は,拡散モデルの強みと3次元ganを組み合わせる3次元拡散モデルである control3diff を提案する。
Control3Diffは、下層の潜伏分布(外部入力に任意に条件付けされている)を明示的にモデル化し、拡散過程の直接制御を可能にする。
さらに,本手法は汎用的であり,任意の種類の制御入力に適用可能であり,補助的監督なしに同じ拡散目標で学習することができる。
FFHQ,AFHQ,ShapeNetなどの標準画像生成ベンチマークにおいて,画像,スケッチ,テキストプロンプトなどの条件入力を用いて制御3Diffの有効性を検証する。
ビデオの比較についてはプロジェクトのWebサイト(\url{https://jiataogu.me/control3diff})を参照してください。 Diffusion models have recently become the de-facto approach for generative modeling in the 2D domain. However, extending diffusion models to 3D is challenging due to the difficulties in acquiring 3D ground truth data for training. On the other hand, 3D GANs that integrate implicit 3D representations into GANs have shown remarkable 3D-aware generation when trained only on single-view image datasets. However, 3D GANs do not provide straightforward ways to precisely control image synthesis. To address these challenges, We present Control3Diff, a 3D diffusion model that combines the strengths of diffusion models and 3D GANs for versatile, controllable 3D-aware image synthesis for single-view datasets. Control3Diff explicitly models the underlying latent distribution (optionally conditioned on external inputs), thus enabling direct control during the diffusion process. Moreover, our approach is general and applicable to any type of controlling input, allowing us to train it with the same diffusion objective without any auxiliary supervision. We validate the efficacy of Control3Diff on standard image generation benchmarks, including FFHQ, AFHQ, and ShapeNet, using various conditioning inputs such as images, sketches, and text prompts. Please see the project website (\url{https://jiataogu.me/control3diff}) for video comparisons. | 翻訳日:2023-10-28 02:28:32 公開日:2023-10-26 |
# キャプションの変更:リモートセンシングによる変更キャプションのための注意ネットワーク Changes to Captions: An Attentive Network for Remote Sensing Change Captioning ( http://arxiv.org/abs/2304.01091v2 ) ライセンス: Link先を確認 | Shizhen Chang and Pedram Ghamisi | (参考訳) 近年,自然言語処理(NLP)技術を用いたリモートセンシング画像の直接学習と解析に注目が集まっている。
多時期リモートセンシング画像における変化を正確に記述する能力は,地理空間の理解や土地計画においてますます重要になっている。
自然画像変化キャプションタスクとは異なり、リモートセンシング変化キャプションは、照明、季節効果、複雑な土地被覆など、さまざまな要因に関わらず、最も重要な変化を捉えることを目的としている。
本研究では,リモートセンシング画像の変化を正確に記述することの重要性を強調し,自然画像と合成画像とリモートセンシング画像における変化キャプションタスクの比較を行う。
正確なキャプション生成の課題に対処するため,両時間リモートセンシング画像に対して,Chg2Capと呼ばれる注意的変更対キャプションネットワークを提案する。
ネットワークは3つの主要コンポーネントから構成される。
1) 画像ペアごとに高レベル表現を収集するシームズCNNに基づく特徴抽出器
2 画像埋め込みを生成するための変更関連特徴の特定のための階層的自己注意ブロック及び残留ブロックを含む注意的復号器
3) 画像埋め込みと記述への単語埋め込みの関係をデコードするトランスベースのキャプション生成装置。
提案するChg2Capネットワークを2つの代表的なリモートセンシングデータセットで評価し,総合的な実験分析を行った。
コードと事前訓練されたモデルはhttps://github.com/ShizhenChang/Chg2Cap.comからオンラインで入手できる。 In recent years, advanced research has focused on the direct learning and analysis of remote sensing images using natural language processing (NLP) techniques. The ability to accurately describe changes occurring in multi-temporal remote sensing images is becoming increasingly important for geospatial understanding and land planning. Unlike natural image change captioning tasks, remote sensing change captioning aims to capture the most significant changes, irrespective of various influential factors such as illumination, seasonal effects, and complex land covers. In this study, we highlight the significance of accurately describing changes in remote sensing images and present a comparison of the change captioning task for natural and synthetic images and remote sensing images. To address the challenge of generating accurate captions, we propose an attentive changes-to-captions network, called Chg2Cap for short, for bi-temporal remote sensing images. The network comprises three main components: 1) a Siamese CNN-based feature extractor to collect high-level representations for each image pair; 2) an attentive decoder that includes a hierarchical self-attention block to locate change-related features and a residual block to generate the image embedding; and 3) a transformer-based caption generator to decode the relationship between the image embedding and the word embedding into a description. The proposed Chg2Cap network is evaluated on two representative remote sensing datasets, and a comprehensive experimental analysis is provided. The code and pre-trained models will be available online at https://github.com/ShizhenChang/Chg2Cap. | 翻訳日:2023-10-28 02:27:49 公開日:2023-10-26 |
# ChatGPTは良いキーワード生成器か?
予備的研究 Is ChatGPT A Good Keyphrase Generator? A Preliminary Study ( http://arxiv.org/abs/2303.13001v2 ) ライセンス: Link先を確認 | Mingyang Song, Haiyun Jiang, Shuming Shi, Songfang Yao, Shilong Lu, Yi Feng, Huafeng Liu, Liping Jing | (参考訳) ChatGPTの出現は、最近、計算言語学コミュニティから大きな注目を集めている。
キーフレーズ生成器としての機能を実証するために,キーフレーズ生成タスクにおけるchatgptの予備評価を行う。
我々は,キーフレーズ生成プロンプト,キーフレーズ生成多様性,長い文書理解など,様々な面でその性能を評価する。
評価は6つのベンチマークデータセットに基づいており、OpenAIが提案するプロンプトを6つの候補プロンプトに拡張しながら採用しています。
chatgptは6つの候補プロンプトすべてにおいて非常によく機能しており、データセット全体では小さなパフォーマンスの違いが観察されている。
以上の結果から,chatgptはキーフレーズ生成に大きな可能性があると結論づけた。
さらに,チャットgptではキーフレーズの欠落が問題となっていることも判明した。
一方,最終節では,本報告の限界と今後の拡張についても紹介する。 The emergence of ChatGPT has recently garnered significant attention from the computational linguistics community. To demonstrate its capabilities as a keyphrase generator, we conduct a preliminary evaluation of ChatGPT for the keyphrase generation task. We evaluate its performance in various aspects, including keyphrase generation prompts, keyphrase generation diversity, and long document understanding. Our evaluation is based on six benchmark datasets, and we adopt the prompt suggested by OpenAI while extending it to six candidate prompts. We find that ChatGPT performs exceptionally well on all six candidate prompts, with minor performance differences observed across the datasets. Based on our findings, we conclude that ChatGPT has great potential for keyphrase generation. Moreover, we discover that ChatGPT still faces challenges when it comes to generating absent keyphrases. Meanwhile, in the final section, we also present some limitations and future expansions of this report. | 翻訳日:2023-10-28 02:26:40 公開日:2023-10-26 |
# 局所接続型ニューラルネットワークにおけるデータ適合性について
量子絡み合いに基づく必要十分条件 What Makes Data Suitable for a Locally Connected Neural Network? A Necessary and Sufficient Condition Based on Quantum Entanglement ( http://arxiv.org/abs/2303.11249v4 ) ライセンス: Link先を確認 | Yotam Alexander, Nimrod De La Vega, Noam Razin, Nadav Cohen | (参考訳) 深層学習に適したデータ分布をなぜ作るのかという問題は、根本的なオープンな問題である。
局所結合型ニューラルネットワーク(畳み込み型および再帰型ニューラルネットワークを含む、一般的なアーキテクチャ群)に焦点を当て、量子物理学の理論的ツールを採用することでこの問題に対処します。
我々の主理論的結果は、ある局所的に連結されたニューラルネットワークが、データ分布が特定の特徴の正準分割の下で低い量子エンタングルメントを許容している場合に限り、データ分布を正確に予測できることを示している。
この結果の実用的応用として,局所結合型ニューラルネットワークへのデータ分布の適合性を高める前処理法を導出する。
様々なデータセットにまたがる広範囲なモデルによる実験は、我々の発見を実証している。
量子の絡み合いを用いることで、深層学習と現実世界のデータの関係を正式に推論するために、物理学からのツールのさらなる採用が促進されることを願っています。 The question of what makes a data distribution suitable for deep learning is a fundamental open problem. Focusing on locally connected neural networks (a prevalent family of architectures that includes convolutional and recurrent neural networks as well as local self-attention models), we address this problem by adopting theoretical tools from quantum physics. Our main theoretical result states that a certain locally connected neural network is capable of accurate prediction over a data distribution if and only if the data distribution admits low quantum entanglement under certain canonical partitions of features. As a practical application of this result, we derive a preprocessing method for enhancing the suitability of a data distribution to locally connected neural networks. Experiments with widespread models over various datasets demonstrate our findings. We hope that our use of quantum entanglement will encourage further adoption of tools from physics for formally reasoning about the relation between deep learning and real-world data. | 翻訳日:2023-10-28 02:26:27 公開日:2023-10-26 |
# ビデオは4096トークンに値します。ビデオはゼロショットで理解するために口頭で表現します A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In Zero Shot ( http://arxiv.org/abs/2305.09758v3 ) ライセンス: Link先を確認 | Aanisha Bhattacharya, Yaman K Singla, Balaji Krishnamurthy, Rajiv Ratn Shah, Changyou Chen | (参考訳) 広告やストーリービデオなどのマルチメディアコンテンツは、創造性と複数のモダリティの豊富なブレンドを示す。
テキスト、ビジュアル、オーディオ、ストーリーテリングといった要素が組み込まれており、感情、象徴、スローガンなどを使って意味を伝える。
マルチメディア領域には多数の注釈付きトレーニングデータセットがあり、現実世界のアプリケーションに十分な性能を持つ教師付き学習モデルの開発を妨げる。
一方、大規模言語モデル(LLM)の台頭は、感情分類、質問応答、話題分類など、様々な自然言語処理(NLP)タスクにおいて顕著なゼロショット性能をみせた。
マルチメディア理解におけるこのパフォーマンスギャップを埋めるために,このような高度な手法を活用するために,自然言語による記述を生成するために長大な動画を言語化することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られることを示す。
さらに、ストーリー理解ベンチマークの欠如を緩和するために、我々は、説得戦略識別に関する計算社会科学における重要なタスクに関する最初のデータセットを公開する。 Multimedia content, such as advertisements and story videos, exhibit a rich blend of creativity and multiple modalities. They incorporate elements like text, visuals, audio, and storytelling techniques, employing devices like emotions, symbolism, and slogans to convey meaning. There is a dearth of large annotated training datasets in the multimedia domain hindering the development of supervised learning models with satisfactory performance for real-world applications. On the other hand, the rise of large language models (LLMs) has witnessed remarkable zero-shot performance in various natural language processing (NLP) tasks, such as emotion classification, question-answering, and topic classification. To leverage such advanced techniques to bridge this performance gap in multimedia understanding, we propose verbalizing long videos to generate their descriptions in natural language, followed by performing video-understanding tasks on the generated story as opposed to the original video. Through extensive experiments on fifteen video-understanding tasks, we demonstrate that our method, despite being zero-shot, achieves significantly better results than supervised baselines for video understanding. Furthermore, to alleviate a lack of story understanding benchmarks, we publicly release the first dataset on a crucial task in computational social science on persuasion strategy identification. | 翻訳日:2023-10-28 02:21:08 公開日:2023-10-26 |
# モデル予測を解釈するための非対称特徴間相互作用 Asymmetric feature interaction for interpreting model predictions ( http://arxiv.org/abs/2305.07224v4 ) ライセンス: Link先を確認 | Xiaolei Lu, Jianghong Ma, Haode Zhang | (参考訳) 自然言語処理(NLP)では、ディープニューラルネットワーク(DNN)はコンテキスト間の複雑な相互作用をモデル化することができ、様々なNLPタスクにおいて印象的な結果が得られる。
先行研究は、主に、モデル予測に寄与する非対称的な影響を捉えるのに失敗する、一組の単語の付加的な影響のみを説明する対称的相互作用の研究に焦点を当てている。
本研究では,ニューラルNLPモデルの推論における非対称な高次特徴相互作用の探索を目的とした,非対称な特徴相互作用帰属説明モデルを提案する。
有向相互作用グラフを用いて説明を表現することにより、非対称な特徴相互作用を発見するためのグラフの解釈可能性について実験的に示す。
2つの感情分類データセットにおける実験結果は,モデル予測に影響を及ぼす特徴の同定において,最先端の特徴間相互作用の帰属法に対して,モデルの優越性を示す。
私たちのコードはhttps://github.com/stilllu/asivで利用可能です。 In natural language processing (NLP), deep neural networks (DNNs) could model complex interactions between context and have achieved impressive results on a range of NLP tasks. Prior works on feature interaction attribution mainly focus on studying symmetric interaction that only explains the additional influence of a set of words in combination, which fails to capture asymmetric influence that contributes to model prediction. In this work, we propose an asymmetric feature interaction attribution explanation model that aims to explore asymmetric higher-order feature interactions in the inference of deep neural NLP models. By representing our explanation with an directed interaction graph, we experimentally demonstrate interpretability of the graph to discover asymmetric feature interactions. Experimental results on two sentiment classification datasets show the superiority of our model against the state-of-the-art feature interaction attribution methods in identifying influential features for model predictions. Our code is available at https://github.com/StillLu/ASIV. | 翻訳日:2023-10-28 02:20:47 公開日:2023-10-26 |
# 会話レコメンデーションのための多層ハイパーグラフ興味モデリング Multi-grained Hypergraph Interest Modeling for Conversational Recommendation ( http://arxiv.org/abs/2305.04798v2 ) ライセンス: Link先を確認 | Chenzhan Shang, Yupeng Hou, Wayne Xin Zhao, Yaliang Li, Jing Zhang | (参考訳) 会話レコメンデータシステム(CRS)は,ユーザの即時情報要求に対して高品質なレコメンデーションを提供することを目的として,自然言語のマルチターン対話を通じてユーザと対話する。
効果的なCRSの開発には多大な努力が払われているが、そのほとんどが現在の対話からの文脈情報に焦点を当てており、通常はデータ不足の問題に悩まされている。
そこで本稿では,過去の対話データを活用して,現在の対話セッションの限られた文脈を豊かにする。
本稿では,異なる視点から複雑な履歴データの下でユーザの興味を捉えるための,新しい多粒度ハイパーグラフ利害モデリング手法を提案する。
基本概念として,歴史対話の基盤となる複雑な意味関係を表現するためにハイパーグラフを用いる。
提案手法では,まずハイパーグラフ構造を用いてユーザの過去の対話セッションをモデル化し,粗粒度でセッションレベルの関係を捉えたセッションベースのハイパーグラフを作成する。
次に,データ不足の問題を解決するために,外部知識グラフを用いて,細粒度なエンティティレベルのセマンティクスを考慮した知識ベースのハイパーグラフを構築する。
さらに,この2種類のハイパーグラフについて多面的ハイパーグラフ畳み込みを行い,その拡張表現を用いて興味をそそるcrsを開発した。
ReDialとTG-ReDialの2つのベンチマークによる大規模な実験により,提案手法の有効性が示唆された。
コードは、https://github.com/RUCAIBox/MHIM.comで入手できる。 Conversational recommender system (CRS) interacts with users through multi-turn dialogues in natural language, which aims to provide high-quality recommendations for user's instant information need. Although great efforts have been made to develop effective CRS, most of them still focus on the contextual information from the current dialogue, usually suffering from the data scarcity issue. Therefore, we consider leveraging historical dialogue data to enrich the limited contexts of the current dialogue session. In this paper, we propose a novel multi-grained hypergraph interest modeling approach to capture user interest beneath intricate historical data from different perspectives. As the core idea, we employ hypergraph to represent complicated semantic relations underlying historical dialogues. In our approach, we first employ the hypergraph structure to model users' historical dialogue sessions and form a session-based hypergraph, which captures coarse-grained, session-level relations. Second, to alleviate the issue of data scarcity, we use an external knowledge graph and construct a knowledge-based hypergraph considering fine-grained, entity-level semantics. We further conduct multi-grained hypergraph convolution on the two kinds of hypergraphs, and utilize the enhanced representations to develop interest-aware CRS. Extensive experiments on two benchmarks ReDial and TG-ReDial validate the effectiveness of our approach on both recommendation and conversation tasks. Code is available at: https://github.com/RUCAIBox/MHIM. | 翻訳日:2023-10-28 02:20:31 公開日:2023-10-26 |
# トップおよびバックビュードローン映像からのポーズ情報を用いたバドミントンダブルスの制御領域の推定 Estimation of control area in badminton doubles with pose information from top and back view drone videos ( http://arxiv.org/abs/2305.04247v3 ) ライセンス: Link先を確認 | Ning Ding, Kazuya Takeda, Wenhui Jin, Yingjiu Bei, Keisuke Fujii | (参考訳) 動的競技におけるスポーツ選手のパフォーマンス分析へのビジュアルトラッキングの適用は,効果的なコーチングに不可欠である。
ダブルスの試合では、調整された位置決めがコートのコントロールを維持し、対戦相手の得点機会を最小化するために重要である。
このようなチームワークの分析はゲームのダイナミクスを理解する上で重要な役割を果たす。
しかし,従来の研究では,放送ビデオの排除を考慮せずにシングルプレーヤーの分析と評価に重点を置いてきた。
これらの研究は、特定のアクション(例えば、ストローク)の分析と表現を含む離散的な表現や、意味のある空間分布を見下ろしながらゲーム中に起こる出来事に依存してきた。
本研究では,バドミントンダブルにおけるトップ・バックビューからの最初の注釈付きドローンデータセットを提示し,チームワークのパフォーマンスを評価するための制御領域確率マップを推定するためのフレームワークを提案する。
完全な確率曲面の計算を可能にするディープニューラルネットワークの効率的なフレームワークを提案する。
このフレームワークはプレイヤーの位置のガウス混合写像の埋め込みを利用し、ポーズにグラフ畳み込みを用いる。
実験では,様々なベースラインを比較し,スコアと制御領域の相関関係を見出すことにより,我々のアプローチを検証する。
また,ゲーム中に指示を与える最適位置評価のための実用的応用を提案する。
このアプローチは,選手の動きを視覚的かつ定量的に評価し,ダブルスチームワークに対する貴重な洞察を提供する。
データセットと関連するプロジェクトコードはhttps://github.com/ning-d/drone_bd_controlareaで入手できる。 The application of visual tracking to the performance analysis of sports players in dynamic competitions is vital for effective coaching. In doubles matches, coordinated positioning is crucial for maintaining control of the court and minimizing opponents' scoring opportunities. The analysis of such teamwork plays a vital role in understanding the dynamics of the game. However, previous studies have primarily focused on analyzing and assessing singles players without considering occlusion in broadcast videos. These studies have relied on discrete representations, which involve the analysis and representation of specific actions (e.g., strokes) or events that occur during the game while overlooking the meaningful spatial distribution. In this work, we present the first annotated drone dataset from top and back views in badminton doubles and propose a framework to estimate the control area probability map, which can be used to evaluate teamwork performance. We present an efficient framework of deep neural networks that enables the calculation of full probability surfaces. This framework utilizes the embedding of a Gaussian mixture map of players' positions and employs graph convolution on their poses. In the experiment, we verify our approach by comparing various baselines and discovering the correlations between the score and control area. Additionally, we propose a practical application for assessing optimal positioning to provide instructions during a game. Our approach offers both visual and quantitative evaluations of players' movements, thereby providing valuable insights into doubles teamwork. The dataset and related project code is available at https://github.com/Ning-D/Drone_BD_ControlArea | 翻訳日:2023-10-28 02:20:06 公開日:2023-10-26 |
# NLI4CT : 多証拠自然言語推論による臨床試験報告 NLI4CT: Multi-Evidence Natural Language Inference for Clinical Trial Reports ( http://arxiv.org/abs/2305.03598v2 ) ライセンス: Link先を確認 | Ma\"el Jullien, Marco Valentino, Hannah Frost, Paul O'Regan, Donal Landers, and Andr\'e Freitas | (参考訳) 臨床判断を支援するために 医学的証拠を解釈し 取り出すにはどうすればよいか?
臨床治験報告(CTR)は、パーソナライズド医療の発展に欠かせない情報を含んでいる。
しかし、40万以上の臨床試験報告を手動で検査して、実験的な治療の最良の証拠を見つけることは事実上不可能である。
自然言語推論(NLI)は、テキストエンターメントのスケーラブルな計算を可能にすることにより、この問題に対する潜在的な解決策を提供する。
しかし、既存のNLIモデルはバイオメディカルコーパスでは性能が悪く、以前に発表されたデータセットはCTRに対する推論の完全な複雑さを捉えることができない。
本研究では,CTRの推論のためのNLI研究を進展させる新しい資源を提案する。
リソースには2つの主なタスクが含まれている。
まず、自然言語文とCTRの推論関係を決定する。
第二に、予測関係を正当化する支援事実を検索する。
NLI4CTは2400の文とCTRからなるコーパスで、これらのタスクに注釈を付ける。
このコーパスのベースラインは既存のNLIモデルの限界を明らかにし、6つの最先端NLIモデルは最大F1スコア0.627を達成する。
私たちの知る限りでは、私たちは完全なCTRの解釈をカバーするタスクを最初に設計しました。
この困難なデータセットのさらなる作業を促進するために、コーパス、競合のリーダーボード、webサイト、コードをベースラインの実験を再現する。 How can we interpret and retrieve medical evidence to support clinical decisions? Clinical trial reports (CTR) amassed over the years contain indispensable information for the development of personalized medicine. However, it is practically infeasible to manually inspect over 400,000+ clinical trial reports in order to find the best evidence for experimental treatments. Natural Language Inference (NLI) offers a potential solution to this problem, by allowing the scalable computation of textual entailment. However, existing NLI models perform poorly on biomedical corpora, and previously published datasets fail to capture the full complexity of inference over CTRs. In this work, we present a novel resource to advance research on NLI for reasoning on CTRs. The resource includes two main tasks. Firstly, to determine the inference relation between a natural language statement, and a CTR. Secondly, to retrieve supporting facts to justify the predicted relation. We provide NLI4CT, a corpus of 2400 statements and CTRs, annotated for these tasks. Baselines on this corpus expose the limitations of existing NLI models, with 6 state-of-the-art NLI models achieving a maximum F1 score of 0.627. To the best of our knowledge, we are the first to design a task that covers the interpretation of full CTRs. To encourage further work on this challenging dataset, we make the corpus, competition leaderboard, website and code to replicate the baseline experiments available at: https://github.com/ai-systems/nli4ct | 翻訳日:2023-10-28 02:19:41 公開日:2023-10-26 |
# 自己教師付き骨格に基づく行動認識のためのクロスストリームコントラスト学習 Cross-Stream Contrastive Learning for Self-Supervised Skeleton-Based Action Recognition ( http://arxiv.org/abs/2305.02324v2 ) ライセンス: Link先を確認 | Ding Li and Yongqiang Tang and Zhizhong Zhang and Wensheng Zhang | (参考訳) 自己教師型骨格に基づく行動認識は、対照的な学習の発展とともに急速に成長する。
既存の手法では、単一のデータストリーム内の3Dスケルトンの拡張に不変性を課すことに依存しており、簡単な正のペアを単に利用し、複雑な動きパターンを探索する能力を制限するだけである。
本稿では,シングルストリームコントラストの欠如と,必要な特徴変換の欠如が容易な肯定性の原因であると主張し,スケルトンに基づく行動表現学習(CSCLR)のためのクロスストリームコントラスト学習フレームワークを提案する。
具体的には、CSCLRはストリーム内コントラストペアを利用するだけでなく、ストリーム間コントラストペアをハードサンプルとして導入し、表現学習を改善する。
さらに、ポジティブペアの可能性をさらに活用し、自己教師付き表現学習の堅牢性を高めるために、ポジティブペアのばらつきを高めるために、特徴レベルの操作を採用するPFT(Positive Feature Transformation)戦略を提案する。
提案手法の有効性を検証するため,NTU-RGB+D 60,NTU-RGB+D 120,PKU-MMDの3つのベンチマークデータセットについて広範な実験を行った。
実験結果から,提案したCSCLRは各種評価プロトコルの最先端手法を上回ることがわかった。 Self-supervised skeleton-based action recognition enjoys a rapid growth along with the development of contrastive learning. The existing methods rely on imposing invariance to augmentations of 3D skeleton within a single data stream, which merely leverages the easy positive pairs and limits the ability to explore the complicated movement patterns. In this paper, we advocate that the defect of single-stream contrast and the lack of necessary feature transformation are responsible for easy positives, and therefore propose a Cross-Stream Contrastive Learning framework for skeleton-based action Representation learning (CSCLR). Specifically, the proposed CSCLR not only utilizes intra-stream contrast pairs, but introduces inter-stream contrast pairs as hard samples to formulate a better representation learning. Besides, to further exploit the potential of positive pairs and increase the robustness of self-supervised representation learning, we propose a Positive Feature Transformation (PFT) strategy which adopts feature-level manipulation to increase the variance of positive pairs. To validate the effectiveness of our method, we conduct extensive experiments on three benchmark datasets NTU-RGB+D 60, NTU-RGB+D 120 and PKU-MMD. Experimental results show that our proposed CSCLR exceeds the state-of-the-art methods on a diverse range of evaluation protocols. | 翻訳日:2023-10-28 02:18:45 公開日:2023-10-26 |
# 推論のための自己評価ガイドビーム探索 Self-Evaluation Guided Beam Search for Reasoning ( http://arxiv.org/abs/2305.00633v3 ) ライセンス: Link先を確認 | Yuxi Xie, Kenji Kawaguchi, Yiran Zhao, Xu Zhao, Min-Yen Kan, Junxian He, Qizhe Xie | (参考訳) 問題を中間ステップに分解することは、Large Language Model(LLM)推論において、素晴らしいパフォーマンスを示している。
しかし、推論連鎖の成長は不確実性とエラーの蓄積をもたらすため、正確な最終結果を導き出すことは困難である。
多段階推論におけるこの不確実性に対処するために,LLMの推論プロセスのガイドと校正を行う段階的な自己評価機構を導入する。
確率的ビームサーチによる自己評価ガイダンスを統合する復号アルゴリズムを提案する。
自己評価ガイダンスは、より良い校正された自動基準として機能し、推論空間における効率的な探索を容易にし、より良い予測品質をもたらす。
確率的ビーム探索は、温度制御ランダムネスによる探索空間の活用と探索のバランスをとる。
提案手法は,GSM8K,AQuA,StrategyQAのベンチマークでそれぞれ6.34 %$,9.56 %$,5.46 %$と,対応するコーデックスバックボンドベースラインをわずかに上回っている。
算術的推論におけるLlama-2の実験結果から,計算予算に匹敵するベースライン法の性能を実証した。
マルチステップ推論のさらなる分析により、自己評価ガイダンスは論理障害を特定でき、一貫性と堅牢性が向上する。
私たちのコードはhttps://guideddecoding.github.io/で公開されています。 Breaking down a problem into intermediate steps has demonstrated impressive performance in Large Language Model (LLM) reasoning. However, the growth of the reasoning chain introduces uncertainty and error accumulation, making it challenging to elicit accurate final results. To tackle this challenge of uncertainty in multi-step reasoning, we introduce a stepwise self-evaluation mechanism to guide and calibrate the reasoning process of LLMs. We propose a decoding algorithm integrating the self-evaluation guidance via stochastic beam search. The self-evaluation guidance serves as a better-calibrated automatic criterion, facilitating an efficient search in the reasoning space and resulting in superior prediction quality. Stochastic beam search balances exploitation and exploration of the search space with temperature-controlled randomness. Our approach surpasses the corresponding Codex-backboned baselines in few-shot accuracy by $6.34\%$, $9.56\%$, and $5.46\%$ on the GSM8K, AQuA, and StrategyQA benchmarks, respectively. Experiment results with Llama-2 on arithmetic reasoning demonstrate the efficiency of our method in outperforming the baseline methods with comparable computational budgets. Further analysis in multi-step reasoning finds our self-evaluation guidance pinpoints logic failures and leads to higher consistency and robustness. Our code is publicly available at https://guideddecoding.github.io/. | 翻訳日:2023-10-28 02:18:23 公開日:2023-10-26 |
# 高効率・長期依存学習能力を有する平行スパイキングニューロン Parallel Spiking Neurons with High Efficiency and Ability to Learn Long-term Dependencies ( http://arxiv.org/abs/2304.12760v3 ) ライセンス: Link先を確認 | Wei Fang, Zhaofei Yu, Zhaokun Zhou, Ding Chen, Yanqi Chen, Zhengyu Ma, Timoth\'ee Masquelier, Yonghong Tian | (参考訳) スパイキングニューラルネットワーク(SNN)のバニラスパイクニューロンは、チャージ・ファイア・リセット・ニューラルダイナミクスを使用しており、連続的にシミュレートするだけで、長期間の依存関係を学べない。
リセットを取り除くと、ニューロンのダイナミクスは非イテレーティブな形で再構成され、並列化される。
一般の定式化によらずに神経力学を書き換えることにより、前者とは独立に隠れた状態を生成するパラレルスパイキングニューロン(PSN)を提案し、並列化可能な神経力学と極めて高いシミュレーション速度をもたらす。
PSNにおける入力の重みは完全連結であり、時間情報の利用を最大化する。
ステップバイステップ推論のための将来の入力の使用を避けるために、psnの重みをマスキングすることができ、その結果、マスキングpsnとなる。
マスク付きPSNに基づいて時間ステップ間で重みを共有することにより、様々な長さのシーケンスを処理するためのスライディングPSNを提案する。
シミュレーション速度と時間・静的データ分類におけるpsnファミリーの評価を行い,psnファミリーの効率と精度において圧倒的な優位性を示した。
私たちの知る限りでは、これはスパイクニューロンの並列化に関する最初の研究であり、スパイク深層学習研究の基礎となる可能性がある。
我々のコードは \url{https://github.com/fangwei123456/Parallel-Spiking-Neuron} で公開されている。 Vanilla spiking neurons in Spiking Neural Networks (SNNs) use charge-fire-reset neuronal dynamics, which can only be simulated serially and can hardly learn long-time dependencies. We find that when removing reset, the neuronal dynamics can be reformulated in a non-iterative form and parallelized. By rewriting neuronal dynamics without reset to a general formulation, we propose the Parallel Spiking Neuron (PSN), which generates hidden states that are independent of their predecessors, resulting in parallelizable neuronal dynamics and extremely high simulation speed. The weights of inputs in the PSN are fully connected, which maximizes the utilization of temporal information. To avoid the use of future inputs for step-by-step inference, the weights of the PSN can be masked, resulting in the masked PSN. By sharing weights across time-steps based on the masked PSN, the sliding PSN is proposed to handle sequences of varying lengths. We evaluate the PSN family on simulation speed and temporal/static data classification, and the results show the overwhelming advantage of the PSN family in efficiency and accuracy. To the best of our knowledge, this is the first study about parallelizing spiking neurons and can be a cornerstone for the spiking deep learning research. Our codes are available at \url{https://github.com/fangwei123456/Parallel-Spiking-Neuron}. | 翻訳日:2023-10-28 02:18:00 公開日:2023-10-26 |
# ビジュアルリッチ文書のグローバル構造知識誘導関係抽出法 Global Structure Knowledge-Guided Relation Extraction Method for Visually-Rich Document ( http://arxiv.org/abs/2305.13850v2 ) ライセンス: Link先を確認 | Xiangnan Chen, Qian Xiao, Juncheng Li, Duo Dong, Jun Lin, Xiaozhong Liu, Siliang Tang | (参考訳) 視覚関係抽出(VRE)は、視覚的にリッチなドキュメント内のエンティティ間の関係を発見する強力な手段である。
既存の方法は、ペア関係を見つけるためにエンティティ機能を操作することに集中するが、異なるエンティティペアを結合するより基本的な構造情報を無視する。
グローバル構造情報の欠如は、モデルが長距離関係を学習し、矛盾した結果を容易に予測するのに苦労するかもしれない。
このような制約を緩和するために, 知識誘導型関係である textbf{G}l\textbf{O}bal \textbf{S}xtraction (\textbf{\model}) フレームワークを提案する。
{\displaystyle {\model} は、文書のスキャンされた画像から抽出されたエンティティペアの予備関係予測を生成することによって開始する。
その後、グローバルな構造的知識は、前回の反復予測から取得され、エンティティの表現に組み込まれる。
この `generate-capture-incorporate'' サイクルは何度も繰り返され、エンティティ表現と大域構造知識が相互に強化される。
広範囲な実験により、 {\model} は、標準の微調整設定で既存の方法よりも優れるだけでなく、優れた言語間学習能力を示す。
GOSEのコードはhttps://github.com/chenxn2020/GOSEで入手できる。 Visual Relation Extraction (VRE) is a powerful means of discovering relationships between entities within visually-rich documents. Existing methods often focus on manipulating entity features to find pairwise relations, yet neglect the more fundamental structural information that links disparate entity pairs together. The absence of global structure information may make the model struggle to learn long-range relations and easily predict conflicted results. To alleviate such limitations, we propose a \textbf{G}l\textbf{O}bal \textbf{S}tructure knowledge-guided relation \textbf{E}xtraction (\textbf{\model}) framework. {\model} initiates by generating preliminary relation predictions on entity pairs extracted from a scanned image of the document. Subsequently, global structural knowledge is captured from the preceding iterative predictions, which are then incorporated into the representations of the entities. This ``generate-capture-incorporate'' cycle is repeated multiple times, allowing entity representations and global structure knowledge to be mutually reinforced. Extensive experiments validate that {\model} not only outperforms existing methods in the standard fine-tuning setting but also reveals superior cross-lingual learning capabilities; indeed, even yields stronger data-efficient performance in the low-resource setting. The code for GOSE will be available at https://github.com/chenxn2020/GOSE. | 翻訳日:2023-10-28 02:09:47 公開日:2023-10-26 |
# 多言語要約における幻覚の検出と緩和 Detecting and Mitigating Hallucinations in Multilingual Summarisation ( http://arxiv.org/abs/2305.13632v2 ) ライセンス: Link先を確認 | Yifu Qiu, Yftah Ziser, Anna Korhonen, Edoardo M. Ponti, Shay B. Cohen | (参考訳) 幻覚は抽象的要約のための神経モデルの信頼性にとって重要な課題となる。
自動生成された要約は流麗であるが、しばしば元の文書に対する忠実さを欠いている。
この問題は、言語間転送のような低リソース設定でさらに顕著になる。
英語に焦点を当てた既存の忠実なメトリクスでは、この現象の程度を言語間設定で測定することさえ難しい。
そこで我々はまず,英語以外の要約の忠実度を評価するための新しい尺度mFACTを開発し,複数の英語の忠実度指標からの翻訳に基づく移動を利用した。
次に,言語間移動による幻覚の簡易かつ効果的な低減法を提案し,その忠実度スコアによる各トレーニング例の損失を重み付けする。
複数の言語の広範な実験を通して、mFACTは幻覚を検出するのに最も適した計量であることを示す。
さらに,提案手法はMAD-Xのような多言語間移動の強いベースラインと比較して,自動評価と人的評価の両方で性能と忠実度を大幅に向上させることがわかった。
私たちのコードとデータセットはhttps://github.com/yfqiu-nlp/mfact-summで利用可能です。 Hallucinations pose a significant challenge to the reliability of neural models for abstractive summarisation. While automatically generated summaries may be fluent, they often lack faithfulness to the original document. This issue becomes even more pronounced in low-resource settings, such as cross-lingual transfer. With the existing faithful metrics focusing on English, even measuring the extent of this phenomenon in cross-lingual settings is hard. To address this, we first develop a novel metric, mFACT, evaluating the faithfulness of non-English summaries, leveraging translation-based transfer from multiple English faithfulness metrics. We then propose a simple but effective method to reduce hallucinations with a cross-lingual transfer, which weighs the loss of each training example by its faithfulness score. Through extensive experiments in multiple languages, we demonstrate that mFACT is the metric that is most suited to detect hallucinations. Moreover, we find that our proposed loss weighting method drastically increases both performance and faithfulness according to both automatic and human evaluation when compared to strong baselines for cross-lingual transfer such as MAD-X. Our code and dataset are available at https://github.com/yfqiu-nlp/mfact-summ. | 翻訳日:2023-10-28 02:09:26 公開日:2023-10-26 |
# CLASS:学習科学の原理に基づく知能学習システム構築のための設計フレームワーク CLASS: A Design Framework for building Intelligent Tutoring Systems based on Learning Science principles ( http://arxiv.org/abs/2305.13272v2 ) ライセンス: Link先を確認 | Shashank Sonkar, Naiming Liu, Debshila Basu Mallick, Richard G. Baraniuk | (参考訳) 本稿では,高性能大規模言語モデル(LLM)を活用した高度知能学習システム(ITS)を構築するためのCLASS(Conversational Learning with Analytical Step-by-Step Strategies)という設計フレームワークを提案する。
CLASSフレームワークは、2つの重要な機能でITSに権限を与える。
まず、慎重に訓練された足場データセットを通じて、CLASSは本質的な問題解決戦略を提供し、学生にチューターのようなステップバイステップのガイダンスを提供する。
第二に、動的な会話型データセットを使用することで、クラスは自然言語インタラクションの促進を支援し、学生-教師間の会話を促進する。
CLASSフレームワークはまた、ユーザフィードバックをシームレスに統合し、継続的な改善と改善を可能にするITSの内部決定プロセスに関する貴重な洞察を提供する。
また,spockと呼ばれる概念実証法も提示し,初等的大学レベルの生物学コンテンツに着目し,クラスフレームワークを用いて学習する。
SPOCK の事前評価のためのプロトコルを慎重に構築し,その応答の事実的正確性や関連性について検討した。
生物学の分野の専門家は、特にSPOCKが、質問を管理可能なサブプロブレムに分解し、学生に励ましを与える能力を強調した。
コードとモデルはhttps://github.com/luffycodes/tutorbot-spockで入手できる。 We present a design framework called Conversational Learning with Analytical Step-by-Step Strategies (CLASS) for building advanced Intelligent Tutoring Systems (ITS) powered by high-performance Large Language Models (LLMs). The CLASS framework empowers ITS with two key capabilities. First, through a carefully curated scaffolding dataset, CLASS equips ITS with essential problem-solving strategies, enabling it to provide tutor-like, step-by-step guidance to students. Second, by using a dynamic conversational dataset, CLASS assists ITS in facilitating natural language interactions, fostering engaging student-tutor conversations. The CLASS framework also provides valuable insights into ITS' internal decision-making process which allows seamless integration of user feedback, thus enabling continuous refinement and improvement. We also present a proof-of-concept ITS, referred to as SPOCK, which is trained using the CLASS framework with a focus on introductory college-level biology content. A carefully constructed protocol was developed for SPOCK's preliminary evaluation, examining aspects such as the factual accuracy and relevance of its responses. Experts in the field of biology offered favorable remarks, particularly highlighting SPOCK's capability to break down questions into manageable subproblems and provide encouraging responses to students. Code and models are available at https://github.com/luffycodes/Tutorbot-Spock. | 翻訳日:2023-10-28 02:08:47 公開日:2023-10-26 |
# ExplainCPE:中国薬剤師試験のフリーテキスト説明ベンチマーク ExplainCPE: A Free-text Explanation Benchmark of Chinese Pharmacist Examination ( http://arxiv.org/abs/2305.12945v2 ) ライセンス: Link先を確認 | Dongfang Li, Jindi Yu, Baotian Hu, Zhenran Xu and Min Zhang | (参考訳) ChatGPTとGPT-4がLarge Language Models (LLMs)の開発を先導するにつれ、多くの研究者が様々なタスクでその性能を調査している。
しかし、LSMの解釈可能性、すなわち、答えが与えられた後に理由を生成できる能力について、さらなる研究が必要とされる。
既存の説明データセットは主に英語の一般知識の問題であり、テーマや言語的な多様性は不十分である。
合理的なQAデータセットを生成する際の言語バイアスと医療資源の欠如に対処するため、簡体字中国語で難しい医療ベンチマークであるExplainCPE(7kインスタンス以上)を提示する。
chatgpt と gpt-4 の誤りを分析し,テキスト理解と計算推論における現在の llm の限界を指摘した。
実験では、異なるLLMが文脈内学習の好みが異なることも見出した。
ExplainCPEは重要な課題を示すが、さらなる調査の可能性は有望であり、モデルが説明を生成する能力を評価するために使用できる。
AIの安全性と信頼性をより重視する必要がある。この研究は、LSMの医学的解釈可能性を調べるための第一歩となる。データセットはhttps://github.com/HITsz-TMG/ExplainCPEで公開されている。 As ChatGPT and GPT-4 spearhead the development of Large Language Models (LLMs), more researchers are investigating their performance across various tasks. But more research needs to be done on the interpretability capabilities of LLMs, that is, the ability to generate reasons after an answer has been given. Existing explanation datasets are mostly English-language general knowledge questions, which leads to insufficient thematic and linguistic diversity. To address the language bias and lack of medical resources in generating rationales QA datasets, we present ExplainCPE (over 7k instances), a challenging medical benchmark in Simplified Chinese. We analyzed the errors of ChatGPT and GPT-4, pointing out the limitations of current LLMs in understanding text and computational reasoning. During the experiment, we also found that different LLMs have different preferences for in-context learning. ExplainCPE presents a significant challenge, but its potential for further investigation is promising, and it can be used to evaluate the ability of a model to generate explanations. AI safety and trustworthiness need more attention, and this work makes the first step to explore the medical interpretability of LLMs.The dataset is available at https://github.com/HITsz-TMG/ExplainCPE. | 翻訳日:2023-10-28 02:08:21 公開日:2023-10-26 |
# 非パラメトリック法による分布フリーモデル非依存回帰校正 Distribution-Free Model-Agnostic Regression Calibration via Nonparametric Methods ( http://arxiv.org/abs/2305.12283v2 ) ライセンス: Link先を確認 | Shang Liu, Zhongze Cai, Xiaocheng Li | (参考訳) 本稿では,回帰モデルに対する不確実性定量化問題を考える。
具体的には,予測モデルの分位数を特徴付ける個別校正対象について考察する。
このような目的は、ニュースベンダコストなどの下流業務から十分に動機付けられているが、既存の手法は概ねヒューリスティックであり、個々のキャリブレーションの観点からは統計的保証が欠如している。
平均校正やシャープネスなどの人口レベルの校正に焦点をあてた既存の手法が有害で予期せぬ結果をもたらすことを簡単な例で示す。
基礎となる予測モデルに依存しない単純な非パラメトリックキャリブレーション法を提案し,計算効率と統計的整合性の両方を享受する。
提案手法では, 個々のキャリブレーションの可能性をよりよく理解し, 提案手法のキャリブレーション誤差に対する上限値と下限値との整合性を確立する。
技術的には、非パラメトリック解析とパラメトリック解析の被覆数引数を組み合わせることで、非パラメトリック密度推定と量子帯域問題の文献における既存の理論的解析を前進させる。
重要なことに、非パラメトリックな視点は、次元の呪いの観点から回帰校正に関する新しい理論的洞察を与え、個々の校正の不可能性に関する既存の結果と和解する。
私たちの知識では、共形予測の観点で最小の仮定で、個々のキャリブレーションと有限サンプル保証の両方に到達するための最初の努力をしました。
数値実験は、様々な測定値と共変量シフトの下で、そのような単純なアプローチの利点を示す。
我々の研究は、回帰校正に関する将来の研究のための単純なベンチマークと理論的根拠を提供することを期待している。 In this paper, we consider the uncertainty quantification problem for regression models. Specifically, we consider an individual calibration objective for characterizing the quantiles of the prediction model. While such an objective is well-motivated from downstream tasks such as newsvendor cost, the existing methods have been largely heuristic and lack of statistical guarantee in terms of individual calibration. We show via simple examples that the existing methods focusing on population-level calibration guarantees such as average calibration or sharpness can lead to harmful and unexpected results. We propose simple nonparametric calibration methods that are agnostic of the underlying prediction model and enjoy both computational efficiency and statistical consistency. Our approach enables a better understanding of the possibility of individual calibration, and we establish matching upper and lower bounds for the calibration error of our proposed methods. Technically, our analysis combines the nonparametric analysis with a covering number argument for parametric analysis, which advances the existing theoretical analyses in the literature of nonparametric density estimation and quantile bandit problems. Importantly, the nonparametric perspective sheds new theoretical insights into regression calibration in terms of the curse of dimensionality and reconciles the existing results on the impossibility of individual calibration. To our knowledge, we make the first effort to reach both individual calibration and finite-sample guarantee with minimal assumptions in terms of conformal prediction. Numerical experiments show the advantage of such a simple approach under various metrics, and also under covariates shift. We hope our work provides a simple benchmark and a starting point of theoretical ground for future research on regression calibration. | 翻訳日:2023-10-28 02:07:57 公開日:2023-10-26 |
# 時間予測符号化によるシーケンシャルメモリ Sequential Memory with Temporal Predictive Coding ( http://arxiv.org/abs/2305.11982v2 ) ライセンス: Link先を確認 | Mufeng Tang, Helen Barron and Rafal Bogacz | (参考訳) シーケンシャル刺激の正確な記憶を形成することは、生物学的作用の基本的な機能である。
しかし、脳内のシーケンシャルメモリの基礎となる計算機構は未だ不明である。
本研究は,神経科学理論や近年のemph{static}メモリタスクへの予測符号化(PC)の適用の成功に触発されて,emph{sequential}メモリのための新しいPCベースモデルである「emph{temporal predictive coding} (tPC)」を提案する。
我々は,tpcモデルが,生物学的に妥当なニューラル実装により,シーケンシャル入力を記憶し,正確に取得できることを示す。
解析学的には、tPCは暗黙的な統計的白化過程を持つ古典的非対称ホップフィールドネットワーク(AHN)と見なすことができ、構造化された入力の逐次メモリタスクにおいてより安定した性能をもたらす。
さらに,tpcは行動観察や神経科学の理論と整合する性質を示し,その生物学的関連性を増強する。
我々の研究は、既存のメモリモデルフレームワークを使って理論的に解釈できる脳内のシーケンシャルメモリの基礎となる計算機構を確立する。 Forming accurate memory of sequential stimuli is a fundamental function of biological agents. However, the computational mechanism underlying sequential memory in the brain remains unclear. Inspired by neuroscience theories and recent successes in applying predictive coding (PC) to \emph{static} memory tasks, in this work we propose a novel PC-based model for \emph{sequential} memory, called \emph{temporal predictive coding} (tPC). We show that our tPC models can memorize and retrieve sequential inputs accurately with a biologically plausible neural implementation. Importantly, our analytical study reveals that tPC can be viewed as a classical Asymmetric Hopfield Network (AHN) with an implicit statistical whitening process, which leads to more stable performance in sequential memory tasks of structured inputs. Moreover, we find that tPC exhibits properties consistent with behavioral observations and theories in neuroscience, thereby strengthening its biological relevance. Our work establishes a possible computational mechanism underlying sequential memory in the brain that can also be theoretically interpreted using existing memory model frameworks. | 翻訳日:2023-10-28 02:07:30 公開日:2023-10-26 |
# 注意マップ再使用とマスキング蒸留を用いた変圧器型音声sslモデルのユニバーサル圧縮戦略 Recycle-and-Distill: Universal Compression Strategy for Transformer-based Speech SSL Models with Attention Map Reusing and Masking Distillation ( http://arxiv.org/abs/2305.11685v2 ) ライセンス: Link先を確認 | Kangwook Jang, Sungnyun Kim, Se-Young Yun, Hoirin Kim | (参考訳) HuBERTのようなトランスフォーマーベースの音声自己教師学習(SSL)モデルは、様々な音声処理タスクにおいて驚くべきパフォーマンスを示す。
しかし、音声sslモデルの多くのパラメーターは、アカデミアや小企業で広く使われるために、よりコンパクトなモデルに圧縮する必要がある。
本研究では,トランスフォーマー層にまたがるアテンションマップを再利用し,レイヤ数を維持しながらキーおよびクエリパラメータを削除することを提案する。
さらに, 学生モデルの音声表現品質を向上させるための新しいマスキング蒸留戦略を提案する。
我々は,教師モデルの高品質表現を完全に活用するために,マスクフレームとアンマスクフレームの両方を利用する蒸留損失を拡張した。
私たちのユニバーサル圧縮戦略は,音素誤り率(per)7.72%,単語誤り率(wer)9.96%をsuperbベンチマークで達成した学生モデルを生成する。 Transformer-based speech self-supervised learning (SSL) models, such as HuBERT, show surprising performance in various speech processing tasks. However, huge number of parameters in speech SSL models necessitate the compression to a more compact model for wider usage in academia or small companies. In this study, we suggest to reuse attention maps across the Transformer layers, so as to remove key and query parameters while retaining the number of layers. Furthermore, we propose a novel masking distillation strategy to improve the student model's speech representation quality. We extend the distillation loss to utilize both masked and unmasked speech frames to fully leverage the teacher model's high-quality representation. Our universal compression strategy yields the student model that achieves phoneme error rate (PER) of 7.72% and word error rate (WER) of 9.96% on the SUPERB benchmark. | 翻訳日:2023-10-28 02:07:10 公開日:2023-10-26 |
# 大規模視覚言語モデルにおける物体幻覚の評価 Evaluating Object Hallucination in Large Vision-Language Models ( http://arxiv.org/abs/2305.10355v3 ) ライセンス: Link先を確認 | Yifan Li, Yifan Du, Kun Zhou, Jinpeng Wang, Wayne Xin Zhao and Ji-Rong Wen | (参考訳) 大規模言語モデル(LLM)の優れた言語能力に触発されて、大規模視覚言語モデル(LVLM)は、複雑なマルチモーダルタスクの性能向上のために強力なLLMを統合することで近年研究されている。
lvlmsの有望な進歩にもかかわらず、lvlmsは幻覚の問題、すなわち記述のターゲット画像と矛盾するオブジェクトを生成する傾向がある。
本研究は,LVLMの物体幻覚に関する最初の体系的研究である。
いくつかの代表的LVLMに対して評価実験を行い, 主に重度物体幻覚障害に悩まされていることを示す。
さらに視覚的指示が幻覚に影響を及ぼす可能性についても議論し、視覚的指示に頻繁に発生する物体や、画像オブジェクトと共起する物体は明らかにLVLMによって幻覚される傾向にあることを示した。
また,既存の評価手法はLVLMの入力命令や生成スタイルに影響される可能性がある。
そこで我々は,popと呼ばれるポーリングベースの問合せ手法を提案することにより,対象幻覚の評価法を改良した。
実験の結果,POPEはより安定かつ柔軟な方法で物体幻覚を評価することができることがわかった。
私たちのコードとデータはhttps://github.com/RUCAIBox/POPEで公開されています。 Inspired by the superior language abilities of large language models (LLM), large vision-language models (LVLM) have been recently explored by integrating powerful LLMs for improving the performance on complex multimodal tasks. Despite the promising progress on LVLMs, we find that LVLMs suffer from the hallucination problem, i.e. they tend to generate objects that are inconsistent with the target images in the descriptions. To investigate it, this work presents the first systematic study on object hallucination of LVLMs. We conduct the evaluation experiments on several representative LVLMs, and show that they mostly suffer from severe object hallucination issue. We further discuss that the visual instructions may influence the hallucination, and find that: objects that frequently occur in the visual instructions or co-occur with the image objects, are obviously prone to be hallucinated by LVLMs. Besides, we find that existing evaluation methods might be affected by the input instructions and generation styles of LVLMs. Thus, we further design an improved evaluation method for object hallucination by proposing a polling-based query method called POPE. Experiment results demonstrate that our POPE can evaluate the object hallucination in a more stable and flexible way. Our codes and data are publicly available at https://github.com/RUCAIBox/POPE. | 翻訳日:2023-10-28 02:06:52 公開日:2023-10-26 |
# 変圧器における常識の編集 Editing Common Sense in Transformers ( http://arxiv.org/abs/2305.14956v3 ) ライセンス: Link先を確認 | Anshita Gupta, Debanjan Mondal, Akshay Krishna Sheshadri, Wenlong Zhao, Xiang Lorraine Li, Sarah Wiegreffe, Niket Tandon | (参考訳) Transformerでモデルパラメータを直接編集することで、再トレーニングなしでオープンソーストランスフォーマーベースのモデルを更新できる(Meng et al., 2023)。
しかし,これらの編集手法は,百科事典の知識を1つの正解で記述した上でのみ評価されている。
リンゴは緑か赤であるが透明ではないなど、複数の正解を持つ常識知識は研究されていないが、トランスフォーマーの信頼性と有用性を高めるのに不可欠である。
本稿では,コモンセンス判断が変圧器の局所化・編集可能なパラメータと因果関係にあるかどうかを調査し,肯定的な回答を与える。
我々は,MEMIT編集アルゴリズムを直接適用することにより,サブパー性能が向上し,コモンセンス領域の編集トークンが変化し,層選択戦略,すなわち$MEMIT_{CSK}$が向上することを発見した。
GPT-2 大規模なXLモデルは$MEMIT_{CSK}$で編集され、PEP3kと20Qデータセットで10.97%、F1スコアが10.73%向上した。
さらに, 影響を受けない地域, 影響のあるパラフレーズ, 影響のある推論課題を含む新しい評価データセット PROBE SET を提案する。
memit_{csk}$はメトリクス全体でうまく動作し、微調整されたベースラインは影響を受けないメトリクスと影響を受けるメトリクスの間の大きなトレードオフを示しています。
これらの結果は、直接モデル編集により、トランスフォーマーに常識に関するフィードバックを組み込むための説得力のある将来の方向性を示唆する。 Editing model parameters directly in Transformers makes updating open-source transformer-based models possible without re-training (Meng et al., 2023). However, these editing methods have only been evaluated on statements about encyclopedic knowledge with a single correct answer. Commonsense knowledge with multiple correct answers, e.g., an apple can be green or red but not transparent, has not been studied but is as essential for enhancing transformers' reliability and usefulness. In this paper, we investigate whether commonsense judgments are causally associated with localized, editable parameters in Transformers, and we provide an affirmative answer. We find that directly applying the MEMIT editing algorithm results in sub-par performance and improve it for the commonsense domain by varying edit tokens and improving the layer selection strategy, i.e., $MEMIT_{CSK}$. GPT-2 Large and XL models edited using $MEMIT_{CSK}$ outperform best-fine-tuned baselines by 10.97% and 10.73% F1 scores on PEP3k and 20Q datasets. In addition, we propose a novel evaluation dataset, PROBE SET, that contains unaffected and affected neighborhoods, affected paraphrases, and affected reasoning challenges. $MEMIT_{CSK}$ performs well across the metrics while fine-tuning baselines show significant trade-offs between unaffected and affected metrics. These results suggest a compelling future direction for incorporating feedback about common sense into Transformers through direct model editing. | 翻訳日:2023-10-28 02:01:25 公開日:2023-10-26 |
# インコンテキスト学習のためのカバレッジに基づくサンプル選択 Coverage-based Example Selection for In-Context Learning ( http://arxiv.org/abs/2305.14907v2 ) ライセンス: Link先を確認 | Shivanshu Gupta, Matt Gardner, Sameer Singh | (参考訳) インコンテキスト学習(icl:in-context learning)は、プロンプトをいくつかのタスク例で条件付けすることで、新しいタスクを実行するための大きな言語モデルの能力である。
最も類似した例を独立にランク付けして選択する標準的なアプローチは、重要な情報を省略しながら冗長な例を選択する。
本研究では、BERTScore-Recall(BSR)が、テスト入力の推論パターンなど、より健全な側面を示すより良い例を選択していることを示す。
さらに、bsrと多くの標準メトリクスを拡張して、簡単に最適化可能なセットレベルのメトリクスを作りました。
6つのタスクにまたがる15のデータセットと7つのLLMにまたがって、(1)BSRは、ボード全体のコンテキスト内サンプル選択において優れた指標であり、(2)構成的タスクでは、Set-BSRを用いた選択は、平均17ポイントまで、そしてトレーニング不要であるにもかかわらず、タスクやLLM固有のトレーニングを利用するメソッドを超越していることを示す。 In-context learning (ICL), the ability of large language models to perform novel tasks by conditioning on a prompt with a few task examples, requires these examples to be informative about the test instance. The standard approach of independently ranking and selecting the most similar examples selects redundant examples while omitting important information. In this work, we show that BERTScore-Recall (BSR) selects better examples that demonstrate more of the salient aspects, e.g. reasoning patterns, of the test input. We further extend BSR and many standard metrics to easily optimizable set-level metrics, giving still better coverage of those salient aspects. On 15 datasets spanning 6 tasks and with 7 diverse LLMs, we show that (1) BSR is the superior metric for in-context example selection across the board, and (2) for compositional tasks, set selection using Set-BSR outperforms independent ranking by up to 17 points on average and, despite being training-free, surpasses methods that leverage task or LLM-specific training. | 翻訳日:2023-10-28 02:00:46 公開日:2023-10-26 |
# Pre-RMSNorm および Pre-CRMSNorm 変換器: 等価かつ効率的な Pre-LN 変換器 Pre-RMSNorm and Pre-CRMSNorm Transformers: Equivalent and Efficient Pre-LN Transformers ( http://arxiv.org/abs/2305.14858v2 ) ライセンス: Link先を確認 | Zixuan Jiang, Jiaqi Gu, Hanqing Zhu, David Z. Pan | (参考訳) トランスフォーマーは機械学習アプリケーションで大きな成功を収めた。
レイヤー正規化 (LayerNorm, LN) やルート平均角正規化 (RMSNorm) のような正規化技術はトランスフォーマーの訓練の加速と安定化に重要な役割を果たしている。
LayerNormは入力ベクトルを更新および再スケールするが、RMSNormはRMS値でのみベクトルを再スケールする。
より計算効率が良いにもかかわらず、RMSNormはトランスフォーマーの表現能力を損なう可能性がある。
現在、LayerNormを採用するモデルや、RMSNormを使用しているモデル、特に最近の大規模言語モデルでは、推奨の正規化技術について合意が得られていない。
1つの正規化でトランスフォーマーを他の型に変換するのは難しい。
2つの正規化型の間には相違点が続いているが、本研究では、Pre-LNとPre-RMSNormの2つの主流トランスフォーマーアーキテクチャを統合するソリューションを提案する。
Pre-LN変換器のメインブランチにある本質的に冗長な平均情報を除去することで、LayerNormをRMSNormに還元し、高い効率を実現することができる。
さらに、ゼロ平均ベクトルのロスレス圧縮に基づいて、圧縮RMSNorm(CRMSNorm)とプレCRMSNorm変換器を提案する。
我々は、トレーニングと推論の両方において、Pre-LN、Pre-RMSNorm、Pre-CRMSNorm Transformerの等価性を正式に確立する。
これは、Pre-LN変換器をPre-(C)RMSNormでほぼ無償で置き換えることができ、同じ算術的機能と自由効率の改善を提供することを意味する。
実験により、プレLN変換器のトレーニングと推論時間を1%から10%削減できることが示された。 Transformers have achieved great success in machine learning applications. Normalization techniques, such as Layer Normalization (LayerNorm, LN) and Root Mean Square Normalization (RMSNorm), play a critical role in accelerating and stabilizing the training of Transformers. While LayerNorm recenters and rescales input vectors, RMSNorm only rescales the vectors by their RMS value. Despite being more computationally efficient, RMSNorm may compromise the representation ability of Transformers. There is currently no consensus regarding the preferred normalization technique, as some models employ LayerNorm while others utilize RMSNorm, especially in recent large language models. It is challenging to convert Transformers with one normalization to the other type. While there is an ongoing disagreement between the two normalization types, we propose a solution to unify two mainstream Transformer architectures, Pre-LN and Pre-RMSNorm Transformers. By removing the inherent redundant mean information in the main branch of Pre-LN Transformers, we can reduce LayerNorm to RMSNorm, achieving higher efficiency. We further propose the Compressed RMSNorm (CRMSNorm) and Pre-CRMSNorm Transformer based on a lossless compression of the zero-mean vectors. We formally establish the equivalence of Pre-LN, Pre-RMSNorm, and Pre-CRMSNorm Transformer variants in both training and inference. It implies that Pre-LN Transformers can be substituted with Pre-(C)RMSNorm counterparts at almost no cost, offering the same arithmetic functionality along with free efficiency improvement. Experiments demonstrate that we can reduce the training and inference time of Pre-LN Transformers by 1% - 10%. | 翻訳日:2023-10-28 02:00:23 公開日:2023-10-26 |
# ラベル付きテストデータなしの大規模言語モデル能力の推定 Estimating Large Language Model Capabilities without Labeled Test Data ( http://arxiv.org/abs/2305.14802v2 ) ライセンス: Link先を確認 | Harvey Yiyun Fu, Qinyuan Ye, Albert Xu, Xiang Ren, Robin Jia | (参考訳) 大規模言語モデル(LLM)は、いくつかの例からICL(In-context Learning)を実行するという印象的な能力を持っているが、ICLの成功はタスクによって大きく異なる。
したがって、新しいタスクにiclが適用可能かどうかを迅速に判断することは重要であるが、テストデータに注釈がかかる場合、直接的にiclの精度を評価することはコストがかかる可能性がある。
本稿では,そのタスクに対してラベルのないテストデータのみを与えられた新しいタスクに対して,文脈内学習を行う場合のLLMの精度を予測できるICL精度推定タスクを提案する。
ICLの精度推定を行うために,LCM信頼スコアを特徴としてメタモデルを訓練する手法を提案する。
4 llms と 3 つのタスクコレクションをカバーする新しいベンチマークにおいて,本手法を複数の高精度推定ベースラインと比較した。
メタモデルは、12設定中8つのベースラインにまたがるすべてのベースラインを改善し、タスク毎の40のラベル付きテスト例を直接評価するのと同じ推定性能を達成する。
同時に、既存のアプローチは全ての設定において正確で信頼性の高いICL精度推定を提供しておらず、LCM予測の不確実性を測定するためのより良い方法の必要性を強調している。 Large Language Models (LLMs) have the impressive ability to perform in-context learning (ICL) from only a few examples, but the success of ICL varies widely from task to task. Thus, it is important to quickly determine whether ICL is applicable to a new task, but directly evaluating ICL accuracy can be expensive in situations where test data is expensive to annotate -- the exact situations where ICL is most appealing. In this paper, we propose the task of ICL accuracy estimation, in which we predict the accuracy of an LLM when doing in-context learning on a new task given only unlabeled test data for that task. To perform ICL accuracy estimation, we propose a method that trains a meta-model using LLM confidence scores as features. We compare our method to several strong accuracy estimation baselines on a new benchmark that covers 4 LLMs and 3 task collections. The meta-model improves over all baselines across 8 out of 12 settings and achieves the same estimation performance as directly evaluating on 40 collected labeled test examples per task. At the same time, no existing approach provides an accurate and reliable ICL accuracy estimation in every setting, highlighting the need for better ways to measure the uncertainty of LLM predictions. | 翻訳日:2023-10-28 01:59:52 公開日:2023-10-26 |
# 知っておくべきことは何か?
ユーザのqaシステムへの依存度に及ぼす背景情報の影響 What Else Do I Need to Know? The Effect of Background Information on Users' Reliance on QA Systems ( http://arxiv.org/abs/2305.14331v2 ) ライセンス: Link先を確認 | Navita Goyal, Eleftheria Briakou, Amanda Liu, Connor Baumler, Claire Bonial, Jeffrey Micher, Clare R. Voss, Marine Carpuat, Hal Daum\'e III | (参考訳) nlpシステムは、関連するコンテキストを検索することで、質問に答える素晴らしいパフォーマンスを示している。
しかし、ますます大きなモデルでは、モデルの知識や推論を検索されたコンテキストのみに制限することは不可能であり、しばしば望ましくない。
これにより、モデルが答えを導出するためにアクセスする情報と、モデルが予測した回答を評価するためにユーザに提供する情報とのミスマッチが生じる。
本研究では,予測に十分な情報がない場合のQAシステムとのインタラクションについて検討する。
さらに、必要な背景を追加することで、予測に対するユーザの過度な信頼を軽減できるかどうかを問う。
本研究は,モデルの正しさを評価するのに十分な情報がない場合でも,モデル予測に頼っていることを示す。
しかし、関連する背景を提供することで、モデルのエラーをよりよくキャッチし、誤った予測に対する過度な信頼を減らすことができる。
一方、背景情報はユーザーの正確性に対する信頼度を高め、不正確な判断を下す。
当社の作業では,QA予測に対するユーザの検証を支援することが,重要かつ困難な問題であることを強調しています。 NLP systems have shown impressive performance at answering questions by retrieving relevant context. However, with the increasingly large models, it is impossible and often undesirable to constrain models' knowledge or reasoning to only the retrieved context. This leads to a mismatch between the information that the models access to derive the answer and the information that is available to the user to assess the model predicted answer. In this work, we study how users interact with QA systems in the absence of sufficient information to assess their predictions. Further, we ask whether adding the requisite background helps mitigate users' over-reliance on predictions. Our study reveals that users rely on model predictions even in the absence of sufficient information needed to assess the model's correctness. Providing the relevant background, however, helps users better catch model errors, reducing over-reliance on incorrect predictions. On the flip side, background information also increases users' confidence in their accurate as well as inaccurate judgments. Our work highlights that supporting users' verification of QA predictions is an important, yet challenging, problem. | 翻訳日:2023-10-28 01:59:09 公開日:2023-10-26 |
# dynosaur: 命令チューニングデータキュレーションのための動的成長パラダイム Dynosaur: A Dynamic Growth Paradigm for Instruction-Tuning Data Curation ( http://arxiv.org/abs/2305.14327v2 ) ライセンス: Link先を確認 | Da Yin, Xiao Liu, Fan Yin, Ming Zhong, Hritik Bansal, Jiawei Han, Kai-Wei Chang | (参考訳) インストラクションチューニングは、命令を理解し、適切な応答を生成する大きな言語モデル(LLM)の機能を強化するために登場した。
既存のメソッドは、手動でアノテートするか、LPM(例えばGPTシリーズ)を使用して、インストラクションチューニング用のデータを生成する。
しかし、既存の注釈付きデータセットに関連付けられた命令を見落としてしまうことが多い。
本稿では,インストラクションチューニングデータの自動キュレーションのための動的成長パラダイムであるDynosaurを提案する。
既存のデータセットのメタデータに基づいて、LLMを使用して、関連するデータフィールドを特定し、適切な命令を生成することで、命令調整データを自動的に構築する。
既存の注釈付きデータセットを活用することで、dynosaurにはいくつかの利点がある。
1) 命令を生成するためのapiコスト(例えば,800kの命令チューニングサンプルを生成するためにgpt-3.5-turboを呼び出すことによって,12usドル未満となる)を削減します。
2)命令チューニングのための高品質なデータを提供する(例えば、Super-NIやLongformでAlpacaやFlanよりもパフォーマンスが良い)。
3)新しい注釈付きデータセットが利用可能になると,命令チューニングデータを生成することで,モデルの継続的改善をサポートする。
さらに,学習の継続学習方式について検討し,多種多様な命令埋め込みによるタスクの再生が,問題を忘れないようにするだけでなく,目に見えないタスクをより良く一般化することを示す。
コードとデータはhttps://github.com/wadeyin9712/dynosaurで入手できる。 Instruction tuning has emerged to enhance the capabilities of large language models (LLMs) to comprehend instructions and generate appropriate responses. Existing methods either manually annotate or employ LLM (e.g., GPT-series) to generate data for instruction tuning. However, they often overlook associating instructions with existing annotated datasets. In this paper, we propose Dynosaur, a dynamic growth paradigm for the automatic curation of instruction-tuning data. Based on the metadata of existing datasets, we use LLMs to automatically construct instruction-tuning data by identifying relevant data fields and generating appropriate instructions. By leveraging the existing annotated datasets, Dynosaur offers several advantages: 1) it reduces the API cost for generating instructions (e.g., it costs less than $12 USD by calling GPT-3.5-turbo for generating 800K instruction tuning samples; 2) it provides high-quality data for instruction tuning (e.g., it performs better than Alpaca and Flan on Super-NI and Longform with comparable data sizes); and 3) it supports the continuous improvement of models by generating instruction-tuning data when a new annotated dataset becomes available. We further investigate a continual learning scheme for learning with the ever-growing instruction-tuning dataset, and demonstrate that replaying tasks with diverse instruction embeddings not only helps mitigate forgetting issues but generalizes to unseen tasks better. Code and data are available at https://github.com/WadeYin9712/Dynosaur. | 翻訳日:2023-10-28 01:58:54 公開日:2023-10-26 |
# SEEDS:拡散モデルによる高速高品質サンプリングのための指数SDE解法 SEEDS: Exponential SDE Solvers for Fast High-Quality Sampling from Diffusion Models ( http://arxiv.org/abs/2305.14267v2 ) ライセンス: Link先を確認 | Martin Gonzalez, Nelson Fernandez, Thuy Tran, Elies Gherbi, Hatem Hajri, Nader Masmoudi | (参考訳) DPM(Diffusion Probabilistic Models)として知られる強力な生成モデルのクラスが注目されている。
前方拡散プロセスはデータに徐々にノイズを付加し、一方、モデルは徐々に認知を学習する。
事前学習されたDPMからのサンプリングは、学習者モデルによって定義された微分方程式(DE)を解くことで得られる。
このプロセスを高速化する多くの努力は、強力なodeソルバの開発に費やされてきた。
速いにもかかわらず、そのような解法は通常、利用可能な遅いSDE解法によって達成される最適な品質に達しない。
我々のゴールは、数百から数千のNFEを必要とせずに最適な品質に達するSDEソルバを提案することである。
本稿では,いくつかのフレームワーク上での確率ケースに対する指数積分器アプローチの改良と一般化を行う。
拡散SDEの正確な解の定式化を慎重に分析した後、SEEDSを用いてそのような解の線形部分を解析的に計算する。
指数時間差法にインスパイアされたSEEDSは、解の確率成分を新しい方法で処理し、分散を解析的に計算し、最適な品質のサンプリングを行えるような高次項を含む、以前のSDE法よりも高速な$\sim3$-$5\times$である。
提案手法を複数の画像生成ベンチマークで検証し,SEEDSが従来のSDEソルバよりも優れているか,あるいは競合していることを示す。
後者とは対照的に、種子は派生的で訓練は自由であり、我々はそれらに対して強い収束保証を十分に証明する。 A potent class of generative models known as Diffusion Probabilistic Models (DPMs) has become prominent. A forward diffusion process adds gradually noise to data, while a model learns to gradually denoise. Sampling from pre-trained DPMs is obtained by solving differential equations (DE) defined by the learnt model, a process which has shown to be prohibitively slow. Numerous efforts on speeding-up this process have consisted on crafting powerful ODE solvers. Despite being quick, such solvers do not usually reach the optimal quality achieved by available slow SDE solvers. Our goal is to propose SDE solvers that reach optimal quality without requiring several hundreds or thousands of NFEs to achieve that goal. We propose Stochastic Explicit Exponential Derivative-free Solvers (SEEDS), improving and generalizing Exponential Integrator approaches to the stochastic case on several frameworks. After carefully analyzing the formulation of exact solutions of diffusion SDEs, we craft SEEDS to analytically compute the linear part of such solutions. Inspired by the Exponential Time-Differencing method, SEEDS use a novel treatment of the stochastic components of solutions, enabling the analytical computation of their variance, and contains high-order terms allowing to reach optimal quality sampling $\sim3$-$5\times$ faster than previous SDE methods. We validate our approach on several image generation benchmarks, showing that SEEDS outperform or are competitive with previous SDE solvers. Contrary to the latter, SEEDS are derivative and training free, and we fully prove strong convergence guarantees for them. | 翻訳日:2023-10-28 01:58:28 公開日:2023-10-26 |
# スパイクを意識する:固定次元におけるカーネルとニューラルネットワークの過剰適合性 Mind the spikes: Benign overfitting of kernels and neural networks in fixed dimension ( http://arxiv.org/abs/2305.14077v2 ) ライセンス: Link先を確認 | Moritz Haas, David Holzm\"uller, Ulrike von Luxburg, Ingo Steinwart | (参考訳) ほぼゼロに近いトレーニングエラーでトレーニングされた過パラメータニューラルネットワークの成功は、ノイズの多いトレーニングデータを補間したとしても、推定者が統計的に一貫した状態にある良性オーバーフィッティング現象に大きな関心を惹きつけた。
固定次元における良性オーバーフィッティングはいくつかの学習手法で確立されているが、現在の文献では、典型的なカーネル法や広いニューラルネットワークによる回帰では、良性オーバーフィッティングは、その寸法がサンプルサイズとともに大きくなるような高次元の設定を必要とすることを示唆している。
本稿では, 次元ではなく, 推定子の滑らかさが鍵であることが示される: 推定子の微分が十分に大きい場合にのみ, 良性オーバーフィッティングが可能である。
我々は既存の矛盾結果を非補間モデルやより多くのカーネルに一般化し、中間微分による良性過剰適合が固定次元では不可能であることを示す。
逆に, 速度最適ベニグアオーバーフィッティングは, 大きな導関数を持つスパイキーなスムースカーネル列による回帰に有効であることを示す。
ニューラルネットワークを用いて、結果を広いニューラルネットワークに変換する。
無限幅ネットワークはReLUアクティベーションに優越しないが、アクティベーション関数に小さな高周波揺らぎを加えることでこれを固定できることを示す。
我々の実験は、そのようなニューラルネットワークが過度に適合しているにもかかわらず、低次元のデータセットでもうまく一般化できることを検証する。 The success of over-parameterized neural networks trained to near-zero training error has caused great interest in the phenomenon of benign overfitting, where estimators are statistically consistent even though they interpolate noisy training data. While benign overfitting in fixed dimension has been established for some learning methods, current literature suggests that for regression with typical kernel methods and wide neural networks, benign overfitting requires a high-dimensional setting where the dimension grows with the sample size. In this paper, we show that the smoothness of the estimators, and not the dimension, is the key: benign overfitting is possible if and only if the estimator's derivatives are large enough. We generalize existing inconsistency results to non-interpolating models and more kernels to show that benign overfitting with moderate derivatives is impossible in fixed dimension. Conversely, we show that rate-optimal benign overfitting is possible for regression with a sequence of spiky-smooth kernels with large derivatives. Using neural tangent kernels, we translate our results to wide neural networks. We prove that while infinite-width networks do not overfit benignly with the ReLU activation, this can be fixed by adding small high-frequency fluctuations to the activation function. Our experiments verify that such neural networks, while overfitting, can indeed generalize well even on low-dimensional data sets. | 翻訳日:2023-10-28 01:58:04 公開日:2023-10-26 |
# ベイズ原理による神経添加モデルの改善 Improving Neural Additive Models with Bayesian Principles ( http://arxiv.org/abs/2305.16905v2 ) ライセンス: Link先を確認 | Kouroche Bouchiat, Alexander Immer, Hugo Y\`eche, Gunnar R\"atsch, Vincent Fortuin | (参考訳) ニューラル加算モデル(NAM)は、個別の加算サブネットワークにおける入力特徴を扱うことにより、ディープニューラルネットワークの解釈可能性を改善することができる。
しかし、それらは不確かさを校正し、関連する特徴と相互作用の選択を可能にする固有のメカニズムを欠いている。
ベイズ的視点から NAM にアプローチすることで、我々はこれらを3つの主要な方法で強化する。
a) 個別の添加物サブネットワークに対して信頼できる間隔を提供する
b) 経験的ベイズ手続による特徴の暗黙の選択を行う限界的可能性の推定
c) 微調整されたモデルにおける二階相互作用の候補として特徴対のランク付けを可能にすること。
特にlaplace-approximated nams (la-nams) を開発し,表型データセットにおける経験的性能の向上と現実の医療課題への挑戦を示した。 Neural additive models (NAMs) can improve the interpretability of deep neural networks by handling input features in separate additive sub-networks. However, they lack inherent mechanisms that provide calibrated uncertainties and enable selection of relevant features and interactions. Approaching NAMs from a Bayesian perspective, we enhance them in three primary ways, namely by a) providing credible intervals for the individual additive sub-networks; b) estimating the marginal likelihood to perform an implicit selection of features via an empirical Bayes procedure; and c) enabling a ranking of feature pairs as candidates for second-order interaction in fine-tuned models. In particular, we develop Laplace-approximated NAMs (LA-NAMs), which show improved empirical performance on tabular datasets and challenging real-world medical tasks. | 翻訳日:2023-10-28 01:49:43 公開日:2023-10-26 |
# 神経(タンジェントカーネル)崩壊 Neural (Tangent Kernel) Collapse ( http://arxiv.org/abs/2305.16427v2 ) ライセンス: Link先を確認 | Mariia Seleznova, Dana Weitzner, Raja Giryes, Gitta Kutyniok, Hung-Hsu Chou | (参考訳) この研究は、訓練中のディープニューラルネットワーク(DNN)の進化を捉えるニューラル・タンジェント・カーネル(NTK)と、よく訓練された分類DNNの最終層の特徴における対称性と構造の出現を示すニューラル・コラプス(NC)現象の2つの重要な概念を橋渡しする。
我々は,経験的ntkがクラスラベルに整合したブロック構造,すなわち同一クラス内のサンプルが異なるクラスからのサンプルよりも強い相関を持つという自然な仮定を採用する。
この仮定では、平均二乗損失(MSE)で訓練されたDNNの力学を導出し、それらを解釈可能な位相に分解する。
さらに,ダイナミックスの本質を捉えた不変量を特定し,ブロック構造NTKを用いたDNNにおけるNCの出現を証明する。
我々は,3つの共通dnnアーキテクチャと3つのベンチマークデータセットに関する大規模数値実験を行い,理論を裏付ける。 This work bridges two important concepts: the Neural Tangent Kernel (NTK), which captures the evolution of deep neural networks (DNNs) during training, and the Neural Collapse (NC) phenomenon, which refers to the emergence of symmetry and structure in the last-layer features of well-trained classification DNNs. We adopt the natural assumption that the empirical NTK develops a block structure aligned with the class labels, i.e., samples within the same class have stronger correlations than samples from different classes. Under this assumption, we derive the dynamics of DNNs trained with mean squared (MSE) loss and break them into interpretable phases. Moreover, we identify an invariant that captures the essence of the dynamics, and use it to prove the emergence of NC in DNNs with block-structured NTK. We provide large-scale numerical experiments on three common DNN architectures and three benchmark datasets to support our theory. | 翻訳日:2023-10-28 01:49:30 公開日:2023-10-26 |
# データ制約付き言語モデルのスケーリング Scaling Data-Constrained Language Models ( http://arxiv.org/abs/2305.16264v4 ) ライセンス: Link先を確認 | Niklas Muennighoff, Alexander M. Rush, Boaz Barak, Teven Le Scao, Aleksandra Piktus, Nouamane Tazi, Sampo Pyysalo, Thomas Wolf, Colin Raffel | (参考訳) 言語モデルをスケールする現在のトレンドは、パラメータカウントとトレーニングデータセットサイズの両方の増加である。
この傾向を外挿すると、トレーニングデータセットのサイズは、インターネット上で利用可能なテキストデータの量によってすぐに制限される可能性がある。
この制限により,データ制約型システムにおける言語モデルのスケーリングについて検討する。
具体的には、データの繰り返しと計算予算の範囲を多岐にわたる実験を行い、最大9億のトレーニングトークンと90億のパラメータモデルを設定しました。
固定された計算予算に対する制約付きデータでは、反復するデータの最大4エポックのトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。
しかし、さらに繰り返すと計算量を追加する値は最終的にゼロになる。
反復トークンと余剰パラメータの値減少を考慮した最適性計算のためのスケーリング則を提案し,実証的に検証する。
最後に、トレーニングデータセットをコードデータで強化したり、よく使われるフィルタを削除したりするなど、データの不足を軽減するアプローチを実験する。
400のトレーニング実行のモデルとデータセットは、https://github.com/huggingface/datablations.comで無償公開されている。 The current trend of scaling language models involves increasing both parameter count and training dataset size. Extrapolating this trend suggests that training dataset size may soon be limited by the amount of text data available on the internet. Motivated by this limit, we investigate scaling language models in data-constrained regimes. Specifically, we run a large set of experiments varying the extent of data repetition and compute budget, ranging up to 900 billion training tokens and 9 billion parameter models. We find that with constrained data for a fixed compute budget, training with up to 4 epochs of repeated data yields negligible changes to loss compared to having unique data. However, with more repetition, the value of adding compute eventually decays to zero. We propose and empirically validate a scaling law for compute optimality that accounts for the decreasing value of repeated tokens and excess parameters. Finally, we experiment with approaches mitigating data scarcity, including augmenting the training dataset with code data or removing commonly used filters. Models and datasets from our 400 training runs are freely available at https://github.com/huggingface/datablations. | 翻訳日:2023-10-28 01:49:11 公開日:2023-10-26 |
# Bhasha-Abhijnaanam:22言語におけるネイティブスクリプトとロマン化言語同定 Bhasha-Abhijnaanam: Native-script and romanized Language Identification for 22 Indic languages ( http://arxiv.org/abs/2305.15814v3 ) ライセンス: Link先を確認 | Yash Madhani, Mitesh M. Khapra, Anoop Kunchukuttan | (参考訳) 我々は、インド憲法に記載されている22の言語について、言語識別(LID)データセットとモデルを作成する。
まず、ネイティブスクリプト用の言語識別テストセットであるbhasha-abhijnaanamと、22のindic言語にまたがるローマ字テキストを作成します。
IndicLIDは、上記のすべての言語をネイティブおよびローマン化されたスクリプトで識別する言語である。
ネイティブテキストでは、既存のLIDよりも言語カバレッジが良く、他のLIDよりも競争力がある。
IndicLIDは、インド語でロマライズされたテキストのための最初のLIDである。
romanized text LIDの2つの大きな課題は、トレーニングデータの欠如と、言語が似ている場合の低LIDパフォーマンスである。
これらの問題に対する単純で効果的な解決策を提供する。
一般に、いかなる言語においてもローマ字化テキストに関する作業は限られており、この発見はローマ字化言語識別を必要とする他の言語に関連している。
私たちのモデルはオープンソースライセンスの下でhttps://ai4bharat.iitm.ac.in/indiclidで公開されています。
私たちのトレーニングとテストセットは、オープンソースライセンスの下でhttps://ai4bharat.iitm.ac.in/bhasha-abhijnaanamで公開されています。 We create publicly available language identification (LID) datasets and models in all 22 Indian languages listed in the Indian constitution in both native-script and romanized text. First, we create Bhasha-Abhijnaanam, a language identification test set for native-script as well as romanized text which spans all 22 Indic languages. We also train IndicLID, a language identifier for all the above-mentioned languages in both native and romanized script. For native-script text, it has better language coverage than existing LIDs and is competitive or better than other LIDs. IndicLID is the first LID for romanized text in Indian languages. Two major challenges for romanized text LID are the lack of training data and low-LID performance when languages are similar. We provide simple and effective solutions to these problems. In general, there has been limited work on romanized text in any language, and our findings are relevant to other languages that need romanized language identification. Our models are publicly available at https://ai4bharat.iitm.ac.in/indiclid under open-source licenses. Our training and test sets are also publicly available at https://ai4bharat.iitm.ac.in/bhasha-abhijnaanam under open-source licenses. | 翻訳日:2023-10-28 01:48:16 公開日:2023-10-26 |
# クナプサックの文脈帯域における小さな総コスト制約と公正性への応用 Small Total-Cost Constraints in Contextual Bandits with Knapsacks, with Application to Fairness ( http://arxiv.org/abs/2305.15807v2 ) ライセンス: Link先を確認 | Evgenii Chzhen (LMO, CELESTE), Christophe Giraud (LMO, CELESTE), Zhen Li, Gilles Stoltz (LMO, CELESTE, HEC Paris) | (参考訳) 我々は,各ラウンドにおいてスカラー報酬が得られ,ベクトル値のコストがかかる問題であるknapsacks[CBwK]のコンテキスト的帯域幅問題を考える。
学習者は、累積費用が所定のコスト制約よりも低いことを保証しつつ累積報酬を最大化する。
我々は、文脈は連続的な集合から来ており、コストは署名可能であり、期待される報酬とコスト関数は未知であるが、均一に推定されるかもしれないと仮定する。
この設定では、総コスト制約は少なくとも$T^{3/4}$であり、ここでは$T$はラウンドの数であり、通常は$T$に線形に依存すると仮定されていた。
しかしながら、CBwK を用いて、グループ間の平均コストの等化の公正性制約を課す動機がある:対応するコスト制約に関連する予算は、$\sqrt{T}$ の自然偏差にできるだけ近いべきである。
そこで本研究では,予測段階の更新に基づく2つの戦略を導入し,多対数項まで$\sqrt{T}$の総コスト制約を扱えるようにした。
この戦略は文学における既存の戦略よりも直接的で単純である。
ステップサイズの慎重で適応的なチューニングに依存しています。 We consider contextual bandit problems with knapsacks [CBwK], a problem where at each round, a scalar reward is obtained and vector-valued costs are suffered. The learner aims to maximize the cumulative rewards while ensuring that the cumulative costs are lower than some predetermined cost constraints. We assume that contexts come from a continuous set, that costs can be signed, and that the expected reward and cost functions, while unknown, may be uniformly estimated -- a typical assumption in the literature. In this setting, total cost constraints had so far to be at least of order $T^{3/4}$, where $T$ is the number of rounds, and were even typically assumed to depend linearly on $T$. We are however motivated to use CBwK to impose a fairness constraint of equalized average costs between groups: the budget associated with the corresponding cost constraints should be as close as possible to the natural deviations, of order $\sqrt{T}$. To that end, we introduce a dual strategy based on projected-gradient-descent updates, that is able to deal with total-cost constraints of the order of $\sqrt{T}$ up to poly-logarithmic terms. This strategy is more direct and simpler than existing strategies in the literature. It relies on a careful, adaptive, tuning of the step size. | 翻訳日:2023-10-28 01:47:41 公開日:2023-10-26 |
# 画像レイアウトにおける一般化問題を理解するネットワーク Networks are Slacking Off: Understanding Generalization Problem in Image Deraining ( http://arxiv.org/abs/2305.15134v2 ) ライセンス: Link先を確認 | Jinjin Gu, Xianzheng Ma, Xiangtao Kong, Yu Qiao, Chao Dong | (参考訳) Deep deraining Networkは、実験室のベンチマークで成功しているが、現実世界のアプリケーションにデプロイする際、一定の一般化問題に一貫して遭遇する。
ディープラーニングにおける一般的な視点は、よりリッチな画像背景コンテンツが一般化問題の克服を促進することを期待して、訓練に非常に複雑なデータを使用することを奨励する。
しかし,包括的かつ体系的な実験により,この戦略がネットワークの一般化能力を高めるものではないことが判明した。
逆に、ネットワークが特定の劣化に過剰に適合する傾向が悪化する。
実験により,訓練背景画像の複雑さを単純化することで,デレーディングネットワークにおけるより良い一般化を実現することができた。
これは、トレーニング中にネットワークが‘slacking off’、すなわち、画像背景の最も複雑な要素を学習し、トレーニング損失を最小限に抑えるために劣化しているためである。
背景画像が雨害よりも複雑でない場合、ネットワークは背景復元を優先し、雨パターンの過度な適合を抑制し、一般化性能を向上させる。
本研究は,低レベルビジョンタスクにおける一般化問題の理解を深める上で有用な視点と方法論を提供し,実用化の可能性を示す。 Deep deraining networks consistently encounter substantial generalization issues when deployed in real-world applications, although they are successful in laboratory benchmarks. A prevailing perspective in deep learning encourages using highly complex data for training, with the expectation that richer image background content will facilitate overcoming the generalization problem. However, through comprehensive and systematic experimentation, we discover that this strategy does not enhance the generalization capability of these networks. On the contrary, it exacerbates the tendency of networks to overfit specific degradations. Our experiments reveal that better generalization in a deraining network can be achieved by simplifying the complexity of the training background images. This is because that the networks are ``slacking off'' during training, that is, learning the least complex elements in the image background and degradation to minimize training loss. When the background images are less complex than the rain streaks, the network will prioritize the background reconstruction, thereby suppressing overfitting the rain patterns and leading to improved generalization performance. Our research offers a valuable perspective and methodology for better understanding the generalization problem in low-level vision tasks and displays promising potential for practical application. | 翻訳日:2023-10-28 01:47:18 公開日:2023-10-26 |
# 比較読解モデルと凍結大型言語モデルによる自然言語理解 Visually-Situated Natural Language Understanding with Contrastive Reading Model and Frozen Large Language Models ( http://arxiv.org/abs/2305.15080v2 ) ライセンス: Link先を確認 | Geewook Kim, Hodong Lee, Daehee Kim, Haeji Jung, Sanghee Park, Yoonsik Kim, Sangdoo Yun, Taeho Kil, Bado Lee, Seunghyun Park | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、その応用を視覚領域に拡張することを目的とした研究の急増を刺激している。
これらのモデルは、抽象的な画像キャプションの生成と自然な会話の促進を約束するが、テキストリッチな画像のパフォーマンスは改善が必要である。
本稿では,LLMの言語画像理解能力を高めるために,既存の手法でしばしば見落とされがちな複雑な詳細を捉えることで,新たなニューラルアーキテクチャであるContrastive Reading Model(Cream)を紹介する。
クリームは、視覚と補助エンコーダを組み合わせることで、画像内の視覚的位置のコンテキストにおいて、言語情報のより効果的な理解を実現する。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
推論能力を必要とする多様な視覚的な言語理解タスクに対する厳密な評価を通じて、Creamの魅力ある性能を実証し、視覚文書理解の分野における顕著なモデルとして位置づける。
コードベースと新しく生成されたデータセットはhttps://github.com/naver-ai/cream で公開しています。 Recent advances in Large Language Models (LLMs) have stimulated a surge of research aimed at extending their applications to the visual domain. While these models exhibit promise in generating abstract image captions and facilitating natural conversations, their performance on text-rich images still requires improvement. In this paper, we introduce Contrastive Reading Model (Cream), a novel neural architecture designed to enhance the language-image understanding capability of LLMs by capturing intricate details that are often overlooked in existing methods. Cream combines vision and auxiliary encoders, fortified by a contrastive feature alignment technique, to achieve a more effective comprehension of language information in visually situated contexts within the images. Our approach bridges the gap between vision and language understanding, paving the way for the development of more sophisticated Document Intelligence Assistants. Through rigorous evaluations across diverse visually-situated language understanding tasks that demand reasoning capabilities, we demonstrate the compelling performance of Cream, positioning it as a prominent model in the field of visual document understanding. We provide our codebase and newly-generated datasets at https://github.com/naver-ai/cream . | 翻訳日:2023-10-28 01:46:57 公開日:2023-10-26 |
# AutoPlan: 大規模言語モデルを用いた対話型意思決定タスクの自動計画 AutoPlan: Automatic Planning of Interactive Decision-Making Tasks With Large Language Models ( http://arxiv.org/abs/2305.15064v3 ) ライセンス: Link先を確認 | Siqi Ouyang and Lei Li | (参考訳) 最近の大規模言語モデル(LLM)は、基盤環境における意思決定を約束している。
しかし、LLMにおける事前学習された知識と環境における実際のルールとの相違により、複雑な意思決定タスクでは頻繁に失敗する。
既存の手法では、コストのかかる勾配計算か、コンテキスト内の長い実演が必要である。
本稿では,対話型意思決定タスクを実現するための LLM エージェントを誘導する AutoPlan を提案する。
AutoPlanは、LCMプロンプトをタスク解決プランで強化し、反復的なエクスペリエンスコレクションとリフレクションを通じて最適化する。
実験の結果,AutoPlanは文脈内デモは使用していないものの,ALFWorldでの人手によるデモと同等の成功率を示し,HotpotQAでは8%上回った。
コードはhttps://github.com/owaski/autoplanで入手できる。 Recent large language models (LLMs) are promising for making decisions in grounded environments. However, LLMs frequently fail in complex decision-making tasks due to the misalignment between the pre-trained knowledge in LLMs and the actual rules in the environment. Existing methods require either costly gradient computation or lengthy in-context demonstrations. In this paper, we propose AutoPlan, an approach to guide LLM-based agents to accomplish interactive decision-making tasks. AutoPlan augments the LLM prompt with a task-solving plan and optimizes it through iterative experience collection and reflection. Our experiments show that AutoPlan, though using no in-context demonstrations, achieves success rates on par with the baselines using human-written demonstrations on ALFWorld and even outperforms them by 8% on HotpotQA. The code is available at https://github.com/owaski/AutoPlan. | 翻訳日:2023-10-28 01:46:37 公開日:2023-10-26 |
# SourceP:ソースコードでEthereum上のPonziスキーマを検出する SourceP: Detecting Ponzi Schemes on Ethereum with Source Code ( http://arxiv.org/abs/2306.01665v3 ) ライセンス: Link先を確認 | Pengcheng Lu, Liang Cai, and Keting Yin | (参考訳) ブロックチェーン技術がますます普及するにつれて、一般的な金融詐欺であるPonziスキームもブロックチェーンプラットフォームEthereumに登場している。
スマートコントラクトを通じて展開されるこのPonziスキームは、スマートPonziスキームとしても知られ、多くの経済的損失と負の影響を引き起こしている。
ethereum上でスマートポンジスキームを検出する既存の方法は、主にバイトコード機能、オペコード機能、アカウント機能、スマートコントラクトのトランザクション動作機能に依存しており、スキーム識別のパフォーマンスは不十分である。
本稿では、前訓練されたモデルとデータフローを使用してethereumプラットフォーム上でスマートポンジスキームを検出する方法であるsourcepを提案し、smart contractsのソースコードを機能として使用することで、別の方向からスマートポンジスキームを検出する可能性を検討する。
sourcepは、モデルの解釈性を高めながら、データ取得の難しさと既存の検出方法の特徴抽出を削減します。
具体的には、まずスマートコントラクトのソースコードをデータフローグラフに変換し、次に学習コード表現に基づく事前学習モデルを導入し、スマートコントラクト内のポンジスキームを識別するための分類モデルを構築する。
実験の結果, SourceP は Ethereum のスマートコントラクトデータセット内のスマート Ponzi スキームの検出において,87.2\% のリコールと90.7\% のFスコアを達成した。
我々はまた、事前訓練されたモデルとデータフローがSourcePに重要な貢献をしていること、およびSourcePが優れた一般化能力を持っていることを実証する追加の実験を通して実証する。 As blockchain technology becomes more and more popular, a typical financial scam, the Ponzi scheme, has also emerged in the blockchain platform Ethereum. This Ponzi scheme deployed through smart contracts, also known as the smart Ponzi scheme, has caused a lot of economic losses and negative impacts. Existing methods for detecting smart Ponzi schemes on Ethereum mainly rely on bytecode features, opcode features, account features, and transaction behavior features of smart contracts, and the performance of identifying schemes is insufficient. In this paper, we propose SourceP, a method to detect smart Ponzi schemes on the Ethereum platform using pre-trained models and data flow, which only requires using the source code of smart contracts as features to explore the possibility of detecting smart Ponzi schemes from another direction. SourceP reduces the difficulty of data acquisition and feature extraction of existing detection methods while increasing the interpretability of the model. Specifically, we first convert the source code of a smart contract into a data flow graph and then introduce a pre-trained model based on learning code representations to build a classification model to identify Ponzi schemes in smart contracts. The experimental results show that SourceP achieves 87.2\% recall and 90.7\% F-score for detecting smart Ponzi schemes within Ethereum's smart contract dataset, outperforming state-of-the-art methods in terms of performance and sustainability. We also demonstrate through additional experiments that pre-trained models and data flow play an important contribution to SourceP, as well as proving that SourceP has a good generalization ability. | 翻訳日:2023-10-28 01:41:05 公開日:2023-10-26 |
# StableRep: テキストから画像への合成画像は、強力な視覚表現学習者を生み出す StableRep: Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners ( http://arxiv.org/abs/2306.00984v2 ) ライセンス: Link先を確認 | Yonglong Tian, Lijie Fan, Phillip Isola, Huiwen Chang, Dilip Krishnan | (参考訳) テキストから画像への合成画像を用いた視覚表現の学習の可能性について検討した。
このようなモデルが高品質な画像を生成する際の優れた性能という観点から、これは自然な問題です。
特に,オープンソースのテキスト対画像モデルであるstable diffusionについて考察する。
本研究では,(1) 生成モデルが適切な分類なし指導尺度で設定されている場合, 合成画像の自己指導的手法は実画像と一致したり, 打ち負かすことができること,(2) 同一のテキストプロンプトから生成した複数の画像を正として扱うことにより, マルチ陽性のコントラスト学習法を開発した。
合成画像のみを用いて、StableRepが学んだ表現は、大規模なデータセット上で、同じテキストプロンプトと対応する実画像のセットを使用して、SimCLRとCLIPが学んだ表現のパフォーマンスを上回る。
さらに言語管理を追加すると,20m合成画像でトレーニングしたstablerepは,50m実画像でトレーニングされたクリップよりも精度が向上する。 We investigate the potential of learning visual representations using synthetic images generated by text-to-image models. This is a natural question in the light of the excellent performance of such models in generating high-quality images. We consider specifically the Stable Diffusion, one of the leading open source text-to-image models. We show that (1) when the generative model is configured with proper classifier-free guidance scale, training self-supervised methods on synthetic images can match or beat the real image counterpart; (2) by treating the multiple images generated from the same text prompt as positives for each other, we develop a multi-positive contrastive learning method, which we call StableRep. With solely synthetic images, the representations learned by StableRep surpass the performance of representations learned by SimCLR and CLIP using the same set of text prompts and corresponding real images, on large scale datasets. When we further add language supervision, StableRep trained with 20M synthetic images achieves better accuracy than CLIP trained with 50M real images. | 翻訳日:2023-10-28 01:40:27 公開日:2023-10-26 |
# AD-PT:大規模ポイントクラウドデータセットによる自律走行事前訓練 AD-PT: Autonomous Driving Pre-Training with Large-scale Point Cloud Dataset ( http://arxiv.org/abs/2306.00612v3 ) ライセンス: Link先を確認 | Jiakang Yuan, Bo Zhang, Xiangchao Yan, Tao Chen, Botian Shi, Yikang Li, Yu Qiao | (参考訳) 知覚モデルが大規模なポイントクラウドデータセットから学習し、さまざまなタスクやベンチマークで有望な結果を得ることができる統一された表現を得ることは、Autonomous Driving (AD)コミュニティの長期的なビジョンである。
以前の作業は、主に自己教師付き事前トレーニングパイプラインに焦点を当てており、同じベンチマークで事前トレーニングと微調整を行うため、事前トレーニングチェックポイント用のパフォーマンススケーラビリティとクロスデータセットアプリケーションを達成するのは難しい。
本稿では,このような多種多様な事前学習データセットから汎用表現を学習しながら,多種多様なデータ分布を持つ大規模事前学習型ポイントクラウドデータセットの構築に初めてコミットする。
我々は、ポイントクラウド事前学習タスクを半教師付き問題として定式化し、少数のラベル付きおよび大規模未ラベルのポイントクラウドデータを利用して、多くのベースラインモデルやベンチマークに直接適用可能な統一されたバックボーン表現を生成する。
バックボーン事前トレーニングの期間中,シーンレベルの分散の多様性を高め,未知のインスタンスから学習するバックボーンの能力を活用することで,PV-RCNN++,SECOND,CenterPointといったさまざまなベースラインモデルの下で,Waymo,nuScenes,KITTIといった一連の下流知覚ベンチマークにおいて,大幅なパフォーマンス向上を実現した。 It is a long-term vision for Autonomous Driving (AD) community that the perception models can learn from a large-scale point cloud dataset, to obtain unified representations that can achieve promising results on different tasks or benchmarks. Previous works mainly focus on the self-supervised pre-training pipeline, meaning that they perform the pre-training and fine-tuning on the same benchmark, which is difficult to attain the performance scalability and cross-dataset application for the pre-training checkpoint. In this paper, for the first time, we are committed to building a large-scale pre-training point-cloud dataset with diverse data distribution, and meanwhile learning generalizable representations from such a diverse pre-training dataset. We formulate the point-cloud pre-training task as a semi-supervised problem, which leverages the few-shot labeled and massive unlabeled point-cloud data to generate the unified backbone representations that can be directly applied to many baseline models and benchmarks, decoupling the AD-related pre-training process and downstream fine-tuning task. During the period of backbone pre-training, by enhancing the scene- and instance-level distribution diversity and exploiting the backbone's ability to learn from unknown instances, we achieve significant performance gains on a series of downstream perception benchmarks including Waymo, nuScenes, and KITTI, under different baseline models like PV-RCNN++, SECOND, CenterPoint. | 翻訳日:2023-10-28 01:40:05 公開日:2023-10-26 |
# 言語から見た弱視映像の再検討 Revisit Weakly-Supervised Audio-Visual Video Parsing from the Language Perspective ( http://arxiv.org/abs/2306.00595v5 ) ライセンス: Link先を確認 | Yingying Fan and Yu Wu and Bo Du and Yutian Lin | (参考訳) 音声/視覚モダリティのすべてのイベントを識別・特定することを目的とした,弱い教師付き音声映像解析タスク(avvp)に注目した。
それまでの作業は、モダリティにまたがるビデオレベルのラベルにのみフォーカスするが、隣接するビデオセグメント(すなわち1秒のビデオクリップ)が異なるイベントを含むセグメントレベルのラベルノイズを見落としている。
しかし、セグメント内のイベントを認識することは、そのラベルがビデオ内で発生するイベントの組み合わせである可能性があるため、難しい。
この問題を解決するために、言語の観点からAVVPに取り組むことを検討する。なぜなら、言語は固定ラベルを超えて各セグメントにどのように様々なイベントが現れるかを自由に記述できるからだ。
具体的には、各ビデオのイベント出現のすべてのケースを記述する言語プロンプトを設計します。
次に、最も類似したプロンプトのイベントをセグメントレベルラベルとして、言語プロンプトとセグメントの類似度を算出する。
また,ラベルの誤りに対処するため,信頼できないセグメントに対して動的再重み付けを行い,ラベルを調整することを提案する。
実験により, 単純かつ効果的なアプローチが最先端の手法を大差で上回っていることが示された。 We focus on the weakly-supervised audio-visual video parsing task (AVVP), which aims to identify and locate all the events in audio/visual modalities. Previous works only concentrate on video-level overall label denoising across modalities, but overlook the segment-level label noise, where adjacent video segments (i.e., 1-second video clips) may contain different events. However, recognizing events in the segment is challenging because its label could be any combination of events that occur in the video. To address this issue, we consider tackling AVVP from the language perspective, since language could freely describe how various events appear in each segment beyond fixed labels. Specifically, we design language prompts to describe all cases of event appearance for each video. Then, the similarity between language prompts and segments is calculated, where the event of the most similar prompt is regarded as the segment-level label. In addition, to deal with the mislabeled segments, we propose to perform dynamic re-weighting on the unreliable segments to adjust their labels. Experiments show that our simple yet effective approach outperforms state-of-the-art methods by a large margin. | 翻訳日:2023-10-28 01:39:38 公開日:2023-10-26 |
# オフライン強化学習のための効率的な拡散ポリシー Efficient Diffusion Policies for Offline Reinforcement Learning ( http://arxiv.org/abs/2305.20081v2 ) ライセンス: Link先を確認 | Bingyi Kang, Xiao Ma, Chao Du, Tianyu Pang, Shuicheng Yan | (参考訳) オフライン強化学習(rl)は、オフラインデータセットから最適なポリシーを学習することを目的としている。
最近、Diffsuion-QLは拡散モデルでポリシーを表現することでオフラインRLの性能を大幅に向上させ、その成功はサンプリングのための数百ステップのパラメータ化されたマルコフ連鎖に依存している。
しかし、Diffusion-QLには2つの限界がある。
1) 訓練中のマルコフ連鎖全体の前方および後方への移動は計算量的に非効率である。
2)拡散モデルの可能性は難解であるため,最大確率に基づくrlアルゴリズム(例えば,ポリシー勾配法)とは相容れない。
そこで本稿では,これらの2つの課題を克服する効率的な拡散政策を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の破損したアクションを概ね構成する。
D4RLベンチマークで広範な実験を行った。
その結果, EDPは, ジム移動作業において, 拡散政策訓練時間を5日から5時間に短縮できることがわかった。
さらに、EDPは様々なオフラインRLアルゴリズム(TD3、CRR、IQL)と互換性があり、従来の手法よりも大きなマージンでD4RLの新たな最先端を実現する。
私たちのコードはhttps://github.com/sail-sg/edpで利用可能です。 Offline reinforcement learning (RL) aims to learn optimal policies from offline datasets, where the parameterization of policies is crucial but often overlooked. Recently, Diffsuion-QL significantly boosts the performance of offline RL by representing a policy with a diffusion model, whose success relies on a parametrized Markov Chain with hundreds of steps for sampling. However, Diffusion-QL suffers from two critical limitations. 1) It is computationally inefficient to forward and backward through the whole Markov chain during training. 2) It is incompatible with maximum likelihood-based RL algorithms (e.g., policy gradient methods) as the likelihood of diffusion models is intractable. Therefore, we propose efficient diffusion policy (EDP) to overcome these two challenges. EDP approximately constructs actions from corrupted ones at training to avoid running the sampling chain. We conduct extensive experiments on the D4RL benchmark. The results show that EDP can reduce the diffusion policy training time from 5 days to 5 hours on gym-locomotion tasks. Moreover, we show that EDP is compatible with various offline RL algorithms (TD3, CRR, and IQL) and achieves new state-of-the-art on D4RL by large margins over previous methods. Our code is available at https://github.com/sail-sg/edp. | 翻訳日:2023-10-28 01:39:18 公開日:2023-10-26 |
# 生成拡散モデルにおける自発的対称性の破れ Spontaneous Symmetry Breaking in Generative Diffusion Models ( http://arxiv.org/abs/2305.19693v3 ) ライセンス: Link先を確認 | Gabriel Raya, Luca Ambrogioni | (参考訳) 生成拡散モデルは近年,高次元データ生成の先導的アプローチとして浮上している。
本稿では、これらのモデルの力学が、生成力学を2つの異なる位相に分割する自発的対称性の破れを示すことを示す。
1)中央の不動点まわりの線形定常状態ダイナミクス
2) データ多様体を指向したアトラクタダイナミクス。
これら2つの「相」は中心固定点の安定性の変化によって分離され、結果として生じる不安定性の窓が生成したサンプルの多様性の原因となる。
理論的および経験的証拠の両方を用いて、初期変動が中心固定点に逆戻りするため、初期力学の正確なシミュレーションが最終生成に大きく寄与しないことを示す。
この知見を活用するために,モデル性能を大幅に向上し,高速サンプリング器で最大3倍のFID向上を実現し,サンプルの多様性(例えば,生成したCelebA画像の人種構成)を向上するガウス的遅延初期化手法を提案する。
我々の研究は、より高性能でバイアスの少ない高速サンプリングを実現する可能性を持つ拡散モデルの生成力学を理解する新しい方法を提供する。 Generative diffusion models have recently emerged as a leading approach for generating high-dimensional data. In this paper, we show that the dynamics of these models exhibit a spontaneous symmetry breaking that divides the generative dynamics into two distinct phases: 1) A linear steady-state dynamics around a central fixed-point and 2) an attractor dynamics directed towards the data manifold. These two "phases" are separated by the change in stability of the central fixed-point, with the resulting window of instability being responsible for the diversity of the generated samples. Using both theoretical and empirical evidence, we show that an accurate simulation of the early dynamics does not significantly contribute to the final generation, since early fluctuations are reverted to the central fixed point. To leverage this insight, we propose a Gaussian late initialization scheme, which significantly improves model performance, achieving up to 3x FID improvements on fast samplers, while also increasing sample diversity (e.g., racial composition of generated CelebA images). Our work offers a new way to understand the generative dynamics of diffusion models that has the potential to bring about higher performance and less biased fast-samplers. | 翻訳日:2023-10-28 01:38:57 公開日:2023-10-26 |
# 低コヒーレンス行列によるラベル埋め込み Label Embedding via Low-Coherence Matrices ( http://arxiv.org/abs/2305.19470v3 ) ライセンス: Link先を確認 | Jianxin Zhang and Clayton Scott | (参考訳) ラベル埋め込みは、各ラベルをある固定次元の別個のベクトルで表現し、トレーニングは正しいラベルを表すベクトルとモデル出力をマッチングする多クラス分類問題のためのフレームワークである。
ラベル埋め込みは極端な分類とゼロショット学習にうまく適用され、計算と統計の両方の利点を提供しているが、その理論的基礎はよく分かっていない。
この研究は、極端多クラス分類の文脈におけるラベル埋め込みの分析を示し、クラス数$C$は非常に大きい。
埋め込み行列のコヒーレンスによって定量化される計算効率と統計効率のトレードオフを明らかにする過剰なリスク境界を示す。
さらに,Massartノイズ条件下では,ラベル埋め込みに対する統計的ペナルティが十分に低いコヒーレンスで消失することを示す。
本解析は,単純でスケーラブルで容易に並列化可能なアルゴリズムをサポートし,大規模アプリケーションでの有効性を実験的に実証する。 Label embedding is a framework for multiclass classification problems where each label is represented by a distinct vector of some fixed dimension, and training involves matching model output to the vector representing the correct label. While label embedding has been successfully applied in extreme classification and zero-shot learning, and offers both computational and statistical advantages, its theoretical foundations remain poorly understood. This work presents an analysis of label embedding in the context of extreme multiclass classification, where the number of classes $C$ is very large. We present an excess risk bound that reveals a trade-off between computational and statistical efficiency, quantified via the coherence of the embedding matrix. We further show that under the Massart noise condition, the statistical penalty for label embedding vanishes with sufficiently low coherence. Our analysis supports an algorithm that is simple, scalable, and easily parallelizable, and experimental results demonstrate its effectiveness in large-scale applications. | 翻訳日:2023-10-28 01:38:38 公開日:2023-10-26 |
# 前向きアルゴリズムで学習したネットワークにおける創発的表現 Emergent representations in networks trained with the Forward-Forward algorithm ( http://arxiv.org/abs/2305.18353v2 ) ライセンス: Link先を確認 | Niccol\`o Tosato, Lorenzo Basile, Emanuele Ballarin, Giuseppe de Alteriis, Alberto Cazzaniga, Alessio Ansuini | (参考訳) バックプロパゲーションアルゴリズムは生物学的リアリズムの欠如によってしばしば批判されている。
より生物学的に妥当な代替手段を見つけるために、最近導入されたフォワードフォワードアルゴリズムは、バックプロパゲーションの前方および後方パスを2つの前方パスで置き換える。
本研究では,フォワード・フォワードアルゴリズムによって得られた内部表現を,非常に少ない数のアクティブユニットからなる,高い疎性を示すカテゴリ固有のアンサンブルに整理できることを示す。
この状況は、神経細胞のアンサンブルが知覚と行動の機能的構成要素として機能することを示唆する皮質感覚領域で観察されたことを想起させる。
興味深いことに、このスパースパターンは通常、標準バックプロパゲーションでトレーニングされたモデルでは発生しないが、フォワードアルゴリズムで提案されたのと同じ目的にバックプロパゲーションでトレーニングされたネットワークで現れる。
これらの結果から, 後進パスを用いた場合においても, フォワードが提案する学習手順は, 大脳皮質のモデリング学習において, バックプロパゲーションよりも優れている可能性が示唆された。 The Backpropagation algorithm has often been criticised for its lack of biological realism. In an attempt to find a more biologically plausible alternative, the recently introduced Forward-Forward algorithm replaces the forward and backward passes of Backpropagation with two forward passes. In this work, we show that the internal representations obtained by the Forward-Forward algorithm can organise into category-specific ensembles exhibiting high sparsity - i.e. composed of an extremely low number of active units. This situation is reminiscent of what has been observed in cortical sensory areas, where neuronal ensembles are suggested to serve as the functional building blocks for perception and action. Interestingly, while this sparse pattern does not typically arise in models trained with standard Backpropagation, it can emerge in networks trained with Backpropagation on the same objective proposed for the Forward-Forward algorithm. These results suggest that the learning procedure proposed by Forward-Forward may be superior to Backpropagation in modelling learning in the cortex, even when a backward pass is used. | 翻訳日:2023-10-28 01:38:21 公開日:2023-10-26 |
# 逆損失と遷移を考慮したオンライン強化学習 No-Regret Online Reinforcement Learning with Adversarial Losses and Transitions ( http://arxiv.org/abs/2305.17380v3 ) ライセンス: Link先を確認 | Tiancheng Jin, Junyan Liu, Chlo\'e Rouyer, William Chang, Chen-Yu Wei, Haipeng Luo | (参考訳) 既存の対戦型マルコフ決定過程のオンライン学習アルゴリズムは、もし損失関数が敵によって任意に選択されたとしても、その遷移関数が固定されなければならないという注意を払っても、$T$の相互作用の後に${O}(\sqrt{T})$後悔を達成する。
これは、対向遷移関数が非回帰学習を不可能にすることが示されているためである。
このような不合理な結果にもかかわらず、本研究では、敵の悪意の程度で後悔がスムーズに増加し、敵の損失と敵の遷移の両方を処理できるアルゴリズムを開発する。
より具体的には、まず、$\widetilde{O}}(\sqrt{T} + C^{\textsf{P}})$ regret ここで、$C^{\textsf{P}}$は、遷移関数がいかに敵対的であり、少なくとも${O}(T)$であるかを測るアルゴリズムを提案する。
このアルゴリズム自体は$c^{\textsf{p}}$の知識を必要とするが、我々はこの要件を取り除くブラックボックス還元アプローチをさらに開発する。
さらに、アルゴリズムのさらなる改良は、同じ後悔境界を維持するだけでなく、より簡単な環境(Jin et al. [2021] のような確率的に制約された方法で損失が発生する)にも同時に適応し、$\widetilde{O}}(U + \sqrt{UCUCtextsf{L}}} + C^{\textsf{P}})$ regret, ここで$U$は標準的なギャップ依存係数であり、$C^{\textsf{L}}$は損失の破損量であることを示す。 Existing online learning algorithms for adversarial Markov Decision Processes achieve ${O}(\sqrt{T})$ regret after $T$ rounds of interactions even if the loss functions are chosen arbitrarily by an adversary, with the caveat that the transition function has to be fixed. This is because it has been shown that adversarial transition functions make no-regret learning impossible. Despite such impossibility results, in this work, we develop algorithms that can handle both adversarial losses and adversarial transitions, with regret increasing smoothly in the degree of maliciousness of the adversary. More concretely, we first propose an algorithm that enjoys $\widetilde{{O}}(\sqrt{T} + C^{\textsf{P}})$ regret where $C^{\textsf{P}}$ measures how adversarial the transition functions are and can be at most ${O}(T)$. While this algorithm itself requires knowledge of $C^{\textsf{P}}$, we further develop a black-box reduction approach that removes this requirement. Moreover, we also show that further refinements of the algorithm not only maintains the same regret bound, but also simultaneously adapts to easier environments (where losses are generated in a certain stochastically constrained manner as in Jin et al. [2021]) and achieves $\widetilde{{O}}(U + \sqrt{UC^{\textsf{L}}} + C^{\textsf{P}})$ regret, where $U$ is some standard gap-dependent coefficient and $C^{\textsf{L}}$ is the amount of corruption on losses. | 翻訳日:2023-10-28 01:38:02 公開日:2023-10-26 |
# DiffSketcher:潜在拡散モデルによるテキストガイドベクトルスケッチ合成 DiffSketcher: Text Guided Vector Sketch Synthesis through Latent Diffusion Models ( http://arxiv.org/abs/2306.14685v3 ) ライセンス: Link先を確認 | Ximing Xing, Chuang Wang, Haitao Zhou, Jing Zhang, Qian Yu, Dong Xu | (参考訳) 画像を中心に訓練したものの,事前学習された拡散モデルがスケッチ合成の指導において印象的な効果を示すことが判明した。
本稿では,自然言語入力を用いた自由手書きスケッチを生成する革新的なアルゴリズムであるDiffSketcherを提案する。
diffsketcherは、事前学習されたテキストから画像への拡散モデルに基づいている。
スコア蒸留サンプリング(SDS)損失の延長版でB\'ezier曲線の集合を直接最適化することにより、パラメトリックベクトル化スケッチ生成器を最適化するための先行としてラスタレベルの拡散モデルを使用することができる。
さらに, 実効的ストローク初期化のための拡散モデルに埋め込まれた注意マップを探索し, 生成プロセスを高速化する。
生成されたスケッチは、認識可能性、基盤構造、描画対象の視覚的詳細を維持しながら、複数の抽象化レベルを示す。
私たちの実験では、diffsketcherは以前の作業よりも高い品質を達成しています。
diffsketcherのコードとデモはhttps://ximinng.github.io/diffsketcher-project/にある。 Even though trained mainly on images, we discover that pretrained diffusion models show impressive power in guiding sketch synthesis. In this paper, we present DiffSketcher, an innovative algorithm that creates \textit{vectorized} free-hand sketches using natural language input. DiffSketcher is developed based on a pre-trained text-to-image diffusion model. It performs the task by directly optimizing a set of B\'ezier curves with an extended version of the score distillation sampling (SDS) loss, which allows us to use a raster-level diffusion model as a prior for optimizing a parametric vectorized sketch generator. Furthermore, we explore attention maps embedded in the diffusion model for effective stroke initialization to speed up the generation process. The generated sketches demonstrate multiple levels of abstraction while maintaining recognizability, underlying structure, and essential visual details of the subject drawn. Our experiments show that DiffSketcher achieves greater quality than prior work. The code and demo of DiffSketcher can be found at https://ximinng.github.io/DiffSketcher-project/. | 翻訳日:2023-10-28 01:28:25 公開日:2023-10-26 |
# 可変サイズテキスト・画像合成のための学習自由拡散モデル適応 Training-free Diffusion Model Adaptation for Variable-Sized Text-to-Image Synthesis ( http://arxiv.org/abs/2306.08645v2 ) ライセンス: Link先を確認 | Zhiyu Jin and Xuli Shen and Bin Li and Xiangyang Xue | (参考訳) 拡散モデル(DM)は近年,テキスト・画像合成における最先端性能に注目されている。
ディープラーニングの伝統に従って、DMは一定サイズの画像に基づいて訓練され、評価される。
しかし、ユーザーは特定のサイズと様々なアスペクト比で様々な画像を要求する。
本稿では,視覚の忠実性を維持しつつ,テキストから画像への拡散モデルを適用することに焦点を当てる。
まず、合成中は、解像度の低い画像は不完全な物体の描写に悩まされ、高解像度画像は繰り返し乱れを示す。
次に,注意エントロピーがトークン量とともに変化することを示す統計的関係を確立し,モデルが画像解像度に比例して空間情報を集約することを示す。
その後の観察では、低分解能の空間情報が限られたため、オブジェクトは不完全に描写されるが、高分解能の余分な空間情報から繰り返し非組織的な提示が生じる。
この観点から,注意エントロピーの変化を緩和し,観察した欠陥パターンを緩和するためのスケーリング係数を提案する。
広範な実験結果から,提案するスケーリング係数の有効性が検証され,視覚効果,画質,テキストアライメントが向上した。
特に、これらの改善は、追加のトレーニングや微調整技術なしで達成される。 Diffusion models (DMs) have recently gained attention with state-of-the-art performance in text-to-image synthesis. Abiding by the tradition in deep learning, DMs are trained and evaluated on the images with fixed sizes. However, users are demanding for various images with specific sizes and various aspect ratio. This paper focuses on adapting text-to-image diffusion models to handle such variety while maintaining visual fidelity. First we observe that, during the synthesis, lower resolution images suffer from incomplete object portrayal, while higher resolution images exhibit repetitively disordered presentation. Next, we establish a statistical relationship indicating that attention entropy changes with token quantity, suggesting that models aggregate spatial information in proportion to image resolution. The subsequent interpretation on our observations is that objects are incompletely depicted due to limited spatial information for low resolutions, while repetitively disorganized presentation arises from redundant spatial information for high resolutions. From this perspective, we propose a scaling factor to alleviate the change of attention entropy and mitigate the defective pattern observed. Extensive experimental results validate the efficacy of the proposed scaling factor, enabling models to achieve better visual effects, image quality, and text alignment. Notably, these improvements are achieved without additional training or fine-tuning techniques. | 翻訳日:2023-10-28 01:27:48 公開日:2023-10-26 |
# 拡散の拡散:周期的一方向拡散によるテキストビジョン条件付き生成 Diffusion in Diffusion: Cyclic One-Way Diffusion for Text-Vision-Conditioned Generation ( http://arxiv.org/abs/2306.08247v4 ) ライセンス: Link先を確認 | Ruoyu Wang, Yongqi Yang, Zhihao Qian, Ye Zhu, Yu Wu | (参考訳) 粒子移動を記述する物理学における拡散現象から派生した拡散生成モデルは、消音軌道に沿ってデータ空間内の確率的ランダムウォークの特性を継承する。
しかし、画像領域間の内在的な相互干渉は、所定の条件付けから低レベル画素情報の保存が望まれる実用的な下流アプリケーションシナリオ(例えば、ユーザ提供の単一画像に基づくパーソナライズ生成や塗り込みといったカスタマイズタスク)の必要性と矛盾する。
本研究では, 拡散(機械学習)特性における拡散(物理)について検討し, コンディショニングの低レベル画素情報を保存する必要がある多目的カスタマイズ応用シナリオにおいて, 事前学習された凍結拡散モデルが与える拡散現象の方向を制御するための循環的一方向拡散(cow)法を提案する。
特に,基礎となるテキスト・画像拡散モデルや学習補助ネットワークを微調整して追加条件を組み込んだ現在の手法とは異なり,本手法はタスクニーズを理解するための新しい視点を提供し,学習自由な方法で幅広いカスタマイズシナリオに適用できる。
広範囲にわたる実験結果から,提案する牛は,異なるアプリケーション環境での厳密な視覚条件に基づいて,より柔軟なカスタマイズが可能となった。 Originating from the diffusion phenomenon in physics that describes particle movement, the diffusion generative models inherit the characteristics of stochastic random walk in the data space along the denoising trajectory. However, the intrinsic mutual interference among image regions contradicts the need for practical downstream application scenarios where the preservation of low-level pixel information from given conditioning is desired (e.g., customization tasks like personalized generation and inpainting based on a user-provided single image). In this work, we investigate the diffusion (physics) in diffusion (machine learning) properties and propose our Cyclic One-Way Diffusion (COW) method to control the direction of diffusion phenomenon given a pre-trained frozen diffusion model for versatile customization application scenarios, where the low-level pixel information from the conditioning needs to be preserved. Notably, unlike most current methods that incorporate additional conditions by fine-tuning the base text-to-image diffusion model or learning auxiliary networks, our method provides a novel perspective to understand the task needs and is applicable to a wider range of customization scenarios in a learning-free manner. Extensive experiment results show that our proposed COW can achieve more flexible customization based on strict visual conditions in different application settings. | 翻訳日:2023-10-28 01:27:28 公開日:2023-10-26 |
# ガウス会員推定プライバシー Gaussian Membership Inference Privacy ( http://arxiv.org/abs/2306.07273v2 ) ライセンス: Link先を確認 | Tobias Leemann, Martin Pawelczyk, Gjergji Kasneci | (参考訳) 我々は,会員推論攻撃モデルに基づく現実的な敵の能力を明確に考察した,新規で実用的なプライバシー概念である$f$-Membership Inference Privacy(f$-MIP)を提案する。
その結果、$f$-MIPは解釈可能なプライバシー保証とユーティリティの改善(例えば、より良い分類精度)を提供する。
特に、確率勾配降下(SGD)に対する確率比に基づくメンバーシップ推論攻撃を理論的に分析することにより、$\mu$-Gaussian Membership Inference Privacy(\mu$-GMIP)と呼ばれる、$f$-MIPのパラメトリックファミリーを導出する。
我々の分析によると、標準SGDで訓練されたモデルは、既に初等レベルのMIPを提供している。
さらに、勾配更新にノイズを加えることで、$f$-MIPを増幅する方法を示す。
我々の分析は、以前のアプローチよりも2つの明確なアドバンテージを提供する分析的メンバーシップ推論攻撃をもたらす。
まず、何百もの影モデルを訓練する必要がある既存の最先端攻撃とは異なり、我々の攻撃は影モデルを必要としない。
第2に、我々の分析攻撃はプライバシー概念の簡単な監査を可能にする。
最後に、様々なハイパーパラメータ(バッチサイズ、モデルパラメータの数など)と特定のデータ特性が、トレーニングセット内のポイントのメンバーシップを正確に推測する攻撃者の能力を決定する方法を定量化する。
視覚と表のデータセットに基づいて学習したモデルに対して,本手法の有効性を示す。 We propose a novel and practical privacy notion called $f$-Membership Inference Privacy ($f$-MIP), which explicitly considers the capabilities of realistic adversaries under the membership inference attack threat model. Consequently, $f$-MIP offers interpretable privacy guarantees and improved utility (e.g., better classification accuracy). In particular, we derive a parametric family of $f$-MIP guarantees that we refer to as $\mu$-Gaussian Membership Inference Privacy ($\mu$-GMIP) by theoretically analyzing likelihood ratio-based membership inference attacks on stochastic gradient descent (SGD). Our analysis highlights that models trained with standard SGD already offer an elementary level of MIP. Additionally, we show how $f$-MIP can be amplified by adding noise to gradient updates. Our analysis further yields an analytical membership inference attack that offers two distinct advantages over previous approaches. First, unlike existing state-of-the-art attacks that require training hundreds of shadow models, our attack does not require any shadow model. Second, our analytical attack enables straightforward auditing of our privacy notion $f$-MIP. Finally, we quantify how various hyperparameters (e.g., batch size, number of model parameters) and specific data characteristics determine an attacker's ability to accurately infer a point's membership in the training set. We demonstrate the effectiveness of our method on models trained on vision and tabular datasets. | 翻訳日:2023-10-28 01:27:03 公開日:2023-10-26 |
# nlpにおける分散外ロバスト性の再検討:ベンチマーク、分析、llms評価 Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis, and LLMs Evaluations ( http://arxiv.org/abs/2306.04618v2 ) ライセンス: Link先を確認 | Lifan Yuan, Yangyi Chen, Ganqu Cui, Hongcheng Gao, Fangyuan Zou, Xingyi Cheng, Heng Ji, Zhiyuan Liu, Maosong Sun | (参考訳) 本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)の堅牢性に関する研究を再検討する。
従来の研究では,OODのロバスト性評価の精度を損なうような,適切な課題がほとんどなかった。
これらの問題に対処するため,我々は,明確な分化と分散の困難さを保証するためのベンチマーク構築プロトコルを提案する。
次に,5つのタスクと20のデータセットをカバーする分散ロバスト性評価のためのベンチマークスイートであるbossを紹介する。
BOSSに基づいて、OODロバスト性の分析と評価のための事前学習言語モデルに関する一連の実験を行う。
まず,バニラ微調整において,分布内(ID)とOOD性能の関係を検討する。
我々は,内的学習メカニズムを明らかにする3つの典型的なタイプを同定し,OODの堅牢性の予測を助長する可能性があり,IDデータセットの進歩に関連している。
次に,BOSSの古典的手法を5つ評価し,特定の症例で有効性を示したが,バニラ微調整に比べて有意な改善は得られなかった。
さらに, 5つのLLMを様々な適応パラダイムで評価し, 十分なIDデータが得られる場合, 細調整ドメイン固有モデルは, 実例でLLMを著しく上回ることがわかった。
しかし、OODの場合、文脈内学習によるLLMの優先順位付けはより良い結果をもたらす。
細調整された小型モデルとLLMの両方が、下流タスクを効果的に処理する上での課題に直面している。
コードは \url{https://github.com/lifan-yuan/OOD_NLP} で公開されている。 This paper reexamines the research on out-of-distribution (OOD) robustness in the field of NLP. We find that the distribution shift settings in previous studies commonly lack adequate challenges, hindering the accurate evaluation of OOD robustness. To address these issues, we propose a benchmark construction protocol that ensures clear differentiation and challenging distribution shifts. Then we introduce BOSS, a Benchmark suite for Out-of-distribution robustneSS evaluation covering 5 tasks and 20 datasets. Based on BOSS, we conduct a series of experiments on pre-trained language models for analysis and evaluation of OOD robustness. First, for vanilla fine-tuning, we examine the relationship between in-distribution (ID) and OOD performance. We identify three typical types that unveil the inner learning mechanism, which could potentially facilitate the forecasting of OOD robustness, correlating with the advancements on ID datasets. Then, we evaluate 5 classic methods on BOSS and find that, despite exhibiting some effectiveness in specific cases, they do not offer significant improvement compared to vanilla fine-tuning. Further, we evaluate 5 LLMs with various adaptation paradigms and find that when sufficient ID data is available, fine-tuning domain-specific models outperform LLMs on ID examples significantly. However, in the case of OOD instances, prioritizing LLMs with in-context learning yields better results. We identify that both fine-tuned small models and LLMs face challenges in effectively addressing downstream tasks. The code is public at \url{https://github.com/lifan-yuan/OOD_NLP}. | 翻訳日:2023-10-28 01:26:22 公開日:2023-10-26 |
# 表面から見る:試料効率の良いオフラインRLの基礎対称性の爆発 Look Beneath the Surface: Exploiting Fundamental Symmetry for Sample-Efficient Offline RL ( http://arxiv.org/abs/2306.04220v4 ) ライセンス: Link先を確認 | Peng Cheng, Xianyuan Zhan, Zhihao Wu, Wenjia Zhang, Shoucheng Song, Han Wang, Youfang Lin, Li Jiang | (参考訳) オフライン強化学習(rl)は、事前収集されたデータセットから環境と対話することなくポリシーを学習することで、現実世界のタスクに魅力的なアプローチを提供する。
しかし、既存のオフラインRLアルゴリズムの性能はデータセットのスケールと状態-アクション空間カバレッジに大きく依存する。
現実世界のデータ収集は、しばしば高価で制御不能であり、小規模で狭い範囲のデータセットにつながり、オフラインrlの実用的なデプロイに重大な課題をもたらす。
本稿では,システムダイナミクスの基本的な対称性を活用することで,小規模データセット下でのオフラインrl性能が大幅に向上することを示す。
具体的には,tdm(time-reversal symmetry)強制動力学モデル(t-symmetry enforced dynamics model, tdm)を提案する。
TDMは、小さなデータセットに対する良好な表現と、T対称性の遵守に基づくOODサンプルに対する新しい信頼性尺度の両方を提供する。
これらは、保守的なポリシー制約の少ない新しいオフラインRLアルゴリズム(TSRL)の構築や、信頼性の高い遅延空間データ拡張手順に容易に使用できる。
広範な実験に基づいて、TSRLは、原サンプルの1%に満たない小さなベンチマークデータセットで優れたパフォーマンスを達成し、データ効率と一般化性の観点から最近のオフラインRLアルゴリズムを著しく上回っている。 Offline reinforcement learning (RL) offers an appealing approach to real-world tasks by learning policies from pre-collected datasets without interacting with the environment. However, the performance of existing offline RL algorithms heavily depends on the scale and state-action space coverage of datasets. Real-world data collection is often expensive and uncontrollable, leading to small and narrowly covered datasets and posing significant challenges for practical deployments of offline RL. In this paper, we provide a new insight that leveraging the fundamental symmetry of system dynamics can substantially enhance offline RL performance under small datasets. Specifically, we propose a Time-reversal symmetry (T-symmetry) enforced Dynamics Model (TDM), which establishes consistency between a pair of forward and reverse latent dynamics. TDM provides both well-behaved representations for small datasets and a new reliability measure for OOD samples based on compliance with the T-symmetry. These can be readily used to construct a new offline RL algorithm (TSRL) with less conservative policy constraints and a reliable latent space data augmentation procedure. Based on extensive experiments, we find TSRL achieves great performance on small benchmark datasets with as few as 1% of the original samples, which significantly outperforms the recent offline RL algorithms in terms of data efficiency and generalizability.Code is available at: https://github.com/pcheng2/TSRL | 翻訳日:2023-10-28 01:25:56 公開日:2023-10-26 |
# 画像キャプションによるマルチモーダルデータセットの改善 Improving Multimodal Datasets with Image Captioning ( http://arxiv.org/abs/2307.10350v2 ) ライセンス: Link先を確認 | Thao Nguyen, Samir Yitzhak Gadre, Gabriel Ilharco, Sewoong Oh, Ludwig Schmidt | (参考訳) 大規模なWebデータセットは、CLIPやFlamingoといった大規模なビジョン言語モデルの成功に重要な役割を果たしている。
しかし、生のWebデータはノイズが多く、ノイズを減らすための既存のフィルタリング手法は、しばしばデータの多様性を犠牲にしている。
本研究は,キャプション品質を主要なノイズ源として位置づけ,生成キャプションが非記述テキストによる web 階層データポイントの有用性をいかに高めるかを検討する。
生のキャプションと生成したキャプションの異なる混合戦略を探求することで,128万のイメージテキストペアの候補プールを与えられた場合,datacompベンチマークで提案する最良のフィルタリング手法を,imagenetで2%,38タスクで平均で4%上回った。
FlickrとMS-COCOの検索も2倍改善しています。
次に、合成キャプションをテキスト管理の効果的な源とするものを分析する。
異なる画像キャプションモデルを用いた実験では、標準画像キャプションベンチマーク(例えば、NoCaps CIDEr)におけるモデルの性能が、マルチモーダルトレーニングのためのキャプションの有用性の信頼性を示す指標ではないことも示している。
最後に,DataComp の大規模キャプション (1.28B 画像テキストペア) を用いた実験により,合成テキストの限界,およびトレーニングデータ量の増加に伴う画像キュレーションの重要性について考察した。
私たちの実験で使われている合成キャプションはHuggingFaceで利用可能です。 Massive web datasets play a key role in the success of large vision-language models like CLIP and Flamingo. However, the raw web data is noisy, and existing filtering methods to reduce noise often come at the expense of data diversity. Our work focuses on caption quality as one major source of noise, and studies how generated captions can increase the utility of web-scraped datapoints with nondescript text. Through exploring different mixing strategies for raw and generated captions, we outperform the best filtering method proposed by the DataComp benchmark by 2% on ImageNet and 4% on average across 38 tasks, given a candidate pool of 128M image-text pairs. Our best approach is also 2x better at Flickr and MS-COCO retrieval. We then analyze what makes synthetic captions an effective source of text supervision. In experimenting with different image captioning models, we also demonstrate that the performance of a model on standard image captioning benchmarks (e.g., NoCaps CIDEr) is not a reliable indicator of the utility of the captions it generates for multimodal training. Finally, our experiments with using generated captions at DataComp's large scale (1.28B image-text pairs) offer insights into the limitations of synthetic text, as well as the importance of image curation with increasing training data quantity. The synthetic captions used in our experiments are now available on HuggingFace. | 翻訳日:2023-10-28 01:19:59 公開日:2023-10-26 |
# AlpaGasus: 少ないデータでより良いAlpacaをトレーニングする AlpaGasus: Training A Better Alpaca with Fewer Data ( http://arxiv.org/abs/2307.08701v3 ) ライセンス: Link先を確認 | Lichang Chen, Shiyang Li, Jun Yan, Hai Wang, Kalpa Gunaratna, Vikas Yadav, Zheng Tang, Vijay Srinivasan, Tianyi Zhou, Heng Huang, Hongxia Jin | (参考訳) 大きな言語モデル~(llms)は教師付き命令/応答データに対する命令細分化(ift)を通じて命令追従能力を強化する。
しかし、広く使われているIFTデータセット(例えば、アルパカの52kデータ)は驚くほど多くの低品質なインスタンスを含み、不正確または無関係な応答はIFTに誤解を与え、有害である。
本稿では,強力なllm(例えばchatgpt)を用いて低品質データを自動的に識別しフィルタする,簡便で効果的なデータ選択戦略を提案する。
この目的のために,52kのAlpacaデータからフィルタした9kの高品質データのみを微調整したAlpaGasusを導入する。
AlpaGasusは、複数のテストセットと制御されたヒトの評価において、GPT-4で評価されたオリジナルのAlpacaよりも大幅に優れている。
13bの変種は、テストタスクにおける教師のllm(つまり52kデータを生成するtext-davinci-003)の90\%$のパフォーマンスに匹敵する。
また、5.7倍高速な訓練も提供し、7B型の訓練時間を80分(アルパカ用)から14分に短縮した。
さらに,本手法の有効性を,多種多様なデータセット,ベースモデル,LLMフィルタで実証した。
全体として、AlpaGasusは命令チューニングデータに適用可能な新しいデータ中心のIFTパラダイムを実証し、より高速なトレーニングとより良い命令追従モデルをもたらす。
私たちのプロジェクトページは以下の通りである。 Large language models~(LLMs) strengthen instruction-following capability through instruction-finetuning (IFT) on supervised instruction/response data. However, widely used IFT datasets (e.g., Alpaca's 52k data) surprisingly contain many low-quality instances with incorrect or irrelevant responses, which are misleading and detrimental to IFT. In this paper, we propose a simple and effective data selection strategy that automatically identifies and filters out low-quality data using a strong LLM (e.g., ChatGPT). To this end, we introduce AlpaGasus, which is finetuned on only 9k high-quality data filtered from the 52k Alpaca data. AlpaGasus significantly outperforms the original Alpaca as evaluated by GPT-4 on multiple test sets and the controlled human evaluation. Its 13B variant matches $>90\%$ performance of its teacher LLM (i.e., Text-Davinci-003 generating the 52k data) on test tasks. It also provides 5.7x faster training, reducing the training time for a 7B variant from 80 minutes (for Alpaca) to 14 minutes. Moreover, the experiments prove the efficacy of our method across diverse datasets, base models, and LLM filters. Overall, AlpaGasus demonstrates a novel data-centric IFT paradigm that can be generally applied to instruction-tuning data, leading to faster training and better instruction-following models. Our project page is available at: \url{https://lichang-chen.github.io/AlpaGasus/} | 翻訳日:2023-10-28 01:19:33 公開日:2023-10-26 |
# 汎用パターンマシンとしての大規模言語モデル Large Language Models as General Pattern Machines ( http://arxiv.org/abs/2307.04721v2 ) ライセンス: Link先を確認 | Suvir Mirchandani, Fei Xia, Pete Florence, Brian Ichter, Danny Driess, Montserrat Gonzalez Arenas, Kanishka Rao, Dorsa Sadigh, Andy Zeng | (参考訳) 事前学習された大規模言語モデル(llm)は、確率的文脈自由文法(pcfg)によって任意のトークン列から、一般的なaiベンチマークであるabstract and reasoning corpus(arc)に見られるよりリッチな空間パターンまで、複雑なトークンシーケンスを自己回帰的に完了することができる。
驚くべきことに、配列が語彙からランダムにサンプリングされたトークンを使って表現されたとしても、パターン補完能力は部分的に保持される。
これらの結果から,LLMは文脈内学習によって駆動される汎用シーケンスモデラーとして機能することが示唆された。
本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。時間とともに状態を表す数列を外挿して単純な動作を完了させたり,クローズドループポリシ(例えばCartPoleの安定化コントローラ)を検出および表現できる報酬条件付き軌道の最小限のプロンプトまで。
レイテンシ、コンテキストサイズ制限、計算コストなどの理由から、今日の実際のシステムへのデプロイは難しいが、低レベルの制御を駆動するためにLLMを使用するアプローチは、単語間のパターンをアクションに転送する方法をエキサイティングに垣間見ることができる。 We observe that pre-trained large language models (LLMs) are capable of autoregressively completing complex token sequences -- from arbitrary ones procedurally generated by probabilistic context-free grammars (PCFG), to more rich spatial patterns found in the Abstraction and Reasoning Corpus (ARC), a general AI benchmark, prompted in the style of ASCII art. Surprisingly, pattern completion proficiency can be partially retained even when the sequences are expressed using tokens randomly sampled from the vocabulary. These results suggest that without any additional training, LLMs can serve as general sequence modelers, driven by in-context learning. In this work, we investigate how these zero-shot capabilities may be applied to problems in robotics -- from extrapolating sequences of numbers that represent states over time to complete simple motions, to least-to-most prompting of reward-conditioned trajectories that can discover and represent closed-loop policies (e.g., a stabilizing controller for CartPole). While difficult to deploy today for real systems due to latency, context size limitations, and compute costs, the approach of using LLMs to drive low-level control may provide an exciting glimpse into how the patterns among words could be transferred to actions. | 翻訳日:2023-10-28 01:18:22 公開日:2023-10-26 |
# 軌道アライメント:分岐理論による安定性現象の端の理解 Trajectory Alignment: Understanding the Edge of Stability Phenomenon via Bifurcation Theory ( http://arxiv.org/abs/2307.04204v2 ) ライセンス: Link先を確認 | Minhak Song, Chulhee Yun | (参考訳) cohen et al. (2021) は、勾配降下(gd)軌道に沿って損失ヘッセンの最大の固有値の進化を実証的に研究し、安定性のエッジ(eos)現象を観察した。
トレーニングの初期段階(プログレッシブ・シャープニング(progressive sharpening)と呼ばれる)でシャープ性が向上し、最終的に2 / \text{(step size)$のしきい値近くで飽和する。
本稿では、EoS現象が起こると(適切な再パラメータ化の後)異なるGD軌道が初期化とは無関係に特定の分岐図に整列することを示す経験的研究から始める。
次に、この軌道アライメント現象を2層完全連結線形ネットワークと1つのデータポイントで訓練された1つの非線形ネットワークに対して厳密に証明する。
トラジェクトリアライメント分析により,最近の文献の知見を包含し,拡張する進行的シャープニングとEoS現象が確立される。 Cohen et al. (2021) empirically study the evolution of the largest eigenvalue of the loss Hessian, also known as sharpness, along the gradient descent (GD) trajectory and observe the Edge of Stability (EoS) phenomenon. The sharpness increases at the early phase of training (referred to as progressive sharpening), and eventually saturates close to the threshold of $2 / \text{(step size)}$. In this paper, we start by demonstrating through empirical studies that when the EoS phenomenon occurs, different GD trajectories (after a proper reparameterization) align on a specific bifurcation diagram independent of initialization. We then rigorously prove this trajectory alignment phenomenon for a two-layer fully-connected linear network and a single-neuron nonlinear network trained with a single data point. Our trajectory alignment analysis establishes both progressive sharpening and EoS phenomena, encompassing and extending recent findings in the literature. | 翻訳日:2023-10-28 01:17:54 公開日:2023-10-26 |
# グラフニューラルネットワークにおける特徴進化の神経崩壊の展望 A Neural Collapse Perspective on Feature Evolution in Graph Neural Networks ( http://arxiv.org/abs/2307.01951v2 ) ライセンス: Link先を確認 | Vignesh Kothapalli, Tom Tirer, Joan Bruna | (参考訳) グラフ構造データの分類タスクでは,グラフニューラルネットワーク(gnns)がますます普及している。
しかし,GNNにおけるグラフトポロジと特徴進化の相互作用はよく理解されていない。
本稿では,確率的ブロックモデルグラフ上でのコミュニティ検出と共に,ノード単位の分類に着目し,神経崩壊(nc)現象のレンズを通して特徴進化を考察する。
インスタンスワイドの深層分類器(例えば画像分類)をゼロの訓練誤差点を超えて訓練する場合、NCは最深部特徴のクラス内変数の減少を示し、それらのクラスは特定の対称構造にアライメントされる。
まず、ノード単位の分類設定において、クラス内変数の減少が顕著であることを示す実証的研究から始めるが、インスタンス単位のケースで観測される範囲には及ばない。
そして、この区別を理論的に研究する。
具体的には、「最適」な数学的モデルでさえ、グラフは正確な崩壊を伴う最小値を持つために厳密な構造条件に従う必要があることを示す。
興味深いことに、この条件は異種グラフにも有効であり、GNNの一般化を改善した最近の経験的研究と関係している。
さらに, 理論モデルの勾配ダイナミクスを研究することにより, 経験的に観測される部分的崩壊の推理を与える。
最後に,よく訓練されたgnnの層間におけるクラス間特徴変動の進化と,その挙動をスペクトル法と対比する。 Graph neural networks (GNNs) have become increasingly popular for classification tasks on graph-structured data. Yet, the interplay between graph topology and feature evolution in GNNs is not well understood. In this paper, we focus on node-wise classification, illustrated with community detection on stochastic block model graphs, and explore the feature evolution through the lens of the "Neural Collapse" (NC) phenomenon. When training instance-wise deep classifiers (e.g. for image classification) beyond the zero training error point, NC demonstrates a reduction in the deepest features' within-class variability and an increased alignment of their class means to certain symmetric structures. We start with an empirical study that shows that a decrease in within-class variability is also prevalent in the node-wise classification setting, however, not to the extent observed in the instance-wise case. Then, we theoretically study this distinction. Specifically, we show that even an "optimistic" mathematical model requires that the graphs obey a strict structural condition in order to possess a minimizer with exact collapse. Interestingly, this condition is viable also for heterophilic graphs and relates to recent empirical studies on settings with improved GNNs' generalization. Furthermore, by studying the gradient dynamics of the theoretical model, we provide reasoning for the partial collapse observed empirically. Finally, we present a study on the evolution of within- and between-class feature variability across layers of a well-trained GNN and contrast the behavior with spectral methods. | 翻訳日:2023-10-28 01:17:35 公開日:2023-10-26 |
# CARE-MI:母子保健における誤情報評価のための中国のベンチマーク CARE-MI: Chinese Benchmark for Misinformation Evaluation in Maternity and Infant Care ( http://arxiv.org/abs/2307.01458v4 ) ライセンス: Link先を確認 | Tong Xiang, Liangzhi Li, Wangyue Li, Mingbai Bai, Lu Wei, Bowen Wang, Noa Garcia | (参考訳) 自然言語処理(NLP)の最近の進歩は、大規模言語モデル(LLM)を現実のシナリオに適用する新たなトレンドにつながっている。
最新のLSMは、人間と対話するときに驚くほど流動的だが、意図せずに事実を偽造することによって誤情報問題に悩まされる。
これにより、特に医療などのセンシティブなコンテキストで生成された場合、有害な結果が発生する可能性がある。
しかし、LLMの長文(LF)世代における誤情報の評価、特に知識集約的な話題に焦点を当てた以前の研究はほとんどない。
さらに、LLMは様々な言語でうまく機能することが示されているが、誤情報評価は主に英語で行われている。
そこで本研究では,LCM誤情報評価のためのベンチマークCARE-MIを提案する。
1)敏感な話題、具体的には母性及び乳幼児ケア領域
2) 英語以外の言語,すなわち中国語。
最も重要なことは、他の知識集約型ドメインや低リソース言語に転送可能なLF生成評価ベンチマークを構築するための革新的なパラダイムを提供することです。
提案するベンチマークは,LLMの広範利用と,これらのモデルが生成した誤情報を評価するためのデータセットの欠如とのギャップを埋めるものである。
専門家による1,612の質問と、人間による参照が含まれている。
以上の結果から,現在の中国のLSMは母性や乳幼児ケアの分野では完璧とは程遠いことが判明した。
性能評価のための人的資源への依存を最小限に抑えるため,ベンチマーク質問に対するLLMのLF出力を自動評価するオフ・ザ・シェルフ判定モデルを提案する。
さらに、LF生成評価の潜在的なソリューションを比較し、より良い自動メトリクスを構築するための洞察を提供する。 The recent advances in natural language processing (NLP), have led to a new trend of applying large language models (LLMs) to real-world scenarios. While the latest LLMs are astonishingly fluent when interacting with humans, they suffer from the misinformation problem by unintentionally generating factually false statements. This can lead to harmful consequences, especially when produced within sensitive contexts, such as healthcare. Yet few previous works have focused on evaluating misinformation in the long-form (LF) generation of LLMs, especially for knowledge-intensive topics. Moreover, although LLMs have been shown to perform well in different languages, misinformation evaluation has been mostly conducted in English. To this end, we present a benchmark, CARE-MI, for evaluating LLM misinformation in: 1) a sensitive topic, specifically the maternity and infant care domain; and 2) a language other than English, namely Chinese. Most importantly, we provide an innovative paradigm for building LF generation evaluation benchmarks that can be transferred to other knowledge-intensive domains and low-resourced languages. Our proposed benchmark fills the gap between the extensive usage of LLMs and the lack of datasets for assessing the misinformation generated by these models. It contains 1,612 expert-checked questions, accompanied with human-selected references. Using our benchmark, we conduct extensive experiments and found that current Chinese LLMs are far from perfect in the topic of maternity and infant care. In an effort to minimize the reliance on human resources for performance evaluation, we offer off-the-shelf judgment models for automatically assessing the LF output of LLMs given benchmark questions. Moreover, we compare potential solutions for LF generation evaluation and provide insights for building better automated metrics. | 翻訳日:2023-10-28 01:17:10 公開日:2023-10-26 |
# コンテンツと行動の理解、シミュレート、最適化のための大規模コンテンツと行動モデル Large Content And Behavior Models To Understand, Simulate, And Optimize Content And Behavior ( http://arxiv.org/abs/2309.00359v3 ) ライセンス: Link先を確認 | Ashmit Khandelwal, Aditya Agrawal, Aanisha Bhattacharyya, Yaman K Singla, Somesh Singh, Uttaran Bhattacharya, Ishita Dasgupta, Stefano Petrangeli, Rajiv Ratn Shah, Changyou Chen, Balaji Krishnamurthy | (参考訳) シャノンは情報理論を紹介する論文の中で、コミュニケーションを技術、意味、効力の3つのレベルに分けた。
技術レベルは送信されたシンボルの正確な再構築に関係しているが、意味的および有効性レベルは推測された意味とその受信者への影響を扱う。
通信のおかげで、第一段階の問題はインターネットのような大きな進歩をもたらした。
大きな言語モデル(LLM)は第2の目標に向かって多少前進するが、第3のレベルはまだほとんど触れられていない。
第3の問題は、望ましい受信者の行動に対する通信の予測と最適化である。
LLMは、幅広いタスクにわたって広範な一般化能力を示すが、そのためには解決できない。
パフォーマンスが低かった理由のひとつは、llmsのトレーニングコーポラに‘behavior tokens’がないことにある。
行動トークンは、共有、いいね!、クリック、購入、リツイートなど、コミュニケーション上の受信者の行動を定義する。
LLMトレーニングのための事前処理データに対して、振る舞いトークンはノイズとしてコーパスから取り除かれることが多い。
そこで本稿では,llm訓練における行動トークンの再導入に向けた最初の進歩について述べる。
訓練されたモデルは、コンテンツ理解タスクでllmと同様の性能を示すこと以外は、行動シミュレーション、コンテンツシミュレーション、行動理解、行動ドメイン適応に関する一般化能力を示す。
2つのコーパス上の幅広いタスクを用いて、これらの機能について結果を示す。
これらのモデルをLCBM(Large Content and Behavior Models)と呼ぶ。
さらに,LCBMのさらなる研究を促進するため,コミュニケータ,メッセージ,対応する受信者行動を含むリポジトリであるCBC(Content Behavior Corpus)を新たにリリースした。 Shannon, in his seminal paper introducing information theory, divided the communication into three levels: technical, semantic, and effectivenss. While the technical level is concerned with accurate reconstruction of transmitted symbols, the semantic and effectiveness levels deal with the inferred meaning and its effect on the receiver. Thanks to telecommunications, the first level problem has produced great advances like the internet. Large Language Models (LLMs) make some progress towards the second goal, but the third level still remains largely untouched. The third problem deals with predicting and optimizing communication for desired receiver behavior. LLMs, while showing wide generalization capabilities across a wide range of tasks, are unable to solve for this. One reason for the underperformance could be a lack of ``behavior tokens'' in LLMs' training corpora. Behavior tokens define receiver behavior over a communication, such as shares, likes, clicks, purchases, retweets, etc. While preprocessing data for LLM training, behavior tokens are often removed from the corpora as noise. Therefore, in this paper, we make some initial progress towards reintroducing behavior tokens in LLM training. The trained models, other than showing similar performance to LLMs on content understanding tasks, show generalization capabilities on behavior simulation, content simulation, behavior understanding, and behavior domain adaptation. Using a wide range of tasks on two corpora, we show results on all these capabilities. We call these models Large Content and Behavior Models (LCBMs). Further, to spur more research on LCBMs, we release our new Content Behavior Corpus (CBC), a repository containing communicator, message, and corresponding receiver behavior. | 翻訳日:2023-10-28 01:07:48 公開日:2023-10-26 |
# LLMによる交通信号制御のためのSim-to-real転送 LLM Powered Sim-to-real Transfer for Traffic Signal Control ( http://arxiv.org/abs/2308.14284v3 ) ライセンス: Link先を確認 | Longchao Da, Minchiuan Gao, Hao Mei, Hua Wei | (参考訳) 交通信号制御(TSC)の課題に対して,効率的な輸送と渋滞の軽減を目的とした多くの解決策が提案されている。
近年,シミュレータの試行錯誤による強化学習 (Reinforcement Learning, RL) 手法によって有望な結果が得られ,都市での混雑頭痛の解決に自信が持たれている。
しかし、シミュレータ訓練されたポリシーが現実世界にデプロイされる際には、まだパフォーマンスのギャップが残っている。
この問題は主に、トレーニングシミュレータと実環境とのシステムの動的差異によって引き起こされる。
大規模言語モデル(LLM)は大量知識に基づいて訓練されており、驚くべき推論能力を備えていることが判明した。
本研究では,llmを利用して,プロンプトベースの接地行動変換によるシステムダイナミクスの理解とプロファイルを行う。
クローズプロンプトテンプレートを受信し、アクセス可能なコンテキストに基づいて回答を入力し、事前学習したLCMの推論能力を利用して、気象条件、交通状況、道路タイプが交通力学にどのように影響するかを理解し、これを認識し、現実的なダイナミクスに基づいてポリシーのアクションを取り込み、グラウンドドするので、エージェントはより現実的なポリシーを学ぶのに役立つ。
我々はDQNを用いてシミュレーションから現実(シミュレート・トゥ・リアル)までの性能ギャップを緩和するPromptGATの有効性を示す実験を行った。 Numerous solutions are proposed for the Traffic Signal Control (TSC) tasks aiming to provide efficient transportation and mitigate congestion waste. In recent, promising results have been attained by Reinforcement Learning (RL) methods through trial and error in simulators, bringing confidence in solving cities' congestion headaches. However, there still exist performance gaps when simulator-trained policies are deployed to the real world. This issue is mainly introduced by the system dynamic difference between the training simulator and the real-world environments. The Large Language Models (LLMs) are trained on mass knowledge and proved to be equipped with astonishing inference abilities. In this work, we leverage LLMs to understand and profile the system dynamics by a prompt-based grounded action transformation. Accepting the cloze prompt template, and then filling in the answer based on accessible context, the pre-trained LLM's inference ability is exploited and applied to understand how weather conditions, traffic states, and road types influence traffic dynamics, being aware of this, the policies' action is taken and grounded based on realistic dynamics, thus help the agent learn a more realistic policy. We conduct experiments using DQN to show the effectiveness of the proposed PromptGAT's ability in mitigating the performance gap from simulation to reality (sim-to-real). | 翻訳日:2023-10-28 01:07:22 公開日:2023-10-26 |
# 高速利得変調と低シナプス可塑性による適応的白化 Adaptive whitening with fast gain modulation and slow synaptic plasticity ( http://arxiv.org/abs/2308.13633v2 ) ライセンス: Link先を確認 | Lyndon R. Duong, Eero P. Simoncelli, Dmitri B. Chklovskii, David Lipshutz | (参考訳) 初期の感覚領域のニューロンは、個々の反応の偏りを正規化し、反応間の相関を減少させることによって、感覚統計の変化に迅速に適応する。
同時に、これらの変換は統計的白化の適応形式と見なすことができる。
既存のアダプティブ・ホワイトニングの機械モデルでは、適応のための生体基質としてシナプス可塑性またはゲイン変調のみを用いるが、それぞれにかなりの制限がある。
本研究では,これらのアプローチを,シナプス可塑性と変調の相補的な計算的役割で適応的に応答を白くする,規範的マルチ時間力学モデルで統一する。
ゲインは現在の統計的文脈に適応するために速い時間スケールで修正されるが、シナプスは、コンテキスト間で不変な入力統計の構造的性質にマッチするように遅い時間スケールで修正される。
本モデルは、逆ホワイトニング行列をシナプス重みに対応する基底ベクトルと、ニューロンの利得に対応する対角行列に分解する、新しい多時間スケールホワイトニング目的から導出したものである。
我々は合成データセットと自然データセットを用いて本モデルを検証し,Grey modulationを用いて短時間で適応的な白化を実現するために,長期にわたって最適な構成を学習することを発見した。 Neurons in early sensory areas rapidly adapt to changing sensory statistics, both by normalizing the variance of their individual responses and by reducing correlations between their responses. Together, these transformations may be viewed as an adaptive form of statistical whitening. Existing mechanistic models of adaptive whitening exclusively use either synaptic plasticity or gain modulation as the biological substrate for adaptation; however, on their own, each of these models has significant limitations. In this work, we unify these approaches in a normative multi-timescale mechanistic model that adaptively whitens its responses with complementary computational roles for synaptic plasticity and gain modulation. Gains are modified on a fast timescale to adapt to the current statistical context, whereas synapses are modified on a slow timescale to match structural properties of the input statistics that are invariant across contexts. Our model is derived from a novel multi-timescale whitening objective that factorizes the inverse whitening matrix into basis vectors, which correspond to synaptic weights, and a diagonal matrix, which corresponds to neuronal gains. We test our model on synthetic and natural datasets and find that the synapses learn optimal configurations over long timescales that enable adaptive whitening on short timescales using gain modulation. | 翻訳日:2023-10-28 01:06:57 公開日:2023-10-26 |
# 言語と方言間の血縁関係の語彙的多様性 Lexical Diversity in Kinship Across Languages and Dialects ( http://arxiv.org/abs/2308.13056v2 ) ライセンス: Link先を確認 | Hadi Khalilia, G\'abor Bella, Abed Alhakim Freihat, Shandy Darma, Fausto Giunchiglia | (参考訳) 言語は様々な方法で世界を記述することが知られている。
語彙全体にわたって多様性は広がり、語彙的ギャップや非翻訳性のような現象を通して現れる。
しかし、多言語語彙データベースのような計算資源では、多様性はほとんど表現されない。
本稿では,言語多様性に関する内容の計算レキシコンを充実させる手法を提案する。
1つのケーススタディは7つのアラビア語方言を扱っており、もう1つのケーススタディは3つのインドネシア語を扱っている。
本研究は, 閲覧可能かつダウンロード可能な計算資源として提供され, キンシップ用語に関する先行言語研究を拡張し, 言語的および文化的に密接なコミュニティにおいても多様性の範囲に関する洞察を提供する。 Languages are known to describe the world in diverse ways. Across lexicons, diversity is pervasive, appearing through phenomena such as lexical gaps and untranslatability. However, in computational resources, such as multilingual lexical databases, diversity is hardly ever represented. In this paper, we introduce a method to enrich computational lexicons with content relating to linguistic diversity. The method is verified through two large-scale case studies on kinship terminology, a domain known to be diverse across languages and cultures: one case study deals with seven Arabic dialects, while the other one with three Indonesian languages. Our results, made available as browseable and downloadable computational resources, extend prior linguistics research on kinship terminology, and provide insight into the extent of diversity even within linguistically and culturally close communities. | 翻訳日:2023-10-28 01:06:33 公開日:2023-10-26 |
# 事前知識を用いたコミット分類のためのプロンプトチューニングの導入 Incorprating Prompt tuning for Commit classification with prior Knowledge ( http://arxiv.org/abs/2308.10576v2 ) ライセンス: Link先を確認 | Jiajun Tong, Xiaobin Rui | (参考訳) コミット分類(CC)は、ソフトウェア開発者がコードの変更をその性質と目的に応じて異なるタイプに分類するのを助けるため、ソフトウェアのメンテナンスにおいて重要なタスクである。
これにより、開発作業の進捗をよりよく理解し、改善が必要な領域を特定します。
しかしながら、既存のメソッドはすべて識別モデルであり、通常はクラスラベルの確率を生成するために出力層を追加する複雑なアーキテクチャを持つ。
さらに、細調整には大量のラベル付きデータが必要であり、ラベル付きデータに制限がある場合、効果的な分類境界を学習することは困難である。
本稿では,先行知識(ipck)https://github.com/applemax1992/ipckを用いたコミット分類のためのプロンプトチューニングを組み込んだ生成フレームワークを提案する。
限られたサンプルだけでSOTAのパフォーマンスに到達できます。
まず,T5に基づく生成フレームワークを提案する。
異なるccタスクをtext2text問題に統一し、余分な出力層を必要とせず、モデルの構造を単純化するエンコーダ−デコーダ構築方法。
第二に、微調整の代わりに、限られたサンプルしか持たない数ショットシナリオで適用可能なプロンプトチューニングソリューションを設計する。
さらに,外部知識グラフによる事前知識を組み込んで,音声機械ステップの最終的なラベルに単語の確率をマッピングし,少ないシナリオでの性能を向上させる。
2つのオープンデータセットに対する大規模な実験は、我々のフレームワークがCCの問題をシンプルだが効果的に、数ショットとゼロショットのシナリオで解決できることを示している。 Commit Classification(CC) is an important task in software maintenance since it helps software developers classify code changes into different types according to their nature and purpose. This allows them to better understand how their development efforts are progressing, identify areas where they need improvement. However, existing methods are all discriminative models, usually with complex architectures that require additional output layers to produce class label probabilities. Moreover, they require a large amount of labeled data for fine-tuning, and it is difficult to learn effective classification boundaries in the case of limited labeled data. To solve above problems, we propose a generative framework that Incorporating prompt-tuning for commit classification with prior knowledge (IPCK) https://github.com/AppleMax1992/IPCK, which simplifies the model structure and learns features across different tasks. It can still reach the SOTA performance with only limited samples. Firstly, we proposed a generative framework based on T5. This encoder-decoder construction method unifies different CC task into a text2text problem, which simplifies the structure of the model by not requiring an extra output layer. Second, instead of fine-tuning, we design an prompt-tuning solution which can be adopted in few-shot scenarios with only limit samples. Furthermore, we incorporate prior knowledge via an external knowledge graph to map the probabilities of words into the final labels in the speech machine step to improve performance in few-shot scenarios. Extensive experiments on two open available datasets show that our framework can solve the CC problem simply but effectively in few-shot and zeroshot scenarios, while improving the adaptability of the model without requiring a large amount of training samples for fine-tuning. | 翻訳日:2023-10-28 01:06:21 公開日:2023-10-26 |
# DDF-HO:条件方向距離場を用いたハンドヘルド物体再構成 DDF-HO: Hand-Held Object Reconstruction via Conditional Directed Distance Field ( http://arxiv.org/abs/2308.08231v3 ) ライセンス: Link先を確認 | Chenyangguang Zhang, Yan Di, Ruida Zhang, Guangyao Zhai, Fabian Manhardt, Federico Tombari and Xiangyang Ji | (参考訳) 単一のRGB画像からハンドヘルドオブジェクトを再構築することは重要かつ困難な問題である。
署名距離場 (Signed Distance Fields, SDF) を利用した既存の作業では, SDF はターゲット近傍でのみ信頼性が高いため, 局所的な手とオブジェクトのキューを同時に符号化することができないため, 複雑な手-物体の相互作用を包括的に捕捉する限界が明らかにされている。
そこで本研究では,DDF(Directed Distance Field)を形状表現として活用した新しいアプローチであるDDF-HOを提案する。
sdfと異なり、ddfは原点と方向からなる3次元空間の光線を対応するddf値にマッピングし、その光線が物体と交わるかどうかを判定するバイナリ可視信号と、原点から目標までの距離を測定する距離値とを含む。
我々はランダムに複数の光線をサンプリングし、新しい2D線に基づく特徴集約スキームと3D交叉対応の手ポーズ埋め込みを導入し、2D-3D特徴とハンドオブジェクトの相互作用をモデル化することで、局所的・グローバルな幾何学的特徴を収集する。
合成および実世界のデータセットに関する大規模な実験により、DFF-HOは、特にChamfer Distanceの下では、すべてのベースラインメソッドを一貫して上回り、約80%が前進している。
コードはhttps://github.com/ZhangCYG/DDFHOで入手できる。 Reconstructing hand-held objects from a single RGB image is an important and challenging problem. Existing works utilizing Signed Distance Fields (SDF) reveal limitations in comprehensively capturing the complex hand-object interactions, since SDF is only reliable within the proximity of the target, and hence, infeasible to simultaneously encode local hand and object cues. To address this issue, we propose DDF-HO, a novel approach leveraging Directed Distance Field (DDF) as the shape representation. Unlike SDF, DDF maps a ray in 3D space, consisting of an origin and a direction, to corresponding DDF values, including a binary visibility signal determining whether the ray intersects the objects and a distance value measuring the distance from origin to target in the given direction. We randomly sample multiple rays and collect local to global geometric features for them by introducing a novel 2D ray-based feature aggregation scheme and a 3D intersection-aware hand pose embedding, combining 2D-3D features to model hand-object interactions. Extensive experiments on synthetic and real-world datasets demonstrate that DDF-HO consistently outperforms all baseline methods by a large margin, especially under Chamfer Distance, with about 80% leap forward. Codes are available at https://github.com/ZhangCYG/DDFHO. | 翻訳日:2023-10-28 01:05:52 公開日:2023-10-26 |
# WaveNeRF:ウェーブレットに基づく一般化可能なニューラルラジアンス場 WaveNeRF: Wavelet-based Generalizable Neural Radiance Fields ( http://arxiv.org/abs/2308.04826v2 ) ライセンス: Link先を確認 | Muyu Xu, Fangneng Zhan, Jiahui Zhang, Yingchen Yu, Xiaoqin Zhang, Christian Theobalt, Ling Shao and Shijian Lu | (参考訳) neural radiance field (nerf) は暗黙的なシーン表現による新しいビュー合成において印象的な性能を示している。
しかし、通常、新しいシーンごとに密度の高いサンプル画像を必要とするため、スケーラビリティの低下に悩まされる。
いくつかの研究は、マルチビューステレオ(mvs)技術をnerfに統合することでこの問題を軽減することを試みているが、新しいシーンの微調整プロセスは複雑である。
特に、この微調整プロセスなしでレンダリング品質が著しく低下し、エラーは主に高周波の特徴を中心に現れる。
この観測結果から,ウェーブレット周波数分解をMVSとNeRFに統合したWaveNeRFを設計し,シーンごとの最適化を行うことなく,一般化可能ながら高品質な合成を実現する。
3D特徴量を生成する際に高周波情報を保存するために、WaveNeRFは、離散ウェーブレット変換を古典カスケードMVSに統合し、ウェーブレット領域にマルチビューステレオを構築する。
これにより、新しいハイブリッド・ニューラル・レンダラーを介して古典的NeRFに絡み合った周波数特徴を注入して忠実な高周波の詳細を得ることができ、高周波領域周辺のアーティファクトを抑えるために直感的な周波数誘導サンプリング戦略を設計することができる。
広範に研究された3つのベンチマーク実験により、WaveNeRFは3つの画像のみを入力として与えた場合に、より優れた一般化可能な放射場モデリングを実現することが示された。 Neural Radiance Field (NeRF) has shown impressive performance in novel view synthesis via implicit scene representation. However, it usually suffers from poor scalability as requiring densely sampled images for each new scene. Several studies have attempted to mitigate this problem by integrating Multi-View Stereo (MVS) technique into NeRF while they still entail a cumbersome fine-tuning process for new scenes. Notably, the rendering quality will drop severely without this fine-tuning process and the errors mainly appear around the high-frequency features. In the light of this observation, we design WaveNeRF, which integrates wavelet frequency decomposition into MVS and NeRF to achieve generalizable yet high-quality synthesis without any per-scene optimization. To preserve high-frequency information when generating 3D feature volumes, WaveNeRF builds Multi-View Stereo in the Wavelet domain by integrating the discrete wavelet transform into the classical cascade MVS, which disentangles high-frequency information explicitly. With that, disentangled frequency features can be injected into classic NeRF via a novel hybrid neural renderer to yield faithful high-frequency details, and an intuitive frequency-guided sampling strategy can be designed to suppress artifacts around high-frequency regions. Extensive experiments over three widely studied benchmarks show that WaveNeRF achieves superior generalizable radiance field modeling when only given three images as input. | 翻訳日:2023-10-28 01:05:10 公開日:2023-10-26 |
# 医療対話情報抽出のための知識強化二段階生成枠組み A Knowledge-enhanced Two-stage Generative Framework for Medical Dialogue Information Extraction ( http://arxiv.org/abs/2307.16200v3 ) ライセンス: Link先を確認 | Zefa Hu, Ziyi Ni, Jing Shi, Shuang Xu, Bo Xu | (参考訳) 本稿では,診断対話システムや電子カルテの自動作成システム(emrs)において不可欠な医療対話(md-tspe)からの用語対抽出について述べる。
過去数年間、md-tspeの研究は、特に生成的手法による顕著な進歩の後、研究の注目を集めている。
しかし、これらの生成手法は、項-統計対からなる全シーケンスを1段階で出力し、先行知識の統合を無視し、項間の関係をモデル化し、各項の状態を予測することを要求する。
本稿では、上記の課題に対処するため、知識強化二段階生成フレームワーク(KTGF)を提案する。
タスク固有のプロンプトを用いて、MD-TSPEを2つのフェーズで統合した生成形式で完了させる単一モデルを用いて、まず全ての項を生成し、次に生成された各項の状態を生成する。
このようにして、第1相の項のみを含むシーケンスから、項間の関係をより効果的に学習することができ、第2相の知識強化プロンプトは、生成した項のカテゴリおよびステータス候補をステータス生成に活用することができる。
さらに,提案する特別ステータス"not mentioned"は,低リソース設定において重要な第2フェーズにおいて,より多くの用語を利用可能とし,トレーニングデータを充実させる。
中入・CMDDデータセットを用いた実験により,提案手法は,フルトレーニングおよび低リソース設定における最先端モデルと比較して,優れた結果が得られることが示された。 This paper focuses on term-status pair extraction from medical dialogues (MD-TSPE), which is essential in diagnosis dialogue systems and the automatic scribe of electronic medical records (EMRs). In the past few years, works on MD-TSPE have attracted increasing research attention, especially after the remarkable progress made by generative methods. However, these generative methods output a whole sequence consisting of term-status pairs in one stage and ignore integrating prior knowledge, which demands a deeper understanding to model the relationship between terms and infer the status of each term. This paper presents a knowledge-enhanced two-stage generative framework (KTGF) to address the above challenges. Using task-specific prompts, we employ a single model to complete the MD-TSPE through two phases in a unified generative form: we generate all terms the first and then generate the status of each generated term. In this way, the relationship between terms can be learned more effectively from the sequence containing only terms in the first phase, and our designed knowledge-enhanced prompt in the second phase can leverage the category and status candidates of the generated term for status generation. Furthermore, our proposed special status "not mentioned" makes more terms available and enriches the training data in the second phase, which is critical in the low-resource setting. The experiments on the Chunyu and CMDD datasets show that the proposed method achieves superior results compared to the state-of-the-art models in the full training and low-resource settings. | 翻訳日:2023-10-28 01:04:44 公開日:2023-10-26 |
# 言語に基づく行動概念空間は自己指導型学習を改善する Language-based Action Concept Spaces Improve Video Self-Supervised Learning ( http://arxiv.org/abs/2307.10922v3 ) ライセンス: Link先を確認 | Kanchana Ranasinghe and Michael Ryoo | (参考訳) 最近のコントラスト言語画像事前学習は、高度に転送可能で堅牢な画像表現の学習につながっている。
しかし、これらのモデルを最小限の監督でビデオドメインに適応させることは、まだ未解決の問題である。
画像CLIPモデルをビデオ領域に適応させるために,言語による自己教師型学習を用いて,その方向への簡単なステップを探索する。
時間的モデリングのために修正されたバックボーンは、アクションコンセプト空間で動作する列車の目的と自己蒸留設定の下で訓練される。
関連するテキストプロンプトを用いて言語エンコーダから抽出した様々なアクション概念の特徴ベクトルがこの空間を構成する。
本稿では, 従来の表現の汎用性を保ちつつ, 動作と属性の関係を強制する, 概念蒸留と概念アライメントという2つの列車目標を紹介する。
提案手法は3つの行動認識ベンチマークにおいてゼロショットおよび線形探索性能を向上させる。 Recent contrastive language image pre-training has led to learning highly transferable and robust image representations. However, adapting these models to video domains with minimal supervision remains an open problem. We explore a simple step in that direction, using language tied self-supervised learning to adapt an image CLIP model to the video domain. A backbone modified for temporal modeling is trained under self-distillation settings with train objectives operating in an action concept space. Feature vectors of various action concepts extracted from a language encoder using relevant textual prompts construct this space. We introduce two train objectives, concept distillation and concept alignment, that retain generality of original representations while enforcing relations between actions and their attributes. Our approach improves zero-shot and linear probing performance on three action recognition benchmarks. | 翻訳日:2023-10-28 01:04:21 公開日:2023-10-26 |
# 放射線医学レポートのための多言語自然言語処理モデル -要約は必要なすべてです! Multilingual Natural Language Processing Model for Radiology Reports -- The Summary is all you need! ( http://arxiv.org/abs/2310.00100v3 ) ライセンス: Link先を確認 | Mariana Lindo, Ana Sofia Santos, Andr\'e Ferreira, Jianning Li, Gijs Luijten, Gustavo Correia, Moon Kim, Jens Kleesiek, Jan Egger and Victor Alves | (参考訳) 放射線医学レポートのインプレッションセクションは重要なx線学的所見を要約し、これらの発見を医師に伝える上で重要な役割を担っている。
しかし,これらのサマリーの調製には時間がかかり,放射線技師のミスが生じる。
近年,放射線学報告要約モデルが多数開発されている。
それでも、これらのレポートを複数の言語で要約できるモデルは存在しない。
このようなモデルは、異なる民族的背景を持つ患者のデータを含むディープラーニングモデルの開発と将来の研究を大幅に改善する可能性がある。
本研究では,英語,ポルトガル語,ドイツ語の放射線学レポートを要約した多言語テキスト・トゥ・テキスト・トランスフォーマーを用いて,様々な言語における放射線学印象の生成を微調整して自動化した。
ブラインドテストでは、2人のボード認定放射線科医が、システムで生成されたサマリーの少なくとも70%において、品質は対応するサマリーと一致または上回っており、実質的な臨床信頼性が示唆された。
さらに,多言語モデルでは1つの言語でのみ放射線報告書を要約する他のモデルや,chatgptのような放射線報告書を要約するために特別に設計されたモデルよりも優れていた。 The impression section of a radiology report summarizes important radiology findings and plays a critical role in communicating these findings to physicians. However, the preparation of these summaries is time-consuming and error-prone for radiologists. Recently, numerous models for radiology report summarization have been developed. Nevertheless, there is currently no model that can summarize these reports in multiple languages. Such a model could greatly improve future research and the development of Deep Learning models that incorporate data from patients with different ethnic backgrounds. In this study, the generation of radiology impressions in different languages was automated by fine-tuning a model, publicly available, based on a multilingual text-to-text Transformer to summarize findings available in English, Portuguese, and German radiology reports. In a blind test, two board-certified radiologists indicated that for at least 70% of the system-generated summaries, the quality matched or exceeded the corresponding human-written summaries, suggesting substantial clinical reliability. Furthermore, this study showed that the multilingual model outperformed other models that specialized in summarizing radiology reports in only one language, as well as models that were not specifically designed for summarizing radiology reports, such as ChatGPT. | 翻訳日:2023-10-28 00:58:48 公開日:2023-10-26 |
# cofii2p: イメージからポイントへのクラウド登録のための粗粒度対応 CoFiI2P: Coarse-to-Fine Correspondences for Image-to-Point Cloud Registration ( http://arxiv.org/abs/2309.14660v2 ) ライセンス: Link先を確認 | Shuhao Kang, Youqi Liao, Jianping Li, Fuxun Liang, Yuhao Li, Fangning Li, Zhen Dong, Bisheng Yang | (参考訳) image-to-point cloud (i2p)登録は、クロスモダリティデータ融合とローカライズのための自動運転車と輸送システムの分野で基本的なタスクである。
既存のI2P登録手法は、しばしばグローバルアライメントを見越して、ポイント/ピクセルレベルで対応を推定する。
しかし、i2pマッチングは、グローバル制約からの高レベルなガイダンスがなければ、容易に局所最適に収束することができる。
この問題に対処するために,グローバルな最適解を実現するために,粗大な方法で対応を抽出する新しいI2P登録ネットワークであるCoFiI2Pを紹介する。
まず、画像と点雲データをシームズエンコーダデコーダネットワークを介して処理し、階層的特徴抽出を行う。
第二に、これらの特徴を活用し、堅牢な特徴対応を確立するために、粗大なマッチングモジュールが設計されている。
具体的には、粗いマッチングフェーズにおいて、画像と点クラウドデータから均一なグローバル情報と不均一なグローバル情報の両方をキャプチャするために、新しいI2Pトランスフォーマーモジュールを用いる。
これにより、識別記述子との粗いスーパーポイント/スーパーピクセルマッチングペアを推定できる。
ファインマッチングモジュールでは、スーパーポイント/スーパーピクセル対応のガイダンスにより、ポイント/ピクセルペアが確立される。
最後に、一致するペアに基づいて、変換行列をEPnP-RANSACアルゴリズムで推定する。
KITTIデータセットで実施された大規模な実験により、CoFiI2Pは1.14度の相対回転誤差(RRE)と0.29mの相対翻訳誤差(RTE)で印象的な結果が得られることが示された。
これらの結果は, 現状技術(SOTA)法と比較して, RRE 84 %, RTE 89 % の大幅な改善を示した。
質的な結果はhttps://youtu.be/ovbedasXuZEで確認できる。
ソースコードはhttps://github.com/kang-1-2-3/CoFiI2Pで公開される。 Image-to-point cloud (I2P) registration is a fundamental task in the field of autonomous vehicles and transportation systems for cross-modality data fusion and localization. Existing I2P registration methods estimate correspondences at the point/pixel level, often overlooking global alignment. However, I2P matching can easily converge to a local optimum when performed without high-level guidance from global constraints. To address this issue, this paper introduces CoFiI2P, a novel I2P registration network that extracts correspondences in a coarse-to-fine manner to achieve the globally optimal solution. First, the image and point cloud data are processed through a Siamese encoder-decoder network for hierarchical feature extraction. Second, a coarse-to-fine matching module is designed to leverage these features and establish robust feature correspondences. Specifically, In the coarse matching phase, a novel I2P transformer module is employed to capture both homogeneous and heterogeneous global information from the image and point cloud data. This enables the estimation of coarse super-point/super-pixel matching pairs with discriminative descriptors. In the fine matching module, point/pixel pairs are established with the guidance of super-point/super-pixel correspondences. Finally, based on matching pairs, the transform matrix is estimated with the EPnP-RANSAC algorithm. Extensive experiments conducted on the KITTI dataset demonstrate that CoFiI2P achieves impressive results, with a relative rotation error (RRE) of 1.14 degrees and a relative translation error (RTE) of 0.29 meters. These results represent a significant improvement of 84\% in RRE and 89\% in RTE compared to the current state-of-the-art (SOTA) method. Qualitative results are available at https://youtu.be/ovbedasXuZE. The source code will be publicly released at https://github.com/kang-1-2-3/CoFiI2P. | 翻訳日:2023-10-28 00:58:28 公開日:2023-10-26 |
# モーダリティにおけるマルチモードトークンレベルプロンプトアライメントのチューニング Tuning Multi-mode Token-level Prompt Alignment across Modalities ( http://arxiv.org/abs/2309.13847v2 ) ライセンス: Link先を確認 | Dongsheng Wang, Miaoge Li, Xinyang Liu, MingSheng Xu, Bo Chen, Hanwang Zhang | (参考訳) 視覚言語モデルの迅速なチューニングの進歩は、オープンワールドの視覚概念理解を強化する可能性を強調している。
しかしながら、先行研究は主にシングルモード(各モダリティに対して1つのプロンプトのみ)と全体レベル(画像または文)のセマンティクスアライメントにのみ焦点が当てられ、サンプルの多様性を捉えられず、最適でないプロンプト発見に繋がる。
この制限に対処するために,モダリティ間のプロンプトトークンの集合を学習・調整するために最適な輸送手段を利用するマルチモードトークンレベルチューニングフレームワークを提案する。
具体的には2つの重要な要素に依存しています
1)多モードは多様な意味表現を保証する発見を促す。
2)細かな類似性を探求するトークンレベルのアライメント。
したがって、相似性はモダリティ固有の集合間の階層輸送問題として計算することができる。
一般的な画像認識ベンチマークに関する広範囲な実験は,提案手法の優れた一般化と少ない撮影能力を示している。
質的分析は、学習されたプロンプトトークンが多様な視覚概念をキャプチャする能力を持っていることを示している。 Advancements in prompt tuning of vision-language models have underscored their potential in enhancing open-world visual concept comprehension. However, prior works only primarily focus on single-mode (only one prompt for each modality) and holistic level (image or sentence) semantic alignment, which fails to capture the sample diversity, leading to sub-optimal prompt discovery. To address the limitation, we propose a multi-mode token-level tuning framework that leverages the optimal transportation to learn and align a set of prompt tokens across modalities. Specifically, we rely on two essential factors: 1) multi-mode prompts discovery, which guarantees diverse semantic representations, and 2) token-level alignment, which helps explore fine-grained similarity. Consequently, the similarity can be calculated as a hierarchical transportation problem between the modality-specific sets. Extensive experiments on popular image recognition benchmarks show the superior generalization and few-shot abilities of our approach. The qualitative analysis demonstrates that the learned prompt tokens have the ability to capture diverse visual concepts. | 翻訳日:2023-10-28 00:57:36 公開日:2023-10-26 |
# 咬合下の3次元関節物体操作のための学習環境 Learning Environment-Aware Affordance for 3D Articulated Object Manipulation under Occlusions ( http://arxiv.org/abs/2309.07510v3 ) ライセンス: Link先を確認 | Ruihai Wu, Kai Cheng, Yan Shen, Chuanruo Ning, Guanqi Zhan, Hao Dong | (参考訳) 多様な環境における3次元関節物体の知覚と操作は, ロボットにとって不可欠である。
近年の研究では、ポイントレベルのアフォーダンスが下流操作タスクに実行可能な事前設定を提供していることが示されている。
しかし、既存の研究は主に、環境によって課される現実的な制約やエージェントの形態、例えばオクルージョンや物理的な制限を見渡す、均質なエージェントによる単一対象シナリオに焦点を当てている。
本稿では,オブジェクトレベルの動作可能なプリミティブと環境制約の両方を組み込んだ環境対応アプライアンスフレームワークを提案する。
オブジェクト中心のアフォーダンスアプローチとは異なり、学習環境を意識したアフォーダンスは、様々なオクルージョンの複雑さのために、その量、ジオメトリ、位置、ポーズによって特徴付けられる組合せ爆発の課題に直面している。
そこで本研究では,1つのオクルーダーを含むシーンを訓練し,複雑なオクルーダーの組み合わせを持つシーンに一般化できる,新しいコントラスト・アフォーアンス学習フレームワークを提案する。
環境制約を考慮した学習における提案手法の有効性を示す実験を行った。
プロジェクトページ: https://chengkaiacademycity.github.io/envawareafford/ Perceiving and manipulating 3D articulated objects in diverse environments is essential for home-assistant robots. Recent studies have shown that point-level affordance provides actionable priors for downstream manipulation tasks. However, existing works primarily focus on single-object scenarios with homogeneous agents, overlooking the realistic constraints imposed by the environment and the agent's morphology, e.g., occlusions and physical limitations. In this paper, we propose an environment-aware affordance framework that incorporates both object-level actionable priors and environment constraints. Unlike object-centric affordance approaches, learning environment-aware affordance faces the challenge of combinatorial explosion due to the complexity of various occlusions, characterized by their quantities, geometries, positions and poses. To address this and enhance data efficiency, we introduce a novel contrastive affordance learning framework capable of training on scenes containing a single occluder and generalizing to scenes with complex occluder combinations. Experiments demonstrate the effectiveness of our proposed approach in learning affordance considering environment constraints. Project page at https://chengkaiacademycity.github.io/EnvAwareAfford/ | 翻訳日:2023-10-28 00:56:57 公開日:2023-10-26 |
# chitnet:赤外線と可視画像融合のための調和型情報転送ネットワーク CHITNet: A Complementary to Harmonious Information Transfer Network for Infrared and Visible Image Fusion ( http://arxiv.org/abs/2309.06118v5 ) ライセンス: Link先を確認 | Yafei Zhang, Keying Du, Huafeng Li, Zhengtao Yu, Yu Liu | (参考訳) 現在の赤外線および可視画像融合法(IVIF)は、相補的な特徴を発掘し、複雑な融合戦略を設計するのに非常に困難である。
この目的のために、ボックス外でIVIFを再考し、調和した情報伝達ネットワーク(CHITNet)を補完することを提案する。
相補的情報を調和したものに合理的に転送し、2つのモダリティから相補的特徴の両方を統合する。
具体的には、ivifにおける補完情報を巧みに集約するために、2つのモダリティから特徴を相互に表現する相互情報転送(mit)モジュールを設計、補完情報を概ね調和情報に変換する。
そして、ソース画像(HIASSI)モジュールによって管理される調和情報取得を考案し、MIT以降の調和情報伝達の補間をさらに確実にする。
また,ソース画像のエッジ構造情報を融合結果に転送可能であることを保証する構造情報保存(sip)モジュールを提案する。
さらに,MIT,HIASSI,SIPの連携を促進するために,相互促進訓練パラダイム(MPTP)が採用されている。
このようにして,提案手法は,高い品質の融合画像を生成することができる。
広範に実験した結果,視覚品質と定量的評価の観点から,最先端アルゴリズムよりもキトネットが優れていることが示された。 Current infrared and visible image fusion (IVIF) methods go to great lengths to excavate complementary features and design complex fusion strategies, which is extremely challenging. To this end, we rethink the IVIF outside the box, proposing a complementary to harmonious information transfer network (CHITNet). It reasonably transfers complementary information into harmonious one, which integrates both the shared and complementary features from two modalities. Specifically, to skillfully sidestep aggregating complementary information in IVIF, we design a mutual information transfer (MIT) module to mutually represent features from two modalities, roughly transferring complementary information into harmonious one. Then, a harmonious information acquisition supervised by source image (HIASSI) module is devised to further ensure the complementary to harmonious information transfer after MIT. Meanwhile, we also propose a structure information preservation (SIP) module to guarantee that the edge structure information of the source images can be transferred to the fusion results. Moreover, a mutual promotion training paradigm (MPTP) with interaction loss is adopted to facilitate better collaboration among MIT, HIASSI and SIP. In this way, the proposed method is able to generate fused images with higher qualities. Extensive experimental results demonstrate the superiority of our CHITNet over state-of-the-art algorithms in terms of visual quality and quantitative evaluations. | 翻訳日:2023-10-28 00:56:39 公開日:2023-10-26 |
# ChatGPTについて公共の懸念は?
自己監督型ニューラルトピックモデル What are Public Concerns about ChatGPT? A Novel Self-Supervised Neural Topic Model Tells You ( http://arxiv.org/abs/2309.01522v2 ) ライセンス: Link先を確認 | Rui Wang, Xing Liu, Yanan Wang and Haiping Huang | (参考訳) 最近リリースされた人工知能対話エージェントのchatgptは、学界や実生活で注目を集めている。
初期のChatGPTユーザーは、その能力を熱心に探求し、ソーシャルメディアを通じて意見を共有している。
ユーザクエリとソーシャルメディア投稿はどちらも、この高度な対話システムに関する公衆の懸念を表明している。
本論文では,chatgptに関する一般の関心を喚起するために,トピックモデリングを表現学習手順として定式化する,新しい自己教師付き神経話題モデル(sstm)を提案する。
ChatGPTとChatGPTユーザからの問い合わせについて、Twitterの投稿で大規模な実験が行われた。
また, 提案手法は, 解釈可能性や多様性を向上し, 最先端の手法よりも高い品質の公衆の関心を抽出できることを示した。 The recently released artificial intelligence conversational agent, ChatGPT, has gained significant attention in academia and real life. A multitude of early ChatGPT users eagerly explore its capabilities and share their opinions on it via social media. Both user queries and social media posts express public concerns regarding this advanced dialogue system. To mine public concerns about ChatGPT, a novel Self-Supervised neural Topic Model (SSTM), which formalizes topic modeling as a representation learning procedure, is proposed in this paper. Extensive experiments have been conducted on Twitter posts about ChatGPT and queries asked by ChatGPT users. And experimental results demonstrate that the proposed approach could extract higher quality public concerns with improved interpretability and diversity, surpassing the performance of state-of-the-art approaches. | 翻訳日:2023-10-28 00:55:48 公開日:2023-10-26 |
# COMEDIAN:変圧器を用いた行動スポッティングのための自己指導型学習と知識蒸留 COMEDIAN: Self-Supervised Learning and Knowledge Distillation for Action Spotting using Transformers ( http://arxiv.org/abs/2309.01270v2 ) ライセンス: Link先を確認 | Julien Denize, Mykola Liashuha, Jaonary Rabarisoa, Astrid Orcesi, Romain H\'erault | (参考訳) 自己教師付き学習と知識蒸留を含む行動スポッティングのための時空間トランスフォーマーを初期化する新しいパイプラインであるcomndianを提案する。
アクションスポッティングはタイムスタンプレベルの時間的アクション検出タスクである。
私たちのパイプラインは3つのステップから成り、2つの初期化ステージがあります。
まず,短い映像を入力として空間トランスの自己教師付き初期化を行う。
さらに,空間変換器の出力をグローバルな文脈で拡張する時間変換器を,各ショートビデオセグメントに整列した計算済み特徴バンクからの知識蒸留により初期化する。
最後のステップでは、トランスをアクションスポッティングタスクに微調整します。
SoccerNet-v2データセットで実施された実験は、最先端のパフォーマンスを示し、COMEDIANの事前学習パラダイムの有効性を検証する。
この結果から,非事前学習モデルと比較して,性能の向上や収束の高速化など,事前学習パイプラインのメリットを浮き彫りにした。 We present COMEDIAN, a novel pipeline to initialize spatiotemporal transformers for action spotting, which involves self-supervised learning and knowledge distillation. Action spotting is a timestamp-level temporal action detection task. Our pipeline consists of three steps, with two initialization stages. First, we perform self-supervised initialization of a spatial transformer using short videos as input. Additionally, we initialize a temporal transformer that enhances the spatial transformer's outputs with global context through knowledge distillation from a pre-computed feature bank aligned with each short video segment. In the final step, we fine-tune the transformers to the action spotting task. The experiments, conducted on the SoccerNet-v2 dataset, demonstrate state-of-the-art performance and validate the effectiveness of COMEDIAN's pretraining paradigm. Our results highlight several advantages of our pretraining pipeline, including improved performance and faster convergence compared to non-pretrained models. | 翻訳日:2023-10-28 00:55:36 公開日:2023-10-26 |
# トラップイオン中のボソニック論理状態のロバストと決定論的生成 Robust and Deterministic Preparation of Bosonic Logical States in a Trapped Ion ( http://arxiv.org/abs/2310.15546v2 ) ライセンス: Link先を確認 | V. G. Matsos, C. H. Valahu, T. Navickas, A. D. Rao, M. J. Millican, M. J. Biercuk and T. R. Tan | (参考訳) ボソニックモードにおける論理量子ビットの符号化は、フォールトトレラント量子情報処理のハードウェア効率の高い実装を提供する。
閉じ込められたイオンと超伝導マイクロ波キャビティの最近の進歩は、高品質なボソニック状態の実験的実現と、ボソニックモードで符号化された誤り訂正論理量子ビットの実証につながっている。
しかし、現在のボゾン符号語作成プロトコルは、一般的なノイズ源には堅牢性がなく、実装が実験的に困難であり、これまで実現されてきたコードの品質と幅を制限している。
本稿では, ロバスト制御による誤り抑制の概念と量子誤差補正符号化を組み合わせることで, 捕捉イオンの力学的運動における非古典的ターゲットボソニック状態の高忠実性, 決定論的生成を実験的に証明する。
本稿では,レーザ駆動によるスピンモーション相互作用の動的変調を数値的に最適化し,目標状態を生成する手法を提案する。
最適化された制御パルスは実験的な制約に合わせて調整され、支配的なエラー源に対して堅牢に設計されている。
これらのプロトコルを用いて、Gottesman-Kitaev-Preskill (GKP)状態の論理的忠実度を$\bar{\mathcal{F}}=0.940(8)$で証明し、平均忠実度$\mathcal{F}=0.807(7)$で距離3二項論理状態の最初の実現を実現し、12.91(5) dBの真空状態を示す。 Encoding logical qubits in bosonic modes provides a potentially hardware-efficient implementation of fault-tolerant quantum information processing. Recent advancements in trapped ions and superconducting microwave cavities have led to experimental realizations of high-quality bosonic states and demonstrations of error-corrected logical qubits encoded in bosonic modes. However, current protocols for preparing bosonic code words lack robustness to common noise sources and can be experimentally challenging to implement, limiting the quality and breadth of codes that have been realized to date. Here, we combine concepts of error suppression via robust control with quantum error correction encoding and experimentally demonstrate high-fidelity, deterministic preparation of highly non-classical target bosonic states in the mechanical motion of a trapped ion. Our approach implements numerically optimized dynamical modulation of laser-driven spin-motion interactions to generate the target state in a single step. The optimized control pulses are tailored towards experimental constraints and are designed to be robust against the dominant source of error. Using these protocols, we demonstrate logical fidelities for the Gottesman-Kitaev-Preskill (GKP) state as high as $\bar{\mathcal{F}}=0.940(8)$, achieve the first realization of a distance-3 binomial logical state with an average fidelity of $\mathcal{F}=0.807(7)$, and demonstrate a 12.91(5) dB squeezed vacuum state. | 翻訳日:2023-10-28 00:48:02 公開日:2023-10-26 |
# dpm-solver-v3:経験モデル統計を用いた拡散 ode ソルバの改良 DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics ( http://arxiv.org/abs/2310.13268v2 ) ライセンス: Link先を確認 | Kaiwen Zheng, Cheng Lu, Jianfei Chen, Jun Zhu | (参考訳) 拡散確率モデル(DPM)は、非効率サンプリングに悩まされながら高忠実度画像生成に優れた性能を示した。
最近の研究は、DPMの特定のODE形式を利用する高速ODEソルバを提案することでサンプリング手順を加速している。
しかし、それらは推論中の特定のパラメータ化(ノイズ/データ予測など)に大きく依存しており、最適な選択ではないかもしれない。
本研究では,ode溶液の1次離散化誤差を最小化するサンプリング時の最適パラメータ化に関する新しい定式化を提案する。
このような定式化に基づいて、事前学習モデル上で効率的に計算された数係数を導入し、DPMのための新しい高速ODE解法である \textit{DPM-Solver-v3} を提案する。
さらに,マルチステップ法と予測子補正フレームワークを取り入れ,少数の機能評価(nfe)や大規模指導尺度でサンプル品質を改善する手法を提案する。
実験により、DPM-Solver-v3は、特に5$\sim$10 NFEにおいて、画素空間と潜在空間の両方のDPMを用いて、条件なしサンプリングと条件付きサンプリングの両方において、一貫した性能または同等の性能を達成することが示された。
非条件のCIFAR10では12.21 (5 NFE), 2.51 (10 NFE), 安定拡散では0.55 (5 NFE, 7.5ガイダンススケール) のFIDを達成し, 従来の最先端のトレーニングフリー手法に比べて15\%$\sim$30\%の高速化を実現した。
コードは \url{https://github.com/thu-ml/dpm-solver-v3} で入手できる。 Diffusion probabilistic models (DPMs) have exhibited excellent performance for high-fidelity image generation while suffering from inefficient sampling. Recent works accelerate the sampling procedure by proposing fast ODE solvers that leverage the specific ODE form of DPMs. However, they highly rely on specific parameterization during inference (such as noise/data prediction), which might not be the optimal choice. In this work, we propose a novel formulation towards the optimal parameterization during sampling that minimizes the first-order discretization error of the ODE solution. Based on such formulation, we propose \textit{DPM-Solver-v3}, a new fast ODE solver for DPMs by introducing several coefficients efficiently computed on the pretrained model, which we call \textit{empirical model statistics}. We further incorporate multistep methods and a predictor-corrector framework, and propose some techniques for improving sample quality at small numbers of function evaluations (NFE) or large guidance scales. Experiments show that DPM-Solver-v3 achieves consistently better or comparable performance in both unconditional and conditional sampling with both pixel-space and latent-space DPMs, especially in 5$\sim$10 NFEs. We achieve FIDs of 12.21 (5 NFE), 2.51 (10 NFE) on unconditional CIFAR10, and MSE of 0.55 (5 NFE, 7.5 guidance scale) on Stable Diffusion, bringing a speed-up of 15\%$\sim$30\% compared to previous state-of-the-art training-free methods. Code is available at \url{https://github.com/thu-ml/DPM-Solver-v3}. | 翻訳日:2023-10-28 00:47:30 公開日:2023-10-26 |
# 医用テキストの簡易化: dislikelihood training と reranked beam search decoding による読みやすさの最適化 Medical Text Simplification: Optimizing for Readability with Unlikelihood Training and Reranked Beam Search Decoding ( http://arxiv.org/abs/2310.11191v2 ) ライセンス: Link先を確認 | Lorenzo Jaime Yu Flores, Heyuan Huang, Kejian Shi, Sophie Chheang, Arman Cohan | (参考訳) テキストの単純化は、医学などの専門分野におけるコミュニケーションギャップを橋渡しするためのaiのますます有用な応用として現れており、レキシコンはしばしば技術的な用語と複雑な構造によって支配されている。
顕著な進歩にもかかわらず、医学的単純化の方法は、品質と多様性の低い生成されたテキストをもたらすことがある。
本稿では,医療領域におけるテキスト簡易化の可読性をさらに向上させる方法について検討する。
そこで本研究では,(1)簡易な用語の生成を促す新たな類似性損失と,(2)単純さを最適化し,3つのデータセットの可読性指標の性能向上を図るリランクビーム探索復号法を提案する。
本研究の結果は,医療分野におけるテキスト簡易化に有望な道筋を示している。 Text simplification has emerged as an increasingly useful application of AI for bridging the communication gap in specialized fields such as medicine, where the lexicon is often dominated by technical jargon and complex constructs. Despite notable progress, methods in medical simplification sometimes result in the generated text having lower quality and diversity. In this work, we explore ways to further improve the readability of text simplification in the medical domain. We propose (1) a new unlikelihood loss that encourages generation of simpler terms and (2) a reranked beam search decoding method that optimizes for simplicity, which achieve better performance on readability metrics on three datasets. This study's findings offer promising avenues for improving text simplification in the medical field. | 翻訳日:2023-10-28 00:46:58 公開日:2023-10-26 |
# MiniGPT-v2:視覚言語多タスク学習のための統一インターフェースとしての大規模言語モデル MiniGPT-v2: large language model as a unified interface for vision-language multi-task learning ( http://arxiv.org/abs/2310.09478v2 ) ライセンス: Link先を確認 | Jun Chen, Deyao Zhu, Xiaoqian Shen, Xiang Li, Zechun Liu, Pengchuan Zhang, Raghuraman Krishnamoorthi, Vikas Chandra, Yunyang Xiong, Mohamed Elhoseiny | (参考訳) 大規模言語モデルは、様々な言語関連アプリケーションのための汎用インターフェースとして、目覚ましい能力を示している。
そこで我々は,画像記述や視覚的質問応答,視覚的接地など,多くの視覚言語タスクを完遂するための統一インターフェースの構築を目標としている。
課題は、単純なマルチモーダル命令で視覚言語タスクを効果的に実行するために単一のモデルを使用することである。
この目的のために,様々な視覚言語タスクをよりよく扱うための統一インターフェースとして扱うことができるMiniGPT-v2を導入する。
モデルをトレーニングする際、異なるタスクに対してユニークな識別子を使うことを提案する。
これらの識別子により、各タスク命令を無益に識別し、各タスクのモデル学習効率を向上させることができる。
3段階の学習の結果,MiniGPT-v2は他の視覚言語モデルと比較して,多くの視覚的質問応答および視覚的グラウンド化ベンチマークにおいて高い性能を示した。
私たちのモデルとコードはhttps://minigpt-v2.github.io/で利用可能です。 Large language models have shown their remarkable capabilities as a general interface for various language-related applications. Motivated by this, we target to build a unified interface for completing many vision-language tasks including image description, visual question answering, and visual grounding, among others. The challenge is to use a single model for performing diverse vision-language tasks effectively with simple multi-modal instructions. Towards this objective, we introduce MiniGPT-v2, a model that can be treated as a unified interface for better handling various vision-language tasks. We propose using unique identifiers for different tasks when training the model. These identifiers enable our model to better distinguish each task instruction effortlessly and also improve the model learning efficiency for each task. After the three-stage training, the experimental results show that MiniGPT-v2 achieves strong performance on many visual question-answering and visual grounding benchmarks compared to other vision-language generalist models. Our model and codes are available at https://minigpt-v2.github.io/ | 翻訳日:2023-10-28 00:46:45 公開日:2023-10-26 |
# 進化的多目的最適化による微粒化 Migrant Resettlement by Evolutionary Multi-objective Optimization ( http://arxiv.org/abs/2310.08896v2 ) ライセンス: Link先を確認 | Dan-Xuan Liu, Yu-Ran Gu, Chao Qian, Xin Mu and Ke Tang | (参考訳) 移行は普遍的な現象であり、グローバルな開発のための機会と課題をもたらす。
近年、移民(難民など)の数が急増するにつれて、各国が直面する重要な課題は移民の再定住の問題である。
この問題は雇用率の最大化の観点から科学研究の注目を集めている。
これまでの研究は主に、複数のマトロイド制約に従属する概ね部分モジュラー最適化問題として移民再定住を定式化し、グリードアルゴリズムを用いた。
本稿では, 進化的多目的最適化に基づくMR-EMOを提案する。これは, ミグラント再定住を, 被雇用者数の最大化と派遣者数の同時最小化を図った双対象最適化問題として再編成し, 両対象問題の解法として多目的進化アルゴリズム(MOEA)を用いる。
3つのMOEA, NSGA-II, MOEA/D, GSEMOを用いてMR-EMOを実装した。
MR-EMOの性能をさらに向上するために,マトリックススワップの突然変異と修復機構を用いて,GSEMO-SRと呼ばれる特定のMOEAを提案する。
GSEMOとGSEMO-SRを併用したMR-EMOは,従来のグリージーアルゴリズムよりも理論上の保証が得られることを示す。
インタビューおよび調整移行モデルによる実験結果から,従来のアルゴリズムよりもMR-EMO(NSGA-II, MOEA/D, GSEMO-SR, GSEMO-SR)の方が優れており,GSEMO-SRを用いることでMR-EMOの最高の性能が得られることが明らかとなった。 Migration has been a universal phenomenon, which brings opportunities as well as challenges for global development. As the number of migrants (e.g., refugees) increases rapidly in recent years, a key challenge faced by each country is the problem of migrant resettlement. This problem has attracted scientific research attention, from the perspective of maximizing the employment rate. Previous works mainly formulated migrant resettlement as an approximately submodular optimization problem subject to multiple matroid constraints and employed the greedy algorithm, whose performance, however, may be limited due to its greedy nature. In this paper, we propose a new framework MR-EMO based on Evolutionary Multi-objective Optimization, which reformulates Migrant Resettlement as a bi-objective optimization problem that maximizes the expected number of employed migrants and minimizes the number of dispatched migrants simultaneously, and employs a Multi-Objective Evolutionary Algorithm (MOEA) to solve the bi-objective problem. We implement MR-EMO using three MOEAs, the popular NSGA-II, MOEA/D as well as the theoretically grounded GSEMO. To further improve the performance of MR-EMO, we propose a specific MOEA, called GSEMO-SR, using matrix-swap mutation and repair mechanism, which has a better ability to search for feasible solutions. We prove that MR-EMO using either GSEMO or GSEMO-SR can achieve better theoretical guarantees than the previous greedy algorithm. Experimental results under the interview and coordination migration models clearly show the superiority of MR-EMO (with either NSGA-II, MOEA/D, GSEMO or GSEMO-SR) over previous algorithms, and that using GSEMO-SR leads to the best performance of MR-EMO. | 翻訳日:2023-10-28 00:46:31 公開日:2023-10-26 |
# R&B: ゼロショット接地画像生成における領域と境界認識 R&B: Region and Boundary Aware Zero-shot Grounded Text-to-image Generation ( http://arxiv.org/abs/2310.08872v4 ) ライセンス: Link先を確認 | Jiayu Xiao, Liang Li, Henglei Lv, Shuhui Wang, Qingming Huang | (参考訳) 近年のテキスト・ツー・イメージ(T2I)拡散モデルでは,テキスト・プロンプトを入力とする高品質な画像の生成が顕著に進んでいる。
しかし、これらのモデルはレイアウト命令によって指定された適切な空間構成を伝達できない。
本研究では,入力レイアウト情報に対応する画像を生成する拡散モデルを用いて,補助モジュールの訓練や拡散モデルの微調整を行わずにゼロショットグラウンドt2i生成を探索する。
本研究では,生成過程において拡散モデルの注意マップを徐々に変調し,(1)高い忠実度,(2)テキスト入力と高い適合性,(3)レイアウト命令の正確な解釈を支援する領域・境界(r&b)対応のクロス・アテンション誘導手法を提案する。
具体的には,連続したアテンションマップと離散レイアウト制約とのギャップを埋めるために離散サンプリングを利用し,拡散過程における生成レイアウトを洗練するために領域認識損失を設計する。
さらに,対象領域における識別可能性を高めるための境界認識損失を提案する。
実験結果から,提案手法は,既存のゼロショットグラウンドドT2I生成手法よりも,定性的かつ定量的に,複数のベンチマークで大きなマージンを達成できた。 Recent text-to-image (T2I) diffusion models have achieved remarkable progress in generating high-quality images given text-prompts as input. However, these models fail to convey appropriate spatial composition specified by a layout instruction. In this work, we probe into zero-shot grounded T2I generation with diffusion models, that is, generating images corresponding to the input layout information without training auxiliary modules or finetuning diffusion models. We propose a Region and Boundary (R&B) aware cross-attention guidance approach that gradually modulates the attention maps of diffusion model during generative process, and assists the model to synthesize images (1) with high fidelity, (2) highly compatible with textual input, and (3) interpreting layout instructions accurately. Specifically, we leverage the discrete sampling to bridge the gap between consecutive attention maps and discrete layout constraints, and design a region-aware loss to refine the generative layout during diffusion process. We further propose a boundary-aware loss to strengthen object discriminability within the corresponding regions. Experimental results show that our method outperforms existing state-of-the-art zero-shot grounded T2I generation methods by a large margin both qualitatively and quantitatively on several benchmarks. | 翻訳日:2023-10-28 00:45:59 公開日:2023-10-26 |
# どんな建物でも Segment Any Building ( http://arxiv.org/abs/2310.01164v4 ) ライセンス: Link先を確認 | Lei Li | (参考訳) リモートセンシング画像中の建物を識別・分断する作業は、学術調査の最前線に長年立っていた。
この原稿は、画像にセグメンテーションを構築するための最先端表現学習パラダイムを用いて、多様なデータセットをタンデムで活用する能力を示す。
異なるデータセットの戦略的アマルガメーションを通じて、モデルトレーニングに利用可能な情報水平線を拡張しただけでなく、複数のデータセットにまたがる非並列なパフォーマンス指標も示した。
我々の前衛合同訓練体制は, 都市インフラ整備, 防災戦略, 生態モニタリングなど, 重要な分野に重大な影響を及ぼし, アプローチのメリットを浮き彫りにしている。
我々の手法は、データセットの融合と事前訓練されたモデルからの洞察に基づくものであり、セグメンテーションの取り組みの成果に新しいベンチマークを彫っている。
この研究の成果は、学術的な追求に伴う基礎の強化と、建物区分の分野における革新的応用による地平線の形成の両方に寄与する。 The task of identifying and segmenting buildings within remote sensing imagery has perennially stood at the forefront of scholarly investigations. This manuscript accentuates the potency of harnessing diversified datasets in tandem with cutting-edge representation learning paradigms for building segmentation in such images. Through the strategic amalgamation of disparate datasets, we have not only expanded the informational horizon accessible for model training but also manifested unparalleled performance metrics across multiple datasets. Our avant-garde joint training regimen underscores the merit of our approach, bearing significant implications in pivotal domains such as urban infrastructural development, disaster mitigation strategies, and ecological surveillance. Our methodology, predicated upon the fusion of datasets and gleaning insights from pre-trained models, carves a new benchmark in the annals of building segmentation endeavors. The outcomes of this research both fortify the foundations for ensuing scholarly pursuits and presage a horizon replete with innovative applications in the discipline of building segmentation. | 翻訳日:2023-10-28 00:44:42 公開日:2023-10-26 |
# 事前学習のための多言語データセットのパワー活用:テキストスポッティング性能向上に向けて Harnessing the Power of Multi-Lingual Datasets for Pre-training: Towards Enhancing Text Spotting Performance ( http://arxiv.org/abs/2310.00917v3 ) ライセンス: Link先を確認 | Alloy Das, Sanket Biswas, Ayan Banerjee, Saumik Bhattacharya, Josep Llad\'os, and Umapada Pal | (参考訳) 広い範囲のドメインへの適応能力は、実世界の状況にデプロイされるシーンのテキストスポッティングモデルに不可欠である。
しかし、既存のSOTA(State-of-the-art)アプローチは、通常、複数のドメイン間の中間的特徴表現を直接活用しない自然のシーンテキストデータセットを事前訓練することで、シーンテキストの検出と認識を組み込む。
本稿では,ドメイン適応型シーンテキストスポッティングの問題,すなわち,特定のドメインやシナリオに特化されるのではなく,ターゲットドメインに直接適応できるように,マルチドメインソースデータ上でモデルをトレーニングする。
さらに,正規文と任意文の両方のシーンテキストスポッティングの解決と,徹底的な評価を行うために,swain-testrと呼ばれるトランスフォーマのベースラインを調査した。
この結果は、複数のドメインにわたるテキストスポッティングベンチマーク(言語、合成-現実、文書など)において、中間表現が大きなパフォーマンスを達成する可能性を明確に示している。
正確性と効率の両面でです The adaptation capability to a wide range of domains is crucial for scene text spotting models when deployed to real-world conditions. However, existing state-of-the-art (SOTA) approaches usually incorporate scene text detection and recognition simply by pretraining on natural scene text datasets, which do not directly exploit the intermediate feature representations between multiple domains. Here, we investigate the problem of domain-adaptive scene text spotting, i.e., training a model on multi-domain source data such that it can directly adapt to target domains rather than being specialized for a specific domain or scenario. Further, we investigate a transformer baseline called Swin-TESTR to focus on solving scene-text spotting for both regular and arbitrary-shaped scene text along with an exhaustive evaluation. The results clearly demonstrate the potential of intermediate representations to achieve significant performance on text spotting benchmarks across multiple domains (e.g. language, synth-to-real, and documents). both in terms of accuracy and efficiency. | 翻訳日:2023-10-28 00:44:24 公開日:2023-10-26 |
# COPF: 最適な政策適合による継続的な学習 COPF: Continual Learning Human Preference through Optimal Policy Fitting ( http://arxiv.org/abs/2310.15694v3 ) ライセンス: Link先を確認 | Han Zhang, Lin Gui, Yuanzhao Zhai, Hui Wang, Yu Lei, Ruifeng Xu | (参考訳) 人間フィードバックからの強化学習(rlhf)は、事前学習された言語モデル(lm)を改善するために一般的に用いられる手法であり、人間の好みに適合する能力を高める。
しかしながら、現在のRLHFベースのLMは、新しいクエリやフィードバックが導入されるたびに完全なリトレーニングを必要とする。
lmsの再トレーニングは、データプライバシに関する懸念に加えて、膨大な時間と計算リソースを必要とするため、多くの現実の状況において実践上の困難をもたらす。
この制限に対処するために,モンテカルロ法を用いて一連の最適政策を推定し,関数正規化と連続的にポリシーシーケンスを適合させる,COPF(Continuous Optimal Policy Fitting)と呼ばれる新しい手法を提案する。
COPFは単一の学習フェーズを含み、複雑な強化学習を必要としない。
重要なのは、ラベルのないデータから学習するRLHFと共有することで、継続的な嗜好学習に柔軟になることだ。
実験の結果, copfは, 異なるタスクやドメインにおける人間の嗜好と一貫性を持たせる上で, 強い連続学習(cl)ベースラインよりも優れていることがわかった。 The technique of Reinforcement Learning from Human Feedback (RLHF) is a commonly employed method to improve pre-trained Language Models (LM), enhancing their ability to conform to human preferences. Nevertheless, the current RLHF-based LMs necessitate full retraining each time novel queries or feedback are introduced, which becomes a challenging task because human preferences can vary between different domains or tasks. Retraining LMs poses practical difficulties in many real-world situations due to the significant time and computational resources required, along with concerns related to data privacy. To address this limitation, we propose a new method called Continual Optimal Policy Fitting (COPF), in which we estimate a series of optimal policies using the Monte Carlo method, and then continually fit the policy sequence with the function regularization. COPF involves a single learning phase and doesn't necessitate complex reinforcement learning. Importantly, it shares the capability with RLHF to learn from unlabeled data, making it flexible for continual preference learning. Our experimental results show that COPF outperforms strong Continuous learning (CL) baselines when it comes to consistently aligning with human preferences on different tasks and domains. | 翻訳日:2023-10-28 00:39:01 公開日:2023-10-26 |
# 量子アルゴリズムによるAgnostic Learningのためのニアクアドラティックサンプル複雑度低減 A Near-Quadratic Sample Complexity Reduction for Agnostic Learning via Quantum Algorithms ( http://arxiv.org/abs/2310.15576v2 ) ライセンス: Link先を確認 | Daniel Z. Zanger | (参考訳) 量子アルゴリズムを用いて、精度 $\epsilon,0<\epsilon<1/4$ と信頼 $1-\delta,0<\delta <1,$ の新しいサンプル複雑性上界$O((\mbox{log}(\frac{1}{\delta}))/\epsilon)$ as $\epsilon,\delta\rightarrow 0$ ($\epsilon^{-1}$ のポリ対数係数まで)を一般の無知学習モデルに対して得られる。
これは漸近順序 $\theta((\mbox{log}(\frac{1}{\delta}))/\epsilon^{2}) の対応するサンプル複雑性を、有限濃度の仮説集合とともに無依存学習問題に対する古典的(非量子)アルゴリズムによって達成可能であることが文献で知られている(例えば arunachalam と de wolf (2018) を参照)。
したがって、一般的な無依存学習の場合、我々が達成する学習速度の量子スピードアップは、(多対数因子まで)$\epsilon^{-1}$で二次的である。 Using quantum algorithms, we obtain, for accuracy $\epsilon,0<\epsilon<1/4$ and confidence $1-\delta,0<\delta <1,$ a new sample complexity upper bound of $O((\mbox{log}(\frac{1}{\delta}))/\epsilon)$ as $\epsilon,\delta\rightarrow 0$ (up to a polylogarithmic factor in $\epsilon^{-1}$) for a general agnostic learning model, provided the hypothesis class is of finite cardinality. This greatly improves upon a corresponding sample complexity of asymptotic order $\Theta((\mbox{log}(\frac{1}{\delta}))/\epsilon^{2})$ known in the literature to be attainable by means of classical (non-quantum) algorithms for an agnostic learning problem also with hypothesis set of finite cardinality (see, for example, Arunachalam and de Wolf (2018) and the classical statistical learning theory references cited there). Thus, for general agnostic learning, the quantum speedup in the rate of learning that we achieve is quadratic in $\epsilon^{-1}$ (up to a polylogarithmic factor). | 翻訳日:2023-10-28 00:38:39 公開日:2023-10-26 |
# DeepIron:1枚の画像から未処理のガーメントテクスチャを予測する DeepIron: Predicting Unwarped Garment Texture from a Single Image ( http://arxiv.org/abs/2310.15447v2 ) ライセンス: Link先を確認 | Hyun-Song Kwon, Sung-Hee Lee | (参考訳) 画像からの3D衣服のリアルな再構築は、アバター作成や仮想試着など幅広い応用がある。
本稿では,1枚の写真から3次元衣料のテクスチャマップを再構築する新しい枠組みを提案する。
2次元縫製パターンを縫い合わせることで3D衣服をモデル化すると、その具体的目的は縫製パターンのテクスチャ画像を作成することである。
本フレームワークの重要な構成要素であるテクスチュア・アンワーパーは、入力された衣服画像から本来のテクスチャイメージを推測し、ユーザの身体形状やポーズによるテクスチャのゆらぎと隠蔽を示す。
Texture Unwarperは、2つの画像の潜在空間をマッピングすることで、入力画像と出力画像の間で効果的に変換する。
入力された衣服の本来のテクスチャを推定することで、新しいポーズのためにリアルに変形した高品質なテクスチャ画像を表示できる3d衣料モデルの再構築を支援する。
他の方法との比較とアブレーション研究を通じて,本手法の有効性を検証する。 Realistic reconstruction of 3D clothing from an image has wide applications, such as avatar creation and virtual try-on. This paper presents a novel framework that reconstructs the texture map for 3D garments from a single image with pose. Assuming that 3D garments are modeled by stitching 2D garment sewing patterns, our specific goal is to generate a texture image for the sewing patterns. A key component of our framework, the Texture Unwarper, infers the original texture image from the input clothing image, which exhibits warping and occlusion of texture due to the user's body shape and pose. The Texture Unwarper effectively transforms between the input and output images by mapping the latent spaces of the two images. By inferring the unwarped original texture of the input garment, our method helps reconstruct 3D garment models that can show high-quality texture images realistically deformed for new poses. We validate the effectiveness of our approach through a comparison with other methods and ablation studies. | 翻訳日:2023-10-28 00:37:59 公開日:2023-10-26 |
# ChatGPTのバグにおけるバグの数え方:大規模言語モデルの形態的能力に関する多言語調査 Counting the Bugs in ChatGPT's Wugs: A Multilingual Investigation into the Morphological Capabilities of a Large Language Model ( http://arxiv.org/abs/2310.15113v2 ) ライセンス: Link先を確認 | Leonie Weissweiler, Valentin Hofmann, Anjali Kantharuban, Anna Cai, Ritam Dutt, Amey Hengle, Anubha Kabra, Atharva Kulkarni, Abhishek Vijayakumar, Haofei Yu, Hinrich Sch\"utze, Kemal Oflazer, David R. Mortensen | (参考訳) 大規模言語モデル (LLM) は近年,人間の言語スキルと比較する上で,目覚ましい言語能力に達している。
しかし、最新のllmの言語能力に関する体系的な調査は、比較的少なく、これらの研究が存在する。
(i)人類の卓越した一般化能力を無視して。
(ii)英語のみに焦点を当て、
(iii)構文や意味論を調査し、形態素など人間の言語の中心にある他の能力を見落としている。
ここでは,4言語(特に英語,ドイツ語,タミル語,トルコ語)におけるChatGPTの形態的能力の厳密な分析を行い,これらのギャップを埋める。
本稿では,ChatGPTにBerko's wug test(1958)を応用し,この4言語を対象とした新しい非汚染データセットを提案する。
ChatGPTは、特に英語の目的構築システムでは大幅に性能が低下している。
全体として、私たちの成果は、形態学のレンズを通して、ChatGPTの言語能力に新たな光を当て、人間に似た言語スキルの主張が早々で誤解を招くことを示唆している。 Large language models (LLMs) have recently reached an impressive level of linguistic capability, prompting comparisons with human language skills. However, there have been relatively few systematic inquiries into the linguistic capabilities of the latest generation of LLMs, and those studies that do exist (i) ignore the remarkable ability of humans to generalize, (ii) focus only on English, and (iii) investigate syntax or semantics and overlook other capabilities that lie at the heart of human language, like morphology. Here, we close these gaps by conducting the first rigorous analysis of the morphological capabilities of ChatGPT in four typologically varied languages (specifically, English, German, Tamil, and Turkish). We apply a version of Berko's (1958) wug test to ChatGPT, using novel, uncontaminated datasets for the four examined languages. We find that ChatGPT massively underperforms purpose-built systems, particularly in English. Overall, our results -- through the lens of morphology -- cast a new light on the linguistic capabilities of ChatGPT, suggesting that claims of human-like language skills are premature and misleading. | 翻訳日:2023-10-28 00:37:41 公開日:2023-10-26 |
# FD-Align:Few-Shot Learningにおける微調整事前学習モデルの特徴識別アライメント FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained Models in Few-Shot Learning ( http://arxiv.org/abs/2310.15105v2 ) ライセンス: Link先を確認 | Kun Song, Huimin Ma, Bochao Zou, Huishuai Zhang, Weiran Huang | (参考訳) データの可用性が限られているため、スクラッチからトレーニングされた既存の少数ショット学習方法は、十分なパフォーマンスを達成できていない。
対照的に、CLIPのような大規模で事前訓練されたモデルでは、目覚ましい少数ショットとゼロショットの機能を示している。
下流タスクのための事前学習モデルの性能を高めるためには、下流データ上でモデルを微調整する必要があることが多い。
しかしながら、事前学習されたモデルの微調整は分布シフトの存在下での一般化可能性の低下を招き、一方、少数ショット学習ではサンプル数が限られているため、過度に適合しやすいモデルとなる。
その結果,既存の微調整学習手法は主にモデルの分類ヘッドの微調整や追加構造の導入に重点を置いている。
本稿では,特徴識別アライメント(FD-Align)と呼ばれる微調整手法を提案する。
本手法は, 微調整プロセスにおける突発的特徴の一貫性を保ち, モデルの一般化可能性を高めることを目的とする。
広範囲な実験により, ID および OOD タスクに対するアプローチの有効性が検証された。
微調整をすれば、モデルが既存のメソッドとシームレスに統合できるため、パフォーマンスが向上する。
私たちのコードはhttps://github.com/skingorz/FD-Align.orgにある。 Due to the limited availability of data, existing few-shot learning methods trained from scratch fail to achieve satisfactory performance. In contrast, large-scale pre-trained models such as CLIP demonstrate remarkable few-shot and zero-shot capabilities. To enhance the performance of pre-trained models for downstream tasks, fine-tuning the model on downstream data is frequently necessary. However, fine-tuning the pre-trained model leads to a decrease in its generalizability in the presence of distribution shift, while the limited number of samples in few-shot learning makes the model highly susceptible to overfitting. Consequently, existing methods for fine-tuning few-shot learning primarily focus on fine-tuning the model's classification head or introducing additional structure. In this paper, we introduce a fine-tuning approach termed Feature Discrimination Alignment (FD-Align). Our method aims to bolster the model's generalizability by preserving the consistency of spurious features across the fine-tuning process. Extensive experimental results validate the efficacy of our approach for both ID and OOD tasks. Once fine-tuned, the model can seamlessly integrate with existing methods, leading to performance improvements. Our code can be found in https://github.com/skingorz/FD-Align. | 翻訳日:2023-10-28 00:37:20 公開日:2023-10-26 |
# 王子とパウパー
ヒルベルト空間基本主義の量子パラドックス The prince and the pauper. A quantum paradox of Hilbert-space fundamentalism ( http://arxiv.org/abs/2310.15090v2 ) ライセンス: Link先を確認 | Ovidiu Cristinel Stoica | (参考訳) 量子世界はヒルベルト空間とハミルトン空間における単位ベクトルによって記述される。
抽象基底非依存オブジェクトとして、物理世界の完全な記述を与えるか、位置やモーメント、サブシステムへの分解といったオブザーバブルを含めるべきなのか?
ヒルベルト空間原理主義」によれば、それらは完全な記述を与え、物理的世界の他の全ての特徴がそれらから現れる(Carroll, arXiv:2103.09780)。
この論文は以前 (arXiv:2102.08620) で完全に一般化された。
しかし、抽象的な非特異性証明であり、建設的な証明ではないため、数学的詳細を避けたいと願う忙しい読者には納得できないかもしれない。
ここでは、具体的な物理的に異なる世界が同じ単位ベクトルによって記述され、同じ法則に従って進化できることを示すことによって、より単純で直感的で建設的な反論を与える。 The quantum world is described by a unit vector in the Hilbert space and the Hamiltonian. Do they, as abstract basis-independent objects, give a complete description of the physical world, or should we include observables like positions and momenta and the decomposition into subsystems? According to "Hilbert-space fundamentalism" they give a complete description, and all other features of the physical world emerge from them (Carroll, arXiv:2103.09780). This thesis was previously refuted in (arXiv:2102.08620) in full generality. But being an abstract non-uniqueness proof, and not a constructive one, it may not be convincing enough to the busy reader who wants to avoid mathematical details. Here I give a simpler, intuitive and constructive refutation, by showing that concrete physically distinct worlds can be described by the same unit vector and evolve according to the same law. | 翻訳日:2023-10-28 00:36:35 公開日:2023-10-26 |
# サンプル選択バイアスを考慮したロバスト自己学習におけるアンサンブル多様性の活用 Leveraging Ensemble Diversity for Robust Self-Training in the Presence of Sample Selection Bias ( http://arxiv.org/abs/2310.14814v2 ) ライセンス: Link先を確認 | Ambroise Odonnat, Vasilii Feofanov, Ievgen Redko | (参考訳) 自己学習は半教師あり学習におけるよく知られたアプローチである。
モデルが信頼しているラベル付きデータに擬似ラベルを反復的に割り当て、ラベル付き例として扱う。
ニューラルネットワークでは、誤った予測であっても過信であるという事実にもかかわらず、ソフトマックス予測確率は信頼度尺度としてしばしば使用される。
この現象は特にサンプル選択バイアスの存在、すなわちデータラベリングが何らかの制約を受ける場合において強化される。
この問題に対処するために,線形分類器の集合の予測の多様性に基づいて,$\mathcal{t}$- similarity と呼ばれる新しい信頼度尺度を提案する。
我々は,静止点を研究し,個々のメンバの多様性とパフォーマンスの関係を記述し,このアプローチを理論的に解析する。
様々なデータモダリティの分類データセットに対する3つの異なる擬似ラベルポリシーに対する信頼度尺度の利点を実証的に示す。 Self-training is a well-known approach for semi-supervised learning. It consists of iteratively assigning pseudo-labels to unlabeled data for which the model is confident and treating them as labeled examples. For neural networks, softmax prediction probabilities are often used as a confidence measure, despite the fact that they are known to be overconfident, even for wrong predictions. This phenomenon is particularly intensified in the presence of sample selection bias, i.e., when data labeling is subject to some constraint. To address this issue, we propose a novel confidence measure, called $\mathcal{T}$-similarity, built upon the prediction diversity of an ensemble of linear classifiers. We provide the theoretical analysis of our approach by studying stationary points and describing the relationship between the diversity of the individual members and their performance. We empirically demonstrate the benefit of our confidence measure for three different pseudo-labeling policies on classification datasets of various data modalities. | 翻訳日:2023-10-28 00:36:15 公開日:2023-10-26 |
# 言語モデルはyoutubeの短いビデオで笑えるか? Can Language Models Laugh at YouTube Short-form Videos? ( http://arxiv.org/abs/2310.14159v2 ) ライセンス: Link先を確認 | Dayoon Ko, Sangho Lee, Gunhee Kim | (参考訳) ソーシャルネットワーク上の短いビデオが人気を集めている中、人間とのコミュニケーションをより良くするためのAIモデルの必要性が高まっている。
残念ながら、以前のビデオユーモアデータセットは、スピーチやシットコムのような特定のドメインをターゲットにしており、主に動詞の手がかりに焦点を当てている。
ユーザ生成したYouTubeから10Kのマルチモーダルな面白いビデオのデータセット、ExFunTubeをキュレートします。
gpt-3.5を用いたビデオフィルタリングパイプラインを用いて,ユーモアに寄与する言語要素と視覚要素の両方を検証する。
フィルタリング後、各ビデオにタイムスタンプとテキスト説明をアノテートして面白い瞬間を知らせる。
われわれのExFunTubeは、既存のデータセットとは違って、ビデオはさまざまな種類のユーモアを持つ幅広い領域をカバーし、コンテンツに対するマルチモーダルな理解を必要とする。
また,大規模言語モデル (LLM) の映像ユーモア理解を最大化するために,ゼロショットビデオ・トゥ・テキスト・プロンプトを開発した。
自動スコア,合理化実験,人的評価の3つの異なる評価手法を用いて,本手法はユーモアの説明能力を大幅に向上させることを示す。 As short-form funny videos on social networks are gaining popularity, it becomes demanding for AI models to understand them for better communication with humans. Unfortunately, previous video humor datasets target specific domains, such as speeches or sitcoms, and mostly focus on verbal cues. We curate a user-generated dataset of 10K multimodal funny videos from YouTube, called ExFunTube. Using a video filtering pipeline with GPT-3.5, we verify both verbal and visual elements contributing to humor. After filtering, we annotate each video with timestamps and text explanations for funny moments. Our ExFunTube is unique over existing datasets in that our videos cover a wide range of domains with various types of humor that necessitate a multimodal understanding of the content. Also, we develop a zero-shot video-to-text prompting to maximize video humor understanding of large language models (LLMs). With three different evaluation methods using automatic scores, rationale quality experiments, and human evaluations, we show that our prompting significantly improves LLMs' ability for humor explanation. | 翻訳日:2023-10-28 00:35:46 公開日:2023-10-26 |
# Tailored Reference を用いた同時機械翻訳 Simultaneous Machine Translation with Tailored Reference ( http://arxiv.org/abs/2310.13588v2 ) ライセンス: Link先を確認 | Shoutao Guo, Shaolei Zhang, Yang Feng | (参考訳) 同時機械翻訳(SiMT)は、ソース文全体を読みながら翻訳を生成する。
しかし、既存のSiMTモデルは、異なるレイテンシで利用可能な様々なソース情報を無視して、同じ参照を使用して訓練される。
低レイテンシでのモデルトレーニングは強制的な予測をもたらす可能性があるが、高レイテンシでソースワードの順序に一致する参照を使用することでパフォーマンスが低下する。
したがって、高い品質を維持しながらトレーニング中に強制的な予測を避ける適切な参照でsimtモデルを訓練することが重要である。
本稿では,異なるレイテンシでトレーニングされたSiMTモデルに対して,基底構造を表現して参照する手法を提案する。
具体的には,強化学習によって引き起こされるテーラーを用い,テーラード参照に接地を修飾する。
SiMTモデルは、調整された基準で訓練され、性能を高めるために調整器で共同最適化される。
重要な点として,本手法は近年のSiMTの幅広いアプローチに適用可能である。
3つの翻訳課題に関する実験により,本手法は固定ポリシーと適応ポリシーの両方において最先端の性能を達成することを示した。 Simultaneous machine translation (SiMT) generates translation while reading the whole source sentence. However, existing SiMT models are typically trained using the same reference disregarding the varying amounts of available source information at different latency. Training the model with ground-truth at low latency may introduce forced anticipations, whereas utilizing reference consistent with the source word order at high latency results in performance degradation. Consequently, it is crucial to train the SiMT model with appropriate reference that avoids forced anticipations during training while maintaining high quality. In this paper, we propose a novel method that provides tailored reference for the SiMT models trained at different latency by rephrasing the ground-truth. Specifically, we introduce the tailor, induced by reinforcement learning, to modify ground-truth to the tailored reference. The SiMT model is trained with the tailored reference and jointly optimized with the tailor to enhance performance. Importantly, our method is applicable to a wide range of current SiMT approaches. Experiments on three translation tasks demonstrate that our method achieves state-of-the-art performance in both fixed and adaptive policies. | 翻訳日:2023-10-28 00:35:28 公開日:2023-10-26 |
# コンセプト・グリッドロックを乗り越える - 自動走行における説明責任を解き明かす Driving through the Concept Gridlock: Unraveling Explainability Bottlenecks in Automated Driving ( http://arxiv.org/abs/2310.16639v2 ) ライセンス: Link先を確認 | Jessica Echterhoff, An Yan, Kyungtae Han, Amr Abdelraouf, Rohit Gupta, Julian McAuley | (参考訳) 概念ボトルネックモデルは、人間の定義した概念のセットでモデル内の情報を符号化することで、説明可能な機械学習に成功している。
人力または自律運転の文脈では、説明可能性モデルは、ドライバーまたは車両の行動の合理化と説明に使用できる自動運転車によってなされる決定の、ユーザの受け入れと理解に役立つ。
そこで本研究では,視覚特徴として概念ボトルネックを用いたユーザと車両の行動の予測と説明を行う新しい手法を提案する。
車両制御コマンドを学習しながら、逐次運転シーンを説明するために使用する、人間理解可能なコンセプトレイヤを学習する。
このアプローチは、人間の(または自動運転車)からの指示が外部からの刺激や好みの変化によって導かれるかどうかを判断するために使用することができる。
モデル設定内で解釈可能性を得ながら、潜伏した視覚的特徴に対する競合性能を達成する。 Concept bottleneck models have been successfully used for explainable machine learning by encoding information within the model with a set of human-defined concepts. In the context of human-assisted or autonomous driving, explainability models can help user acceptance and understanding of decisions made by the autonomous vehicle, which can be used to rationalize and explain driver or vehicle behavior. We propose a new approach using concept bottlenecks as visual features for control command predictions and explanations of user and vehicle behavior. We learn a human-understandable concept layer that we use to explain sequential driving scenes while learning vehicle control commands. This approach can then be used to determine whether a change in a preferred gap or steering commands from a human (or autonomous vehicle) is led by an external stimulus or change in preferences. We achieve competitive performance to latent visual features while gaining interpretability within our model setup. | 翻訳日:2023-10-28 00:26:52 公開日:2023-10-26 |
# 密度比推定のためのロバスト共変量シフト適応 Robust Covariate Shift Adaptation for Density-Ratio Estimation ( http://arxiv.org/abs/2310.16638v2 ) ライセンス: Link先を確認 | Masahiro Kato | (参考訳) テストデータは共変量のみを含むが、共変量と結果の両方でトレーニングデータにアクセスできるシナリオを考えてみましょう。
このシナリオでは、テストデータの欠落結果を予測することが第一目的です。
この目的を念頭において、共変量分布が異なる共変量シフトの下でパラメトリック回帰モデルを訓練する。
そこで本研究では,密度比を用いた重み付けによる共変量変化適応法を提案する。
このアプローチは、列車データ損失を平均し、列車と試験データの間の共変量密度の推定比率で重み付けし、テストデータリスクを近似する。
テストデータのリスクを最小化できるが、その性能は密度比推定の精度に大きく依存している。
さらに, 密度比を一定に推定できるとしても, 密度比の推定誤差は, 回帰モデルの興味パラメータの推定値に偏りを生じさせる。
これらの課題を緩和するため,重み付けによる共変量シフト適応のための二重ロバスト推定器を導入し,回帰関数に付加的な推定器を組み込む。
この2重機械学習手法を活用し,密度比推定誤差から生じるバイアスを低減した。
回帰パラメータ推定器の漸近分布を示す。
特に、密度比推定器または回帰関数が整合である場合、我々の推定器は、密度比推定における潜在的な誤差に対する頑健性を示す。
最後に,提案手法の音質をシミュレーション研究により確認する。 Consider a scenario where we have access to train data with both covariates and outcomes while test data only contains covariates. In this scenario, our primary aim is to predict the missing outcomes of the test data. With this objective in mind, we train parametric regression models under a covariate shift, where covariate distributions are different between the train and test data. For this problem, existing studies have proposed covariate shift adaptation via importance weighting using the density ratio. This approach averages the train data losses, each weighted by an estimated ratio of the covariate densities between the train and test data, to approximate the test-data risk. Although it allows us to obtain a test-data risk minimizer, its performance heavily relies on the accuracy of the density ratio estimation. Moreover, even if the density ratio can be consistently estimated, the estimation errors of the density ratio also yield bias in the estimators of the regression model's parameters of interest. To mitigate these challenges, we introduce a doubly robust estimator for covariate shift adaptation via importance weighting, which incorporates an additional estimator for the regression function. Leveraging double machine learning techniques, our estimator reduces the bias arising from the density ratio estimation errors. We demonstrate the asymptotic distribution of the regression parameter estimator. Notably, our estimator remains consistent if either the density ratio estimator or the regression function is consistent, showcasing its robustness against potential errors in density ratio estimation. Finally, we confirm the soundness of our proposed method via simulation studies. | 翻訳日:2023-10-28 00:26:36 公開日:2023-10-26 |
# 非線形付加雑音モデルの全体的および部分的因果的健全性評価 Assessing the overall and partial causal well-specification of nonlinear additive noise models ( http://arxiv.org/abs/2310.16502v2 ) ライセンス: Link先を確認 | Christoph Schultheiss and Peter B\"uhlmann | (参考訳) 非線形因果加法および潜在的にヘテロシドスティックノイズモデルにおけるモデル誤特定を検出する手法を提案する。
このような不特定な場合であっても因果効果を推測できる予測変数の同定を目標としている。
我々は,多変量観測データ分布の知識に基づく一般的なフレームワークを開発し,有限サンプルデータに対するアルゴリズムを提案し,その漸近特性について議論し,シミュレーションおよび実データ上での性能を示す。 We propose a method to detect model misspecifications in nonlinear causal additive and potentially heteroscedastic noise models. We aim to identify predictor variables for which we can infer the causal effect even in cases of such misspecification. We develop a general framework based on knowledge of the multivariate observational data distribution and we then propose an algorithm for finite sample data, discuss its asymptotic properties, and illustrate its performance on simulated and real data. | 翻訳日:2023-10-28 00:26:10 公開日:2023-10-26 |
# DDCoT:言語モデルにおけるマルチモーダル推論のためのDuty-distinct Chain-of-Thought Prompting DDCoT: Duty-Distinct Chain-of-Thought Prompting for Multimodal Reasoning in Language Models ( http://arxiv.org/abs/2310.16436v2 ) ライセンス: Link先を確認 | Ge Zheng, Bin Yang, Jiajin Tang, Hong-Yu Zhou, Sibei Yang | (参考訳) AIシステムの長年の目標は、人間のような複雑なマルチモーダル推論を実行することだ。
近年,大規模言語モデル(LLM)は,思考の連鎖(CoT)を利用して人間の思考を模倣することによって,言語モダリティの多段階的推論において顕著な進歩を遂げている。
しかし、これらの進歩をマルチモーダルな文脈に移すことは、労働集約的アノテーションの非現実的な必要性や、柔軟性、一般化可能性、説明可能性の限界など、より高い課題をもたらす。
マルチモダリティにおけるCoT推論を誘発するために、この研究はまず、マルチモダリティによって引き起こされるこれらの課題を詳細に分析し、マルチモダリティのCoT推論において「批判的思考を維持する」と「全員が仕事をする」という2つの重要な洞察を提示する。
本研究は,まずllmの推論責任を推論と認識に分割し,次に視覚モデルの視覚認識能力を共同推論プロセスに統合することにより,否定空間の促進を通じて批判的態度を維持し,推論にマルチモーダリティを組み込む新しいddcot促進手法を提案する。
DDCoTが生成した理論的根拠は、ゼロショットプロンプトと微調整学習において、大小両方の言語モデルの推論能力を向上するだけでなく、最先端の手法よりも優れ、また、優れた一般化性と説明可能性を示す。 A long-standing goal of AI systems is to perform complex multimodal reasoning like humans. Recently, large language models (LLMs) have made remarkable strides in such multi-step reasoning on the language modality solely by leveraging the chain of thought (CoT) to mimic human thinking. However, the transfer of these advancements to multimodal contexts introduces heightened challenges, including but not limited to the impractical need for labor-intensive annotation and the limitations in terms of flexibility, generalizability, and explainability. To evoke CoT reasoning in multimodality, this work first conducts an in-depth analysis of these challenges posed by multimodality and presents two key insights: "keeping critical thinking" and "letting everyone do their jobs" in multimodal CoT reasoning. Furthermore, this study proposes a novel DDCoT prompting that maintains a critical attitude through negative-space prompting and incorporates multimodality into reasoning by first dividing the reasoning responsibility of LLMs into reasoning and recognition and then integrating the visual recognition capability of visual models into the joint reasoning process. The rationales generated by DDCoT not only improve the reasoning abilities of both large and small language models in zero-shot prompting and fine-tuning learning, significantly outperforming state-of-the-art methods but also exhibit impressive generalizability and explainability. | 翻訳日:2023-10-28 00:26:02 公開日:2023-10-26 |
# ニューラルネットワークにおける特徴抽出機構の解明 Unraveling Feature Extraction Mechanisms in Neural Networks ( http://arxiv.org/abs/2310.16350v2 ) ライセンス: Link先を確認 | Xiaobing Sun, Jiaxi Li, Wei Lu | (参考訳) ニューラルネットワークの正確な知識を捉えるメカニズムは、一貫した研究の主題となっている。
本研究では,ニューラルネットワークカーネル(NTK)に基づく理論的手法を提案し,そのメカニズムを解明する。
具体的には、無限のネットワーク幅を考慮すると、ターゲットモデルの学習力学が直感的にトレーニングデータから得られる特徴を解明し、内部メカニズムへの洞察を深める可能性があると仮定する。
このアプローチをいくつかの基本モデルに適用し,勾配降下時の統計的特徴をどのように活用するか,最終決定にどのように統合するかを明らかにする。
また,アクティベーション関数の選択が特徴抽出に影響を及ぼすことがわかった。
例えば、 \textit{ReLU} アクティベーション関数の使用は、機能にバイアスをもたらす可能性がある。
さらに、自己注意モデルとCNNモデルはn-gramの学習の限界を示すが、乗算モデルはこの領域で優れているようである。
これらの理論的な知見を実験を通して検証し,分類の特殊変種と見なすことができる言語モデリングタスクの解析に応用できることを見出した。
当社のコントリビューションは,大規模言語モデルにおける基本コンポーネントの役割とキャパシティに関する洞察を提供し,複雑なシステムのより広範な理解を支援します。 The underlying mechanism of neural networks in capturing precise knowledge has been the subject of consistent research efforts. In this work, we propose a theoretical approach based on Neural Tangent Kernels (NTKs) to investigate such mechanisms. Specifically, considering the infinite network width, we hypothesize the learning dynamics of target models may intuitively unravel the features they acquire from training data, deepening our insights into their internal mechanisms. We apply our approach to several fundamental models and reveal how these models leverage statistical features during gradient descent and how they are integrated into final decisions. We also discovered that the choice of activation function can affect feature extraction. For instance, the use of the \textit{ReLU} activation function could potentially introduce a bias in features, providing a plausible explanation for its replacement with alternative functions in recent pre-trained language models. Additionally, we find that while self-attention and CNN models may exhibit limitations in learning n-grams, multiplication-based models seem to excel in this area. We verify these theoretical findings through experiments and find that they can be applied to analyze language modeling tasks, which can be regarded as a special variant of classification. Our contributions offer insights into the roles and capacities of fundamental components within large language models, thereby aiding the broader understanding of these complex systems. | 翻訳日:2023-10-28 00:25:35 公開日:2023-10-26 |
# 大規模言語モデルのための知識編集:調査 Knowledge Editing for Large Language Models: A Survey ( http://arxiv.org/abs/2310.16218v2 ) ライセンス: Link先を確認 | Song Wang, Yaochen Zhu, Haochen Liu, Zaiyi Zheng, Chen Chen, Jundong Li | (参考訳) 大規模言語モデル(LLM)は、その膨大な知識と推論能力に基づいてテキストを理解し、分析し、生成する顕著な能力のために、最近、学術的および産業的景観を変革した。
それにもかかわらず、llmsの大きな欠点は、前例のない量のパラメータによる事前トレーニングの計算コストである。
事前訓練されたモデルに新しい知識を頻繁に導入する必要がある場合、デメリットは悪化する。
したがって、事前訓練されたLLMを更新するための効率的かつ効率的な技術を開発することが不可欠である。
従来の手法は、事前訓練されたllmにおける新しい知識を直接微調整によってエンコードする。
しかし, 自己学習型LLMは計算集約的であり, モデル更新によらず, 価値ある事前学習知識を劣化させるリスクがある。
近年,知識に基づくモデル編集(KME)が注目され,他の無関係な知識に悪影響を及ぼすことなく,特定の知識を組み込むためにLLMを正確に修正することを目指している。
本調査では,KME分野の最近の進歩を包括的かつ詳細に概観することを目的としている。
まず、異なるKME戦略を包含するKMEの一般的な定式化を導入する。
その後,本手法の革新的分類法として,既存のKME戦略を考察し,各カテゴリの手法の重要点,利点,限界を分析した上で,新たな知識の事前学習 LLM への導入方法に基づくKME手法の革新的分類法を提案する。
さらに、KMEの代表的な指標、データセット、応用を紹介する。
最後に,KMEの実践性と課題の残りについて詳細な分析を行い,今後の発展に向けた今後の研究の方向性を提案する。 Large language models (LLMs) have recently transformed both the academic and industrial landscapes due to their remarkable capacity to understand, analyze, and generate texts based on their vast knowledge and reasoning ability. Nevertheless, one major drawback of LLMs is their substantial computational cost for pre-training due to their unprecedented amounts of parameters. The disadvantage is exacerbated when new knowledge frequently needs to be introduced into the pre-trained model. Therefore, it is imperative to develop effective and efficient techniques to update pre-trained LLMs. Traditional methods encode new knowledge in pre-trained LLMs through direct fine-tuning. However, naively re-training LLMs can be computationally intensive and risks degenerating valuable pre-trained knowledge irrelevant to the update in the model. Recently, Knowledge-based Model Editing (KME) has attracted increasing attention, which aims to precisely modify the LLMs to incorporate specific knowledge, without negatively influencing other irrelevant knowledge. In this survey, we aim to provide a comprehensive and in-depth overview of recent advances in the field of KME. We first introduce a general formulation of KME to encompass different KME strategies. Afterward, we provide an innovative taxonomy of KME techniques based on how the new knowledge is introduced into pre-trained LLMs, and investigate existing KME strategies while analyzing key insights, advantages, and limitations of methods from each category. Moreover, representative metrics, datasets, and applications of KME are introduced accordingly. Finally, we provide an in-depth analysis regarding the practicality and remaining challenges of KME and suggest promising research directions for further advancement in this field. | 翻訳日:2023-10-28 00:25:11 公開日:2023-10-26 |
# ConvBKI: 定量不確実性を備えたリアルタイム確率的意味マッピングネットワーク ConvBKI: Real-Time Probabilistic Semantic Mapping Network with Quantifiable Uncertainty ( http://arxiv.org/abs/2310.16020v2 ) ライセンス: Link先を確認 | Joey Wilson, Yuewei Fu, Joshua Friesen, Parker Ewen, Andrew Capodieci, Paramsothy Jayakumar, Kira Barton, and Maani Ghaffari | (参考訳) 本稿では,不確実な環境でのリアルタイムセマンティックマッピングのためのモジュール型ニューラルネットワークを開発し,ニューラルネットワーク層内のボクセルごとの確率分布を明示的に更新する。
従来の確率アルゴリズムの信頼性と現代のニューラルネットワークの性能と効率を両立させる手法である。
ロボットの知覚は近代的な微分可能な方法と古典的な明示的な方法に分けられることが多いが、両者の融合はリアルタイムと信頼性の高いパフォーマンスに必要である。
本稿では,共役前処理を生かした畳み込みレイヤを通じて,オンラインのセグメンテーション予測を3次元マップに組み込んだ新しい畳み込みベイズカーネル推論(ConvBKI)手法を提案する。
convbkiと最先端のディープラーニングのアプローチと、信頼性とパフォーマンスを評価するための確率的アルゴリズムを比較した。
我々はまた、ConvBKIのロボットオペレーティングシステム(ROS)パッケージを作成し、現実の知覚的なオフロード運転データ上でテストする。 In this paper, we develop a modular neural network for real-time semantic mapping in uncertain environments, which explicitly updates per-voxel probabilistic distributions within a neural network layer. Our approach combines the reliability of classical probabilistic algorithms with the performance and efficiency of modern neural networks. Although robotic perception is often divided between modern differentiable methods and classical explicit methods, a union of both is necessary for real-time and trustworthy performance. We introduce a novel Convolutional Bayesian Kernel Inference (ConvBKI) layer which incorporates semantic segmentation predictions online into a 3D map through a depthwise convolution layer by leveraging conjugate priors. We compare ConvBKI against state-of-the-art deep learning approaches and probabilistic algorithms for mapping to evaluate reliability and performance. We also create a Robot Operating System (ROS) package of ConvBKI and test it on real-world perceptually challenging off-road driving data. | 翻訳日:2023-10-28 00:24:44 公開日:2023-10-26 |
# 画像合成のためのビュー条件の統合 Integrating View Conditions for Image Synthesis ( http://arxiv.org/abs/2310.16002v2 ) ライセンス: Link先を確認 | Jinbin Bai, Zhen Dong, Aosong Feng, Xiao Zhang, Tian Ye, Kaicheng Zhou, Mike Zheng Shou | (参考訳) 画像処理の分野では、既存の画像に複雑な意味的修正を適用することは永続的な課題である。
本稿では,視点情報を統合して画像編集タスクの制御性を高める,先駆的枠組みを提案する。
既存のオブジェクト編集手法を調査し,画像編集法に適合する3つの基本的な基準,一貫性,制御可能性,調和を抽出した。
従来の手法とは対照的に,本手法は画像合成の課題に対処するための3つの要件をすべて満たしている。
定量的評価と質的比較の両方を包含する包括的実験を通じて,多次元における我々の枠組みの優れた性能を示す説得力のある証拠を提示する。
この研究は、画像合成技術の進歩と、合成全体の視覚的コヒーレンスを保ちながら、精密なオブジェクト修正を促進するための有望な道を確立する。 In the field of image processing, applying intricate semantic modifications within existing images remains an enduring challenge. This paper introduces a pioneering framework that integrates viewpoint information to enhance the control of image editing tasks. By surveying existing object editing methodologies, we distill three essential criteria, consistency, controllability, and harmony, that should be met for an image editing method. In contrast to previous approaches, our method takes the lead in satisfying all three requirements for addressing the challenge of image synthesis. Through comprehensive experiments, encompassing both quantitative assessments and qualitative comparisons with contemporary state-of-the-art methods, we present compelling evidence of our framework's superior performance across multiple dimensions. This work establishes a promising avenue for advancing image synthesis techniques and empowering precise object modifications while preserving the visual coherence of the entire composition. | 翻訳日:2023-10-28 00:24:27 公開日:2023-10-26 |
# 不均一データに基づく分散深層学習のためのクロスファインコントラスト損失 Cross-feature Contrastive Loss for Decentralized Deep Learning on Heterogeneous Data ( http://arxiv.org/abs/2310.15890v2 ) ライセンス: Link先を確認 | Sai Aparna Aketi and Kaushik Roy | (参考訳) 現在の最先端の分散学習アルゴリズムは、データ分散を独立的かつ特定的分散(IID)とみなしている。
しかし、実際のシナリオでは、分散データセットはエージェント間で著しく異質なデータ分布を持つことができる。
本研究では,異種データを用いた分散学習の新たな手法を提案する。
一対の隣接するエージェントのクロスフィーチャは、他のエージェントのモデルパラメータに関してエージェントのデータから得られる特徴(すなわち最後の隠れ層活性化)である。
提案手法は,様々なコンピュータビジョンデータセット(cifar-10,cifar-100, fashion mnist,imagenette,imagenet),モデルアーキテクチャ,ネットワークトポロジ上で徹底的に実験を行い,その効果を示す。
実験の結果,提案手法は異種データを用いた分散学習手法に比べて性能(テスト精度0.2~4%向上)が優れていることがわかった。 The current state-of-the-art decentralized learning algorithms mostly assume the data distribution to be Independent and Identically Distributed (IID). However, in practical scenarios, the distributed datasets can have significantly heterogeneous data distributions across the agents. In this work, we present a novel approach for decentralized learning on heterogeneous data, where data-free knowledge distillation through contrastive loss on cross-features is utilized to improve performance. Cross-features for a pair of neighboring agents are the features (i.e., last hidden layer activations) obtained from the data of an agent with respect to the model parameters of the other agent. We demonstrate the effectiveness of the proposed technique through an exhaustive set of experiments on various Computer Vision datasets (CIFAR-10, CIFAR-100, Fashion MNIST, Imagenette, and ImageNet), model architectures, and network topologies. Our experiments show that the proposed method achieves superior performance (0.2-4% improvement in test accuracy) compared to other existing techniques for decentralized learning on heterogeneous data. | 翻訳日:2023-10-28 00:24:11 公開日:2023-10-26 |
# GNeSF: 一般化可能なニューラルセマンティックフィールド GNeSF: Generalizable Neural Semantic Fields ( http://arxiv.org/abs/2310.15712v2 ) ライセンス: Link先を確認 | Hanlin Chen, Chen Li, Mengqi Guo, Zhiwen Yan, Gim Hee Lee | (参考訳) 神経的暗黙的表現に基づく3次元シーンセグメンテーションが最近登場し,2次元監督によるトレーニングのみを活用している。
しかし、既存のアプローチでは推論中に新しいシーンへの一般化を禁止した高価なシーンごとの最適化が必要である。
この問題を回避するために,暗黙表現に基づく一般化可能な3次元セグメンテーションフレームワークを提案する。
具体的には,多視点画像特徴と意味マップを入力として,空間情報のみを入力とし,シーン固有の幾何学的・意味的情報への過度な適合を避ける。
本稿では,各3次元点の異なる視点から2次元意味情報を集約するソフト投票機構を提案する。
画像の特徴に加えて,我々のフレームワークでは,投票結果を予測するために,ビュー差情報も符号化されている。
直感的には、近くのビューからのセマンティックな情報は、遠くのビューよりも貢献できる。
さらに、可視性モジュールは、隠されたビューから有害情報を検出し、フィルタリングするように設計されている。
提案手法の汎用性により,意味マップを合成したり,2次元意味的監督だけで新規シーンの3次元意味セグメンテーションを行うことができる。
実験結果から,本手法はシーン特異的アプローチと同等の性能を示した。
さらに重要なことは、我々のアプローチは2Dアノテーションだけで既存の強力な監督ベースのアプローチより優れていることです。
ソースコードはhttps://github.com/hlinchen/gnesf.com/で入手できます。 3D scene segmentation based on neural implicit representation has emerged recently with the advantage of training only on 2D supervision. However, existing approaches still requires expensive per-scene optimization that prohibits generalization to novel scenes during inference. To circumvent this problem, we introduce a generalizable 3D segmentation framework based on implicit representation. Specifically, our framework takes in multi-view image features and semantic maps as the inputs instead of only spatial information to avoid overfitting to scene-specific geometric and semantic information. We propose a novel soft voting mechanism to aggregate the 2D semantic information from different views for each 3D point. In addition to the image features, view difference information is also encoded in our framework to predict the voting scores. Intuitively, this allows the semantic information from nearby views to contribute more compared to distant ones. Furthermore, a visibility module is also designed to detect and filter out detrimental information from occluded views. Due to the generalizability of our proposed method, we can synthesize semantic maps or conduct 3D semantic segmentation for novel scenes with solely 2D semantic supervision. Experimental results show that our approach achieves comparable performance with scene-specific approaches. More importantly, our approach can even outperform existing strong supervision-based approaches with only 2D annotations. Our source code is available at: https://github.com/HLinChen/GNeSF. | 翻訳日:2023-10-28 00:23:53 公開日:2023-10-26 |
# meteorモニタリングのためのdeep machine learning - transfer learningとgradient-weighted class activation mappingによる進歩 Deep machine learning for meteor monitoring: advances with transfer learning and gradient-weighted class activation mapping ( http://arxiv.org/abs/2310.16826v2 ) ライセンス: Link先を確認 | Eloy Pe\~na-Asensio, Josep M. Trigo-Rodr\'iguez, Pau Gr\`ebol-Tom\`as, David Regordosa-Avellana, Albert Rimola | (参考訳) 近年では、気象研究における光学検出システムの利用が劇的に増加し、膨大な量のデータが分析されている。
隕石の自動検出ツールは、連続的な隕石の入射流の研究、新しい隕石の回収、太陽系のより深い理解を達成するのに不可欠である。
隕石検出に関して、隕石と非気象画像の偽陽性の区別は伝統的に手作業で行われてきた。
この問題に対処するため,我々は,畳み込みニューラルネットワーク(cnns)を用いて候補流星検出を分類する完全自動化パイプラインを開発した。
提案手法では,雲や月,建物などの静的要素を含む画像においても,流星を検出できる。
各フレーム内の隕石を正確に検出するために、グラディエント重み付きクラス活性化マッピング(Grad-CAM)技術を用いる。
この方法では、最後の畳み込み層からのアクティベーションを、その層の特徴マップ上の勾配の平均値に乗じることで、関心領域の識別を容易にする。
これらの知見を第1畳み込み層から導出した活性化マップと組み合わせることで、隕石の最も可能性の高い画素位置を効果的に特定する。
本研究では,スペインのmeteor network (spmn) が収集した大規模データセット上でモデルをトレーニングし,98\%の精度で評価した。
今回紹介した新しい手法は,流星科学者とステーションオペレータの作業負荷を低減し,流星追跡と分類の精度を向上させる可能性を秘めている。 In recent decades, the use of optical detection systems for meteor studies has increased dramatically, resulting in huge amounts of data being analyzed. Automated meteor detection tools are essential for studying the continuous meteoroid incoming flux, recovering fresh meteorites, and achieving a better understanding of our Solar System. Concerning meteor detection, distinguishing false positives between meteor and non-meteor images has traditionally been performed by hand, which is significantly time-consuming. To address this issue, we developed a fully automated pipeline that uses Convolutional Neural Networks (CNNs) to classify candidate meteor detections. Our new method is able to detect meteors even in images that contain static elements such as clouds, the Moon, and buildings. To accurately locate the meteor within each frame, we employ the Gradient-weighted Class Activation Mapping (Grad-CAM) technique. This method facilitates the identification of the region of interest by multiplying the activations from the last convolutional layer with the average of the gradients across the feature map of that layer. By combining these findings with the activation map derived from the first convolutional layer, we effectively pinpoint the most probable pixel location of the meteor. We trained and evaluated our model on a large dataset collected by the Spanish Meteor Network (SPMN) and achieved a precision of 98\%. Our new methodology presented here has the potential to reduce the workload of meteor scientists and station operators and improve the accuracy of meteor tracking and classification. | 翻訳日:2023-10-28 00:16:53 公開日:2023-10-26 |
# DreamCraft3D: ブートストラップ付き拡散による階層型3D生成 DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior ( http://arxiv.org/abs/2310.16818v2 ) ライセンス: Link先を確認 | Jingxiang Sun and Bo Zhang and Ruizhi Shao and Lizhen Wang and Wen Liu and Zhenda Xie and Yebin Liu | (参考訳) 高度でコヒーレントな3dオブジェクトを生成する階層的3dコンテンツ生成手法dreamcraft3dを提案する。
本研究では2次元参照画像を利用して幾何学的彫刻とテクスチャ強化の段階を導出する。
この作業の中心は、既存の作業が遭遇する一貫性の問題に対処することである。
コヒーレントにレンダリングするジオメトリを彫刻するために,ビュー依存拡散モデルを用いてスコア蒸留サンプリングを行う。
この3D事前は、いくつかのトレーニング戦略とともに、幾何整合性を優先するが、テクスチャの忠実度を損なう。
さらに, テクスチャを特に増強するBootstrapped Score Distillationを提案する。
そこで我々は,シーンの付加的なレンダリングにパーソナライズされた拡散モデルdreamboothを訓練し,シーンの最適化に関する3d知識を付与する。
この3D対応拡散によるスコアの蒸留は、シーンに対するビュー一貫性のあるガイダンスを提供する。
特に,拡散前の3次元シーン表現と3次元シーン表現を交互に最適化することにより,シーン固有の拡散モデルのトレーニングにおける最適化された3次元シーンアシストという相互強化を実現する。
最適化はブートストラップされ、テクスチャが大幅に向上する。
階層的生成を通じて3dプリエントをカスタマイズすることで、dreamcraft3dはコヒーレントな3dオブジェクトをフォトリアリスティックなレンダリングで生成し、3dコンテンツ生成の最先端を前進させる。
コードはhttps://github.com/deepseek-ai/dreamcraft3d。 We present DreamCraft3D, a hierarchical 3D content generation method that produces high-fidelity and coherent 3D objects. We tackle the problem by leveraging a 2D reference image to guide the stages of geometry sculpting and texture boosting. A central focus of this work is to address the consistency issue that existing works encounter. To sculpt geometries that render coherently, we perform score distillation sampling via a view-dependent diffusion model. This 3D prior, alongside several training strategies, prioritizes the geometry consistency but compromises the texture fidelity. We further propose Bootstrapped Score Distillation to specifically boost the texture. We train a personalized diffusion model, Dreambooth, on the augmented renderings of the scene, imbuing it with 3D knowledge of the scene being optimized. The score distillation from this 3D-aware diffusion prior provides view-consistent guidance for the scene. Notably, through an alternating optimization of the diffusion prior and 3D scene representation, we achieve mutually reinforcing improvements: the optimized 3D scene aids in training the scene-specific diffusion model, which offers increasingly view-consistent guidance for 3D optimization. The optimization is thus bootstrapped and leads to substantial texture boosting. With tailored 3D priors throughout the hierarchical generation, DreamCraft3D generates coherent 3D objects with photorealistic renderings, advancing the state-of-the-art in 3D content generation. Code available at https://github.com/deepseek-ai/DreamCraft3D. | 翻訳日:2023-10-28 00:16:27 公開日:2023-10-26 |
# キャビティリセットと冷却のためのオンデマンド駆動散逸 On-demand driven dissipation for cavity reset and cooling ( http://arxiv.org/abs/2310.16785v2 ) ライセンス: Link先を確認 | Vivek Maurya, Haimeng Zhang, Daria Kowsari, Andre Kuo, Darian M. Hartsell, Clark Miyamoto, Jocelyn Liu, Sadman Shanto, Azarin Zarassi, Kater W. Murch, and Eli M. Levenson-Falk | (参考訳) 電磁界の目標モード上で能動的かつオンデマンドで調整可能な消散を提供する超伝導回路装置を提案する。
このデバイスは波長可変カプラをベースとし、広帯域フィルタモードと共振すると損失を発生させることができる。
パラメトリックに駆動すると、このカプラは駆動周波数に等しいエネルギーを調整した任意のモードの損失を誘導する。
本研究では, 超伝導量子ビットのリードアウトキャビティを測定後にリセットし, 20 ns以下の特性時間でリセットした。
また, 消散は連続的に行うことができ, キャビティの熱光子変動を抑制し, 関連する脱コヒーレンスチャネルとして熱光子変動を効果的に除去できることを示した。
本研究は,回路QEDにおける環境工学およびエントロピー除去のためのモジュールツールとしての有用性を示す。 We present a superconducting circuit device that provides active, on-demand, tunable dissipation on a target mode of the electromagnetic field. Our device is based on a tunable coupler that can be made lossy when tuned into resonance with a broadband filter mode. When driven parametrically, this coupler induces loss on any mode coupled to it with energy detuning equal to the drive frequency. We demonstrate the use of this device to reset a superconducting qubit's readout cavity after a measurement, resetting it with a characteristic time of under 20 ns. We also demonstrate that the dissipation can be driven constantly and thus suppress thermal photon fluctuations in the cavity, effectively eliminating thermal photon fluctuations as a relevant decoherence channel. Our results demonstrate the utility of our device as a modular tool for environmental engineering and entropy removal in circuit QED. | 翻訳日:2023-10-28 00:16:01 公開日:2023-10-26 |
# マルチスケール拡散分別平滑化 Multi-scale Diffusion Denoised Smoothing ( http://arxiv.org/abs/2310.16779v2 ) ライセンス: Link先を確認 | Jongheon Jeong, Jinwoo Shin | (参考訳) 最近の拡散モデルとともに、ランダム化スムーシングは、大規模な事前訓練されたモデルのモデルに対する対角的堅牢性を提供するいくつかの具体的なアプローチの1つとなっている。
具体的には、拡散モデルのような正確な denoiser が利用できることを前提に、単純な "denoise-and-classify" パイプライン、いわゆる denoized smoothing を通じて任意の分類器上でランダム化スムーシングを実行することができる。
本稿では,正規化平滑化におけるロバスト性保証と精度のトレードオフに対処するために,スケーラブルな手法を提案する。
一つの拡散モデルで効率よく実装できるマルチスケールなスムース化という,複数のノイズスケール間のスムース化を「選択的に」適用することを目的としている。
このアプローチはまた、複数スケールの平滑化分類器の集団的ロバスト性を比較する新しい目的と、拡散モデルの表現が目的を最大化するかどうかを問うものである。
この問題に対処するため,我々はさらに微動拡散モデルを提案する。
(a)原画像が復元可能であればいつでも一貫した弁別を行うが
b) 非常に多様な出力を生成すること。
提案手法と拡散微細調整を併用したマルチスケール平滑化手法により,非滑らかな分類器に近い精度を維持しつつ,高雑音レベルで高い信頼性の頑健性が得られることを示す。 Along with recent diffusion models, randomized smoothing has become one of a few tangible approaches that offers adversarial robustness to models at scale, e.g., those of large pre-trained models. Specifically, one can perform randomized smoothing on any classifier via a simple "denoise-and-classify" pipeline, so-called denoised smoothing, given that an accurate denoiser is available - such as diffusion model. In this paper, we present scalable methods to address the current trade-off between certified robustness and accuracy in denoised smoothing. Our key idea is to "selectively" apply smoothing among multiple noise scales, coined multi-scale smoothing, which can be efficiently implemented with a single diffusion model. This approach also suggests a new objective to compare the collective robustness of multi-scale smoothed classifiers, and questions which representation of diffusion model would maximize the objective. To address this, we propose to further fine-tune diffusion model (a) to perform consistent denoising whenever the original image is recoverable, but (b) to generate rather diverse outputs otherwise. Our experiments show that the proposed multi-scale smoothing scheme combined with diffusion fine-tuning enables strong certified robustness available with high noise level while maintaining its accuracy closer to non-smoothed classifiers. | 翻訳日:2023-10-28 00:15:46 公開日:2023-10-26 |
# deft: 教師なしコアセット選択による大規模言語モデルのデータ効率的な微調整 DEFT: Data Efficient Fine-Tuning for Large Language Models via Unsupervised Core-Set Selection ( http://arxiv.org/abs/2310.16776v2 ) ライセンス: Link先を確認 | Devleena Das, Vivek Khetan | (参考訳) 近年の進歩により、多くの事前学習言語モデル(PLM)が利用可能になったが、ダウンストリームタスクでPLMを微調整するには、どの程度のデータが必要か、疑問が残る。
本稿では,教師なしのコアセット選択を活用し,ダウンストリームタスクのplmを微調整するために必要なデータ量を最小化する,データ効率のよい微調整フレームワークdeftを紹介する。
我々は,テキスト編集LMにおけるDEFTフレームワークの有効性を実証し,最先端のテキスト編集モデルであるCoEDITと比較した。
定量的および定性的な結果から, DEFT モデルは CoEDIT と同程度の精度で, 約70% の精度で微調整可能であることが示された。 Recent advances have led to the availability of many pre-trained language models (PLMs); however, a question that remains is how much data is truly needed to fine-tune PLMs for downstream tasks? In this work, we introduce DEFT, a data-efficient fine-tuning framework that leverages unsupervised core-set selection to minimize the amount of data needed to fine-tune PLMs for downstream tasks. We demonstrate the efficacy of our DEFT framework in the context of text-editing LMs, and compare to the state-of-the art text-editing model, CoEDIT. Our quantitative and qualitative results demonstrate that DEFT models are just as accurate as CoEDIT while being finetuned on ~70% less data. | 翻訳日:2023-10-28 00:15:20 公開日:2023-10-26 |
# NMDA受容体活性に及ぼす磁場効果のラジカルペアモデル Radical Pair Model for Magnetic Field Effects on NMDA Receptor Activity ( http://arxiv.org/abs/2310.16725v2 ) ライセンス: Link先を確認 | Parvathy S Nair, Hadi Zadeh-Haghighi and Christoph Simon | (参考訳) N-メチル-D-アスパラギン酸受容体は、脳の発達と機能において顕著な役割を担っている。
磁場のような外部刺激による機能への摂動は、様々な方法で脳に影響を及ぼす可能性がある。
様々な研究により、異なる強度の磁場がこれらの受容体に影響を与えることが示されている。
量子力学的プロセスであるラジカルペア機構は、これらのフィールド効果のいくつかを説明することができる。
rがセリンまたはチロシンであるタンパク質残基である[\mbox{ro}^\bullet \mbox{ mg($\mbox{h}_2$o$)_n$}^{+\bullet}]$という形のラジカルが本研究で検討されている。
磁場強度の関数としてのラジカル対の単分率の変動は、磁場がラジカル対反応の生成物にどのように影響するかを理解するために計算される。
この結果に基づき、ラジカル対機構は受容体活性に観察される磁場効果を説明する候補となる。
このモデルは磁場強度が変化するにつれてシステムの挙動の変化を予測し、特定の同位体効果も予測する。
さらに、ラジカル対に対する同様の効果は、脳内の様々な磁場効果のもっともらしい説明である可能性が示唆された。 The N-methyl-D-aspartate receptor is a prominent player in brain development and functioning. Perturbations to its functioning through external stimuli like magnetic fields can potentially affect the brain in numerous ways. Various studies have shown that magnetic fields of varying strengths affect these receptors. We propose that the radical pair mechanism, a quantum mechanical process, could explain some of these field effects. Radicals of the form $[\mbox{RO}^\bullet \mbox{ Mg($\mbox{H}_2$O$)_n$}^{+\bullet}]$, where R is a protein residue that can be Serine or Tyrosine, are considered for this study. The variation in the singlet fractional yield of the radical pairs, as a function of magnetic field strength, is calculated to understand how the magnetic field affects the products of the radical pair reactions. Based on the results, the radical pair mechanism is a likely candidate for explaining the magnetic field effects observed on the receptor activity. The model predicts changes in the behaviour of the system as magnetic field strength is varied and also predicts certain isotope effects. The results further suggest that similar effects on radical pairs could be a plausible explanation for various magnetic field effects within the brain. | 翻訳日:2023-10-28 00:15:06 公開日:2023-10-26 |
# SkyMath:テクニカルレポート SkyMath: Technical Report ( http://arxiv.org/abs/2310.16713v2 ) ライセンス: Link先を確認 | Liu Yang, Haihua Yang, Wenjun Cheng, Lei Lin, Chenxia Li, Yifu Chen, Lunan Liu, Jianfei Pan, Tianwen Wei, Biye Li, Liang Zhao, Lijie Wang, Bo Zhu, Guoliang Li, Xuejie Wu, Xilin Luo, Rui Hu | (参考訳) 大規模言語モデル(LLM)は、数学的推論を含む様々な自然言語処理(NLP)タスクを解く大きな可能性を示している。
そこで本研究では,130億パラメータを持つ数学用大規模言語モデルskymathを提案する。
自己補完ファインチューニングを適用し,Skywork-13B-Baseの数学的推論能力を著しく向上させた。
GSM8Kでは、SkyMathは、同じサイズのすべての既知のオープンソースモデルより優れており、新しいSOTAパフォーマンスを確立している。 Large language models (LLMs) have shown great potential to solve varieties of natural language processing (NLP) tasks, including mathematical reasoning. In this work, we present SkyMath, a large language model for mathematics with 13 billion parameters. By applying self-compare fine-tuning, we have enhanced mathematical reasoning abilities of Skywork-13B-Base remarkably. On GSM8K, SkyMath outperforms all known open-source models of similar size and has established a new SOTA performance. | 翻訳日:2023-10-28 00:14:41 公開日:2023-10-26 |
# 粒子混合の有効場理論 Effective field theory of particle mixing ( http://arxiv.org/abs/2310.17070v1 ) ライセンス: Link先を確認 | Shuyang Cao, Daniel Boyanovsky | (参考訳) 媒質中の共役減衰チャネルへの結合によって引き起こされる2つの場の非間接的混合の研究に有効な場理論を導入する。
調味された中間子におけるcp違反の解析の基礎となるlee, oehme, yang法の拡張は、異なる質量の粒子の混合を含むことで、実効場理論のガイドとベンチマークを提供する。
この解析は、広く使われている非エルミート実効ハミルトニアン(非退化の場合より急性)のミキシングの記述における微妙な注意点を明らかにしている。
実効場理論は、共通中間状態が熱平衡で浴槽を浮上させる場混合の力学を \emph{open quantum system} として記述する。
カップリングにおいて, 間接混合が外対角自己エネルギー成分の結果となる2次までの有効作用を得る。
混合フィールドの一方のみが初期期待値を特徴付ける場合、間接混合は他方のフィールドの期待値を誘導する。
等時2点相関関数は、定常熱状態への漸近的なアプローチを示し、媒体中の準正規モードの干渉の結果量子ビートを表示する長寿命な 'emph{bath induced} coherence の出現を示す。
量子ビートの振幅は、観測結果のほぼ退化した場合において共鳴的に増強される。 We introduce an effective field theory to study \emph{indirect} mixing of two fields induced by their couplings to a common decay channel in a medium. The extension of the method of Lee, Oehme and Yang, the cornerstone of analysis of CP violation in flavored mesons, to include mixing of particles with different masses provides a guide to and benchmark for the effective field theory. The analysis reveals subtle caveats in the description of mixing in terms of the widely used non-Hermitian effective Hamiltonian, more acute in the non-degenerate case. The effective field theory describes the dynamics of field mixing where the common intermediate states populate a bath in thermal equilibrium, as an \emph{open quantum system}. We obtain the effective action up to second order in the couplings, where indirect mixing is a consequence of off-diagonal self-energy components. We find that if only one of the mixing fields features an initial expectation value, indirect mixing induces an expectation value of the other field. The equal time two point correlation functions exhibit asymptotic approach to a stationary thermal state, and the emergence of long-lived \emph{bath induced} coherence which display quantum beats as a consequence of interference of quasinormal modes in the medium. The amplitudes of the quantum beats are resonantly enhanced in the nearly degenerate case with potential observational consequences. | 翻訳日:2023-10-27 22:56:55 公開日:2023-10-26 |
# 適応クルーズ制御車両におけるステルスサイバー攻撃検出--機械学習によるアプローチ Detecting stealthy cyberattacks on adaptive cruise control vehicles: A machine learning approach ( http://arxiv.org/abs/2310.17091v1 ) ライセンス: Link先を確認 | Tianyi Li, Mingfeng Shang, Shian Wang, Raphael Stern | (参考訳) アダプティブ・クルーズ・コントロール(acc)などの自動運転機能などの高度な運転支援システムを備えた車両の出現に伴い、これらの自動車両(avs)に対するサイバー攻撃の可能性が浮上している。
車両の衝突を強要する過度な攻撃は容易に識別できるが、運転行動がわずかに変化したより汚い攻撃は、容易に検出されることなく、ネットワーク全体の渋滞、燃料消費、さらにはクラッシュリスクも増加させる。
このような攻撃の検出に対処するために,まず,車両制御コマンドの不正な操作,センサ計測に対する偽データ注入攻撃,DoS攻撃の3種類の潜在的なサイバー攻撃に対するトラフィックモデルフレームワークを提案する。
次に、個々の車両(マイクロ)とトラフィックフロー(マクロ)の両方に対する攻撃の影響について検討する。
車両軌道データを用いた攻撃のリアルタイム同定のために, 新たな生成型逆ネットワーク(gan)に基づく異常検出モデルを提案する。
ACC搭載車両のサイバー攻撃検出における機械学習手法の有効性を実証する数値的証拠を提供する。
提案手法は,最近提案されたニューラルネットモデルと比較し,acc車両の異常運転挙動の同定において高い精度を示した。 With the advent of vehicles equipped with advanced driver-assistance systems, such as adaptive cruise control (ACC) and other automated driving features, the potential for cyberattacks on these automated vehicles (AVs) has emerged. While overt attacks that force vehicles to collide may be easily identified, more insidious attacks, which only slightly alter driving behavior, can result in network-wide increases in congestion, fuel consumption, and even crash risk without being easily detected. To address the detection of such attacks, we first present a traffic model framework for three types of potential cyberattacks: malicious manipulation of vehicle control commands, false data injection attacks on sensor measurements, and denial-of-service (DoS) attacks. We then investigate the impacts of these attacks at both the individual vehicle (micro) and traffic flow (macro) levels. A novel generative adversarial network (GAN)-based anomaly detection model is proposed for real-time identification of such attacks using vehicle trajectory data. We provide numerical evidence {to demonstrate} the efficacy of our machine learning approach in detecting cyberattacks on ACC-equipped vehicles. The proposed method is compared against some recently proposed neural network models and observed to have higher accuracy in identifying anomalous driving behaviors of ACC vehicles. | 翻訳日:2023-10-27 22:44:57 公開日:2023-10-26 |
# 良い規則性は、大きな学習率の暗黙のバイアスを生み出す:安定性、バランス、カタパルト Good regularity creates large learning rate implicit biases: edge of stability, balancing, and catapult ( http://arxiv.org/abs/2310.17087v1 ) ライセンス: Link先を確認 | Yuqing Wang, Zhenghao Xu, Tuo Zhao, Molei Tao | (参考訳) 非凸最適化の勾配降下に適用された大きな学習率は、安定性の辺(cohen et al., 2021)、バランス(wang et al., 2022)、カタパルト(lewkowycz et al., 2020)を含む様々な暗黙のバイアスをもたらす。
これらの現象は古典最適化理論では十分に説明できない。
これらの暗黙の偏見を理解するために重要な理論的な進歩があったが、どの目的関数が生じるのかは未だ分かっていない。
本稿では,この疑問に答える最初のステップを示す。すなわち,これらの暗黙のバイアスは,実際には同じ氷山における様々なヒントである。
最適化の客観的関数が、より平坦な領域に向かうための大きな学習率勾配降下の証明可能な選好と組み合わせて、これらの非自明な力学現象をもたらすときに生じる。
この結果を確立するために,既存の収束解析で一般的に想定される,グローバルリプシッツ連続勾配を伴わない非凸関数群に対して,大きな学習率の下で新たな大域収束理論を考案する。
副生成物は非凸関数の大規模学習速度勾配勾配最適化のための最初の非漸近収束速度である。
また,本理論をニューラルネットワーク実験で検証し,損失,活性化関数,バッチ正規化のそれぞれが正則性に大きく影響し,トレーニングダイナミクスが全く異なる場合について検証した。 Large learning rates, when applied to gradient descent for nonconvex optimization, yield various implicit biases including the edge of stability (Cohen et al., 2021), balancing (Wang et al., 2022), and catapult (Lewkowycz et al., 2020). These phenomena cannot be well explained by classical optimization theory. Though significant theoretical progress has been made in understanding these implicit biases, it remains unclear for which objective functions would they occur. This paper provides an initial step in answering this question, namely that these implicit biases are in fact various tips of the same iceberg. They occur when the objective function of optimization has some good regularity, which, in combination with a provable preference of large learning rate gradient descent for moving toward flatter regions, results in these nontrivial dynamical phenomena. To establish this result, we develop a new global convergence theory under large learning rates, for a family of nonconvex functions without globally Lipschitz continuous gradient, which was typically assumed in existing convergence analysis. A byproduct is the first non-asymptotic convergence rate bound for large-learning-rate gradient descent optimization of nonconvex functions. We also validate our theory with experiments on neural networks, where different losses, activation functions, and batch normalization all can significantly affect regularity and lead to very different training dynamics. | 翻訳日:2023-10-27 22:44:36 公開日:2023-10-26 |
# インテクスト学習のための高次最適化法を変換者が学習する:線形モデルによる検討 Transformers Learn Higher-Order Optimization Methods for In-Context Learning: A Study with Linear Models ( http://arxiv.org/abs/2310.17086v1 ) ライセンス: Link先を確認 | Deqing Fu, Tian-Qi Chen, Robin Jia, Vatsal Sharan | (参考訳) トランスフォーマーは、ICL(In-context Learning) -- パラメータ更新のないデモから学ぶ -- が、ICLの実行方法はまだ謎のままだ。
最近の研究は、トランスフォーマーが1次最適化法であるGradient Descentを内部で実行することで、コンテキスト内で学習できることを示唆している。
そこで本稿では,トランスフォーマーがICLを実現するために高次最適化手法を実装することを実証する。
In-context linear regression に着目し,Transformer は高次最適化法である Iterative Newton's Method と非常によく似たアルゴリズムを実装することを学ぶ。
実験により,連続するトランスフォーマー層からの予測はNewtonのメソッドの異なるイテレーションと線形に一致し,各中間層は3つのイテレーションを大まかに計算することを示した。
これとは対照的に、付加的なトランスフォーマー層と一致するために指数関数的に勾配降下ステップが必要であり、これは変圧器が勾配降下よりも指数関数的に速い反復ニュートンのような高次法と同等の収束率を持つことを示唆している。
また、Transformerは、Gradient Descentが苦戦するがIterative Newtonが成功するような環境で、不調なデータを使ってコンテキストで学習できることを示す。
最後に、実験結果をサポートし、それらと密接な対応を持つ理論的結果を示す: トランスフォーマーは、$\mathcal{O}(k)$レイヤでNewtonのメソッドの反復を$k$で実装できることを証明する。 Transformers are remarkably good at in-context learning (ICL) -- learning from demonstrations without parameter updates -- but how they perform ICL remains a mystery. Recent work suggests that Transformers may learn in-context by internally running Gradient Descent, a first-order optimization method. In this paper, we instead demonstrate that Transformers learn to implement higher-order optimization methods to perform ICL. Focusing on in-context linear regression, we show that Transformers learn to implement an algorithm very similar to Iterative Newton's Method, a higher-order optimization method, rather than Gradient Descent. Empirically, we show that predictions from successive Transformer layers closely match different iterations of Newton's Method linearly, with each middle layer roughly computing 3 iterations. In contrast, exponentially more Gradient Descent steps are needed to match an additional Transformers layer; this suggests that Transformers have an comparable rate of convergence with high-order methods such as Iterative Newton, which are exponentially faster than Gradient Descent. We also show that Transformers can learn in-context on ill-conditioned data, a setting where Gradient Descent struggles but Iterative Newton succeeds. Finally, we show theoretical results which support our empirical findings and have a close correspondence with them: we prove that Transformers can implement $k$ iterations of Newton's method with $\mathcal{O}(k)$ layers. | 翻訳日:2023-10-27 22:44:08 公開日:2023-10-26 |
# 広帯域CPWを用いたインピーダンス変換ジョセフソンパラメトリック増幅器 Broadband CPW-based impedance-transformed Josephson parametric amplifier ( http://arxiv.org/abs/2310.17084v1 ) ライセンス: Link先を確認 | Bingcheng Qing, Long B. Nguyen, Xinyu Liu, Hengjiang Ren, William P. Livingston, Noah Goss, Ahmed Hajr, Trevor Chistolini, Zahra Pedramrazi, David I. Santiago, Jie Luo, and Irfan Siddiqi | (参考訳) 量子制限ジョセフソンパラメトリック増幅器は、弱いマイクロ波信号の高速かつ高忠実な測定を可能にすることで、回路量子電磁力学の分野の進展に重要な役割を果たしている。
そのため、低雑音、広帯域、マイクロ波検出設計の複雑さを低減したロバストパラメトリック増幅器を開発する必要がある。
しかし、現在の広帯域パラメトリック増幅器はノイズ性能を低下させたり、複雑な設計に依存している。
本稿では,広帯域インピーダンス変換型ジョセフソンパラメトリック増幅器(impa)に基づく,ホーン状コプラナー導波路(cpw)の伝送路を一体化したデバイスを提案する。
この装置は、平均飽和電力が-110dBmで、量子制限付ノイズに近い15(20)dBゲインに対して700(200)MHzの瞬時帯域幅を示す。
動作周波数は外部フラックスバイアスを用いて1.4GHzで調整できる。
我々はさらに、トランスモンキュービット上でデバイスからの無視できないバックアクションを実証する。
このデバイスの増幅性能とシンプルさは、量子計測、量子通信、量子情報処理において幅広い適応を約束する。 Quantum-limited Josephson parametric amplifiers play a pivotal role in advancing the field of circuit quantum electrodynamics by enabling the fast and high-fidelity measurement of weak microwave signals. Therefore, it is necessary to develop robust parametric amplifiers with low noise, broad bandwidth, and reduced design complexity for microwave detection. However, current broadband parametric amplifiers either have degraded noise performance or rely on complex designs. Here, we present a device based on the broadband impedance-transformed Josephson parametric amplifier (IMPA) that integrates a horn-like coplanar waveguide (CPW) transmission line, which significantly decreases the design and fabrication complexity, while keeping comparable performance. The device shows an instantaneous bandwidth of 700(200) MHz for 15(20) dB gain with an average saturation power of -110 dBm and near quantum-limited added noise. The operating frequency can be tuned over 1.4 GHz using an external flux bias. We further demonstrate the negligible back-action from our device on a transmon qubit. The amplification performance and simplicity of our device promise its wide adaptation in quantum metrology, quantum communication, and quantum information processing. | 翻訳日:2023-10-27 22:43:37 公開日:2023-10-26 |
# 時間経過画像のインスタンス分割を用いた生態学的研究におけるlichenモニタリングの自動化 Automating lichen monitoring in ecological studies using instance segmentation of time-lapse images ( http://arxiv.org/abs/2310.17080v1 ) ライセンス: Link先を確認 | Safwen Naimi, Olfa Koubaa, Wassim Bouachir, Guillaume-Alexandre Bilodeau, Gregory Jeddore, Patricia Baines, David Correia, Andre Arsenault | (参考訳) ライチェン(Lichen)は、様々な環境で生育する菌類、藻類、シアノバクテリアからなる共生生物である。
炭素と窒素の循環において重要な役割を担い、直接的かつ間接的に生物多様性に寄与する。
生態学者は通常、空気の質と生息環境を評価する指標としてそれを用いて地衣類を監視する。
特に、樹木に棲息する葉緑豊かな地衣類は、空気の質と環境の健康の重要な指標である。
新しい方法では、タイムラプスカメラを使って地衣類の集団の画像を収集する。
これらのカメラはニューファンドランドとラブラドールの生態学者によって画像を分析し手動で分類し、地衣類のタルリの状態と変化を判定するために使用される。
これらの方法は時間がかかり、オブザーバーバイアスに影響を受けやすい。
本研究は, 長期にわたってキッチンのモニタリングを自動化し, 生態学者の業務を促進するために, バイオマスと条件を推定することを目的とする。
これを実現するために,提案フレームワークは,時間経過画像上での着生着床のモニタリングとバイオマス推定を自動化するための効果的なトレーニング手法を用いたセマンティックセグメンテーションを用いた。
本手法は,森林生態学者や環境科学者にとって,気候変動がカナダの森林に与える影響を評価する上で有用なツールであると考えられる。
私たちの知る限りでは、このようなアプローチが生態学者の疫学の観察と分析を助けるのに使われたのは今回が初めてです。 Lichens are symbiotic organisms composed of fungi, algae, and/or cyanobacteria that thrive in a variety of environments. They play important roles in carbon and nitrogen cycling, and contribute directly and indirectly to biodiversity. Ecologists typically monitor lichens by using them as indicators to assess air quality and habitat conditions. In particular, epiphytic lichens, which live on trees, are key markers of air quality and environmental health. A new method of monitoring epiphytic lichens involves using time-lapse cameras to gather images of lichen populations. These cameras are used by ecologists in Newfoundland and Labrador to subsequently analyze and manually segment the images to determine lichen thalli condition and change. These methods are time-consuming and susceptible to observer bias. In this work, we aim to automate the monitoring of lichens over extended periods and to estimate their biomass and condition to facilitate the task of ecologists. To accomplish this, our proposed framework uses semantic segmentation with an effective training approach to automate monitoring and biomass estimation of epiphytic lichens on time-lapse images. We show that our method has the potential to significantly improve the accuracy and efficiency of lichen population monitoring, making it a valuable tool for forest ecologists and environmental scientists to evaluate the impact of climate change on Canada's forests. To the best of our knowledge, this is the first time that such an approach has been used to assist ecologists in monitoring and analyzing epiphytic lichens. | 翻訳日:2023-10-27 22:43:15 公開日:2023-10-26 |
# hct : パーキンソン病検出のためのハイブリッドconvnet-transformerと歩行からの重症度予測 HCT: Hybrid Convnet-Transformer for Parkinson's disease detection and severity prediction from gait ( http://arxiv.org/abs/2310.17078v1 ) ライセンス: Link先を確認 | Safwen Naimi, Wassim Bouachir, Guillaume-Alexandre Bilodeau | (参考訳) 本稿では,歩行データからパーキンソン病(pd)を検出・診断するための新しいハイブリッドconvnet-transformerアーキテクチャに基づく新しい深層学習法を提案する。
問題を2つのサブ問題に分割することにより,2段階のアプローチを採用する。
我々のハイブリッドConvNet-Transformerモデルは、まず健康とパーキンソン病の患者を区別する。
パーキンソン病患者の場合、マルチクラスハイブリッドconvnet-transformerモデルは、pd重症度ステージを評価するためにhoehn and yahr (h&y)スコアを決定する。
我々のハイブリッドアーキテクチャは、畳み込みニューラルネットワーク(convnets)とトランスフォーマーの両方の強みを利用して、pdを正確に検出し、重大度ステージを決定する。
特に、convnetsを利用してデータのローカルパターンや相関をキャプチャし、トランスフォーマーを利用して入力信号の長期的な依存性を処理します。
提案手法は, pd検出精度97%, 重み付きステージング精度87%において, 他の最先端手法と比較して優れた性能が得られることを示す。
ソースコードはhttps://github.com/safwennaimi In this paper, we propose a novel deep learning method based on a new Hybrid ConvNet-Transformer architecture to detect and stage Parkinson's disease (PD) from gait data. We adopt a two-step approach by dividing the problem into two sub-problems. Our Hybrid ConvNet-Transformer model first distinguishes healthy versus parkinsonian patients. If the patient is parkinsonian, a multi-class Hybrid ConvNet-Transformer model determines the Hoehn and Yahr (H&Y) score to assess the PD severity stage. Our hybrid architecture exploits the strengths of both Convolutional Neural Networks (ConvNets) and Transformers to accurately detect PD and determine the severity stage. In particular, we take advantage of ConvNets to capture local patterns and correlations in the data, while we exploit Transformers for handling long-term dependencies in the input signal. We show that our hybrid method achieves superior performance when compared to other state-of-the-art methods, with a PD detection accuracy of 97% and a severity staging accuracy of 87%. Our source code is available at: https://github.com/SafwenNaimi | 翻訳日:2023-10-27 22:42:51 公開日:2023-10-26 |
# HyperFields:テキストからのNeRFのゼロショット生成を目指して HyperFields: Towards Zero-Shot Generation of NeRFs from Text ( http://arxiv.org/abs/2310.17075v1 ) ライセンス: Link先を確認 | Sudarshan Babu, Richard Liu, Avery Zhou, Michael Maire, Greg Shakhnarovich, Rana Hanocka | (参考訳) テキスト条件付きニューラルラジアンスフィールド(NeRF)を1つのフォワードパスで(任意に)微調整で生成する手法であるHyperFieldsを紹介する。
私たちのアプローチの鍵は
i) テキストトークンの埋め込みからNeRF空間へのスムーズなマッピングを学習する動的ハイパーネットワーク
(II)個々のNeRFに符号化されたシーンを1つの動的ハイパーネットワークに蒸留するNeRF蒸留訓練。
これらの技術により、1つのネットワークが100以上のユニークなシーンに収まる。
さらに、ハイパーフィールドはテキストとnerfsの間のより一般的なマップを学習し、その結果、ゼロショットか数回の微調整ステップで、新しい分布内および分布外シーンを予測できることを実証する。
ハイパーフィールドの微調整は、学習された一般マップによる収束の促進から恩恵を受け、既存のニューラル最適化ベースの方法よりも5倍から10倍速く新しいシーンを合成することができる。
我々のアブレーション実験は, 動的構造とNeRF蒸留の両方がHyperFieldの表現性に重要であることを示した。 We introduce HyperFields, a method for generating text-conditioned Neural Radiance Fields (NeRFs) with a single forward pass and (optionally) some fine-tuning. Key to our approach are: (i) a dynamic hypernetwork, which learns a smooth mapping from text token embeddings to the space of NeRFs; (ii) NeRF distillation training, which distills scenes encoded in individual NeRFs into one dynamic hypernetwork. These techniques enable a single network to fit over a hundred unique scenes. We further demonstrate that HyperFields learns a more general map between text and NeRFs, and consequently is capable of predicting novel in-distribution and out-of-distribution scenes -- either zero-shot or with a few finetuning steps. Finetuning HyperFields benefits from accelerated convergence thanks to the learned general map, and is capable of synthesizing novel scenes 5 to 10 times faster than existing neural optimization-based methods. Our ablation experiments show that both the dynamic architecture and NeRF distillation are critical to the expressivity of HyperFields. | 翻訳日:2023-10-27 22:42:28 公開日:2023-10-26 |
# 学習率の大きい確率的勾配降下の良性振動 Benign Oscillation of Stochastic Gradient Descent with Large Learning Rates ( http://arxiv.org/abs/2310.17074v1 ) ライセンス: Link先を確認 | Miao Lu, Beining Wu, Xiaodong Yang, Difan Zou | (参考訳) 本研究では,確率勾配降下法(SGD)アルゴリズムを用いて学習したニューラルネットワーク(NN)の一般化特性について理論的に検討する。
このような学習環境下では,学習率sgdの増大によるnn重みの振動がnnの一般化に有益であることが判明し,sgdが訓練したnn重みを,より円滑に収束する小さな学習率で改善できる可能性が示唆された。
この発見から、このような現象を「良振動」と呼ぶ。
このような現象をデミステマイズする我々の理論は、ディープラーニングの特徴学習の視点に基づいている。
具体的には,特徴雑音データ生成モデルについて考察する。
(i)小さな$\ell_2$-normを持ち、各データポイントに現れる弱い特徴
(ii)より大きい$\ell_2$-normを持つが、すべてのデータポイントの特定の部分にしか現れない強い特徴。
(iii)騒音。
我々は,SGDを大きな学習速度で振動させることで訓練したNNが,これらの強い特徴が存在する場合の弱い特徴を効果的に学習できることを証明した。
対照的に、SGDによって訓練されたNNは、強い特徴しか学べないが、弱い特徴を学ぶのにはほとんど進歩しない。
その結果、弱い特徴のみからなる新しいテストデータに関しては、SGDを大きな学習率で振動させてトレーニングしたNNは、小さな学習率でトレーニングしたNNが失敗する一方で、常に正しい予測を行うことができた。
我々の理論は、学習率トレーニングがnnの一般化にどのように役立つかに光を当てている。
実験結果から「良性振動」が示唆された。 In this work, we theoretically investigate the generalization properties of neural networks (NN) trained by stochastic gradient descent (SGD) algorithm with large learning rates. Under such a training regime, our finding is that, the oscillation of the NN weights caused by the large learning rate SGD training turns out to be beneficial to the generalization of the NN, which potentially improves over the same NN trained by SGD with small learning rates that converges more smoothly. In view of this finding, we call such a phenomenon "benign oscillation". Our theory towards demystifying such a phenomenon builds upon the feature learning perspective of deep learning. Specifically, we consider a feature-noise data generation model that consists of (i) weak features which have a small $\ell_2$-norm and appear in each data point; (ii) strong features which have a larger $\ell_2$-norm but only appear in a certain fraction of all data points; and (iii) noise. We prove that NNs trained by oscillating SGD with a large learning rate can effectively learn the weak features in the presence of those strong features. In contrast, NNs trained by SGD with a small learning rate can only learn the strong features but makes little progress in learning the weak features. Consequently, when it comes to the new testing data which consist of only weak features, the NN trained by oscillating SGD with a large learning rate could still make correct predictions consistently, while the NN trained by small learning rate SGD fails. Our theory sheds light on how large learning rate training benefits the generalization of NNs. Experimental results demonstrate our finding on "benign oscillation". | 翻訳日:2023-10-27 22:42:06 公開日:2023-10-26 |
# 極性気泡格子の低温融解における量子臨界 Quantum criticality at cryogenic melting of polar bubble lattices ( http://arxiv.org/abs/2310.17073v1 ) ライセンス: Link先を確認 | W. Luo, A. Akbarzadeh, Y. Nahas, S. Prokhorenko and L. Bellaiche | (参考訳) ゼロ点フォノン振動(ZPPV)による量子揺らぎ(QF)は、バルク初期強誘電体における極相の発生を0K1-3以下に抑えることが知られている。
一方,最近発見された強誘電体ナノ構造体4-9のトポロジカルパターンに対するQFの影響についてはほとんど分かっていない。
ここでは、古典モンテカルロ(cmc)およびパス積分量子モンテカルロ(pi-qmc)1,3,10,11内の原子論的有効ハミルトニアンを用いて、極薄pb(zr0.4ti0.6)o3(pzt)膜中のいくつかの双極子相のトポロジーにqfがどのように影響するかを示す。
特に, PI-QMCシミュレーションでは, ZPPVは極性パターンを抑えるのではなく, より広いバイアス場大の範囲で, ラビリンス4, ビメロン5, 気泡相12,13を安定化させることを示した。
さらに, 量子揺らぎにより, 六角形気泡格子と液状状態とを分離する量子臨界点 (qcp) が誘導され, 極低温における極性気泡の自発運動, 生成, 消滅を特徴とすることが明らかとなった。
最後に,検出された量子融解は,例えば負の縦圧電係数によって示される異常な物理応答と関連していることを示す。 Quantum fluctuations (QFs) caused by zero-point phonon vibrations (ZPPVs) are known to prevent the occurrence of polar phases in bulk incipient ferroelectrics down to 0K1-3. On the other hand, little is known about the effects of QFs on the recently discovered topological patterns in ferroelectric nanostructures4-9. Here, by using an atomistic effective Hamiltonian within classical Monte Carlo (CMC) and path integral quantum Monte Carlo (PI-QMC)1,3,10,11, we unveil how QFs affect the topology of several dipolar phases in ultrathin Pb(Zr0.4Ti0.6)O3 (PZT) films. In particular, our PI-QMC simulations show that the ZPPVs do not suppress polar patterns but rather stabilize the labyrinth4, bimeron5 and bubble phases12,13 within a wider range of bias field magnitudes. Moreover, we reveal that quantum fluctuations induce a quantum critical point (QCP) separating a hexagonal bubble lattice from a liquid-like state characterized by spontaneous motion, creation and annihilation of polar bubbles at cryogenic temperatures. Finally, we show that the discovered quantum melting is associated with anomalous physical response, as, e.g., demonstrated by a negative longitudinal piezoelectric coefficient. | 翻訳日:2023-10-27 22:41:42 公開日:2023-10-26 |
# 等尺運動マニフォールドプリミティブ Isometric Motion Manifold Primitives ( http://arxiv.org/abs/2310.17072v1 ) ライセンス: Link先を確認 | Yonghyeon Lee | (参考訳) 運動多様体プリミティブ(mmp)は、与えられたタスクに対して、それぞれがうまくタスクを完了できる軌道の連続多様体を生成する。
これは、多様体と潜在座標空間の確率密度をパラメータ化するデコーダ関数からなる。
本稿では, 遅延空間の幾何学的歪みにより, MMPの性能が著しく低下することを示し, 歪みにより, 類似の運動が潜空間の近傍に存在しないことを意味する。
次に, 座標空間が多様体の幾何を保存するようなIMMP (it Isometric Motion Manifold Primitives) を提案する。
この目的のために、運動空間(つまりパラメトリック曲線空間)に対してリーマン計量を定式化し、使用し、それを {\displaystyle {\it CurveGeom Riemannian metric} と呼ぶ。
平面障害物回避動作と押圧操作による実験により,IMMPは既存のMMP法よりも有意に優れていた。
コードはhttps://github.com/Gabe-YHLee/IMMP-publicで入手できる。 The Motion Manifold Primitive (MMP) produces, for a given task, a continuous manifold of trajectories each of which can successfully complete the task. It consists of the decoder function that parametrizes the manifold and the probability density in the latent coordinate space. In this paper, we first show that the MMP performance can significantly degrade due to the geometric distortion in the latent space -- by distortion, we mean that similar motions are not located nearby in the latent space. We then propose {\it Isometric Motion Manifold Primitives (IMMP)} whose latent coordinate space preserves the geometry of the manifold. For this purpose, we formulate and use a Riemannian metric for the motion space (i.e., parametric curve space), which we call a {\it CurveGeom Riemannian metric}. Experiments with planar obstacle-avoiding motions and pushing manipulation tasks show that IMMP significantly outperforms existing MMP methods. Code is available at https://github.com/Gabe-YHLee/IMMP-public. | 翻訳日:2023-10-27 22:41:14 公開日:2023-10-26 |
# 言語モデルを用いた半構造化および非構造化会話データセットのトピックセグメンテーション Topic Segmentation of Semi-Structured and Unstructured Conversational Datasets using Language Models ( http://arxiv.org/abs/2310.17120v1 ) ライセンス: Link先を確認 | Reshmi Ghosh, Harjeet Singh Kajal, Sharanya Kamath, Dhuri Shrivastava, Samyadeep Basu, Hansi Zeng, Soundararajan Srinivasan | (参考訳) 文書や会話をセマンティック構造に基づいて複数の連続セグメントに分割することは、NLPにおいて重要かつ困難な問題であり、多くの下流タスクを支援することができる。
しかし、現在のトピックセグメンテーションの研究は、しばしば構造化テキストのセグメンテーションに焦点を当てている。
本稿では,非構造化テキスト上での最先端トピックセグメンテーションモデルの一般化能力を包括的に分析する。
私たちはそれを見つけました
(a)wiki-727kのような構造化テキストの大きなコーパスで事前学習する現在の戦略は、非構造化会話データへの転送性に役立たない。
b) 対象非構造領域の比較的小さなデータセットのみをスクラッチからトレーニングすることで, セグメンテーションの結果を顕著なマージンで改善する。
我々は,非構造的会話データセットにおける不均衡の影響を軽減するために,複数の損失関数の実験によって提案したトピックセグメンテーション手法をストレステストする。
実験により,非構造化チャットと半構造化チャットのセグメンテーションにおいて,Focal Loss関数がクロスエントロピーと再重み付きクロスエントロピー損失関数の頑健な代替となることが示された。 Breaking down a document or a conversation into multiple contiguous segments based on its semantic structure is an important and challenging problem in NLP, which can assist many downstream tasks. However, current works on topic segmentation often focus on segmentation of structured texts. In this paper, we comprehensively analyze the generalization capabilities of state-of-the-art topic segmentation models on unstructured texts. We find that: (a) Current strategies of pre-training on a large corpus of structured text such as Wiki-727K do not help in transferability to unstructured conversational data. (b) Training from scratch with only a relatively small-sized dataset of the target unstructured domain improves the segmentation results by a significant margin. We stress-test our proposed Topic Segmentation approach by experimenting with multiple loss functions, in order to mitigate effects of imbalance in unstructured conversational datasets. Our empirical evaluation indicates that Focal Loss function is a robust alternative to Cross-Entropy and re-weighted Cross-Entropy loss function when segmenting unstructured and semi-structured chats. | 翻訳日:2023-10-27 22:35:19 公開日:2023-10-26 |
# FLEEK:外部知識から得られた誤り検出と証拠による訂正 FLEEK: Factual Error Detection and Correction with Evidence Retrieved from External Knowledge ( http://arxiv.org/abs/2310.17119v1 ) ライセンス: Link先を確認 | Farima Fatahi Bayat, Kun Qian, Benjamin Han, Yisi Sang, Anton Belyi, Samira Khorshidi, Fei Wu, Ihab F. Ilyas, Yunyao Li | (参考訳) 大言語モデル(llm)が生成するか、あるいは人間がキュレーションするかに関わらず、テキスト情報における事実的誤りを検出することは、インフォームドな意思決定に不可欠である。
LLMは自身の主張を外部の知識と幻覚の傾向に帰属できないため、その反応に頼ることは困難である。
人間も、文章の中で事実の誤りを犯しがちだ。
手動による事実誤りの検出と訂正は労力を要するため、自動アプローチの開発は人的労力を大幅に削減することができる。
テキストから事実クレームを自動的に抽出し、外部の知識ソースから証拠を収集し、各クレームの事実性を評価し、収集した証拠を用いて特定されたエラーに対する修正を提案するプロトタイプツールであるfleekを提案する。
事実誤り検出の初期評価(77-85\% F1)はFLEEKの可能性を示している。
FLEEKのビデオデモはhttps://youtu.be/NapJFUlkPdQ.comで見ることができる。 Detecting factual errors in textual information, whether generated by large language models (LLM) or curated by humans, is crucial for making informed decisions. LLMs' inability to attribute their claims to external knowledge and their tendency to hallucinate makes it difficult to rely on their responses. Humans, too, are prone to factual errors in their writing. Since manual detection and correction of factual errors is labor-intensive, developing an automatic approach can greatly reduce human effort. We present FLEEK, a prototype tool that automatically extracts factual claims from text, gathers evidence from external knowledge sources, evaluates the factuality of each claim, and suggests revisions for identified errors using the collected evidence. Initial empirical evaluation on fact error detection (77-85\% F1) shows the potential of FLEEK. A video demo of FLEEK can be found at https://youtu.be/NapJFUlkPdQ. | 翻訳日:2023-10-27 22:35:02 公開日:2023-10-26 |
# 不純物減少条件下におけるCARTの収束性について On the Convergence of CART under Sufficient Impurity Decrease Condition ( http://arxiv.org/abs/2310.17114v1 ) ライセンス: Link先を確認 | Rahul Mazumder, Haoyue Wang | (参考訳) 決定木はフレキシブルな機械学習モデルであり、多くのアプリケーションで成功している。
通常はCARTを用いて再帰的にグリード状に取り付けられる。
本稿では,回帰条件下でのCARTの収束率について検討する。
まず,cartの予測誤差の上限を十分不純物減少 (sid) 条件 \cite{chi2022asymptotic} 下で定め, 同様の仮定下では \cite{chi2022asymptotic} により既知の結果に改善する。
さらに,誤差境界が定数や対数係数以上によってさらに改善されないことを示す例を示す。
第2に、SID条件に対する検証が容易な条件のセットを導入する。
具体的には、成分関数が ``locally reverse Poincar{\'e} inequality' に従属すると、加法モデルの場合、SID条件が満たされることを示す。
非パラメトリック推定においてよく知られた関数クラスをいくつか議論し,この概念の実用性を説明する。 The decision tree is a flexible machine learning model that finds its success in numerous applications. It is usually fitted in a recursively greedy manner using CART. In this paper, we investigate the convergence rate of CART under a regression setting. First, we establish an upper bound on the prediction error of CART under a sufficient impurity decrease (SID) condition \cite{chi2022asymptotic} -- our result improves upon the known result by \cite{chi2022asymptotic} under a similar assumption. Furthermore, we provide examples that demonstrate the error bound cannot be further improved by more than a constant or a logarithmic factor. Second, we introduce a set of easily verifiable sufficient conditions for the SID condition. Specifically, we demonstrate that the SID condition can be satisfied in the case of an additive model, provided that the component functions adhere to a ``locally reverse Poincar{\'e} inequality". We discuss several well-known function classes in non-parametric estimation to illustrate the practical utility of this concept. | 翻訳日:2023-10-27 22:34:47 公開日:2023-10-26 |
# 40%検出効率と2.3kcps暗カウントレートを有する小型自由動作InGaAs/InP単光子検出器 Compact free-running InGaAs/InP single-photon detector with 40% detection efficiency and 2.3 kcps dark count rate ( http://arxiv.org/abs/2310.17113v1 ) ライセンス: Link先を確認 | Qi Xu, Chao Yu, Wei Chen, Jianglin Zhao, Dajian Cui, Jun Zhang, and Jian-Wei Pan | (参考訳) 負のフィードバックアバランシェダイオード(nfads)に基づくingaas/inp単一光子検出器(spds)は、近赤外領域で非同期単一光子検出を必要とするアプリケーションの重要なコンポーネントである。
実用的応用の観点からは,高光子検出効率(PDE),低雑音,高感度領域,コンパクト性といったPSDの特徴がシステム統合や性能向上に強く求められている。
本稿では,InGaAs/InP SPDを結合した小型4チャネル多モードファイバの実装について述べる。
一方, 構造最適化InGaAs/InP NFADデバイスの設計と製造を行い, 最大到達可能なPDEを向上するために, 直径25$\mu$mの活性領域と薄膜抵抗を集積化した。
一方,NFADの動作温度を広い範囲で調節するために小型熱音響式冷凍機を適用し,パラサイトパラメータを最小化し,ホールドオフ時間の設定を調整可能な専用リードアウト回路を設計して後押し効果を抑制する。
次に、spdは5.9v過剰バイアス電圧、10$\mu$sホールドオフ時間、213k動作温度の条件下で、40%pde、2.3kcpsダークカウントレート、8%アフターパルス確率、49psタイミングジッタ(フル幅半値)を同時に1550nmで優れた総合性能を達成することを特徴とする。
このような性能と長期安定試験の結果は、SPDが実用的な応用に好適な解であることを示している。 Free-running InGaAs/InP single-photon detectors (SPDs) based on negative-feedback avalanche diodes (NFADs) are the key components for applications requiring asynchronous single-photon detection in the near-infrared region. From the perspective of practical applications, the features of SPDs in terms of high photon detection efficiency (PDE), low noise, large sensitive area, and compactness are highly desired for system integration and performance enhancement. Here, we present the implementation of a compact four-channel multimode fiber coupling free-running InGaAs/InP SPD, with the best overall performance to date. On the one hand, we design and fabricate structure-optimized InGaAs/InP NFAD devices with 25 $\mu$m diameter active area and integrated thin film resistors to enhance the maximum achievable PDE. On the other hand, we apply a compact thermoacoustic cryocooler to regulate the operating temperature of NFADs within a large range, and design a dedicated readout circuit with minimized parasitic parameters and tunable settings of hold-off time to suppress the afterpulsing effect. The SPD is then characterized to achieve remarkable overall performance simultaneously at 1550 nm, i.e., 40% PDE, 2.3 kcps dark count rate, 8% afterpulse probability and 49 ps timing jitter (full width at half maximum) under the conditions of 5.9 V excess bias voltage, 10 $\mu$s hold-off time and 213 K operation temperature. Such performance and the results of the long-term stability tests indicate that the SPD could be a favorable solution for practical applications. | 翻訳日:2023-10-27 22:34:29 公開日:2023-10-26 |
# LLM4DyG: 大規模言語モデルは動的グラフの問題を解くことができるか? LLM4DyG: Can Large Language Models Solve Problems on Dynamic Graphs? ( http://arxiv.org/abs/2310.17110v1 ) ライセンス: Link先を確認 | Zeyang Zhang, Xin Wang, Ziwei Zhang, Haoyang Li, Yijian Qin, Simin Wu, Wenwu Zhu | (参考訳) 様々なタスクに対するLarge Language Models(LLMs)の採用の増加に特徴付けられる時代において、Webデータ、特にグラフデータを扱うLLMの能力の探求に焦点が当てられている。
時間的ネットワーク進化パターンをキャプチャする動的グラフは、現実世界のwebデータにおいてユビキタスである。
動的グラフ上の空間時間情報の理解におけるLLMの能力を評価することは、Webアプリケーションにおいて採用される上で不可欠である。
本稿では,LLMの動的グラフ上での空間的時間的理解能力を評価することによるギャップを,私たちの知る限り,初めて橋渡しする。
具体的には、時空間次元と時空間次元の両方からLLMの能力評価を考慮した9つの特別設計タスクを含むLLM4DyGベンチマークを提案する。
そこで我々は,異なるデータ生成装置,データ統計,プロンプト技術,LLMがモデル性能に与える影響を解析するための広範囲な実験を行った。
最後に, LLM の時空間理解能力を高めるために, 動的グラフ上の LLM に対する Disentangled Spatial-Temporal Thoughts (DST2) を提案する。
私たちの主な観察は
1) LLM は動的グラフ上の空間的時間的理解能力を有する。
2) 動的グラフタスクは, 時間空間やデータ生成機構に敏感ではないが, グラフサイズや密度が増大するにつれて, LLMの難しさが増すことを示す。
3) DST2プロンプト法は, LLMの動的グラフにおける時空間理解能力の向上に有効である。
データとコードは公開時にオープンソース化される。 In an era marked by the increasing adoption of Large Language Models (LLMs) for various tasks, there is a growing focus on exploring LLMs' capabilities in handling web data, particularly graph data. Dynamic graphs, which capture temporal network evolution patterns, are ubiquitous in real-world web data. Evaluating LLMs' competence in understanding spatial-temporal information on dynamic graphs is essential for their adoption in web applications, which remains unexplored in the literature. In this paper, we bridge the gap via proposing to evaluate LLMs' spatial-temporal understanding abilities on dynamic graphs, to the best of our knowledge, for the first time. Specifically, we propose the LLM4DyG benchmark, which includes nine specially designed tasks considering the capability evaluation of LLMs from both temporal and spatial dimensions. Then, we conduct extensive experiments to analyze the impacts of different data generators, data statistics, prompting techniques, and LLMs on the model performance. Finally, we propose Disentangled Spatial-Temporal Thoughts (DST2) for LLMs on dynamic graphs to enhance LLMs' spatial-temporal understanding abilities. Our main observations are: 1) LLMs have preliminary spatial-temporal understanding abilities on dynamic graphs, 2) Dynamic graph tasks show increasing difficulties for LLMs as the graph size and density increase, while not sensitive to the time span and data generation mechanism, 3) the proposed DST2 prompting method can help to improve LLMs' spatial-temporal understanding abilities on dynamic graphs for most tasks. The data and codes will be open-sourced at publication time. | 翻訳日:2023-10-27 22:33:56 公開日:2023-10-26 |
# LP-OVOD:線形探索による開語彙オブジェクト検出 LP-OVOD: Open-Vocabulary Object Detection by Linear Probing ( http://arxiv.org/abs/2310.17109v1 ) ライセンス: Link先を確認 | Chau Pham, Truong Vu, Khoi Nguyen | (参考訳) 本稿では,オープン語彙オブジェクト検出(OVOD)の課題に対処し,未確認クラスをラベル付けせずに,対象検出器がテスト画像中の見えないクラスと見えないクラスの両方を識別する必要がある。
OVODの典型的なアプローチは、CLIPの合同テキストイメージ埋め込みを使用して、ボックスの提案を最も近いテキストラベルに割り当てることである。
オーバーオブジェクトボックスやアンダーカバーオブジェクトボックスなど、多くの低品質ボックスは、クリップが正確なオブジェクト位置情報に基づいて訓練されていないため、高品質ボックスと同じ類似度スコアを持っている。
この問題に対処するため,本論文では,上位領域の提案から得られた擬似ラベルに対して,シグモイド線形分類器をトレーニングすることにより,低品質ボックスを廃棄するLP-OVODを提案する。
cocoの実験結果は、最先端技術に対する我々のアプローチの優れた性能を肯定し、resnet50をバックボーンとして使用し、トレーニング中に外部データセットや新しいクラスを知らずに、$\textbf{40.5}$ in $\text{ap}_{novel}$ を達成する。
私たちのコードはhttps://github.com/VinAIResearch/LP-OVOD.comで公開されます。 This paper addresses the challenging problem of open-vocabulary object detection (OVOD) where an object detector must identify both seen and unseen classes in test images without labeled examples of the unseen classes in training. A typical approach for OVOD is to use joint text-image embeddings of CLIP to assign box proposals to their closest text label. However, this method has a critical issue: many low-quality boxes, such as over- and under-covered-object boxes, have the same similarity score as high-quality boxes since CLIP is not trained on exact object location information. To address this issue, we propose a novel method, LP-OVOD, that discards low-quality boxes by training a sigmoid linear classifier on pseudo labels retrieved from the top relevant region proposals to the novel text. Experimental results on COCO affirm the superior performance of our approach over the state of the art, achieving $\textbf{40.5}$ in $\text{AP}_{novel}$ using ResNet50 as the backbone and without external datasets or knowing novel classes during training. Our code will be available at https://github.com/VinAIResearch/LP-OVOD. | 翻訳日:2023-10-27 22:33:27 公開日:2023-10-26 |
# 少数原子系における弱場励起以外の光散乱特性 Light scattering properties beyond weak-field excitation in a few-atom system ( http://arxiv.org/abs/2310.17106v1 ) ライセンス: Link先を確認 | Chung-Hsien Wang, Nai-Yu Tsai, Yi-Cheng Wang, H. H. Jen | (参考訳) 大型原子系の光学特性の研究において、線形結合方程式による系のダイナミクスを単純化するために弱いレーザー駆動がしばしば仮定される。
ここでは,原子アンサンブルの光散乱特性について,累積展開法を用いて検討する。
定常方程式に高次相関を漸進的に組み込むことで、完全な密度行列を解いた正確な解と比較して精度を向上することができる。
解析の結果,弱い双極子-双極子相互作用(ddi)では,一階展開は光学的深さの予測を満足できるが,より高密度な原子配置は高次相関を考慮しなければならないことが明らかとなった。
入射光の強度が増大するにつれて、原子飽和効果が顕著になり、光透過性、エネルギーシフト、崩壊速度が大きく変化する。
この飽和現象は弱い駆動条件下でもサブラジアント原子配列に拡張され、線形モデルからかなりのずれが生じる。
本研究は,大規模原子系における光学的性質の探索に有効なツールであり,精度と計算複雑性のバランスをとるため,線形モデルの優れた拡張として平均場モデルの可能性を示す。
しかし、有限レーザー場励起の下での大型原子系における高次累積物の役割は、このような光物質相互作用系における指数的に増加するヒルベルト空間のために理論的に困難であるため、明らかになっていない。 In the study of optical properties of large atomic system, a weak laser driving is often assumed to simplify the system dynamics by linearly coupled equations. Here we investigate the light scattering properties of atomic ensembles beyond weak-field excitation through cumulant expansion method. By progressively incorporating higher-order correlations into the steady-state equations, an enhanced accuracy can be achieved in comparison to the exact solutions from solving a full density matrix. Our analysis reveals that, in the regime of weak dipole-dipole interaction (DDI), the first-order expansion yields satisfactory predictions for optical depth, while denser atomic configurations necessitate consideration of higher-order correlations. As the intensity of incident light increases, atom saturation effects become noticeable, giving rise to significant changes of light transparency, energy shift, and decay rate. This saturation phenomenon extends to subradiant atom arrays even under weak driving conditions, leading to substantial deviations from the linear model. Our findings demonstrate the potential of mean-field models as good extensions to linear models as it balances both accuracy and computational complexity, which can be an effective tool for probing optical properties in large atom systems. However, the crucial role of higher-order cumulants in large atom systems under finite laser field excitations remains unclear since it is challenging theoretically owing to the exponentially-increasing Hilbert space in such light-matter interacting systems. | 翻訳日:2023-10-27 22:33:01 公開日:2023-10-26 |
# グラフニューラルネットワークによるネットワーク設計:課題の特定と性能向上 Network Design through Graph Neural Networks: Identifying Challenges and Improving Performance ( http://arxiv.org/abs/2310.17100v1 ) ライセンス: Link先を確認 | Donald Loveland and Rajmonda Caceres | (参考訳) グラフニューラルネットワーク(GNN)の研究は、ネットワーク設計を目標として、トレーニングされたGNNの勾配を使ってグラフのエッジを変更する戦略を生み出した。
しかし、勾配に基づく編集を規定する要因は、なぜエッジが選択されるのか、編集がエッジの重要性に基づいているのかという理由から、未熟である。
そこで,先行研究における勾配計算を解析し,編集に影響を及ぼす因子を解明し,構造的性質に過度に依存する可能性を明らかにする。
具体的には、エッジが重要ではなく構造バイアスによって高い勾配を達成でき、その要因が設計課題と無関係である場合に誤って編集される。
編集を改善するため,反復編集法であるOREを提案する。
(a)最高スコアのエッジを編集し、
b) 編集されたグラフを再埋め込みして勾配をリフレッシュし、バイアスの少ないエッジ選択を導出する。
我々は,提案する設計タスクを外部検証手法を用いて実験的に検討し,従来の手法を最大50%改善できることを実証した。 Graph Neural Network (GNN) research has produced strategies to modify a graph's edges using gradients from a trained GNN, with the goal of network design. However, the factors which govern gradient-based editing are understudied, obscuring why edges are chosen and if edits are grounded in an edge's importance. Thus, we begin by analyzing the gradient computation in previous works, elucidating the factors that influence edits and highlighting the potential over-reliance on structural properties. Specifically, we find that edges can achieve high gradients due to structural biases, rather than importance, leading to erroneous edits when the factors are unrelated to the design task. To improve editing, we propose ORE, an iterative editing method that (a) edits the highest scoring edges and (b) re-embeds the edited graph to refresh gradients, leading to less biased edge choices. We empirically study ORE through a set of proposed design tasks, each with an external validation method, demonstrating that ORE improves upon previous methods by up to 50%. | 翻訳日:2023-10-27 22:32:35 公開日:2023-10-26 |
# フェデレーション学習におけるデータ不均一性:オブジェクト検出のための半監督的アプローチ Navigating Data Heterogeneity in Federated Learning: A Semi-Supervised Approach for Object Detection ( http://arxiv.org/abs/2310.17097v1 ) ライセンス: Link先を確認 | Taehyeon Kim, Eric Lin, Junu Lee, Christian Lau, Vaikkunth Mugunthan | (参考訳) フェデレートラーニング(FL)は、データプライバシを維持しながら、分散データソース間でモデルをトレーニングするための強力なフレームワークとして登場した。
それでも、特に自動運転のようなアプリケーションでは、限られた高品質ラベルと非iidクライアントデータで問題に直面している。
これらのハードルに対処するため、セミスーパーバイズド・フェデレート・オブジェクト検出(SSFOD)の未処理海域を航行する。
我々は,ラベル付きデータがサーバにのみ存在し,クライアントがラベル付きデータを所有するシナリオを想定した,先駆的なssfodフレームワークを提案する。
特に,0%のラベル付き非iidデータを持つクライアントに対するssfodの初回実装は,各クライアントでラベルのサブセットを保持する従来の研究とは対照的である。
我々は,サーバとクライアント間のデータシフト(天気条件など)を効果的に解決するために,選択学習とオルソゴン的に拡張されたフルパラメータトレーニングの2段階戦略であるFedSTOを提案する。
我々の貢献には、過剰フィッティングを回避するために検出器のバックボーンを選択的に精錬すること、表現の発散を促進するための直交性正規化、高品質の擬似ラベルを得るための局所ema駆動の擬似ラベル割り当てが含まれる。
顕著な自律運転データセット(BDD100K,Cityscapes,SODA10M)に対する広範な検証は、我々のアプローチの有効性を証明し、最先端の結果を示す。
注目すべきなのは、ラベルの20~30%しか使用していないFedSTOは、完全に管理された集中的なトレーニング方法と同様に、ほぼ同じように機能することです。 Federated Learning (FL) has emerged as a potent framework for training models across distributed data sources while maintaining data privacy. Nevertheless, it faces challenges with limited high-quality labels and non-IID client data, particularly in applications like autonomous driving. To address these hurdles, we navigate the uncharted waters of Semi-Supervised Federated Object Detection (SSFOD). We present a pioneering SSFOD framework, designed for scenarios where labeled data reside only at the server while clients possess unlabeled data. Notably, our method represents the inaugural implementation of SSFOD for clients with 0% labeled non-IID data, a stark contrast to previous studies that maintain some subset of labels at each client. We propose FedSTO, a two-stage strategy encompassing Selective Training followed by Orthogonally enhanced full-parameter training, to effectively address data shift (e.g. weather conditions) between server and clients. Our contributions include selectively refining the backbone of the detector to avert overfitting, orthogonality regularization to boost representation divergence, and local EMA-driven pseudo label assignment to yield high-quality pseudo labels. Extensive validation on prominent autonomous driving datasets (BDD100K, Cityscapes, and SODA10M) attests to the efficacy of our approach, demonstrating state-of-the-art results. Remarkably, FedSTO, using just 20-30% of labels, performs nearly as well as fully-supervised centralized training methods. | 翻訳日:2023-10-27 22:32:17 公開日:2023-10-26 |
# 量子制御と時間領域性能保証のための感度境界 Sensitivity Bounds for Quantum Control and Time-Domain Performance Guarantees ( http://arxiv.org/abs/2310.17094v1 ) ライセンス: Link先を確認 | Sean Patrick O'Neil, Edmond Jonckheere, and Sophie Schirmer | (参考訳) 与えられた時間における忠実度測定を最大化するために最適化された時間変化外部場による量子システムの制御は、現代の量子制御のメインステイである。
しかし、そのような量子コントローラの現在の解析技術は解析的堅牢性を保証するものではない。
このレターでは、一点一点の最適制御場によって制御される閉量子系の構造的不確実性に対するゲート忠実度誤差の差分感度に関する解析的境界を提供する。
さらに、この最悪のケースの極大感度をもたらす不確実性構造も決定します。
次に、これらの差分感度境界を用いて、パラメータの不確かさに直面して忠実度誤差によって定量化される性能を保証する条件を提供する。 Control of quantum systems via time-varying external fields optimized to maximize a fidelity measure at a given time is a mainstay in modern quantum control. However, current analysis techniques for such quantum controllers provide no analytical robustness guarantees. In this letter we provide analytical bounds on the differential sensitivity of the gate fidelity error to structured uncertainties for a closed quantum system controlled by piecewise-constant, optimal control fields. We additionally determine those uncertainty structures that result in this worst-case maximal sensitivity. We then use these differential sensitivity bounds to provide conditions that guarantee performance, quantified by the fidelity error, in the face of parameter uncertainty. | 翻訳日:2023-10-27 22:31:49 公開日:2023-10-26 |
# 生成AIによる学術的文章のスーパーチャージ:フレームワーク、テクニック、注意点 Supercharging academic writing with generative AI: framework, techniques, and caveats ( http://arxiv.org/abs/2310.17143v1 ) ライセンス: Link先を確認 | Zhicheng Lin | (参考訳) 学術的な執筆は研究企業にとって欠かせないが退屈な部分である。
このパースペクティブは、生成的人工知能(AI)、特に大きな言語モデル(LLM)を使用するための原則と方法を示し、学術的な文章の品質と効率を高める。
我々は、書面におけるAIの関与の根拠(なぜ)、プロセス(方法)、自然(何)を明確にする人間とAIの協調フレームワークを紹介します。
このフレームワークは、エンゲージメントの短期的および長期的理由と、その基盤となるメカニズム(認知的オフロードや想像的刺激など)の両方を指摘します。
これは、人間とAIの共同執筆のための2段階のモデルを通じて概念化された、筆記プロセス全体におけるAIの役割と、筆記支援のタイプとレベルのモデルによって表現される書記におけるAIアシストの性質を明らかにする。
この枠組みに基づいて、我々は、AIを筆記ルーチン(アウトライン、ドラフト、編集)に組み込む効果的なプロンプト技術と、厳格な奨学金の維持、さまざまなジャーナルポリシーの遵守、AIへの過度な依存を避ける戦略について説明する。
究極的には、AIを学術的な文章に統合することで、コミュニケーションの負担を緩和し、著者に権限を与え、発見を加速し、科学の多様性を促進することができる。 Academic writing is an indispensable yet laborious part of the research enterprise. This Perspective maps out principles and methods for using generative artificial intelligence (AI), specifically large language models (LLMs), to elevate the quality and efficiency of academic writing. We introduce a human-AI collaborative framework that delineates the rationale (why), process (how), and nature (what) of AI engagement in writing. The framework pinpoints both short-term and long-term reasons for engagement and their underlying mechanisms (e.g., cognitive offloading and imaginative stimulation). It reveals the role of AI throughout the writing process, conceptualized through a two-stage model for human-AI collaborative writing, and the nature of AI assistance in writing, represented through a model of writing-assistance types and levels. Building on this framework, we describe effective prompting techniques for incorporating AI into the writing routine (outlining, drafting, and editing) as well as strategies for maintaining rigorous scholarship, adhering to varied journal policies, and avoiding overreliance on AI. Ultimately, the prudent integration of AI into academic writing can ease the communication burden, empower authors, accelerate discovery, and promote diversity in science. | 翻訳日:2023-10-27 22:24:07 公開日:2023-10-26 |
# 海氷型セグメンテーションにおけるクロスエントロピー, ダイス, 焦点損失の比較 Comparison of Cross-Entropy, Dice, and Focal Loss for Sea Ice Type Segmentation ( http://arxiv.org/abs/2310.17135v1 ) ライセンス: Link先を確認 | Rafael Pires de Lima, Behzad Vahedi, Morteza Karimzadeh | (参考訳) 最新の海氷チャートは、氷に感染した海域の安全な航行に不可欠である。
近年,畳み込みニューラルネットワーク(cnn)モデルが大規模氷床地図の生成を加速する可能性を示している。
しかし、CNNモデルの結果は、必ずしも適切な出力に変換されるとは限らないため、引き続き精査する必要がある。
海氷型クラスは不均衡であり、訓練中に特別な治療を必要とする。
我々は,不均衡なクラス問題のために開発された3種類の損失関数が,センチネル1画像における支配的な氷型を予測するために訓練されたCNNモデルの性能に与える影響を評価する。
Dice と Focal の損失がより高いメトリクスを生み出すという事実にもかかわらず、クロスエントロピーの結果は一般により物理的に一貫性があるように見える。 Up-to-date sea ice charts are crucial for safer navigation in ice-infested waters. Recently, Convolutional Neural Network (CNN) models show the potential to accelerate the generation of ice maps for large regions. However, results from CNN models still need to undergo scrutiny as higher metrics performance not always translate to adequate outputs. Sea ice type classes are imbalanced, requiring special treatment during training. We evaluate how three different loss functions, some developed for imbalanced class problems, affect the performance of CNN models trained to predict the dominant ice type in Sentinel-1 images. Despite the fact that Dice and Focal loss produce higher metrics, results from cross-entropy seem generally more physically consistent. | 翻訳日:2023-10-27 22:23:41 公開日:2023-10-26 |
# 視覚的質問応答ペアによるマルチモーダル機械翻訳における探索信号の取り込み Incorporating Probing Signals into Multimodal Machine Translation via Visual Question-Answering Pairs ( http://arxiv.org/abs/2310.17133v1 ) ライセンス: Link先を確認 | Yuxin Zuo, Bei Li, Chuanhao Lv, Tong Zheng, Tong Xiao, Jingbo Zhu | (参考訳) 本稿では,マルチモーダル機械翻訳(MMT)の詳細な研究を行い,テキスト入力が完了すると,MMTシステムは視覚情報に対する感度が低下することを示す。
代わりに、この現象を画像情報の冗長性ではなく、不十分なクロスモーダル相互作用に分類する。
ソーステキストから並列視覚質問応答(VQA)スタイルのペアを生成する手法が提案され,より堅牢な相互モーダルインタラクションが実現された。
LLM(Large Language Models)を用いて、MMT内の探索信号を明示的にモデル化し、VQAスタイルのデータに変換し、Multi30K-VQAデータセットを作成する。
MMT-VQAマルチタスク学習フレームワークを導入し、データセットからの明示的な探索信号をMTトレーニングプロセスに組み込む。
2つの広く利用されているベンチマークの実験結果は、この新しいアプローチの有効性を示している。
私たちのコードとデータは、 \url{https://github.com/libeineu/mmt-vqa} で利用可能です。 This paper presents an in-depth study of multimodal machine translation (MMT), examining the prevailing understanding that MMT systems exhibit decreased sensitivity to visual information when text inputs are complete. Instead, we attribute this phenomenon to insufficient cross-modal interaction, rather than image information redundancy. A novel approach is proposed to generate parallel Visual Question-Answering (VQA) style pairs from the source text, fostering more robust cross-modal interaction. Using Large Language Models (LLMs), we explicitly model the probing signal in MMT to convert it into VQA-style data to create the Multi30K-VQA dataset. An MMT-VQA multitask learning framework is introduced to incorporate explicit probing signals from the dataset into the MMT training process. Experimental results on two widely-used benchmarks demonstrate the effectiveness of this novel approach. Our code and data would be available at: \url{https://github.com/libeineu/MMT-VQA}. | 翻訳日:2023-10-27 22:23:27 公開日:2023-10-26 |
# 双方向知識伝達によるGNNの可能性 Unleashing the potential of GNNs via Bi-directional Knowledge Transfer ( http://arxiv.org/abs/2310.17132v1 ) ライセンス: Link先を確認 | Shuai Zheng, Zhizhe Liu, Zhenfeng Zhu, Xingxing Zhang, Jianxin Li, and Yao Zhao | (参考訳) メッセージパッシングのパラダイムに基づいて,GNNの性能向上のための多種多様な特徴伝搬機構を提案する研究が数多く行われている。
しかし、メッセージパッシングフレームワークのもう一つの主要な操作である機能変換にはあまり焦点が当てられていない。
本稿では,いくつかの典型的なGNNにおける特徴変換操作の性能を実証的に検討する。
予期せぬことに、GNNは固有の特徴変換操作のパワーを完全に解放しない。
そこで本研究では,双方向知識伝達(Bi-directional Knowledge Transfer, BiKT)を提案する。
パラメータを元のGNNと共有する派生表現学習モデルとして特徴変換操作を取り入れ,このモデルによる直接予測は,GNNの学習とそれに伴う特徴変換をさらに指導するトポロジ的知識フィードバックを提供する。
この根拠により、biktは、gnnとその派生モデルの両方から知識を得るだけでなく、相互に知識を注入することで相互に促進できる。
さらに、biktがドメイン適応の観点からgnnの一般化バウンドを改善することを示すために、理論的解析も提供されている。
5つの典型的なGNNを持つ最大7つのデータセットに関する大規模な実験は、BiKTがオリジナルのGNNよりも最大0.5%パフォーマンス向上をもたらすことを実証している。
一方、派生モデルでは、元のGNNと競合したり、越えたりする強力なパフォーマンスも示しており、他の特定の下流タスクに対して柔軟に適用することができます。 Based on the message-passing paradigm, there has been an amount of research proposing diverse and impressive feature propagation mechanisms to improve the performance of GNNs. However, less focus has been put on feature transformation, another major operation of the message-passing framework. In this paper, we first empirically investigate the performance of the feature transformation operation in several typical GNNs. Unexpectedly, we notice that GNNs do not completely free up the power of the inherent feature transformation operation. By this observation, we propose the Bi-directional Knowledge Transfer (BiKT), a plug-and-play approach to unleash the potential of the feature transformation operations without modifying the original architecture. Taking the feature transformation operation as a derived representation learning model that shares parameters with the original GNN, the direct prediction by this model provides a topological-agnostic knowledge feedback that can further instruct the learning of GNN and the feature transformations therein. On this basis, BiKT not only allows us to acquire knowledge from both the GNN and its derived model but promotes each other by injecting the knowledge into the other. In addition, a theoretical analysis is further provided to demonstrate that BiKT improves the generalization bound of the GNNs from the perspective of domain adaption. An extensive group of experiments on up to 7 datasets with 5 typical GNNs demonstrates that BiKT brings up to 0.5% - 4% performance gain over the original GNN, which means a boosted GNN is obtained. Meanwhile, the derived model also shows a powerful performance to compete with or even surpass the original GNN, enabling us to flexibly apply it independently to some other specific downstream tasks. | 翻訳日:2023-10-27 22:23:12 公開日:2023-10-26 |
# keypoint hallucinationによる仮想アクセサリーの試用 Virtual Accessory Try-On via Keypoint Hallucination ( http://arxiv.org/abs/2310.17131v1 ) ライセンス: Link先を確認 | Junhong Gou, Bo Zhang, Li Niu, Jianfu Zhang, Jianlou Si, Chen Qian, Liqing Zhang | (参考訳) 仮想試着作業は、ある画像から別の肖像画に衣服を合わせることを指す。
本稿では,顔やポートレート画像にアクセサリ(眼鏡,ネクタイなど)を装着した仮想アクセサリトライオンに焦点を当てる。
指示として人間のシルエットに依存する衣料品の試着とは異なり、アクセサリの試着はアクセサリーを適切な場所と形状に縛り付け、妥当な合成画像を生成する。
前景(アクセサリー)と背景(例えば、人間の顔や身体)を等しく扱う従来の試行法とは対照的に、人体やアクセサリーの以前の知識を利用するための背景指向ネットワークを提案する。
特に,本研究では,人体を学習し,特定の前景キーポイントの目標位置をバックグラウンドで幻覚する。
そして、我々のアプローチは、背景のUNetにアクセサリープリエントで前景情報を注入する。
照準された目標位置に基づいて、反りパラメータを算出して前景をワープする。
さらに、この背景指向ネットワークは、パフォーマンスをさらに高めるために、補助的な顔/身体意味セグメンテーションの監督を組み込むのも容易である。
STRATデータセットを用いて提案手法の有効性を検証した。 The virtual try-on task refers to fitting the clothes from one image onto another portrait image. In this paper, we focus on virtual accessory try-on, which fits accessory (e.g., glasses, ties) onto a face or portrait image. Unlike clothing try-on, which relies on human silhouette as guidance, accessory try-on warps the accessory into an appropriate location and shape to generate a plausible composite image. In contrast to previous try-on methods that treat foreground (i.e., accessories) and background (i.e., human faces or bodies) equally, we propose a background-oriented network to utilize the prior knowledge of human bodies and accessories. Specifically, our approach learns the human body priors and hallucinates the target locations of specified foreground keypoints in the background. Then our approach will inject foreground information with accessory priors into the background UNet. Based on the hallucinated target locations, the warping parameters are calculated to warp the foreground. Moreover, this background-oriented network can also easily incorporate auxiliary human face/body semantic segmentation supervision to further boost performance. Experiments conducted on STRAT dataset validate the effectiveness of our proposed method. | 翻訳日:2023-10-27 22:22:46 公開日:2023-10-26 |
# M2C:マルチモーダルマンガの自動補完を目指して M2C: Towards Automatic Multimodal Manga Complement ( http://arxiv.org/abs/2310.17130v1 ) ライセンス: Link先を確認 | Hongcheng Guo, Boyang Wang, Jiaqi Bai, Jiaheng Liu, Jian Yang, Zhoujun Li | (参考訳) マルチモーダルマンガ分析は、自然言語処理とコンピュータビジョンのコミュニティからかなりの注目を集めている視覚機能とテキスト機能によるマンガ理解の強化に焦点を当てている。
現在、ほとんどのコミックは手書きであり、ページの欠落、テキストの汚染、老化といった問題に悩まされており、コミックのコンテンツが不足し、人間の理解を著しく妨げている。
言い換えれば、M2C(Multimodal Manga Complement)タスクは、視覚と言語理解のための共有意味空間を提供することによって、上記の問題に対処することを目的としている。
そこで我々はまず,2つの言語をカバーする新しいM2Cベンチマークデータセットを確立することで,マルチモーダルマンガ補完タスクを提案する。
まず,MCoTと呼ばれるマンガ論法を設計し,大規模言語モデルを用いた漫画のイベント知識を抽出する。
そこで, マンガ補間をサポートするために, きめ細かい視覚的プロンプトを用いた実効ベースラインFVP-M$^{2}$を提案する。
FVP-M$^{2}$法のマルチモーダルマンジュ補充に対する有効性を示した。 Multimodal manga analysis focuses on enhancing manga understanding with visual and textual features, which has attracted considerable attention from both natural language processing and computer vision communities. Currently, most comics are hand-drawn and prone to problems such as missing pages, text contamination, and aging, resulting in missing comic text content and seriously hindering human comprehension. In other words, the Multimodal Manga Complement (M2C) task has not been investigated, which aims to handle the aforementioned issues by providing a shared semantic space for vision and language understanding. To this end, we first propose the Multimodal Manga Complement task by establishing a new M2C benchmark dataset covering two languages. First, we design a manga argumentation method called MCoT to mine event knowledge in comics with large language models. Then, an effective baseline FVP-M$^{2}$ using fine-grained visual prompts is proposed to support manga complement. Extensive experimental results show the effectiveness of FVP-M$^{2}$ method for Multimodal Mange Complement. | 翻訳日:2023-10-27 22:22:25 公開日:2023-10-26 |
# 基礎モデルのためのタスク駆動型プロンプト進化 Task-driven Prompt Evolution for Foundation Models ( http://arxiv.org/abs/2310.17128v1 ) ライセンス: Link先を確認 | Rachana Sathish, Rahul Venkataramani, K S Shriram, Prasad Sudhakar | (参考訳) 予測可能な基礎モデル、特にSegment Anything Model(SAM)は、イメージセグメンテーションのための従来のタスク固有の教師あり学習に代わる有望な代替として登場した。
しかし,多くの評価研究により,従来の深層学習法と比較して,医療画像のモダリティに対する評価が過大評価されている。
大規模な事前学習言語とビジョン言語モデルでは、下流タスクからの学習が性能向上に大きく貢献している。
本研究では,ダウンストリームセグメンテーションタスクを利用するsam(sampot)のような基礎モデルのプラグイン・アンド・プレイ・プロンプト最適化手法を提案する。
胸部x線画像における肺分画に対するsampotの有用性を実証し,ヒトの初期プロンプトに対する相当数の症例 (\sim75\%$) の改善を得た。
この研究が、自動視覚プロンプトチューニングの新たな分野におけるさらなる調査につながることを願っている。 Promptable foundation models, particularly Segment Anything Model (SAM), have emerged as a promising alternative to the traditional task-specific supervised learning for image segmentation. However, many evaluation studies have found that their performance on medical imaging modalities to be underwhelming compared to conventional deep learning methods. In the world of large pre-trained language and vision-language models, learning prompt from downstream tasks has achieved considerable success in improving performance. In this work, we propose a plug-and-play Prompt Optimization Technique for foundation models like SAM (SAMPOT) that utilizes the downstream segmentation task to optimize the human-provided prompt to obtain improved performance. We demonstrate the utility of SAMPOT on lung segmentation in chest X-ray images and obtain an improvement on a significant number of cases ($\sim75\%$) over human-provided initial prompts. We hope this work will lead to further investigations in the nascent field of automatic visual prompt-tuning. | 翻訳日:2023-10-27 22:22:07 公開日:2023-10-26 |
# SAR画像の深層学習:ランダムに初期化重量の伝達学習 Deep Learning on SAR Imagery: Transfer Learning Versus Randomly Initialized Weights ( http://arxiv.org/abs/2310.17126v1 ) ライセンス: Link先を確認 | Morteza Karimzadeh, Rafael Pires de Lima | (参考訳) SAR(Synthetic Aperture Radar)データにディープラーニングをデプロイすることは、マッピングの目的に対してより一般的になっています。
そのようなケースの1つが海氷であり、風、温度、海流の複合効果によって非常にダイナミックで急速に変化する。
そのため,海上航行の安全確保には海氷の頻繁なマッピングが必要である。
しかし、ディープラーニングアルゴリズムを訓練する専門家ラベル付きデータは、一般的に不足している。
SAR画像の訓練済みモデルを微調整することは潜在的な解決策である。
本稿では,スクラッチからトレーニングしたディープラーニングモデルの性能を,この目的のために微調整した事前学習モデルと比較する。
以上の結果から, 予訓練モデルにより, 特に融雪期の試験試料において, 良好な結果が得られた。 Deploying deep learning on Synthetic Aperture Radar (SAR) data is becoming more common for mapping purposes. One such case is sea ice, which is highly dynamic and rapidly changes as a result of the combined effect of wind, temperature, and ocean currents. Therefore, frequent mapping of sea ice is necessary to ensure safe marine navigation. However, there is a general shortage of expert-labeled data to train deep learning algorithms. Fine-tuning a pre-trained model on SAR imagery is a potential solution. In this paper, we compare the performance of deep learning models trained from scratch using randomly initialized weights against pre-trained models that we fine-tune for this purpose. Our results show that pre-trained models lead to better results, especially on test samples from the melt season. | 翻訳日:2023-10-27 22:21:48 公開日:2023-10-26 |
# アトーラス畳み込みによるセンチネル-1画像の海氷分節化の促進 Enhancing sea ice segmentation in Sentinel-1 images with atrous convolutions ( http://arxiv.org/abs/2310.17122v1 ) ライセンス: Link先を確認 | Rafael Pires de Lima, Behzad Vahedi, Nick Hughes, Andrew P. Barrett, Walter Meier, Morteza Karimzadeh | (参考訳) リモートセンシングデータの量の増加と安全な海洋航行に必要な低レイテンシのため、機械学習(ML)アルゴリズムは海氷チャートの生成を加速するために開発されている。
しかし、無料で利用できるSentinel-1 Synthetic Aperture Radar(SAR)画像の低信号対雑音比、氷型の後方散乱信号のあいまいさ、オープンソースの高解像度ラベリングデータの不足は、海氷マッピングの自動化を困難にしている。
MLトレーニングと評価のために生成された高解像度ベンチマークデータセットであるExtreme Earthバージョン2を用いて,自動海氷マッピングにおけるMLの有効性を検討した。
我々のカスタマイズパイプラインは、SAR画像セグメンテーションのためのResNetsとAtrous Space Pyramid Poolingを組み合わせたものである。
我々はモデルの性能について調査する。
一 セグメンテーションの枠組みにおける海氷及び開水の二分分類
二 海氷の種類を五種に区分すること。
2値の氷水分類では、1月と7月のテストシーンでF1スコアが0.95以上になった。
具体的には、中間重み付きF1スコアは0.98であり、どちらも高い性能を示した。
対照的に、競争ベースラインのU-Netは7月の0.92から0.94(中間0.93)、1月の0.97から0.98(中間0.97)までの重み付き平均F1スコアを持つ。
マルチクラス氷型分類はより困難であり、我々のモデルはベースラインのU-Netと比較して2%の重み付きF1平均値の改善を達成したが、テスト重み付きF1は通常0.6から0.80である。
提案手法は,全SARシーンを1回の実行で効率的に分割することができ,ベースラインのU-Netよりも高速で,空間解像度と寸法を保ち,パッチ分類に依存するアプローチに比べてノイズに対して頑健である。 Due to the growing volume of remote sensing data and the low latency required for safe marine navigation, machine learning (ML) algorithms are being developed to accelerate sea ice chart generation, currently a manual interpretation task. However, the low signal-to-noise ratio of the freely available Sentinel-1 Synthetic Aperture Radar (SAR) imagery, the ambiguity of backscatter signals for ice types, and the scarcity of open-source high-resolution labelled data makes automating sea ice mapping challenging. We use Extreme Earth version 2, a high-resolution benchmark dataset generated for ML training and evaluation, to investigate the effectiveness of ML for automated sea ice mapping. Our customized pipeline combines ResNets and Atrous Spatial Pyramid Pooling for SAR image segmentation. We investigate the performance of our model for: i) binary classification of sea ice and open water in a segmentation framework; and ii) a multiclass segmentation of five sea ice types. For binary ice-water classification, models trained with our largest training set have weighted F1 scores all greater than 0.95 for January and July test scenes. Specifically, the median weighted F1 score was 0.98, indicating high performance for both months. By comparison, a competitive baseline U-Net has a weighted average F1 score of ranging from 0.92 to 0.94 (median 0.93) for July, and 0.97 to 0.98 (median 0.97) for January. Multiclass ice type classification is more challenging, and even though our models achieve 2% improvement in weighted F1 average compared to the baseline U-Net, test weighted F1 is generally between 0.6 and 0.80. Our approach can efficiently segment full SAR scenes in one run, is faster than the baseline U-Net, retains spatial resolution and dimension, and is more robust against noise compared to approaches that rely on patch classification. | 翻訳日:2023-10-27 22:21:36 公開日:2023-10-26 |
# 実測のためのテスト時間拡張 Test-time Augmentation for Factual Probing ( http://arxiv.org/abs/2310.17121v1 ) ライセンス: Link先を確認 | Go Kamoda, Benjamin Heinzerling, Keisuke Sakaguchi, Kentaro Inui | (参考訳) factual probingは、言語モデルが特定の世界の知識事実を「知っている」かどうかをテストするプロンプトを使用する方法である。
事実探索の問題は、プロンプトの小さな変更がモデル出力に大きな変化をもたらす可能性があることである。
以前はテキストマイニングや微調整によってプロンプトを最適化することでこの問題を緩和することを目的としていた。
しかし、そのようなアプローチは関係特異的であり、見当たらない関係型に一般化しない。
そこで本研究では,テスト時のプロンプトを自動拡張し,センシングすることで,変化を誘発する感度を低減させる手法として,tta(test-time augmentation)を提案する。
実験では、モデルキャリブレーションの改善、すなわちTTAではモデルの信頼性が予測精度を良く反映している。
いくつかのモデルでは予測精度が向上するが、他のモデルではTTAが劣化する。
エラー解析は、ttaの主な課題として、高品質のプロンプトバリエーションを生成することの難しさを識別する。 Factual probing is a method that uses prompts to test if a language model "knows" certain world knowledge facts. A problem in factual probing is that small changes to the prompt can lead to large changes in model output. Previous work aimed to alleviate this problem by optimizing prompts via text mining or fine-tuning. However, such approaches are relation-specific and do not generalize to unseen relation types. Here, we propose to use test-time augmentation (TTA) as a relation-agnostic method for reducing sensitivity to prompt variations by automatically augmenting and ensembling prompts at test time. Experiments show improved model calibration, i.e., with TTA, model confidence better reflects prediction accuracy. Improvements in prediction accuracy are observed for some models, but for other models, TTA leads to degradation. Error analysis identifies the difficulty of producing high-quality prompt variations as the main challenge for TTA. | 翻訳日:2023-10-27 22:21:02 公開日:2023-10-26 |
# 4光子テトラエドロン状態の生成:非交互回転に対する同時超感度を目指して Generating a 4-photon Tetrahedron State: Towards Simultaneous Super-sensitivity to Non-commuting Rotations ( http://arxiv.org/abs/2310.17150v1 ) ライセンス: Link先を確認 | Hugo Ferretti, Y. Batuhan Yilmaz, Kent Bonsma-Fisher, Aaron Z. Goldberg, Noah Lupu-Gladstein, Arthur O. T. Pang, Lee A. Rozema, Aephraim M. Steinberg | (参考訳) 量子状態の可観測性に対する超感度は、他の非可換可観測性に対する感度が低下するコストで生じるとしばしば考えられている。
例えば、位置二次で絞られた圧縮状態は位置変位に過敏であるが、運動量変位には非常に敏感である。
この誤解はコンパス状態(位置と運動量の変化に等しく超敏感な量子状態)の導入によって解消された。
スピン回転の測定に用いられる量子状態を見ると、n00n状態は回転軸に整列している限り、古典的な方法よりも有利であることが知られている。
未知の方向と振幅で回転を推定することを考えると、ある種類の状態が興味深い性質で際立っている。
これらの状態は、任意の軸まわりの回転に等しく敏感であり、二階非分極であり、特定の次元におけるプラトン固体の回転特性を持つことができる。
重要なことに、これらの状態は回転を記述する3つのパラメータを同時に推定するのに最適である。
漸近極限では、逐次的ではなく同時に変換を記述するすべてのdパラメータを推定することで、測定パラメータの分散の適切な重み付け和をdの係数で減少させることができる。
四面体対称性により「テトラメドロン状態」と呼ばれる、最低次元のそのような状態の実験的生成と特性について報告する。
この四面体状態は、スピン2粒子として振る舞う1つの空間および時間モードで4つの光子の偏光の対称部分空間で生成される。
ハードウェアによる不完全性は我々の手法の性能を制限しますが、より優れた技術は、光子間比較において既存の戦略よりも優れている点まで、我々の手法を改善することができると論じます。 It is often thought that the super-sensitivity of a quantum state to an observable comes at the cost of a decreased sensitivity to other non-commuting observables. For example, a squeezed state squeezed in position quadrature is super-sensitive to position displacements, but very insensitive to momentum displacements. This misconception was cleared with the introduction of the compass state, a quantum state equally super-sensitive to displacements in position and momentum. When looking at quantum states used to measure spin rotations, N00N states are known to be more advantageous than classical methods as long as they are aligned to the rotation axis. When considering the estimation of a rotation with unknown direction and amplitude, a certain class of states stands out with interesting properties. These states are equally sensitive to rotations around any axis, are second-order unpolarized, and can possess the rotational properties of platonic solids in particular dimensions. Importantly, these states are optimal for simultaneously estimating the three parameters describing a rotation. In the asymptotic limit, estimating all d parameters describing a transformation simultaneously rather than sequentially can lead to a reduction of the appropriately-weighted sum of the measured parameters' variances by a factor of d. We report the experimental creation and characterization of the lowest-dimensional such state, which we call the "tetrahedron state" due to its tetrahedral symmetry. This tetrahedron state is created in the symmetric subspace of four optical photons' polarization in a single spatial and temporal mode, which behaves as a spin-2 particle. While imperfections due to the hardware limit the performance of our method, we argue that better technology can improve our method to the point of outperforming any other existing strategy in per-photon comparisons. | 翻訳日:2023-10-27 22:15:17 公開日:2023-10-26 |
# 説明可能な時空間グラフニューラルネットワーク Explainable Spatio-Temporal Graph Neural Networks ( http://arxiv.org/abs/2310.17149v1 ) ライセンス: Link先を確認 | Jiabin Tang and Lianghao Xia and Chao Huang | (参考訳) 時空間グラフニューラルネットワーク(STGNN)は、インテリジェントトランスポートや公共安全など、さまざまな現実世界の都市アプリケーションにおいて時空間依存を効果的にモデル化するための強力なツールとして人気を集めている。
しかし、STGNNのブラックボックスの性質は、その解釈可能性を制限するものであり、都市資源配分や政策定式化に関連するシナリオへの適用を妨げる。
このギャップを埋めるために,STGNNを本質的に説明可能な形で拡張し,正確な予測と忠実な説明を同時に行うことのできる,説明可能な時空間グラフニューラルネットワーク(STExplainer)フレームワークを提案する。
本稿では,STGエンコーダとデコーダとの位置情報融合層を一体化した時空間グラフアテンションネットワークを構築した。
さらに,STGエンコーダとデコーダによってインスタンス化される,説明可能な目的を持つグラフ情報ボトルネック(GIB)原理に基づく構造蒸留手法を提案する。
広範な実験により,我々のstexplainerは,交通および犯罪予測タスクにおける予測精度と説明可能性指標(スパーシティと忠実度)の観点から,最先端のベースラインを上回っていることを実証した。
さらに,本モデルでは,データの欠落や空間的問題を緩和する優れた表現能力を示す。
実装コードはhttps://github.com/hkuds/stexplainer。 Spatio-temporal graph neural networks (STGNNs) have gained popularity as a powerful tool for effectively modeling spatio-temporal dependencies in diverse real-world urban applications, including intelligent transportation and public safety. However, the black-box nature of STGNNs limits their interpretability, hindering their application in scenarios related to urban resource allocation and policy formulation. To bridge this gap, we propose an Explainable Spatio-Temporal Graph Neural Networks (STExplainer) framework that enhances STGNNs with inherent explainability, enabling them to provide accurate predictions and faithful explanations simultaneously. Our framework integrates a unified spatio-temporal graph attention network with a positional information fusion layer as the STG encoder and decoder, respectively. Furthermore, we propose a structure distillation approach based on the Graph Information Bottleneck (GIB) principle with an explainable objective, which is instantiated by the STG encoder and decoder. Through extensive experiments, we demonstrate that our STExplainer outperforms state-of-the-art baselines in terms of predictive accuracy and explainability metrics (i.e., sparsity and fidelity) on traffic and crime prediction tasks. Furthermore, our model exhibits superior representation ability in alleviating data missing and sparsity issues. The implementation code is available at: https://github.com/HKUDS/STExplainer. | 翻訳日:2023-10-27 22:14:47 公開日:2023-10-26 |
# 投影型全参照と非参照点クラウド品質評価のための簡易ベースライン Simple Baselines for Projection-based Full-reference and No-reference Point Cloud Quality Assessment ( http://arxiv.org/abs/2310.17147v1 ) ライセンス: Link先を確認 | Zicheng Zhang, Yingjie Zhou, Wei Sun, Xiongkuo Min, Guangtao Zhai | (参考訳) ポイントクラウドは3Dコンテンツ表現に広く使われ、マルチメディアに様々な応用がある。
しかし、圧縮と単純化のプロセスは必然的にストレージや帯域幅の制約の下で品質に配慮した情報が失われる。
したがって、点雲の歪みの度合いを定量化する効果的な方法の必要性が高まっている。
本稿では,この課題に対処するために,投影型ポイントクラウド品質評価(PCQA)のためのシンプルなベースラインを提案する。
我々は、全参照(FR)タスクと非参照(NR)PCQAタスクの両方に対して、点雲から共通立方体状の投影プロセスによって得られる多重射影を用いる。
品質認識機能は、一般的なビジョンバックボーンで抽出される。
FR品質表現は、参照射影と歪射影の特徴マップの類似性として計算され、NR品質表現は、歪射影の特徴マップを平均プーリングで単純にスクイーズすることで得られる。
ICIP 2023 PCVQA Challengeに参加して,5トラック中4トラックで首位を獲得した。 Point clouds are widely used in 3D content representation and have various applications in multimedia. However, compression and simplification processes inevitably result in the loss of quality-aware information under storage and bandwidth constraints. Therefore, there is an increasing need for effective methods to quantify the degree of distortion in point clouds. In this paper, we propose simple baselines for projection-based point cloud quality assessment (PCQA) to tackle this challenge. We use multi-projections obtained via a common cube-like projection process from the point clouds for both full-reference (FR) and no-reference (NR) PCQA tasks. Quality-aware features are extracted with popular vision backbones. The FR quality representation is computed as the similarity between the feature maps of reference and distorted projections while the NR quality representation is obtained by simply squeezing the feature maps of distorted projections with average pooling The corresponding quality representations are regressed into visual quality scores by fully-connected layers. Taking part in the ICIP 2023 PCVQA Challenge, we succeeded in achieving the top spot in four out of the five competition tracks. | 翻訳日:2023-10-27 22:14:26 公開日:2023-10-26 |
# 半オフライン政策評価のためのファクトファクトリファインメント・インテリジェンス・サンプリング Counterfactual-Augmented Importance Sampling for Semi-Offline Policy Evaluation ( http://arxiv.org/abs/2310.17146v1 ) ライセンス: Link先を確認 | Shengpu Tang, Jenna Wiens | (参考訳) 高スループット領域に強化学習(rl)を適用する場合、観察データを用いた定量的・質的評価は、実践者が新しいポリシーの一般化性能を理解するのに役立つ。
しかしながら、オフラインデータは、新しいポリシーの適用による分散シフトを反映しない可能性があるため、このようなオフ・ポリシー評価(ope)は本質的に制限されている。
一方で、新しいポリシーに従ってロールアウトを収集したオンライン評価は、これらのドメインに新しいポリシーを配置することは安全ではないため、しばしば実現不可能である。
本研究では,オフライン評価とオンライン評価の中間段階として半オフライン評価フレームワークを提案する。
このようなアノテーションで既存のデータを単純に増やすことを誘惑する一方で、この単純なアプローチはバイアスのある結果をもたらす可能性があることを示す。
代わりに、重要サンプリング(is)に基づく新しいope推定器と、追加のバイアスを伴わずに偽のアノテーションを組み込む新しい重み付けスキームを設計する。
提案手法の理論的特性を解析し,バイアスと分散を標準is推定器と比較して低減する可能性を示した。
我々の分析は、バイアス、ノイズ、または欠落したアノテーションを扱うための重要な実践的考察を明らかにする。
バンディットと医療インスパイアされたシミュレータを含む概念実証実験では,本手法が純粋にオフラインのIS推定器より優れ,アノテーションの不完全性に強いことが実証された。
我々のフレームワークは、原則的人間中心のアノテーションソリケーション設計と組み合わせることで、RLを高い領域に適用することができる。 In applying reinforcement learning (RL) to high-stakes domains, quantitative and qualitative evaluation using observational data can help practitioners understand the generalization performance of new policies. However, this type of off-policy evaluation (OPE) is inherently limited since offline data may not reflect the distribution shifts resulting from the application of new policies. On the other hand, online evaluation by collecting rollouts according to the new policy is often infeasible, as deploying new policies in these domains can be unsafe. In this work, we propose a semi-offline evaluation framework as an intermediate step between offline and online evaluation, where human users provide annotations of unobserved counterfactual trajectories. While tempting to simply augment existing data with such annotations, we show that this naive approach can lead to biased results. Instead, we design a new family of OPE estimators based on importance sampling (IS) and a novel weighting scheme that incorporate counterfactual annotations without introducing additional bias. We analyze the theoretical properties of our approach, showing its potential to reduce both bias and variance compared to standard IS estimators. Our analyses reveal important practical considerations for handling biased, noisy, or missing annotations. In a series of proof-of-concept experiments involving bandits and a healthcare-inspired simulator, we demonstrate that our approach outperforms purely offline IS estimators and is robust to imperfect annotations. Our framework, combined with principled human-centered design of annotation solicitation, can enable the application of RL in high-stakes domains. | 翻訳日:2023-10-27 22:14:12 公開日:2023-10-26 |
# 接地対話のための記号計画と符号生成 Symbolic Planning and Code Generation for Grounded Dialogue ( http://arxiv.org/abs/2310.17140v1 ) ライセンス: Link先を確認 | Justin T. Chiu, Wenting Zhao, Derek Chen, Saujas Vaduguru, Alexander M. Rush, Daniel Fried | (参考訳) 大規模言語モデル(LLM)は、テキストとコードの両方の処理と生成に優れる。
しかし, LLM は, タスク目標に向けての操作が困難であり, 新規な接地処理の処理が困難であるため, 接地型対話に適用性に限界がある。
本稿では,LLMを記号プランナと接地コード実行で構成することで,これらの欠点に対処する,モジュール的で解釈可能な接地対話システムを提案する。
読者はllmを利用してパートナーの発話を実行可能なコードに変換し、グランド化を実行する関数を呼び出す。
翻訳されたコードの出力は対話状態を追跡するために格納され、シンボリックプランナーは次の適切な応答を決定する。
分散ドットの抽象画像に対する協調参照解決を含む,要求されるOneCommon対話タスクにおけるシステムの性能を評価する。
我々のシステムは、人間の評価におけるタスク成功率を56%から69%に改善するなど、これまでの最先端よりも大幅に向上した。 Large language models (LLMs) excel at processing and generating both text and code. However, LLMs have had limited applicability in grounded task-oriented dialogue as they are difficult to steer toward task objectives and fail to handle novel grounding. We present a modular and interpretable grounded dialogue system that addresses these shortcomings by composing LLMs with a symbolic planner and grounded code execution. Our system consists of a reader and planner: the reader leverages an LLM to convert partner utterances into executable code, calling functions that perform grounding. The translated code's output is stored to track dialogue state, while a symbolic planner determines the next appropriate response. We evaluate our system's performance on the demanding OneCommon dialogue task, involving collaborative reference resolution on abstract images of scattered dots. Our system substantially outperforms the previous state-of-the-art, including improving task success in human evaluations from 56% to 69% in the most challenging setting. | 翻訳日:2023-10-27 22:13:45 公開日:2023-10-26 |
# オフライン強化学習におけるバイシミュレーションに基づく表現の落とし穴の理解と対処 Understanding and Addressing the Pitfalls of Bisimulation-based Representations in Offline Reinforcement Learning ( http://arxiv.org/abs/2310.17139v1 ) ライセンス: Link先を確認 | Hongyu Zang, Xin Li, Leiji Zhang, Yang Liu, Baigui Sun, Riashat Islam, Remi Tachet des Combes, Romain Laroche | (参考訳) バイシミュレーションに基づくアプローチでは、強化学習(RL)タスクの堅牢な状態表現の学習が約束されているが、オフラインのRLタスクにおける有効性はそれほど高くない。
一部の例では、その性能は代替メソッドを著しく下回っていた。
シミュレーション手法がオンライン設定で成功する理由を理解することを目的としていますが,オフラインタスクでは変わります。
分析の結果,データセットの欠落はバイシミュレーションの原理に特に有害であり,非効率な推定に繋がることがわかった。
また,バイシミュレーション測定のスケールと,それが誘発する値誤差のバウンドにおいて,報酬スケーリングが果たす重要な役割について考察した。
これらの結果に基づき,オフラインrl設定に表現学習のための期待演算子を適用することを提案し,不完全なデータへの過剰適合を防止する。
一方,適切な報酬スケーリング戦略を導入することで,表現空間における機能崩壊のリスクを回避できる。
そこで我々は,2つのベンチマークスイートであるD4RLとVisual D4RLの性能向上を実証するために,最先端のバイシミュレーションベースアルゴリズムMICoとSimSRにこれらのレコメンデーションを実装した。
コードは \url{https://github.com/zanghyu/offline_bisimulation} で提供される。 While bisimulation-based approaches hold promise for learning robust state representations for Reinforcement Learning (RL) tasks, their efficacy in offline RL tasks has not been up to par. In some instances, their performance has even significantly underperformed alternative methods. We aim to understand why bisimulation methods succeed in online settings, but falter in offline tasks. Our analysis reveals that missing transitions in the dataset are particularly harmful to the bisimulation principle, leading to ineffective estimation. We also shed light on the critical role of reward scaling in bounding the scale of bisimulation measurements and of the value error they induce. Based on these findings, we propose to apply the expectile operator for representation learning to our offline RL setting, which helps to prevent overfitting to incomplete data. Meanwhile, by introducing an appropriate reward scaling strategy, we avoid the risk of feature collapse in representation space. We implement these recommendations on two state-of-the-art bisimulation-based algorithms, MICo and SimSR, and demonstrate performance gains on two benchmark suites: D4RL and Visual D4RL. Codes are provided at \url{https://github.com/zanghyu/Offline_Bisimulation}. | 翻訳日:2023-10-27 22:13:26 公開日:2023-10-26 |
# Hindiオンライン文字認識のためのグローバル文字レベルと局所サブユニットレベル特徴を用いた分類器 A Classifier Using Global Character Level and Local Sub-unit Level Features for Hindi Online Handwritten Character Recognition ( http://arxiv.org/abs/2310.17138v1 ) ライセンス: Link先を確認 | Anand Sharma (MIET, Meerut), A. G. Ramakrishnan (IISc, Bengaluru) | (参考訳) Hindiのオンライン手書き文字をモデル化するために,グローバル文字特徴,サブユニット数,ローカルサブユニット特徴の同時分布を定義する分類器を開発した。
分類器は潜在変数を使ってサブユニットの構造をモデル化する。
この分類器は、大域的な文字レベルと局所的なサブユニットレベルの文字を表現するために、点、向き、向きの動態のヒストグラムを用いており、文字のストローク順序やストローク方向のバリエーションとは無関係である。
分類器のパラメータは最大帰納法を用いて推定される。
本研究は, 異なる分類器と他の研究で用いられる特徴を分類器と比較するために検討する。
第2次統計量(SOS)、サブスペース(SS)、フィッシャー判別量(FD)、フィードフォワードニューラルネットワーク(FFN)、サポートベクトルマシン(SVM)、そして、考慮される特徴は、時空間(ST)、離散フーリエ変換(DFT)、離散コサイン変換(SCT)、離散ウェーブレット変換(DWT)、空間(SP)、東洋のヒストグラム(HOG)である。
開発した分類器のトレーニングとテストに使用されるヒンズー文字データセットは96の異なる文字クラスの手書き文字のサンプルで構成されている。
トレーニングセットには、平均133のキャラクタクラスを持つ12832のサンプルと、テストセット内のキャラクタクラス毎に平均29のサンプルがある2821のサンプルがある。
開発した分類器は,同じトレーニングセットから抽出した異なる特徴に基づいて訓練し,同じテストセットで評価した分類器と比較して,テストセット上で93.5\%の精度を有する。 A classifier is developed that defines a joint distribution of global character features, number of sub-units and local sub-unit features to model Hindi online handwritten characters. The classifier uses latent variables to model the structure of sub-units. The classifier uses histograms of points, orientations, and dynamics of orientations (HPOD) features to represent characters at global character level and local sub-unit level and is independent of character stroke order and stroke direction variations. The parameters of the classifier is estimated using maximum likelihood method. Different classifiers and features used in other studies are considered in this study for classification performance comparison with the developed classifier. The classifiers considered are Second Order Statistics (SOS), Sub-space (SS), Fisher Discriminant (FD), Feedforward Neural Network (FFN) and Support Vector Machines (SVM) and the features considered are Spatio Temporal (ST), Discrete Fourier Transform (DFT), Discrete Cosine Transform (SCT), Discrete Wavelet Transform (DWT), Spatial (SP) and Histograms of Oriented Gradients (HOG). Hindi character datasets used for training and testing the developed classifier consist of samples of handwritten characters from 96 different character classes. There are 12832 samples with an average of 133 samples per character class in the training set and 2821 samples with an average of 29 samples per character class in the testing set. The developed classifier has the highest accuracy of 93.5\% on the testing set compared to that of the classifiers trained on different features extracted from the same training set and evaluated on the same testing set considered in this study. | 翻訳日:2023-10-27 22:13:04 公開日:2023-10-26 |
# 交互投影による大規模ガウス過程 Large-Scale Gaussian Processes via Alternating Projection ( http://arxiv.org/abs/2310.17137v1 ) ライセンス: Link先を確認 | Kaiwen Wu, Jonathan Wenger, Haydn Jones, Geoff Pleiss, Jacob R. Gardner | (参考訳) ガウス過程 (gp) ハイパーパラメータ最適化は、n \times n$ の核行列を持つ線形系を反復的に解く必要がある。
無理な$\mathcal{o}(n^3) 時間複雑性に対処するために、最近の研究では共役勾配 (cg) のような高速反復数値解法が採用されている。
しかし、データセットの規模が大きくなるにつれて、対応するカーネル行列はますます不調になり、分割せずに$\mathcal{O}(n^2)$空間を必要とする。
したがって、CGはデータセットのサイズを増加させ、GPはトレーニングできるが、現代のデータセットはその適用範囲を超えてスケールに達する。
本研究では,カーネル行列のサブブロックのみにアクセスし,emph{mini-batching}を効果的に有効化する反復手法を提案する。
我々のアルゴリズムは、交互プロジェクションに基づいて、GPを非常に大きなデータセットにスケールするという現実的な課題の多くを解決し、各イテレーション時間と空間の複雑さを$\mathcal{O}(n)$とする。
理論的には,この手法が線形収束を楽しむことを証明し,不条件に対する堅牢性を実証する。
大規模ベンチマークデータセットでは、私たちのアプローチは、cgと比較して2$\times$から27$\times$の倍のトレーニングを加速します。 Gaussian process (GP) hyperparameter optimization requires repeatedly solving linear systems with $n \times n$ kernel matrices. To address the prohibitive $\mathcal{O}(n^3)$ time complexity, recent work has employed fast iterative numerical methods, like conjugate gradients (CG). However, as datasets increase in magnitude, the corresponding kernel matrices become increasingly ill-conditioned and still require $\mathcal{O}(n^2)$ space without partitioning. Thus, while CG increases the size of datasets GPs can be trained on, modern datasets reach scales beyond its applicability. In this work, we propose an iterative method which only accesses subblocks of the kernel matrix, effectively enabling \emph{mini-batching}. Our algorithm, based on alternating projection, has $\mathcal{O}(n)$ per-iteration time and space complexity, solving many of the practical challenges of scaling GPs to very large datasets. Theoretically, we prove our method enjoys linear convergence and empirically we demonstrate its robustness to ill-conditioning. On large-scale benchmark datasets up to four million datapoints our approach accelerates training by a factor of 2$\times$ to 27$\times$ compared to CG. | 翻訳日:2023-10-27 22:12:28 公開日:2023-10-26 |
# Core Challenge 2023:ソルバーとグラフ記述 Core Challenge 2023: Solver and Graph Descriptions ( http://arxiv.org/abs/2310.17136v1 ) ライセンス: Link先を確認 | Takehide Soh, Yoshio Okamoto, Takehiro Ito | (参考訳) 本稿では,CoRe Challenge 2023に提出された解法とISRインスタンスのすべての記述をまとめた。 This paper collects all descriptions of solvers and ISR instances submitted to CoRe Challenge 2023. | 翻訳日:2023-10-27 22:12:04 公開日:2023-10-26 |
# subalgebras と coupled cluster green's function の統合:励起多様体における量子埋め込みの理論的基礎 Integrating Subsystem Embedding Subalgebras and Coupled Cluster Green's Function: A Theoretical Foundation for Quantum Embedding in Excitation Manifold ( http://arxiv.org/abs/2310.17172v1 ) ライセンス: Link先を確認 | Bo Peng, Karol Kowalski | (参考訳) 本研究では、従来のCCGF理論と最先端のサブシステム埋め込みサブ代数結合クラスタ(SES-CC)をシームレスに統合することにより、結合クラスタグリーン関数(CCGF)の埋め込みに新しいアプローチを導入する。
この積分は、主に、活性軌道によって明示的に定義されたグリーン関数のサブシステムと対応するセグメントの特性を記述することに焦点を当てている。
重要なことに、我々の研究はSES-CCパラダイムの適応を含み、ハミルトン類似性変換の異なる形式を通して左固有値問題に対処する。
この進歩は、組み込みサブシステムとその周辺環境との相互作用を包括的に表現するだけでなく、特に創発的な量子フローアルゴリズムを用いることで、複数の埋め込みドメインの量子力学的記述への道を開く。
我々の理論的基盤は、さらに複数の組み込みサブシステムへの一般化の段階を定めている。
この拡張は非平衡量子系の探索と応用に大きな可能性を秘めており、システム-環境相互作用の理解を深めている。
この研究は、量子計算とマルチスケールシミュレーションの領域にSES-CCが埋め込まれる可能性を強調し、精度と計算効率のバランスが良いことを約束する。 In this study, we introduce a novel approach to coupled-cluster Green's function (CCGF) embedding by seamlessly integrating conventional CCGF theory with the state-of-the-art sub-system embedding sub-algebras coupled cluster (SES-CC) formalism. This integration focuses primarily on delineating the characteristics of the sub-system and the corresponding segments of the Green's function, defined explicitly by active orbitals. Crucially, our work involves the adaptation of the SES-CC paradigm, addressing the left eigenvalue problem through a distinct form of Hamiltonian similarity transformation. This advancement not only facilitates a comprehensive representation of the interaction between the embedded sub-system and its surrounding environment but also paves the way for the quantum mechanical description of multiple embedded domains, particularly by employing the emergent quantum flow algorithms. Our theoretical underpinnings further set the stage for a generalization to multiple embedded sub-systems. This expansion holds significant promise for the exploration and application of non-equilibrium quantum systems, enhancing the understanding of system-environment interactions. In doing so, the research underscores the potential of SES-CC embedding within the realm of quantum computations and multi-scale simulations, promising a good balance between accuracy and computational efficiency. | 翻訳日:2023-10-27 22:04:39 公開日:2023-10-26 |
# 音楽大言語モデリングのためのコンテンツベース制御 Content-based Controls For Music Large Language Modeling ( http://arxiv.org/abs/2310.17162v1 ) ライセンス: Link先を確認 | Liwei Lin, Gus Xia, Junyan Jiang, and Yixiao Zhang | (参考訳) 近年、音楽オーディオ分野における大規模言語モデルの急速な成長が見られた。
このようなモデルは高品質な音楽のエンドツーエンド生成を可能にし、一部はテキスト記述による条件付き生成を可能にする。
しかし、音楽におけるテキストコントロールの制御力は、メタデータ(歌手や楽器など)や高レベルの表現(ジャンルや感情など)を通じて音楽を間接的に記述できるため、本質的に制限されている。
我々は、ピッチ、コード、ドラムトラックなどの自然言語に対する直接およびコンテンツベースの制御をモデルにもたらすことを目標としている。
そこで本研究では,音楽大言語モデルのためのコンテンツベース制御手法であるcoco-mullaを提案する。
トランスフォーマーベースのオーディオモデルに適したパラメータ効率細調整法(PEFT)を用いる。
実験の結果,低リソースの半教師付き学習による高品質な音楽生成,パラメータの4%未満でのチューニング,300曲未満の小さなデータセットでのトレーニングが可能となった。
さらに,本手法により効果的なコンテンツベース制御が可能となり,コードとリズムによる制御能力,音楽オーディオの最も有能な特徴の2つが説明できる。
さらに,コンテンツベースの制御とテキスト記述を組み合わせることで,柔軟な音楽変動生成とスタイル転送を実現することを示す。
ソースコードとデモはオンラインで公開しています。 Recent years have witnessed a rapid growth of large-scale language models in the domain of music audio. Such models enable end-to-end generation of higher-quality music, and some allow conditioned generation using text descriptions. However, the control power of text controls on music is intrinsically limited, as they can only describe music indirectly through meta-data (such as singers and instruments) or high-level representations (such as genre and emotion). We aim to further equip the models with direct and content-based controls on innate music languages such as pitch, chords and drum track. To this end, we contribute Coco-Mulla, a content-based control method for music large language modeling. It uses a parameter-efficient fine-tuning (PEFT) method tailored for Transformer-based audio models. Experiments show that our approach achieved high-quality music generation with low-resource semi-supervised learning, tuning with less than 4% parameters compared to the original model and training on a small dataset with fewer than 300 songs. Moreover, our approach enables effective content-based controls, and we illustrate the control power via chords and rhythms, two of the most salient features of music audio. Furthermore, we show that by combining content-based controls and text descriptions, our system achieves flexible music variation generation and style transfer. Our source codes and demos are available online. | 翻訳日:2023-10-27 22:04:18 公開日:2023-10-26 |
# 銅置換鉛アパタイトにおける低質量導電電子のロングコヒーレンス対 Long-coherence pairing of low-mass conduction electrons in copper-substituted lead apatite ( http://arxiv.org/abs/2310.17160v1 ) ライセンス: Link先を確認 | Jicheng Liu, Chenao He, Yin-Hui Peng, Zhihao Zhen, Guanhua Chen, Jia Wang, Xiao-Bao Yang, Xianfeng Qiao, Yao Yao, and Dongge Ma | (参考訳) 2つの絡み合った量子ビットは、通常原子の精度で閉じ込められた量子制御の必須の資源として現れる。
マクロスコープの集合量子ビット対では、特に高温において長いコヒーレンスと量子絡み合いを示すことが阻害される。
本稿では, 銅置換を用いた固体焼結鉛アパタイト試料のエキゾチックアンサンブル効果について報告する。
cw電子常磁性共鳴(epr)分光法の超低磁場吸収信号は、銅酸ラジカルのコヒーレンスを示唆する低質量導電電子に由来する。
パルスepr実験では、85kで1マイクロ秒を超えるコヒーレンス時間を持つカップレート二軸系の三重項ラビ振動を示す。
これらの魅力的な効果は、スケーラブルな量子制御と計算に応用できることを十分に約束していると考えています。 Two entangled qubits emerge as an essential resource for quantum control, which are normally quantum confined with atomic precision. It seems inhibitive that in the macroscopic scope collective qubit pairs manifest long coherence and quantum entanglement, especially at high temperature. Here, we report this exotic ensemble effect in solid-state sintering lead apatite samples with copper substitution, which have been repeatedly duplicated with superior stability and low cost. An extraordinarily low-field absorption signal of cw electron paramagnetic resonance (EPR) spectroscopy stems from low-mass conduction electrons implying the coherence of cuprate radicals can be long-termly protected. The pulsed EPR experiments exhibit triplet Rabi oscillation from paired cuprate diradicals with the coherence time exceeding 1 microsecond at 85K. We believe these appealing effects are sufficiently promising to be applied for scalable quantum control and computation. | 翻訳日:2023-10-27 22:03:57 公開日:2023-10-26 |
# 最大損失:分散シフト時のキャリブレーションのための制約付き最大エントロピー MaxEnt Loss: Constrained Maximum Entropy for Calibration under Out-of-Distribution Shift ( http://arxiv.org/abs/2310.17159v1 ) ライセンス: Link先を確認 | Dexter Neo, Stefan Winkler, Tsuhan Chen | (参考訳) 本稿では,配電系統のキャリブレーション問題に対処する新たな損失関数を提案する。
OODを効果的に校正するためには,多くの目的関数が提案されているが,本研究の結果は必ずしもOODをうまく利用していないことを示している。
最大エントロピーの原理に基づき、トレーニング中に観測される有用な統計制約を取り入れ、精度を犠牲にすることなくより優れたモデルキャリブレーションを提供する。
我々は理論解析を行い,本手法が実世界のベンチマークと実世界のベンチマークの両方で最先端のキャリブレーションを達成することを実証的に示す。 We present a new loss function that addresses the out-of-distribution (OOD) calibration problem. While many objective functions have been proposed to effectively calibrate models in-distribution, our findings show that they do not always fare well OOD. Based on the Principle of Maximum Entropy, we incorporate helpful statistical constraints observed during training, delivering better model calibration without sacrificing accuracy. We provide theoretical analysis and show empirically that our method works well in practice, achieving state-of-the-art calibration on both synthetic and real-world benchmarks. | 翻訳日:2023-10-27 22:03:31 公開日:2023-10-26 |
# cosmosdsr --unscented kalman filterを用いた軌道デブリの自動検出と追跡のための手法 CosmosDSR -- a methodology for automated detection and tracking of orbital debris using the Unscented Kalman Filter ( http://arxiv.org/abs/2310.17158v1 ) ライセンス: Link先を確認 | Daniel S. Roll, Zeyneb Kurt and Wai Lok Woo | (参考訳) ケスラー症候群(kessler syndrome)は、頻繁な宇宙活動から宇宙の破片がエスカレートし、将来の宇宙探査を脅かすことを指す。
この問題に対処することは不可欠です。
convolutional neural networks (cnn)、kernel principal component analysis (kpca)、model-agnostic meta-learning (maml)などいくつかのaiモデルがさまざまなデータタイプで評価されている。
初期の研究では、物体検出と追跡のためのヨロ物体検出器と線形カルマンフィルタの組み合わせが強調された。
そこで本プロジェクトでは, YOLOv3 と Unscented Kalman Filter を組み合わせた新しい手法である CosmosDSR を導入し, 直線カルマンフィルタと比較した。
ルクセンブルク大学のSPARKデータセットを用いて訓練と試験を行い、YOLOv3は、わずかな誤差(TP=4163、FP=209、FN=237)ですべての衛星カテゴリー(mAP=97.18%、F1=0.95)を正確に検出し分類した。
コスモスDSRとLKFは衛星を正確に追跡した(UKF: MSE=2.83/RMSE=1.66、LKF: MSE=2.84/RMSE=1.66)。
クラス不均衡や実際の画像の欠如に関する懸念にもかかわらず、モデルは約束を示す。
今後の作業では、これらの制限に対処し、サンプルサイズを追跡し、メトリクスを改善する必要がある。
この研究は、ケスラー症候群の解決策への道を開くため、衛星の検出と追跡におけるアルゴリズムの可能性を示唆している。 The Kessler syndrome refers to the escalating space debris from frequent space activities, threatening future space exploration. Addressing this issue is vital. Several AI models, including Convolutional Neural Networks (CNN), Kernel Principal Component Analysis (KPCA), and Model-Agnostic Meta-Learning (MAML), have been assessed with various data types. Earlier studies highlighted the combination of the YOLO object detector and a linear Kalman filter for object detection and tracking. Building on this, our project introduces CosmosDSR, a novel methodology combining YOLOv3 with an Unscented Kalman Filter for tracking satellites in sequential images, compared to a linear Kalman filter. Using the SPARK dataset from the University of Luxembourg for training and testing, the YOLOv3 precisely detected and classified all satellite categories (mAP=97.18%, F1=0.95) with few errors (TP=4163, FP=209, FN=237). Both CosmosDSR and the LKF tracked satellites accurately (UKF: MSE=2.83/RMSE=1.66, LKF: MSE=2.84/RMSE=1.66). Despite concerns of class imbalance and the absence of real images, the model shows promise. Future work should address these limitations, increase tracking sample size, and improve metrics. This research suggests the algorithm's potential in detecting and tracking satellites, paving the way for solutions to the Kessler syndrome. | 翻訳日:2023-10-27 22:03:13 公開日:2023-10-26 |
# Deja Vu: 推論時の効率的なLLMのためのコンテキストスポーザリティ Deja Vu: Contextual Sparsity for Efficient LLMs at Inference Time ( http://arxiv.org/abs/2310.17157v1 ) ライセンス: Link先を確認 | Zichang Liu, Jue Wang, Tri Dao, Tianyi Zhou, Binhang Yuan, Zhao Song, Anshumali Shrivastava, Ce Zhang, Yuandong Tian, Christopher Re, Beidi Chen | (参考訳) 数十億のパラメータを持つ大規模言語モデル(LLM)が、新たなエキサイティングなAIアプリケーションを生み出した。
しかし、計算コストは計算時間では高い。
sparsityはコスト削減のための自然なアプローチだが、既存の手法では、コストのかかる再トレーニングが必要か、llmのコンテキスト内学習能力を放棄するか、最新のハードウェアでウォールクロック時間のスピードアップを発生させないかのどちらかである。
入力依存型アテンションヘッドとMLPパラメータの小さいコンテキスト空間は、与えられた入力の密度モデルとほぼ同じ出力を出力するので、これらの問題に対処できると仮定する。
我々は、文脈的スパーシティが存在し、正確な予測が可能であり、それを利用して、llmの品質や文脈内学習能力を損なうことなく、壁時計時間におけるllm推論を高速化できることを示した。
これらの知見に基づいて,各レイヤに入力されたフライの文脈スパーシティを,llm推論を高速化する非同期・ハードウェア対応実装とともに,低コストアルゴリズムを用いて予測するシステムdejavuを提案する。
DejaVuは、最先端の Faster Transformer と比較して OPT-175B の推論遅延を 2 倍に減らし、モデル品質を損なうことなく、広く使われている Hugging Face の実装に比べて 6 倍以上削減できることを確認した。
コードはhttps://github.com/FMInference/DejaVu.comで入手できる。 Large language models (LLMs) with hundreds of billions of parameters have sparked a new wave of exciting AI applications. However, they are computationally expensive at inference time. Sparsity is a natural approach to reduce this cost, but existing methods either require costly retraining, have to forgo LLM's in-context learning ability, or do not yield wall-clock time speedup on modern hardware. We hypothesize that contextual sparsity, which are small, input-dependent sets of attention heads and MLP parameters that yield approximately the same output as the dense model for a given input, can address these issues. We show that contextual sparsity exists, that it can be accurately predicted, and that we can exploit it to speed up LLM inference in wall-clock time without compromising LLM's quality or in-context learning ability. Based on these insights, we propose DejaVu, a system that uses a low-cost algorithm to predict contextual sparsity on the fly given inputs to each layer, along with an asynchronous and hardware-aware implementation that speeds up LLM inference. We validate that DejaVu can reduce the inference latency of OPT-175B by over 2X compared to the state-of-the-art FasterTransformer, and over 6X compared to the widely used Hugging Face implementation, without compromising model quality. The code is available at https://github.com/FMInference/DejaVu. | 翻訳日:2023-10-27 22:02:12 公開日:2023-10-26 |
# 単眼映像からの深度学習 Learning depth from monocular video sequences ( http://arxiv.org/abs/2310.17156v1 ) ライセンス: Link先を確認 | Zhenwei Luo | (参考訳) 単眼ビデオシーケンスから単一画像深度推定モデルを学ぶことは、非常に難しい問題である。
本稿では,訓練過程における監視用画像の増設を可能にする新しいトレーニングロスを提案する。
フレームの画素移動を考慮した簡易かつ効果的なモデルを提案する。
単一画像推定のための新しいネットワークアーキテクチャも設計する。
組み合わせると,本手法は,自己教師付き環境でのKITTIデータセット上での単眼深度推定のための技術結果の状態を生成する。 Learning single image depth estimation model from monocular video sequence is a very challenging problem. In this paper, we propose a novel training loss which enables us to include more images for supervision during the training process. We propose a simple yet effective model to account the frame to frame pixel motion. We also design a novel network architecture for single image estimation. When combined, our method produces state of the art results for monocular depth estimation on the KITTI dataset in the self-supervised setting. | 翻訳日:2023-10-27 22:01:36 公開日:2023-10-26 |
# 階層的分類調整による深い不均衡回帰 Deep Imbalanced Regression via Hierarchical Classification Adjustment ( http://arxiv.org/abs/2310.17154v1 ) ライセンス: Link先を確認 | Haipeng Xiong, Angela Yao | (参考訳) 年齢推定やカウントなどのコンピュータビジョンにおける回帰タスクは、ターゲット空間をクラスに定量化することで分類されることが多い。
しかし、現実世界のデータはしばしばバランスが取れない。トレーニングサンプルの大部分はターゲット値の先頭範囲にあるが、少数のサンプルは通常より広いテール範囲にまたがる。
クラス量子化を選択することで、不均衡回帰目標をバランスのとれた分類出力に調整することができるが、分類精度と量子化誤差のバランスのトレードオフがある。
データ全体にわたる回帰性能を向上させるために,不均衡回帰タスクを解決する階層的分類器を構築することを提案する。
きめ細かい分類器は、粗い予測によって変調されながら量子化誤差を制限する。
しかし、回帰問題に適用された標準的な階層的分類アプローチは、予測範囲が階層全体にわたって一貫していることを保証するのに失敗する。
そこで本研究では,階層型分類器の集合から単一分類器を効果的に学習できる範囲保存蒸留法を提案する。
不均衡回帰に対する新しい階層的分類調整 (hca) は, 年齢推定, 群衆数, 深さ推定の3つのタスクにおいて優れた結果を示す。
受け入れ次第、ソースコードをリリースします。 Regression tasks in computer vision, such as age estimation or counting, are often formulated into classification by quantizing the target space into classes. Yet real-world data is often imbalanced -- the majority of training samples lie in a head range of target values, while a minority of samples span a usually larger tail range. By selecting the class quantization, one can adjust imbalanced regression targets into balanced classification outputs, though there are trade-offs in balancing classification accuracy and quantization error. To improve regression performance over the entire range of data, we propose to construct hierarchical classifiers for solving imbalanced regression tasks. The fine-grained classifiers limit the quantization error while being modulated by the coarse predictions to ensure high accuracy. Standard hierarchical classification approaches, however, when applied to the regression problem, fail to ensure that predicted ranges remain consistent across the hierarchy. As such, we propose a range-preserving distillation process that can effectively learn a single classifier from the set of hierarchical classifiers. Our novel hierarchical classification adjustment (HCA) for imbalanced regression shows superior results on three diverse tasks: age estimation, crowd counting and depth estimation. We will release the source code upon acceptance. | 翻訳日:2023-10-27 22:01:17 公開日:2023-10-26 |
# 階層型半指数変分推論と拡散モデル加速への応用 Hierarchical Semi-Implicit Variational Inference with Application to Diffusion Model Acceleration ( http://arxiv.org/abs/2310.17153v1 ) ライセンス: Link先を確認 | Longlin Yu, Tianyu Xie, Yu Zhu, Tong Yang, Xiangyu Zhang, Cheng Zhang | (参考訳) sivi (semi-implicit variational inference) は、表現的半単純分布を階層的に定義することで解析的変分族を拡張するために導入された。
しかし、現在のSIVI法で一般的に用いられる単一層アーキテクチャは、ターゲット後部が複雑な構造を持つ場合、不十分である。
本稿では、SIVIを一般化し、半単純分布のより表現力のある多層構成を可能にする階層型半単純変分推論HSIVIを提案する。
単純なベース分布と目標分布とを補間する補助分布を導入することにより、これらの補助分布を次々に一致させることで条件層を訓練することができる。
さらに,事前学習したスコアネットワークを用いて,スコアマッチング対象の拡散モデルのサンプリングプロセスを高速化することができる。
複雑な対象分布を持つベイズ推論問題において,HSIVIはSIVIの表現性を著しく向上させることを示す。
拡散モデル加速に使用する場合、HSIVIは、様々なデータセット上で少数の関数評価を行う既存の高速拡散モデルベースサンプルラーと同等以上の高品質なサンプルを作成できることを示す。 Semi-implicit variational inference (SIVI) has been introduced to expand the analytical variational families by defining expressive semi-implicit distributions in a hierarchical manner. However, the single-layer architecture commonly used in current SIVI methods can be insufficient when the target posterior has complicated structures. In this paper, we propose hierarchical semi-implicit variational inference, called HSIVI, which generalizes SIVI to allow more expressive multi-layer construction of semi-implicit distributions. By introducing auxiliary distributions that interpolate between a simple base distribution and the target distribution, the conditional layers can be trained by progressively matching these auxiliary distributions one layer after another. Moreover, given pre-trained score networks, HSIVI can be used to accelerate the sampling process of diffusion models with the score matching objective. We show that HSIVI significantly enhances the expressiveness of SIVI on several Bayesian inference problems with complicated target distributions. When used for diffusion model acceleration, we show that HSIVI can produce high quality samples comparable to or better than the existing fast diffusion model based samplers with a small number of function evaluations on various datasets. | 翻訳日:2023-10-27 22:00:57 公開日:2023-10-26 |
# 低磁場MRI 0.55T Knee-MRIによる3.0T訓練深層学習モデルの翻訳の可能性 Technical Note: Feasibility of translating 3.0T-trained Deep-Learning Segmentation Models Out-of-the-Box on Low-Field MRI 0.55T Knee-MRI of Healthy Controls ( http://arxiv.org/abs/2310.17152v1 ) ライセンス: Link先を確認 | Rupsa Bhattacharjee, Zehra Akkaya, Johanna Luitjens, Pan Su, Yang Yang, Valentina Pedoia and Sharmila Majumdar | (参考訳) 本研究の目的は,0.55Tでスキャンした健常者を対象に,両膝バイオマーカーを定量化するための深層学習(DL)アルゴリズムの適用可能性を評価することである。
本研究は,0.55Tと3.0Tの分割性能,改善領域,区画的軟骨厚値の比較において,標準的な骨内骨と軟骨分割アルゴリズムの性能を質的に,定量的に評価する。
最初の結果は、マルチベンダによる取得環境において、膝mriの0.55tのうち3.0tで訓練された既存の定量ディープラーニングに基づく画像分割手法を、有用かつ良好な技術的実現可能性を示すものである。
特に軟骨コンパートメントのセグメンテーションに関しては、このモデルはlikertランキングで3.0tとほぼ等価である。
その結果,0.55t低磁場持続的,容易に装着できるmriは,当初は高磁場強度で訓練された確立されたdlアルゴリズムにより,膝軟骨厚と骨分節を評価するのに有用であった。
これは、無線技師が手動で低フィールド画像のセグメンテーションを行うことができず、少なくとも適切な低フィールドデータプールのベースがコラボされるまで、医療現場で利用することができる。
低フィールドデータの手動ラベリングや低フィールド画像からの合成高SNR画像の利用により、OAバイオマーカー定量化性能がさらに向上することが保証されている。 In the current study, our purpose is to evaluate the feasibility of applying deep learning (DL) enabled algorithms to quantify bilateral knee biomarkers in healthy controls scanned at 0.55T and compared with 3.0T. The current study assesses the performance of standard in-practice bone, and cartilage segmentation algorithms at 0.55T, both qualitatively and quantitatively, in terms of comparing segmentation performance, areas of improvement, and compartment-wise cartilage thickness values between 0.55T vs. 3.0T. Initial results demonstrate a usable to good technical feasibility of translating existing quantitative deep-learning-based image segmentation techniques, trained on 3.0T, out of 0.55T for knee MRI, in a multi-vendor acquisition environment. Especially in terms of segmenting cartilage compartments, the models perform almost equivalent to 3.0T in terms of Likert ranking. The 0.55T low-field sustainable and easy-to-install MRI, as demonstrated, thus, can be utilized for evaluating knee cartilage thickness and bone segmentations aided by established DL algorithms trained at higher-field strengths out-of-the-box initially. This could be utilized at the far-spread point-of-care locations with a lack of radiologists available to manually segment low-field images, at least till a decent base of low-field data pool is collated. With further fine-tuning with manual labeling of low-field data or utilizing synthesized higher SNR images from low-field images, OA biomarker quantification performance is potentially guaranteed to be further improved. | 翻訳日:2023-10-27 22:00:38 公開日:2023-10-26 |
# パノラマX線を用いた深層学習による歯のセグメンテーションと配向 A Deep Learning Approach to Teeth Segmentation and Orientation from Panoramic X-rays ( http://arxiv.org/abs/2310.17176v1 ) ライセンス: Link先を確認 | Mrinal Kanti Dhar, Mou Deb, D. Madhab, and Zeyun Yu | (参考訳) 正確な歯のセグメンテーションと配向は現代の口腔医療において基本的なものであり、正確な診断、治療計画、歯科インプラントの設計を可能にしている。
本研究では, 深層学習技術を活用したパノラマX線画像からの歯のセグメンテーションと配向に対する包括的アプローチを提案する。
傷口セグメンテーションのために最初に開発された人気モデルであるfusegnetに基づいてモデルを構築し、スキップ接続にグリッドベースのアテンションゲートを組み込むことによる修正を導入しました。
主成分分析(PCA)により, 歯の配向を正確に推定する指向性バウンディングボックス(OBB)の生成を導入する。
543個のパノラマX線画像からなる公開DNSデータセットに対する我々のアプローチを評価するため, 歯の症例別比較モデルでは, 82.43%のインターセクション・オーバー・ユニオン(IoU)スコア, 90.37%のDice similarity Coefficient(DSC)スコアが得られた。
OBB分析では、回転イオウ(RIoU)スコア82.82%を得る。
また,個々の歯のラベルと分類性能を詳細に分析し,強度や弱さに光を当てる。
提案モデルの正確性と汎用性は, 口腔領域における歯科診断, 治療計画, パーソナライズ医療の改善に有望な可能性を提供する。
生成されたobb座標とコードは、https://github.com/mrinal054/instance_teeth_segmentationで利用可能です。 Accurate teeth segmentation and orientation are fundamental in modern oral healthcare, enabling precise diagnosis, treatment planning, and dental implant design. In this study, we present a comprehensive approach to teeth segmentation and orientation from panoramic X-ray images, leveraging deep learning techniques. We build our model based on FUSegNet, a popular model originally developed for wound segmentation, and introduce modifications by incorporating grid-based attention gates into the skip connections. We introduce oriented bounding box (OBB) generation through principal component analysis (PCA) for precise tooth orientation estimation. Evaluating our approach on the publicly available DNS dataset, comprising 543 panoramic X-ray images, we achieve the highest Intersection-over-Union (IoU) score of 82.43% and Dice Similarity Coefficient (DSC) score of 90.37% among compared models in teeth instance segmentation. In OBB analysis, we obtain the Rotated IoU (RIoU) score of 82.82%. We also conduct detailed analyses of individual tooth labels and categorical performance, shedding light on strengths and weaknesses. The proposed model's accuracy and versatility offer promising prospects for improving dental diagnoses, treatment planning, and personalized healthcare in the oral domain. Our generated OBB coordinates and codes are available at https://github.com/mrinal054/Instance_teeth_segmentation. | 翻訳日:2023-10-27 21:54:15 公開日:2023-10-26 |
# 消散アンシラによる量子電池の定常充電 Steady-state charging of quantum batteries via dissipative ancillas ( http://arxiv.org/abs/2310.17174v1 ) ライセンス: Link先を確認 | F. H. Kamin, S. Salimi and M. B. Arjmand | (参考訳) 量子ビットのNセル星ネットワークに埋め込まれた単一セル量子電池の定常帯電過程について検討し、それぞれがフェルミオン貯水池と相互作用し、それぞれ平衡シナリオと非平衡シナリオを個別に行う。
両シナリオで最適な定常電荷が得られ、貯水池の化学的ポテンシャルと化学的ポテンシャルの差により単調に成長する。
貯水池の高温は、全てのパラメーター状態において破壊的な役割を果たす。
非平衡状態の強さにかかわらず、電池の対応する貯水池の高塩基性化学ポテンシャルは充電プロセスを大幅に向上させることができる。
一方、弱い結合強度は帯電を強く抑制することができる。
その結果,外部充電フィールドを使わずにオープンな量子電池の充電プロセスを最適化するための有用なプロトコルが得られた。 We investigate the steady-state charging process of a single-cell quantum battery embedded in an N-cell star network of qubits, each interacting with a fermion reservoir, collectively and individually in equilibrium and non-equilibrium scenarios, respectively. We find an optimal steady-state charging in both scenarios, which grows monotonically with the reservoirs' chemical potential and chemical potential difference. Where the high base temperature of the reservoirs has a destructive role in all parameter regimes. We find that regardless of the strength of the non-equilibrium condition, the high base chemical potential of the battery's corresponding reservoir can significantly enhance the charging process. On the other hand, a weak coupling strength can strongly suppress the charging. Consequently, our results offer some useful protocols for optimizing the charging process of open quantum batteries without an external charging field. | 翻訳日:2023-10-27 21:53:50 公開日:2023-10-26 |
# DSAC-C:ロバスト離散ソフトアクター批判のための制約付き最大エントロピー DSAC-C: Constrained Maximum Entropy for Robust Discrete Soft-Actor Critic ( http://arxiv.org/abs/2310.17173v1 ) ライセンス: Link先を確認 | Dexter Neo, Tsuhan Chen | (参考訳) 本稿では,ソフトアクタ・クリティカル(SAC)アルゴリズムのファミリを新たに拡張する。
我々は,最大エントロピー原理に基づき,代理的批判政策に由来する追加の統計的制約により,離散的sacをさらに改善することができると主張する。
さらに,これらの制約が,現実世界における強化学習エージェントの安全な展開に不可欠な,潜在的な領域シフトに対する強固性をもたらすことを示唆する。
我々は,Atari 2600ゲームにおいて,分布内および分布外の両方の低データ構造に関する理論的解析を行い,実験結果を示す。 We present a novel extension to the family of Soft Actor-Critic (SAC) algorithms. We argue that based on the Maximum Entropy Principle, discrete SAC can be further improved via additional statistical constraints derived from a surrogate critic policy. Furthermore, our findings suggests that these constraints provide an added robustness against potential domain shifts, which are essential for safe deployment of reinforcement learning agents in the real-world. We provide theoretical analysis and show empirical results on low data regimes for both in-distribution and out-of-distribution variants of Atari 2600 games. | 翻訳日:2023-10-27 21:53:33 公開日:2023-10-26 |
# MO-YOLO:YOLOとMOTRを用いたエンドツーエンド多目的追跡手法 MO-YOLO: End-to-End Multiple-Object Tracking Method with YOLO and MOTR ( http://arxiv.org/abs/2310.17170v1 ) ライセンス: Link先を確認 | Liao Pan and Yang Feng and Wu Di and Liu Bo and Zhang Xingle | (参考訳) 本稿では,MO-YOLO(MO-YOLO)と呼ばれる,効率的な資源効率の高いエンドツーエンドのマルチオブジェクト追跡モデルを提案する。
従来のmotメソッドでは、オブジェクト検出とオブジェクト追跡の2つのステップがあり、計算の複雑さとエラー伝播の問題を引き起こす。
最近の研究は、トランスフォーマーアーキテクチャに基づくエンドツーエンドのmotモデルで優れた性能を示しているが、それらは実質的なハードウェアサポートを必要としている。
MO-YOLOは、YOLOモデルとRT-DETRモデルの長所を組み合わせて、高効率で軽量でリソース効率のマルチオブジェクトトラッキングネットワークを構築し、マルチオブジェクトトラッキングドメインで新たな機会を提供する。
MOT17データセットでは、MOTR\cite{zeng2022motr}は8GeForce 2080 Ti GPUを4日間トレーニングして満足な結果を得る必要があり、MO-YOLOは1GeForce 2080 Ti GPUと12時間のトレーニングしか必要としない。 This paper aims to address critical issues in the field of Multi-Object Tracking (MOT) by proposing an efficient and computationally resource-efficient end-to-end multi-object tracking model, named MO-YOLO. Traditional MOT methods typically involve two separate steps: object detection and object tracking, leading to computational complexity and error propagation issues. Recent research has demonstrated outstanding performance in end-to-end MOT models based on Transformer architectures, but they require substantial hardware support. MO-YOLO combines the strengths of YOLO and RT-DETR models to construct a high-efficiency, lightweight, and resource-efficient end-to-end multi-object tracking network, offering new opportunities in the multi-object tracking domain. On the MOT17 dataset, MOTR\cite{zeng2022motr} requires training with 8 GeForce 2080 Ti GPUs for 4 days to achieve satisfactory results, while MO-YOLO only requires 1 GeForce 2080 Ti GPU and 12 hours of training to achieve comparable performance. | 翻訳日:2023-10-27 21:53:24 公開日:2023-10-26 |
# 一般在庫到着ダイナミクスを用いた在庫管理政策の学習 Learning an Inventory Control Policy with General Inventory Arrival Dynamics ( http://arxiv.org/abs/2310.17168v1 ) ライセンス: Link先を確認 | Sohrab Andaz, Carson Eisenach, Dhruv Madeka, Kari Torkkola, Randy Jia, Dean Foster, Sham Kakade | (参考訳) 本稿では,一般到着ダイナミクスの存在下での在庫管理方針の学習と検証の問題点を取り上げ,これを量オーバータイム到着モデル(QOT)と呼ぶ。
また、注文量を後処理のステップとして修正して、注文最小値やバッチサイズ制約といったベンダの制約を満たすことも、実際のサプライチェーンで一般的なプラクティスです。
我々の知る限りでは、これは任意の到着ダイナミクスまたは順序量の任意の下流後処理を扱う最初の作業である。
最近の研究 (Madeka et al., 2022) に基づいて、我々は同様に周期的レビュー在庫管理問題を外因性決定プロセスとして定式化し、ほとんどの状態がエージェントの制御外にある。
Madeka et al. (2022) は、このクラスの問題を解決するために歴史的なデータを再生するシミュレータを構築する方法を示している。
本例では,歴史再生の一環として,到着過程の深部生成モデルを組み込んだ。
問題を外因性決定プロセスとして定式化することにより,Madeka et al. (2022) の結果を適用し,教師付き学習に還元することができる。
最後に,本手法が生産ベースラインよりも統計的に有意な利益率向上をもたらすことをシミュレーションにより示す。
実世界のa/bテストのデータを用いて、gen-qotがオフポリシーデータによく一般化していることを示す。 In this paper we address the problem of learning and backtesting inventory control policies in the presence of general arrival dynamics -- which we term as a quantity-over-time arrivals model (QOT). We also allow for order quantities to be modified as a post-processing step to meet vendor constraints such as order minimum and batch size constraints -- a common practice in real supply chains. To the best of our knowledge this is the first work to handle either arbitrary arrival dynamics or an arbitrary downstream post-processing of order quantities. Building upon recent work (Madeka et al., 2022) we similarly formulate the periodic review inventory control problem as an exogenous decision process, where most of the state is outside the control of the agent. Madeka et al. (2022) show how to construct a simulator that replays historic data to solve this class of problem. In our case, we incorporate a deep generative model for the arrivals process as part of the history replay. By formulating the problem as an exogenous decision process, we can apply results from Madeka et al. (2022) to obtain a reduction to supervised learning. Finally, we show via simulation studies that this approach yields statistically significant improvements in profitability over production baselines. Using data from an ongoing real-world A/B test, we show that Gen-QOT generalizes well to off-policy data. | 翻訳日:2023-10-27 21:53:02 公開日:2023-10-26 |
# 画像と雑音の同時推定による消音拡散モデルの改善 Improving Denoising Diffusion Models via Simultaneous Estimation of Image and Noise ( http://arxiv.org/abs/2310.17167v1 ) ライセンス: Link先を確認 | Zhenkai Zhang, Krista A. Ehinger and Tom Drummond | (参考訳) 本稿では,逆拡散過程によって生成された画像の速度と品質を改善するための2つの重要な貢献を紹介する。
最初の寄与は、拡散過程を画像と雑音の間の四分円弧の角度で再パラメータ化することであり、特に従来の$ {\displaystyle \sqrt{\bar{\alpha}}=\cos(\eta)$である。
この再パラメータ化は2つの特異点を取り除き、よく整備された常微分方程式(ode)として拡散進化の表現を可能にする。
これにより、Runge-Kuttaメソッドのような高階ODEソルバを効果的に使用できる。
第2の貢献は、画像(\mathbf{x}_0$)とノイズ(\mathbf{\epsilon}$)の両方を、逆拡散ステップにおける更新ステップのより安定した計算を可能にするネットワークを用いて直接見積もることである。
これらの変化と相まって,高画質画像に対してより高速に収束し,より高品質な画像が得られるとともに,frechetインセプション距離(fid),空間的frechetインセプション距離(sfid),精度,リコールなどの測定値によって,画像の品質が向上した。 This paper introduces two key contributions aimed at improving the speed and quality of images generated through inverse diffusion processes. The first contribution involves reparameterizing the diffusion process in terms of the angle on a quarter-circular arc between the image and noise, specifically setting the conventional $\displaystyle \sqrt{\bar{\alpha}}=\cos(\eta)$. This reparameterization eliminates two singularities and allows for the expression of diffusion evolution as a well-behaved ordinary differential equation (ODE). In turn, this allows higher order ODE solvers such as Runge-Kutta methods to be used effectively. The second contribution is to directly estimate both the image ($\mathbf{x}_0$) and noise ($\mathbf{\epsilon}$) using our network, which enables more stable calculations of the update step in the inverse diffusion steps, as accurate estimation of both the image and noise are crucial at different stages of the process. Together with these changes, our model achieves faster generation, with the ability to converge on high-quality images more quickly, and higher quality of the generated images, as measured by metrics such as Frechet Inception Distance (FID), spatial Frechet Inception Distance (sFID), precision, and recall. | 翻訳日:2023-10-27 21:52:38 公開日:2023-10-26 |
# X-SNS:サブネットワーク類似性による言語間移動予測 X-SNS: Cross-Lingual Transfer Prediction through Sub-Network Similarity ( http://arxiv.org/abs/2310.17166v1 ) ライセンス: Link先を確認 | Taejun Yun, Jinhyeon Kim, Deokyeong Kang, Seong Hoon Lim, Jihoon Kim, Taeuk Kim | (参考訳) クロスリンガルトランスファー(XLT)は、微調整プロセスに含まれない言語で評価された場合、タスク上での性能をある程度保持する多言語言語モデルの創発的能力である。
広く使われている英語は、様々なタスクにおけるモデル適応の第一言語と見なされているが、近年の研究では、特定の条件に基づいて最適なソース言語を選択することで、XLTの有効性を増幅できることが示されている。
本稿では,XLTの文脈における言語間の互換性を予測するプロキシとして,2言語間のサブネットワーク類似性の利用を提案する。
我々のアプローチはモデル指向であり、基礎モデルの内側の動作をより良く反映する。
加えて、候補言語から適度な量の原文しか必要とせず、外部リソースに依存する従来の手法のほとんどと区別する。
実験では,提案手法が様々なタスクにまたがるベースラインよりも有効であることを示す。
具体的には、ゼロショットXLTのランキング候補の熟練度を示し、NDCG@3で平均4.6%向上した。
xlt予測のためのサブネットワークの有用性を確認する広範な分析も提供する。 Cross-lingual transfer (XLT) is an emergent ability of multilingual language models that preserves their performance on a task to a significant extent when evaluated in languages that were not included in the fine-tuning process. While English, due to its widespread usage, is typically regarded as the primary language for model adaption in various tasks, recent studies have revealed that the efficacy of XLT can be amplified by selecting the most appropriate source languages based on specific conditions. In this work, we propose the utilization of sub-network similarity between two languages as a proxy for predicting the compatibility of the languages in the context of XLT. Our approach is model-oriented, better reflecting the inner workings of foundation models. In addition, it requires only a moderate amount of raw text from candidate languages, distinguishing it from the majority of previous methods that rely on external resources. In experiments, we demonstrate that our method is more effective than baselines across diverse tasks. Specifically, it shows proficiency in ranking candidates for zero-shot XLT, achieving an improvement of 4.6% on average in terms of NDCG@3. We also provide extensive analyses that confirm the utility of sub-networks for XLT prediction. | 翻訳日:2023-10-27 21:52:11 公開日:2023-10-26 |
# タンパク質-タンパク質相互作用ネットワークによる系統学と分類学 Bridging Phylogeny and Taxonomy with Protein-protein Interaction Networks ( http://arxiv.org/abs/2310.17164v1 ) ライセンス: Link先を確認 | Long-Huei Chen, Mohana Prasad Sathya Moorthy, and Pratyaksh Sharma | (参考訳) タンパク質-タンパク質相互作用(PPI)ネットワークは、生物の代謝と生存に不可欠な複雑な生物学的反応の概要を提供する。
これまでPPIネットワークは、生物間で詳細に比較されてきたが、個々のPPIネットワークが種間の関係をどのように反映しているかに関する大規模な研究は行われていない。
本研究では,PPIネットワークから情報を収集することで,生命の樹と分類の理解を高めることを目的とする。
我々は,(1)系統内に存在する既知の種の特徴に基づくネットワーク統計の予測を成功させ,(2)既知のタンパク質ネットワーク統計を用いた生物の分類学的分類を実験的に決定し,デ・ノヴォを予測した。
その核となるタンパク質相互作用の知識によって、2つのモデルが2つの分野を効果的に結びつけている。 The protein-protein interaction (PPI) network provides an overview of the complex biological reactions vital to an organism's metabolism and survival. Even though in the past PPI network were compared across organisms in detail, there has not been large-scale research on how individual PPI networks reflect on the species relationships. In this study we aim to increase our understanding of the tree of life and taxonomy by gleaming information from the PPI networks. We successful created (1) a predictor of network statistics based on known traits of existing species in the phylogeny, and (2) a taxonomic classifier of organism using the known protein network statistics, whether experimentally determined or predicted de novo. With the knowledge of protein interactions at its core, our two models effectively connects two field with widely diverging methodologies - the phylogeny and taxonomy of species. | 翻訳日:2023-10-27 21:51:53 公開日:2023-10-26 |
# 低次元勾配は分布外検出に役立つ Low-Dimensional Gradient Helps Out-of-Distribution Detection ( http://arxiv.org/abs/2310.17163v1 ) ライセンス: Link先を確認 | Yingwen Wu, Tao Li, Xinwen Cheng, Jie Yang, Xiaolin Huang | (参考訳) 現実世界のシナリオにおいて、ディープニューラルネットワーク(DNN)の信頼性を確保するためには、OODサンプルの検出が不可欠である。
先行研究は,情報分析による内分布(id)とoodデータとの差を主に研究してきたが,dnnの逆行過程におけるパラメータ勾配の差は注目されていない。
勾配の相違に関する既存の研究は主に勾配標準の利用に焦点を当て、勾配方向に埋め込まれた情報の富を無視している。
本稿では,このギャップを埋めるため,OOD検出のための勾配情報全体の活用を包括的に検討する。
主な課題は、ネットワークパラメータの多さによる勾配の高次元性から生じる。
この問題を解決するために,主成分を含む指定された部分空間を用いて勾配の線形次元削減を行う。
この革新的な手法により、情報損失を最小限に抑えた低次元勾配表現が得られる。
その後,既存の各種検出スコア関数に縮小勾配を統合することにより,幅広い検出タスクにおいて優れた性能を示す。
例えば、ImageNetベンチマークでは、現在の最先端手法と比較して、95%リコール(FPR95)における偽陽性率の平均11.15%の削減を実現している。
コードはリリースされます。 Detecting out-of-distribution (OOD) samples is essential for ensuring the reliability of deep neural networks (DNNs) in real-world scenarios. While previous research has predominantly investigated the disparity between in-distribution (ID) and OOD data through forward information analysis, the discrepancy in parameter gradients during the backward process of DNNs has received insufficient attention. Existing studies on gradient disparities mainly focus on the utilization of gradient norms, neglecting the wealth of information embedded in gradient directions. To bridge this gap, in this paper, we conduct a comprehensive investigation into leveraging the entirety of gradient information for OOD detection. The primary challenge arises from the high dimensionality of gradients due to the large number of network parameters. To solve this problem, we propose performing linear dimension reduction on the gradient using a designated subspace that comprises principal components. This innovative technique enables us to obtain a low-dimensional representation of the gradient with minimal information loss. Subsequently, by integrating the reduced gradient with various existing detection score functions, our approach demonstrates superior performance across a wide range of detection tasks. For instance, on the ImageNet benchmark, our method achieves an average reduction of 11.15% in the false positive rate at 95% recall (FPR95) compared to the current state-of-the-art approach. The code would be released. | 翻訳日:2023-10-27 21:51:40 公開日:2023-10-26 |
# ヒルベルト空間固有プロブレムによって生成される仮定公式 Summation formulas generated by Hilbert space eigenproblem ( http://arxiv.org/abs/2310.17210v1 ) ライセンス: Link先を確認 | Petar Mali, Sonja Gombar, Slobodan Rado\v{s}evi\' c, Milica Rutonjski, Milan Panti\' c, Milica Pavkov-Hrvojevi\' c | (参考訳) 一般化超幾何関数を含むschl\" omilch的無限級数と級数のあるクラスは、無限ポテンシャル井戸内に閉じ込められた粒子の単純な量子モデルと量子力学の原理から、閉じた形で計算できることを実証する。
我々は、ヒルベルト空間の固有プロブレムに基づく一般的なフレームワークを提供し、異なる正確な可解量子モデルに適用することができる。
明確に定義された量子問題における正規化条件から級数を取得することは、それらの収束を保証する。 We demonstrate that certain classes of Schl\" omilch-like infinite series and series that include generalized hypergeometric functions can be calculated in closed form starting from a simple quantum model of a particle trapped inside an infinite potential well and using principles of quantum mechanics. We provide a general framework based on the Hilbert space eigenproblem that can be applied to different exactly solvable quantum models. Obtaining series from normalization conditions in well-defined quantum problems secures their convergence. | 翻訳日:2023-10-27 21:43:25 公開日:2023-10-26 |
# 言語モデルはエンティティをコンテキストにバインドするか? How do Language Models Bind Entities in Context? ( http://arxiv.org/abs/2310.17191v1 ) ライセンス: Link先を確認 | Jiahai Feng, Jacob Steinhardt | (参考訳) コンテキスト内情報を正しく利用するには、言語モデル(LM)が属性にエンティティをバインドしなければならない。
例えば、「緑色の四角」と「青い円」を記述する文脈が与えられた場合、LMはそれぞれの色に形を結びつける必要がある。
我々はLM表現を解析し、結合ID機構を同定する: 結合問題を解くための一般的なメカニズムであり、ピチアファミリーとLLaMAファミリーから十分に大きなモデルをすべて観察する。
因果介入を用いて, LMの内部活性化は結合IDベクトルを対応するエンティティや属性にアタッチすることで, 結合情報を表すことを示す。
さらに、結合IDベクトル間の距離がそれらの識別可能性を反映する連続部分空間を形成することを示す。
全体としては,lmsにおける記号的知識を表現するための解釈可能な戦略を明らかにし,大規模lmsにおける一般的な文脈内推論を理解するためのステップを提供する。 To correctly use in-context information, language models (LMs) must bind entities to their attributes. For example, given a context describing a "green square" and a "blue circle", LMs must bind the shapes to their respective colors. We analyze LM representations and identify the binding ID mechanism: a general mechanism for solving the binding problem, which we observe in every sufficiently large model from the Pythia and LLaMA families. Using causal interventions, we show that LMs' internal activations represent binding information by attaching binding ID vectors to corresponding entities and attributes. We further show that binding ID vectors form a continuous subspace, in which distances between binding ID vectors reflect their discernability. Overall, our results uncover interpretable strategies in LMs for representing symbolic knowledge in-context, providing a step towards understanding general in-context reasoning in large-scale LMs. | 翻訳日:2023-10-27 21:43:14 公開日:2023-10-26 |
# 局所ラプラシアンフィルタのルックアップテーブル:トーンマッピングのためのピラミッド再構成ネットワーク Lookup Table meets Local Laplacian Filter: Pyramid Reconstruction Network for Tone Mapping ( http://arxiv.org/abs/2310.17190v1 ) ライセンス: Link先を確認 | Feng Zhang, Ming Tian, Zhiqiang Li, Bin Xu, Qingbo Lu, Changxin Gao, Nong Sang | (参考訳) トーンマッピングの目的は、高ダイナミックレンジ(HDR)画像を低ダイナミックレンジ(LDR)表現に変換することである。
近年,3次元ルックアップテーブル(3d lut)に基づく手法が注目されている。
しかし,これらの手法は,図表が画素値に基づいて動作し,重要なローカル情報を組み込むことができないグローバルなトーンマッピング演算子であるため,局所的に良好な結果をもたらすことができないことが多い。
そこで本稿では,閉じたラプラシアンピラミッドの分解と再構成を活かし,グローバル・ローカル・オペレーターを統合した新しい戦略を提案する。
具体的には,画像適応型3dlutを用いて,周波数情報の特定の特性を利用して低周波画像のトーンを操作する。
さらに,局所ラプラシアンフィルタを用いて高周波成分のエッジ詳細を適応的に洗練する。
局所ラプラシアンフィルタは写真のエッジディテールを保存するために広く使われているが、従来の用途は手動のチューニングとカメライメージングパイプラインや写真編集ツールでの固定化である。
本稿では,局所ラプラシアンフィルタのパラメータ値マップを,軽量ネットワークを用いた注釈データから段階的に学習する。
本モデルでは,グローバルトーン操作と局所エッジ詳細保存をエンドツーエンドで同時に行う。
2つのベンチマークデータセットの広範な実験結果から,提案手法が最先端手法に対して好適に機能することが示された。 Tone mapping aims to convert high dynamic range (HDR) images to low dynamic range (LDR) representations, a critical task in the camera imaging pipeline. In recent years, 3-Dimensional LookUp Table (3D LUT) based methods have gained attention due to their ability to strike a favorable balance between enhancement performance and computational efficiency. However, these methods often fail to deliver satisfactory results in local areas since the look-up table is a global operator for tone mapping, which works based on pixel values and fails to incorporate crucial local information. To this end, this paper aims to address this issue by exploring a novel strategy that integrates global and local operators by utilizing closed-form Laplacian pyramid decomposition and reconstruction. Specifically, we employ image-adaptive 3D LUTs to manipulate the tone in the low-frequency image by leveraging the specific characteristics of the frequency information. Furthermore, we utilize local Laplacian filters to refine the edge details in the high-frequency components in an adaptive manner. Local Laplacian filters are widely used to preserve edge details in photographs, but their conventional usage involves manual tuning and fixed implementation within camera imaging pipelines or photo editing tools. We propose to learn parameter value maps progressively for local Laplacian filters from annotated data using a lightweight network. Our model achieves simultaneous global tone manipulation and local edge detail preservation in an end-to-end manner. Extensive experimental results on two benchmark datasets demonstrate that the proposed method performs favorably against state-of-the-art methods. | 翻訳日:2023-10-27 21:42:57 公開日:2023-10-26 |
# ビデオグラウンド化のための拡散モデルによる反復的リファインメントの探索 Exploring Iterative Refinement with Diffusion Models for Video Grounding ( http://arxiv.org/abs/2310.17189v1 ) ライセンス: Link先を確認 | Xiao Liang, Tao Shi, Yaoyuan Liang, Te Tao, Shao-Lun Huang | (参考訳) ビデオグラウンディングは、与えられた文クエリに対応する未トリミングビデオ内のターゲットモーメントをローカライズすることを目的としている。
既存の手法は通常、事前に定義された一連の提案から最良の予測を選択したり、標的を単発的に直接回帰させたりすることで、体系的な予測改善プロセスが欠如する。
本稿では,DiffusionVGを提案する。DiffusionVGは条件生成タスクとしてビデオグラウンドを定式化し,ガウス雑音入力からターゲットスパンを生成し,逆拡散過程において相互に洗練する拡散モデルである。
訓練中、ディフュージョンvgは目標スパンに一定の前方拡散過程で徐々にノイズを加え、逆拡散過程において目標スパンを回復することを学習する。
推論において、DiffusionVGは、映像文表現に条件付き学習された逆拡散プロセスによりガウス雑音入力からターゲットスパンを生成することができる。
我々のDiffusionVGはエンコーダ・デコーダアーキテクチャに従っており、まずビデオ文の特徴を符号化し、予測されたスパンを専用スパン精細復号器で繰り返し復号する。
DiffusionVGは、メインストリームのCharades-STAやActivityNet Captionsベンチマークで、既存の優れたモデルと比較して、競争力や優れたパフォーマンスを示しています。 Video grounding aims to localize the target moment in an untrimmed video corresponding to a given sentence query. Existing methods typically select the best prediction from a set of predefined proposals or directly regress the target span in a single-shot manner, resulting in the absence of a systematical prediction refinement process. In this paper, we propose DiffusionVG, a novel framework with diffusion models that formulates video grounding as a conditional generation task, where the target span is generated from Gaussian noise inputs and interatively refined in the reverse diffusion process. During training, DiffusionVG progressively adds noise to the target span with a fixed forward diffusion process and learns to recover the target span in the reverse diffusion process. In inference, DiffusionVG can generate the target span from Gaussian noise inputs by the learned reverse diffusion process conditioned on the video-sentence representations. Our DiffusionVG follows the encoder-decoder architecture, which firstly encodes the video-sentence features and iteratively denoises the predicted spans in its specialized span refining decoder. Without bells and whistles, our DiffusionVG demonstrates competitive or even superior performance compared to existing well-crafted models on mainstream Charades-STA and ActivityNet Captions benchmarks. | 翻訳日:2023-10-27 21:42:31 公開日:2023-10-26 |
# リッチテクスチャ対応コードブックを用いたブラインド画像超解像 Blind Image Super-resolution with Rich Texture-Aware Codebooks ( http://arxiv.org/abs/2310.17188v1 ) ライセンス: Link先を確認 | Rui Qin, Ming Sun, Fangyuan Zhang, Xing Wen, Bin Wang | (参考訳) 近年,高解像度(HR)復号法に基づくブラインド超解像法が有望な成果を上げている。
しかし、HR再構成に基づくコードブックは、低解像度(LR)画像とHR画像の複雑な相関を効果的に捉えることができない。
詳細は、複数のHR画像が複雑なブラインド劣化のために同様のLRバージョンを生成する可能性があるため、混乱したLR入力に直面した場合に、HR依存のコードブックのみがテクスチャの多様性に制限される。
この問題を軽減するために,分解性ローバストテクスチャ優先モジュール (DTPM) とパッチ対応テクスチャ優先モジュール (PTPM) からなるリッチテクスチャ対応コードブックベースネットワーク (RTCNet) を提案する。
DTPMは、テクスチャの相互解像度対応を利用して、LRとHR画像間のテクスチャの相互解像度相関を効果的にマイニングする。
ptpmはパッチワイズセマンティクスプリトレーニングを使用して、ハイレベルセマンティクス正規化におけるテクスチャ類似性の誤解を訂正する。
これを利用して、RTCNetはBSRシナリオにおけるHRとLRの混乱したテクスチャの調整を効果的に除去する。
実験の結果、RTCNetは様々なベンチマークにおける最先端の手法を0.16 ~ 0.46dBで上回っている。 Blind super-resolution (BSR) methods based on high-resolution (HR) reconstruction codebooks have achieved promising results in recent years. However, we find that a codebook based on HR reconstruction may not effectively capture the complex correlations between low-resolution (LR) and HR images. In detail, multiple HR images may produce similar LR versions due to complex blind degradations, causing the HR-dependent only codebooks having limited texture diversity when faced with confusing LR inputs. To alleviate this problem, we propose the Rich Texture-aware Codebook-based Network (RTCNet), which consists of the Degradation-robust Texture Prior Module (DTPM) and the Patch-aware Texture Prior Module (PTPM). DTPM effectively mines the cross-resolution correlation of textures between LR and HR images by exploiting the cross-resolution correspondence of textures. PTPM uses patch-wise semantic pre-training to correct the misperception of texture similarity in the high-level semantic regularization. By taking advantage of this, RTCNet effectively gets rid of the misalignment of confusing textures between HR and LR in the BSR scenarios. Experiments show that RTCNet outperforms state-of-the-art methods on various benchmarks by up to 0.16 ~ 0.46dB. | 翻訳日:2023-10-27 21:42:07 公開日:2023-10-26 |
# Rustエコシステムにおけるコンパイラの使い捨て機能と影響 Demystifying Compiler Unstable Feature Usage and Impacts in the Rust Ecosystem ( http://arxiv.org/abs/2310.17186v1 ) ライセンス: Link先を確認 | Chenghao Li (1), Yifei Wu (1), Wenbo Shen (1), Zichen Zhao (1), Rui Chang (1), Chengwei Liu (2), Yang Liu (2), Kui Ren (1) ((1) Zhejiang University, Hangzhou, China, (2) Nanyang Technological University, Singapore, Singapore) | (参考訳) Rustプログラミング言語は、セキュリティ保証と優れたパフォーマンスのために、信頼性とセキュアなシステムの構築で急速に人気を集めている。
余分な機能を提供するため、Rustコンパイラは、コンパイラ機能、構文、標準ライブラリのサポートを拡張するためにRust不安定機能(RUF)を導入した。
しかし、これらの機能は不安定で削除される可能性があり、依存するパッケージにコンパイルの失敗をもたらす。
さらに悪いことに、その影響は推移的な依存関係を通じて伝播し、エコシステム全体に大規模な障害を引き起こします。
RUFはRustで広く使用されているが、以前の研究は主にRustコードの安全性に焦点を当てており、RustコンパイラのRUFの使用と影響は未調査のままである。
したがって、RustエコシステムにおけるRUFの使用と影響を体系的に分析することで、このギャップを埋めることを目指している。
本稿では,rufを高精度に抽出する新しい手法を提案し,その影響を定量的に評価するために,パッケージ依存度を正確に解決する。
我々はRustエコシステム全体を590Kパッケージバージョンと1億4000万の推移的依存関係で分析しました。
我々の調査によると、Rustエコシステムは1000種類のRUFを使用しており、パッケージバージョンの44%がRUFの影響を受けており、コンパイル障害が少なくとも12%発生している。
広範囲にわたるRUFの影響を軽減するため,最大90%の障害を回復できるRUFコンパイル障害回復ツールの設計と実装を行っている。
私たちの技術、発見、ツールはRustコンパイラの安定化に役立ち、最終的にはRustエコシステムのセキュリティと信頼性を向上します。 Rust programming language is gaining popularity rapidly in building reliable and secure systems due to its security guarantees and outstanding performance. To provide extra functionalities, the Rust compiler introduces Rust unstable features (RUF) to extend compiler functionality, syntax, and standard library support. However, these features are unstable and may get removed, introducing compilation failures to dependent packages. Even worse, their impacts propagate through transitive dependencies, causing large-scale failures in the whole ecosystem. Although RUF is widely used in Rust, previous research has primarily concentrated on Rust code safety, with the usage and impacts of RUF from the Rust compiler remaining unexplored. Therefore, we aim to bridge this gap by systematically analyzing the RUF usage and impacts in the Rust ecosystem. We propose novel techniques for extracting RUF precisely, and to assess its impact on the entire ecosystem quantitatively, we accurately resolve package dependencies. We have analyzed the whole Rust ecosystem with 590K package versions and 140M transitive dependencies. Our study shows that the Rust ecosystem uses 1000 different RUF, and at most 44% of package versions are affected by RUF, causing compiling failures for at most 12%. To mitigate wide RUF impacts, we further design and implement a RUF-compilation-failure recovery tool that can recover up to 90% of the failure. We believe our techniques, findings, and tools can help to stabilize the Rust compiler, ultimately enhancing the security and reliability of the Rust ecosystem. | 翻訳日:2023-10-27 21:41:46 公開日:2023-10-26 |
# ディープリッツの適応的重要サンプリング Adaptive important sampling for Deep Ritz ( http://arxiv.org/abs/2310.17185v1 ) ライセンス: Link先を確認 | Xiaoliang Wan and Tao Zhou and Yuancheng Zhou | (参考訳) 本稿では,偏微分方程式(PDE)の解法を目的としたディープリッツ法の適応サンプリング手法を提案する。
2つの深いニューラルネットワークが使用される。
1つのネットワークはPDEの解を近似するために使用され、もう1つはトレーニングセットを洗練させるために新しいコロケーションポイントを生成するために使用される深層生成モデルである。
適応サンプリング手順は2つの主要なステップから構成される。
最初のステップは、トレーニングセットのコロケーションポイントによって識別される関連する変分損失を最小限にして、ディープリッツ法を用いてPDEを解くことである。
2番目のステップは、次の計算で使われる新しいトレーニングセットを生成し、現在の近似解の精度をさらに向上させる。
変分損失の積分を非正規化確率密度関数(PDF)として扱い、境界KRnetと呼ばれる深い生成モデルを用いて近似する。
新しいサンプルとその関連するpdf値は、bounded krnetから得られる。
これらの新しいサンプルとその関連PDF値により、重要サンプリングによりより正確に変分損失を近似することができる。
従来のDeep Ritz法と比較して,提案手法は精度を向上し,特に低正規性と高次元性に特徴付けられる問題に対して有効である。
本稿では,本手法の有効性を数値実験により実証する。 We introduce an adaptive sampling method for the Deep Ritz method aimed at solving partial differential equations (PDEs). Two deep neural networks are used. One network is employed to approximate the solution of PDEs, while the other one is a deep generative model used to generate new collocation points to refine the training set. The adaptive sampling procedure consists of two main steps. The first step is solving the PDEs using the Deep Ritz method by minimizing an associated variational loss discretized by the collocation points in the training set. The second step involves generating a new training set, which is then used in subsequent computations to further improve the accuracy of the current approximate solution. We treat the integrand in the variational loss as an unnormalized probability density function (PDF) and approximate it using a deep generative model called bounded KRnet. The new samples and their associated PDF values are obtained from the bounded KRnet. With these new samples and their associated PDF values, the variational loss can be approximated more accurately by importance sampling. Compared to the original Deep Ritz method, the proposed adaptive method improves accuracy, especially for problems characterized by low regularity and high dimensionality. We demonstrate the effectiveness of our new method through a series of numerical experiments. | 翻訳日:2023-10-27 21:41:19 公開日:2023-10-26 |
# 知識蒸留におけるプロジェクターの効果の理解 Understanding the Effects of Projectors in Knowledge Distillation ( http://arxiv.org/abs/2310.17183v1 ) ライセンス: Link先を確認 | Yudong Chen, Sen Wang, Jiajun Liu, Xuwei Xu, Frank de Hoog, Brano Kusy, Zi Huang | (参考訳) 伝統的に、知識蒸留過程(例えば、特徴蒸留)において、教師と学生ネットワーク間の寸法ミスマッチによる特徴変換を行うには、追加のプロジェクタが必要となることが多い。
興味深いことに、生徒と教師が同じ機能次元を持っていたとしても、プロジェクタを追加することで蒸留性能が向上できることがわかりました。
さらに、プロジェクタは、アーキテクチャにそれらを追加することで、ロジット蒸留も改善します。
これらの驚くべき発見と既存の文献からの知識蒸留プロセスにおけるプロジェクターの理解の欠如に着想を得て,プロジェクターが果たした暗黙的な役割について検討する。
本研究は,(1)プロジェクタを持つ生徒が,プロジェクタを持たない生徒に比べて,プロジェクタを持たない生徒と比較して,訓練精度とテスト精度のトレードオフが良好であること,(2)教師との類似性が浅く数値的な類似性を超えて,センタード・カーネルアライメント(cka)の観点から保たれること,(3)試験段階において教師が自信過剰になることを避けること,の実証である。
プロジェクタの正の効果に動機づけられ,さらに蒸留性能を向上させるために,プロジェクタアンサンブルを用いた特徴蒸留法を提案する。
提案手法の単純さにもかかわらず、ベンチマークデータセットを用いた分類タスクの評価から、幅広い教師と学生のペアにおける手法の優れた分類性能を示し、CKAとモデル校正の側面から、学生の特徴がプロジェクタアンサンブル設計による品質改善であることを検証した。 Conventionally, during the knowledge distillation process (e.g. feature distillation), an additional projector is often required to perform feature transformation due to the dimension mismatch between the teacher and the student networks. Interestingly, we discovered that even if the student and the teacher have the same feature dimensions, adding a projector still helps to improve the distillation performance. In addition, projectors even improve logit distillation if we add them to the architecture too. Inspired by these surprising findings and the general lack of understanding of the projectors in the knowledge distillation process from existing literature, this paper investigates the implicit role that projectors play but so far have been overlooked. Our empirical study shows that the student with a projector (1) obtains a better trade-off between the training accuracy and the testing accuracy compared to the student without a projector when it has the same feature dimensions as the teacher, (2) better preserves its similarity to the teacher beyond shallow and numeric resemblance, from the view of Centered Kernel Alignment (CKA), and (3) avoids being over-confident as the teacher does at the testing phase. Motivated by the positive effects of projectors, we propose a projector ensemble-based feature distillation method to further improve distillation performance. Despite the simplicity of the proposed strategy, empirical results from the evaluation of classification tasks on benchmark datasets demonstrate the superior classification performance of our method on a broad range of teacher-student pairs and verify from the aspects of CKA and model calibration that the student's features are of improved quality with the projector ensemble design. | 翻訳日:2023-10-27 21:40:59 公開日:2023-10-26 |
# グラフィカルオブジェクト中心アクター批判 Graphical Object-Centric Actor-Critic ( http://arxiv.org/abs/2310.17178v1 ) ライセンス: Link先を確認 | Leonid Ugadiarov, Aleksandr I. Panov | (参考訳) 近年,教師なしオブジェクト中心表現学習の課題と下流タスクへの応用が著しい進歩を遂げている。
最新の研究は、画像に基づくオブジェクト中心強化学習タスクにおいて、不整合オブジェクト表現を用いることがポリシー学習を促進するという議論を支持する。
本稿では,これらの表現を効果的に活用するために,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。
提案手法では,トランスフォーマーエンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し,環境のダイナミクスを近似する。
提案手法は、離散的または連続的な行動空間を持つ環境に使用できる強化学習環境のための効率的なオブジェクト中心世界モデルの開発における研究ギャップを埋めるものである。
本アルゴリズムは,トランスフォーマアーキテクチャとモノリシックなモノリシックなモデルベースアルゴリズムに基づいて構築された,最先端のモデルフリーアクタークリティカルアルゴリズムよりも複雑な3次元ロボット環境と構成構造を持つ2次元環境において,優れた性能を発揮する。 There have recently been significant advances in the problem of unsupervised object-centric representation learning and its application to downstream tasks. The latest works support the argument that employing disentangled object representations in image-based object-centric reinforcement learning tasks facilitates policy learning. We propose a novel object-centric reinforcement learning algorithm combining actor-critic and model-based approaches to utilize these representations effectively. In our approach, we use a transformer encoder to extract object representations and graph neural networks to approximate the dynamics of an environment. The proposed method fills a research gap in developing efficient object-centric world models for reinforcement learning settings that can be used for environments with discrete or continuous action spaces. Our algorithm performs better in a visually complex 3D robotic environment and a 2D environment with compositional structure than the state-of-the-art model-free actor-critic algorithm built upon transformer architecture and the state-of-the-art monolithic model-based algorithm. | 翻訳日:2023-10-27 21:40:23 公開日:2023-10-26 |
# 仮面ファインチューニングによるトーケンプルーニングとフルプレトレーニングのギャップを埋める Bridging The Gaps Between Token Pruning and Full Pre-training via Masked Fine-tuning ( http://arxiv.org/abs/2310.17177v1 ) ライセンス: Link先を確認 | Fengyuan Shi, Limin Wang | (参考訳) コンピュータビジョンタスクにおけるトランスフォーマーの成功にもかかわらず、それらは過剰なメモリと計算コストに悩まされている。
いくつかの作品は冗長なトークンを刈り取ることによって推論を加速するために動的ビジョントランスフォーマーを提供する。
トークンプルーニングを改善する鍵は、より高速な収束とパフォーマンス向上のための初期化として、よく訓練されたモデルを使用することである。
しかし、現在のベースモデルは通常、フルイメージを入力として使用し、機能マップ全体をフォワードプロセスで保持するフルイメージトレーニングを採用しており、計算パターン、情報量、トークン選択戦略など、トークンを徐々に減少させる動的モデルとの不整合を引き起こす。
マスキングおよび自己監督タスクを行うmaeに触発されて,初期化に使用する事前学習ベースモデルとトークンプルーニングベースのダイナミックビジョントランスフォーマタとのギャップを埋めるために,マスク付き微調整を考案し,画像パッチをマスキングし,左のアンマスクパッチに基づいて画像クラスラベルを予測した。
ImageNetでの大規模な実験により、マスクされた微調整によるベースモデルは、強い閉塞性と情報損失に対する能力を得ることが示された。
このより良い初期化により、Dynamic ViTは特に大きなトークンプルーニング比(例えば、81.9%対81.3%、DeiTベースのDynamic ViT/0.8とDynamic ViT/0.3)で高い精度を達成する。
さらに,本手法を異なるトークンプルーニングに基づく動的視覚変換器,異なる事前学習モデル,ランダムに初期化モデルに適用し,一般化能力を示す。 Despite the success of transformers on various computer vision tasks, they suffer from excessive memory and computational cost. Some works present dynamic vision transformers to accelerate inference by pruning redundant tokens. A key to improving token pruning is using well-trained models as initialization for faster convergence and better performance. However, current base models usually adopt full image training, i.e., using full images as inputs and keeping the whole feature maps through the forward process, which causes inconsistencies with dynamic models that gradually reduce tokens, including calculation pattern, information amount and token selection strategy inconsistencies. Inspired by MAE which performs masking and reconstruction self-supervised task, we devise masked fine-tuning to bridge the gaps between pre-trained base models used for initialization and token pruning based dynamic vision transformers, by masking image patches and predicting the image class label based on left unmasked patches. Extensive experiments on ImageNet demonstrate that base models via masked fine-tuning gain strong occlusion robustness and ability against information loss. With this better initialization, Dynamic ViT achieves higher accuracies, especially under large token pruning ratios (e.g., 81.9% vs. 81.3%, and 62.3% vs. 58.9% for DeiT based Dynamic ViT/0.8 and Dynamic ViT/0.3). Moreover, we apply our method into different token pruning based dynamic vision transformers, different pre-trained models and randomly initialized models to demonstrate the generalization ability. | 翻訳日:2023-10-27 21:40:03 公開日:2023-10-26 |
# beyond mle: テキスト生成のための凸学習 Beyond MLE: Convex Learning for Text Generation ( http://arxiv.org/abs/2310.17217v1 ) ライセンス: Link先を確認 | Chenze Shao and Zhengrui Ma and Min Zhang and Yang Feng | (参考訳) 最大確率推定(MLE)は、観測されたデータを最もよく説明する確率分布のパラメータを推定する統計手法である。
テキスト生成の文脈では、MLEは生成言語モデルのトレーニングによく使用され、新しいテキストを生成するために使われる。
しかし、機械翻訳のようなクローズドなテキスト生成タスクでは、MLEは必ずしも必要で最適ではない。
これらのタスクにおいて、モデルの目的は最も適切な応答を生成することである。
そこで本研究では,データ分布全体を推定することなく,テキスト生成モデルが高確率出力に集中できるような,凸関数に基づく新たな学習目標のクラスを提案する。
本研究では,損失に対して凸関数を適用する場合の最適分布の理論特性について検討し,凸関数が最適分布を研ぎ澄ませることを示す。
各種テキスト生成タスクおよびモデルの実験により,本手法の有効性が示された。
自己回帰モデルにより、欲求とビームサーチのギャップを埋めることができ、最大で9以上のBLEU点を持つ非自己回帰モデルの学習を容易にする。
さらに,本手法は大規模言語モデル (LLM) に大きな影響を与え,様々なタスクにおける生成能力を大幅に向上させる。
ソースコードは \url{https://github.com/ictnlp/convex-learning} で入手できる。 Maximum likelihood estimation (MLE) is a statistical method used to estimate the parameters of a probability distribution that best explain the observed data. In the context of text generation, MLE is often used to train generative language models, which can then be used to generate new text. However, we argue that MLE is not always necessary and optimal, especially for closed-ended text generation tasks like machine translation. In these tasks, the goal of model is to generate the most appropriate response, which does not necessarily require it to estimate the entire data distribution with MLE. To this end, we propose a novel class of training objectives based on convex functions, which enables text generation models to focus on highly probable outputs without having to estimate the entire data distribution. We investigate the theoretical properties of the optimal predicted distribution when applying convex functions to the loss, demonstrating that convex functions can sharpen the optimal distribution, thereby enabling the model to better capture outputs with high probabilities. Experiments on various text generation tasks and models show the effectiveness of our approach. It enables autoregressive models to bridge the gap between greedy and beam search, and facilitates the learning of non-autoregressive models with a maximum improvement of 9+ BLEU points. Moreover, our approach also exhibits significant impact on large language models (LLMs), substantially enhancing their generative capability on various tasks. Source code is available at \url{https://github.com/ictnlp/Convex-Learning}. | 翻訳日:2023-10-27 21:33:15 公開日:2023-10-26 |
# 生成逆ネットワークを用いた3次元骨画像合成 Three-dimensional Bone Image Synthesis with Generative Adversarial Networks ( http://arxiv.org/abs/2310.17216v1 ) ライセンス: Link先を確認 | Christoph Angermann and Johannes Bereiter-Payr and Kerstin Stock and Markus Haltmeier and Gerald Degenhart | (参考訳) 医用画像処理は、ディープラーニングベースのモデルが最大の可能性を持つ領域として強調されている。
しかし、特に医療分野では、データ可用性とプライバシの問題が研究の進展を妨げ、臨床業務における迅速な実施を妨げている。
合成データの生成は、プライバシを保証するだけでなく、特定の特徴を持つ新規の患者に対しても、より大規模なデータ駆動モデルの開発を可能にする。
本研究は,3次元生成対向ネットワーク(GAN)を効率よく訓練し,詳細なボキセルアーキテクチャを用いて高分解能な医療ボリュームを生成できることを実証する。
さらに,GANのインバージョンは3次元設定に成功し,モデル解釈可能性や画像モーフィング,属性編集,スタイルミキシングといった応用の広範な研究に利用されている。
この結果は遠位端の骨のマイクロ構造を表す3次元hr-pqctインスタンスのデータベース上で包括的に検証される。 Medical image processing has been highlighted as an area where deep learning-based models have the greatest potential. However, in the medical field in particular, problems of data availability and privacy are hampering research progress and thus rapid implementation in clinical routine. The generation of synthetic data not only ensures privacy, but also allows to \textit{draw} new patients with specific characteristics, enabling the development of data-driven models on a much larger scale. This work demonstrates that three-dimensional generative adversarial networks (GANs) can be efficiently trained to generate high-resolution medical volumes with finely detailed voxel-based architectures. In addition, GAN inversion is successfully implemented for the three-dimensional setting and used for extensive research on model interpretability and applications such as image morphing, attribute editing and style mixing. The results are comprehensively validated on a database of three-dimensional HR-pQCT instances representing the bone micro-architecture of the distal radius. | 翻訳日:2023-10-27 21:32:52 公開日:2023-10-26 |
# ビデオによる感情認識:レビュー Emotion Recognition by Video: A review ( http://arxiv.org/abs/2310.17212v1 ) ライセンス: Link先を確認 | Junxiao Xue, Jie Wang, Xuecheng Wu and Liangyu Fu | (参考訳) 映像感情認識は感情コンピューティングの重要な分野であり、その解決策は人間とコンピュータの相互作用(HCI)やインテリジェントな医療治療など様々な分野に適用できる。
感情認識の分野で出版された論文の数は増えているが、映像感情認識に関する研究に関する包括的な文献レビューは少ない。
そこで本研究では,2015年から2023年までの論文を選択し,関連する研究における映像感情認識の現在の動向を体系化する。
本稿では,まず2つの典型的な感情モデルについて論じ,その上で,一様データベースやマルチモーダルデータベースなどの映像感情認識に頻繁に利用されるデータベースについて述べる。
次に,現代の一助的・多モーダルな映像感情認識手法の具体的構造と性能を考察し,それぞれの利点と欠点について語り,それらを表上で詳細に比較する。
さらに,現在,映像感情認識における課題を整理し,オープンベンチマークデータベースの確立やマルチモーダル融合戦略の改善など,おそらく最も有望な今後の方向性を指摘する。
本研究の目的は,映像感情認識の迅速かつ高影響の分野における最新の進歩と新たな改善を,研究者や現代科学者が常に支援することである。 Video emotion recognition is an important branch of affective computing, and its solutions can be applied in different fields such as human-computer interaction (HCI) and intelligent medical treatment. Although the number of papers published in the field of emotion recognition is increasing, there are few comprehensive literature reviews covering related research on video emotion recognition. Therefore, this paper selects articles published from 2015 to 2023 to systematize the existing trends in video emotion recognition in related studies. In this paper, we first talk about two typical emotion models, then we talk about databases that are frequently utilized for video emotion recognition, including unimodal databases and multimodal databases. Next, we look at and classify the specific structure and performance of modern unimodal and multimodal video emotion recognition methods, talk about the benefits and drawbacks of each, and then we compare them in detail in the tables. Further, we sum up the primary difficulties right now looked by video emotion recognition undertakings and point out probably the most encouraging future headings, such as establishing an open benchmark database and better multimodal fusion strategys. The essential objective of this paper is to assist scholarly and modern scientists with keeping up to date with the most recent advances and new improvements in this speedy, high-influence field of video emotion recognition. | 翻訳日:2023-10-27 21:32:35 公開日:2023-10-26 |
# 弱視下外科的位相認識 Weakly-Supervised Surgical Phase Recognition ( http://arxiv.org/abs/2310.17209v1 ) ライセンス: Link先を確認 | Roy Hirsch, Regev Cohen, Mathilde Caron, Tomer Golany, Daniel Freedman, Ehud Rivlin | (参考訳) コンピュータ支援手術システムの重要な要素は手術映像の位相認識である。
既存のフェーズ認識アルゴリズムは、時間とお金がかかる大量のビデオのフレーム毎のアノテーションを必要とする。
本研究では,グラフ分割の概念と自己教師付き学習を結合して,フレーム単位の位相予測のためのランダムウォーク解を導出する。
さらに, この手法では, 分散タイムスタンプと少数ショット学習という, 弱い監督の2つの形態を用いる。
提案アルゴリズムは低複雑性であり,低データ方式で動作可能である。
腹腔鏡下胆嚢摘出術ビデオのColec80データセットを用いて実験を行い,複数の設定で有望な性能を示した。 A key element of computer-assisted surgery systems is phase recognition of surgical videos. Existing phase recognition algorithms require frame-wise annotation of a large number of videos, which is time and money consuming. In this work we join concepts of graph segmentation with self-supervised learning to derive a random-walk solution for per-frame phase prediction. Furthermore, we utilize within our method two forms of weak supervision: sparse timestamps or few-shot learning. The proposed algorithm enjoys low complexity and can operate in lowdata regimes. We validate our method by running experiments with the public Cholec80 dataset of laparoscopic cholecystectomy videos, demonstrating promising performance in multiple setups. | 翻訳日:2023-10-27 21:32:12 公開日:2023-10-26 |
# 宇宙論における絡み合い Entanglement in Cosmology ( http://arxiv.org/abs/2310.17208v1 ) ライセンス: Link先を確認 | Konstantinos Boutivas, Dimitrios Katsinis, Georgios Pastras and Nikolaos Tetradis | (参考訳) 膨張期とその後の放射線支配の期間を通じて,Bunch-Davies真空から始まる,球状領域内の無質量場の絡み合いエントロピーの進化を計算した。
インフレーション時の地平線出口時のスクイーズ状態への各モードの遷移と、放射線ドーミネーションがエントロピーのエントロピーを増大させる際の追加スクイーズ。
放射能支配時代への移行後まもなく、体積項が発達し、圧縮状態にある系でよく見られるように、後期のエントロピーへの主要な貢献となる。
エントロピーの大きさを推定し、インフレーション中に地平線を出るモードの量子から古典への遷移の観点からその解釈について議論する。
我々の結果は、インフレーション中にテンソルモードから生じる重力波のような弱い相互作用する場の量子的性質が、今日の宇宙で検出できる可能性を高める。
一方、地平線を超えて自由度を知らない観測者はエントロピーを熱的と解釈する。
この観点からすると、インフレーション後の再加熱は量子的絡み合いの結果である。 We compute the evolution of the entanglement entropy for a massless field within a spherical region throughout the inflationary period and the subsequent era of radiation domination, starting from the Bunch-Davies vacuum. The transition of each mode towards a squeezed state upon horizon exit during inflation and the additional squeezing when radiation domination sets in enhance the entanglement entropy. Shortly after the transition to the radiation-dominated era, a volume term develops and becomes the leading contribution to the entropy at late times, as is common for systems lying in squeezed states. We estimate the magnitude of the entropy and discuss its interpretation in the light of the quantum to classical transition for modes exiting the horizon during inflation. Our results raise the possibility that the quantum nature of weakly interacting fields, such as gravitational waves resulting from tensor modes during inflation, may be detectable in today's universe. On the other hand, an observer with no knowledge of the degrees of freedom beyond the horizon would interpret the entropy as thermal. From this point of view, the reheating after inflation would be a result of quantum entanglement. | 翻訳日:2023-10-27 21:32:00 公開日:2023-10-26 |
# tsetlinマシンを用いた効率的なデータ融合 Efficient Data Fusion using the Tsetlin Machine ( http://arxiv.org/abs/2310.17207v1 ) ライセンス: Link先を確認 | Rupsa Saha, Vladimir I. Zadorozhny and Ole-Christoffer Granmo | (参考訳) そこで本稿では,tsetlin マシンを用いた雑音動データを評価・活用する新しい手法を提案する。
提案手法は,TMが動的データのノイズを伴って変化を学習する論理的節による説明の仕方を監視する。
この方法でtmは、以前に学習した節の重みを下げたり、新しい節の形で反映することでノイズを認識することができる。
また,提案手法の高性能性を示す顕著なデータセットを用いて,包括的実験を行った。 We propose a novel way of assessing and fusing noisy dynamic data using a Tsetlin Machine. Our approach consists in monitoring how explanations in form of logical clauses that a TM learns changes with possible noise in dynamic data. This way TM can recognize the noise by lowering weights of previously learned clauses, or reflect it in the form of new clauses. We also perform a comprehensive experimental study using notably different datasets that demonstrated high performance of the proposed approach. | 翻訳日:2023-10-27 21:31:44 公開日:2023-10-26 |
# miditok: MIDIファイルトークン化のためのPythonパッケージ miditok: A Python package for MIDI file tokenization ( http://arxiv.org/abs/2310.17202v1 ) ライセンス: Link先を確認 | Nathan Fradet, Jean-Pierre Briot, Fabien Chhel, Amal El Fallah Seghrouchni, Nicolas Gutowski | (参考訳) 自然言語処理の最近の進歩はシンボリック音楽のモダリティに適応している。
トランスフォーマーのような言語モデルは、音楽の生成、モデリング、転写、最先端の演奏を含む様々なタスクで象徴音楽と共に使用されてきた。
これらのモデルは製品で使われ始めている。
バックボーンモデルの音楽をエンコードし、デコードするには、トークンと呼ばれる異なる要素のシーケンスに音楽をシリアライズする役割を持つトークン化器に頼る必要がある。
MidiTokはオープンソースのライブラリで、優れた柔軟性と拡張された機能でシンボル音楽のトークン化を可能にする。
最もポピュラーな音楽トークン化を、統一されたAPIの下で実現している。
誰でも簡単に使えるように作られ、拡張できる。 Recent progress in natural language processing has been adapted to the symbolic music modality. Language models, such as Transformers, have been used with symbolic music for a variety of tasks among which music generation, modeling or transcription, with state-of-the-art performances. These models are beginning to be used in production products. To encode and decode music for the backbone model, they need to rely on tokenizers, whose role is to serialize music into sequences of distinct elements called tokens. MidiTok is an open-source library allowing to tokenize symbolic music with great flexibility and extended features. It features the most popular music tokenizations, under a unified API. It is made to be easily used and extensible for everyone. | 翻訳日:2023-10-27 21:31:35 公開日:2023-10-26 |
# networked control variates を用いたフェデレーション学習におけるタンピング勾配分散 Taming Gradient Variance in Federated Learning with Networked Control Variates ( http://arxiv.org/abs/2310.17200v1 ) ライセンス: Link先を確認 | Xingyan Chen, Yaling Liu, Huaming Du, Mu Wang, Yu Zhao | (参考訳) 機械学習への分散アプローチである連合学習は、広範なコミュニケーションオーバーヘッド、収束の遅い、不安定な改善といった重要な課題に直面している。
これらの課題は、主に異種クライアントデータ分布による勾配分散に起因する。
そこで我々は,フェデレート学習のための新しいネットワーク制御変数(FedNCV)フレームワークを提案する。
我々は、クライアントレベルとサーバレベルで実装されたFedNCVフレームワークの基本的な制御変数単位として、REINFORCEのLeave-One-Out(RLOO)を採用しています。
クライアントレベルでは、RLOOコントロール変数を使用して局所的な勾配更新を最適化し、データサンプルによって導入された分散を緩和する。
サーバにリレーされると、RLOOベースの推定器はさらに、バイアスのない低分散集約勾配を提供し、堅牢なグローバルアップデートをもたらす。
この双対の応用は複合制御変数の線形結合として定式化される。
我々は、FedNCV内の二重制御変数の統合を捉える数学的表現と、対応する証明を伴う3つの理論的結果を示す。
このユニークな双対構造は、データの不均一性とスケーラビリティの問題に対処するためにFedNCVを装備する。
さらに,Dirichlet分布の6種類のデータセットに対して, {\alpha} = 0.1でFedNCVを試験し,その性能を6つのSOTA法と比較した。 Federated learning, a decentralized approach to machine learning, faces significant challenges such as extensive communication overheads, slow convergence, and unstable improvements. These challenges primarily stem from the gradient variance due to heterogeneous client data distributions. To address this, we introduce a novel Networked Control Variates (FedNCV) framework for Federated Learning. We adopt the REINFORCE Leave-One-Out (RLOO) as a fundamental control variate unit in the FedNCV framework, implemented at both client and server levels. At the client level, the RLOO control variate is employed to optimize local gradient updates, mitigating the variance introduced by data samples. Once relayed to the server, the RLOO-based estimator further provides an unbiased and low-variance aggregated gradient, leading to robust global updates. This dual-side application is formalized as a linear combination of composite control variates. We provide a mathematical expression capturing this integration of double control variates within FedNCV and present three theoretical results with corresponding proofs. This unique dual structure equips FedNCV to address data heterogeneity and scalability issues, thus potentially paving the way for large-scale applications. Moreover, we tested FedNCV on six diverse datasets under a Dirichlet distribution with {\alpha} = 0.1, and benchmarked its performance against six SOTA methods, demonstrating its superiority. | 翻訳日:2023-10-27 21:31:23 公開日:2023-10-26 |
# ハイブリッド量子フォトニクスにおける光結合の自由度制御 Controlling all Degrees of Freedom of the Optical Coupling in Hybrid Quantum Photonics ( http://arxiv.org/abs/2310.17198v1 ) ライセンス: Link先を確認 | Niklas Lettner, Lukas Antoniuk, Anna P. Ovvyan, Helge Gehring, Daniel Wendland, Viatcheslav N. Agafonov, Wolfram H. P. Pernice and Alexander Kubanek | (参考訳) ナノフォトニック量子デバイスは、量子ネットワークのようなアプリケーションにとって重要な光・物質相互作用を著しく促進することができる。
スピン系の光遷移と単一光のモードとの間の高い相互作用強度に達することは、光結合の全ての自由度を精密に制御する必要がある必須のステップである。
現在の装置はエミッタ位置決めの精度は高いが、配置過程は統計学的に残り、装置製造の歩留まりは減少する。
さらに、光カップリングのすべての自由度を制御できるわけではなく、デバイスの性能を制限できる。
そこで我々は,Si$_3$N$_4$-フォトニック結晶キャビティのモードに結合したナノダイヤモンドにおける負電荷シリコン空孔中心に基づくハイブリッドアプローチを開発し,結合強度のすべての項を個別に制御する。
デバイス性能の指標として,コヒーレントラビ振動とラインブロードニングの周波数を用いる。
これにより、個々の選択された光のモードに対して、位置と双極子の回転を反復的に最適化することができる。
したがって,本研究はハイブリッド量子フォトニクスの最適化のための重要なステップであり,デバイスシミュレーションと実際のデバイス性能の整合性を実現する。 Nanophotonic quantum devices can significantly boost light-matter interaction which is important for applications such as quantum networks. Reaching a high interaction strength between an optical transition of a spin system and a single mode of light is an essential step which demands precise control over all degrees of freedom of the optical coupling. While current devices have reached a high accuracy of emitter positioning, the placement process remains overall statistically, reducing the device fabrication yield. Furthermore, not all degrees of freedom of the optical coupling can be controlled limiting the device performance. Here, we develop a hybrid approach based on negatively-charged silicon-vacancy center in nanodiamonds coupled to a mode of a Si$_3$N$_4$-photonic crystal cavity, where all terms of the coupling strength can be controlled individually. We use the frequency of coherent Rabi-oscillations and line-broadening as a measure of the device performance. This allows for iterative optimization of the position and the rotation of the dipole with respect to individual, preselected modes of light. Therefore, our work marks an important step for optimization of hybrid quantum photonics and enables to align device simulations with real device performance. | 翻訳日:2023-10-27 21:30:56 公開日:2023-10-26 |
# 言語モデルにおける入力トークンキャラクタの役割の理解:情報損失はパフォーマンスにどのように影響するか? Understanding the Role of Input Token Characters in Language Models: How Does Information Loss Affect Performance? ( http://arxiv.org/abs/2310.17271v1 ) ライセンス: Link先を確認 | Ahmed Alajrami and Katerina Margatina and Nikolaos Aletras | (参考訳) 事前学習された言語モデル(plm)がどのように学習するかを理解することは、自然言語処理においてオープンな課題である。
これまでの研究では、意味的および構文的情報をキャプチャするかどうか、データやトレーニング対象がパフォーマンスに与える影響の特定に重点を置いてきた。
しかし、我々の知る限りでは、入力トークン文字における情報損失がPLMの性能に与える影響を特に検討する以前の研究はない。
本研究では,個々のトークンから文字の小さなサブセットを用いて言語モデルを事前学習することで,このギャップに対処する。
意外なことに、極端な設定下であっても事前トレーニングを行うこと、すなわちトークンの1文字だけを使うこと、標準のNLUベンチマークのパフォーマンス保持、そしてフルトーケンモデルと比較してタスクの探索は高い。
例えば、トークンからの1文字1文字にのみ事前トレーニングされたモデルでは、SuperGLUEタスクとGLUEタスクのフルトーケンモデルの約90$\%と770$\%のパフォーマンス保持が達成される。 Understanding how and what pre-trained language models (PLMs) learn about language is an open challenge in natural language processing. Previous work has focused on identifying whether they capture semantic and syntactic information, and how the data or the pre-training objective affects their performance. However, to the best of our knowledge, no previous work has specifically examined how information loss in input token characters affects the performance of PLMs. In this study, we address this gap by pre-training language models using small subsets of characters from individual tokens. Surprisingly, we find that pre-training even under extreme settings, i.e. using only one character of each token, the performance retention in standard NLU benchmarks and probing tasks compared to full-token models is high. For instance, a model pre-trained only on single first characters from tokens achieves performance retention of approximately $90$\% and $77$\% of the full-token model in SuperGLUE and GLUE tasks, respectively. | 翻訳日:2023-10-27 21:22:43 公開日:2023-10-26 |
# ニューラルネットワークを超えたグロッキング:モデル複雑性による経験的探索 Grokking Beyond Neural Networks: An Empirical Exploration with Model Complexity ( http://arxiv.org/abs/2310.17247v1 ) ライセンス: Link先を確認 | Jack Miller, Charles O'Neill, Thang Bui | (参考訳) いくつかの設定では、ニューラルネットワークはgrokkingとして知られる現象を示し、トレーニングセットで同じパフォーマンスが達成された後に、検証セットの完全またはほぼ完全な精度を達成する。
本稿では,グロッキングはニューラルネットワークに限らず,ガウス過程(gp)分類,gp回帰,線形回帰といった他の場面で発生することを見出した。
また,スプリアス情報を含む次元の追加により,アルゴリズムデータセットのグロッキングを誘発するメカニズムを明らかにする。
非神経アーキテクチャにおける現象の存在は、グロクキングがsgdや重み正規化に特異的ではないことを示す。
代わりにgrokkingは、ソリューション検索が複雑さとエラーによってガイドされる任意の環境で可能である。
ベイズ型ニューラルネットワーク(bnn)とgp回帰モデル(gp regression model)のトレーニングトラジェクタにおいて、この知見と今後の傾向に基づいて、より一般的なグロッキング理論に向けて前進する。
具体的には、この現象は、エラーや複雑性の景観における特定の領域のアクセシビリティによって制御されていると仮定する。 In some settings neural networks exhibit a phenomenon known as grokking, where they achieve perfect or near-perfect accuracy on the validation set long after the same performance has been achieved on the training set. In this paper, we discover that grokking is not limited to neural networks but occurs in other settings such as Gaussian process (GP) classification, GP regression and linear regression. We also uncover a mechanism by which to induce grokking on algorithmic datasets via the addition of dimensions containing spurious information. The presence of the phenomenon in non-neural architectures provides evidence that grokking is not specific to SGD or weight norm regularisation. Instead, grokking may be possible in any setting where solution search is guided by complexity and error. Based on this insight and further trends we see in the training trajectories of a Bayesian neural network (BNN) and GP regression model, we make progress towards a more general theory of grokking. Specifically, we hypothesise that the phenomenon is governed by the accessibility of certain regions in the error and complexity landscapes. | 翻訳日:2023-10-27 21:22:25 公開日:2023-10-26 |
# CROP:モデルベースオフライン政策最適化のための保守的リワード CROP: Conservative Reward for Model-based Offline Policy Optimization ( http://arxiv.org/abs/2310.17245v1 ) ライセンス: Link先を確認 | Hao Li, Xiao-Hu Zhou, Xiao-Liang Xie, Shi-Qi Liu, Zhen-Qiu Feng, Xiao-Yin Liu, Mei-Jiang Gui, Tian-Yu Xiang, De-Xing Huang, Bo-Xian Yao, Zeng-Guang Hou | (参考訳) オフライン強化学習(RL)は、オンラインインタラクションなしで収集されたデータを使用してポリシーを最適化することを目的としている。
モデルベースのアプローチは、モデルを使用したデータ生成によるオフラインデータの制限を軽減する能力のため、オフラインRLの課題に対処する上で特に魅力的である。
従来の研究では、ポリシー最適化中にモデルやQ-関数に保守性を導入することで、オフラインRLにおける分布のドリフト問題を効果的に軽減できることが示されている。
しかし、報酬推定における保守主義の影響に関する調査はまだ欠落している。
本稿では,モデルベースオフラインRLアルゴリズムである,モデルベースオフラインポリシー最適化(CROP)の保守的リワードを提案し,モデルトレーニングにおける報酬を保守的に推定する。
保守的な報奨推定を実現するため、CROPは同時にランダムな動作の推定誤差と報酬を最小化する。
理論的分析は、この保守的な報酬メカニズムが保守的な政策評価をもたらし、分布のドリフトを緩和することを示している。
D4RLベンチマークの実験では、CROPのパフォーマンスは最先端のベースラインに匹敵することを示した。
特にCROPは、オフラインとオンラインのRL間の革新的な接続を確立し、オフラインのRL問題は、保守的な報酬でトレーニングされた経験的マルコフ決定プロセスにオンラインのRL技術を採用することで対処できる、と強調している。
ソースコードはhttps://github.com/G0K0URURI/CROP.gitで入手できる。 Offline reinforcement learning (RL) aims to optimize policy using collected data without online interactions. Model-based approaches are particularly appealing for addressing offline RL challenges due to their capability to mitigate the limitations of offline data through data generation using models. Prior research has demonstrated that introducing conservatism into the model or Q-function during policy optimization can effectively alleviate the prevalent distribution drift problem in offline RL. However, the investigation into the impacts of conservatism in reward estimation is still lacking. This paper proposes a novel model-based offline RL algorithm, Conservative Reward for model-based Offline Policy optimization (CROP), which conservatively estimates the reward in model training. To achieve a conservative reward estimation, CROP simultaneously minimizes the estimation error and the reward of random actions. Theoretical analysis shows that this conservative reward mechanism leads to a conservative policy evaluation and helps mitigate distribution drift. Experiments on D4RL benchmarks showcase that the performance of CROP is comparable to the state-of-the-art baselines. Notably, CROP establishes an innovative connection between offline and online RL, highlighting that offline RL problems can be tackled by adopting online RL techniques to the empirical Markov decision process trained with a conservative reward. The source code is available with https://github.com/G0K0URURI/CROP.git. | 翻訳日:2023-10-27 21:22:06 公開日:2023-10-26 |
# スパンプルーニングとハイパーグラフニューラルネットワークによる結合実体と関係抽出 Joint Entity and Relation Extraction with Span Pruning and Hypergraph Neural Networks ( http://arxiv.org/abs/2310.17238v1 ) ライセンス: Link先を確認 | Zhaohui Yan, Songlin Yang, Wei Liu, Kewei Tu | (参考訳) エンティティと関係抽出(ERE)は情報抽出において重要な課題である。
最近のマーカーベースのパイプラインモデルは最先端のパフォーマンスを実現するが、依然としてエラー伝搬の問題に悩まされている。
また、現在のEREモデルのほとんどは、複数のエンティティと関係の間の高次相互作用を考慮していないが、高次モデリングは有用である可能性がある。本研究では、PLマーカー(最先端のマーカーベースのピプレリンモデル)に基づいて構築されたEREのためのHyperGraphニューラルネットワークを提案する。
エラーの伝播を軽減するため,NERモジュールからのエンティティ識別とラベル付けの負担をモデルのジョイントモジュールに転送するために,ハイリコールプルーナー機構を用いる。
高次モデリングでは、ノードがエンティティ(スパンプルーナーによって提供される)とその関係であり、ハイパーエッジは2つの異なる関係や関連する対象とオブジェクト間の相互作用をエンコードするハイパーグラフを構築します。
次に、構築したハイパーグラフにメッセージパッシングを適用することで、高次推論のためのハイパーグラフニューラルネットワークを実行する。
EREタスクのための3つの広く使われているベンチマーク(\acef{}, \ace{}, \scierc{})の実験は、以前の最先端PLマーカーよりも大幅に改善されている。 Entity and Relation Extraction (ERE) is an important task in information extraction. Recent marker-based pipeline models achieve state-of-the-art performance, but still suffer from the error propagation issue. Also, most of current ERE models do not take into account higher-order interactions between multiple entities and relations, while higher-order modeling could be beneficial.In this work, we propose HyperGraph neural network for ERE ($\hgnn{}$), which is built upon the PL-marker (a state-of-the-art marker-based pipleline model). To alleviate error propagation,we use a high-recall pruner mechanism to transfer the burden of entity identification and labeling from the NER module to the joint module of our model. For higher-order modeling, we build a hypergraph, where nodes are entities (provided by the span pruner) and relations thereof, and hyperedges encode interactions between two different relations or between a relation and its associated subject and object entities. We then run a hypergraph neural network for higher-order inference by applying message passing over the built hypergraph. Experiments on three widely used benchmarks (\acef{}, \ace{} and \scierc{}) for ERE task show significant improvements over the previous state-of-the-art PL-marker. | 翻訳日:2023-10-27 21:21:43 公開日:2023-10-26 |
# EMMA-X: 言語間表現学習のためのEM型多言語事前学習アルゴリズム EMMA-X: An EM-like Multilingual Pre-training Algorithm for Cross-lingual Representation Learning ( http://arxiv.org/abs/2310.17233v1 ) ライセンス: Link先を確認 | Ping Guo, Xiangpeng Wei, Yue Hu, Baosong Yang, Dayiheng Liu, Fei Huang, Jun Xie | (参考訳) すべての言語に共通する普遍意味論を表現することは、複雑で文化固有の文の意味を理解するのに役立つ。
このシナリオの基礎となる研究テーマは、巨大な並列コーパスを用いて言語間の普遍表現を学ぶことである。
しかし、並列データのスパーシティと不足のため、2つの言語で本物の ``universals'' を学ぶことは依然として大きな課題である。
本稿では,EM-like Multilingual pre-training Algorithm(EMMA-X)を提案し,過剰な多言語非並列データを用いて(X)Cross-lingual Universalsを学習する。
EMMA-Xは、言語間表現学習タスクと、EMフレームワーク内の追加の意味関係予測タスクを統合する。
余分な意味分類器と言語間文エンコーダは2つの文の意味関係を近似し、収束するまで相互に監督する。
EMMA-Xを評価するために,文レベルの表現に完全に依存する12の言語間タスクを新たに導入したXRETEの実験を行った。
その結果,EMMA-Xは最先端の性能を達成することがわかった。
3つの要求を持つ構築表現空間のさらなる幾何学的解析は、先進モデルよりもemma-xが優れていることを示している。 Expressing universal semantics common to all languages is helpful in understanding the meanings of complex and culture-specific sentences. The research theme underlying this scenario focuses on learning universal representations across languages with the usage of massive parallel corpora. However, due to the sparsity and scarcity of parallel data, there is still a big challenge in learning authentic ``universals'' for any two languages. In this paper, we propose EMMA-X: an EM-like Multilingual pre-training Algorithm, to learn (X)Cross-lingual universals with the aid of excessive multilingual non-parallel data. EMMA-X unifies the cross-lingual representation learning task and an extra semantic relation prediction task within an EM framework. Both the extra semantic classifier and the cross-lingual sentence encoder approximate the semantic relation of two sentences, and supervise each other until convergence. To evaluate EMMA-X, we conduct experiments on XRETE, a newly introduced benchmark containing 12 widely studied cross-lingual tasks that fully depend on sentence-level representations. Results reveal that EMMA-X achieves state-of-the-art performance. Further geometric analysis of the built representation space with three requirements demonstrates the superiority of EMMA-X over advanced models. | 翻訳日:2023-10-27 21:21:16 公開日:2023-10-26 |
# 量子メモリシステムとしての量子調和振動子のデコヒーレンス時間 Decoherence time in quantum harmonic oscillators as quantum memory systems ( http://arxiv.org/abs/2310.17232v1 ) ライセンス: Link先を確認 | Igor G. Vladimirov, Ian R. Petersen | (参考訳) 本稿では線形量子確率微分方程式により記述されたオープン量子調和振動子(OQHO)について述べる。
このフレームワークは、ゼロハミルトニアンを持つ孤立振動子を含み、その系変数は(量子力学のハイゼンベルク図において)時間とともに不変であり、そのようなシステムは量子メモリデバイスとして適用可能である。
システム環境結合のより現実的な場合において、メモリデコヒーレンス地平線を、初期値からシステム変数の平均二乗偏差の典型的な時間として定義し、重み付け行列と忠実度パラメータによって指定されたように相対的に重要となる。
我々は,OQHOのエネルギーおよび結合行列に対するデコヒーレンス時間(decoherence time)の最大化を記憶相におけるメモリシステムとして考慮し,ゼロハミルトニアンが準最適解を提供する条件を得る。
この最適化問題は、OQHOの相互接続についても論じる。 This paper is concerned with open quantum harmonic oscillators (OQHOs) described by linear quantum stochastic differential equations. This framework includes isolated oscillators with zero Hamiltonian, whose system variables remain unchanged (in the Heisenberg picture of quantum dynamics) over the course of time, making such systems potentially applicable as quantum memory devices. In a more realistic case of system-environment coupling, we define a memory decoherence horizon as a typical time for a mean-square deviation of the system variables from their initial values to become relatively significant as specified by a weighting matrix and a fidelity parameter. We consider the maximization of the decoherence time over the energy and coupling matrices of the OQHO as a memory system in its storage phase and obtain a condition under which the zero Hamiltonian delivers a suboptimal solution. This optimization problem is also discussed for an interconnection of OQHOs. | 翻訳日:2023-10-27 21:20:54 公開日:2023-10-26 |
# Codebookの機能: ニューラルネットワークのスパースと離散解釈性 Codebook Features: Sparse and Discrete Interpretability for Neural Networks ( http://arxiv.org/abs/2310.17230v1 ) ライセンス: Link先を確認 | Alex Tamkin, Mohammad Taufeeque, Noah D. Goodman | (参考訳) ニューラルネットワークを理解することは、その隠れた状態の密集した連続的な性質のために難しい。
我々は、その連続的な機能をコードブック機能と呼ぶものに定量化することによって、スパース、離散、より解釈可能な隠れた状態を持つようにニューラルネットワークを訓練できるかどうかを探求する。
コードブック機能は、各層にベクトル量子化ボトルネックを持つニューラルネットワークを微調整し、大きなコードブックから選択した少数の離散ベクトルコードの合計に隠れた特徴を持つネットワークを生成することによって生成される。
驚くべきことに、ニューラルネットワークはこの極端なボトルネックの下で動作でき、パフォーマンスがわずかに低下するだけである。
このスパースで離散的なボトルネックは、ニューラルネットワークの振る舞いを制御する直感的な方法も提供する。まず、望ましい振る舞いがあるときにアクティベートするコードを見つけて、生成時に同じコードをアクティベートして、その振る舞いを誘発する。
いくつかの異なるデータセットでコードブックトランスフォーマーをトレーニングすることで、アプローチを検証する。
まず,ニューロンよりも隠れた状態を持つ有限状態機械データセットを探索する。
この設定では、異なるコードに状態を割り当てることで重ね合わせ問題を克服し、その状態のコードを活性化することで、ニューラルネットワークを別の状態のように振る舞わせることができることを見出します。
次に、2つの自然言語データセット上で最大410万のパラメータを持つTransformer言語モデルをトレーニングする。
これらのモデルのコードは多様で絡み合った概念(負の感情からその年の数ヶ月に及ぶ)を表しており、推論中に適切なコードを活性化することで、異なるトピックを生成するためにモデルを導くことができる。
全体として、コードブック機能は、ニューラルネットワークと解釈可能性の分析と制御の有望な単位であるようだ。
私たちのコードベースとモデルは、https://github.com/taufeeque9/codebook-featuresでオープンソース化されています。 Understanding neural networks is challenging in part because of the dense, continuous nature of their hidden states. We explore whether we can train neural networks to have hidden states that are sparse, discrete, and more interpretable by quantizing their continuous features into what we call codebook features. Codebook features are produced by finetuning neural networks with vector quantization bottlenecks at each layer, producing a network whose hidden features are the sum of a small number of discrete vector codes chosen from a larger codebook. Surprisingly, we find that neural networks can operate under this extreme bottleneck with only modest degradation in performance. This sparse, discrete bottleneck also provides an intuitive way of controlling neural network behavior: first, find codes that activate when the desired behavior is present, then activate those same codes during generation to elicit that behavior. We validate our approach by training codebook Transformers on several different datasets. First, we explore a finite state machine dataset with far more hidden states than neurons. In this setting, our approach overcomes the superposition problem by assigning states to distinct codes, and we find that we can make the neural network behave as if it is in a different state by activating the code for that state. Second, we train Transformer language models with up to 410M parameters on two natural language datasets. We identify codes in these models representing diverse, disentangled concepts (ranging from negative emotions to months of the year) and find that we can guide the model to generate different topics by activating the appropriate codes during inference. Overall, codebook features appear to be a promising unit of analysis and control for neural networks and interpretability. Our codebase and models are open-sourced at https://github.com/taufeeque9/codebook-features. | 翻訳日:2023-10-27 21:20:35 公開日:2023-10-26 |
# tst$^\mathrm{r}$: ターゲットの類似性チューニングが現実世界を満たしている TST$^\mathrm{R}$: Target Similarity Tuning Meets the Real World ( http://arxiv.org/abs/2310.17228v1 ) ライセンス: Link先を確認 | Anirudh Khatry, Sumit Gulwani, Priyanshu Gupta, Vu Le, Ananya Singha, Mukul Singh, Gust Verbruggen | (参考訳) ターゲット類似性チューニング(TST)は、自然言語(NL)から大規模言語モデル(LLM)によるコード生成を選択し、性能を向上させる手法である。
その目標は、2つのNL入力間の類似性を持つ文埋め込みモデルを、関連するコード出力間の類似性に適合させることである。
本稿では,現実世界におけるTSTの適用と改善のための異なる手法を提案する。
まず、文変換器をより大きなモデルからの埋め込みに置き換えることで、言語分布に対する感度を低減し、例の合成における柔軟性を高めるとともに、これらの埋め込みをコード類似性にマッチする空間に変換する小さなモデルを訓練し、モデルがブラックボックスのままで、推論時に数個の行列乗算しか必要としない。
第二に、TSTモデルをトレーニングするために、少数のトレーニング例を効率的に選択する方法です。
第3に,エンドツーエンドのコード生成実験を必要としないTSTのランキングに基づく評価を導入する。 Target similarity tuning (TST) is a method of selecting relevant examples in natural language (NL) to code generation through large language models (LLMs) to improve performance. Its goal is to adapt a sentence embedding model to have the similarity between two NL inputs match the similarity between their associated code outputs. In this paper, we propose different methods to apply and improve TST in the real world. First, we replace the sentence transformer with embeddings from a larger model, which reduces sensitivity to the language distribution and thus provides more flexibility in synthetic generation of examples, and we train a tiny model that transforms these embeddings to a space where embedding similarity matches code similarity, which allows the model to remain a black box and only requires a few matrix multiplications at inference time. Second, we how to efficiently select a smaller number of training examples to train the TST model. Third, we introduce a ranking-based evaluation for TST that does not require end-to-end code generation experiments, which can be expensive to perform. | 翻訳日:2023-10-27 21:20:04 公開日:2023-10-26 |
# 複数の自己適応システムの分散協調に向けて Towards the decentralized coordination of multiple self-adaptive systems ( http://arxiv.org/abs/2310.17224v1 ) ライセンス: Link先を確認 | Paul-Andrei Dragan, Andreas Metzger, Klaus Pohl | (参考訳) 複数の自己適応型システムが同じ環境を共有し、共通の目標を持つ場合、コンフリクトを避け、目標を満たすために実行時に適応を調整できる。
協調には2つのアプローチがある。
1)管理者が個別の自己適応システムを完全に制御する論理的中央集権化。
このようなアプローチは、システムが異なる所有者や管理ドメインを持つ場合、実現不可能である。
2) 直接の相互作用によって協調が達成される論理的分散化。
個々のシステムは共有する情報を制御するため、分散協調は複数の管理領域に対応している。
しかし、既存の技術は局所的な関心事、例えば選好、共有関心事、例えば紛争などの両方を同時に考慮していないため、目標が期待通りに達成されない可能性がある。
この欠点に対処するための私たちのアイデアは、同じ制約最適化問題の中で両方のタイプの懸念を表現することです。
本研究では,2種類の制約(優先制約,局所的関心事表現,一貫性制約,共有的関心事表現)を導入した分散協調手法であるCoADAPTを提案する。
実行時に、各自己適応システムによって実装された分散制約最適化アルゴリズムを用いて分散的に解決される。
coadaptを実現する第一歩として,従来の集中型手法のみを扱う適応型計画戦略の調整に重点を置いています。
本稿では,クラウドコンピューティングに代表されるCoADAPTの実現可能性を示し,そのスケーラビリティを実験的に分析する。 When multiple self-adaptive systems share the same environment and have common goals, they may coordinate their adaptations at runtime to avoid conflicts and to satisfy their goals. There are two approaches to coordination. (1) Logically centralized, where a supervisor has complete control over the individual self-adaptive systems. Such approach is infeasible when the systems have different owners or administrative domains. (2) Logically decentralized, where coordination is achieved through direct interactions. Because the individual systems have control over the information they share, decentralized coordination accommodates multiple administrative domains. However, existing techniques do not account simultaneously for both local concerns, e.g., preferences, and shared concerns, e.g., conflicts, which may lead to goals not being achieved as expected. Our idea to address this shortcoming is to express both types of concerns within the same constraint optimization problem. We propose CoADAPT, a decentralized coordination technique introducing two types of constraints: preference constraints, expressing local concerns, and consistency constraints, expressing shared concerns. At runtime, the problem is solved in a decentralized way using distributed constraint optimization algorithms implemented by each self-adaptive system. As a first step in realizing CoADAPT, we focus in this work on the coordination of adaptation planning strategies, traditionally addressed only with centralized techniques. We show the feasibility of CoADAPT in an exemplar from cloud computing and analyze experimentally its scalability. | 翻訳日:2023-10-27 21:19:40 公開日:2023-10-26 |
# 原型コントラスト学習に基づくCLIPファインタニングによる物体再同定 Prototypical Contrastive Learning-based CLIP Fine-tuning for Object Re-identification ( http://arxiv.org/abs/2310.17218v1 ) ライセンス: Link先を確認 | Jiachen Li and Xiaojin Gong | (参考訳) 本研究の目的は、コントラスト言語画像事前学習(CLIP)のような大規模事前学習型視覚言語モデルに適応し、様々な監視設定におけるオブジェクト再識別(Re-ID)の性能を高めることである。
即時学習はCLIP-ReIDと呼ばれる最近の研究で有望なパフォーマンスを実現しているが、ReIDタスクに意味ラベルがないため、基礎となるメカニズムと即時学習の必要性は依然として不明である。
本稿ではまず,CLIP-ReIDにおけるロールプロンプト学習を分析し,その限界を明らかにする。
そこで本研究では,CLIPを教師付きオブジェクトRe-IDに適用する手法を提案する。
本手法は,prototypical contrastive learning (pcl) 損失を用いてクリップの画像エンコーダを直接微調整し,迅速な学習を不要にする。
人と車の両方のRe-IDデータセットに対する実験結果から,CLIP-ReIDと比較して,本手法の競争力を示す。
さらに、PCLベースのCLIPファインチューニングアプローチを教師なしシナリオに拡張し、最先端のパフォーマンスを実現する。 This work aims to adapt large-scale pre-trained vision-language models, such as contrastive language-image pretraining (CLIP), to enhance the performance of object reidentification (Re-ID) across various supervision settings. Although prompt learning has enabled a recent work named CLIP-ReID to achieve promising performance, the underlying mechanisms and the necessity of prompt learning remain unclear due to the absence of semantic labels in ReID tasks. In this work, we first analyze the role prompt learning in CLIP-ReID and identify its limitations. Based on our investigations, we propose a simple yet effective approach to adapt CLIP for supervised object Re-ID. Our approach directly fine-tunes the image encoder of CLIP using a prototypical contrastive learning (PCL) loss, eliminating the need for prompt learning. Experimental results on both person and vehicle Re-ID datasets demonstrate the competitiveness of our method compared to CLIP-ReID. Furthermore, we extend our PCL-based CLIP fine-tuning approach to unsupervised scenarios, where we achieve state-of-the art performance. | 翻訳日:2023-10-27 21:19:20 公開日:2023-10-26 |
# 人間のループ:協調的かつ説明可能なベイズ最適化 Looping in the Human: Collaborative and Explainable Bayesian Optimization ( http://arxiv.org/abs/2310.17273v1 ) ライセンス: Link先を確認 | Masaki Adachi, Brady Planden, David A. Howey, Krikamol Maundet, Michael A. Osborne, Siu Lun Chau | (参考訳) 多くのオプティマイザと同様に、ベイジアン最適化は不透明さのためにユーザの信頼を得られないことが多い。
人間中心のオプティマイザを開発する試みは行われているが、ユーザー知識はよく特定されエラーのないものであり、主に最適化プロセスのスーパーバイザーとして利用している。
我々はこれらの仮定を緩和し、コラボレーティブおよび説明可能なベイズ最適化(CoExBO)フレームワークとのよりバランスのとれた人間-AIパートナーシップを提案する。
ユーザが知識モデルを提供することを明示的に要求する代わりに、CoExBOは好み学習を使用して最適化に対する人間の洞察をシームレスに統合し、結果としてユーザの好みに共鳴するアルゴリズムの提案を行う。
coexboは、各イテレーションの候補選択を説明して信頼を育み、ユーザに最適化を明確に理解させる。
さらに、coexboはno-harmの保証を提供し、ユーザーが間違いを犯すことができる。極端な敵意介入であっても、アルゴリズムはバニラベイズ最適化に漸近的に収束する。
リチウムイオン電池設計における人間-aiチームによる実験により,coexboの有効性を検証する。 Like many optimizers, Bayesian optimization often falls short of gaining user trust due to opacity. While attempts have been made to develop human-centric optimizers, they typically assume user knowledge is well-specified and error-free, employing users mainly as supervisors of the optimization process. We relax these assumptions and propose a more balanced human-AI partnership with our Collaborative and Explainable Bayesian Optimization (CoExBO) framework. Instead of explicitly requiring a user to provide a knowledge model, CoExBO employs preference learning to seamlessly integrate human insights into the optimization, resulting in algorithmic suggestions that resonate with user preference. CoExBO explains its candidate selection every iteration to foster trust, empowering users with a clearer grasp of the optimization. Furthermore, CoExBO offers a no-harm guarantee, allowing users to make mistakes; even with extreme adversarial interventions, the algorithm converges asymptotically to a vanilla Bayesian optimization. We validate CoExBO's efficacy through human-AI teaming experiments in lithium-ion battery design, highlighting substantial improvements over conventional methods. | 翻訳日:2023-10-27 21:13:31 公開日:2023-10-26 |
# MLベースのソフトウェア障害予測器のバリエーション: 障害予測は本当に改善されているか? Variance of ML-based software fault predictors: are we really improving fault prediction? ( http://arxiv.org/abs/2310.17264v1 ) ライセンス: Link先を確認 | Xhulja Shahini, Domenic Bubel, Andreas Metzger | (参考訳) ソフトウェアシステムがますます複雑になり、サイズが継続的に大きくなるにつれて、ソフトウェアの品質保証活動はますます難しくなっています。
さらに、大規模なシステムを扱う場合、テストはさらに高価になる。
そこで研究者らは,品質保証リソースを効果的に割り当てるために,機械学習(ml)を用いた故障予測(fp)を提案する。
しかし、MLアルゴリズムは通常、予測モデルの一般化性とトレーニングプロセスの効率を高めるために確率的要素を利用する。
これらの確率的要素は、非決定論(nondeterminism-introducing (NI) factor)としても知られ、トレーニングプロセスにばらつきをもたらし、結果として予測精度とトレーニング時間にばらつきをもたらす。
この分散は、研究における再現性への挑戦である。
さらに重要なことは、故障予測モデルが実験室で良いパフォーマンスを示し(例えば、複数の実行と平均的な結果を含むことが多い)、その結果のばらつきは、これらのモデルが実際に適用された場合、低いパフォーマンスを示すリスクを生じさせる。
本研究では,最先端故障予測手法のばらつきを実験的に解析する。
実験結果から, NI因子が断層予測モデルの精度にかなりのばらつきをもたらすことが示唆された。
クラスごとの精度測定値の最大分散は10.10%であった。
したがって、そのような分散を扱う方法についても議論する。 Software quality assurance activities become increasingly difficult as software systems become more and more complex and continuously grow in size. Moreover, testing becomes even more expensive when dealing with large-scale systems. Thus, to effectively allocate quality assurance resources, researchers have proposed fault prediction (FP) which utilizes machine learning (ML) to predict fault-prone code areas. However, ML algorithms typically make use of stochastic elements to increase the prediction models' generalizability and efficiency of the training process. These stochastic elements, also known as nondeterminism-introducing (NI) factors, lead to variance in the training process and as a result, lead to variance in prediction accuracy and training time. This variance poses a challenge for reproducibility in research. More importantly, while fault prediction models may have shown good performance in the lab (e.g., often-times involving multiple runs and averaging outcomes), high variance of results can pose the risk that these models show low performance when applied in practice. In this work, we experimentally analyze the variance of a state-of-the-art fault prediction approach. Our experimental results indicate that NI factors can indeed cause considerable variance in the fault prediction models' accuracy. We observed a maximum variance of 10.10% in terms of the per-class accuracy metric. We thus, also discuss how to deal with such variance. | 翻訳日:2023-10-27 21:13:12 公開日:2023-10-26 |
# 物理層QKD制限を考慮したリレーQKDと切替QKDネットワークの性能比較 Relayed-QKD and switched-QKD networks performance comparison considering physical layer QKD limitations ( http://arxiv.org/abs/2310.17262v1 ) ライセンス: Link先を確認 | N. Makris, A. Papageorgopoulos, P. Konteli, I. Tsoni, K. Christodoulopoulos, G. T. Kanellos, D. Syvridis | (参考訳) スイッチングQKDにおける最適化されていないQKDペアに対するSKR生成を実験的に評価し、スイッチングQKDと中継QKDネットワークの性能を比較して、短距離および大規模ネットワークでの性能が向上することを明らかにする。 We experimentally evaluate the SKR generation for unoptimized QKD pairs in switched QKD and compare the performance of the switched-QKD with relayed-QKD networks to reveal they perform better for short distances and at large networks. | 翻訳日:2023-10-27 21:12:49 公開日:2023-10-26 |
# 生成モデルに対する属性に基づく解釈可能な評価指標 Attribute Based Interpretable Evaluation Metrics for Generative Models ( http://arxiv.org/abs/2310.17261v1 ) ライセンス: Link先を確認 | Dongkyun Kim, Mingi Kwon, Youngjung Uh | (参考訳) 訓練データセットが猫に対する犬の割合1:1である場合、1:1の犬と猫を生産する生成モデルは、3:1の犬と猫の訓練種分布によく似ている。
既存のメトリクスを使ってこの現象を捉えることはできますか?
残念ながら、これらのメトリクスは"多様性"を超えたいかなる解釈性も提供しません。
そこで本稿では,属性強度の分布に関するトレーニングセットから生成した画像集合のばらつきを測定するための新しい評価プロトコルを提案する。
single-attribute divergence (sad)は、単一の属性のpdfに関するダイバージェンスを測定する。
Paired-Atribute Divergence (PaD) は、一対の属性の合同PDFに関するばらつきを測定する。
モデルが苦労する属性を提供する。
画像の属性強度を測定するため,不均一な初期点を持つ画像ベクトルとテキストベクトルのコサイン類似度を測定するヘテロジニアスCLIPScore(HCS)を提案する。
SaD と PaD で、既存の生成モデルについて、以下のことを明らかにした。
ProjectedGANは、既存のメトリクスの競合スコアがあるにもかかわらず、あごひげを持つ赤ちゃんのような、ありえない属性関係を生成する。
拡散モデルはデータセットのさまざまな色をキャプチャするのに苦労する。
潜伏拡散モデルのより大きなサンプリング時間ステップは、イヤリングやネックレスを含むより小さなオブジェクトを生成する。
安定拡散 v1.5 は v2.1 よりも属性を捕捉する。
我々のメトリクスは、生成モデルの説明可能な評価の基礎を築いた。 When the training dataset comprises a 1:1 proportion of dogs to cats, a generative model that produces 1:1 dogs and cats better resembles the training species distribution than another model with 3:1 dogs and cats. Can we capture this phenomenon using existing metrics? Unfortunately, we cannot, because these metrics do not provide any interpretability beyond "diversity". In this context, we propose a new evaluation protocol that measures the divergence of a set of generated images from the training set regarding the distribution of attribute strengths as follows. Single-attribute Divergence (SaD) measures the divergence regarding PDFs of a single attribute. Paired-attribute Divergence (PaD) measures the divergence regarding joint PDFs of a pair of attributes. They provide which attributes the models struggle. For measuring the attribute strengths of an image, we propose Heterogeneous CLIPScore (HCS) which measures the cosine similarity between image and text vectors with heterogeneous initial points. With SaD and PaD, we reveal the following about existing generative models. ProjectedGAN generates implausible attribute relationships such as a baby with a beard even though it has competitive scores of existing metrics. Diffusion models struggle to capture diverse colors in the datasets. The larger sampling timesteps of latent diffusion model generate the more minor objects including earrings and necklaces. Stable Diffusion v1.5 better captures the attributes than v2.1. Our metrics lay a foundation for explainable evaluations of generative models. | 翻訳日:2023-10-27 21:12:41 公開日:2023-10-26 |
# 社会的に有益なメタバース:フレームワーク、技術、アプリケーション、挑戦 Socially Beneficial Metaverse: Framework, Technologies, Applications, and Challenges ( http://arxiv.org/abs/2310.17260v1 ) ライセンス: Link先を確認 | Xiaolong Xu, Xuanhong Zhou, Muhammad Bilal, Sherali Zeadally, Jon Crowcroft, Lianyong Qi, Shengjun Xue | (参考訳) 近年,仮想現実やデジタルツイン,ブロックチェーンといった新興技術の成熟により,メタバースの実現が加速している。
現実世界とは独立した仮想世界として、metaverseはユーザーに社会に大きな利便性をもたらす様々な仮想アクティビティを提供する。
さらに、メタバースはデジタル双生児の助けとなり、業界に変革をもたらす可能性がある。
このように、メタバースは産業の注目を集め、巨額の資金が投じられようとしている。
しかし, メタバースの発達はまだ初期段階であり, これまでの研究はほとんど行われていない。
メタバースの発展について述べる。
次に、社会に有益なメタバース(SB-Metaverse)のアーキテクチャを紹介し、SB-Metaverseの運用を支援する技術に焦点を当てる。
また,SB-Metaverseの応用についても述べる。
最後に、sb-metaverseが直面するいくつかの課題について論じる。 In recent years, the maturation of emerging technologies such as Virtual Reality, Digital twins, and Blockchain has accelerated the realization of the metaverse. As a virtual world independent of the real world, the metaverse will provide users with a variety of virtual activities that bring great convenience to society. In addition, the metaverse can facilitate digital twins, which offers transformative possibilities for the industry. Thus, the metaverse has attracted the attention of the industry, and a huge amount of capital is about to be invested. However, the development of the metaverse is still in its infancy and little research has been undertaken so far. We describe the development of the metaverse. Next, we introduce the architecture of the socially beneficial metaverse (SB-Metaverse) and we focus on the technologies that support the operation of SB-Metaverse. In addition, we also present the applications of SB-Metaverse. Finally, we discuss several challenges faced by SB-Metaverse which must be addressed in the future. | 翻訳日:2023-10-27 21:12:12 公開日:2023-10-26 |
# FTTH用複数ONT負荷キャリアグレードGPON上のOバンドQKDリンク O-band QKD link over a multiple ONT loaded carrier-grade GPON for FTTH applications ( http://arxiv.org/abs/2310.17259v1 ) ライセンス: Link先を確認 | N. Makris, A. Ntanos, A. Papageorgopoulos, A. Stathis, P. Konteli, I. Tsoni, G. Giannoulis, F. Setaki, T. Stathopoulos, G. Lyberopoulos, H.Avramopoulos, G. T. Kanellos, D. Syvridis | (参考訳) 我々は,複数のONTでキャリアグレードのFiber-to-the-Home(FTTH)光アクセスネットワークを複製し,実生活のFTTH運用をエミュレートする,GPONテストベッド上に,Oバンド商用量子鍵配信(QKD)システムを統合することに成功した。 We have successfully integrated an O-band commercial Quantum-Key-Distribution (QKD) system over a lit GPON testbed that replicates a carrier-grade Fiber-to-the-Home (FTTH) optical access network with multiple ONTs to emulate real-life FTTH operational deployments. | 翻訳日:2023-10-27 21:11:47 公開日:2023-10-26 |
# Fairret: 差別化可能な公正規則化用語のためのフレームワーク fairret: a Framework for Differentiable Fairness Regularization Terms ( http://arxiv.org/abs/2310.17256v1 ) ライセンス: Link先を確認 | Maarten Buyl, MaryBeth Defrance, Tijl De Bie | (参考訳) 現在の機械学習の公平性のためのツールは、フェアネス定義の範囲が限られており、これらのライブラリが現代の機械学習パイプラインで果たす中心的な役割にもかかわらず、自動微分ライブラリとはほとんど統合されていない。
自動微分パイプラインに容易に統合できるモジュラー目的としてバイアスを定量化するフェアネス正規化項(fairrets)の枠組みを提案する。
線形フラクショナル統計の観点でフェアネスの一般的な定義を使用することで、フェアレットの幅広いクラスを効率的に計算することができる。
実験は、基準値と比較して予測力の損失を最小限に抑えるフェアネスを強制する上での勾配の挙動と有用性を示す。
私たちのコントリビューションには、FairretフレームワークのPyTorch実装が含まれています。 Current tools for machine learning fairness only admit a limited range of fairness definitions and have seen little integration with automatic differentiation libraries, despite the central role these libraries play in modern machine learning pipelines. We introduce a framework of fairness regularization terms (fairrets) which quantify bias as modular objectives that are easily integrated in automatic differentiation pipelines. By employing a general definition of fairness in terms of linear-fractional statistics, a wide class of fairrets can be computed efficiently. Experiments show the behavior of their gradients and their utility in enforcing fairness with minimal loss of predictive power compared to baselines. Our contribution includes a PyTorch implementation of the fairret framework. | 翻訳日:2023-10-27 21:11:35 公開日:2023-10-26 |
# 糖尿病網膜症分類における未確認領域への一般化 Generalizing to Unseen Domains in Diabetic Retinopathy Classification ( http://arxiv.org/abs/2310.17255v1 ) ライセンス: Link先を確認 | Chamuditha Jayanga Galappaththige, Gayal Kuruppu, Muhammad Haris Khan | (参考訳) 糖尿病網膜症(dr)。
長期糖尿病が原因で、視覚障害の原因としては5番目に多い。
早期診断と治療のプロセスは、病気の治癒に役立ち得るが、検出手順は比較的困難であり、ほとんどが面倒である。
そのため, 深層学習技術を用いた糖尿病網膜症の自動分類は, 医用画像群で注目されている。
ディープラーニングの他の現実世界の応用と同様に、i.i.dデータの典型的な仮定は、ディープラーニングに依存するdr分類にも違反している。
したがって, 未知分布に頑健なdr分類法の開発は極めて有用である。
本稿では,dr分類における非知覚分布や領域(ドメイン一般化)へのモデル一般化の問題について検討する。
そこで本研究では,新しい予測ソフト化機構により視覚トランスフォーマ(vit)の自己蒸留を実現する,単純かつ効果的な領域一般化(dg)手法を提案する。
この予測ソフト化は、モデル自身の知識と1ホットラベルの適応凸結合である。
我々は3つの異なるViTバックボーンを持つマルチソースおよびシングルソースDG設定の下で、オープンソースのDR分類データセットに挑戦する広範囲な実験を行い、競合する手法に対するアプローチの有効性と適用性を確立する。
本報告では,オープンソースDR分類データセットにおけるDG法の性能について,徹底的な実験を行った後,初めて報告する。
また,本手法は他の方法と比較して校正性能が向上し,医療を含む安全上重要なアプリケーションに適合することを示す。
当社のコントリビューションが、医療画像コミュニティ全体でより多くのDG研究を調査することを期待しています。 Diabetic retinopathy (DR). is caused by long-standing diabetes and is among the fifth leading cause for visual impairments. The process of early diagnosis and treatments could be helpful in curing the disease, however, the detection procedure is rather challenging and mostly tedious. Therefore, automated diabetic retinopathy classification using deep learning techniques has gained interest in the medical imaging community. Akin to several other real-world applications of deep learning, the typical assumption of i.i.d data is also violated in DR classification that relies on deep learning. Therefore, developing DR classification methods robust to unseen distributions is of great value. In this paper, we study the problem of generalizing a model to unseen distributions or domains (a.k.a domain generalization) in DR classification. To this end, we propose a simple and effective domain generalization (DG) approach that achieves self-distillation in vision transformers (ViT) via a novel prediction softening mechanism. This prediction softening is an adaptive convex combination one-hot labels with the model's own knowledge. We perform extensive experiments on challenging open-source DR classification datasets under both multi-source and single-source DG settings with three different ViT backbones to establish the efficacy and applicability of our approach against competing methods. For the first time, we report the performance of several state-of-the-art DG methods on open-source DR classification datasets after conducting thorough experiments. Finally, our method is also capable of delivering improved calibration performance than other methods, showing its suitability for safety-critical applications, including healthcare. We hope that our contributions would investigate more DG research across the medical imaging community. | 翻訳日:2023-10-27 21:11:02 公開日:2023-10-26 |
# IDENAS: ニューラルネットワーク検索のための内部依存性探索 IDENAS: Internal Dependency Exploration for Neural Architecture Search ( http://arxiv.org/abs/2310.17250v1 ) ライセンス: Link先を確認 | Anh T. Hoang, Zsolt J. Viharos | (参考訳) 機械学習は、貴重な情報を抽出し、多様なデータセットから様々な予測を行うための強力なツールである。
従来のアルゴリズムは、適切に定義された入力変数と出力変数に依存するが、入力変数と出力変数の区別と、モデルの基本となる(入力と出力)レイヤが不明なシナリオが存在する。
このようなシナリオでは、ニューラルネットワーク検索(nas)と機能選択が有望なソリューションとして現れています。
本研究は、内部依存に基づくニューラルアーキテクチャ探索であるIDENASを提案し、NASと特徴選択を統合する。
この方法論は、1dセンサーと2d画像データを含む分類のための完全なパラメータ空間の内部依存性を探索する。
IDENASは修正エンコーダデコーダモデルとSequential Forward Search (SFS)アルゴリズムを採用し、入力出力構成検索と組込み特徴選択を組み合わせた。
実験結果は、他のアルゴリズムと比較して優れた性能を示し、モデル開発パイプラインと自動機械学習での有効性を示す。
平均してIDENASは、ニューラルネットワーク検索の最先端化と機能選択統合への重要な貢献を強調し、大きなモデリング改善を達成した。 Machine learning is a powerful tool for extracting valuable information and making various predictions from diverse datasets. Traditional algorithms rely on well-defined input and output variables however, there are scenarios where the distinction between the input and output variables and the underlying, associated (input and output) layers of the model, are unknown. Neural Architecture Search (NAS) and Feature Selection have emerged as promising solutions in such scenarios. This research proposes IDENAS, an Internal Dependency-based Exploration for Neural Architecture Search, integrating NAS with feature selection. The methodology explores internal dependencies in the complete parameter space for classification involving 1D sensor and 2D image data as well. IDENAS employs a modified encoder-decoder model and the Sequential Forward Search (SFS) algorithm, combining input-output configuration search with embedded feature selection. Experimental results demonstrate IDENASs superior performance in comparison to other algorithms, showcasing its effectiveness in model development pipelines and automated machine learning. On average, IDENAS achieved significant modelling improvements, underscoring its significant contribution to advancing the state-of-the-art in neural architecture search and feature selection integration. | 翻訳日:2023-10-27 21:10:31 公開日:2023-10-26 |
# 低温原子中の自発な多極スピン密度波 Spontaneously sliding multipole spin density waves in cold atoms ( http://arxiv.org/abs/2310.17305v1 ) ライセンス: Link先を確認 | G. Labeyrie, J. G. M. Walker, G. R. M. Robb, R. Kaiser, and T. Ackemann | (参考訳) レーザー駆動型ルビジウム原子の基底状態における自発ドリフト結合スピンと四極子密度波の観測について報告する。
これらのレーザー冷却原子アンサンブルは、反射鏡から光フィードバックを受けると、光を媒介する相互作用によって自発的な磁性を示す。
波のドリフト方向とキラリティは自発対称性の破れから生じる。
この観測は、非平衡磁気系における新しい輸送過程を示す。 We report on the observation of spontaneously drifting coupled spin and quadrupolar density waves in the ground state of laser driven Rubidium atoms. These laser-cooled atomic ensembles exhibit spontaneous magnetism via light mediated interactions when submitted to optical feedback by a retro-reflecting mirror. Drift direction and chirality of the waves arise from spontaneous symmetry breaking. The observations demonstrate a novel transport process in out-of-equilibrium magnetic systems. | 翻訳日:2023-10-27 21:01:12 公開日:2023-10-26 |
# JavaScript-WebAssemblyマルチ言語マルウェア検出のための静的セマンティックス再構成 Static Semantics Reconstruction for Enhancing JavaScript-WebAssembly Multilingual Malware Detection ( http://arxiv.org/abs/2310.17304v1 ) ライセンス: Link先を確認 | Yifan Xia, Ping He, Xuhong Zhang, Peiyu Liu, Shouling Ji, Wenhai Wang | (参考訳) WebAssemblyの出現により、攻撃者はJavaScript-WebAssemblyマルチ言語マルウェア(JWMM)と呼ばれる言語間の相互運用において、JavaScriptマルウェアの悪意のある機能を隠すことができる。
しかし、静的プログラム解析に基づく既存のアンチウイルスソリューションはまだモノリンガルコードに限定されている。
その結果, JWMMに対する検出効率は著しく低下した。
JavaScriptとWebAssembly間の複雑な相互運用とセマンティックな多様性のため、JWMMの検出は難しい。
このギャップを埋めるために、JWMMの静的検出を強化するための最初の手法であるJWBinderを提案する。
jwbinderは言語固有のデータフロー分析を行い、言語間の相互運用を捉え、言語間プログラム依存グラフと呼ばれる統一された高レベル構造を通じてjwmmの機能特性を特徴付ける。
最も代表的な現実世界のアンチウイルスプラットフォームであるVirusTotalの広範な評価によると、システムは様々なベンダーのアンチウイルスシステムを効果的に強化し、JWMMに対する全体的な検出率を49.1\%から86.2\%に引き上げている。
さらに,JWBinderのサイドエフェクトとランタイムオーバヘッドを評価し,実世界のアプリケーションにおける実用性について検討する。 The emergence of WebAssembly allows attackers to hide the malicious functionalities of JavaScript malware in cross-language interoperations, termed JavaScript-WebAssembly multilingual malware (JWMM). However, existing anti-virus solutions based on static program analysis are still limited to monolingual code. As a result, their detection effectiveness decreases significantly against JWMM. The detection of JWMM is challenging due to the complex interoperations and semantic diversity between JavaScript and WebAssembly. To bridge this gap, we present JWBinder, the first technique aimed at enhancing the static detection of JWMM. JWBinder performs a language-specific data-flow analysis to capture the cross-language interoperations and then characterizes the functionalities of JWMM through a unified high-level structure called Inter-language Program Dependency Graph. The extensive evaluation on one of the most representative real-world anti-virus platforms, VirusTotal, shows that \system effectively enhances anti-virus systems from various vendors and increases the overall successful detection rate against JWMM from 49.1\% to 86.2\%. Additionally, we assess the side effects and runtime overhead of JWBinder, corroborating its practical viability in real-world applications. | 翻訳日:2023-10-27 21:01:05 公開日:2023-10-26 |
# デモストレーション規則化RL Demonstration-Regularized RL ( http://arxiv.org/abs/2310.17303v1 ) ライセンス: Link先を確認 | Daniil Tiapkin, Denis Belomestny, Daniele Calandriello, Eric Moulines, Alexey Naumov, Pierre Perrault, Michal Valko, Pierre Menard | (参考訳) 専門家による実証実験を取り入れることで、強化学習(RL)のサンプル効率が向上した。
この追加情報がrlのサンプルの複雑さをどの程度減少させるかを理論的に定量化する。
特に,kl-regularization による実証的な強化学習を,行動のクローン化によって学習された方針に活用する。
Our findings reveal that using $N^{\mathrm{E}}$ expert demonstrations enables the identification of an optimal policy at a sample complexity of order $\widetilde{\mathcal{O}}(\mathrm{Poly}(S,A,H)/(\varepsilon^2 N^{\mathrm{E}}))$ in finite and $\widetilde{\mathcal{O}}(\mathrm{Poly}(d,H)/(\varepsilon^2 N^{\mathrm{E}}))$ in linear Markov decision processes, where $\varepsilon$ is the target precision, $H$ the horizon, $A$ the number of action, $S$ the number of states in the finite case and $d$ the dimension of the feature space in the linear case.
副産物として,政策クラスにおける一般的な仮定の下での行動クローニング手順に対する厳密な収束保証を提供する。
さらに,人間のフィードバック(RLHF)からの強化学習において,実演規則化手法が有効であることを示す。
本稿では,RLHF に対する KL-正則化の利点を表わす理論的証拠を提供する。
興味深いことに、我々は報酬推定の不確実性に対処するために計算可能な正則化を用いることで悲観的注入を避ける。 Incorporating expert demonstrations has empirically helped to improve the sample efficiency of reinforcement learning (RL). This paper quantifies theoretically to what extent this extra information reduces RL's sample complexity. In particular, we study the demonstration-regularized reinforcement learning that leverages the expert demonstrations by KL-regularization for a policy learned by behavior cloning. Our findings reveal that using $N^{\mathrm{E}}$ expert demonstrations enables the identification of an optimal policy at a sample complexity of order $\widetilde{\mathcal{O}}(\mathrm{Poly}(S,A,H)/(\varepsilon^2 N^{\mathrm{E}}))$ in finite and $\widetilde{\mathcal{O}}(\mathrm{Poly}(d,H)/(\varepsilon^2 N^{\mathrm{E}}))$ in linear Markov decision processes, where $\varepsilon$ is the target precision, $H$ the horizon, $A$ the number of action, $S$ the number of states in the finite case and $d$ the dimension of the feature space in the linear case. As a by-product, we provide tight convergence guarantees for the behaviour cloning procedure under general assumptions on the policy classes. Additionally, we establish that demonstration-regularized methods are provably efficient for reinforcement learning from human feedback (RLHF). In this respect, we provide theoretical evidence showing the benefits of KL-regularization for RLHF in tabular and linear MDPs. Interestingly, we avoid pessimism injection by employing computationally feasible regularization to handle reward estimation uncertainty, thus setting our approach apart from the prior works. | 翻訳日:2023-10-27 21:00:44 公開日:2023-10-26 |
# シリアスゲームにおける実写的および身体的会話エージェントの比較--ユーザ体験に関する実証的研究 Comparing Photorealistic and Animated Embodied Conversational Agents in Serious Games: An Empirical Study on User Experience ( http://arxiv.org/abs/2310.17300v1 ) ライセンス: Link先を確認 | Danai Korre | (参考訳) Embodied conversational agent (ECA) は、エンボディ文字の形をした会話ユーザーインタフェースのパラダイムである。
ECAsは様々な操作可能な特徴を提供するが、本論文は2つの異なるレベルのプレゼンテーションリアリズムを研究するために行われた研究に焦点を当てる。
2つのエージェントバージョンはフォトリアリスティックでアニメーションです。
本研究は,真剣なゲーム環境下での音声対応ECAに対する洞察と設計の提案を目的とする。
男女のバランスが取れた36人のコホートを用いて, 対象内2つずつの因子設計を行った。
その結果、フォトリアリスティック版とアニメーション版の両方が、それぞれ5.76点と5.71点という高可用性であると認識された。
しかし、参加者の69.4%はフォトリアリスティック版を好んでおり、25%はアニメーション版を好んでおり、5.6%は明らかにされていない。
写実的なエージェントはよりリアルで人間らしく感じられ、アニメーションキャラクターはタスクをよりゲームのように感じた。
エージェントのリアリズムはユーザビリティに有意な影響を与えなかったが、参加者のエージェントに対する認識に正の影響を与えた。
本研究は,ECAリアリズムが多種多様な状況において深刻なゲームに与える影響について,今後の研究の基盤となることを目的としている。 Embodied conversational agents (ECAs) are paradigms of conversational user interfaces in the form of embodied characters. While ECAs offer various manipulable features, this paper focuses on a study conducted to explore two distinct levels of presentation realism. The two agent versions are photorealistic and animated. The study aims to provide insights and design suggestions for speech-enabled ECAs within serious game environments. A within-subjects, two-by-two factorial design was employed for this research with a cohort of 36 participants balanced for gender. The results showed that both the photorealistic and the animated versions were perceived as highly usable, with overall mean scores of 5.76 and 5.71, respectively. However, 69.4 per cent of the participants stated they preferred the photorealistic version, 25 per cent stated they preferred the animated version and 5.6 per cent had no stated preference. The photorealistic agents were perceived as more realistic and human-like, while the animated characters made the task feel more like a game. Even though the agents' realism had no significant effect on usability, it positively influenced participants' perceptions of the agent. This research aims to lay the groundwork for future studies on ECA realism's impact in serious games across diverse contexts. | 翻訳日:2023-10-27 21:00:10 公開日:2023-10-26 |
# 再生可能かつ衛生可能な署名スキーム:分散デジタルidシステムにおける応用と限界 Redactable and Sanitizable Signature Schemes: Applications and Limitations for use in Decentralized Digital Identity Systems ( http://arxiv.org/abs/2310.17297v1 ) ライセンス: Link先を確認 | Bryan Kumara, Mark Hooper, Carsten Maple, Timothy Hobson, and Jon Crowcroft | (参考訳) 再現可能な署名スキームと衛生可能な署名スキームは、所定のデジタルメッセージの変更を許可し、有効な署名を保持する方法である。
これは、ID発行を委譲し、プライバシ保存によるアイデンティティの検証のために機密情報を再実行するための分散IDシステムに適用できる。
我々は,これらのプロトコルをデジタルクレデンシャル上で実装することを提案し,それらの適合性を評価するために,他のプライバシー向上手法と比較する。 Redactable signature schemes and sanitizable signature schemes are methods that permit modification of a given digital message and retain a valid signature. This can be applied to decentralized identity systems for delegating identity issuance and redacting sensitive information for privacy-preserving verification of identity. We propose implementing these protocols on a digital credential and compare them against other privacy-enhancing techniques to assess their suitability | 翻訳日:2023-10-27 20:59:49 公開日:2023-10-26 |
# 時空間映像の高分解能化のためのスケール適応型特徴集約 Scale-Adaptive Feature Aggregation for Efficient Space-Time Video Super-Resolution ( http://arxiv.org/abs/2310.17294v1 ) ライセンス: Link先を確認 | Zhewei Huang, Ailin Huang, Xiaotao Hu, Chen Hu, Jun Xu, Shuchang Zhou | (参考訳) Space-Time Video Super-Resolution (STVSR)タスクは、ビデオフレーム補間(VFI)とビデオ超解像(VSR)を同時に行うことで、ビデオの視覚的品質を高めることを目的としている。
しかし、追加の時間次元とスケールの不整合の課題に直面し、既存のSTVSR法の多くは、異なる動き振幅を動的にモデル化する際に複雑で非柔軟である。
本研究では,適切な処理スケールを選択することで,フローに基づく機能伝達において顕著なメリットが得られることを示す。
本稿では,個々のサンプルに対して異なる処理スケールのサブネットワークを適応的に選択する,SAFA(Scale-Adaptive Feature Aggregation)ネットワークを提案する。
4つの公開STVSRベンチマークの実験は、SAFAが最先端のパフォーマンスを達成することを示した。
我々のSAFAネットワークは,PSNRにおける平均0.5dB以上の改善により,TMNetやVideoINRといった最近の最先端手法よりも優れており,パラメータの半数未満と計算コストは1/3に満たない。 The Space-Time Video Super-Resolution (STVSR) task aims to enhance the visual quality of videos, by simultaneously performing video frame interpolation (VFI) and video super-resolution (VSR). However, facing the challenge of the additional temporal dimension and scale inconsistency, most existing STVSR methods are complex and inflexible in dynamically modeling different motion amplitudes. In this work, we find that choosing an appropriate processing scale achieves remarkable benefits in flow-based feature propagation. We propose a novel Scale-Adaptive Feature Aggregation (SAFA) network that adaptively selects sub-networks with different processing scales for individual samples. Experiments on four public STVSR benchmarks demonstrate that SAFA achieves state-of-the-art performance. Our SAFA network outperforms recent state-of-the-art methods such as TMNet and VideoINR by an average improvement of over 0.5dB on PSNR, while requiring less than half the number of parameters and only 1/3 computational costs. | 翻訳日:2023-10-27 20:59:39 公開日:2023-10-26 |
# RIO: オープン環境における意図指向オブジェクトの推論のためのベンチマーク RIO: A Benchmark for Reasoning Intention-Oriented Objects in Open Environments ( http://arxiv.org/abs/2310.17290v1 ) ライセンス: Link先を確認 | Mengxue Qu, Yu Wu, Wu Liu, Xiaodan Liang, Jingkuan Song, Yao Zhao, Yunchao Wei | (参考訳) 意図指向オブジェクト検出は、特定の意図や要求に基づいて、望ましいオブジェクトを検出することを目的としている。
例えば、私たちが「落ち着き、休む」ことを望むとき、私たちは本能的に、ニーズを満たす「ベッド」や「ソファー」のような適切な選択肢を探します。
この分野における以前の作業は、意図記述の個数か、意図対象に対して使用可能なアフォーマンス語彙によって制限されている。
これらの制限により、オープン環境での意図を効果的に扱うことが困難になる。
本研究では,Reasoning Intention-Oriented Objects (RIO) と呼ばれる包括的データセットを構築する。
特に、ROOは様々な現実世界のシナリオと幅広いオブジェクトカテゴリを統合するように設計されています。
主な特徴は以下のとおりである。
1)リオの意図記述は,単に単語又は動詞句ではなく自然文として表現され,より実用的で有意義である。
2)意図記述は,シーンと文脈的に関連し,対象に関連する潜在的な機能の範囲を広げることができる。
3)データセットは、合計40,214の画像と130,585の意図オブジェクト対からなる。
提案したROOにより,オープン環境における意図指向オブジェクトを推論する既存モデルの能力を評価する。 Intention-oriented object detection aims to detect desired objects based on specific intentions or requirements. For instance, when we desire to "lie down and rest", we instinctively seek out a suitable option such as a "bed" or a "sofa" that can fulfill our needs. Previous work in this area is limited either by the number of intention descriptions or by the affordance vocabulary available for intention objects. These limitations make it challenging to handle intentions in open environments effectively. To facilitate this research, we construct a comprehensive dataset called Reasoning Intention-Oriented Objects (RIO). In particular, RIO is specifically designed to incorporate diverse real-world scenarios and a wide range of object categories. It offers the following key features: 1) intention descriptions in RIO are represented as natural sentences rather than a mere word or verb phrase, making them more practical and meaningful; 2) the intention descriptions are contextually relevant to the scene, enabling a broader range of potential functionalities associated with the objects; 3) the dataset comprises a total of 40,214 images and 130,585 intention-object pairs. With the proposed RIO, we evaluate the ability of some existing models to reason intention-oriented objects in open environments. | 翻訳日:2023-10-27 20:59:20 公開日:2023-10-26 |
# 非パラメトリック変分情報ボトルネックによる抽象学習 Learning to Abstract with Nonparametric Variational Information Bottleneck ( http://arxiv.org/abs/2310.17284v1 ) ライセンス: Link先を確認 | Melika Behjati, Fabio Fehr, James Henderson | (参考訳) 文字、サブワード、単語、文のレベルでの学習された表現は、それぞれ異なるNLPタスクや言語現象を理解する進歩に貢献した。
しかし、テキスト埋め込みの学習はトークン化に特化しており、抽象化のレベルごとに異なるモデルをトレーニングする必要があるため、コストがかかる。
同じモデルの異なる層で異なる抽象レベルに圧縮する方法を学ぶことができる新しい言語表現モデルを導入する。
エンコーダ内のトランスフォーマー自己アテンション層にNVIB(Nonparametric Variational Information Bottleneck)を適用し,モデルによる表現の情報理論的圧縮を促進する。
モデル内のレイヤは抽象化のレベルの増加に対応し、それらの表現が言語的により理解される。
最後に、NVIB圧縮により、対向摂動に対してより堅牢なモデルが得られることを示す。 Learned representations at the level of characters, sub-words, words and sentences, have each contributed to advances in understanding different NLP tasks and linguistic phenomena. However, learning textual embeddings is costly as they are tokenization specific and require different models to be trained for each level of abstraction. We introduce a novel language representation model which can learn to compress to different levels of abstraction at different layers of the same model. We apply Nonparametric Variational Information Bottleneck (NVIB) to stacked Transformer self-attention layers in the encoder, which encourages an information-theoretic compression of the representations through the model. We find that the layers within the model correspond to increasing levels of abstraction and that their representations are more linguistically informed. Finally, we show that NVIB compression results in a model which is more robust to adversarial perturbations. | 翻訳日:2023-10-27 20:59:02 公開日:2023-10-26 |
# BEVContrast: 自動車ライダーポイントクラウドのためのBEVスペースのセルフスーパービジョン BEVContrast: Self-Supervision in BEV Space for Automotive Lidar Point Clouds ( http://arxiv.org/abs/2310.17281v1 ) ライセンス: Link先を確認 | Corentin Sautier, Gilles Puy, Alexandre Boulch, Renaud Marlet, Vincent Lepetit | (参考訳) 自動車のライダー点雲上での3次元バックボーンの自己監督を驚くほどシンプルかつ効率的に行う方法を提案する。
我々は,同じシーンで撮影されたLidarスキャンの特徴間の対照的な損失を設計する。
このようなアプローチは、ポイントのレベルでコントラストを使用するpointconstrastから、セグメントのレベルでコントラストを使用するstate-the-art tarlまでの文献で提案されている。
前者は実装の非常に単純さを享受しているが、後者はそれを上回っており、コストのかかる前処理を必要とする。
BEVContrastでは、鳥の眼球面の2次元細胞レベルでコントラストを定義する。
セルレベルの表現は、ポイントコントラストで利用されるポイントレベルの表現と、TARLで利用されるセグメントレベルの表現との間に良いトレードオフをもたらす:我々は、下流セマンティックセマンティックセマンティクスにおけるTARLのパフォーマンスを超越しながら、ポイントコントラスト(セル表現は計算に安価である)の単純さを維持します。 We present a surprisingly simple and efficient method for self-supervision of 3D backbone on automotive Lidar point clouds. We design a contrastive loss between features of Lidar scans captured in the same scene. Several such approaches have been proposed in the literature from PointConstrast, which uses a contrast at the level of points, to the state-of-the-art TARL, which uses a contrast at the level of segments, roughly corresponding to objects. While the former enjoys a great simplicity of implementation, it is surpassed by the latter, which however requires a costly pre-processing. In BEVContrast, we define our contrast at the level of 2D cells in the Bird's Eye View plane. Resulting cell-level representations offer a good trade-off between the point-level representations exploited in PointContrast and segment-level representations exploited in TARL: we retain the simplicity of PointContrast (cell representations are cheap to compute) while surpassing the performance of TARL in downstream semantic segmentation. | 翻訳日:2023-10-27 20:58:46 公開日:2023-10-26 |
# テーブル・ツー・テキスト生成における自動論理形式の改良 Automatic Logical Forms improve fidelity in Table-to-Text generation ( http://arxiv.org/abs/2310.17279v1 ) ライセンス: Link先を確認 | I\~nigo Alonso, Eneko Agirre | (参考訳) テーブル・トゥ・テキストシステムはテーブルのような構造化データから自然言語文を生成する。
エンド・ツー・エンドの技術は事実の正確性(忠実性)が低いが、以前の研究では、選択されたコンテンツと対象テキストの意味を表現した手動論理形式(lf)を使用することで得られると報告した。
手動のステップを考えると、自動lfが効果的かどうか、あるいはコンテンツ選択のみによる改善なのかは明らかでない。
テーブルとコンテンツの選択を与えられたTlTは、まずLFを生成し、次にテキストステートメントを生成します。
LFを使用せず,システム上で30ポイントの忠実度を向上することにより,自動LFの品質が向上することを示す。
実験により、まずコンテンツの自動選択を行い、続いてLogic-to-Text生成が改善され、より少ない範囲でTable-to-Logic解析が改善される。 Table-to-text systems generate natural language statements from structured data like tables. While end-to-end techniques suffer from low factual correctness (fidelity), a previous study reported gains when using manual logical forms (LF) that represent the selected content and the semantics of the target text. Given the manual step, it was not clear whether automatic LFs would be effective, or whether the improvement came from content selection alone. We present TlT which, given a table and a selection of the content, first produces LFs and then the textual statement. We show for the first time that automatic LFs improve quality, with an increase in fidelity of 30 points over a comparable system not using LFs. Our experiments allow to quantify the remaining challenges for high factual correctness, with automatic selection of content coming first, followed by better Logic-to-Text generation and, to a lesser extent, better Table-to-Logic parsing. | 翻訳日:2023-10-27 20:58:28 公開日:2023-10-26 |
# ノイズのある読み出しを伴うシャドウトモグラフィ Shadow tomography with noisy readouts ( http://arxiv.org/abs/2310.17328v1 ) ライセンス: Link先を確認 | Hai-Chau Nguyen | (参考訳) シャドウトモグラフィ(shadow tomography)は、量子コンピュータや量子シミュレータの量子状態を特徴付けるスケーラブルな手法である。
このプロトコルは、ランダムな測定結果からいわゆる古典的な影への変換に基づいており、これは後に観測対象の期待値のサンプルに変換される。
構成上、古典的な影は本質的に読み出しノイズに敏感である。
実際、クロストークによる読み出しノイズの複雑な構造は、そのスケーラビリティを損なうものと思われる。
古典的な影は標準の影よりもはるかに柔軟な構造を受け入れており、最終的に読み出しノイズに適合できることを示す。
この構成により、従来のシャドウにおける読み出し誤差は、前回の量子ビットをランダムに反転させ、測定後の古典結果ビットをx$-twirlingと呼ぶことで効率的に軽減できることを示す。
古典的な影の読み出しノイズを軽減するのに1ドルx$ゲートが十分であることは、ランダムなクリフォードゲートの実装が必要となるクリフォード・トワイルリングとは対照的である。 Shadow tomography is a scalable technique to characterise the quantum state of a quantum computer or quantum simulator. The protocol is based on the transformation of the outcomes of random measurements into the so-called classical shadows, which can later be transformed into samples of expectation values of the observables of interest. By construction, classical shadows are intrinsically sensitive to readout noise. In fact, the complicated structure of the readout noise due to crosstalk appears to be detrimental to its scalability. We show that classical shadows accept much more flexible constructions beyond the standard ones, which can eventually be made more conformable with readout noise. With this construction, we show that readout errors in classical shadows can be efficiently mitigated by randomly flipping the qubit before, and the classical outcome bit after the measurement, referred to as $X$-twirling. That a single $X$-gate is sufficient for mitigating readout noise for classical shadows is in contrast to Clifford-twirling, where the implementation of random Clifford gates is required. | 翻訳日:2023-10-27 20:52:21 公開日:2023-10-26 |
# c-ジエンタングルメント:共起者の帰納バイアス下で因果非依存な生成要因の発見 C-Disentanglement: Discovering Causally-Independent Generative Factors under an Inductive Bias of Confounder ( http://arxiv.org/abs/2310.17325v1 ) ライセンス: Link先を確認 | Xiaoyu Liu, Jiaxin Yuan, Bang An, Yuancheng Xu, Yifan Yang, Furong Huang | (参考訳) 表現学習は、現実世界のデータはいくつかの意味的に意味のある生成要因(すなわち変動源)によって生成されると仮定し、潜在空間でそれらを発見することを目的としている。
これらの因子は因果的非絡み合いであり、異なる因子が別の潜伏変数にコード化され、ある因子の変化は他の因子の値に影響を与えない。
統計的独立性と比較して、因果解離はより制御可能なデータ生成、堅牢性の改善、より一般化を可能にする。
しかし、既存のほとんどの研究は、発見過程において、生成要因に共通する原因が無く、統計的独立性しか得られないことを前提としている。
本稿では,共同創設者の因果生成因子発見におけるモデリングの重要性を認識した。
残念ながら、そのような因子は適切な帰納バイアスなしでは識別できない。
これは、ドメインの専門知識のラベルを通じて、共同ファウンダーの帰納的バイアスを明示的に導入する最初のフレームワークです。
また,共同創設者の帰納的偏見の下で因果的不整合因子を十分に同定する手法を提案する。
合成と実世界の両方のデータセットについて広範な実験を行う。
提案手法は,ドメインシフト下での因果不整合特徴や下流タスクの獲得において,様々なSOTAベースラインと比較して,競合的な結果を示す。 Representation learning assumes that real-world data is generated by a few semantically meaningful generative factors (i.e., sources of variation) and aims to discover them in the latent space. These factors are expected to be causally disentangled, meaning that distinct factors are encoded into separate latent variables, and changes in one factor will not affect the values of the others. Compared to statistical independence, causal disentanglement allows more controllable data generation, improved robustness, and better generalization. However, most existing work assumes unconfoundedness in the discovery process, that there are no common causes to the generative factors and thus obtain only statistical independence. In this paper, we recognize the importance of modeling confounders in discovering causal generative factors. Unfortunately, such factors are not identifiable without proper inductive bias. We fill the gap by introducing a framework entitled Confounded-Disentanglement (C-Disentanglement), the first framework that explicitly introduces the inductive bias of confounder via labels from domain expertise. In addition, we accordingly propose an approach to sufficiently identify the causally disentangled factors under any inductive bias of the confounder. We conduct extensive experiments on both synthetic and real-world datasets. Our method demonstrates competitive results compared to various SOTA baselines in obtaining causally disentangled features and downstream tasks under domain shifts. | 翻訳日:2023-10-27 20:52:01 公開日:2023-10-26 |
# 連続可変量子鍵分布に対する保証正極秘鍵率のマッピング Mapping Guaranteed Positive Secret Key Rates for Continuous Variable Quantum Key Distribution ( http://arxiv.org/abs/2310.17324v1 ) ライセンス: Link先を確認 | Mikhael Sayat, Oliver Thearle, Biveen Shajilal, Sebastian P. Kish, Ping Koy Lam, Nicholas Rattenbury, John Cater | (参考訳) 連続変数量子鍵分布(英: continuous variable quantum key distribution, cvqkd)とは、連続振幅と位相四次数を用いて異なる当事者間で秘密鍵を共有すること。
CVQKDを実装するために様々な変調方式が使用されるプロトコルが多数存在する。
しかし、異なるパラメータの影響を考慮しつつ、異なるチャネルに対する最適なプロトコルを決定するための、異なるCVQKDプロトコルの比較ツールが存在しない。
ここでは、チャネルの透過率と余分なノイズを考慮し、任意の環境において正のskrを保証するようにユーザの変調を調整することができる、正の秘密鍵レート(skr)の領域をマッピングする比較ツールを開発した。
この手法は離散変調CVQKD(DM-CVQKD)プロトコル向けに開発されたが、現在および将来のプロトコルやセキュリティ証明にも拡張可能である。 Continuous variable quantum key distribution (CVQKD) is the sharing of secret keys between different parties using the continuous amplitude and phase quadratures of light. There are many protocols in which different modulation schemes are used to implement CVQKD. However, there has been no tool for comparison between different CVQKD protocols to determine the optimal protocol for varying channels while simultaneously taking into account the effects of different parameters. Here, a comparison tool has been developed to map regions of positive secret key rate (SKR), given a channel's transmittance and excess noise, where a user's modulation can be adjusted to guarantee a positive SKR in an arbitrary environment. The method has been developed for discrete modulated CVQKD (DM-CVQKD) protocols but can be extended to other current and future protocols and security proofs. | 翻訳日:2023-10-27 20:51:36 公開日:2023-10-26 |
# IndustReal: 産業的な設定におけるエゴセントリックビデオにおける実行エラーの処理手順認識のためのデータセット IndustReal: A Dataset for Procedure Step Recognition Handling Execution Errors in Egocentric Videos in an Industrial-Like Setting ( http://arxiv.org/abs/2310.17323v1 ) ライセンス: Link先を確認 | Tim J. Schoonbeek, Tim Houben, Hans Onvlee, Peter H.N. de With, Fons van der Sommen | (参考訳) 手続き的タスクに対する行動認識は注目されているが、アクションの成功の尺度が提供されないという根本的な欠点がある。
これは、手続き的行動の結果が単なる実行よりも著しく重要であるため、特に産業領域におけるそのようなシステムの適用性を制限する。
この制限に対処するために,手続きステップ認識(psr)の新たなタスクを定義し,手続きステップの正しい完了と順序の認識に焦点を当てた。
新しいタスクに加えて、マルチモーダルなIndustRealデータセットも提示する。
現在利用可能なデータセットとは異なり、industrealは実行エラーと同様に手続きエラー(省略など)を含んでいる。
これらのエラーの大部分は検証とテストセットにのみ存在しているため、新しい目に見えない誤りに対するアルゴリズムの堅牢性を評価するのに適しています。
さらに、再現性を奨励し、合成データで訓練されたスケーラブルなアプローチを可能にするため、すべてのパーツの3Dモデルが公開されている。
アノテーションとベンチマーク性能は、新しいPSRタスクと同様に、アクション認識とアセンブリ状態検出のために提供される。
IndustRealはコードとモデルの重み付けとともに、https://github.com/TimSchoonbeek/IndustReal.comで利用可能である。 Although action recognition for procedural tasks has received notable attention, it has a fundamental flaw in that no measure of success for actions is provided. This limits the applicability of such systems especially within the industrial domain, since the outcome of procedural actions is often significantly more important than the mere execution. To address this limitation, we define the novel task of procedure step recognition (PSR), focusing on recognizing the correct completion and order of procedural steps. Alongside the new task, we also present the multi-modal IndustReal dataset. Unlike currently available datasets, IndustReal contains procedural errors (such as omissions) as well as execution errors. A significant part of these errors are exclusively present in the validation and test sets, making IndustReal suitable to evaluate robustness of algorithms to new, unseen mistakes. Additionally, to encourage reproducibility and allow for scalable approaches trained on synthetic data, the 3D models of all parts are publicly available. Annotations and benchmark performance are provided for action recognition and assembly state detection, as well as the new PSR task. IndustReal, along with the code and model weights, is available at: https://github.com/TimSchoonbeek/IndustReal . | 翻訳日:2023-10-27 20:51:22 公開日:2023-10-26 |
# 産業環境でRESTful APIの振る舞いを探る Exploring Behaviours of RESTful APIs in an Industrial Setting ( http://arxiv.org/abs/2310.17318v1 ) ライセンス: Link先を確認 | Stefan Karlsson, Robbert Jongeling, Adnan Causevic, Daniel Sundmark | (参考訳) 現代のシステムで機能を公開する一般的な方法は、REST APIアーキテクチャガイドラインに基づいたWebAPIを提供することである。
REST APIを説明するため、業界標準は現在、OpenAPI仕様となっている。
OpenAPIで記述されたREST APIをターゲットにしたテスト生成とファジングメソッドは、近年非常に活発な研究領域となっている。
オープンリサーチの課題は、障害の発見とすべてのコードをカバーすることに加えて、apiの理解を深めることである。
本稿では、これらのAPIが示す振る舞いの例を生成するために使用される、REST APIに共通する一連の振る舞いプロパティを提案することで、この問題に対処する。
これらの例は両方とも使用できます
(i)apiの理解をさらに深めるために
(ii)自動テストケースの源泉として。
本評価は,本手法がシステム理解と実践者によるテスト生成に関係していると考えられる事例を生成できることを示す。
さらに、振る舞い特性に基づいたテスト生成は、システムの状態に依存しないテストを提供すると同時に、rest apifuzzingのstate-of-the-artメソッドと同じコードカバレッジを、所定の時間制限で提供することも示しています。 A common way of exposing functionality in contemporary systems is by providing a Web-API based on the REST API architectural guidelines. To describe REST APIs, the industry standard is currently OpenAPI-specifications. Test generation and fuzzing methods targeting OpenAPI-described REST APIs have been a very active research area in recent years. An open research challenge is to aid users in better understanding their API, in addition to finding faults and to cover all the code. In this paper, we address this challenge by proposing a set of behavioural properties, common to REST APIs, which are used to generate examples of behaviours that these APIs exhibit. These examples can be used both (i) to further the understanding of the API and (ii) as a source of automatic test cases. Our evaluation shows that our approach can generate examples deemed relevant for understanding the system and for a source of test generation by practitioners. In addition, we show that basing test generation on behavioural properties provides tests that are less dependent on the state of the system, while at the same time yielding a similar code coverage as state-of-the-art methods in REST API fuzzing in a given time limit. | 翻訳日:2023-10-27 20:51:04 公開日:2023-10-26 |
# 欠陥スペクトル: リッチセマンティックスを用いた大規模欠陥データセットの粒度図 Defect Spectrum: A Granular Look of Large-Scale Defect Datasets with Rich Semantics ( http://arxiv.org/abs/2310.17316v1 ) ライセンス: Link先を確認 | Shuai Yang, Zhifei Chen, Pengguang Chen, Xi Fang, Shu Liu, Yingcong Chen | (参考訳) 閉ループ製造システムでは欠陥検査が最重要である。
しかし、欠陥検査のための既存のデータセットは、実際的なアプリケーションに必要な精度とセマンティックな粒度を欠いていることが多い。
本稿では,幅広い産業的欠陥に対して,正確かつ意味的,かつ大規模にアノテーションを提供する総合的なベンチマークである欠陥スペクトラムを紹介する。
4つの主要な産業ベンチマークに基づいて、データセットは既存のアノテーションを洗練し、1つのイメージ内の複数の欠陥タイプを区別して、リッチなセマンティック詳細を導入します。
さらに,限られたデータセットを扱う場合でも,高品質で多様な欠陥画像を生成するように設計された2段階の拡散型生成器である defect-gen を導入する。
欠陥遺伝子によって生成された合成画像は欠陥検査モデルの有効性を著しく向上させる。
全体として、Defect Spectrumデータセットは、欠陥検査研究の可能性を実証し、高度なモデルをテストおよび精錬するための堅固なプラットフォームを提供する。 Defect inspection is paramount within the closed-loop manufacturing system. However, existing datasets for defect inspection often lack precision and semantic granularity required for practical applications. In this paper, we introduce the Defect Spectrum, a comprehensive benchmark that offers precise, semantic-abundant, and large-scale annotations for a wide range of industrial defects. Building on four key industrial benchmarks, our dataset refines existing annotations and introduces rich semantic details, distinguishing multiple defect types within a single image. Furthermore, we introduce Defect-Gen, a two-stage diffusion-based generator designed to create high-quality and diverse defective images, even when working with limited datasets. The synthetic images generated by Defect-Gen significantly enhance the efficacy of defect inspection models. Overall, The Defect Spectrum dataset demonstrates its potential in defect inspection research, offering a solid platform for testing and refining advanced models. | 翻訳日:2023-10-27 20:50:44 公開日:2023-10-26 |
# ナブラ語:アラビア語で形態的表記 Nabra: Syrian Arabic Dialects with Morphological Annotations ( http://arxiv.org/abs/2310.17315v1 ) ライセンス: Link先を確認 | Amal Nayouf and Tymaa Hammouda and Mustafa Jarrar and Fadi Zaraket and Mohamad-Bassam Kurdy | (参考訳) 本稿では,シリアのアラビア語方言のコーパスであるナブラについて述べる。
シリア原住民のチームは、ソーシャルメディアの投稿、映画やシリーズの脚本、歌詞の歌詞、ナブラを作るための地元の証明など、複数の情報源から約6万語以上の文章を集めた。
ナブラ語はアレッポ語、ダマスカス語、ディール・エズール語、ハマ語、ホムス語、フラン語、ラタキア語、マルディン語、ラッカ語、スウェーダ語を含むいくつかのシリアの方言をカバーしている。
9つのアノテータからなるチームは、文の文脈にまたがる完全な形態的アノテーションで60Kトークンを注釈付けした。
アノテーションを正規化するために、アノテーションのアノテーションガイドラインに従うようにアノテータに訓練しました。
F1とKappaの合意スコアは74%から98%で、Nabraアノテーションの優れた品質を示している。
私たちのコーパスはオープンソースで、Currasatポータル https://sina.birzeit.edu/currasatの一部として公開されています。 This paper presents Nabra, a corpora of Syrian Arabic dialects with morphological annotations. A team of Syrian natives collected more than 6K sentences containing about 60K words from several sources including social media posts, scripts of movies and series, lyrics of songs and local proverbs to build Nabra. Nabra covers several local Syrian dialects including those of Aleppo, Damascus, Deir-ezzur, Hama, Homs, Huran, Latakia, Mardin, Raqqah, and Suwayda. A team of nine annotators annotated the 60K tokens with full morphological annotations across sentence contexts. We trained the annotators to follow methodological annotation guidelines to ensure unique morpheme annotations, and normalized the annotations. F1 and kappa agreement scores ranged between 74% and 98% across features, showing the excellent quality of Nabra annotations. Our corpora are open-source and publicly available as part of the Currasat portal https://sina.birzeit.edu/currasat. | 翻訳日:2023-10-27 20:50:29 公開日:2023-10-26 |
# 変圧器と畳み込みニューラルネットワークの組み合わせに基づくアンサンブル手法による人工テキストの検出 An Ensemble Method Based on the Combination of Transformers with Convolutional Neural Networks to Detect Artificially Generated Text ( http://arxiv.org/abs/2310.17312v1 ) ライセンス: Link先を確認 | Vijini Liyanage and Davide Buscaldi | (参考訳) 最先端のLarge Language Models (LLMs)のおかげで、言語生成は傑出したレベルに達した。
これらのモデルは高品質なコンテンツを生成することができるため、人間が書いたコンテンツから生成されたテキストを検出するのが難しい。
自然言語生成の利点にもかかわらず、自動生成されたテキストを区別できないことは、信頼性の観点から倫理的懸念を提起する。
そのため,人工的コンテンツを検出する手法の設計と開発が重要である。
本研究では,Sci-BERT,DeBERTa,XLNetなどの変圧器モデルと畳み込みニューラルネットワーク(CNN)を併用した分類モデルを提案する。
実験により, アンサンブルアーキテクチャは, 個別変圧器モデルの分類性能を上回ることがわかった。
さらに提案されたSciBERT-CNNアンサンブルモデルでは、ALTA共有タスク2023データに対して98.36%のF1スコアが得られた。 Thanks to the state-of-the-art Large Language Models (LLMs), language generation has reached outstanding levels. These models are capable of generating high quality content, thus making it a challenging task to detect generated text from human-written content. Despite the advantages provided by Natural Language Generation, the inability to distinguish automatically generated text can raise ethical concerns in terms of authenticity. Consequently, it is important to design and develop methodologies to detect artificial content. In our work, we present some classification models constructed by ensembling transformer models such as Sci-BERT, DeBERTa and XLNet, with Convolutional Neural Networks (CNNs). Our experiments demonstrate that the considered ensemble architectures surpass the performance of the individual transformer models for classification. Furthermore, the proposed SciBERT-CNN ensemble model produced an F1-score of 98.36% on the ALTA shared task 2023 data. | 翻訳日:2023-10-27 20:50:09 公開日:2023-10-26 |
# 時空曲率プローブとしての重力誘起絡み合い Gravity-induced entanglement as a probe of spacetime curvature ( http://arxiv.org/abs/2310.17311v1 ) ライセンス: Link先を確認 | Suddhasattwa Brahma and Abhinove Nagarajan Seenivasan | (参考訳) 現在では、重力場が(摂動的に)量子であるなら、2つの巨大な物体(空間的重ね合わせ)を絡めることになると広く信じられている。
最近では、摂動量子重力の最初の検出となるこのアイデアをテストするために、実際のテーブルトップ実験が提案されている。
このエッセイでは、重力による絡み合いが時空の曲率に依存することを証明するための思考実験を考案し、原則として、膨張する背景の代替的なシグネチャとして機能する。
これにより、曲線付き時空におけるそのような絡み合いを探索する新たな補完的な方向が開かれ、その新しい視点が明らかになる。 It is now widely believed that if the gravitational field is (perturbatively) quantum, it would entangle two massive objects (in spatial superpositions) which were otherwise unentangled to begin with. Recently, actual table-top experiments have been proposed to test this idea in what would be the first detection of perturbative quantum gravity. In this essay, we devise a thought experiment to prove that such gravity-induced entanglement depends on the spacetime curvature and can, in principle, act as an alternate signature of the expanding background. This will open up new and complementary directions to search for such entanglement in curved spacetime and reveal fresh perspectives on it. | 翻訳日:2023-10-27 20:49:53 公開日:2023-10-26 |
# format5: 自然言語を用いた条件付きテーブルフォーマッティングの省略と例 FormaT5: Abstention and Examples for Conditional Table Formatting with Natural Language ( http://arxiv.org/abs/2310.17306v1 ) ライセンス: Link先を確認 | Mukul Singh, Jos\'e Cambronero, Sumit Gulwani, Vu Le, Carina Negreanu, Elnaz Nouri, Mohammad Raza, Gust Verbruggen | (参考訳) フォーマッティングは、視覚化、プレゼンテーション、分析のためのテーブルの重要な特性である。
スプレッドシートソフトウェアは、データに依存した条件付きフォーマット(cf)ルールを書くことで自動的にテーブルをフォーマットできる。
このようなルールを書くことは、基礎となるロジックを理解し実装する必要があるため、ユーザにとってしばしば困難である。
FormaT5は、対象のテーブルに与えられたCFルールと、所望のフォーマットロジックの自然言語記述を生成できるトランスフォーマーベースのモデルである。
これらのタスクのユーザ記述は、しばしば不特定または曖昧であり、コード生成システムは、望ましいルールを1ステップで正確に学習することが困難である。
この問題に対処し、引数エラーを最小限に抑えるため、form5は放棄目的にもかかわらずプレースホルダーを予測することを学ぶ。
これらのプレースホルダーは、第2のモデルで満たされるか、あるいはフォーマットすべき行の例を、プログラム・バイ・サンプル・システムで利用できる。
FormaT5を多種多様な実シナリオで評価するために、我々は4つの異なるソースから収集された実世界の記述を含む1053のCFタスクの広範なベンチマークを作成する。
私たちはこの分野の研究を促進するためにベンチマークをリリースします。
回避と充填により、form5は8つの異なるニューラルアプローチをベンチマークで比較できます。
本研究は、ドメイン固有の学習システムを構築することの価値を示す。 Formatting is an important property in tables for visualization, presentation, and analysis. Spreadsheet software allows users to automatically format their tables by writing data-dependent conditional formatting (CF) rules. Writing such rules is often challenging for users as it requires them to understand and implement the underlying logic. We present FormaT5, a transformer-based model that can generate a CF rule given the target table and a natural language description of the desired formatting logic. We find that user descriptions for these tasks are often under-specified or ambiguous, making it harder for code generation systems to accurately learn the desired rule in a single step. To tackle this problem of under-specification and minimise argument errors, FormaT5 learns to predict placeholders though an abstention objective. These placeholders can then be filled by a second model or, when examples of rows that should be formatted are available, by a programming-by-example system. To evaluate FormaT5 on diverse and real scenarios, we create an extensive benchmark of 1053 CF tasks, containing real-world descriptions collected from four different sources. We release our benchmarks to encourage research in this area. Abstention and filling allow FormaT5 to outperform 8 different neural approaches on our benchmarks, both with and without examples. Our results illustrate the value of building domain-specific learning systems. | 翻訳日:2023-10-27 20:49:39 公開日:2023-10-26 |
# World Wide Webのための生成AIの可能性を探る Exploring the Potential of Generative AI for the World Wide Web ( http://arxiv.org/abs/2310.17370v1 ) ライセンス: Link先を確認 | Nouar AlDahoul, Joseph Hong, Matteo Varvello, Yasir Zaki | (参考訳) Generative Artificial Intelligence (AI) は、生成モデルとユーザープロンプトを利用したテキスト、画像、各種メディアコンテンツを生成できる最先端技術である。
2022年から2023年の間に、AIを使った映画からチャットボットまで、数多くのアプリケーションによって、生成AIの人気が高まった。
本稿では,ワールドワイドウェブの領域における生成AIの可能性について,特に画像生成に焦点を当てて検討する。
webブラウザは将来、壊れたwebページを修復したり、帯域幅を節約したり、プライバシの強化といったタスクのためにローカルに画像を生成するのにそれを使うかもしれません。
この研究領域を探索するために、クライアントとサーバの両方の観点から、人気のあるテキスト・ツー・イメージ・モデルである、安定した拡散を利用したWebをシミュレートするツールであるWebDiffusionを開発した。
WebDiffusionはさらに、60のWebページから生成された409のAI生成画像の品質と精度を評価するために、ユーザの意見のクラウドソーシングをサポートする。
この結果から,生成AIは,Webページ内で利用可能なコンテキスト情報を活用するだけで,Webデザイナが手動でプロンプトを入力しなくても,関連する高品質なWebイメージを生成可能であることが示唆された。
しかし、A40やA100のような強力なGPUだけが(部分的には)古典的なイメージダウンロードと競合できるため、ブラウザ内での直接画像生成は依然として課題であることを認めています。
それでも、このアプローチは、壊れたウェブページを修正したり、非常にプライベートなコンテンツを扱う場合など、画像のサブセットに有用である。 Generative Artificial Intelligence (AI) is a cutting-edge technology capable of producing text, images, and various media content leveraging generative models and user prompts. Between 2022 and 2023, generative AI surged in popularity with a plethora of applications spanning from AI-powered movies to chatbots. In this paper, we delve into the potential of generative AI within the realm of the World Wide Web, specifically focusing on image generation. Web developers already harness generative AI to help crafting text and images, while Web browsers might use it in the future to locally generate images for tasks like repairing broken webpages, conserving bandwidth, and enhancing privacy. To explore this research area, we have developed WebDiffusion, a tool that allows to simulate a Web powered by stable diffusion, a popular text-to-image model, from both a client and server perspective. WebDiffusion further supports crowdsourcing of user opinions, which we use to evaluate the quality and accuracy of 409 AI-generated images sourced from 60 webpages. Our findings suggest that generative AI is already capable of producing pertinent and high-quality Web images, even without requiring Web designers to manually input prompts, just by leveraging contextual information available within the webpages. However, we acknowledge that direct in-browser image generation remains a challenge, as only highly powerful GPUs, such as the A40 and A100, can (partially) compete with classic image downloads. Nevertheless, this approach could be valuable for a subset of the images, for example when fixing broken webpages or handling highly private content. | 翻訳日:2023-10-27 20:42:33 公開日:2023-10-26 |
# レシピの文化適応 Cultural Adaptation of Recipes ( http://arxiv.org/abs/2310.17353v1 ) ライセンス: Link先を確認 | Yong Cao, Yova Kementchedjhieva, Ruixiang Cui, Antonia Karamolegkou, Li Zhou, Megan Dare, Lucia Donatelli, Daniel Hershcovich | (参考訳) 大規模言語モデル(llm)の大幅な進歩に基づいて、文化横断的文脈の微妙な理解を要求する、より洗練されたタスクに対処できるようになりました。
主な例はレシピ適応であり、単純な翻訳以上のもので、具材、料理技術、特定の文化特有の食事嗜好の把握を含んでいる。
本稿では、中国料理と英語料理のレシピの翻訳と文化適応に関する新たな課題を紹介する。
この調査を支援するために,中国語と英語で自動ペアリングされたレシピからなるユニークなデータセットである culturalrecipes を提案する。
このデータセットは、人間によって記述され、キュレートされたテストセットでさらに強化される。
本稿では,GPT-4などのLCM,従来の機械翻訳,情報検索技術など,多種多様な手法の性能評価を行う。
包括的な分析には、自動評価と人的評価の両方が含まれる。
GPT-4は、中国語のレシピを英語に翻訳する際、人間の専門知識に遅れを取っている。
これは文化適応の多面的な性質を基礎としている。
これらの知見が、文化的に認知される言語モデルの研究と、文化的に多様な文脈における実践的応用に大きく貢献することを期待している。 Building upon the considerable advances in Large Language Models (LLMs), we are now equipped to address more sophisticated tasks demanding a nuanced understanding of cross-cultural contexts. A key example is recipe adaptation, which goes beyond simple translation to include a grasp of ingredients, culinary techniques, and dietary preferences specific to a given culture. We introduce a new task involving the translation and cultural adaptation of recipes between Chinese and English-speaking cuisines. To support this investigation, we present CulturalRecipes, a unique dataset comprised of automatically paired recipes written in Mandarin Chinese and English. This dataset is further enriched with a human-written and curated test set. In this intricate task of cross-cultural recipe adaptation, we evaluate the performance of various methods, including GPT-4 and other LLMs, traditional machine translation, and information retrieval techniques. Our comprehensive analysis includes both automatic and human evaluation metrics. While GPT-4 exhibits impressive abilities in adapting Chinese recipes into English, it still lags behind human expertise when translating English recipes into Chinese. This underscores the multifaceted nature of cultural adaptations. We anticipate that these insights will significantly contribute to future research on culturally-aware language models and their practical application in culturally diverse contexts. | 翻訳日:2023-10-27 20:42:06 公開日:2023-10-26 |
# CADS: 条件付きサンプリングによる拡散モデルの多様性の解放 CADS: Unleashing the Diversity of Diffusion Models through Condition-Annealed Sampling ( http://arxiv.org/abs/2310.17347v1 ) ライセンス: Link先を確認 | Seyedmorteza Sadat, Jakob Buhmann, Derek Bradely, Otmar Hilliges, Romann M. Weber | (参考訳) 条件付き拡散モデルは、データ分布をよくカバーしていることが知られているが、特に最適な画像品質のための分類なしガイダンス尺度や、小さなデータセットで訓練された場合、出力の多様性の制限に直面している。
この問題を推論における条件づけ信号の役割と位置づけ、特に高誘導スケールにおいて、サンプル品質の損失を最小限に抑えながら、生成の多様性を高める拡散モデルのためのサンプリング戦略の改善を提供する。
提案手法は, 推定中にガウス雑音を条件付けベクトルに単調に減少させ, ダイバーシティと条件アライメントのバランスをとることにより, 条件付け信号をアニールする。
条件付き拡散サンプリング(CADS)は,任意の事前学習モデルとサンプリングアルゴリズムで使用することができ,様々な条件生成タスクにおける拡散モデルの多様性を高めることを示す。
さらに、既存の事前訓練拡散モデルを用いて、CADSは256$\times$256と512$\times$512のクラス条件の画像ネット生成に対して、1.70と2.31の最先端FIDをそれぞれ達成している。 While conditional diffusion models are known to have good coverage of the data distribution, they still face limitations in output diversity, particularly when sampled with a high classifier-free guidance scale for optimal image quality or when trained on small datasets. We attribute this problem to the role of the conditioning signal in inference and offer an improved sampling strategy for diffusion models that can increase generation diversity, especially at high guidance scales, with minimal loss of sample quality. Our sampling strategy anneals the conditioning signal by adding scheduled, monotonically decreasing Gaussian noise to the conditioning vector during inference to balance diversity and condition alignment. Our Condition-Annealed Diffusion Sampler (CADS) can be used with any pretrained model and sampling algorithm, and we show that it boosts the diversity of diffusion models in various conditional generation tasks. Further, using an existing pretrained diffusion model, CADS achieves a new state-of-the-art FID of 1.70 and 2.31 for class-conditional ImageNet generation at 256$\times$256 and 512$\times$512 respectively. | 翻訳日:2023-10-27 20:41:43 公開日:2023-10-26 |
# ACT-SQL: 自動生成チェイン・オブ・サートによるテキストからSQLへのインコンテキスト学習 ACT-SQL: In-Context Learning for Text-to-SQL with Automatically-Generated Chain-of-Thought ( http://arxiv.org/abs/2310.17342v1 ) ライセンス: Link先を確認 | Hanchong Zhang, Ruisheng Cao, Lu Chen, Hongshen Xu, Kai Yu | (参考訳) 最近、LLM(Large Language Models)は、様々なドメインやタスクに強力な能力があることが証明されている。
本研究では,テキストからSQLへのタスクを迅速に設計する問題について検討し,SQLクエリを生成する際のLCMの推論能力の向上を試みる。
簡単なインコンテキスト学習設定に加えて、スキーマリンクに類似した方法でチェーン・オブ・シンクレット(CoT)プロンプトを設計します。
ACT-SQLというメソッドで自動CoTの例を自動生成するので、プロセス全体が手作業によるラベリングを必要としない。
LLMのAPIコールを1つのSQLクエリ生成時に一度だけ使用するため、当社のアプローチはコスト削減です。
さらに、コンテキスト内学習手法をマルチターンテキストからsqlへのタスクに拡張する。
実験の結果,LLMの性能はACT-SQLアプローチの恩恵を受けることが示された。
本手法は,既存の文脈内学習手法の中で,Spider開発セット上でのSOTA性能を実現する。 Recently Large Language Models (LLMs) have been proven to have strong abilities in various domains and tasks. We study the problem of prompt designing in the text-to-SQL task and attempt to improve the LLMs' reasoning ability when generating SQL queries. Besides the trivial few-shot in-context learning setting, we design our chain-of-thought (CoT) prompt with a similar method to schema linking. We provide a method named ACT-SQL to automatically generate auto-CoT exemplars and thus the whole process doesn't need manual labeling. Our approach is cost-saving since we only use the LLMs' API call once when generating one SQL query. Furthermore, we extend our in-context learning method to the multi-turn text-to-SQL task. The experiment results show that the LLMs' performance can benefit from our ACT-SQL approach. Our approach achieves SOTA performance on the Spider dev set among existing in-context learning approaches. | 翻訳日:2023-10-27 20:41:21 公開日:2023-10-26 |
# 時相畳み込みニューラルネットワークによるデノボ化学反応生成 De-novo Chemical Reaction Generation by Means of Temporarily Convolutional Neural Networks ( http://arxiv.org/abs/2310.17341v1 ) ライセンス: Link先を確認 | Andrei Buin, Hung Yi Chiang, S. Andrew Gadsden, Faraz A. Alderson | (参考訳) 本稿では,リカレントニューラルネットワーク(RNN)と時間畳み込みニューラルネットワーク(TCN)の2つの組み合わせを,新しい反応スマイルズ様反応表現(CGRSmiles)と原子マッピングを直接組み込んだデノボ反応生成に適用する。
リカレントニューラルネットワークは自己回帰特性で知られており、SMILES生成への直接適用を伴う言語モデリングで頻繁に使用される。
比較的新しいTCNは、自然言語処理(NLP)に必要とされる因果性に従いながら、広い受容領域を持つ類似の性質を持つ。
TCNとRNNで表現された2つの潜在表現の組み合わせは、RNN単独と比較して全体的なパフォーマンスが向上する。
さらに、異なる微調整プロトコルが、転送学習による関心のデータセットに適用した場合、モデルの生成範囲に大きな影響を与えることを示した。 We present here a combination of two networks, Recurrent Neural Networks (RNN) and Temporarily Convolutional Neural Networks (TCN) in de novo reaction generation using the novel Reaction Smiles-like representation of reactions (CGRSmiles) with atom mapping directly incorporated. Recurrent Neural Networks are known for their autoregressive properties and are frequently used in language modelling with direct application to SMILES generation. The relatively novel TCNs possess similar properties with wide receptive field while obeying the causality required for natural language processing (NLP). The combination of both latent representations expressed through TCN and RNN results in an overall better performance compared to RNN alone. Additionally, it is shown that different fine-tuning protocols have a profound impact on generative scope of the model when applied on a dataset of interest via transfer learning. | 翻訳日:2023-10-27 20:41:04 公開日:2023-10-26 |
# 周波数に基づく深層学習によるマルチアーティファクト脳波 A multi-artifact EEG denoising by frequency-based deep learning ( http://arxiv.org/abs/2310.17335v1 ) ライセンス: Link先を確認 | Matteo Gabardi, Aurora Saibene, Francesca Gasparini, Daniele Rizzo, Fabio Antonio Stella | (参考訳) 脳波信号(EEG)は神経科学研究や脳-コンピュータインターフェースや神経疾患の診断などの臨床応用の基礎である。
これらの信号は典型的には神経活動とノイズの組み合わせであり、眼や筋肉の運動などの生理的アーティファクトを含む様々な源から生じる。
この状況下では,神経活動とノイズ関連源を区別する課題に取り組む。
雑音スペクトル特性に関する事前知識を活用し,雑音分離のための最適畳み込みフィルタを適応的に計算し,周波数領域で動作する新しい脳波弁別モデルを開発した。
このモデルは、雑音と雑音信号のスペクトル特性を非線形変換に結びつける経験的関係を学習し、信号の雑音化を可能にする。
EEGdenoiseNetデータセットの性能評価は、提案モデルが時間およびスペクトルの指標に応じて最適な結果を得ることを示す。
このモデルは入力された脳波データから生理的アーティファクトを除去し、効果的な脳波復調を実現する。
実際、モデルのパフォーマンスは、ベンチマークモデルによって達成された結果にマッチするか、より優れており、特定のタイプのアーティファクトのトレーニングを必要とせずに、筋肉と眼のアーティファクトの両方を効果的に削除できることが証明されている。 Electroencephalographic (EEG) signals are fundamental to neuroscience research and clinical applications such as brain-computer interfaces and neurological disorder diagnosis. These signals are typically a combination of neurological activity and noise, originating from various sources, including physiological artifacts like ocular and muscular movements. Under this setting, we tackle the challenge of distinguishing neurological activity from noise-related sources. We develop a novel EEG denoising model that operates in the frequency domain, leveraging prior knowledge about noise spectral features to adaptively compute optimal convolutional filters for noise separation. The model is trained to learn an empirical relationship connecting the spectral characteristics of noise and noisy signal to a non-linear transformation which allows signal denoising. Performance evaluation on the EEGdenoiseNet dataset shows that the proposed model achieves optimal results according to both temporal and spectral metrics. The model is found to remove physiological artifacts from input EEG data, thus achieving effective EEG denoising. Indeed, the model performance either matches or outperforms that achieved by benchmark models, proving to effectively remove both muscle and ocular artifacts without the need to perform any training on the particular type of artifact. | 翻訳日:2023-10-27 20:40:48 公開日:2023-10-26 |
# アラビア細粒実体認識 Arabic Fine-Grained Entity Recognition ( http://arxiv.org/abs/2310.17333v1 ) ライセンス: Link先を確認 | Haneen Liqreina, Mustafa Jarrar, Mohammed Khalilia, Ahmed Oumar El-Shangiti, Muhammad AbdulMageed | (参考訳) 従来のNERシステムは通常、粗粒度を認識できるように訓練されており、より細粒度の低いサブタイプの階層にエンティティを分類することにはあまり注意を払わない。
この記事は、アラビア語のNERを粒度の細かいエンティティで前進させることを目的としている。
私たちはWojood(オープンソースのNested Arabic Named Entity Corpus)をサブタイプで拡張することにしました。
特に、wojood, geopolitical entity (gpe), location (loc), organization (org), facility (fac)の4つの主要なエンティティタイプが31のサブタイプで拡張されている。
そこで我々はまず, GPE, LOC, ORG, FAC の Wojood アノテーションを LDC の ACE ガイドラインに適合するように改訂した。
第二に、Wojood における GPE, LOC, ORG, FAC (~44K) のすべての言及は、LCC の ACE サブタイプで手動で注釈付けされている。
我々はWojoodのこの拡張バージョンをWojoodF ineと呼んでいる。
アノテーションを評価するため,CohenのKappaとF1のスコアを用いてIAA(inter-annotator agreement)を測定し,それぞれ0.9861と0.9889を得た。
WojoodF ineのベースラインを計算するために、フラットNER、ネストNER、ネストNERの3つの設定で事前訓練された3つのアラビアBERTエンコーダを微調整し、それぞれ0.920、0.866、0.885のF1スコアを得た。
私たちのコーパスとモデルはオープンソースであり、https://sina.birzeit.edu/wojood/で利用可能です。 Traditional NER systems are typically trained to recognize coarse-grained entities, and less attention is given to classifying entities into a hierarchy of fine-grained lower-level subtypes. This article aims to advance Arabic NER with fine-grained entities. We chose to extend Wojood (an open-source Nested Arabic Named Entity Corpus) with subtypes. In particular, four main entity types in Wojood, geopolitical entity (GPE), location (LOC), organization (ORG), and facility (FAC), are extended with 31 subtypes. To do this, we first revised Wojood's annotations of GPE, LOC, ORG, and FAC to be compatible with the LDC's ACE guidelines, which yielded 5, 614 changes. Second, all mentions of GPE, LOC, ORG, and FAC (~44K) in Wojood are manually annotated with the LDC's ACE sub-types. We refer to this extended version of Wojood as WojoodF ine. To evaluate our annotations, we measured the inter-annotator agreement (IAA) using both Cohen's Kappa and F1 score, resulting in 0.9861 and 0.9889, respectively. To compute the baselines of WojoodF ine, we fine-tune three pre-trained Arabic BERT encoders in three settings: flat NER, nested NER and nested NER with subtypes and achieved F1 score of 0.920, 0.866, and 0.885, respectively. Our corpus and models are open-source and available at https://sina.birzeit.edu/wojood/. | 翻訳日:2023-10-27 20:40:28 公開日:2023-10-26 |
# 予測安定性について On Forecast Stability ( http://arxiv.org/abs/2310.17332v1 ) ライセンス: Link先を確認 | Rakshitha Godahewa, Christoph Bergmeir, Zeynep Erkin Baz, Chengjun Zhu, Zhangdi Song, Salvador Garc\'ia, Dario Benavides | (参考訳) 予測は、通常、真空でではなく、ビジネスコンテキストで生成され、予測は定期的に生成され、相互にやりとりされる。
意思決定では、予測が任意に変化せず、ある意味で安定していることが重要である。
しかし、この地域は予測文献でのみ注目されている。
本稿では,垂直安定性と水平安定性という2種類の予測安定性について検討する。
文献の既存の作業は特定のベースモデルにのみ適用でき、これらのフレームワークがベースモデルと互換性を持つように拡張することは簡単ではない。
さらに、これらのフレームワークは予測を垂直に安定化するのみである。
このギャップを埋めるために,任意のベースモデルが提供する予測を垂直および水平に安定させる単純な線形補間法を提案する。
このアプローチは正確な予測と安定した予測の両方を生み出すことができる。
N-BEATS, Pooled Regression, LightGBM をベースモデルとして, 提案したフレームワークは, 3つのエラーメトリクスと6つの安定性指標を含む最新の予測安定化手法を含む一連のベンチマークと比較して, 極めて高い安定性および/または精度を達成することができる。 Forecasts are typically not produced in a vacuum but in a business context, where forecasts are generated on a regular basis and interact with each other. For decisions, it may be important that forecasts do not change arbitrarily, and are stable in some sense. However, this area has received only limited attention in the forecasting literature. In this paper, we explore two types of forecast stability that we call vertical stability and horizontal stability. The existing works in the literature are only applicable to certain base models and extending these frameworks to be compatible with any base model is not straightforward. Furthermore, these frameworks can only stabilise the forecasts vertically. To fill this gap, we propose a simple linear-interpolation-based approach that is applicable to stabilise the forecasts provided by any base model vertically and horizontally. The approach can produce both accurate and stable forecasts. Using N-BEATS, Pooled Regression and LightGBM as the base models, in our evaluation on four publicly available datasets, the proposed framework is able to achieve significantly higher stability and/or accuracy compared to a set of benchmarks including a state-of-the-art forecast stabilisation method across three error metrics and six stability metrics. | 翻訳日:2023-10-27 20:39:56 公開日:2023-10-26 |
# cqm: 量子化世界モデルを用いたカリキュラム強化学習 CQM: Curriculum Reinforcement Learning with a Quantized World Model ( http://arxiv.org/abs/2310.17330v1 ) ライセンス: Link先を確認 | Seungjae Lee, Daesol Cho, Jonghae Park, H. Jin Kim | (参考訳) 近年のReinforcement Learning (RL) では,サロゲートタスクのシーケンスを提案することで,複雑なタスクの解決が顕著に進んでいる。
しかし、従来のアプローチは、高次元空間でカリキュラムのゴールを生成する際にしばしば課題に直面する。
したがって、通常は手動で指定したゴールスペースに依存する。
この制限を緩和し、カリキュラムのスケーラビリティを向上させるために、カリキュラムプロセスに不可欠な情報を含む意味目標空間を自動的に定義する新しいカリキュラム手法を提案し、その上でカリキュラム目標を提案する。
意味的目標空間を定義するために,ベクトル量子化変分オートエンコーダ(vq-vae)による連続観測を離散化し,離散観測間の時間的関係をグラフで復元する。
同時に,自動ゴール空間上の最終目標に収束する不確実性と時間的距離対応のカリキュラム目標を提案する。
提案手法は,実例のみを用いた非情報環境における効率的な探索を可能にすることを実証する。
また,ego中心の視覚入力においても,データ効率と性能に関する最新のカリキュラムrl手法よりも優れています。 Recent curriculum Reinforcement Learning (RL) has shown notable progress in solving complex tasks by proposing sequences of surrogate tasks. However, the previous approaches often face challenges when they generate curriculum goals in a high-dimensional space. Thus, they usually rely on manually specified goal spaces. To alleviate this limitation and improve the scalability of the curriculum, we propose a novel curriculum method that automatically defines the semantic goal space which contains vital information for the curriculum process, and suggests curriculum goals over it. To define the semantic goal space, our method discretizes continuous observations via vector quantized-variational autoencoders (VQ-VAE) and restores the temporal relations between the discretized observations by a graph. Concurrently, ours suggests uncertainty and temporal distance-aware curriculum goals that converges to the final goals over the automatically composed goal space. We demonstrate that the proposed method allows efficient explorations in an uninformed environment with raw goal examples only. Also, ours outperforms the state-of-the-art curriculum RL methods on data efficiency and performance, in various goal-reaching tasks even with ego-centric visual inputs. | 翻訳日:2023-10-27 20:39:35 公開日:2023-10-26 |
# エントロピー上の密接な連続性境界と量子容量上の境界 Tightening continuity bounds on entropies and bounds on quantum capacities ( http://arxiv.org/abs/2310.17329v1 ) ライセンス: Link先を確認 | Michael G. Jabbour and Nilanjana Datta | (参考訳) エントロピー上の一様連続性境界は一般に、一対の確率分布または量子状態(通常、全変動距離またはトレース距離)の間の単一の距離測度で表される。
しかし、確率分布または状態の間の追加距離測度が知られている場合、連続性境界は著しく強化される。
ここでは, シャノンエントロピーに対して, 局所的および全変動距離の両方の観点から, タイトな一様連続性を証明し, [i. sason, ieee trans. inf. th., 59, 7118 (2013)] で証明された不等式を鋭くする。
また、作用素ノルムとトレース距離の両方の観点から、フォン・ノイマンエントロピーに対して一様連続性を得る。
作用素ノルム距離によるトレース距離の商が整数であるとき、境界は厳密である。
その結果を,チャネルの量子的およびプライベート的古典的容量の上界計算に適用する。
まず、近似分解可能なチャネル、すなわち$\varepsilon$-degradableチャネルの概念を、定義上は、$\varepsilon$-closeのダイヤモンドノルムを、分解チャネルで構成した場合に、その相補的なチャネルに精製することから始める。
この目的のために、$(\varepsilon,\nu)$-degradable channel という概念を導入する。これらは、$\varepsilon$-degradable channel であり、また、$\nu$-close は、完全に有界なスペクトルノルムにおいて、同じ分解チャネルで構成される。
これにより、これらのチャネルの量子およびプライベートな古典的容量に対する改良された上限を導出することができる。
さらに、上記のノルムの特定の不安定バージョンを考慮すれば、これらの境界をさらに改善することができる。
後者の上界は半定値プログラムとして効率的に表現できることを示す。
我々は、量子分極チャネルの量子容量の新たな上限を得ることにより、この結果を示す。 Uniform continuity bounds on entropies are generally expressed in terms of a single distance measure between a pair of probability distributions or quantum states, typically, the total variation distance or trace distance. However, if an additional distance measure between the probability distributions or states is known, then the continuity bounds can be significantly strengthened. Here, we prove a tight uniform continuity bound for the Shannon entropy in terms of both the local- and total variation distances, sharpening an inequality proven in [I. Sason, IEEE Trans. Inf. Th., 59, 7118 (2013)]. We also obtain a uniform continuity bound for the von Neumann entropy in terms of both the operator norm- and trace distances. The bound is tight when the quotient of the trace distance by the operator norm distance is an integer. We then apply our results to compute upper bounds on the quantum- and private classical capacities of channels. We begin by refining the concept of approximate degradable channels, namely, $\varepsilon$-degradable channels, which are, by definition, $\varepsilon$-close in diamond norm to their complementary channel when composed with a degrading channel. To this end, we introduce the notion of $(\varepsilon,\nu)$-degradable channels; these are $\varepsilon$-degradable channels that are, in addition, $\nu$-close in completely bounded spectral norm to their complementary channel, when composed with the same degrading channel. This allows us to derive improved upper bounds to the quantum- and private classical capacities of such channels. Moreover, these bounds can be further improved by considering certain unstabilized versions of the above norms. We show that upper bounds on the latter can be efficiently expressed as semidefinite programs. We illustrate our results by obtaining a new upper bound on the quantum capacity of the qubit depolarizing channel. | 翻訳日:2023-10-27 20:39:14 公開日:2023-10-26 |
# YOLO-BEV:2Dオブジェクト検出と同じ方法で鳥の視点を生成する YOLO-BEV: Generating Bird's-Eye View in the Same Way as 2D Object Detection ( http://arxiv.org/abs/2310.17379v1 ) ライセンス: Link先を確認 | Chang Liu, Liguo Zhou, Yanliang Huang, Alois Knoll | (参考訳) 車両認識システムは、安全とナビゲーションを改善するために、周囲の包括的かつ迅速な視覚的解釈を実現しようとしている。
本稿では,車載環境の2次元鳥眼ビューを生成するために,周囲カメラのユニークな構成を利用する効率的なフレームワークであるYOLO-BEVを紹介する。
45度の間隔で8台のカメラを戦略的に配置することにより、画像をコヒーレントな3x3グリッドフォーマットに取り込み、中心を空白にし、効率的な処理を容易にする空間表現を提供する。
提案手法では, 高速応答とコンパクトモデル構造に固有の利点を生かし, YOLOの検出機構を用いる。
従来のYOLO検出ヘッドを活用する代わりに、カスタムデザインの検知ヘッドで拡張し、パノラマ的に取得したデータをエゴ車の鳥眼ビューマップに変換する。
実時間車両知覚課題におけるyolo-bevの有効性を予備実験により検証した。
アーキテクチャの合理化とパラメータの最小化による迅速な展開の可能性により、YOLO-BEVは自動運転システムの将来的な視点を再構築する有望なツールとして機能する。 Vehicle perception systems strive to achieve comprehensive and rapid visual interpretation of their surroundings for improved safety and navigation. We introduce YOLO-BEV, an efficient framework that harnesses a unique surrounding cameras setup to generate a 2D bird's-eye view of the vehicular environment. By strategically positioning eight cameras, each at a 45-degree interval, our system captures and integrates imagery into a coherent 3x3 grid format, leaving the center blank, providing an enriched spatial representation that facilitates efficient processing. In our approach, we employ YOLO's detection mechanism, favoring its inherent advantages of swift response and compact model structure. Instead of leveraging the conventional YOLO detection head, we augment it with a custom-designed detection head, translating the panoramically captured data into a unified bird's-eye view map of ego car. Preliminary results validate the feasibility of YOLO-BEV in real-time vehicular perception tasks. With its streamlined architecture and potential for rapid deployment due to minimized parameters, YOLO-BEV poses as a promising tool that may reshape future perspectives in autonomous driving systems. | 翻訳日:2023-10-27 20:32:40 公開日:2023-10-26 |
# タンジェントバンドルの感度に基づくReLUネットワークの最適化依存一般化 Optimization dependent generalization bound for ReLU networks based on sensitivity in the tangent bundle ( http://arxiv.org/abs/2310.17378v1 ) ライセンス: Link先を確認 | D\'aniel R\'acz, Mih\'aly Petreczky, Andr\'as Csert\'an, B\'alint Dar\'oczy | (参考訳) 近年のディープラーニングの進歩は、ディープニューラルネットワークの一般化能力に非常に有望な結果をもたらしたが、なぜ過度にパラメータ化されたモデルがトレーニングデータに適合しながら一般化できるのかを説明する包括的な理論はいまだに欠けている。
本稿では,初期パラメータベクトルから勾配降下によって得られるネットワークの集合のラデマシェ複雑性を推定することにより,feedforward reluネットワークの一般化誤差にバインドしたpac型を提案する。
鍵となるアイデアは、ネットワークの勾配の感度を最適化軌道に沿って入力データの摂動に制限することである。
得られた境界はネットワークの深さに明示的に依存しない。
MNISTおよびCIFAR-10データセットを用いて実験を行った。 Recent advances in deep learning have given us some very promising results on the generalization ability of deep neural networks, however literature still lacks a comprehensive theory explaining why heavily over-parametrized models are able to generalize well while fitting the training data. In this paper we propose a PAC type bound on the generalization error of feedforward ReLU networks via estimating the Rademacher complexity of the set of networks available from an initial parameter vector via gradient descent. The key idea is to bound the sensitivity of the network's gradient to perturbation of the input data along the optimization trajectory. The obtained bound does not explicitly depend on the depth of the network. Our results are experimentally verified on the MNIST and CIFAR-10 datasets. | 翻訳日:2023-10-27 20:32:18 公開日:2023-10-26 |
# 大規模言語モデルを用いた対話型自動運転シミュレーションシナリオの生成 Dialogue-based generation of self-driving simulation scenarios using Large Language Models ( http://arxiv.org/abs/2310.17372v1 ) ライセンス: Link先を確認 | Antonio Valerio Miceli-Barone, Alex Lascarides, Craig Innes | (参考訳) シミュレーションは自動運転車のコントローラーを開発し評価するための貴重なツールである。
現在のシミュレーションフレームワークは、高度に特殊なドメイン固有言語によって駆動されるため、自然言語インターフェースはユーザビリティを大幅に向上する。
しかし、英語の簡潔な発話とユーザの意図をキャプチャする実行可能なコードの間には、ユーザが行っている暗黙の仮定からなるギャップがしばしばあります。
本稿では,これまでの発話から生成したシミュレーションに反応して,利用者が事前の指示を改良や修正で追従することが可能な,拡張マルチモーダルインタラクションをサポートすることでこの問題に対処するシステムについて述べる。
我々は、この対話におけるユーザの英語発話をドメイン固有のコードにマッピングするために、大きな言語モデル(llms)を使用します。 Simulation is an invaluable tool for developing and evaluating controllers for self-driving cars. Current simulation frameworks are driven by highly-specialist domain specific languages, and so a natural language interface would greatly enhance usability. But there is often a gap, consisting of tacit assumptions the user is making, between a concise English utterance and the executable code that captures the user's intent. In this paper we describe a system that addresses this issue by supporting an extended multimodal interaction: the user can follow up prior instructions with refinements or revisions, in reaction to the simulations that have been generated from their utterances so far. We use Large Language Models (LLMs) to map the user's English utterances in this interaction into domain-specific code, and so we explore the extent to which LLMs capture the context sensitivity that's necessary for computing the speaker's intended message in discourse. | 翻訳日:2023-10-27 20:32:06 公開日:2023-10-26 |
# 言語とメンタルヘルス:言語的バイオソーシャルマーカーとしてのテキストからの感情動態の測定 Language and Mental Health: Measures of Emotion Dynamics from Text as Linguistic Biosocial Markers ( http://arxiv.org/abs/2310.17369v1 ) ライセンス: Link先を確認 | Daniela Teodorescu, Tiffany Cheng, Alona Fyshe, Saif M. Mohammad | (参考訳) 精神病理学の研究は、総じて、時間とともに感情の変化のパターン(感情のダイナミクス)が精神状態の指標であることを示した。
感情変化のパターンは伝統的に感情の自己報告を通じて決定されてきたが、正確性、バイアス、利便性に問題がある。
日常の発話から感情のダイナミクスを決定する最近のアプローチは、これらの懸念の多くに対処しているが、これらの発話の感情のダイナミクス(ued)が精神の健康診断と相関しているかどうかはまだ分かっていない。
ここでは、ツイートの感情動態とメンタルヘルス障害との関係について初めて検討する。
調査対象のUEDメトリクスはそれぞれ,ユーザの自己開示診断によって異なることがわかった。
例えば、ADHD、MDD、PTSDのユーザと比較して、コントロールグループでは平均値が有意に高かった(すなわち、よりポジティブなテキスト)。
ADHD, うつ病, 双極性障害, MDD, PTSD, OCDに対して有意差は認められなかったが, PPDは認められなかった。
原子価の上昇と回復率もコントロールと大きく異なることが示された。
この研究は、感情力学に関連する言語的手がかりが、精神疾患の生社会マーカーとして重要な役割を担い、精神疾患の理解、診断、管理に役立っていることを示す重要な初期の証拠を提供する。 Research in psychopathology has shown that, at an aggregate level, the patterns of emotional change over time -- emotion dynamics -- are indicators of one's mental health. One's patterns of emotion change have traditionally been determined through self-reports of emotions; however, there are known issues with accuracy, bias, and convenience. Recent approaches to determining emotion dynamics from one's everyday utterances, addresses many of these concerns, but it is not yet known whether these measures of utterance emotion dynamics (UED) correlate with mental health diagnoses. Here, for the first time, we study the relationship between tweet emotion dynamics and mental health disorders. We find that each of the UED metrics studied varied by the user's self-disclosed diagnosis. For example: average valence was significantly higher (i.e., more positive text) in the control group compared to users with ADHD, MDD, and PTSD. Valence variability was significantly lower in the control group compared to ADHD, depression, bipolar disorder, MDD, PTSD, and OCD but not PPD. Rise and recovery rates of valence also exhibited significant differences from the control. This work provides important early evidence for how linguistic cues pertaining to emotion dynamics can play a crucial role as biosocial markers for mental illnesses and aid in the understanding, diagnosis, and management of mental health disorders. | 翻訳日:2023-10-27 20:31:51 公開日:2023-10-26 |
# GHZ型状態における最適絡み合い生成 Optimal entanglement generation in GHZ-type states ( http://arxiv.org/abs/2310.17365v1 ) ライセンス: Link先を確認 | N. Giovenale, L. Hernandez-Martinez, A. P. Majtey, and A. Vald\'es-Hern\'andez | (参考訳) エンタングルメント生成は、量子情報の分野で多くのアプリケーションにとって鍵となるが、高速で持続的な方法でエンタングルメントを作成することができるプロセスの識別も同様である。
この方向の進展の大部分は二部体系にのみ適用されており、多部体系における絡み合いの度合いは明らかにされていないが、我々は3量子GHZ型クラスにおける三部体絡みの最も高速かつ持続的な生成を優先する過程の同定に寄与している。
三次元相互作用ハミルトニアンを考えることによって、3つの三角形と絡み合い率のダイナミクスを分析し、ハミルトンの進化を補う最適な局所演算を同定し、3方向の絡み合いの生成を高速化し、所定のしきい値以下でその崩壊を防止する。
高度に絡み合った状態に達する速度を最大化する適切な局所演算は、1つの量子ビットにのみアクセスする必要があるという利点があるが、システムの実際の状態に依存する。
他の普遍的(状態に依存しない)局所演算は、同型スキームが十分な量の3つの三角形を維持することが分かる。
本結果は,マルチパーティシステムへの絡み合い率の理解を深め,様々な量子情報処理タスクにおける効率向上戦略に関するガイダンスを提供する。 The entanglement production is key for many applications in the realm of quantum information, but so is the identification of processes that allow to create entanglement in a fast and sustained way. Most of the advances in this direction have been circumscribed to bipartite systems only, and the rate of entanglement in multipartite system has been much less explored.Here we contribute to the identification of processes that favor the fastest and sustained generation of tripartite entanglement in a class of 3-qubit GHZ-type states. By considering a three-party interaction Hamiltonian, we analyse the dynamics of the 3-tangle and the entanglement rate to identify the optimal local operations that supplement the Hamiltonian evolution in order to speed-up the generation of three-way entanglement, and to prevent its decay below a predetermined threshold value. The appropriate local operation that maximizes the speed at which a highly-entangled state is reached has the advantage of requiring access to only one of the qubits, yet depends on the actual state of the system. Other universal (state-independent) local operations are found that conform schemes to maintain a sufficiently high amount of 3-tangle. Our results expand our understanding of entanglement rates to multipartite systems, and offer guidance regarding the strategies that improve the efficiency in various quantum information processing tasks. | 翻訳日:2023-10-27 20:31:29 公開日:2023-10-26 |
# 確率的時空間グラフ学習のための拡散モデルの統合に向けて Towards Unifying Diffusion Models for Probabilistic Spatio-Temporal Graph Learning ( http://arxiv.org/abs/2310.17360v1 ) ライセンス: Link先を確認 | Junfeng Hu, Xu Liu, Zhencheng Fan, Yuxuan Liang, Roger Zimmermann | (参考訳) 時空間グラフ学習は、Web of Things時代における基本的な問題であり、スマートシティ、ヒューマンモビリティ、気候分析など、多くのWebアプリケーションを可能にする。
既存のアプローチは、異なる学習タスクに個別に取り組み、モデルを独自のタスク特性に調整する。
しかし、これらの手法は時空間データに固有の不確かさをモデル化するものではない。
一方、それらの特殊設計は一般的な時空間学習ソリューションとして普遍性を制限する。
本稿では,共有時空間パターンを用いた条件情報に基づく予測として,学習タスクを統一的な視点でモデル化することを提案する。
本提案に基づき,不確実性認識拡散フレームワーク内でタスクを一様に扱うための統一時空間拡散モデル(ustd)を提案する。
USTDは、共有時空間エンコーダと、タスク固有のアテンションベースの認知ネットワークから構成される。
事前学習戦略によって最適化された共有エンコーダは、条件付き時空間パターンを効果的にキャプチャする。
クロスアテンションとセルフアテンションの両方を活用して、条件依存を統合し、予測を生成する。
下流タスクの予測とクリギングのオプションとして,各タスクに対して,空間次元と時間次元の異なる相で,Gated Attention (SGA) と Temporal Gated Attention (TGA) を設計する。
決定論的エンコーダと確率的拡散モデルの利点を組み合わせることで、ustdは両方のタスクにおける決定論的および確率的ベースラインと比較して最先端のパフォーマンスを達成し、また価値のある不確実性の推定も提供する。 Spatio-temporal graph learning is a fundamental problem in the Web of Things era, which enables a plethora of Web applications such as smart cities, human mobility and climate analysis. Existing approaches tackle different learning tasks independently, tailoring their models to unique task characteristics. These methods, however, fall short of modeling intrinsic uncertainties in the spatio-temporal data. Meanwhile, their specialized designs limit their universality as general spatio-temporal learning solutions. In this paper, we propose to model the learning tasks in a unified perspective, viewing them as predictions based on conditional information with shared spatio-temporal patterns. Based on this proposal, we introduce Unified Spatio-Temporal Diffusion Models (USTD) to address the tasks uniformly within the uncertainty-aware diffusion framework. USTD is holistically designed, comprising a shared spatio-temporal encoder and attention-based denoising networks that are task-specific. The shared encoder, optimized by a pre-training strategy, effectively captures conditional spatio-temporal patterns. The denoising networks, utilizing both cross- and self-attention, integrate conditional dependencies and generate predictions. Opting for forecasting and kriging as downstream tasks, we design Gated Attention (SGA) and Temporal Gated Attention (TGA) for each task, with different emphases on the spatial and temporal dimensions, respectively. By combining the advantages of deterministic encoders and probabilistic diffusion models, USTD achieves state-of-the-art performances compared to deterministic and probabilistic baselines in both tasks, while also providing valuable uncertainty estimates. | 翻訳日:2023-10-27 20:31:04 公開日:2023-10-26 |
# SE(3) 拡散モデルに基づくロバスト6次元オブジェクト位置推定のための点クラウド登録 SE(3) Diffusion Model-based Point Cloud Registration for Robust 6D Object Pose Estimation ( http://arxiv.org/abs/2310.17359v1 ) ライセンス: Link先を確認 | Haobo Jiang, Mathieu Salzmann, Zheng Dang, Jin Xie, and Jian Yang | (参考訳) 本稿では,現実シナリオにおける6次元オブジェクトポーズ推定のためのSE(3)拡散モデルに基づく点クラウド登録フレームワークを提案する。
提案手法は, 3D 登録タスクをデノナイズ拡散過程として定式化し, 原点雲の姿勢を段階的に洗練し, モデル点雲との正確な整合を得る。
フレームワークのトレーニングには、SE(3)拡散プロセスとSE(3)逆プロセスという2つの操作が含まれる。
SE(3)拡散過程は、ノイズ(摂動変換)を連続的に注入することによって、一対の点雲の最適な剛性変換を徐々に摂動する。
対照的に、se(3)逆プロセスは、ノイズのある変換を段階的に洗練し、正確なポーズ推定のための最適な変換に近づける、分調ネットワークの学習に焦点を当てている。
線型ユークリッド空間で使われる標準拡散モデルとは異なり、我々の拡散モデルは SE(3) 多様体上で動く。
これにより線型リー代数 $\mathfrak{se}(3)$ を SE(3) に関連付け、拡散過程と逆過程の間の変換遷移を制限する必要がある。
さらに,分散ネットワークを効果的にトレーニングするために,モデル学習のための最適化目標として,登録固有の変分下限を導出する。
さらに,提案手法を異なる深層登録ネットワークに適用できるように,サブロゲート登録モデルを用いてデノイジングネットワークを構築することができることを示した。
我々の拡散登録フレームワークは,実世界のTUD-L,LINEMOD,Occluded-LINEMODデータセットに対して優れたポーズ推定性能を示す。 In this paper, we introduce an SE(3) diffusion model-based point cloud registration framework for 6D object pose estimation in real-world scenarios. Our approach formulates the 3D registration task as a denoising diffusion process, which progressively refines the pose of the source point cloud to obtain a precise alignment with the model point cloud. Training our framework involves two operations: An SE(3) diffusion process and an SE(3) reverse process. The SE(3) diffusion process gradually perturbs the optimal rigid transformation of a pair of point clouds by continuously injecting noise (perturbation transformation). By contrast, the SE(3) reverse process focuses on learning a denoising network that refines the noisy transformation step-by-step, bringing it closer to the optimal transformation for accurate pose estimation. Unlike standard diffusion models used in linear Euclidean spaces, our diffusion model operates on the SE(3) manifold. This requires exploiting the linear Lie algebra $\mathfrak{se}(3)$ associated with SE(3) to constrain the transformation transitions during the diffusion and reverse processes. Additionally, to effectively train our denoising network, we derive a registration-specific variational lower bound as the optimization objective for model learning. Furthermore, we show that our denoising network can be constructed with a surrogate registration model, making our approach applicable to different deep registration networks. Extensive experiments demonstrate that our diffusion registration framework presents outstanding pose estimation performance on the real-world TUD-L, LINEMOD, and Occluded-LINEMOD datasets. | 翻訳日:2023-10-27 20:30:40 公開日:2023-10-26 |
# sky imagerによる機械学習による日射量予測 Sky Imager-Based Forecast of Solar Irradiance Using Machine Learning ( http://arxiv.org/abs/2310.17356v1 ) ライセンス: Link先を確認 | Anas Al-lahham, Obaidah Theeb, Khaled Elalem, Tariq A. Alshawi, Saleh A. Alshebeili | (参考訳) 電力グリッドの安定性と不断のサービスを確保するためには,発電所の出力電力の事前予測が不可欠である。
しかし,自然エネルギー源のカオス的挙動のため,再生可能エネルギー源の予測は困難である。
本稿では,天空画像から短期太陽照度を推定する新しい手法を提案する。
このアルゴリズムはスカイ画像から特徴を抽出し、学習に基づく技術を用いて太陽照度を推定する。
提案する機械学習(ML)アルゴリズムの性能は,スカイイメージの2つの公開データセットを用いて評価する。
データセットには、2004年から2020年までの16年間に35万以上の画像が含まれており、それぞれの画像のghi(global horizontal irradiance)を根拠とする。
論文で提案した最先端の計算量重アルゴリズムと比較して,本手法は,計算処理の複雑さを極端に低減し,計算時間を最大4時間先まで短縮する。 Ahead-of-time forecasting of the output power of power plants is essential for the stability of the electricity grid and ensuring uninterrupted service. However, forecasting renewable energy sources is difficult due to the chaotic behavior of natural energy sources. This paper presents a new approach to estimate short-term solar irradiance from sky images. The~proposed algorithm extracts features from sky images and use learning-based techniques to estimate the solar irradiance. The~performance of proposed machine learning (ML) algorithm is evaluated using two publicly available datasets of sky images. The~datasets contain over 350,000 images for an interval of 16 years, from 2004 to 2020, with the corresponding global horizontal irradiance (GHI) of each image as the ground truth. Compared to the state-of-the-art computationally heavy algorithms proposed in the literature, our approach achieves competitive results with much less computational complexity for both nowcasting and forecasting up to 4 h ahead of time. | 翻訳日:2023-10-27 20:30:11 公開日:2023-10-26 |
# ルールのトライを探求する: 関連ルールの表現のための高速なデータ構造 Exploring the Trie of Rules: a fast data structure for the representation of association rules ( http://arxiv.org/abs/2310.17355v1 ) ライセンス: Link先を確認 | Mikhail Kudriavtsev, Dr Marija Bezbradica, Dr Andrew McCarren | (参考訳) アソシエーションルールマイニング技術は、トランザクショナルデータベースに実装されると大量のシーケンシャルデータを生成することができる。
関連ルールの集合から洞察を抽出することは、難しいプロセスであることが判明した。
ルールセットを調べる場合、基本的な問題は、有意義な知識を効率的に要約し、表現する方法である。
多くのアルゴリズムと戦略が知識抽出の問題に対処するために開発されたが、このプロセスの有効性はデータ構造によって制限される。
より良いデータ構造は、知識抽出プロセスの速度に十分に影響を与え得る。
本稿では,アソシエーションルールマイニングによって生成されるルールセットを格納するための新しいデータ構造,the trie of rulesを提案する。
結果として得られるデータ構造は、プリミネートされたルールで構成されたプレフィックスツリーグラフ構造である。
このグラフは、ルールをプレフィックスツリー内のパスとして、同様のルールが相互にオーバーレイするように格納する。
ツリーの各ノードは、列がこのノードであるルールを表し、先行ノードは、このノードからツリーの根へのパスである。
評価の結果,提案手法は有望であった。
特定のルールの検索やソートといった、多くの知識発見手法の基盤となる基本的な操作の時間的な観点で、データロスやメリットをほとんど持たないルールセットを圧縮する。
さらに,従来のデータ構造に比べて8倍に向上し,トラバース時間を大幅に改善した。 Association rule mining techniques can generate a large volume of sequential data when implemented on transactional databases. Extracting insights from a large set of association rules has been found to be a challenging process. When examining a ruleset, the fundamental question is how to summarise and represent meaningful mined knowledge efficiently. Many algorithms and strategies have been developed to address issue of knowledge extraction; however, the effectiveness of this process can be limited by the data structures. A better data structure can sufficiently affect the speed of the knowledge extraction process. This paper proposes a novel data structure, called the Trie of rules, for storing a ruleset that is generated by association rule mining. The resulting data structure is a prefix-tree graph structure made of pre-mined rules. This graph stores the rules as paths within the prefix-tree in a way that similar rules overlay each other. Each node in the tree represents a rule where a consequent is this node, and an antecedent is a path from this node to the root of the tree. The evaluation showed that the proposed representation technique is promising. It compresses a ruleset with almost no data loss and benefits in terms of time for basic operations such as searching for a specific rule and sorting, which is the base for many knowledge discovery methods. Moreover, our method demonstrated a significant improvement in traversing time, achieving an 8-fold increase compared to traditional data structures. | 翻訳日:2023-10-27 20:29:55 公開日:2023-10-26 |
# gpt-3.5-turboを用いた訴訟における修辞的役割予測 Harnessing GPT-3.5-turbo for Rhetorical Role Prediction in Legal Cases ( http://arxiv.org/abs/2310.17413v1 ) ライセンス: Link先を確認 | Anas Belfathi, Nicolas Hernandez, Laura Monceaux | (参考訳) 訴訟の修辞的役割予測タスクにおいて,大規模な事前学習型生成変換器(GPT-3.5-turbo)を問うための一段階適用手法の総合的研究を提案する。
このタスクは、テキストコンテキストに対処する必要があることで知られる。
本研究は, ゼロフェーショット, 定義付きタスク仕様, アノテーションのあいまいさの明確化, テキストコンテキスト, 一般的なプロンプトと特定の質問による推論などの戦略を検討する。
実例数,ラベル定義,(ラベル付き)テクストコンテキストの提示,およびこの文脈に関する具体的な質問が,モデルの性能に肯定的な影響を与えていることを示す。
非等価なテストセットの設定を考えると、直接コンテキストからラベル付けされたいくつかの例を推し進めることで、BERTエンコーダ(重み付きF1スコア=72%)に基づいた教師付き微調整型マルチクラス分類器よりも優れたパフォーマンスにモデルが導かれることがわかりました。
しかし、法律上の2023年のタスクにおいて、最高のシステム(=86%)のパフォーマンスに到達するには、依然としてギャップがあり、それに対して、専門的なリソース、アーキテクチャ、トレーニングが必要です。 We propose a comprehensive study of one-stage elicitation techniques for querying a large pre-trained generative transformer (GPT-3.5-turbo) in the rhetorical role prediction task of legal cases. This task is known as requiring textual context to be addressed. Our study explores strategies such as zero-few shots, task specification with definitions and clarification of annotation ambiguities, textual context and reasoning with general prompts and specific questions. We show that the number of examples, the definition of labels, the presentation of the (labelled) textual context and specific questions about this context have a positive influence on the performance of the model. Given non-equivalent test set configurations, we observed that prompting with a few labelled examples from direct context can lead the model to a better performance than a supervised fined-tuned multi-class classifier based on the BERT encoder (weighted F1 score of = 72%). But there is still a gap to reach the performance of the best systems = 86%) in the LegalEval 2023 task which, on the other hand, require dedicated resources, architectures and training. | 翻訳日:2023-10-27 20:21:46 公開日:2023-10-26 |
# 変分量子アルゴリズムに応用した進化的戦略による学習 Learning to learn with an evolutionary strategy applied to variational quantum algorithms ( http://arxiv.org/abs/2310.17402v1 ) ライセンス: Link先を確認 | Lucas Friedrich, Jonas Maziero | (参考訳) 変分量子アルゴリズム(VQA)は、コスト関数を最小化するために古典的手法を用いて最適化された$U$でパラメータ化された量子回路を用いる。
VQAは幅広いアプリケーションを見つけましたが、いくつかの課題は続きます。
特に、パラメータ最適化中にかなりの計算負荷が発生する。
一般的な ``parameter shift rule'' は、各パラメータのコスト関数の二重評価を義務付ける。
本稿では,「LLES(Learning to Learn with an Evolutionary Strategy)」という新しい最適化手法を紹介する。
LLESは ``earning to Learn'' と ``Evolutionary Strategy'' メソッドを統一する。
学習への学習'は、繰り返しニューラルネットワークを用いてVQAパラメータを反復的に提案することで、最適化を学習問題として扱う。
逆に 'Evolutionary Strategy'' は関数勾配を推定するために勾配探索を用いる。
本手法は,Ising Hamiltonianの基底状態の決定と量子ニューラルネットワークのトレーニングという,2つの異なるタスクに適用する。
結果は、この新しいアプローチの有効性を強調する。
さらに,<進化的戦略'法を用いて,勾配推定に大きな影響を及ぼす重要なハイパーパラメータを同定する。 Variational Quantum Algorithms (VQAs) employ quantum circuits parameterized by $U$, optimized using classical methods to minimize a cost function. While VQAs have found broad applications, certain challenges persist. Notably, a significant computational burden arises during parameter optimization. The prevailing ``parameter shift rule'' mandates a double evaluation of the cost function for each parameter. In this article, we introduce a novel optimization approach named ``Learning to Learn with an Evolutionary Strategy'' (LLES). LLES unifies ``Learning to Learn'' and ``Evolutionary Strategy'' methods. ``Learning to Learn'' treats optimization as a learning problem, utilizing recurrent neural networks to iteratively propose VQA parameters. Conversely, ``Evolutionary Strategy'' employs gradient searches to estimate function gradients. Our optimization method is applied to two distinct tasks: determining the ground state of an Ising Hamiltonian and training a quantum neural network. Results underscore the efficacy of this novel approach. Additionally, we identify a key hyperparameter that significantly influences gradient estimation using the ``Evolutionary Strategy'' method. | 翻訳日:2023-10-27 20:21:24 公開日:2023-10-26 |
# 量子ドット回路の統一線形応答理論 Unified linear response theory of quantum dot circuits ( http://arxiv.org/abs/2310.17399v1 ) ライセンス: Link先を確認 | L. Peri, M. Benito, C. J. B. Ford and M. F. Gonzalez-Zalba | (参考訳) 有限周波数での多レベル量子システムの電気応答のモデル化は、一般的に2つの不完全パラダイムの文脈で行われてきた。
(i)どの頻度でも有効であるが、動的損失を無視する入力出力理論、
(ii)よくダイナミックな散逸効果を捉える半古典的理論は、低周波でのみ正確である。
ここでは,任意の周波数に対して有効である統一理論を考案し,有限緩和とデファスメントによって引き起こされる非ユニタリ効果を捉える。
この理論は、多値系を普遍的小信号等価回路モデル(共振型rlc回路)で記述することを可能にするが、その位相はエネルギー準位の数にのみ依存し、二重量子ドット内の電荷量子ビットの場合に適用する。
本モデルでは,ハイブリッド量子古典回路の設計と,量子ビット制御と量子状態読み出しのシミュレーションを行う。 Modelling the electrical response of multi-level quantum systems at finite frequency has been typically performed in the context of two incomplete paradigms: (i) Input-output theory, which is valid at any frequency but neglects dynamic losses, and (ii) semiclassical theory, which captures well dynamic dissipation effects but is only accurate at low frequencies. Here, we develop a unifying theory, valid for arbitrary frequencies, that captures the non-unitary effects introduced by finite relaxation and dephasing. The theory allows a multi-level system to be described by a universal small-signal equivalent circuit model, a resonant RLC circuit, whose topology only depends on the number of energy levels, which we apply here to the case of a charge qubit in a double quantum dot. Our model will facilitate the design of hybrid quantum-classical circuits and the simulation of qubit control and quantum state readout. | 翻訳日:2023-10-27 20:21:08 公開日:2023-10-26 |
# ナレーション付きエゴビデオから時間文の接地学習 Learning Temporal Sentence Grounding From Narrated EgoVideos ( http://arxiv.org/abs/2310.17395v1 ) ライセンス: Link先を確認 | Kevin Flanagan, Dima Damen, Michael Wray | (参考訳) Ego4D や EPIC-Kitchens のような長めのエゴセントリックなデータセットの出現は、テンポラル・センテンス・グラウンディング(TSG)のタスクに新たな課題をもたらす。
このタスクを評価する従来のベンチマークと比較すると、これらのデータセットは特に長いビデオにおいて、よりきめ細かい文を提供する。
本稿では,ナレーションとそれに対応する粗いナレーションタイムスタンプのみを用いて,これらのデータセットの文を学習するためのアプローチを開発する。
本研究では,テキストコンディショニングによる時間的接地訓練のためのクリップを人工的にマージすることを提案する。
このClip Merging(CliMer)アプローチは、高性能なTSG法と比較すると有効であることが示され、例えば、R@1はEgo4Dでは3.9から5.7、EPIC-Kitchensでは10.7から13.0に改善されている。
コードとデータの分割: https://github.com/keflanagan/climer The onset of long-form egocentric datasets such as Ego4D and EPIC-Kitchens presents a new challenge for the task of Temporal Sentence Grounding (TSG). Compared to traditional benchmarks on which this task is evaluated, these datasets offer finer-grained sentences to ground in notably longer videos. In this paper, we develop an approach for learning to ground sentences in these datasets using only narrations and their corresponding rough narration timestamps. We propose to artificially merge clips to train for temporal grounding in a contrastive manner using text-conditioning attention. This Clip Merging (CliMer) approach is shown to be effective when compared with a high performing TSG method -- e.g. mean R@1 improves from 3.9 to 5.7 on Ego4D and from 10.7 to 13.0 on EPIC-Kitchens. Code and data splits available from: https://github.com/keflanagan/CliMer | 翻訳日:2023-10-27 20:20:54 公開日:2023-10-26 |
# 構造ベースプロンプトによるグラフニューラルネットワークの強化 Enhancing Graph Neural Networks with Structure-Based Prompt ( http://arxiv.org/abs/2310.17394v1 ) ライセンス: Link先を確認 | Qingqing Ge, Zeyuan Zhao, Yiding Liu, Anfeng Cheng, Xiang Li, Shuaiqiang Wang and Dawei Yin | (参考訳) グラフニューラルネットワーク(GNN)は、グラフデータのセマンティクスの学習において強力である。
近年,新しいパラダイムであるpre-train, promptは,教師付きデータが少ない様々なタスクにGNNを適用するという有望な結果を示している。
このようなパラダイムの成功は、事前トレーニングとタスク指向のプロンプトチューニングという、より一貫した目標によって引き起こされる可能性がある。
しかし,既存の研究で見過ごされている問題は,ノード表現学習の事前学習においてグラフの構造情報が活用されるのに対して,タスク固有パラメータ学習の即時チューニング段階では無視される点である。
このギャップを埋めるために,本研究では,事前学習と即興チューニングの両段階において,構造情報を一貫して活用する新しい構造ベースプロンピング手法であるsapを提案する。
特にSAP
1)ノード属性とグラフ構造の潜在意味空間を調整するために,デュアルビューのコントラスト学習を用いる。
2)プロンプトグラフに構造情報を組み込んで,事前学習した知識の迅速なチューニングを実現する。
SAPの有効性を示すために,ノード分類とグラフ分類タスクについて広範な実験を行った。
さらに,ホモフィラスグラフとヘテロフィラスグラフの両方において,より難易度の高い数発シナリオにおいて,sapのパフォーマンスが向上することを示す。 Graph Neural Networks (GNNs) are powerful in learning semantics of graph data. Recently, a new paradigm "pre-train, prompt" has shown promising results in adapting GNNs to various tasks with less supervised data. The success of such paradigm can be attributed to the more consistent objectives of pre-training and task-oriented prompt tuning, where the pre-trained knowledge can be effectively transferred to downstream tasks. However, an overlooked issue of existing studies is that the structure information of graph is usually exploited during pre-training for learning node representations, while neglected in the prompt tuning stage for learning task-specific parameters. To bridge this gap, we propose a novel structure-based prompting method for GNNs, namely SAP, which consistently exploits structure information in both pre-training and prompt tuning stages. In particular, SAP 1) employs a dual-view contrastive learning to align the latent semantic spaces of node attributes and graph structure, and 2) incorporates structure information in prompted graph to elicit more pre-trained knowledge in prompt tuning. We conduct extensive experiments on node classification and graph classification tasks to show the effectiveness of SAP. Moreover, we show that SAP can lead to better performance in more challenging few-shot scenarios on both homophilous and heterophilous graphs. | 翻訳日:2023-10-27 20:20:24 公開日:2023-10-26 |
# シリコン量子ドットの大きさと位置による谷の分割 Valley splitting depending on the size and location of a silicon quantum dot ( http://arxiv.org/abs/2310.17393v1 ) ライセンス: Link先を確認 | Jonas R. F. Lima and Guido Burkard | (参考訳) シリコン量子ドットの谷分割(vs)は、シリコンスピン量子ビットの性能と拡張性において重要な役割を果たす。
本研究では,SiGe/Si/SiGeヘテロ構造のVSを,シリコン量子ドットのサイズと位置の関数として検討する。
我々は,Si/SiGe界面の濃度変動と界面粗さを考慮に入れた現実的なシステムを記述するために,実効質量法を用いる。
我々は、量子ドットの大きさはvsの強化にとって重要なパラメータであり、乱れが支配的から決定論的に強化された領域間の遷移をも引き起こすことができると予測する。
量子ドットを特定の方向に移動するとVSがどう変化するかを分析すると、電荷/スピンシャットリングに関連するVSのばらつきを低減するために量子ドットのサイズを使うことができる。 The valley splitting (VS) of a silicon quantum dot plays an important role for the performance and scalability of silicon spin qubits. In this work we investigate the VS of a SiGe/Si/SiGe heterostructure as a function of the size and location of the silicon quantum dot. We use the effective mass approach to describe a realistic system, which takes into account concentration fluctuations at the Si/SiGe interfaces and also the interface roughness. We predict that the size of the quantum dot is an important parameter for the enhancement of the VS and it can also induce a transition between the disorder-dominated to deterministic-enhanced regimes. Analyzing how the VS changes when we move the quantum dot in a specific direction, we obtain that the size of the quantum dot can be used to reduce the variability of the VS, which is relevant for charge/spin shuttling. | 翻訳日:2023-10-27 20:19:42 公開日:2023-10-26 |
# ToxicChat: 現実のユーザ-AI会話における毒性検出の隠れた課題 ToxicChat: Unveiling Hidden Challenges of Toxicity Detection in Real-World User-AI Conversation ( http://arxiv.org/abs/2310.17389v1 ) ライセンス: Link先を確認 | Zi Lin, Zihan Wang, Yongqi Tong, Yangkun Wang, Yuxin Guo, Yujia Wang, Jingbo Shang | (参考訳) チャットボットで大きな言語モデルが達成した驚くべき進歩にもかかわらず、非有害なユーザー-ai対話環境の維持が近年ますます重要になっている。
しかし、従来の毒性検出の取り組みは、ソーシャルメディアコンテンツから派生したベンチマークに基づいており、実際のユーザとAIのインタラクションに固有の固有の課題は十分に調査されていない。
本研究は,オープンソースのチャットボットからの実際のユーザクエリに基づく新しいベンチマークである toxicchat を紹介する。
このベンチマークには、現在の毒性検出モデルが識別するトリッキーな、豊かなニュアンスのある現象が含まれており、ソーシャルメディアの内容との大きなドメイン差を明らかにしている。
既存の毒性データセットに基づいてトレーニングされたモデルの体系的評価は、ToxicChatのこのユニークなドメインに適用した場合の欠点を示している。
我々の研究は、現実世界のユーザ-ai会話における毒性検出の潜在的な難題を照らしている。
将来的には、ToxicChatは、ユーザとAIインタラクションのための安全で健全な環境を構築するためのさらなる進歩を促進する上で、貴重なリソースになり得る。 Despite remarkable advances that large language models have achieved in chatbots, maintaining a non-toxic user-AI interactive environment has become increasingly critical nowadays. However, previous efforts in toxicity detection have been mostly based on benchmarks derived from social media content, leaving the unique challenges inherent to real-world user-AI interactions insufficiently explored. In this work, we introduce ToxicChat, a novel benchmark based on real user queries from an open-source chatbot. This benchmark contains the rich, nuanced phenomena that can be tricky for current toxicity detection models to identify, revealing a significant domain difference compared to social media content. Our systematic evaluation of models trained on existing toxicity datasets has shown their shortcomings when applied to this unique domain of ToxicChat. Our work illuminates the potentially overlooked challenges of toxicity detection in real-world user-AI conversations. In the future, ToxicChat can be a valuable resource to drive further advancements toward building a safe and healthy environment for user-AI interactions. | 翻訳日:2023-10-27 20:18:59 公開日:2023-10-26 |
# バイレベル最適化によるデータ重み付けの課題 A Challenge in Reweighting Data with Bilevel Optimization ( http://arxiv.org/abs/2310.17386v1 ) ライセンス: Link先を確認 | Anastasia Ivanova and Pierre Ablin | (参考訳) 多くのシナリオでは、異なる分布を持つ小さなテストセットでうまく機能することを目的として、モデルをトレーニングするために大規模なトレーニングセットを使用する。
トレーニングセットの各データポイントの重みを学習することは魅力的なソリューションであり、理想的には、テストセットの一般化のために各トレーニングポイントの重要性を自動的に学習できる。
この課題は通常二段階最適化問題として定式化される。
古典的双レベル解法は、モデルのパラメータとデータ重みの両方を同時に学習するウォームスタート戦略に基づいている。
このジョイントダイナミクスは、最終的なデータの重み付けが極めて少ない準最適解につながる可能性があることを示す。
この発見はデータの重み付けの難しさを示しており、この方法が実際に使用されることは稀である。 In many scenarios, one uses a large training set to train a model with the goal of performing well on a smaller testing set with a different distribution. Learning a weight for each data point of the training set is an appealing solution, as it ideally allows one to automatically learn the importance of each training point for generalization on the testing set. This task is usually formalized as a bilevel optimization problem. Classical bilevel solvers are based on a warm-start strategy where both the parameters of the models and the data weights are learned at the same time. We show that this joint dynamic may lead to sub-optimal solutions, for which the final data weights are very sparse. This finding illustrates the difficulty of data reweighting and offers a clue as to why this method is rarely used in practice. | 翻訳日:2023-10-27 20:18:36 公開日:2023-10-26 |
# マルチタスクオンライン学習:隣のバズを聴く Multitask Online Learning: Listen to the Neighborhood Buzz ( http://arxiv.org/abs/2310.17385v1 ) ライセンス: Link先を確認 | Juliette Achddou, Nicol\`o Cesa-Bianchi, Pierre Laforgue | (参考訳) エージェントが任意の通信ネットワーク上で隣人とのみ情報を交換できる環境で,マルチタスクオンライン学習について検討する。
本稿では,タスクの類似点とネットワーク構造との相互作用に依存する分散アルゴリズムである$\texttt{MT-CO}_2\texttt{OL}$を紹介する。
我々の分析によると、$\texttt{MT-CO}_2\texttt{OL}$の後悔は、エージェントが情報を共有していない場合に得られる境界よりも決して悪くはない。
一方,隣のエージェントが同様のタスクをこなすと,境界が大幅に改善する。
さらに,損失が線形である場合の後悔に無視できない影響を伴って,我々のアルゴリズムを微分プライベートにすることができることを証明した。
最後に、我々の理論を実験的に支持する。 We study multitask online learning in a setting where agents can only exchange information with their neighbors on an arbitrary communication network. We introduce $\texttt{MT-CO}_2\texttt{OL}$, a decentralized algorithm for this setting whose regret depends on the interplay between the task similarities and the network structure. Our analysis shows that the regret of $\texttt{MT-CO}_2\texttt{OL}$ is never worse (up to constants) than the bound obtained when agents do not share information. On the other hand, our bounds significantly improve when neighboring agents operate on similar tasks. In addition, we prove that our algorithm can be made differentially private with a negligible impact on the regret when the losses are linear. Finally, we provide experimental support for our theory. | 翻訳日:2023-10-27 20:18:15 公開日:2023-10-26 |
# 生理的信号と視線追跡に基づくゲームタイプの認識について On the recognition of the game type based on physiological signals and eye tracking ( http://arxiv.org/abs/2310.17383v1 ) ライセンス: Link先を確認 | {\L}ukasz Czekaj and {\L}ukasz Radzinski and Mateusz Kolimaga and Jakub Domaszewicz and Robert Kit{\l}owski and Mariusz Szwoch and W{\l}odzis{\l}aw Duch | (参考訳) 信号の自動解釈は、感情コンピューティングと人間活動認識(HAR)の分野から多くの印象的な応用をもたらす。
本稿では,特定の信号セットに基づく認知行動認識の可能性について質問する。
我々は,参加者のゲームに対する認識を,問題の探索の場として利用する。
我々は3つの異なるゲーム(スペースインベーダー、テトリス、タワーディフェンス)とゲーム間停止の分類器を構築する。
我々は,プレーヤ非依存シナリオとプレーヤ非依存シナリオの分類器を検証する。
生体認証の文脈におけるプレイヤー依存シナリオの改善について考察する。
ゲーム分類の結果に基づいて,スマートサーベイランスと定量化自己の潜在的な応用について考察する。 Automated interpretation of signals yields many impressive applications from the area of affective computing and human activity recognition (HAR). In this paper we ask the question about possibility of cognitive activity recognition on the base of particular set of signals. We use recognition of the game played by the participant as a playground for exploration of the problem. We build classifier of three different games (Space Invaders, Tetris, Tower Defence) and inter-game pause. We validate classifier in the player-independent and player-dependent scenario. We discuss the improvement in the player-dependent scenario in the context of biometric person recognition. On the base of the results obtained in game classification, we consider potential applications in smart surveillance and quantified self. | 翻訳日:2023-10-27 20:17:59 公開日:2023-10-26 |
# PETA:サブワードトークン化によるタンパク質伝達学習が下流アプリケーションに与える影響の評価 PETA: Evaluating the Impact of Protein Transfer Learning with Sub-word Tokenization on Downstream Applications ( http://arxiv.org/abs/2310.17415v1 ) ライセンス: Link先を確認 | Yang Tan, Mingchen Li, Pan Tan, Ziyi Zhou, Huiqun Yu, Guisheng Fan, Liang Hong | (参考訳) 大規模タンパク質言語モデルは、基礎となる進化情報を一次構造に取り込み、タンパク質工学にとって重要な実践的価値を提供する。
自然言語モデルと比較して、タンパク質アミノ酸配列はデータボリュームが小さく、組合せ空間が限られている。
事前学習されたモデルを最適化するために適切な語彙サイズを選択することは重要な問題である。
さらに、自然言語コミュニティにおける多くのベンチマークや研究にもかかわらず、タンパク質言語モデルの品質を体系的に評価するための包括的なベンチマークが不足している。
これらの課題から、PETAは3つのトークン化法の下で14の異なる語彙サイズを持つ言語モデルを訓練した。
モデル転送学習能力を評価するために、33のさまざまな下流データセット上で数千のテストを実施し、潜在的なバイアスを軽減するために、2つの分類ヘッドと3つのランダムシードを組み込んだ。
広範な実験により、50から200の語彙サイズが最適化され、800以上の語彙サイズがモデルの表現性能に悪影響を及ぼすことが示された。
私たちのコード、モデルウェイト、データセットは、https://github.com/ginnm/proteinpretrainingで利用可能です。 Large protein language models are adept at capturing the underlying evolutionary information in primary structures, offering significant practical value for protein engineering. Compared to natural language models, protein amino acid sequences have a smaller data volume and a limited combinatorial space. Choosing an appropriate vocabulary size to optimize the pre-trained model is a pivotal issue. Moreover, despite the wealth of benchmarks and studies in the natural language community, there remains a lack of a comprehensive benchmark for systematically evaluating protein language model quality. Given these challenges, PETA trained language models with 14 different vocabulary sizes under three tokenization methods. It conducted thousands of tests on 33 diverse downstream datasets to assess the models' transfer learning capabilities, incorporating two classification heads and three random seeds to mitigate potential biases. Extensive experiments indicate that vocabulary sizes between 50 and 200 optimize the model, whereas sizes exceeding 800 detrimentally affect the model's representational performance. Our code, model weights and datasets are available at https://github.com/ginnm/ProteinPretraining. | 翻訳日:2023-10-27 20:11:08 公開日:2023-10-26 |
# LEI2JSON: 家畜イベント情報のスキーマに基づく検証と変換 LEI2JSON: Schema-based Validation and Conversion of Livestock Event Information ( http://arxiv.org/abs/2310.17414v1 ) ライセンス: Link先を確認 | Mahir Habib, Muhammad Ashad Kabir, Lihong Zheng | (参考訳) 家畜生産者はしばしば家畜のイベントデータを標準化する助けを必要としている。
この記事では、LEI2JSON(Livestock Event Information to JSON)という新しいソリューションを紹介します。
このツールはGoogle Sheetsのアドオンで、家畜イベント情報(LEI)スキーマに準拠している。
LEI2JSONの中核的な目的は、家畜生産者にデータの標準化のための効率的なメカニズムを提供することであり、時間とリソースの大幅な節約につながる。
これは、適切なカラムヘッダ、ノート、検証ルールでスプレッドシートテンプレートを構築し、スプレッドシートデータをjson形式に変換し、スキーマに対して出力を検証することで実現されます。
lei2jsonは、家畜のイベント情報をローカルまたはjsonでgoogle driveにシームレスに保存する。
また,本ツールの有効性を評価するために広範な実験を行った。 Livestock producers often need help in standardising (i.e., converting and validating) their livestock event data. This article introduces a novel solution, LEI2JSON (Livestock Event Information To JSON). The tool is an add-on for Google Sheets, adhering to the livestock event information (LEI) schema. The core objective of LEI2JSON is to provide livestock producers with an efficient mechanism to standardise their data, leading to substantial savings in time and resources. This is achieved by building the spreadsheet template with the appropriate column headers, notes, and validation rules, converting the spreadsheet data into JSON format, and validating the output against the schema. LEI2JSON facilitates the seamless storage of livestock event information locally or on Google Drive in JSON. Additionally, we have conducted an extensive experimental evaluation to assess the effectiveness of the tool. | 翻訳日:2023-10-27 20:10:53 公開日:2023-10-26 |
# フォトニック量子ビットの2光子量子状態トモグラフィー Two-photon quantum state tomography of photonic qubits ( http://arxiv.org/abs/2310.17411v1 ) ライセンス: Link先を確認 | Guilherme P. Tempor\~ao and Pedro Ripper and Thiago B. Guerreiro and Gustavo C. do Amaral | (参考訳) 本研究では,2次干渉,すなわちHong-Ou-Mandel(HOM)干渉計を用いてストークスパラメータと単一光子の偏光度を測定する。
この手法は、偏光状態と到達時間などの内部自由度が結合された部分偏光子と、環境との外部の絡み合いによる部分偏光子を区別できることが示されている。
この方法はいかなる偏光選択成分にも直接依存せず、したがって偏光剤の絶滅率に制限されない。
さらにこの技術は、タイムビンや軌道角運動量量子ビットのような単一光子における量子情報の任意の2レベルエンコーディングに一般化することができる。 We provide a tool for measuring the Stokes parameters and the degree of polarization of single photons by employing second order interference, namely the Hong-Ou-Mandel (HOM) interferometer. It is shown that the technique is able to distinguish a partially polarized photon where the polarization state is coupled to an internal degree of freedom, such as time of arrival, from partial polarization due to external entanglement with the environment. The method does not directly resort to any kind of polarization-selective components and therefore is not limited by the extinction ratio of polarizers. Moreover, the technique can be generalized to any two-level encoding of quantum information in single photons, such as time-bin or orbital angular momentum qubits. | 翻訳日:2023-10-27 20:10:39 公開日:2023-10-26 |
# 計量時間論理における効率的な監視可能な公式の合成 Synthesizing Efficiently Monitorable Formulas in Metric Temporal Logic ( http://arxiv.org/abs/2310.17410v1 ) ライセンス: Link先を確認 | Ritam Raha, Rajarshi Roy, Nathanael Fijalkow, Daniel Neider and Guillermo A. Perez | (参考訳) 実行時の検証では、システム実行を監視するための仕様を手動で定式化するのは面倒でエラーを起こしやすいプロセスである。
この問題に対処するために,システム実行から形式仕様を自動的に合成する問題を考える。
本稿では,サイバー物理システム(CPS)の時間特性の特定に特化している,一般的な仕様言語 Metric Temporal Logic (MTL) について考察する。
時間論理式を合成するための古典的なアプローチの多くは、公式のサイズを最小化することを目的としている。
しかしながら、監視の効率性やサイズについては、特に安全クリティカルなアプリケーションにおいて、仕様に必要な"ルックヘッド"の量が重要となる。
我々は,この概念を定式化し,有界な外見を持つ簡潔な公式を合成する学習アルゴリズムを考案する。
そこで本アルゴリズムは,LRA(Linear Real Arithmetic)において,合成タスクを一連の満足度問題に還元し,満足な代入からMTL式を生成する。
このリダクションは、LRAを用いた一般的なMTL監視手順の新たなエンコーディングを使用する。
最後に,本アルゴリズムをtealというツールで実装し,cpsアプリケーションで効率的にモニタ可能なmtl式を合成する能力を示す。 In runtime verification, manually formalizing a specification for monitoring system executions is a tedious and error-prone process. To address this issue, we consider the problem of automatically synthesizing formal specifications from system executions. To demonstrate our approach, we consider the popular specification language Metric Temporal Logic (MTL), which is particularly tailored towards specifying temporal properties for cyber-physical systems (CPS). Most of the classical approaches for synthesizing temporal logic formulas aim at minimizing the size of the formula. However, for efficiency in monitoring, along with the size, the amount of "lookahead" required for the specification becomes relevant, especially for safety-critical applications. We formalize this notion and devise a learning algorithm that synthesizes concise formulas having bounded lookahead. To do so, our algorithm reduces the synthesis task to a series of satisfiability problems in Linear Real Arithmetic (LRA) and generates MTL formulas from their satisfying assignments. The reduction uses a novel encoding of a popular MTL monitoring procedure using LRA. Finally, we implement our algorithm in a tool called TEAL and demonstrate its ability to synthesize efficiently monitorable MTL formulas in a CPS application. | 翻訳日:2023-10-27 20:10:27 公開日:2023-10-26 |
# Exoによるマトリックス乗算マイクロカーネルの生成 Tackling the Matrix Multiplication Micro-kernel Generation with Exo ( http://arxiv.org/abs/2310.17408v1 ) ライセンス: Link先を確認 | Adri\'an Castell\'o, Julian Bellavita, Grace Dinh, Yuka Ikarashi, H\'ector Mart\'inez | (参考訳) 行列乗法(gem)の最適化は、過去数十年間、必要とされてきた。
この操作は、blis、openblas、intel oneapiのような現在の線形代数ライブラリのフラッグシップであると考えられている。
GEMMは通常、GotoBLASの哲学に従って実装され、GEMMのオペランドをタイル化し、一連のネストループを使用してパフォーマンスを改善している。
これらの手法は、マイクロカーネルと呼ばれるハードウェア指向の高性能な小さなコードを通してアーキテクチャの最大計算能力を抽出する。
しかし、このアプローチによって開発者は、新しいハードウェアごとに専用のマイクロカーネルを作成せざるを得ない。
本稿では,組み込み関数やアセンブリ言語で記述された手作業によるマイクロカーネルに近い(あるいはそれ以上に)実行を行うexoコンパイラを用いて,マイクロカーネルを生成するステップバイステップの手順を提案する。
ハードウェアターゲットは簡潔なライブラリベースの命令記述によって完全に指定されるため、このソリューションは生成されたコードのポータビリティも改善します。 The optimization of the matrix multiplication (or GEMM) has been a need during the last decades. This operation is considered the flagship of current linear algebra libraries such as BLIS, OpenBLAS, or Intel OneAPI because of its widespread use in a large variety of scientific applications. The GEMM is usually implemented following the GotoBLAS philosophy, which tiles the GEMM operands and uses a series of nested loops for performance improvement. These approaches extract the maximum computational power of the architectures through small pieces of hardware-oriented, high-performance code called micro-kernel. However, this approach forces developers to generate, with a non-negligible effort, a dedicated micro-kernel for each new hardware. In this work, we present a step-by-step procedure for generating micro-kernels with the Exo compiler that performs close to (or even better than) manually developed microkernels written with intrinsic functions or assembly language. Our solution also improves the portability of the generated code, since a hardware target is fully specified by a concise library-based description of its instructions. | 翻訳日:2023-10-27 20:10:07 公開日:2023-10-26 |
# 大規模言語モデルにおける意味と理解 Meaning and understanding in large language models ( http://arxiv.org/abs/2310.17407v1 ) ライセンス: Link先を確認 | Vladim\'ir Havl\'ik | (参考訳) 機械は自然言語の意味を理解できますか。
人工知能の生成的大言語モデル(LLM)の最近の発展は、機械による言語理解に関する伝統的な哲学的仮定を改訂する必要があるという信念を導いた。
本稿は、機械言語性能を単なる構文操作であると考える一般的な傾向と、世界において十分な参照基盤を持たない部分的かつ極めて浅い理解のシミュレーションを批判的に評価する。
目的は、LLMが構文だけでなく意味論も用いていること、その理解がシミュレートされず複製されていること、言語表現の意味をどう基礎づけているか、といった、最先端のLLMに自然言語理解をもたらす上で不可欠な条件を強調することである。 Can a machine understand the meanings of natural language? Recent developments in the generative large language models (LLMs) of artificial intelligence have led to the belief that traditional philosophical assumptions about machine understanding of language need to be revised. This article critically evaluates the prevailing tendency to regard machine language performance as mere syntactic manipulation and the simulation of understanding, which is only partial and very shallow, without sufficient referential grounding in the world. The aim is to highlight the conditions crucial to attributing natural language understanding to state-of-the-art LLMs, where it can be legitimately argued that LLMs not only use syntax but also semantics, their understanding not being simulated but duplicated; and determine how they ground the meanings of linguistic expressions. | 翻訳日:2023-10-27 20:09:49 公開日:2023-10-26 |
# 定常拡散による因果モデリング Causal Modeling with Stationary Diffusions ( http://arxiv.org/abs/2310.17405v1 ) ライセンス: Link先を確認 | Lars Lorch, Andreas Krause, Bernhard Sch\"olkopf | (参考訳) 我々は因果推論に対する新しいアプローチを開発する。
因果グラフ上の構造方程式ではなく、定常密度が介入の下で系の振舞いをモデル化する確率微分方程式(SDE)を学ぶ。
これらの定常拡散モデルは、非巡回性の一般的な仮定は言うまでもなく、因果グラフの形式主義を必要としない。
いくつかのケースでは、変数に対する目に見えない介入を一般化し、しばしば古典的なアプローチよりも優れていることを示す。
提案手法は,再生核ヒルベルト空間における拡散生成器の定常条件を表現する新しい理論結果に基づいている。
固定性(KDS)からのカーネル逸脱は、独立した関心の客観的機能である。 We develop a novel approach towards causal inference. Rather than structural equations over a causal graph, we learn stochastic differential equations (SDEs) whose stationary densities model a system's behavior under interventions. These stationary diffusion models do not require the formalism of causal graphs, let alone the common assumption of acyclicity. We show that in several cases, they generalize to unseen interventions on their variables, often better than classical approaches. Our inference method is based on a new theoretical result that expresses a stationarity condition on the diffusion's generator in a reproducing kernel Hilbert space. The resulting kernel deviation from stationarity (KDS) is an objective function of independent interest. | 翻訳日:2023-10-27 20:09:34 公開日:2023-10-26 |
# ニューラルネットワークの不変性尺度 Invariance Measures for Neural Networks ( http://arxiv.org/abs/2310.17404v1 ) ライセンス: Link先を確認 | Facundo Manuel Quiroga and Jordina Torrents-Barrena and Laura Cristina Lanzarini and Domenec Puig-Valls | (参考訳) ニューラルネットワークの不変性は多くのタスクに有用で必要である。
しかし、ほとんどのニューラルネットワークモデルの不変性の表現は特徴付けられていない。
本稿では,ニューラルネットワークの内部表現の非分散を定量化する手法を提案する。
これらの測定は効率的で解釈可能であり、任意のニューラルネットワークモデルに適用できる。
それらはまた、以前に定義された測度よりも不変性に敏感である。
我々は,アフィン変換領域とCIFAR10およびMNISTデータセットの安定性と解釈可能性を含む測定とその特性を検証する。
この尺度を用いて, cnnモデルの最初の解析を行い, その内部不変性は, データセットや変換の変化ではなく, ランダムウェイト初期化に対して著しく安定であることを示した。
我々はこの尺度が不変表現における新しい研究の道を開くと信じている。 Invariances in neural networks are useful and necessary for many tasks. However, the representation of the invariance of most neural network models has not been characterized. We propose measures to quantify the invariance of neural networks in terms of their internal representation. The measures are efficient and interpretable, and can be applied to any neural network model. They are also more sensitive to invariance than previously defined measures. We validate the measures and their properties in the domain of affine transformations and the CIFAR10 and MNIST datasets, including their stability and interpretability. Using the measures, we perform a first analysis of CNN models and show that their internal invariance is remarkably stable to random weight initializations, but not to changes in dataset or transformation. We believe the measures will enable new avenues of research in invariance representation. | 翻訳日:2023-10-27 20:09:25 公開日:2023-10-26 |
# detection defenses: 光学的流れに対する敵対的パッチ攻撃に対する空の約束 Detection Defenses: An Empty Promise against Adversarial Patch Attacks on Optical Flow ( http://arxiv.org/abs/2310.17403v1 ) ライセンス: Link先を確認 | Erik Scheurer, Jenny Schmalfuss, Alexander Lis and Andr\'es Bruhn | (参考訳) 逆パッチは、任意のシーンに配置する際の光流予測の信頼性を損なう。
そのため、現実のモーション検出とその下流応用に現実的な脅威をもたらす。
潜在的な治療は、敵のパッチを検出して除去する防衛戦略であるが、その基盤となる動作予測への影響は研究されていない。
本稿では,現状の光学フロー法を幅広く選択するために,現在利用可能なippとlgsを徹底的に検討し,最終フロー予測の品質とロバスト性に対する副作用を照らし出す。
特に,現在の防衛が防衛機構を考慮した攻撃に耐えられるかどうかを調べるために,防衛対応攻撃を実施している。
検出と除去の防御は、良質なシーンにおける光学的フロー品質を低下させるだけでなく、FlowNetCを除く全てのテストされた光学的フロー手法に対するパッチアタックによる堅牢性も損なう。
現在採用されている検出・削除防御は、光学フローに対する敵意の強固さをもたらすことができないため、誤ったセキュリティ感覚を誘発する。
コードはhttps://github.com/cv-stuttgart/detectionprotectsで入手できる。 Adversarial patches undermine the reliability of optical flow predictions when placed in arbitrary scene locations. Therefore, they pose a realistic threat to real-world motion detection and its downstream applications. Potential remedies are defense strategies that detect and remove adversarial patches, but their influence on the underlying motion prediction has not been investigated. In this paper, we thoroughly examine the currently available detect-and-remove defenses ILP and LGS for a wide selection of state-of-the-art optical flow methods, and illuminate their side effects on the quality and robustness of the final flow predictions. In particular, we implement defense-aware attacks to investigate whether current defenses are able to withstand attacks that take the defense mechanism into account. Our experiments yield two surprising results: Detect-and-remove defenses do not only lower the optical flow quality on benign scenes, in doing so, they also harm the robustness under patch attacks for all tested optical flow methods except FlowNetC. As currently employed detect-and-remove defenses fail to deliver the promised adversarial robustness for optical flow, they evoke a false sense of security. The code is available at https://github.com/cv-stuttgart/DetectionDefenses. | 翻訳日:2023-10-27 20:09:13 公開日:2023-10-26 |
# 拡散確率モデルによる擬似分布外分布検出 Likelihood-based Out-of-Distribution Detection with Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2310.17432v1 ) ライセンス: Link先を確認 | Joseph Goodier, Neill D.F. Campbell | (参考訳) データセットペア間の分散検出は、生成モデルによって広範囲に研究されてきた。
確率に基づくアウトオブディストリビューション検出は、他の確率に基づく生成モデルと同様に、入力サンプルの複雑さによって劇的に影響を受けるという事実を利用して拡散モデルに拡張できることを示す。
現在、拡散モデルを用いた分布外検出手法はすべて再構成ベースである。
本稿では, 深部脱雑音拡散モデルを用いた分布外検出のための新しい確率比を提案し, 複素度補正等比と呼ぶ。
確率比は,様々なノイズレベルにおける個々のモデルからの低バウンド評価の証拠を用いて構成する。
本稿では,生成モデルを用いた最先端の分布外検出法に匹敵する結果を示す。 Out-of-Distribution detection between dataset pairs has been extensively explored with generative models. We show that likelihood-based Out-of-Distribution detection can be extended to diffusion models by leveraging the fact that they, like other likelihood-based generative models, are dramatically affected by the input sample complexity. Currently, all Out-of-Distribution detection methods with Diffusion Models are reconstruction-based. We propose a new likelihood ratio for Out-of-Distribution detection with Deep Denoising Diffusion Models, which we call the Complexity Corrected Likelihood Ratio. Our likelihood ratio is constructed using Evidence Lower-Bound evaluations from an individual model at various noising levels. We present results that are comparable to state-of-the-art Out-of-Distribution detection methods with generative models. | 翻訳日:2023-10-27 20:00:17 公開日:2023-10-26 |
# LSA64: アルゼンチンの手話データセット LSA64: An Argentinian Sign Language Dataset ( http://arxiv.org/abs/2310.17429v1 ) ライセンス: Link先を確認 | Franco Ronchetti, Facundo Manuel Quiroga, C\'esar Estrebou, Laura Lanzarini, Alejandro Rosete | (参考訳) 自動手話認識は、人間とコンピュータの相互作用、コンピュータビジョン、機械学習を含む研究分野である。
手話のロバストな自動認識は、聴覚障害者の翻訳過程と統合、および聴覚人口に対する手話の教えを支援することができる。
手話言語は国や地域によって大きく異なり、構文や意味も書かれた言語とは異なっている。
自動手話認識技術はほとんど異なる言語で同じであるが、新しい言語の認識システムを訓練するには、その言語のためのデータセット全体が必要である。
本稿では,アルゼンチン手話(LSA)から64の記号のデータセットを提示する。
LSA64と呼ばれるデータセットには、10人の被験者が記録した64種類のLAA記号の3200のビデオが含まれており、特に言語認識やその他の機械学習タスクに合わせた、アルゼンチンのサインの包括的な研究レベルのデータセットを構築するための第一歩である。
サインを実行した被験者は、手の動き追跡とセグメンテーションの手順を楽にするために、色のついた手袋を着用し、データセットの実験は、サインの認識に特に焦点を合わせることができた。
また,データセットの事前処理版を提示し,記号の動き,位置,手形に関する統計を計算した。 Automatic sign language recognition is a research area that encompasses human-computer interaction, computer vision and machine learning. Robust automatic recognition of sign language could assist in the translation process and the integration of hearing-impaired people, as well as the teaching of sign language to the hearing population. Sign languages differ significantly in different countries and even regions, and their syntax and semantics are different as well from those of written languages. While the techniques for automatic sign language recognition are mostly the same for different languages, training a recognition system for a new language requires having an entire dataset for that language. This paper presents a dataset of 64 signs from the Argentinian Sign Language (LSA). The dataset, called LSA64, contains 3200 videos of 64 different LSA signs recorded by 10 subjects, and is a first step towards building a comprehensive research-level dataset of Argentinian signs, specifically tailored to sign language recognition or other machine learning tasks. The subjects that performed the signs wore colored gloves to ease the hand tracking and segmentation steps, allowing experiments on the dataset to focus specifically on the recognition of signs. We also present a pre-processed version of the dataset, from which we computed statistics of movement, position and handshape of the signs. | 翻訳日:2023-10-27 20:00:04 公開日:2023-10-26 |
# 'fifty shades of bias'--gpt生成英語テキストにおける性バイアスの規範的評価 ''Fifty Shades of Bias'': Normative Ratings of Gender Bias in GPT Generated English Text ( http://arxiv.org/abs/2310.17428v1 ) ライセンス: Link先を確認 | Rishav Hada, Agrima Seth, Harshita Diddee, Kalika Bali | (参考訳) 言語は、社会的信念システムの顕在化のための強力なツールである。
そうすることで、社会における一般的なバイアスも持続するのです。
ジェンダーバイアスは我々の社会で最も広く普及しているバイアスの1つであり、オンラインとオフラインの会話で見られる。
LLMはテキスト生成において人間のように流布しやすくなっているため、これらのシステムが生み出すバイアスの微妙な理解を得ることが不可欠である。
以前の仕事は、しばしば男女の偏見を二項分類タスクとして扱う。
しかし, バイアスは相対的な尺度で認識されなければならないことを認め, 各種の度合いのバイアスに対する手動アノテータの生成と受容性について検討する。
具体的には、ジェンダーバイアスの規範的評価を伴うGPT生成英語テキストの最初のデータセットを作成する。
評価はBest-Worst Scaling -- 効率的な比較アノテーションフレームワークを使って得られた。
次に,観察されたランキングにおける性別バイアスの変動を体系的に分析し,アイデンティティ攻撃が性別バイアスと最も密接に関連していることを示す。
最後に、データセット上の関連する概念に基づいてトレーニングされた既存の自動モデルの性能を示す。 Language serves as a powerful tool for the manifestation of societal belief systems. In doing so, it also perpetuates the prevalent biases in our society. Gender bias is one of the most pervasive biases in our society and is seen in online and offline discourses. With LLMs increasingly gaining human-like fluency in text generation, gaining a nuanced understanding of the biases these systems can generate is imperative. Prior work often treats gender bias as a binary classification task. However, acknowledging that bias must be perceived at a relative scale; we investigate the generation and consequent receptivity of manual annotators to bias of varying degrees. Specifically, we create the first dataset of GPT-generated English text with normative ratings of gender bias. Ratings were obtained using Best--Worst Scaling -- an efficient comparative annotation framework. Next, we systematically analyze the variation of themes of gender biases in the observed ranking and show that identity-attack is most closely related to gender bias. Finally, we show the performance of existing automated models trained on related concepts on our dataset. | 翻訳日:2023-10-27 19:59:42 公開日:2023-10-26 |
# ProbSomを用いたアルゼンチン手話のハンドシェイプ認識 Handshape recognition for Argentinian Sign Language using ProbSom ( http://arxiv.org/abs/2310.17427v1 ) ライセンス: Link先を確認 | Franco Ronchetti, Facundo Manuel Quiroga, C\'esar Estrebou, and Laura Lanzarini | (参考訳) 自動手話認識は、人間とコンピュータの相互作用と機械学習の分野において重要なトピックである。
一方で、ビデオ処理、画像処理、インテリジェントシステム、言語学といった様々な知識領域の介入を必要とする複雑な課題を提起する。
一方、手話の頑健な認識は、翻訳過程や聴覚障害者の統合に寄与する可能性がある。
まず、アルゼンチン手話言語(lsa)のための手形データベースの作成について、これまでほとんど議論されていない話題である。
第2に,ProbSomと呼ばれる自己組織化マップの教師付き適応を用いた画像処理,記述子抽出,その後の手形分類手法を提案する。
このテクニックは、SVM(Support Vector Machines)、ランダムフォレスト(Random Forests)、ニューラルネットワーク(Neural Networks)など、最先端の他の技術と比較される。
構築されたデータベースには16のlsaハンドシェイプを持つ800枚の画像が含まれており、アルゼンチンの記号の包括的なデータベースを構築するための第一歩である。
ProbSomベースのニューラル分類器は提案した記述子を用いて90%以上の精度を達成した。 Automatic sign language recognition is an important topic within the areas of human-computer interaction and machine learning. On the one hand, it poses a complex challenge that requires the intervention of various knowledge areas, such as video processing, image processing, intelligent systems and linguistics. On the other hand, robust recognition of sign language could assist in the translation process and the integration of hearing-impaired people. This paper offers two main contributions: first, the creation of a database of handshapes for the Argentinian Sign Language (LSA), which is a topic that has barely been discussed so far. Secondly, a technique for image processing, descriptor extraction and subsequent handshape classification using a supervised adaptation of self-organizing maps that is called ProbSom. This technique is compared to others in the state of the art, such as Support Vector Machines (SVM), Random Forests, and Neural Networks. The database that was built contains 800 images with 16 LSA handshapes, and is a first step towards building a comprehensive database of Argentinian signs. The ProbSom-based neural classifier, using the proposed descriptor, achieved an accuracy rate above 90%. | 翻訳日:2023-10-27 19:59:24 公開日:2023-10-26 |
# 定常SWAP:マルチテナント量子コンピューティングにおける逆SWAP注入 Stealthy SWAPs: Adversarial SWAP Injection in Multi-Tenant Quantum Computing ( http://arxiv.org/abs/2310.17426v1 ) ライセンス: Link先を確認 | Suryansh Upadhyay and Swaroop Ghosh | (参考訳) 量子コンピューティング(QC)は、様々な領域にまたがる問題解決に革命をもたらす。
文献では、50以上の量子ビットは量子アドバンテージを達成するのに十分であると示唆されている(例えば、あるクラスの最適化問題を解く際にスーパーコンピュータを超える)。
既存のNoisy Intermediate-Scale Quantum(NISQ)コンピュータのハードウェアサイズは、長年にわたって増加してきた。
したがって、マルチテナントコンピューティング(MTC)は効率的なハードウェア利用のための潜在的なソリューションとして登場し、複数の量子プログラム間で共有リソースアクセスを可能にしている。
しかし、mtcは新たなセキュリティ上の懸念も持ち込むことができる。
本稿では,超伝導量子ハードウェアにおける MTC の脅威,すなわち MTC のコンパイル中の被害者プログラムにおける SWAP ゲートインジェクションを提案する。
最適な資源割り当てのために設計された代表スケジューラを提案する。
この攻撃モデルの効果を示すために,サンプルスケジューラを用いた詳細な事例研究を行った。
様々な深さと量子ビットを持つ回路の掘削実験は、これらの攻撃の衝撃に対する貴重な洞察を与える。
SWAPオーバーヘッドでは,最大55%,中央値25%の上昇が報告されている。
また,その対策として,異常なユーザ行動や優先度調整を検出する機械学習モデルを提案する。 Quantum computing (QC) holds tremendous promise in revolutionizing problem-solving across various domains. It has been suggested in literature that 50+ qubits are sufficient to achieve quantum advantage (i.e., to surpass supercomputers in solving certain class of optimization problems).The hardware size of existing Noisy Intermediate-Scale Quantum (NISQ) computers have been ever increasing over the years. Therefore, Multi-tenant computing (MTC) has emerged as a potential solution for efficient hardware utilization, enabling shared resource access among multiple quantum programs. However, MTC can also bring new security concerns. This paper proposes one such threat for MTC in superconducting quantum hardware i.e., adversarial SWAP gate injection in victims program during compilation for MTC. We present a representative scheduler designed for optimal resource allocation. To demonstrate the impact of this attack model, we conduct a detailed case study using a sample scheduler. Exhaustive experiments on circuits with varying depths and qubits offer valuable insights into the repercussions of these attacks. We report a max of approximately 55 percent and a median increase of approximately 25 percent in SWAP overhead. As a countermeasure, we also propose a sample machine learning model for detecting any abnormal user behavior and priority adjustment. | 翻訳日:2023-10-27 19:59:07 公開日:2023-10-26 |
# 古典的トフォリゲートのフル磁気的実装 Full-magnetic implementation of a classical Toffoli gate ( http://arxiv.org/abs/2310.17422v1 ) ライセンス: Link先を確認 | Davide Nuzzi, Leonardo Banchi, Ruggero Vaia, Enrico Compagno, Alessandro Cuccoli, Paola Verrucchi, Sougato Bose 4 | (参考訳) トッフォリゲート(英: toffoli gate)は、ランダウアーの原理によるエネルギー散逸を回避したエネルギー効率の良い古典的計算パラダイムである可逆計算の必須成分である。
本稿では,トッホリゲートに必要な3ビットのうちの1つを具現化した3つの古典スピンを用いて,トッホリゲートの磁気的実装を実現するための異なる構成を解析する。
この方式では、異なる制御スピン構成により、目標スピンを条件付き反転可能な有効場を生成する。
本研究では,局所制御の程度,スピンスピン相互作用を動的に切り替える能力,古典スピンを安定させるために必要な単一スピン異方性に着目し,従来の技術との互換性を示す。 The Toffoli gate is the essential ingredient for reversible computing, an energy efficient classical computational paradigm that evades the energy dissipation resulting from Landauer's principle. In this paper we analyze different setups to realize a magnetic implementation of the Toffoli gate using three interacting classical spins, each one embodying one of the three bits needed for the Toffoli gate. In our scheme, different control-spins configurations produce an effective field capable of conditionally flipping the target spin. We study what are the experimental requirements for the realization of our scheme, focusing on the degree of local control, the ability to dynamically switch the spin-spin interactions, and the required single-spin anisotropies to make the classical spin stable, showing that these are compatible with current technology. | 翻訳日:2023-10-27 19:58:47 公開日:2023-10-26 |
# 行動運動の分布(DAM) : 人間の行動認識のための記述法 Distribution of Action Movements (DAM): A Descriptor for Human Action Recognition ( http://arxiv.org/abs/2310.17421v1 ) ライセンス: Link先を確認 | Facundo Manuel Quiroga, Franco Ronchetti, Laura Lanzarini, Cesar Eestrebou | (参考訳) 骨格データからの人間の行動認識は、多くのよく知られたデータセットにおいて、その技術の状態がほぼ完全ではない重要かつ活発な研究領域である。
本稿では、データセット内の可能な全ての動きの集合に対して、フレーム間の関節の方向の分布に基づく新しいアクション記述子であるアクション動作記述子の分布を紹介する。
ディスクリプタは、関節の代表方向の集合上で正規化されたヒストグラムとして計算され、クラスタリングによって得られる。
ディスクリプタは動作の運動方向の全体分布を表すという意味ではグローバルであるが,ウィンドウ方式を適用することで時間的構造を部分的に保持することができる。
ディスクリプタは、標準の分類器とともに、多くのよく知られたデータセットで最先端の技術を上回る。 Human action recognition from skeletal data is an important and active area of research in which the state of the art has not yet achieved near-perfect accuracy on many well-known datasets. In this paper, we introduce the Distribution of Action Movements Descriptor, a novel action descriptor based on the distribution of the directions of the motions of the joints between frames, over the set of all possible motions in the dataset. The descriptor is computed as a normalized histogram over a set of representative directions of the joints, which are in turn obtained via clustering. While the descriptor is global in the sense that it represents the overall distribution of movement directions of an action, it is able to partially retain its temporal structure by applying a windowing scheme. The descriptor, together with a standard classifier, outperforms several state-of-the-art techniques on many well-known datasets. | 翻訳日:2023-10-27 19:58:32 公開日:2023-10-26 |
# アンチフェイクプロンプト:プロンプト付き視覚ランゲージモデルはフェイク画像検出器 AntifakePrompt: Prompt-Tuned Vision-Language Models are Fake Image Detectors ( http://arxiv.org/abs/2310.17419v1 ) ライセンス: Link先を確認 | You-Ming Chang, Chen Yeh, Wei-Chen Chiu, Ning Yu | (参考訳) 深層生成モデルは、深部フェイク脅威として知られる誤情報や著作権侵害に対する懸念を高めながら、驚くほど写実的な偽画像を作成することができる。
ディープフェイク検出技術は実画像と偽画像とを区別するために開発され、既存の手法では画像領域や様々な特徴領域の分類器を学習する。
しかし、より先進的な生成モデルに対するディープフェイク検出の一般化は依然として困難である。
本稿では,視覚言語モデル(VLM)のゼロショットの利点に着想を得て,VLM(InstructBLIP)を用いた新しい手法を提案する。
ディープフェイク検出を視覚的な質問応答問題として定式化し,質問画像のリアル/フェイク情報に対するインストラクションblipのソフトプロンプトをチューニングする。
3つのホールドインおよび13のホールドアウト生成モデルから得られたデータセットのフルスペクトル実験を行い、現代のテキスト画像生成、画像編集、画像攻撃をカバーした。
その結果,(1)事前学習した視覚言語モデルを用いて,(1)ディープフェイク検出精度を大幅に改善し(58.8%から91.31%)、(2)トレーニング可能なパラメータのコストを低減し,より効率的なディープフェイク検出ソリューションを実現することができた。
コードとモデルはhttps://github.com/nctu-eva-lab/AntifakePrompt.comにある。 Deep generative models can create remarkably photorealistic fake images while raising concerns about misinformation and copyright infringement, known as deepfake threats. Deepfake detection technique is developed to distinguish between real and fake images, where the existing methods typically learn classifiers in the image domain or various feature domains. However, the generalizability of deepfake detection against emerging and more advanced generative models remains challenging. In this paper, being inspired by the zero-shot advantages of Vision-Language Models (VLMs), we propose a novel approach using VLMs (e.g. InstructBLIP) and prompt tuning techniques to improve the deepfake detection accuracy over unseen data. We formulate deepfake detection as a visual question answering problem, and tune soft prompts for InstructBLIP to answer the real/fake information of a query image. We conduct full-spectrum experiments on datasets from 3 held-in and 13 held-out generative models, covering modern text-to-image generation, image editing and image attacks. Results demonstrate that (1) the deepfake detection accuracy can be significantly and consistently improved (from 58.8% to 91.31%, in average accuracy over unseen data) using pretrained vision-language models with prompt tuning; (2) our superior performance is at less cost of trainable parameters, resulting in an effective and efficient solution for deepfake detection. Code and models can be found at https://github.com/nctu-eva-lab/AntifakePrompt. | 翻訳日:2023-10-27 19:58:18 公開日:2023-10-26 |
# 点集合としての回路 Circuit as Set of Points ( http://arxiv.org/abs/2310.17418v1 ) ライセンス: Link先を確認 | Jialv Zou, Xinggang Wang, Jiahao Guo, Wenyu Liu, Qian Zhang, Chang Huang | (参考訳) 回路設計の規模が急速に拡大するにつれて、人工知能技術は回路設計を支援する電子設計自動化(eda)で広く使われている。
配置とルーティングは物理設計プロセスの最も時間を要する部分であり、配置を迅速に評価する方法がホットな研究テーマとなっている。
先行研究は、回路設計を手作りの手法で画像に変換し、その後畳み込みニューラルネットワーク(cnn)を使用して、手作りの方法の品質によって制限されエンドツーエンドのトレーニングを達成できない特徴を抽出するか、回路設計をグラフ構造として扱うか、グラフニューラルネットワーク(gnn)を使用して時間を要する特徴を抽出するかのどちらかであった。
本研究では,回路成分を点雲として処理し,トランスフォーマティブに基づく点雲知覚手法を用いて回路から特徴を抽出することで回路設計の新しい展望を提案する。
このアプローチは、プリプロセッシングなしで生データから直接の機能抽出を可能にし、エンドツーエンドのトレーニングを可能にし、高いパフォーマンスをもたらす。
実験の結果,本手法は回路網およびispd2015データセットの混雑予測タスクや,回路網データセットにおける設計規則チェック(drc)違反予測タスクにおいて,最先端の性能が得られることがわかった。
提案手法は,比較的成熟したポイントクラウド知覚手法と高速に開発されるedaアルゴリズムの橋渡しとなる。
オープンなEDA設計の研究を容易にするため、ソースコードと事前訓練されたモデルはhttps://github.com/hustvl/circuitformer.comでリリースされている。 As the size of circuit designs continues to grow rapidly, artificial intelligence technologies are being extensively used in Electronic Design Automation (EDA) to assist with circuit design. Placement and routing are the most time-consuming parts of the physical design process, and how to quickly evaluate the placement has become a hot research topic. Prior works either transformed circuit designs into images using hand-crafted methods and then used Convolutional Neural Networks (CNN) to extract features, which are limited by the quality of the hand-crafted methods and could not achieve end-to-end training, or treated the circuit design as a graph structure and used Graph Neural Networks (GNN) to extract features, which require time-consuming preprocessing. In our work, we propose a novel perspective for circuit design by treating circuit components as point clouds and using Transformer-based point cloud perception methods to extract features from the circuit. This approach enables direct feature extraction from raw data without any preprocessing, allows for end-to-end training, and results in high performance. Experimental results show that our method achieves state-of-the-art performance in congestion prediction tasks on both the CircuitNet and ISPD2015 datasets, as well as in design rule check (DRC) violation prediction tasks on the CircuitNet dataset. Our method establishes a bridge between the relatively mature point cloud perception methods and the fast-developing EDA algorithms, enabling us to leverage more collective intelligence to solve this task. To facilitate the research of open EDA design, source codes and pre-trained models are released at https://github.com/hustvl/circuitformer. | 翻訳日:2023-10-27 19:57:50 公開日:2023-10-26 |
# 目標が十分である:imfにおける未発見のマルチエージェントシステム間のアドホックな協力の誘導 Goals are Enough: Inducing AdHoc cooperation among unseen Multi-Agent systems in IMFs ( http://arxiv.org/abs/2310.17416v1 ) ライセンス: Link先を確認 | Kaushik Dey, Satheesh K. Perepu and Abir Das | (参考訳) インテントベースのマネジメントは、次世代モバイルネットワークにおける顧客の期待を達成する上で重要な役割を果たす。
従来の手法では、それぞれの期待を独立して処理する傾向があるため、効率的なリソース管理はできない。
例えば、マルチエージェント強化学習(MARL)に基づく既存のアプローチは、ネットワークスライスに矛盾する期待がある場合、効率的にリソースを割り当てる。
しかし実際には、システムはスタンドアローンのMARLの定式化によって対処されるほど複雑であることが多い。
インテントフルフィルメントの階層構造が存在し、複数の事前訓練された自己関心のエージェントは、監督者またはコントローラエージェントによってさらに編成される必要がある。
このようなエージェントはシステムアドホックに到達し、他の利用可能なエージェントと一緒にオーケストレーションする必要がある。
システム全体を毎回再トレーニングすることは、関連する時間とコストを考えると不可能であることが多い。
このような課題を考慮すれば、事前訓練されたシステムのアドホックな調整は、事前訓練されたrl/marlエージェントに動的契約(ゴールやボーナス)のセットを通じてインセンティブを与え、グローバルな期待を達成するための結束的なユニットとして行動するよう促すインテリジェントなスーパーバイザエージェントによって達成することができる。
ルールベースのスーパーバイザエージェントを使用して、ヒューマンコードされたルールに基づいて階層的構成エージェントを順次デプロイするアプローチもある。
本稿では,aiに基づく監視エージェントを利用して,事前学習したエージェントを並行して編成するフレームワークを提案する。
そこで本稿では,MARLエージェントに最適な目標を割り当て,所望の行動を示すためのインセンティブを与えるAdhoc-Teamingアプローチを提案する。
ネットワークエミュレータを用いた結果から,提案手法は,ルールベースアプローチと比較して期待値が速く,改善され,環境変化への一般化も期待できることがわかった。 Intent-based management will play a critical role in achieving customers' expectations in the next-generation mobile networks. Traditional methods cannot perform efficient resource management since they tend to handle each expectation independently. Existing approaches, e.g., based on multi-agent reinforcement learning (MARL) allocate resources in an efficient fashion when there are conflicting expectations on the network slice. However, in reality, systems are often far more complex to be addressed by a standalone MARL formulation. Often there exists a hierarchical structure of intent fulfilment where multiple pre-trained, self-interested agents may need to be further orchestrated by a supervisor or controller agent. Such agents may arrive in the system adhoc, which then needs to be orchestrated along with other available agents. Retraining the whole system every time is often infeasible given the associated time and cost. Given the challenges, such adhoc coordination of pre-trained systems could be achieved through an intelligent supervisor agent which incentivizes pre-trained RL/MARL agents through sets of dynamic contracts (goals or bonuses) and encourages them to act as a cohesive unit towards fulfilling a global expectation. Some approaches use a rule-based supervisor agent and deploy the hierarchical constituent agents sequentially, based on human-coded rules. In the current work, we propose a framework whereby pre-trained agents can be orchestrated in parallel leveraging an AI-based supervisor agent. For this, we propose to use Adhoc-Teaming approaches which assign optimal goals to the MARL agents and incentivize them to exhibit certain desired behaviours. Results on the network emulator show that the proposed approach results in faster and improved fulfilment of expectations when compared to rule-based approaches and even generalizes to changes in environments. | 翻訳日:2023-10-27 19:57:15 公開日:2023-10-26 |
# 処理効果推定のためのベイズ神経制御微分方程式 Bayesian Neural Controlled Differential Equations for Treatment Effect Estimation ( http://arxiv.org/abs/2310.17463v1 ) ライセンス: Link先を確認 | Konstantin Hess, Valentyn Melnychuk, Dennis Frauen, Stefan Feuerriegel | (参考訳) パーソナライズされた医療には, 連続的な治療効果の推定が不可欠である。
しかし、既存の手法は潜在的な結果の点推定に限られているが、不確実性評価は無視されている。
言うまでもなく、不確実性定量化は医学的応用において信頼できる意思決定に不可欠である。
このギャップを埋めるために, 連続時間における治療効果推定のための新しいベイズ神経制御微分方程式(bncde)を提案する。
我々のbncdeでは、時間次元は、神経制御微分方程式と神経確率微分方程式の結合系を通してモデル化され、そこでは、神経確率微分方程式は、移動可能な変分ベイズ推論を可能にする。
そこでBNCDEは, 与えられた治療の順序に対して, 潜在的な結果の有意な後続の予測分布を提供する。
私たちの知る限りでは、当社は治療効果の連続時間における不確実性評価を提供する、最初のカスタマイズされたニューラルメソッドです。
したがって, 医療における意思決定の信頼性を高める上で, 本手法は直接的な実用的価値を有する。 Treatment effect estimation in continuous time is crucial for personalized medicine. However, existing methods for this task are limited to point estimates of the potential outcomes, whereas uncertainty estimates have been ignored. Needless to say, uncertainty quantification is crucial for reliable decision-making in medical applications. To fill this gap, we propose a novel Bayesian neural controlled differential equation (BNCDE) for treatment effect estimation in continuous time. In our BNCDE, the time dimension is modeled through a coupled system of neural controlled differential equations and neural stochastic differential equations, where the neural stochastic differential equations allow for tractable variational Bayesian inference. Thereby, for an assigned sequence of treatments, our BNCDE provides meaningful posterior predictive distributions of the potential outcomes. To the best of our knowledge, ours is the first tailored neural method to provide uncertainty estimates of treatment effects in continuous time. As such, our method is of direct practical value for promoting reliable decision-making in medicine. | 翻訳日:2023-10-27 19:50:43 公開日:2023-10-26 |
# 運動の法則を用いた2次元ラベルからの単眼3次元物体定位学習に向けて Towards Learning Monocular 3D Object Localization From 2D Labels using the Physical Laws of Motion ( http://arxiv.org/abs/2310.17462v1 ) ライセンス: Link先を確認 | Daniel Kienzle, Julian Lorenz, Katja Ludwig, Rainer Lienhart | (参考訳) 本論文では,2dラベルのみを用いた単一キャリブレーションカメラからの単一画像における高精度3次元物体定位法を提案する。
高価な3Dラベルは必要ない。
したがって、3Dラベルの代わりに、物体の動きの物理的知識とともに、容易に注釈付けできる2Dラベルで訓練する。
この情報から、モデルはトレーニング中にこの情報を見たことがなくても、潜在する3次元を推測することができる。
提案手法は, 合成データと実世界データの両方で評価され, 実データに対する実験において, 平均距離誤差を6cmに抑えることができる。
以上の結果から,3次元データ収集が不可能である3次元物体位置推定学習へのステップとしての手法の可能性が示唆された。 We present a novel method for precise 3D object localization in single images from a single calibrated camera using only 2D labels. No expensive 3D labels are needed. Thus, instead of using 3D labels, our model is trained with easy-to-annotate 2D labels along with the physical knowledge of the object's motion. Given this information, the model can infer the latent third dimension, even though it has never seen this information during training. Our method is evaluated on both synthetic and real-world datasets, and we are able to achieve a mean distance error of just 6 cm in our experiments on real data. The results indicate the method's potential as a step towards learning 3D object location estimation, where collecting 3D data for training is not feasible. | 翻訳日:2023-10-27 19:50:27 公開日:2023-10-26 |
# 強化学習による連立交渉:協調車両ルーティングへの応用 Coalitional Bargaining via Reinforcement Learning: An Application to Collaborative Vehicle Routing ( http://arxiv.org/abs/2310.17458v1 ) ライセンス: Link先を確認 | Stephen Mak, Liming Xu, Tim Pearce, Michael Ostroumov, Alexandra Brintrup | (参考訳) コラボレーティブ・ビークル・ルーティング(Collaborative Vehicle Routing)とは、デリバリ情報を共有し、互いに代理してデリバリ要求を実行することで、デリバリ企業が協力する場所である。
これにより経済規模が拡大し、コスト、温室効果ガス排出量、道路渋滞が削減される。
しかし、どの会社が誰とパートナーし、それぞれの会社がいくらを支払うべきか?
シャプリー値(英語版)やヌクレオルス(英語版)のような伝統的なゲーム理論解の概念は、エージェント数と指数関数的にスケーリングする特性関数のため、協調車両ルーティングの現実的な問題を計算するのが困難である。
これは車両ルーティング問題(NP-Hard問題)を指数的な回数で解く必要がある。
そこで我々は,エージェントが特性関数にアクセスできないような連立交渉ゲームとして,この問題をモデル化することを提案する。
代わりに、私たちはその特性関数を暗黙的に推論し、それによってVRPを指数的な回数で評価する必要がなくなる。
私たちの貢献は、分散アプローチがスケーラブルであり、企業の利己的な性質を考慮することです。
エージェントは、修正された独立政策最適化を使用して学習する。
我々のRLエージェントは強いヒューリスティックなボットより優れています。
エージェントは、平均最適度差が4.2%、実行時間が62%の場合に、最適連立を79%正確に識別する。 Collaborative Vehicle Routing is where delivery companies cooperate by sharing their delivery information and performing delivery requests on behalf of each other. This achieves economies of scale and thus reduces cost, greenhouse gas emissions, and road congestion. But which company should partner with whom, and how much should each company be compensated? Traditional game theoretic solution concepts, such as the Shapley value or nucleolus, are difficult to calculate for the real-world problem of Collaborative Vehicle Routing due to the characteristic function scaling exponentially with the number of agents. This would require solving the Vehicle Routing Problem (an NP-Hard problem) an exponential number of times. We therefore propose to model this problem as a coalitional bargaining game where - crucially - agents are not given access to the characteristic function. Instead, we implicitly reason about the characteristic function, and thus eliminate the need to evaluate the VRP an exponential number of times - we only need to evaluate it once. Our contribution is that our decentralised approach is both scalable and considers the self-interested nature of companies. The agents learn using a modified Independent Proximal Policy Optimisation. Our RL agents outperform a strong heuristic bot. The agents correctly identify the optimal coalitions 79% of the time with an average optimality gap of 4.2% and reduction in run-time of 62%. | 翻訳日:2023-10-27 19:50:16 公開日:2023-10-26 |
# OTMatch: 最適輸送による半教師付き学習の改善 OTMatch: Improving Semi-Supervised Learning with Optimal Transport ( http://arxiv.org/abs/2310.17455v1 ) ライセンス: Link先を確認 | Zhiquan Tan, Kaipeng Zheng, Weiran Huang | (参考訳) 半教師付き学習は、ラベルなしデータに存在する豊富な情報に乗じながら、限られた量のラベル付きデータを効果的に活用することで驚くべき進歩を遂げている。
しかし、現在のアルゴリズムは、自己学習技術によって生成された特定のクラスとの整合性画像予測を優先し、これらのクラスに存在する固有の関係を無視することが多い。
本稿では,最適な輸送損失関数を用いてクラス間の意味関係を利用するotmatchと呼ばれる新しいアプローチを提案する。
最適輸送を利用することにより,提案手法は確立された最先端手法よりも一貫して優れる。
特に,現在の最先端手法であるFreeMatchと比較して,一定の精度向上が見られた。
OTMatchは、CIFAR-10のFreeMatchよりも3.18%、3.46%、1.28%のエラー率でクラスごとに1つのラベルを持つSTL-10、クラスごとに100のラベルを持つImageNetを実現している。
これは,半教師付き環境での学習性能を高めるために意味関係を利用する手法の有効性と優位性を示す。 Semi-supervised learning has made remarkable strides by effectively utilizing a limited amount of labeled data while capitalizing on the abundant information present in unlabeled data. However, current algorithms often prioritize aligning image predictions with specific classes generated through self-training techniques, thereby neglecting the inherent relationships that exist within these classes. In this paper, we present a new approach called OTMatch, which leverages semantic relationships among classes by employing an optimal transport loss function. By utilizing optimal transport, our proposed method consistently outperforms established state-of-the-art methods. Notably, we observed a substantial improvement of a certain percentage in accuracy compared to the current state-of-the-art method, FreeMatch. OTMatch achieves 3.18%, 3.46%, and 1.28% error rate reduction over FreeMatch on CIFAR-10 with 1 label per class, STL-10 with 4 labels per class, and ImageNet with 100 labels per class, respectively. This demonstrates the effectiveness and superiority of our approach in harnessing semantic relationships to enhance learning performance in a semi-supervised setting. | 翻訳日:2023-10-27 19:49:52 公開日:2023-10-26 |
# 理解による生成:論理記号の接地による神経視覚生成 Generating by Understanding: Neural Visual Generation with Logical Symbol Groundings ( http://arxiv.org/abs/2310.17451v1 ) ライセンス: Link先を確認 | Yifei Peng, Yu Jin, Zhexu Luo, Yao-Xiang Ding, Wang-Zhou Dai, Zhong Ren, Kun Zhou | (参考訳) 近年の神経視覚生成モデルの成功にもかかわらず、強力な記号的知識推論システムとそれらを統合することは難しい課題である。
主な課題は2つある:1つはシンボル割り当て、すなわち知識推論システムからの有意義なシンボルと神経視覚生成器の潜在因子を結合することである。
もうひとつのルール学習は、知識推論システムを強化するために、データの生成プロセスを管理する新しいルールを学習することである。
このようなシンボル基底問題に対処するため,帰納的学習フレームワークに基づく論理プログラミングシステムとニューラルビジュアル生成モデルを統合するための,ニューラルネットワークのシンボル的学習手法であるAbdGenを提案する。
信頼性と効率的なシンボル代入を実現するため、セマンティックコードブック内の最も近い隣り合うルックアップによる減算提案を生成する量子化減算法を導入した。
厳密な規則学習を実現するために,正の場合の誤った規則を排除し,負の場合の少ない規則を同時に回避するために,対照的なメタアブダクション法を提案する。
さまざまなベンチマークデータセットの実験結果から、AbdGenはベースラインと比較してシンボル代入のインスタンスレベルのラベリング情報を著しく少なくすることが示された。
さらに,本手法は既存の手法では不可能なデータから論理生成規則を効果的に学習することができる。 Despite the great success of neural visual generative models in recent years, integrating them with strong symbolic knowledge reasoning systems remains a challenging task. The main challenges are two-fold: one is symbol assignment, i.e. bonding latent factors of neural visual generators with meaningful symbols from knowledge reasoning systems. Another is rule learning, i.e. learning new rules, which govern the generative process of the data, to augment the knowledge reasoning systems. To deal with these symbol grounding problems, we propose a neural-symbolic learning approach, Abductive Visual Generation (AbdGen), for integrating logic programming systems with neural visual generative models based on the abductive learning framework. To achieve reliable and efficient symbol assignment, the quantized abduction method is introduced for generating abduction proposals by the nearest-neighbor lookups within semantic codebooks. To achieve precise rule learning, the contrastive meta-abduction method is proposed to eliminate wrong rules with positive cases and avoid less-informative rules with negative cases simultaneously. Experimental results on various benchmark datasets show that compared to the baselines, AbdGen requires significantly fewer instance-level labeling information for symbol assignment. Furthermore, our approach can effectively learn underlying logical generative rules from data, which is out of the capability of existing approaches. | 翻訳日:2023-10-27 19:49:33 公開日:2023-10-26 |
# 低リソースasrのための方言適応とデータ拡張: taltech systems for the madasr 2023 challenge Dialect Adaptation and Data Augmentation for Low-Resource ASR: TalTech Systems for the MADASR 2023 Challenge ( http://arxiv.org/abs/2310.17448v1 ) ライセンス: Link先を確認 | Tanel Alum\"ae, Jiaming Kong, Daniil Robnikov | (参考訳) 本稿では,ASRU MADASR 2023 Challengeのために開発されたタリン工科大学(TalTech)システムについて述べる。
この課題は、限られた訓練音声とテキストデータを持つ方言豊富なインドの言語の自動音声認識に焦点を当てている。
taltechは、提供されるトレーニングデータのみを使用するトラック1と、追加のオーディオデータを使用するトラック3の2つのトラックに参加した。
どちらのトラックもwav2vec2.0モデルに依存していました。
提案手法は,事前学習したwav2vec2.0モデルを微調整する従来の手法から,トレーニングデータの言語的多様性を高めるためのアライメントデータ拡張手法の実装と,wav2vec2.0モデルの方言適応のためのディーププレフィックスチューニングの適用の2つの重要な点に分岐する。
どちらのトラックでも、私たちのアプローチは提供されたベースラインを大きく改善し、参加チーム全体で最も低い単語エラー率を達成しました。 This paper describes Tallinn University of Technology (TalTech) systems developed for the ASRU MADASR 2023 Challenge. The challenge focuses on automatic speech recognition of dialect-rich Indian languages with limited training audio and text data. TalTech participated in two tracks of the challenge: Track 1 that allowed using only the provided training data and Track 3 which allowed using additional audio data. In both tracks, we relied on wav2vec2.0 models. Our methodology diverges from the traditional procedure of finetuning pretrained wav2vec2.0 models in two key points: firstly, through the implementation of the aligned data augmentation technique to enhance the linguistic diversity of the training data, and secondly, via the application of deep prefix tuning for dialect adaptation of wav2vec2.0 models. In both tracks, our approach yielded significant improvements over the provided baselines, achieving the lowest word error rates across all participating teams. | 翻訳日:2023-10-27 19:49:08 公開日:2023-10-26 |
# ファイバーチャネルと自由空間チャネル間のアクティブスイッチングを用いたモード間量子鍵分布実験 Intermodal quantum key distribution field trial with active switching between fiber and free-space channels ( http://arxiv.org/abs/2310.17441v1 ) ライセンス: Link先を確認 | Francesco Picciariello, Ilektra Karakosta-Amarantidou, Edoardo Rossi, Marco Avesani, Giulio Foletto, Luca Calderaro, Giuseppe Vallone, Paolo Villoresi, and Francesco Vedovato | (参考訳) インターモーダル量子鍵分布は、グローバル量子ネットワークの発展に必要な要素であるファイバーネットワークと自由空間チャネルの統合を可能にする。
本研究では,2つの分極型送信機と1つの受信機からなり,パドヴァ大都市圏の620mの空き空間リンクと17kmの展開繊維とを交互に切り替えた,モード間量子鍵分布系のフィールドトライアルについて述べる。
自由空間チャネルの性能は大気乱流強度に対して評価される。
フィールドトライアルは、光の条件下で数時間続き、繊維と自由空間のチャンネル間のインターモーダル機能を実証した。
我々のスイッチングシステムは、信頼できる量子鍵分布ネットワークのためのコスト効率の良いソリューションであり、異なるネットワークトポロジで必要なデバイスの数を減らす。 Intermodal quantum key distribution enables the integration of fiber networks and free-space channels, which are both necessary elements for the development of a global quantum network. We present a field trial of an intermodal quantum key distribution system - comprised of two polarization-based transmitters and a single receiver - in which the active channel is alternately switched between a free-space link of 620 m and a 17km-long deployed fiber in the metropolitan area of Padova. The performance of the free-space channel is evaluated against the atmospheric turbulence strength. The field trial lasted for several hours in daylight conditions, attesting the intermodal functionality between fiber and free-space channels. Our switching system represents a cost-effective solution for a trusted quantum key distribution network, reducing the number of necessary devices in different network topologies. | 翻訳日:2023-10-27 19:48:50 公開日:2023-10-26 |
# 量子コンピューティングを用いたハッシュおよび暗号化エンジンの設計 Designing Hash and Encryption Engines using Quantum Computing ( http://arxiv.org/abs/2310.17439v1 ) ライセンス: Link先を確認 | Suryansh Upadhyay, Rupshali Roy, Swaroop Ghosh | (参考訳) 量子コンピューティング(qc)は、重ね合わせや絡み合いといった量子現象を利用して問題解決に革命を起こすことを約束している。
機械学習やセキュリティ、創薬や最適化など、さまざまなドメインにまたがる指数関数的なスピードアップを提供する。
並行して、量子暗号化と鍵分布は、暗号技術を強化するために量子エンジンを活用して、かなりの関心を集めている。
古典暗号は量子コンピューティングから差し迫った脅威に直面しており、Shorsアルゴリズムの能力によって確立された暗号化スキームを破るために例示されている。
しかし、重ね合わせと絡み合いに乗じて量子回路とアルゴリズムは、セキュリティを強化する革新的な方法を提供している。
本稿では,量子ベースのハッシュ関数と暗号化によるデータセキュリティの強化について検討する。
量子ハッシュ関数と暗号化は、パスワードストレージ、デジタルシグネチャ、暗号化、アンチタンパリングなど、多くの潜在的なアプリケーションケースを持つことができる。
量子コンピューティングと古典的手法の統合は、量子コンピューティングの時代におけるデータ保護の可能性を示している。 Quantum computing (QC) holds the promise of revolutionizing problem-solving by exploiting quantum phenomena like superposition and entanglement. It offers exponential speed-ups across various domains, from machine learning and security to drug discovery and optimization. In parallel, quantum encryption and key distribution have garnered substantial interest, leveraging quantum engines to enhance cryptographic techniques. Classical cryptography faces imminent threats from quantum computing, exemplified by Shors algorithms capacity to breach established encryption schemes. However, quantum circuits and algorithms, capitalizing on superposition and entanglement, offer innovative avenues for enhancing security. In this paper we explore quantum-based hash functions and encryption to fortify data security. Quantum hash functions and encryption can have numerous potential application cases, such as password storage, digital signatures, cryptography, anti-tampering etc. The integration of quantum and classical methods demonstrates potential in securing data in the era of quantum computing. | 翻訳日:2023-10-27 19:48:34 公開日:2023-10-26 |
# フレームシーケンス制約のない手話認識:アルゼンチン手話における概念実証 Sign Languague Recognition without frame-sequencing constraints: A proof of concept on the Argentinian Sign Language ( http://arxiv.org/abs/2310.17437v1 ) ライセンス: Link先を確認 | Franco Ronchetti, Facundo Manuel Quiroga, C\'esar Estrebou, Laura Lanzarini, Alejandro Rosete | (参考訳) 自動手話認識(SLR)は、人間とコンピュータのインタラクションと機械学習の分野において重要なトピックである。
一方で、ビデオ処理、画像処理、インテリジェントシステム、言語学といった様々な知識領域の介入を必要とする複雑な課題を提起する。
一方、手話の頑健な認識は、聴覚障害者の翻訳過程や統合、および聴力者のための手話教育を支援することができる。
SLRシステムは通常、標識を認識するために隠れマルコフモデル、ダイナミック・タイム・ウォーピングまたは類似のモデルを使用する。
このような手法は、仮説の数を減らすためにフレームの順序付けを利用する。
本稿では,位置,移動,手形など,様々な特徴に基づいてサブ分類器を結合した手形分類の一般化確率モデルを提案する。
このモデルは、全ての分類段階において、順序付けが認識に必須ではないという仮説を探求するために、単語の袋のアプローチを採用している。
提案モデルは,64種類の手話と3200のサンプルを含むアルゼンチンの手話データセットにおいて97%の精度を達成し,順序付けのない認識が可能であることを示す。 Automatic sign language recognition (SLR) is an important topic within the areas of human-computer interaction and machine learning. On the one hand, it poses a complex challenge that requires the intervention of various knowledge areas, such as video processing, image processing, intelligent systems and linguistics. On the other hand, robust recognition of sign language could assist in the translation process and the integration of hearing-impaired people, as well as the teaching of sign language for the hearing population. SLR systems usually employ Hidden Markov Models, Dynamic Time Warping or similar models to recognize signs. Such techniques exploit the sequential ordering of frames to reduce the number of hypothesis. This paper presents a general probabilistic model for sign classification that combines sub-classifiers based on different types of features such as position, movement and handshape. The model employs a bag-of-words approach in all classification steps, to explore the hypothesis that ordering is not essential for recognition. The proposed model achieved an accuracy rate of 97% on an Argentinian Sign Language dataset containing 64 classes of signs and 3200 samples, providing some evidence that indeed recognition without ordering is possible. | 翻訳日:2023-10-27 19:48:20 公開日:2023-10-26 |
# 不確実性重み付き損失関数による意味セグメンテーションに対する敵意攻撃の改善 Uncertainty-weighted Loss Functions for Improved Adversarial Attacks on Semantic Segmentation ( http://arxiv.org/abs/2310.17436v1 ) ライセンス: Link先を確認 | Kira Maag and Asja Fischer | (参考訳) 最先端のディープニューラルネットワークは、セマンティックセグメンテーションのようなさまざまな知覚タスクにおいて非常に強力であることが示されている。
しかし、これらのネットワークは、人間には認識できないが誤った予測につながる入力の逆の摂動に弱い。
画像分割を画素単位の分類の和として扱うことで,分類モデル用に開発された逆攻撃をセグメンテーションモデルにも適用できることを示した。
本研究では,そのような攻撃の損失関数に対する単純な不確実性に基づく重み付けスキームを提案する。
(i)より摂動しやすい画素分類に重みを置くこと
(ii)既に自信を持って誤分類されている画素に対応する画素単位の損失をゼロにする。
重み付けスキームは、計算オーバーヘッドを最小に抑えながら、広く知られた敵の攻撃者の損失関数に容易に統合できるが、いくつかのデータセットとモデルに関する経験的分析で示されるように、摂動性能が大幅に向上する。 State-of-the-art deep neural networks have been shown to be extremely powerful in a variety of perceptual tasks like semantic segmentation. However, these networks are vulnerable to adversarial perturbations of the input which are imperceptible for humans but lead to incorrect predictions. Treating image segmentation as a sum of pixel-wise classifications, adversarial attacks developed for classification models were shown to be applicable to segmentation models as well. In this work, we present simple uncertainty-based weighting schemes for the loss functions of such attacks that (i) put higher weights on pixel classifications which can more easily perturbed and (ii) zero-out the pixel-wise losses corresponding to those pixels that are already confidently misclassified. The weighting schemes can be easily integrated into the loss function of a range of well-known adversarial attackers with minimal additional computational overhead, but lead to significant improved perturbation performance, as we demonstrate in our empirical analysis on several datasets and models. | 翻訳日:2023-10-27 19:48:01 公開日:2023-10-26 |
# blizzard challenge 2023のためのims toucanシステム The IMS Toucan System for the Blizzard Challenge 2023 ( http://arxiv.org/abs/2310.17499v1 ) ライセンス: Link先を確認 | Florian Lux, Julia Koch, Sarina Meyer, Thomas Bott, Nadja Schauffler, Pavel Denisov, Antje Schweitzer, Ngoc Thang Vu | (参考訳) Blizzard Challenge 2023への貢献のため、Blizzard Challenge 2021に提出したシステムを改善しました。
提案手法は,フランス語におけるホモグラフの規則に基づく曖昧さを含む,規則に基づく音素間テキスト処理システムである。
次に、コンフォーマーとグローに基づく高速で効率的な非自己回帰合成アーキテクチャを用いて、音素を中間表現としてスペクトルに変換する。
最新の最先端アプローチを組み合わせたGANベースのニューラルボコーダは、スペクトログラムを最終波に変換する。
我々は,課題データに対するデータ処理,トレーニング,推論手順を慎重に設計した。
我々のシステム識別子はGです。オープンソースコードとデモが利用可能です。 For our contribution to the Blizzard Challenge 2023, we improved on the system we submitted to the Blizzard Challenge 2021. Our approach entails a rule-based text-to-phoneme processing system that includes rule-based disambiguation of homographs in the French language. It then transforms the phonemes to spectrograms as intermediate representations using a fast and efficient non-autoregressive synthesis architecture based on Conformer and Glow. A GAN based neural vocoder that combines recent state-of-the-art approaches converts the spectrogram to the final wave. We carefully designed the data processing, training, and inference procedures for the challenge data. Our system identifier is G. Open source code and demo are available. | 翻訳日:2023-10-27 19:38:39 公開日:2023-10-26 |
# 評価過程におけるバイアス:最適化に基づくモデル Bias in Evaluation Processes: An Optimization-Based Model ( http://arxiv.org/abs/2310.17489v1 ) ライセンス: Link先を確認 | L. Elisa Celis and Amit Kumar and Anay Mehrotra and Nisheeth K. Vishnoi | (参考訳) 個人の社会的特性に対するバイアスは、入場や雇用などの設定で使われる評価プロセスでよく記録されている。
本研究では、そのような評価プロセスを、タスクの真のユーティリティの分布から観察された分布への変換として捉え、情報制約を受ける損失最小化問題の解としてモデル化する。
本モデルでは,情報制約のリソース情報トレードオフパラメータと損失関数のリスク・逆性パラメータの2つのパラメータをバイアス要因として同定した。
モデルから生じる分布を特徴付け,観測した分布に対するパラメータの影響について検討する。
本モデルの出力は, 観測された評価における群間の変動を捉えるために用いられる分布のクラスを豊かにする。
実世界のデータセットを組み込むことでモデルを実証的に検証し、下流選択タスクにおける介入の効果を研究する。
これらの結果は、評価プロセスにおけるバイアスの発生の理解に寄与し、バイアスを軽減するために介入の展開を導くツールを提供する。 Biases with respect to socially-salient attributes of individuals have been well documented in evaluation processes used in settings such as admissions and hiring. We view such an evaluation process as a transformation of a distribution of the true utility of an individual for a task to an observed distribution and model it as a solution to a loss minimization problem subject to an information constraint. Our model has two parameters that have been identified as factors leading to biases: the resource-information trade-off parameter in the information constraint and the risk-averseness parameter in the loss function. We characterize the distributions that arise from our model and study the effect of the parameters on the observed distribution. The outputs of our model enrich the class of distributions that can be used to capture variation across groups in the observed evaluations. We empirically validate our model by fitting real-world datasets and use it to study the effect of interventions in a downstream selection task. These results contribute to an understanding of the emergence of bias in evaluation processes and provide tools to guide the deployment of interventions to mitigate biases. | 翻訳日:2023-10-27 19:38:31 公開日:2023-10-26 |
# lightlm: 生成レコメンデーションのための軽量で深層で狭い言語モデル LightLM: A Lightweight Deep and Narrow Language Model for Generative Recommendation ( http://arxiv.org/abs/2310.17488v1 ) ライセンス: Link先を確認 | Kai Mei, Yongfeng Zhang | (参考訳) 本稿では, 生成レコメンデーションのための軽量トランスフォーマーベース言語モデルLightLMを提案する。
トランスフォーマティブベースの生成モデリングは、nlpやvisionといったさまざまなaiサブフィールドで重要になっているが、パーソナライズされた生成モデリングに対するユニークな需要のために、生成推奨はまだ初期段階にある。
ジェネレーティブレコメンデーションに関する既存の研究では、T5、GPT、LLaMA、M6といったNLP指向のトランスフォーマーアーキテクチャが使われており、これは重く、特にレコメンデーションタスクのために設計されていない。
LightLMは、特にレコメンデーションアイテムの直接生成に適した軽量で細いトランスフォーマーアーキテクチャを導入することで、この問題に対処している。
この構造は、特に直接的な生成的推奨に適しており、入力は主にモデルのキャパシティによく適合する短いトークンで構成されているため、言語モデルがこのタスクに大きすぎる必要はないという観察から生まれたものである。
また,SCI(Spectral Collaborative Indexing)とグラフコラボレーションインデックス(Graph Collaborative Indexing,GCI)という,考案したユーザIDとアイテムIDのインデックス化手法によって,大規模言語モデルよりも高い精度で,より深く狭いトランスフォーマーアーキテクチャを実現することも示す。
また,アイテムを出力として生成する幻覚問題に対処するため,生成推薦者に対して制約付き生成プロセスを提案する。
実世界のデータセットでの実験では、LightLMは推奨精度と効率の両方において、様々な競争ベースラインを上回っている。
コードはhttps://github.com/dongyuanjushi/LightLMにある。 This paper presents LightLM, a lightweight Transformer-based language model for generative recommendation. While Transformer-based generative modeling has gained importance in various AI sub-fields such as NLP and vision, generative recommendation is still in its infancy due to its unique demand on personalized generative modeling. Existing works on generative recommendation often use NLP-oriented Transformer architectures such as T5, GPT, LLaMA and M6, which are heavy-weight and are not specifically designed for recommendation tasks. LightLM tackles the issue by introducing a light-weight deep and narrow Transformer architecture, which is specifically tailored for direct generation of recommendation items. This structure is especially apt for straightforward generative recommendation and stems from the observation that language model does not have to be too wide for this task, as the input predominantly consists of short tokens that are well-suited for the model's capacity. We also show that our devised user and item ID indexing methods, i.e., Spectral Collaborative Indexing (SCI) and Graph Collaborative Indexing (GCI), enables the deep and narrow Transformer architecture to outperform large-scale language models for recommendation. Besides, to address the hallucination problem of generating items as output, we propose the constrained generation process for generative recommenders. Experiments on real-world datasets show that LightLM outperforms various competitive baselines in terms of both recommendation accuracy and efficiency. The code can be found at https://github.com/dongyuanjushi/LightLM. | 翻訳日:2023-10-27 19:38:17 公開日:2023-10-26 |
# fair collaborative vehicle routing: 深層マルチエージェント強化学習アプローチ Fair collaborative vehicle routing: A deep multi-agent reinforcement learning approach ( http://arxiv.org/abs/2310.17485v1 ) ライセンス: Link先を確認 | Stephen Mak, Liming Xu, Tim Pearce, Michael Ostroumov, Alexandra Brintrup | (参考訳) 協力的な車両ルーティングは、キャリアが輸送要求を共有し、互いに代表して輸送要求を実行することで協力するときに発生する。
これによりスケールの経済が達成され、コスト、温室効果ガス、道路渋滞が削減される。
しかし、どのキャリアが誰とパートナーし、各キャリアはいくらを支払うべきか?
従来のゲーム理論解の概念は、特性関数がエージェントの数とともに指数関数的にスケールするので、計算に費用がかかる。
これは車両ルーティング問題 (NP-hard) を指数的な回数で解く必要がある。
そこで我々は,この問題を,深層多エージェント強化学習を用いて解決した連立交渉ゲームとしてモデル化することを提案する。
代わりに、私たちは暗黙的に特性関数を推論します。従って、本番環境にデプロイされた場合、私たちは1回だけ高価なコラボレーション後の車両ルーティング問題を評価するだけでよいのです。
我々の貢献は, 経路割当問題とゲインシェア問題の両方を, 高価な特性関数を使わずに, 初めて検討したことである。
分散機械学習を通じて、エージェントは互いに交渉し、Shapleyの価値とよく相関する結果、すなわち公正な利益配分メカニズムに合意します。
重要なことに、ランタイムの88%の削減を実現できます。 Collaborative vehicle routing occurs when carriers collaborate through sharing their transportation requests and performing transportation requests on behalf of each other. This achieves economies of scale, thus reducing cost, greenhouse gas emissions and road congestion. But which carrier should partner with whom, and how much should each carrier be compensated? Traditional game theoretic solution concepts are expensive to calculate as the characteristic function scales exponentially with the number of agents. This would require solving the vehicle routing problem (NP-hard) an exponential number of times. We therefore propose to model this problem as a coalitional bargaining game solved using deep multi-agent reinforcement learning, where - crucially - agents are not given access to the characteristic function. Instead, we implicitly reason about the characteristic function; thus, when deployed in production, we only need to evaluate the expensive post-collaboration vehicle routing problem once. Our contribution is that we are the first to consider both the route allocation problem and gain sharing problem simultaneously - without access to the expensive characteristic function. Through decentralised machine learning, our agents bargain with each other and agree to outcomes that correlate well with the Shapley value - a fair profit allocation mechanism. Importantly, we are able to achieve a reduction in run-time of 88%. | 翻訳日:2023-10-27 19:37:45 公開日:2023-10-26 |
# 変圧器型フェデレーション学習によるスマートグリッドの安全な短期負荷予測 Secure short-term load forecasting for smart grids with transformer-based federated learning ( http://arxiv.org/abs/2310.17477v1 ) ライセンス: Link先を確認 | Jonas Sievers, Thomas Blank | (参考訳) 電力負荷予測は、需要と供給収支を補助するスマートグリッドの中で不可欠なタスクである。
高度なディープラーニングモデルは、正確な短期負荷予測のために大量の高解像度データを必要とするが、きめ細かい負荷プロファイルは、ユーザの電力消費の振る舞いを露呈し、プライバシとセキュリティの懸念を引き起こす。
データプライバシを改善する方法のひとつにフェデレーション学習があり、モデルがプライベートデータ上でローカルにトレーニングされ、トレーニングされたモデルパラメータだけがグローバルサーバ上でマージされ更新される。
そこで本稿では,短期電力負荷予測のためのフェデレート学習を用いた新しいトランスベース深層学習手法を提案する。
この結果を評価するため,我々は,フェデレーション学習アーキテクチャを中央および局所学習と比較し,モデルの性能を長期記憶モデルや畳み込みニューラルネットワークと比較した。
我々のシミュレーションは、ドイツの大学キャンパスのデータセットに基づいており、トランスフォーマーに基づく予測は、フェデレートラーニングにおける最先端モデルに代わる有望な選択肢であることを示している。 Electricity load forecasting is an essential task within smart grids to assist demand and supply balance. While advanced deep learning models require large amounts of high-resolution data for accurate short-term load predictions, fine-grained load profiles can expose users' electricity consumption behaviors, which raises privacy and security concerns. One solution to improve data privacy is federated learning, where models are trained locally on private data, and only the trained model parameters are merged and updated on a global server. Therefore, this paper presents a novel transformer-based deep learning approach with federated learning for short-term electricity load prediction. To evaluate our results, we benchmark our federated learning architecture against central and local learning and compare the performance of our model to long short-term memory models and convolutional neural networks. Our simulations are based on a dataset from a German university campus and show that transformer-based forecasting is a promising alternative to state-of-the-art models within federated learning. | 翻訳日:2023-10-27 19:37:24 公開日:2023-10-26 |
# 検出効率のミスマッチ解析によるユーラシア規模の実験衛星による量子鍵分布 Eurasian-Scale Experimental Satellite-based Quantum Key Distribution with Detector Efficiency Mismatch Analysis ( http://arxiv.org/abs/2310.17476v1 ) ライセンス: Link先を確認 | Aleksandr V. Khmelev, Alexey V. Duplinsky, Ruslan M. Bakhshaliev, Egor I. Ivchenko, Liubov V. Pismeniuk, Vladimir F. Mayboroda, Ivan S. Nesterov, Arkadiy N. Chernov, Anton S. Trushechkin, Evgeniy O. Kiktenko, Vladimir L. Kurochkin, Aleksey K. Fedorov | (参考訳) ミシウス衛星は、量子テレポーテーション、絡み合い分布、量子鍵分布(QKD)、および世界規模での量子セキュリティ通信実験を実証する先駆的なイニシアチブである。
本研究では,600mm帯地上局の設計結果について報告し,ミキウス衛星を用いたズヴェニゴロド駅と南山地上局の量子セキュアな接続の確立を可能にした。
量子通信セッションの結果、2.5mbitの全体的なsifted keyと合計310kbitのfinal key lengthが得られた。
4つの検出器に対する検出効率のミスマッチの影響を考慮し、衛星ベースのQKDデコイ状態プロトコルの実現に関するセキュリティ分析の拡張を提案する。
また、衛星通過のためのQKDプロトコルをシミュレートし、実験データとよく一致した現実的な受信機のための準経験的モデルを検証する。
本研究は,QKDシステムにおける現実的不完全性の考慮への道を開いたものである。 The Micius satellite is the pioneering initiative to demonstrate quantum teleportation, entanglement distribution, quantum key distribution (QKD), and quantum-secured communications experiments at the global scale. In this work, we report on the results of the 600-mm-aperture ground station design which has enabled the establishment of a quantum-secured link between the Zvenigorod and Nanshan ground stations using the Micius satellite. As a result of a quantum communications session, an overall sifted key of 2.5 Mbits and a total final key length of 310 kbits have been obtained. We present an extension of the security analysis of the realization of satellite-based QKD decoy-state protocol by taking into account the effect of the detection-efficiency mismatch for four detectors. We also simulate the QKD protocol for the satellite passage and by that validate our semi-empirical model for a realistic receiver, which is in good agreement with the experimental data. Our results pave the way to the considerations of realistic imperfection of the QKD systems, which are important in the context of their practical security. | 翻訳日:2023-10-27 19:37:05 公開日:2023-10-26 |
# 歩道配送ロボットシステムの大規模設計のための解析モデル Analytical model for large-scale design of sidewalk delivery robot systems ( http://arxiv.org/abs/2310.17475v1 ) ライセンス: Link先を確認 | Hai Yang, Yuchen Du, Tho V. Le, Joseph Y. J. Chow | (参考訳) 地域配送やeコマースの需要が高まる中、ロボット配達は効率的で持続可能なソリューションと見なされている。
しかし、そのようなシステムの展開は、確率的な需要、確率的な充電とメンテナンスのニーズ、複雑なルーティングなどを含む多くの要因により、非常に複雑になる可能性がある。
本稿では,オンライン食品配送に使用される大規模歩道配送ロボットシステムのユニークな特性を考慮したサービストレードオフの評価に,連続近似手法を用いたモデルを提案する。
モデルは、配信システムの初期コストと運用コストの両方をキャプチャし、デプロイメントに対する制約と運用戦略の影響を評価する。
システムコストを最小化することにより、システム設計に関連する変数を決定することができる。
まず、均質な領域に基づいて最小化問題を定式化し、最適システムコストを閉形式式として導出することができる。
式を評価することにより、変数とシステムコストの関係を直接得ることができる。
次に、このモデルをニューヨーク市の近所に適用し、実際のシナリオで歩道配送ロボットシステムを導入するコストを評価する。
結果は、このようなシステムを将来展開する可能性に光を当てた。 With the rise in demand for local deliveries and e-commerce, robotic deliveries are being considered as efficient and sustainable solutions. However, the deployment of such systems can be highly complex due to numerous factors involving stochastic demand, stochastic charging and maintenance needs, complex routing, etc. We propose a model that uses continuous approximation methods for evaluating service trade-offs that consider the unique characteristics of large-scale sidewalk delivery robot systems used to serve online food deliveries. The model captures both the initial cost and the operation cost of the delivery system and evaluates the impact of constraints and operation strategies on the deployment. By minimizing the system cost, variables related to the system design can be determined. First, the minimization problem is formulated based on a homogeneous area, and the optimal system cost can be derived as a closed-form expression. By evaluating the expression, relationships between variables and the system cost can be directly obtained. We then apply the model in neighborhoods in New York City to evaluate the cost of deploying the sidewalk delivery robot system in a real-world scenario. The results shed light on the potential of deploying such a system in the future. | 翻訳日:2023-10-27 19:36:46 公開日:2023-10-26 |
# Cloud-Edge-Endコラボレーションによる6Gのファンデーションモデルに基づくネイティブAIフレームワーク Foundation Model Based Native AI Framework in 6G with Cloud-Edge-End Collaboration ( http://arxiv.org/abs/2310.17471v1 ) ライセンス: Link先を確認 | Xiang Chen, Zhiheng Guo, Xijun Wang, Howard H. Yang, Chenyuan Feng, Junshen Su, Sihui Zheng, Tony Q. S. Quek | (参考訳) 将来の無線通信ネットワークは、データ中心のデバイス指向の接続を超えて、タスク指向の接続に基づくインテリジェントで没入的なエクスペリエンスを提供する立場にある。
したがって、6gではデバイスとサーバ間のコラボレーションモードの再定義とネイティブインテリジェンスライブラリの構築が極めて重要である。
本稿では,データ,インテリジェンス,ネットワークの観点から,6GネイティブAIを実現する上での課題を分析する。
次に、基礎モデルに基づく6GネイティブAIフレームワークを提案し、意図認識型PFMのカスタマイズアプローチを提供し、タスク指向AIツールキットの構築を示し、新しいクラウド-エッジコラボレーションパラダイムの概要を示す。
実用的なユースケースとして,このフレームワークをオーケストレーションに適用し,無線通信システム内で最大和率を達成し,予備評価結果を示す。
最後に,6gでネイティブaiを実現するための研究方向について概説する。 Future wireless communication networks are in a position to move beyond data-centric, device-oriented connectivity and offer intelligent, immersive experiences based on task-oriented connections, especially in the context of the thriving development of pre-trained foundation models (PFM) and the evolving vision of 6G native artificial intelligence (AI). Therefore, redefining modes of collaboration between devices and servers and constructing native intelligence libraries become critically important in 6G. In this paper, we analyze the challenges of achieving 6G native AI from the perspectives of data, intelligence, and networks. Then, we propose a 6G native AI framework based on foundation models, provide a customization approach for intent-aware PFM, present a construction of a task-oriented AI toolkit, and outline a novel cloud-edge-end collaboration paradigm. As a practical use case, we apply this framework for orchestration, achieving the maximum sum rate within a wireless communication system, and presenting preliminary evaluation results. Finally, we outline research directions for achieving native AI in 6G. | 翻訳日:2023-10-27 19:36:30 公開日:2023-10-26 |
# 自己精製対応型クロスモーダルアクティブ補完学習 Cross-modal Active Complementary Learning with Self-refining Correspondence ( http://arxiv.org/abs/2310.17468v1 ) ライセンス: Link先を確認 | Yang Qin, Yuan Sun, Dezhong Peng, Joey Tianyi Zhou, Xi Peng, Peng Hu | (参考訳) 近年,画像テキストマッチングは,視覚的・テキスト的モダリティにまたがる潜在的対応を理解する上での基礎となる,学術・産業の注目を集めている。
しかし、既存のほとんどの手法は、ユビキタスアノテーションノイズ、すなわちノイズ対応(NC)を無視しながら、トレーニングペアがうまく一致していると暗黙的に仮定している。
このようなノイズに対処しようとする手法もあるが、過度な記憶/過度な適合と、特に高雑音下でのNCの信頼性の低い修正という2つの難しい問題に直面している。
そこで本研究では,既存の手法のロバスト性を改善するために,新しいacl(active complement loss)とscc(auto-refining correspondence correction)の恩恵を受ける汎用的なcrcl(cross-modal robust complement learning framework)を提案する。
特に、aclはアクティブで補完的な学習損失を利用して誤った監督を提供するリスクを低減し、理論的および実験的にncに対する堅牢性が実証される。
SCCは、モーメント補正を伴う複数の自己精製プロセスを利用して、対応を補正するために受容場を拡大し、エラーの蓄積を緩和し、正確で安定した補正を達成する。
我々は3つの画像テキストベンチマーク(Flickr30K, MS-COCO, CC152K)で広範な実験を行い、CRCLの合成および実世界の雑音対応に対する優れた堅牢性を検証する。 Recently, image-text matching has attracted more and more attention from academia and industry, which is fundamental to understanding the latent correspondence across visual and textual modalities. However, most existing methods implicitly assume the training pairs are well-aligned while ignoring the ubiquitous annotation noise, a.k.a noisy correspondence (NC), thereby inevitably leading to a performance drop. Although some methods attempt to address such noise, they still face two challenging problems: excessive memorizing/overfitting and unreliable correction for NC, especially under high noise. To address the two problems, we propose a generalized Cross-modal Robust Complementary Learning framework (CRCL), which benefits from a novel Active Complementary Loss (ACL) and an efficient Self-refining Correspondence Correction (SCC) to improve the robustness of existing methods. Specifically, ACL exploits active and complementary learning losses to reduce the risk of providing erroneous supervision, leading to theoretically and experimentally demonstrated robustness against NC. SCC utilizes multiple self-refining processes with momentum correction to enlarge the receptive field for correcting correspondences, thereby alleviating error accumulation and achieving accurate and stable corrections. We carry out extensive experiments on three image-text benchmarks, i.e., Flickr30K, MS-COCO, and CC152K, to verify the superior robustness of our CRCL against synthetic and real-world noisy correspondences. | 翻訳日:2023-10-27 19:36:13 公開日:2023-10-26 |
# 生成拡散モデルの統計熱力学 The statistical thermodynamics of generative diffusion models ( http://arxiv.org/abs/2310.17467v1 ) ライセンス: Link先を確認 | Luca Ambrogioni | (参考訳) 生成拡散モデルは、生成モデリングの多くの分野で素晴らしい性能を達成している。
これらのモデルの背後にある基本的な考え方は非平衡物理学から来ているが、本論文ではこれらのモデルの多くの側面が平衡統計力学のツールを使って理解できることを示す。
この再構成を用いて、生成拡散モデルが対称性破壊現象に対応する2次相転移を行うことを示す。
これは、生成能力の中心にある不安定な形につながり、平均的フィールドクリティカル指数によって説明できる、と我々は論じている。
熱力学的定式化の観点から拡散モデルと連想メモリネットワークを接続する最近の研究を解析して結論づける。 Generative diffusion models have achieved spectacular performance in many areas of generative modeling. While the fundamental ideas behind these models come from non-equilibrium physics, in this paper we show that many aspects of these models can be understood using the tools of equilibrium statistical mechanics. Using this reformulation, we show that generative diffusion models undergo second-order phase transitions corresponding to symmetry breaking phenomena. We argue that this lead to a form of instability that lies at the heart of their generative capabilities and that can be described by a set of mean field critical exponents. We conclude by analyzing recent work connecting diffusion models and associative memory networks in view of the thermodynamic formulations. | 翻訳日:2023-10-27 19:35:44 公開日:2023-10-26 |
# CompeteAI:大規模言語モデルベースエージェントにおける競合行動の理解 CompeteAI: Understanding the Competition Behaviors in Large Language Model-based Agents ( http://arxiv.org/abs/2310.17512v1 ) ライセンス: Link先を確認 | Qinlin Zhao, Jindong Wang, Yixuan Zhang, Yiqiao Jin, Kaijie Zhu, Hao Chen, Xing Xie | (参考訳) 大規模言語モデル(LLM)は、個人支援やイベント計画など、さまざまなタスクを完了させるエージェントとして広く使用されている。
ほとんどの研究はエージェント間の協力と協力に重点を置いているが、社会と経済の発展を促進する重要なメカニズムである競争を探求する仕事はほとんどない。
本稿では,LSMをベースとしたエージェントの競合行動について検討する。
まず,エージェント間の競合を研究するための一般的な枠組みを提案する。
次に,gpt-4を用いて,レストランエージェントと顧客エージェントを含む2種類のエージェントによる仮想都市をシミュレートする実践的な競争環境を構築した。
具体的には、レストランエージェントが競合してより多くの顧客を惹きつけ、競争は新たなオペレーション戦略の育成などの変革を促す。
実験の結果、社会学習からマシュー効果まで、既存の社会学的、経済的な理論とよく一致するいくつかの興味深い発見が明らかになった。
我々は、エージェント間の競争が社会をよりよく理解するために、さらなる調査に値すると信じている。
コードはまもなくリリースされる。 Large language models (LLMs) have been widely used as agents to complete different tasks, such as personal assistance or event planning. While most work has focused on cooperation and collaboration between agents, little work explores competition, another important mechanism that fosters the development of society and economy. In this paper, we seek to examine the competition behaviors in LLM-based agents. We first propose a general framework to study the competition between agents. Then, we implement a practical competitive environment using GPT-4 to simulate a virtual town with two types of agents, including restaurant agents and customer agents. Specifically, restaurant agents compete with each other to attract more customers, where the competition fosters them to transform, such as cultivating new operating strategies. The results of our experiments reveal several interesting findings ranging from social learning to Matthew Effect, which aligns well with existing sociological and economic theories. We believe that competition between agents deserves further investigation to help us understand society better. The code will be released soon. | 翻訳日:2023-10-27 19:31:19 公開日:2023-10-26 |
# 自律運転のための点雲への画像表現の蒸留再検討 Revisiting the Distillation of Image Representations into Point Clouds for Autonomous Driving ( http://arxiv.org/abs/2310.17504v1 ) ライセンス: Link先を確認 | Gilles Puy, Spyros Gidaris, Alexandre Boulch, Oriane Sim\'eoni, Corentin Sautier, Patrick P\'erez, Andrei Bursuc, Renaud Marlet | (参考訳) 自己教師付きイメージネットワークは、複雑な2Dタスク(セマンティックセグメンテーション、オブジェクト発見など)に、非常に効率的に対処するために使用でき、下流の監視はほとんど、あるいは全く行わない。
しかし、ライダーデータ上の自己監督型3Dネットワークは、今のところあまり機能しない。
そこで, 高品質な自己監督型2次元特徴量を3次元ネットワークに抽出する手法を提案する。
最近の自動運転データでは有望な結果が示されています。
しかし、これらの蒸留された特徴と完全に監督された特徴の間には、性能ギャップが持続する。
本研究では2D-to-3D蒸留について再考する。
まず, セマンティックセグメンテーションについて, 従来の3次元蒸留法と比較して, 大幅な改善をもたらす簡単なアプローチを提案する。
第2に,高容量3dネットワークの蒸留が高品質な3d機能を実現する鍵であることを示す。
これにより、教師なしの蒸留された3D特徴と、完全に監督された特徴とのギャップを大幅に埋めることができます。
最後に,我々の高品質蒸留表現は,開語彙セグメンテーションや背景・背景発見にも利用できることを示す。 Self-supervised image networks can be used to address complex 2D tasks (e.g., semantic segmentation, object discovery) very efficiently and with little or no downstream supervision. However, self-supervised 3D networks on lidar data do not perform as well for now. A few methods therefore propose to distill high-quality self-supervised 2D features into 3D networks. The most recent ones doing so on autonomous driving data show promising results. Yet, a performance gap persists between these distilled features and fully-supervised ones. In this work, we revisit 2D-to-3D distillation. First, we propose, for semantic segmentation, a simple approach that leads to a significant improvement compared to prior 3D distillation methods. Second, we show that distillation in high capacity 3D networks is key to reach high quality 3D features. This actually allows us to significantly close the gap between unsupervised distilled 3D features and fully-supervised ones. Last, we show that our high-quality distilled representations can also be used for open-vocabulary segmentation and background/foreground discovery. | 翻訳日:2023-10-27 19:31:03 公開日:2023-10-26 |
# 主方向の発見による人工話者埋め込みの制御可能生成 Controllable Generation of Artificial Speaker Embeddings through Discovery of Principal Directions ( http://arxiv.org/abs/2310.17502v1 ) ライセンス: Link先を確認 | Florian Lux, Pascal Tilli, Sarina Meyer, Ngoc Thang Vu | (参考訳) 音声合成システムにおける音声と発話のスタイルを直感的かつ細かな制御でカスタマイズすることは、適切なラベルを持つデータが少ないことを考えると困難である。
さらに、既存の人間の声の編集にも倫理的な懸念が伴う。
本稿では, 話者やスタイルのラベルを必要とせず, 音声の直感的できめ細かな制御を行いながら, 実際の人間にリンクできない人工話者埋め込みを生成する手法を提案する。
人工的かつ制御可能な埋め込みは、トレーニング中に実際の人間の埋め込みを条件に、音声合成システムに供給することができる。 Customizing voice and speaking style in a speech synthesis system with intuitive and fine-grained controls is challenging, given that little data with appropriate labels is available. Furthermore, editing an existing human's voice also comes with ethical concerns. In this paper, we propose a method to generate artificial speaker embeddings that cannot be linked to a real human while offering intuitive and fine-grained control over the voice and speaking style of the embeddings, without requiring any labels for speaker or style. The artificial and controllable embeddings can be fed to a speech synthesis system, conditioned on embeddings of real humans during training, without sacrificing privacy during inference. | 翻訳日:2023-10-27 19:30:48 公開日:2023-10-26 |
# CBD:ローカルドミナント確率に基づく認証バックドア検出器 CBD: A Certified Backdoor Detector Based on Local Dominant Probability ( http://arxiv.org/abs/2310.17498v1 ) ライセンス: Link先を確認 | Zhen Xiang and Zidi Xiong and Bo Li | (参考訳) バックドア攻撃はディープニューラルネットワークに対する一般的な脅威である。
テスト中、バックドアトリガーに埋め込まれたサンプルは、バックドアモデルによって敵の標的として誤分類され、バックドアトリガーのないサンプルは正しく分類される。
本稿では,提案した統計的局所支配確率に基づく,新しい調整可能な共形予測スキームに基づく,最初の認証バックドア検出器(CBD)を提案する。
検査中の分類器に対して cbdは
1) 検出推測
2 同一分類領域において、攻撃が検出可能であることを保証された条件、及び
3) 偽陽性率の確率的上限。
実験結果から, 試験時間騒音に対する耐性が高く, 摂動強度が小さいトリガによる攻撃は, 確実に検出される可能性が示唆された。
さらに,BadNet,CB,Blendなどのバックドアタイプを考慮した4つのベンチマークデータセットについて広範な実験を行った。
CBDは最先端の検出器と同等またはそれ以上の精度で検出を行い、さらに検出認証を提供する。
特に、90\%以上の攻撃成功率を達成する$\ell_2\leq0.75$で制限されたランダムな摂動トリガーを持つバックドア攻撃の場合、cbdは、それぞれ100\% (98\%), 100\% (84\%), 98\% (98\%), 72\% (40\%) の経験的 (認証済み) で、gtsrb, svhn, cifar-10, tinyimagenet の4つのベンチマークデータセットの真正正率をそれぞれ低い偽陽性率で達成する。 Backdoor attack is a common threat to deep neural networks. During testing, samples embedded with a backdoor trigger will be misclassified as an adversarial target by a backdoored model, while samples without the backdoor trigger will be correctly classified. In this paper, we present the first certified backdoor detector (CBD), which is based on a novel, adjustable conformal prediction scheme based on our proposed statistic local dominant probability. For any classifier under inspection, CBD provides 1) a detection inference, 2) the condition under which the attacks are guaranteed to be detectable for the same classification domain, and 3) a probabilistic upper bound for the false positive rate. Our theoretical results show that attacks with triggers that are more resilient to test-time noise and have smaller perturbation magnitudes are more likely to be detected with guarantees. Moreover, we conduct extensive experiments on four benchmark datasets considering various backdoor types, such as BadNet, CB, and Blend. CBD achieves comparable or even higher detection accuracy than state-of-the-art detectors, and it in addition provides detection certification. Notably, for backdoor attacks with random perturbation triggers bounded by $\ell_2\leq0.75$ which achieves more than 90\% attack success rate, CBD achieves 100\% (98\%), 100\% (84\%), 98\% (98\%), and 72\% (40\%) empirical (certified) detection true positive rates on the four benchmark datasets GTSRB, SVHN, CIFAR-10, and TinyImageNet, respectively, with low false positive rates. | 翻訳日:2023-10-27 19:30:36 公開日:2023-10-26 |
# A/Bテストにおけるデータトレーニングループによる干渉の軽減:重み付きトレーニングアプローチ Tackling Interference Induced by Data Training Loops in A/B Tests: A Weighted Training Approach ( http://arxiv.org/abs/2310.17496v1 ) ライセンス: Link先を確認 | Nian Si | (参考訳) 現代のレコメンデーションシステムでは、標準的なパイプラインは、履歴データの機械学習モデルをトレーニングし、ユーザの振る舞いを予測し、リコメンデーションを継続的に改善する。
しかし、これらのデータトレーニングループは、制御と処理アルゴリズムによって生成されたデータが異なる分布で結合されるa/bテストに干渉をもたらす可能性がある。
これらの課題に対処するために,重み付きトレーニングという新しいアプローチを導入する。
このアプローチでは、処理データまたは制御データのいずれかに現れる各データポイントの確率を予測するモデルをトレーニングし、モデルトレーニング中に重み付き損失を適用する。
本手法は, トレーニング分布の変化を生じさせることなく, 全推定器間の最小分散を達成できることを実証する。
シミュレーション研究を通じて,提案手法のバイアスとばらつきを他の手法と比較した。 In modern recommendation systems, the standard pipeline involves training machine learning models on historical data to predict user behaviors and improve recommendations continuously. However, these data training loops can introduce interference in A/B tests, where data generated by control and treatment algorithms, potentially with different distributions, are combined. To address these challenges, we introduce a novel approach called weighted training. This approach entails training a model to predict the probability of each data point appearing in either the treatment or control data and subsequently applying weighted losses during model training. We demonstrate that this approach achieves the least variance among all estimators without causing shifts in the training distributions. Through simulation studies, we demonstrate the lower bias and variance of our approach compared to other methods. | 翻訳日:2023-10-27 19:29:56 公開日:2023-10-26 |
# ビデオにおける複合活動検出のためのハイブリッドグラフネットワーク A Hybrid Graph Network for Complex Activity Detection in Video ( http://arxiv.org/abs/2310.17493v1 ) ライセンス: Link先を確認 | Salman Khan, Izzeddin Teeti, Andrew Bradley, Mohamed Elhoseiny, Fabio Cuzzolin | (参考訳) ビデオの解釈と理解は、自動運転やスポーツ分析など、さまざまな分野におけるコンピュータビジョンの課題である。
ビデオクリップ内で実行されるアクションを解釈するための既存のアプローチは、時間的行動局所化(TAL)に基づいている。
複雑な活動検出(CompAD)の新たな分野は、ビデオ内で発生する複雑な活動の内部構造をモデル化することによって、この分析を長期的な活動に拡張する。
本研究では,局所的(短期)動的シーンを符号化するグラフと,全長周期動作をモデル化した時間グラフを組み合わせたハイブリッドグラフニューラルネットワークを用いて,コンパッド問題に対処する。
私たちのアプローチは以下の通りです。
まず,各映像スニペットに対して,個々の物体を検知して追跡し,すべてのエージェントチューブと全体シーンから3d特徴を抽出することにより,(局所)シーン内のアクティブ要素(「エージェント」)に対して時空間的「チューブ」を生成する新しい特徴抽出手法を提案する。
二 次に、各ノード(エージェントチューブ又はシーンを表す)が他のすべてのノードに接続されたローカルシーングラフを構築します。
次に、このグラフに注意を払い、局所動的シーンの全体的な表現を得る。
三 最後に、すべてのローカルシーングラフ表現は、時間グラフを介して相互接続され、その開始と終了時間とともに複雑なアクティビティクラスを推定する。
提案されたフレームワークは、ActivityNet-1.3、Thumos-14、ROADを含む3つのデータセットで、これまでの最先端メソッドよりも優れている。 Interpretation and understanding of video presents a challenging computer vision task in numerous fields - e.g. autonomous driving and sports analytics. Existing approaches to interpreting the actions taking place within a video clip are based upon Temporal Action Localisation (TAL), which typically identifies short-term actions. The emerging field of Complex Activity Detection (CompAD) extends this analysis to long-term activities, with a deeper understanding obtained by modelling the internal structure of a complex activity taking place within the video. We address the CompAD problem using a hybrid graph neural network which combines attention applied to a graph encoding the local (short-term) dynamic scene with a temporal graph modelling the overall long-duration activity. Our approach is as follows: i) Firstly, we propose a novel feature extraction technique which, for each video snippet, generates spatiotemporal `tubes' for the active elements (`agents') in the (local) scene by detecting individual objects, tracking them and then extracting 3D features from all the agent tubes as well as the overall scene. ii) Next, we construct a local scene graph where each node (representing either an agent tube or the scene) is connected to all other nodes. Attention is then applied to this graph to obtain an overall representation of the local dynamic scene. iii) Finally, all local scene graph representations are interconnected via a temporal graph, to estimate the complex activity class together with its start and end time. The proposed framework outperforms all previous state-of-the-art methods on all three datasets including ActivityNet-1.3, Thumos-14, and ROAD. | 翻訳日:2023-10-27 19:29:43 公開日:2023-10-26 |
# AIファウンデーションモデルのためのエミュレータ支援移動エッジチューニングのオーケストレーション:マルチエージェント深部強化学習アプローチ Orchestration of Emulator Assisted Mobile Edge Tuning for AI Foundation Models: A Multi-Agent Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2310.17492v1 ) ライセンス: Link先を確認 | Wenhan Yu, Terence Jie Chua, Jun Zhao | (参考訳) 基礎モデルの効率的な展開と微調整は、現代の人工知能において重要である。
本研究では,モバイルエッジコンピューティング(MEC)と基礎モデルを統合し,ユーザ機器(UE)のローカルタスク性能を向上させることを目的とした,画期的なパラダイムを提案する。
私たちのアプローチの中心はイノベーティブなEmulator-Adapterアーキテクチャであり、基礎モデルを2つの凝集モジュールに分割する。
この設計は計算資源を節約するだけでなく、下流タスクの適応性と微調整効率を保証する。
さらに,分散環境におけるEmulator-Adapter構造のニーズに合わせて微調整された高度なリソース割り当て機構を導入する。
本システムでは,複合型多エージェント深層強化学習(DRL)戦略を採用し,混合離散連続行動空間の処理に長け,動的かつ最適な資源割り当てを確保する。
我々の総合的なシミュレーションと検証は、その堅牢性、効率性、スケーラビリティを実証し、我々のアプローチの実用性を強調している。
この研究は、基礎モデルを配置し、計算効率とタスクの熟練度をバランスさせる新しい視点を提供する。 The efficient deployment and fine-tuning of foundation models are pivotal in contemporary artificial intelligence. In this study, we present a groundbreaking paradigm integrating Mobile Edge Computing (MEC) with foundation models, specifically designed to enhance local task performance on user equipment (UE). Central to our approach is the innovative Emulator-Adapter architecture, segmenting the foundation model into two cohesive modules. This design not only conserves computational resources but also ensures adaptability and fine-tuning efficiency for downstream tasks. Additionally, we introduce an advanced resource allocation mechanism that is fine-tuned to the needs of the Emulator-Adapter structure in decentralized settings. To address the challenges presented by this system, we employ a hybrid multi-agent Deep Reinforcement Learning (DRL) strategy, adept at handling mixed discrete-continuous action spaces, ensuring dynamic and optimal resource allocations. Our comprehensive simulations and validations underscore the practical viability of our approach, demonstrating its robustness, efficiency, and scalability. Collectively, this work offers a fresh perspective on deploying foundation models and balancing computational efficiency with task proficiency. | 翻訳日:2023-10-27 19:28:54 公開日:2023-10-26 |
# FedPEAT: モバイルエッジコンピューティングを用いた人工知能基礎モデルのためのフェデレーション学習の収束、パラメータ効率の良いファインチューニング、エミュレータ FedPEAT: Convergence of Federated Learning, Parameter-Efficient Fine Tuning, and Emulator Assisted Tuning for Artificial Intelligence Foundation Models with Mobile Edge Computing ( http://arxiv.org/abs/2310.17491v1 ) ライセンス: Link先を確認 | Terence Jie Chua, Wenhan Yu, Jun Zhao, Kwok-Yan Lam | (参考訳) 言語とビジョンモデルを含む基礎モデルの出現は、AIのランドスケープを再構築し、さまざまなアプリケーションにまたがる機能を提供する。
GPT-3やBERTのような大規模なモデルのデプロイと微調整は、特に現在の基盤モデル時代において課題を提示している。
エミュレータ支援チューニング(eat)とパラメータ効率の細かいチューニング(peft)を組み合わせたパラメータ効率のエミュレータ支援チューニング(peat)を提案する。
さらに,これをフェデレートPEAT(FedPEAT)としてフェデレーション学習に拡張する。
FedPEATは、フェデレーションモデルチューニング、モデルのプライバシとメモリ効率の向上にアダプタ、エミュレータ、PEFTを使用している。
アダプタは事前訓練されたモデルを調整し、エミュレータはオリジナルのモデルをコンパクトに表現し、プライバシと効率の両方に対処する。
ニューラルネットワークにも適応可能で,ハイパーパラメータ最適化には深層強化学習も活用する。
私たちはFedPEATをユニークなシナリオでテストし、サーバが協調的なフェデレーションチューニングに参加し、基礎モデルの課題に取り組む可能性を示しました。 The emergence of foundation models, including language and vision models, has reshaped AI's landscape, offering capabilities across various applications. Deploying and fine-tuning these large models, like GPT-3 and BERT, presents challenges, especially in the current foundation model era. We introduce Emulator-Assisted Tuning (EAT) combined with Parameter-Efficient Fine-Tuning (PEFT) to form Parameter-Efficient Emulator-Assisted Tuning (PEAT). Further, we expand this into federated learning as Federated PEAT (FedPEAT). FedPEAT uses adapters, emulators, and PEFT for federated model tuning, enhancing model privacy and memory efficiency. Adapters adjust pre-trained models, while emulators give a compact representation of original models, addressing both privacy and efficiency. Adaptable to various neural networks, our approach also uses deep reinforcement learning for hyper-parameter optimization. We tested FedPEAT in a unique scenario with a server participating in collaborative federated tuning, showcasing its potential in tackling foundation model challenges. | 翻訳日:2023-10-27 19:27:57 公開日:2023-10-26 |
# オープンドメイン質問応答における非関連文書の歪み低減によるゼロショット読解の改善 Improving Zero-shot Reader by Reducing Distractions from Irrelevant Documents in Open-Domain Question Answering ( http://arxiv.org/abs/2310.17490v1 ) ライセンス: Link先を確認 | Sukmin Cho, Jeong yeon Seo, Soyeong Jeong, Jong C. Park | (参考訳) 大規模言語モデル (LLM) は、オープンドメイン質問応答 (ODQA) においてゼロショットアプローチを可能にするが、読者が検索者と比較されるにつれて、進歩は限られている。
本研究の目的は,計算コストの課題とラベル付きデータの必要性に対処するゼロショットリーダの実現性である。
LLMは、検索された集合の無関係な文書と、ゼロショットリーダーとして利用された際の生成した回答の過度な信頼のため、混乱していることがわかった。
これらの問題に対処するため,DAS(Distract-Aware Answer Selection)を用いて,適切な回答選択のための否定に基づく命令とスコア調整を行う。
実験の結果,提案手法は様々なシナリオにまたがって注意をそらすことに成功し,ゼロショットリーダーの性能が向上した。
さらに、目に見えないデータに苦しむ教師付き読者とは異なり、ゼロショット読者はトレーニングなしで優れた転送性を示す。 Large language models (LLMs) enable zero-shot approaches in open-domain question answering (ODQA), yet with limited advancements as the reader is compared to the retriever. This study aims at the feasibility of a zero-shot reader that addresses the challenges of computational cost and the need for labeled data. We find that LLMs are distracted due to irrelevant documents in the retrieved set and the overconfidence of the generated answers when they are exploited as zero-shot readers. To tackle these problems, we mitigate the impact of such documents via Distraction-aware Answer Selection (DAS) with a negation-based instruction and score adjustment for proper answer selection. Experimental results show that our approach successfully handles distraction across diverse scenarios, enhancing the performance of zero-shot readers. Furthermore, unlike supervised readers struggling with unseen data, zero-shot readers demonstrate outstanding transferability without any training. | 翻訳日:2023-10-27 19:27:09 公開日:2023-10-26 |
# SoK:ブラックボックス攻撃の評価における落とし穴 SoK: Pitfalls in Evaluating Black-Box Attacks ( http://arxiv.org/abs/2310.17534v1 ) ライセンス: Link先を確認 | Fnu Suya, Anshuman Suri, Tingwei Zhang, Jingtao Hong, Yuan Tian, David Evans | (参考訳) 多くの研究が画像分類器のブラックボックス攻撃を研究している。
しかし、これらの著作は敵の知識に異なる仮定をしており、現在の文献には脅威モデルを中心とした結束した組織が欠けている。
この領域の知識を体系化するために,フィードバック粒度の軸,対話的クエリへのアクセス,攻撃者が利用可能な補助データの品質と量にまたがる脅威空間に関する分類法を提案する。
私たちの新しい分類は3つの重要な洞察を提供する。
1) 広範囲にわたる文献に拘わらず,未調査の脅威空間は数多く存在するが,十分に検討された状況から手法を適用することでは容易に解決できない。
我々は、完全な信頼度ベクトルにアクセスするための十分に検討された設定から技術を適応させることにより、トップk信頼度スコアへのアクセスをあまり意識しない設定で新たな最先端を確立し、予測ラベルのみを取得するより制限的な設定にまだ不足していることを示し、さらなる研究の必要性を強調する。
2) 異なる攻撃の脅威モデルを特定することで, 先行の最先端の主張に挑戦する強力なベースラインが明らかになる。
本稿では,当初より弱いベースライン(対話型クエリアクセス)をサロゲートモデルにより拡張し,各論文のクレームを効果的にオーバーターンすることでこれを実証する。
3)本分類は,モデルインバージョンや抽出攻撃といった関連分野とよく結びつく攻撃的知識間の相互作用を明らかにする。
我々は、他の領域の進歩が潜在的に強力なブラックボックス攻撃を可能にする方法について論じる。
最後に,ローカルアタック実行時のファクタリングによる攻撃成功のより現実的な評価の必要性を強調した。
このアプローチは、特定の攻撃が著しく高い成功率を達成する可能性を示し、多様で難しい設定で攻撃を評価する必要性を示し、より良い選択基準の必要性を強調している。 Numerous works study black-box attacks on image classifiers. However, these works make different assumptions on the adversary's knowledge and current literature lacks a cohesive organization centered around the threat model. To systematize knowledge in this area, we propose a taxonomy over the threat space spanning the axes of feedback granularity, the access of interactive queries, and the quality and quantity of the auxiliary data available to the attacker. Our new taxonomy provides three key insights. 1) Despite extensive literature, numerous under-explored threat spaces exist, which cannot be trivially solved by adapting techniques from well-explored settings. We demonstrate this by establishing a new state-of-the-art in the less-studied setting of access to top-k confidence scores by adapting techniques from well-explored settings of accessing the complete confidence vector, but show how it still falls short of the more restrictive setting that only obtains the prediction label, highlighting the need for more research. 2) Identification the threat model of different attacks uncovers stronger baselines that challenge prior state-of-the-art claims. We demonstrate this by enhancing an initially weaker baseline (under interactive query access) via surrogate models, effectively overturning claims in the respective paper. 3) Our taxonomy reveals interactions between attacker knowledge that connect well to related areas, such as model inversion and extraction attacks. We discuss how advances in other areas can enable potentially stronger black-box attacks. Finally, we emphasize the need for a more realistic assessment of attack success by factoring in local attack runtime. This approach reveals the potential for certain attacks to achieve notably higher success rates and the need to evaluate attacks in diverse and harder settings, highlighting the need for better selection criteria. | 翻訳日:2023-10-27 19:18:49 公開日:2023-10-26 |
# デジタルfuk\'uの解読--ドミニカの教育におけるchatgptを批判的に評価する植民地のレジームの解読 Decoding The Digital Fuk\'u: Deciphering Colonial Legacies to Critically Assess ChatGPT in Dominican Education ( http://arxiv.org/abs/2310.17533v1 ) ライセンス: Link先を確認 | Anaelia Ovalle | (参考訳) ドミニカ共和国における教育格差は、経済的、政治的、社会的不平等が起源である。
これらの課題に対処するためには、教育資料、高品質の教育、構造的リソーシングに関する能力構築が必要である。
ChatGPTのようなジェネレーティブAIツールは、これらの教育的ギャップを埋める可能性があるという認識から、ドミニカ人教育者の関心を喚起し始めた。
しかし、AI公正性の文献のかなりの部分は、AIがAI開発と展開ポリシーを推進している管轄区域を反映するパワーダイナミクスを不均等に強化する方法を文書化している。
このように、DR教育におけるこの技術の非差別的な採用は、デジタル植民地化の形式を永続させるリスクを負う。
そこで本論文は、DR教育におけるChatGPTのようなAI駆動型ツールが、デジタル植民地主義の側面をいかに再現するかを批判的に検証することによって、AIに満足した教育改革を受け入れることに焦点を当てる。
1916年のアメリカ占領後の20世紀のドミニカ教育改革を簡潔に概観する。
そこで,同時代のドミニカ語教育におけるChatGPTのメリットを疑問視するために,ドミニカ語教育を歴史的に形成する新コロニアル的側面を,ドミニカ語学者が概説した。
この作業は、ai global northとsouthの開発者、利害関係者、そしてドミニカ共和国のリーダーたちに対して、chatgptのようなデータ中心の認識論のリレーショナルなコンテキスト化を実行し、ドミニカのデジタル主権の保護に対する警戒を保ちながら、その変革的な利益を享受するよう呼びかけている。 Educational disparities within the Dominican Republic (DR) have long-standing origins rooted in economic, political, and social inequity. Addressing these challenges has necessarily called for capacity building with respect to educational materials, high-quality instruction, and structural resourcing. Generative AI tools like ChatGPT have begun to pique the interest of Dominican educators due to their perceived potential to bridge these educational gaps. However, a substantial body of AI fairness literature has documented ways AI disproportionately reinforces power dynamics reflective of jurisdictions driving AI development and deployment policies, collectively termed the AI Global North. As such, indiscriminate adoption of this technology for DR education, even in part, risks perpetuating forms of digital coloniality. Therefore, this paper centers embracing AI-facilitated educational reform by critically examining how AI-driven tools like ChatGPT in DR education may replicate facets of digital colonialism. We provide a concise overview of 20th-century Dominican education reforms following the 1916 US occupation. Then, we employ identified neocolonial aspects historically shaping Dominican education to interrogate the perceived advantages of ChatGPT for contemporary Dominican education, as outlined by a Dominican scholar. This work invites AI Global North & South developers, stakeholders, and Dominican leaders alike to exercise a relational contextualization of data-centric epistemologies like ChatGPT to reap its transformative benefits while remaining vigilant of safeguarding Dominican digital sovereignty. | 翻訳日:2023-10-27 19:18:20 公開日:2023-10-26 |
# 未知グラフを用いた正規化グラフェン平均場ゲーム学習 Learning Regularized Graphon Mean-Field Games with Unknown Graphons ( http://arxiv.org/abs/2310.17531v1 ) ライセンス: Link先を確認 | Fengzhuo Zhang, Vincent Y. F. Tan, Zhaoran Wang, Zhuoran Yang | (参考訳) グラフ平均フィールドゲーム(GMFG)のための強化学習アルゴリズムの設計と解析を行う。
グラフェンの正確な値を必要とする以前の研究とは対照的に、グラトンが未知である場合、正規化gmfgsのnash平衡(ne)を学習することを目指している。
私たちの貢献は3倍です。
まず,GMFG (GMFG-PPO) アルゴリズムの近似ポリシ最適化を提案し,推定オラクルを用いた$T$反復後の$O(T^{-1/3})$で収束し,Xie et al. (ICML, 2021) による以前の研究を改善したことを示す。
第2に,分布のカーネル埋め込みを用いて,サンプルエージェントから遷移カーネル,報酬関数,およびグラフを推定する効率的なアルゴリズムを設計する。
収束率は、エージェントの位置が知られているか未知であるときに導かれる。
最適化アルゴリズムGMFG-PPOと推定アルゴリズムの組み合わせの結果が提供される。
これらのアルゴリズムは、サンプルエージェントからグラモンを学習するために設計された最初のものである。
最後に,提案アルゴリズムの有効性をシミュレーションにより検証する。
これらのシミュレーションは、未知のグラノンの学習が効果的に悪用性を減少させることを示した。 We design and analyze reinforcement learning algorithms for Graphon Mean-Field Games (GMFGs). In contrast to previous works that require the precise values of the graphons, we aim to learn the Nash Equilibrium (NE) of the regularized GMFGs when the graphons are unknown. Our contributions are threefold. First, we propose the Proximal Policy Optimization for GMFG (GMFG-PPO) algorithm and show that it converges at a rate of $O(T^{-1/3})$ after $T$ iterations with an estimation oracle, improving on a previous work by Xie et al. (ICML, 2021). Second, using kernel embedding of distributions, we design efficient algorithms to estimate the transition kernels, reward functions, and graphons from sampled agents. Convergence rates are then derived when the positions of the agents are either known or unknown. Results for the combination of the optimization algorithm GMFG-PPO and the estimation algorithm are then provided. These algorithms are the first specifically designed for learning graphons from sampled agents. Finally, the efficacy of the proposed algorithms are corroborated through simulations. These simulations demonstrate that learning the unknown graphons reduces the exploitability effectively. | 翻訳日:2023-10-27 19:17:46 公開日:2023-10-26 |
# 性別中立型視覚・言語モデルにおけるバイアスと公平性の評価 Evaluating Bias and Fairness in Gender-Neutral Pretrained Vision-and-Language Models ( http://arxiv.org/abs/2310.17530v1 ) ライセンス: Link先を確認 | Laura Cabello, Emanuele Bugliarello, Stephanie Brandl, Desmond Elliott | (参考訳) 事前トレーニングされた機械学習モデルは、データ内の既存のバイアスを持続し、増幅することさえ知られており、結果的にユーザーエクスペリエンスに影響を及ぼす不公平な結果をもたらす可能性がある。
したがって、これらの偏見の背後にあるメカニズムを理解して、モデルの性能が特定のグループや集団に対する差別的行動に結びつかないことを保証することが不可欠である。
本研究では,ジェンダーバイアスをケーススタディとして定義する。
3種類の視覚言語モデルにおける事前学習および微調整後のバイアス増幅量を定量化する。
本研究は,2つの学習段階間の関係について検討し,バイアス増幅がモデル性能にどのように反映するかを評価する。
全体として、事前学習および微調整後のバイアス増幅は独立である。
次に,ジェンダーニュートラルデータに対する継続事前トレーニングの効果について検討し,グループ差,すなわち,VQAv2と検索タスクに対する公平性を著しく低下させる。 Pretrained machine learning models are known to perpetuate and even amplify existing biases in data, which can result in unfair outcomes that ultimately impact user experience. Therefore, it is crucial to understand the mechanisms behind those prejudicial biases to ensure that model performance does not result in discriminatory behaviour toward certain groups or populations. In this work, we define gender bias as our case study. We quantify bias amplification in pretraining and after fine-tuning on three families of vision-and-language models. We investigate the connection, if any, between the two learning stages, and evaluate how bias amplification reflects on model performance. Overall, we find that bias amplification in pretraining and after fine-tuning are independent. We then examine the effect of continued pretraining on gender-neutral data, finding that this reduces group disparities, i.e., promotes fairness, on VQAv2 and retrieval tasks without significantly compromising task performance. | 翻訳日:2023-10-27 19:17:26 公開日:2023-10-26 |
# 効率的な動的シーン再構成のためのマスキング時空ハッシュ符号化 Masked Space-Time Hash Encoding for Efficient Dynamic Scene Reconstruction ( http://arxiv.org/abs/2310.17527v1 ) ライセンス: Link先を確認 | Feng Wang, Zilong Chen, Guokang Wang, Yafei Song and Huaping Liu | (参考訳) 本稿では,マルチビューやモノクロビデオから動的3Dシーンを効率的に再構成する新しい手法であるMasked Space-Time Hash encoding (MSTH)を提案する。
動的シーンはしばしば記憶と計算の冗長性をもたらす相当な静的領域を含むという観察に基づいて、MSTHは動的シーンを3Dハッシュエンコーディングと4Dハッシュエンコーディングの重み付けの組み合わせとして表現する。
2つの構成要素の重みは、各3D位置の空間的および時間的重要性を反映する不確実性に基づく目的によって導かれる学習可能なマスクで表される。
With this design, our method can reduce the hash collision rate by avoiding redundant queries and modifications on static areas, making it feasible to represent a large number of space-time voxels by hash tables with small size.Besides, without the requirements to fit the large numbers of temporally redundant features independently, our method is easier to optimize and converge rapidly with only twenty minutes of training for a 300-frame dynamic scene.As a result, MSTH obtains consistently better results than previous methods with only 20 minutes of training time and 130 MB of memory storage.
コードはhttps://github.com/masked-spacetime-hashing/msthで入手できる。 In this paper, we propose the Masked Space-Time Hash encoding (MSTH), a novel method for efficiently reconstructing dynamic 3D scenes from multi-view or monocular videos. Based on the observation that dynamic scenes often contain substantial static areas that result in redundancy in storage and computations, MSTH represents a dynamic scene as a weighted combination of a 3D hash encoding and a 4D hash encoding. The weights for the two components are represented by a learnable mask which is guided by an uncertainty-based objective to reflect the spatial and temporal importance of each 3D position. With this design, our method can reduce the hash collision rate by avoiding redundant queries and modifications on static areas, making it feasible to represent a large number of space-time voxels by hash tables with small size.Besides, without the requirements to fit the large numbers of temporally redundant features independently, our method is easier to optimize and converge rapidly with only twenty minutes of training for a 300-frame dynamic scene.As a result, MSTH obtains consistently better results than previous methods with only 20 minutes of training time and 130 MB of memory storage. Code is available at https://github.com/masked-spacetime-hashing/msth | 翻訳日:2023-10-27 19:17:10 公開日:2023-10-26 |
# 大規模言語モデルは体系的レビュープロセスで人間に取って代わることができるか?
複数の言語におけるGPT-4によるピアレビューおよびグレー文学からのデータのスクリーニングと抽出の有効性の評価 Can large language models replace humans in the systematic review process? Evaluating GPT-4's efficacy in screening and extracting data from peer-reviewed and grey literature in multiple languages ( http://arxiv.org/abs/2310.17526v1 ) ライセンス: Link先を確認 | Qusai Khraisha, Sophie Put, Johanna Kappenberg, Azza Warraitch, Kristin Hadfield | (参考訳) 体系的なレビューは実践、研究、政策の指導に不可欠であるが、それらはしばしば遅く、労働集約的である。
大きな言語モデル(LLM)は、体系的なレビューをスピードアップし、自動化する方法を提供するが、そのようなタスクにおけるそれらのパフォーマンスは、人間に対して包括的に評価されておらず、これまで最大のLCMであるGPT-4を試験した研究はない。
本研究は, "human-out-of-the-loop" アプローチを用いて, gpt-4のタイトル/アブストラクトスクリーニング, フルテキストレビュー, データ抽出における能力を評価する。
gpt-4は、ほとんどのタスクで人間のパフォーマンスに匹敵する精度を持っていたが、結果が偶然の一致とデータセットの不均衡によって歪んだ。
これらを調整した後、データ抽出のパフォーマンスは適度に低下し、高い信頼性を持つプロンプトスクリーニングパフォーマンスを用いた研究は、異なるステージや言語で適度に低下した。
信頼性の高いプロンプトを用いた全文文献のスクリーニングでは、GPT-4の性能は「ほぼ完璧」であった。
信頼性の高いプロンプトを用いた重要な研究の欠如に対するGPT-4の適用により、さらに性能が向上した。
この結果から,LLMを体系的レビューに使用した場合は,現在かなりの注意が必要であるが,信頼性の高いプロンプトで提供される特定の系統的レビュータスクに対して,LLMは人的パフォーマンスに匹敵する可能性があることが示唆された。 Systematic reviews are vital for guiding practice, research, and policy, yet they are often slow and labour-intensive. Large language models (LLMs) could offer a way to speed up and automate systematic reviews, but their performance in such tasks has not been comprehensively evaluated against humans, and no study has tested GPT-4, the biggest LLM so far. This pre-registered study evaluates GPT-4's capability in title/abstract screening, full-text review, and data extraction across various literature types and languages using a 'human-out-of-the-loop' approach. Although GPT-4 had accuracy on par with human performance in most tasks, results were skewed by chance agreement and dataset imbalance. After adjusting for these, there was a moderate level of performance for data extraction, and - barring studies that used highly reliable prompts - screening performance levelled at none to moderate for different stages and languages. When screening full-text literature using highly reliable prompts, GPT-4's performance was 'almost perfect.' Penalising GPT-4 for missing key studies using highly reliable prompts improved its performance even more. Our findings indicate that, currently, substantial caution should be used if LLMs are being used to conduct systematic reviews, but suggest that, for certain systematic review tasks delivered under reliable prompts, LLMs can rival human performance. | 翻訳日:2023-10-27 19:16:52 公開日:2023-10-26 |
# 学部研究室における光の量子状態のウィグナー関数の測定 Measuring Wigner functions of quantum states of light in the undergraduate laboratory ( http://arxiv.org/abs/2310.17525v1 ) ライセンス: Link先を確認 | Juan-Rafael \'Alvarez, Andr\'es Mart\'inez Silva and Alejandra Valencia | (参考訳) 本稿では,大学における光量子状態のウィグナー分布関数を測定することを目的とした教育活動について述べる。
このプロジェクトは、物理学のカリキュラムの様々なコースの学生によって考案され、その成果はコロンビアのボゴチュアにあるuniversidad de los andesの入門量子光学コースで使用された。
この活動は、学生が事前に整列された実験環境に従事する2時間の実験的な実践を含む。
その後、オープンアクセスでカスタムメイドのグラフィカルユーザインタフェースを使用して、様々な量子状態の光に対してウィグナー分布関数を再構築する。
テストフェーズが新型コロナウイルス(covid-19)パンデミックと一致していることを踏まえて,シミュレーションデータの解析機能を計算ユーザインタフェースに組み込んだ。
このアクティビティは現在、コースシラバスの一部であり、その仮想コンポーネントは量子光学における距離学習の実装に非常に有用であることが証明されている。 In this work, we present an educational activity aimed at measuring the Wigner distribution functions of quantum states of light in the undergraduate laboratory. This project was conceived by students from various courses within the physics undergraduate curriculum, and its outcomes were used in an introductory Quantum Optics course at the Universidad de los Andes in Bogot\'a, Colombia. The activity entails a two-hour laboratory practice in which students engage with a pre-aligned experimental setup. They subsequently employ an open-access, custom-made computational graphical user interface to reconstruct the Wigner distribution function for various quantum states of light. Given that the testing phase coincided with the COVID-19 pandemic, we incorporated the capacity to analyze simulated data into the computational user interface. The activity is now part of the course syllabus and its virtual component has proven to be highly valuable for the implementation of distance learning in quantum optics. | 翻訳日:2023-10-27 19:16:24 公開日:2023-10-26 |
# flare: アニメーションとリフレッシュ可能なメッシュアバターの高速学習 FLARE: Fast Learning of Animatable and Relightable Mesh Avatars ( http://arxiv.org/abs/2310.17519v1 ) ライセンス: Link先を確認 | Shrisha Bharadwaj, Yufeng Zheng, Otmar Hilliges, Michael J. Black, Victoria Fernandez-Abrevaya | (参考訳) 私たちのゴールは、幾何学的に正確で、リアルで、楽しい、現在のレンダリングシステムと互換性のあるビデオから、パーソナライズ可能な3Dアバターを効率的に学習することです。
3Dメッシュは効率的な処理を可能にし、ポータブル性が高いが、形状や外観の面では現実性に欠ける。
一方、ニューラル表現は現実的であるが、互換性がなく、トレーニングやレンダリングが遅い。
我々の重要な洞察は、従来のコンピュータグラフィックスから高度に最適化された手法を活用し、ニューラルネットワークで一部のコンポーネントを近似することにより、差別化可能なレンダリングにより、高忠実な3Dメッシュ表現を効率的に学習できるということです。
そこで本研究では,単一の単眼映像から映像化可能なメッシュアバターを作成できる手法である \moniker を紹介する。
まず,メッシュ表現を用いて正準幾何学を学習し,学習したブレンド形状と線形ブレンドスキン重みを用いて,効率的な微分可能なラスタイゼーションとストレートアニメーションを実現する。
第2に,観察した色彩を物理的に表現し,本質的なアルベド,粗さ,照明のニューラル表現に分解し,学習したアバターを新たな場面でリライトさせる。
入力ビデオは視野が狭い単一のデバイスで撮影されるので、周囲の環境光をモデル化するのは簡単ではない。
鏡面反射をモデル化するためのスプリットサム近似に基づいて,表面粗さに変調された多層パーセプトロン (mlp) で事前フィルタされた環境マップを近似し,光を明示的にモデル化する必要をなくし,この問題に対処する。
メッシュをベースとしたアバターの定式化と学習した変形,材料,照明のMDPを組み合わせることで,高品質な幾何学と外観を持つアバターを生産し,既存のアプローチと比較してトレーニングやレンダリングが効率的であることを示す。 Our goal is to efficiently learn personalized animatable 3D head avatars from videos that are geometrically accurate, realistic, relightable, and compatible with current rendering systems. While 3D meshes enable efficient processing and are highly portable, they lack realism in terms of shape and appearance. Neural representations, on the other hand, are realistic but lack compatibility and are slow to train and render. Our key insight is that it is possible to efficiently learn high-fidelity 3D mesh representations via differentiable rendering by exploiting highly-optimized methods from traditional computer graphics and approximating some of the components with neural networks. To that end, we introduce \moniker, a technique that enables the creation of animatable and relightable mesh avatars from a single monocular video. First, we learn a canonical geometry using a mesh representation, enabling efficient differentiable rasterization and straightforward animation via learned blendshapes and linear blend skinning weights. Second, we follow physically-based rendering and factor observed colors into intrinsic albedo, roughness, and a neural representation of the illumination, allowing the learned avatars to be relit in novel scenes. Since our input videos are captured on a single device with a narrow field of view, modeling the surrounding environment light is non-trivial. Based on the split-sum approximation for modeling specular reflections, we address this by approximating the pre-filtered environment map with a multi-layer perceptron (MLP) modulated by the surface roughness, eliminating the need to explicitly model the light. We demonstrate that our mesh-based avatar formulation, combined with learned deformation, material, and lighting MLPs, produces avatars with high-quality geometry and appearance, while also being efficient to train and render compared to existing approaches. | 翻訳日:2023-10-27 19:16:08 公開日:2023-10-26 |
# 評価結果の妥当性:構成性ベンチマークによる一致度の評価 The Validity of Evaluation Results: Assessing Concurrence Across Compositionality Benchmarks ( http://arxiv.org/abs/2310.17514v1 ) ライセンス: Link先を確認 | Kaiser Sun, Adina Williams, Dieuwke Hupkes | (参考訳) 性能を評価するために提案された多くのデータセットによると、近年NLPモデルは大幅に進歩している。
しかしながら、データセット設計の選択がモデル機能に関する結論にどのように影響するか、という疑問は残る。
本研究では,構成一般化領域におけるこの問題について考察する。
4つのデータセットにまたがる6つのモデリング手法の性能について検討し、8つの合成分割戦略に従って分割し、合計18の合成一般化分割によるランク付けモデルについて検討した。
結果はこう示しています
一 構成一般化を評価するために考案されたデータセットであって、階数モデリングのアプローチが異なるもの
二 人間が生成したデータセットは、合成データセット又は合成データセットよりも、互いによく連携する。
三 概して、同じソースからデータセットをサンプリングしたか否かは、同じ構成性の解釈を維持しているか否かより、結果のモデルランキングの予測力が高い。
四 データに語彙項目を使用するものは、結論に強く影響を及ぼすことができる。
全体として,人気のある評価データセットが計測対象を計測するかどうかを評価する上では,多くの作業が継続され,評価セットの妥当性を確立するためのより厳格な基準を明らかにすることがこの分野に有益であることが示唆された。 NLP models have progressed drastically in recent years, according to numerous datasets proposed to evaluate performance. Questions remain, however, about how particular dataset design choices may impact the conclusions we draw about model capabilities. In this work, we investigate this question in the domain of compositional generalization. We examine the performance of six modeling approaches across 4 datasets, split according to 8 compositional splitting strategies, ranking models by 18 compositional generalization splits in total. Our results show that: i) the datasets, although all designed to evaluate compositional generalization, rank modeling approaches differently; ii) datasets generated by humans align better with each other than they with synthetic datasets, or than synthetic datasets among themselves; iii) generally, whether datasets are sampled from the same source is more predictive of the resulting model ranking than whether they maintain the same interpretation of compositionality; and iv) which lexical items are used in the data can strongly impact conclusions. Overall, our results demonstrate that much work remains to be done when it comes to assessing whether popular evaluation datasets measure what they intend to measure, and suggest that elucidating more rigorous standards for establishing the validity of evaluation sets could benefit the field. | 翻訳日:2023-10-27 19:15:31 公開日:2023-10-26 |
# 低ランク適応の表現力 The Expressive Power of Low-Rank Adaptation ( http://arxiv.org/abs/2310.17513v1 ) ライセンス: Link先を確認 | Yuchen Zeng, Kangwook Lee | (参考訳) 重み行列の低ランク適応を利用するパラメータ効率のよい微調整法であるLoRAは,大規模言語モデルや拡散モデルなどの事前学習モデルの微調整手法として広く用いられている。
実際に大きな成功を収めたにもかかわらず、ロラの理論的基盤は未解明のままである。
本稿では,ロラの表現力を理論的に解析することで,このギャップを埋める第一歩を踏み出す。
完全に接続されたニューラルネットワークの場合、LoRAは任意のモデル$f$を適用でき、任意の小さなターゲットモデルを表す$\overline{f}$ if LoRA-rank $\geq(\text{width of }f) \times \frac{\text{depth of }\overline{f}}{\text{depth of }f}$を正確に表現できる。
また,LoRAランクが閾値よりも低い場合の近似誤差を定量化する。
トランスフォーマーネットワークの場合、任意のモデルが、ランク-$(\frac{\text{embedding size}}{2})$ LoRAアダプタで同じサイズのターゲットモデルに適応可能であることを示す。 Low-Rank Adaptation (LoRA), a parameter-efficient fine-tuning method that leverages low-rank adaptation of weight matrices, has emerged as a prevalent technique for fine-tuning pre-trained models such as large language models and diffusion models. Despite its huge success in practice, the theoretical underpinnings of LoRA have largely remained unexplored. This paper takes the first step to bridge this gap by theoretically analyzing the expressive power of LoRA. We prove that, for fully connected neural networks, LoRA can adapt any model $f$ to accurately represent any smaller target model $\overline{f}$ if LoRA-rank $\geq(\text{width of }f) \times \frac{\text{depth of }\overline{f}}{\text{depth of }f}$. We also quantify the approximation error when LoRA-rank is lower than the threshold. For Transformer networks, we show any model can be adapted to a target model of the same size with rank-$(\frac{\text{embedding size}}{2})$ LoRA adapters. | 翻訳日:2023-10-27 19:15:13 公開日:2023-10-26 |
# 大規模減衰自然勾配の高効率数値解法 Efficient Numerical Algorithm for Large-Scale Damped Natural Gradient Descent ( http://arxiv.org/abs/2310.17556v1 ) ライセンス: Link先を確認 | Yixiao Chen, Hao Xie, Han Wang | (参考訳) 本研究では,パラメータ数が利用可能なサンプル数を大幅に上回る大規模シナリオにおいて,減衰したフィッシャー行列を効率的に解くアルゴリズムを提案する。
この問題は自然勾配降下と確率的再構成の基礎である。
本アルゴリズムはコレスキー分解に基づいており,一般に適用可能である。
ベンチマークの結果,アルゴリズムは既存の手法よりもかなり高速であることがわかった。 We propose a new algorithm for efficiently solving the damped Fisher matrix in large-scale scenarios where the number of parameters significantly exceeds the number of available samples. This problem is fundamental for natural gradient descent and stochastic reconfiguration. Our algorithm is based on Cholesky decomposition and is generally applicable. Benchmark results show that the algorithm is significantly faster than existing methods. | 翻訳日:2023-10-27 19:08:43 公開日:2023-10-26 |
# 言語補正による対話型ロボット学習 Interactive Robot Learning from Verbal Correction ( http://arxiv.org/abs/2310.17555v1 ) ライセンス: Link先を確認 | Huihan Liu, Alice Chen, Yuke Zhu, Adith Swaminathan, Andrey Kolobov, Ching-An Cheng | (参考訳) ロボットが家庭などの非構造環境で動作できるように設計するにつれて、デプロイ後の行動の学習と洗練がますます重要になっている。
本研究では,大言語モデル(LLM)に基づく新たな学習システムであるOLAFを設計し,ロボットが誤りを犯した時に,日常のユーザが言葉による訂正を用いてロボットに教えることができるようにした。
OLAFの重要な特徴は、言語フィードバックに基づいてロボットの視覚運動神経ポリシーを更新し、将来の繰り返しミスを避けることである。
既存のLLMベースのロボットシステムとは対照的に、言語コマンドや修正にのみ従うが、そこから学ばない。
本研究では,シミュレーションと物理ハードウェアの両方において,ロボットに長期操作を指導し,政策成功率を平均20.0%向上させる実験において,設計の有効性を実証する。
ビデオやその他の結果はhttps://ut-austin-rpl.github.io/olaf/にある。 The ability to learn and refine behavior after deployment has become ever more important for robots as we design them to operate in unstructured environments like households. In this work, we design a new learning system based on large language model (LLM), OLAF, that allows everyday users to teach a robot using verbal corrections when the robot makes mistakes, e.g., by saying "Stop what you're doing. You should move closer to the cup." A key feature of OLAF is its ability to update the robot's visuomotor neural policy based on the verbal feedback to avoid repeating mistakes in the future. This is in contrast to existing LLM-based robotic systems, which only follow verbal commands or corrections but not learn from them. We demonstrate the efficacy of our design in experiments where a user teaches a robot to perform long-horizon manipulation tasks both in simulation and on physical hardware, achieving on average 20.0% improvement in policy success rate. Videos and more results are at https://ut-austin-rpl.github.io/olaf/ | 翻訳日:2023-10-27 19:08:39 公開日:2023-10-26 |
# 対話型模倣学習によるモデルベースランタイムモニタリング Model-Based Runtime Monitoring with Interactive Imitation Learning ( http://arxiv.org/abs/2310.17552v1 ) ライセンス: Link先を確認 | Huihan Liu, Shivin Dass, Roberto Mart\'in-Mart\'in, Yuke Zhu | (参考訳) ロボット学習手法は近年大きな進歩を遂げているが、一般化と堅牢性の課題はいまだにその普及を妨げている。
潜在的な障害の検出と対処に失敗すると、最先端の学習システムは高いタスクに対処できない。
インタラクティブな模倣学習の最近の進歩は、ロボットが長期展開を通して安全かつ継続的なパフォーマンス向上を可能にする、人間ロボットチームのための有望なフレームワークを提示している。
それにもかかわらず、既存の方法は通常一定の人間の監督と先制的なフィードバックを必要とし、現実の領域での実用性を制限している。
本研究は,タスク実行中のエラーを監視し,検出する能力を備えたロボットの実現を目的とする。
本稿では,デプロイメントデータからシステム異常を検出し,障害を予測するためのモデルベースランタイム監視アルゴリズムを提案する。
今後の障害を予見したり,トレーニングに障害経験が必要な先行作業とは異なり,本手法は潜在空間ダイナミクスモデルと障害分類器を学習し,将来の動作結果をシミュレートし,分散状態やリスクの高い状態を事前に検出する。
私たちはインタラクティブな模倣学習フレームワークでメソッドをトレーニングし、信頼できるデプロイメントを使用して収集された人間-ロボットチームの経験からモデルを継続的に更新します。
これにより、信頼性の高いタスク実行を確保しながら、時間とともに必要な人的作業量を削減できる。
本手法は,シミュレーションおよび物理ハードウェアにおいて,23%,40%高い成功率で,システムレベルとユニットテストの指標でベースラインを上回っている。
詳細はhttps://ut-austin-rpl.github.io/sirius-runtime-monitor/を参照のこと。 Robot learning methods have recently made great strides, but generalization and robustness challenges still hinder their widespread deployment. Failing to detect and address potential failures renders state-of-the-art learning systems not combat-ready for high-stakes tasks. Recent advances in interactive imitation learning have presented a promising framework for human-robot teaming, enabling the robots to operate safely and continually improve their performances over long-term deployments. Nonetheless, existing methods typically require constant human supervision and preemptive feedback, limiting their practicality in realistic domains. This work aims to endow a robot with the ability to monitor and detect errors during task execution. We introduce a model-based runtime monitoring algorithm that learns from deployment data to detect system anomalies and anticipate failures. Unlike prior work that cannot foresee future failures or requires failure experiences for training, our method learns a latent-space dynamics model and a failure classifier, enabling our method to simulate future action outcomes and detect out-of-distribution and high-risk states preemptively. We train our method within an interactive imitation learning framework, where it continually updates the model from the experiences of the human-robot team collected using trustworthy deployments. Consequently, our method reduces the human workload needed over time while ensuring reliable task execution. Our method outperforms the baselines across system-level and unit-test metrics, with 23% and 40% higher success rates in simulation and on physical hardware, respectively. More information at https://ut-austin-rpl.github.io/sirius-runtime-monitor/ | 翻訳日:2023-10-27 19:08:19 公開日:2023-10-26 |
# 大きなモデルで倫理的価値のアライメントを解き放つ Unpacking the Ethical Value Alignment in Big Models ( http://arxiv.org/abs/2310.17551v1 ) ライセンス: Link先を確認 | Xiaoyuan Yi, Jing Yao, Xiting Wang and Xing Xie | (参考訳) 大きなモデルは、情報やコンテンツを理解し、生成し、操作するaiの能力を大幅に進歩させ、多くのアプリケーションを可能にしています。
しかし、これらのモデルが日常生活にますます統合されるにつれて、それらの固有の倫理的価値と潜在的なバイアスは社会に予期せぬリスクをもたらす。
本稿では,ビッグモデルに関連するリスクと課題の概要,既存のAI倫理ガイドラインを調査し,これらのモデルの限界から生じる倫理的影響について考察する。
規範的倫理観を踏まえて,近年の規範的ガイドラインの再検討を行い,統一的で普遍的なai倫理枠組みを確立するためのアカデミアにおける協力的努力の重要性を強調する。
さらに、Moral Foundation理論を用いて、現在主流のLCMの道徳的傾向を調査し、既存のアライメントアルゴリズムを分析し、それらの倫理的価値の整合に直面する固有の課題を概説する。
To address these challenges, we introduce a novel conceptual paradigm for aligning the ethical values of big models and discuss promising research directions for alignment criteria, evaluation, and method, representing an initial step towards the interdisciplinary construction of the ethically aligned AI This paper is a modified English version of our Chinese paper https://crad.ict.ac.cn/cn/article/doi/10.7544/issn1000-1239.202330553, intended to help non-Chinese native speakers better understand our work. Big models have greatly advanced AI's ability to understand, generate, and manipulate information and content, enabling numerous applications. However, as these models become increasingly integrated into everyday life, their inherent ethical values and potential biases pose unforeseen risks to society. This paper provides an overview of the risks and challenges associated with big models, surveys existing AI ethics guidelines, and examines the ethical implications arising from the limitations of these models. Taking a normative ethics perspective, we propose a reassessment of recent normative guidelines, highlighting the importance of collaborative efforts in academia to establish a unified and universal AI ethics framework. Furthermore, we investigate the moral inclinations of current mainstream LLMs using the Moral Foundation theory, analyze existing alignment algorithms, and outline the unique challenges encountered in aligning ethical values within them. To address these challenges, we introduce a novel conceptual paradigm for aligning the ethical values of big models and discuss promising research directions for alignment criteria, evaluation, and method, representing an initial step towards the interdisciplinary construction of the ethically aligned AI This paper is a modified English version of our Chinese paper https://crad.ict.ac.cn/cn/article/doi/10.7544/issn1000-1239.202330553, intended to help non-Chinese native speakers better understand our work. | 翻訳日:2023-10-27 19:07:51 公開日:2023-10-26 |
# 人間誘導複雑度制御抽象化 Human-Guided Complexity-Controlled Abstractions ( http://arxiv.org/abs/2310.17550v1 ) ライセンス: Link先を確認 | Andi Peng, Mycal Tucker, Eoin Kenny, Noga Zaslavsky, Pulkit Agrawal, Julie Shah | (参考訳) ニューラルネットワークはしばしば、新しい設定やタスクに一般化できないタスク固有の潜在表現を学ぶ。
逆に、人間は様々な抽象レベル(例えば ``bird'' 対 ``sparrow'')で離散表現(概念や言葉)を学び、タスクに基づいた適切な抽象化をデプロイする。
これにより、ニューラルネットワークを訓練して離散表現のスペクトルを生成し、表現上の分布のエントロピーをチューニングすることにより、表現の複雑さ(入力を符号化するために割り当てられるビット数)を制御する。
微調整実験では,新しいタスクのラベル付き例のみを用いて,(1)タスクに適した複雑性レベルへの表現のチューニングが最高の微調整性能をサポートすること,(2)人間参加型研究では,個別表現の可視化を用いて下流タスクの適切な複雑さレベルを識別できることを示した。
結果は,人間の洞察を活かし,迅速なモデルの微調整に有望な方向を示す。 Neural networks often learn task-specific latent representations that fail to generalize to novel settings or tasks. Conversely, humans learn discrete representations (i.e., concepts or words) at a variety of abstraction levels (e.g., ``bird'' vs. ``sparrow'') and deploy the appropriate abstraction based on task. Inspired by this, we train neural models to generate a spectrum of discrete representations, and control the complexity of the representations (roughly, how many bits are allocated for encoding inputs) by tuning the entropy of the distribution over representations. In finetuning experiments, using only a small number of labeled examples for a new task, we show that (1) tuning the representation to a task-appropriate complexity level supports the highest finetuning performance, and (2) in a human-participant study, users were able to identify the appropriate complexity level for a downstream task using visualizations of discrete representations. Our results indicate a promising direction for rapid model finetuning by leveraging human insight. | 翻訳日:2023-10-27 19:07:28 公開日:2023-10-26 |
# 離散変調連続可変量子鍵分布のための情報和解 Information reconciliation for discretely-modulated continuous-variable quantum key distribution ( http://arxiv.org/abs/2310.17548v1 ) ライセンス: Link先を確認 | Anthony Leverrier | (参考訳) このノートの目的は、離散変調を持つ連続変数量子鍵分散プロトコルの和解問題を説明することである。
このような変調形式はガウス変調を持つプロトコルと比較して実験的な実装を著しく単純化するので魅力的である。
入力状態のガウス分布に決定的に依存する以前のセキュリティ証明は適用不可能であり、エントロピー累積定理に基づく新しい証明が出現している。
残念ながら、これらの証明は既存の和解手続きと互換性がなく、和解問題の再評価が必要となる。
我々はこの問題が非自明であり、さらに注意に値すると主張する。
特に、最適効率で解くことができると仮定すると、鍵分散プロトコルの性能、特に長距離における過度に楽観的な予測につながる。 The goal of this note is to explain the reconciliation problem for continuous-variable quantum key distribution protocols with a discrete modulation. Such modulation formats are attractive since they significantly simplify experimental implementations compared to protocols with a Gaussian modulation. Previous security proofs that relied crucially on the Gaussian distribution of the input states are rendered inapplicable, and new proofs based on the entropy accumulation theorem have emerged. Unfortunately, these proofs are not compatible with existing reconciliation procedures, and necessitate a reevaluation of the reconciliation problem. We argue that this problem is nontrivial and deserves further attention. In particular, assuming it can be solved with optimal efficiency leads to overly optimistic predictions for the performance of the key distribution protocol, in particular for long distances. | 翻訳日:2023-10-27 19:07:11 公開日:2023-10-26 |
# 時系列予測のための階層型アンサンブル型特徴選択 Hierarchical Ensemble-Based Feature Selection for Time Series Forecasting ( http://arxiv.org/abs/2310.17544v1 ) ライセンス: Link先を確認 | Aysin Tumay, Mustafa E. Aydin, and Suleyman S. Kozat | (参考訳) 非定常な場合の階層的積み重ねに基づく特徴選択のための新しいアンサンブルアプローチと多数の特徴を持つ限られたサンプル数について検討する。
このアプローチでは,階層構造を用いた機能間の相互依存を利用する。
当初、機械学習モデルは機能のサブセットを使用してトレーニングされ、その後、残りの機能を持つ別のアルゴリズムを使用してモデルの出力が更新され、ターゲット損失を最小限に抑える。
この階層構造は柔軟な深さと特徴選択を可能にする。
機能共依存を階層的に活用することにより,提案手法は従来の特徴選択手法と特徴重要点の限界を克服する。
このアプローチの有効性は、従来の手法や最先端のアプローチと比較して、スケーラビリティと安定性によるパフォーマンスの向上を示す合成および実生活データセット上で実証されている。 We study a novel ensemble approach for feature selection based on hierarchical stacking in cases of non-stationarity and limited number of samples with large number of features. Our approach exploits the co-dependency between features using a hierarchical structure. Initially, a machine learning model is trained using a subset of features, and then the model's output is updated using another algorithm with the remaining features to minimize the target loss. This hierarchical structure allows for flexible depth and feature selection. By exploiting feature co-dependency hierarchically, our proposed approach overcomes the limitations of traditional feature selection methods and feature importance scores. The effectiveness of the approach is demonstrated on synthetic and real-life datasets, indicating improved performance with scalability and stability compared to the traditional methods and state-of-the-art approaches. | 翻訳日:2023-10-27 19:06:58 公開日:2023-10-26 |
# EqDrive: 自律運転のためのマルチモードによる効率的な同変運動予測 EqDrive: Efficient Equivariant Motion Forecasting with Multi-Modality for Autonomous Driving ( http://arxiv.org/abs/2310.17540v1 ) ライセンス: Link先を確認 | Yuping Wang, Jier Chen | (参考訳) 自律走行における車両運動の予測には、エージェント相互作用の深い理解とユークリッド幾何学的変換の下での運動同値の保存が必要である。
従来のモデルは、自動運転車に固有の複雑なダイナミクスや、シーン内のエージェント間の相互作用を扱うのに必要な洗練度を欠いていることが多い。
結果として、これらのモデルはモデルのキャパシティが低くなり、予測エラーが高まり、トレーニング効率が低下する。
本研究では,マルチエージェント車両運動予測のタスクにおいて,先行する同変粒子であるEqMotionと,不変エージェントの相互作用を考慮に入れた人間の予測モデルを用いる。
さらに,複数の将来の経路を確率論的に考慮するために,多モード予測機構を用いる。
EqMotionを利用することで、パラメータが少なく(120万)、トレーニング時間を2時間未満で大幅に短縮したSOTA(State-of-the-art)を実現する。 Forecasting vehicular motions in autonomous driving requires a deep understanding of agent interactions and the preservation of motion equivariance under Euclidean geometric transformations. Traditional models often lack the sophistication needed to handle the intricate dynamics inherent to autonomous vehicles and the interaction relationships among agents in the scene. As a result, these models have a lower model capacity, which then leads to higher prediction errors and lower training efficiency. In our research, we employ EqMotion, a leading equivariant particle, and human prediction model that also accounts for invariant agent interactions, for the task of multi-agent vehicle motion forecasting. In addition, we use a multi-modal prediction mechanism to account for multiple possible future paths in a probabilistic manner. By leveraging EqMotion, our model achieves state-of-the-art (SOTA) performance with fewer parameters (1.2 million) and a significantly reduced training time (less than 2 hours). | 翻訳日:2023-10-27 19:06:47 公開日:2023-10-26 |
# 小さな探検が必要なのは Little Exploration is All You Need ( http://arxiv.org/abs/2310.17538v1 ) ライセンス: Link先を確認 | Henry H.H. Chen, Jiaming Lu | (参考訳) 不確実性に直面したオプティミズム」の原則は、通常、訪問数(英語版)の逆平方根(英語版)($1/\sqrt{n}$)に比例する探索ボーナスを定式化することを提唱している。
しかし、このアプローチは「不確かさ」にのみ焦点をあて、異なる選択肢の固有の「難しさ」を無視している。
このギャップに対処するために,マルチアームバンディット問題における標準ucbアルゴリズムの新たな修正を導入し,タスク難易度を考慮した1/n^\tau$($\tau > 1/2$)の調整ボーナス項を提案する。
UCB$^\tau$と表記される提案アルゴリズムは、その理論的堅牢性を確認するために、包括的後悔とリスク分析によって裏付けられる。
合成データセットにおける標準のucbとトンプソンサンプリングアルゴリズムによる比較評価は、ucb$^\tau$が有効性を上回るだけでなく、様々な環境条件やハイパーパラメータの設定において低いリスクを示すことを示している。 The prevailing principle of "Optimism in the Face of Uncertainty" advocates for the incorporation of an exploration bonus, generally assumed to be proportional to the inverse square root of the visit count ($1/\sqrt{n}$), where $n$ is the number of visits to a particular state-action pair. This approach, however, exclusively focuses on "uncertainty," neglecting the inherent "difficulty" of different options. To address this gap, we introduce a novel modification of standard UCB algorithm in the multi-armed bandit problem, proposing an adjusted bonus term of $1/n^\tau$, where $\tau > 1/2$, that accounts for task difficulty. Our proposed algorithm, denoted as UCB$^\tau$, is substantiated through comprehensive regret and risk analyses, confirming its theoretical robustness. Comparative evaluations with standard UCB and Thompson Sampling algorithms on synthetic datasets demonstrate that UCB$^\tau$ not only outperforms in efficacy but also exhibits lower risk across various environmental conditions and hyperparameter settings. | 翻訳日:2023-10-27 19:06:29 公開日:2023-10-26 |
# 好奇心における神経刺激によるフラグメンテーションと破砕の克服 Neuro-Inspired Fragmentation and Recall to Overcome Catastrophic Forgetting in Curiosity ( http://arxiv.org/abs/2310.17537v1 ) ライセンス: Link先を確認 | Jaedong Hwang, Zhang-Wei Hong, Eric Chen, Akhilan Boopathy, Pulkit Agrawal, Ila Fiete | (参考訳) 深層強化学習手法は様々なタスクで印象的なパフォーマンスを示すが、大きな環境での難解な探索作業にはまだ乏しい報酬がある。
これに対処するために、環境が知られるにつれて減少する前方モデル予測誤差を用いて内在的な報酬を生成し、エージェントに新しい状態を探索するインセンティブを与えることができる。
予測に基づく内在的な報酬は、エージェントが難しい探索タスクを解決するのに役立ちますが、彼らは壊滅的な忘れに苦しみ、実際に訪問した状態で増加します。
まず,グリッド環境における破滅的忘れの状況と原因について検討する。
次に,人間と動物がどのように学習するかに着想を得た新しい手法を提案する。
エージェントは前提に基づいて環境をフラグメントし、各フラグメントに対して異なる局所好奇性モジュール(予測に基づく固有報酬関数)を使用して、モジュールが環境全体に基づいてトレーニングされないようにする。
各フラグメンテーションイベントにおいて、エージェントは、現在のモジュールを長期記憶(LTM)に格納し、新しいモジュールを初期化するか、現在の状態と一致して以前に保存されたモジュールをリコールする。
フラグメンテーションとリコールにより、FARCuriosityはAtariベンチマークスイートの様々な異種環境を持つゲームにおいて、忘れられにくく、全体的なパフォーマンスが向上する。
そこで本研究では,予測に基づく好奇心法における破滅的忘れの問題を強調し,その解決法を提案する。 Deep reinforcement learning methods exhibit impressive performance on a range of tasks but still struggle on hard exploration tasks in large environments with sparse rewards. To address this, intrinsic rewards can be generated using forward model prediction errors that decrease as the environment becomes known, and incentivize an agent to explore novel states. While prediction-based intrinsic rewards can help agents solve hard exploration tasks, they can suffer from catastrophic forgetting and actually increase at visited states. We first examine the conditions and causes of catastrophic forgetting in grid world environments. We then propose a new method FARCuriosity, inspired by how humans and animals learn. The method depends on fragmentation and recall: an agent fragments an environment based on surprisal, and uses different local curiosity modules (prediction-based intrinsic reward functions) for each fragment so that modules are not trained on the entire environment. At each fragmentation event, the agent stores the current module in long-term memory (LTM) and either initializes a new module or recalls a previously stored module based on its match with the current state. With fragmentation and recall, FARCuriosity achieves less forgetting and better overall performance in games with varied and heterogeneous environments in the Atari benchmark suite of tasks. Thus, this work highlights the problem of catastrophic forgetting in prediction-based curiosity methods and proposes a solution. | 翻訳日:2023-10-27 19:06:08 公開日:2023-10-26 |
# 頑健なニューラル・オードに対する極小最適制御法 A minimax optimal control approach for robust neural ODEs ( http://arxiv.org/abs/2310.17584v1 ) ライセンス: Link先を確認 | Cristina Cipriani, Alessandro Scagliotti, Tobias W\"ohrer | (参考訳) 本稿では,頑健な制御の観点から,ニューラルなODEの対角的訓練について述べる。
これは経験的リスク最小化による古典的な訓練の代替であり、入力摂動に対する信頼性の高い結果の強制に広く用いられている。
ニューラルネットワークは、深層ニューラルネットワークを制御システムの離散化として解釈し、制御理論から強力なツールを解き放ち、機械学習の開発と理解を可能にする。
この特定の場合において、摂動データを用いた対角トレーニングを極小最適制御問題として定式化し、ポントリャーギンの最大原理の形で一階最適条件を導出する。
我々は、低次元の分類タスクでテストする代替の重み付け手法に導く、頑健なトレーニングの新たな解釈を提供する。 In this paper, we address the adversarial training of neural ODEs from a robust control perspective. This is an alternative to the classical training via empirical risk minimization, and it is widely used to enforce reliable outcomes for input perturbations. Neural ODEs allow the interpretation of deep neural networks as discretizations of control systems, unlocking powerful tools from control theory for the development and the understanding of machine learning. In this specific case, we formulate the adversarial training with perturbed data as a minimax optimal control problem, for which we derive first order optimality conditions in the form of Pontryagin's Maximum Principle. We provide a novel interpretation of robust training leading to an alternative weighted technique, which we test on a low-dimensional classification task. | 翻訳日:2023-10-27 18:58:05 公開日:2023-10-26 |
# モジュラー局所構造埋め込みによる量子アニーリングによる有効素因数分解 Effective Prime Factorization via Quantum Annealing by Modular Locally-structured Embedding ( http://arxiv.org/abs/2310.17574v1 ) ライセンス: Link先を確認 | Jingwen Ding, Giuseppe Spallitta, and Roberto Sebastiani | (参考訳) 本稿では,量子アニール (QA) による素因数分解を解く新しい手法について検討する。
私たちの貢献は2倍です。
まず,現在のd-wave qaデバイスのペガサスアーキテクチャに,バイナリ乗算回路の新規かつ非常にコンパクトなモジュラー符号化を提案する。
鍵となる貢献は、制御されたフル加算器をペガサス位相内の8量子ビットモジュールにコンパクトにエンコードすることであり、最適化モジュラー理論を用いてオフラインで合成した。
これにより、21*12ビットの乗算器(および22*8ビットの乗算器)を現在のアニーラーのペガサス5760量子ビットトポロジーにエンコードできる。
私たちの知る限りでは、これらは量子アニーラにエンコードされた最大の分解問題です。
第2に,d波アドバンテージ4.1量子アニーラの広範囲な実験評価を行い,符号化pf問題を実際に解く問題について検討した。
実験では,アニールが最小値に達するのを助けるために,乗算器量子ビットを初期化するための様々な手法を導入し,いくつかの性能向上手法を採用した。
8, 219, 999 = 32, 749 * 251は、QPUリソースの限界内で分解できる最高の素数である。
私たちの知る限りでは、これは量子アニールによって、そしてより一般的には、量子デバイスによって決定された最大の数である。 This paper investigates novel techniques to solve prime factorization by quantum annealing (QA). Our contribution is twofold. First, we present a novel and very compact modular encoding of a binary multiplier circuit into the Pegasus architecture of current D-Wave QA devices. The key contribution is a compact encoding of a controlled full-adder into an 8-qubit module in the Pegasus topology, which we synthesized offline by means of Optimization Modulo Theories. This allows us to encode up to a 21*12-bit multiplier (and a 22*8-bit one) into the Pegasus 5760-qubit topology of current annealers. To the best of our knowledge, these are the largest factorization problems ever encoded into a quantum annealer. Second, we have investigated the problem of actually solving encoded PF problems by running an extensive experimental evaluation on a D-Wave Advantage 4.1 quantum annealer. In order to help the annealer in reaching the global minimum, in the experiments we introduced different approaches to initialize the multiplier qubits and adopted several performance enhancement techniques. Overall, exploiting all the encoding and solving techniques described in this paper, 8, 219, 999 = 32, 749 * 251 was the highest prime product we were able to factorize within the limits of our QPU resources. To the best of our knowledge, this is the largest number which was ever factorized by means of a quantum annealer, and, more generally, by a quantum device. | 翻訳日:2023-10-27 18:57:52 公開日:2023-10-26 |
# ブラックボックスの内側:ニューラルネットワークによる米国の不況のリアルタイム予測 Inside the black box: Neural network-based real-time prediction of US recessions ( http://arxiv.org/abs/2310.17571v1 ) ライセンス: Link先を確認 | Seulki Chung | (参考訳) フィードフォワードニューラルネットワーク(FFN)と2種類の特定のリカレントニューラルネットワーク、長い短期記憶(LSTM)とゲートリカレントユニット(GRU)は、1967年から2021年までのアメリカの不況をモデル化するために使用される。
推定されたモデルは、アメリカの大恐慌とコビッド19不況のリアルタイム予測に使用される。
彼らの予測性能は従来の線形モデルと比較されるが、ロジスティック回帰モデルは尾根ペナルティと無関係である。
アウトオブサンプル性能は、特に長期予測タスクにおいて、リセッション予測領域におけるLSTMとGRUの適用を示唆している。
異なるタイプの統計パフォーマンス指標に関して、5つの予測地平線にわたって、他のタイプのモデルよりも優れています。
重み付き加法的説明法 (SHAP) は, 異なる予測地平線をまたいだGRUに応用し, 特徴量の重要性について考察する。
予測因子の重要性の評価は、shap値によって決定される変数次数に反映されるように、 gru とリッジロジスティック回帰モデルで異なる。
上位5つの予測指標を考慮すると、S&P500指数、実質GDP、民間固定投資といった重要な指標が短期予測(最大3カ月)に一貫して現れる。
対照的に、長期予測(6ヶ月以上)では、この用語が広まり、生産者価格指数がより顕著になる。
これらの知見は、局所的解釈可能なモデル非依存的説明(LIME)と限界効果の両方によって裏付けられる。 Feedforward neural network (FFN) and two specific types of recurrent neural network, long short-term memory (LSTM) and gated recurrent unit (GRU), are used for modeling US recessions in the period from 1967 to 2021. The estimated models are then employed to conduct real-time predictions of the Great Recession and the Covid-19 recession in US. Their predictive performances are compared to those of the traditional linear models, the logistic regression model both with and without the ridge penalty. The out-of-sample performance suggests the application of LSTM and GRU in the area of recession forecasting, especially for the long-term forecasting tasks. They outperform other types of models across 5 forecasting horizons with respect to different types of statistical performance metrics. Shapley additive explanations (SHAP) method is applied to the fitted GRUs across different forecasting horizons to gain insight into the feature importance. The evaluation of predictor importance differs between the GRU and ridge logistic regression models, as reflected in the variable order determined by SHAP values. When considering the top 5 predictors, key indicators such as the S\&P 500 index, real GDP, and private residential fixed investment consistently appear for short-term forecasts (up to 3 months). In contrast, for longer-term predictions (6 months or more), the term spread and producer price index become more prominent. These findings are supported by both local interpretable model-agnostic explanations (LIME) and marginal effects. | 翻訳日:2023-10-27 18:57:29 公開日:2023-10-26 |
# DiffS2UT: テキスト直接音声合成のための意味保存拡散モデル DiffS2UT: A Semantic Preserving Diffusion Model for Textless Direct Speech-to-Speech Translation ( http://arxiv.org/abs/2310.17570v1 ) ライセンス: Link先を確認 | Yongxin Zhu, Zhujin Gao, Xinyuan Zhou, Zhongyi Ye, Linli Xu | (参考訳) 拡散生成モデルは画像生成タスクにおいて大きな成功を収めているが、音声生成に効果的にそれらを組み込む方法、特に翻訳タスクは、非自明な問題である。
特に、音声データの情報密度が低いため、変換された離散音声単位のシーケンスは対応するテキストの書き起こしよりもはるかに長く、既存の自己回帰モデルにとって大きな課題となっている。
さらに、連続空間構造を無視しながら、音声単位系列に離散拡散を残忍に施すことは、生成性能を著しく低下させるため最適ではない。
本稿では,<textit{discrete} 音声単位空間における拡散逆過程を用いて,<textit{continuous} 音声表現空間における拡散前処理を適用して,新しい拡散モデルを提案する。
このようにして、拡散過程における連続音声表現空間の意味構造を保存し、連続拡散モデルと離散拡散モデルを統合する。
提案手法は,計算集約型自己回帰ベースライン(平均500ステップ)と比較し,復号化ステップ(50ステップ)を有意に削減した。 While Diffusion Generative Models have achieved great success on image generation tasks, how to efficiently and effectively incorporate them into speech generation especially translation tasks remains a non-trivial problem. Specifically, due to the low information density of speech data, the transformed discrete speech unit sequence is much longer than the corresponding text transcription, posing significant challenges to existing auto-regressive models. Furthermore, it is not optimal to brutally apply discrete diffusion on the speech unit sequence while disregarding the continuous space structure, which will degrade the generation performance significantly. In this paper, we propose a novel diffusion model by applying the diffusion forward process in the \textit{continuous} speech representation space, while employing the diffusion backward process in the \textit{discrete} speech unit space. In this way, we preserve the semantic structure of the continuous speech representation space in the diffusion process and integrate the continuous and discrete diffusion models. We conduct extensive experiments on the textless direct speech-to-speech translation task, where the proposed method achieves comparable results to the computationally intensive auto-regressive baselines (500 steps on average) with significantly fewer decoding steps (50 steps). | 翻訳日:2023-10-27 18:57:02 公開日:2023-10-26 |
# SD4Match: セマンティックマッチングのための安定拡散モデルの学習 SD4Match: Learning to Prompt Stable Diffusion Model for Semantic Matching ( http://arxiv.org/abs/2310.17569v1 ) ライセンス: Link先を確認 | Xinghui Li, Jingyi Lu, Kai Han, Victor Prisacariu | (参考訳) 本稿では,画像ペア間で意味的に類似したキーポイントをマッチングするという課題に対処する。
既存の研究によれば、安定拡散 (sd) 内の unet の中間出力は、そのようなマッチングタスクのためのロバストな画像特徴マップとして機能する。
我々は,基本的なプロンプトチューニング手法を用いることにより,安定拡散の固有ポテンシャルを生かして,従来の手法よりも精度が著しく向上することを示す。
さらに,入力画像ペアの局所的な詳細を条件とする条件付プロンプトモジュールを導入することにより,さらなる性能向上を実現する。
本手法は,セマンティックマッチングのための安定拡散の略であるSD4Matchと定義する。
PF-Pascal、PF-Willow、SPair-71kデータセットにおけるSD4Matchの総合的な評価は、これらのデータセット全体で新しいベンチマークを正確に設定していることを示している。
特にsd4matchは、挑戦的なspair-71kデータセットの12ポイントのマージンで以前の最先端を上回っている。 In this paper, we address the challenge of matching semantically similar keypoints across image pairs. Existing research indicates that the intermediate output of the UNet within the Stable Diffusion (SD) can serve as robust image feature maps for such a matching task. We demonstrate that by employing a basic prompt tuning technique, the inherent potential of Stable Diffusion can be harnessed, resulting in a significant enhancement in accuracy over previous approaches. We further introduce a novel conditional prompting module that conditions the prompt on the local details of the input image pairs, leading to a further improvement in performance. We designate our approach as SD4Match, short for Stable Diffusion for Semantic Matching. Comprehensive evaluations of SD4Match on the PF-Pascal, PF-Willow, and SPair-71k datasets show that it sets new benchmarks in accuracy across all these datasets. Particularly, SD4Match outperforms the previous state-of-the-art by a margin of 12 percentage points on the challenging SPair-71k dataset. | 翻訳日:2023-10-27 18:56:41 公開日:2023-10-26 |
# マルチモーダルなヒューマンロボットコラボレーションの成功への旅:分析とコーパスリリース Navigating to Success in Multi-Modal Human-Robot Collaboration: Analysis and Corpus Release ( http://arxiv.org/abs/2310.17568v1 ) ライセンス: Link先を確認 | Stephanie M. Lukin and Kimberly A. Pollard and Claire Bonial and Taylor Hudson and Ron Arstein and Clare Voss and David Traum | (参考訳) 人間誘導型ロボット探査は、遠隔地、特に危険すぎる、不安定な、あるいは人間に近づかない情報を集めるための有用なアプローチである。
遠隔地にあるパートナ間の共通基盤を維持することは、マルチモーダル通信によって促進される課題である。
本稿では,ロボットパートナーの助けを借りて,遠隔地調査に複数のモダリティを用いた方法を検討する。
参加者は、テキストベースのフィードバック、連続した2D LIDARマッピング、オンデマンドの静止写真など、自然言語による指示を発し、ロボットから受け取った。
モーダルティの利用に関して異なる戦略が採用されたことに気付き、これらの違いがいくつかの探索サブタスクの成功と相関する可能性があると仮説を立てた。
その結果,画像の要求により,重要なエンティティ(特に道路)の識別とカウントが向上し,この戦略が地域調査全体の妨げにならないことがわかった。
大きなサンプルを使った今後の研究は、よりニュアンス的な写真と対話戦略の効果を明らかにし、ロボットエージェントの訓練を知らせるかもしれない。
さらに,人間-ロボットコミュニケーションのユニークなマルチモーダルコーパス(SCOUT, Situated Corpus on Understanding Transactions)のリリースも発表した。 Human-guided robotic exploration is a useful approach to gathering information at remote locations, especially those that might be too risky, inhospitable, or inaccessible for humans. Maintaining common ground between the remotely-located partners is a challenge, one that can be facilitated by multi-modal communication. In this paper, we explore how participants utilized multiple modalities to investigate a remote location with the help of a robotic partner. Participants issued spoken natural language instructions and received from the robot: text-based feedback, continuous 2D LIDAR mapping, and upon-request static photographs. We noticed that different strategies were adopted in terms of use of the modalities, and hypothesize that these differences may be correlated with success at several exploration sub-tasks. We found that requesting photos may have improved the identification and counting of some key entities (doorways in particular) and that this strategy did not hinder the amount of overall area exploration. Future work with larger samples may reveal the effects of more nuanced photo and dialogue strategies, which can inform the training of robotic agents. Additionally, we announce the release of our unique multi-modal corpus of human-robot communication in an exploration context: SCOUT, the Situated Corpus on Understanding Transactions. | 翻訳日:2023-10-27 18:56:26 公開日:2023-10-26 |
# Skill-Mix:AIモデルの柔軟な拡張可能な評価ファミリ Skill-Mix: a Flexible and Expandable Family of Evaluations for AI models ( http://arxiv.org/abs/2310.17567v1 ) ライセンス: Link先を確認 | Dingli Yu, Simran Kaur, Arushi Gupta, Jonah Brown-Cohen, Anirudh Goyal, Sanjeev Arora | (参考訳) LLMが言語統計モデルから汎用AIエージェントへと役割を移す中、LLMの評価はどのように変化するのか?
AIエージェントの重要な能力は、必要に応じて、学習した基本的なスキルを柔軟に組み合わせることである。
スキルを組み合わせる能力は、(人間)教育や、出現現象に関する論文(Arora & Goyal, 2023)でも重要な役割を果たしている。
Skill-Mixは、スキルを組み合わせる能力を測定するための新しい評価である。
N$スキルのリストを使用して、評価者は繰り返し$k$スキルのランダムなサブセットを選択し、LLMにそのスキルのサブセットを組み合わせたテキストを生成するように要求する。
N^k$のようにサブセットの数が増えるので、たとえ控えめな$k$であっても、高い確率で、LCMはトレーニングセット内のどのテキストと大きく異なるテキストを生成する必要がある。
論文は方法論を発展させる
(a)そのような評価を設計・管理し、
b) GPT-4とオープンLLaMA-270Bモデルを用いた結果の自動評価(+人間によるスポットチェック)を行った。
人気チャットボットへのバージョン管理の結果は、一般的には以前の期待に沿うものの、サプライズを含んでいた。
LLMのリーダーボード("cramming for the Leaderboard")にランク付けされていないモデル機能には、大きな違いがある。
さらに、単純な確率計算は、gpt-4の$k=5$での合理的なパフォーマンスが、"stochastic parrot"行動(bender et al., 2021)を超えることを示唆していることを示している。
我々は,この方法論が将来のモデルのAI能力に対するオープン評価のスキル・ミクスに基づくエコシステムにどのように貢献するかをスケッチする。 With LLMs shifting their role from statistical modeling of language to serving as general-purpose AI agents, how should LLM evaluations change? Arguably, a key ability of an AI agent is to flexibly combine, as needed, the basic skills it has learned. The capability to combine skills plays an important role in (human) pedagogy and also in a paper on emergence phenomena (Arora & Goyal, 2023). This work introduces Skill-Mix, a new evaluation to measure ability to combine skills. Using a list of $N$ skills the evaluator repeatedly picks random subsets of $k$ skills and asks the LLM to produce text combining that subset of skills. Since the number of subsets grows like $N^k$, for even modest $k$ this evaluation will, with high probability, require the LLM to produce text significantly different from any text in the training set. The paper develops a methodology for (a) designing and administering such an evaluation, and (b) automatic grading (plus spot-checking by humans) of the results using GPT-4 as well as the open LLaMA-2 70B model. Administering a version of to popular chatbots gave results that, while generally in line with prior expectations, contained surprises. Sizeable differences exist among model capabilities that are not captured by their ranking on popular LLM leaderboards ("cramming for the leaderboard"). Furthermore, simple probability calculations indicate that GPT-4's reasonable performance on $k=5$ is suggestive of going beyond "stochastic parrot" behavior (Bender et al., 2021), i.e., it combines skills in ways that it had not seen during training. We sketch how the methodology can lead to a Skill-Mix based eco-system of open evaluations for AI capabilities of future models. | 翻訳日:2023-10-27 18:56:05 公開日:2023-10-26 |
# RNNトレーニングにおける分岐と損失ジャンプ Bifurcations and loss jumps in RNN training ( http://arxiv.org/abs/2310.17561v1 ) ライセンス: Link先を確認 | Lukas Eisenmann, Zahra Monfared, Niclas Alexander G\"oring, Daniel Durstewitz | (参考訳) リカレントニューラルネットワーク(RNN)は、シーケンシャルデータのモデリングと予測、および観測時系列から動的システム(DS)を推定するための一般的な機械学習ツールである。
ds理論(dst)の概念は、トレーニングされたrnnが複雑なタスクをどのように解決するか、トレーニングプロセス自体を理解するために様々な用途に使われてきた。
ビフルケーションはDSにおいて特に重要な現象であり、RNNはシステムの力学挙動におけるトポロジカルな変化を1つ以上のパラメータとして言及する。
したがって、RNNの分岐構造を知ることで、パラメータの変動に対する感度やトレーニング中の振る舞いなど、計算的および動的特性の多くを導出することができる。
特に、分岐は、RNNトレーニングで観察された突然の損失ジャンプを考慮し、トレーニングプロセスに深刻な障害を与える可能性がある。
ここでは、ReLUベースのRNNの特定のクラスについて、ある分岐が、無限大やゼロに傾向のある損失勾配と実際に関連していることを数学的に証明する。
次に、ReLUベースのRNNにおけるすべての固定点とkサイクルとその存在と安定性領域を検出する新しいヒューリスティックアルゴリズムを導入する。
従来の不動点や共通継続法を求める数値アルゴリズムとは対照的に,本アルゴリズムは正確な結果を提供し,高次までの不動点とサイクルを,驚くほどよいスケーリング動作で返却する。
本稿では,rnnの学習過程の分析に関するアルゴリズムを例示し,最近導入された一般化教師の技法が,訓練におけるある種の分岐を完全に回避していることを示す。
したがって、トレーニングされたRNNのDST解析を容易にすることに加えて、我々のアルゴリズムはトレーニングプロセス自体を分析するための強力な手段を提供する。 Recurrent neural networks (RNNs) are popular machine learning tools for modeling and forecasting sequential data and for inferring dynamical systems (DS) from observed time series. Concepts from DS theory (DST) have variously been used to further our understanding of both, how trained RNNs solve complex tasks, and the training process itself. Bifurcations are particularly important phenomena in DS, including RNNs, that refer to topological (qualitative) changes in a system's dynamical behavior as one or more of its parameters are varied. Knowing the bifurcation structure of an RNN will thus allow to deduce many of its computational and dynamical properties, like its sensitivity to parameter variations or its behavior during training. In particular, bifurcations may account for sudden loss jumps observed in RNN training that could severely impede the training process. Here we first mathematically prove for a particular class of ReLU-based RNNs that certain bifurcations are indeed associated with loss gradients tending toward infinity or zero. We then introduce a novel heuristic algorithm for detecting all fixed points and k-cycles in ReLU-based RNNs and their existence and stability regions, hence bifurcation manifolds in parameter space. In contrast to previous numerical algorithms for finding fixed points and common continuation methods, our algorithm provides exact results and returns fixed points and cycles up to high orders with surprisingly good scaling behavior. We exemplify the algorithm on the analysis of the training process of RNNs, and find that the recently introduced technique of generalized teacher forcing completely avoids certain types of bifurcations in training. Thus, besides facilitating the DST analysis of trained RNNs, our algorithm provides a powerful instrument for analyzing the training process itself. | 翻訳日:2023-10-27 18:55:33 公開日:2023-10-26 |
# コンピュータビジョンモデルの不安定性はタスク自体の必要な結果である Instability of computer vision models is a necessary result of the task itself ( http://arxiv.org/abs/2310.17559v1 ) ライセンス: Link先を確認 | Oliver Turnbull, George Cevora | (参考訳) 現在のコンピュータビジョンモデルの不安定性から生じる敵の例は、アプリケーションに侵入する可能性があるため、非常に重要なトピックである。
本稿では不安定が必然的であることを示す。
a)データの対称性(推移不変性)
b) 分類作業の分類学的性質,及び
c) 画像自体をオブジェクトとして分類することの根本的な相違
この問題は、トレーニングデータの非実行ラベル付けによってさらに悪化する。
したがって、コンピュータビジョンの問題を現在どのように定式化しているかは、不安定性が不可欠である。
問題は排除できないが、原因の分析を通じて、我々はそれを部分的に緩和する方法に到達した。
以下を含む。
一 画像の解像度を増加させること
二 画像の文脈情報の提供
三 トレーニングデータの徹底的なラベル付け及び
四 攻撃者がコンピュータビジョンシステムに頻繁にアクセスすることを防止すること。 Adversarial examples resulting from instability of current computer vision models are an extremely important topic due to their potential to compromise any application. In this paper we demonstrate that instability is inevitable due to a) symmetries (translational invariance) of the data, b) the categorical nature of the classification task, and c) the fundamental discrepancy of classifying images as objects themselves. The issue is further exacerbated by non-exhaustive labelling of the training data. Therefore we conclude that instability is a necessary result of how the problem of computer vision is currently formulated. While the problem cannot be eliminated, through the analysis of the causes, we have arrived at ways how it can be partially alleviated. These include i) increasing the resolution of images, ii) providing contextual information for the image, iii) exhaustive labelling of training data, and iv) preventing attackers from frequent access to the computer vision system. | 翻訳日:2023-10-27 18:55:05 公開日:2023-10-26 |
# 電話と音声のマッチングに向けて Towards Matching Phones and Speech Representations ( http://arxiv.org/abs/2310.17558v1 ) ライセンス: Link先を確認 | Gene-Ping Yang and Hao Tang | (参考訳) 電話のインスタンスから電話のタイプを学ぶことは、長い間問題だったが、まだオープンだ。
本研究では,この問題を自己教師付き学習の文脈で再検討し,クラスタセンタロイドと電話の埋め込みをマッチングする問題として捉える。
自己教師付き表現のクラスタセンタロイドが、電話インスタンスの変動を減少させ、電話間の関係を尊重するかどうかという2つの重要な特性について検討した。
次に、マッチング結果を用いて擬似ラベルを生成し、自己教師付き表現を改善する新しい損失関数を導入する。
実験の結果,一致した結果が電話機間の関係を捉えることがわかった。
APCやCPCのような正規の自己監督的損失と連動して新しい損失関数を訓練することで、ダウンストリーム電話の分類を大幅に改善する。 Learning phone types from phone instances has been a long-standing problem, while still being open. In this work, we revisit this problem in the context of self-supervised learning, and pose it as the problem of matching cluster centroids to phone embeddings. We study two key properties that enable matching, namely, whether cluster centroids of self-supervised representations reduce the variability of phone instances and respect the relationship among phones. We then use the matching result to produce pseudo-labels and introduce a new loss function for improving self-supervised representations. Our experiments show that the matching result captures the relationship among phones. Training the new loss function jointly with the regular self-supervised losses, such as APC and CPC, significantly improves the downstream phone classification. | 翻訳日:2023-10-27 18:54:55 公開日:2023-10-26 |
# 無騒音スコア蒸留 Noise-Free Score Distillation ( http://arxiv.org/abs/2310.17590v1 ) ライセンス: Link先を確認 | Oren Katzir, Or Patashnik, Daniel Cohen-Or, Dani Lischinski | (参考訳) SDS(Score Distillation Sampling)は、非画像領域におけるテキストからコンテンツへの生成の事実上のアプローチとして登場した。
本稿では,SDSプロセスを再検討し,不要な雑音項の蒸留に根ざした大規模分類自由誘導(CFG)尺度の必要性を確定する簡単な解釈を導入する。
この解釈に基づいて,従来のSDSフレームワークに最小限の変更を必要とする新しいノイズフリースコア蒸留(NFSD)プロセスを提案する。
この合理化設計により,CFGスケールを用いて,事前学習したテキスト・画像拡散モデルのより効率的な蒸留が可能となる。
この戦略的選択によって、結果の過剰なスムーズを防止し、生成されたデータが現実的であり、望ましいプロンプトに対応することを保証できます。
NFSDの有効性を示すために,NFSDとSDSを比較した定性的な例と,他のいくつかの方法を提案する。 Score Distillation Sampling (SDS) has emerged as the de facto approach for text-to-content generation in non-image domains. In this paper, we reexamine the SDS process and introduce a straightforward interpretation that demystifies the necessity for large Classifier-Free Guidance (CFG) scales, rooted in the distillation of an undesired noise term. Building upon our interpretation, we propose a novel Noise-Free Score Distillation (NFSD) process, which requires minimal modifications to the original SDS framework. Through this streamlined design, we achieve more effective distillation of pre-trained text-to-image diffusion models while using a nominal CFG scale. This strategic choice allows us to prevent the over-smoothing of results, ensuring that the generated data is both realistic and complies with the desired prompt. To demonstrate the efficacy of NFSD, we provide qualitative examples that compare NFSD and SDS, as well as several other methods. | 翻訳日:2023-10-27 18:49:11 公開日:2023-10-26 |
# llamaシリーズモデルのためのオープンソースデータ汚染レポート An Open Source Data Contamination Report for Llama Series Models ( http://arxiv.org/abs/2310.17589v1 ) ライセンス: Link先を確認 | Yucheng Li | (参考訳) 言語モデル評価におけるデータ汚染は、大規模言語モデルの人気が高まりつつある。
モデルが本当の能力を示すのではなく、記憶を通じて“焼く”ことができるのです。
そのため, 汚染分析は信頼性モデル評価において重要な要素となり, 評価結果が得られた。
しかしながら、既存の汚染分析は通常、LLM開発者によって内部で行われ、透明性と完全性に欠けることが多い。
本稿では,llamaシリーズモデルのオープンソースデータ汚染レポートについて述べる。
6つの一般的なマルチチョイスqaベンチマークを分析し,llamaのトレーニングセットとの重なりを定量化する。
1\%から8.7\%までの様々な汚染レベルがベンチマークで見られる。
また,Llamaモデルでは汚染されたサブセットに対して,クリーンサブセットに対して5倍以上の精度が得られることを示した。
データとコードは、https://github.com/liyucheng09/contamination_detectorで入手できる。 Data contamination in language model evaluation is increasingly prevalent as the popularity of large language models. It allows models to "cheat" via memorisation instead of displaying true capabilities. Therefore, contamination analysis has became an crucial part of reliable model evaluation to validate results. However, existing contamination analysis is usually conducted internally by LLM developers and often lacks transparency and completeness. This paper present an open source data contamination reports for the Llama series models. We analyse six popular multi-choice QA benchmarks and quantify their overlapping with the training set of Llama. Various levels of contamination ranging from 1\% to 8.7\% are found across benchmarks. Our comparison also reveals that Llama models can gain over 5\% higher accuracy on contaminated subsets versus clean subsets. Data and code are available at: https://github.com/liyucheng09/Contamination_Detector. | 翻訳日:2023-10-27 18:48:55 公開日:2023-10-26 |
# pac-tuning:pac駆動摂動勾配を持つ微調整事前学習言語モデル PAC-tuning:Fine-tuning Pretrained Language Models with PAC-driven Perturbed Gradient Descent ( http://arxiv.org/abs/2310.17588v1 ) ライセンス: Link先を確認 | Guangliang Liu, Zhiyu Xue, Xitong Zhang, Kristen Marie Johnson and Rongrong Wang | (参考訳) 下流タスクのための微調整事前学習言語モデル(PLM)は、大規模な最適化問題であり、トレーニングアルゴリズムの選択は、トレーニングされたモデルがテストデータ、特に数ショット学習の文脈において、どれだけうまく一般化できるかを批判的に決定する。
一般化性能が良く、過度な適合を避けるため、データ拡張やプルーニングといった技法がよく用いられる。
しかし、これらの正規化の追加は、人気のあるadamオプティマイザのような最適化アルゴリズムのハイパーパラメータの重調整を必要とする。
本稿では,この最適化課題に対処する2段階ファインチューニング手法であるPACチューニングを提案する。
第一に、PAC-Bayesトレーニングに基づき、PAC-TuningはPAC-Bayes一般化を最小化し、適切なパラメータ分布を学習する。
第2に、PACチューニングは、トレーニング中にモデルパラメータに学習したノイズを注入することで勾配を調整し、乱れ勾配降下(PGD)の変種をもたらす。
過去には、PAC-Bayes境界が訓練データに制限のある大型モデルに適用された場合、制約がないため、PAC-Bayes訓練の難しさを招いた。
5つのGLUEベンチマークタスクに対する実験結果から,PACチューニングが微調整タスクの課題をうまく処理し,強力なベースライン手法を目に見えるマージンで上回ることを示すとともに,Adamオプティマイザが現在トレーニングに使用されている他の設定にPACトレーニングを適用する可能性を確認することができた。 Fine-tuning pretrained language models (PLMs) for downstream tasks is a large-scale optimization problem, in which the choice of the training algorithm critically determines how well the trained model can generalize to unseen test data, especially in the context of few-shot learning. To achieve good generalization performance and avoid overfitting, techniques such as data augmentation and pruning are often applied. However, adding these regularizations necessitates heavy tuning of the hyperparameters of optimization algorithms, such as the popular Adam optimizer. In this paper, we propose a two-stage fine-tuning method, PAC-tuning, to address this optimization challenge. First, based on PAC-Bayes training, PAC-tuning directly minimizes the PAC-Bayes generalization bound to learn proper parameter distribution. Second, PAC-tuning modifies the gradient by injecting noise with the variance learned in the first stage into the model parameters during training, resulting in a variant of perturbed gradient descent (PGD). In the past, the few-shot scenario posed difficulties for PAC-Bayes training because the PAC-Bayes bound, when applied to large models with limited training data, might not be stringent. Our experimental results across 5 GLUE benchmark tasks demonstrate that PAC-tuning successfully handles the challenges of fine-tuning tasks and outperforms strong baseline methods by a visible margin, further confirming the potential to apply PAC training for any other settings where the Adam optimizer is currently used for training. | 翻訳日:2023-10-27 18:48:44 公開日:2023-10-26 |
# グローバル音声, ローカルバイアス: 言語間の社会・文化的偏見 Global Voices, Local Biases: Socio-Cultural Prejudices across Languages ( http://arxiv.org/abs/2310.17586v1 ) ライセンス: Link先を確認 | Anjishnu Mukherjee, Chahat Raj, Ziwei Zhu, Antonios Anastasopoulos | (参考訳) 人間のバイアスは普遍的だが一様ではない: 言語的、文化的、社会的な境界に格差が存在する。
最近の多くの文献が示唆しているように、人間のデータに基づいて訓練された言語モデル(LM)は、これらの社会的バイアスの影響を反映し、しばしば増幅することができる。
しかし、既存のバイアスに関する研究の大部分は、西欧語やヨーロッパ語に大きく偏っている。
本研究では,Word Embedding Association Test (WEAT) を24言語に拡張し,より広範な研究を可能にし,LMバイアスに関する興味深い知見を得た。
さらに、これらのデータを各言語に関する文化的関連情報で拡張し、グローバルスケールでローカルコンテキストをキャプチャする。
さらに,より広く普及している社会バイアスを包含するため,毒性,有能性等にまたがる新たなバイアス次元について検討する。
さらに,インドの言語景観を深く掘り下げ,6つの広範に分布するインド諸言語にまたがる地域的バイアス分析を行った。
最後に,これらの社会的バイアスと新たな次元の重要性を,埋め込み手法の広範な比較を通じて強調し,より公平な言語モデルを求める上での対処の必要性を補強する。
すべてのコード、データ、結果は以下の通りである。 Human biases are ubiquitous but not uniform: disparities exist across linguistic, cultural, and societal borders. As large amounts of recent literature suggest, language models (LMs) trained on human data can reflect and often amplify the effects of these social biases. However, the vast majority of existing studies on bias are heavily skewed towards Western and European languages. In this work, we scale the Word Embedding Association Test (WEAT) to 24 languages, enabling broader studies and yielding interesting findings about LM bias. We additionally enhance this data with culturally relevant information for each language, capturing local contexts on a global scale. Further, to encompass more widely prevalent societal biases, we examine new bias dimensions across toxicity, ableism, and more. Moreover, we delve deeper into the Indian linguistic landscape, conducting a comprehensive regional bias analysis across six prevalent Indian languages. Finally, we highlight the significance of these social biases and the new dimensions through an extensive comparison of embedding methods, reinforcing the need to address them in pursuit of more equitable language models. All code, data and results are available here: https://github.com/iamshnoo/weathub. | 翻訳日:2023-10-27 18:48:13 公開日:2023-10-26 |
# 量子コヒーレンスによる生体分子スイッチ効率の向上 Boosting Biomolecular Switch Efficiency With Quantum Coherence ( http://arxiv.org/abs/2310.17585v1 ) ライセンス: Link先を確認 | Mattheus Burkhard and Onur Pusuluk and Tristan Farrow | (参考訳) 量子熱力学の資源理論は、微視的・高相関系の平衡ダイナミクスを探求するための強力なツールとして登場した。
近年では、光受容体タンパク質ロドプシンの異性化を通じて視覚を促進させるメカニズムである光異性化によって、この物理的過程に固有の効率の基本的な限界が解明されている。
この過程におけるエネルギー的量子コヒーレンスの影響は、熱操作を受ける個々の分子内のエネルギー準位集団には影響しないため、限られた注意が払われている。
しかし、特定のタイプのエネルギー量子コヒーレンスは、2つ以上の分子を含むシナリオにおけるエネルギーレベルの集団に影響を与える可能性がある。
本研究では,光異性化処理中の2つの分子について,エネルギー量子コヒーレンスが光異性化効率を増幅する資源として機能することを示す。
これらの知見は、メソスコピックスケールでの量子熱力学の領域における重要な資源としてのエネルギー的量子コヒーレンスの役割の証拠を提供する。 The resource theory of quantum thermodynamics has emerged as a powerful tool for exploring the out-of-equilibrium dynamics of microscopic and highly correlated systems. Recently, it has been employed in photoisomerization, a mechanism facilitating vision through the isomerism of the photo receptor protein rhodopsin, to elucidate the fundamental limits of efficiency inherent in this physical process. Limited attention has been given to the impact of energetic quantum coherences in this process, as these coherences do not influence the energy level populations within an individual molecule subjected to thermal operations. However, a specific type of energetic quantum coherences can impact the energy level populations in the scenario involving two or more molecules. In this study, we examine the case of two molecules undergoing photoisomerization to show that energetic quantum coherence can function as a resource that amplifies the efficiency of photoisomerization. These insights offer evidence for the role of energetic quantum coherence as a key resource in the realm of quantum thermodynamics at mesoscopic scales. | 翻訳日:2023-10-27 18:47:52 公開日:2023-10-26 |
# ワッサーシュタイン空間における近位勾配降下による流れ型生成モデルの収束 Convergence of flow-based generative models via proximal gradient descent in Wasserstein space ( http://arxiv.org/abs/2310.17582v1 ) ライセンス: Link先を確認 | Xiuyuan Cheng, Jianfeng Lu, Yixin Tan, Yao Xie | (参考訳) フローベースの生成モデルは、データ生成と可能性の計算において一定の利点を享受し、最近は競争力のある経験的性能を示している。
関連するスコアベース拡散モデルに関する理論的研究と比べ、前方方向(データ-ノイズ)と逆方向(ノイズ-データ)の両方で決定論的なフローモデルの解析はいまだに不十分である。
本稿では,Jordan-Kinderleherer-Otto(JKO)方式を正規化フローネットワークに実装した,プログレッシブフローモデルであるJKOフローモデルによりデータ分散を生成する理論的保証を提供する。
ワッサーシュタイン空間における近位勾配降下(GD)の指数収束を利用して、JKOフローモデルによるデータ生成のKL(Kullback-Leibler)保証が$O(\varepsilon^2)$であると証明し、$N \lesssim \log (1/\varepsilon)$多くのJKOステップ(フロー内のResidual Blocks)を使用する場合、$\varepsilon $はステップ1次条件の誤差である。
データ密度の仮定は単に有限第二モーメントであり、この理論は密度のないデータ分布と、KL-$W_2$混合誤差を保証する逆過程に逆誤差が存在する場合に拡張される。
JKO型$W_2$-proximal GDの非漸近収束速度は、KLの発散を特別な場合として含む凸対象汎函数の一般クラスに対して証明され、これは独立な興味を持つことができる。 Flow-based generative models enjoy certain advantages in computing the data generation and the likelihood, and have recently shown competitive empirical performance. Compared to the accumulating theoretical studies on related score-based diffusion models, analysis of flow-based models, which are deterministic in both forward (data-to-noise) and reverse (noise-to-data) directions, remain sparse. In this paper, we provide a theoretical guarantee of generating data distribution by a progressive flow model, the so-called JKO flow model, which implements the Jordan-Kinderleherer-Otto (JKO) scheme in a normalizing flow network. Leveraging the exponential convergence of the proximal gradient descent (GD) in Wasserstein space, we prove the Kullback-Leibler (KL) guarantee of data generation by a JKO flow model to be $O(\varepsilon^2)$ when using $N \lesssim \log (1/\varepsilon)$ many JKO steps ($N$ Residual Blocks in the flow) where $\varepsilon $ is the error in the per-step first-order condition. The assumption on data density is merely a finite second moment, and the theory extends to data distributions without density and when there are inversion errors in the reverse process where we obtain KL-$W_2$ mixed error guarantees. The non-asymptotic convergence rate of the JKO-type $W_2$-proximal GD is proved for a general class of convex objective functionals that includes the KL divergence as a special case, which can be of independent interest. | 翻訳日:2023-10-27 18:47:36 公開日:2023-10-26 |
# BLIS-Net:グラフ上の信号の分類と解析 BLIS-Net: Classifying and Analyzing Signals on Graphs ( http://arxiv.org/abs/2310.17579v1 ) ライセンス: Link先を確認 | Charles Xu and Laney Goldman and Valentina Guo and Benjamin Hollander-Bodie and Maedee Trank-Greene and Ian Adelstein and Edward De Brouwer and Rex Ying and Smita Krishnaswamy and Michael Perlmutter | (参考訳) グラフニューラルネットワーク(GNN)は、ノード分類やグラフ分類といったタスクのための強力なツールとして登場した。
しかし、単一のグラフの頂点で定義された多くの関数(信号として参照される)からなる信号分類では、より少ない作業がなされている。
これらのタスクは、従来のGNNタスク用に設計されたネットワークとは異なる設計を必要とする。
実際、従来のGNNはローパスフィルタに依存しており、興味のある信号は多周波の振る舞いを複雑にし、長い範囲の相互作用を示す可能性がある。
これは以前に導入された幾何散乱変換に基づく新しいGNNであるBLIS-Net(Bi-Lipschitz Scattering Net)を導入する動機となっている。
ネットワークは局所的および大域的信号構造の両方を捉えることができ、低周波と高周波の両方の情報を捉えることができる。
我々は、入力信号に関する情報を捕捉するネットワークの能力の向上を証明し、交通流とfMRIデータに基づく合成および実世界のデータセットにおいて、BLIS-Netが優れた性能を発揮することを示す、元の幾何散乱アーキテクチャにいくつかの重要な変更を加えている。 Graph neural networks (GNNs) have emerged as a powerful tool for tasks such as node classification and graph classification. However, much less work has been done on signal classification, where the data consists of many functions (referred to as signals) defined on the vertices of a single graph. These tasks require networks designed differently from those designed for traditional GNN tasks. Indeed, traditional GNNs rely on localized low-pass filters, and signals of interest may have intricate multi-frequency behavior and exhibit long range interactions. This motivates us to introduce the BLIS-Net (Bi-Lipschitz Scattering Net), a novel GNN that builds on the previously introduced geometric scattering transform. Our network is able to capture both local and global signal structure and is able to capture both low-frequency and high-frequency information. We make several crucial changes to the original geometric scattering architecture which we prove increase the ability of our network to capture information about the input signal and show that BLIS-Net achieves superior performance on both synthetic and real-world data sets based on traffic flow and fMRI data. | 翻訳日:2023-10-27 18:47:00 公開日:2023-10-26 |
# 低光像強調のためのグローバル構造対応拡散プロセス Global Structure-Aware Diffusion Process for Low-Light Image Enhancement ( http://arxiv.org/abs/2310.17577v1 ) ライセンス: Link先を確認 | Jinhui Hou, Zhiyu Zhu, Junhui Hou, Hui Liu, Huanqiang Zeng, Hui Yuan | (参考訳) 本稿では,低照度画像強調問題に対処する拡散型フレームワークについて検討する。
拡散モデルの能力を生かして、この複雑な過程を掘り下げ、その固有のODE軌道の正規化を提唱する。
具体的には、低曲率ODE軌道が安定かつ効果的な拡散過程をもたらすという最近の研究に着想を得て、画像データの内在的非局所構造(すなわち、グローバル構造認識正規化)に固定された曲率正規化項を定式化し、拡散過程における複雑な詳細の保存とコントラストの増大を徐々に促進する。
この組み込みは拡散過程によるノイズやアーチファクトの悪影響を緩和し、より正確で柔軟な拡張をもたらす。
さらに,課題領域における学習を促進するため,画像の最も極端な領域に対する制約を巧みに緩和する不確実性誘導正規化手法を導入する。
実験により,低照度向上において,ランクインフォームド正規化を補完する拡散型フレームワークが優れた性能を発揮することが示された。
その結果, 画像品質, ノイズ抑制, コントラスト増幅の進歩が, 最先端の手法と比較された。
この革新的なアプローチは、低光度画像処理のさらなる探索と進歩を刺激し、拡散モデルの他の応用に潜在的に影響すると信じている。
コードはhttps://github.com/jinnh/GSADで公開されている。 This paper studies a diffusion-based framework to address the low-light image enhancement problem. To harness the capabilities of diffusion models, we delve into this intricate process and advocate for the regularization of its inherent ODE-trajectory. To be specific, inspired by the recent research that low curvature ODE-trajectory results in a stable and effective diffusion process, we formulate a curvature regularization term anchored in the intrinsic non-local structures of image data, i.e., global structure-aware regularization, which gradually facilitates the preservation of complicated details and the augmentation of contrast during the diffusion process. This incorporation mitigates the adverse effects of noise and artifacts resulting from the diffusion process, leading to a more precise and flexible enhancement. To additionally promote learning in challenging regions, we introduce an uncertainty-guided regularization technique, which wisely relaxes constraints on the most extreme regions of the image. Experimental evaluations reveal that the proposed diffusion-based framework, complemented by rank-informed regularization, attains distinguished performance in low-light enhancement. The outcomes indicate substantial advancements in image quality, noise suppression, and contrast amplification in comparison with state-of-the-art methods. We believe this innovative approach will stimulate further exploration and advancement in low-light image processing, with potential implications for other applications of diffusion models. The code is publicly available at https://github.com/jinnh/GSAD. | 翻訳日:2023-10-27 18:46:40 公開日:2023-10-26 |
# 1Dタッチ:半方向ジェスチャーによるNLP支援粗テキスト選択 1D-Touch: NLP-Assisted Coarse Text Selection via a Semi-Direct Gesture ( http://arxiv.org/abs/2310.17576v1 ) ライセンス: Link先を確認 | Peiling Jiang, Li Feng, Fuling Sun, Parakrant Sarkar, Haijun Xia, Can Liu | (参考訳) 既存のタッチスクリーン上のテキスト選択技術は、キャレットの移動制御の改善に焦点を当てている。
単語とフレーズレベルの粗粒度のテキスト選択は、ワードスナップとエンティティ認識以上のサポートを受けていない。
1d-touchは,単語の意味単位の選択を容易にすることで,キャレットに基づく単語のサブワード選択を補完する新しいテキスト選択手法である。
本手法では,単語から選択領域を拡大・縮小するために,簡単な垂直スライドジェスチャーを用いる。
拡張は、単語や、サブフレーズから文まで、セマンティックチャンクによって行うことができる。
このテクニックは、テキスト選択の概念を、最初の単語と最後の単語を見つけることで範囲を定義することから、テキスト意味エンティティを拡張して収縮する動的なプロセスへとシフトする。
このアプローチの効果を理解するために、wordtouchのプロトタイプとテストを行った。wordtouchは単純な単語単位の拡張を提供し、chunktouchはnlpを利用してテキストを構文単位にチャンクし、スライディングジェスチャに応じて意味的に意味のあるユニットで選択できる。
1D-Touchが処理する粗粒度選択タスクに着目した評価では,Android上でのデフォルトワードスナッピング選択法よりも20%改善した。 Existing text selection techniques on touchscreen focus on improving the control for moving the carets. Coarse-grained text selection on word and phrase levels has not received much support beyond word-snapping and entity recognition. We introduce 1D-Touch, a novel text selection method that complements the carets-based sub-word selection by facilitating the selection of semantic units of words and above. This method employs a simple vertical slide gesture to expand and contract a selection area from a word. The expansion can be by words or by semantic chunks ranging from sub-phrases to sentences. This technique shifts the concept of text selection, from defining a range by locating the first and last words, towards a dynamic process of expanding and contracting a textual semantic entity. To understand the effects of our approach, we prototyped and tested two variants: WordTouch, which offers a straightforward word-by-word expansion, and ChunkTouch, which leverages NLP to chunk text into syntactic units, allowing the selection to grow by semantically meaningful units in response to the sliding gesture. Our evaluation, focused on the coarse-grained selection tasks handled by 1D-Touch, shows a 20% improvement over the default word-snapping selection method on Android. | 翻訳日:2023-10-27 18:46:14 公開日:2023-10-26 |
# ブラックボックス言語モデルにおけるテストセット汚染の証明 Proving Test Set Contamination in Black Box Language Models ( http://arxiv.org/abs/2310.17623v1 ) ライセンス: Link先を確認 | Yonatan Oren and Nicole Meister and Niladri Chatterji and Faisal Ladhak and Tatsunori B. Hashimoto | (参考訳) 大規模な言語モデルは大量のインターネットデータに基づいて訓練されており、公開ベンチマークを記憶しているという懸念や憶測を引き起こしている。
プロプライエタリなモデルで使用される事前学習データは一般にはアクセスできないため、憶測から汚染の証明まで難しい。
事前学習データやモデルの重み付けにアクセスせずに、言語モデルにおけるテストセットの汚染の証明可能な保証を提供できることを示す。
我々のアプローチは、データ汚染がない場合、交換可能なベンチマークの全ての順序が等しくなるという事実を活用する。
対照的に、言語モデルが例の順序を記憶する傾向は、汚染された言語モデルが特定の標準順序を他のモデルよりもずっと高い確率で見つけることを意味する。
我々のテストでは、正準順序付きベンチマークデータセットの確率が、サンプルをシャッフルした後の確率よりもかなり高いときに、潜在的な汚染をフラグする。
提案手法は,1000例の小さなテストセット上での14億のパラメータのモデルや,事前学習コーパスに数回しか現れないデータセットなど,困難な状況下でテストセットの汚染を確実に証明するのに十分であることを示す。
本試験では, 一般に普及している5つの言語モデルを用いて, テストセット汚染の検査を行い, 広汎な汚染の証拠はほとんど見つからなかった。 Large language models are trained on vast amounts of internet data, prompting concerns and speculation that they have memorized public benchmarks. Going from speculation to proof of contamination is challenging, as the pretraining data used by proprietary models are often not publicly accessible. We show that it is possible to provide provable guarantees of test set contamination in language models without access to pretraining data or model weights. Our approach leverages the fact that when there is no data contamination, all orderings of an exchangeable benchmark should be equally likely. In contrast, the tendency for language models to memorize example order means that a contaminated language model will find certain canonical orderings to be much more likely than others. Our test flags potential contamination whenever the likelihood of a canonically ordered benchmark dataset is significantly higher than the likelihood after shuffling the examples. We demonstrate that our procedure is sensitive enough to reliably prove test set contamination in challenging situations, including models as small as 1.4 billion parameters, on small test sets of only 1000 examples, and datasets that appear only a few times in the pretraining corpus. Using our test, we audit five popular publicly accessible language models for test set contamination and find little evidence for pervasive contamination. | 翻訳日:2023-10-27 18:39:04 公開日:2023-10-26 |
# 幾何調和による圧縮表現学習の相違 Combating Representation Learning Disparity with Geometric Harmonization ( http://arxiv.org/abs/2310.17622v1 ) ライセンス: Link先を確認 | Zhihan Zhou and Jiangchao Yao and Feng Hong and Ya Zhang and Bo Han and Yanfeng Wang | (参考訳) 表現学習の効果的なパラダイムとしての自己教師あり学習(ssl)は、様々なシナリオで様々なキュレートされたデータセットで大きな成功を収めた。
それでも、現実世界のアプリケーションで長い尾の分布に直面している場合、既存の方法では転送可能で堅牢な表現を捉えるのは難しい。
サンプルレベルの均一性を追求する従来のSSLメソッドは、ヘッドクラスが特徴体系を独占するが、テールクラスがパッシブに崩壊する、表現学習の格差を生じさせる。
この問題に対処するために,表現学習におけるカテゴリーレベルの均一性を促進する新しい幾何調和(gh)手法を提案する。
特に、GHは自己教師付き学習の上の埋め込み空間の人口統計を計測し、その後、ヘッドクラスの空間拡大を制限し、テールクラスのパッシブ崩壊を避けるために、きめ細かいインスタンスワイズキャリブレーションを推測する。
我々の提案はSSLの設定を変更せず、低コストで既存のメソッドに容易に統合できる。
一連のベンチマークデータセットの広範囲な結果は、分布歪に対する高い耐性を有するGHの有効性を示している。
私たちのコードはhttps://github.com/MediaBrain-SJTU/Geometric-Harmonizationで利用可能です。 Self-supervised learning (SSL) as an effective paradigm of representation learning has achieved tremendous success on various curated datasets in diverse scenarios. Nevertheless, when facing the long-tailed distribution in real-world applications, it is still hard for existing methods to capture transferable and robust representation. Conventional SSL methods, pursuing sample-level uniformity, easily leads to representation learning disparity where head classes dominate the feature regime but tail classes passively collapse. To address this problem, we propose a novel Geometric Harmonization (GH) method to encourage category-level uniformity in representation learning, which is more benign to the minority and almost does not hurt the majority under long-tailed distribution. Specially, GH measures the population statistics of the embedding space on top of self-supervised learning, and then infer an fine-grained instance-wise calibration to constrain the space expansion of head classes and avoid the passive collapse of tail classes. Our proposal does not alter the setting of SSL and can be easily integrated into existing methods in a low-cost manner. Extensive results on a range of benchmark datasets show the effectiveness of GH with high tolerance to the distribution skewness. Our code is available at https://github.com/MediaBrain-SJTU/Geometric-Harmonization. | 翻訳日:2023-10-27 18:38:37 公開日:2023-10-26 |
# 定常位相秩序 Steady-state topological order ( http://arxiv.org/abs/2310.17612v1 ) ライセンス: Link先を確認 | Xu-Dong Dai, Zijian Wang, He-Ran Wang, Zhong Wang | (参考訳) 定常状態が基底状態の代わりとなる閉系から開系への位相秩序の一般化について検討する。
定常位相秩序を持つ典型的な格子モデルを構築し、定常状態の位相退化、位相エントロピー、散逸ゲージ理論に基づく相補的アプローチによって特徴付ける。
位相的に退化した定常状態の間の(リウビリアン)準位は、系のサイズに関して指数関数的に小さいが、定常状態と他のスペクトルの間のリウビリアンのギャップは、系のサイズが大きくなるにつれて代数的に崩壊し、熱力学極限で閉じる。
定常位相秩序は、(リウヴィリア)ギャップレスモードの存在下では定義できないことが示されている。
位相的縮退が持ち上げられる自明な相への位相的相転移は、ギャップレスモードをガッピングする。
定常状態のオープンシステムトポロジを調査するためのツールボックスを提供する。 We investigate a generalization of topological order from closed systems to open systems, for which the steady states take the place of ground states. We construct typical lattice models with steady-state topological order, and characterize them by complementary approaches based on topological degeneracy of steady states, topological entropy, and dissipative gauge theory. Whereas the (Liouvillian) level splitting between topologically degenerate steady states is exponentially small with respect to the system size, the Liouvillian gap between the steady states and the rest of the spectrum decays algebraically as the system size grows, and closes in the thermodynamic limit. It is shown that steady-state topological order remains definable in the presence of (Liouvillian) gapless modes. The topological phase transition to the trivial phase, where the topological degeneracy is lifted, is accompanied by gapping out the gapless modes. Our work offers a toolbox for investigating open-system topology of steady states. | 翻訳日:2023-10-27 18:38:01 公開日:2023-10-26 |
# 部分直交による埋め込みの意味の解明 Uncovering Meanings of Embeddings via Partial Orthogonality ( http://arxiv.org/abs/2310.17611v1 ) ライセンス: Link先を確認 | Yibo Jiang, Bryon Aragam, Victor Veitch | (参考訳) 機械学習ツールは、多くの場合、テキストを実数のベクトルとして埋め込む。
本稿では,そのような埋め込みの代数構造において,言語の意味構造がどのように符号化されているかを検討する。
具体的には、例えば、'eggplant'' と 'tomato'' は ``vegetable'' に対して独立であるという考えを捉えた `semantic independence'' の概念を考察する。
このような例は直感的であるが、そのような意味的独立の概念を形式化するのは難しい。
ここでの重要な観察は、任意の有理形式化はいわゆる独立公理の集合に従うべきであり、したがってこの構造の代数的符号化もこれらの公理に従うべきであるということである。
これにより自然に部分直交を関連する代数構造として用いることができる。
我々は、部分直交が意味的独立を実際に捉えることを証明できる理論と方法を開発した。
これと相補的に、埋め込みが分布の条件付き独立構造を保存するような埋め込みを保存する独立性保存の概念を導入し、そのような埋め込みの存在とそれらの近似を証明する。 Machine learning tools often rely on embedding text as vectors of real numbers. In this paper, we study how the semantic structure of language is encoded in the algebraic structure of such embeddings. Specifically, we look at a notion of ``semantic independence'' capturing the idea that, e.g., ``eggplant'' and ``tomato'' are independent given ``vegetable''. Although such examples are intuitive, it is difficult to formalize such a notion of semantic independence. The key observation here is that any sensible formalization should obey a set of so-called independence axioms, and thus any algebraic encoding of this structure should also obey these axioms. This leads us naturally to use partial orthogonality as the relevant algebraic structure. We develop theory and methods that allow us to demonstrate that partial orthogonality does indeed capture semantic independence. Complementary to this, we also introduce the concept of independence preserving embeddings where embeddings preserve the conditional independence structures of a distribution, and we prove the existence of such embeddings and approximations to them. | 翻訳日:2023-10-27 18:37:31 公開日:2023-10-26 |
# 有限次元および無限次元ヒルベルト空間における凸関数の勾配流の質的差 A qualitative difference between gradient flows of convex functions in finite- and infinite-dimensional Hilbert spaces ( http://arxiv.org/abs/2310.17610v1 ) ライセンス: Link先を確認 | Jonathan W. Siegel, Stephan Wojtowytsch | (参考訳) 凸対象関数に対する勾配流/勾配降下とボール/加速勾配降下最適化について検討する。
勾配フローの場合、1: $f$ が最小値を持たない場合、収束 $f(x_t)\to \inf f$ は任意に遅くなる。
2.$f$ が最小値を持つ場合、余剰エネルギー $f(x_t) - \inf f$ は可積分/可算である。
特に、$f(x_t) - \inf f = o(1/t)$ as $t\to\infty$ である。
3. ヒルベルト空間において、これは最適である: $f(x_t) - \inf f$ は、固定二次目的であっても、単調減少かつ$\infty$ で可積分である任意の与えられた函数と同様に、0$ で崩壊することができる。
4 有限次元(あるいはより一般的には、有限長のすべての勾配流曲線に対して)において、これは最適ではない: 積分可能関数 $g(t)$ が $f(x_t)-\inf f$ よりもゼロに減少する凸単調減少函数 $g(t)$ が存在することを証明する。
例えば、有限次元の凸函数の任意の勾配流 $x_t$ は、$\liminf_{t\to\infty} \big(t\cdot \log^2(t)\cdot \big\{f(x_t) -\inf f\big\}\big)=0$ を満たす。
これは一般的に報告されているO(1/t)$レートを改善し、エネルギー崩壊法則の鋭い特徴を与える。
また、任意の関数$\phi$に対して$o(1/(t\phi(t))$を確立することは不可能であり、これは$\lim_{t\to\infty}\phi(t) = \infty$である。
同様の結果は,(1)離散時間勾配降下,(2)乗算雑音を伴う確率的勾配降下,(3)重球odeという設定で得られた。
確率的勾配降下の場合、$\mathbb e[f(x_n) - \inf f]$ の和は、$f(x_n)\to \inf f$ をほぼ確実に証明するために用いられる。 We consider gradient flow/gradient descent and heavy ball/accelerated gradient descent optimization for convex objective functions. In the gradient flow case, we prove the following: 1. If $f$ does not have a minimizer, the convergence $f(x_t)\to \inf f$ can be arbitrarily slow. 2. If $f$ does have a minimizer, the excess energy $f(x_t) - \inf f$ is integrable/summable in time. In particular, $f(x_t) - \inf f = o(1/t)$ as $t\to\infty$. 3. In Hilbert spaces, this is optimal: $f(x_t) - \inf f$ can decay to $0$ as slowly as any given function which is monotone decreasing and integrable at $\infty$, even for a fixed quadratic objective. 4. In finite dimension (or more generally, for all gradient flow curves of finite length), this is not optimal: We prove that there are convex monotone decreasing integrable functions $g(t)$ which decrease to zero slower than $f(x_t)-\inf f$ for the gradient flow of any convex function on $\mathbb R^d$. For instance, we show that any gradient flow $x_t$ of a convex function $f$ in finite dimension satisfies $\liminf_{t\to\infty} \big(t\cdot \log^2(t)\cdot \big\{f(x_t) -\inf f\big\}\big)=0$. This improves on the commonly reported $O(1/t)$ rate and provides a sharp characterization of the energy decay law. We also note that it is impossible to establish a rate $O(1/(t\phi(t))$ for any function $\phi$ which satisfies $\lim_{t\to\infty}\phi(t) = \infty$, even asymptotically. Similar results are obtained in related settings for (1) discrete time gradient descent, (2) stochastic gradient descent with multiplicative noise and (3) the heavy ball ODE. In the case of stochastic gradient descent, the summability of $\mathbb E[f(x_n) - \inf f]$ is used to prove that $f(x_n)\to \inf f$ almost surely - an improvement on the convergence almost surely up to a subsequence which follows from the $O(1/n)$ decay estimate. | 翻訳日:2023-10-27 18:37:04 公開日:2023-10-26 |
# lecardv2:中国の大規模訴訟検索データセット LeCaRDv2: A Large-Scale Chinese Legal Case Retrieval Dataset ( http://arxiv.org/abs/2310.17609v1 ) ライセンス: Link先を確認 | Haitao Li, Yunqiu Shao, Yueyue Wu, Qingyao Ai, Yixiao Ma, Yiqun Liu | (参考訳) インテリジェントな法制度の重要な構成要素として、訴訟検索は司法の正義と公正の確保に重要な役割を果たしている。
しかし,中国法体系における判例検索技術の発展は,データサイズ制限,法的な関連性の限定的定義,データサンプリングに使用される素案プール戦略の3つの問題によって制限されている。
これらの問題を緩和するために、大規模な法律ケース検索データセット(バージョン2)であるLeCaRDv2を紹介します。
800のクェリと430万件の刑事事件文書から抽出された55,192人の候補者からなる。
私たちの知る限りでは、LeCaRDv2は中国最大の訴訟検索データセットの1つであり、刑事容疑の広範な報道を提供する。
さらに、評価、ペナルティ、手続きの3つの重要な側面を考慮し、既存の関連基準を強化する。
この包括的な基準はデータセットを豊かにし、より包括的な視点を提供する。
さらに,各クエリケースの候補を効果的に識別する2段階の候補セットプーリング戦略を提案する。
データセットのすべてのケースは、刑事法を専門とする複数の法律専門家によって注釈付けされています。
彼らの専門知識はアノテーションの正確性と信頼性を保証する。
我々はLeCaRDv2におけるいくつかの最先端検索モデルを評価し、訴訟検索に改善の余地があることを実証した。
LeCaRDv2の詳細は匿名ウェブサイトhttps://github.com/anonymous1113243/LeCaRDv2で確認できる。 As an important component of intelligent legal systems, legal case retrieval plays a critical role in ensuring judicial justice and fairness. However, the development of legal case retrieval technologies in the Chinese legal system is restricted by three problems in existing datasets: limited data size, narrow definitions of legal relevance, and naive candidate pooling strategies used in data sampling. To alleviate these issues, we introduce LeCaRDv2, a large-scale Legal Case Retrieval Dataset (version 2). It consists of 800 queries and 55,192 candidates extracted from 4.3 million criminal case documents. To the best of our knowledge, LeCaRDv2 is one of the largest Chinese legal case retrieval datasets, providing extensive coverage of criminal charges. Additionally, we enrich the existing relevance criteria by considering three key aspects: characterization, penalty, procedure. This comprehensive criteria enriches the dataset and may provides a more holistic perspective. Furthermore, we propose a two-level candidate set pooling strategy that effectively identify potential candidates for each query case. It's important to note that all cases in the dataset have been annotated by multiple legal experts specializing in criminal law. Their expertise ensures the accuracy and reliability of the annotations. We evaluate several state-of-the-art retrieval models at LeCaRDv2, demonstrating that there is still significant room for improvement in legal case retrieval. The details of LeCaRDv2 can be found at the anonymous website https://github.com/anonymous1113243/LeCaRDv2. | 翻訳日:2023-10-27 18:35:53 公開日:2023-10-26 |
# 最新音声モデルを用いたガーナの口腔読解能の評価 Using State-of-the-Art Speech Models to Evaluate Oral Reading Fluency in Ghana ( http://arxiv.org/abs/2310.17606v1 ) ライセンス: Link先を確認 | Owen Henkel, Hannah Horne-Robinson, Libby Hills, Bill Roberts, Joshua McGrane | (参考訳) 本稿では,ガーナの学生の口頭読解率(ORF)を評価するために,大規模音声モデルを用いた最近の3つの実験について報告する。
ORFは、基礎的リテラシーの確立された尺度である一方、学生と訓練された評価者の間の1対1のセッションは、時間と費用を要するプロセスである。
ORFの評価の自動化は、特に大きなクラスサイズと限られたリソースのために形式的評価が一般的でない教育環境において、より良いリテラシー教育を支援することができる。
我々の知る限り、この研究は、グローバル・サウスにおけるORF評価に、最新の大規模音声モデル(Whisper V2 wav2vec2.0)を用いた最初の研究である。
我々はWhisper V2が13.5の単語誤り率でガーナの学生の読み書きを生成することを発見した。
これはモデルの平均成人音声量(12.8)に近く、ほんの数年前に子供の音声の書き起こしに最先端のものと考えられていた。
また、これらの転写が完全に自動化されたORFスコアを生成する際には、専門家による評価値と密接に一致し、相関係数は0.96であることがわかった。
重要なことに、これらの結果は代表的データセット(例えば、地域のアクセントを持つ学生、実際の教室で撮影された録音)で達成され、ボックスから無料で公開されている音声モデルを用いて(微調整なし)。
これは、ORFを評価するために大規模音声モデルを使用することで、低リソースで言語学的に多様な教育的文脈で実装およびスケールすることが可能であることを示している。 This paper reports on a set of three recent experiments utilizing large-scale speech models to evaluate the oral reading fluency (ORF) of students in Ghana. While ORF is a well-established measure of foundational literacy, assessing it typically requires one-on-one sessions between a student and a trained evaluator, a process that is time-consuming and costly. Automating the evaluation of ORF could support better literacy instruction, particularly in education contexts where formative assessment is uncommon due to large class sizes and limited resources. To our knowledge, this research is among the first to examine the use of the most recent versions of large-scale speech models (Whisper V2 wav2vec2.0) for ORF assessment in the Global South. We find that Whisper V2 produces transcriptions of Ghanaian students reading aloud with a Word Error Rate of 13.5. This is close to the model's average WER on adult speech (12.8) and would have been considered state-of-the-art for children's speech transcription only a few years ago. We also find that when these transcriptions are used to produce fully automated ORF scores, they closely align with scores generated by expert human graders, with a correlation coefficient of 0.96. Importantly, these results were achieved on a representative dataset (i.e., students with regional accents, recordings taken in actual classrooms), using a free and publicly available speech model out of the box (i.e., no fine-tuning). This suggests that using large-scale speech models to assess ORF may be feasible to implement and scale in lower-resource, linguistically diverse educational contexts. | 翻訳日:2023-10-27 18:35:31 公開日:2023-10-26 |
# MimicGen:人間デモを用いたスケーラブルなロボット学習のためのデータ生成システム MimicGen: A Data Generation System for Scalable Robot Learning using Human Demonstrations ( http://arxiv.org/abs/2310.17596v1 ) ライセンス: Link先を確認 | Ajay Mandlekar, Soroush Nasiriany, Bowen Wen, Iretiayo Akinola, Yashraj Narang, Linxi Fan, Yuke Zhu, Dieter Fox | (参考訳) 人間の大規模なデモからの模倣学習は、有能なロボットエージェントを構築するための効果的なパラダイムであることが証明された。
しかし、デモは非常にコストがかかり、収集に時間がかかる。
ミミックジェネレーション(MimicGen)は、少数の人間のデモから大規模でリッチなデータセットを自動的に合成するシステムである。
MimicGenを使って18のタスクにまたがる50万以上のデモを生成し、さまざまなシーン構成、オブジェクトインスタンス、ロボットアームをわずか200人の人間のデモから作成しています。
本研究では,ロボットエージェントを模倣学習によって効果的に学習し,多部構成やコーヒー準備などの長期的・高精度な作業において,幅広い初期状態分布において強力な性能を発揮できることを示す。
さらに、MimicGenデータの有効性と有用性は、追加の人間のデモ収集に好適であり、ロボット学習のスケールアップに対する強力で経済的アプローチであることを示す。
データセット、シミュレーション環境、ビデオなどがhttps://mimicgen.github.ioで公開されている。 Imitation learning from a large set of human demonstrations has proved to be an effective paradigm for building capable robot agents. However, the demonstrations can be extremely costly and time-consuming to collect. We introduce MimicGen, a system for automatically synthesizing large-scale, rich datasets from only a small number of human demonstrations by adapting them to new contexts. We use MimicGen to generate over 50K demonstrations across 18 tasks with diverse scene configurations, object instances, and robot arms from just ~200 human demonstrations. We show that robot agents can be effectively trained on this generated dataset by imitation learning to achieve strong performance in long-horizon and high-precision tasks, such as multi-part assembly and coffee preparation, across broad initial state distributions. We further demonstrate that the effectiveness and utility of MimicGen data compare favorably to collecting additional human demonstrations, making it a powerful and economical approach towards scaling up robot learning. Datasets, simulation environments, videos, and more at https://mimicgen.github.io . | 翻訳日:2023-10-27 18:35:05 公開日:2023-10-26 |
# spa: 領域適応のためのグラフスペクトルアライメント視点 SPA: A Graph Spectral Alignment Perspective for Domain Adaptation ( http://arxiv.org/abs/2310.17594v1 ) ライセンス: Link先を確認 | Zhiqing Xiao, Haobo Wang, Ying Jin, Lei Feng, Gang Chen, Fei Huang, Junbo Zhao | (参考訳) 教師なしドメイン適応(Unsupervised domain adapt, UDA)は、データ分布が異なる特定のターゲットドメインにドメインモデルを拡張するための機械学習における重要な形式である。
ほとんどの先行研究はドメイン間転送可能性の把握に重点を置いているが、リッチなドメイン内構造は見過ごされている。
本稿では,このトレードオフに対処するための新しいグラフスペクトラルアライメント(SPA)フレームワークを提案する。
この手法の核心は、以下のように簡潔に凝縮される。
(i) DA問題をグラフプリミティブにキャストすることにより、SPAは、固有空間におけるドメイングラフの整列化に向けた新しいスペクトル正規化器を備えた粗グラフアライメント機構を構成する。
(II) ターゲットドメインの識別性を高めるため, 隣接する新たな自己学習機構を基盤として, よりきめ細かいメッセージ伝達モジュールをさらに開発する。
標準化されたベンチマークでは、SPAの広範な実験により、その性能が既存の最先端DAメソッドを上回ったことが示されている。
密度モデル解析と組み合わせて,本手法は優れた有効性,堅牢性,識別性,伝達性を有していると結論づける。
コードとデータは、https://github.com/CrownX/SPA.comで入手できる。 Unsupervised domain adaptation (UDA) is a pivotal form in machine learning to extend the in-domain model to the distinctive target domains where the data distributions differ. Most prior works focus on capturing the inter-domain transferability but largely overlook rich intra-domain structures, which empirically results in even worse discriminability. In this work, we introduce a novel graph SPectral Alignment (SPA) framework to tackle the tradeoff. The core of our method is briefly condensed as follows: (i)-by casting the DA problem to graph primitives, SPA composes a coarse graph alignment mechanism with a novel spectral regularizer towards aligning the domain graphs in eigenspaces; (ii)-we further develop a fine-grained message propagation module -- upon a novel neighbor-aware self-training mechanism -- in order for enhanced discriminability in the target domain. On standardized benchmarks, the extensive experiments of SPA demonstrate that its performance has surpassed the existing cutting-edge DA methods. Coupled with dense model analysis, we conclude that our approach indeed possesses superior efficacy, robustness, discriminability, and transferability. Code and data are available at: https://github.com/CrownX/SPA. | 翻訳日:2023-10-27 18:34:47 公開日:2023-10-26 |
# Lil-Bevo: より人間らしく訓練された言語モデルの探索 Lil-Bevo: Explorations of Strategies for Training Language Models in More Humanlike Ways ( http://arxiv.org/abs/2310.17591v1 ) ライセンス: Link先を確認 | Venkata S Govindarajan, Juan Diego Rodriguez, Kaj Bostrom, Kyle Mahowald | (参考訳) 我々は、BabyLM Challengeへの応募であるLil-Bevoを紹介します。
マスク付き言語モデルの事前訓練には,音楽データによる事前訓練,短いシーケンスのトレーニング,BLiMPサブタスクのターゲットとなる特定のトークンのマスキングという3つの要素を用いた。
総じて、私たちのベースラインモデルは、チャンス以上のパフォーマンスを発揮しましたが、より多くのデータでトレーニングされたより大きなLLMのパフォーマンスレベルよりもはるかに低いです。
短いシーケンスでのトレーニングは、長いシーケンスでのトレーニングよりも優れており、音楽でのトレーニングは、パフォーマンスを極端に向上させる可能性があるが、そうであれば、効果は小さく見える。
ターゲットとするMasked Language Modelingの拡張は、モデルパフォーマンスを全般的に向上させるには至らなかったが、ターゲットとする特定のBLiMPタスク(負極性項目など)のいくつかに役立つように思われた。
少量のデータでllmを訓練することは難しいが、潜在的に有益である。
私たちのテクニックの中には、ある程度の期待を示したものもありますが、パフォーマンスをもっと改善できるかどうかを調べるには、もっと多くの作業が必要です。
私たちのコードはhttps://github.com/venkatasg/Lil-Bevo、out model at https://huggingface.co/collections/venkatasg/babylm-653591cdb66f4b68922873aで利用可能です。 We present Lil-Bevo, our submission to the BabyLM Challenge. We pretrained our masked language models with three ingredients: an initial pretraining with music data, training on shorter sequences before training on longer ones, and masking specific tokens to target some of the BLiMP subtasks. Overall, our baseline models performed above chance, but far below the performance levels of larger LLMs trained on more data. We found that training on short sequences performed better than training on longer sequences.Pretraining on music may help performance marginally, but, if so, the effect seems small. Our targeted Masked Language Modeling augmentation did not seem to improve model performance in general, but did seem to help on some of the specific BLiMP tasks that we were targeting (e.g., Negative Polarity Items). Training performant LLMs on small amounts of data is a difficult but potentially informative task. While some of our techniques showed some promise, more work is needed to explore whether they can improve performance more than the modest gains here. Our code is available at https://github.com/venkatasg/Lil-Bevo and out models at https://huggingface.co/collections/venkatasg/babylm-653591cdb66f4bf68922873a | 翻訳日:2023-10-27 18:34:27 公開日:2023-10-26 |
# マルコフ量子力学のデイビス既約性の基準 Criteria for Davies Irreducibility of Markovian Quantum Dynamics ( http://arxiv.org/abs/2310.17641v1 ) ライセンス: Link先を確認 | Yikang Zhang, Thomas Barthel | (参考訳) マルコフ開量子系の力学はリンドブラッドマスター方程式によって記述され、量子力学半群を生成する。
そのようなシステムにとって重要な概念は (Davies) 既約性、すなわち非自明な不変部分空間が存在するかどうかという問題である。
もしそうでなければ、システムは既約と呼ばれ、一意に忠実(フルランク)な定常状態を持つ。
1970年代にフリゲリオは、リンドブラッド作用素が自明な可換な自己共役集合にまたがる場合、系は既約であることを示した。
我々はより一般的で強力な代数的基準について議論し、システムが既約であることと、リンドブラッド作用素 $L_a$ と作用素 $iH+\sum_a L^\dagger_a L_a$ によって生成される乗法代数が作用素空間全体であることを示す。
二段階系の例では、ハミルトン項や散逸項の追加や削除は還元不可能で逆もまた可能であることを示す。
多体系の例では、xyz$スピンチェーンの大きなクラスは、1つのサイト上のディスシプターによって既約にすることができる。
さらに、近年の物理学文献、特に境界駆動系の文脈において、量子チャネルと動的半群に対する(Davies)再現性とエバンス再現性の間の決定的な違いについて論じる。
我々は、関連する古典マルコフ過程の観点から量子還元可能性の基準を与え、最後に、主結果と純状態の安定化との関係を議論し、局所的なリンドブラッド作用素を持つ系では純粋なフェルミ海状態は安定化できないと主張する。 The dynamics of Markovian open quantum systems are described by Lindblad master equations, generating a quantum dynamical semigroup. An important concept for such systems is (Davies) irreducibility, i.e., the question whether there exist non-trivial invariant subspaces. If not, the system is called irreducible and has a unique faithful (full-rank) steady state. In the 1970s, Frigerio showed that a system is irreducible if the Lindblad operators span a self-adjoint set with trivial commutant. We discuss a more general and powerful algebraic criterion, showing that a system is irreducible if and only if the multiplicative algebra generated by the Lindblad operators $L_a$ and the operator $iH+\sum_a L^\dagger_a L_a$, involving the Hamiltonian $H$, is the entire operator space. Examples for two-level systems, show that the addition or removal of Hamiltonian terms and dissipators can render a reducible system irreducible and vice versa. Examples for many-body systems show that a large class of $XYZ$ spin chains can be rendered irreducible by dissipators on a single-site. Additionally, we discuss the decisive differences between (Davies) reducibility and Evans reducibility for quantum channels and dynamical semigroups which has lead to some confusion in the recent physics literature, especially, in the context of boundary-driven systems. We give a criterion for quantum reducibility in terms of associated classical Markov processes and, lastly, discuss the relation of the main result to the stabilization of pure states and argue that systems with local Lindblad operators cannot stabilize pure Fermi-sea states. | 翻訳日:2023-10-27 18:28:18 公開日:2023-10-26 |
# ランダム二分列を用いた文脈内学習ダイナミクス In-Context Learning Dynamics with Random Binary Sequences ( http://arxiv.org/abs/2310.17639v1 ) ライセンス: Link先を確認 | Eric J. Bigelow, Ekdeep Singh Lubana, Robert P. Dick, Hidenori Tanaka, Tomer D. Ullman | (参考訳) 大量のテキストデータセットでトレーニングされた大規模言語モデル(llm)は、複雑で創発的な能力を示し、明示的に訓練されていないタスクで最先端のパフォーマンスを達成する。
LLM能力の正確な性質はしばしば謎めいたものであり、異なるプロンプトは文脈内学習を通じて異なる能力を引き出すことができる。
本研究では,文脈内学習のダイナミクスを分析し,llmに基づく行動パターンの潜在概念を理解するための認知的解釈可能性フレームワークを提案する。
これは成功または失敗の評価ベンチマークよりも微妙な理解を提供するが、回路の機械的な解釈のように内部アクティベーションを観察する必要はない。
人間の無作為知覚の認知科学に着想を得て,ランダム二分列を文脈として使用し,シーケンス長などの文脈データの特性を操作することにより,文脈内学習のダイナミクスを研究する。
最新の GPT-3.5+ モデルでは、擬似ランダム数を生成し、基本形式言語を学習する能力が出現し、擬似ランダム行動から決定論的反復へとモデル出力が急激に遷移する、文脈内学習ダイナミクスが顕著である。 Large language models (LLMs) trained on huge corpora of text datasets demonstrate complex, emergent capabilities, achieving state-of-the-art performance on tasks they were not explicitly trained for. The precise nature of LLM capabilities is often mysterious, and different prompts can elicit different capabilities through in-context learning. We propose a Cognitive Interpretability framework that enables us to analyze in-context learning dynamics to understand latent concepts in LLMs underlying behavioral patterns. This provides a more nuanced understanding than success-or-failure evaluation benchmarks, but does not require observing internal activations as a mechanistic interpretation of circuits would. Inspired by the cognitive science of human randomness perception, we use random binary sequences as context and study dynamics of in-context learning by manipulating properties of context data, such as sequence length. In the latest GPT-3.5+ models, we find emergent abilities to generate pseudo-random numbers and learn basic formal languages, with striking in-context learning dynamics where model outputs transition sharply from pseudo-random behaviors to deterministic repetition. | 翻訳日:2023-10-27 18:27:44 公開日:2023-10-26 |
# 生成的フラクタル拡散モデル Generative Fractional Diffusion Models ( http://arxiv.org/abs/2310.17638v1 ) ライセンス: Link先を確認 | Gabriel Nobis, Marco Aversa, Maximilian Springenberg, Michael Detzel, Stefano Ermon, Shinichi Nakajima, Roderick Murray-Smith, Sebastian Lapuschkin, Christoph Knochenhauer, Luis Oala, Wojciech Samek | (参考訳) 本稿では,スコアベース生成モデルの連続時間フレームワークを,下層のブラウン運動 (bm) から分数ブラウン運動 (fbm) の近似に一般化する。
連続再パラメータ化トリックと逆時間モデルから、fbm をオルンシュタイン・ウレンベック過程の族上の確率積分として表現し、無限二次変動の非マルコフ過程に収束する駆動雑音により生成分数拡散モデル(gfdm)を定義する。
Hurst index $H\in(0,1)$ of FBM は分布変換経路の粗さの制御を可能にする。
我々の知る限りでは、これは無限二次変動を持つ確率過程に基づいて生成モデルを構築する最初の試みである。 We generalize the continuous time framework for score-based generative models from an underlying Brownian motion (BM) to an approximation of fractional Brownian motion (FBM). We derive a continuous reparameterization trick and the reverse time model by representing FBM as a stochastic integral over a family of Ornstein-Uhlenbeck processes to define generative fractional diffusion models (GFDM) with driving noise converging to a non-Markovian process of infinite quadratic variation. The Hurst index $H\in(0,1)$ of FBM enables control of the roughness of the distribution transforming path. To the best of our knowledge, this is the first attempt to build a generative model upon a stochastic process with infinite quadratic variation. | 翻訳日:2023-10-27 18:27:24 公開日:2023-10-26 |
# 限界を育む - ロボットロコモーションのための実世界RLによる継続的改善 Grow Your Limits: Continuous Improvement with Real-World RL for Robotic Locomotion ( http://arxiv.org/abs/2310.17634v1 ) ライセンス: Link先を確認 | Laura Smith and Yunhao Cao and Sergey Levine | (参考訳) 深層強化学習(Deep reinforcement learning, RL)は、ロボットが足の移動などの複雑な動作を自律的に取得することを可能にする。
しかし、実世界のRLは、効率、安全性、全体的な訓練安定性の制約により複雑であり、実用性に制限がある。
APRLは、ロボットの訓練過程における探索を調節し、フレキシブルな改善ポテンシャルと集中的で効率的な探索のバランスを崩す政策正規化フレームワークである。
aprlは、四足歩行ロボットが、数分で現実世界を完全に歩けるように効率的に学習し、以前の作業が性能を低下させるようなトレーニングを継続できる。
APRLによる継続的なトレーニングは、挑戦的な状況をナビゲートし、継続的なトレーニングで動的変化に適応できる政策をもたらすことを実証する。 Deep reinforcement learning (RL) can enable robots to autonomously acquire complex behaviors, such as legged locomotion. However, RL in the real world is complicated by constraints on efficiency, safety, and overall training stability, which limits its practical applicability. We present APRL, a policy regularization framework that modulates the robot's exploration over the course of training, striking a balance between flexible improvement potential and focused, efficient exploration. APRL enables a quadrupedal robot to efficiently learn to walk entirely in the real world within minutes and continue to improve with more training where prior work saturates in performance. We demonstrate that continued training with APRL results in a policy that is substantially more capable of navigating challenging situations and is able to adapt to changes in dynamics with continued training. | 翻訳日:2023-10-27 18:27:14 公開日:2023-10-26 |
# DeepShaRM: 未知の照明下でのマルチビュー形状と反射マップの復元 DeepShaRM: Multi-View Shape and Reflectance Map Recovery Under Unknown Lighting ( http://arxiv.org/abs/2310.17632v1 ) ライセンス: Link先を確認 | Kohei Yamashita, Shohei Nobuhara, Ko Nishino | (参考訳) 未知の自然照明下での非ランベルト天体の幾何学的再構成(すなわち野生での)は、対応が確立できず、単純な解析形式では表現できないため困難である。
本稿では,この課題に対して最先端の精度を実現する新しいマルチビュー手法DeepShaRMを提案する。
画像から反射率, 照明, 幾何学を推定する従来の手法とは異なり, 反射率と照明を分離する必要がなく, むしろ複合反射率マップとして推定することが重要な考え方である。
本稿では,現在の幾何推定と入力された多視点画像の表面正規値からカメラ・ビュー反射率マップを復元する,新しい深部反射率マップ推定ネットワークを提案する。
ネットワークはまた、グローバル光輸送効果を処理するためにピクセル当たりの信頼度スコアを明示的に見積もっている。
シェーディングネットワークは、得られた反射率マップを用いて、符号付き距離関数で表現された幾何推定を更新する。
この2つを交互に、そして最も重要なことは、反射と照明分解という不適切な問題をバイパスすることで、これらの困難な設定でオブジェクトの形状を正確に復元する。
合成データと実世界のデータの両方に関する広範な実験は、その最先端の正確さを明確に示している。 Geometry reconstruction of textureless, non-Lambertian objects under unknown natural illumination (i.e., in the wild) remains challenging as correspondences cannot be established and the reflectance cannot be expressed in simple analytical forms. We derive a novel multi-view method, DeepShaRM, that achieves state-of-the-art accuracy on this challenging task. Unlike past methods that formulate this as inverse-rendering, i.e., estimation of reflectance, illumination, and geometry from images, our key idea is to realize that reflectance and illumination need not be disentangled and instead estimated as a compound reflectance map. We introduce a novel deep reflectance map estimation network that recovers the camera-view reflectance maps from the surface normals of the current geometry estimate and the input multi-view images. The network also explicitly estimates per-pixel confidence scores to handle global light transport effects. A deep shape-from-shading network then updates the geometry estimate expressed with a signed distance function using the recovered reflectance maps. By alternating between these two, and, most important, by bypassing the ill-posed problem of reflectance and illumination decomposition, the method accurately recovers object geometry in these challenging settings. Extensive experiments on both synthetic and real-world data clearly demonstrate its state-of-the-art accuracy. | 翻訳日:2023-10-27 18:26:59 公開日:2023-10-26 |
# judgeLM: 微調整された大規模言語モデルはスケーラブルなジャッジ JudgeLM: Fine-tuned Large Language Models are Scalable Judges ( http://arxiv.org/abs/2310.17631v1 ) ライセンス: Link先を確認 | Lianghui Zhu, Xinggang Wang, Xinlong Wang | (参考訳) 既存のベンチマークやメトリクスがそれらを包括的に測定できないため、オープンエンドシナリオにおけるLLM(Large Language Models)の評価は難しい。
この問題に対処するため,我々は拡張性のある審査員 (JudgeLM) としてLLMを微調整し,LLMを効率的に効率的に評価する手法を提案する。
まず, タスクシード, LLM 生成回答, GPT-4 生成判断を含む包括的, 大規模, 高品質なデータセットを提案する。
我々は7B,13Bから33Bパラメータの異なるスケールでJiceLMを訓練し、その能力と振る舞いを体系的に分析する。
次に、微調整LDMにおける重要なバイアスを判断として分析し、位置バイアス、知識バイアス、フォーマットバイアスとみなす。
これらの問題に対処するため、JiceLMはスワップ強化、参照サポート、参照ドロップを含む一連のテクニックを導入し、裁判官のパフォーマンスを明確に向上させた。
judgeLMは既存のPandaLMベンチマークと提案した新しいベンチマークの両方で最先端の判定性能を得る。
judgeLM-7Bは8A100 GPUで5Kサンプルを判定するのに3分しか必要ありません。
ジャッジルムは教師の裁判官と高い合意を得、90%を超える合意に達し、人間同士の合意を超えた。
judgeLMはまた、単一の回答、マルチモーダルモデル、複数の回答、マルチターンチャットの判断機能の拡張をデモしている。 Evaluating Large Language Models (LLMs) in open-ended scenarios is challenging because existing benchmarks and metrics can not measure them comprehensively. To address this problem, we propose to fine-tune LLMs as scalable judges (JudgeLM) to evaluate LLMs efficiently and effectively in open-ended benchmarks. We first propose a comprehensive, large-scale, high-quality dataset containing task seeds, LLMs-generated answers, and GPT-4-generated judgments for fine-tuning high-performance judges, as well as a new benchmark for evaluating the judges. We train JudgeLM at different scales from 7B, 13B, to 33B parameters, and conduct a systematic analysis of its capabilities and behaviors. We then analyze the key biases in fine-tuning LLM as a judge and consider them as position bias, knowledge bias, and format bias. To address these issues, JudgeLM introduces a bag of techniques including swap augmentation, reference support, and reference drop, which clearly enhance the judge's performance. JudgeLM obtains the state-of-the-art judge performance on both the existing PandaLM benchmark and our proposed new benchmark. Our JudgeLM is efficient and the JudgeLM-7B only needs 3 minutes to judge 5K samples with 8 A100 GPUs. JudgeLM obtains high agreement with the teacher judge, achieving an agreement exceeding 90% that even surpasses human-to-human agreement. JudgeLM also demonstrates extended capabilities in being judges of the single answer, multimodal models, multiple answers, and multi-turn chat. | 翻訳日:2023-10-27 18:26:36 公開日:2023-10-26 |
# InstOptima:大規模言語モデルに基づく命令演算子による進化的多目的命令最適化 InstOptima: Evolutionary Multi-objective Instruction Optimization via Large Language Model-based Instruction Operators ( http://arxiv.org/abs/2310.17630v1 ) ライセンス: Link先を確認 | Heng Yang, Ke Li | (参考訳) インストラクションに基づく言語モデリングは、事前訓練された言語モデルにおいて大きな注目を集めている。
しかし、教育工学の効率は依然として低く、教育学の発展を妨げる。
近年の研究では,命令生成の自動化に重点を置いているが,命令長や難易度など,命令品質に影響を及ぼす他の重要な目標を考慮せずに,性能向上を図っている。
そこで本研究では,命令生成を進化的多目的最適化問題として扱う新しい手法(InstOptima)を提案する。
テキストエディションベースの手法とは対照的に,提案手法は大きな言語モデル(LLM)を用いて,突然変異や交叉を含む命令演算子をシミュレートする。
さらに,これらの演算子に対して目的指示機構を導入することで,llmが目的を理解し,生成した命令の品質を向上させることができる。
実験により,微調整性能の向上と高品質な命令セットの生成が示された。 Instruction-based language modeling has received significant attention in pretrained language models. However, the efficiency of instruction engineering remains low and hinders the development of instruction studies. Recent studies have focused on automating instruction generation, but they primarily aim to improve performance without considering other crucial objectives that impact instruction quality, such as instruction length and perplexity. Therefore, we propose a novel approach (i.e., InstOptima) that treats instruction generation as an evolutionary multi-objective optimization problem. In contrast to text edition-based methods, our approach utilizes a large language model (LLM) to simulate instruction operators, including mutation and crossover. Furthermore, we introduce an objective-guided mechanism for these operators, allowing the LLM to comprehend the objectives and enhance the quality of the generated instructions. Experimental results demonstrate improved fine-tuning performance and the generation of a diverse set of high-quality instructions. | 翻訳日:2023-10-27 18:26:08 公開日:2023-10-26 |
# $\ell_1$ 正規化子(拡張版)による回帰の近似左一項クロスバリデーション Approximate Leave-one-out Cross Validation for Regression with $\ell_1$ Regularizers (extended version) ( http://arxiv.org/abs/2310.17629v1 ) ライセンス: Link先を確認 | Arnab Auddy, Haolin Zou, Kamiar Rahnama Rad, Arian Maleki | (参考訳) アウト・オブ・サンプルエラー(OO)は、リスク推定とモデル選択に対する主要な関心量である。
LO(Leave-one-out Cross Validation)は、OOを見積もるために(ほぼ)分布自由だが計算的に要求されるアプローチを提供する。
近年の理論的研究は、微分可能正規化子を持つ一般化線形モデルに対するlo(およびoo)の計算効率と統計学的に信頼性が高い推定である。
有意な経験的証拠にもかかわらず、微分不可能な正則化器に関わる問題については、ALOの誤りに関する理論的理解はいまだ不明である。
本稿では,非微分可能正規化子を持つ一般化線形モデル族における幅広い問題に対する新理論を提案する。
誤差 |alo - lo| を、アクティブな集合における残余の摂動の大きさ、サンプルサイズ n 、特徴数 p と正規化パラメータといった直感的な指標の観点で限定した。
結果として、$\ell_1$-regularized 問題に対して、|ALO - LO| は p が無限大に進むにつれて 0 となり、n/p と SNR は固定され有界であることを示す。 The out-of-sample error (OO) is the main quantity of interest in risk estimation and model selection. Leave-one-out cross validation (LO) offers a (nearly) distribution-free yet computationally demanding approach to estimate OO. Recent theoretical work showed that approximate leave-one-out cross validation (ALO) is a computationally efficient and statistically reliable estimate of LO (and OO) for generalized linear models with differentiable regularizers. For problems involving non-differentiable regularizers, despite significant empirical evidence, the theoretical understanding of ALO's error remains unknown. In this paper, we present a novel theory for a wide class of problems in the generalized linear model family with non-differentiable regularizers. We bound the error |ALO - LO| in terms of intuitive metrics such as the size of leave-i-out perturbations in active sets, sample size n, number of features p and regularization parameters. As a consequence, for the $\ell_1$-regularized problems, we show that |ALO - LO| goes to zero as p goes to infinity while n/p and SNR are fixed and bounded. | 翻訳日:2023-10-27 18:25:52 公開日:2023-10-26 |
# ディープニューラルネットワークにおける逆例の転送可能性に関する調査 A Survey on Transferability of Adversarial Examples across Deep Neural Networks ( http://arxiv.org/abs/2310.17626v1 ) ライセンス: Link先を確認 | Jindong Gu, Xiaojun Jia, Pau de Jorge, Wenqain Yu, Xinwei Liu, Avery Ma, Yuan Xun, Anjun Hu, Ashkan Khakzar, Zhijiang Li, Xiaochun Cao, Philip Torr | (参考訳) ディープニューラルネットワーク(DNN)の出現は、画像認識、自然言語処理、科学的問題解決を含む複雑なタスクの解決を可能にする様々な領域に革命をもたらした。
しかし、この進歩は、潜在的な脆弱性も露呈している。
これらの人工入力は、人間には受け入れがたいが、機械学習モデルを操作して誤った予測を行い、安全クリティカルなアプリケーションへの懸念を提起する。
この現象の興味深い性質は、あるモデルのために作られた摂動が別のモデル、しばしば異なるアーキテクチャを欺くことができる敵の例の移動可能性である。
この興味深い性質は"ブラックボックス"攻撃を可能にし、ターゲットモデルの詳細な知識の必要性を回避する。
本調査は,敵の転向可能性の展望を考察する。
我々は,既存手法を分類し,それぞれのアプローチを導く基本原理について議論する。
主要な研究は主に画像分類に集中していますが、私たちは他のビジョンタスクを包含する議論も拡大しています。
課題と今後の展望が議論され、進化する風景における敵の脆弱性に対するDNNの強化の重要性を強調している。 The emergence of Deep Neural Networks (DNNs) has revolutionized various domains, enabling the resolution of complex tasks spanning image recognition, natural language processing, and scientific problem-solving. However, this progress has also exposed a concerning vulnerability: adversarial examples. These crafted inputs, imperceptible to humans, can manipulate machine learning models into making erroneous predictions, raising concerns for safety-critical applications. An intriguing property of this phenomenon is the transferability of adversarial examples, where perturbations crafted for one model can deceive another, often with a different architecture. This intriguing property enables "black-box" attacks, circumventing the need for detailed knowledge of the target model. This survey explores the landscape of the adversarial transferability of adversarial examples. We categorize existing methodologies to enhance adversarial transferability and discuss the fundamental principles guiding each approach. While the predominant body of research primarily concentrates on image classification, we also extend our discussion to encompass other vision tasks and beyond. Challenges and future prospects are discussed, highlighting the importance of fortifying DNNs against adversarial vulnerabilities in an evolving landscape. | 翻訳日:2023-10-27 18:25:28 公開日:2023-10-26 |
# 6人の盲人と象、または学際的な測定特徴の選択 The six blinds and the elephant or an interdisciplinary selection of measurement features ( http://arxiv.org/abs/2310.17624v1 ) ライセンス: Link先を確認 | Ask Ellingsen, Douglas Lundholm, Jean-Pierre Magnot | (参考訳) そこで本研究では,各研究分野における我々の懸念に基づいて,計測問題の実際の特徴を提示する。
明らかに非連結な分野における技術的類似性は、この共通のコミュニケーションを動機付けている。
整合性、整合性、相関性、ランダム性、不確実性の問題は、物理学、決定理論、ゲーム理論など様々な分野において明らかにされている。 We propose here selected actual features of measurement problems based on our concerns in our respective fields of research. Their technical similarity in apparently disconnected fields motivate this common communication. Problems of coherence and consistency, correlation, randomness and uncertainty are exposed in various fields including physics, decision theory and game theory, while the underlying mathematical structures are very similar. | 翻訳日:2023-10-27 18:25:10 公開日:2023-10-26 |
# ファンタスティック・ゲインと発見の場所:事前学習されたモデル間の一般知識伝達の存在と展望 Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model ( http://arxiv.org/abs/2310.17653v1 ) ライセンス: Link先を確認 | Karsten Roth, Lukas Thede, Almut Sophia Koepke, Oriol Vinyals, Olivier H\'enaff, Zeynep Akata | (参考訳) ディープネットワークのトレーニングには、アーキテクチャやデータ拡張、最適化など、さまざまな設計上の決定が必要である。
本研究では、これらのトレーニングのバリエーションが、データからユニークな特徴集合を学習するネットワークになることを示す。
Using public model libraries comprising thousands of models trained on canonical datasets like ImageNet, we observe that for arbitrary pairings of pretrained models, one model extracts significant data context unavailable in the other -- independent of overall performance. Given any arbitrary pairing of pretrained models and no external rankings (such as separate test sets, e.g. due to data privacy), we investigate if it is possible to transfer such "complementary" knowledge from one model to another without performance degradation -- a task made particularly difficult as additional knowledge can be contained in stronger, equiperformant or weaker models.
しかし、事前訓練されたモデルペアリングに非依存なシナリオでの堅牢な転送を容易にすることは、モデルや問題固有の制約なしに、モデルリポジトリから補助的なゲインと知識の融合を解き放ちます。
したがって、この研究は、そのような汎用的な知識伝達の実現可能性に関する、初期的で詳細な調査を提供する。
大規模実験において,我々はまず,標準知識蒸留技術の欠点を明らかにし,さらにデータ分割によるより汎用的な拡張を提案する。
最後に,モデルに依存しない知識伝達における基本モデル特性のスケーラビリティと影響を評価する。 Training deep networks requires various design decisions regarding for instance their architecture, data augmentation, or optimization. In this work, we find these training variations to result in networks learning unique feature sets from the data. Using public model libraries comprising thousands of models trained on canonical datasets like ImageNet, we observe that for arbitrary pairings of pretrained models, one model extracts significant data context unavailable in the other -- independent of overall performance. Given any arbitrary pairing of pretrained models and no external rankings (such as separate test sets, e.g. due to data privacy), we investigate if it is possible to transfer such "complementary" knowledge from one model to another without performance degradation -- a task made particularly difficult as additional knowledge can be contained in stronger, equiperformant or weaker models. Yet facilitating robust transfer in scenarios agnostic to pretrained model pairings would unlock auxiliary gains and knowledge fusion from any model repository without restrictions on model and problem specifics - including from weaker, lower-performance models. This work therefore provides an initial, in-depth exploration on the viability of such general-purpose knowledge transfer. Across large-scale experiments, we first reveal the shortcomings of standard knowledge distillation techniques, and then propose a much more general extension through data partitioning for successful transfer between nearly all pretrained models, which we show can also be done unsupervised. Finally, we assess both the scalability and impact of fundamental model properties on successful model-agnostic knowledge transfer. | 翻訳日:2023-10-27 18:17:21 公開日:2023-10-26 |
# 量子コードの非秘密4番目のパラメータ The Not-So-Secret Fourth Parameter of Quantum Codes ( http://arxiv.org/abs/2310.17652v1 ) ライセンス: Link先を確認 | Eric Kubischta, Ian Teixeira | (参考訳) 量子コードは、通常、物理量子ビット数$n$、符号空間 $k$ の次元、コード $d$ の距離の3つのパラメータを使用して参照される。
しかし、これらの3つのパラメータは、コード等価性の下で量子コードの唯一の不変量ではない。
オマナクタンとグロス(英語版)の最近の論文で、ある場合にはスピン符号からマルチ量子ビット符号へのディッケ状態マッピングは距離と論理ゲートを保存することが示されている。
この結果が一般に証明され、$`new" パラメータ $\g$ に関して安定化符号を厳密に上回る3つの非加法符号の族を構築するために使用される。
私たちの最初のファミリーは、いかなる安定化コードにも不可能なトランスバーサルゲートを実装しています。
第2のファミリーは、同じ距離$d$とトランスバーサルグループ$\g$を持つどの安定化コードよりも、より短い$n$です。
そして第3の家族は、有名な$ t $ gateをより長い距離$ d $と短い$ n $でトランスバーサリーに実装しています。 A quantum code is usually referred to using three parameters: the number of physical qubits $n$, the dimension of the codespace $K$, and the distance of the code $d$. But these three parameters are not the only invariants of a quantum code under code equivalence - there is also a ``not-so-secret fourth parameter" $\G$, the transversal group, which is of fundamental importance for fault tolerance. It was shown in a recent paper of Omanakuttan and Gross that in certain cases the Dicke state mapping from spin codes to multiqubit codes preserves distance and logical gates. We prove this result in general, and use it to construct three families of non-additive codes that strictly outperform stabilizer codes with regards to the ``new" parameter $\G$. Our first family implements transversal gates which are impossible for any stabilizer code. Our second family has smaller length $n$ than any stabilizer code with the same distance $d$ and transversal group $\G$. And our third family implements the famous $ T $ gate transversally for larger distance $ d $ and shorter length $ n $ than any known stabilizer codes. | 翻訳日:2023-10-27 18:16:58 公開日:2023-10-26 |
# シークエンシャル意思決定の高次元予測 High-Dimensional Prediction for Sequential Decision Making ( http://arxiv.org/abs/2310.17651v1 ) ライセンス: Link先を確認 | Georgy Noarov, Ramya Ramalingam, Aaron Roth, Stephan Xie | (参考訳) 本研究では,任意のコンディショニングイベントの収集対象とならない,敵対的に選択された高次元状態の予測を,下流の意思決定者に合わせることを目的として行う。
この問題を解決するための効率的なアルゴリズムと、適切なコンディショニングイベントを選択することに起因する多くのアプリケーションを提供します。 We study the problem of making predictions of an adversarially chosen high-dimensional state that are unbiased subject to an arbitrary collection of conditioning events, with the goal of tailoring these events to downstream decision makers. We give efficient algorithms for solving this problem, as well as a number of applications that stem from choosing an appropriate set of conditioning events. | 翻訳日:2023-10-27 18:16:37 公開日:2023-10-26 |
# 教師なしビデオ異常検出のためのC2FPL(Coarse-to-Fine Pseudo-Labeling)フレームワーク A Coarse-to-Fine Pseudo-Labeling (C2FPL) Framework for Unsupervised Video Anomaly Detection ( http://arxiv.org/abs/2310.17650v1 ) ライセンス: Link先を確認 | Anas Al-lahham, Nurbek Tastan, Zaigham Zaheer, Karthik Nandakumar | (参考訳) ビデオ中の異常なイベントの検出は、監視などのアプリケーションにおいて重要な問題である。
video anomaly detection (vad) は one-class classification (occ) と weakly supervised (ws) の設定でよく研究されている。
しかしながら、アノテーションや人間の監督なしに完全なシステムを学ぶ完全教師なし(US)ビデオ異常検出法は、深く研究されていない。
これは、根拠となる真理アノテーションの欠如がVADチャレンジの規模を著しく増加させるためである。
この課題に対処するために,セグメントレベル(通常/異常)の擬似ラベルを生成する,単純だが効率の良い2段階の擬似ラベル生成フレームワークを提案する。
提案するc2fpl生成器は,階層的分割クラスタリングと統計的仮説テストを用いて,完全にラベルのないビデオから異常な映像セグメントを識別する。
訓練された異常検出器は、未検出の試験ビデオのセグメントに直接適用でき、セグメントレベル、後にフレームレベルの異常予測が得られる。
UCF-CrimeとXD-Violenceという2つの大規模パブリックドメインデータセットに関する広範な研究は、提案された教師なしアプローチが、最先端のWSメソッドに匹敵する性能を保ちながら、既存のOCCおよびUSメソッドよりも優れたパフォーマンスを達成することを示した。 Detection of anomalous events in videos is an important problem in applications such as surveillance. Video anomaly detection (VAD) is well-studied in the one-class classification (OCC) and weakly supervised (WS) settings. However, fully unsupervised (US) video anomaly detection methods, which learn a complete system without any annotation or human supervision, have not been explored in depth. This is because the lack of any ground truth annotations significantly increases the magnitude of the VAD challenge. To address this challenge, we propose a simple-but-effective two-stage pseudo-label generation framework that produces segment-level (normal/anomaly) pseudo-labels, which can be further used to train a segment-level anomaly detector in a supervised manner. The proposed coarse-to-fine pseudo-label (C2FPL) generator employs carefully-designed hierarchical divisive clustering and statistical hypothesis testing to identify anomalous video segments from a set of completely unlabeled videos. The trained anomaly detector can be directly applied on segments of an unseen test video to obtain segment-level, and subsequently, frame-level anomaly predictions. Extensive studies on two large-scale public-domain datasets, UCF-Crime and XD-Violence, demonstrate that the proposed unsupervised approach achieves superior performance compared to all existing OCC and US methods , while yielding comparable performance to the state-of-the-art WS methods. | 翻訳日:2023-10-27 18:16:31 公開日:2023-10-26 |
# 拡散モデルによる6-DoF安定場 6-DoF Stability Field via Diffusion Models ( http://arxiv.org/abs/2310.17649v1 ) ライセンス: Link先を確認 | Takuma Yoneda, Tianchong Jiang, Gregory Shakhnarovich, Matthew R. Walter | (参考訳) ロボット操作のコアとなる能力は、オブジェクトを散らばった環境で安定的に配置する方法を推論することである。
伝統的に、ロボットは、少数のオブジェクトインスタンスやオブジェクトの相互作用パターンを超えて、そのような推論を行うために、オブジェクト固有の手作りのヒューリスティックに依存してきた。
近年のアプローチでは、物理相互作用の概念、すなわち運動予測を学習するが、ラベル付けされたオブジェクト情報の形での監督を必要とするか、高いサンプルの複雑さの犠牲となるか、安定性やオブジェクト配置を直接的に理由づける必要はない。
本研究では,シーンの安定な構成を生成するオブジェクトの3次元ポーズを生成可能な生成モデルである6-DoFusionを提案する。
6-DoFusionの下では、ランダムに初期化されたSE(3)ポーズを漸進的に洗練し、安定したポーズに対する学習された文脈依存分布からサンプルを生成する拡散モデルである。
異なるオブジェクト配置とスタックタスクに関するモデルを評価し、新しいオブジェクトクラスを含む安定したシーンを構築する能力を示し、最先端の3dポーズ推定手法の精度を向上させる。 A core capability for robot manipulation is reasoning over where and how to stably place objects in cluttered environments. Traditionally, robots have relied on object-specific, hand-crafted heuristics in order to perform such reasoning, with limited generalizability beyond a small number of object instances and object interaction patterns. Recent approaches instead learn notions of physical interaction, namely motion prediction, but require supervision in the form of labeled object information or come at the cost of high sample complexity, and do not directly reason over stability or object placement. We present 6-DoFusion, a generative model capable of generating 3D poses of an object that produces a stable configuration of a given scene. Underlying 6-DoFusion is a diffusion model that incrementally refines a randomly initialized SE(3) pose to generate a sample from a learned, context-dependent distribution over stable poses. We evaluate our model on different object placement and stacking tasks, demonstrating its ability to construct stable scenes that involve novel object classes as well as to improve the accuracy of state-of-the-art 3D pose estimation methods. | 翻訳日:2023-10-27 18:16:02 公開日:2023-10-26 |
# グラフニューラルネットワークはランダウ減衰を夢見るか?
プラズマシートモデルの動力学シミュレーションからの洞察 Do Graph Neural Networks Dream of Landau Damping? Insights from Kinetic Simulations of a Plasma Sheet Model ( http://arxiv.org/abs/2310.17646v1 ) ライセンス: Link先を確認 | Diogo D Carvalho, Diogo R Ferreira, Luis O Silva | (参考訳) 本稿では,プラズマ物理動力学シミュレータをグラフニューラルネットワークを用いたシミュレータで完全に置き換える可能性を検討する。
我々は、メッセージパス更新機構と従来の物理ソルバ更新の類似性、および、既知の物理プリエントをグラフ構築と更新に強制する可能性を考慮して、このクラスのサロゲートモデルに焦点を当てる。
本モデルでは,同時代のプラズマシミュレーションコードの前身である1次元プラズマモデルの運動プラズマダイナミクスを学習し,プラズマの熱化,熱平衡に関する静電揺らぎ,高速シートとランドーダンピングの抵抗など,広く知られている運動プラズマ過程を回復する。
本研究は, 実時間, 保存則, キー物理量の時間的変化の観点から, 元のプラズマモデルと比較した。
模型の限界を提示し, 運動プラズマの高次元サーロゲートモデルの可能性について考察した。 We explore the possibility of fully replacing a plasma physics kinetic simulator with a graph neural network-based simulator. We focus on this class of surrogate models given the similarity between their message-passing update mechanism and the traditional physics solver update, and the possibility of enforcing known physical priors into the graph construction and update. We show that our model learns the kinetic plasma dynamics of the one-dimensional plasma model, a predecessor of contemporary kinetic plasma simulation codes, and recovers a wide range of well-known kinetic plasma processes, including plasma thermalization, electrostatic fluctuations about thermal equilibrium, and the drag on a fast sheet and Landau damping. We compare the performance against the original plasma model in terms of run-time, conservation laws, and temporal evolution of key physical quantities. The limitations of the model are presented and possible directions for higher-dimensional surrogate models for kinetic plasmas are discussed. | 翻訳日:2023-10-27 18:15:44 公開日:2023-10-26 |
# 公共モデルからの転送攻撃に対する防御 Defending Against Transfer Attacks From Public Models ( http://arxiv.org/abs/2310.17645v1 ) ライセンス: Link先を確認 | Chawin Sitawarin, Jaewon Chang, David Huang, Wesson Altoyan, David Wagner | (参考訳) 敵の攻撃は、業界における略奪的かつ不当な脅威だった。
しかし,ロバスト性評価文献の10年の歴史を通して,強固あるいは最適攻撃の実施が困難であることがわかった。
機械学習とドメインの専門知識の両方が必要です。
言い換えれば、過去の文献の大半が宗教的に想定していたホワイトボックスの脅威モデルは非現実的である。
本稿では,攻撃相手が公開サーロゲートモデルを介して攻撃を伝達する,新たな実用的脅威モデルを提案する。
我々は、この設定がセキュリティに敏感なアプリケーションにとって、今後最も普及するだろうと主張している。
本設定における転送攻撃を評価し,ゲーム理論的な視点に基づく特殊防衛手法を提案する。
防衛は3つのデータセット(CIFAR-10、CIFAR-100、ImageNet)にわたる24の公開モデルと11の攻撃アルゴリズムで評価される。
この脅威モデルの下では、我々の防衛であるPubDefは、最先端のホワイトボックス対敵訓練を通常の精度でほとんど損なわない大きなマージンで上回っている。
例えば、ImageNetでは、最強の転送攻撃の下で、我々の防御は62%の精度を達成しています。
攻撃を受けた場合の精度は、防御されていないモデルよりもわずか2%低い(78%対80%)。
コードはhttps://github.com/wagner-group/pubdefでリリースします。 Adversarial attacks have been a looming and unaddressed threat in the industry. However, through a decade-long history of the robustness evaluation literature, we have learned that mounting a strong or optimal attack is challenging. It requires both machine learning and domain expertise. In other words, the white-box threat model, religiously assumed by a large majority of the past literature, is unrealistic. In this paper, we propose a new practical threat model where the adversary relies on transfer attacks through publicly available surrogate models. We argue that this setting will become the most prevalent for security-sensitive applications in the future. We evaluate the transfer attacks in this setting and propose a specialized defense method based on a game-theoretic perspective. The defenses are evaluated under 24 public models and 11 attack algorithms across three datasets (CIFAR-10, CIFAR-100, and ImageNet). Under this threat model, our defense, PubDef, outperforms the state-of-the-art white-box adversarial training by a large margin with almost no loss in the normal accuracy. For instance, on ImageNet, our defense achieves 62% accuracy under the strongest transfer attack vs only 36% of the best adversarially trained model. Its accuracy when not under attack is only 2% lower than that of an undefended model (78% vs 80%). We release our code at https://github.com/wagner-group/pubdef. | 翻訳日:2023-10-27 18:15:28 公開日:2023-10-26 |
# Torchdistillは、再現性のあるコーディングなしディープラーニング研究のための顔ライブラリーをハグする:NLPを事例として torchdistill Meets Hugging Face Libraries for Reproducible, Coding-Free Deep Learning Studies: A Case Study on NLP ( http://arxiv.org/abs/2310.17644v1 ) ライセンス: Link先を確認 | Yoshitomo Matsubara | (参考訳) 近年の深層学習の進歩に支えられた研究領域の急速な発展により、機械学習、自然言語処理、コンピュータビジョンコミュニティなどの研究コミュニティでは、科学的研究の再現性がますます重要になっている。
本研究では,モジュール駆動のコーディング不要なディープラーニングフレームワークである torchdistill を初期リリースから大幅にアップグレードし,再現性のある知識蒸留実験のための画像分類とオブジェクト検出タスクのみをサポートする。
アップグレードされたフレームワークがサードパーティライブラリでより多くのタスクをサポートできることを証明するため、アップグレードされたTorchdistillに基づいたスクリプトを使用してBERTモデルのGLUEベンチマーク結果を再現し、さまざまなHugging Faceライブラリと調和させる。
27種類の細調整されたBERTモデルと構成がHugging Faceで発表され、モデル重量はすでに研究コミュニティで広く使われている。
また, 一般的な小型モデルと新しい知識蒸留法を再実装し, コンピュータビジョンタスクのための追加実験を行った。 Reproducibility in scientific work has been becoming increasingly important in research communities such as machine learning, natural language processing, and computer vision communities due to the rapid development of the research domains supported by recent advances in deep learning. In this work, we present a significantly upgraded version of torchdistill, a modular-driven coding-free deep learning framework significantly upgraded from the initial release, which supports only image classification and object detection tasks for reproducible knowledge distillation experiments. To demonstrate that the upgraded framework can support more tasks with third-party libraries, we reproduce the GLUE benchmark results of BERT models using a script based on the upgraded torchdistill, harmonizing with various Hugging Face libraries. All the 27 fine-tuned BERT models and configurations to reproduce the results are published at Hugging Face, and the model weights have already been widely used in research communities. We also reimplement popular small-sized models and new knowledge distillation methods and perform additional experiments for computer vision tasks. | 翻訳日:2023-10-27 18:15:08 公開日:2023-10-26 |
# 自分がどこにいるか - 機械学習に基づくセマンティックプライバシ攻撃に関する研究 Where you go is who you are -- A study on machine learning based semantic privacy attacks ( http://arxiv.org/abs/2310.17643v1 ) ライセンス: Link先を確認 | Nina Wiedemann, Ourania Kounadi, Martin Raubal, Krzysztof Janowicz | (参考訳) データプライバシに関する懸念は,デジタルアプリケーションの利用の増加と,ユーザデータ販売を含むその基盤となるビジネスモデルを考えると,すべてに共通している。
位置情報データは、例えば、近隣の関心点(POI)に基づいて訪問先を分類することで、ユーザの活動パターンや関心を推測できるため、特に敏感である。
それに加えて、機械学習手法はビッグデータを解釈する新しい強力なツールを提供する。
現実的、機械学習ベースのプライバシ攻撃は、データの不正確性に照らして、生の位置情報から意味のある意味的な情報を取得できる実際のリスクは何でしょうか?
そこで本研究では,2つの攻撃シナリオ,すなわち位置分類とユーザプロファイリングを体系的に分析する。
foursquareのデータセットと追跡データによる実験は、高品質な空間情報の悪用の可能性を示しています。
位置難読化が1kmを超えると、空間情報は価値をほとんど加えないが、時間情報のみから高いプライバシーリスクが残る。
POIsのような公開コンテキストデータの可用性は、空間情報に基づく推論において重要な役割を果たす。
本研究は,プライバシ規制について政策立案者が考慮すべきデータと空間コンテキストデータの追跡データベースのリスクを指摘し,個人の位置情報保護対策を指導する可能性を指摘した。 Concerns about data privacy are omnipresent, given the increasing usage of digital applications and their underlying business model that includes selling user data. Location data is particularly sensitive since they allow us to infer activity patterns and interests of users, e.g., by categorizing visited locations based on nearby points of interest (POI). On top of that, machine learning methods provide new powerful tools to interpret big data. In light of these considerations, we raise the following question: What is the actual risk that realistic, machine learning based privacy attacks can obtain meaningful semantic information from raw location data, subject to inaccuracies in the data? In response, we present a systematic analysis of two attack scenarios, namely location categorization and user profiling. Experiments on the Foursquare dataset and tracking data demonstrate the potential for abuse of high-quality spatial information, leading to a significant privacy loss even with location inaccuracy of up to 200m. With location obfuscation of more than 1 km, spatial information hardly adds any value, but a high privacy risk solely from temporal information remains. The availability of public context data such as POIs plays a key role in inference based on spatial information. Our findings point out the risks of ever-growing databases of tracking data and spatial context data, which policymakers should consider for privacy regulations, and which could guide individuals in their personal location protection measures. | 翻訳日:2023-10-27 18:14:49 公開日:2023-10-26 |
# drive anywhere:マルチモーダル基礎モデルによるエンド・ツー・エンドの自動運転の一般化 Drive Anywhere: Generalizable End-to-end Autonomous Driving with Multi-modal Foundation Models ( http://arxiv.org/abs/2310.17642v1 ) ライセンス: Link先を確認 | Tsun-Hsuan Wang and Alaa Maalouf and Wei Xiao and Yutong Ban and Alexander Amini and Guy Rosman and Sertac Karaman and Daniela Rus | (参考訳) 自動運転技術が成熟するにつれて、エンドツーエンドの方法論が主要な戦略として登場し、知覚からディープラーニングによる制御へのシームレスな統合を約束している。
しかし、既存のシステムは予期せぬオープンセット環境やブラックボックスモデルの複雑さといった課題を抱えている。
同時に、ディープラーニングの進化は、より大きくマルチモーダルな基礎モデルを導入し、マルチモーダルなビジュアルとテキストの理解を提供する。
本稿では,これらマルチモーダル基礎モデルを用いて,自律運転システムのロバスト性と適応性を高め,分散性,エンドツーエンド,マルチモーダル,より説明可能な自律性を実現する。
具体的には、画像とテキストで検索可能な表現から駆動決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
そこで我々は,空間的特徴と意味的特徴の両方をカプセル化可能にするため,トランスフォーマからニュアンス空間(ピクセル/パッチアライメント)の特徴を抽出する手法を提案する。
私たちのアプローチ
(i)多種多様な試験において無別な結果を示す一方で, 分布域外におけるロバスト性が著しく向上する。
i) トレーニングの改善(テキストによるデータ拡張)とポリシーデバッギングのための遅延空間シミュレーション(テキスト経由)を組み込むことができる。
読者に、https://www.youtube.com/watch.com で説明ビデオを確認することをお勧めします。
v=4n-DJf8vXxo&feature=youtu.be プロジェクト Web ページ https://drive-anywhere.github.io/ でコードとデモを見ることができます。 As autonomous driving technology matures, end-to-end methodologies have emerged as a leading strategy, promising seamless integration from perception to control via deep learning. However, existing systems grapple with challenges such as unexpected open set environments and the complexity of black-box models. At the same time, the evolution of deep learning introduces larger, multimodal foundational models, offering multi-modal visual and textual understanding. In this paper, we harness these multimodal foundation models to enhance the robustness and adaptability of autonomous driving systems, enabling out-of-distribution, end-to-end, multimodal, and more explainable autonomy. Specifically, we present an approach to apply end-to-end open-set (any environment/scene) autonomous driving that is capable of providing driving decisions from representations queryable by image and text. To do so, we introduce a method to extract nuanced spatial (pixel/patch-aligned) features from transformers to enable the encapsulation of both spatial and semantic features. Our approach (i) demonstrates unparalleled results in diverse tests while achieving significantly greater robustness in out-of-distribution situations, and (ii) allows the incorporation of latent space simulation (via text) for improved training (data augmentation via text) and policy debugging. We encourage the reader to check our explainer video at https://www.youtube.com/watch?v=4n-DJf8vXxo&feature=youtu.be and to view the code and demos on our project webpage at https://drive-anywhere.github.io/. | 翻訳日:2023-10-27 18:14:25 公開日:2023-10-26 |