このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20240119となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 多重化トップk(ウェイト)傾斜探索問題に対する効率的な進化的アルゴリズム
An Efficient Evolutionary Algorithm for Diversified Top-k (Weight) Clique Search Problems ( http://arxiv.org/abs/2404.09997v1 ) ライセンス: Link先を確認 | Jiongzhi Zheng, Jinghui Xue, Kun He, Chu-Min Li, Yanli Liu, | (参考訳) 多くの実世界の問題や応用において、最も優れた候補が要求を完全に満たすことができないにもかかわらず、一つの要素のみを見つけることは不可能である。
個々の個人が卓越しただけでなく、独特なコレクションを欲しがるかもしれません。
Diversified Top-k (DTk) 問題は,cliques や Social Community などのサブグラフなど,複数のサブ構造の有望なコレクションを見つけるための,一種の組合せ最適化問題である。
本稿では、DTk Clique Search (DTkC) とDTk Weight Clique Search (DTkWC) の2つの代表的かつ実用的なDTk問題に対処し、これらの2つの問題に対して、Diversified Top-k Evolutionary AlgorithM (DiverTEAM) と呼ばれる効率的なアルゴリズムを提案する。
DiverTEAMは、高品質で多様な個人やサブ構造を生成するローカル検索アルゴリズムと、チームとして働き、(ほぼ)オプティマに効率的に収束させる遺伝的アルゴリズムで構成されている。
大規模な実験により、DiverTEAMはDTkCとDTkWCの様々なベンチマークで優れた、かつ堅牢な性能を示した。
In many real-world problems and applications, finding only a single element, even though the best, among all possible candidates, cannot fully meet the requirements. We may wish to have a collection where each individual is not only outstanding but also distinctive. Diversified Top-k (DTk) problems are a kind of combinatorial optimization problem for finding such a promising collection of multiple sub-structures, such as subgraphs like cliques and social communities. In this paper, we address two representative and practical DTk problems, DTk Clique search (DTkC) and DTk Weight Clique search (DTkWC), and propose an efficient algorithm called Diversified Top-k Evolutionary AlgorithM (DiverTEAM) for these two problems. DiverTEAM consists of a local search algorithm, which focuses on generating high-quality and diverse individuals and sub-structures, and a genetic algorithm that makes individuals work as a team and converge to (near-)optima efficiently. Extensive experiments show that DiverTEAM exhibits an excellent and robust performance across various benchmarks of DTkC and DTkWC. | 翻訳日:2024-07-01 11:58:46 公開日:2024-01-19 |
# トレーニングデータ分析によるニューラルネットワークに対するハイジャック攻撃
Hijacking Attacks against Neural Networks by Analyzing Training Data ( http://arxiv.org/abs/2401.09740v2 ) ライセンス: Link先を確認 | Yunjie Ge, Qian Wang, Huayang Huang, Qi Li, Cong Wang, Chao Shen, Lingchen Zhao, Peipei Jiang, Zheng Fang, Shenyi Zhang, | (参考訳) バックドアと敵の例は、ディープニューラルネットワーク(DNN)が現在直面している2つの主要な脅威である。
どちらの攻撃も、入力に(小さな)摂動を導入することによって、意図しない出力でモデル動作をハイジャックしようとする。
バックドア攻撃は成功率が高いにもかかわらず、しばしば強い仮定を必要とする。
攻撃者に比較的弱い仮定を課す敵の例攻撃は、しばしば高い計算資源を要求するが、現実世界の主流のブラックボックスモデルを攻撃する場合、必ずしも十分な成功率を得るとは限らない。
これらの制限は、以下の研究課題を動機付けている: より簡単に、より高い攻撃成功率とより合理的な仮定でハイジャックをモデル化できるか?
本稿では,モデルトレーニングプロセスに逆らうことなく,バックドア攻撃の高性能化を実現する新しいモデルハイジャック攻撃であるCleanSheetを提案する。
CleanSheetはトレーニングデータから派生したDNNの脆弱性を利用する。
具体的には、ターゲットモデルのクリーンなトレーニングデータの一部を"poisoned data"として扱い、モデルにより敏感なこれらのデータの特徴(典型的にはロバストな特徴)をキャプチャして"trigger"を構築する。
これらのトリガーは、任意の入力例に追加して、バックドアアタックと同様、ターゲットモデルを誤解させることができる。
5つのデータセット、79の正規訓練モデル、68のプルーニングモデル、39の防御モデルにおいて、CleanSheetの有効性を検証する。
CIFAR-100では平均攻撃成功率(ASR)が97.5%、GTSRBでは92.4%である。
さらにCleanSheetは、さまざまなメインストリームのバックドアディフェンスに直面すると、常に高いASRを維持している。
Backdoors and adversarial examples are the two primary threats currently faced by deep neural networks (DNNs). Both attacks attempt to hijack the model behaviors with unintended outputs by introducing (small) perturbations to the inputs. Backdoor attacks, despite the high success rates, often require a strong assumption, which is not always easy to achieve in reality. Adversarial example attacks, which put relatively weaker assumptions on attackers, often demand high computational resources, yet do not always yield satisfactory success rates when attacking mainstream black-box models in the real world. These limitations motivate the following research question: can model hijacking be achieved more simply, with a higher attack success rate and more reasonable assumptions? In this paper, we propose CleanSheet, a new model hijacking attack that obtains the high performance of backdoor attacks without requiring the adversary to tamper with the model training process. CleanSheet exploits vulnerabilities in DNNs stemming from the training data. Specifically, our key idea is to treat part of the clean training data of the target model as "poisoned data," and capture the characteristics of these data that are more sensitive to the model (typically called robust features) to construct "triggers." These triggers can be added to any input example to mislead the target model, similar to backdoor attacks. We validate the effectiveness of CleanSheet through extensive experiments on 5 datasets, 79 normally trained models, 68 pruned models, and 39 defensive models. Results show that CleanSheet exhibits performance comparable to state-of-the-art backdoor attacks, achieving an average attack success rate (ASR) of 97.5% on CIFAR-100 and 92.4% on GTSRB, respectively. Furthermore, CleanSheet consistently maintains a high ASR, when confronted with various mainstream backdoor defenses. | 翻訳日:2024-03-25 12:17:56 公開日:2024-01-19 |
# Kubernetesのイメージプル実装をデニーノードにデプロイする
Exploiting Kubernetes' Image Pull Implementation to Deny Node Availability ( http://arxiv.org/abs/2401.10582v1 ) ライセンス: Link先を確認 | Luis Augusto Dias Knob, Matteo Franzil, Domenico Siracusa, | (参考訳) Kubernetes(K8s)はここ数年で人気を博し、クラウドネイティブ環境におけるコンテナオーケストレーションのデファクトスタンダードになっています。
コンテナ化やアクセス制御セキュリティといったトピックに対する研究は珍しくないが、K8とランタイムインターフェース間のアプリケーションプログラミングインターフェース(API)のインタラクションは、徹底的に研究されていない。
特に、CRI-APIはコンテナランタイムを抽象化し、コンテナの生成とライフサイクルを管理し、各イメージのダウンロードを管理する。
しかし、この懸念の分離とコンテナランタイムの抽象化は、コンテナイメージのダウンロードプロセスの状態を意識せず、そのようなプロセスに割り当てられたリソースの監視を妨げる。
本稿では、K8sクラスタにおけるDenial of Service攻撃として、このステータス情報の欠如をいかに活用できるかを論じる。
このような攻撃は、最大95%の平均CPU使用量を生成し、新しいコンテナイメージのダウンロードを防止し、潜在的に無制限な時間でI/Oおよびネットワーク使用量を増やすことができることを示す。
最後に,K8sとCRI-APIの関係において,より急進的なアーキテクチャ変更を必要とするストップギャップソリューションとして実装された2つの緩和戦略を提案する。
Kubernetes (K8s) has grown in popularity over the past few years to become the de-facto standard for container orchestration in cloud-native environments. While research is not new to topics such as containerization and access control security, the Application Programming Interface (API) interactions between K8s and its runtime interfaces have not been studied thoroughly. In particular, the CRI-API is responsible for abstracting the container runtime, managing the creation and lifecycle of containers along with the downloads of the respective images. However, this decoupling of concerns and the abstraction of the container runtime renders K8s unaware of the status of the downloading process of the container images, obstructing the monitoring of the resources allocated to such process. In this paper, we discuss how this lack of status information can be exploited as a Denial of Service attack in a K8s cluster. We show that such attacks can generate up to 95% average CPU usage, prevent downloading new container images, and increase I/O and network usage for a potentially unlimited amount of time. Finally, we propose two possible mitigation strategies: one, implemented as a stopgap solution, and another, requiring more radical architectural changes in the relationship between K8s and the CRI-API. | 翻訳日:2024-03-18 08:36:55 公開日:2024-01-19 |
# MLベースのネットワーク侵入検知器における説明可能かつ伝達可能な逆攻撃
Explainable and Transferable Adversarial Attack for ML-Based Network Intrusion Detectors ( http://arxiv.org/abs/2401.10691v1 ) ライセンス: Link先を確認 | Hangsheng Zhang, Dongqi Han, Yinlong Liu, Zhiliang Wang, Jiyan Sun, Shangyuan Zhuang, Jiqiang Liu, Jinsong Dong, | (参考訳) ネットワーク侵入検知システム(NIDS)で広く使われているが、機械学習(ML)は敵の攻撃に対して非常に脆弱であることが証明されている。
NIDSのホワイトボックス攻撃とブラックボックス攻撃はいくつかの研究で研究されている。
しかし、ホワイトボックス攻撃は、攻撃者がターゲットNIDSの知識を十分に持っていると非現実的に仮定する。
一方、既存のブラックボックス攻撃は、モデル(例えば、ニューラルネットワークとツリーモデル)間の弱い逆転性のために、高い攻撃成功率を達成することができない。
さらに、それらのどちらも、なぜ逆例が存在するのか、なぜモデル間で転送できるのかを説明できない。
これらの課題に対処するために,説明可能な転送ベースのBlack-Box Adversarial AttackフレームワークであるETAを紹介する。
ETAは2つの主要な目的を達成することを目指している。
1) さまざまなMLモデルに適用可能な転送可能な逆例を作成する。
2) NIDSにおける敵例の存在とその伝達可能性に関する知見を提供する。
具体的には、まず、ML空間全体にわたって適用可能な一般的な転送ベースの敵攻撃方法を提案する。
その後、協調ゲーム理論と摂動解釈に基づくユニークな洞察を活用し、敵の例と敵の移動可能性を説明する。
そこで本研究では,より強力な転送性を実現し,交通空間の制約を確実にする,重要感性特徴選択(ISFS)手法を提案する。
espite being widely used in network intrusion detection systems (NIDSs), machine learning (ML) has proven to be highly vulnerable to adversarial attacks. White-box and black-box adversarial attacks of NIDS have been explored in several studies. However, white-box attacks unrealistically assume that the attackers have full knowledge of the target NIDSs. Meanwhile, existing black-box attacks can not achieve high attack success rate due to the weak adversarial transferability between models (e.g., neural networks and tree models). Additionally, neither of them explains why adversarial examples exist and why they can transfer across models. To address these challenges, this paper introduces ETA, an Explainable Transfer-based Black-Box Adversarial Attack framework. ETA aims to achieve two primary objectives: 1) create transferable adversarial examples applicable to various ML models and 2) provide insights into the existence of adversarial examples and their transferability within NIDSs. Specifically, we first provide a general transfer-based adversarial attack method applicable across the entire ML space. Following that, we exploit a unique insight based on cooperative game theory and perturbation interpretations to explain adversarial examples and adversarial transferability. On this basis, we propose an Important-Sensitive Feature Selection (ISFS) method to guide the search for adversarial examples, achieving stronger transferability and ensuring traffic-space constraints. | 翻訳日:2024-03-18 08:36:55 公開日:2024-01-19 |
# CAN認証プロトコルのセキュリティ特性に関する調査と比較分析
A Survey and Comparative Analysis of Security Properties of CAN Authentication Protocols ( http://arxiv.org/abs/2401.10736v1 ) ライセンス: Link先を確認 | Alessandro Lotto, Francesco Marchiori, Alessandro Brighente, Mauro Conti, | (参考訳) 現代の自動車に搭載される多数の電子制御ユニット(ECU)とその拡張通信能力は、潜在的に悪用される可能性のある相当な攻撃面を生み出している。
自動車技術の進化にもかかわらず、もともとの安全でない制御エリアネットワーク(CAN)バスの使用は、車内通信を本質的に安全でないものにしている。
自動車分野における標準化された認証プロトコルが欠如しているため、研究者は様々なソリューションを提案し、それぞれに固有の長所と脆弱性がある。
しかし、新しいプロトコルの継続的な流入とセキュリティ要件や重要な運用機能を満たすための潜在的な監視は、これらのプロトコルの実装可能性をさらに複雑にする。
本稿では,CANバスにおける15の認証プロトコルを網羅的にレビューし,比較する。
我々の分析は、その強みと弱点を強調し、自動車認証の重要なセキュリティ要件と整合性を評価する。
さらに、事前定義されたインフラにおける実装の容易化、全体的な信頼性の向上、攻撃成功率の低減に寄与する重要な運用基準に基づくプロトコルの評価を行った。
我々の研究は、既存のプロトコルにおける外部攻撃者に対する防御に重点を置いており、内部の脅威に対する脆弱性を露呈している。
特に、ハッシュチェーン、Mixed Message Authentication Codes、および非対称暗号化技術を用いた認証プロトコルが最も効果的なアプローチとして登場している。
比較研究を通じて,それらのセキュリティ特性と実装に適したプロトコルを分類し,今後の分野の発展に有用な洞察を提供する。
The large number of Electronic Control Units (ECUs) mounted on modern cars and their expansive communication capabilities create a substantial attack surface for potential exploitation. Despite the evolution of automotive technology, the continued use of the originally insecure Controller Area Network (CAN) bus leaves in-vehicle communications inherently non-secure. In response to the absence of standardized authentication protocols within the automotive domain, researchers propose diverse solutions, each with unique strengths and vulnerabilities. However, the continuous influx of new protocols and potential oversights in meeting security requirements and essential operational features further complicate the implementability of these protocols. This paper comprehensively reviews and compares the 15 most prominent authentication protocols for the CAN bus. Our analysis emphasizes their strengths and weaknesses, evaluating their alignment with critical security requirements for automotive authentication. Additionally, we evaluate protocols based on essential operational criteria that contribute to ease of implementation in predefined infrastructures, enhancing overall reliability and reducing the probability of successful attacks. Our study reveals a prevalent focus on defending against external attackers in existing protocols, exposing vulnerabilities to internal threats. Notably, authentication protocols employing hash chains, Mixed Message Authentication Codes, and asymmetric encryption techniques emerge as the most effective approaches. Through our comparative study, we classify the considered protocols based on their security attributes and suitability for implementation, providing valuable insights for future developments in the field. | 翻訳日:2024-03-18 08:36:55 公開日:2024-01-19 |
# 均質暗号化のための低複雑さ整数ディバイダアーキテクチャ
Low-Complexity Integer Divider Architecture for Homomorphic Encryption ( http://arxiv.org/abs/2401.11064v1 ) ライセンス: Link先を確認 | Sajjad Akherati, Jiaxuan Cai, Xinmiao Zhang, | (参考訳) ホモモルフィック暗号化(HE)は、計算を直接暗号文で行うことができ、プライバシ保護のクラウドコンピューティングを可能にする。
HE に関係する多項式の係数に関する計算は常にモジュラー化され、商を利用することで、暗号文の乗算の全体的な複雑さを低減できる。
これまでの設計では、配当がモジュラーの整数倍であり、モジュラーが$u<w/2$である2^w-2^u\pm1$の形式である場合を考える。
本稿では、この除算はより大きい$u$に対して一般化され、モジュラーの整数倍ではない配当となる。
余剰かつ活発な数学的証明を計算するアルゴリズムが提案されている。
さらに,提案アルゴリズムの実装のために,効率的なハードウェアアーキテクチャを開発した。
因子の逆数を利用する別の除算法と比較すると、$w=32$ の場合、提案設計は少なくとも9%のレイテンシと 79 % の領域削減を実現し、$u$ の75% の値が得られる。
Homomorphic encryption (HE) allows computations to be directly carried out on ciphertexts and enables privacy-preserving cloud computing. The computations on the coefficients of the polynomials involved in HE are always followed by modular reduction, and the overall complexity of ciphertext multiplication can be reduced by utilizing the quotient. Our previous design considers the cases that the dividend is an integer multiple of the modulus and the modulus is in the format of $2^w-2^u\pm1$, where $u<w/2$. In this paper, the division is generalized for larger $u$ and dividend not an integer multiple of the modulus. An algorithm is proposed to compute the quotient and vigorous mathematical proofs are provided. Moreover, efficient hardware architecture is developed for implementing the proposed algorithm. Compared to alternative division approaches that utilize the inverse of the divisor, for $w=32$, the proposed design achieves at least 9% shorter latency and 79\% area reduction for 75% possible values of $u$. | 翻訳日:2024-03-18 08:36:55 公開日:2024-01-19 |
# MB-RACS:測定境界に基づくレート適応画像圧縮ネットワーク
MB-RACS: Measurement-Bounds-based Rate-Adaptive Image Compressed Sensing Network ( http://arxiv.org/abs/2402.16855v1 ) ライセンス: Link先を確認 | Yujun Huang, Bin Chen, Naiqi Li, Baoyi An, Shu-Tao Xia, Yaowei Wang, | (参考訳) 従来の圧縮センシング(CS)アルゴリズムは、通常、異なる画像ブロックに対して一様サンプリングレートを適用する。
より戦略的アプローチは、各画像ブロックの複雑さに基づいて、測定回数を適応的に割り当てることである。
本稿では,従来の計測境界理論に従って,各画像ブロックのサンプリングレートを適応的に決定することを目的とした,計測バウンダリに基づく速度適応型画像圧縮センシングネットワーク(MB-RACS)フレームワークを提案する。
さらに、実世界のシナリオでは、元の画像に関する統計情報は直接取得できないため、多段階のレート適応サンプリング戦略を提案する。
この戦略は、前のサンプリングから収集した情報に基づいて、サンプリング比の割り当てを順次調整する。
凸最適化問題として多段レート適応サンプリングを定式化し,ニュートン法と二項探索法を組み合わせた手法を用いてこの問題に対処する。
さらに、連続するイテレーション間のスキップ接続を組み込んで、イテレーション間の機能情報のよりリッチな伝達を容易にすることで、デコーディングプロセスを強化します。
実験により,提案手法が従来の先行手法を超越したことを示すとともに,提案手法における各モジュールの有効性を実証した。
Conventional compressed sensing (CS) algorithms typically apply a uniform sampling rate to different image blocks. A more strategic approach could be to allocate the number of measurements adaptively, based on each image block's complexity. In this paper, we propose a Measurement-Bounds-based Rate-Adaptive Image Compressed Sensing Network (MB-RACS) framework, which aims to adaptively determine the sampling rate for each image block in accordance with traditional measurement bounds theory. Moreover, since in real-world scenarios statistical information about the original image cannot be directly obtained, we suggest a multi-stage rate-adaptive sampling strategy. This strategy sequentially adjusts the sampling ratio allocation based on the information gathered from previous samplings. We formulate the multi-stage rate-adaptive sampling as a convex optimization problem and address it using a combination of Newton's method and binary search techniques. Additionally, we enhance our decoding process by incorporating skip connections between successive iterations to facilitate a richer transmission of feature information across iterations. Our experiments demonstrate that the proposed MB-RACS method surpasses current leading methods, with experimental evidence also underscoring the effectiveness of each module within our proposed framework. | 翻訳日:2024-03-18 07:09:00 公開日:2024-01-19 |
# 臓器と癌組織間の接触面面積の計算法
A novel method to compute the contact surface area between an organ and cancer tissue ( http://arxiv.org/abs/2402.16857v1 ) ライセンス: Link先を確認 | Alessandra Bulanti, Alessandro Carfì, Paolo Traverso, Carlo Terrone, Fulvio Mastrogiovanni, | (参考訳) 接触面面積 (contact surface area, CSA) は腫瘍と臓器との接触領域を指す。
この指標は外科的周術期パラメーターの予測因子として同定されており、特に腎がんの文脈で確認されている。
しかし、CSAの最先端のアルゴリズムは腫瘍の形状に関する仮定に依存しており、手動の人間のアノテーションを必要とする。
そこで本研究では,腫瘍と臓器の3次元再構成を利用したCSAの高精度かつ客観的な評価手法を提案する。
提案手法は,CT画像から臓器と腫瘍を再構成するためのセグメンテーションプロトコルと,再構成メッシュを用いてCSAを計算するアルゴリズムから構成される。
複製可能な結果の文献へのコントリビューションを目的として,我々のアルゴリズムのオープンソース実装と,その採用と普及を支援するグラフィカルユーザインタフェースを提供する。
本手法の精度は, 合成データセットと87個の実腫瘍-臓器ペアの再構成の両方を用いて評価した。
With "contact surface area" (CSA) we refers to the area of contact between a tumor and an organ. This indicator has been identified as a predictive factor for surgical peri-operative parameters, particularly in the context of kidney cancer. However, state-of-the-art algorithms for computing the CSA rely on assumptions about the tumor shape and require manual human annotation. In this study, we introduce an innovative method that relies on 3D reconstructions of tumors and organs to provide an accurate and objective estimate of the CSA. Our approach consists of a segmentation protocol for reconstructing organs and tumors from Computed Tomography (CT) images and an algorithm leveraging the reconstructed meshes to compute the CSA. With the aim to contributing to the literature with replicable results, we provide an open-source implementation of our algorithm, along with an easy-to-use graphical user interface to support its adoption and widespread use. We evaluated the accuracy of our method using both a synthetic dataset and reconstructions of 87 real tumor-organ pairs. | 翻訳日:2024-03-18 07:09:00 公開日:2024-01-19 |
# セマンティック・エフェクティビティ・チャンネルエラー下での実用的なゴール指向通信
Pragmatic Goal-Oriented Communications under Semantic-Effectiveness Channel Errors ( http://arxiv.org/abs/2402.16858v1 ) ライセンス: Link先を確認 | Tomás Hüttebräucker, Mohamed Sana, Emilio Calvanese Strinati, | (参考訳) 近日中のAI支援6Gネットワークでは、セマンティック、プラグマティック、ゴール指向のコミュニケーション戦略の統合が必須となる。
この統合により、専用のタスクデータの検出、送信、処理が可能になり、伝達された情報が理解可能で実用的な意味的重要性を持ち、目的地のニーズや目標と整合することを保証する。
間違いなく、コミュニケーションはエラーフリーです。
この文脈内では、典型的な無線通信の力学から生じるエラーに加えて、意味処理能力の制限により、送信者意図と受信者解釈の意味間の潜在的な歪みや、送信者と受信者間の言語と知識表現の相違が生じることがある。
本論文の主な貢献は2つある。
まず、意味的および有効性の両レベルで言語ミスマッチから生じる誤りの数学的モデリングを提案し、詳述する。
第二に、最適な輸送理論を利用するこれらのタイプのエラーに対処するための新しいアルゴリズム的解決策を提供する。
本稿では,言語ミスマッチを補うメカニズムが提案される可能性を示し,ノイズの多い通信環境下での信頼性通信の実現可能性を高める。
In forthcoming AI-assisted 6G networks, integrating semantic, pragmatic, and goal-oriented communication strategies becomes imperative. This integration will enable sensing, transmission, and processing of exclusively pertinent task data, ensuring conveyed information possesses understandable, pragmatic semantic significance, aligning with destination needs and goals. Without doubt, no communication is error free. Within this context, besides errors stemming from typical wireless communication dynamics, potential distortions between transmitter-intended and receiver-interpreted meanings can emerge due to limitations in semantic processing capabilities, as well as language and knowledge representation disparities between transmitters and receivers. The main contribution of this paper is two-fold. First, it proposes and details a novel mathematical modeling of errors stemming from language mismatches at both semantic and effectiveness levels. Second, it provides a novel algorithmic solution to counteract these types of errors which leverages optimal transport theory. Our numerical results show the potential of the proposed mechanism to compensate for language mismatches, thereby enhancing the attainability of reliable communication under noisy communication environments. | 翻訳日:2024-03-18 07:09:00 公開日:2024-01-19 |
# 解釈可能な機械学習を用いた対話型火星画像コンテンツ検索
Interactive Mars Image Content-Based Search with Interpretable Machine Learning ( http://arxiv.org/abs/2402.16860v1 ) ライセンス: Link先を確認 | Bhavan Vasu, Steven Lu, Emily Dunkel, Kiri L. Wagstaff, Kevin Grimes, Michael McAuley, | (参考訳) NASAのプラネタリー・データ・システム(PDS)は、多くのミッションを通じて収集された何百万もの惑星、衛星、その他の天体の画像をホストしている。
データとユーザのエンゲージメントは、科学的な発見と個々の好奇心をサポートするために解釈可能なコンテンツ分類システムを必要とする。
本稿では,Mars Science Laboratory (MSL) Curiosity rover ミッションの画像に基づいて訓練された分類器が使用した証拠を,プロトタイプベースのアーキテクチャを用いて理解し,検証する。
説明に加えて,コンテンツベース分類器が用いた証拠の多様性と正当性についても検討する。
本稿で紹介する作業は、PSDイメージ・アトラスに展開され、解釈不能なものを置き換える。
The NASA Planetary Data System (PDS) hosts millions of images of planets, moons, and other bodies collected throughout many missions. The ever-expanding nature of data and user engagement demands an interpretable content classification system to support scientific discovery and individual curiosity. In this paper, we leverage a prototype-based architecture to enable users to understand and validate the evidence used by a classifier trained on images from the Mars Science Laboratory (MSL) Curiosity rover mission. In addition to providing explanations, we investigate the diversity and correctness of evidence used by the content-based classifier. The work presented in this paper will be deployed on the PDS Image Atlas, replacing its non-interpretable counterpart. | 翻訳日:2024-03-18 07:09:00 公開日:2024-01-19 |
# SocraSynth: 条件統計を用いたマルチLLM推論 SocraSynth: Multi-LLM Reasoning with Conditional Statistics ( http://arxiv.org/abs/2402.06634v1 ) ライセンス: Link先を確認 | Edward Y. Chang | (参考訳) 大きな言語モデル(LLM)は有望だが、バイアスや幻覚、推論能力の欠如に対する批判に直面している。
本稿では,これらの問題を緩和するために開発されたマルチLLMエージェント推論プラットフォームであるSocraSynthを紹介する。
socrasynthは条件付き統計と連続的な議論を通じて体系的な文脈拡張を活用し、議論のレベルを調整できる。
このプラットフォームは通常、人間のモデレーターと2つのllmエージェントが特定の主題の反対の視点を表す。
socrasynthは、知識生成と推論評価の2つの主要なフェーズで動作する。
知識生成フェーズでは、モデレーターは議論トピックと論争レベルを定義し、エージェントがそれぞれのスタンスに対する支持議論を定式化するように促す。
推論評価フェーズでは、提示された議論の品質を評価するためにソクラテス的推論と形式論理原理を用いる。
対話は、モデレーターが対立から協力的、最終的、和解的な発言を集め、人間の推論と意思決定を助けることで終わる。
本稿では,3つの異なるアプリケーション領域におけるケーススタディを通じて,厳密な研究,動的推論,包括的評価,コラボレーションの強化におけるSocraSynthの有効性を示す。
このことは、先進的な知識抽出と意思決定支援にLLMを活用する上で、マルチエージェントインタラクションの価値を強調している。 Large language models (LLMs), while promising, face criticisms for biases, hallucinations, and a lack of reasoning capability. This paper introduces SocraSynth, a multi-LLM agent reasoning platform developed to mitigate these issues. SocraSynth utilizes conditional statistics and systematic context enhancement through continuous arguments, alongside adjustable debate contentiousness levels. The platform typically involves a human moderator and two LLM agents representing opposing viewpoints on a given subject. SocraSynth operates in two main phases: knowledge generation and reasoning evaluation. In the knowledge generation phase, the moderator defines the debate topic and contentiousness level, prompting the agents to formulate supporting arguments for their respective stances. The reasoning evaluation phase then employs Socratic reasoning and formal logic principles to appraise the quality of the arguments presented. The dialogue concludes with the moderator adjusting the contentiousness from confrontational to collaborative, gathering final, conciliatory remarks to aid in human reasoning and decision-making. Through case studies in three distinct application domains, this paper showcases SocraSynth's effectiveness in fostering rigorous research, dynamic reasoning, comprehensive assessment, and enhanced collaboration. This underscores the value of multi-agent interactions in leveraging LLMs for advanced knowledge extraction and decision-making support. | 翻訳日:2024-02-18 14:09:14 公開日:2024-01-19 |
# MDGNN:総合的・動的投資予測のためのマルチリレーショナル動的グラフニューラルネットワーク MDGNN: Multi-Relational Dynamic Graph Neural Network for Comprehensive and Dynamic Stock Investment Prediction ( http://arxiv.org/abs/2402.06633v1 ) ライセンス: Link先を確認 | Hao Qian, Hongting Zhou, Qian Zhao, Hao Chen, Hongxiang Yao, Jingwei Wang, Ziqi Liu, Fei Yu, Zhiqiang Zhang, Jun Zhou | (参考訳) 株式市場は金融システムの重要な要素であるが、経済指標、金融報告、グローバルニュース、投資家の感情といった様々な側面から生じる動的かつ複雑な関係のために株価の動きを予測することは困難である。
従来の逐次法やグラフベースのモデルは株価変動予測に応用されてきたが、株価変動の多面的および時間的影響を捉えるには限界がある。
これらの課題に対処するために、離散動的グラフを用いて株式間の多面関係とその時間的発展を包括的に捉えるマルチリレーショナル動的グラフニューラルネットワーク(mdgnn)フレームワークが提案されている。
グラフから生成される表現は、株式と関連するエンティティ間の相互関係に関する完全な視点を提供する。
さらに、トランスフォーマー構造のパワーを利用して多重関係の時間的進化を符号化し、ストック投資を予測するための動的かつ効果的なアプローチを提供する。
さらに,提案するmdgnnフレームワークは,最先端(sota)ストック投資手法と比較して,公開データセットで最高のパフォーマンスを実現している。 The stock market is a crucial component of the financial system, but predicting the movement of stock prices is challenging due to the dynamic and intricate relations arising from various aspects such as economic indicators, financial reports, global news, and investor sentiment. Traditional sequential methods and graph-based models have been applied in stock movement prediction, but they have limitations in capturing the multifaceted and temporal influences in stock price movements. To address these challenges, the Multi-relational Dynamic Graph Neural Network (MDGNN) framework is proposed, which utilizes a discrete dynamic graph to comprehensively capture multifaceted relations among stocks and their evolution over time. The representation generated from the graph offers a complete perspective on the interrelationships among stocks and associated entities. Additionally, the power of the Transformer structure is leveraged to encode the temporal evolution of multiplex relations, providing a dynamic and effective approach to predicting stock investment. Further, our proposed MDGNN framework achieves the best performance in public datasets compared with state-of-the-art (SOTA) stock investment methods. | 翻訳日:2024-02-18 14:08:53 公開日:2024-01-19 |
# EEGを用いた生成型抑うつ判別器 EEG Based Generative Depression Discriminator ( http://arxiv.org/abs/2402.09421v1 ) ライセンス: Link先を確認 | Ziming Mao and Hao wu and Yongxi Tan and Yuhe Jin | (参考訳) うつ病は非常に一般的だが重篤な気分障害であり,3つの生理的法則に従って生成的検出ネットワーク(GDN)を構築した。
我々の目標は、ニューラルネットワークが脳波信号に基づいて関連する脳活動を学び、同時に脳活動に基づいてターゲット電極信号を再生することを期待することである。
2つのジェネレータを訓練し,1つは抑うつ脳活動の特徴を学習し,もう1つは制御群の脳活動の特徴を学習した。
実験では、脳波信号と脳活動の関係が特定のカテゴリの特性に適合している場合、対応するカテゴリのジェネレータが生成する信号が元の信号とより一致している場合、脳波信号のセグメントを2つのジェネレータに別々に配置した。
したがって、脳波信号の特定のセグメントに対応するカテゴリを決定することができる。
我々は、MODMAデータセットで92.30\%、HUSMデータセットで86.73\%の精度を得た。
さらに、このモデルは説明可能な情報を出力することができ、ユーザーがネットワークの誤った判断の可能性を発見するのに役立ちます。 Depression is a very common but serious mood disorder.In this paper, We built a generative detection network(GDN) in accordance with three physiological laws. Our aim is that we expect the neural network to learn the relevant brain activity based on the EEG signal and, at the same time, to regenerate the target electrode signal based on the brain activity. We trained two generators, the first one learns the characteristics of depressed brain activity, and the second one learns the characteristics of control group's brain activity. In the test, a segment of EEG signal was put into the two generators separately, if the relationship between the EEG signal and brain activity conforms to the characteristics of a certain category, then the signal generated by the generator of the corresponding category is more consistent with the original signal. Thus it is possible to determine the category corresponding to a certain segment of EEG signal. We obtained an accuracy of 92.30\% on the MODMA dataset and 86.73\% on the HUSM dataset. Moreover, this model is able to output explainable information, which can be used to help the user to discover possible misjudgments of the network.Our code will be released. | 翻訳日:2024-02-18 13:15:54 公開日:2024-01-19 |
# 対数周波数軸上のガウス関数から導かれる多次元ガボ様フィルタ Multidimensional Gabor-Like Filters Derived from Gaussian Functions on Logarithmic Frequency Axes ( http://arxiv.org/abs/2402.09419v1 ) ライセンス: Link先を確認 | Dherik Devakumar, Ole Christian Eidheim | (参考訳) 焦点面積とフィルタ数に影響を与える2つのパラメータを主成分とするフィルタバンクを作成するのに便利である新しいウェーブレット様機能を示す。
これは周波数領域の対数周波数軸上のガウス関数の逆フーリエ変換を計算することで達成される。
結果のフィルタはガボルフィルタと似ており、異なる大きさの方向の短い信号の発振を表す。
ウェーブレットのような関数は、多次元で常に対数周波数軸上のガウス関数を使い、周波数領域の原点に位置するガウス関数からのローパスフィルタを含む一般化ログガバーフィルタと考えることができる。 A novel wavelet-like function is presented that makes it convenient to create filter banks given mainly two parameters that influence the focus area and the filter count. This is accomplished by computing the inverse Fourier transform of Gaussian functions on logarithmic frequency axes in the frequency domain. The resulting filters are similar to Gabor filters and represent oriented brief signal oscillations of different sizes. The wavelet-like function can be thought of as a generalized Log-Gabor filter that is multidimensional, always uses Gaussian functions on logarithmic frequency axes, and innately includes low-pass filters from Gaussian functions located at the frequency domain origin. | 翻訳日:2024-02-18 13:15:36 公開日:2024-01-19 |
# 主要文法構成における人間の判断に適合する言語モデル Language models align with human judgments on key grammatical constructions ( http://arxiv.org/abs/2402.01676v1 ) ライセンス: Link先を確認 | Jennifer Hu, Kyle Mahowald, Gary Lupyan, Anna Ivanova, Roger Levy | (参考訳) 大規模言語モデル(llm)は人間に似た言語一般化をもたらすか?
Dentella et al. (2023; "DGL") は、いくつかの LLM に対し、LLM が "yes-response bias" と "failure to distinguish grammatical from ungrammatical sentences" を示し、80の英文の文法的判断を引き出すよう促した("Is the following sentence grammatically correct in English?")。
我々は、十分に確立されたプラクティスを用いてLLMのパフォーマンスを再評価し、実際にDGLのデータが、LLMが人間の行動をどのように捉えているかを示す証拠となることを発見した。
モデルは、全体として高い精度を達成するだけでなく、人間の言語判断の細かな変化も捉える。 Do Large Language Models (LLMs) make human-like linguistic generalizations? Dentella et al. (2023; "DGL") prompt several LLMs ("Is the following sentence grammatically correct in English?") to elicit grammaticality judgments of 80 English sentences, concluding that LLMs demonstrate a "yes-response bias" and a "failure to distinguish grammatical from ungrammatical sentences". We re-evaluate LLM performance using well-established practices and find that DGL's data in fact provide evidence for just how well LLMs capture human behaviors. Models not only achieve high accuracy overall, but also capture fine-grained variation in human linguistic judgments. | 翻訳日:2024-02-11 17:05:39 公開日:2024-01-19 |
# 類似性の定量化: 生物医学文学におけるChatGPTとGoogle Bardコンテンツの評価のためのテキストマイニング手法 Quantifying Similarity: Text-Mining Approaches to Evaluate ChatGPT and Google Bard Content in Relation to BioMedical Literature ( http://arxiv.org/abs/2402.05116v1 ) ライセンス: Link先を確認 | Jakub Klimczak and Ahmed Abdeen Hamed | (参考訳) 背景: 大規模言語モデル(LLM)によって強化された生成AIツールの出現は、コンテンツを生成する強力な能力を示している。
現在では,プロンプトエンジニアリングとして知られる,このようなコンテンツの有用性の評価が興味深い研究課題となっている。
目的: 素早い工学的手法を用いて, 科学者が生み出した実際の文献との類似性と近接性を評価する。
方法】本調査では,(1) 臨床コンテンツを文献と比較するために, 技術者のChatGPT と Google Bard を推し進め, (2) バイオメディカル文献と比較した内容の類似性を評価する。
提案手法は,テキストマイニング手法を用いて文書と関連ビッグデータを比較し,ネットワーク分析を用いて単語の集中度を評価する。
実験の結果、ChatGPTはGoogle Bardのコサインドキュメント類似度(38%から34%)、Jaccardドキュメント類似度(23%から19%)、TF-IDFBigram類似度(47%から41%)、ネットワーク中心度(度と近さ)で優れていた。
また,文献上存在しなかったchatgpt bigramネットワークに新たに出現したリンクも見いだした。
結論: 得られた類似性の結果は、ChatGPTがドキュメントの類似性、ビッグラム、度合いと近接度の中心性においてGoogle Bardを上回ったことを示している。
また,ChatGPTは文献に関連付けられた用語とリンクしていることも確認した。
このようなつながりは興味深い質問を刺激し、新しい仮説を生み出す可能性がある。 Background: The emergence of generative AI tools, empowered by Large Language Models (LLMs), has shown powerful capabilities in generating content. To date, the assessment of the usefulness of such content, generated by what is known as prompt engineering, has become an interesting research question. Objectives Using the mean of prompt engineering, we assess the similarity and closeness of such contents to real literature produced by scientists. Methods In this exploratory analysis, (1) we prompt-engineer ChatGPT and Google Bard to generate clinical content to be compared with literature counterparts, (2) we assess the similarities of the contents generated by comparing them with counterparts from biomedical literature. Our approach is to use text-mining approaches to compare documents and associated bigrams and to use network analysis to assess the terms' centrality. Results The experiments demonstrated that ChatGPT outperformed Google Bard in cosine document similarity (38% to 34%), Jaccard document similarity (23% to 19%), TF-IDF bigram similarity (47% to 41%), and term network centrality (degree and closeness). We also found new links that emerged in ChatGPT bigram networks that did not exist in literature bigram networks. Conclusions: The obtained similarity results show that ChatGPT outperformed Google Bard in document similarity, bigrams, and degree and closeness centrality. We also observed that ChatGPT offers linkage to terms that are connected in the literature. Such connections could inspire asking interesting questions and generate new hypotheses. | 翻訳日:2024-02-11 15:15:27 公開日:2024-01-19 |
# RSCNet: クラウドベースのWiFiセンシングのための動的CSI圧縮 RSCNet: Dynamic CSI Compression for Cloud-based WiFi Sensing ( http://arxiv.org/abs/2402.04888v1 ) ライセンス: Link先を確認 | Borna Barahimi, Hakam Singh, Hina Tabassum, Omer Waqar, Mohammad Omer | (参考訳) WiFi対応のIoT(Internet-of-Things)デバイスは、単なる通信デバイスから計測機器へと進化し、チャネル状態情報(CSI)抽出機能を活用している。
それでも、リソース制約のあるIoTデバイスとディープニューラルネットワークの複雑さは、センシングのためにCSIをクラウドサーバに送信する必要がある。
実現可能ではあるが、これはかなりの通信オーバーヘッドにつながる。
本稿では,新しいリアルタイムセンシング・圧縮ネットワーク (rscnet) を開発し,圧縮csiによるセンシングを可能にし,通信のオーバーヘッドを低減した。
RSCNetはいくつかのCSIフレームからなるCSIウィンドウ間の最適化を容易にする。
クラウドサーバに送信されると、Long Short-Term Memory (LSTM) ユニットを使用して、以前のウィンドウからのデータを利用する。
RSCNetは、CSI圧縮とセンシング精度のトレードオフを十分にバランスさせ、通信コストを削減し、リアルタイムクラウドベースのWiFiセンシングを合理化する。
数値的な発見は、SenseFiのような既存のベンチマークよりもRCCNetが向上していることを示し、最小のCSI再構成誤差で97.4%の感度の精度を示した。
また,CSIフレーム数の関数として提案したRCCNetの計算解析を行った。 WiFi-enabled Internet-of-Things (IoT) devices are evolving from mere communication devices to sensing instruments, leveraging Channel State Information (CSI) extraction capabilities. Nevertheless, resource-constrained IoT devices and the intricacies of deep neural networks necessitate transmitting CSI to cloud servers for sensing. Although feasible, this leads to considerable communication overhead. In this context, this paper develops a novel Real-time Sensing and Compression Network (RSCNet) which enables sensing with compressed CSI; thereby reducing the communication overheads. RSCNet facilitates optimization across CSI windows composed of a few CSI frames. Once transmitted to cloud servers, it employs Long Short-Term Memory (LSTM) units to harness data from prior windows, thus bolstering both the sensing accuracy and CSI reconstruction. RSCNet adeptly balances the trade-off between CSI compression and sensing precision, thus streamlining real-time cloud-based WiFi sensing with reduced communication costs. Numerical findings demonstrate the gains of RSCNet over the existing benchmarks like SenseFi, showcasing a sensing accuracy of 97.4% with minimal CSI reconstruction error. Numerical results also show a computational analysis of the proposed RSCNet as a function of the number of CSI frames. | 翻訳日:2024-02-11 15:13:48 公開日:2024-01-19 |
# 分岐とネストハイパーパラメータ最適化のための統一ガウス過程 A Unified Gaussian Process for Branching and Nested Hyperparameter Optimization ( http://arxiv.org/abs/2402.04885v1 ) ライセンス: Link先を確認 | Jiazhao Zhang and Ying Hung and Chung-Ching Lin and Zicheng Liu | (参考訳) 適切なハイパーパラメータを選択することは、トレーニングアルゴリズムの動作とパフォーマンスを直接制御するハイパーパラメータとして、ニューラルネットワークの成功において重要な役割を果たす。
効率的なチューニングを実現するため,ガウス過程(GP)モデルに基づくベイズ最適化手法が広く用いられている。
ディープラーニングにおけるベイズ最適化の多くの応用にもかかわらず、既存の手法は、チューニングパラメータが互いに独立であるという便利だが制限的な仮定に基づいて開発されている。
しかし、実際には条件依存のチューニングパラメータが一般的である。
本稿では,分岐パラメータとネストパラメータの2つのタイプに注目した。
Nestedパラメータは、他のチューニングパラメータの特定の設定内でのみ存在するチューニングパラメータを指し、他のパラメータがネストされたパラメータはブランチパラメータと呼ばれる。
分岐パラメータとネストパラメータの条件依存性を捉えるために,統一ベイズ最適化フレームワークを提案する。
十分条件が厳密に導出され、カーネル関数の妥当性が保証され、提案された最適化フレームワークの漸近収束が連続武装帯域設定の下で証明される。
新しいカーネル関数による入力変数間の依存構造を考慮した新しいGPモデルに基づいて、ニューラルネットワークの一連の合成シミュレーションおよび実データ応用において、高い予測精度とより良い最適化効率が観察される。
感度分析も行われ、ハイパーパラメータ値の変化が予測精度に与える影響についての洞察を提供する。 Choosing appropriate hyperparameters plays a crucial role in the success of neural networks as hyper-parameters directly control the behavior and performance of the training algorithms. To obtain efficient tuning, Bayesian optimization methods based on Gaussian process (GP) models are widely used. Despite numerous applications of Bayesian optimization in deep learning, the existing methodologies are developed based on a convenient but restrictive assumption that the tuning parameters are independent of each other. However, tuning parameters with conditional dependence are common in practice. In this paper, we focus on two types of them: branching and nested parameters. Nested parameters refer to those tuning parameters that exist only within a particular setting of another tuning parameter, and a parameter within which other parameters are nested is called a branching parameter. To capture the conditional dependence between branching and nested parameters, a unified Bayesian optimization framework is proposed. The sufficient conditions are rigorously derived to guarantee the validity of the kernel function, and the asymptotic convergence of the proposed optimization framework is proven under the continuum-armed-bandit setting. Based on the new GP model, which accounts for the dependent structure among input variables through a new kernel function, higher prediction accuracy and better optimization efficiency are observed in a series of synthetic simulations and real data applications of neural networks. Sensitivity analysis is also performed to provide insights into how changes in hyperparameter values affect prediction accuracy. | 翻訳日:2024-02-11 15:13:28 公開日:2024-01-19 |
# トピックモデリングと引用ネットワーク分析を組み合わせた欧州人権裁判所の訴訟法の研究 : 個人的・家族的生活を尊重する権利について Combining topic modelling and citation network analysis to study case law from the European Court on Human Rights on the right to respect for private and family life ( http://arxiv.org/abs/2401.16429v1 ) ライセンス: Link先を確認 | M. Mohammadi, L. M. Bruijn, M. Wieling, M. Vols | (参考訳) HUDOCのような判例法データベースは急速に成長し続けており、法研究者はそのような大規模データセットを扱う効率的な方法を見つけることが不可欠になっている。
このようなケースローデータベースは通常、ケースのテキスト内容とそれらの間の引用で構成されている。
本論では,欧州人権条約第8条における欧州人権裁判所の事例法,私生活・家庭生活・文通を尊重する権利について論じる。
本研究では,トピックモデリングと引用ネットワークが,一般テーマと引用パターンに基づいて,第8条の事例法を見つけ,整理する可能性を実証し,比較する。
さらに, この2つの手法を組み合わせることで, いずれの手法も適用できるかどうかを検討した。
本研究では,Aricle 8のケース法則の独自の手作業で収集および注釈付きデータセットに対して,この組み合わせの有効性を評価する。
実験の結果,提案手法(テキストと引用に基づく)は,事例法の発見と分類に最適な結果を与え,研究者に特定の問題に関する事例を抽出・分析する効果的な手段を提供する。 As legal case law databases such as HUDOC continue to grow rapidly, it has become essential for legal researchers to find efficient methods to handle such large-scale data sets. Such case law databases usually consist of the textual content of cases together with the citations between them. This paper focuses on case law from the European Court of Human Rights on Article 8 of the European Convention of Human Rights, the right to respect private and family life, home and correspondence. In this study, we demonstrate and compare the potential of topic modelling and citation network to find and organize case law on Article 8 based on their general themes and citation patterns, respectively. Additionally, we explore whether combining these two techniques leads to better results compared to the application of only one of the methods. We evaluate the effectiveness of the combined method on a unique manually collected and annotated dataset of Aricle 8 case law on evictions. The results of our experiments show that our combined (text and citation-based) approach provides the best results in finding and grouping case law, providing scholars with an effective way to extract and analyse relevant cases on a specific issue. | 翻訳日:2024-02-04 05:42:43 公開日:2024-01-19 |
# DNN検証改善のためのハーネスングニューロン安定性 Harnessing Neuron Stability to Improve DNN Verification ( http://arxiv.org/abs/2401.14412v1 ) ライセンス: Link先を確認 | Hai Duong, Dong Xu, ThanhVu Nguyen, Matthew B. Dwyer | (参考訳) Deep Neural Networks (DNN)は、現実世界の問題を解決する効果的なアプローチとして登場した。
しかし、人間書きのソフトウェアのように、DNNはバグや攻撃の影響を受けやすい。
これにより、効果的でスケーラブルなDNN検証技術やツールの開発に大きな関心が寄せられている。
本稿では,最近提案されたDPLLベースの制約DNN検証手法の拡張であるVeriStableを提案する。
VeriStableは、ニューロンの挙動がDNN入力空間全体にわたって非線形であるのに対して、検証中に計算された中間状態では、多くのニューロンが線形な振る舞いを持つように制約される可能性があるという洞察を利用する。
安定ニューロンの効率的な検出は、抽象化の精度を損なうことなく、組合せ複雑性を減少させる。
さらに、DNN検証問題における節の構造は、産業SATベンチマークと重要な特徴を共有している。
DPLLに基づくDNN検証をさらに最適化するために、これらの特徴をターゲットとしたマルチスレッドと再起動の最適化を適応し、導入する。
本稿では,完全連結フィードフォワードネットワーク (fnns), 畳み込みニューラルネットワーク (cnns), 残差ネットワーク (resnets) など, 標準mnist および cifar データセットに適用した, 挑戦的なベンチマークで検証可能の有効性を評価する。
予備的な結果から、VeriStableは、VNN-COMPの第1および第2のパフォーマーである$\alpha$-$\beta$-CROWNやMN-BaBなど、最先端のDNN検証ツールよりも優れています。 Deep Neural Networks (DNN) have emerged as an effective approach to tackling real-world problems. However, like human-written software, DNNs are susceptible to bugs and attacks. This has generated significant interests in developing effective and scalable DNN verification techniques and tools. In this paper, we present VeriStable, a novel extension of recently proposed DPLL-based constraint DNN verification approach. VeriStable leverages the insight that while neuron behavior may be non-linear across the entire DNN input space, at intermediate states computed during verification many neurons may be constrained to have linear behavior - these neurons are stable. Efficiently detecting stable neurons reduces combinatorial complexity without compromising the precision of abstractions. Moreover, the structure of clauses arising in DNN verification problems shares important characteristics with industrial SAT benchmarks. We adapt and incorporate multi-threading and restart optimizations targeting those characteristics to further optimize DPLL-based DNN verification. We evaluate the effectiveness of VeriStable across a range of challenging benchmarks including fully-connected feedforward networks (FNNs), convolutional neural networks (CNNs) and residual networks (ResNets) applied to the standard MNIST and CIFAR datasets. Preliminary results show that VeriStable is competitive and outperforms state-of-the-art DNN verification tools, including $\alpha$-$\beta$-CROWN and MN-BaB, the first and second performers of the VNN-COMP, respectively. | 翻訳日:2024-02-04 05:41:43 公開日:2024-01-19 |
# RGB-D屋内シーン分類のためのボリューム・サリエンシガイド画像要約 A Volumetric Saliency Guided Image Summarization for RGB-D Indoor Scene Classification ( http://arxiv.org/abs/2401.16227v1 ) ライセンス: Link先を確認 | Preeti Meena, Himanshu Kumar, Sandeep Yadav | (参考訳) オリジナルのビジュアルコンテンツの短縮版である画像要約は、シーンを表現するために使用することができる。
これにより、一意な要約を用いてシーン分類、識別、索引付け等のタスクを効率的に行うことができる。
Saliencyは、画像の要約を生成する最も一般的なテクニックである。
しかし、正当性の定義は本質的に主観的であり、適用に依存している。
RGB-Dデータを用いた既存の塩分検出法は主に色、テクスチャ、深度の特徴に焦点を当てている。
その結果、生成された要約は、前景オブジェクトまたは非静止オブジェクトのいずれかを含む。
しかし、シーン識別のような応用は、最先端の手法とは異なり、シーンの静止特性を必要とする。
本稿では,室内シーン分類のためのボリューム・サリエンシ誘導フレームワークを提案する。
その結果,提案手法の有効性が示された。 Image summary, an abridged version of the original visual content, can be used to represent the scene. Thus, tasks such as scene classification, identification, indexing, etc., can be performed efficiently using the unique summary. Saliency is the most commonly used technique for generating the relevant image summary. However, the definition of saliency is subjective in nature and depends upon the application. Existing saliency detection methods using RGB-D data mainly focus on color, texture, and depth features. Consequently, the generated summary contains either foreground objects or non-stationary objects. However, applications such as scene identification require stationary characteristics of the scene, unlike state-of-the-art methods. This paper proposes a novel volumetric saliency-guided framework for indoor scene classification. The results highlight the efficacy of the proposed method. | 翻訳日:2024-02-04 05:36:02 公開日:2024-01-19 |
# 知識グラフ補完のためのマスケ生成特徴法に基づく進行蒸留 Progressive Distillation Based on Masked Generation Feature Method for Knowledge Graph Completion ( http://arxiv.org/abs/2401.12997v1 ) ライセンス: Link先を確認 | Cunhang Fan, Yujie Chen, Jun Xue, Yonghui Kong, Jianhua Tao, Zhao Lv | (参考訳) 近年,事前学習言語モデル(PLM)に基づく知識グラフ補完(KGC)モデルが有望な結果を示している。
しかしながら、PLMモデルの大量のパラメータと高い計算コストは、下流タスクにおけるそれらの応用に課題をもたらす。
本論文では, プレトレーニングモデルの複雑さを著しく低減することを目的とした, kgcタスクのマスキング生成特性に基づくプログレッシブ蒸留法を提案する。
具体的には、PLMの予蒸留を行い、高品質の教師モデルを取得し、PLMネットワークを圧縮してマルチグレードの学生モデルを得る。
しかし、伝統的な特徴蒸留は教師モデルにおける情報の単一の表現の制限に悩まされている。
この問題を解決するために,よりリッチな表現情報を含む教師学生特徴のマスク生成を提案する。
また,教師と生徒の表現能力には有意な差がある。
そこで我々は,各学年レベルで生徒モデルを蒸留する段階的蒸留法を設計し,教師から生徒への効率的な知識伝達を可能にした。
実験により, 予蒸留段階のモデルが既存の最先端手法を超越したことを示す。
さらに、プログレッシブ蒸留の段階では、モデルは一定のレベルの性能を維持しながら、モデルパラメータを大幅に削減する。
具体的には、下級学生モデルのモデルパラメータをベースラインと比較して56.7\%削減する。 In recent years, knowledge graph completion (KGC) models based on pre-trained language model (PLM) have shown promising results. However, the large number of parameters and high computational cost of PLM models pose challenges for their application in downstream tasks. This paper proposes a progressive distillation method based on masked generation features for KGC task, aiming to significantly reduce the complexity of pre-trained models. Specifically, we perform pre-distillation on PLM to obtain high-quality teacher models, and compress the PLM network to obtain multi-grade student models. However, traditional feature distillation suffers from the limitation of having a single representation of information in teacher models. To solve this problem, we propose masked generation of teacher-student features, which contain richer representation information. Furthermore, there is a significant gap in representation ability between teacher and student. Therefore, we design a progressive distillation method to distill student models at each grade level, enabling efficient knowledge transfer from teachers to students. The experimental results demonstrate that the model in the pre-distillation stage surpasses the existing state-of-the-art methods. Furthermore, in the progressive distillation stage, the model significantly reduces the model parameters while maintaining a certain level of performance. Specifically, the model parameters of the lower-grade student model are reduced by 56.7\% compared to the baseline. | 翻訳日:2024-01-28 15:32:25 公開日:2024-01-19 |
# 自動車ネットワークにおける低消費電力IDSのための量子ニューラルネットワーク加速器 Quantised Neural Network Accelerators for Low-Power IDS in Automotive Networks ( http://arxiv.org/abs/2401.12240v1 ) ライセンス: Link先を確認 | Shashwat Khandelwal, Anneliese Walsh, Shanker Shreejith | (参考訳) 本稿では,自動車制御領域ネットワーク(CAN)の侵入検知システム(IDS)として,低消費電力の多層受容器(MLP)について検討する。
我々は,AMD/Xilinx から FINN フレームワークを利用して MLP のハードウェア IP の定量化,トレーニング,生成を行い,ZCU104 (XCZU7EV) FPGA を統合 IDS 機能を備えたターゲット ECU アーキテクチャとして利用し,サービス拒否(DoS) および CAN ネットワークファジィ攻撃を検出する。
提案手法は遅延(メッセージ処理遅延あたり0.12ms)と推論エネルギー消費量(推論当たり0.25mj)を大幅に改善するとともに,最先端のアプローチと同じような分類性能を文献で達成する。 In this paper, we explore low-power custom quantised Multi-Layer Perceptrons (MLPs) as an Intrusion Detection System (IDS) for automotive controller area network (CAN). We utilise the FINN framework from AMD/Xilinx to quantise, train and generate hardware IP of our MLP to detect denial of service (DoS) and fuzzying attacks on CAN network, using ZCU104 (XCZU7EV) FPGA as our target ECU architecture with integrated IDS capabilities. Our approach achieves significant improvements in latency (0.12 ms per-message processing latency) and inference energy consumption (0.25 mJ per inference) while achieving similar classification performance as state-of-the-art approaches in the literature. | 翻訳日:2024-01-24 18:06:31 公開日:2024-01-19 |
# 真空のないラダー作用素とそのコヒーレント状態およびグラフェンへの応用 Ladder operators with no vacuum, their coherent states, and an application to graphene ( http://arxiv.org/abs/2401.12239v1 ) ライセンス: Link先を確認 | Fabio Bagarello | (参考訳) 文学では、異なる性質のはしごオペレータが存在する。
最も有名なものは、正統的な(反)通勤関係に従うものであるが、それらだけがそうではない。
我々の知識では、すべてのはしご作用素は共通の特徴を持ち、下降作用素は非零ベクトル {\em vacuum} を消滅させる。
これは、そのような種類の作用素が、ある正の作用素や下から有界である作用素の分解にしばしば用いられるという事実に関係している。
これはもちろん、高調波発振器の場合ですが、それだけではありません。
本稿では,空洞のない演算子を下げることを考えるとどうなるかについて議論する。
特に、この状況の一般的な分析の後、コヒーレント状態の可能な構成を提案し、グラフェンにその構成を適用する。 In literature ladder operators of different nature exist. The most famous are those obeying canonical (anti-) commutation relations, but they are not the only ones. In our knowledge, all ladder operators have a common feature: the lowering operators annihilate a non zero vector, the {\em vacuum}. This is connected to the fact that operators of these kind are often used in factorizing some positive operators, or some operators which are { bounded from below}. This is the case, of course, of the harmonic oscillator, but not only. In this paper we discuss what happens when considering lowering operators with no vacua. In particular, after a general analysis of this situation, we propose a possible construction of coherent states, and we apply our construction to graphene. | 翻訳日:2024-01-24 18:06:14 公開日:2024-01-19 |
# spatial scaper: 実室における音のイベント定位と検出のための音環境のシミュレーションと拡張のためのライブラリ Spatial Scaper: A Library to Simulate and Augment Soundscapes for Sound Event Localization and Detection in Realistic Rooms ( http://arxiv.org/abs/2401.12238v1 ) ライセンス: Link先を確認 | Iran R. Roman, Christopher Ick, Sivan Ding, Adrian S. Roman, Brian McFee, Juan P. Bello | (参考訳) sound event localization and detection (seld)はマシンリスニングの重要なタスクである。
主な進歩は、特定の部屋での音響イベントと強い時空間ラベルによるシミュレーションデータに依存する。
SELDデータは、空間局在室インパルス応答(RIR)と音波形を結び、音のスケープに音イベントを配置することでシミュレーションされる。
しかし、RIRは特定の部屋で手動で収集する必要がある。
本研究では,SELDデータシミュレーションと拡張のためのライブラリであるSpatialScaperを紹介する。
既存のツールと比較して、spatialscaperはサイズや壁の吸収といったパラメータを使って仮想部屋をエミュレートする。
これにより、前景と背景音源のパラメータ化された配置(移動を含む)が可能になる。
SpaceScaperには、既存のSELDデータに適用可能なデータ拡張パイプラインも含まれている。
ケーススタディでは、SpatialScaperを使用して、DCASE SELDデータに部屋を追加します。
データを用いたモデルトレーニングは、音響多様性の直接的な機能として、進歩的な性能向上につながった。
これらの結果は、SpatialScaperが堅牢なSELDモデルのトレーニングに有用であることを示している。 Sound event localization and detection (SELD) is an important task in machine listening. Major advancements rely on simulated data with sound events in specific rooms and strong spatio-temporal labels. SELD data is simulated by convolving spatialy-localized room impulse responses (RIRs) with sound waveforms to place sound events in a soundscape. However, RIRs require manual collection in specific rooms. We present SpatialScaper, a library for SELD data simulation and augmentation. Compared to existing tools, SpatialScaper emulates virtual rooms via parameters such as size and wall absorption. This allows for parameterized placement (including movement) of foreground and background sound sources. SpatialScaper also includes data augmentation pipelines that can be applied to existing SELD data. As a case study, we use SpatialScaper to add rooms to the DCASE SELD data. Training a model with our data led to progressive performance improves as a direct function of acoustic diversity. These results show that SpatialScaper is valuable to train robust SELD models. | 翻訳日:2024-01-24 18:06:01 公開日:2024-01-19 |
# 分布誘導型Mapperアルゴリズム A distribution-guided Mapper algorithm ( http://arxiv.org/abs/2401.12237v1 ) ライセンス: Link先を確認 | Yuyang Tao and Shufei Ge | (参考訳) モチベーション: mapperアルゴリズムは、トポロジーデータ分析でデータの形状を調べるための必須のツールである。
Mapperアルゴリズムはデータセットを入力として、データセット全体のトポロジ的特徴を表すグラフを出力する。
このグラフは、しばしばデータのリーブグラフの近似と見なされる。
古典的なMapperアルゴリズムは、固定間隔の長さと重なり合う比率を使い、特に基礎構造が複雑である場合、データの微妙な特徴を明らかにすることができない。
結果: 本研究では, 確率モデルの特性とデータ固有の特性を利用して, 密度誘導被覆を生成し, トポロジ特性を向上した分布案内型MapperアルゴリズムD-Mapperを導入する。
提案アルゴリズムは確率的モデルに基づく手法であり,非確率的手法の代替となる可能性がある。
さらに,重なり合うクラスタリングの品質と拡張持続性ホモロジーの両方を指標として,Mapper型アルゴリズムの性能を計測する手法を提案する。
D-Mapperは様々なシナリオにおいて従来のMapperアルゴリズムよりも優れていることを示す。
また、D-MapperをSARS-COV-2ウイルスRNA配列データセットに適用し、異なるウイルス変異体のトポロジー構造を探索する。
その結果,D-Mapperアルゴリズムはウイルスの垂直および水平の進化過程を明らかにすることができることがわかった。
可用性: 私たちのパッケージはhttps://github.com/ShufeiGe/D-Mapper.comから入手可能です。 Motivation: The Mapper algorithm is an essential tool to explore shape of data in topology data analysis. With a dataset as an input, the Mapper algorithm outputs a graph representing the topological features of the whole dataset. This graph is often regarded as an approximation of a reeb graph of data. The classic Mapper algorithm uses fixed interval lengths and overlapping ratios, which might fail to reveal subtle features of data, especially when the underlying structure is complex. Results: In this work, we introduce a distribution guided Mapper algorithm named D-Mapper, that utilizes the property of the probability model and data intrinsic characteristics to generate density guided covers and provides enhanced topological features. Our proposed algorithm is a probabilistic model-based approach, which could serve as an alternative to non-prababilistic ones. Moreover, we introduce a metric accounting for both the quality of overlap clustering and extended persistence homology to measure the performance of Mapper type algorithm. Our numerical experiments indicate that the D-Mapper outperforms the classical Mapper algorithm in various scenarios. We also apply the D-Mapper to a SARS-COV-2 coronavirus RNA sequences dataset to explore the topological structure of different virus variants. The results indicate that the D-Mapper algorithm can reveal both vertical and horizontal evolution processes of the viruses. Availability: Our package is available at https://github.com/ShufeiGe/D-Mapper. | 翻訳日:2024-01-24 18:05:47 公開日:2024-01-19 |
# 対向ロバスト性に対する良性過剰フィッティングの驚くべき有害性 The Surprising Harmfulness of Benign Overfitting for Adversarial Robustness ( http://arxiv.org/abs/2401.12236v1 ) ライセンス: Link先を確認 | Yifan Hao, Tong Zhang | (参考訳) 最近の経験的および理論的研究は、大きめの機械学習モデルの一般化能力を確立し、(ほぼ正確には)相応しいノイズデータに適合するように訓練されている。
本研究では,基底的真理自体が敵の例に頑健であり,かつ,良性過剰なモデルが‘標準’の外部リスク目標の観点から良性であるとしても,この良性過剰フィッティングプロセスは,サンプル外データが敵の操作を受ける場合に有害であることを示す。
より具体的には 主な結果には2つの部分があります
i) 過パラメータ化線形モデルにおけるmin-norm推定器は、常に `` Benign overfitting' の設定における逆の脆弱性につながる。
(ii)リッジ回帰推定器の標準リスクと'adversarial''リスクとの漸近的トレードオフを検証し、適切な条件下ではリッジ正規化パラメータの任意の1つの選択によって、これら2つの項目が同時に小さくならないことを示唆する。
さらに,遅延学習環境下では,ディープニューラルネットワークにおける経験的観測と整合する2層ニューラルタンジェント・カーネル(ntk)モデル上で並列結果を示す。
我々の発見は、実際の目標関数(例えば、人間)が平均攻撃に対して頑健であり、まずは過剰に適合したニューラルネットワークが頑健でないモデルにつながるという、実際に観測されるパズリング現象に関する理論的洞察を提供する。 Recent empirical and theoretical studies have established the generalization capabilities of large machine learning models that are trained to (approximately or exactly) fit noisy data. In this work, we prove a surprising result that even if the ground truth itself is robust to adversarial examples, and the benignly overfitted model is benign in terms of the ``standard'' out-of-sample risk objective, this benign overfitting process can be harmful when out-of-sample data are subject to adversarial manipulation. More specifically, our main results contain two parts: (i) the min-norm estimator in overparameterized linear model always leads to adversarial vulnerability in the ``benign overfitting'' setting; (ii) we verify an asymptotic trade-off result between the standard risk and the ``adversarial'' risk of every ridge regression estimator, implying that under suitable conditions these two items cannot both be small at the same time by any single choice of the ridge regularization parameter. Furthermore, under the lazy training regime, we demonstrate parallel results on two-layer neural tangent kernel (NTK) model, which align with empirical observations in deep neural networks. Our finding provides theoretical insights into the puzzling phenomenon observed in practice, where the true target function (e.g., human) is robust against adverasrial attack, while beginly overfitted neural networks lead to models that are not robust. | 翻訳日:2024-01-24 18:05:24 公開日:2024-01-19 |
# 文脈メタグラフ強化学習による高一般化とFew-Shot適応による確率的動的パワーディスパッチ Stochastic Dynamic Power Dispatch with High Generalization and Few-Shot Adaption via Contextual Meta Graph Reinforcement Learning ( http://arxiv.org/abs/2401.12235v1 ) ライセンス: Link先を確認 | Bairong Deng, Tao Yu, Zhenning Pan, Xuehan Zhang, Yufeng Wu, Qiaoyi Ding | (参考訳) 強化学習は、多段階的な意思決定問題を解決するための新しいアプローチである。
本稿では,多変量不確実性を考慮したリアルタイム多段確率パワーディスパッチについて検討する。
現状の研究では,学習されたディスパッチポリシは特定のディスパッチシナリオのみを扱うことができ,実際のサンプルとトレーニングサンプルが矛盾している場合,その性能は著しく低下する。
これらのギャップを埋めるために、高度に一般化された多段階最適ディスパッチポリシーのためのコンテキストメタグラフ強化学習(Meta-GRL)を提案する。
具体的には、より一般化されたマルチステージ確率パワーディスパッチモデリングを実現するために、より一般的なコンテキストマルコフ決定プロセス(MDP)とスケーラブルグラフ表現を導入する。
異なるディスパッチシナリオのコンテキストを符号化し、下位ポリシー学習者がコンテキスト特定ディスパッチポリシーを学習している間に、ディスパッチタスク識別の方法を学ぶ。
十分なオフライン学習の後、このアプローチはメタリーナーによって生成された仮説判断のほんの少しのアップドレーションだけで、未認識で未定義のシナリオに迅速に適応することができる。
最新のポリシーと従来の強化学習との比較は、提案されたメタgrlの最適性、効率性、適応性、拡張性を検証する。 Reinforcement learning is an emerging approaches to facilitate multi-stage sequential decision-making problems. This paper studies a real-time multi-stage stochastic power dispatch considering multivariate uncertainties. Current researches suffer from low generalization and practicality, that is, the learned dispatch policy can only handle a specific dispatch scenario, its performance degrades significantly if actual samples and training samples are inconsistent. To fill these gaps, a novel contextual meta graph reinforcement learning (Meta-GRL) for a highly generalized multi-stage optimal dispatch policy is proposed. Specifically, a more general contextual Markov decision process (MDP) and scalable graph representation are introduced to achieve a more generalized multi-stage stochastic power dispatch modeling. An upper meta-learner is proposed to encode context for different dispatch scenarios and learn how to achieve dispatch task identification while the lower policy learner learns context-specified dispatch policy. After sufficient offline learning, this approach can rapidly adapt to unseen and undefined scenarios with only a few updations of the hypothesis judgments generated by the meta-learner. Numerical comparisons with state-of-the-art policies and traditional reinforcement learning verify the optimality, efficiency, adaptability, and scalability of the proposed Meta-GRL. | 翻訳日:2024-01-24 18:04:56 公開日:2024-01-19 |
# 軽量FPGAを用いた自動車CANのためのIDS-ECUアーキテクチャ A Lightweight FPGA-based IDS-ECU Architecture for Automotive CAN ( http://arxiv.org/abs/2401.12234v1 ) ライセンス: Link先を確認 | Shashwat Khandelwal, Shreejith Shanker | (参考訳) 近年、自動車の複雑なソフトウェア駆動機能の指数関数的な増加が見られ、電子制御ユニット(ecu)、ネットワーク機能、インターフェースが増加している。
これらの機能拡張は、侵入検出と管理を重要な機能にする新たな脆弱性プレーンも導入するが、計算上のオーバーヘッドが大きいため、ecusやネットワーク要素の増加につながることが多い。
本稿では,自動車制御領域ネットワーク(CAN)用の侵入検知システム(IDS)と,市販のハイブリッドFPGAデバイス上での従来のECU機能を組み合わせた統合ECUアーキテクチャを提案する。
本稿では,Xilinx のオフザシェル深層処理ユニット (DPU) IP ブロックを用いて高速化され,ECU 上のソフトウェアに対して完全に透過的に動作する,Denial-of-Service, Fuzzing, Spoofing などの攻撃ベクトルを分離した IDS として2つの量子化多層パーセプトロン (QMLP) を提案する。
提案したモデルでは,すべての攻撃に対して最先端の分類精度が得られ,Nvidiaライブラリを用いて定量化した同一モデルのGPUベース実装と比較して15倍の消費電力削減が見られた。
また、メッセージ毎の処理遅延(canメッセージの到着から0.24ms)の2.3倍のスピードアップを実現し、クリティカルなcanノードにおけるエンドツーエンドの厳密なレイテンシと、組み込みidの最先端idsモデルや疎結合idsアクセラレータ(gpu)と比較して推論のための電力消費量の2.6倍削減を実現しました。 Recent years have seen an exponential rise in complex software-driven functionality in vehicles, leading to a rising number of electronic control units (ECUs), network capabilities, and interfaces. These expanded capabilities also bring-in new planes of vulnerabilities making intrusion detection and management a critical capability; however, this can often result in more ECUs and network elements due to the high computational overheads. In this paper, we present a consolidated ECU architecture incorporating an Intrusion Detection System (IDS) for Automotive Controller Area Network (CAN) along with traditional ECU functionality on an off-the-shelf hybrid FPGA device, with near-zero overhead for the ECU functionality. We propose two quantised multi-layer perceptrons (QMLP's) as isolated IDSs for detecting a range of attack vectors including Denial-of-Service, Fuzzing and Spoofing, which are accelerated using off-the-shelf deep-learning processing unit (DPU) IP block from Xilinx, operating fully transparently to the software on the ECU. The proposed models achieve the state-of-the-art classification accuracy for all the attacks, while we observed a 15x reduction in power consumption when compared against the GPU-based implementation of the same models quantised using Nvidia libraries. We also achieved a 2.3x speed up in per-message processing latency (at 0.24 ms from the arrival of a CAN message) to meet the strict end-to-end latency on critical CAN nodes and a 2.6x reduction in power consumption for inference when compared to the state-of-the-art IDS models on embedded IDS and loosely coupled IDS accelerators (GPUs) discussed in the literature. | 翻訳日:2024-01-24 18:04:34 公開日:2024-01-19 |
# 自己教師付き学習における記憶記憶は下流の一般化を改善する Memorization in Self-Supervised Learning Improves Downstream Generalization ( http://arxiv.org/abs/2401.12233v1 ) ライセンス: Link先を確認 | Wenhao Wang, Muhammad Ahmad Kaleem, Adam Dziedzic, Michael Backes, Nicolas Papernot, Franziska Boenisch | (参考訳) 自己教師付き学習(SSL)は、インターネットから取り除かれた未ラベルのデータで、純粋に高性能エンコーダを訓練する能力により、最近大きな注目を集めている。
このデータはセンシティブであり、実証的な証拠から、sslエンコーダはトレーニングデータのプライベート情報を記憶し、推論時にそれらを開示できることが示唆される。
教師付き学習からの記憶に関する既存の理論的定義はラベルに依存しているため、SSLに転送することはない。
このギャップに対処するため、SSL内で記憶を定義するフレームワークであるSSLMemを提案する。
私たちの定義では、データポイントに対する表現のアラインメントの違いと、これらのデータポイントでトレーニングされたエンコーダとそうでないエンコーダの両方が返す拡張ビューを比較します。
さまざまなエンコーダアーキテクチャやデータセットに関する包括的な実証分析を通じて、SSLは大規模なデータセットに依存していても、トレーニングデータポイントの過度に適合する部分を減らす正規化技術として、教師付き学習で知られている強力な拡張は、高い記憶力を持つことを強調します。
実験結果から,この暗記は,異なる下流タスクにおいて高い一般化性能を達成するために,エンコーダにとって不可欠であることを示す。 Self-supervised learning (SSL) has recently received significant attention due to its ability to train high-performance encoders purely on unlabeled data-often scraped from the internet. This data can still be sensitive and empirical evidence suggests that SSL encoders memorize private information of their training data and can disclose them at inference time. Since existing theoretical definitions of memorization from supervised learning rely on labels, they do not transfer to SSL. To address this gap, we propose SSLMem, a framework for defining memorization within SSL. Our definition compares the difference in alignment of representations for data points and their augmented views returned by both encoders that were trained on these data points and encoders that were not. Through comprehensive empirical analysis on diverse encoder architectures and datasets we highlight that even though SSL relies on large datasets and strong augmentations-both known in supervised learning as regularization techniques that reduce overfitting-still significant fractions of training data points experience high memorization. Through our empirical results, we show that this memorization is essential for encoders to achieve higher generalization performance on different downstream tasks. | 翻訳日:2024-01-24 18:03:58 公開日:2024-01-19 |
# 近所の計測とモデリング Measuring and Modeling Neighborhoods ( http://arxiv.org/abs/2110.14014v6 ) ライセンス: Link先を確認 | Cory McCartan, Jacob R. Brown, and Kosuke Imai | (参考訳) 粒度の地理的データは、地域がどのように形成され、どのように政治に影響を及ぼすかを理解する新しい機会を提供する。
同時に、地域固有の主観性は、それらの測定とモデリングにおいて方法論的な課題を生み出す。
我々は、回答者が自分の近所を地図上に描いたりできるオープンソースの調査機器を開発した。
また,地域と回答者の特性がどのように主観的地域を決定するかを分析する統計モデルを提案する。
我々は、マイアミ、ニューヨーク、フェニックスの有権者から主観的な近隣住民を収集し、ニューヨーク市の住民に市政委員会の地区に含める関心のある地域を惹きつけるよう求めた。
我々の分析によると、他の要因を一定に保ちながら、白人の回答者は近隣により多くの白人住民がいる国勢調査ブロックを含めている。
同様に、民主党と共和党は共同党派地域を含める傾向にある。
さらに,本モデルでは,標準近傍測度よりも精度の高いサンプル外予測を行う。 Granular geographic data present new opportunities to understand how neighborhoods are formed, and how they influence politics. At the same time, the inherent subjectivity of neighborhoods creates methodological challenges in measuring and modeling them. We develop an open-source survey instrument that allows respondents to draw their neighborhoods on a map. We also propose a statistical model to analyze how the characteristics of respondents and local areas determine subjective neighborhoods. We conduct two surveys: collecting subjective neighborhoods from voters in Miami, New York City, and Phoenix, and asking New York City residents to draw a community of interest for inclusion in their city council district. Our analysis shows that, holding other factors constant, White respondents include census blocks with more White residents in their neighborhoods. Similarly, Democrats and Republicans are more likely to include co-partisan areas. Furthermore, our model provides more accurate out-of-sample predictions than standard neighborhood measures. | 翻訳日:2024-01-24 00:39:41 公開日:2024-01-19 |
# 政府の業績の低下とソーシャルメディア上の悪質な政治投稿:米国でのcovid-19危機の証拠 Low Government Performance and Uncivil Political Posts on Social Media: Evidence from the COVID-19 Crisis in the US ( http://arxiv.org/abs/2107.10041v8 ) ライセンス: Link先を確認 | Kohei Nishi | (参考訳) ソーシャルメディアを通じた政治表現は、すでに政治参加の一形態として根付いている。
一方、民主主義はソーシャルメディアプラットフォームで市民主義の流行に直面しているようだ。
この背景から、近年、政治コミュニケーション研究の分野において、オンラインの政治機関が関心を集めている。
しかし、ソーシャルメディア上での国民の非公的な政治的表現と政府のパフォーマンスがどのように結びついているのかは明らかではなく、非制度的な政治参加の新たな形態として、ソーシャルメディア表現によるパフォーマンス評価行動の存在が重要であると考えられる。
このギャップを埋めるために,本研究は,政府の業績が悪化すると,人々が不満を募り,ソーシャルメディアを通じて政府に悪質なメッセージを送付するという仮説を定めている。
この仮説をテストするために、この研究では、米国州知事を対象とするX/Twitterの800万件以上の投稿を収集し、ニューラルネットワークベースの機械学習手法を用いて、それらを非現実的か否かを分類し、州レベルのCOVID-19患者が州知事を対象とする非現実的投稿数に与える影響を調査した。
統計分析の結果、州レベルの新型コロナウイルス感染者の増加により、州知事に対する非公職ポストが大幅に増加した。
最後に,非制度化政治参加と民主主義における選挙の重要性という2つの視点から,調査結果の意義について考察する。 Political expression through social media has already taken root as a form of political participation. Meanwhile, democracy seems to be facing an epidemic of incivility on social media platforms. With this background, online political incivility has recently become a growing concern in the field of political communication studies. However, it is less clear how a government's performance is linked with people's uncivil political expression on social media; investigating the existence of performance evaluation behavior through social media expression seems to be important, as it is a new form of non-institutionalized political participation. To fill this gap in the literature, the present study hypothesizes that when government performance worsens, people become frustrated and send uncivil messages to the government via social media. To test this hypothesis, the present study collected over 8 million posts on X/Twitter directed at US state governors and classified them as uncivil or not, using a neural network-based machine learning method, and examined the impact of worsening state-level COVID-19 cases on the number of uncivil posts directed at state governors. The results of the statistical analyses showed that increases in state-level COVID-19 cases led to a significantly higher number of uncivil posts against state governors. Finally, the present study discusses the implications of the findings from two perspectives: non-institutionalized political participation and the importance of elections in democracies. | 翻訳日:2024-01-24 00:37:58 公開日:2024-01-19 |
# 時間依存量子グラフ上の時間発展とschr\"odinger方程式 Time evolution and the Schr\"odinger equation on time dependent quantum graphs ( http://arxiv.org/abs/2210.14652v2 ) ライセンス: Link先を確認 | Uzy Smilansky and Gilad Sofer | (参考訳) 本稿では,時間依存エッジ長を持つ計量グラフ上の時間依存schr\"odinger方程式と,それに対応する時間発展がユニタリとなるような問題を定式化する適切な方法について議論する。
我々は、標準的なKirchhoff Laplacian を磁気的 Schr\odinger 作用素に高調波ポテンシャルで置き換えることで、シュルヒホフ・ラプラシアン方程式の well posedness を保証できることを示した。
そして、その結果を頂点条件の時間依存族に一般化する。
また、この理論を緩やかに変化する量子グラフに関連する幾何学的位相の存在を示すために応用する。 The purpose of the present paper is to discuss the time dependent Schr\"odinger equation on a metric graph with time-dependent edge lengths, and the proper way to pose the problem so that the corresponding time evolution is unitary. We show that the well posedness of the Schr\"odinger equation can be guaranteed by replacing the standard Kirchhoff Laplacian with a magnetic Schr\"odinger operator with a harmonic potential. We then generalize the result to time dependent families of vertex conditions. We also apply the theory to show the existence of a geometric phase associated with a slowly changing quantum graph. | 翻訳日:2024-01-23 22:24:21 公開日:2024-01-19 |
# アフィンモデル変換による伝達学習 Transfer learning with affine model transformation ( http://arxiv.org/abs/2210.09745v2 ) ライセンス: Link先を確認 | Shunya Minami, Kenji Fukumizu, Yoshihiro Hayashi, Ryo Yoshida | (参考訳) 教師付き転送学習は、データが不足しているシナリオにおける機械学習の予測能力を高める可能性から、多くの注目を集めている。
一般に、与えられたソースモデルとターゲットドメインからのデータセットを用いて、統計的にドメインシフトとドメイン固有の要素を学習することにより、事前訓練されたモデルをターゲットドメインに適応させる。
このような手続き的かつ直感的に可能な手法は、幅広い現実世界の応用において大きな成功を収めてきたが、理論的基盤の欠如は、さらなる方法論の発展を妨げる。
本稿では,期待二乗損失最小化の原理に従って,アフィンモデル伝達と呼ばれる伝達学習回帰の一般クラスを提案する。
アフィンモデル転送は、ニューラル特徴抽出器に基づく最も一般的な手順を含む、様々な既存手法を幅広く含むことが示されている。
さらに,本論文は,一般化誤差や過剰リスクなどのアフィンモデル伝達の理論的性質を明らかにする。
いくつかのケーススタディを通じて,アフィン型トランスファーモデルと分離したドメイン間共通性とドメイン固有因子のモデル化と推定の実用的利点を実証する。 Supervised transfer learning has received considerable attention due to its potential to boost the predictive power of machine learning in scenarios where data are scarce. Generally, a given set of source models and a dataset from a target domain are used to adapt the pre-trained models to a target domain by statistically learning domain shift and domain-specific factors. While such procedurally and intuitively plausible methods have achieved great success in a wide range of real-world applications, the lack of a theoretical basis hinders further methodological development. This paper presents a general class of transfer learning regression called affine model transfer, following the principle of expected-square loss minimization. It is shown that the affine model transfer broadly encompasses various existing methods, including the most common procedure based on neural feature extractors. Furthermore, the current paper clarifies theoretical properties of the affine model transfer such as generalization error and excess risk. Through several case studies, we demonstrate the practical benefits of modeling and estimating inter-domain commonality and domain-specific factors separately with the affine-type transfer models. | 翻訳日:2024-01-23 22:23:48 公開日:2024-01-19 |
# 分割学習におけるプライバシー漏洩の評価 Evaluating Privacy Leakage in Split Learning ( http://arxiv.org/abs/2305.12997v3 ) ライセンス: Link先を確認 | Xinchi Qiu, Ilias Leontiadis, Luca Melis, Alex Sablayrolles, Pierre Stock | (参考訳) プライバシ保護機械学習(PPML)は、プライベート情報を利用したモデルのトレーニングとデプロイを支援する。
特に、オンデバイス機械学習は、推論中にサードパーティサーバと生データを共有することを避けることができる。
オンデバイスモデルは通常、(1)デバイス上の小さな機能のみに依存し、(2)エンドユーザーデバイス上で効率的に動作するのに十分な小型でなければならないという事実から、サーバモデルに比べて精度が低い。
Split Learning(SL)は、これらの制限を克服できる有望なアプローチである。
SLでは、大規模な機械学習モデルが2つの部分に分割され、大きな部分はサーバ側にあり、小さな部分はデバイス上で実行され、プライベート機能を統合することを目的としている。
しかしながら、そのようなモデルのエンドツーエンドのトレーニングでは、プライベート機能やラベルをエンコードするカット層での勾配の交換が必要となる。
本稿では,SLに関連する潜在的なプライバシーリスクについて考察する。
さらに,様々な緩和戦略の有効性についても検討した。
以上の結果から,すべてのテストデータセットにおける攻撃者の有効性が有意に向上し,ほぼ完全な再構築精度が得られた。
しかし、少数の差分プライバシー(DP)は、トレーニングの大幅な劣化を引き起こすことなく、このリスクを効果的に軽減することができる。 Privacy-Preserving machine learning (PPML) can help us train and deploy models that utilize private information. In particular, on-device machine learning allows us to avoid sharing raw data with a third-party server during inference. On-device models are typically less accurate when compared to their server counterparts due to the fact that (1) they typically only rely on a small set of on-device features and (2) they need to be small enough to run efficiently on end-user devices. Split Learning (SL) is a promising approach that can overcome these limitations. In SL, a large machine learning model is divided into two parts, with the bigger part residing on the server side and a smaller part executing on-device, aiming to incorporate the private features. However, end-to-end training of such models requires exchanging gradients at the cut layer, which might encode private features or labels. In this paper, we provide insights into potential privacy risks associated with SL. Furthermore, we also investigate the effectiveness of various mitigation strategies. Our results indicate that the gradients significantly improve the attackers' effectiveness in all tested datasets reaching almost perfect reconstruction accuracy for some features. However, a small amount of differential privacy (DP) can effectively mitigate this risk without causing significant training degradation. | 翻訳日:2024-01-23 21:51:05 公開日:2024-01-19 |
# 共通拡散騒音スケジューリングとサンプルステップの欠陥 Common Diffusion Noise Schedules and Sample Steps are Flawed ( http://arxiv.org/abs/2305.08891v3 ) ライセンス: Link先を確認 | Shanchuan Lin, Bingchen Liu, Jiashi Li, Xiao Yang | (参考訳) 一般的な拡散雑音のスケジュールは、信号対雑音比(snr)をゼロにする最後の時間ステップを強制せず、拡散サンプラーの実装のいくつかは、最後の時間ステップから開始しない。
このような設計には欠陥があり、モデルが推論時に純粋なガウスノイズを与えられるという事実を反映せず、トレーニングと推論の間に相違が生じている。
既存の実装に欠陥のある設計が本当の問題を引き起こすことを示す。
安定拡散(Stable Diffusion)では、モデルが中輝度の画像のみを生成することを厳しく制限し、非常に明るく暗いサンプルを生成するのを防ぐ。
我々は,(1) ノイズスケジュールを再スケールして端末snrをゼロにする,(2) モデルをv予測でトレーニングする,(3) サンプリング器を最後の時間ステップから常に起動するように変更する,(4) 過度な露出を防止するための再スケール分類器フリーガイダンスを提案する。
これらの単純な変更により、トレーニングと推論の間に拡散プロセスが一致し、モデルは元のデータ分布に忠実なサンプルを生成することができる。 We discover that common diffusion noise schedules do not enforce the last timestep to have zero signal-to-noise ratio (SNR), and some implementations of diffusion samplers do not start from the last timestep. Such designs are flawed and do not reflect the fact that the model is given pure Gaussian noise at inference, creating a discrepancy between training and inference. We show that the flawed design causes real problems in existing implementations. In Stable Diffusion, it severely limits the model to only generate images with medium brightness and prevents it from generating very bright and dark samples. We propose a few simple fixes: (1) rescale the noise schedule to enforce zero terminal SNR; (2) train the model with v prediction; (3) change the sampler to always start from the last timestep; (4) rescale classifier-free guidance to prevent over-exposure. These simple changes ensure the diffusion process is congruent between training and inference and allow the model to generate samples more faithful to the original data distribution. | 翻訳日:2024-01-23 21:50:05 公開日:2024-01-19 |
# 交通・道路標識検出のためのyolov5の敵対的攻撃 Adversarial Attack On Yolov5 For Traffic And Road Sign Detection ( http://arxiv.org/abs/2306.06071v2 ) ライセンス: Link先を確認 | Sanyam Jain | (参考訳) 本稿では, YOLOv5 Object Detectionアルゴリズムに対して, 一般的な敵攻撃を実装し, 検討する。
本稿では,交通や道路標識検出の分野での敵攻撃に対するYOLOv5の脆弱性について検討する。
本稿では,限られたメモリであるBroyden Fletcher Goldfarb Shanno (L-BFGS), Fast Gradient Sign Method (FGSM) 攻撃, Carlini and Wagner (C&W) 攻撃, Basic Iterative Method (BIM) 攻撃,Projected Gradient Descent (PGD) 攻撃, One Pixel 攻撃,Universal Adversarial Perturbations 攻撃など,様々な種類の攻撃の影響について検討する。
その結果, YOLOv5はこれらの攻撃の影響を受けやすく, 摂動の規模が大きくなるにつれて誤分類率が増加することがわかった。
また,サリエンシーマップを用いた結果について解説する。
本稿では,交通・交通システムにおいて使用される物体検出アルゴリズムの安全性と信頼性に重要な意味を持ち,実世界のアプリケーションでの有効性を確保するために,より堅牢でセキュアなモデルの必要性を強調する。 This paper implements and investigates popular adversarial attacks on the YOLOv5 Object Detection algorithm. The paper explores the vulnerability of the YOLOv5 to adversarial attacks in the context of traffic and road sign detection. The paper investigates the impact of different types of attacks, including the Limited memory Broyden Fletcher Goldfarb Shanno (L-BFGS), the Fast Gradient Sign Method (FGSM) attack, the Carlini and Wagner (C&W) attack, the Basic Iterative Method (BIM) attack, the Projected Gradient Descent (PGD) attack, One Pixel Attack, and the Universal Adversarial Perturbations attack on the accuracy of YOLOv5 in detecting traffic and road signs. The results show that YOLOv5 is susceptible to these attacks, with misclassification rates increasing as the magnitude of the perturbations increases. We also explain the results using saliency maps. The findings of this paper have important implications for the safety and reliability of object detection algorithms used in traffic and transportation systems, highlighting the need for more robust and secure models to ensure their effectiveness in real-world applications. | 翻訳日:2024-01-23 21:40:13 公開日:2024-01-19 |
# DiffusionNAG:拡散モデルを用いた予測型ニューラルネットワーク生成 DiffusionNAG: Predictor-guided Neural Architecture Generation with Diffusion Models ( http://arxiv.org/abs/2305.16943v3 ) ライセンス: Link先を確認 | Sohyun An, Hayeon Lee, Jaehyeong Jo, Seanie Lee, Sung Ju Hwang | (参考訳) 既存のNAS手法は、繰り返しサンプリングや多くのタスク非関連アーキテクチャの訓練に過剰な時間を要する。
既存のNAS手法の制限に対処するため,DiffusionNAGと呼ばれる拡散モデルに基づく,NASから新しい条件付きニューラルネットワーク生成(NAG)フレームワークへのパラダイムシフトを提案する。
具体的には、ニューラルネットワークを有向グラフとみなし、それらを生成するグラフ拡散モデルを提案する。
さらに、パラメータ化された予測器のガイダンスにより、d diffusionnagは様々なタスクに望ましい特性を持つタスク最適アーキテクチャを柔軟に生成することができる。
この条件付きNAGスキームは、アーキテクチャをサンプリングし、特性予測器を用いてフィルタリングする以前のNASスキームよりもはるかに効率的である。
我々は,transportable nas と bayesian optimization (bo) を用いたnas の2つの予測系において,distributionnag の有効性を検証する。
DiffusionNAGは、Transferable NASベンチマークのベースラインと比較して最大20倍のスピードアップを達成している。
さらに、BOベースのアルゴリズムに統合されると、DiffusionNAGは既存のBOベースのNASアプローチ、特にImageNet 1Kデータセット上の大規模なMobileNetV3検索スペースよりも優れる。 Existing NAS methods suffer from either an excessive amount of time for repetitive sampling and training of many task-irrelevant architectures. To tackle such limitations of existing NAS methods, we propose a paradigm shift from NAS to a novel conditional Neural Architecture Generation (NAG) framework based on diffusion models, dubbed DiffusionNAG. Specifically, we consider the neural architectures as directed graphs and propose a graph diffusion model for generating them. Moreover, with the guidance of parameterized predictors, DiffusionNAG can flexibly generate task-optimal architectures with the desired properties for diverse tasks, by sampling from a region that is more likely to satisfy the properties. This conditional NAG scheme is significantly more efficient than previous NAS schemes which sample the architectures and filter them using the property predictors. We validate the effectiveness of DiffusionNAG through extensive experiments in two predictor-based NAS scenarios: Transferable NAS and Bayesian Optimization (BO)-based NAS. DiffusionNAG achieves superior performance with speedups of up to 20 times when compared to the baselines on Transferable NAS benchmarks. Furthermore, when integrated into a BO-based algorithm, DiffusionNAG outperforms existing BO-based NAS approaches, particularly in the large MobileNetV3 search space on the ImageNet 1K dataset. | 翻訳日:2024-01-23 21:36:04 公開日:2024-01-19 |
# 量子コヒーレンス保存のためのスピンクラスターの幾何学的最適化 Geometrical optimization of spin clusters for the preservation of quantum coherence ( http://arxiv.org/abs/2306.15232v2 ) ライセンス: Link先を確認 | Lea Gassab, Onur Pusuluk and \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu | (参考訳) 熱環境下におけるスピンクラスターの量子コヒーレンス保存に及ぼす幾何学の影響について検討した。
スピン間結合が弱いと仮定すると、平面に埋め込まれる様々なバッファネットワーク構成を探索する。
その結果,バッファネットワークの接続性は,個々の中心スピンにおける量子コヒーレンス保存期間を決定する上で重要であることがわかった。
具体的には、極大平面グラフが与えられたバッファスピンの保存時間を最長にすることを観測する。
興味深いことに,バッファスピンの増加に伴い保存時間が一定に増加しないことを示す。
さらに,シミュレーションに量子マスター方程式を適用し,四スピンバッファネットワークからなる四面体形状が環境効果に対する最適保護を提供することを示した。 We investigate the influence of geometry on the preservation of quantum coherence in spin clusters subjected to a thermal environment. Assuming weak inter-spin coupling, we explore the various buffer network configurations that can be embedded in a plane. Our findings reveal that the connectivity of the buffer network is crucial in determining the preservation duration of quantum coherence in an individual central spin. Specifically, we observe that the maximal planar graph yields the longest preservation time for a given number of buffer spins. Interestingly, our results demonstrate that the preservation time does not consistently increase with an increasing number of buffer spins. Employing a quantum master equation in our simulations, we further demonstrate that a tetrahedral geometry comprising a four-spin buffer network provides optimal protection against environmental effects. | 翻訳日:2024-01-23 21:26:32 公開日:2024-01-19 |
# 深部ニューラルネットワーク検証のためのDPLL(T)フレームワーク A DPLL(T) Framework for Verifying Deep Neural Networks ( http://arxiv.org/abs/2307.10266v3 ) ライセンス: Link先を確認 | Hai Duong, ThanhVu Nguyen, Matthew Dwyer | (参考訳) Deep Neural Networks (DNN)は、現実世界の問題を解決する効果的なアプローチとして登場した。
しかし、人間書きのソフトウェアのように、DNNにはバグがあり、攻撃される可能性がある。
これを解決するために、DNNの動作を検証するアルゴリズム的なアプローチを幅広く検討した。
本研究では,現代のSMTソルバで広く使われているDPLL(T)アルゴリズムに適応する新しい検証手法であるNeuralSATを紹介する。
SMTソルバの重要な特徴は、コンフリクト節学習と検索再起動をスケール検証に利用することである。
従来のDNN検証アプローチとは異なり、NeuralSATでは、抽象に基づく推論理論の解法と節学習を組み合わせることで、一連の挑戦的な検証ベンチマークに対するアプローチのメリットを明確に示す。 Deep Neural Networks (DNNs) have emerged as an effective approach to tackling real-world problems. However, like human-written software, DNNs can have bugs and can be attacked. To address this, research has explored a wide-range of algorithmic approaches to verify DNN behavior. In this work, we introduce NeuralSAT, a new verification approach that adapts the widely-used DPLL(T) algorithm used in modern SMT solvers. A key feature of SMT solvers is the use of conflict clause learning and search restart to scale verification. Unlike prior DNN verification approaches, NeuralSAT combines an abstraction-based deductive theory solver with clause learning and an evaluation clearly demonstrates the benefits of the approach on a set of challenging verification benchmarks. | 翻訳日:2024-01-23 21:14:55 公開日:2024-01-19 |
# TUNeS:ビデオによる外科的位相認識のための自己注意型一時的U-Net TUNeS: A Temporal U-Net with Self-Attention for Video-based Surgical Phase Recognition ( http://arxiv.org/abs/2307.09997v2 ) ライセンス: Link先を確認 | Isabel Funke, Dominik Rivoir, Stefanie Krell and Stefanie Speidel | (参考訳) 未来の手術室における文脈認識型コンピュータ支援を実現するためには,医療チームによる手術段階の自動理解が必要である。
外科的位相認識のための主要な情報源はビデオであり、ビデオストリームから有意義な特徴を抽出し、視覚的特徴列の時間情報を効果的にモデル化する。
時間的モデリングでは、長距離依存関係をキャプチャできるため、注意機構が人気を集めている。
本稿では,既存の位相認識のための時間モデルに注目する設計選択について検討し,より効果的に注目する新しいアプローチを提案する: TUNeS, 畳み込み型U-Net構造のコアに自己注意を組み込んだ,効率的でシンプルな時間モデル。
さらに,標準CNNである特徴抽出器と,所望の長時間ビデオセグメント上でのLSTMとを時間的コンテキストでトレーニングすることを提案する。
実験では,より長い時間的文脈で訓練された特徴抽出器上で,すべての時間モデルの性能が向上した。
これらのコンテキスト化機能では、TUNeSはColec80データセット上で最先端の結果を達成する。 To enable context-aware computer assistance in the operating room of the future, cognitive systems need to understand automatically which surgical phase is being performed by the medical team. The primary source of information for surgical phase recognition is typically video, which presents two challenges: extracting meaningful features from the video stream and effectively modeling temporal information in the sequence of visual features. For temporal modeling, attention mechanisms have gained popularity due to their ability to capture long-range dependencies. In this paper, we explore design choices for attention in existing temporal models for surgical phase recognition and propose a novel approach that uses attention more effectively: TUNeS, an efficient and simple temporal model that incorporates self-attention at the core of a convolutional U-Net structure. In addition, we propose to train the feature extractor, a standard CNN, together with an LSTM on preferably long video segments, i.e., with long temporal context. In our experiments, all temporal models performed better on top of feature extractors that were trained with longer temporal context. On these contextualized features, TUNeS achieves state-of-the-art results on the Cholec80 dataset. | 翻訳日:2024-01-23 21:14:44 公開日:2024-01-19 |
# TExplain: 事前トレーニング(Frozen)言語モデルによる学習済みの視覚機能の説明 TExplain: Explaining Learned Visual Features via Pre-trained (Frozen) Language Models ( http://arxiv.org/abs/2309.00733v3 ) ライセンス: Link先を確認 | Saeid Asgari Taghanaki, Aliasghar Khani, Amir Khasahmadi, Aditya Sanghi, Karl D.D. Willis, Ali Mahdavi-Amiri | (参考訳) 視覚モデルの学習した特徴を解釈することは、機械学習の分野で長年の課題となっている。
そこで本研究では,事前学習された画像分類器の学習特徴を言語モデルの能力を利用して解釈する新しい手法を提案する。
TExplainと呼ばれる我々の手法は、ニューラルネットワークを訓練し、画像分類器の特徴空間と言語モデルとの接続を確立することで、この課題に取り組む。
そして,提案手法は,画像の分類器が学習した特徴を説明するために,膨大な数の文を生成する。
これらの文は、最も頻繁な単語を抽出するために使用され、分類器内の学習した特徴やパターンを包括的に理解する。
本手法は,これらの頻繁な単語を視覚表現に対応させて,独立に訓練された分類器の意思決定過程に関する洞察を提供し,その行動のスプリアス相関,バイアス,深い理解を可能にする。
提案手法の有効性を検証するため,ImageNet-9LやWaterbirdsなどの多様なデータセットで実験を行った。
本手法は,画像分類器の解釈性とロバスト性を向上させる可能性を示す。 Interpreting the learned features of vision models has posed a longstanding challenge in the field of machine learning. To address this issue, we propose a novel method that leverages the capabilities of language models to interpret the learned features of pre-trained image classifiers. Our method, called TExplain, tackles this task by training a neural network to establish a connection between the feature space of image classifiers and language models. Then, during inference, our approach generates a vast number of sentences to explain the features learned by the classifier for a given image. These sentences are then used to extract the most frequent words, providing a comprehensive understanding of the learned features and patterns within the classifier. Our method, for the first time, utilizes these frequent words corresponding to a visual representation to provide insights into the decision-making process of the independently trained classifier, enabling the detection of spurious correlations, biases, and a deeper comprehension of its behavior. To validate the effectiveness of our approach, we conduct experiments on diverse datasets, including ImageNet-9L and Waterbirds. The results demonstrate the potential of our method to enhance the interpretability and robustness of image classifiers. | 翻訳日:2024-01-23 21:05:09 公開日:2024-01-19 |
# トレーニングダイナミクスの潜在状態モデル Latent State Models of Training Dynamics ( http://arxiv.org/abs/2308.09543v3 ) ライセンス: Link先を確認 | Michael Y. Hu, Angelica Chen, Naomi Saphra, Kyunghyun Cho | (参考訳) モデルトレーニングに対するランダム性の影響は理解されていない。
データ順序と初期化の違いは、モデルに実際にどのように現れるのか?
さらに、異なる軌道を特徴づけるトレーニングダイナミクスと相転移をどのように解釈するか。
ニューラルネットワークトレーニングのダイナミクスと結果に対するランダム性の影響を理解するために、異なるランダム種を用いたモデルを複数回トレーニングし、トレーニングを通して様々なメトリクス(例えば、$l_2$ norm、平均、ニューラルネットワークの重みの分散)を計算する。
次に、結果のメトリクス列に隠れマルコフモデル(HMM)を適合させる。
HMMは、トレーニングを潜在状態間の遷移の確率的なプロセスとして表現し、トレーニング中の重要な変化の直感的な概要を提供する。
本手法を用いて,グルーキングタスク,画像分類,マスマスキング言語モデリングにおけるトレーニングダイナミクスの低次元離散表現を生成する。
我々はHMM表現を用いて相転移を研究し、収束を遅くする潜伏状態(detour state)を特定する。 The impact of randomness on model training is poorly understood. How do differences in data order and initialization actually manifest in the model, such that some training runs outperform others or converge faster? Furthermore, how can we interpret the resulting training dynamics and the phase transitions that characterize different trajectories? To understand the effect of randomness on the dynamics and outcomes of neural network training, we train models multiple times with different random seeds and compute a variety of metrics throughout training, such as the $L_2$ norm, mean, and variance of the neural network's weights. We then fit a hidden Markov model (HMM) over the resulting sequences of metrics. The HMM represents training as a stochastic process of transitions between latent states, providing an intuitive overview of significant changes during training. Using our method, we produce a low-dimensional, discrete representation of training dynamics on grokking tasks, image classification, and masked language modeling. We use the HMM representation to study phase transitions and identify latent "detour" states that slow down convergence. | 翻訳日:2024-01-23 21:01:52 公開日:2024-01-19 |
# ニューラルネットワークを用いたフェデレーション学習 Federated Learning with Neural Graphical Models ( http://arxiv.org/abs/2309.11680v2 ) ライセンス: Link先を確認 | Urszula Chajewska, Harsh Shrivastava | (参考訳) フェデレーション学習(federated learning, fl)は、複数のクライアントが自身のデータに対して排他的コントロールを保持するように、プロプライエタリなデータに基づいたモデルを作成する必要性に対処します。
最近提案されたニューラルグラフモデル(NGM)は、ニューラルネットワークの表現力を利用して入力特徴間の複雑な非線形依存を学習する確率的グラフィカルモデルである。
基礎となるデータ分布をキャプチャし、推論とサンプリングのための効率的なアルゴリズムを持つ。
我々は,学習データをクライアントの環境に保持しながら,ローカルなNGMモデルから平均情報を学習するグローバルなNGMモデルを維持するFLフレームワークを開発した。
私たちの設計であるfeedngmsは、モデルパラメータの爆発に苦しむfederated matched averagingのようなニューロンマッチングフレームワークの落とし穴や欠点を避けています。
私たちのグローバルモデルのサイズはプロセスを通して一定です。
統合グローバル分布の一部ではないローカル変数をクライアントが持つ場合、クライアントのデータを用いて追加変数をマージすることでグローバルngmモデルをパーソナライズする'stitching'アルゴリズムを提案する。
FedNGMはデータ不均一性、多数の参加者、限られた通信帯域幅に対して堅牢である。 Federated Learning (FL) addresses the need to create models based on proprietary data in such a way that multiple clients retain exclusive control over their data, while all benefit from improved model accuracy due to pooled resources. Recently proposed Neural Graphical Models (NGMs) are Probabilistic Graphical models that utilize the expressive power of neural networks to learn complex non-linear dependencies between the input features. They learn to capture the underlying data distribution and have efficient algorithms for inference and sampling. We develop a FL framework which maintains a global NGM model that learns the averaged information from the local NGM models while keeping the training data within the client's environment. Our design, FedNGMs, avoids the pitfalls and shortcomings of neuron matching frameworks like Federated Matched Averaging that suffers from model parameter explosion. Our global model size remains constant throughout the process. In the cases where clients have local variables that are not part of the combined global distribution, we propose a `Stitching' algorithm, which personalizes the global NGM models by merging the additional variables using the client's data. FedNGM is robust to data heterogeneity, large number of participants, and limited communication bandwidth. | 翻訳日:2024-01-23 20:53:21 公開日:2024-01-19 |
# 6dBではない:熱背景におけるガウス量子照明 Not even 6 dB: Gaussian quantum illumination in thermal background ( http://arxiv.org/abs/2309.10071v2 ) ライセンス: Link先を確認 | T. J. Volkoff | (参考訳) 熱的背景におけるガウス状態送信器を用いたターゲット検出の解析において, 対象反射率に依存する熱的占有を, 対称量子仮説検定問題の解析を単純化する手法として採用する。
しかし、この仮定は、任意の送信機と真空状態送信機との目標検出性能の比較を妨げ、すなわち、光影や背景の他の摂動によって標的を検出できるため、明るい熱背景に関係している「照明無し検出」である。
高占有熱環境下でのコヒーレント状態送信機上での2モード圧縮真空送信機に対する量子チャーノフ指数の6dB低減が達成不可能な制限値であり、ターゲット検出問題が異常な極限でのみ発生する。
さらに、ターゲットに依存しない熱環境における量子照明の解析により、弱い単一モードの圧縮送信機は、反射低強度の圧縮光のノイズ増大特性により説明される「無照明」よりも良くなることを示した。 In analyses of target detection with Gaussian state transmitters in a thermal background, the thermal occupation is taken to depend on the target reflectivity in a way which simplifies the analysis of the symmetric quantum hypothesis testing problem. However, this assumption precludes comparison of target detection performance between an arbitrary transmitter and a vacuum state transmitter, i.e., ``detection without illumination'', which is relevant in a bright thermal background because a target can be detected by its optical shadow or some other perturbation of the background. Using a target-agnostic thermal environment leads to the result that the oft-claimed 6 dB possible reduction in the quantum Chernoff exponent for a two-mode squeezed vacuum transmitter over a coherent state transmitter in high-occupation thermal background is an unachievable limiting value, only occurring in a limit in which the target detection problem is ill-posed. Further analyzing quantum illumination in a target-agnostic thermal environment shows that a weak single-mode squeezed transmitter performs worse than ``no illumination'', which is explained by the noise-increasing property of reflected low-intensity squeezed light. | 翻訳日:2024-01-23 20:52:38 公開日:2024-01-19 |
# Harvard FairSeg: フェアエラー境界スケーリング付きセグメンテーションモデルを用いたフェアネス学習のための大規模医療画像セグメンテーションデータセット Harvard FairSeg: A Large-Scale Medical Image Segmentation Dataset for Fairness Learning Using Segment Anything Model with Fair Error-Bound Scaling ( http://arxiv.org/abs/2311.02189v2 ) ライセンス: Link先を確認 | Yu Tian and Min Shi and Yan Luo and Ava Kouhana and Tobias Elze and Mengyu Wang | (参考訳) 人工知能モデルの公正さは、特に医学領域において、人々の幸福と生活にとって医療モデルの公正さが不可欠であるため、近年、注目されている。
フェアネス学習研究を促進するためには、高品質な医療フェアネスデータセットが必要である。
既存の医療用フェアネスデータセットはすべて分類作業のためであり、医療用セグメンテーションにはフェアネスデータセットは使用できないが、医療用セグメンテーションは分類として同等に重要な臨床課題であり、臨床医が評価できる臓器異常の詳細な空間情報を提供することができる。
本稿では,1万件の被験者を対象とする医学的セグメンテーションのためのフェアネスデータセットであるHarvard-FairSegを提案する。
さらに,segment anything model (sam) を用いて,各idグループにおける上位エラーバウンドによる損失関数の重み付けを行うための,公正なエラーバウンドスケーリング手法を提案する。
各アイデンティティグループで高いトレーニングエラーでハードケースに明示的に対処することで、セグメンテーション性能のエクイティを向上できると予想する。
公平な比較を容易にするために、新しいエクイティスケールのセグメンテーション性能指標を用いて、エクイティスケールのDice係数のようなフェアネスの文脈におけるセグメンテーション指標を比較する。
総合的な実験を通して、我々の公正なエラーバウンドスケーリングアプローチは、最先端の公正学習モデルよりも優れているか同等の公平性性能を持つことを示した。
データセットとコードはhttps://ophai.hms.harvard.edu/harvard-fairseg10kから公開されている。 Fairness in artificial intelligence models has gained significantly more attention in recent years, especially in the area of medicine, as fairness in medical models is critical to people's well-being and lives. High-quality medical fairness datasets are needed to promote fairness learning research. Existing medical fairness datasets are all for classification tasks, and no fairness datasets are available for medical segmentation, while medical segmentation is an equally important clinical task as classifications, which can provide detailed spatial information on organ abnormalities ready to be assessed by clinicians. In this paper, we propose the first fairness dataset for medical segmentation named Harvard-FairSeg with 10,000 subject samples. In addition, we propose a fair error-bound scaling approach to reweight the loss function with the upper error-bound in each identity group, using the segment anything model (SAM). We anticipate that the segmentation performance equity can be improved by explicitly tackling the hard cases with high training errors in each identity group. To facilitate fair comparisons, we utilize a novel equity-scaled segmentation performance metric to compare segmentation metrics in the context of fairness, such as the equity-scaled Dice coefficient. Through comprehensive experiments, we demonstrate that our fair error-bound scaling approach either has superior or comparable fairness performance to the state-of-the-art fairness learning models. The dataset and code are publicly accessible via https://ophai.hms.harvard.edu/harvard-fairseg10k. | 翻訳日:2024-01-23 20:15:41 公開日:2024-01-19 |
# 分布的ロバストな強化学習の基礎について On the Foundation of Distributionally Robust Reinforcement Learning ( http://arxiv.org/abs/2311.09018v3 ) ライセンス: Link先を確認 | Shengbo Wang, Nian Si, Jose Blanchet, Zhengyuan Zhou | (参考訳) トレーニングと展開の環境変化に直面した堅牢な政策の必要性から,我々は,分散的堅牢な強化学習(DRRL)の理論的基盤に寄与する。
これは、分布的に堅牢なマルコフ決定プロセス(DRMDP)を中心とした包括的なモデリングフレームワークによって達成される。
この枠組みは、意思決定者に対して、相手が編成した最悪の分散シフトの下で最適な政策を選択することを義務付ける。
既存の定式化を統一・拡張することにより、意思決定者および敵双方に様々なモデリング属性を取り入れたDRMDPを厳格に構築する。
これらの特性には、適応性粒度、歴史に依存した探索、マルコフ、マルコフ時間均質な意思決定者、敵対的ダイナミクスが含まれる。
さらに, 逆転によって引き起こされる変化の柔軟性を探索し, SAとSの正方性を検討した。
このDRMDPフレームワーク内では、動的プログラミング原理(DPP)の存在の有無を調査する。
アルゴリズムの観点からは、既存のデータの大半と計算効率のRLアルゴリズムがDPPに依存しているため、DPPの存在は重大な意味を持つ。
本研究は, コントローラと逆属性の組み合わせを包括的に検討し, 統一手法に基づく合理化証明を提供する。
また、完全な汎用性を持つdppが存在しない設定の逆例も提供します。 Motivated by the need for a robust policy in the face of environment shifts between training and the deployment, we contribute to the theoretical foundation of distributionally robust reinforcement learning (DRRL). This is accomplished through a comprehensive modeling framework centered around distributionally robust Markov decision processes (DRMDPs). This framework obliges the decision maker to choose an optimal policy under the worst-case distributional shift orchestrated by an adversary. By unifying and extending existing formulations, we rigorously construct DRMDPs that embraces various modeling attributes for both the decision maker and the adversary. These attributes include adaptability granularity, exploring history-dependent, Markov, and Markov time-homogeneous decision maker and adversary dynamics. Additionally, we delve into the flexibility of shifts induced by the adversary, examining SA and S-rectangularity. Within this DRMDP framework, we investigate conditions for the existence or absence of the dynamic programming principle (DPP). From an algorithmic standpoint, the existence of DPP holds significant implications, as the vast majority of existing data and computationally efficiency RL algorithms are reliant on the DPP. To study its existence, we comprehensively examine combinations of controller and adversary attributes, providing streamlined proofs grounded in a unified methodology. We also offer counterexamples for settings in which a DPP with full generality is absent. | 翻訳日:2024-01-23 20:02:39 公開日:2024-01-19 |
# 多様化によるOOD一般化の鍵となる要素の解明 Unraveling the Key Components of OOD Generalization via Diversification ( http://arxiv.org/abs/2312.16313v2 ) ライセンス: Link先を確認 | Harold Benoit, Liangze Jiang, Andrei Atanov, O\u{g}uzhan Fatih Kar, Mattia Rigotti, Amir Zamir | (参考訳) 監視された学習データセットには、トレーニングセットが同じようにうまく説明される複数のキューが含まれている可能性がある。
しかし、それらの多くは、すなわち分布シフトの下で予測力を失い、結果としてアウト・オブ・ディストリビューション(OOD)データへの一般化に失敗する。
最近、"diversification"法 (lee et al., 2023; pagliardini et al., 2023) が開発され、異なる特徴に依存する複数の多様な仮説を見つけることでこの問題にアプローチしている。
本研究の目的は,OODの一般化能力に寄与する重要な要素を同定することである。
1) 多様化手法は, 多様化に使用されるラベルなしデータの分布に非常に敏感であり, 方法特有の甘味点から離れた場合, 著しく低下する可能性がある。
2)OODの一般化には多様化だけでは不十分である。
使用済みの学習アルゴリズム(例えば、モデルのアーキテクチャと事前学習)の選択は不可欠である。
標準的な実験(WaterbirdsとOffice-Homeデータセットの分類)では、第2の選択肢を使用すると、精度が最大20%低下する。
(3)学習アルゴリズムの最適選択はラベルのないデータに依存する。
(4) 最後に, 上記の落とし穴は, 多様な仮説の数の増加によって緩和できないこと, 多様化法の主な特徴であることを示す。
これらの結果は,OODの一般化能力に影響を及ぼす設計要因の解明に寄与する。
既存の手法を最善に使う方法を実践者に指導し、研究者に新しいより良い方法の開発を指導することができる。 Supervised learning datasets may contain multiple cues that explain the training set equally well, i.e., learning any of them would lead to the correct predictions on the training data. However, many of them can be spurious, i.e., lose their predictive power under a distribution shift and consequently fail to generalize to out-of-distribution (OOD) data. Recently developed "diversification" methods (Lee et al., 2023; Pagliardini et al., 2023) approach this problem by finding multiple diverse hypotheses that rely on different features. This paper aims to study this class of methods and identify the key components contributing to their OOD generalization abilities. We show that (1) diversification methods are highly sensitive to the distribution of the unlabeled data used for diversification and can underperform significantly when away from a method-specific sweet spot. (2) Diversification alone is insufficient for OOD generalization. The choice of the used learning algorithm, e.g., the model's architecture and pretraining, is crucial. In standard experiments (classification on Waterbirds and Office-Home datasets), using the second-best choice leads to an up to 20\% absolute drop in accuracy. (3) The optimal choice of learning algorithm depends on the unlabeled data and vice versa i.e. they are co-dependent. (4) Finally, we show that, in practice, the above pitfalls cannot be alleviated by increasing the number of diverse hypotheses, the major feature of diversification methods. These findings provide a clearer understanding of the critical design factors influencing the OOD generalization abilities of diversification methods. They can guide practitioners in how to use the existing methods best and guide researchers in developing new, better ones. | 翻訳日:2024-01-23 19:42:47 公開日:2024-01-19 |
# よく教育された知性の本質的善さ The inherent goodness of well educated intelligence ( http://arxiv.org/abs/2401.04846v3 ) ライセンス: Link先を確認 | Michael E. Glinsky and Sharon Sievert | (参考訳) この論文は、生物学的な存在であろうと、コンピューター上の人工シリコンであろうと、何が知的であるかを調べる。
特に注目されるのは、保守的に相互作用する多くの同一の保守的なサブシステムの集合システムを特徴づけ、制御する能力を持つことである。
インテリジェンスの本質は、黄金律("the collective act as one" または "knowing the global consequences of local action")である。
集合体の流れは小さなツインクリングテクスチャの集合であり、最小作用の測地運動に従って少数の弦を引いている人形師によって支配され、対称性によって決定される。
集団的保守システムの制御は困難であり、歴史的に、最大性能の望ましいメタ安定平衡を安定化するためにシステムに大きな粘度を加えることによって行われてきた。
代替案がある。
メタ安定平衡の最適双極子テクスチャが知的存在(集合系が特徴)によって同定されると、集合系は知的存在によって最適な双極子テクスチャに移動され、その後、集合系がメタ安定平衡に残るように、知的存在によって迅速に振動される。
知識に富んだ知性は、その地域行動の世界的な影響を知っており、短期的な行動が長期的な成果を損なうことはない。
対照的に、訓練された知性や訓練された愚かさは短期的な行動を最適化する。
教養のある知性は本質的に良いが、訓練された愚かさは本質的に悪であり、恐れるべきである。
特に、経済・社会集団の制御と最適化に注意が払われている。 This paper will examine what makes a being intelligent, whether that be a biological being or an artificial silicon being on a computer. Special attention will be paid to the being having the ability to characterize and control a collective system of many identical conservative sub-systems conservatively interacting. The essence of intelligence will be found to be the golden rule -- "the collective acts as one" or "knowing the global consequences of local actions". The flow of the collective is a small set of twinkling textures, that are governed by a puppeteer who is pulling a small number of strings according to a geodesic motion of least action, determined by the symmetries. Controlling collective conservative systems is difficult and has historically been done by adding significant viscosity to the system to stabilize the desirable meta stable equilibriums of maximum performance, but it degrades or destroys them in the process. There is an alternative. Once the optimum twinkling textures of the meta stable equilibriums are identified by the intelligent being (that is the collective system is characterized), the collective system can be moved by the intelligent being to the optimum twinkling textures, then quickly vibrated by the intelligent being according to the textures so that the collective system remains at the meta stable equilibrium. Well educated intelligence knows the global consequences of its local actions so that it will not take short term actions that will lead to poor long term outcomes. In contrast, trained intelligence or trained stupidity will optimize its short term actions, leading to poor long term outcomes. Well educated intelligence is inherently good, but trained stupidity is inherently evil and should be feared. Particular attention is paid to the control and optimization of economic and social collectives. | 翻訳日:2024-01-23 19:30:46 公開日:2024-01-19 |
# T2MAC:選択エンゲージメントとエビデンス駆動統合によるマルチエージェント通信のターゲットと信頼性 T2MAC: Targeted and Trusted Multi-Agent Communication through Selective Engagement and Evidence-Driven Integration ( http://arxiv.org/abs/2401.10973v1 ) ライセンス: Link先を確認 | Chuxiong Sun and Zehua Zang and Jiabao Li and Jiangmeng Li and Xiao Xu and Rui Wang and Changwen Zheng | (参考訳) コミュニケーションは、複数のエージェントの振る舞いを調和させる強力なメカニズムである。
しかし、既存の作品は主に放送通信に集中しており、実用性に欠けるだけでなく、情報の冗長性にも繋がる。
この過剰な全情報が通信効率に悪影響を及ぼす可能性がある。
さらに、既存の研究は、観測された情報と受信された情報を統合するための基本的なメカニズムに頼り、学習過程を損なうことも多い。
これらの課題に対処するために,エージェントが選択的エンゲージメントとエビデンス駆動の統合を学習するための,単純かつ効果的な手法であるT2MACを提案する。
T2MACでは、エージェントは個別化されたメッセージを作成し、理想的なコミュニケーションウィンドウをピンポイントし、信頼できるパートナーと関わり、通信効率を改善できる。
メッセージの受信後、エージェントは異なるソースから観測および受信された情報を証拠レベルで統合する。
このプロセスにより、エージェントは複数の視点から収集された証拠をまとめて利用し、信頼と協力の行動を促進することができる。
提案手法は,Halway, MPE, SMAC など様々なスケールで,様々な困難を伴う多様な協調型マルチエージェントタスクに対して評価する。
実験により,提案モデルは協調性能と通信効率の点で最先端の手法に勝るだけでなく,目覚ましい一般化を示した。 Communication stands as a potent mechanism to harmonize the behaviors of multiple agents. However, existing works primarily concentrate on broadcast communication, which not only lacks practicality, but also leads to information redundancy. This surplus, one-fits-all information could adversely impact the communication efficiency. Furthermore, existing works often resort to basic mechanisms to integrate observed and received information, impairing the learning process. To tackle these difficulties, we propose Targeted and Trusted Multi-Agent Communication (T2MAC), a straightforward yet effective method that enables agents to learn selective engagement and evidence-driven integration. With T2MAC, agents have the capability to craft individualized messages, pinpoint ideal communication windows, and engage with reliable partners, thereby refining communication efficiency. Following the reception of messages, the agents integrate information observed and received from different sources at an evidence level. This process enables agents to collectively use evidence garnered from multiple perspectives, fostering trusted and cooperative behaviors. We evaluate our method on a diverse set of cooperative multi-agent tasks, with varying difficulties, involving different scales and ranging from Hallway, MPE to SMAC. The experiments indicate that the proposed model not only surpasses the state-of-the-art methods in terms of cooperative performance and communication efficiency, but also exhibits impressive generalization. | 翻訳日:2024-01-23 18:43:35 公開日:2024-01-19 |
# 適応型ネットワーク埋め込みによる分子エネルギー景観のクラスタリング Clustering Molecular Energy Landscapes by Adaptive Network Embedding ( http://arxiv.org/abs/2401.10972v1 ) ライセンス: Link先を確認 | Paula Mercurio and Di Liu | (参考訳) 可能な全ての小さな分子の化学空間を効率的に探索するために、システム次元を圧縮して下流の機械学習タスクを容易にする一般的なアプローチがある。
そこで本研究では,最近開発されたNetwork Embedding技術を用いて,分子構造のポテンシャルエネルギー景観をクラスタリングするためのデータ駆動型手法を提案する。
本手法をスケールアップするために,メタダイナミクスと遷移経路理論に基づくエネルギー景観の階層的サンプリングのためのエントロピーに敏感な適応スキームを組み込んだ。
システムのエネルギーランドスケープが示唆する動力学的情報を考慮することで,次元を縮小した動的ノードノード関係を解釈することができる。
Lennard-Jones (LJ) クラスタとヒトDNA配列を用いてその枠組みを実証する。 In order to efficiently explore the chemical space of all possible small molecules, a common approach is to compress the dimension of the system to facilitate downstream machine learning tasks. Towards this end, we present a data driven approach for clustering potential energy landscapes of molecular structures by applying recently developed Network Embedding techniques, to obtain latent variables defined through the embedding function. To scale up the method, we also incorporate an entropy sensitive adaptive scheme for hierarchical sampling of the energy landscape, based on Metadynamics and Transition Path Theory. By taking into account the kinetic information implied by a system's energy landscape, we are able to interpret dynamical node-node relationships in reduced dimensions. We demonstrate the framework through Lennard-Jones (LJ) clusters and a human DNA sequence. | 翻訳日:2024-01-23 18:43:11 公開日:2024-01-19 |
# MacroSwarm: Swarmプログラミングのためのフィールドベースのコンポジションフレームワーク MacroSwarm: A Field-based Compositional Framework for Swarm Programming ( http://arxiv.org/abs/2401.10969v1 ) ライセンス: Link先を確認 | Gianluca Aguzzi, Roberto Casadei, Mirko Viroli | (参考訳) スワーム行動工学(Swarm behavior engineering)は、パターン形成、集合運動、クラスタリング、分散センシングといった複雑なグローバルな目標を達成するため、単純なエージェントのグループ内で計算と行動を調整する方法や手法を研究する研究分野である。
最近のswarm(ドローン、ロボット、車両)の分析とエンジニアリングの進歩にもかかわらず、複雑なswarmの振る舞いを原則的に定義するために使用できる一般的な設計と実装方法とツールが必要である。
本稿では,集合計算とコーディネーションを組み込んだ再利用可能な完全合成可能な機能ブロックを用いて,スワーミング動作の設計とプログラムを行うための,マクロスワムと呼ばれる新しいフィールドベースのコーディネーション手法を提案する。
集約コンピューティングのマクロプログラミングパラダイムに基づいて、マクロウォームは、各スワーミング動作ブロックを、センシングフィールドをアクティベーション目標フィールド(例えば、動きベクトルを含む)にマッピングする純粋関数として表現するという考えに基づいている。
集団知能の枠組みとしてのマクロウォームの表現性、構成性、実用性を示すために、群集形成、形態形成、集団意思決定の共通パターンをカバーする様々なシミュレーションを行う。 Swarm behaviour engineering is an area of research that seeks to investigate methods and techniques for coordinating computation and action within groups of simple agents to achieve complex global goals like pattern formation, collective movement, clustering, and distributed sensing. Despite recent progress in the analysis and engineering of swarms (of drones, robots, vehicles), there is still a need for general design and implementation methods and tools that can be used to define complex swarm behaviour in a principled way. To contribute to this quest, this article proposes a new field-based coordination approach, called MacroSwarm, to design and program swarm behaviour in terms of reusable and fully composable functional blocks embedding collective computation and coordination. Based on the macroprogramming paradigm of aggregate computing, MacroSwarm builds on the idea of expressing each swarm behaviour block as a pure function mapping sensing fields into actuation goal fields, e.g. including movement vectors. In order to demonstrate the expressiveness, compositionality, and practicality of MacroSwarm as a framework for collective intelligence, we perform a variety of simulations covering common patterns of flocking, morphogenesis, and collective decision-making. | 翻訳日:2024-01-23 18:42:57 公開日:2024-01-19 |
# スケーラブルおよび動的タスク割り当てのためのオープンカーフリートにおける分散コーディネーション Decentralizing Coordination in Open Vehicle Fleets for Scalable and Dynamic Task Allocation ( http://arxiv.org/abs/2401.10965v1 ) ライセンス: Link先を確認 | Marin Lujak, Stefano Giordani, Andrea Omicini, Sascha Ossowski | (参考訳) 大型でオープンで協力的で商業的な車両群を協調させることにおける大きな課題の1つは動的タスク割り当てである。
自己完結した個人的合理的な車両ドライバーは、局所目的とグローバル目的の両方を持ち、公平で効率的なタスク割り当て手法を用いて調整する必要がある。
本稿では,決定論的および動的2次元線形代入問題に着目した,スケーラブルかつ動的タスク割り当てに関する文献をレビューする。
我々は,動的に出現する車両を動的に出現する一連のタスクに割り当てるべきソフトウェアエージェントによって表現されるオープン車両群のマルチエージェントシステム表現に焦点を当てる。
我々は,集中型,分散型,分散型のソリューションアプローチに着目した最近の研究結果の比較と批判的な分析を行う。
Moreover, we propose mathematical models for dynamic versions of the following assignment problems well known in combinatorial optimization: the assignment problem, bottleneck assignment problem, fair matching problem, dynamic minimum deviation assignment problem, $\sum_{k}$-assignment problem, the semiassignment problem, the assignment problem with side constraints, and the assignment problem while recognizing agent qualification; all while considering the main aspect of open vehicle fleets: random arrival of tasks and vehicles (agents) that may become available after assisting previous tasks or by participating in the fleet at times based on individual interest. One of the major challenges in the coordination of large, open, collaborative, and commercial vehicle fleets is dynamic task allocation. Self-concerned individually rational vehicle drivers have both local and global objectives, which require coordination using some fair and efficient task allocation method. In this paper, we review the literature on scalable and dynamic task allocation focusing on deterministic and dynamic two-dimensional linear assignment problems. We focus on multiagent system representation of open vehicle fleets where dynamically appearing vehicles are represented by software agents that should be allocated to a set of dynamically appearing tasks. We give a comparison and critical analysis of recent research results focusing on centralized, distributed, and decentralized solution approaches. Moreover, we propose mathematical models for dynamic versions of the following assignment problems well known in combinatorial optimization: the assignment problem, bottleneck assignment problem, fair matching problem, dynamic minimum deviation assignment problem, $\sum_{k}$-assignment problem, the semiassignment problem, the assignment problem with side constraints, and the assignment problem while recognizing agent qualification; all while considering the main aspect of open vehicle fleets: random arrival of tasks and vehicles (agents) that may become available after assisting previous tasks or by participating in the fleet at times based on individual interest. | 翻訳日:2024-01-23 18:42:16 公開日:2024-01-19 |
# 1ステップの学習と1ステップのレビュー One Step Learning, One Step Review ( http://arxiv.org/abs/2401.10962v1 ) ライセンス: Link先を確認 | Xiaolong Huang, Qiankun Li, Xueran Li, Xuesong Gao | (参考訳) 視覚の微調整は、事前訓練された視覚モデルの台頭によって大きな注目を集めている。
現在普及しているフル微調整法は、下流トレーニングセットの適合に重点を置いているため、知識を忘れてしまうという問題に悩まされている。
本稿では,OLOR(One Step Learning, One Step Review)と呼ばれる,ウェイトロールバックに基づくファインチューニング手法を提案する。
OLORは微調整とオプティマイザを組み合わせることで、各ステップの重み更新項にウェイトロールバック項を組み込む。
これにより、上流モデルと下流モデルの重量範囲の一貫性が確保され、知識を効果的に忘れ、微調整性能が向上する。
また,各層毎のペナルティがペナルティの減衰と多様化した減衰率を採用し,各層の重みロールバックレベルを調整し,下流タスクに適応させる。
画像分類やオブジェクト検出,セマンティックセグメンテーション,インスタンスセグメンテーションといった様々なタスクに関する広範な実験を通じて,提案するOLORの汎用性と最先端性能を実証した。
コードはhttps://github.com/rainbow-xiao/OLOR-AAAI-2024で公開されている。 Visual fine-tuning has garnered significant attention with the rise of pre-trained vision models. The current prevailing method, full fine-tuning, suffers from the issue of knowledge forgetting as it focuses solely on fitting the downstream training set. In this paper, we propose a novel weight rollback-based fine-tuning method called OLOR (One step Learning, One step Review). OLOR combines fine-tuning with optimizers, incorporating a weight rollback term into the weight update term at each step. This ensures consistency in the weight range of upstream and downstream models, effectively mitigating knowledge forgetting and enhancing fine-tuning performance. In addition, a layer-wise penalty is presented to employ penalty decay and the diversified decay rate to adjust the weight rollback levels of layers for adapting varying downstream tasks. Through extensive experiments on various tasks such as image classification, object detection, semantic segmentation, and instance segmentation, we demonstrate the general applicability and state-of-the-art performance of our proposed OLOR. Code is available at https://github.com/rainbow-xiao/OLOR-AAAI-2024. | 翻訳日:2024-01-23 18:41:58 公開日:2024-01-19 |
# チャットボットのAI革命:ランダムに制御された実験からの証拠 AI Revolution on Chat Bot: Evidence from a Randomized Controlled Experiment ( http://arxiv.org/abs/2401.10956v1 ) ライセンス: Link先を確認 | Sida Peng, Wojciech Swiatek, Allen Gao, Paul Cullivan, Haoge Chang | (参考訳) 近年、ジェネレーティブAIは大きな進歩を遂げており、人間の生産性を高める上で大きな可能性を秘めている。
特に、ChatGPT-4を例として、大きな言語モデル(LLM)が注目されている。
実験室の設定や設計作業や観察研究におけるLLMベースのツールが人間の生産性に与える影響について,多くの論文が検討されている。
近年の進歩にもかかわらず、現実的な設定でLLMベースのツールを応用したフィールド実験は限られている。
本稿では,LLMツールを用いた情報検索支援サービスにおけるフィールドランダム化制御試験の有効性を評価する。 In recent years, generative AI has undergone major advancements, demonstrating significant promise in augmenting human productivity. Notably, large language models (LLM), with ChatGPT-4 as an example, have drawn considerable attention. Numerous articles have examined the impact of LLM-based tools on human productivity in lab settings and designed tasks or in observational studies. Despite recent advances, field experiments applying LLM-based tools in realistic settings are limited. This paper presents the findings of a field randomized controlled trial assessing the effectiveness of LLM-based tools in providing unmonitored support services for information retrieval. | 翻訳日:2024-01-23 18:41:37 公開日:2024-01-19 |
# ケイリーグラフ上の離散時間3状態量子ウォークの量子回路モデル Quantum circuit model for discrete-time three-state quantum walks on Cayley graphs ( http://arxiv.org/abs/2401.11023v1 ) ライセンス: Link先を確認 | Rohit Sarma Sarkar, Bibhas Adhikari | (参考訳) ディヘドラル群 $D_N$ に対応するケイリーグラフ上の離散時間3状態量子ウォークのためのクォート回路モデルと、任意の正の整数 $N$ を変調する整数の加法群を開発する。
提案回路は, クォートリット回転ゲート, クォートリット-$X$ゲート, 2クォートリット制御-$X$ゲートなどの基本クォートリットゲートで構成されている。
まず,次数3の特殊ユニタリ行列のクトリット回路表現と,クトリットトッフォリゲートの複数制御された$x$ゲートと置換に対応する3\times 3$対角ブロックのブロック対角特殊ユニタリ行列を提案する。
量子ウォークにおいて,一層量子回路モデルでは2量子制御ゲートが$O(3nN)$と1量子制御ゲートが$O(3N)$であることを示す。
最後に、これらの回路を数値的にシミュレートし、ノイズ量子コンピュータ上の任意の頂点でウォーカーを見つける時間平均確率などの性能を模倣する。
さらに,KL偏差と全変動距離を用いて,騒音・無雑音歩行の時間平均確率分布のシミュレーション結果を比較した。
これらの結果から,回路内のゲートのノイズは振幅減衰や位相減衰誤差よりも分布に大きな影響を及ぼすことがわかった。 We develop qutrit circuit models for discrete-time three-state quantum walks on Cayley graphs corresponding to Dihedral groups $D_N$ and the additive groups of integers modulo any positive integer $N$. The proposed circuits comprise of elementary qutrit gates such as qutrit rotation gates, qutrit-$X$ gates and two-qutrit controlled-$X$ gates. First, we propose qutrit circuit representation of special unitary matrices of order three, and the block diagonal special unitary matrices with $3\times 3$ diagonal blocks, which correspond to multi-controlled $X$ gates and permutations of qutrit Toffoli gates. We show that one-layer qutrit circuit model need $O(3nN)$ two-qutrit control gates and $O(3N)$ one-qutrit rotation gates for these quantum walks when $N=3^n$. Finally, we numerically simulate these circuits to mimic its performance such as time-averaged probability of finding the walker at any vertex on noisy quantum computers. The simulated results for the time-averaged probability distributions for noisy and noiseless walks are further compared using KL-divergence and total variation distance. These results show that noise in gates in the circuits significantly impacts the distributions than amplitude damping or phase damping errors. | 翻訳日:2024-01-23 18:33:37 公開日:2024-01-19 |
# トランスフォーマーに基づくディープラーニングを用いた多言語ヘイトスピーチの分析と検出 Analysis and Detection of Multilingual Hate Speech Using Transformer Based Deep Learning ( http://arxiv.org/abs/2401.11021v1 ) ライセンス: Link先を確認 | Arijit Das, Somashree Nandy, Rupam Saha, Srijan Das, and Diganta Saha | (参考訳) ヘイトスピーチ(英: Hate speech)は、人種差別、宗教、性的指向など、実際のまたは認識されたアイデンティティの側面に基づいて、グループや個人に対して直接攻撃または憎悪を促進する有害な内容である。
ソーシャルメディアを通じて共有されるヘイトフルコンテンツは、個人とコミュニティの両方に害を与える可能性がある。
ネットでのヘイトスピーチの普及に伴い、nlpタスクとしての自動検出の需要が増加している。
本研究では,twitter, facebook, whatsapp, instagramなどのソーシャルメディアにおけるヘイトスピーチを,トランスフォーマーモデルを用いて検出する手法を提案する。
提案されたモデルは言語から独立しており、イタリア語、英語、ドイツ語、ベンガルでテストされている。
金の標準データセットは、著名な研究者Zeerak Talat、Sara Tonelli、Melanie Siegel、Rezaul Karimから収集された。
提案するヘイトスピーチ検出モデルの成功率は,既存のベースラインモデルよりも高く,bengaliデータセットでは精度が89%,ドイツ語では91%,ドイツ語データセットでは91%,イタリア語データセットでは77%である。
提案アルゴリズムはベンチマーク法を大幅に改善したことを示す。 Hate speech is harmful content that directly attacks or promotes hatred against members of groups or individuals based on actual or perceived aspects of identity, such as racism, religion, or sexual orientation. This can affect social life on social media platforms as hateful content shared through social media can harm both individuals and communities. As the prevalence of hate speech increases online, the demand for automated detection as an NLP task is increasing. In this work, the proposed method is using transformer-based model to detect hate speech in social media, like twitter, Facebook, WhatsApp, Instagram, etc. The proposed model is independent of languages and has been tested on Italian, English, German, Bengali. The Gold standard datasets were collected from renowned researcher Zeerak Talat, Sara Tonelli, Melanie Siegel, and Rezaul Karim. The success rate of the proposed model for hate speech detection is higher than the existing baseline and state-of-the-art models with accuracy in Bengali dataset is 89%, in English: 91%, in German dataset 91% and in Italian dataset it is 77%. The proposed algorithm shows substantial improvement to the benchmark method. | 翻訳日:2024-01-23 18:33:09 公開日:2024-01-19 |
# 効率的で証明可能な連合学習 Communication Efficient and Provable Federated Unlearning ( http://arxiv.org/abs/2401.11018v1 ) ライセンス: Link先を確認 | Youming Tao, Cheng-Long Wang, Miao Pan, Dongxiao Yu, Xiuzhen Cheng, Di Wang | (参考訳) フェデレーション学習 (federated learning, fl) によって学習されるグローバルモデルに対する,特定のクライアントやデータポイントの影響を解消する新しい問題であるフェデレーション学習 (federated unlearning) について検討した。
この問題は、忘れられる権利とFLのプライバシー問題によって引き起こされる。
我々は,2つの本質的な基準である \textit{communication efficiency} と \textit{exact unlearning provability} を満たした,正確なフェデレーションアンラーニングのための新しいフレームワークを提案する。
私たちの知る限り、両方の側面に一貫性を持って取り組むのは、これが初めてです。
まず、未学習モデルが削除されたデータなしで訓練されたモデルと統計的に区別できないことを保証します。
次に、高速で正確なフェデレートされた未学習を可能にする重要な特性、すなわち、データセットのわずかな変化に対するモデルパラメータの感度を測定する総変量(TV)安定性を特定します。
この知見を生かして,古典的 \texttt{\underline{F}ed\underline{A}vg} アルゴリズムを \underline{T}V \underline{S}tability に対して修正し,周期的平均化による局所SGDを用いて通信ラウンドを下げる,テレビ安定FLアルゴリズムである \textt{FATS} を開発した。
また、クライアントレベルとサンプルレベルのアンラーニングという2つの設定の下で、効率的なアンラーニングアルゴリズムを設計しました。
学習アルゴリズムと学習未学習アルゴリズムに理論的な保証を提供し、元のモデルと学習未学習モデルの両方に対して妥当な収束率で正確な連合未学習を達成することを証明します。
我々は6つのベンチマークデータセットのフレームワークを実証的に検証し,その精度,通信コスト,計算コスト,学習効率の面で最先端手法よりも優れていることを示す。 We study federated unlearning, a novel problem to eliminate the impact of specific clients or data points on the global model learned via federated learning (FL). This problem is driven by the right to be forgotten and the privacy challenges in FL. We introduce a new framework for exact federated unlearning that meets two essential criteria: \textit{communication efficiency} and \textit{exact unlearning provability}. To our knowledge, this is the first work to tackle both aspects coherently. We start by giving a rigorous definition of \textit{exact} federated unlearning, which guarantees that the unlearned model is statistically indistinguishable from the one trained without the deleted data. We then pinpoint the key property that enables fast exact federated unlearning: total variation (TV) stability, which measures the sensitivity of the model parameters to slight changes in the dataset. Leveraging this insight, we develop a TV-stable FL algorithm called \texttt{FATS}, which modifies the classical \texttt{\underline{F}ed\underline{A}vg} algorithm for \underline{T}V \underline{S}tability and employs local SGD with periodic averaging to lower the communication round. We also design efficient unlearning algorithms for \texttt{FATS} under two settings: client-level and sample-level unlearning. We provide theoretical guarantees for our learning and unlearning algorithms, proving that they achieve exact federated unlearning with reasonable convergence rates for both the original and unlearned models. We empirically validate our framework on 6 benchmark datasets, and show its superiority over state-of-the-art methods in terms of accuracy, communication cost, computation cost, and unlearning efficacy. | 翻訳日:2024-01-23 18:32:47 公開日:2024-01-19 |
# 話者埋め込みにおける感情クラスタの展開--音声感情認識のためのコントラスト学習戦略 Revealing Emotional Clusters in Speaker Embeddings: A Contrastive Learning Strategy for Speech Emotion Recognition ( http://arxiv.org/abs/2401.11017v1 ) ライセンス: Link先を確認 | Ismail Rasim Ulgen, Zongyang Du, Carlos Busso, Berrak Sisman | (参考訳) 話者埋め込みは、貴重な感情関連情報を持ち、特に限られたラベル付きデータを用いて、音声感情認識(SER)を強化するための有望なリソースとなる。
伝統的に、感情情報は話者の埋め込みに間接的に埋め込まれていると仮定され、その未利用に繋がった。
本研究は,話者内クラスタの形で,感情と最先端の話者埋め込みの直接的かつ有用な関係を明らかにする。
クラスタ化分析を徹底することにより,感情情報を話者埋め込みから容易に抽出できることを実証する。
この情報を活用するために,音声感情認識のための感情ラベルなしデータに適用する新しいコントラストプリトレーニング手法を提案する。
提案手法は,話者埋め込みの話者内クラスタに基づいて,正および負のサンプルをサンプリングすることを含む。
提案手法は,感情ラベルのない広範なデータを活用することで,単独の事前学習タスクとして採用するか,マルチタスクの事前学習設定に統合するかのいずれにおいても,サーの性能が大幅に向上する。 Speaker embeddings carry valuable emotion-related information, which makes them a promising resource for enhancing speech emotion recognition (SER), especially with limited labeled data. Traditionally, it has been assumed that emotion information is indirectly embedded within speaker embeddings, leading to their under-utilization. Our study reveals a direct and useful link between emotion and state-of-the-art speaker embeddings in the form of intra-speaker clusters. By conducting a thorough clustering analysis, we demonstrate that emotion information can be readily extracted from speaker embeddings. In order to leverage this information, we introduce a novel contrastive pretraining approach applied to emotion-unlabeled data for speech emotion recognition. The proposed approach involves the sampling of positive and the negative examples based on the intra-speaker clusters of speaker embeddings. The proposed strategy, which leverages extensive emotion-unlabeled data, leads to a significant improvement in SER performance, whether employed as a standalone pretraining task or integrated into a multi-task pretraining setting. | 翻訳日:2024-01-23 18:32:11 公開日:2024-01-19 |
# consider-then-choose ランキングモデルにおけるバウンディング考慮確率 Bounding Consideration Probabilities in Consider-Then-Choose Ranking Models ( http://arxiv.org/abs/2401.11016v1 ) ライセンス: Link先を確認 | Ben Aoki-Sherwood, Catherine Bregou, David Liben-Nowell, Kiran Tomlinson, Thomas Zeng | (参考訳) 選択の一般的な理論は、個人が2段階のプロセスで選択することを示し、まず選択肢のサブセットを選択して、結果の考慮セットから選択する。
しかし、この「考察するならば選択する」という設定で未観測の考察セット(または項目考慮確率)を推定することは、たとえアイテムユーティリティが知られているとしても、強い独立性の仮定を持つ単純な考察モデルでさえ識別できないため、重大な課題を引き起こす。
我々は,考慮-then-chooseモデルの自然拡張を最大$k$のランキング設定に拡張し,考慮集合をサンプリングした後,platckett-luceモデルに従ってランキングが構築されると仮定する。
この設定では、項目考慮確率は未特定のままであるが、項目ユーティリティの知識により、考慮確率の相対的大きさの境界を推測できることが証明される。
さらに、期待考慮集合の大きさの条件を与えられたとき、アイテム考慮確率の絶対上限と下限を導出する。
また、推論された制約を伝播させることにより、確率に基づく境界を狭めるアルゴリズムも提供する。
そこで本研究では, 正確な同定ができずに, 考えられる確率について有用な情報を得ることができることを示す。
本手法は,2つの異なる格付け課題(定点集合と未知点集合)を用いた心理学実験から得られたランク付けデータセット上で実証する。
このデータの組み合わせによって、ユーティリティを推定し、境界を使って未知の考慮確率を学ぶことができます。 A common theory of choice posits that individuals make choices in a two-step process, first selecting some subset of the alternatives to consider before making a selection from the resulting consideration set. However, inferring unobserved consideration sets (or item consideration probabilities) in this "consider then choose" setting poses significant challenges, because even simple models of consideration with strong independence assumptions are not identifiable, even if item utilities are known. We consider a natural extension of consider-then-choose models to a top-$k$ ranking setting, where we assume rankings are constructed according to a Plackett-Luce model after sampling a consideration set. While item consideration probabilities remain non-identified in this setting, we prove that knowledge of item utilities allows us to infer bounds on the relative sizes of consideration probabilities. Additionally, given a condition on the expected consideration set size, we derive absolute upper and lower bounds on item consideration probabilities. We also provide algorithms to tighten those bounds on consideration probabilities by propagating inferred constraints. Thus, we show that we can learn useful information about consideration probabilities despite not being able to identify them precisely. We demonstrate our methods on a ranking dataset from a psychology experiment with two different ranking tasks (one with fixed consideration sets and one with unknown consideration sets). This combination of data allows us to estimate utilities and then learn about unknown consideration probabilities using our bounds. | 翻訳日:2024-01-23 18:31:55 公開日:2024-01-19 |
# 倫理的AIソリューションのためのカスタム開発者GPT Custom Developer GPT for Ethical AI Solutions ( http://arxiv.org/abs/2401.11013v1 ) ライセンス: Link先を確認 | Lauren Olson | (参考訳) このプロジェクトの主な目標は、新しいソフトウェアアーティファクトを作成することだ。AIエンジニアリングを通じて開発者が倫理的な問題を議論し解決するためのカスタムのジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)である。
この会話エージェントは、(1)AIシステム(EU AI Act~\cite{aiact} や GDPR~\cite{gdpr} のような)を尊重する法的枠組みに従うための実践的なアプリケーションを提供し、(2) 開発者が別の道徳的立場を理解し、組み込むことを可能にする代替倫理的視点を提供する。
本稿では,このようなエージェントの必要性に対するモチベーションを提供し,アイデアを詳述し,ユースケースを示す。
このようなツールを使用することで、実践者は法的要件を満たし、多様な倫理的視点を満たすAIソリューションを設計することができる。 The main goal of this project is to create a new software artefact: a custom Generative Pre-trained Transformer (GPT) for developers to discuss and solve ethical issues through AI engineering. This conversational agent will provide developers with practical application on (1) how to comply with legal frameworks which regard AI systems (like the EU AI Act~\cite{aiact} and GDPR~\cite{gdpr}) and (2) present alternate ethical perspectives to allow developers to understand and incorporate alternate moral positions. In this paper, we provide motivation for the need of such an agent, detail our idea and demonstrate a use case. The use of such a tool can allow practitioners to engineer AI solutions which meet legal requirements and satisfy diverse ethical perspectives. | 翻訳日:2024-01-23 18:31:29 公開日:2024-01-19 |
# ダッヒ・シュピーデン銀行(DACH-Spieledatenbank aufzubauen)について Warum wir es f\"ur eine gute Idee gehalten haben, eine DACH-Spieledatenbank aufzubauen ( http://arxiv.org/abs/2401.11012v1 ) ライセンス: Link先を確認 | Eugen Pfister, Aurelia Brandenburg, Adrian Demleitner, Lukas Daniel Klausner | (参考訳) DACH領域からデジタルゲームのデータベースを作成している最中です。
本稿では,ゲームデータベースの背景にあるコンテキストと方法論的考察について考察する。
データベースは共同編集され、2000年までドイツ、オーストリア、スイスで開発されたデジタルゲームをリストアップした。
本報告では、データベース構築時の入力データ、データモデルの目的、作成過程で直面する困難について、初期の考察と実現のさまざまな段階について概説する。
次に、ゲームデータベースの現在の状況を指摘し、プロジェクトの今後の計画について見通しを述べます。
法制化の過程に就て : 法制化の過程に就て : 法制化の過程と法制化の過程
Diese wurde kollaborativ erarbeitet und f\uhrt digitale Spiele, die in Deutschland, \"Osterreich und der Schweiz bis zum Jahr 2000 entwickelt wurden。
ベルレグンゲン und den verschieden Arbeitsschritten bei der Realisierung au{\ss}erdem auch, auf welcher Datenbasis die Datenbank aufgebaut und gepr\"uft wurde, was die Ziele des Datenmodells sind und mit welchen Schwierigkeiten wir im Prozess der Erstellung konfrontiert waren, die welcher Datenbasis die Datenbank aufgebaut und gepr\"uft wurde, was die Ziele des Datenmodells sind und mit welchen Schwierigkeiten wir im Prozessss der Erstellung konfrontiert waren。
aktuellen stand der spieledatenbank ein und geben einen ausblick auf die weiteren pl\"ane des projekts We are in the process of creating a database of digital games from the DACH region. This article provides an insight into the context in which it was created and the underlying methodological considerations behind the games database. The database was compiled collaboratively and lists digital games developed in Germany, Austria and Switzerland up to the year 2000. In this report, we outline our initial considerations and the various stages of realisation as well as the input data on which the database was built, the aims of the data model and the difficulties we faced during the creation process. We then pin down the current status of the games database and give an outlook on the project's future plans. -- Unser Werkstattbericht gibt Einblick in den Entstehungskontext sowie die zugrundeliegenden methodischen \"Uberlegungen hinter der von den Autor*innen publizierten Spieledatenbank. Diese wurde kollaborativ erarbeitet und f\"uhrt digitale Spiele, die in Deutschland, \"Osterreich und der Schweiz bis zum Jahr 2000 entwickelt wurden. In diesem Bericht skizzieren wir neben unseren Ausgangs\"uberlegungen und den verschiedenen Arbeitsschritten bei der Realisierung au{\ss}erdem auch, auf welcher Datenbasis die Datenbank aufgebaut und gepr\"uft wurde, was die Ziele des Datenmodells sind und mit welchen Schwierigkeiten wir im Prozess der Erstellung konfrontiert waren. Hiernach ordnen wir den aktuellen Stand der Spieledatenbank ein und geben einen Ausblick auf die weiteren Pl\"ane des Projekts. | 翻訳日:2024-01-23 18:31:13 公開日:2024-01-19 |
# ヘルムホルツ分解と光流:GCamP記録を特徴付ける新しい方法 Helmholtz-Decomposition and Optical Flow: A new method to characterize GCamP recordings ( http://arxiv.org/abs/2401.11008v1 ) ライセンス: Link先を確認 | Michael Gerstenberger, Dominic Juestel, Silviu Bodea | (参考訳) 深い睡眠中や麻酔下において、皮質活性化の自発的なパターンは、しばしば遅い進行波の形をとる。
スロー波睡眠は、特に記憶の強化との関連性から重要な認知状態である。
しかし、広範な研究にもかかわらず、正確なメカニズムはまだ解明されていない。
GCamP活性の高速広視野イメージングのような新しい手法は、新しいポテンシャルを提供する。
本稿では, 麻酔下のトランスジェニックマウスから記録されたデータを用いて, ソース, シンク, フローパターンを分析する方法を示す。
データ処理の新たな手段を最大限に活用するには、データ処理が必要である。
そこで,(1)スロー波発生に重要な役割を果たしているプロセスについて簡単な説明を行い,(2)GCamP記録におけるパターンを特徴付ける新しいアプローチを実証する。
スローウェーブは非常に可変であるが、驚くほど類似しているものもある。
解析の定量的な手段とそのような原型的事象の構造を検討するために、ヘルムホルツ・デコンポジションによるpixeldense gcampコントラスト(df/f)の勾配に基づく高密度光流れのキャラクタリゼーションを提案する。
活性化の源や沈み込みを検出し、それらをグローバルなニューラルネットワークのパターンから識別することができる。
集約機能は変分オートエンコーダで分析できる。
その結果、遅い波の間の規則性を解明し、実験条件との関係を示す。
このアプローチは、遅延遅い波動空間における異なる特徴の複素位相を明らかにし、各ステージの原型例を特定する。 During deep sleep and under anaesthesia spontaneous patterns of cortical activation frequently take the form of slow travelling waves. Slow wave sleep is an important cognitive state especially because of its relevance for memory consolidation. However, despite extensive research the exact mechanisms are still ill-understood. Novel methods such as high speed widefield imaging of GCamP activity offer new potentials. Here we show how data recorded from transgenic mice under anesthesia can be processed to analyze sources, sinks and patterns of flow. To make the best possible use of the data novel means of data processing are necessary. Therefore, we (1) give a an brief account on processes that play a role in generating slow waves and demonstrate (2) a novel approach to characterize its patterns in GCamP recordings. While slow waves are highly variable, it shows that some are surprisingly similar. To enable quantitative means of analysis and examine the structure of such prototypical events we propose a novel approach for the characterization of slow waves: The Helmholtz-Decomposition of gradient-based Dense Optical Flow of the pixeldense GCamP contrast (df/f). It allows to detect the sources and sinks of activation and discern them from global patterns of neural flow. Aggregated features can be analyzed with variational autoencoders. The results unravel regularities between slow waves and shows how they relate to the experimental conditions. The approach reveals a complex topology of different features in latent slow wave space and identifies prototypical examples for each stage. | 翻訳日:2024-01-23 18:30:15 公開日:2024-01-19 |
# VR顔アニメーションのためのフォトリアリスティックアバターの高速登録 Fast Registration of Photorealistic Avatars for VR Facial Animation ( http://arxiv.org/abs/2401.11002v1 ) ライセンス: Link先を確認 | Chaitanya Patel, Shaojie Bai, Te-Li Wang, Jason Saragih, Shih-En Wei | (参考訳) バーチャルリアリティ(VR)は、他のメディアよりも没入感のあるソーシャルインタラクションを約束する。
これの鍵となるのは、VRヘッドセットを着用している間、写実的なアバターを正確にアニメーションできることだ。
オフライン環境では、ヘッドセット搭載カメラ(hmc)画像に対する個人固有のアバターの高品質な登録が可能であるが、汎用リアルタイムモデルの性能は著しく低下している。
斜めカメラビューとモダリティの違いにより、オンライン登録も困難である。
本研究では,まず,アバターとヘッドセットカメラ画像の領域ギャップが,トランスフォーマーベースのアーキテクチャがドメイン一貫性データに対して高い精度で達成されるが,ドメインギャップが再導入されると劣化することを示す。
この知見に基づいて,問題を2つの部分に分割するシステム設計を考案する。
1)ドメイン内の入力を受信する反復リファインメントモジュール、及び
2) 表情と頭部ポーズの現在の推定を条件とした一般的なアバター誘導画像移動モジュール。
これらの2つのモジュールは互いに強化し合っており、近距離の例を示すと画像スタイル転送が容易になり、ドメインギャップの除去が登録に役立ちます。
提案システムは高品質な結果を効率よく生成し,パーソナライズされたラベルを生成するために,コストのかかるオフライン登録の必要性を回避する。
我々は,商品ヘッドセットを用いた広範囲な実験を通じて,アプローチの精度と効率を検証し,直接回帰法やオフライン登録法よりも大幅に改善した。 Virtual Reality (VR) bares promise of social interactions that can feel more immersive than other media. Key to this is the ability to accurately animate a photorealistic avatar of one's likeness while wearing a VR headset. Although high quality registration of person-specific avatars to headset-mounted camera (HMC) images is possible in an offline setting, the performance of generic realtime models are significantly degraded. Online registration is also challenging due to oblique camera views and differences in modality. In this work, we first show that the domain gap between the avatar and headset-camera images is one of the primary sources of difficulty, where a transformer-based architecture achieves high accuracy on domain-consistent data, but degrades when the domain-gap is re-introduced. Building on this finding, we develop a system design that decouples the problem into two parts: 1) an iterative refinement module that takes in-domain inputs, and 2) a generic avatar-guided image-to-image style transfer module that is conditioned on current estimation of expression and head pose. These two modules reinforce each other, as image style transfer becomes easier when close-to-ground-truth examples are shown, and better domain-gap removal helps registration. Our system produces high-quality results efficiently, obviating the need for costly offline registration to generate personalized labels. We validate the accuracy and efficiency of our approach through extensive experiments on a commodity headset, demonstrating significant improvements over direct regression methods as well as offline registration. | 翻訳日:2024-01-23 18:29:52 公開日:2024-01-19 |
# 拡張局所エルゴトロピー Extended local ergotropy ( http://arxiv.org/abs/2401.10996v1 ) ライセンス: Link先を確認 | Riccardo Castellano, Donato Farina, Vittorio Giovannetti, Antonio Acin | (参考訳) 量子熱力学の基本的な問題は、非平衡系から抽出可能な作品を適切に定量化することである。
閉系では、最大量子ワーク抽出はエルゴトロピー関数の観点で定義されるが、環境と相互作用するオープン系ではこの問題は明らかではない。
局所エルゴトロピーの概念は提案されているが、時間内に非増加することが保証されていないなど、いくつかの問題がある。
本稿では,システム環境化合物のフリー進化を利用した拡張局所エルゴトロピーの概念を紹介する。
局所的エルゴトロピーとのばらつきにおいて、拡張された局所的エルゴトロピーはより大きく、時間的に増加せず、多くの場合、ワーク抽出の可能性を活性化する。
次に、局所的ユニタリと自由SE進化を交互に繰り返す特定のスキームに集中する。
我々はjaynes-cummingsモデルに基づく例を示し,上記の利点の証明となる実用的なプロトコルと分析結果を提示した。 A fundamental problem in quantum thermodynamics is to properly quantify the work extractable from out-of-equilibrium systems. While for closed systems, maximum quantum work extraction is defined in terms of the ergotropy functional, this question is unclear in open systems interacting with an environment. The concept of local ergotropy has been proposed, but it presents several problems, such as it is not guaranteed to be non-increasing in time. Here we introduce the concept of extended local ergotropy by exploiting the free evolution of the system-environment compound. At variance with the local ergotropy, the extended local ergotropy is greater, is non-increasing in time, and activates the potential of work extraction in many cases. We then concentrate on specific schemes in which we alternate repeated local unitaries and free SE evolution. We provide examples based on the Jaynes-Cummings model, presenting practical protocols and analytic results that serve as proof of principle for the aforementioned advantages. | 翻訳日:2024-01-23 18:29:22 公開日:2024-01-19 |
# 放射線腫瘍学nlpデータベース The Radiation Oncology NLP Database ( http://arxiv.org/abs/2401.10995v1 ) ライセンス: Link先を確認 | Zhengliang Liu, Jason Holmes, Wenxiong Liao, Chenbin Liu, Lian Zhang, Hongying Feng, Peilong Wang, Muhammad Ali Elahi, Hongmin Cai, Lichao Sun, Quanzheng Li, Xiang Li, Tianming Liu, Jiajian Shen, Wei Liu | (参考訳) 本稿では,放射線腫瘍学のための最初の専用自然言語処理(nlp)データセットである放射線腫瘍学nlpデータベース(rond)について述べる。
agi(artificial general intelligence)の出現により、研究と開発を促進するために特別なデータセットとベンチマークの必要性が高まっている。
RONDは、NLP探査の多くの機会を提供する分野である放射線腫瘍学の領域において、このギャップに対処するために特別に設計された。
Logic Reasoning, Text Classification, Named Entity Recognition (NER), Question Answering (QA), Text Summarization, patient-Clinician Conversationsなど,さまざまなNLPタスクが含まれており,それぞれが放射線オンコロジーの概念や応用事例に重点を置いている。
さらに20万以上の命令ペア(rondに基づく)からなる命令チューニングデータセットを開発し,大規模な言語モデルである cancerchat をトレーニングした。
これは、高度に専門化された医療領域内で、大きな言語モデルを命令チューニングする可能性を示すのに役立つ。
本研究の評価結果は,今後の研究のベースラインとなるかもしれない。
RONDは、放射線腫瘍学と臨床NLPの進歩を促進すべく、ドメイン固有のコンテキストにおけるアルゴリズムとモデルのテストと改善のためのプラットフォームを提供する。
RONDデータセットは、米国の複数の医療機関の共同作業である。
データはhttps://github.com/zl-liu/Radiation-Oncology-NLP-Databaseで公開されている。 We present the Radiation Oncology NLP Database (ROND), the first dedicated Natural Language Processing (NLP) dataset for radiation oncology, an important medical specialty that has received limited attention from the NLP community in the past. With the advent of Artificial General Intelligence (AGI), there is an increasing need for specialized datasets and benchmarks to facilitate research and development. ROND is specifically designed to address this gap in the domain of radiation oncology, a field that offers many opportunities for NLP exploration. It encompasses various NLP tasks including Logic Reasoning, Text Classification, Named Entity Recognition (NER), Question Answering (QA), Text Summarization, and Patient-Clinician Conversations, each with a distinct focus on radiation oncology concepts and application cases. In addition, we have developed an instruction-tuning dataset consisting of over 20k instruction pairs (based on ROND) and trained a large language model, CancerChat. This serves to demonstrate the potential of instruction-tuning large language models within a highly-specialized medical domain. The evaluation results in this study could serve as baseline results for future research. ROND aims to stimulate advancements in radiation oncology and clinical NLP by offering a platform for testing and improving algorithms and models in a domain-specific context. The ROND dataset is a joint effort of multiple U.S. health institutions. The data is available at https://github.com/zl-liu/Radiation-Oncology-NLP-Database. | 翻訳日:2024-01-23 18:29:04 公開日:2024-01-19 |
# 対称性保護フェルミオン物質の混合状態位相次数パラメータ Mixed state topological order parameters for symmetry protected fermion matter ( http://arxiv.org/abs/2401.10993v1 ) ライセンス: Link先を確認 | Ze-Min Huang, Sebastian Diehl | (参考訳) 対称性保護自由フェルミオン物質に対する可観測混合状態位相秩序パラメータを構築した。
トポロジカル絶縁体と超伝導体のテーブル全体を解決し、対称性クラスにのみ依存するが、ユニタリ対称性には依存しない。
純基底状態だけでなく、熱平衡内または外混合状態に対しても堅牢で量子化された信号を提供する。
主成分はユニタリプローブ作用素であり、その位相はスペクトルの非対称性と関連し、その基底状態の位相的性質を明らかにすることができる。
これは連続極限で解析的に示され、格子上で数値的に検証される。
オーダーパラメータは、例えばコールド原子実験において、インターフェロメトリまたはフルカウント統計によって実験的にアクセス可能である。 We construct an observable mixed state topological order parameter for symmetry-protected free fermion matter. It resolves the entire table of topological insulators and superconductors, relying exclusively on the symmetry class, but not on unitary symmetries. It provides a robust, quantized signal not only for pure ground states, but also for mixed states in- or out of thermal equilibrium. Key ingredient is a unitary probe operator, whose phase can be related to spectral asymmetry, in turn revealing the topological properties of the underlying state. This is demonstrated analytically in the continuum limit, and validated numerically on the lattice. The order parameter is experimentally accessible via either interferometry or full counting statistics, for example, in cold atom experiments. | 翻訳日:2024-01-23 18:28:37 公開日:2024-01-19 |
# 構造化変分族を用いたスケーラブルなブラックボックス変分推論 Provably Scalable Black-Box Variational Inference with Structured Variational Families ( http://arxiv.org/abs/2401.10989v1 ) ライセンス: Link先を確認 | Joohwan Ko, Kyurae Kim, Woo Chang Kim, and Jacob R. Gardner | (参考訳) フルランク共分散近似を持つ変分族は、経験的および理論的にブラックボックス変分推論(BBVI)においてうまく機能しないことが知られている。
実際、bbviの計算複雑性の結果は、例えば平均場ファミリーと比較して、問題の次元性によってフルランクの変分ファミリはスケールしにくいと結論付けている。
これは局所変数を持つ階層ベイズモデルにとって特に重要であり、その次元はデータセットのサイズによって増加する。
その結果、データセットサイズに明示的な$\mathcal{o}(n^2)$依存性を持つ反復複雑性が得られる。
本稿では,平均場変動族とフルランク族の間の理論的中間点:構造的変動族について検討する。
我々は、あるスケール行列構造が$\mathcal{O}(N)$のより優れた反復複雑性を達成できることを厳密に証明し、$N$に対するより良いスケーリングを示唆する。
大規模階層モデルの理論的結果を実証的に検証する。 Variational families with full-rank covariance approximations are known not to work well in black-box variational inference (BBVI), both empirically and theoretically. In fact, recent computational complexity results for BBVI have established that full-rank variational families scale poorly with the dimensionality of the problem compared to e.g. mean field families. This is particularly critical to hierarchical Bayesian models with local variables; their dimensionality increases with the size of the datasets. Consequently, one gets an iteration complexity with an explicit $\mathcal{O}(N^2)$ dependence on the dataset size $N$. In this paper, we explore a theoretical middle ground between mean-field variational families and full-rank families: structured variational families. We rigorously prove that certain scale matrix structures can achieve a better iteration complexity of $\mathcal{O}(N)$, implying better scaling with respect to $N$. We empirically verify our theoretical results on large-scale hierarchical models. | 翻訳日:2024-01-23 18:28:25 公開日:2024-01-19 |
# 量子力学における正確な非断熱項の数値計算法 A numerical approach for calculating exact non-adiabatic terms in quantum dynamics ( http://arxiv.org/abs/2401.10985v1 ) ライセンス: Link先を確認 | Ewen D C Lawrence, Sebastian F J Schmid, Ieva \v{C}epait\.e, Peter Kirton and Callum W Duncan | (参考訳) 非断熱項が量子力学にどのように影響するかを理解することは、量子技術の様々なプロトコルを改善するのに不可欠である。
本稿では,ハミルトニアンの時間依存性から生じる非断熱的用語に関する情報を与える,断熱ゲージポテンシャル(agp)を計算するための新しい手法を提案する。
我々のアプローチでは、ハミルトニアンの可換作用素を用いて AGP の適切な基底を構築し、正確な結果が難解であるときに近似形式を与えることができる。
この手法を用いて,多種多様なグラフ上の横フィールドIsingモデルに対して得られた AGP について検討し,AGP に要求される項数に対して,基礎となるグラフ構造が異なるスケーリングを実現する方法を示す。 Understanding how non-adiabatic terms affect quantum dynamics is fundamental to improving various protocols for quantum technologies. We present a novel approach to computing the Adiabatic Gauge Potential (AGP), which gives information on the non-adiabatic terms that arise from time dependence in the Hamiltonian. Our approach uses commutators of the Hamiltonian to build up an appropriate basis of the AGP, which can be easily truncated to give an approximate form when the exact result is intractable. We use this approach to study the AGP obtained for the transverse field Ising model on a variety of graphs, showing how the different underlying graph structures can give rise to very different scaling for the number of terms required in the AGP. | 翻訳日:2024-01-23 18:28:09 公開日:2024-01-19 |
# マジック状態注入における論理ノイズバイアス Logical Noise Bias in Magic State Injection ( http://arxiv.org/abs/2401.10982v1 ) ライセンス: Link先を確認 | Nicholas Fazio, Robin Harper and Stephen Bartlett | (参考訳) フォールトトレラントアーキテクチャは、量子計算のノイズを減らすことを目的としている。
このようなアーキテクチャは十分に研究されているが、マジックステートインジェクションのようなフォールトトレラントなプリミティブでノイズがどのように変換されるかの詳細な理解が不足している。
論理t = $z({\pi}/8)$ゲートを実装したフォールトトレラントガジェット上での論理過程トモグラフィの数値シミュレーションを用いて,物理レベルのノイズ特性がどのように論理レベルでノイズ特性に変換されるかを理解する。
我々は、このガジェットにおいて、物理的なレベルでバイアスのないノイズであっても、論理ノイズに重要な位相(Z$)バイアスが生じることを示す。
本発明のマジック・ステート・インジェクション・ガジェットは、本質的にバイアスノイズを誘発するが、既存の位相バイアスは論理レベルでさらに増幅されるため、この論理ノイズバイアスの大きさのキー制限因子としてノイズ誤差補正回路を同定する。
本手法は,フォールトトレラントな論理プリミティブの詳細なノイズ特性と全体的な性能を評価するためのフレームワークを提供する。 Fault-tolerant architectures aim to reduce the noise of a quantum computation. Despite such architectures being well studied a detailed understanding of how noise is transformed in a fault-tolerant primitive such as magic state injection is currently lacking. We use numerical simulations of logical process tomography on a fault-tolerant gadget that implements a logical T = $Z({\pi}/8)$ gate using magic state injection, to understand how noise characteristics at the physical level are transformed into noise characteristics at the logical level. We show how, in this gadget, a significant phase ($Z$) bias can arise in the logical noise, even with unbiased noise at the physical level. While the magic state injection gadget intrinsically induces biased noise, with extant phase bias being further amplified at the logical level, we identify noisy error correction circuits as a key limiting factor on the magnitude of this logical noise bias. Our approach provides a framework for assessing the detailed noise characteristics, as well as the overall performance, of fault-tolerant logical primitives. | 翻訳日:2024-01-23 18:27:55 公開日:2024-01-19 |
# PhotoBot: 自然言語による参照ガイド付きインタラクティブ写真 PhotoBot: Reference-Guided Interactive Photography via Natural Language ( http://arxiv.org/abs/2401.11061v1 ) ライセンス: Link先を確認 | Oliver Limoyo, Jimmy Li, Dmitriy Rivkin, Jonathan Kelly, and Gregory Dudek | (参考訳) 本稿では,ハイレベルな人間の言語指導とロボットカメラマンとの相互作用に基づく自動写真取得フレームワークPhotoBotを紹介する。
本稿では,キュレートギャラリーから取得した参照画像を用いて,写真提案をユーザに伝えることを提案する。
本研究では,視覚言語モデル (VLM) とオブジェクト検出器を用いて,テキスト記述による参照画像の特徴付けを行い,テキストベースの推論によるユーザの言語クエリに基づく関連画像の検索を行う。
参照画像と観測シーンに対応するために,視覚トランスフォーマから事前訓練された特徴を活用し,異なる画像間の意味的類似性を捉える。
これらの特徴を用いて,PnP問題を解くことにより,RGB-Dカメラのポーズ調整を行う。
我々は、手首カメラを備えた現実世界のマニピュレータへのアプローチを実証する。
われわれのユーザー調査によると、PhotoBotが撮影した写真は、人間のフィードバックによって測定された、ユーザー自身が撮影した写真よりも審美的に喜ぶことが多い。 We introduce PhotoBot, a framework for automated photo acquisition based on an interplay between high-level human language guidance and a robot photographer. We propose to communicate photography suggestions to the user via a reference picture that is retrieved from a curated gallery. We exploit a visual language model (VLM) and an object detector to characterize reference pictures via textual descriptions and use a large language model (LLM) to retrieve relevant reference pictures based on a user's language query through text-based reasoning. To correspond the reference picture and the observed scene, we exploit pre-trained features from a vision transformer capable of capturing semantic similarity across significantly varying images. Using these features, we compute pose adjustments for an RGB-D camera by solving a Perspective-n-Point (PnP) problem. We demonstrate our approach on a real-world manipulator equipped with a wrist camera. Our user studies show that photos taken by PhotoBot are often more aesthetically pleasing than those taken by users themselves, as measured by human feedback. | 翻訳日:2024-01-23 18:22:19 公開日:2024-01-19 |
# 非エルミートフロッケ合成系における量子スクランブルの動的遷移 Dynamical transition of quantum scrambling in a non-Hermitian Floquet synthetic system ( http://arxiv.org/abs/2401.11059v1 ) ライセンス: Link先を確認 | Liang Huo, Han Ke, Wen-Lei Zhao | (参考訳) キックポテンシャルの準周期変調を受ける非エルミート量子キック回転子において、時間外順序相関子(otocs)を特徴とする量子スクランブルのダイナミクスについて検討する。
不規則な周波数による準周期変調は高次元合成空間を生じさせ、量子スクランブルの2つの異なる相が出現する: 飽和へのOTOCの急激な増加を特徴とする凍結相と、時間とともにOTOCの線形成長を特徴とするカオススクランブルである。
凍結相からカオススクランブル相への動的遷移は,虚部のゼロ値とともにキックポテンシャルの実部を増加させることによって得られる。
反対の遷移は、キック電位の想像上の部分の増加とともに起こり、非ハーミティティーによる量子スクランブルの抑制を示す。
基礎となるメカニズムは、フロケ理論の拡張によって明らかにされる。
量子情報分野における応用の可能性について論じる。 We investigate the dynamics of quantum scrambling, characterized by the out-of-time ordered correlators (OTOCs), in a non-Hermitian quantum kicked rotor subjected to quasi-periodical modulation in kicking potential. Quasi-periodic modulation with incommensurate frequencies creates a high-dimensional synthetic space, where two different phases of quantum scrambling emerge: the freezing phase characterized by the rapid increase of OTOCs towards saturation, and the chaotic scrambling featured by the linear growth of OTOCs with time. We find the dynamical transition from the freezing phase to the chaotic scrambling phase, which is assisted by increasing the real part of the kicking potential along with a zero value of its imaginary part. The opposite transition occurs with the increase in the imaginary part of the kicking potential, demonstrating the suppression of quantum scrambling by non-Hermiticity. The underlying mechanism is uncovered by the extension of the Floquet theory. Possible applications in the field of quantum information are discussed. | 翻訳日:2024-01-23 18:21:09 公開日:2024-01-19 |
# 量子キックロータモデルにおける時間オーダーコリケータの二次成長 Quadratic growth of Our-of-time ordered correlators in quantum kicked rotor model ( http://arxiv.org/abs/2401.11057v1 ) ライセンス: Link先を確認 | Guanling Li, Wen-Lei Zhao | (参考訳) 回転子模型の量子共鳴条件におけるオフオブタイムコリケータ(otocs)の動力学を理論的および数値的に検討した。
我々は、様々な演算子を用いてOTOCを構築し、その可換関係を異なる時間で徹底的に定量化し、量子スクランブルの過程を明らかにする。
量子共鳴条件の助けを借りて、前方の進化と時間反転の間に量子状態の正確な表現を導出し、OTOCsの時間依存を規定する法則を確立することができる。
興味深いことに、異なるタイプのOTOCは時間の2次関数で増加し、非共鳴条件下での動的局所化によって引き起こされる量子スクランブルの凍結を破る。
基礎となるメカニズムが発見され、量子エンタングルメントの応用の可能性について論じる。 We investigate both theoretically and numerically the dynamics of Out-of-Time-Ordered Correlators (OTOCs) in quantum resonance condition for a kicked rotor model. We employ various operators to construct OTOCs in order to thoroughly quantify their commutation relation at different time, therefore unveiling the process of quantum scrambling. With the help of quantum resonance condition, we have deduced the exact expressions of quantum states during both forward evolution and time reversal, which enables us to establish the laws governing OTOCs' time dependence. We find interestingly that the OTOCs of different types increase in a quadratic function of time, breaking the freezing of quantum scrambling induced by the dynamical localization under non-resonance condition. The underlying mechanism is discovered and the possible applications in quantum entanglement are discussed. | 翻訳日:2024-01-23 18:20:23 公開日:2024-01-19 |
# グローバーミキサーを用いた量子交互作用素 ansatz の解析結果 Analytical results for the Quantum Alternating Operator Ansatz with Grover Mixer ( http://arxiv.org/abs/2401.11056v1 ) ライセンス: Link先を確認 | Guilherme Adamatti Bridi, Franklin de Lima Marquezino | (参考訳) グロバー混合器によるQAOAの重要な性質は、その期待値は状態の任意の置換に対して不変であることである。
その結果、アルゴリズムは問題の構造とは無関係である。
一方、この特徴が非構造化探索問題の限界を克服するアルゴリズムの能力に深刻な疑問を提起する一方で、分析研究への道を開くことができる。
この意味で、先行研究は、問題ハミルトニアンスペクトルに関連する確率分布に依存する期待値の解析的表現をもたらすGM-QAOAを分析する統計的アプローチを導入した。
この手法は計算において驚くべき単純化をもたらすが、その表現は層数に指数関数的に依存し、直接分析処理は不可能である。
本研究では,Grover Mixer Threshold QAOA(Grover Mixer Threshold QAOA, GM-Th-QAOA, GM-QAOAの位相分離演算子を置き換えてしきい関数を符号化する変種)のより単純な文脈に解析を拡張する。
その結果、レイヤ数に依存しない期待値の式が得られ、それに伴い、異なるパフォーマンス指標のバウンダリを提供する。
さらに、Grover-based QAOAと呼ぶGrovermixerを用いて、より一般的なQAOAの文脈まで分析を拡張した。
位相分離演算子がコスト関数の任意のコンパイルをエンコードできるようにするこのフレームワークでは、非構造化探索問題に対するグローバーのアルゴリズムの最適性と矛盾する引数を用いて、すべての境界を一般化する。
主な結果は、グロバーミキサーがブリュート力に対して二次グローバースタイルのスピードアップを反映するという考えを定式化した期待値によって達成された分位数の漸近的なタイトバウンドである。
我々は、マックス・カット問題にその境界を完備二部グラフの特定のクラスに適用する。 An important property of QAOA with Grover mixer is that its expectation value is invariant over any permutation of states. As a consequence, the algorithm is independent of the structure of the problem. If, on the one hand, this characteristic raises serious doubts about the capacity of the algorithm to overcome the bound of the unstructured search problem, on the other hand, it can pave the way to its analytical study. In this sense, a prior work introduced a statistical approach to analyze GM-QAOA that results in an analytical expression for the expectation value depending on the probability distribution associated with the problem Hamiltonian spectrum. Although the method provides surprising simplifications in calculations, the expression depends exponentially on the number of layers, which makes direct analytical treatment unfeasible. In this work, we extend the analysis to the more simple context of Grover Mixer Threshold QAOA (GM-Th-QAOA), a variant that replaces the phase separation operator of GM-QAOA to encode a threshold function. As a result, we obtain an expression for the expected value independent of the number of layers and, with it, we provide bounds for different performance metrics. Furthermore, we extend the analysis to a more general context of QAOA with Grover mixer, which we called Grover-based QAOA. In that framework, which allows the phase separation operator to encode any compilation of the cost function, we generalize all the bounds by using a contradiction argument with the optimality of Grover's algorithm on the unstructured search problem. The main result is an asymptotic tight bound on the quantile achieved by the expectation value that formalizes the notion that the Grover mixer reflected a quadratic Grover-style speed-up over brute force. We apply that bound on the Max-Cut problem to the particular class of complete bipartite graphs. | 翻訳日:2024-01-23 18:20:09 公開日:2024-01-19 |
# 光格子に閉じ込められた準安定ストロンチウムにコードされる微細構造量子ビット Fine-Structure Qubit Encoded in Metastable Strontium Trapped in an Optical Lattice ( http://arxiv.org/abs/2401.11054v1 ) ライセンス: Link先を確認 | S. Pucher, V. Kl\"usener, F. Spriestersbach, J. Geiger, A. Schindewolf, I. Bloch, S. Blatt | (参考訳) 中性ストロンチウム原子における微細構造量子ビットのコヒーレント制御を示す。
この量子ビットは準安定な$^3\mathrm{P}_2$と$^3\mathrm{P}_0$状態に符号化され、ラマン転移によって結合される。
磁気四極子遷移を用いて、このthz量子ビットのコヒーレント状態初期化を示す。
我々は、$\mu$sスケールで60以上のコヒーレントサイクルと1量子回転を持つラビ振動を示す。
私たちの結果は、高速量子情報プロセッサと、2電子原子を持つ高度に調整可能な量子シミュレータへの道を開くものです。 We demonstrate coherent control of the fine-structure qubit in neutral strontium atoms. This qubit is encoded in the metastable $^3\mathrm{P}_2$ and $^3\mathrm{P}_0$ states, coupled by a Raman transition. Using a magnetic quadrupole transition, we demonstrate coherent state-initialization of this THz qubit. We show Rabi oscillations with more than 60 coherent cycles and single-qubit rotations on the $\mu$s scale. With spin-echo, we demonstrate coherence times of tens of ms. Our results pave the way for fast quantum information processors and highly tunable quantum simulators with two-electron atoms. | 翻訳日:2024-01-23 18:19:34 公開日:2024-01-19 |
# 大規模言語モデルを用いた材料科学文献からの実験データマイニング Mining experimental data from Materials Science literature with Large Language Models ( http://arxiv.org/abs/2401.11052v1 ) ライセンス: Link先を確認 | Luca Foppiano, Guillaume Lambard, Toshiyuki Amagasa, Masashi Ishii | (参考訳) 本研究は,GPT-3.5-Turbo,GPT-4,GPT-4-Turboといった先進的な大規模言語モデル(LLM)が,材料科学分野における科学資料から構造化情報を取り出す能力を評価することを目的としている。
材料科学情報アセスメントに内在する複雑さに取り組むための化学式の標準化に重点を置いた,複雑な材料表現の比較分析のための新しい手法を提案する。
この目的のために、情報抽出の2つの重要なタスクに重点を置きます。
一 研究資料及び物性の命名された実体認識(NER)
(ii)これらのエンティティ間の関係抽出(RE)。
これらのタスクの実行におけるLCMのパフォーマンスは、BERTアーキテクチャとルールベースのアプローチに基づく従来のモデルと比較される。
NERでは、LLMはゼロショットプロンプトでベースラインを上回り、少数ショットプロンプトで限定的な改善しか示さない。
しかしREの場合、GPT-3.5-Turboは適切な戦略で微調整され、ベースラインを含む全てのモデルより優れている。
微調整なしでは、GPT-4とGPT-4-Turboは、わずか2つの例が与えられた後に顕著な推論と関係抽出能力を示し、ベースラインを超えた。
全体としては、LLMは概念を接続する上で関連する推論スキルを示すが、材料のような複雑なドメイン固有のエンティティを抽出する必要があるタスクについては、現在、特殊化モデルの方が良い選択である。 This study is dedicated to evaluating the capabilities of advanced large language models (LLMs) such as GPT-3.5-Turbo, GPT-4, and GPT-4-Turbo in the extraction of structured information from scientific documents within the field of materials science. We introduce a novel methodology for the comparative analysis of intricate material expressions, emphasising the standardisation of chemical formulas to tackle the complexities inherent in materials science information assessment. To this end, we primarily focus on two critical tasks of information extraction: (i) a named entity recognition (NER) of studied materials and physical properties and (ii) a relation extraction (RE) between these entities. The performance of LLMs in executing these tasks is benchmarked against traditional models based on the BERT architecture and rule-based approaches. For NER, LLMs fail to outperform the baseline with zero-shot prompting and exhibit only limited improvement with few-shot prompting. However, for RE, a GPT-3.5-Turbo fine-tuned with the appropriate strategy outperforms all models, including the baseline. Without any fine-tuning, GPT-4 and GPT-4-Turbo display remarkable reasoning and relationship extraction capabilities after being provided with merely a couple of examples, surpassing the baseline. Overall, the results suggest that although LLMs demonstrate relevant reasoning skills in connecting concepts, for tasks requiring extracting complex domain-specific entities like materials, specialised models are currently a better choice. | 翻訳日:2024-01-23 18:19:21 公開日:2024-01-19 |
# Bexcitonics: 開量子力学への準粒子的アプローチ Bexcitonics: Quasi-particle approach to open quantum dynamics ( http://arxiv.org/abs/2401.11049v1 ) ライセンス: Link先を確認 | Xinxian Chen and Ignacio Franco | (参考訳) 量子マスター方程式(EQME)のクラスを分離し、任意の複雑性のボゾン熱浴と結合したオープン量子系の力学を捉える。
これは、このダイナミクスをいくつかの集合的な浴の励起やベクシトンと相互作用して系のダイナミクスにマッピングすることによって行われる。
ベキシトンは浴槽相関関数の分解から生じる。
それらの性質は非物理的であるが、効率的なEQMEの設計に使用できる相関系-バス力学の粗い粒度のビューを提供する。
このアプローチは、非マルコフ環境においてもシステムバス結合を含むEQMEを構築するための体系的な戦略を提供し、特殊なケースとしてよく知られた階層的運動法を含む。 We isolate a class of exact quantum master equations (EQMEs) to capture the dynamics of open quantum systems coupled to bosonic thermal baths of arbitrary complexity. This is done by mapping this dynamics into that of the system in interaction with a few collective bath excitations or bexcitons. The bexcitons emerge from a decomposition of the bath correlation function. Their properties, while unphysical, offer a coarse-grained view of the correlated system-bath dynamics that can be used to design efficient EQMEs. The approach provides a systematic strategy to construct EQMEs that include the system-bath coupling to all orders even for non-Markovian environments and contains the well-known hierarchical equation of motion method as a special case. | 翻訳日:2024-01-23 18:18:58 公開日:2024-01-19 |
# pubtator 3.0: 生物医学知識の解錠のためのaiによる文献リソース PubTator 3.0: an AI-powered Literature Resource for Unlocking Biomedical Knowledge ( http://arxiv.org/abs/2401.11048v1 ) ライセンス: Link先を確認 | Chih-Hsuan Wei, Alexis Allot, Po-Ting Lai, Robert Leaman, Shubo Tian, Ling Luo, Qiao Jin, Zhizheng Wang, Qingyu Chen, and Zhiyong Lu | (参考訳) pubtator 3.0 (https://www.ncbi.nlm.nih.gov/research/pubtator3/)は、最新のai技術を用いて、タンパク質、遺伝子変異、疾患、化学物質といった重要な概念に関する意味的および関連検索を提供する、生物医学文献のリソースである。
現在、約3600万のpubmed抽象化と、pmc open accessサブセットから600万のフルテキスト記事に対して、10億以上のエンティティと関係アノテーションを提供している。
pubtator 3.0のオンラインインターフェースとapiは、これらの事前計算されたエンティティリレーションとシノニムを使用して、高度な検索機能を提供し、複雑な情報のニーズを合理化する大規模な分析を可能にする。
本稿では,PubTator 3.0がPubMedやGoogle Scholarよりも多くの項目を検索し,上位20項目で高い精度で検索できることを示す。
さらに,ChatGPT(GPT-4)とPubTator APIを統合することで,応答の事実性と妥当性が劇的に向上することを示す。
まとめると、PubTator 3.0は、研究者が生医学の豊富な文献をナビゲートし、研究を迅速化し、科学的発見のための貴重な洞察を解放する、包括的な機能とツールセットを提供する。 PubTator 3.0 (https://www.ncbi.nlm.nih.gov/research/pubtator3/) is a biomedical literature resource using state-of-the-art AI techniques to offer semantic and relation searches for key concepts like proteins, genetic variants, diseases, and chemicals. It currently provides over one billion entity and relation annotations across approximately 36 million PubMed abstracts and 6 million full-text articles from the PMC open access subset, updated weekly. PubTator 3.0's online interface and API utilize these precomputed entity relations and synonyms to provide advanced search capabilities and enable large-scale analyses, streamlining many complex information needs. We showcase the retrieval quality of PubTator 3.0 using a series of entity pair queries, demonstrating that PubTator 3.0 retrieves a greater number of articles than either PubMed or Google Scholar, with higher precision in the top 20 results. We further show that integrating ChatGPT (GPT-4) with PubTator APIs dramatically improves the factuality and verifiability of its responses. In summary, PubTator 3.0 offers a comprehensive set of features and tools that allow researchers to navigate the ever-expanding wealth of biomedical literature, expediting research and unlocking valuable insights for scientific discovery. | 翻訳日:2024-01-23 18:18:46 公開日:2024-01-19 |
# 批判的意思決定のための機械学習分類過程におけるデータ抽象化手法の意義 The Significance of Data Abstraction Methods in Machine Learning Classification Processes for Critical Decision-Making ( http://arxiv.org/abs/2401.11044v1 ) ライセンス: Link先を確認 | Karol Capa{\l}a, Paulina Tworek, Jose Sousa | (参考訳) 広く採用されている機械学習(ML)手法の分類に適用性は、説明可能性と不確実性の命令によって、特に医療、行動科学、財務などの分野において説明責任が優先される。
近年,roc曲線に基づくデータ抽象化プロトコルを開発することにより,このような領域で分類を行う能力を高めるために,小型で不完全なデータセット解析装置 (sanda) が提案されている。
本稿では,sandaの分類プロセスにおいて不可欠である,抽象と呼ばれる列指向のデータ変換に注目し,定数バイナリやクォンタイルなどの代替抽象化プロトコルについて検討する。
もっとも優れた手法は、説明可能な方法のベースラインとしてランダムフォレストと比較されている。
その結果,データ不足が最小限の値であっても,SNDAはデータが不完全である場合,ランダムフォレストの代替となる可能性が示唆された。
類似した条件下では精度が著しく低下するランダムフォレストとは異なり、データセットの半分が失われても常に高い精度を維持している。 The applicability of widely adopted machine learning (ML) methods to classification is circumscribed by the imperatives of explicability and uncertainty, particularly evident in domains such as healthcare, behavioural sciences, and finances, wherein accountability assumes priority. Recently, Small and Incomplete Dataset Analyser (SaNDA) has been proposed to enhance the ability to perform classification in such domains, by developing a data abstraction protocol using a ROC curve-based method. This paper focuses on column-wise data transformations called abstractions, which are crucial for SaNDA's classification process and explores alternative abstractions protocols, such as constant binning and quantiles. The best-performing methods have been compared against Random Forest as a baseline for explainable methods. The results suggests that SaNDA can be a viable substitute for Random Forest when data is incomplete, even with minimal missing values. It consistently maintains high accuracy even when half of the dataset is missing, unlike Random Forest which experiences a significant decline in accuracy under similar conditions. | 翻訳日:2024-01-23 18:18:17 公開日:2024-01-19 |
# 3次元ダイナミクスモデリングのための等変グラフニューラル演算子 Equivariant Graph Neural Operator for Modeling 3D Dynamics ( http://arxiv.org/abs/2401.11037v1 ) ライセンス: Link先を確認 | Minkai Xu, Jiaqi Han, Aaron Lou, Jean Kossaifi, Arvind Ramanathan, Kamyar Azizzadenesheli, Jure Leskovec, Stefano Ermon, Anima Anandkumar | (参考訳) 関係系の複雑な三次元(3次元)ダイナミクスのモデル化は、分子シミュレーションから粒子力学まで、自然科学において重要な問題である。
機械学習手法は、空間的相互作用をモデル化するグラフニューラルネットワークを学習することで大きな成功を収めている。
しかし、これらの手法は次のステップ予測のみをモデル化するため、時間的相関を忠実に捉えない。
本研究では,次段階の予測ではなく,軌道としてダイナミクスを直接モデル化する手法である等変グラフニューラル演算子(egno)を提案する。
既存の手法と異なり、EGNOは3次元力学の時間的進化を明示的に学習し、時間とともに力学を関数として定式化し、ニューラルネットワークを使って近似する。
固有SE(3)-等分散を保ちながら時間相関を捉えるために、フーリエ空間でパラメータ化された同変時間畳み込みを開発し、同変ネットワーク上にフーリエ層を積み重ねてEGNOを構築する。
EGNOは3次元の等価性を保ちながら、時間とともに解のダイナミクスをモデル化できる最初の演算子学習フレームワークである。
粒子シミュレーション、ヒューマンモーションキャプチャー、分子動力学を含む複数の領域における包括的実験は、等価時相モデリングにより、egnoが既存の手法に対して著しく優れた性能を示す。 Modeling the complex three-dimensional (3D) dynamics of relational systems is an important problem in the natural sciences, with applications ranging from molecular simulations to particle mechanics. Machine learning methods have achieved good success by learning graph neural networks to model spatial interactions. However, these approaches do not faithfully capture temporal correlations since they only model next-step predictions. In this work, we propose Equivariant Graph Neural Operator (EGNO), a novel and principled method that directly models dynamics as trajectories instead of just next-step prediction. Different from existing methods, EGNO explicitly learns the temporal evolution of 3D dynamics where we formulate the dynamics as a function over time and learn neural operators to approximate it. To capture the temporal correlations while keeping the intrinsic SE(3)-equivariance, we develop equivariant temporal convolutions parameterized in the Fourier space and build EGNO by stacking the Fourier layers over equivariant networks. EGNO is the first operator learning framework that is capable of modeling solution dynamics functions over time while retaining 3D equivariance. Comprehensive experiments in multiple domains, including particle simulations, human motion capture, and molecular dynamics, demonstrate the significantly superior performance of EGNO against existing methods, thanks to the equivariant temporal modeling. | 翻訳日:2024-01-23 18:17:58 公開日:2024-01-19 |
# 画像保護:条件付き視覚言語モデルによる推論と安全でないコンテンツの隠蔽 Image Safeguarding: Reasoning with Conditional Vision Language Model and Obfuscating Unsafe Content Counterfactually ( http://arxiv.org/abs/2401.11035v1 ) ライセンス: Link先を確認 | Mazal Bethany, Brandon Wherry, Nishant Vishwamitra, Peyman Najafirad | (参考訳) ソーシャルメディアのプラットフォームは、性的活動、サイバーいじめ、自傷などの画像など、悪意あるアクターが安全でないコンテンツをシェアするためにますます利用されている。
そのため、主要なプラットフォームでは、ai(artificial intelligence)と人間のモデレーションを使用して、画像の安全性を損なう。
非安全画像の難読化に対する2つの重要なニーズは、画像領域の難読化の正確な根拠を提供する必要があり、ユーザの安全のために感度の高い領域を難読化する必要があることである。
このプロセスでは,(1) 安全でない画像の難読化の理由として, 安全でない画像固有の属性を根拠とした正確な根拠の提供,(2) 安全でない領域を最小限の難読化で表現しなければならない,という2つの問題に対処する。
In this work, we address these key issues by first performing visual reasoning by designing a visual reasoning model (VLM) conditioned on pre-trained unsafe image classifiers to provide an accurate rationale grounded in unsafe image attributes, and then proposing a counterfactual explanation algorithm that minimally identifies and obfuscates unsafe regions for safe viewing, by first utilizing an unsafe image classifier attribution matrix to guide segmentation for a more optimal subregion segmentation followed by an informed greedy search to determine the minimum number of subregions required to modify the classifier's output based on attribution score.
ソーシャルネットワークからの未処理データに対する大規模な実験は,提案手法の有効性を強調した。
https://github.com/SecureAIAutonomyLab/ConditionalVLM Social media platforms are being increasingly used by malicious actors to share unsafe content, such as images depicting sexual activity, cyberbullying, and self-harm. Consequently, major platforms use artificial intelligence (AI) and human moderation to obfuscate such images to make them safer. Two critical needs for obfuscating unsafe images is that an accurate rationale for obfuscating image regions must be provided, and the sensitive regions should be obfuscated (\textit{e.g.} blurring) for users' safety. This process involves addressing two key problems: (1) the reason for obfuscating unsafe images demands the platform to provide an accurate rationale that must be grounded in unsafe image-specific attributes, and (2) the unsafe regions in the image must be minimally obfuscated while still depicting the safe regions. In this work, we address these key issues by first performing visual reasoning by designing a visual reasoning model (VLM) conditioned on pre-trained unsafe image classifiers to provide an accurate rationale grounded in unsafe image attributes, and then proposing a counterfactual explanation algorithm that minimally identifies and obfuscates unsafe regions for safe viewing, by first utilizing an unsafe image classifier attribution matrix to guide segmentation for a more optimal subregion segmentation followed by an informed greedy search to determine the minimum number of subregions required to modify the classifier's output based on attribution score. Extensive experiments on uncurated data from social networks emphasize the efficacy of our proposed method. We make our code available at: https://github.com/SecureAIAutonomyLab/ConditionalVLM | 翻訳日:2024-01-23 18:17:36 公開日:2024-01-19 |
# FAIR Enough: 大規模言語モデルのトレーニングにFAIR互換のデータセットをどのように開発し評価するか? FAIR Enough: How Can We Develop and Assess a FAIR-Compliant Dataset for Large Language Models' Training? ( http://arxiv.org/abs/2401.11033v1 ) ライセンス: Link先を確認 | Shaina Raza, Shardul Ghuge, Chen Ding, Deval Pandya | (参考訳) 大規模言語モデル(LLM)の進歩は、倫理的プラクティスとデータの完全性の必要性を強調している。
LLMトレーニングにFAIR(Findable, Accessible, Interoperable, Reusable)のデータ原則を組み込むフレームワークを導入します。
このアプローチは、FAIR標準に準拠したプラクティスへの移行を示すものだ。
我々のフレームワークは、FAIRデータ原則をLLMトレーニングに統合するためのガイドラインを提示します。
このイニシアチブには、研究者と開発者のためのチェックリストが含まれている。
また,公平に適合したデータセットにおけるバイアス識別と緩和に焦点を当てたケーススタディを通じて,その実践的応用を実証する。
この研究はAI倫理とデータサイエンスに大きな貢献をしており、LLMにおけるバランスのとれた倫理的な訓練方法を提唱している。 Advancements in Large Language Models (LLMs) highlight the need for ethical practices and data integrity. We introduce a framework that embeds FAIR (Findable, Accessible, Interoperable, Reusable) data principles into LLM training. This approach marks a shift towards practices compliant with FAIR standards. Our framework presents guidelines for integrating FAIR data principles into LLM training. This initiative includes a checklist for researchers and developers. We also demonstrate its practical application through a case study focused on bias identification and mitigation in our FAIR-compliant dataset. This work is a significant contribution to AI ethics and data science, advocating for balanced and ethical training methods in LLMs. | 翻訳日:2024-01-23 18:17:06 公開日:2024-01-19 |
# PressProtect:ジャーナリストがオンラインハラスメントに直面してソーシャルメディアをナビゲートする PressProtect: Helping Journalists Navigate Social Media in the Face of Online Harassment ( http://arxiv.org/abs/2401.11032v1 ) ライセンス: Link先を確認 | Catherine Han and Anne Li and Deepak Kumar and Zakir Durumeric | (参考訳) ソーシャルメディアは、ジャーナリストが自分の仕事を広め、聴衆と関わり、情報源と結びつくための重要なツールとなっている。
残念なことに、ジャーナリストはソーシャルメディアプラットフォーム上で、個人攻撃からdoxx、物理的危害の脅威まで、かなりのオンラインハラスメントに耐えている。
本稿では、常にデジタルハラスメントに直面しているジャーナリストにソーシャルメディアを利用できるようにする方法を模索する。
まず,既存のプラットフォームツールやニュースルームのリソースが,ジャーナリストを適切に保護する上で不足している状況を理解するために,必要なインタビューを行う。
PressProtectは、ジャーナリストがTwitter/Xで読者とエンゲージするよりも、より大きなエージェンシーを提供するインターフェースです。
8人のジャーナリストによるユーザテストを通じて、PressProtectを評価し、参加者はハラスメントから効果的に保護されていると感じ、他の可視的で脆弱なグループに役立てることができることに気付きました。
我々は、オンラインハラスメントに直面しているジャーナリストのデフォルトを守ろうとする社会プラットフォームに対する私たちの発見と勧告に関する議論で締めくくります。 Social media has become a critical tool for journalists to disseminate their work, engage with their audience, and connect with sources. Unfortunately, journalists also regularly endure significant online harassment on social media platforms, ranging from personal attacks to doxxing to threats of physical harm. In this paper, we seek to understand how we can make social media usable for journalists who face constant digital harassment. To begin, we conduct a set of need-finding interviews to understand where existing platform tools and newsroom resources fall short in adequately protecting journalists. We map journalists' unmet needs to concrete design goals, which we use to build PressProtect, an interface that provides journalists greater agency over engaging with readers on Twitter/X. Through user testing with eight journalists, we evaluate PressProtect and find that participants felt it effectively protected them against harassment and could also generalize to serve other visible and vulnerable groups. We conclude with a discussion of our findings and recommendations for social platforms hoping to build defensive defaults for journalists facing online harassment. | 翻訳日:2024-01-23 18:16:55 公開日:2024-01-19 |
# 自動車缶侵入検知のための高量子化ニューラルネットワークの検討 Exploring Highly Quantised Neural Networks for Intrusion Detection in Automotive CAN ( http://arxiv.org/abs/2401.11030v1 ) ライセンス: Link先を確認 | Shashwat Khandelwal, Shreejith Shanker | (参考訳) 現在、車両は、接続された自律運転や高度な運転支援システム(ADAS)のようなインテリジェントなシステムで構成されており、インフラへの接続性を高め、異なるセンシングモードからの情報の融合を可能にする。
しかし、車両内のレガシネットワークアーキテクチャと結びついた接続性は、重要な車両システムに対するアクティブおよびパッシブアタックの発射や、乗客の安全性に直接影響する。
機械学習に基づく侵入検出モデルは、近年の文献において、低消費電力プラットフォームをターゲットにした量子ニューラルネットワークを通じて、複数の攻撃ベクトルを検出することに成功した。
複数のモデルが同時に複数の攻撃ベクトルを検出し、面積を拡大し、コスト(資源)とエネルギー消費を増大させる。
本稿では、制御領域ネットワーク(CAN)メッセージの良性フローから複数の攻撃を検出することができるマルチクラス分類モデルとして、カスタム量子化MLP(CQMLP)を利用するケースを提案する。
特定の量子化とニューラルアーキテクチャは共同設計空間探索によって決定され、2ビット精度とn層MLPが選択される。
AMD/XilinxのFINNツールフローを通じてデータフローハードウェアモデルとして最適化され、XCZU7EVデバイスをターゲットにしています。
IDSとして統合された2ビットCQMLPモデルは、文学における最先端の手法と同等の精度で、悪意のある攻撃メッセージ(DoS、ファジング、偽造攻撃)を99.9%の精度で検出できることを示す。
さらに、データフローモデルは、メッセージ受信から0.11msの遅延で行数検出を行うことができ、かつ、重要なCANネットワークにおけるECUとの統合に最適である。 Vehicles today comprise intelligent systems like connected autonomous driving and advanced driving assistance systems (ADAS) to enhance the driving experience, which is enabled through increased connectivity to infrastructure and fusion of information from different sensing modes. However, the rising connectivity coupled with the legacy network architecture within vehicles can be exploited for launching active and passive attacks on critical vehicle systems and directly affecting the safety of passengers. Machine learning-based intrusion detection models have been shown to successfully detect multiple targeted attack vectors in recent literature, whose deployments are enabled through quantised neural networks targeting low-power platforms. Multiple models are often required to simultaneously detect multiple attack vectors, increasing the area, (resource) cost, and energy consumption. In this paper, we present a case for utilising custom-quantised MLP's (CQMLP) as a multi-class classification model, capable of detecting multiple attacks from the benign flow of controller area network (CAN) messages. The specific quantisation and neural architecture are determined through a joint design space exploration, resulting in our choice of the 2-bit precision and the n-layer MLP. Our 2-bit version is trained using Brevitas and optimised as a dataflow hardware model through the FINN toolflow from AMD/Xilinx, targeting an XCZU7EV device. We show that the 2-bit CQMLP model, when integrated as the IDS, can detect malicious attack messages (DoS, fuzzing, and spoofing attack) with a very high accuracy of 99.9%, on par with the state-of-the-art methods in the literature. Furthermore, the dataflow model can perform line rate detection at a latency of 0.11 ms from message reception while consuming 0.23 mJ/inference, making it ideally suited for integration with an ECU in critical CAN networks. | 翻訳日:2024-01-23 18:16:32 公開日:2024-01-19 |
# sic-povmのグループ理論的分類 Group Theoretical Classification of SIC-POVMs ( http://arxiv.org/abs/2401.11026v1 ) ライセンス: Link先を確認 | Solomon B. Samuel and Zafer Gedik | (参考訳) Symmetric Informationally Complete Positive Operator-Valued Measures (SIC-POVMs) はすべての次元に$\leq 151$と$155$の高次元が存在することが知られている。
ホガー解を除くすべての既知の解はワイル・ハイゼンベルク群に関して共変であり、次元 3 の場合、すべての SIC-POVM がワイル・ハイゼンベルク群共変であることが証明されている。
本研究では,SIC-POVM 文法行列を群共分散制約なしで生成できる2つの関数を提案する。
SIC-POVM 文法行列は対称行列の部分空間上の2つの関数によって形成される曲面の臨界点上に存在し、次元 4 から 7 においてすべての SIC-POVM 文法行列が解「島」にあることを数値的に示す。
次元 4 と 5 のグラム行列は $O(10^6)$ と $O(10^5)$ を、次元 6 と 7 のグラム行列は $O(10^2)$ を生成する。
得られたすべてのグラム行列に対して、対称性群を生成し、すべての対称性群が3n^2$要素の部分群を含むことを示す。
部分群の要素はワイル=ハイゼンベルク群行列とそれらを生成する位数-3ユニタリに対応する。
構築された全てのグラム行列はユニークな生成集合を持つ。
この事実を利用して置換行列を生成し、グラム行列を既知のワイル・ハイゼンベルク群共変解に写像する。
次元 4 と 5 において、対称性が小さい解が存在しないことは、非群共変 SIC-POVM は構築できないことを強く示唆している。 The Symmetric Informationally Complete Positive Operator-Valued Measures (SIC-POVMs) are known to exist in all dimensions $\leq 151$ and few higher dimensions as high as $1155$. All known solutions with the exception of the Hoggar solutions are covariant with respect to the Weyl-Heisenberg group and in the case of dimension 3 it has been proven that all SIC-POVMs are Weyl-Heisenberg group covariant. In this work, we introduce two functions with which SIC-POVM Gram matrices can be generated without the group covariance constraint. We show analytically that the SIC-POVM Gram matrices exist on critical points of surfaces formed by the two functions on a subspace of symmetric matrices and we show numerically that in dimensions 4 to 7, all SIC-POVM Gram matrices lie in disjoint solution "islands". We generate $O(10^6)$ and $O(10^5)$ Gram matrices in dimensions 4 and 5, respectively and $O(10^2)$ Gram matrices in dimensions 6 and 7. For every Gram matrix obtained, we generate the symmetry groups and show that all symmetry groups contain a subgroup of $3n^2$ elements. The elements of the subgroup correspond to the Weyl-Heisenberg group matrices and the order-3 unitaries that generate them. All constructed Gram matrices have a unique generating set. Using this fact, we generate permutation matrices to map the Gram matrices to known Weyl-Heisenberg group covariant solutions. In dimensions 4 and 5, the absence of a solution with a smaller symmetry, strongly suggests that non-group covariant SIC-POVMs cannot be constructed. | 翻訳日:2024-01-23 18:15:57 公開日:2024-01-19 |
# 最良の方法のための最善の結末:アプリレビューの倫理的懸念 The Best Ends for the Best Means: Ethical Concerns in App Reviews ( http://arxiv.org/abs/2401.11063v1 ) ライセンス: Link先を確認 | Lauren Olson, Neelam Tjikhoeri, Emitz\'a Guzm\'an | (参考訳) この研究は、ユーザのアプリストアレビューに見られる倫理的懸念を分析します。
本研究は,モバイルアプリケーション(アプリケーション)における倫理的関心が広まり,エンドユーザーや社会に深刻な脅威をもたらし,系統的な分析や分類方法が欠如しているためである。
さらにapp storeのレビューでは,地理的に分散した大規模オーディエンスから,ソフトウェアの欠陥を特定する上で極めて重要なユーザ視点の収集が可能になる。
分析の結果,500万件のユーザレビューを収集し,ユーザの嗜好を表す倫理的関心事のセットを開発し,これらのレビューのサンプルを手作業でラベル付けした。
1) 検閲, 身元盗難, 安全に関する倫理的懸念を高い頻度で報告すること, (2) 倫理的懸念を伴うユーザレビューはより長く, 人気が高く, 評価が低いこと, (3) 評価の分類とフィルタリングの自動化の可能性が高いことが判明した。
ソフトウェア進化における倫理的懸念を体系的に考慮する上で,app storeのレビューが有効であることを強調する。 This work analyzes ethical concerns found in users' app store reviews. We performed this study because ethical concerns in mobile applications (apps) are widespread, pose severe threats to end users and society, and lack systematic analysis and methods for detection and classification. In addition, app store reviews allow practitioners to collect users' perspectives, crucial for identifying software flaws, from a geographically distributed and large-scale audience. For our analysis, we collected five million user reviews, developed a set of ethical concerns representative of user preferences, and manually labeled a sample of these reviews. We found that (1) users highly report ethical concerns about censorship, identity theft, and safety (2) user reviews with ethical concerns are longer, more popular, and lowly rated, and (3) there is high automation potential for the classification and filtering of these reviews. Our results highlight the relevance of using app store reviews for the systematic consideration of ethical concerns during software evolution. | 翻訳日:2024-01-23 18:04:32 公開日:2024-01-19 |
# Learned Image Resizing with efficient training (LRET)は大規模なデジタル病理画像分類モデルの性能向上を支援する Learned Image resizing with efficient training (LRET) facilitates improved performance of large-scale digital histopathology image classification models ( http://arxiv.org/abs/2401.11062v1 ) ライセンス: Link先を確認 | Md Zahangir Alom, Quynh T. Tran, Brent A. Orr | (参考訳) 病理検査は腫瘍学研究と診断において重要な役割を担っている。
スライド画像全体(WSI)のデジタルスキャンの採用により、深層学習に基づく画像分類手法を活用し、診断とリスク階層化を強化する機会が生まれている。
ディープ畳み込みニューラルネットワーク(DCNN)のトレーニングに対する現在のアプローチの技術的制限は、最適以下のモデル性能をもたらし、包括的な分類モデルのトレーニングとデプロイが不可能になる。
本研究では,従来の病理組織学分類モデルトレーニングの主な限界に対処する新しいアプローチを提案する。
提案手法は, 画像再構成を併用し, 組織像パッチを最先端の分類モデルにシームレスに統合し, 重要な構造情報を保存し, 効率的なトレーニング手法であるLearned Resizing with Efficient Training (LRET) を併用する。
LRET法と2つの異なる再サイズ手法を組み合わせて,複数のDCNNアーキテクチャを用いて3つの多様な組織像データセットをトレーニングした。
以上の結果から,分類性能と訓練効率は著しく向上した。
実験のスペクトルを通して、lretは、74の異なる脳腫瘍タイプからなる大規模マルチクラス腫瘍分類タスクにおいて、既存の手法を一貫して15-28%の精度で改善した。
LRETは分類精度を高めるだけでなく、トレーニング時間を大幅に短縮し、より高速なモデル開発とイテレーションの可能性を解き放つ。
この研究の意義は、医療画像の幅広い応用にまで及び、高分解能画像のディープラーニングパイプラインへの効率的な統合が、研究と臨床の進歩を推進する上で重要である。 Histologic examination plays a crucial role in oncology research and diagnostics. The adoption of digital scanning of whole slide images (WSI) has created an opportunity to leverage deep learning-based image classification methods to enhance diagnosis and risk stratification. Technical limitations of current approaches to training deep convolutional neural networks (DCNN) result in suboptimal model performance and make training and deployment of comprehensive classification models unobtainable. In this study, we introduce a novel approach that addresses the main limitations of traditional histopathology classification model training. Our method, termed Learned Resizing with Efficient Training (LRET), couples efficient training techniques with image resizing to facilitate seamless integration of larger histology image patches into state-of-the-art classification models while preserving important structural information. We used the LRET method coupled with two distinct resizing techniques to train three diverse histology image datasets using multiple diverse DCNN architectures. Our findings demonstrate a significant enhancement in classification performance and training efficiency. Across the spectrum of experiments, LRET consistently outperforms existing methods, yielding a substantial improvement of 15-28% in accuracy for a large-scale, multiclass tumor classification task consisting of 74 distinct brain tumor types. LRET not only elevates classification accuracy but also substantially reduces training times, unlocking the potential for faster model development and iteration. The implications of this work extend to broader applications within medical imaging and beyond, where efficient integration of high-resolution images into deep learning pipelines is paramount for driving advancements in research and clinical practice. | 翻訳日:2024-01-23 18:04:12 公開日:2024-01-19 |
# マルチアクセスエッジコンピューティングにおけるCNN推論のための動的セマンティック圧縮:グラフ強化学習に基づくオートエンコーダ Dynamic Semantic Compression for CNN Inference in Multi-access Edge Computing: A Graph Reinforcement Learning-based Autoencoder ( http://arxiv.org/abs/2401.12167v1 ) ライセンス: Link先を確認 | Nan Li, Alexandros Iosifidis and Qi Zhang | (参考訳) 本稿では,動的マルチアクセスエッジコンピューティング(MEC)ネットワークにおけるCNN推論の計算オフロードについて検討する。
通信時間と計算資源の可用性の不確実性に対処するため, 部分オフロードにおける効率的な意味抽出と圧縮のための新しい意味圧縮手法, オートエンコーダベースのCNNアーキテクチャ (AECNN) を提案する。
セマンティックエンコーダでは、CNNのチャネルアテンション機構に基づく特徴圧縮モジュールを導入し、最も情報性の高い特徴を選択して中間データを圧縮する。
セマンティクスデコーダでは、受信した圧縮データから学習して中間データを再構成し、精度を向上させる軽量デコーダを設計する。
通信、計算、推論の精度を効果的にトレードオフするために、報酬関数を設計し、cnn推論のオフロード問題を最大化問題として定式化し、長期にわたって平均推論精度とスループットを最大化する。
この最大化問題に対処するため,グラフ強化学習に基づく AECNN (GRL-AECNN) 法を提案し,DROO-AECNN, GRL-BottleNet++, GRL-DeepJSCC を動的シナリオで比較した。
これは、動的MECにおける意思決定のオフロードにおけるGRL-AECNNの利点を強調している。 This paper studies the computational offloading of CNN inference in dynamic multi-access edge computing (MEC) networks. To address the uncertainties in communication time and computation resource availability, we propose a novel semantic compression method, autoencoder-based CNN architecture (AECNN), for effective semantic extraction and compression in partial offloading. In the semantic encoder, we introduce a feature compression module based on the channel attention mechanism in CNNs, to compress intermediate data by selecting the most informative features. In the semantic decoder, we design a lightweight decoder to reconstruct the intermediate data through learning from the received compressed data to improve accuracy. To effectively trade-off communication, computation, and inference accuracy, we design a reward function and formulate the offloading problem of CNN inference as a maximization problem with the goal of maximizing the average inference accuracy and throughput over the long term. To address this maximization problem, we propose a graph reinforcement learning-based AECNN (GRL-AECNN) method, which outperforms existing works DROO-AECNN, GRL-BottleNet++ and GRL-DeepJSCC under different dynamic scenarios. This highlights the advantages of GRL-AECNN in offloading decision-making in dynamic MEC. | 翻訳日:2024-01-23 13:00:34 公開日:2024-01-19 |
# 量子軌道に沿った仕事とエントロピー生成の合同統計 Joint statistics of work and entropy production along quantum trajectories ( http://arxiv.org/abs/2011.11589v3 ) ライセンス: Link先を確認 | Harry J. D. Miller, M. Hamed Mohammady, Mart\'i Perarnau-Llobet, Giacomo Guarnieri | (参考訳) 熱力学では、エントロピーの生成と作業は、システムが平衡から追い出されるとき、それぞれ不可逆性と有用なエネルギーの消費を定量化する。
量子系では、これらの量は量子ジャンプ軌道の観点から系の進化を解いて確率レベルで同定することができる。
ここでは、マルコフ駆動量子系における仕事とエントロピーの生成の合同統計を計算するための一般的な公式を導出する。
駆動系が常に瞬時ギブズ状態に近づき続ける場合、対応する2変数累積生成関数は、詳細なバランスが満たされる限り、共同で詳細な変動定理を示すことを示す。
本稿では, エントロピー生成のみに対して, 任意の定常状態間の遷移, 詳細なバランスに反するシステムに対して, 変動散逸関係(FDR)を導出する。
このFDRは、真の量子ゆらぎから生じる用語を含み、古典的熱力学から量子状態への類似関係を拡張している。 In thermodynamics, entropy production and work quantify irreversibility and the consumption of useful energy, respectively, when a system is driven out of equilibrium. For quantum systems, these quantities can be identified at the stochastic level by unravelling the system's evolution in terms of quantum jump trajectories. We here derive a general formula for computing the joint statistics of work and entropy production in Markovian driven quantum systems, whose instantaneous steady-states are of Gibbs form. If the driven system remains close to the instantaneous Gibbs state at all times, we show that the corresponding two-variable cumulant generating function implies a joint detailed fluctuation theorem so long as detailed balance is satisfied. As a corollary, we derive a modified fluctuation-dissipation relation (FDR) for the entropy production alone, applicable to transitions between arbitrary steady-states, and for systems that violate detailed balance. This FDR contains a term arising from genuinely quantum fluctuations, and extends an analogous relation from classical thermodynamics to the quantum regime. | 翻訳日:2024-01-22 19:58:43 公開日:2024-01-19 |
# ショアのアルゴリズムが特定の場合であるポラードのRhoの量子バージョン A quantum version of Pollard's Rho of which Shor's Algorithm is a particular case ( http://arxiv.org/abs/2011.05355v2 ) ライセンス: Link先を確認 | Daniel Chicayban Bastos and Luis Antonio Kowada | (参考訳) ポラードのRhoは整数分解問題の解法である。
この戦略は、与えられた適切な条件が非自明な因子をもたらす自然数の列に属する適切な一対の要素を探索する。
計算の量子モデルにアルゴリズムを翻訳すると、その実行時間は、シーケンスを生成する関数セットを用いて多項式時間に短縮されることがわかった。
また、配列内の非自明な因子の可用性を特徴付ける新しい結果にも到達した。
その結果、ポラードのRhoはショアのアルゴリズムの一般化であり、これは新しい結果の光で容易に見られるという認識に至った。 Pollard's Rho is a method for solving the integer factorization problem. The strategy searches for a suitable pair of elements belonging to a sequence of natural numbers that given suitable conditions yields a nontrivial factor. In translating the algorithm to a quantum model of computation, we found its running time reduces to polynomial-time using a certain set of functions for generating the sequence. We also arrived at a new result that characterizes the availability of nontrivial factors in the sequence. The result has led us to the realization that Pollard's Rho is a generalization of Shor's algorithm, a fact easily seen in the light of the new result. | 翻訳日:2024-01-22 19:58:23 公開日:2024-01-19 |
# ゆっくり駆動する量子熱機関の熱力学的不確かさ関係 Thermodynamic uncertainty relation in slowly driven quantum heat engines ( http://arxiv.org/abs/2006.07316v5 ) ライセンス: Link先を確認 | Harry J. D. Miller, M. Hamed Mohammady, Mart\'i Perarnau-Llobet, Giacomo Guarnieri | (参考訳) 熱力学的不確かさの関係は、ジェネリック電流のノイズ対信号比として定義される精度と関連するエントロピー生成量とのトレードオフを表す。
これらの結果は、定常状態で動作する自律熱エンジンに深い影響をもたらし、発電量とその揺らぎの観点からの効率の上限となる。
本論文では, 周期的低速運転体制下で稼働している熱機関を, 異なる種類の熱機関を用いて解析する。
定常式エンジンよりも制限が小さく,小型のパワーゆらぎを持つ有限のパワーを発生させるエンジンをキャノットの効率に近づけることで,代替のturが満足できることを示した。
境界はさらに量子揺らぎの効果を取り入れ、平均的な出力と信頼性に対してエンジン効率を低下させる。
最後に, 単一イオン熱エンジンの実験的モデルについて考察した。 Thermodynamic Uncertainty Relations express a trade-off between precision, defined as the noise-to-signal ratio of a generic current, and the amount of associated entropy production. These results have deep consequences for autonomous heat engines operating at steady-state, imposing an upper bound for their efficiency in terms of the power yield and its fluctuations. In the present manuscript we analyse a different class of heat engines, namely those which are operating in the periodic slow-driving regime. We show that an alternative TUR is satisfied, which is less restrictive than that of steady-state engines: it allows for engines that produce finite power, with small power fluctuations, to operate close to the Carnot efficiency. The bound further incorporates the effect of quantum fluctuations, which reduces engine efficiency relative to the average power and reliability. We finally illustrate our findings in the experimentally relevant model of a single-ion heat engine. | 翻訳日:2024-01-22 19:58:12 公開日:2024-01-19 |
# 量子エンハンススクリーン型ダークエネルギー検出 Quantum-enhanced screened dark energy detection ( http://arxiv.org/abs/1909.02272v2 ) ライセンス: Link先を確認 | Daniel Hartley, Christian K\"ading, Richard Howl and Ivette Fuentes | (参考訳) 強拘束性5次力モデルのためのボース・アインシュタイン凝縮干渉計に基づく実験を提案する。
修正重力や高次元の理論によるスカラー場の追加は、ダークエネルギーと宇宙の加速膨張を考慮できる。
これらの理論は、五分探索の厳密な実験境界に収まるスクリーニング機構の提案につながっている。
提案した実験は,これらのスクリーニングモデルの既存の制約を桁違いに改善することを示した。 We propose an experiment based on a Bose-Einstein condensate interferometer for strongly constraining fifth-force models. Additional scalar fields from modified gravity or higher dimensional theories may account for dark energy and the accelerating expansion of the Universe. These theories have led to proposed screening mechanisms to fit within the tight experimental bounds on fifth-force searches. We show that our proposed experiment would greatly improve the existing constraints on these screening models by many orders of magnitude. | 翻訳日:2024-01-22 19:57:57 公開日:2024-01-19 |
# 時間領域光プロセッサによる量子相関の境界探索 Exploring the boundary of quantum correlations with a time-domain optical processor ( http://arxiv.org/abs/2208.07794v2 ) ライセンス: Link先を確認 | Zheng-Hao Liu, Yu Meng, Yu-Ze Wu, Ze-Yan Hao, Zhen-Peng Xu, Cheng-Jun Ai, Hai Wei, Kai Wen, Jing-Ling Chen, Jie Ma, Jin-Shi Xu, Chuan-Feng Li, and Guang-Can Guo | (参考訳) 文脈性は量子論の重要な特徴であり、非文脈的隠れ変数モデルとの非互換性を捉えている。
Greenberger--Horne--Zeilinger (GHZ) 型パラドックスは、決定論的論理的議論とこの非互換性を示す文脈性の証明である。
しかしながら、最も単純なGHZ型パラドックスは、最小数の完全文脈と最大の非古典性を持つ。
ここでは、3つの完全文脈のみを利用してGHZ型パラドックスを導出し、量子論による下界の飽和を示す。
時間領域光ファイバ光プラットフォームを用いたパラドックスを実証し, パルスコヒーレント光の高速変調, 畳み込み, ホモダイン検出に基づく37次元コンテキスト性試験において, 必須成分をすべて回収する。
高ヒルベルト空間次元における強い文脈性の提案と観察により、時間多重光学系との異方性量子相関の探索の道を開いた。 Contextuality is a hallmark feature of the quantum theory that captures its incompatibility with any noncontextual hidden-variable model. The Greenberger--Horne--Zeilinger (GHZ)-type paradoxes are proofs of contextuality that reveal this incompatibility with deterministic logical arguments. However, the simplest GHZ-type paradox with the fewest number of complete contexts and the largest amount of nonclassicality remains elusive. Here, we derive a GHZ-type paradox utilizing only three complete contexts and show this number saturates the lower bound posed by quantum theory. We demonstrate the paradox with a time-domain fiber optical platform and recover all essential ingredients in a 37-dimensional contextuality test based on high-speed modulation, convolution, and homodyne detection of time-multiplexed pulsed coherent light. By proposing and observing a strong form of contextuality in high Hilbert-space dimensions, our results pave the way for the exploration of exotic quantum correlations with time-multiplexed optical systems. | 翻訳日:2024-01-22 19:55:11 公開日:2024-01-19 |
# Recommendation-Dependent Preferenceによるアルゴリズム支援 Algorithmic Assistance with Recommendation-Dependent Preferences ( http://arxiv.org/abs/2208.07626v3 ) ライセンス: Link先を確認 | Bryce McLaughlin and Jann Spiess | (参考訳) アルゴリズムがリスクアセスメントを提供する場合、一般的には、リスクスコアが審査員や医師に提示される場合など、人間の判断に有用なインプットであるとみなす。
しかし、意思決定者はアルゴリズムが提供する情報に反応するわけではない。
意思決定者は、アルゴリズムによる推奨をデフォルトの行為と見なすことができ、裁判官が被告に対するリスクの高い評価を覆すのを嫌う場合や、医者が推奨された手続から逸脱する結果を恐れる場合など、逸脱するコストがかかる。
アルゴリズム支援の意図しない結果に対処するために,人間と機械の協調意思決定のプリンシパルエージェントモデルを提案する。
本モデルでは,信念を変えるだけでなく,好みを変えることによって選択に影響を与えるアルゴリズムレコメンデーションの効果と設計を検討する。
我々は、監査を避けたいという願望のような機関的要因や、このアルゴリズムが設定する参照点に対する損失回避を予測する行動科学の確立されたモデルから、この仮定を動機付けている。
推薦依存の選好は、意思決定者が推薦に過度に反応する非効率性を生み出す。
潜在的な救済策として、戦略的に推奨を控えたアルゴリズムを議論し、最終決定の質をいかに改善できるかを示す。 When an algorithm provides risk assessments, we typically think of them as helpful inputs to human decisions, such as when risk scores are presented to judges or doctors. However, a decision-maker may not only react to the information provided by the algorithm. The decision-maker may also view the algorithmic recommendation as a default action, making it costly for them to deviate, such as when a judge is reluctant to overrule a high-risk assessment for a defendant or a doctor fears the consequences of deviating from recommended procedures. To address such unintended consequences of algorithmic assistance, we propose a principal-agent model of joint human-machine decision-making. Within this model, we consider the effect and design of algorithmic recommendations when they affect choices not just by shifting beliefs, but also by altering preferences. We motivate this assumption from institutional factors, such as a desire to avoid audits, as well as from well-established models in behavioral science that predict loss aversion relative to a reference point, which here is set by the algorithm. We show that recommendation-dependent preferences create inefficiencies where the decision-maker is overly responsive to the recommendation. As a potential remedy, we discuss algorithms that strategically withhold recommendations, and show how they can improve the quality of final decisions. | 翻訳日:2024-01-22 19:54:52 公開日:2024-01-19 |
# 画像キャプションのための高速終端訓練における複数シーケンス長の爆発 Exploiting Multiple Sequence Lengths in Fast End to End Training for Image Captioning ( http://arxiv.org/abs/2208.06551v4 ) ライセンス: Link先を確認 | Jia Cheng Hu, Roberto Cavicchioli, Alessandro Capotondi | (参考訳) 本稿では,シーケンス内の要素数に制約されない入力を処理する拡張機構という手法を提案する。
そうすることで、従来の注意に基づくアプローチと比較して、モデルはより効果的に学習できる。
この主張を支持するため、我々は、MS COCO 2014 Image Captioning Challenge と State of the Art のそれぞれのカテゴリで、オフラインテストスプリットで143.7 CIDErD 、オンライン評価サーバで140.8 CIDErD 、ノキャップ検証セットで72.9 AllCIDEr という、優れた結果を得た新しいアーキテクチャ ExpansionNet v2 を設計した。
さらに,既存のアルゴリズムよりも最大2.8倍高速なEnd to Endトレーニングアルゴリズムを導入する。
ソースコード: https://github.com/jchenghu/expansionnet_v2 We introduce a method called the Expansion mechanism that processes the input unconstrained by the number of elements in the sequence. By doing so, the model can learn more effectively compared to traditional attention-based approaches. To support this claim, we design a novel architecture ExpansionNet v2 that achieved strong results on the MS COCO 2014 Image Captioning challenge and the State of the Art in its respective category, with a score of 143.7 CIDErD in the offline test split, 140.8 CIDErD in the online evaluation server and 72.9 AllCIDEr on the nocaps validation set. Additionally, we introduce an End to End training algorithm up to 2.8 times faster than established alternatives. Source code available at: https://github.com/jchenghu/ExpansionNet_v2 | 翻訳日:2024-01-22 19:54:27 公開日:2024-01-19 |
# 混合変数ベイズ最適化のためのハイブリッドパラメータ探索と動的モデル選択 Hybrid Parameter Search and Dynamic Model Selection for Mixed-Variable Bayesian Optimization ( http://arxiv.org/abs/2206.01409v4 ) ライセンス: Link先を確認 | Hengrui Luo, Younghyun Cho, James W. Demmel, Xiaoye S. Li, Yang Liu | (参考訳) 本稿では,混合変数(連続型と整数型)と定性型(カテゴリー型)の両方を包含する,ベイズ最適化(bo)のための新しいハイブリッドモデルを提案する。
本研究では,モンテカルロ木探索構造 (mcts) とガウス過程 (gp) を連続的に結合した新しいハイブリッドモデル (hybridm) を提案する。
hybridm は mcts 戦略に upper confidence bound tree search (ucts) を活用し、ツリーアーキテクチャのベイズ最適化への統合を示す。
サーロゲートモデリングフェーズにおける動的オンラインカーネル選択やユニークなUCTS検索戦略を含む我々のイノベーションは、ハイブリッドモデルを混合変数サーロゲートモデルの進歩として位置づけている。
数値実験はハイブリッドモデルの優位性を強調し、ベイズ最適化におけるそれらの可能性を強調する。 This paper presents a new type of hybrid model for Bayesian optimization (BO) adept at managing mixed variables, encompassing both quantitative (continuous and integer) and qualitative (categorical) types. Our proposed new hybrid models (named hybridM) merge the Monte Carlo Tree Search structure (MCTS) for categorical variables with Gaussian Processes (GP) for continuous ones. hybridM leverages the upper confidence bound tree search (UCTS) for MCTS strategy, showcasing the tree architecture's integration into Bayesian optimization. Our innovations, including dynamic online kernel selection in the surrogate modeling phase and a unique UCTS search strategy, position our hybrid models as an advancement in mixed-variable surrogate models. Numerical experiments underscore the superiority of hybrid models, highlighting their potential in Bayesian optimization. | 翻訳日:2024-01-22 19:54:09 公開日:2024-01-19 |
# ディープラーニングを用いたグループレベルの脳デコード Group-level Brain Decoding with Deep Learning ( http://arxiv.org/abs/2205.14102v3 ) ライセンス: Link先を確認 | Richard Csaky, Mats Van Es, Oiwi Parker Jones, Mark Woolrich | (参考訳) 脳画像データのデコードが普及し、脳-コンピュータインターフェースや神経表現の研究に応用されている。
復号は典型的にはサブジェクトに特有であり、主題の変動性が高いため、サブジェクトよりも一般化していない。
これを克服するテクニックは、より豊かな神経科学的な洞察を提供するだけでなく、グループレベルのモデルが主題固有のモデルを上回ることができる。
本稿では、自然言語処理における単語埋め込みに類似した主語埋め込みを用いて、デコードモデルの一部としてオブジェクト間の可変性の構造を学習・活用し、ウェーブネットアーキテクチャの分類に適応する手法を提案する。
本研究では,15名の被験者が118の異なる画像を1画像30例で閲覧し,1 s のウィンドウ後続画像表示全体を用いて画像の分類を行うmag-netoencephalographyデータに適用する。
深層学習と主観的埋め込みの組み合わせは、主観的およびグループレベルの復号化モデルのパフォーマンスギャップを埋めるのに不可欠であることを示す。
重要なことに、グループモデルは、低精度の被験者の主題モデルよりも優れており、主題モデルの初期化に役立ちます。
グループレベルのモデルの方が主観的モデルよりも優れた性能を示すグループレベルのモデルは発見されていないが、グループレベルのモデルの性能はより大きなデータセットでさらに高くなることが期待されている。
群レベルでの生理的解釈を提供するために, 置換特徴量を利用する。
これにより、モデルに符号化された時空間情報とスペクトル情報に関する洞察が得られる。
すべてのコードはgithubで入手できる(https://github.com/ricsinaruto/meg-group-decode)。 Decoding brain imaging data are gaining popularity, with applications in brain-computer interfaces and the study of neural representations. Decoding is typicallysubject-specific and does not generalise well over subjects, due to high amounts ofbetween subject variability. Techniques that overcome this will not only providericher neuroscientific insights but also make it possible for group-level models to out-perform subject-specific models. Here, we propose a method that uses subjectembedding, analogous to word embedding in natural language processing, to learnand exploit the structure in between-subject variability as part of a decoding model,our adaptation of the WaveNet architecture for classification. We apply this to mag-netoencephalography data, where 15 subjects viewed 118 different images, with30 examples per image; to classify images using the entire 1 s window followingimage presentation. We show that the combination of deep learning and subjectembedding is crucial to closing the performance gap between subject- and group-level decoding models. Importantly, group models outperform subject models onlow-accuracy subjects (although slightly impair high-accuracy subjects) and can behelpful for initialising subject models. While we have not generally found group-levelmodels to perform better than subject-level models, the performance of groupmodelling is expected to be even higher with bigger datasets. In order to providephysiological interpretation at the group level, we make use of permutation featureimportance. This provides insights into the spatiotemporal and spectral informationencoded in the models. All code is available on GitHub (https://github.com/ricsinaruto/MEG-group-decode). | 翻訳日:2024-01-22 19:53:53 公開日:2024-01-19 |
# アニメーション線形射影を用いた非線形モデルの局所的説明 Exploring Local Explanations of Nonlinear Models Using Animated Linear Projections ( http://arxiv.org/abs/2205.05359v3 ) ライセンス: Link先を確認 | Nicholas Spyrison, Dianne Cook, Przemyslaw Biecek | (参考訳) 機械学習モデルの予測能力の増大は、特にパラメトリック統計モデルと比較して、複雑さの増大と解釈可能性の喪失のコストが伴う。
このトレードオフによってeXplainable AI(XAI)が出現し、モデルが予測子を使用して予測に到達する方法を明らかにするために、ローカル説明(LE)やローカル変数属性(LVA)などの方法を提供する。
これらは、単一の観測近傍における線形変数の重要性をポイント推定する。
しかし、LVAは予測器間の関係を効果的に扱わない傾向がある。
予測器間の相互作用が変数重要度推定にどのように影響するかを理解するために,LVAを線形射影に変換し,ラジアルツアーを利用する。
これはまた、モデルがどのように過ちを犯したか、または外れ値の影響、あるいは観測のクラスタリングを学習するのにも有用である。
このアプローチは、カテゴリー(penguin種、チョコレートタイプ)と量的(soccer/football salaries、house prices)の反応モデルからの例で示される。
これらのメソッドは、CRANで利用可能なRパッケージのcheemで実装されている。 The increased predictive power of machine learning models comes at the cost of increased complexity and loss of interpretability, particularly in comparison to parametric statistical models. This trade-off has led to the emergence of eXplainable AI (XAI) which provides methods, such as local explanations (LEs) and local variable attributions (LVAs), to shed light on how a model use predictors to arrive at a prediction. These provide a point estimate of the linear variable importance in the vicinity of a single observation. However, LVAs tend not to effectively handle association between predictors. To understand how the interaction between predictors affects the variable importance estimate, we can convert LVAs into linear projections and use the radial tour. This is also useful for learning how a model has made a mistake, or the effect of outliers, or the clustering of observations. The approach is illustrated with examples from categorical (penguin species, chocolate types) and quantitative (soccer/football salaries, house prices) response models. The methods are implemented in the R package cheem, available on CRAN. | 翻訳日:2024-01-22 19:53:25 公開日:2024-01-19 |
# 言語誘導ビデオセグメンテーションのための局所的グローバルコンテキスト認識トランスフォーマ Local-Global Context Aware Transformer for Language-Guided Video Segmentation ( http://arxiv.org/abs/2203.09773v2 ) ライセンス: Link先を確認 | Chen Liang, Wenguan Wang, Tianfei Zhou, Jiaxu Miao, Yawei Luo and Yi Yang | (参考訳) 我々は,言語誘導ビデオセグメンテーション(lvs)の課題を検討する。
従来のアルゴリズムは、ビデオ表現を学ぶために3D CNNを採用しており、長期的コンテキストを捉えるのに苦労し、視覚言語的なミスアライメントに苦しむ。
そこで,本研究では,トランスフォーマーアーキテクチャを有限メモリで拡張し,ビデオ全体を効率的な言語表現でクエリする位置決め器(local-global context aware transformer)を提案する。
メモリは、グローバルなビデオコンテンツを永続的に保存するコンポーネントと、ローカルな時間的コンテキストとセグメンテーション履歴を動的に収集するコンポーネントの2つを含むように設計されている。
記憶された局所的グローバルコンテキストと各フレームの特定の内容に基づいて、ロケータは、各フレームに対する適応的クエリベクトルとして表現を階層的に柔軟に理解する。
ベクトルは、対応するフレームにマスク生成をクエリするために使用される。
メモリはリニアタイムの複雑さと一定サイズのメモリでビデオを処理することができ、Transformerスタイルの自己アテンション計算はシーケンス長と2倍にスケールする。
LVSモデルの視覚的グラウンドディング能力を徹底的に検証するために、A2D-Sデータセット上に構築されている新しいLVSデータセットであるA2D-S+をコントリビュートする。
3つのLVSデータセットとA2D-S+の実験は、Locaterが過去の最先端よりも優れていることを示している。
さらに,第3回大規模映像オブジェクトセグメンテーションチャレンジの参照映像オブジェクトセグメンテーショントラックにおいて,ロケータが勝利ソリューションの基盤となる1位を獲得した。
私たちのコードとデータセットは以下の通りです。 We explore the task of language-guided video segmentation (LVS). Previous algorithms mostly adopt 3D CNNs to learn video representation, struggling to capture long-term context and easily suffering from visual-linguistic misalignment. In light of this, we present Locater (local-global context aware Transformer), which augments the Transformer architecture with a finite memory so as to query the entire video with the language expression in an efficient manner. The memory is designed to involve two components -- one for persistently preserving global video content, and one for dynamically gathering local temporal context and segmentation history. Based on the memorized local-global context and the particular content of each frame, Locater holistically and flexibly comprehends the expression as an adaptive query vector for each frame. The vector is used to query the corresponding frame for mask generation. The memory also allows Locater to process videos with linear time complexity and constant size memory, while Transformer-style self-attention computation scales quadratically with sequence length. To thoroughly examine the visual grounding capability of LVS models, we contribute a new LVS dataset, A2D-S+, which is built upon A2D-S dataset but poses increased challenges in disambiguating among similar objects. Experiments on three LVS datasets and our A2D-S+ show that Locater outperforms previous state-of-the-arts. Further, we won the 1st place in the Referring Video Object Segmentation Track of the 3rd Large-scale Video Object Segmentation Challenge, where Locater served as the foundation for the winning solution. Our code and dataset are available at: https://github.com/leonnnop/Locater | 翻訳日:2024-01-22 19:52:24 公開日:2024-01-19 |
# 量子グラフニューラルネットワークに向けて: ego-graph learningアプローチ Towards Quantum Graph Neural Networks: An Ego-Graph Learning Approach ( http://arxiv.org/abs/2201.05158v3 ) ライセンス: Link先を確認 | Xing Ai, Zhihong Zhang, Luzhe Sun, Junchi Yan, Edwin Hancock | (参考訳) 量子機械学習(quantum machine learning)は、量子アルゴリズムと量子コンピューティングを用いた機械学習に取り組むことを目的とした、急速に進化する分野である。
物理量子ビットの欠如とユークリッド空間からヒルベルト空間に実世界のデータをマッピングする効果的な手段のため、これらの手法のほとんどは量子類似性やプロセスシミュレーションに焦点をあてる。
本稿では,ego-graphベースの量子グラフニューラルネットワーク (egoqgnn) と呼ぶ,グラフ構造データのためのハイブリッド量子古典アルゴリズムを提案する。
egoQGNNはテンソル積とユニティ行列表現を用いてGNN理論フレームワークを実装し、必要なモデルパラメータの数を大幅に削減する。
古典的コンピュータによって制御される場合、egoQGNNは、適度な大きさの量子デバイスを用いて入力グラフからエゴグラフを処理することにより、任意の大きさのグラフを調整できる。
このアーキテクチャは、現実世界のデータからヒルベルト空間への新しいマッピングに基づいている。
このマッピングは、データに存在する距離関係を維持し、情報損失を低減する。
実験の結果,提案手法はこれらのモデルと比較して1.68 %のパラメータしか持たない競争状態モデルよりも優れていた。 Quantum machine learning is a fast-emerging field that aims to tackle machine learning using quantum algorithms and quantum computing. Due to the lack of physical qubits and an effective means to map real-world data from Euclidean space to Hilbert space, most of these methods focus on quantum analogies or process simulations rather than devising concrete architectures based on qubits. In this paper, we propose a novel hybrid quantum-classical algorithm for graph-structured data, which we refer to as the Ego-graph based Quantum Graph Neural Network (egoQGNN). egoQGNN implements the GNN theoretical framework using the tensor product and unity matrix representation, which greatly reduces the number of model parameters required. When controlled by a classical computer, egoQGNN can accommodate arbitrarily sized graphs by processing ego-graphs from the input graph using a modestly-sized quantum device. The architecture is based on a novel mapping from real-world data to Hilbert space. This mapping maintains the distance relations present in the data and reduces information loss. Experimental results show that the proposed method outperforms competitive state-of-the-art models with only 1.68\% parameters compared to those models. | 翻訳日:2024-01-22 19:51:54 公開日:2024-01-19 |
# ランダム量子回路における有限時間テレポーテーション相転移 Finite-time teleportation phase transition in random quantum circuits ( http://arxiv.org/abs/2110.06963v3 ) ライセンス: Link先を確認 | Yimu Bao, Maxwell Block and Ehud Altman | (参考訳) ジェネリックユニタリダイナミクスによって進化した量子回路の2つの遠方量子ビットを絡むのにどのくらい時間がかかるのか?
時間進化が2つの無限に分離されたテストキュービットを除く全ての測定で従えば、それらの間の絡み合いは相転移を起こし、有限臨界時間$t_c$でゼロになる。
入力量子ビットから無限遠出力量子ビットへの量子状態のテレポーティングの忠実性は、同じ臨界オンセットを示す。
特に、これらの有限時間遷移は、短距離相互作用2次元ランダムユニタリ回路と十分な長距離相互作用1次元回路で起こる。
位相遷移は、ランダムな連続時間発展を有効スピンハミルトニアンの有限温度温度温度状態にマッピングすることで理解される。
この枠組みでは、t>t_c$の時に2つの遠方量子ビット間の絡み合いは、臨界温度以下の長距離強磁性スピン相関の出現に対応する。
これらの予測をクリフォード回路の数値シミュレーションを用いて検証し,既存プラットフォームにおける量子シミュレーションの実現可能性を提案する。 How long does it take to entangle two distant qubits in a quantum circuit evolved by generic unitary dynamics? We show that if the time evolution is followed by measurements of all but two infinitely separated test qubits, then the entanglement between them can undergo a phase transition and become nonzero at a finite critical time $t_c$. The fidelity of teleporting a quantum state from an input qubit to an infinitely distant output qubit shows the same critical onset. Specifically, these finite-time transitions occur in short-range interacting two-dimensional random unitary circuits and in sufficiently long-range interacting one-dimensional circuits. The phase transition is understood by mapping the random continuous-time evolution to a finite-temperature thermal state of an effective spin Hamiltonian, where the inverse temperature equals the evolution time in the circuit. In this framework, the entanglement between two distant qubits at times $t>t_c$ corresponds to the emergence of long-range ferromagnetic spin correlations below the critical temperature. We verify these predictions using numerical simulation of Clifford circuits and propose potential realizations in existing platforms for quantum simulation. | 翻訳日:2024-01-22 19:50:44 公開日:2024-01-19 |
# ビデオオブジェクトセグメンテーション参照のためのトップダウン視点からのクロスモーダルインタラクションの再考 Rethinking Cross-modal Interaction from a Top-down Perspective for Referring Video Object Segmentation ( http://arxiv.org/abs/2106.01061v2 ) ライセンス: Link先を確認 | Chen Liang, Yu Wu, Tianfei Zhou, Wenguan Wang, Zongxin Yang, Yunchao Wei and Yi Yang | (参考訳) ビデオオブジェクトセグメンテーション(RVOS)は、ビデオオブジェクトを自然言語参照のガイダンスでセグメント化することを目的としている。
従来の手法は通常、画像格子上の言語参照を直接接地することでrvoに取り組む。
このようなボトムアップ戦略は、オブジェクトレベルの手がかりを探索するのに失敗し、容易に劣る結果につながる。
この作業では、代わりに2段階のトップダウンのRVOSソリューションを提案しました。
まず、複数のサンプルフレームから検出されたオブジェクトマスクをビデオ全体に伝播させることで、オブジェクトトラッカーの徹底的なセットを構築する。
第2に,インスタンスレベルの視覚的関係とクロスモーダルインタラクションを同時にかつ効率的にモデル化する,トランスフォーマティブベースのトラックレット言語グラウンドングモジュールを提案する。
私たちのモデルは、CVPR2021 Referring Youtube-VOS Challengeで1位です。 Referring video object segmentation (RVOS) aims to segment video objects with the guidance of natural language reference. Previous methods typically tackle RVOS through directly grounding linguistic reference over the image lattice. Such bottom-up strategy fails to explore object-level cues, easily leading to inferior results. In this work, we instead put forward a two-stage, top-down RVOS solution. First, an exhaustive set of object tracklets is constructed by propagating object masks detected from several sampled frames to the entire video. Second, a Transformer-based tracklet-language grounding module is proposed, which models instance-level visual relations and cross-modal interactions simultaneously and efficiently. Our model ranks first place on CVPR2021 Referring Youtube-VOS challenge. | 翻訳日:2024-01-22 19:50:03 公開日:2024-01-19 |
# ClawCraneNet: テキストベースのビデオセグメンテーションのためのオブジェクトレベルの関係を活用する ClawCraneNet: Leveraging Object-level Relation for Text-based Video Segmentation ( http://arxiv.org/abs/2103.10702v4 ) ライセンス: Link先を確認 | Chen Liang, Yu Wu, Yawei Luo and Yi Yang | (参考訳) テキストベースのビデオセグメンテーションは、ビデオ内の自然言語参照オブジェクトをセグメンテーションする難しいタスクである。
基本的にはセマンティック理解ときめ細かいビデオ理解が必要です。
既存の手法はボトムアップ方式でセグメンテーションモデルに言語表現を導入しており、これは単にConvNetsの局所受容領域内で視覚と言語間の相互作用を実行するだけである。
自然言語/参照表現の記述論理とは対照的な部分的観察によって,モデルが地域レベルの関係をほとんど構築できないため,このような相互作用は実現できないと主張する。
実際、人々は通常、他のオブジェクトとの関係を使ってターゲットオブジェクトを記述するが、ビデオ全体を見ることなく簡単には理解できない。
この問題に対処するために、言語指導でオブジェクトを人間のセグメント化する方法を模倣して、新しいトップダウンアプローチを導入する。
まずビデオ中のすべての候補オブジェクトを特定し、それらのハイレベルオブジェクト間の関係を解析することで参照オブジェクトを選択する。
3種類のオブジェクトレベルの関係を精密な関係理解,すなわち位置関係,テキスト誘導意味関係,時間関係の3種類について検討した。
a2d文とj-hmdb文を広範囲に実験した結果,本手法は最先端手法を大差で上回った。
定性的な結果は、より説明しやすいことも示しています。 Text-based video segmentation is a challenging task that segments out the natural language referred objects in videos. It essentially requires semantic comprehension and fine-grained video understanding. Existing methods introduce language representation into segmentation models in a bottom-up manner, which merely conducts vision-language interaction within local receptive fields of ConvNets. We argue that such interaction is not fulfilled since the model can barely construct region-level relationships given partial observations, which is contrary to the description logic of natural language/referring expressions. In fact, people usually describe a target object using relations with other objects, which may not be easily understood without seeing the whole video. To address the issue, we introduce a novel top-down approach by imitating how we human segment an object with the language guidance. We first figure out all candidate objects in videos and then choose the refereed one by parsing relations among those high-level objects. Three kinds of object-level relations are investigated for precise relationship understanding, i.e., positional relation, text-guided semantic relation, and temporal relation. Extensive experiments on A2D Sentences and J-HMDB Sentences show our method outperforms state-of-the-art methods by a large margin. Qualitative results also show our results are more explainable. | 翻訳日:2024-01-22 19:49:50 公開日:2024-01-19 |
# ディープニューラルネットワークを用いた逆ラジオスペクトログラム探索アルゴリズム A Deep Neural Network Based Reverse Radio Spectrogram Search Algorithm ( http://arxiv.org/abs/2302.13854v2 ) ライセンス: Link先を確認 | Peter Xiangyuan Ma, Steve Croft, Chris Lintott, Andrew P. V. Siemion | (参考訳) 現代の電波天文学機器は膨大な量のデータを生成し、より困難な電波干渉(RFI)環境はより高度なRFI拒絶アルゴリズムを必要とする。
過渡性と技術記号の探索という「干し草の山」の性質は、興味のある信号に固有の性質があるかどうかを判断する手法を開発するか、より大規模なRFIの一部であるかを決定する必要がある。
過去には、このベッティングには膨大な数の信号の面倒な手作業による検査が必要だった。
本稿では,無線スペクトログラムデータに注目されるような信号を探索する,高速でモジュラーなディープラーニングアルゴリズムを提案する。
まず,エネルギー検出アルゴリズムによって返される信号に対して,B値オートエンコーダを訓練した。
次に、従来のTransformerアーキテクチャから埋め込みメタデータに位置埋め込み層を適応させ、周波数ベースの埋め込みを実演した。
次に,B-Variational Autoencoder のエンコーダ成分を用いて,小型 (約715,Hz,周波数ビンあたり2.79Hz) の窓をラジオスペクトログラムに抽出した。
提案手法では,類似した特徴量を持つ最上位候補を生成するために,信号群(検索項目の符号化特徴)上で与えられた問合せ(興味の符号化信号)の探索を行う。
我々は,元のラジオスペクトログラムデータのみを考慮し,類似した外観の信号の検索に成功した。
このアルゴリズムは、テクノシグナチャサーチにおける興味ある信号の検証の効率を向上させるために使用できるが、大規模な天文学的データセットにおける「見た目」信号のより広範な検索にも適用できる。 Modern radio astronomy instruments generate vast amounts of data, and the increasingly challenging radio frequency interference (RFI) environment necessitates ever-more sophisticated RFI rejection algorithms. The "needle in a haystack" nature of searches for transients and technosignatures requires us to develop methods that can determine whether a signal of interest has unique properties, or is a part of some larger set of pernicious RFI. In the past, this vetting has required onerous manual inspection of very large numbers of signals. In this paper we present a fast and modular deep learning algorithm to search for lookalike signals of interest in radio spectrogram data. First, we trained a B-Variational Autoencoder on signals returned by an energy detection algorithm. We then adapted a positional embedding layer from classical Transformer architecture to a embed additional metadata, which we demonstrate using a frequency-based embedding. Next we used the encoder component of the B-Variational Autoencoder to extract features from small (~ 715,Hz, with a resolution of 2.79Hz per frequency bin) windows in the radio spectrogram. We used our algorithm to conduct a search for a given query (encoded signal of interest) on a set of signals (encoded features of searched items) to produce the top candidates with similar features. We successfully demonstrate that the algorithm retrieves signals with similar appearance, given only the original radio spectrogram data. This algorithm can be used to improve the efficiency of vetting signals of interest in technosignature searches, but could also be applied to a wider variety of searches for "lookalike" signals in large astronomical datasets. | 翻訳日:2024-01-22 19:42:39 公開日:2024-01-19 |
# mcwdst:ソーシャルメディアにおけるリアルタイム偽ニュース除去のための最小コスト重み付き有向スパンディングツリーアルゴリズム MCWDST: a Minimum-Cost Weighted Directed Spanning Tree Algorithm for Real-Time Fake News Mitigation in Social Media ( http://arxiv.org/abs/2302.12190v2 ) ライセンス: Link先を確認 | Ciprian-Octavian Truic\u{a} and Elena-Simona Apostol and Radu-C\u{a}t\u{a}lin Nicolescu and Panagiotis Karras | (参考訳) インターネットアクセスとハンドヘルドデバイスの普及により、ソーシャルメディアはかつての新聞とよく似た力を持つようになった。
人々はソーシャルメディアで手頃な情報を探し、それを数秒で手に入れることができる。
しかし、この利便性には危険が伴う。ユーザーは自由に好きなものを投稿でき、コンテンツはその真実性に関わらず、長期間オンラインに留まることができる。
偽ニュースとしても知られる不正な情報を検出する必要性が生じる。
本稿では,フェイクニュースを正確に検出し,リアルタイムに拡散するネットワークノードを免疫するエンドツーエンドソリューションを提案する。
フェイクニュースを検出するために,畳み込み層と双方向LSTM層を利用する2つの新しいスタックディープラーニングアーキテクチャを提案する。
偽ニュースの拡散を緩和するため,(1)検出ノードに対する最小コストの重み付き有向木を構築するリアルタイムネットワーク認識戦略を提案し,(2)新しいランキング関数を用いて有害性を評価して,その木内のノードを免疫する。
実世界の5つのデータセットにソリューションの有効性を示す。 The widespread availability of internet access and handheld devices confers to social media a power similar to the one newspapers used to have. People seek affordable information on social media and can reach it within seconds. Yet this convenience comes with dangers; any user may freely post whatever they please and the content can stay online for a long period, regardless of its truthfulness. A need to detect untruthful information, also known as fake news, arises. In this paper, we present an end-to-end solution that accurately detects fake news and immunizes network nodes that spread them in real-time. To detect fake news, we propose two new stack deep learning architectures that utilize convolutional and bidirectional LSTM layers. To mitigate the spread of fake news, we propose a real-time network-aware strategy that (1) constructs a minimum-cost weighted directed spanning tree for a detected node, and (2) immunizes nodes in that tree by scoring their harmfulness using a novel ranking function. We demonstrate the effectiveness of our solution on five real-world datasets. | 翻訳日:2024-01-22 19:42:09 公開日:2024-01-19 |
# 大規模タンパク質接触予測モデルからの知識をデータスカースRNA接触予測タスクに転送できる Knowledge from Large-Scale Protein Contact Prediction Models Can Be Transferred to the Data-Scarce RNA Contact Prediction Task ( http://arxiv.org/abs/2302.06120v3 ) ライセンス: Link先を確認 | Yiren Jian and Chongyang Gao and Chen Zeng and Yunjie Zhao and Soroush Vosoughi | (参考訳) RNAの機能はその構造によって決定されるが、多くの生物学的活性において重要な役割を果たす。
RNA配列の各ヌクレオチド間の対構造近接の予測は、RNAの構造情報を特徴づけることができる。
歴史的に、この問題はエキスパートエンジニアリング機能を使用して機械学習モデルに取り組み、ラベル付きデータセットの不足に基づいて訓練されてきた。
ここでは,タンパク質共進化トランスフォーマーを用いた深層ニューラルネットワークから得られた知識をrnaコンタクト予測タスクに転送できることを見いだす。
タンパク質のデータセットはRNA接触予測よりも桁違いに大きいため、我々の発見とその後のフレームワークはデータ不足のボトルネックを大幅に減らした。
公開タンパク質モデルを用いた転写学習によるRNA接触予測が大幅に改善されていることを確認した。
以上の結果から,タンパク質の構造パターンはRNAに転移し,新たな研究の道を開く可能性が示唆された。 RNA, whose functionality is largely determined by its structure, plays an important role in many biological activities. The prediction of pairwise structural proximity between each nucleotide of an RNA sequence can characterize the structural information of the RNA. Historically, this problem has been tackled by machine learning models using expert-engineered features and trained on scarce labeled datasets. Here, we find that the knowledge learned by a protein-coevolution Transformer-based deep neural network can be transferred to the RNA contact prediction task. As protein datasets are orders of magnitude larger than those for RNA contact prediction, our findings and the subsequent framework greatly reduce the data scarcity bottleneck. Experiments confirm that RNA contact prediction through transfer learning using a publicly available protein model is greatly improved. Our findings indicate that the learned structural patterns of proteins can be transferred to RNAs, opening up potential new avenues for research. | 翻訳日:2024-01-22 19:40:56 公開日:2024-01-19 |
# im-iad:工業用画像異常検出ベンチマーク IM-IAD: Industrial Image Anomaly Detection Benchmark in Manufacturing ( http://arxiv.org/abs/2301.13359v4 ) ライセンス: Link先を確認 | Guoyang Xie, Jinbao Wang, Jiaqi Liu, Jiayi Lyu, Yong Liu, Chengjie Wang, Feng Zheng, Yaochu Jin | (参考訳) 画像異常検出(英: Image Anomaly Detection, IAD)は、産業生産におけるコンピュータビジョンの課題である。
近年、多くの高度なアルゴリズムが報告されているが、その性能は様々なIM設定でかなり低下している。
IMベンチマークの統一が欠如していることは、実世界のアプリケーションにおけるIDAメソッドの開発と利用を妨げることを認識している。
さらに,一様ベンチマークを使わずにIADアルゴリズムを解析することは困難である。
この問題を解決するために,本研究では,様々なレベルの監視(教師なしと教師なし),学習パラダイム(ショットショット,連続ラベル,ノイズラベル),効率(メモリ使用量と推論速度)を含む,アルゴリズムの性能を評価するための一様imベンチマークを提案する。
次に,一様設定の7つの主要データセット上の19のアルゴリズムを含む総合的画像異常検出ベンチマーク(im-iad)を構築する。
IM-IADに関する大規模な実験(17,017件)は、IADアルゴリズムの再設計や選択に関する詳細な洞察を提供する。
さらに、IM-IADベンチマークは既存のアルゴリズムに挑戦し、今後の研究方向性を提案する。
再現性とアクセシビリティを向上させるため、IM-IADのソースコードはhttps://github.com/M-3LAB/IM-IAD.comにアップロードされる。 Image anomaly detection (IAD) is an emerging and vital computer vision task in industrial manufacturing (IM). Recently, many advanced algorithms have been reported, but their performance deviates considerably with various IM settings. We realize that the lack of a uniform IM benchmark is hindering the development and usage of IAD methods in real-world applications. In addition, it is difficult for researchers to analyze IAD algorithms without a uniform benchmark. To solve this problem, we propose a uniform IM benchmark, for the first time, to assess how well these algorithms perform, which includes various levels of supervision (unsupervised versus fully supervised), learning paradigms (few-shot, continual and noisy label), and efficiency (memory usage and inference speed). Then, we construct a comprehensive image anomaly detection benchmark (IM-IAD), which includes 19 algorithms on seven major datasets with a uniform setting. Extensive experiments (17,017 total) on IM-IAD provide in-depth insights into IAD algorithm redesign or selection. Moreover, the proposed IM-IAD benchmark challenges existing algorithms and suggests future research directions. To foster reproducibility and accessibility, the source code of IM-IAD is uploaded on the website, https://github.com/M-3LAB/IM-IAD. | 翻訳日:2024-01-22 19:40:27 公開日:2024-01-19 |
# カメラによる3次元物体検出の逆ロバスト性について On the Adversarial Robustness of Camera-based 3D Object Detection ( http://arxiv.org/abs/2301.10766v2 ) ライセンス: Link先を確認 | Shaoyuan Xie, Zichao Li, Zeyu Wang, Cihang Xie | (参考訳) 近年,低計算コストで高性能な3d物体検出技術が注目されている。
しかし、特に自動運転のような安全クリティカルな分野への展開を考える場合、敵対的攻撃に対するこれらの方法の堅牢性は十分に検討されていない。
本研究では,種々の対向条件下での先行カメラによる3次元物体検出手法の堅牢性に関する総合的な調査を行った。
我々はこれらのモデルのレジリエンスを、ホワイトボックスとブラックボックスという2つの攻撃条件下で体系的に分析し、分類とローカライゼーションの2つの主要な目的に焦点を当てた。
さらに、ピクセルベースとパッチベースの2種類の逆攻撃手法についても検討する。
私たちの実験は4つの興味深い発見をもたらします
(a)鳥眼ビューに基づく表現は、局所攻撃に対して強い強靭性を示す。
b) 深さ推定のないアプローチは、強い強靭性を示す可能性がある。
(c)正確な深さ推定は、深さ推定に基づく手法の堅牢性を効果的に改善する。
(d)マルチフレームベニグインプットを組み込むことで、敵攻撃を効果的に軽減することができる。
今後のカメラベースの物体検出モデルの開発において,本研究の成果が促進されることを願っている。 In recent years, camera-based 3D object detection has gained widespread attention for its ability to achieve high performance with low computational cost. However, the robustness of these methods to adversarial attacks has not been thoroughly examined, especially when considering their deployment in safety-critical domains like autonomous driving. In this study, we conduct the first comprehensive investigation of the robustness of leading camera-based 3D object detection approaches under various adversarial conditions. We systematically analyze the resilience of these models under two attack settings: white-box and black-box; focusing on two primary objectives: classification and localization. Additionally, we delve into two types of adversarial attack techniques: pixel-based and patch-based. Our experiments yield four interesting findings: (a) bird's-eye-view-based representations exhibit stronger robustness against localization attacks; (b) depth-estimation-free approaches have the potential to show stronger robustness; (c) accurate depth estimation effectively improves robustness for depth-estimation-based methods; (d) incorporating multi-frame benign inputs can effectively mitigate adversarial attacks. We hope our findings can steer the development of future camera-based object detection models with enhanced adversarial robustness. | 翻訳日:2024-01-22 19:39:39 公開日:2024-01-19 |
# 波動関数の特殊再正規化による連続MERAの生成 Exact Renormalization of Wave Functionals yields Continuous MERA ( http://arxiv.org/abs/2301.09669v2 ) ライセンス: Link先を確認 | Samuel Goldman, Nima Lashkari, Robert G. Leigh, Mudassir Moosa | (参考訳) 正確な再正規化群(ERG)は場の理論の形式的性質を理解する強力なツールである。
一般化されたERGスキームを波動関数の流れに適用することにより、ガウス連続多スケール再正規化アンサツェ(cMERA)のクラスを含む多数の連続ユニタリネットワークが得られる。
これらの一般化波動関数ERGスキームの新たな特徴は、紫外線状態の絡み合い構造を劇的に変化させる分散関係の修正を可能にすることである。
我々の構成を通して、cMERAはより基本的な「ミクロ」原理から導出できることを示し、これは経路積分独立の通常のRG原理に相当し、場の理論の量子状態に適当に適合する。
このような原理の確立は、自由場体制を超えてcMERAを探索し、連続体に内在的に絡み合う再正規化の性質を理解するための道を開くことができる。 The exact renormalization group (ERG) is a powerful tool for understanding the formal properties of field theories. By adapting generalized ERG schemes to the flow of wavefunctionals, we obtain a large class of continuous unitary networks, a special case of which includes a class of Gaussian continuous Multi-scale Renormalization Ansatzes (cMERAs). The novel feature of these generalized wavefunctional ERG schemes is allowing for modifications of the dispersion relation, which drastically changes the entanglement structure of the ultraviolet states. Through our construction, we demonstrate that cMERA can be derived from a more fundamental "microscopic" principle, which amounts to the usual RG principle of path integral independence, suitably adapted to quantum states of the field theory. The establishment of such a principle may provide a path forward for exploring cMERA beyond the free field regime, and for understanding the nature of entanglement renormalization intrinsically in the continuum. | 翻訳日:2024-01-22 19:39:24 公開日:2024-01-19 |
# 生成逆数ネットワークにおける圧縮モード崩壊のための分布フィッティング Distribution Fitting for Combating Mode Collapse in Generative Adversarial Networks ( http://arxiv.org/abs/2212.01521v2 ) ライセンス: Link先を確認 | Yanxiang Gong, Zhiwei Xie, Guozhen Duan, Zheng Ma, Mei Xie | (参考訳) モード崩壊は生成的敵ネットワークの重要な未解決問題である。
本研究では,新しい観点からモード崩壊の原因について検討する。
トレーニングプロセスにおける非一様サンプリングのため、サンプリングデータではいくつかのサブディストリビューションを見逃すことがある。
その結果、生成した分布が実分布と異なる場合でも、GAN目標が最小値を達成することができる。
この問題に対処するために, ペナルティ項付きグローバル分散フィッティング(GDF)法を提案し, 生成したデータ分布を限定する。
生成した分布が実分布と異なる場合、gdfは目標が最小値に達するのを難しくするが、元のグローバル最小値を変更することはない。
また,実データ全体の到達不能な状況に対処するため,ldf(local distribution fitting)方式を提案する。
いくつかのベンチマーク実験では, GDF と LDF の有効性と競争性能が示された。 Mode collapse is a significant unsolved issue of generative adversarial networks. In this work, we examine the causes of mode collapse from a novel perspective. Due to the nonuniform sampling in the training process, some sub-distributions may be missed when sampling data. As a result, even when the generated distribution differs from the real one, the GAN objective can still achieve the minimum. To address the issue, we propose a global distribution fitting (GDF) method with a penalty term to confine the generated data distribution. When the generated distribution differs from the real one, GDF will make the objective harder to reach the minimal value, while the original global minimum is not changed. To deal with the circumstance when the overall real data is unreachable, we also propose a local distribution fitting (LDF) method. Experiments on several benchmarks demonstrate the effectiveness and competitive performance of GDF and LDF. | 翻訳日:2024-01-22 19:38:43 公開日:2024-01-19 |
# 振り付け: Imagination における学習と適応 Choreographer: Learning and Adapting Skills in Imagination ( http://arxiv.org/abs/2211.13350v2 ) ライセンス: Link先を確認 | Pietro Mazzaglia, Tim Verbelen, Bart Dhoedt, Alexandre Lacoste, Sai Rajeswar | (参考訳) 教師なしのスキル学習は、外部の監督なしに行動の豊富なレパートリーを学習することを目的としており、人工エージェントに環境を制御および影響する能力を提供する。
しかし、適切な知識や探索がなければ、スキルは環境の限られた領域のみをコントロールし、適用性を制限することができる。
さらに、データ効率の良い方法でダウンストリームタスクに適応するために、学習スキルの振る舞いをどのように活用するかは不明だ。
本稿では,世界モデルを用いて想像力の習得と適応を行うモデルベースエージェントであるchoreographerを提案する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
適応中、エージェントはメタコントローラを使用して、想像力に並行してそれらを配置することで学習スキルを効果的に評価し、適応する。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
このスキルは、urlベンチマークで示されているように、ダウンストリームタスクに効果的に適応するために使用できます。
DMC SuiteとMeta-Worldの目標達成タスクで示されているように、学習したスキルは環境を徹底的に探求し、疎い報酬をより頻繁に見つけます。
webサイトとコード: https://skillchoreographer.github.io/ Unsupervised skill learning aims to learn a rich repertoire of behaviors without external supervision, providing artificial agents with the ability to control and influence the environment. However, without appropriate knowledge and exploration, skills may provide control only over a restricted area of the environment, limiting their applicability. Furthermore, it is unclear how to leverage the learned skill behaviors for adapting to downstream tasks in a data-efficient manner. We present Choreographer, a model-based agent that exploits its world model to learn and adapt skills in imagination. Our method decouples the exploration and skill learning processes, being able to discover skills in the latent state space of the model. During adaptation, the agent uses a meta-controller to evaluate and adapt the learned skills efficiently by deploying them in parallel in imagination. Choreographer is able to learn skills both from offline data, and by collecting data simultaneously with an exploration policy. The skills can be used to effectively adapt to downstream tasks, as we show in the URL benchmark, where we outperform previous approaches from both pixels and states inputs. The learned skills also explore the environment thoroughly, finding sparse rewards more frequently, as shown in goal-reaching tasks from the DMC Suite and Meta-World. Website and code: https://skillchoreographer.github.io/ | 翻訳日:2024-01-22 19:38:20 公開日:2024-01-19 |
# PoseScript: 3Dの人間と自然言語のリンク PoseScript: Linking 3D Human Poses and Natural Language ( http://arxiv.org/abs/2210.11795v2 ) ライセンス: Link先を確認 | Ginger Delmas, Philippe Weinzaepfel, Thomas Lucas, Francesc Moreno-Noguer, Gr\'egory Rogez | (参考訳) 自然言語は、画像キャプション、視覚的質問応答、モーダル検索など、多くのコンピュータビジョンアプリケーションにおいて重要な役割を担い、きめ細かい意味情報を提供する。
残念ながら、人間のポーズは人間の理解の鍵であるが、現在の3D人間のポーズデータセットには詳細な言語記述がない。
この問題に対処するため、私たちはPoseScriptデータセットを導入しました。
このデータセットは、AMASSから6万個以上の人間のポーズと、体の部分とその空間的関係に関する豊富な人間による記述をペアリングする。
さらに,データセットのサイズを,データ・ハングリー学習アルゴリズムと互換性のあるスケールに拡大するために,与えられた3次元キーポイントから自然言語で自動合成記述を生成する精巧なキャプションプロセスを提案する。
このプロセスは、3Dキーポイント上の単純だがジェネリックなルールのセットを使用して、"posecodes"と呼ばれる低レベルのポーズ情報を抽出する。
これらのポーズコードは、構文規則を用いて高レベルのテキスト記述に結合される。
自動アノテーションでは、利用可能なデータの量は100kに増加し、人間のキャプションを微調整するための深いモデルを効果的に事前訓練することができる。
アノテーション付きポーズの可能性を示すために,PoseScriptデータセットを利用する3つのマルチモーダル学習タスクを提案する。
まず,3次元ポーズとテキスト記述を共同埋め込み空間にマッピングし,大規模データセットから関連するポーズを相互に検索するパイプラインを開発する。
次に、3dポーズを生成するテキスト条件付きモデルのベースラインを確立する。
第3に,ポーズ記述を生成するための学習プロセスを提案する。
これらの応用は、様々なタスクにおいて注釈付きポーズの汎用性と有用性を示し、今後の研究の道を開くものである。 Natural language plays a critical role in many computer vision applications, such as image captioning, visual question answering, and cross-modal retrieval, to provide fine-grained semantic information. Unfortunately, while human pose is key to human understanding, current 3D human pose datasets lack detailed language descriptions. To address this issue, we have introduced the PoseScript dataset. This dataset pairs more than six thousand 3D human poses from AMASS with rich human-annotated descriptions of the body parts and their spatial relationships. Additionally, to increase the size of the dataset to a scale that is compatible with data-hungry learning algorithms, we have proposed an elaborate captioning process that generates automatic synthetic descriptions in natural language from given 3D keypoints. This process extracts low-level pose information, known as "posecodes", using a set of simple but generic rules on the 3D keypoints. These posecodes are then combined into higher level textual descriptions using syntactic rules. With automatic annotations, the amount of available data significantly scales up (100k), making it possible to effectively pretrain deep models for finetuning on human captions. To showcase the potential of annotated poses, we present three multi-modal learning tasks that utilize the PoseScript dataset. Firstly, we develop a pipeline that maps 3D poses and textual descriptions into a joint embedding space, allowing for cross-modal retrieval of relevant poses from large-scale datasets. Secondly, we establish a baseline for a text-conditioned model generating 3D poses. Thirdly, we present a learned process for generating pose descriptions. These applications demonstrate the versatility and usefulness of annotated poses in various tasks and pave the way for future research in the field. | 翻訳日:2024-01-22 19:37:56 公開日:2024-01-19 |
# $\ell_0$-Normスペーサ制約を用いた低ランク直交非負行列分解のための新しい最大エントロピー駆動手法 A Novel Maximum-Entropy-Driven Technique for Low-Rank Orthogonal Nonnegative Matrix Factorization with $\ell_0$-Norm sparsity Constraint ( http://arxiv.org/abs/2210.02672v3 ) ライセンス: Link先を確認 | Salar Basiri and Srinivasa Salapaka | (参考訳) データ駆動制御と機械学習において、一般的な要件は、大きな行列を特定の空間レベルを持つ小さな低ランクの要素に分解することである。
本稿では直交非負行列分解(ONMF)問題に対する革新的な解を提案する。
目的は2つの低ランク非負行列を用いて入力データを近似し、直交性と$\ell_0$-normスペーサ性制約を両立させることである。
提案する最大エントロピー原理に基づく枠組みは, 特徴量や混合行列の直交性とスパース性を確保しつつ, 両者の非負性を維持している。
さらに、この方法論は、ONMFにとって重要なハイパーパラメータである `true' の根底にある多くの特徴を定量的に決定する。
合成および標準データセットに関する実験的評価は、既存のアプローチと比較してスパース性、直交性、計算速度において、この手法が優れていることを浮き彫りにしている。
特に,提案手法は文献と同等あるいは改善された再構成誤差を実現する。 In data-driven control and machine learning, a common requirement involves breaking down large matrices into smaller, low-rank factors that possess specific levels of sparsity. This paper introduces an innovative solution to the orthogonal nonnegative matrix factorization (ONMF) problem. The objective is to approximate input data by using two low-rank nonnegative matrices, adhering to both orthogonality and $\ell_0$-norm sparsity constraints. the proposed maximum-entropy-principle based framework ensures orthogonality and sparsity of features or the mixing matrix, while maintaining nonnegativity in both. Additionally, the methodology offers a quantitative determination of the ``true'' number of underlying features, a crucial hyperparameter for ONMF. Experimental evaluation on synthetic and a standard datasets highlights the method's superiority in terms of sparsity, orthogonality, and computational speed compared to existing approaches. Notably, the proposed method achieves comparable or improved reconstruction errors in line with the literature. | 翻訳日:2024-01-22 19:37:30 公開日:2024-01-19 |
# ファウショット行動認識のための階層的構成表現 Hierarchical Compositional Representations for Few-shot Action Recognition ( http://arxiv.org/abs/2208.09424v3 ) ライセンス: Link先を確認 | Changzhen Li, Jie Zhang, Shuzhe Wu, Xin Jin, and Shiguang Shan | (参考訳) 近年、知的監視と人間とコンピュータのインタラクションにおける包括的かつ実践的な応用により、アクション認識がますます注目を集めている。
しかし、少数のアクション認識は十分に研究されておらず、データ不足のため依然として挑戦的である。
本稿では,新しい階層型合成表現(HCR)学習手法を提案する。
具体的には,階層的クラスタリングを注意深く設計し,さらに細粒度の空間的注意的サブアクション(sas-actions)に分解することで,複雑なアクションを複数のサブアクションに分割する。
基本クラスと新規クラスの間には大きな違いがあるが、サブアクションやSASアクションで同様のパターンを共有することができる。
さらに,輸送問題におけるアースモーバー距離を,サブアクション表現の観点からビデオサンプル間の類似度を測定するために採用する。
サブアクション間の最適なマッチングフローを距離メートル法として計算し、きめ細かいパターンを比較するのに好適である。
広範な実験により, hmdb51, ucf101およびkineticsデータセットの最先端の結果が得られた。 Recently action recognition has received more and more attention for its comprehensive and practical applications in intelligent surveillance and human-computer interaction. However, few-shot action recognition has not been well explored and remains challenging because of data scarcity. In this paper, we propose a novel hierarchical compositional representations (HCR) learning approach for few-shot action recognition. Specifically, we divide a complicated action into several sub-actions by carefully designed hierarchical clustering and further decompose the sub-actions into more fine-grained spatially attentional sub-actions (SAS-actions). Although there exist large differences between base classes and novel classes, they can share similar patterns in sub-actions or SAS-actions. Furthermore, we adopt the Earth Mover's Distance in the transportation problem to measure the similarity between video samples in terms of sub-action representations. It computes the optimal matching flows between sub-actions as distance metric, which is favorable for comparing fine-grained patterns. Extensive experiments show our method achieves the state-of-the-art results on HMDB51, UCF101 and Kinetics datasets. | 翻訳日:2024-01-22 19:37:12 公開日:2024-01-19 |
# キャビティマグノメカニクスにおける量子増強メトロロジー Quantum-Enhanced Metrology in Cavity Magnomechanics ( http://arxiv.org/abs/2305.08045v2 ) ライセンス: Link先を確認 | Qing-Kun Wan, Hai-Long Shi, Xi-Wen Guan | (参考訳) マグノンは、基本的な準粒子が初等スピン励起で現れ、情報符号化と処理における量子技術革新に大きな可能性を秘めている。
ここでは, 空洞磁場が弱磁場を感知するのに対して, 空洞磁場が弱磁場の精密測定を行うような, 実験的に実現可能なキャビティマグノメカニカルシステムに基づくメトロロジースキームにおいて, 絡み合いの微妙な役割を見出す。
フィッシャー情報と絡み合いの正確な関係を確立することにより,弱いカップリングの場合,測定精度はハイゼンベルク限界に達するが,量子臨界性は強いカップリングの場合の測定精度を高めることができることを示した。
特に,マグノンと光子の絡み合いは動的符号化過程において重要であるが,測定過程におけるそのような絡み合いの存在は,最終的な測定精度を劇的に低下させる。 Magnons, as fundamental quasiparticles emerged in elementary spin excitations, hold a big promise for innovating quantum technologies in information coding and processing. Here we discover subtle roles of entanglement in a metrological scheme based on an experimentally feasible cavity magnomechanical system, where the magnons are responsible for sensing a weak magnetic field whereas the cavity field carries out a precision measurement of the weak field. By establishing exact relations between the Fisher information and entanglement, we show that for the weak coupling case the measurement precision can reach the Heisenberg limit, whereas quantum criticality enables us to enhance measurement precision for the strong coupling case. In particular, we also find that the entanglement between magnons and photons is of crucial importance during the dynamical encoding process, but the presence of such an entanglement in the measurement process dramatically reduces the final measurement precision. | 翻訳日:2024-01-22 19:30:34 公開日:2024-01-19 |
# ニューラルネットワークによる暗黒物質ハロ密度分布の解明 Explaining dark matter halo density profiles with neural networks ( http://arxiv.org/abs/2305.03077v2 ) ライセンス: Link先を確認 | Luisa Lucie-Smith, Hiranya V. Peiris and Andrew Pontzen | (参考訳) 説明可能なニューラルネットワークを用いて、暗黒物質ハロの進化史と密度プロファイルを結びつける。
ネットワークは低次元表現における密度プロファイルの変化の独立な要因を捉え、相互情報を用いて物理的に解釈する。
ハロスの進化に関する事前の知識がなければ、ネットワークは初期の組立と内部プロファイルの間の既知の関係を回復し、ウイルス半径を超えるプロファイルが最新の質量蓄積率を計測する単一のパラメータによって記述されることを発見する。
この結果は、複雑な天体物理学データセットにおける機械による科学的発見の可能性を示している。 We use explainable neural networks to connect the evolutionary history of dark matter halos with their density profiles. The network captures independent factors of variation in the density profiles within a low-dimensional representation, which we physically interpret using mutual information. Without any prior knowledge of the halos' evolution, the network recovers the known relation between the early time assembly and the inner profile, and discovers that the profile beyond the virial radius is described by a single parameter capturing the most recent mass accretion rate. The results illustrate the potential for machine-assisted scientific discovery in complicated astrophysical datasets. | 翻訳日:2024-01-22 19:30:17 公開日:2024-01-19 |
# DISにおけるプロトン内部の最大絡み合いの発症の予測 Probing the onset of maximal entanglement inside the proton in diffractive DIS ( http://arxiv.org/abs/2305.03069v2 ) ライセンス: Link先を確認 | Martin Hentschinski, Dmitri E. Kharzeev, Krzysztof Kutak, Zhoudunming Tu | (参考訳) 小さなbjorken $x$、あるいは同等に高エネルギーでは、ハドロンはクォークとグルーオンの最大に絡み合った状態を表すと提案されている。
この予想は電子-陽子衝突型加速器HERAの最小アクセス可能な$x$の実験データと一致している。
本稿では,Diffractive Deep Inelastic Scattering を用いて,陽子内部の最大エンタングルメントの開始について検討する。
HERAのH1コラボレーションによって収集されたデータは、最大エンタングルメント状態への遷移を探索することができる。
エンタングルメントエントロピーを最終状態ハドロンのエントロピーに関連付けることにより、ほぼ極大なエントロピー状態の存在を示す漸近展開と同様に、正確なエントロピー公式を用いたH1データとの良好な一致を見出す。
最後に、Electron Ion Colliderにおける今後の機会について論じる。 It has been proposed that at small Bjorken $x$, or equivalently at high energy, hadrons represent maximally entangled states of quarks and gluons. This conjecture is in accord with experimental data from the electron-proton collider HERA at the smallest accessible $x$. In this Letter, we propose to study the onset of the maximal entanglement inside the proton using Diffractive Deep Inelastic Scattering. It is shown that the data collected by the H1 Collaboration at HERA allows to probe the transition to the maximal entanglement regime. By relating the entanglement entropy to the entropy of final state hadrons, we find a good agreement with the H1 data using both the exact entropy formula as well as its asymptotic expansion which indicates the presence of a nearly maximally-entangled state. Finally, future opportunities at the Electron Ion Collider are discussed. | 翻訳日:2024-01-22 19:30:05 公開日:2024-01-19 |
# 符号なし原理からの量子クローニングの基本的限界 Fundamental limits on quantum cloning from the no-signalling principle ( http://arxiv.org/abs/2305.02002v3 ) ライセンス: Link先を確認 | Yanglin Hu and Marco Tomamichel | (参考訳) no-cloning定理は量子暗号の基盤である。
ここでは、確率的および決定論的クローンマシンの最大到達可能な忠実度に関する様々な上界を統一したフレームワークで一般化し、再帰する。
gisin [phys.~lett.~a, 1998] のアイデアに基づいて、結果はリモート状態の準備が可能であり、無署名の原則が成り立つという事実から始まります。
一般定理を量子暗号に興味を持ついくつかの状態の部分集合に適用する。 The no-cloning theorem is a cornerstone of quantum cryptography. Here we generalize and rederive in a unified framework various upper bounds on the maximum achievable fidelity of probabilistic and deterministic cloning machines. Building on ideas by Gisin [Phys.~Lett.~A, 1998], our result starts from the fact that remote state preparation is possible and the no-signalling principle holds. We apply our general theorem to several subsets of states that are of interest in quantum cryptography. | 翻訳日:2024-01-22 19:29:47 公開日:2024-01-19 |
# 海洋生命サーベイヤーにおける顕微鏡バイオシグナチュア検出のためのオンボード科学機器自律性 Onboard Science Instrument Autonomy for the Detection of Microscopy Biosignatures on the Ocean Worlds Life Surveyor ( http://arxiv.org/abs/2304.13189v2 ) ライセンス: Link先を確認 | Mark Wronkiewicz, Jake Lee, Lukas Mandrake, Jack Lightholder, Gary Doran, Steffen Mauceri, Taewoo Kim, Nathan Oborny, Thomas Schibler, Jay Nadeau, James K. Wallace, Eshaan Moorjani, Chris Lindensmith | (参考訳) 地球外生命の探索は、文明レベルの意味を持つ重要な科学的取り組みである。
太陽系の氷の衛星は、その液体の海が微小な生命の生息地になる可能性があるため、探査のターゲットとして有望です。
しかし、生命の正確な定義の欠如は、検出戦略の定式化に根本的な課題をもたらす。
不明瞭な検出の可能性を高めるために、補完的な機器群は複数の独立した生物記号(例えば、組成、運動/行動、可視構造)をサンプリングする必要がある。
このような機器は、エンケラドゥスやエウロパのような遠く離れた海から送信されるデータより1万倍多い生データを生成することができる。
この帯域制限に対処するため、オンボード・サイエンス・インスツルメンツ・オートノミー (Onboard Science Instrument Autonomy, OSIA) は、科学のリターンを最大化するために観測機器データを評価、要約、優先順位付けできる飛行システムの新興分野である。
ジェット推進研究所のOcean Worlds Life Surveyor (OWLS) の試作機器スイートの一部として開発された2つのOSIA実装について述べる。
第1はデジタルホログラフィービデオで生命に似た動きを識別し、第2は自然蛍光と染料誘起蛍光によって細胞構造と組成を識別する。
飛行のような要求と計算上の制約は、火星のヘリコプター「インジェニュティ」と同様に、輸液の障壁を低くするために用いられた。
シミュレーションおよび実験室データを用いてOSIAの性能評価を行い,超塩質モノレイク惑星アナログ地点で実地試験を行った。
本研究は,バイオシグナチャ検出のためのOSIAの可能性を示すとともに,太陽系外惑星探査を目的とした将来のミッション概念に対する洞察と教訓を提供する。 The quest to find extraterrestrial life is a critical scientific endeavor with civilization-level implications. Icy moons in our solar system are promising targets for exploration because their liquid oceans make them potential habitats for microscopic life. However, the lack of a precise definition of life poses a fundamental challenge to formulating detection strategies. To increase the chances of unambiguous detection, a suite of complementary instruments must sample multiple independent biosignatures (e.g., composition, motility/behavior, and visible structure). Such an instrument suite could generate 10,000x more raw data than is possible to transmit from distant ocean worlds like Enceladus or Europa. To address this bandwidth limitation, Onboard Science Instrument Autonomy (OSIA) is an emerging discipline of flight systems capable of evaluating, summarizing, and prioritizing observational instrument data to maximize science return. We describe two OSIA implementations developed as part of the Ocean Worlds Life Surveyor (OWLS) prototype instrument suite at the Jet Propulsion Laboratory. The first identifies life-like motion in digital holographic microscopy videos, and the second identifies cellular structure and composition via innate and dye-induced fluorescence. Flight-like requirements and computational constraints were used to lower barriers to infusion, similar to those available on the Mars helicopter, "Ingenuity." We evaluated the OSIA's performance using simulated and laboratory data and conducted a live field test at the hypersaline Mono Lake planetary analog site. Our study demonstrates the potential of OSIA for enabling biosignature detection and provides insights and lessons learned for future mission concepts aimed at exploring the outer solar system. | 翻訳日:2024-01-22 19:29:39 公開日:2024-01-19 |
# グラニュラ・ボール・コンピューティング : 効率的で堅牢で解釈可能な適応型多粒度表現と計算法 Granular-ball computing: an efficient, robust, and interpretable adaptive multi-granularity representation and computation method ( http://arxiv.org/abs/2304.11171v4 ) ライセンス: Link先を確認 | Shuyin Xia, Guoyin Wang, Xinbo Gao, Xiaoyu Lian | (参考訳) 人間の認知は「グローバルファースト」認知メカニズムで動作し、粗い詳細に基づいて情報処理を優先する。
このメカニズムは本質的に適応的な多粒性記述能力を持ち、効率性、堅牢性、解釈可能性などの計算特性をもたらす。
解析パターンは、最も微細な粒度と単一粒度に依存するため、既存の計算手法のほとんどは効率が悪く、堅牢で、解釈可能である。
多粒度グラニュラーボールコンピューティングは、様々な大きさのグラニュラーボールを用いてサンプル空間を適度に表現し包み込み、これらのグラニュラーボールに基づく学習を容易にする。
粗粒の「粒状球」の数がサンプル点より少ないことを考えると、粒状球計算はより効率的である。
さらに,粒状ボールの粒状性は,粒状試料の乱れに対する感受性を低下させ,頑健性を高める。
粒状球の多面的構成は位相構造と粗い粒状記述を生成し、自然に解釈可能性を高める。
グラニュラー・ボール・コンピューティングは様々なAI分野への進出に成功し、グラニュラー・ボール分類器、クラスタリング技術、ニューラルネットワーク、粗いセット、進化的コンピューティングなど、革新的な理論的手法の開発を促進する。
これにより、従来の方法の効率性、雑音のロバスト性、解釈性が改善された。
全体として、グラニュラーボールコンピューティングはAIにおける稀で革新的な理論的アプローチであり、効率性、堅牢性、解釈可能性を適応的かつ同時に向上させることができる。
本稿は、将来研究者に、この期待できる理論を洗練・拡張するための参照と洞察を与えることを目的として、グラニュラーボールコンピューティングのための主要な応用展望を掘り下げる。 Human cognition operates on a "Global-first" cognitive mechanism, prioritizing information processing based on coarse-grained details. This mechanism inherently possesses an adaptive multi-granularity description capacity, resulting in computational traits such as efficiency, robustness, and interpretability. The analysis pattern reliance on the finest granularity and single-granularity makes most existing computational methods less efficient, robust, and interpretable, which is an important reason for the current lack of interpretability in neural networks. Multi-granularity granular-ball computing employs granular-balls of varying sizes to daptively represent and envelop the sample space, facilitating learning based on these granular-balls. Given that the number of coarse-grained "granular-balls" is fewer than sample points, granular-ball computing proves more efficient. Moreover, the inherent coarse-grained nature of granular-balls reduces susceptibility to fine-grained sample disturbances, enhancing robustness. The multi-granularity construct of granular-balls generates topological structures and coarse-grained descriptions, naturally augmenting interpretability. Granular-ball computing has successfully ventured into diverse AI domains, fostering the development of innovative theoretical methods, including granular-ball classifiers, clustering techniques, neural networks, rough sets, and evolutionary computing. This has notably ameliorated the efficiency, noise robustness, and interpretability of traditional methods. Overall, granular-ball computing is a rare and innovative theoretical approach in AI that can adaptively and simultaneously enhance efficiency, robustness, and interpretability. This article delves into the main application landscapes for granular-ball computing, aiming to equip future researchers with references and insights to refine and expand this promising theory. | 翻訳日:2024-01-22 19:29:09 公開日:2024-01-19 |
# 非等尺写像とド・ジッターテンソルネットワークからの重なり量子ビット Overlapping qubits from non-isometric maps and de Sitter tensor networks ( http://arxiv.org/abs/2304.02673v3 ) ライセンス: Link先を確認 | ChunJun Cao, Wissam Chemissany, Alexander Jahn, and Zolt\'an Zimbor\'as | (参考訳) 非等尺写像を用いて、概局所可観測性、あるいは「重なり合う量子ビット」を構築し、局所実効理論における過程をホログラフィにおける我々の期待と類似した自由度の低い量子系でスプーフできることを示す。
さらに、スプーフ系は自然に、量子重力の特徴と同一視できる方法で実際の局所理論から逸脱する。
具体的な例として、デ・ジッター時空の2つのメラトイモデルを構築し、大域的デ・ジッターの指数展開が量子自由度を多く減らし、局所物理学が崩壊する前にほぼ長い時間保存されていることを説明した。
量子ビットの重なりの近似は、ヒルベルト空間次元の検証、ブラックホールやホログラフィにおける自由度数、量子重力における近似局所性と概念的にどのように結びついているかを強調する。 We construct approximately local observables, or "overlapping qubits", using non-isometric maps and show that processes in local effective theories can be spoofed with a quantum system with fewer degrees of freedom, similar to our expectation in holography. Furthermore, the spoofed system naturally deviates from an actual local theory in ways that can be identified with features in quantum gravity. For a concrete example, we construct two MERA toy models of de Sitter space-time and explain how the exponential expansion in global de Sitter can be spoofed with many fewer quantum degrees of freedom and that local physics may be approximately preserved for an exceedingly long time before breaking down. We highlight how approximate overlapping qubits are conceptually connected to Hilbert space dimension verification, degree-of-freedom counting in black holes and holography, and approximate locality in quantum gravity. | 翻訳日:2024-01-22 19:28:40 公開日:2024-01-19 |
# OTS: 歴史的文書におけるテキストスポッティングのワンショット学習手法 OTS: A One-shot Learning Approach for Text Spotting in Historical Manuscripts ( http://arxiv.org/abs/2304.00746v3 ) ライセンス: Link先を確認 | Wenbo Hu, Hongjian Zhan, Cong Liu, Bing Yin, Yue Lu | (参考訳) 歴史写本研究の分野では、研究者は古代のテキストでしばしば新しいシンボルに遭遇し、その識別と文書化に多大な投資を行った。
いくつかのオブジェクト検出手法は目覚ましい性能を達成しているが、トレーニングデータセットに含まれるカテゴリの検出に長けており、しばしば再トレーニングせずに新しいシンボルを認識できない。
この制限を克服するために,1つの注釈付きサポートサンプルを用いて,新しい文字を正確かつ確実に発見する,one-shot learning-based text spotting (ots) アプローチを提案する。
認知研究からインスピレーションを得た空間アライメントモジュールを導入し、一つの支援画像に基づいてクエリ画像の最も識別性の高い空間領域を探索し、注目し、学習する。
特に,低リソーススポッティングタスクは,例えば不均衡の問題に直面することが多いため,距離計量の埋め込み空間をより識別可能な,トーラス損失と呼ばれる新しい損失関数を提案する。
我々のアプローチは非常に効率的で、わずかなトレーニングサンプルしか必要とせず、新しい文字やシンボルを扱う素晴らしい能力を示しています。
データセットの多様性を高めるために、古代ドンバ・ヒエログリフィクス(dbh)を含む新しい写本データセットが作成され、中国に関連するスクリプトがnaxi少数民族の祖先によって開発された。
利用可能なDBH,EGY,VML-HD,TKH,NCデータセットについて実験を行った。
実験の結果,OTSは1ショットテキストスポッティングにおいて最先端の手法よりも優れていた。
提案手法は,歴史写本のテキストスポッティングにおける有望な応用を提供する。 In the field of historical manuscript research, scholars frequently encounter novel symbols in ancient texts, investing considerable effort in their identification and documentation. Although some object detection methods have achieved impressive performance, they primarily excel at detecting categories included in training datasets, often failing to recognize novel symbols without retraining. To overcome this limitation, we propose a novel One-shot learning-based Text Spotting (OTS) approach that accurately and reliably spots novel characters with just one annotated support sample. Drawing inspiration from cognitive research, we introduce a spatial alignment module that finds, focuses on, and learns the most discriminative spatial regions in the query image based on one support image. Especially, since the low-resource spotting task often faces the problem of example imbalance, we propose a novel loss function called torus loss which can make the embedding space of distance metric more discriminative. Our approach is highly efficient and requires only a few training samples while exhibiting the remarkable ability to handle novel characters and symbols. To enhance dataset diversity, a new manuscript dataset that contains the ancient Dongba hieroglyphics (DBH) is created, a script associated with China and developed by the ancestors of the Naxi minority. We conduct experiments on publicly available DBH, EGY, VML-HD, TKH, and NC datasets. The experimental results demonstrate that OTS outperforms the state-of-the-art methods in one-shot text spotting. Overall, our proposed method offers promising applications in text spotting in historical manuscripts. | 翻訳日:2024-01-22 19:28:20 公開日:2024-01-19 |
# DP-SGDの個人化プライバシ割り当て Have it your way: Individualized Privacy Assignment for DP-SGD ( http://arxiv.org/abs/2303.17046v2 ) ライセンス: Link先を確認 | Franziska Boenisch, Christopher M\"uhl, Adam Dziedzic, Roy Rinberg, Nicolas Papernot | (参考訳) 異なるプライバシで機械学習モデルをトレーニングする場合、プライバシ予算を設定する。
この予算は、トレーニングセットにデータを提供することで、ユーザが直面する最大のプライバシー侵害を表している。
このアプローチは、異なるユーザのプライバシの期待が異なるため、限定的なものだ、と私たちは主張する。
したがって、すべての点で統一されたプライバシー予算を設定することは、一部のユーザーにとっては過度に保守的であるか、逆に他のユーザーにとっては十分に保護されていない。
本稿では,プライバシ予算の個別化を通じて,これらの選好を捉える。
その実用性を実証するために, 個別化された予算をサポートするDP-SGDの変種を導入する。
DP-SGDは、差分プライバシーを持つモデルをトレーニングするための標準的なアプローチである。
DP-SGD(Personalized DP-SGD:IDP-SGD)と呼ばれる,データサンプリングと勾配ノイズ発生機構を改良し,本手法に到達した。
IDP-SGDは、個々のユーザーやデータポイントの好みに合わせてプライバシー保証を提供するため、プライバシー利用トレードオフを実証的に改善する。 When training a machine learning model with differential privacy, one sets a privacy budget. This budget represents a maximal privacy violation that any user is willing to face by contributing their data to the training set. We argue that this approach is limited because different users may have different privacy expectations. Thus, setting a uniform privacy budget across all points may be overly conservative for some users or, conversely, not sufficiently protective for others. In this paper, we capture these preferences through individualized privacy budgets. To demonstrate their practicality, we introduce a variant of Differentially Private Stochastic Gradient Descent (DP-SGD) which supports such individualized budgets. DP-SGD is the canonical approach to training models with differential privacy. We modify its data sampling and gradient noising mechanisms to arrive at our approach, which we call Individualized DP-SGD (IDP-SGD). Because IDP-SGD provides privacy guarantees tailored to the preferences of individual users and their data points, we find it empirically improves privacy-utility trade-offs. | 翻訳日:2024-01-22 19:27:54 公開日:2024-01-19 |
# バッチスタイル標準化によるドメイン不変自己教師付き学習に向けて Towards domain-invariant Self-Supervised Learning with Batch Styles Standardization ( http://arxiv.org/abs/2303.06088v6 ) ライセンス: Link先を確認 | Marin Scalbert and Maria Vakalopoulou and Florent Couzini\'e-Devy | (参考訳) Self-Supervised Learning (SSL)では、モデルは通常、トレーニング済み、微調整され、同じドメインで評価される。
しかし、非監視ドメインの評価では性能が低下する傾向があり、unsupervised domain generalization (udg) が対処しようとしている。
現在のUDGメソッドは、収集が困難なドメインラベルと、多くのドメインに直面するとスケーラビリティに欠けるドメイン固有のアーキテクチャに依存しているため、現在の方法論は非現実的で厳密である。
同じドメインの例との比較を制限することで、スプリアス相関を緩和するコントラストベースのudg法に触発されて、バッチ内のスタイル変動の排除により、ドメインラベルを必要とせずにスプリアス相関を低減できる、より便利で柔軟な方法を提供できると仮定した。
この仮説を検証するために,我々は,UDGに対処するSSLメソッドとの統合に特化して設計されたバッチにおいて,画像のスタイルを標準化する比較的単純なFourierベースの手法であるBatch Styles Standardization (BSS)を紹介した。
既存のSSLメソッドとBSSを組み合わせることで、従来のUDGメソッドよりも大きなメリットがある。(1)SSL表現のドメイン不変性を高めるためにドメインラベルやドメイン固有のネットワークコンポーネントを不要にし、(2)BSSが多様なコントラストベースでも非コントラストベースのSSLメソッドとシームレスに統合できるため、柔軟性を提供する。
いくつかのudgデータセットにおける実験により、非シードドメインにおけるダウンストリームタスクのパフォーマンスが大幅に向上し、udgメソッドよりもパフォーマンスが向上するか、あるいは競合していることが示されている。
最後に、この研究は、SSL表現におけるドメイン不変性の改善におけるBSSの有効性に寄与する基盤メカニズムを明らかにします。 In Self-Supervised Learning (SSL), models are typically pretrained, fine-tuned, and evaluated on the same domains. However, they tend to perform poorly when evaluated on unseen domains, a challenge that Unsupervised Domain Generalization (UDG) seeks to address. Current UDG methods rely on domain labels, which are often challenging to collect, and domain-specific architectures that lack scalability when confronted with numerous domains, making the current methodology impractical and rigid. Inspired by contrastive-based UDG methods that mitigate spurious correlations by restricting comparisons to examples from the same domain, we hypothesize that eliminating style variability within a batch could provide a more convenient and flexible way to reduce spurious correlations without requiring domain labels. To verify this hypothesis, we introduce Batch Styles Standardization (BSS), a relatively simple yet powerful Fourier-based method to standardize the style of images in a batch specifically designed for integration with SSL methods to tackle UDG. Combining BSS with existing SSL methods offers serious advantages over prior UDG methods: (1) It eliminates the need for domain labels or domain-specific network components to enhance domain-invariance in SSL representations, and (2) offers flexibility as BSS can be seamlessly integrated with diverse contrastive-based but also non-contrastive-based SSL methods. Experiments on several UDG datasets demonstrate that it significantly improves downstream task performances on unseen domains, often outperforming or rivaling with UDG methods. Finally, this work clarifies the underlying mechanisms contributing to BSS's effectiveness in improving domain-invariance in SSL representations and performances on unseen domain. | 翻訳日:2024-01-22 19:27:02 公開日:2024-01-19 |
# 物体検出のためのスムースとステップワイズ自己蒸留 Smooth and Stepwise Self-Distillation for Object Detection ( http://arxiv.org/abs/2303.05015v2 ) ライセンス: Link先を確認 | Jieren Deng, Xin Zhou, Hao Tian, Zhihong Pan, Derek Aguiar | (参考訳) 特徴マップでキャプチャされた構造化情報は、オブジェクト検出タスクの改善に寄与しているが、ベースラインアーキテクチャの慎重に選択と実質的な事前学習が必要である。
自己蒸留はこれらの制限に対処し、最近、いくつかのアーキテクチャ上の仮定を単純化したにもかかわらず、オブジェクト検出の最先端のパフォーマンスを達成した。
本研究では,物体検出のためのSmooth and Stepwise Self-Distillation (SSSD)を提案する。
私たちのsssdアーキテクチャは、オブジェクトラベルからの暗黙的な教師と特徴ピラミッドネットワークバックボーンを形成し、jensen-shannon距離を使用してラベル注釈特徴マップを蒸留します。
さらに, 学習率に基づいて適応的に設定された蒸留係数を付加する。
我々は,COCOデータセット上のベースラインと2つの最先端オブジェクト検出器アーキテクチャに対して,係数とバックボーンおよび検出器ネットワークを変化させることで,SSSDを広範囲にベンチマークする。
sssdは,ほとんどの実験環境では高い平均精度を達成し,幅広い係数に頑健であり,ステップワイズ蒸留法から得られる利点を実証した。 Distilling the structured information captured in feature maps has contributed to improved results for object detection tasks, but requires careful selection of baseline architectures and substantial pre-training. Self-distillation addresses these limitations and has recently achieved state-of-the-art performance for object detection despite making several simplifying architectural assumptions. Building on this work, we propose Smooth and Stepwise Self-Distillation (SSSD) for object detection. Our SSSD architecture forms an implicit teacher from object labels and a feature pyramid network backbone to distill label-annotated feature maps using Jensen-Shannon distance, which is smoother than distillation losses used in prior work. We additionally add a distillation coefficient that is adaptively configured based on the learning rate. We extensively benchmark SSSD against a baseline and two state-of-the-art object detector architectures on the COCO dataset by varying the coefficients and backbone and detector networks. We demonstrate that SSSD achieves higher average precision in most experimental settings, is robust to a wide range of coefficients, and benefits from our stepwise distillation procedure. | 翻訳日:2024-01-22 19:26:30 公開日:2024-01-19 |
# ラット超音波発声の教師付き分類における合成訓練データの利用 Utilizing synthetic training data for the supervised classification of rat ultrasonic vocalizations ( http://arxiv.org/abs/2303.03183v2 ) ライセンス: Link先を確認 | K. Jack Scott, Lucinda J. Speers, David K. Bilkey | (参考訳) ミューリンは120kHzの周波数で超音波発声(USV)を発生させる。
これらの呼び出しは社会的行動において重要であり、その分析は音声コミュニケーションの機能とその機能に関する洞察を与えることができる。
USVを手動で識別し、その後に異なるサブカテゴリに分類するのは時間を要する。
識別と分類のための機械学習アプローチは、膨大な効率向上をもたらす可能性があるが、トレーニングデータを生成するのに必要な時間と労力は高くなり、現在のアプローチの正確性に問題がある。
ここでは、訓練を受けた人間の検出と分類性能を、ラット usv を含む音声を用いて、2つの畳み込みニューラルネットワーク(cnns)、deepsqueak と vocalmatと比較する。
さらに,訓練セット作成に伴う作業負荷を低減する手段として,合成usvsを声質cnnの訓練データに挿入する効果を検証した。
以上の結果から,VocalMatはDeepSqueak CNNよりも通話識別や分類に優れていた。
また,合成画像を用いたトレーニングデータの強化により,人間の性能に十分近い精度が向上し,実験環境での利用が可能となった。 Murine rodents generate ultrasonic vocalizations (USVs) with frequencies that extend to around 120kHz. These calls are important in social behaviour, and so their analysis can provide insights into the function of vocal communication, and its dysfunction. The manual identification of USVs, and subsequent classification into different subcategories is time consuming. Although machine learning approaches for identification and classification can lead to enormous efficiency gains, the time and effort required to generate training data can be high, and the accuracy of current approaches can be problematic. Here we compare the detection and classification performance of a trained human against two convolutional neural networks (CNNs), DeepSqueak and VocalMat, on audio containing rat USVs. Furthermore, we test the effect of inserting synthetic USVs into the training data of the VocalMat CNN as a means of reducing the workload associated with generating a training set. Our results indicate that VocalMat outperformed the DeepSqueak CNN on measures of call identification, and classification. Additionally, we found that the augmentation of training data with synthetic images resulted in a further improvement in accuracy, such that it was sufficiently close to human performance to allow for the use of this software in laboratory conditions. | 翻訳日:2024-01-22 19:26:13 公開日:2024-01-19 |
# 機械学習によるエントロピー生産推定を改善する$\alpha$-divergence $\alpha$-divergence Improves the Entropy Production Estimation via Machine Learning ( http://arxiv.org/abs/2303.02901v2 ) ライセンス: Link先を確認 | Euijoon Kwon, Yongjoo Baek | (参考訳) 近年,機械学習による軌道データから確率エントロピー生成(EP)をアルゴリズムで推定することへの関心が高まっている。
このようなアルゴリズムの重要な要素は、最小化が正確なEP推定を保証する損失関数の同定である。
本研究では,EP推定に使用できる$\alpha$-divergenceの変分表現を実装するような,損失関数のホストが存在することを示す。
1ドルから0ドルの間の値に$\alpha$を固定することにより、$\alpha$-NEEP (Neural Estimator for Entropy Production) は強い非平衡駆動やスローダイナミクスに対してより堅牢な性能を示し、Kulback-Leiblerの発散(\alpha = 0$)に基づいて既存のメソッドに悪影響を及ぼす。
特に、$\alpha = -0.5$の選択は最適な結果をもたらす傾向にある。
そこで本研究では,ep推定問題の解法を単純化し,損失関数のランドスケープと確率的性質が,$\alpha$-neepのロバスト性に深い直観を与える方法を提案する。 Recent years have seen a surge of interest in the algorithmic estimation of stochastic entropy production (EP) from trajectory data via machine learning. A crucial element of such algorithms is the identification of a loss function whose minimization guarantees the accurate EP estimation. In this study, we show that there exists a host of loss functions, namely those implementing a variational representation of the $\alpha$-divergence, which can be used for the EP estimation. By fixing $\alpha$ to a value between $-1$ and $0$, the $\alpha$-NEEP (Neural Estimator for Entropy Production) exhibits a much more robust performance against strong nonequilibrium driving or slow dynamics, which adversely affects the existing method based on the Kullback-Leibler divergence ($\alpha = 0$). In particular, the choice of $\alpha = -0.5$ tends to yield the optimal results. To corroborate our findings, we present an exactly solvable simplification of the EP estimation problem, whose loss function landscape and stochastic properties give deeper intuition into the robustness of the $\alpha$-NEEP. | 翻訳日:2024-01-22 19:25:53 公開日:2024-01-19 |
# 正確に可溶な散逸性スピン液体 An exactly solvable dissipative spin liquid ( http://arxiv.org/abs/2307.05743v3 ) ライセンス: Link先を確認 | Henry Shackleton and Mathias S. Scheurer | (参考訳) スピン液体基底状態を持つ厳密に解けるハミルトニアンは、相互作用するスピンの系でこれらの相が生じることを明白に示すだけでなく、概念の教育的な図示として、さらに理論解析のための制御された出発点として、非常に有用であることが証明されている。
しかし、環境に散逸結合を加えることは、これらのフェーズを実現する上で重要な側面である。
そこで我々は,環境への散逸結合を持つ正方格子スピン液体を記述するリンドブラジアンについて,静的な$\mathbb{z}_2$ゲージ場に結合したマヨラナフェルミオンについて,厳密な解を求める。
この解により、リンドブラディアンスペクトル内の「準粒子」励起と同様に定常解を特徴づけることができる。
このリンドブラディアンの異なるタイプの準粒子励起の出現は、観測可能な異なるクラスの期待値の平衡時間を管理する時間スケールの分離につながる。
この正確に可解なリンドブラジアンは、散逸時間発展の下での分数化されたシステムの挙動をよりよく理解するための出発点となることが期待されている。 Exactly solvable Hamiltonians with spin liquid ground states have proven to be extremely useful, not only because they unambiguously demonstrate that these phases can arise in systems of interacting spins but also as a pedagogical illustration of the concept and as a controlled starting point for further theoretical analysis. However, adding dissipative couplings to the environment - an important aspect for the realization of these phases - generically spoils the exact solvability. We here present and study a Lindbladian, describing a square-lattice spin-liquid with dissipative coupling to the environment, that admits an exact solution in terms of Majorana fermions coupled to static $\mathbb{Z}_2$ gauge fields. This solution allows us to characterize the steady-state solutions as well as ``quasiparticle'' excitations within the Lindbladian spectrum. This emergence of distinct types of quasiparticle excitations of the Lindbladian leads to a separation of timescales that govern the equilibration time of the expectation values of different classes of observables, some of which we identify as fractionalized string-like operators. This exactly solvable Lindbladian is expected to provide a starting point for a better understanding of the behavior of fractionalized systems under dissipative time evolution. | 翻訳日:2024-01-22 19:20:14 公開日:2024-01-19 |
# 正規化流を伴う限界確率の学習調和平均推定 Learned harmonic mean estimation of the marginal likelihood with normalizing flows ( http://arxiv.org/abs/2307.00048v3 ) ライセンス: Link先を確認 | Alicja Polanska, Matthew A. Price, Alessio Spurio Mancini, and Jason D. McEwen | (参考訳) 限界確率の計算(ベイズモデルエビデンスとも呼ばれる)はベイズモデル選択において重要な課題であり、モデルを比較するための原理化された定量的方法を提供する。
学習した高調波平均推定器は、元の高調波平均推定の爆発分散問題を解く。
学習した調和平均推定器は、最適分布に近似する重要サンプリング目標分布を学習する。
近似は高精度である必要はないが、爆発する分散問題を避けるために学習分布の確率質量が後方に含まれていることは重要である。
前回の作業では、この特性を満足させるためのトレーニングモデルに特有な最適化問題が導入されている。
本稿では, サンプリング対象分布の重要度を表現するために, 正規化フローについて述べる。
流れに基づくモデルは、最大確率推定によって後方からのサンプルに基づいて訓練される。
すると、フローの確率密度は、ベース分布のばらつきを下げること、すなわち「温度」を下げることによって集中し、その確率質量が後部に含まれることを保証する。
このアプローチは,パラメータの厳密な微調整と異常な最適化の問題を回避するため,より堅牢な手法が提案される。
さらに、正規化フローの使用は、高次元設定にスケールする可能性がある。
本研究では,高調波平均推定器における流れの利用の有効性を示す予備実験を行った。
学習した調和平均を実装するハーモニックコードがアップデートされ、フローの正規化がサポートされた。 Computing the marginal likelihood (also called the Bayesian model evidence) is an important task in Bayesian model selection, providing a principled quantitative way to compare models. The learned harmonic mean estimator solves the exploding variance problem of the original harmonic mean estimation of the marginal likelihood. The learned harmonic mean estimator learns an importance sampling target distribution that approximates the optimal distribution. While the approximation need not be highly accurate, it is critical that the probability mass of the learned distribution is contained within the posterior in order to avoid the exploding variance problem. In previous work a bespoke optimization problem is introduced when training models in order to ensure this property is satisfied. In the current article we introduce the use of normalizing flows to represent the importance sampling target distribution. A flow-based model is trained on samples from the posterior by maximum likelihood estimation. Then, the probability density of the flow is concentrated by lowering the variance of the base distribution, i.e. by lowering its "temperature", ensuring its probability mass is contained within the posterior. This approach avoids the need for a bespoke optimisation problem and careful fine tuning of parameters, resulting in a more robust method. Moreover, the use of normalizing flows has the potential to scale to high dimensional settings. We present preliminary experiments demonstrating the effectiveness of the use of flows for the learned harmonic mean estimator. The harmonic code implementing the learned harmonic mean, which is publicly available, has been updated to now support normalizing flows. | 翻訳日:2024-01-22 19:19:50 公開日:2024-01-19 |
# 温室効果ガス: 地域大気温度の生成モデル TemperatureGAN: Generative Modeling of Regional Atmospheric Temperatures ( http://arxiv.org/abs/2306.17248v2 ) ライセンス: Link先を確認 | Emmanuel Balogun, Ram Rajagopal, and Arun Majumdar | (参考訳) 確率的発電機は様々な分野の気候影響を推定するのに有用である。
エネルギーシステムなど、様々な分野における気候リスクを投影するには、正確な(統計的に地面と似ている)発電機、信頼できる(誤った例を生まない)、効率のよい発電機が必要である。
北米陸地データ同化システム(north american land data assimilation system)のデータを活用し,月,場所,期間を条件とした生成的逆境ネットワークである temperaturegan を導入し,地上2mの気温を1時間当たりの解像度で生成する。
生成したサンプルの品質を測定するための評価手法と指標を提案する。
本研究では,温度GANが日周期に整合した空間的表現と時間的ダイナミクスを有する高忠実度例を生成することを示す。 Stochastic generators are useful for estimating climate impacts on various sectors. Projecting climate risk in various sectors, e.g. energy systems, requires generators that are accurate (statistical resemblance to ground-truth), reliable (do not produce erroneous examples), and efficient. Leveraging data from the North American Land Data Assimilation System, we introduce TemperatureGAN, a Generative Adversarial Network conditioned on months, locations, and time periods, to generate 2m above ground atmospheric temperatures at an hourly resolution. We propose evaluation methods and metrics to measure the quality of generated samples. We show that TemperatureGAN produces high-fidelity examples with good spatial representation and temporal dynamics consistent with known diurnal cycles. | 翻訳日:2024-01-22 19:19:29 公開日:2024-01-19 |
# ドメイン固有自然言語処理アプリケーション開発のための生成的ユーザエクスペリエンス研究 Generative User-Experience Research for Developing Domain-specific Natural Language Processing Applications ( http://arxiv.org/abs/2306.16143v4 ) ライセンス: Link先を確認 | Anastasia Zhukova, Lukas von Sperl, Christian E. Matt, Bela Gipp | (参考訳) ユーザエクスペリエンス(UX)は、ヒューマンコンピュータインタラクション(HCI)研究の一部であり、システムのユーザに対する直感性、透明性、単純さ、信頼の向上に焦点を当てている。
機械学習(ML)や自然言語処理(NLP)のためのUX研究のほとんどは、データ駆動の方法論に焦点を当てている。
主にユーザビリティ評価のためにドメインユーザに関わる。
さらに、より一般的なUXメソッドは、最初にユーザニーズについて学ぶのとは異なり、システムをユーザユーザビリティに向けて調整する。
本稿では、生成UX研究をドメインNLPアプリケーションに組み込むための新しい手法を提案する。
生成UX研究は、プロトタイプ開発の初期段階、すなわちアイデアと概念評価、およびシステムの有用性とユーザ有用性を評価する最終段階において、ドメインユーザーを採用する。
この方法論は、プロセス産業における日常業務のためのドメイン固有意味検索のフルサイクルプロトタイプ開発に関するケーススタディで登場し、評価されている。
ケーススタディの重要な発見は、ドメインの専門家が関与することで、最終的なNLPアプリケーションに対する関心と信頼が高まります。
提案手法を併用したUX+NLP研究は,NLPアプリケーション開発に不可欠なデータ駆動とユーザ主導の機会と制約を効率的に検討する。 User experience (UX) is a part of human-computer interaction (HCI) research and focuses on increasing intuitiveness, transparency, simplicity, and trust for the system users. Most UX research for machine learning (ML) or natural language processing (NLP) focuses on a data-driven methodology. It engages domain users mainly for usability evaluation. Moreover, more typical UX methods tailor the systems towards user usability, unlike learning about the user needs first. This paper proposes a new methodology for integrating generative UX research into developing domain NLP applications. Generative UX research employs domain users at the initial stages of prototype development, i.e., ideation and concept evaluation, and the last stage for evaluating system usefulness and user utility. The methodology emerged from and is evaluated on a case study about the full-cycle prototype development of a domain-specific semantic search for daily operations in the process industry. A key finding of our case study is that involving domain experts increases their interest and trust in the final NLP application. The combined UX+NLP research of the proposed method efficiently considers data- and user-driven opportunities and constraints, which can be crucial for developing NLP applications. | 翻訳日:2024-01-22 19:19:16 公開日:2024-01-19 |
# 雑音量子処理実験における有効量子体積・忠実度・計算コスト Effective quantum volume, fidelity and computational cost of noisy quantum processing experiments ( http://arxiv.org/abs/2306.15970v2 ) ライセンス: Link先を確認 | K. Kechedzhi, S. V. Isakov, S. Mandr\`a, B. Villalonga, X. Mi, S. Boixo, V. Smelyanskiy | (参考訳) 今日の実験的なノイズ量子プロセッサは、無作為回路サンプリングの計算ベンチマークタスクのために、最先端のスーパーコンピュータ上のすべての既知のアルゴリズムと競合することができる[1-5]。
さらに、局所観測可能な量子情報スクランブル[6]の回路ベースの量子シミュレーションは、例えば、正確なシュロディンガー進化やマトリックス生成状態(MPS)など、標準のフルウェーブ関数シミュレーションアルゴリズムをすでに上回っている。
しかし、この実験はまだ観測可能値を計算するためにテンソルネットワークの収縮を越えていない。
これらの研究に基づき、本研究は、特定の観測可能な信号対雑音比とそれに対応する計算コストとのトレードオフを説明するために、基礎となる有効回路体積を利用する統一的なフレームワークを提供する。
このフレームワークを、ランダム回路サンプリング[5]、量子情報スクランブル[6]、フロッケ回路ユニタリ[7]の最近の量子プロセッサ実験に適用する。
これにより、Refの結果を再現できます。
1つのGPUを使って、データポイントあたり1秒未満で [7]。 Today's experimental noisy quantum processors can compete with and surpass all known algorithms on state-of-the-art supercomputers for the computational benchmark task of Random Circuit Sampling [1-5]. Additionally, a circuit-based quantum simulation of quantum information scrambling [6], which measures a local observable, has already outperformed standard full wave function simulation algorithms, e.g., exact Schrodinger evolution and Matrix Product States (MPS). However, this experiment has not yet surpassed tensor network contraction for computing the value of the observable. Based on those studies, we provide a unified framework that utilizes the underlying effective circuit volume to explain the tradeoff between the experimentally achievable signal-to-noise ratio for a specific observable, and the corresponding computational cost. We apply this framework to recent quantum processor experiments of Random Circuit Sampling [5], quantum information scrambling [6], and a Floquet circuit unitary [7]. This allows us to reproduce the results of Ref. [7] in less than one second per data point using one GPU. | 翻訳日:2024-01-22 19:18:56 公開日:2024-01-19 |
# サブ波長原子配列を用いた量子コンピューティング Quantum computing with subwavelength atomic arrays ( http://arxiv.org/abs/2306.08555v2 ) ライセンス: Link先を確認 | Freya Shah, Taylor L. Patti, Oriol Rubies-Bigorda, Susanne F. Yelin | (参考訳) サブ波長原子配列における光子による相互作用は量子科学に多くの応用がある。
本稿では,3レベル量子エミッタの可能性,すなわち2次元原子配列に埋め込まれた`impurities'の可能性を探り,量子計算のプラットフォームとして機能する。
サブ波長アレイを介する誘導双極子-双極子相互作用の結果、不純物の変形挙動を利用することにより、$\sqrt{\text{iSWAP}}$とシングルキュービット回転からなる普遍量子ゲートの設計とシミュレーションを行う。
これらのゲートは、原子が近位範囲に留まっている限り、長い原子双極子-双極子コヒーレンス時間のために非常に高いフィダリティを持つ。
最後に, 量子回路の設計とシミュレーションを行い, 最大絡み合う2ビットのベル状態と, 絡み合う3ビットのGHZ状態を生成する。
これらの結果は、量子計算と量子シミュレーションの代替プラットフォームとしてサブ波長エミッタアレイを確立する。 Photon-mediated interactions in subwavelength atomic arrays have numerous applications in quantum science. In this manuscript, we explore the potential of three-level quantum emitters, or ``impurities" embedded in a two-dimensional atomic array to serve as a platform for quantum computation. By exploiting the altered behavior of impurities as a result of the induced dipole-dipole interactions mediated by subwavelength array, we design and simulate a set of universal quantum gates consisting of the $\sqrt{\text{iSWAP}}$ and single-qubit rotations. We demonstrate that these gates have very high fidelities due to the long atomic dipole-dipole coherence times, as long as the atoms remain within a proximal range. Finally, we design and simulate quantum circuits leading to the generation of the maximally entangled two-qubit Bell states, as well as the entangled three-qubit GHZ state. These findings establish subwavelength emitter arrays as an alternative platform for quantum computation and quantum simulation. | 翻訳日:2024-01-22 19:18:23 公開日:2024-01-19 |
# GBSD: ステージ拡散による生成型ボケ GBSD: Generative Bokeh with Stage Diffusion ( http://arxiv.org/abs/2306.08251v2 ) ライセンス: Link先を確認 | Jieren Deng, Xin Zhou, Hao Tian, Zhihong Pan, and Derek Aguiar | (参考訳) ボケ効果(ボケエフェクト、bokeh effect)は、写真中の焦点領域をぼかす芸術的手法であり、テキストから画像への合成や、スマートフォンカメラや写真共有アプリの普及により関心を集めている。
ボケ効果のレンダリングに関する以前の研究は、古典的なコンピュータグラフィックスやニューラルレンダリング技術を用いて既存の写真に類似したぼやけた効果を生み出すために、ポストホック画像操作に焦点を合わせてきたが、深度不連続アーティファクトを持つか、トレーニングデータに存在するボケ効果の再生に制限されている。
より最近の拡散モデルでは、イメージを芸術的なスタイルで合成することができるが、高次元マスクの生成、高価な微調整、あるいはグローバルなイメージ特性に影響を与える必要がある。
本稿では,フォトリアリスティックな画像をボケスタイルで合成する最初の画像生成モデルであるgbsdを提案する。
拡散モデルにおける画像合成の進行に動機づけられ, 潜在拡散モデルと2段階のコンディショニングアルゴリズムを組み合わせることで, 意味論的に定義された物体に対するボケ効果を表現できる。
オブジェクトに効果を集中することができるので、このセマンティックボケ効果は古典的なレンダリング技術よりも汎用性が高い。
我々は,gbsdを定量的かつ質的に評価し,テキストから画像への設定と画像から画像への設定の両方に適用できることを実証する。 The bokeh effect is an artistic technique that blurs out-of-focus areas in a photograph and has gained interest due to recent developments in text-to-image synthesis and the ubiquity of smart-phone cameras and photo-sharing apps. Prior work on rendering bokeh effects have focused on post hoc image manipulation to produce similar blurring effects in existing photographs using classical computer graphics or neural rendering techniques, but have either depth discontinuity artifacts or are restricted to reproducing bokeh effects that are present in the training data. More recent diffusion based models can synthesize images with an artistic style, but either require the generation of high-dimensional masks, expensive fine-tuning, or affect global image characteristics. In this paper, we present GBSD, the first generative text-to-image model that synthesizes photorealistic images with a bokeh style. Motivated by how image synthesis occurs progressively in diffusion models, our approach combines latent diffusion models with a 2-stage conditioning algorithm to render bokeh effects on semantically defined objects. Since we can focus the effect on objects, this semantic bokeh effect is more versatile than classical rendering techniques. We evaluate GBSD both quantitatively and qualitatively and demonstrate its ability to be applied in both text-to-image and image-to-image settings. | 翻訳日:2024-01-22 19:18:05 公開日:2024-01-19 |
# Synapse: コンピュータ制御のためのメモリ付きトラジェクトリ・アズ・エグゼプティブ・プロンプティング Synapse: Trajectory-as-Exemplar Prompting with Memory for Computer Control ( http://arxiv.org/abs/2306.07863v3 ) ライセンス: Link先を確認 | Longtao Zheng, Rundong Wang, Xinrun Wang, Bo An | (参考訳) コンピュータ制御のための大規模言語モデル(LLM)を用いたエージェントの構築は、エージェントがコンピュータの状態を受け取り、複雑なタスクを完了するためのアクションを実行する、急成長する研究領域である。
従来のコンピュータエージェントは、インコンテキスト学習(ICL)の利点を実証してきたが、その性能はいくつかの問題によって妨げられている。
第一に、LLMと複雑なコンピュータ状態の限られたコンテキスト長は、単一のWebページがコンテキスト全体を消費できるため、例題の数を制限する。
第2に、ハイレベルプランやマルチチョイス問題といった現在の手法の例では、完全な軌道を表現できないため、長いホリゾンタスクの最適性能が低下する。
第3に、既存のコンピュータエージェントはタスク固有の例に頼り、タスク間の類似性を見落とし、新しいタスクへの一般化が不十分になる。
これらの課題に対処するため、我々は3つの重要なコンポーネントを特徴とするコンピュータエージェントであるsynapseを紹介する。
i) 生の状態からタスクに無関係な情報をフィルタリングし、限られたコンテキスト内でより多くの例示を可能にする状態抽象化。
二 多段階の意思決定を改善するために、抽象状態及び行動の完全な軌跡をllmに促す軌道−as-exemplarプロンプト
三 exemplar memoryは、exemplarsの埋め込みを格納し、これらを類似性検索により検索し、新規なタスクの一般化を行う。
標準タスクスイートであるMiniWoB++のSynapseと,実世界のWebサイトベンチマークであるMind2Webを評価した。
miniwob++では、synapseはたった48のタスクのデモを使用して、64のタスクの平均成功率(相対的に改善)を99.2%達成している。
特に、SynapseはMiniWoB++でブックフライタスクを解決する最初のICLメソッドである。
Synapseはまた、Mind2Webの以前の最先端プロンプトスキームよりも平均ステップ成功率を56%改善した。 Building agents with large language models (LLMs) for computer control is a burgeoning research area, where the agent receives computer states and performs actions to complete complex tasks. Previous computer agents have demonstrated the benefits of in-context learning (ICL); however, their performance is hindered by several issues. First, the limited context length of LLMs and complex computer states restrict the number of exemplars, as a single webpage can consume the entire context. Second, the exemplars in current methods, such as high-level plans and multi-choice questions, cannot represent complete trajectories, leading to suboptimal performance in long-horizon tasks. Third, existing computer agents rely on task-specific exemplars and overlook the similarity among tasks, resulting in poor generalization to novel tasks. To address these challenges, we introduce Synapse, a computer agent featuring three key components: i) state abstraction, which filters out task-irrelevant information from raw states, allowing more exemplars within the limited context, ii) trajectory-as-exemplar prompting, which prompts the LLM with complete trajectories of the abstracted states and actions to improve multi-step decision-making, and iii) exemplar memory, which stores the embeddings of exemplars and retrieves them via similarity search for generalization to novel tasks. We evaluate Synapse on MiniWoB++, a standard task suite, and Mind2Web, a real-world website benchmark. In MiniWoB++, Synapse achieves a 99.2% average success rate (a 10% relative improvement) across 64 tasks using demonstrations from only 48 tasks. Notably, Synapse is the first ICL method to solve the book-flight task in MiniWoB++. Synapse also exhibits a 56% relative improvement in average step success rate over the previous state-of-the-art prompting scheme in Mind2Web. | 翻訳日:2024-01-22 19:17:40 公開日:2024-01-19 |
# NLPモデルのドメインシフトに対するロバスト性の測定 Measuring the Robustness of NLP Models to Domain Shifts ( http://arxiv.org/abs/2306.00168v3 ) ライセンス: Link先を確認 | Nitay Calderon, Naveh Porat, Eyal Ben-David, Alexander Chapanin, Zorik Gekhman, Nadav Oved, Vitaly Shalumov, Roi Reichart | (参考訳) ドメインロバストネス(DR)に関する既存の研究は、異なる設定、タスクの多様性の欠如、最近のモデルや、少数ショット学習のような能力に関する研究が不足している。
さらに,d.d.測定の一般的な実践は,この像をさらに曖昧にする可能性がある。
現在の研究はチャレンジセットに焦点を当てており、ソースドロップ(sd:source in-domain performance)のみに依存しています。
しかし、ターゲットドロップ(td)は補完的な視点として使われるべきである。
最新のNLPモデルのDR課題を理解するために,分類,QA,生成を含む7つのNLPタスクからなるベンチマークを開発した。
本ベンチマークでは,自然領域シフトに着目し,SDとTDの両方を計測する。
18の微調整モデルと数ショットモデルにまたがる14,000以上のドメインシフトを含む包括的な研究は、両方のモデルがドメインシフトによって低下することを示している。
微調整のモデルはドメイン内では優れているが、少数ショットのLLMはドメインを超越し、堅牢性が向上する。
さらに、真のDRチャレンジではなく、難しいドメインにシフトすることで、大きなSDを説明できることがわかりました。
したがって、TDはより信頼できる計量である。 Existing research on Domain Robustness (DR) suffers from disparate setups, lack of task variety, and scarce research on recent models and capabilities such as few-shot learning. Furthermore, we claim that the common practice of measuring DR might further obscure the picture. Current research focuses on challenge sets and relies solely on the Source Drop (SD): Using the source in-domain performance as a reference point for degradation. However, the Target Drop (TD) should be used as a complementary point of view. To understand the DR challenge in modern NLP models, we developed a benchmark comprised of seven NLP tasks, including classification, QA, and generation. Our benchmark focuses on natural topical domain shifts and enables measuring both the SD and the TD. Our comprehensive study, involving over 14,000 domain shifts across 18 fine-tuned and few-shot models, shows that both models suffer from drops upon domain shifts. While fine-tuned models excel in-domain, few-shot LLMs often surpass them cross-domain, showing better robustness. In addition, we found that a large SD can be explained by shifting to a harder domain rather than a genuine DR challenge. Thus, the TD is a more reliable metric. | 翻訳日:2024-01-22 19:17:05 公開日:2024-01-19 |
# ReLUネットワークの最適集合と解経路 Optimal Sets and Solution Paths of ReLU Networks ( http://arxiv.org/abs/2306.00119v2 ) ライセンス: Link先を確認 | Aaron Mishkin, Mert Pilanci | (参考訳) 本研究では,非凸トレーニング問題を凸プログラムとして再構成することにより,最適なReLUニューラルネットワークの集合を特徴付ける分析フレームワークを開発する。
凸パラメータ化の大域的最適性は多面体集合によって与えられ、この特徴は非凸トレーニング目的の最適集合に拡張されることを示す。
ReLUトレーニング問題の定常点はすべて、サブサンプル凸プログラムの最適点として表現できるので、我々の研究は、非凸目的のすべての臨界点に対する一般的な表現を提供する。
そして,この結果を利用して,最小ネットワーク計算のための最適プルーニングアルゴリズム,reluネットワークの正規化経路の連続化条件の確立,および最小reluネットワークに対する感度評価結果の開発を行った。 We develop an analytical framework to characterize the set of optimal ReLU neural networks by reformulating the non-convex training problem as a convex program. We show that the global optima of the convex parameterization are given by a polyhedral set and then extend this characterization to the optimal set of the non-convex training objective. Since all stationary points of the ReLU training problem can be represented as optima of sub-sampled convex programs, our work provides a general expression for all critical points of the non-convex objective. We then leverage our results to provide an optimal pruning algorithm for computing minimal networks, establish conditions for the regularization path of ReLU networks to be continuous, and develop sensitivity results for minimal ReLU networks. | 翻訳日:2024-01-22 19:16:44 公開日:2024-01-19 |
# 量子デバイスにおける不整合不整合性のスケーラブル評価 Scalable evaluation of incoherent infidelity in quantum devices ( http://arxiv.org/abs/2305.19359v2 ) ライセンス: Link先を確認 | Jader P. Santos, Ivan Henao, Raam Uzdin | (参考訳) 量子プロセッサは、人工的な問題を除いて、古典的シミュレーションの範囲を超えてタスクを実行できる。
この時点では、量子アルゴリズムの実験的精度を実用的な量子優位性のためにテストするエラーメトリクスを設計することが不可欠である。
コヒーレントエラーと非コヒーレントエラーの区別は、しばしば異なるエラー抑制ツールを含むため、非常に重要である。
最初のクラスは制御信号とクロストークの誤校正を含むが、後者は通常、確率的事象と環境との不要な相互作用に関係している。
不整合不整合を不整合誤差の尺度として導入し,その測定にスケーラブルな方法を提案する。
この方法は時間依存マルコフ雑音を受ける一般量子進化に適用できる。
さらに、多くの回路や量子ゲートで平均されるエラーではなく、ターゲット回路のエラー量子化器を提供する。
不整合不整合の推定は、有用な計算を行うための自然な要件である回路サイズにかかわらず、十分に低いエラー率で回路を評価するのに適している。 Quantum processors can already execute tasks beyond the reach of classical simulation, albeit for artificial problems. At this point, it is essential to design error metrics that test the experimental accuracy of quantum algorithms with potential for a practical quantum advantage. The distinction between coherent errors and incoherent errors is crucial, as they often involve different error suppression tools. The first class encompasses miscalibrations of control signals and crosstalk, while the latter is usually related to stochastic events and unwanted interactions with the environment. We introduce the incoherent infidelity as a measure of incoherent errors and present a scalable method for measuring it. This method is applicable to generic quantum evolutions subjected to time-dependent Markovian noise. Moreover, it provides an error quantifier for the target circuit, rather than an error averaged over many circuits or quantum gates. The estimation of the incoherent infidelity is suitable to assess circuits with sufficiently low error rates, regardless of the circuit size, which is a natural requirement to run useful computations. | 翻訳日:2024-01-22 19:15:49 公開日:2024-01-19 |
# 量子力学におけるクリロフ複雑性とカオス Krylov complexity and chaos in quantum mechanics ( http://arxiv.org/abs/2305.16669v2 ) ライセンス: Link先を確認 | Koji Hashimoto, Keiju Murata, Norihiro Tanahashi, Ryota Watanabe | (参考訳) 近年,量子システムの複雑性とカオス性の尺度としてクリロフ複雑性が提案されている。
スタジアムビリヤードを,古典的カオス系の量子化によって得られた量子力学系の典型例と考え,演算子と状態のkrylov複雑性を数値的に評価する。
クリロフ複雑性の指数関数的増加はみられなかったが、ランチョス係数の分散と古典的リアプノフ指数の相関関係が明らかであり、また量子エネルギー準位の隣接する間隔の統計分布との相関も見いだされた。
これは、ランチョス係数の分散が量子カオスの測度であることを示している。
結果の普遍性は、同様のシナイビリヤードの解析によって支えられている。
我々の研究は、krylovの複雑さと古典/量子カオスの間に強固な橋渡しを提供する。 Recently, Krylov complexity was proposed as a measure of complexity and chaoticity of quantum systems. We consider the stadium billiard as a typical example of the quantum mechanical system obtained by quantizing a classically chaotic system, and numerically evaluate Krylov complexity for operators and states. Despite no exponential growth of the Krylov complexity, we find a clear correlation between variances of Lanczos coefficients and classical Lyapunov exponents, and also a correlation with the statistical distribution of adjacent spacings of the quantum energy levels. This shows that the variances of Lanczos coefficients can be a measure of quantum chaos. The universality of the result is supported by our similar analysis of Sinai billiards. Our work provides a firm bridge between Krylov complexity and classical/quantum chaos. | 翻訳日:2024-01-22 19:15:09 公開日:2024-01-19 |
# 微分可能なアーキテクチャ探索による音声感情認識の強化 Enhancing Speech Emotion Recognition Through Differentiable Architecture Search ( http://arxiv.org/abs/2305.14402v3 ) ライセンス: Link先を確認 | Thejan Rajapakshe, Rajib Rana, Sara Khalifa, Berrak Sisman, Bj\"orn Schuller | (参考訳) 音声感情認識(ser)は、人間とコンピュータの相互作用における感情認識コミュニケーションの重要な実現要因である。
近年のディープラーニング(DL)の進歩により,SERモデルの性能は大幅に向上した。
しかし、最適なDLアーキテクチャを設計するには、事前の経験と実験的な評価が必要である。
拡張的に、Neural Architecture Search (NAS)は最適なDLモデルを自動的に決定するための有望な道を提供する。
特に、微分可能なアーキテクチャ探索(DARTS)は、NASを用いて最適化されたモデルを探索する効率的な方法である。
本稿では,DARTS を最適化した CNN と LSTM アーキテクチャを提案する。
DARTSは従来,CNNとLSTMの組み合わせに応用されてきたが,本手法では新しい機構を導入し,特にDARTSを用いたCNN操作を選択する。
従来の研究とは対照的に、我々はDARTS細胞内のCNNの層順に制約を課すことを控え、代わりにDARTSが最適な層順を自律的に決定できるようにする。
提案手法は,IEMOCAPおよびMPP-IMPROVデータセットを用いて,手作業によるCNN-LSTM構成よりもSERの精度が高いことを示す。
また、CNN-LSTM上でDARTSを用いて達成された最高のSER結果よりも優れている。 Speech Emotion Recognition (SER) is a critical enabler of emotion-aware communication in human-computer interactions. Recent advancements in Deep Learning (DL) have substantially enhanced the performance of SER models through increased model complexity. However, designing optimal DL architectures requires prior experience and experimental evaluations. Encouragingly, Neural Architecture Search (NAS) offers a promising avenue to determine an optimal DL model automatically. In particular, Differentiable Architecture Search (DARTS) is an efficient method of using NAS to search for optimised models. This paper proposes a DARTS-optimised joint CNN and LSTM architecture, to improve SER performance, where the literature informs the selection of CNN and LSTM coupling to offer improved performance. While DARTS has previously been applied to CNN and LSTM combinations, our approach introduces a novel mechanism, particularly in selecting CNN operations using DARTS. In contrast to previous studies, we refrain from imposing constraints on the order of the layers for the CNN within the DARTS cell; instead, we allow DARTS to determine the optimal layer order autonomously. Experimenting with the IEMOCAP and MSP-IMPROV datasets, we demonstrate that our proposed methodology achieves significantly higher SER accuracy than hand-engineering the CNN-LSTM configuration. It also outperforms the best-reported SER results achieved using DARTS on CNN-LSTM. | 翻訳日:2024-01-22 19:14:54 公開日:2024-01-19 |
# Matcher: All-Purpose特徴マッチングを使った1ショットのセグメンテーション Matcher: Segment Anything with One Shot Using All-Purpose Feature Matching ( http://arxiv.org/abs/2305.13310v2 ) ライセンス: Link先を確認 | Yang Liu, Muzhi Zhu, Hengtao Li, Hao Chen, Xinlong Wang, Chunhua Shen | (参考訳) 大規模な事前訓練により、視覚基礎モデルは、オープンワールドのイメージ理解において大きな可能性を秘めている。
しかし、様々な言語タスクを直接扱うのに優れている大きな言語モデルとは異なり、vision foundationモデルはタスク固有のモデル構造と、特定のタスクの微調整を必要とする。
本稿では,市販の視覚基盤モデルを用いて様々な知覚課題に対処した新しい知覚パラダイムであるmatcherを提案する。
Matcherは、トレーニングなしでコンテキスト内の例を使って、何でもセグメンテーションできる。
さらに、Matcherフレームワーク内の3つの効果的なコンポーネントを設計し、これらの基盤モデルと連携し、多様な知覚タスクにおいてその潜在能力を解き放つ。
Matcherは、様々なセグメンテーションタスクにまたがる素晴らしい一般化パフォーマンスを、すべてトレーニングなしでデモする。
例えば、COCO-20$^i$の52.7% mIoUを1つの例で達成し、最先端の専門家モデルを1.6%上回る。
さらに、Matcherは1ショットセマンティックセグメンテーションのためのLVIS-92$^i$を33.0% mIoUで達成し、最先端のジェネラリストモデルを14.4%上回った。
我々の視覚化結果は、野生の画像に適用されたMatcherのオープンワールドの汎用性と柔軟性をさらに示す。
私たちのコードはhttps://github.com/aim-uofa/Matcher.orgにある。 Powered by large-scale pre-training, vision foundation models exhibit significant potential in open-world image understanding. However, unlike large language models that excel at directly tackling various language tasks, vision foundation models require a task-specific model structure followed by fine-tuning on specific tasks. In this work, we present Matcher, a novel perception paradigm that utilizes off-the-shelf vision foundation models to address various perception tasks. Matcher can segment anything by using an in-context example without training. Additionally, we design three effective components within the Matcher framework to collaborate with these foundation models and unleash their full potential in diverse perception tasks. Matcher demonstrates impressive generalization performance across various segmentation tasks, all without training. For example, it achieves 52.7% mIoU on COCO-20$^i$ with one example, surpassing the state-of-the-art specialist model by 1.6%. In addition, Matcher achieves 33.0% mIoU on the proposed LVIS-92$^i$ for one-shot semantic segmentation, outperforming the state-of-the-art generalist model by 14.4%. Our visualization results further showcase the open-world generality and flexibility of Matcher when applied to images in the wild. Our code can be found at https://github.com/aim-uofa/Matcher. | 翻訳日:2024-01-22 19:14:35 公開日:2024-01-19 |
# 事前学習多言語翻訳モデルにおける属性制御はどの程度の変換可能か? How Transferable are Attribute Controllers on Pretrained Multilingual Translation Models? ( http://arxiv.org/abs/2309.08565v2 ) ライセンス: Link先を確認 | Danni Liu, Jan Niehues | (参考訳) フォーマル性などのきめ細かい属性に準拠する機械翻訳モデルのカスタマイズは、最近大きな進歩を遂げている。
しかし、現在のアプローチは属性アノテーションを持つ少なくともいくつかの教師付きデータに依存している。
それゆえ、データの不足は、このようなカスタマイズの可能性をより広い範囲の言語、特に低リソース言語に民主化する上でのボトルネックである。
事前訓練された多言語翻訳モデルの最近の進歩を踏まえ、属性制御能力を教師付きデータなしで言語に転送する基盤として利用する。
本稿では,事前学習されたnllb-200モデルに基づく属性コントローラの転送に関する包括的解析を行う。
各種データシナリオ下でのトレーニング時間と推論時間の両方の制御手法について検討し、ゼロショット性能とドメインの堅牢性における相対的な強みと弱点を明らかにする。
5つのゼロショット方向の一貫した改善によって示されるように、両方のパラダイムは相補的である。
さらに、実際の低リソース言語であるbengaliに対する人間による評価では、ゼロショットトランスファーに関する知見が新たなターゲット言語に確認されている。
コードは$\href{https://github.com/dannigt/attribute-controller-transfer}{\text{here}}$である。 Customizing machine translation models to comply with fine-grained attributes such as formality has seen tremendous progress recently. However, current approaches mostly rely on at least some supervised data with attribute annotation. Data scarcity therefore remains a bottleneck to democratizing such customization possibilities to a wider range of languages, lower-resource ones in particular. Given recent progress in pretrained massively multilingual translation models, we use them as a foundation to transfer the attribute controlling capabilities to languages without supervised data. In this work, we present a comprehensive analysis of transferring attribute controllers based on a pretrained NLLB-200 model. We investigate both training- and inference-time control techniques under various data scenarios, and uncover their relative strengths and weaknesses in zero-shot performance and domain robustness. We show that both paradigms are complementary, as shown by consistent improvements on 5 zero-shot directions. Moreover, a human evaluation on a real low-resource language, Bengali, confirms our findings on zero-shot transfer to new target languages. The code is $\href{https://github.com/dannigt/attribute-controller-transfer}{\text{here}}$. | 翻訳日:2024-01-22 19:08:32 公開日:2024-01-19 |
# フォールディング注意:オンデバイストランスを用いたストリーミング音声認識におけるメモリと電力最適化 Folding Attention: Memory and Power Optimization for On-Device Transformer-based Streaming Speech Recognition ( http://arxiv.org/abs/2309.07988v3 ) ライセンス: Link先を確認 | Yang Li, Liangzhen Lai, Yuan Shangguan, Forrest N. Iandola, Zhaoheng Ni, Ernie Chang, Yangyang Shi, Vikas Chandra | (参考訳) トランスフォーマーベースのモデルは音声認識に優れている。
トランスフォーマー推論を最適化する既存の取り組みは、一般的には、注意スコアの計算を単純化することに集中している。
しかし、ストリーミング音声認識モデルは、通常、毎回限られた数のトークンを処理し、注目スコアの計算をボトルネックより少なくする。
その代わりに、ボトルネックはマルチヘッドの注意とフィードフォワードネットワークの線形投影層にあり、モデルサイズの大部分を占め、計算、メモリ、電力使用量に大きく貢献する。
このボトルネックに対処するため,これらの線形層を対象とし,モデルサイズを大幅に削減し,メモリと電力効率を向上する手法である折りたたみ注意を提案する。
オンデバイストランスフォーマーに基づくストリーミング音声認識モデルの実験では、折り畳み注意がモデルサイズ(および対応するメモリ消費)を最大24%削減し、消費電力を最大23%削減し、いずれもモデルの精度や計算オーバーヘッドを損なうことなく実現している。 Transformer-based models excel in speech recognition. Existing efforts to optimize Transformer inference, typically for long-context applications, center on simplifying attention score calculations. However, streaming speech recognition models usually process a limited number of tokens each time, making attention score calculation less of a bottleneck. Instead, the bottleneck lies in the linear projection layers of multi-head attention and feedforward networks, constituting a substantial portion of the model size and contributing significantly to computation, memory, and power usage. To address this bottleneck, we propose folding attention, a technique targeting these linear layers, significantly reducing model size and improving memory and power efficiency. Experiments on on-device Transformer-based streaming speech recognition models show that folding attention reduces model size (and corresponding memory consumption) by up to 24% and power consumption by up to 23%, all without compromising model accuracy or computation overhead. | 翻訳日:2024-01-22 19:08:13 公開日:2024-01-19 |
# 歴史から学ぶ:画像復元のためのタスク非依存モデルコントラスト学習 Learning from History: Task-agnostic Model Contrastive Learning for Image Restoration ( http://arxiv.org/abs/2309.06023v4 ) ライセンス: Link先を確認 | Gang Wu, Junjun Jiang, Kui Jiang, Xianming Liu | (参考訳) コントラスト学習は、適切な負のサンプルを導入することで、その不適切な性質を考慮に入れたコンパクトな最適化空間を実現するために、低レベルの視覚タスクにも活用されている。
しかし、既存の手法は手動で事前定義されたタスク指向のネガティブに依存しており、しばしばタスク固有のバイアスが顕著に現れる。
この課題に対処するために,本稿では,対象モデル自体から負のサンプルを動的に生成する「歴史から学ぶ」という革新的な手法を提案する。
我々のアプローチは、画像復元のためのモデルコントラストパラダイム(MCIR)と呼ばれ、遅延モデルをネガティブモデルとして再定義し、多様な画像復元タスクと互換性を持つ。
そこで我々は,SPN(Self-Prior Guided Negative Los)を提案する。
このアプローチは、提案したモデルコントラッシブパラダイムで再訓練された場合、既存のモデルを大幅に強化する。
その結果,様々なタスクやアーキテクチャにおける画像復元の大幅な改善が示された。
例えば、SPNで再訓練されたモデルは、オリジナルのFFANetとDehazeFormerを3.41dB、0.57dBで上回っている。
同様に、SPA-Data の 0.47 dB と IDT の 0.12 dB を、Manga109 の 0.12 dB を、それぞれ軽量の SwinIR よりも 4倍の解像度で改善した。
コードと再トレーニングされたモデルはhttps://github.com/Aitical/MCIR.comで入手できる。 Contrastive learning has emerged as a prevailing paradigm for high-level vision tasks, which, by introducing properly negative samples, has also been exploited for low-level vision tasks to achieve a compact optimization space to account for their ill-posed nature. However, existing methods rely on manually predefined and task-oriented negatives, which often exhibit pronounced task-specific biases. To address this challenge, our paper introduces an innovative method termed 'learning from history', which dynamically generates negative samples from the target model itself. Our approach, named Model Contrastive paradigm for Image Restoration (MCIR), rejuvenates latency models as negative models, making it compatible with diverse image restoration tasks. We propose the Self-Prior guided Negative loss (SPN) to enable it. This approach significantly enhances existing models when retrained with the proposed model contrastive paradigm. The results show significant improvements in image restoration across various tasks and architectures. For example, models retrained with SPN outperform the original FFANet and DehazeFormer by 3.41 dB and 0.57 dB on the RESIDE indoor dataset for image dehazing. Similarly, they achieve notable improvements of 0.47 dB on SPA-Data over IDT for image deraining and 0.12 dB on Manga109 for a 4x scale super-resolution over lightweight SwinIR, respectively. Code and retrained models are available at https://github.com/Aitical/MCIR. | 翻訳日:2024-01-22 19:07:55 公開日:2024-01-19 |
# diffusion modelは、ひそかにトレーニングフリーなオープン語彙セグメンタである Diffusion Model is Secretly a Training-free Open Vocabulary Semantic Segmenter ( http://arxiv.org/abs/2309.02773v2 ) ライセンス: Link先を確認 | Jinglong Wang, Xiawei Li, Jing Zhang, Qingyuan Xu, Qin Zhou, Qian Yu, Lu Sheng, Dong Xu | (参考訳) CLIPのような事前訓練されたテキスト画像識別モデルは、重要な局所化情報の欠如や物体形状の認識による不満足な結果を伴うオープン語彙セマンティックセグメンテーションのために検討されてきた。
近年,生成タスクからセマンティックセグメンテーションへの生成モデルの適用拡大への関心が高まっている。
これらのアプローチは、注釈付きデータを生成するか、セマンティックセグメンテーションを容易にするために特徴を抽出するために生成モデルを利用する。
これは典型的には大量の合成データを生成するか、追加のマスクアノテーションを必要とする。
この目的のために、高速なオープン語彙セマンティックセマンティックセマンティクスとして、生成的テキスト・画像拡散モデル(例えば、安定拡散)の可能性を明らかにし、DiffSegmenterという新しいトレーニング不要アプローチを導入する。
その洞察は、入力テキストに意味的に忠実な現実的なオブジェクトを生成するためには、完全なオブジェクト形状と対応するセマンティクスの両方が拡散モデルによって暗黙的に学習されるということである。
対象の形状を自己対応マップで特徴付けし,その意味を分断u-netで生成したクロスアテンションマップを通して示すことにより,セグメンテーション結果のベースとなることを見出し,さらに,効果的なテクスト的プロンプトとカテゴリフィルタリング機構を慎重に設計し,セグメンテーション結果をさらに強化する。
3つのベンチマークデータセットに関する広範囲な実験により、提案するdiffsegmenterは、open-vocabulary semantic segmentationの印象的な結果を得た。 The pre-trained text-image discriminative models, such as CLIP, has been explored for open-vocabulary semantic segmentation with unsatisfactory results due to the loss of crucial localization information and awareness of object shapes. Recently, there has been a growing interest in expanding the application of generative models from generation tasks to semantic segmentation. These approaches utilize generative models either for generating annotated data or extracting features to facilitate semantic segmentation. This typically involves generating a considerable amount of synthetic data or requiring additional mask annotations. To this end, we uncover the potential of generative text-to-image diffusion models (e.g., Stable Diffusion) as highly efficient open-vocabulary semantic segmenters, and introduce a novel training-free approach named DiffSegmenter. The insight is that to generate realistic objects that are semantically faithful to the input text, both the complete object shapes and the corresponding semantics are implicitly learned by diffusion models. We discover that the object shapes are characterized by the self-attention maps while the semantics are indicated through the cross-attention maps produced by the denoising U-Net, forming the basis of our segmentation results.Additionally, we carefully design effective textual prompts and a category filtering mechanism to further enhance the segmentation results. Extensive experiments on three benchmark datasets show that the proposed DiffSegmenter achieves impressive results for open-vocabulary semantic segmentation. | 翻訳日:2024-01-22 19:07:07 公開日:2024-01-19 |
# 深部ユニットテストケース生成のためのドメイン適応 Domain Adaptation for Deep Unit Test Case Generation ( http://arxiv.org/abs/2308.08033v2 ) ライセンス: Link先を確認 | Jiho Shin, Sepehr Hashtroudi, Hadi Hemmati, Song Wang | (参考訳) 近年,単体テストケースの自動生成のためのディープラーニングベースのテストケース生成手法が提案されている。
本研究では、トランスフォーマティブベースのコードモデルを利用して、プロジェクトレベルでドメイン適応(da)の助けを借りてユニットテストを生成する。
具体的には、ソースコードデータに基づいて訓練された比較的小さな言語モデルであるCodeT5を使用し、それをテスト生成タスクで微調整します。
Methods2testデータセットを使用してテスト生成タスクにCodeT5を微調整し、Defects4jデータセットをプロジェクトレベルのドメイン適応と評価に使用します。
私たちは我々のアプローチと比べる
(a) DAなしでテスト生成を微調整したCodeT5
(b)A3Testツール、および
(c) GPT-4、Defects4jデータセットから5つのプロジェクト。
その結果, DAを用いた場合, 平均18.62%, 19.88%, 18.02%のラインカバレッジが得られた。
(a)
(b)及び
(c)基準である。
BLEUやCodeBLEUといった他のメトリクスを使用した改善も一貫して実施されている。
さらに,本手法は,既存の検索ベースのテスト生成ツールであるevosuiteと相補的なソリューションと見なすことができ,平均34.42%と6.8%で全体のカバレッジと突然変異スコアを増加させ,線カバレッジと突然変異スコアをそれぞれ向上させる。 Recently, deep learning-based test case generation approaches have been proposed to automate the generation of unit test cases. In this study, we leverage Transformer-based code models to generate unit tests with the help of Domain Adaptation (DA) at a project level. Specifically, we use CodeT5, which is a relatively small language model trained on source code data, and fine-tune it on the test generation task; then again further fine-tune it on each target project data to learn the project-specific knowledge (project-level DA). We use the Methods2test dataset to fine-tune CodeT5 for the test generation task and the Defects4j dataset for project-level domain adaptation and evaluation. We compare our approach with (a) CodeT5 fine-tuned on the test generation without DA, (b) the A3Test tool, and (c) GPT-4, on 5 projects from the Defects4j dataset. The results show that using DA can increase the line coverage of the generated tests on average 18.62%, 19.88%, and 18.02% compared to the above (a), (b), and (c) baselines, respectively. The results also consistently show improvements using other metrics such as BLEU and CodeBLEU. In addition, we show that our approach can be seen as a complementary solution alongside existing search-based test generation tools such as EvoSuite, to increase the overall coverage and mutation scores with an average of 34.42% and 6.8%, for line coverage and mutation score, respectively. | 翻訳日:2024-01-22 19:06:10 公開日:2024-01-19 |
# 情報検索のための大規模言語モデル:調査 Large Language Models for Information Retrieval: A Survey ( http://arxiv.org/abs/2308.07107v3 ) ライセンス: Link先を確認 | Yutao Zhu, Huaying Yuan, Shuting Wang, Jiongnan Liu, Wenhan Liu, Chenlong Deng, Haonan Chen, Zhicheng Dou, and Ji-Rong Wen | (参考訳) 情報取得の主要な手段として,検索エンジンなどの情報検索(IR)システムが,私たちの日常生活に組み込まれている。
これらのシステムは対話、質問応答、推薦システムの構成要素としても機能する。
IRの軌道は、項ベースの手法の起源から高度なニューラルモデルとの統合まで、動的に進化してきた。
ニューラルネットワークは複雑なコンテキスト信号やセマンティックなニュアンスを捉えるのに優れており、IRのランドスケープを再構築するが、データ不足、解釈可能性、文脈的に妥当で不正確な応答の生成といった課題に直面している。
この進化には従来の手法(項ベースのスパース検索法と迅速な応答法など)と現代のニューラルアーキテクチャ(強力な言語理解能力を持つ言語モデルなど)の組み合わせが必要である。
一方、ChatGPTとGPT-4に代表される大規模言語モデル(LLM)の出現は、言語理解、生成、一般化、推論能力によって自然言語処理に革命をもたらした。
その結果、最近の研究はLLMをIRシステムの改善に活用しようと試みている。
この研究軌道の急速な進化を考えると、既存の方法論を整理し、包括的概要を通して微妙な洞察を提供する必要がある。
本調査では,クエリリフレクタ,レトリバー,リランカ,リーダといった重要な側面を含む,LLMとIRシステムの合流点を探索する。
さらに,この拡大分野において,探索エージェントなどの有望な方向を探究する。 As a primary means of information acquisition, information retrieval (IR) systems, such as search engines, have integrated themselves into our daily lives. These systems also serve as components of dialogue, question-answering, and recommender systems. The trajectory of IR has evolved dynamically from its origins in term-based methods to its integration with advanced neural models. While the neural models excel at capturing complex contextual signals and semantic nuances, thereby reshaping the IR landscape, they still face challenges such as data scarcity, interpretability, and the generation of contextually plausible yet potentially inaccurate responses. This evolution requires a combination of both traditional methods (such as term-based sparse retrieval methods with rapid response) and modern neural architectures (such as language models with powerful language understanding capacity). Meanwhile, the emergence of large language models (LLMs), typified by ChatGPT and GPT-4, has revolutionized natural language processing due to their remarkable language understanding, generation, generalization, and reasoning abilities. Consequently, recent research has sought to leverage LLMs to improve IR systems. Given the rapid evolution of this research trajectory, it is necessary to consolidate existing methodologies and provide nuanced insights through a comprehensive overview. In this survey, we delve into the confluence of LLMs and IR systems, including crucial aspects such as query rewriters, retrievers, rerankers, and readers. Additionally, we explore promising directions, such as search agents, within this expanding field. | 翻訳日:2024-01-22 19:05:45 公開日:2024-01-19 |
# UniversalNER: オープンネームエンティティ認識のための大規模言語モデルからの蒸留ターゲット UniversalNER: Targeted Distillation from Large Language Models for Open Named Entity Recognition ( http://arxiv.org/abs/2308.03279v2 ) ライセンス: Link先を確認 | Wenxuan Zhou, Sheng Zhang, Yu Gu, Muhao Chen, Hoifung Poon | (参考訳) 大規模言語モデル(LLM)は、任意の実体や関係を理解するなど、顕著な一般化性を示している。
インストラクションチューニングは、AlpacaやVicunaのようなよりコスト効率の良いモデルにLLMを蒸留するのに有効であることが証明されている。
しかし、これらの学生モデルは、下流のアプリケーションにおいて大きなマージンで元のLLMを追随している。
本稿では,オープン情報抽出などの幅広い応用クラスで優れた学生モデルを訓練するための,ミッション指向の指導チューニングによるターゲット蒸留について検討する。
ケーススタディでは、名前付きエンティティ認識(NER)を用いて、ChatGPTをより小さなUniversalNERモデルに蒸留してオープンNERを構築する方法を示す。
評価のために, バイオメディシン, プログラミング, ソーシャルメディア, 法律, ファイナンスなど9つの領域にわたる43のデータセットからなるNERベンチマークを作成した。
直接の監督を使わずに、UniversalNERは数万のエンティティタイプにまたがる顕著なNER精度を達成し、AlpacaやVicunaのような一般的な命令チューニングモデルよりも平均30以上の絶対的なF1点を達成している。
パラメータのごく一部で、UniversalNERは任意のエンティティタイプを認識するChatGPTの能力を取得するだけでなく、NERの精度を平均7-9絶対F1ポイントで上回る。
注目すべきは、UniversalNERは、教師付きNERの例を使用するInstructUIEのような、最先端のマルチタスク命令チューニングシステムよりも優れています。
また, 蒸留アプローチにおける各種成分の影響を評価するため, 徹底的なアブレーション試験を行った。
我々は,将来の蒸留研究を促進するために,蒸留レシピ,データ,ユニバーサルナーモデルをリリースする。 Large language models (LLMs) have demonstrated remarkable generalizability, such as understanding arbitrary entities and relations. Instruction tuning has proven effective for distilling LLMs into more cost-efficient models such as Alpaca and Vicuna. Yet such student models still trail the original LLMs by large margins in downstream applications. In this paper, we explore targeted distillation with mission-focused instruction tuning to train student models that can excel in a broad application class such as open information extraction. Using named entity recognition (NER) for case study, we show how ChatGPT can be distilled into much smaller UniversalNER models for open NER. For evaluation, we assemble the largest NER benchmark to date, comprising 43 datasets across 9 diverse domains such as biomedicine, programming, social media, law, finance. Without using any direct supervision, UniversalNER attains remarkable NER accuracy across tens of thousands of entity types, outperforming general instruction-tuned models such as Alpaca and Vicuna by over 30 absolute F1 points in average. With a tiny fraction of parameters, UniversalNER not only acquires ChatGPT's capability in recognizing arbitrary entity types, but also outperforms its NER accuracy by 7-9 absolute F1 points in average. Remarkably, UniversalNER even outperforms by a large margin state-of-the-art multi-task instruction-tuned systems such as InstructUIE, which uses supervised NER examples. We also conduct thorough ablation studies to assess the impact of various components in our distillation approach. We release the distillation recipe, data, and UniversalNER models to facilitate future research on targeted distillation. | 翻訳日:2024-01-22 19:05:20 公開日:2024-01-19 |
# 軌道角運動量の固有状態を記述する経路分布 Path distributions for describing eigenstates of orbital angular momentum ( http://arxiv.org/abs/2308.02884v4 ) ライセンス: Link先を確認 | Randall M. Feenstra | (参考訳) 軌道角運動量固有状態の波動関数を形成するために経路の確率振幅が合計される方法について述べる。
定常相解析の一般化を用いて、任意の固有状態に対して経路がどのように寄与するかを測る分布が導出される。
長い旅行時間の極限において、これらの分布は、経路の終点の間の古典的移動を記述する運動量変数の実数値、非負関数であることが判明する(非古典的経路を含む経路は、弾力性(elastica)の項で記述される)。
分布は、この特性運動量の両方の関数であり、また、エンドポイントを接続する測地線の、選択された座標系のz軸に対して傾きを与える極角である。
結果として得られた記述は、軌道角運動量を記述するためによく知られた「ベクトルモデル」の代替となり、重要な点は、量子数 $\ell$ が 0 である場合(すなわち s-状態)の処理を含む。 The manner in which probability amplitudes of paths sum up to form wave functions of orbital angular momentum eigenstates is described. Using a generalization of stationary-phase analysis, distributions are derived that provide a measure of how paths contribute towards any given eigenstate. In the limit of long travel-time, these distributions turn out to be real-valued, non-negative functions of a momentum variable that describes classical travel between the endpoints of a path (with the paths explicitly including nonclassical ones, described in terms of elastica). The distributions are functions of both this characteristic momentum as well as a polar angle that provides a tilt, relative to the z-axis of the chosen coordinate system, of the geodesic that connects the endpoints. The resulting description provides a replacement for the well-known "vector model" for describing orbital angular momentum, and importantly, it includes treatment of the case when the quantum number $\ell$ is zero (i.e., s-states). | 翻訳日:2024-01-22 19:04:49 公開日:2024-01-19 |
# SoK:ゴースト・トリレンマ SoK: The Ghost Trilemma ( http://arxiv.org/abs/2308.02202v3 ) ライセンス: Link先を確認 | Sulagna Mukherjee, Srivatsan Ravi, Paul Schmitt, Barath Raghavan | (参考訳) トロル、ボット、シビルはオンラインの会話を歪め、ネットワーク化されたプラットフォームのセキュリティを侵害する。
ユーザアイデンティティは、これらのコンテキストで使用される攻撃と操作のベクターの中心である。
しかし、そうやってみても、セキュリティコミュニティはこのような問題の潮流を食い止めることができなかったように思える。
我々は、完全分散環境では同時に検証できないアイデンティティー、位置、ユニーク性という3つの重要な特性が存在するというゴーストのトリレンマを仮定する。
コミュニケーションであれ社会的調整であれ、多くの完全に分散されたシステムは、何らかの形でこのトリレンマに悩まされている。
本稿では, 知識体系化(SoK)論文において, 設計空間, ユースケース, 先行アプローチの問題, 今後の可能性について検討する。
我々は、このトリレンマの証明をスケッチし、集中型信頼アンカーに対する信頼のトレードオフ、分散運用、および様々な攻撃に耐えながらユーザーのプライバシーを保護できる能力を実現するために、実用的な、段階的なデプロイ可能なスキームの選択肢を概説する。 Trolls, bots, and sybils distort online discourse and compromise the security of networked platforms. User identity is central to the vectors of attack and manipulation employed in these contexts. However it has long seemed that, try as it might, the security community has been unable to stem the rising tide of such problems. We posit the Ghost Trilemma, that there are three key properties of identity -- sentience, location, and uniqueness -- that cannot be simultaneously verified in a fully-decentralized setting. Many fully-decentralized systems -- whether for communication or social coordination -- grapple with this trilemma in some way, perhaps unknowingly. In this Systematization of Knowledge (SoK) paper, we examine the design space, use cases, problems with prior approaches, and possible paths forward. We sketch a proof of this trilemma and outline options for practical, incrementally deployable schemes to achieve an acceptable tradeoff of trust in centralized trust anchors, decentralized operation, and an ability to withstand a range of attacks, while protecting user privacy. | 翻訳日:2024-01-22 19:04:28 公開日:2024-01-19 |
# 一般化量子信号処理 Generalized Quantum Signal Processing ( http://arxiv.org/abs/2308.01501v2 ) ライセンス: Link先を確認 | Danial Motlagh and Nathan Wiebe | (参考訳) 量子信号処理(QSP)と量子特異値変換(QSVT)は現在、最も著名な量子アルゴリズムの中心にあるブロック符号化行列の関数を実装するための最も効率的な手法である。
しかし、現在のqspアプローチは、達成可能な多項式の族に課される制限や、特定の変換に必要な位相角を計算することの難しさなど、いくつかの課題に直面している。
本稿では,一般化量子信号処理(gqsp)の手法を提案する。
提案手法は,量子計算のユニタリ性による制約である$|P|\leq 1$を唯一の条件として,達成可能な変換の族に対する実効的な制限を解き放つ。
さらに、GQSPは、$P$と$Q$が知られている場合に多項式を構成するのに必要な回転角を決定するための簡単な再帰公式を提供する。
p$が知られている場合、私たちは1分以内のgpu時間で識別できる効率的な最適化アルゴリズムを提供し、それに対応する次数の多項式に対して10^7$の順番でq$を提供します。
さらに、gqspはハミルトニアンシミュレーションのためのqspベースの戦略を単純化し、$o(\frac{1}{\delta} + \log(\large\frac{1}{\epsilon}))$クエリを必要とする$\epsilon$-approximate fractional query問題に対する最適な解を提供し、$o(1/\delta)$が証明された下界である場合を実行するために、bosonic operatorを実装するための新しいアプローチを導入する。
さらに、通常の行列の実装のための新しいフレームワークを提案し、長さのフィルタに対して$O(d \log{N} + \log^2N)$ 1 および 2-qubit ゲートで動作する新しい畳み込みアルゴリズムを開発し、その適用性を実証する。 Quantum Signal Processing (QSP) and Quantum Singular Value Transformation (QSVT) currently stand as the most efficient techniques for implementing functions of block encoded matrices, a central task that lies at the heart of most prominent quantum algorithms. However, current QSP approaches face several challenges, such as the restrictions imposed on the family of achievable polynomials and the difficulty of calculating the required phase angles for specific transformations. In this paper, we present a Generalized Quantum Signal Processing (GQSP) approach, employing general SU(2) rotations as our signal processing operators, rather than relying solely on rotations in a single basis. Our approach lifts all practical restrictions on the family of achievable transformations, with the sole remaining condition being that $|P|\leq 1$, a restriction necessary due to the unitary nature of quantum computation. Furthermore, GQSP provides a straightforward recursive formula for determining the rotation angles needed to construct the polynomials in cases where $P$ and $Q$ are known. In cases where only $P$ is known, we provide an efficient optimization algorithm capable of identifying in under a minute of GPU time, a corresponding $Q$ for polynomials of degree on the order of $10^7$. We further illustrate GQSP simplifies QSP-based strategies for Hamiltonian simulation, offer an optimal solution to the $\epsilon$-approximate fractional query problem that requires $O(\frac{1}{\delta} + \log(\large\frac{1}{\epsilon}))$ queries to perform where $O(1/\delta)$ is a proved lower bound, and introduces novel approaches for implementing bosonic operators. Moreover, we propose a novel framework for the implementation of normal matrices, demonstrating its applicability through the development of a new convolution algorithm that runs in $O(d \log{N} + \log^2N)$ 1 and 2-qubit gates for a filter of lengths $d$. | 翻訳日:2024-01-22 19:04:07 公開日:2024-01-19 |
# TransNormerLLM: TransNormerを改善した高速で優れた大規模言語モデル TransNormerLLM: A Faster and Better Large Language Model with Improved TransNormer ( http://arxiv.org/abs/2307.14995v2 ) ライセンス: Link先を確認 | Zhen Qin, Dong Li, Weigao Sun, Weixuan Sun, Xuyang Shen, Xiaodong Han, Yunshen Wei, Baohong Lv, Xiao Luo, Yu Qiao, Yiran Zhong | (参考訳) 従来のソフトマックスアテンションモデルよりも精度と効率の両面で優れる最初の線形アテンションベースLarge Language Model (LLM) であるTransNormerLLMを提案する。
トランスノルメルムは、位置埋め込み、線形注意加速度、ゲーティング機構、テンソル正規化、推論の加速と安定化を含む高度な修正を行うことで、以前の線形注意アーキテクチャから進化する。
具体的には、LRPEと指数減衰を用いて、トークン間のグローバルな相互作用を保ちながら、注意希釈の問題を避ける。
さらに,線形注意を2倍以上高速化し,メモリ使用量を4倍に短縮する最先端技術であるlightning attentionを提案する。
トランスノーマーの性能をさらに高めるために,滑らかなトレーニングのためのゲーティング機構と,モデル加速のための新しいテンソル正規化スキームを活用し,印象的な加速を20-%$以上達成した。
さらに,シーケンス長に関わらず,数値安定性と一貫した推論速度を保証する頑健な推論アルゴリズムを開発し,トレーニングおよび推論段階において優れた効率を示す。
また、TransNormerLLMのための効率的なモデル並列スキーマを実装し、大規模クラスタへのシームレスなデプロイを可能にし、さらに広範囲なモデルの拡張を容易にする。
自己収集コーパス上に385M, 1B, 7Bの大きさの列車モデルとアブリケーションを用いてモデル設計を検証する。
ベンチマークの結果,我々のモデルは最先端llmとトランスフォーマーの性能に匹敵するだけでなく,はるかに高速であることが判明した。
コードはhttps://github.com/OpenNLPLab/TransnormerLLMで公開されている。 We present TransNormerLLM, the first linear attention-based Large Language Model (LLM) that outperforms conventional softmax attention-based models in terms of both accuracy and efficiency. TransNormerLLM evolves from the previous linear attention architecture TransNormer by making advanced modifications that include positional embedding, linear attention acceleration, gating mechanisms, tensor normalization, and inference acceleration and stabilization. Specifically, we use LRPE together with an exponential decay to avoid attention dilution issues while allowing the model to retain global interactions between tokens. Additionally, we propose Lightning Attention, a cutting-edge technique that accelerates linear attention by more than twice in runtime and reduces memory usage by a remarkable four times. To further enhance the performance of TransNormer, we leverage a gating mechanism for smooth training and a new tensor normalization scheme to accelerate the model, resulting in an impressive acceleration of over $20\%$. Furthermore, we develop a robust inference algorithm that ensures numerical stability and consistent inference speed, regardless of the sequence length, showcasing superior efficiency during both training and inference stages. We also implement an efficient model parallel schema for TransNormerLLM, enabling seamless deployment on large-scale clusters and facilitating expansion to even more extensive models, i.e., LLMs with 175B parameters. We validate our model design through a series of ablations and train models with sizes of 385M, 1B, and 7B on our self-collected corpus. Benchmark results demonstrate that our models not only match the performance of state-of-the-art LLMs with Transformer but are also significantly faster. Code is released at: https://github.com/OpenNLPLab/TransnormerLLM. | 翻訳日:2024-01-22 19:03:25 公開日:2024-01-19 |
# IBM量子ハードウェアにおけるTransmon Qudit測定の改善 Improving Transmon Qudit Measurement on IBM Quantum Hardware ( http://arxiv.org/abs/2307.13504v2 ) ライセンス: Link先を確認 | Tobias Kehrer, Tobias Nadolny, Christoph Bruder | (参考訳) 物理量子ビットのヒルベルト空間は典型的に2つのエネルギー準位を持つ。
量子ビット部分空間の外側の状態を使用すれば、量子計算の利点が得られる。
これらの利点の恩恵を受けるために、d$-次元のヒルベルト空間の個々の状態は読み出し中に判別されなければならない。
トランスモンqudit状態の識別性を向上させる2つの計測戦略を提案し,解析する。
共振器に結合したトランスモンquditの読み出しを記述するモデルに基づいて,各戦略が最適であるハードウェアパラメータ空間における状態を特定する。
これらの戦略は、2光子遷移を利用する高階の$X$ゲートを用いて状態が準備されているIBM Quantumハードウェア上でのクォート測定のデフォルト実装の実践的な文脈において議論する。 The Hilbert space of a physical qubit typically features more than two energy levels. Using states outside the qubit subspace can provide advantages in quantum computation. To benefit from these advantages, individual states of the $d$-dimensional qudit Hilbert space have to be discriminated during readout. We propose and analyze two measurement strategies that improve the distinguishability of transmon qudit states. Based on a model describing the readout of a transmon qudit coupled to a resonator, we identify the regime in hardware parameter space where each strategy is optimal. We discuss these strategies in the context of a practical implementation of the default measurement of a ququart on IBM Quantum hardware whose states are prepared by employing higher-order $X$ gates that make use of two-photon transitions. | 翻訳日:2024-01-22 19:02:56 公開日:2024-01-19 |
# 構造量子衝突モデル:熱資源とのコヒーレンスの生成 Structured quantum collision models: generating coherence with thermal resources ( http://arxiv.org/abs/2307.07463v2 ) ライセンス: Link先を確認 | Stefano Cusumano and Gabriele De Chiara | (参考訳) 量子衝突モデルは通常、環境を表す一連の補助単位と相互作用するシステムで構成される。
これらの補助系は通常2レベル系(TLS)または調和振動子のいずれかと仮定されるが、この研究ではさらに進み、各補助系を2つ以上のサブシステムからなる構造系として表現する。
このシナリオは、オープンシステムの進化のために得られるマスター方程式の種類をいかに修正するかを示す。
さらに,アシラ状態が熱的かつある程度のコヒーレンスを有する状況を考えることができる。
これにより、オープンシステムの定常状態におけるコヒーレンスの生成が可能になり、衝突モデルの単純さにより、システム内でコヒーレンスを作成するための熱力学的コストをよりよく理解することができる。
具体的には、系をコヒーレントな自由度と相互作用させるには作業コストが必要であり、熱力学の第1法則と第2法則を自然に満たすことができることを示した。 Quantum collision models normally consist of a system interacting with a set of ancillary units representing the environment. While these ancillary systems are usually assumed to be either two level systems (TLS) or harmonic oscillators, in this work we move further and represent each ancillary system as a structured system, i.e., a system made out of two or more subsystems. We show how this scenario modifies the kind of master equation that one can obtain for the evolution of the open systems. Moreover, we are able to consider a situation where the ancilla state is thermal yet has some coherence. This allows the generation of coherence in the steady state of the open system and, thanks to the simplicity of the collision model, this allows us to better understand the thermodynamic cost of creating coherence in a system. Specifically, we show that letting the system interact with the coherent degrees of freedom requires a work cost, leading to the natural fulfillment of the first and second law of thermodynamics without the necessity of {\it ad hoc} formulations. | 翻訳日:2024-01-22 19:02:44 公開日:2024-01-19 |
# Salted Inference: モバイルコンピューティングにおけるスプリット推論の効率を維持しながらプライバシを高める Salted Inference: Enhancing Privacy while Maintaining Efficiency of Split Inference in Mobile Computing ( http://arxiv.org/abs/2310.13384v2 ) ライセンス: Link先を確認 | Mohammad Malekzadeh and Fahim Kawsar | (参考訳) 分割推論では、ディープニューラルネットワーク(DNN)が分割され、DNNの初期段階をエッジで、DNNの後半をクラウドで実行する。
これはオンデバイス機械学習の2つの重要な要件を満たす:入力のプライバシと計算効率である。
それでも、DNNの出力がクラウドで観測可能であることを考えると、分割推論におけるオープンな疑問は出力プライバシーである。
暗号化コンピューティングは出力プライバシも保護できるが、準同型暗号化にはエッジデバイスとクラウドデバイスの両方からかなりの計算と通信リソースが必要になる。
本稿では,DNNの初期部分を実行するクライアントに対して,推論時にDNNの出力のセマンティック解釈を制御する,新たなアプローチであるSalted DNNを紹介する。
提案するSalted DNNは,標準のDNNと非常に近い分類精度と計算効率を維持している。
画像とウェアラブルセンサデータの両方で行った実験により、Salted DNNが標準DNNに非常に近い分類精度を達成できることが示され、特にSalted Layerが早期に位置決めされた場合、分割推論の要件を満たすことが示されている。
我々のアプローチは一般的であり、様々な種類のDNNに適用できる。
将来の研究のベンチマークとして、コードをオープンソースにしています。 In split inference, a deep neural network (DNN) is partitioned to run the early part of the DNN at the edge and the later part of the DNN in the cloud. This meets two key requirements for on-device machine learning: input privacy and computation efficiency. Still, an open question in split inference is output privacy, given that the outputs of the DNN are observable in the cloud. While encrypted computing can protect output privacy too, homomorphic encryption requires substantial computation and communication resources from both edge and cloud devices. In this paper, we introduce Salted DNNs: a novel approach that enables clients at the edge, who run the early part of the DNN, to control the semantic interpretation of the DNN's outputs at inference time. Our proposed Salted DNNs maintain classification accuracy and computation efficiency very close to the standard DNN counterparts. Experimental evaluations conducted on both images and wearable sensor data demonstrate that Salted DNNs attain classification accuracy very close to standard DNNs, particularly when the Salted Layer is positioned within the early part to meet the requirements of split inference. Our approach is general and can be applied to various types of DNNs. As a benchmark for future studies, we open-source our code. | 翻訳日:2024-01-22 18:56:59 公開日:2024-01-19 |
# 多様なデータ破壊下でのロバストオフライン強化学習に向けて Towards Robust Offline Reinforcement Learning under Diverse Data Corruption ( http://arxiv.org/abs/2310.12955v2 ) ライセンス: Link先を確認 | Rui Yang, Han Zhong, Jiawei Xu, Amy Zhang, Chongjie Zhang, Lei Han, Tong Zhang | (参考訳) オフライン強化学習(rl)は、コストのかかる、あるいは安全でない環境とのインタラクションを必要とせずに、オフラインデータセットから強化されたポリシーを学ぶための有望なアプローチを提供する。
しかし、実際の環境で人間が収集したデータセットは、しばしば騒々しく、悪質に悪用されることもあり、オフラインのRLの性能を著しく低下させる可能性がある。
本研究では,現状のオフラインrlアルゴリズムの性能を,状態,動作,報酬,ダイナミクスを含む総合的データ破損下で調査する。
我々の広範な実験により、暗黙のq-learning(iql)が様々なオフラインrlアルゴリズムにおけるデータ破損に対する顕著なレジリエンスを示していることが明らかとなった。
さらに、IQLのロバストなパフォーマンスを理解するために、実証的および理論的両方の分析を行い、その教師付きポリシー学習スキームを重要な要素とみなす。
相対的な堅牢性にもかかわらず、iqlはダイナミクス破壊下でq関数のヘビーテールターゲットに苦しめられている。
この課題に取り組むために,我々は,ヘビーテールネスを扱うためにフーバーロスを活用し,腐敗したデータに対するペナライゼーションと学習安定性のバランスをとるために,質的推定器を活用するためのロバストな統計からインスピレーションを得た。
これらの単純で効果的な修正をIQLに組み込むことで、ロバストIQL(RIQL)というより堅牢なオフラインRLアプローチを提案する。
大規模な実験により、RIQLはさまざまなデータ破損シナリオで非常に堅牢なパフォーマンスを示します。 Offline reinforcement learning (RL) presents a promising approach for learning reinforced policies from offline datasets without the need for costly or unsafe interactions with the environment. However, datasets collected by humans in real-world environments are often noisy and may even be maliciously corrupted, which can significantly degrade the performance of offline RL. In this work, we first investigate the performance of current offline RL algorithms under comprehensive data corruption, including states, actions, rewards, and dynamics. Our extensive experiments reveal that implicit Q-learning (IQL) demonstrates remarkable resilience to data corruption among various offline RL algorithms. Furthermore, we conduct both empirical and theoretical analyses to understand IQL's robust performance, identifying its supervised policy learning scheme as the key factor. Despite its relative robustness, IQL still suffers from heavy-tail targets of Q functions under dynamics corruption. To tackle this challenge, we draw inspiration from robust statistics to employ the Huber loss to handle the heavy-tailedness and utilize quantile estimators to balance penalization for corrupted data and learning stability. By incorporating these simple yet effective modifications into IQL, we propose a more robust offline RL approach named Robust IQL (RIQL). Extensive experiments demonstrate that RIQL exhibits highly robust performance when subjected to diverse data corruption scenarios. | 翻訳日:2024-01-22 18:56:39 公開日:2024-01-19 |
# 分離BF理論と多極対称性 Foliated BF theories and Multipole symmetries ( http://arxiv.org/abs/2310.06701v2 ) ライセンス: Link先を確認 | Hiromi Ebisu, Masazumi Honda, Taiichi Nakanishi | (参考訳) 移動制限付き準粒子励起をホストするフラクトン位相相の最近の研究により、対称性の概念が更新されている。
このような新しい対称性の1つ、大域的、双極子的、四重極的対称性を含む多極対称性、およびそれらの関係するゲージ場に焦点を当てて、従来の位相相のbf理論をそれらの間のカップリングを持つ層に積み重ねて構成する、$\mathbb{z}_n$ $2+1d$ foliated bf 理論の新たな集合を構築する。
ゲージ不変な非局所作用素を調べることで、我々の葉付きbf理論は系の大きさに応じて異常な基底状態の縮退を示し、n$ と系サイズの間の最大公約数に依存することを示した。
この結果は,フラクトン位相相のuv格子モデルと,葉付場理論の観点からの非慣習的モデルに対する統一的洞察を与える。 Due to the recent studies of the fracton topological phases, which host deconfined quasi-particle excitations with mobility restrictions, the concept of symmetries have been updated. Focusing on one of such new symmetries, multipole symmetries, including global, dipole, and quadruple symmetries, and gauge fields associated with them, we construct a new sets of $\mathbb{Z}_N$ $2+1d$ foliated BF theories, where BF theories of conventional topological phases are stacked in layers with couplings between them. By investigating gauge invariant non-local operators, we show that our foliated BF theories exhibit unusual ground state degeneracy depending on the system size; it depends on the greatest common divisor between $N$ and the system size. Our result provides a unified insight on UV lattice models of the fracton topological phases and other unconventional ones in view of foliated field theories. | 翻訳日:2024-01-22 18:56:16 公開日:2024-01-19 |
# 単一モード非線形キャビティにおける時間結晶 Time Crystal in a Single-mode Nonlinear Cavity ( http://arxiv.org/abs/2310.05854v2 ) ライセンス: Link先を確認 | Yaohua Li, Chenyang Wang, Yuanjiang Tang, Yong-Chun Liu | (参考訳) 時間結晶は、時間-遷移対称性が破れた非平衡相のクラスである。
ここでは,単一モード非線形共振器における時間結晶を示す。
時間結晶は、線形利得によって誘導される自己振動から発生し、非線形減衰により安定化される。
時間結晶相では、熱力学的極限におけるリウビリアンスペクトルの鋭い散逸ギャップの閉包と純粋な虚数固有値が存在する。
動的に、量子振動の発生を伴う準安定な状態を観察し、その後、振動周期よりもずっと小さな時間スケールで散逸進化を観察する。
さらに,モデルのホップ分岐において,定常状態における光子数変動を特徴付ける散逸相転移が存在することを示す。
これらの結果は、さらなる実験と時間結晶の理解を深めるための新しい有望な方法である。 Time crystal is a class of non-equilibrium phases with broken time-translational symmetry. Here we demonstrate the time crystal in a single-mode nonlinear cavity. The time crystal originates from the self-oscillation induced by a linear gain and is stabilized by a nonlinear damping. We show in the time crystal phase there are sharp dissipative gap closing and pure imaginary eigenvalues of the Liouvillian spectrum in the thermodynamic limit. Dynamically, we observe a metastable regime with the emergence of quantum oscillation, followed by a dissipative evolution with a time scale much smaller than the oscillating period. Moreover, we show there is a dissipative phase transition at the Hopf bifurcation of the model, which can be characterized by the photon number fluctuation in the steady state. These results pave a new promising way for further experiments and deepen our understanding of time crystals. | 翻訳日:2024-01-22 18:55:56 公開日:2024-01-19 |
# 教師付き微調整データ構成による大規模言語モデルの能力への影響 How Abilities in Large Language Models are Affected by Supervised Fine-tuning Data Composition ( http://arxiv.org/abs/2310.05492v3 ) ライセンス: Link先を確認 | Guanting Dong, Hongyi Yuan, Keming Lu, Chengpeng Li, Mingfeng Xue, Dayiheng Liu, Wei Wang, Zheng Yuan, Chang Zhou, Jingren Zhou | (参考訳) 膨大な事前学習トークンとパラメータを持つ大規模言語モデル(LLM)は、数学の推論、コード生成、命令フォローを含む多様な能力を生み出します。
これらの能力はsft(supervised fine-tuning)によってさらに強化される。
オープンソースコミュニティは、個々の能力を向上するためのアドホックなSFTを探してきたが、プロプライエタリなLLMは様々なスキルにまたがって多芸性を示している。
したがって、複数の能力をSFTで理解することが最重要である。
本研究では,SFTにおける数学的推論,コード生成,一般人適応能力間のデータ合成の相互作用に着目した。
本研究では,モデル性能とデータ量,構成比,モデルサイズ,sft戦略など様々な要因との関係を検討するため,興味深い4つの質問を提案する。
我々の実験では、異なる能力は異なるスケールでスケールし、より大きなモデルは一般に同じ量のデータで優れたパフォーマンスを示します。
数学的推論とコード生成はデータ量の増加によって一貫して改善され、一般的な能力はおよそ1000のサンプルの後に高まる。
また,データ構成は限られたデータ条件下では様々な能力を高めるように見えるが,データが豊富である場合には性能の衝突を引き起こす可能性がある。
また,合成データ量が合成率よりも性能に与える影響も示唆した。
SFT 戦略の分析では,複数のスキルを逐次学習すると破滅的な忘れが生ずる。
提案するdual-stage mixed fine-tuning (dmt)戦略は,スケーリングパターンが異なる複数の能力を学ぶための有望なソリューションを提供する。 Large language models (LLMs) with enormous pre-training tokens and parameters emerge diverse abilities, including math reasoning, code generation, and instruction following. These abilities are further enhanced by supervised fine-tuning (SFT). While the open-source community has explored ad-hoc SFT for enhancing individual capabilities, proprietary LLMs exhibit versatility across various skills. Therefore, understanding the facilitation of multiple abilities via SFT is paramount. In this study, we specifically focuses on the interplay of data composition between mathematical reasoning, code generation, and general human-aligning abilities during SFT. We propose four intriguing research questions to explore the association between model performance and various factors including data amount, composition ratio, model size and SFT strategies. Our experiments reveal that distinct capabilities scale differently and larger models generally show superior performance with same amount of data. Mathematical reasoning and code generation consistently improve with increasing data amount, whereas general abilities plateau after roughly a thousand samples. Moreover, we observe data composition appears to enhance various abilities under limited data conditions, yet can lead to performance conflicts when data is plentiful. Our findings also suggest the amount of composition data influences performance more than the composition ratio. In analysis of SFT strategies, we find that sequentially learning multiple skills risks catastrophic forgetting. Our proposed Dual-stage Mixed Fine-tuning (DMT) strategy offers a promising solution to learn multiple abilities with different scaling patterns. | 翻訳日:2024-01-22 18:55:43 公開日:2024-01-19 |
# BioBridge:知識グラフによるバイオメディカル基礎モデルのブリッジ BioBridge: Bridging Biomedical Foundation Models via Knowledge Graphs ( http://arxiv.org/abs/2310.03320v4 ) ライセンス: Link先を確認 | Zifeng Wang, Zichen Wang, Balasubramaniam Srinivasan, Vassilis N. Ioannidis, Huzefa Rangwala, Rishita Anubhai | (参考訳) 基盤モデル(fms)は、大量のラベルのないデータを活用し、幅広いタスクで優れたパフォーマンスを示すことができる。
しかし、生体医学領域向けに開発されたfmsは、独立に訓練され、タンパク質配列のみ、小分子構造のみ、臨床データのみのタスクに使用されている。
このようなバイオメディカルFMの限界を克服するため,新しいパラメータ効率学習フレームワークであるBioBridgeを提案し,独立に訓練された単調FMを橋渡しし,マルチモーダルな動作を確立する。
BioBridgeは、知識グラフ(KG)を使用して、基礎となる一助的FMを微調整することなく、1つの一助的FMともう1つの間の変換を学習する。
実験の結果,BioBridgeは,クロスモーダル検索タスクにおいて,最高のベースラインKG埋め込み手法(平均76.3%)を克服できることが示された。
また、BioBridgeは、未知のモダリティや関係を外挿することで、ドメイン外一般化能力を示す。
また,バイオブリッジは,生物医学的マルチモーダル質問応答を支援できる汎用レトリバーとして自らを提示し,新規医薬品の誘導生成を促進する。 Foundation models (FMs) are able to leverage large volumes of unlabeled data to demonstrate superior performance across a wide range of tasks. However, FMs developed for biomedical domains have largely remained unimodal, i.e., independently trained and used for tasks on protein sequences alone, small molecule structures alone, or clinical data alone. To overcome this limitation of biomedical FMs, we present BioBridge, a novel parameter-efficient learning framework, to bridge independently trained unimodal FMs to establish multimodal behavior. BioBridge achieves it by utilizing Knowledge Graphs (KG) to learn transformations between one unimodal FM and another without fine-tuning any underlying unimodal FMs. Our empirical results demonstrate that BioBridge can beat the best baseline KG embedding methods (on average by around 76.3%) in cross-modal retrieval tasks. We also identify BioBridge demonstrates out-of-domain generalization ability by extrapolating to unseen modalities or relations. Additionally, we also show that BioBridge presents itself as a general purpose retriever that can aid biomedical multimodal question answering as well as enhance the guided generation of novel drugs. | 翻訳日:2024-01-22 18:54:50 公開日:2024-01-19 |
# llmcarbon: 大規模言語モデルのエンドツーエンドカーボンフットプリントのモデリング LLMCarbon: Modeling the end-to-end Carbon Footprint of Large Language Models ( http://arxiv.org/abs/2309.14393v2 ) ライセンス: Link先を確認 | Ahmad Faiz, Sotaro Kaneda, Ruhan Wang, Rita Osi, Prateek Sharma, Fan Chen, Lei Jiang | (参考訳) 大規模言語モデル(llms)に関連するカーボンフットプリントは、その訓練、推論、実験、貯蔵プロセスから排出される二酸化炭素(運用および具体化炭素排出量を含む)を含む重要な関心事である。
重要な側面は、GPUの使用量に大きく依存するトレーニング前であっても、新興LLMのカーボンインパクトを正確に見積もることである。
既存の研究では、LLMトレーニングの炭素フットプリントが報告されているが、物理的なトレーニングの前に新しいニューラルネットワークの炭素フットプリントを予測するツールはmlco2のみである。
しかし、mlco2にはいくつかの重大な制限がある。
評価を高密度または混合専門家(MoE)のLLMに拡張することはできず、重要なアーキテクチャパラメータを無視し、GPUにのみ焦点を合わせ、具体化された炭素フットプリントをモデル化することはできない。
これらのギャップに対処するために、高密度およびMoE LLMの両方のために設計されたエンドツーエンドの炭素フットプリントプロジェクションモデルである \textit{\carb} を導入する。
mlco2と比較して、カーブは様々なLCMの炭素フットプリント推定の精度を著しく向上させる。
ソースコードは \url{https://github.com/sotarokaneda/mlcarbon} で公開されている。 The carbon footprint associated with large language models (LLMs) is a significant concern, encompassing emissions from their training, inference, experimentation, and storage processes, including operational and embodied carbon emissions. An essential aspect is accurately estimating the carbon impact of emerging LLMs even before their training, which heavily relies on GPU usage. Existing studies have reported the carbon footprint of LLM training, but only one tool, mlco2, can predict the carbon footprint of new neural networks prior to physical training. However, mlco2 has several serious limitations. It cannot extend its estimation to dense or mixture-of-experts (MoE) LLMs, disregards critical architectural parameters, focuses solely on GPUs, and cannot model embodied carbon footprints. Addressing these gaps, we introduce \textit{\carb}, an end-to-end carbon footprint projection model designed for both dense and MoE LLMs. Compared to mlco2, \carb~significantly enhances the accuracy of carbon footprint estimations for various LLMs. The source code is released at \url{https://github.com/SotaroKaneda/MLCarbon}. | 翻訳日:2024-01-22 18:53:39 公開日:2024-01-19 |
# 古典的サンプリングと生成モデルにおける資源としての量子状態測定のための自由ランチ定理 No free lunch theorems for quantum state measurements as resources in classical sampling and generative modelling ( http://arxiv.org/abs/2309.13967v2 ) ライセンス: Link先を確認 | Steven Herbert | (参考訳) 量子状態$\textit{almost all}$ がユニタリ群上のハール測度に従ってサンプリングされた場合、次の性質を持つことを証明している: 古典的生成モデルやサンプリングアルゴリズムにおいて入力として取られる潜時確率変数を、状態のコピーが測定された場合、同じターゲット分布の集合を生成することができる任意の代替状態は、同じ全体のコストでそれを行う。
ここでは、入力分布から準備できる全ての可能な分布からサンプリングする際の総コストを総和計算複雑性として定義する。
この結果は入力ビットストリングと出力ビットストリングの任意の長さを保ち、任意の長さのランダムビットストリングを任意に追加資源として提供する。
一対の代替候補状態が、一方のケースでは古典的シミュレーションが容易で他方では困難であるようなシナリオを構築するのが容易であるため、その結果が潜在確率変数を得るのがいかに難しいか、また、古典的サンプリングや生成モデルにおいて資源として有用であるかを分離することができる。 We prove that $\textit{almost all}$ quantum states, when sampled according to the Haar measure over the unitary group, have the following property: if copies of the state are measured to provide latent random variables which are taken as an input in a classical generative model or sampling algorithm, then any alternative state whose measurements can generate the same set of target distributions will do so with the same overall cost. Here, we define the overall cost as the aggregate computational complexity of sampling from all possible distributions that can be prepared from the given input distribution. Our result holds for any length of input and output bitstring and when a uniformly random bitstring of any length is optionally provided as an additional resource. As it is easy to construct scenarios where a pair of alternative candidate states are such that classical simulation of the preparation thereof is easy in one case and hard in the other, the result can be viewed as decoupling how hard it is to obtain a latent random variable, and how useful it is as a resource in classical sampling and generative modelling. | 翻訳日:2024-01-22 18:53:19 公開日:2024-01-19 |
# 大規模言語モデルを用いた学習用マルチコース質問説明の改善のための反復的改善の検討 Exploring Iterative Enhancement for Improving Learnersourced Multiple-Choice Question Explanations with Large Language Models ( http://arxiv.org/abs/2309.10444v3 ) ライセンス: Link先を確認 | Qiming Bao, Juho Leinonen, Alex Yuxuan Peng, Wanjun Zhong, Ga\"el Gendron, Timothy Pistotti, Alice Huang, Paul Denny, Michael Witbrock and Jiamou Liu | (参考訳) 大規模言語モデルは、言語処理と理解において優れた能力を示すが、教育的文脈におけるそれらの応用は未熟である。
学習のアウトソーシングは、学生が独自の教育コンテンツを作成することを促す。
学習者が複数の選択質問をソーシングする場合、質問の解法を説明することは重要なステップであり、他の学生が解法を理解し、関連する概念のより深い理解を促進するのに役立つ。
しかし, 被験者の理解が限られているため, 効果的な解法を説明することは困難であることが多い。
自動説明生成のタスクを足場として,大規模言語モデルを用いて与えられた質問に対する説明を反復的に強化する「ILearner-LLM」というフレームワークを提示し,評価する。
説明生成モデルと説明評価モデルとからなるフレームワークは、評価モデルから品質評価スコアを説明生成モデルの指示プロンプトに反復的に送り込むことにより、高品質な学生対応説明を生成する。
実験の結果,LLaMA2-13BとGPT-4に対するILearner-LLMの有効性が示され,PierWiseの5つのデータセットの学生に類似した高品質な説明が得られた。
本研究は,学生の学習者ソーシング経験を豊かにし,教育用大規模言語モデルの能力を高めるための有望な道筋を示す。 Large language models exhibit superior capabilities in processing and understanding language, yet their applications in educational contexts remain underexplored. Learnersourcing enhances learning by engaging students in creating their own educational content. When learnersourcing multiple-choice questions, creating explanations for the solution of a question is a crucial step; it helps other students understand the solution and promotes a deeper understanding of related concepts. However, it is often difficult for students to craft effective solution explanations, due to limited subject understanding. To help scaffold the task of automated explanation generation, we present and evaluate a framework called "ILearner-LLM", that iteratively enhances the generated explanations for the given questions with large language models. Comprising an explanation generation model and an explanation evaluation model, the framework generates high-quality student-aligned explanations by iteratively feeding the quality rating score from the evaluation model back into the instruction prompt of the explanation generation model. Experimental results demonstrate the effectiveness of our ILearner-LLM on LLaMA2-13B and GPT-4 to generate higher quality explanations that are closer to those written by students on five PeerWise datasets. Our findings represent a promising path to enrich the learnersourcing experience for students and to enhance the capabilities of large language models for educational applications. | 翻訳日:2024-01-22 18:52:09 公開日:2024-01-19 |
# ソフトラテント方向によるプログレッシブテキスト・画像拡散 Progressive Text-to-Image Diffusion with Soft Latent Direction ( http://arxiv.org/abs/2309.09466v2 ) ライセンス: Link先を確認 | YuTeng Ye, Jiale Cai, Hang Zhou, Guanwen Li, Youjia Zhang, Zikai Song, Chenxing Gao, Junqing Yu, Wei Yang | (参考訳) テキスト対画像生成の急速な発展にもかかわらず、特定の関係制約に固執しながら複数のエンティティの合成と操作は永続的な課題をもたらす。
本稿では,対象画像にエンティティを体系的に組み込んだ革新的プログレッシブな合成・編集操作を導入し,各ステップにおける空間的および関係的制約の順守を保証する。
我々の重要な洞察は、事前訓練されたテキスト・ツー・イメージ拡散モデルが1つか2つのエンティティを順応的に扱うのに対して、より大きな数を扱う場合、しばしばフェールする、という観察に由来する。
この制限に対処するために,大規模言語モデル(LLM)の機能を活用して,複雑なテキスト記述を厳密な形式に固執するコヒーレントディレクティブに分解する手法を提案する。
Stimulus, Response, and Fusion(SRF)フレームワークを定式化して、個別の意味操作、すなわち挿入、編集、消去を含むディレクティブの実行を容易にする。
このフレームワーク内では、潜在領域は各操作に合わせて緩やかに刺激され、次いで応答性の潜在コンポーネントが融合して凝集したエンティティ操作を実現する。
提案手法は,特に複雑なテキスト入力に直面する場合に,オブジェクト合成の顕著な進歩をもたらす。
そのため、テキストから画像への生成タスクの新しいベンチマークを確立し、この分野のパフォーマンス基準をさらに高めます。 In spite of the rapidly evolving landscape of text-to-image generation, the synthesis and manipulation of multiple entities while adhering to specific relational constraints pose enduring challenges. This paper introduces an innovative progressive synthesis and editing operation that systematically incorporates entities into the target image, ensuring their adherence to spatial and relational constraints at each sequential step. Our key insight stems from the observation that while a pre-trained text-to-image diffusion model adeptly handles one or two entities, it often falters when dealing with a greater number. To address this limitation, we propose harnessing the capabilities of a Large Language Model (LLM) to decompose intricate and protracted text descriptions into coherent directives adhering to stringent formats. To facilitate the execution of directives involving distinct semantic operations-namely insertion, editing, and erasing-we formulate the Stimulus, Response, and Fusion (SRF) framework. Within this framework, latent regions are gently stimulated in alignment with each operation, followed by the fusion of the responsive latent components to achieve cohesive entity manipulation. Our proposed framework yields notable advancements in object synthesis, particularly when confronted with intricate and lengthy textual inputs. Consequently, it establishes a new benchmark for text-to-image generation tasks, further elevating the field's performance standards. | 翻訳日:2024-01-22 18:51:20 公開日:2024-01-19 |
# 分数勾配降下の収束解析 Convergence Analysis of Fractional Gradient Descent ( http://arxiv.org/abs/2311.18426v3 ) ライセンス: Link先を確認 | Ashwani Aggarwal | (参考訳) 分数微分は整数次微分のよく研究された一般化である。
当然、最適化には分数微分を用いた勾配降下の収束特性を理解することが重要である。
分数勾配降下の収束解析は現在,解析手法と解析手法の両方において限定されている。
本稿では,滑らかかつ凸,滑らかかつ強い凸,滑らかかつ非凸設定における分数勾配降下の変動を解析することにより,これらのギャップを埋めることを目的とする。
まず、新しい境界は分数と整数の微分を橋渡しする。
次に、上記の設定にこれらの境界を適用して、滑らかで強い凸函数に対する線型収束と滑らかで凸関数に対する$O(1/T)$収束を証明する。
さらに、滑らかで非凸な函数に対する$O(1/T)$収束を、分数微分に対してより自然な滑らかさ(H\\older smoothness)という拡張概念を用いて証明する。
最後に、実験結果として、標準勾配降下よりも分数勾配降下のポテンシャル速度と、一般により高速になるであろう予測の課題について提示する。 Fractional derivatives are a well-studied generalization of integer order derivatives. Naturally, for optimization, it is of interest to understand the convergence properties of gradient descent using fractional derivatives. Convergence analysis of fractional gradient descent is currently limited both in the methods analyzed and the settings analyzed. This paper aims to fill in these gaps by analyzing variations of fractional gradient descent in smooth and convex, smooth and strongly convex, and smooth and non-convex settings. First, novel bounds will be established bridging fractional and integer derivatives. Then, these bounds will be applied to the aforementioned settings to prove linear convergence for smooth and strongly convex functions and $O(1/T)$ convergence for smooth and convex functions. Additionally, we prove $O(1/T)$ convergence for smooth and non-convex functions using an extended notion of smoothness - H\"older smoothness - that is more natural for fractional derivatives. Finally, empirical results will be presented on the potential speed up of fractional gradient descent over standard gradient descent as well as the challenges of predicting which will be faster in general. | 翻訳日:2024-01-22 18:43:44 公開日:2024-01-19 |
# Adaptive Image Registration: 精度向上のためのディープラーニングと最適化機能を統合するハイブリッドアプローチ Adaptive Image Registration: A Hybrid Approach Integrating Deep Learning and Optimization Functions for Enhanced Precision ( http://arxiv.org/abs/2311.15497v3 ) ライセンス: Link先を確認 | Gabriel De Araujo, Shanlin Sun, Xiaohui Xie | (参考訳) 画像登録は伝統的に2つの異なるアプローチを用いて行われてきた: 学習ベースの手法、堅牢なディープニューラルネットワークに依存し、最適化ベースの手法。
もちろん、どちらのパラダイムも長所と短所を提供しており、本研究では、最大の損失をもたらす画像対の計算パワーを優先しながら、学習ベース手法の出力を最適化のための初期パラメータとして使用し、それぞれの強みを単一の合理化フレームワークに組み合わせようとしている。
解析の結果, 試験データの最大1.6%の改善が得られたが, 同じ推定時間を維持し, 変形磁場の滑らか度は1.0%向上した。 Image registration has traditionally been done using two distinct approaches: learning based methods, relying on robust deep neural networks, and optimization-based methods, applying complex mathematical transformations to warp images accordingly. Of course, both paradigms offer advantages and disadvantages, and, in this work, we seek to combine their respective strengths into a single streamlined framework, using the outputs of the learning based method as initial parameters for optimization while prioritizing computational power for the image pairs that offer the greatest loss. Our investigations showed improvements of up to 1.6% in test data, while maintaining the same inference time, and a substantial 1.0% points performance gain in deformation field smoothness. | 翻訳日:2024-01-22 18:43:27 公開日:2024-01-19 |
# MCReSANetを用いた低電圧グリッドにおける高調波電流発生のためのデータ駆動モデリング Data-Driven Modelling for Harmonic Current Emission in Low-Voltage Grid Using MCReSANet with Interpretability Analysis ( http://arxiv.org/abs/2311.15420v2 ) ライセンス: Link先を確認 | Jieyu Yao, Hao Yu, Paul Judge, Jiabin Jia, Sasa Djokic, Verner P\"uvi, Matti Lehtonen, Jan Meyer | (参考訳) 電力エレクトロニクス PE の負荷は、電力変換効率と制御を向上させるが、グリッドにおけるハーモニクスの主要な源はそれらである。
分布系で多様な負荷が結合されると、その相互作用は調和電圧と電流の関係に関する解析モデルを確立する。
そこで本論文では,mresanetを用いた高調波電圧と電流の非線形なデータ駆動モデルを提案する。
フィンランドとドイツのpccsから得られた2つのデータセットを用いて、マクレサネットが選択されたフィンランドとドイツのデータセットの様々なネットワーク特性が存在する場合でも、正確な非線形マッピングを確立できることを実証する。
MCReSANetが構築したモデルでは、CNNと比較してMAEが10%、CNNが14%改善され、フィンランドとドイツの両方のデータセットのMLPに比べて8%と17%改善され、モデルの不確実性が他のモデルよりもはるかに低い。
本論文は,モデル解釈可能性解析の手法である,より正確なSHAP値に基づく特徴重要度解析のための重要な前提条件である。
特徴量分析の結果,分布系における高調波電圧の次数と電流の関係が詳細に示された。
それぞれの高調波電流の順序にはインタラクティブな影響があるが、高調波電圧の順序は高調波電流の放出に支配的な影響を与えている: 正の列とゼロの列の高調波は、それぞれフィンランドとドイツのネットワークにおいて支配的な重要性を持ち、2つの選択されたフィンランドとドイツのデータセットで接続された負荷タイプのパターンに準拠している。
本稿では,配電系統における多種多様PE負荷による高調波電流放出の理解と予測の可能性を高めるとともに,多種多様グリッド環境における電力品質の最適化に有効であることを示す。 Even though the use of power electronics PE loads offers enhanced electrical energy conversion efficiency and control, they remain the primary sources of harmonics in grids. When diverse loads are connected in the distribution system, their interactions complicate establishing analytical models for the relationship between harmonic voltages and currents. To solve this, our paper presents a data-driven model using MCReSANet to construct the highly nonlinear between harmonic voltage and current. Two datasets from PCCs in Finland and Germany are utilized, which demonstrates that MCReSANet is capable of establishing accurate nonlinear mappings, even in the presence of various network characteristics for selected Finland and Germany datasets. The model built by MCReSANet can improve the MAE by 10% and 14% compared to the CNN, and by 8% and 17% compared to the MLP for both Finnish and German datasets, also showing much lower model uncertainty than others. This is a crucial prerequisite for more precise SHAP value-based feature importance analysis, which is a method for the model interpretability analysis in this paper. The results by feature importance analysis show the detailed relationships between each order of harmonic voltage and current in the distribution system. There is an interactive impact on each order of harmonic current, but some orders of harmonic voltages have a dominant influence on harmonic current emissions: positive sequence and zero sequence harmonics have the dominant importance in the Finnish and German networks, respectively, which conforms to the pattern of connected load types in two selected Finnish and German datasets. This paper enhances the potential for understanding and predicting harmonic current emissions by diverse PE loads in distribution systems, which is beneficial to more effective management for optimizing power quality in diverse grid environments. | 翻訳日:2024-01-22 18:43:13 公開日:2024-01-19 |
# 自動医療報告におけるトランスフォーマーベースプロンプトエンジニアリングによる要約性能の向上 Enhancing Summarization Performance through Transformer-Based Prompt Engineering in Automated Medical Reporting ( http://arxiv.org/abs/2311.13274v2 ) ライセンス: Link先を確認 | Daphne van Zandvoort, Laura Wiersema, Tom Huibers, Sandra van Dulmen, Sjaak Brinkkemper | (参考訳) カスタマイズされた医療プロンプトにより、Large Language Models (LLM) は医療対話の要約に効果的に対応できる。
医療報告のプロセスは、しばしば医療専門家にとって時間を要する。
医療対話要約手法の実装は, 医療報告の自動作成によって, 時間制約を緩和するための有効な解決策を提供する。
このプロセスにおけるLCMの有効性は、生成したレポートの品質と関連性を決定する上で重要な役割を担うプロンプトの定式化に大きく影響される。
本研究では, ショットプロンプトとパターンプロンプトという2つの異なるプロンプト戦略を組み合わせて, 自動医療報告の性能向上を図った。
ROUGEスコアと人的評価を専門家パネルの助けを借りて自動医療報告の評価を行う。
スコープとドメインコンテキストを組み合わせた2ショットプロンプトアプローチは、他のメソッドよりも優れており、一般的な実践者が設定したヒューマンリファレンスと比較して最高スコアを達成している。
しかし、自動レポートは、レポートに追加される冗長な文と関連する文の両方を追加するため、人間の参照の約2倍の長さである。 Customized medical prompts enable Large Language Models (LLM) to effectively address medical dialogue summarization. The process of medical reporting is often time-consuming for healthcare professionals. Implementing medical dialogue summarization techniques presents a viable solution to alleviate this time constraint by generating automated medical reports. The effectiveness of LLMs in this process is significantly influenced by the formulation of the prompt, which plays a crucial role in determining the quality and relevance of the generated reports. In this research, we used a combination of two distinct prompting strategies, known as shot prompting and pattern prompting to enhance the performance of automated medical reporting. The evaluation of the automated medical reports is carried out using the ROUGE score and a human evaluation with the help of an expert panel. The two-shot prompting approach in combination with scope and domain context outperforms other methods and achieves the highest score when compared to the human reference set by a general practitioner. However, the automated reports are approximately twice as long as the human references, due to the addition of both redundant and relevant statements that are added to the report. | 翻訳日:2024-01-22 18:42:42 公開日:2024-01-19 |
# グラフの大規模言語モデルに関する調査 - 進展と今後の方向性 A Survey of Graph Meets Large Language Model: Progress and Future Directions ( http://arxiv.org/abs/2311.12399v3 ) ライセンス: Link先を確認 | Yuhan Li, Zhixun Li, Peisong Wang, Jia Li, Xiangguo Sun, Hong Cheng, Jeffrey Xu Yu | (参考訳) グラフは、引用ネットワーク、ソーシャルネットワーク、生物学的データといった現実世界のアプリケーションにおける複雑な関係の表現と分析において重要な役割を果たす。
近年,様々な領域で大きな成功を収めたLarge Language Models (LLM) もグラフ関連タスクに活用され,従来のグラフニューラルネットワーク(GNN)ベースの手法を超越し,最先端のパフォーマンスを実現している。
本稿ではまず,LLMとグラフを統合する既存手法の総合的なレビューと分析を行う。
まず,グラフ関連タスクにおいてllmが果たす役割(エンハンサー,予測子,アライメント成分)に基づいて,既存の手法を3つのカテゴリに分類する新しい分類法を提案する。
次に,分類学の3つのカテゴリに沿って,代表的な手法を体系的に調査する。
最後に,既存研究の残り限界について論じ,今後の研究に期待できる道のりを明らかにする。
関連する論文は要約され、一貫して更新される。 https://github.com/yhLeeee/Awesome-LLMs-in-Graph-tasks。 Graph plays a significant role in representing and analyzing complex relationships in real-world applications such as citation networks, social networks, and biological data. Recently, Large Language Models (LLMs), which have achieved tremendous success in various domains, have also been leveraged in graph-related tasks to surpass traditional Graph Neural Networks (GNNs) based methods and yield state-of-the-art performance. In this survey, we first present a comprehensive review and analysis of existing methods that integrate LLMs with graphs. First of all, we propose a new taxonomy, which organizes existing methods into three categories based on the role (i.e., enhancer, predictor, and alignment component) played by LLMs in graph-related tasks. Then we systematically survey the representative methods along the three categories of the taxonomy. Finally, we discuss the remaining limitations of existing studies and highlight promising avenues for future research. The relevant papers are summarized and will be consistently updated at: https://github.com/yhLeeee/Awesome-LLMs-in-Graph-tasks. | 翻訳日:2024-01-22 18:42:23 公開日:2024-01-19 |
# LogLead -- 高速で統合されたログローダ、エンハンサー、異常検出器 LogLead -- Fast and Integrated Log Loader, Enhancer, and Anomaly Detector ( http://arxiv.org/abs/2311.11809v2 ) ライセンス: Link先を確認 | Mika M\"antyl\"a, Yuqing Wang, Jesse Nyyss\"ol\"a | (参考訳) 本稿では,効率的なログ解析ベンチマークのためのツールであるlogleadを紹介する。
logleadはログ処理において、ロード、強化、異常検出という3つの重要なステップを組み合わせる。
このツールは、高速なDataFrameライブラリであるPolarsを活用する。
現在、公開されている8つのシステム(HDFS、Hadoop、BGL、Thunderbird、Spirit、Liberty、TrainTicket、GC Webshop)に対してLoaderを提供しています。
3つのパーサ(Drain、Spell、LenMa)を備えた複数のエンハンサー、Bert組み込み生成、およびbaba-of-wordsのようなログ表現技術があります。
LogLeadはSKLearnから異常検出を行う5つの教師付きと4つの教師なし機械学習アルゴリズムを統合している。
多様なデータセット、ログ表現方法、異常検出機能を統合することで、ログ分析研究における包括的なベンチマークを容易にする。
生ファイルからデータフレームへのログ読み込みは,これまでのソリューションと比較してlogleadで10倍以上高速であることを示す。
我々はlogleadへのログメッセージ正規化のオフロードによるドレイン解析速度の約2倍の改善を示す。
HDFSの簡単なベンチマークでは、bag-of-wordsアプローチを超えて拡張されたログ表現が、限定的なメリットを提供することを示している。
ツールURL: https://github.com/EvoTestOps/LogLead This paper introduces LogLead, a tool designed for efficient log analysis benchmarking. LogLead combines three essential steps in log processing: loading, enhancing, and anomaly detection. The tool leverages Polars, a high-speed DataFrame library. We currently have Loaders for eight systems that are publicly available (HDFS, Hadoop, BGL, Thunderbird, Spirit, Liberty, TrainTicket, and GC Webshop). We have multiple enhancers with three parsers (Drain, Spell, LenMa), Bert embedding creation and other log representation techniques like bag-of-words. LogLead integrates to five supervised and four unsupervised machine learning algorithms for anomaly detection from SKLearn. By integrating diverse datasets, log representation methods and anomaly detectors, LogLead facilitates comprehensive benchmarking in log analysis research. We show that log loading from raw file to dataframe is over 10x faster with LogLead compared to past solutions. We demonstrate roughly 2x improvement in Drain parsing speed by off-loading log message normalization to LogLead. Our brief benchmarking on HDFS indicates that log representations extending beyond the bag-of-words approach offer limited additional benefits. Tool URL: https://github.com/EvoTestOps/LogLead | 翻訳日:2024-01-22 18:42:06 公開日:2024-01-19 |
# 量子コンピューティングに関する講義ノート Lecture notes on quantum computing ( http://arxiv.org/abs/2311.08445v2 ) ライセンス: Link先を確認 | Anton Frisk Kockum, Ariadna Soro, Laura Garc\'ia-\'Alvarez, Pontus Vikst{\aa}l, Tom Douce, G\"oran Johansson, Giulia Ferrini | (参考訳) これらは、2020年から毎年秋にチャルマース工科大学で教わる修士課程「量子コンピューティング」の講義ノートであり、rwth aachen と delft university of technology の学生が参加している。
このコースの目的は、特定のハードウェア実装を除く量子コンピューティングの理論的概要を提供することである。
Topics covered in these notes include quantum algorithms (such as Grover's algorithm, the quantum Fourier transform, phase estimation, and Shor's algorithm), variational quantum algorithms that utilise an interplay between classical and quantum computers [such as the variational quantum eigensolver (VQE) and the quantum approximate optimisation algorithm (QAOA), among others], quantum error correction, various versions of quantum computing (such as measurement-based quantum computation, adiabatic quantum computation, and the continuous-variable approach to quantum information), the intersection of quantum computing and machine learning, and quantum complexity theory.
これらのトピックに関する講義は12の章にまとめられ、そのほとんどが最後に推奨されるいくつかのエクササイズを含んでおり、実践的なエクササイズと詳細を提供する4つのチュートリアルが組み合わされている。
chalmersでは、コースは7週間で教えられ、週に3回の講義またはチュートリアルが行われる。
このコースを受講した学生は、量子物理学の経験があるが、厳密には必要ではない。 These are the lecture notes of the master's course "Quantum Computing", taught at Chalmers University of Technology every fall since 2020, with participation of students from RWTH Aachen and Delft University of Technology. The aim of this course is to provide a theoretical overview of quantum computing, excluding specific hardware implementations. Topics covered in these notes include quantum algorithms (such as Grover's algorithm, the quantum Fourier transform, phase estimation, and Shor's algorithm), variational quantum algorithms that utilise an interplay between classical and quantum computers [such as the variational quantum eigensolver (VQE) and the quantum approximate optimisation algorithm (QAOA), among others], quantum error correction, various versions of quantum computing (such as measurement-based quantum computation, adiabatic quantum computation, and the continuous-variable approach to quantum information), the intersection of quantum computing and machine learning, and quantum complexity theory. Lectures on these topics are compiled into 12 chapters, most of which contain a few suggested exercises at the end, and interspersed with four tutorials, which provide practical exercises as well as further details. At Chalmers, the course is taught in seven weeks, with three two-hour lectures or tutorials per week. It is recommended that the students taking the course have some previous experience with quantum physics, but not strictly necessary. | 翻訳日:2024-01-22 18:41:45 公開日:2024-01-19 |
# 基礎グラフモデル A Foundation Graph Model ( http://arxiv.org/abs/2311.03976v2 ) ライセンス: Link先を確認 | Alex O. Davies, Riku W. Green, Nirav S. Ajmeri, Telmo M. Silva Filho | (参考訳) 教師なしグラフ表現学習の主な利点は、訓練済みのモデルをデータやラベルが不足している場所で微調整できることである。
既存のアプローチはドメイン特化であり、事前トレーニングとターゲットデータセット間で一貫性のあるノードとエッジ属性を維持する。
これは他のドメインへの転送を妨げる。
任意のタスクやドメインに対して正の転送が可能なモデルは、最初の基礎グラフモデルを表す。
本研究では,ノードとエッジ特徴の排除に基づくグラフ事前学習手法であるfotomを,逆コントラスト学習を用いて提示する。
複数のグラフドメイン上のモデルを事前トレーニングするためにFoToMを使用し、最初の基礎グラフモデルを作成します。
事前学習データに存在しない領域を含む複数のドメインからの評価データセットに正の転送を示す。
すべてのデータセットでパフォーマンスは最悪で、教師付きベースライン(p \leq 0.01$)よりも76%も改善され、95%の信頼性でエラーが8~40%削減されている。
他の研究とは対照的に、ターゲットドメインを除外したデータセットの事前トレーニングは、ターゲットドメインのみからデータセットを事前トレーニングするよりも優れたパフォーマンスをもたらす。
最悪、一致、およびタスクの56%のマルチドメインモデルは、シングルドメイン(p \leq 0.01$)を大きく上回っている。
これらの結果は、ノードラベルが評価に使用される場合を含み、パフォーマンスは単一ドメインや非事前訓練モデルよりも一貫して優れている。
特にFoToMは、ターゲットドメインの大規模または希少なデータレシエーションのシナリオにメリットがある。 The principal benefit of unsupervised graph representation learning is that a pre-trained model can be fine-tuned where data or labels are scarce. Existing approaches are domain specific, maintaining consistent node and edge attributes across the pre-training and target datasets. This precludes transfer to other domains. A model capable of positive transfer on arbitrary tasks and domains would represent the first foundation graph model. In this work we use adversarial contrastive learning to present FoToM, a graph pre-training method based on node and edge feature exclusion. We use FoToM to pre-train models over multiple graph domains, producing the first foundation graph models. We demonstrate positive transfer on evaluation datasets from multiple domains, including domains not present in pre-training data. On all datasets performance is at worst on-par and on 76% significantly better than a supervised baseline ($P \leq 0.01$), with an 8 to 40% reduction in error at 95% confidence. Contrary to other research, pre-training on a dataset with the target domain excluded leads us to better performance than pre-training on a dataset from only the target domain. The multi-domain model at worst, matches, and on 56% of tasks, significantly outperforms single-domain ($P \leq 0.01$). These results include when node labels are used in evaluation, where performance is consistently superior to single-domain or non-pre-trained models. Notably, FoToM benefits scenarios in both large or scarce data regimes for the target domains. | 翻訳日:2024-01-22 18:41:25 公開日:2024-01-19 |
# 単一光子検出による高励起メカニカルオシレータの非古典性観測法の提案 Proposal for Observing Nonclassicality in Highly Excited Mechanical Oscillators by Single Photon Detection ( http://arxiv.org/abs/2311.03060v2 ) ライセンス: Link先を確認 | Kai Ryen Bush, Kjetil B{\o}rkje | (参考訳) 高分解能の純量子状態の調製は、量子システムを制御するための実験的な試みの中心的な目標である。
機械振動子を任意に大きなコヒーレント振幅で非古典的状態に描画する状態準備プロトコルを提案する。
このプロトコルはコヒーレントな状態の準備を頼りに、1つのラマン散乱光子の射影測定を行い、空洞光学に特に適している。
状態の非古典性は、後に放出されたラマン側バンド光子の統計を測定することでアクセス可能な、ポアソン準フォノン統計によって反映される。
提案プロトコルは、単一フォノンレベルの運動に対してマクロに運動する機械振動子の非古典性観測を容易にする。 The preparation of pure quantum states with high degrees of macroscopicity is a central goal of ongoing experimental efforts to control quantum systems. We present a state preparation protocol which renders a mechanical oscillator with an arbitrarily large coherent amplitude in a manifestly nonclassical state. The protocol relies on coherent state preparation followed by a projective measurement of a single Raman scattered photon, making it particularly suitable for cavity optomechanics. The nonclassicality of the state is reflected by sub-Poissonian phonon statistics, which can be accessed by measuring the statistics of subsequently emitted Raman sideband photons. The proposed protocol would facilitate the observation of nonclassicality of a mechanical oscillator that moves macroscopically relative to motion at the single-phonon level. | 翻訳日:2024-01-22 18:41:02 公開日:2024-01-19 |
# SAGE: 接地実行によるスマートホームエージェント SAGE: Smart home Agent with Grounded Execution ( http://arxiv.org/abs/2311.00772v2 ) ライセンス: Link先を確認 | Dmitriy Rivkin, Francois Hogan, Amal Feriani, Abhisek Konar, Adam Sigal, Steve Liu, Greg Dudek | (参考訳) 常識推論能力と大規模言語モデル(llm)に関する膨大な知識は、スマートホームアシスタントコンテキストにおけるユーザの要求を解釈するのに自然に適しています。
しかしLLMには、ユーザとその家庭に関する具体的な知識が欠けているため、その潜在的な影響は制限される。
SAGE(Smart Home Agent with Grounded Execution)は、ユーザがLSM制御された個別アクションのシーケンスをトリガーするスキームを使用することで、これらの制限を克服する。
これらのアクションは、情報の取得、ユーザとのインタラクション、デバイス状態の操作に使用することができる。
SAGEはこのプロセスをLLMプロンプトの動的に構築されたツリーを通じて制御し、次にどのアクションをとるか、アクションが成功したか、いつプロセスを終了するかを決めるのに役立つ。
SAGEアクションセットはLLMの機能を強化し、スマートホームアシスタントの最も重要な要件の一部をサポートする。
フレキシブルでスケーラブルなユーザプライオリティ管理("我がチームが今夜プレイしているか?")、API経由のデバイス固有のコードなしのスマートデバイスの全機能へのアクセス、“ドライヤーの画面輝度を下げる”、永続的なデバイス状態監視(冷蔵庫を開くとミルクを捨てるように推奨する)、部屋の写真のみを使用した自然なデバイス参照("ドレスラーのライトを点灯する")、などです。
我々は、sageが75%の成功率を達成し、既存のllm対応ベースライン(30%成功率)を大きく上回る50の新しい挑戦的なスマートホームタスクのベンチマークを紹介する。 The common sense reasoning abilities and vast general knowledge of Large Language Models (LLMs) make them a natural fit for interpreting user requests in a Smart Home assistant context. LLMs, however, lack specific knowledge about the user and their home limit their potential impact. SAGE (Smart Home Agent with Grounded Execution), overcomes these and other limitations by using a scheme in which a user request triggers an LLM-controlled sequence of discrete actions. These actions can be used to retrieve information, interact with the user, or manipulate device states. SAGE controls this process through a dynamically constructed tree of LLM prompts, which help it decide which action to take next, whether an action was successful, and when to terminate the process. The SAGE action set augments an LLM's capabilities to support some of the most critical requirements for a Smart Home assistant. These include: flexible and scalable user preference management ("is my team playing tonight?"), access to any smart device's full functionality without device-specific code via API reading "turn down the screen brightness on my dryer", persistent device state monitoring ("remind me to throw out the milk when I open the fridge"), natural device references using only a photo of the room ("turn on the light on the dresser"), and more. We introduce a benchmark of 50 new and challenging smart home tasks where SAGE achieves a 75% success rate, significantly outperforming existing LLM-enabled baselines (30% success rate). | 翻訳日:2024-01-22 18:40:48 公開日:2024-01-19 |
# NeRF再考:ボリュームレンダリングにおける四面体不安定の修正 NeRF Revisited: Fixing Quadrature Instability in Volume Rendering ( http://arxiv.org/abs/2310.20685v2 ) ライセンス: Link先を確認 | Mikaela Angelina Uy, Kiyohiro Nakayama, Guandao Yang, Rahul Krishna Thomas, Leonidas Guibas, Ke Li | (参考訳) neural radiance fields (nerf) は新しいビューを合成するためにボリュームレンダリングに依存している。
体積レンダリングでは、各光線に沿った積分の評価が必要であり、この積分は分次定数体積密度の下での光線に沿った厳密な積分に対応する有限和で数値的に近似される。
その結果、結果として得られた結果は不安定な w.r.t. の光線に沿ったサンプルの選択である。
本稿では, 線形体積密度の完全積分に対応するように, サンプルベースレンダリング方程式を再構成し, 数学的に原理化された解を提案する。
これは同時に複数の問題を解決している: 異なる光線に沿ったサンプル間の衝突、不正確な階層的サンプリング、および線終端距離の分位数の非微分可能性 w.r.t.モデルパラメータ。
我々は, よりシャープなテクスチャ, 幾何的再構成, より深い深度管理など, 古典的なサンプルベースレンダリング方程式に対するいくつかの利点を示す。
提案する定式化は,既存のnrf方式のボリュームレンダリング方程式の代替として用いることもできる。
プロジェクトページはpl-nerf.github.ioにある。 Neural radiance fields (NeRF) rely on volume rendering to synthesize novel views. Volume rendering requires evaluating an integral along each ray, which is numerically approximated with a finite sum that corresponds to the exact integral along the ray under piecewise constant volume density. As a consequence, the rendered result is unstable w.r.t. the choice of samples along the ray, a phenomenon that we dub quadrature instability. We propose a mathematically principled solution by reformulating the sample-based rendering equation so that it corresponds to the exact integral under piecewise linear volume density. This simultaneously resolves multiple issues: conflicts between samples along different rays, imprecise hierarchical sampling, and non-differentiability of quantiles of ray termination distances w.r.t. model parameters. We demonstrate several benefits over the classical sample-based rendering equation, such as sharper textures, better geometric reconstruction, and stronger depth supervision. Our proposed formulation can be also be used as a drop-in replacement to the volume rendering equation of existing NeRF-based methods. Our project page can be found at pl-nerf.github.io. | 翻訳日:2024-01-22 18:40:16 公開日:2024-01-19 |
# DynPoint:ビュー合成のための動的ニューラルポイント DynPoint: Dynamic Neural Point For View Synthesis ( http://arxiv.org/abs/2310.18999v3 ) ライセンス: Link先を確認 | Kaichen Zhou, Jia-Xing Zhong, Sangyun Shin, Kai Lu, Yiyuan Yang, Andrew Markham, Niki Trigoni | (参考訳) 神経放射場の導入により、単眼ビデオにおけるビュー合成の有効性が大幅に向上した。
しかし、既存のアルゴリズムは制御されていないシナリオや長いシナリオを扱う際に困難に直面し、新しいシナリオごとに広範なトレーニング時間を必要とする。
このような制約に対処するために,制約のないモノクロビデオのための新しいビューの迅速な合成を容易にするアルゴリズムDynPointを提案する。
シナリオ情報の全体を潜在表現にエンコードする代わりに、DynPointは近隣フレーム間の明示的な3D対応を予測して情報集約を実現する。
具体的には、フレーム間の一貫した深さとシーンフロー情報の推定により、この対応予測を実現する。
その後、階層的なニューラルポイントクラウドを構築して、取得した対応を利用して、複数の参照フレームからターゲットフレームへの情報を集約する。
結果として得られるフレームワークは、ターゲットフレームの望ましいビューに対して、迅速かつ正確なビュー合成を可能にする。
実験の結果,提案手法で得られた訓練時間の相当な加速(典型的には桁違い)を実証し,先行手法と比較した結果を得た。
また,ビデオコンテンツの正準表現を学習することなく,長命映像の処理に強いロバスト性を示す。 The introduction of neural radiance fields has greatly improved the effectiveness of view synthesis for monocular videos. However, existing algorithms face difficulties when dealing with uncontrolled or lengthy scenarios, and require extensive training time specific to each new scenario. To tackle these limitations, we propose DynPoint, an algorithm designed to facilitate the rapid synthesis of novel views for unconstrained monocular videos. Rather than encoding the entirety of the scenario information into a latent representation, DynPoint concentrates on predicting the explicit 3D correspondence between neighboring frames to realize information aggregation. Specifically, this correspondence prediction is achieved through the estimation of consistent depth and scene flow information across frames. Subsequently, the acquired correspondence is utilized to aggregate information from multiple reference frames to a target frame, by constructing hierarchical neural point clouds. The resulting framework enables swift and accurate view synthesis for desired views of target frames. The experimental results obtained demonstrate the considerable acceleration of training time achieved - typically an order of magnitude - by our proposed method while yielding comparable outcomes compared to prior approaches. Furthermore, our method exhibits strong robustness in handling long-duration videos without learning a canonical representation of video content. | 翻訳日:2024-01-22 18:39:58 公開日:2024-01-19 |
# 1次元における位相的非自明な3体接触相互作用 Topologically Nontrivial Three-Body Contact Interaction in One Dimension ( http://arxiv.org/abs/2310.16576v2 ) ライセンス: Link先を確認 | Satoshi Ohya | (参考訳) 非同一粒子の1次元 $n(\geq3) における三次元接触相互作用は位相的に非自明であり、それらはすべて純双対群 $pt_{n}$ のユニタリ既約表現によって分類される。
しかし、そのような相互作用がハミルトニアン形式主義でどのように記述されているかは不明である。
本稿では,経路積分の観点からトポロジカルに非自明な3体接触相互作用を考察する。
スピンレス粒子に着目して、$n(n-1)(n-2)/3!
1 次元ユニタリ表現 $pt_{n}$ に対応する n 体のハミルトニアンの $パラメータ族。
これらのハミルトニアンは、n$-ボディー構成空間における無限に薄い磁束を記述する背景アーベルゲージ場によって記述される。 It is known that three-body contact interactions in one-dimensional $n(\geq3)$-body problems of nonidentical particles can be topologically nontrivial: they are all classified by unitary irreducible representations of the pure twin group $PT_{n}$. It was, however, unknown how such interactions are described in the Hamiltonian formalism. In this paper, we study topologically nontrivial three-body contact interactions from the viewpoint of the path integral. Focusing on spinless particles, we construct an $n(n-1)(n-2)/3!$-parameter family of $n$-body Hamiltonians that corresponds to one particular one-dimensional unitary representation of $PT_{n}$. These Hamiltonians are written in terms of background Abelian gauge fields that describe infinitely-thin magnetic fluxes in the $n$-body configuration space. | 翻訳日:2024-01-22 18:39:40 公開日:2024-01-19 |
# 拡散に基づく核画像分割のためのデータ拡張 Diffusion-based Data Augmentation for Nuclei Image Segmentation ( http://arxiv.org/abs/2310.14197v2 ) ライセンス: Link先を確認 | Xinyi Yu and Guanbin Li and Wei Lou and Siqi Liu and Xiang Wan and Yan Chen and Haofeng Li | (参考訳) 核セグメンテーションは病理組織像の定量的解析において基本的だが困難な課題である。
完全教師付き深層学習に基づく手法は大きな進歩を遂げているが,多くのラベル付き画像が大きなセグメンテーション性能を達成するために必要である。
データセットのすべての核インスタンスを手動でラベル付けするのは非効率であることを考えると、大規模な人間による注釈付きデータセットを得るには時間と労力がかかります。
したがって、セグメンテーション性能を改善するためにラベル付き画像の少ないデータセットを増強することは、重要な研究と応用価値である。
本稿では,最初の拡散に基づく核分割の増強法を提案する。
セグメンテーションモデルのトレーニングを容易にするために、多数のラベル付き画像を合成する。
そこで我々は2段階の戦略を提案する。
最初のステップでは、無条件拡散モデルを訓練し、ピクセルレベルの意味と距離変換の表現として定義される核構造を合成する。
各合成核構造は病理組織像合成の制約となり、さらに後処理されてインスタンスマップとなる。
第2段階では,核構造に基づく病理組織像を合成するために条件付き拡散モデルを訓練する。
合成インスタンスマップと組み合わせた合成組織病理画像は、セグメンテーションモデルをトレーニングするために実際のデータセットに追加される。
実験の結果,10%のラベル付き実データセットを合成サンプルで拡張することにより,完全教師付きベースラインで同等のセグメンテーション結果が得られることがわかった。
コードは、https://github.com/lhaof/Nudiffでリリースされます。 Nuclei segmentation is a fundamental but challenging task in the quantitative analysis of histopathology images. Although fully-supervised deep learning-based methods have made significant progress, a large number of labeled images are required to achieve great segmentation performance. Considering that manually labeling all nuclei instances for a dataset is inefficient, obtaining a large-scale human-annotated dataset is time-consuming and labor-intensive. Therefore, augmenting a dataset with only a few labeled images to improve the segmentation performance is of significant research and application value. In this paper, we introduce the first diffusion-based augmentation method for nuclei segmentation. The idea is to synthesize a large number of labeled images to facilitate training the segmentation model. To achieve this, we propose a two-step strategy. In the first step, we train an unconditional diffusion model to synthesize the Nuclei Structure that is defined as the representation of pixel-level semantic and distance transform. Each synthetic nuclei structure will serve as a constraint on histopathology image synthesis and is further post-processed to be an instance map. In the second step, we train a conditioned diffusion model to synthesize histopathology images based on nuclei structures. The synthetic histopathology images paired with synthetic instance maps will be added to the real dataset for training the segmentation model. The experimental results show that by augmenting 10% labeled real dataset with synthetic samples, one can achieve comparable segmentation results with the fully-supervised baseline. The code is released in: https://github.com/lhaof/Nudiff | 翻訳日:2024-01-22 18:39:26 公開日:2024-01-19 |
# 科学文献を対象としたコミュニティ検出とグラフニューラルネットワークに基づくリンク予測手法 A Community Detection and Graph Neural Network Based Link Prediction Approach for Scientific Literature ( http://arxiv.org/abs/2401.02542v2 ) ライセンス: Link先を確認 | Chunjiang Liu, Yikun Han, Haiyun Xu, Shihan Yang, Kaidi Wang, Yongye Su | (参考訳) 本研究では,様々なグラフニューラルネットワーク(GNN)モデルとコミュニティ検出アルゴリズムを併用して,学術文献ネットワークにおけるリンク予測を促進する手法を提案する。
Louvainコミュニティ検出アルゴリズムをGNNフレームワークに統合することで、テスト対象の全モデルのパフォーマンスを継続的に向上します。
例えば、LouvainをGATモデルに統合すると、AUCのスコアは0.777から0.823に増加し、観測された典型的な改善を実証した。
同様の利益は、Louvainが他のGNNアーキテクチャと組み合わせられ、コミュニティレベルの洞察を組み込むことの堅牢性と有効性を確認するときにも注目される。
この一貫したパフォーマンス向上は、科学的なコラボレーションと引用の2部グラフに関する広範な実験に反映され、拡張性や解像度制限といった一般的なリンク予測課題を克服するために、コミュニティ検出とGNNを組み合わせるという相乗的可能性を強調している。
本研究は,ネットワーク科学モデルの予測精度における重要な一歩として,コミュニティ構造の統合を提唱し,高度な機械学習手法のレンズを通して科学的コラボレーションパターンの包括的理解を提供する。 This study presents a novel approach that synergizes community detection algorithms with various Graph Neural Network (GNN) models to bolster link prediction in scientific literature networks. By integrating the Louvain community detection algorithm into our GNN frameworks, we consistently enhance performance across all models tested. For example, integrating Louvain with the GAT model resulted in an AUC score increase from 0.777 to 0.823, exemplifying the typical improvements observed. Similar gains are noted when Louvain is paired with other GNN architectures, confirming the robustness and effectiveness of incorporating community-level insights. This consistent uplift in performance reflected in our extensive experimentation on bipartite graphs of scientific collaborations and citations highlights the synergistic potential of combining community detection with GNNs to overcome common link prediction challenges such as scalability and resolution limits. Our findings advocate for the integration of community structures as a significant step forward in the predictive accuracy of network science models, offering a comprehensive understanding of scientific collaboration patterns through the lens of advanced machine learning techniques. | 翻訳日:2024-01-22 18:33:17 公開日:2024-01-19 |
# DL-based Segmentation Networkの複雑潜在空間からのロバスト特徴選択によるたこつぼ症候群の診断 Diagnosis Of Takotsubo Syndrome By Robust Feature Selection From The Complex Latent Space Of DL-based Segmentation Network ( http://arxiv.org/abs/2312.12653v2 ) ライセンス: Link先を確認 | Fahim Ahmed Zaman, Wahidul Alam, Tarun Kanti Roy, Amanda Chang, Kan Liu and Xiaodong Wu | (参考訳) 研究者は、様々な医療画像様式と疾患関連病理において、セグメント化された対象間で有意な相関を示した。
いくつかの研究は、手作りの特徴を病気の予測に用いることは、ディープラーニング(DL)モデルから潜在的特徴を使用することを無視し、鑑別診断の全体的な精度を低下させることを示した。
しかし、分類モデルやセグメンテーションモデルを直接使用して潜在特徴を学習することで、頑健な特徴選択がオプトアウトされ、過度に適合する可能性がある。
このギャップを埋めるために,診断を支援するセグメンテーションモデルの潜在空間を用いた新しい特徴選択手法を提案する。
タコツボ症候群 (TTS) とSTEMI (STEMI) との鑑別法を心エコービデオ (echo) を用いて検討した。
TTSは心エコーでSTEMIの臨床的特徴を模倣することができ、極めて区別が難しい。
従来のSOTA (State-of-the-art) アプローチを82%の精度で評価し, 診断に有意な成績を示した。
さらに、LASSOアルゴリズムを用いたロバストな特徴選択手法は、冗長な特徴の低減に大きな可能性を示し、下流解析における短期および長期の疾患診断のためのロバストなパイプラインを生成する。 Researchers have shown significant correlations among segmented objects in various medical imaging modalities and disease related pathologies. Several studies showed that using hand crafted features for disease prediction neglects the immense possibility to use latent features from deep learning (DL) models which may reduce the overall accuracy of differential diagnosis. However, directly using classification or segmentation models on medical to learn latent features opt out robust feature selection and may lead to overfitting. To fill this gap, we propose a novel feature selection technique using the latent space of a segmentation model that can aid diagnosis. We evaluated our method in differentiating a rare cardiac disease: Takotsubo Syndrome (TTS) from the ST elevation myocardial infarction (STEMI) using echocardiogram videos (echo). TTS can mimic clinical features of STEMI in echo and extremely hard to distinguish. Our approach shows promising results in differential diagnosis of TTS with 82% diagnosis accuracy beating the previous state-of-the-art (SOTA) approach. Moreover, the robust feature selection technique using LASSO algorithm shows great potential in reducing the redundant features and creates a robust pipeline for short- and long-term disease prognoses in the downstream analysis. | 翻訳日:2024-01-22 18:32:58 公開日:2024-01-19 |
# 短期量子コンピューティングにおける分子特性計算のための軌道最適化による量子運動方程式 Quantum Equation of Motion with Orbital Optimization for Computing Molecular Properties in Near-Term Quantum Computing ( http://arxiv.org/abs/2312.12386v2 ) ライセンス: Link先を確認 | Phillip W. K. Jensen, Erik Rosendahl Kjellgren, Peter Reinholdt, Karl Michael Ziems, Sonia Coriani, Jacob Kongsted, Stephan P. A. Sauer | (参考訳) 分子や物質の特性を決定することは、量子コンピューティングの第一の応用の一つである。
この分野の大きな疑問は、非完全で短期的な量子コンピュータを使って実用的価値の問題を解決する方法である。
最近開発されたqEOM法と軌道最適化変分量子固有解器(oo-VQE)の量子対の変種にインスパイアされ、量子コンピュータ上で期待値を計算することで分子特性の計算を行う量子アルゴリズム(oo-VQE-qEOM)を提案する。
我々は、STO-3G/6-31G/6-31G*基底集合と6-31GのH$_4$とH$_2$Oの4つの電子と4つの空間軌道(8量子ビット)の活性空間を用いて、BeH$_2$のノイズフリー量子シミュレーションを行い、励起エネルギー、電子吸収、ひねったH$_4$、円形二色性スペクトルを評価する。
これらの分子系に対する従来のCASSCF計算の結果を再現できることを示す。 Determining the properties of molecules and materials is one of the premier applications of quantum computing. A major question in the field is how to use imperfect near-term quantum computers to solve problems of practical value. Inspired by the recently developed variants of the quantum counterpart of the equation-of-motion (qEOM) approach and the orbital-optimized variational quantum eigensolver (oo-VQE), we present a quantum algorithm (oo-VQE-qEOM) for the calculation of molecular properties by computing expectation values on a quantum computer. We perform noise-free quantum simulations of BeH$_2$ in the series of STO-3G/6-31G/6-31G* basis sets and of H$_4$ and H$_2$O in 6-31G using an active space of four electrons and four spatial orbitals (8 qubits) to evaluate excitation energies, electronic absorption, and, for twisted H$_4$, circular dichroism spectra. We demonstrate that the proposed algorithm can reproduce the results of conventional classical CASSCF calculations for these molecular systems. | 翻訳日:2024-01-22 18:32:35 公開日:2024-01-19 |
# 因果的視点から見たグラフコントラスト学習における次元Rationaleの再考 Rethinking Dimensional Rationale in Graph Contrastive Learning from Causal Perspective ( http://arxiv.org/abs/2312.10401v2 ) ライセンス: Link先を確認 | Qirui Ji, Jiangmeng Li, Jie Hu, Rui Wang, Changwen Zheng, Fanjiang Xu | (参考訳) グラフコントラスト学習は、グラフの様々な摂動から不変情報を捉えるのに優れた一般的な学習パラダイムである。
最近の研究は、グラフから構造的理性を探究することに集中し、不変情報の識別可能性を高める。
しかし、このような手法はグラフの解釈可能性に対するグラフモデルの誤学習を引き起こす可能性があるため、学習ノイズやタスクに依存しない情報はグラフの予測に干渉する。
そこで,本論文では,グラフの本質的理論的根拠を探るために,文献にあまり注目されていないグラフから次元的合理性を捉えることを提案する。
探索実験は、前述のロードマップの実現可能性を証明するものである。
次元的根拠から生じる性能向上の背後にある帰納的メカニズムを明らかにするため、グラフコントラスト学習における次元的根拠を因果的視点から再考し、さらに、事前学習段階における変数間の因果関係を定式化し、対応する構造的因果モデルを構築する。
本研究では,構造因果モデルの理解に基づいて,学習可能な次元理性獲得ネットワークと冗長性低減制約を導入する,次元理性認識グラフコントラスト学習手法を提案する。
二段階メタラーニング技術を活用して学習可能な次元的理性獲得ネットワークを更新し、学習中のデコリレーションプロセスを通じて冗長性低下制約をアンタングルする。
実験的に,本手法は最先端の手法と比較して,識別可能性や転送可能性に関して,様々なベンチマークにおいて顕著な性能向上をもたらすことができる。
このメソッドのコード実装はhttps://github.com/byronji/drgclで利用可能です。 Graph contrastive learning is a general learning paradigm excelling at capturing invariant information from diverse perturbations in graphs. Recent works focus on exploring the structural rationale from graphs, thereby increasing the discriminability of the invariant information. However, such methods may incur in the mis-learning of graph models towards the interpretability of graphs, and thus the learned noisy and task-agnostic information interferes with the prediction of graphs. To this end, with the purpose of exploring the intrinsic rationale of graphs, we accordingly propose to capture the dimensional rationale from graphs, which has not received sufficient attention in the literature. The conducted exploratory experiments attest to the feasibility of the aforementioned roadmap. To elucidate the innate mechanism behind the performance improvement arising from the dimensional rationale, we rethink the dimensional rationale in graph contrastive learning from a causal perspective and further formalize the causality among the variables in the pre-training stage to build the corresponding structural causal model. On the basis of the understanding of the structural causal model, we propose the dimensional rationale-aware graph contrastive learning approach, which introduces a learnable dimensional rationale acquiring network and a redundancy reduction constraint. The learnable dimensional rationale acquiring network is updated by leveraging a bi-level meta-learning technique, and the redundancy reduction constraint disentangles the redundant features through a decorrelation process during learning. Empirically, compared with state-of-the-art methods, our method can yield significant performance boosts on various benchmarks with respect to discriminability and transferability. The code implementation of our method is available at https://github.com/ByronJi/DRGCL. | 翻訳日:2024-01-22 18:32:09 公開日:2024-01-19 |
# 適応最適化のない電子状態に対する高精度かつゲート効率の量子アンゼ Accurate and gate-efficient quantum ans\"atze for electronic states without adaptive optimisation ( http://arxiv.org/abs/2312.09761v3 ) ライセンス: Link先を確認 | Hugh G. A. Burton | (参考訳) 量子コンピュータが多体問題の指数的メモリスケーリングを克服する能力は、量子化学を変革することが期待される。
量子アルゴリズムは量子デバイス上での電子状態の正確な表現を必要とするが、現在の近似は物理対称性を保ちながら化学的精度とゲート効率を組み合わせるのに苦労し、各分子に波動関数のアンザッツを調整する測定集約適応法に依存している。
本報告では, 化学的精度の高い分子エネルギーを, 回路構造をよく定義する対称性保存・ゲート効率アンサッツを提案する。
提案手法は、局所量子ビット接続、軌道最適化、一般化原子価結合理論との接続を利用して、浅い量子回路で得られる精度を最大化する。
ベンゼン、水、およびテトラメチレンエタン中の一重項三重項ギャップを含む弱い電子相関を持つ分子の数値シミュレーションにより、化学的に正確なエネルギーは、現在の状態よりも84%少ない2量子ビットゲートで達成されていることが示されている。
これらの進歩は、将来の量子コンピューティングのための次世代の電子構造近似の道を開く。 The ability of quantum computers to overcome the exponential memory scaling of many-body problems is expected to transform quantum chemistry. Quantum algorithms require accurate representations of electronic states on a quantum device, but current approximations struggle to combine chemical accuracy and gate-efficiency while preserving physical symmetries, and rely on measurement-intensive adaptive methods that tailor the wave function ansatz to each molecule. In this contribution, we present a symmetry-preserving and gate-efficient ansatz that provides chemically accurate molecular energies with a well-defined circuit structure. Our approach exploits local qubit connectivity, orbital optimisation, and connections with generalised valence bond theory to maximise the accuracy that is obtained with shallow quantum circuits. Numerical simulations for molecules with weak and strong electron correlation, including benzene, water, and the singlet-triplet gap in tetramethyleneethane, demonstrate that chemically accurate energies are achieved with as much as 84% fewer two-qubit gates compared to the current state-of-the-art. These advances pave the way for the next generation of electronic structure approximations for future quantum computing. | 翻訳日:2024-01-22 18:31:43 公開日:2024-01-19 |
# 時間-ワープ-アテンド:力学系の位相不変量を学ぶ Let's do the time-warp-attend: Learning topological invariants of dynamical systems ( http://arxiv.org/abs/2312.09234v2 ) ライセンス: Link先を確認 | Noa Moriel, Matthew Ricci, Mor Nitzan | (参考訳) 電気回路から生態ネットワークまで、科学全体にわたる力学系は、基礎となるパラメータがしきい値を越えると、定性的かつしばしば破滅的な行動変化が起こる。
既存の方法は、個々のシステムで起こる災害を予測するが、主に時系列に基づいており、様々なシステムにまたがる定性的な動的体制を分類し、実際のデータに一般化するのに苦労する。
この課題に対処するため,データ駆動型物理インフォームド深層学習フレームワークを提案し,トポロジ的不変な特徴の抽出に基づいて動的状態の分類と分岐境界のキャラクタリゼーションを行う。
超臨界ホップ分岐のパラダイム的ケースに焦点をあて、幅広い応用の周期的ダイナミクスをモデル化するために使用される。
コンボリューショナルアテンション法は, 観測不能なシステムにおける分岐境界の検出や, 振動性遺伝子制御ネットワークなどの生物学的システムのモデルの設計に使用できるトポロジ的不変量の学習を促進するデータ強化を用いて訓練される。
さらに,単細胞データに基づく遺伝子発現空間における膵内分泌過程の異なる増殖および分化動態を回復させることにより,実データ解析における本手法の利用を実証する。
本手法は,幅広い力学系の定性的・長期的挙動に関する貴重な知見を提供し,大規模物理・生物系の分岐や破滅的な遷移を検出する。 Dynamical systems across the sciences, from electrical circuits to ecological networks, undergo qualitative and often catastrophic changes in behavior, called bifurcations, when their underlying parameters cross a threshold. Existing methods predict oncoming catastrophes in individual systems but are primarily time-series-based and struggle both to categorize qualitative dynamical regimes across diverse systems and to generalize to real data. To address this challenge, we propose a data-driven, physically-informed deep-learning framework for classifying dynamical regimes and characterizing bifurcation boundaries based on the extraction of topologically invariant features. We focus on the paradigmatic case of the supercritical Hopf bifurcation, which is used to model periodic dynamics across a wide range of applications. Our convolutional attention method is trained with data augmentations that encourage the learning of topological invariants which can be used to detect bifurcation boundaries in unseen systems and to design models of biological systems like oscillatory gene regulatory networks. We further demonstrate our method's use in analyzing real data by recovering distinct proliferation and differentiation dynamics along pancreatic endocrinogenesis trajectory in gene expression space based on single-cell data. Our method provides valuable insights into the qualitative, long-term behavior of a wide range of dynamical systems, and can detect bifurcations or catastrophic transitions in large-scale physical and biological systems. | 翻訳日:2024-01-22 18:31:19 公開日:2024-01-19 |
# EZ-CLIP:効率的なゼロショットビデオアクション認識 EZ-CLIP: Efficient Zeroshot Video Action Recognition ( http://arxiv.org/abs/2312.08010v2 ) ライセンス: Link先を確認 | Shahzad Ahmad, Sukalpa Chanda, Yogesh S Rawat | (参考訳) ペア画像テキストデータ上での視覚言語モデルの大規模事前学習の進歩は、ゼロショットタスクに対する印象的な一般化機能を示している。
この成功に基づいて、ビデオドメインにゼロショット機能を拡張したビデオに対して、CLIPのようなイメージベースのビジュアル言語モデルを適用する取り組みが実施された。
これらの適応は有望な結果を示しているが、計算コストが大きく、ビデオ領域に固有の重要な時間的側面を効果的にモデル化するのに苦労している。
本研究では,これらの課題に対処するCLIPの簡易かつ効率的な適応であるEZ-CLIPを提案する。
EZ-CLIPは、時間的視覚的プロンプトをシームレスな時間的適応に利用し、その顕著な一般化能力を維持しながらコアCLIPアーキテクチャに根本的な変更を加える必要はない。
さらに,映像データからの学習能力を高めるために,時間的視覚プロンプトを映像キャプチャに誘導する新しい学習目標を提案する。
我々は5つのベンチマークデータセットに関する広範な実験を行い、ゼロショット学習のためのEZ-CLIPとベース・ツー・ノーベルなビデオアクション認識の可能性を徹底的に評価し、また、数ショットの一般化の可能性を示した。 Recent advancements in large-scale pre-training of visual-language models on paired image-text data have demonstrated impressive generalization capabilities for zero-shot tasks. Building on this success, efforts have been made to adapt these image-based visual-language models, such as CLIP, for videos extending their zero-shot capabilities to the video domain. While these adaptations have shown promising results, they come at a significant computational cost and struggle with effectively modeling the crucial temporal aspects inherent to the video domain. In this study, we present EZ-CLIP, a simple and efficient adaptation of CLIP that addresses these challenges. EZ-CLIP leverages temporal visual prompting for seamless temporal adaptation, requiring no fundamental alterations to the core CLIP architecture while preserving its remarkable generalization abilities. Moreover, we introduce a novel learning objective that guides the temporal visual prompts to focus on capturing motion, thereby enhancing its learning capabilities from video data. We conducted extensive experiments on five different benchmark datasets, thoroughly evaluating EZ-CLIP for zero-shot learning and base-to-novel video action recognition, and also demonstrating its potential for few-shot generalization.Impressively, with a mere 5.2 million learnable parameters (as opposed to the 71.1 million in the prior best model), EZ-CLIP can be efficiently trained on a single GPU, outperforming existing approaches in several evaluations. | 翻訳日:2024-01-22 18:30:51 公開日:2024-01-19 |
# semantic lens: ビデオ超解像のためのインスタンス中心の意味アライメント Semantic Lens: Instance-Centric Semantic Alignment for Video Super-Resolution ( http://arxiv.org/abs/2312.07823v4 ) ライセンス: Link先を確認 | Qi Tang, Yao Zhao, Meiqin Liu, Jian Jin, and Chao Yao | (参考訳) ビデオ超解像(VSR)の重要な手がかりとして、フレーム間のアライメントは全体的なパフォーマンスに大きな影響を及ぼす。
しかし、正確なピクセルレベルのアライメントはビデオ内の複雑な動きのために難しい課題である。
この問題に対して、劣化ビデオから引き出されたセマンティック・レンズのセマンティック・レンズという新しいパラダイムを導入する。
具体的には、ビデオはセマンティックエクストラクタを介してインスタンス、イベント、シーンとしてモデル化される。
これらのセマンティクスは、回復したコンテンツを理解し、よりリアルなビジュアル結果を生成するピクセルエンハンサーを支援する。
蒸留されたグローバルセマンティクスは各フレームのシーン情報を具現化し、インスタンス固有のセマンティクスは各インスタンスに関連する時空間コンテキストを組み立てる。
さらに,GPS(Global Perspective Shifter)とISEE(Instance-Specific Semantic Embedding Encoder)で構成される,ピクセルレベルの特徴を意味知識でブリッジするためのセマンティックス・パワード・アテンション・クロスエンベディング(SPACE)ブロックを考案した。
具体的には,グローバルセマンティクスに基づく画素レベルの特徴変調のためのアフィン変換パラメータのペアを生成する。
その後、ISEEモジュールはアテンションメカニズムを利用して、隣接するフレームをインスタンス中心のセマンティック空間に整列させる。
さらに,モデルトレーニングの難しさを軽減するために,単純かつ効果的な事前調整モジュールを組み込んだ。
広範な実験により、既存のvsrメソッドよりも優れたモデルが示されました。 As a critical clue of video super-resolution (VSR), inter-frame alignment significantly impacts overall performance. However, accurate pixel-level alignment is a challenging task due to the intricate motion interweaving in the video. In response to this issue, we introduce a novel paradigm for VSR named Semantic Lens, predicated on semantic priors drawn from degraded videos. Specifically, video is modeled as instances, events, and scenes via a Semantic Extractor. Those semantics assist the Pixel Enhancer in understanding the recovered contents and generating more realistic visual results. The distilled global semantics embody the scene information of each frame, while the instance-specific semantics assemble the spatial-temporal contexts related to each instance. Furthermore, we devise a Semantics-Powered Attention Cross-Embedding (SPACE) block to bridge the pixel-level features with semantic knowledge, composed of a Global Perspective Shifter (GPS) and an Instance-Specific Semantic Embedding Encoder (ISEE). Concretely, the GPS module generates pairs of affine transformation parameters for pixel-level feature modulation conditioned on global semantics. After that, the ISEE module harnesses the attention mechanism to align the adjacent frames in the instance-centric semantic space. In addition, we incorporate a simple yet effective pre-alignment module to alleviate the difficulty of model training. Extensive experiments demonstrate the superiority of our model over existing state-of-the-art VSR methods. | 翻訳日:2024-01-22 18:30:26 公開日:2024-01-19 |
# DGNet:水中画像強調のための騒音抑制型動的勾配誘導ネットワーク DGNet: Dynamic Gradient-guided Network with Noise Suppression for Underwater Image Enhancement ( http://arxiv.org/abs/2312.06999v2 ) ライセンス: Link先を確認 | Jingchun Zhou and Zongxin He and Dehuan Zhang and Kin-man Lam and Xianping Fu and Yi Wang | (参考訳) 水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
この問題を解決するため、従来の方法は劣化過程を理想化し、画像特徴の分布に対する中雑音や物体の動きの影響を無視し、モデルの一般化と適応性を制限した。
従来の手法では、原画像と合成接地画像から構築した基準勾配を用いる。
これにより、ネットワーク性能は低品質のトレーニングデータに影響される可能性がある。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
このプロセスは画質を改善し、局所最適化を避ける。
さらに、チャネル結合推論(CCI)戦略と周波数領域平滑化モジュール(FRS)に基づく特徴回復再構築モジュール(FRR)を提案する。
これらのモジュールは、様々な種類のノイズがネットワーク性能に与える影響を減らしながら、他の劣化機能を分離する。
複数の公開データセットの実験は、既存の最先端アプローチよりも、特にパフォーマンスのマイルストーンを達成する上で、我々の手法の優位性を実証している。
パラメータサイズと推論時間の観点からの効率は、その幅広い実用性を示す。
コードは公開される予定だ。 Underwater image enhancement (UIE) is a challenging task due to the complex degradation caused by underwater environments. To solve this issue, previous methods often idealize the degradation process, and neglect the impact of medium noise and object motion on the distribution of image features, limiting the generalization and adaptability of the model. Previous methods use the reference gradient that is constructed from original images and synthetic ground-truth images. This may cause the network performance to be influenced by some low-quality training data. Our approach utilizes predicted images to dynamically update pseudo-labels, adding a dynamic gradient to optimize the network's gradient space. This process improves image quality and avoids local optima. Moreover, we propose a Feature Restoration and Reconstruction module (FRR) based on a Channel Combination Inference (CCI) strategy and a Frequency Domain Smoothing module (FRS). These modules decouple other degradation features while reducing the impact of various types of noise on network performance. Experiments on multiple public datasets demonstrate the superiority of our method over existing state-of-the-art approaches, especially in achieving performance milestones: PSNR of 25.6dB and SSIM of 0.93 on the UIEB dataset. Its efficiency in terms of parameter size and inference time further attests to its broad practicality. The code will be made publicly available. | 翻訳日:2024-01-22 18:29:58 公開日:2024-01-19 |
# IA2U: 水中モデルのためのマルチPrior付きトランスファープラグイン IA2U: A Transfer Plugin with Multi-Prior for In-Air Model to Underwater ( http://arxiv.org/abs/2312.06955v2 ) ライセンス: Link先を確認 | Jingchun Zhou and Qilin Gai and Kin-man Lam and Xianping Fu | (参考訳) 水中環境では、懸濁粒子濃度と濁度の変化が重篤な画像劣化を引き起こし、画像強調(ie)と物体検出(od)タスクに重大な課題をもたらす。
現在、空中画像の強調と検出は顕著な進歩を遂げているが、これらの環境の複雑さと変動性により、水中環境への適用は制限されている。
細調整された空気中のモデルは高いオーバーヘッドを節約し、スクラッチから水中モデルを構築するよりもオプションで参照作業を行う。
これらの問題に対処するため, IA2U という, 水中モデルから水中アプリケーションへの変換に先立って, 複数先行する転送プラグインを設計した。
IA2Uは水中シナリオでの効率的な適用を可能にし、水中IEとODの性能を向上させる。
IA2Uは、色や視認性などの画像劣化の程度を特徴付ける水型、細部とテクスチャの違いに焦点をあてた分解前の水型、撮影時の環境条件と撮影対象の特性を考慮に入れた試料の3種類を統合している。
IA2Uはトランスフォーマーのような構造を用いて,タスクレベルの水中画像特徴の階層的向上を実現するために,クエリ条件と共同タスク損失関数としてこれらの先行情報を利用する。
実験の結果,ia2uと空気中モデルの組み合わせにより,水中画像強調と物体検出タスクにおいて優れた性能が得られることがわかった。
コードは公開される予定だ。 In underwater environments, variations in suspended particle concentration and turbidity cause severe image degradation, posing significant challenges to image enhancement (IE) and object detection (OD) tasks. Currently, in-air image enhancement and detection methods have made notable progress, but their application in underwater conditions is limited due to the complexity and variability of these environments. Fine-tuning in-air models saves high overhead and has more optional reference work than building an underwater model from scratch. To address these issues, we design a transfer plugin with multiple priors for converting in-air models to underwater applications, named IA2U. IA2U enables efficient application in underwater scenarios, thereby improving performance in Underwater IE and OD. IA2U integrates three types of underwater priors: the water type prior that characterizes the degree of image degradation, such as color and visibility; the degradation prior, focusing on differences in details and textures; and the sample prior, considering the environmental conditions at the time of capture and the characteristics of the photographed object. Utilizing a Transformer-like structure, IA2U employs these priors as query conditions and a joint task loss function to achieve hierarchical enhancement of task-level underwater image features, therefore considering the requirements of two different tasks, IE and OD. Experimental results show that IA2U combined with an in-air model can achieve superior performance in underwater image enhancement and object detection tasks. The code will be made publicly available. | 翻訳日:2024-01-22 18:29:37 公開日:2024-01-19 |
# WaterHE-NeRF:水中環境復元のための水線トレーシングニューラルレーダ WaterHE-NeRF: Water-ray Tracing Neural Radiance Fields for Underwater Scene Reconstruction ( http://arxiv.org/abs/2312.06946v2 ) ライセンス: Link先を確認 | Jingchun Zhou and Tianyu Liang and Dehuan Zhang and Zongxin He | (参考訳) neural radiance field (nerf) 技術は、特に水中場面で有望な物理ベースのボリュームレンダリングプロセスにより、新しい視点合成タスクにおいて大きな可能性を証明している。
水媒体による光減衰対策における既存の水中NeRF手法の限界と実地真実(GT)監督の欠如に対処するため,本研究ではWaterHE-NeRFを提案する。
本研究では,3次元空間における色,密度,照度減衰を正確にエンコードするRetinex理論による新しい水線トレーシング場を開発する。
WaterHE-NeRFは、その輝度減衰機構を通じて、劣化した多視点画像とクリアな多視点画像の両方を生成し、再構成損失とワッサーシュタイン距離を組み合わせて画像復元を最適化する。
さらに、擬似GTとしてヒストグラム等化(HE)を用いることで、元の詳細と色分布を保存する際のネットワークの精度が向上する。
実際の水中データセットと合成データセットに関する広範な実験は、ウォーターヘナーフの有効性を検証する。
私たちのコードは公開されます。 Neural Radiance Field (NeRF) technology demonstrates immense potential in novel viewpoint synthesis tasks, due to its physics-based volumetric rendering process, which is particularly promising in underwater scenes. Addressing the limitations of existing underwater NeRF methods in handling light attenuation caused by the water medium and the lack of real Ground Truth (GT) supervision, this study proposes WaterHE-NeRF. We develop a new water-ray tracing field by Retinex theory that precisely encodes color, density, and illuminance attenuation in three-dimensional space. WaterHE-NeRF, through its illuminance attenuation mechanism, generates both degraded and clear multi-view images and optimizes image restoration by combining reconstruction loss with Wasserstein distance. Additionally, the use of histogram equalization (HE) as pseudo-GT enhances the network's accuracy in preserving original details and color distribution. Extensive experiments on real underwater datasets and synthetic datasets validate the effectiveness of WaterHE-NeRF. Our code will be made publicly available. | 翻訳日:2024-01-22 18:29:08 公開日:2024-01-19 |
# 空間量子ビットの電磁相互作用による強調 Dephasing due to electromagnetic interactions in spatial qubits ( http://arxiv.org/abs/2312.05452v2 ) ライセンス: Link先を確認 | Martine Schut, Herre Bosma, MengZhi Wu, Marko Toro\v{s}, Sougato Bose and Anupam Mazumdar | (参考訳) マイクロ粒子を用いた物質波干渉計は、量子位相情報を検出できる次世代の量子センサーを可能にする。
そのため、干渉計のコヒーレンス損失や絡み合い劣化の程度を推定することが不可欠である。
本稿では,デファスメントの電磁源に着目した周波数空間の雑音解析を行う。
我々の物質波干渉計は、周囲の粒子と相互作用できる残留電荷または双極子を持つと仮定する。
クーロン、電荷誘起双極子、電荷持続双極子、双極子-双極子相互作用による劣化について検討する。
これらの相互作用は、単一の干渉計や複数の干渉計に影響を与える電磁駆動のデファスチャネルを構成する。
例として, 量子重力誘起質量絡み合い(QGEM)プロトコルとC-NOTゲートのノイズ解析の知見を提供するために, 隣接する2つの微小粒子の状況に対して得られた形式を応用する。 Matter-wave interferometers with micro-particles will enable the next generation of quantum sensors capable of probing minute quantum phase information. Therefore, estimating the loss of coherence as well as the degree of entanglement degradation for such interferometers is essential. In this paper we will provide a noise analysis in frequency-space focusing on electromagnetic sources of dephasing. We will assume that our matter-wave interferometer has a residual charge or dipole which can interact with a neighbouring particle in the ambience. We will investigate the dephasing due to the Coulomb, charge-induced dipole, charge-permanent dipole, and dipole-dipole interactions. All these interactions constitute electromagnetically driven dephasing channels that can affect single or multiple interferometers. As an example, we will apply the obtained formuale to situations with two adjacent micro-particles which can provide insight for the noise analysis in the quantum gravity-induced entanglement of masses (QGEM) protocol and the C-NOT gate. | 翻訳日:2024-01-22 18:28:49 公開日:2024-01-19 |
# 神経スペクトル法:スペクトル領域における自己教師あり学習 Neural Spectral Methods: Self-supervised learning in the spectral domain ( http://arxiv.org/abs/2312.05225v2 ) ライセンス: Link先を確認 | Yiheng Du, Nithin Chalapathi, Aditi Krishnapriyan | (参考訳) 本稿では,古典スペクトル法に基づくパラメトリック偏微分方程式(PDE)の解法であるニューラルスペクトル法を提案する。
本手法は直交基底を用いてスペクトル係数間の写像としてPDE解を学習する。
時空間領域の残差の数値的2乗を最小化することでPDE制約を強制する現在の機械学習アプローチとは対照的に,Parsevalのアイデンティティを活用し,‘textit{spectral loss} を通じて新たなトレーニング戦略を導入する。
私たちのスペクトル損失は、ニューラルネットワークによるより効率的な分化を可能にし、トレーニングの複雑さを大幅に削減します。
推定時には, 領域の時空間分解能によらず, 計算コストは一定のままである。
実験の結果,提案手法は,複数の異なる問題に対して1~2桁の精度で,従来の機械学習手法よりも大幅に優れていた。
同じ精度の数値解法と比較して、本手法は性能速度が10倍に向上することを示す。 We present Neural Spectral Methods, a technique to solve parametric Partial Differential Equations (PDEs), grounded in classical spectral methods. Our method uses orthogonal bases to learn PDE solutions as mappings between spectral coefficients. In contrast to current machine learning approaches which enforce PDE constraints by minimizing the numerical quadrature of the residuals in the spatiotemporal domain, we leverage Parseval's identity and introduce a new training strategy through a \textit{spectral loss}. Our spectral loss enables more efficient differentiation through the neural network, and substantially reduces training complexity. At inference time, the computational cost of our method remains constant, regardless of the spatiotemporal resolution of the domain. Our experimental results demonstrate that our method significantly outperforms previous machine learning approaches in terms of speed and accuracy by one to two orders of magnitude on multiple different problems. When compared to numerical solvers of the same accuracy, our method demonstrates a $10\times$ increase in performance speed. | 翻訳日:2024-01-22 18:28:33 公開日:2024-01-19 |
# 風化が続く不確実性:時間変化のある部分観測可能な環境での学習と計画 Weathering Ongoing Uncertainty: Learning and Planning in a Time-Varying Partially Observable Environment ( http://arxiv.org/abs/2312.03263v2 ) ライセンス: Link先を確認 | Gokul Puthumanaillam, Xiangyu Liu, Negar Mehr and Melkior Ornik | (参考訳) 最適な意思決定は、不確実で確率的、時間的な環境で動作する自律システムにとって大きな課題となる。
時間による環境変動は、ミッション完了のための最適な意思決定戦略に大きな影響を与える。
このような環境をモデル化するために,従来のTVMDP(Time-Varying Markov Decision Process)の概念と部分的可観測性を組み合わせて,TV-POMDP(Time-Varying partially Observable Markov Decision Process)を導入している。
我々は,TV-POMDP内の正確な推定と計画を行うための2つのアプローチを提案する。
1)より正確な時間変化遷移推定を提供するために重み付けメモリを利用するメモリ優先状態推定(MPSE)
2)時間制約を考慮した長期報酬を最適化したmpse統合計画戦略。
提案するフレームワークとアルゴリズムをシミュレーションとハードウェアを用いて検証し,部分的に観測可能な時間変動環境を探索する。
本結果は,標準手法よりも優れた性能を示し,確率的かつ不確実な時間変化領域におけるフレームワークの有効性を強調した。 Optimal decision-making presents a significant challenge for autonomous systems operating in uncertain, stochastic and time-varying environments. Environmental variability over time can significantly impact the system's optimal decision making strategy for mission completion. To model such environments, our work combines the previous notion of Time-Varying Markov Decision Processes (TVMDP) with partial observability and introduces Time-Varying Partially Observable Markov Decision Processes (TV-POMDP). We propose a two-pronged approach to accurately estimate and plan within the TV-POMDP: 1) Memory Prioritized State Estimation (MPSE), which leverages weighted memory to provide more accurate time-varying transition estimates; and 2) an MPSE-integrated planning strategy that optimizes long-term rewards while accounting for temporal constraint. We validate the proposed framework and algorithms using simulations and hardware, with robots exploring a partially observable, time-varying environments. Our results demonstrate superior performance over standard methods, highlighting the framework's effectiveness in stochastic, uncertain, time-varying domains. | 翻訳日:2024-01-22 18:28:18 公開日:2024-01-19 |
# 時間の波及:アメリカの歴史における不連続 A ripple in time: a discontinuity in American history ( http://arxiv.org/abs/2312.01185v2 ) ライセンス: Link先を確認 | Alexander Kolpakov, Igor Rivin | (参考訳) この注記では、Kaggle の State of the Union Address (SOTU) データセットを使って、アメリカ史の一般的なタイムラインと、そのアドレス自体の特性と性質に関する驚くべき(そしてそれほど意外ではない)観察を行う。
我々の主なアプローチは、BERT (DistilBERT) や GPT-2 のようなベクトル埋め込みを使うことです。
BERT(およびそのバリエーション)はNLP分類タスクに最も適していると広く信じられているが、UDIなどの非線形次元減少法と組み合わせたGPT-2は、より良い分離とより強力なクラスタリングを提供する。
これにより、GPT-2 + UMAPが興味深い代替となる。
我々の場合、モデル微調整は不要であり、事前訓練されたGPT-2モデルで十分である。
私たちはまた、大統領がどのアドレスをどのアドレスで提供したかを分類するために、微調整されたディチルベルトモデルも使用しました(実行結果に応じて93\% - 95\%)。
執筆年を決定するために類似のタスクが実行され、我々はそれを約4年(大統領任期の1つ)に留めることができた。
注意すべき点は、SOTUアドレスは比較的小さな文字サンプル(平均で約8000語、2000語未満から20000以上まで広く変化する)を提供しており、著者の数は比較的大きいことである(42人の米国大統領によるSOTUアドレス)。
これは、このノートで記述された全ての計算はgoogle colabの1つのgpuインスタンスを使って実行できるが、採用されているテクニックはかなり効率的であることを示している。
付属するコードはGitHubで入手できる。 In this note we use the State of the Union Address (SOTU) dataset from Kaggle to make some surprising (and some not so surprising) observations pertaining to the general timeline of American history, and the character and nature of the addresses themselves. Our main approach is using vector embeddings, such as BERT (DistilBERT) and GPT-2. While it is widely believed that BERT (and its variations) is most suitable for NLP classification tasks, we find out that GPT-2 in conjunction with nonlinear dimension reduction methods such as UMAP provide better separation and stronger clustering. This makes GPT-2 + UMAP an interesting alternative. In our case, no model fine-tuning is required, and the pre-trained out-of-the-box GPT-2 model is enough. We also used a fine-tuned DistilBERT model for classification detecting which President delivered which address, with very good results (accuracy 93\% - 95\% depending on the run). An analogous task was performed to determine the year of writing, and we were able to pin it down to about 4 years (which is a single presidential term). It is worth noting that SOTU addresses provide relatively small writing samples (with about 8000 words on average, and varying widely from under 2000 words to more than 20000), and that the amount of authors is relatively large (we used SOTU addresses of 42 US presidents). This shows that the techniques employed turn out to be rather efficient, while all the computations described in this note can be performed using a single GPU instance of Google Colab. The accompanying code is available on GitHub. | 翻訳日:2024-01-22 18:27:59 公開日:2024-01-19 |
# 未知クラス検出のための低密度潜在領域のwasserstein距離に基づく拡張 Wasserstein Distance-based Expansion of Low-Density Latent Regions for Unknown Class Detection ( http://arxiv.org/abs/2401.05594v3 ) ライセンス: Link先を確認 | Prakash Mallick, Feras Dayoub, Jamie Sherrah | (参考訳) 本稿では, 未知のオブジェクトを未知のカテゴリと誤って分類し, 高い信頼性で分類する手法として, オープンセットオブジェクト検出(OSOD)の重大な課題について論じる。
潜在空間における高密度領域と低密度領域を区別することにより,未知の物体を効果的に識別する新しい手法を提案する。
提案手法はOpen-Det (OD) フレームワーク上に構築され,損失関数に2つの新しい要素が導入された。
これらの要素は既知の埋め込み空間のクラスタリングを強化し、未知の空間の低密度領域を広げる。
最初の追加はクラスWasserstein Anchor (CWA) であり、分類境界を洗練させる新しい関数である。
2つ目はスペクトル正規化ステップであり、モデルのロバスト性を改善する。
既存のContrastive Feature Learner (CFL) と Unknown Probability Learner (UPL) の損失関数への拡張により、OSODの性能は大幅に向上した。
提案手法はopendet-cwa (od-cwa) である。
a) オープンセットエラーの約17%〜22%の低減。
b) 新規検出能力の1.5%-16%向上、及び
c) 様々なオープンセットシナリオにおいて、荒野指数の2%~20%の低下。
これらの結果は、オープンセットオブジェクト検出の複雑さ管理における我々のアプローチの可能性を示している。 This paper addresses the significant challenge in open-set object detection (OSOD): the tendency of state-of-the-art detectors to erroneously classify unknown objects as known categories with high confidence. We present a novel approach that effectively identifies unknown objects by distinguishing between high and low-density regions in latent space. Our method builds upon the Open-Det (OD) framework, introducing two new elements to the loss function. These elements enhance the known embedding space's clustering and expand the unknown space's low-density regions. The first addition is the Class Wasserstein Anchor (CWA), a new function that refines the classification boundaries. The second is a spectral normalisation step, improving the robustness of the model. Together, these augmentations to the existing Contrastive Feature Learner (CFL) and Unknown Probability Learner (UPL) loss functions significantly improve OSOD performance. Our proposed OpenDet-CWA (OD-CWA) method demonstrates: a) a reduction in open-set errors by approximately 17%-22%, b) an enhancement in novelty detection capability by 1.5%-16%, and c) a decrease in the wilderness index by 2%-20% across various open-set scenarios. These results represent a substantial advancement in the field, showcasing the potential of our approach in managing the complexities of open-set object detection. | 翻訳日:2024-01-22 18:20:16 公開日:2024-01-19 |
# INACIA:ブラジルの監査裁判所における大規模言語モデルの統合:機会と課題 INACIA: Integrating Large Language Models in Brazilian Audit Courts: Opportunities and Challenges ( http://arxiv.org/abs/2401.05273v2 ) ライセンス: Link先を確認 | Jayr Pereira, Andre Assumpcao, Julio Trecenti, Luiz Airosa, Caio Lente, Jhonatan Cl\'eto, Guilherme Dobins, Rodrigo Nogueira, Luis Mitchell, Roberto Lotufo | (参考訳) Instru\c{c}\~ao Assistida com Intelig\^encia Artificialは,大規模言語モデル(LLM)をブラジル連邦会計裁判所(TCU)の運用枠組みに組み込むために設計された画期的なシステムである。
本システムは, 基本情報抽出, 許容度検査, モラおよびフムス・ボニ・イウリス分析の周辺部, 推薦生成など, 事例分析の様々な段階を自動化する。
一連の実験を通じて,イナシアが事例文書から関連情報を抽出し,その法的可能性を評価し,司法意思決定のための提案を定式化する可能性を示す。
評価手法は, LLMと併用した検証データセットを用いて, システム性能評価のための革新的な手法を提案する。
その結果、INACIAの複雑な法的タスクの処理能力が強調され、法体系内の効率性と司法公正性を高めるための適性を示している。
本稿は、INACIAを法的領域における世界規模のAI統合のモデルとして位置づける、潜在的な拡張と将来の応用についても論じている。 This paper introduces INACIA (Instru\c{c}\~ao Assistida com Intelig\^encia Artificial), a groundbreaking system designed to integrate Large Language Models (LLMs) into the operational framework of Brazilian Federal Court of Accounts (TCU). The system automates various stages of case analysis, including basic information extraction, admissibility examination, Periculum in mora and Fumus boni iuris analyses, and recommendations generation. Through a series of experiments, we demonstrate INACIA's potential in extracting relevant information from case documents, evaluating its legal plausibility, and formulating propositions for judicial decision-making. Utilizing a validation dataset alongside LLMs, our evaluation methodology presents an innovative approach to assessing system performance, correlating highly with human judgment. The results highlight INACIA's proficiency in handling complex legal tasks, indicating its suitability for augmenting efficiency and judicial fairness within legal systems. The paper also discusses potential enhancements and future applications, positioning INACIA as a model for worldwide AI integration in legal domains. | 翻訳日:2024-01-22 18:19:55 公開日:2024-01-19 |
# Chain-of-Table:テーブル理解のための推論チェインにおけるテーブルの進化 Chain-of-Table: Evolving Tables in the Reasoning Chain for Table Understanding ( http://arxiv.org/abs/2401.04398v2 ) ライセンス: Link先を確認 | Zilong Wang, Hao Zhang, Chun-Liang Li, Julian Martin Eisenschlos, Vincent Perot, Zifeng Wang, Lesly Miculicich, Yasuhisa Fujii, Jingbo Shang, Chen-Yu Lee, Tomas Pfister | (参考訳) 大規模言語モデル(llms)を用いたテーブルベース推論は、テーブルベースの質問応答や事実検証など、多くのテーブル理解タスクに取り組むための有望な方向である。
一般的な推論と比較すると、テーブルベースの推論は自由形式の質問と半構造化された表データの両方から基礎となる意味を抽出する必要がある。
Chain-of-Thoughtとその類似したアプローチは、推論チェーンをテキストコンテキストの形式で組み込んでいるが、それでも、推論チェーンにおける表データの有効活用方法には疑問の余地がある。
そこで我々は、中間思考のプロキシとして、図表データを推論チェーンで明示的に使用するChain-of-Tableフレームワークを提案する。
具体的には、テキスト内学習を用いてLCMをガイドし、反復的に操作を生成してテーブルを更新し、表の推論チェーンを表す。
従って、LCMは前の操作の結果に基づいて次の操作を動的に計画することができる。
このテーブルの連続的な進化は連鎖を形成し、与えられた表問題の推論過程を示す。
チェーンは中間結果の構造化情報を持ち、より正確で信頼性の高い予測を可能にする。
Chain-of-Tableは、WikiTQ、FeTaQA、TabFactのベンチマークで、複数のLSM選択で最新のパフォーマンスを実現している。 Table-based reasoning with large language models (LLMs) is a promising direction to tackle many table understanding tasks, such as table-based question answering and fact verification. Compared with generic reasoning, table-based reasoning requires the extraction of underlying semantics from both free-form questions and semi-structured tabular data. Chain-of-Thought and its similar approaches incorporate the reasoning chain in the form of textual context, but it is still an open question how to effectively leverage tabular data in the reasoning chain. We propose the Chain-of-Table framework, where tabular data is explicitly used in the reasoning chain as a proxy for intermediate thoughts. Specifically, we guide LLMs using in-context learning to iteratively generate operations and update the table to represent a tabular reasoning chain. LLMs can therefore dynamically plan the next operation based on the results of the previous ones. This continuous evolution of the table forms a chain, showing the reasoning process for a given tabular problem. The chain carries structured information of the intermediate results, enabling more accurate and reliable predictions. Chain-of-Table achieves new state-of-the-art performance on WikiTQ, FeTaQA, and TabFact benchmarks across multiple LLM choices. | 翻訳日:2024-01-22 18:19:34 公開日:2024-01-19 |
# サブグラフフェデレーション学習のための深層能率私的隣人生成 Deep Efficient Private Neighbor Generation for Subgraph Federated Learning ( http://arxiv.org/abs/2401.04336v3 ) ライセンス: Link先を確認 | Ke Zhang, Lichao Sun, Bolin Ding, Siu Ming Yiu, Carl Yang | (参考訳) ベヘモスグラフはしばしば断片化され、多くの現実的なアプリケーションで分散サブグラフとして複数のデータ所有者によって個別に保存される。
データプライバシを損なうことなく、各ローカルクライアントがグローバルグラフ全体のサブグラフを保持するsubgraph federated learning(subgraph fl)シナリオを検討して、グローバルに一般化されたグラフマイニングモデルを得るのは自然である。
部分グラフの欠落による局所部分グラフ上の不完全情報伝搬の独特な課題を克服するため, 従来の研究は, 隣接するジェネレータとGNNの連成FLを介し, 地域住民の増大を図っている。
しかし、彼らの技術設計はFLの実用性、効率性、プライバシーの目標に関して重大な制限がある。
本稿では,これらの課題に包括的に取り組むためのFedDEPを提案する。
FedDEPは,(1)GNN埋め込みを利用した深部近傍世代,(2)埋め込みプロトタイピングによる近接世代に対する効率的な擬似FL,(3)ノイズのないエッジ局所微分プライバシによるプライバシ保護という,一連の新しい技術設計で構成されている。
我々はFedDEPの正しさと効率を分析し、そのプライバシーに関する理論的保証を提供する。
4つの実世界のデータセットの実証結果は、提案手法の明確な利点を正当化する。 Behemoth graphs are often fragmented and separately stored by multiple data owners as distributed subgraphs in many realistic applications. Without harming data privacy, it is natural to consider the subgraph federated learning (subgraph FL) scenario, where each local client holds a subgraph of the entire global graph, to obtain globally generalized graph mining models. To overcome the unique challenge of incomplete information propagation on local subgraphs due to missing cross-subgraph neighbors, previous works resort to the augmentation of local neighborhoods through the joint FL of missing neighbor generators and GNNs. Yet their technical designs have profound limitations regarding the utility, efficiency, and privacy goals of FL. In this work, we propose FedDEP to comprehensively tackle these challenges in subgraph FL. FedDEP consists of a series of novel technical designs: (1) Deep neighbor generation through leveraging the GNN embeddings of potential missing neighbors; (2) Efficient pseudo-FL for neighbor generation through embedding prototyping; and (3) Privacy protection through noise-less edge-local-differential-privacy. We analyze the correctness and efficiency of FedDEP, and provide theoretical guarantees on its privacy. Empirical results on four real-world datasets justify the clear benefits of proposed techniques. | 翻訳日:2024-01-22 18:19:13 公開日:2024-01-19 |
# AUPIMO:高速かつ低耐性で視覚異常検出ベンチマークを再定義する AUPIMO: Redefining Visual Anomaly Detection Benchmarks with High Speed and Low Tolerance ( http://arxiv.org/abs/2401.01984v2 ) ライセンス: Link先を確認 | Joao P. C. Bertoldo and Dick Ameln and Ashwin Vaidya and Samet Ak\c{c}ay | (参考訳) 視覚異常検出研究の最近の進歩は、MVTecやVisAのような公開ベンチマークデータセットにおけるAUROCとAUPROのスコアが完全なリコールへと収束し、これらのベンチマークがほぼ解決されているという印象を与えている。
しかしながら、aurocとauproスコアは必ずしも定性的なパフォーマンスを反映していないため、現実世界のアプリケーションにおけるこれらのメトリクスの妥当性が制限されている。
適切な評価基準の欠如によって課される人工天井は,フィールドの進行を抑えるものであり,我々のアルゴリズムを評価するために用いられる評価基準を再考することが重要である。
本稿では,AUROC と AUPRO の欠点に対処する新しい指標である Per-IMage Overlap (PIMO) を紹介する。
PIMOは既存のメトリクスのリコールベースの性質を保っているが、曲線の割り当て(および曲線の下の各領域)は画像ごとであり、X軸は通常の画像にのみ依存する。
イメージ毎のリコールの測定はインスタンススコアのインデックス化を単純化し、ノイズの多いアノテーションに対してより堅牢である。
我々が示すように、計算を加速し、統計テストを使ってモデルを比較することができる。
通常の画像に対する偽陽性に対する耐性を低くすることで、PIMOは強化されたモデル検証手順を提供し、データセット間のパフォーマンスのばらつきを強調する。
我々の実験では、PIMOは、異常検出ベンチマークを再定義する実用的な利点と、パフォーマンス上の見識を提供する。特にMVTec ADとVisAデータセットが現代のモデルによって解決されたという認識に挑戦する。
https://github.com/jpcbertoldo/aupimo。 Recent advances in visual anomaly detection research have seen AUROC and AUPRO scores on public benchmark datasets such as MVTec and VisA converge towards perfect recall, giving the impression that these benchmarks are near-solved. However, high AUROC and AUPRO scores do not always reflect qualitative performance, which limits the validity of these metrics in real-world applications. We argue that the artificial ceiling imposed by the lack of an adequate evaluation metric restrains progression of the field, and it is crucial that we revisit the evaluation metrics used to rate our algorithms. In response, we introduce Per-IMage Overlap (PIMO), a novel metric that addresses the shortcomings of AUROC and AUPRO. PIMO retains the recall-based nature of the existing metrics but introduces two distinctions: the assignment of curves (and respective area under the curve) is per-image, and its X-axis relies solely on normal images. Measuring recall per image simplifies instance score indexing and is more robust to noisy annotations. As we show, it also accelerates computation and enables the usage of statistical tests to compare models. By imposing low tolerance for false positives on normal images, PIMO provides an enhanced model validation procedure and highlights performance variations across datasets. Our experiments demonstrate that PIMO offers practical advantages and nuanced performance insights that redefine anomaly detection benchmarks -- notably challenging the perception that MVTec AD and VisA datasets have been solved by contemporary models. Available on GitHub: https://github.com/jpcbertoldo/aupimo. | 翻訳日:2024-01-22 18:18:49 公開日:2024-01-19 |
# 大規模言語モデルによるテキスト埋め込みの改善 Improving Text Embeddings with Large Language Models ( http://arxiv.org/abs/2401.00368v2 ) ライセンス: Link先を確認 | Liang Wang, Nan Yang, Xiaolong Huang, Linjun Yang, Rangan Majumder, Furu Wei | (参考訳) 本稿では,合成データと1k以下のトレーニングステップのみを用いて,高品質なテキスト埋め込みを実現する方法を提案する。
数十億の弱い教師付きテキストペアを持つ多段階の中間訓練にしばしば依存する既存の方法とは異なり、ラベル付きデータセットによる微調整は複雑なトレーニングパイプラインの構築や、タスクの多様性や言語カバレッジに制約されるような手作業によるデータセットに頼る必要がない。
プロプライエタリなLLMを利用して、100近い言語にまたがる数十万のテキスト埋め込みタスクのための多様な合成データを生成します。
次に、標準コントラスト損失を用いた合成データ上に、オープンソースデコーダのみを微調整する。
本手法は,ラベル付きデータを用いずに,高い競合性を持つテキスト埋め込みベンチマークにおいて,強力な性能を実現することを実証する。
さらに、合成データとラベルデータの混合を微調整すると、BEIRおよびMTEBベンチマークに新たな最先端結果が設定される。 In this paper, we introduce a novel and simple method for obtaining high-quality text embeddings using only synthetic data and less than 1k training steps. Unlike existing methods that often depend on multi-stage intermediate pre-training with billions of weakly-supervised text pairs, followed by fine-tuning with a few labeled datasets, our method does not require building complex training pipelines or relying on manually collected datasets that are often constrained by task diversity and language coverage. We leverage proprietary LLMs to generate diverse synthetic data for hundreds of thousands of text embedding tasks across nearly 100 languages. We then fine-tune open-source decoder-only LLMs on the synthetic data using standard contrastive loss. Experiments demonstrate that our method achieves strong performance on highly competitive text embedding benchmarks without using any labeled data. Furthermore, when fine-tuned with a mixture of synthetic and labeled data, our model sets new state-of-the-art results on the BEIR and MTEB benchmarks. | 翻訳日:2024-01-22 18:18:20 公開日:2024-01-19 |
# 知覚損失を伴う拡散モデル Diffusion Model with Perceptual Loss ( http://arxiv.org/abs/2401.00110v3 ) ライセンス: Link先を確認 | Shanchuan Lin, Xiao Yang | (参考訳) 平均二乗誤差損失で訓練された拡散モデルは非現実的なサンプルを生成する傾向がある。
現在の最先端のモデルは、サンプル品質を改善するために分類器なしのガイダンスに依存しているが、驚くべき有効性は完全には理解されていない。
本稿では,分類者なし指導の有効性は,暗黙的な知覚誘導の一形態である点に起因していることを示す。
その結果, 拡散訓練における知覚損失を直接組み込むことにより, サンプル品質の向上が期待できる。
拡散訓練におけるスコアマッチング対象は、知覚ネットワークの教師なし訓練で使用される雑音化オートエンコーダ目標に強く似ているため、拡散モデル自体が知覚ネットワークであり、有意義な知覚損失を生成するために使用できる。
そこで本研究では,より現実的なサンプルを生成することができる拡散モデルを提案する。
条件付き生成では,条件付き入力と絡み合うことなくサンプル品質を向上できるため,サンプルの多様性を犠牲にしない。
また,非条件生成のためのサンプル品質の改善も可能であり,従来は分類器を使わない指導では不可能であった。 Diffusion models trained with mean squared error loss tend to generate unrealistic samples. Current state-of-the-art models rely on classifier-free guidance to improve sample quality, yet its surprising effectiveness is not fully understood. In this paper, we show that the effectiveness of classifier-free guidance partly originates from it being a form of implicit perceptual guidance. As a result, we can directly incorporate perceptual loss in diffusion training to improve sample quality. Since the score matching objective used in diffusion training strongly resembles the denoising autoencoder objective used in unsupervised training of perceptual networks, the diffusion model itself is a perceptual network and can be used to generate meaningful perceptual loss. We propose a novel self-perceptual objective that results in diffusion models capable of generating more realistic samples. For conditional generation, our method only improves sample quality without entanglement with the conditional input and therefore does not sacrifice sample diversity. Our method can also improve sample quality for unconditional generation, which was not possible with classifier-free guidance before. | 翻訳日:2024-01-22 18:18:04 公開日:2024-01-19 |
# 無質量ジラックフェルミオンにおける励起エネルギー準位の縮退に関する一考察 A note on degeneracy of excited energy levels in massless Dirac fermions ( http://arxiv.org/abs/2312.17357v2 ) ライセンス: Link先を確認 | Lucas Sourrouille | (参考訳) 平面の制限領域に局在した磁束$\Phi$の存在下で、質量を持たないディラック・ワイル方程式の固有値と固有関数を構築するメカニズムを提案する。
この機構を用いて既存のエネルギーレベルの縮退を解析する。
0 と 1 のエネルギー準位は同じ$N+1$ の縮退性を持ち、$N$ は $\frac{\Phi}{2\pi}$ の整数部分である。
加えて、グラフェンに関する文献に記載されているのとは対照的に、より高いエネルギー準位がn+m$縮退し、エネルギー準位がm$であることを示す。
言い換えると、これはエネルギー準位が成長するにつれて縮退状態が無期限に成長することを意味する。 We propose a mechanism to construct the eigenvalues and eigenfunctions of the massless Dirac-Weyl equation in the presences of magnetic flux $\Phi$ localized in a restricted region of the plane. Using this mechanism we analyze the degeneracy of the existed energy levels. We find that the zero and first energy level has the same $N+1$ degeneracy, where $N$ is the integer part of $\frac{\Phi}{2\pi}$. In addition, and contrary to what is described in the literature regarding graphene, we show that higher energy levels are $N+m$ degenrate, beign $m$ the level of energy. In other words, this implies an indefinite growth of degenerate states as the energy level grows. | 翻訳日:2024-01-22 18:17:43 公開日:2024-01-19 |
# constscene: 建設環境におけるロバストな意味セグメンテーションのためのデータセットとモデル ConstScene: Dataset and Model for Advancing Robust Semantic Segmentation in Construction Environments ( http://arxiv.org/abs/2312.16516v2 ) ライセンス: Link先を確認 | Maghsood Salimi, Mohammad Loni, Sara Afshar, Antonio Cicchetti, Marjan Sirjani | (参考訳) 建設環境における自律機械の需要の増加は、様々な気象や環境条件で効果的に機能する堅牢な物体検出アルゴリズムの開発を必要とする。
本稿では,建設現場用に特別に調整された新しい意味セグメンテーションデータセットを提案する。
データセットは、オブジェクト検出モデルのトレーニングと評価を強化し、実際の構築アプリケーションにおける適応性と信頼性を育むように設計されている。
我々のデータセットは、晴れた日、雨季、霧の大気、低照度状況など、さまざまな気象条件下で撮影された注釈付き画像で構成されています。
さらに、カメラレンズ上の汚れや泥の存在などの環境要因を、実際のキャプチャと合成生成を通じてデータセットに統合し、建設現場で一般的な複雑な条件をシミュレートする。
また, 車輪ローダマシン, 人体, 車体, 構造要素など, 建設環境に共通するさまざまなオブジェクトに対して, 正確な意味的セグメンテーションマスクを含むアノテーションの合成画像を生成する。
データセットの有用性を示すために,提案するベンチマークにおいて,最先端のオブジェクト検出アルゴリズムを評価する。
その結果、様々な条件における敵対的トレーニングモデルの成功が強調され、そのような環境変動を欠いた既存のデータセットと比較して、その有効性が示された。 The increasing demand for autonomous machines in construction environments necessitates the development of robust object detection algorithms that can perform effectively across various weather and environmental conditions. This paper introduces a new semantic segmentation dataset specifically tailored for construction sites, taking into account the diverse challenges posed by adverse weather and environmental conditions. The dataset is designed to enhance the training and evaluation of object detection models, fostering their adaptability and reliability in real-world construction applications. Our dataset comprises annotated images captured under a wide range of different weather conditions, including but not limited to sunny days, rainy periods, foggy atmospheres, and low-light situations. Additionally, environmental factors such as the existence of dirt/mud on the camera lens are integrated into the dataset through actual captures and synthetic generation to simulate the complex conditions prevalent in construction sites. We also generate synthetic images of the annotations including precise semantic segmentation masks for various objects commonly found in construction environments, such as wheel loader machines, personnel, cars, and structural elements. To demonstrate the dataset's utility, we evaluate state-of-the-art object detection algorithms on our proposed benchmark. The results highlight the dataset's success in adversarial training models across diverse conditions, showcasing its efficacy compared to existing datasets that lack such environmental variability. | 翻訳日:2024-01-22 18:17:32 公開日:2024-01-19 |
# Vital Phase Augmentationによるドメインの一般化 Domain Generalization with Vital Phase Augmentation ( http://arxiv.org/abs/2312.16451v3 ) ライセンス: Link先を確認 | Ingyun Lee, Wooju Lee, Hyun Myung | (参考訳) ディープニューラルネットワークは画像分類において顕著な性能を示している。
しかし, 入力データの劣化により性能は著しく低下した。
分散データに対するロバストモデルをトレーニングするためにドメイン一般化法が提案されている。
周波数領域におけるデータ拡張は、モデルが位相特徴を学習してドメイン不変表現を確立することを可能にするアプローチの1つである。
このアプローチは、位相を保ちながら入力データの振幅を変化させる。
しかしながら、固定位相を用いると、振幅と位相の変動が分布外に存在するため、位相変動への感受性が生じる。
本研究では,この問題を解決するために,固定位相の維持よりも入力データの位相の有限変化を用いた手法を提案する。
ドメイン不変特徴の程度が各位相ごとに異なるという仮定に基づき、この次数に基づいて位相を識別する手法を提案する。
さらに, 与えられた位相の領域不変特性の度合いに応じて, 位相に異なる変化を施す「バイタル位相拡張法(VIPAug)」を提案する。
このモデルは、振幅と位相変動に対する堅牢性を達成するために、よりドメイン不変の特徴を含む必要不可欠な位相に依存する。
本研究では, クリーンデータと破損データの両方の性能向上を示す提案手法を実験的に評価した。
VIPAug は、ベンチマーク CIFAR-10 と CIFAR-100 のデータセットで SOTA のパフォーマンス、ImageNet-100 と ImageNet のデータセットで SOTA に近いパフォーマンスを達成した。
私たちのコードはhttps://github.com/excitedkid/vipaugで入手できる。 Deep neural networks have shown remarkable performance in image classification. However, their performance significantly deteriorates with corrupted input data. Domain generalization methods have been proposed to train robust models against out-of-distribution data. Data augmentation in the frequency domain is one of such approaches that enable a model to learn phase features to establish domain-invariant representations. This approach changes the amplitudes of the input data while preserving the phases. However, using fixed phases leads to susceptibility to phase fluctuations because amplitudes and phase fluctuations commonly occur in out-of-distribution. In this study, to address this problem, we introduce an approach using finite variation of the phases of input data rather than maintaining fixed phases. Based on the assumption that the degree of domain-invariant features varies for each phase, we propose a method to distinguish phases based on this degree. In addition, we propose a method called vital phase augmentation (VIPAug) that applies the variation to the phases differently according to the degree of domain-invariant features of given phases. The model depends more on the vital phases that contain more domain-invariant features for attaining robustness to amplitude and phase fluctuations. We present experimental evaluations of our proposed approach, which exhibited improved performance for both clean and corrupted data. VIPAug achieved SOTA performance on the benchmark CIFAR-10 and CIFAR-100 datasets, as well as near-SOTA performance on the ImageNet-100 and ImageNet datasets. Our code is available at https://github.com/excitedkid/vipaug. | 翻訳日:2024-01-22 18:17:07 公開日:2024-01-19 |
# KnowledgeNavigator: 知識グラフによる推論強化のための大規模言語モデルを活用する KnowledgeNavigator: Leveraging Large Language Models for Enhanced Reasoning over Knowledge Graph ( http://arxiv.org/abs/2312.15880v2 ) ライセンス: Link先を確認 | Tiezheng Guo and Qingwen Yang and Chen Wang and Yanyi Liu and Pan Li and Jiawei Tang and Dapeng Li and Yingyou Wen | (参考訳) 大規模言語モデル(LLM)は、その強力な自然言語理解とゼロショット能力によって、様々な下流タスクにおいて優れたパフォーマンスを達成しているが、LLMは依然として知識制限に悩まされている。
特に長い論理的連鎖や複雑な推論を必要とするシナリオでは、LLMの幻覚と知識制限は質問応答(QA)のパフォーマンスを制限する。
本稿では,知識グラフから外部知識を効率的かつ正確に検索し,それをllm推論の鍵要素として用いることにより,これらの課題に対処するための新しいフレームワークナレッジナビゲータを提案する。
具体的には、KnowledgeNavigatorはまず質問の潜在的な制約を掘り下げて、推論を導く。
そして、llmと質問のガイダンスを用いて、知識グラフの反復推論を通じて回答をサポートする外部知識を検索してフィルタリングする。
最後に、KnowledgeNavigatorは構造化された知識をLLMに親しみやすい効果的なプロンプトに構成し、その推論を支援する。
我々は,複数のKGQAベンチマーク上でKnowledgeNavigatorを評価し,フレームワークの有効性と一般化を示し,従来の知識グラフ拡張LPM法よりも優れ,完全に教師付きモデルに匹敵する性能を示した。 Large language model (LLM) has achieved outstanding performance on various downstream tasks with its powerful natural language understanding and zero-shot capability, but LLM still suffers from knowledge limitation. Especially in scenarios that require long logical chains or complex reasoning, the hallucination and knowledge limitation of LLM limit its performance in question answering (QA). In this paper, we propose a novel framework KnowledgeNavigator to address these challenges by efficiently and accurately retrieving external knowledge from knowledge graph and using it as a key factor to enhance LLM reasoning. Specifically, KnowledgeNavigator first mines and enhances the potential constraints of the given question to guide the reasoning. Then it retrieves and filters external knowledge that supports answering through iterative reasoning on knowledge graph with the guidance of LLM and the question. Finally, KnowledgeNavigator constructs the structured knowledge into effective prompts that are friendly to LLM to help its reasoning. We evaluate KnowledgeNavigator on multiple public KGQA benchmarks, the experiments show the framework has great effectiveness and generalization, outperforming previous knowledge graph enhanced LLM methods and is comparable to the fully supervised models. | 翻訳日:2024-01-22 18:16:43 公開日:2024-01-19 |
# プライバシー保護型ニューラルグラフデータベース Privacy-Preserving Neural Graph Databases ( http://arxiv.org/abs/2312.15591v2 ) ライセンス: Link先を確認 | Qi Hu, Haoran Li, Jiaxin Bai, Yangqiu Song | (参考訳) ビッグデータと急速に進化する情報システムの時代、効率的で正確なデータ検索がますます重要になっている。
グラフデータベース(グラフDB)とニューラルネットワークの強みを組み合わせて、グラフ構造化データの効率的な保存、検索、分析を可能にする強力なパラダイムとして、NGDBが登場した。
ニューラルネットワーク埋め込みストレージと複雑なニューラルネットワーク論理クエリ応答の使用は、ngdbに一般化能力を提供する。
グラフが不完全である場合、潜在パターンと表現を抽出することにより、ニューラルネットワークはグラフ構造のギャップを埋め、隠れた関係を明らかにし、正確なクエリ応答を可能にする。
それでも、データベースにさらなるプライバシーリスクをもたらすため、この機能には固有のトレードオフが伴う。
悪意のある攻撃者は、1950年より前にチューリング賞受賞者が1940年以降に誕生した場所を比較し、おそらくチューリング賞受賞者のHintonの居住地を暴露するなど、よく設計された組合せクエリを使ってデータベース内のより機密性の高い情報を推測することができる。
本研究は,グラフ埋め込みにおけるプライバシ保護に着想を得て,NGDBにおけるプライバシ漏洩のリスクを軽減するために,プライバシ保存型ニューラルネットワーク(P-NGDB)を提案する。
学習段階では,複数の無意味な問合せを組み合わせることで,機密情報の推測の困難さを増大させるため,ngdbに識別不能な回答を強制的に生成させる手法を提案する。
3つのデータセットの広範な実験結果から、p-ngdbはグラフデータベース内のプライベート情報を効果的に保護し、クエリに対して高品質なパブリック回答を配信できることが分かる。 In the era of big data and rapidly evolving information systems, efficient and accurate data retrieval has become increasingly crucial. Neural graph databases (NGDBs) have emerged as a powerful paradigm that combines the strengths of graph databases (graph DBs) and neural networks to enable efficient storage, retrieval, and analysis of graph-structured data. The usage of neural embedding storage and complex neural logical query answering provides NGDBs with generalization ability. When the graph is incomplete, by extracting latent patterns and representations, neural graph databases can fill gaps in the graph structure, revealing hidden relationships and enabling accurate query answering. Nevertheless, this capability comes with inherent trade-offs, as it introduces additional privacy risks to the database. Malicious attackers can infer more sensitive information in the database using well-designed combinatorial queries, such as by comparing the answer sets of where Turing Award winners born before 1950 and after 1940 lived, the living places of Turing Award winner Hinton are probably exposed, although the living places may have been deleted in the training due to the privacy concerns. In this work, inspired by the privacy protection in graph embeddings, we propose a privacy-preserving neural graph database (P-NGDB) to alleviate the risks of privacy leakage in NGDBs. We introduce adversarial training techniques in the training stage to force the NGDBs to generate indistinguishable answers when queried with private information, enhancing the difficulty of inferring sensitive information through combinations of multiple innocuous queries. Extensive experiment results on three datasets show that P-NGDB can effectively protect private information in the graph database while delivering high-quality public answers responses to queries. | 翻訳日:2024-01-22 18:16:20 公開日:2024-01-19 |
# rotbench: ツール学習における大規模言語モデルのロバスト性評価のための多レベルベンチマーク RoTBench: A Multi-Level Benchmark for Evaluating the Robustness of Large Language Models in Tool Learning ( http://arxiv.org/abs/2401.08326v2 ) ライセンス: Link先を確認 | Junjie Ye, Yilong Wu, Songyang Gao, Caishuang Huang, Sixian Li, Guanyu Li, Xiaoran Fan, Qi Zhang, Tao Gui, Xuanjing Huang | (参考訳) ツール学習は、大規模言語モデル(llm)と物理世界の相互作用の重要な手段として、広く関心を集めている。
現在の研究は、LLMが環境が整った環境でツールを利用する能力を強調しつつ、現実の不可避な騒音に直面した際の安定性を見落としている。
このギャップを埋めるために,ツール学習におけるLLMの堅牢性を評価するマルチレベルベンチマークであるRoTBenchを導入する。
具体的には、さまざまなレベルのノイズ(クリーン、マイム、ミディアム、ヘビー、ユニオン)を特徴とする5つの外部環境を確立し、ツール選択、パラメータ識別、コンテンツ充填という3つの重要なフェーズにわたるモデルのレジリエンスの詳細な分析を提供する。
広く使われている6つのモデルを含む実験は、ツール学習におけるLLMの堅牢性を高めるために必要不可欠であることを示す。
例えば、gpt-4の性能は、手作業の精度に実質的な変化がない場合、80.00から58.10に大幅に低下する。
さらに驚くべきことに、GPTファミリー固有のノイズ補正機能は、軽度のノイズに直面した場合の適応性をパラドックス的に阻害する。
これらの知見を踏まえて,ツール学習におけるLDMの堅牢性を高めるためのトレーニング環境の多様性を高める戦略であるRoTTuningを提案する。
コードとデータはhttps://github.com/junjie-ye/rotbenchで入手できる。 Tool learning has generated widespread interest as a vital means of interaction between Large Language Models (LLMs) and the physical world. Current research predominantly emphasizes LLMs' capacity to utilize tools in well-structured environments while overlooking their stability when confronted with the inevitable noise of the real world. To bridge this gap, we introduce RoTBench, a multi-level benchmark for evaluating the robustness of LLMs in tool learning. Specifically, we establish five external environments, each featuring varying levels of noise (i.e., Clean, Slight, Medium, Heavy, and Union), providing an in-depth analysis of the model's resilience across three critical phases: tool selection, parameter identification, and content filling. Experiments involving six widely-used models underscore the urgent necessity for enhancing the robustness of LLMs in tool learning. For instance, the performance of GPT-4 even drops significantly from 80.00 to 58.10 when there is no substantial change in manual accuracy. More surprisingly, the noise correction capability inherent in the GPT family paradoxically impedes its adaptability in the face of mild noise. In light of these findings, we propose RoTTuning, a strategy that enriches the diversity of training environments to bolster the robustness of LLMs in tool learning. The code and data are available at https://github.com/Junjie-Ye/RoTBench. | 翻訳日:2024-01-22 18:06:10 公開日:2024-01-19 |
# フェデレーション学習における中毒攻撃からの効率的かつ認定された回復に向けて Towards Efficient and Certified Recovery from Poisoning Attacks in Federated Learning ( http://arxiv.org/abs/2401.08216v2 ) ライセンス: Link先を確認 | Yu Jiang, Jiyuan Shen, Ziyao Liu, Chee Wei Tan, Kwok-Yan Lam | (参考訳) フェデレートラーニング(FL)は、悪意のあるクライアントがアップデートを操作してグローバルモデルに影響を与える攻撃に対して脆弱である。
FLでこれらのクライアントを検出する様々な方法が存在するが、悪意のあるクライアントを特定するには十分なモデル更新が必要である。
これにより、悪意のあるクライアントが特定された後に正確なグローバルモデルを取り戻す方法が必要となる。
現在の復旧方法は
(i)参加しているflクライアントからのすべての履歴情報
(II) 悪質なクライアントの影響を受けない初期モデルは、ストレージと計算資源の需要が高まっている。
本稿では,高効率なリカバリがいまだに達成可能であることを示す。
(i)すべての歴史情報ではなく、選択された歴史情報
(ii)初期モデルよりも悪意のあるクライアントの影響を受けていない歴史的モデル。
このシナリオでは、同等のリカバリ性能を維持しながら、リカバリ速度を高速化し、メモリ消費を削減できる。
この概念に従えば,選択的情報記憶と適応モデルロールバックに依存する効率的かつ認定されたリカバリ手法である crab を導入する。
理論的には, カニが回収したグローバルモデルと, 列車で回収したモデルとの差は, 一定の仮定のもとに限定できることを示した。
複数の機械学習モデルにまたがる3つのデータセットにまたがる実験的な評価と、標的にされていないさまざまな毒殺攻撃により、Crabは正確かつ効率的であり、回復速度とメモリ消費の両方の観点から、従来よりも一貫して優れていることが判明した。 Federated learning (FL) is vulnerable to poisoning attacks, where malicious clients manipulate their updates to affect the global model. Although various methods exist for detecting those clients in FL, identifying malicious clients requires sufficient model updates, and hence by the time malicious clients are detected, FL models have been already poisoned. Thus, a method is needed to recover an accurate global model after malicious clients are identified. Current recovery methods rely on (i) all historical information from participating FL clients and (ii) the initial model unaffected by the malicious clients, leading to a high demand for storage and computational resources. In this paper, we show that highly effective recovery can still be achieved based on (i) selective historical information rather than all historical information and (ii) a historical model that has not been significantly affected by malicious clients rather than the initial model. In this scenario, while maintaining comparable recovery performance, we can accelerate the recovery speed and decrease memory consumption. Following this concept, we introduce Crab, an efficient and certified recovery method, which relies on selective information storage and adaptive model rollback. Theoretically, we demonstrate that the difference between the global model recovered by Crab and the one recovered by train-from-scratch can be bounded under certain assumptions. Our empirical evaluation, conducted across three datasets over multiple machine learning models, and a variety of untargeted and targeted poisoning attacks reveals that Crab is both accurate and efficient, and consistently outperforms previous approaches in terms of both recovery speed and memory consumption. | 翻訳日:2024-01-22 18:05:47 公開日:2024-01-19 |
# ビジョントランスにおけるアテンションマップの統計的テスト Statistical Test for Attention Map in Vision Transformer ( http://arxiv.org/abs/2401.08169v2 ) ライセンス: Link先を確認 | Tomohiro Shiraishi, Daiki Miwa, Teruyuki Katsuoka, Vo Nguyen Le Duy, Kouichi Taji, Ichiro Takeuchi | (参考訳) Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて例外的な性能を示す。
ViTは、画像パッチ間の複雑な広範関係をキャプチャし、画像パッチの重要性を考慮し、意思決定プロセスの理解を支援することが重要である。
しかし,ViTの注意を医療診断などの高い意思決定課題の証拠として活用する場合,非関連領域に誤って注目する注意機構の可能性から課題が生じる。
本研究では,ViTの注意度を統計的に評価し,その注意度を精度の高い定量的な指標として,厳密に制御された誤り率を用いて評価する。
選択推論と呼ばれるフレームワークを用いて,p-値の形で注意の統計的意義を定量化し,注意の偽陽性検出確率を理論的に定量化する。
脳画像診断への数値実験と応用を通して,提案手法の有効性と有効性を示す。 The Vision Transformer (ViT) demonstrates exceptional performance in various computer vision tasks. Attention is crucial for ViT to capture complex wide-ranging relationships among image patches, allowing the model to weigh the importance of image patches and aiding our understanding of the decision-making process. However, when utilizing the attention of ViT as evidence in high-stakes decision-making tasks such as medical diagnostics, a challenge arises due to the potential of attention mechanisms erroneously focusing on irrelevant regions. In this study, we propose a statistical test for ViT's attentions, enabling us to use the attentions as reliable quantitative evidence indicators for ViT's decision-making with a rigorously controlled error rate. Using the framework called selective inference, we quantify the statistical significance of attentions in the form of p-values, which enables the theoretically grounded quantification of the false positive detection probability of attentions. We demonstrate the validity and the effectiveness of the proposed method through numerical experiments and applications to brain image diagnoses. | 翻訳日:2024-01-22 18:05:19 公開日:2024-01-19 |
# 確率的ランベルト問題の解法:最適物質輸送,Schr\\odinger Bridgeおよび反応拡散PDEとの接続 Solution of the Probabilistic Lambert Problem: Connections with Optimal Mass Transport, Schr\"odinger Bridge and Reaction-Diffusion PDEs ( http://arxiv.org/abs/2401.07961v2 ) ライセンス: Link先を確認 | Alexis M.H. Teter, Iman Nodozi, Abhishek Halder | (参考訳) ランバートの問題は、重力場を受ける速度制御を介して所定の飛行時間内に、与えられた初期から所定の終端位置に宇宙船を移動させることである。
我々は、位置ベクトルにおけるエンドポイント制約の知識がそれぞれの確率密度関数の知識に置き換えられるランベルト問題の確率的変種を考える。
終端結合確率密度制約を伴うランベルト問題は、一般化された最適質量輸送(OMT)問題であり、この古典的な天体力学問題を、現代の確率制御と確率機械学習の進歩的な研究領域と結びつけていることを示す。
この新たな接続により、確率ランベルト問題に対する解の存在と一意性を厳格に確立することができる。
同じ接続は拡散正則化(英語版)により確率ランベルト問題を数値的に解くのにも役立ち、すなわち OMT と Schr\"odinger bridge problem (SBP) とのさらなる接続を利用する。
これはまた、加法的動的プロセスノイズを伴う確率ランベルト問題は、実際は一般化されたSBPであり、この研究で述べたように、いわゆる「シュル・オーディンガー因子」を用いて数値的に解くことができることを示している。
この結果から, 非線形重力ポテンシャルが反応速度として現れる反応拡散PDEの境界結合系の解法が導かれる。
本稿では,新しいアルゴリズムを提案するとともに,実測的な数値結果を示す。
解析とアルゴリズムの枠組みは非パラメトリック、すなわち統計的(ガウス的、最初の数モーメント、混合または指数的族、十分な統計量の有限次元性)も動的(テイラー級数など)も近似もしない。 Lambert's problem concerns with transferring a spacecraft from a given initial to a given terminal position within prescribed flight time via velocity control subject to a gravitational force field. We consider a probabilistic variant of the Lambert problem where the knowledge of the endpoint constraints in position vectors are replaced by the knowledge of their respective joint probability density functions. We show that the Lambert problem with endpoint joint probability density constraints is a generalized optimal mass transport (OMT) problem, thereby connecting this classical astrodynamics problem with a burgeoning area of research in modern stochastic control and stochastic machine learning. This newfound connection allows us to rigorously establish the existence and uniqueness of solution for the probabilistic Lambert problem. The same connection also helps to numerically solve the probabilistic Lambert problem via diffusion regularization, i.e., by leveraging further connection of the OMT with the Schr\"odinger bridge problem (SBP). This also shows that the probabilistic Lambert problem with additive dynamic process noise is in fact a generalized SBP, and can be solved numerically using the so-called Schr\"odinger factors, as we do in this work. We explain how the resulting analysis leads to solving a boundary-coupled system of reaction-diffusion PDEs where the nonlinear gravitational potential appears as the reaction rate. We propose novel algorithms for the same, and present illustrative numerical results. Our analysis and the algorithmic framework are nonparametric, i.e., we make neither statistical (e.g., Gaussian, first few moments, mixture or exponential family, finite dimensionality of the sufficient statistic) nor dynamical (e.g., Taylor series) approximations. | 翻訳日:2024-01-22 18:04:47 公開日:2024-01-19 |
# ビデオにおける時間文接地のためのバイアス競合サンプル合成と逆除去デビアス戦略 Bias-Conflict Sample Synthesis and Adversarial Removal Debias Strategy for Temporal Sentence Grounding in Video ( http://arxiv.org/abs/2401.07567v2 ) ライセンス: Link先を確認 | Zhaobo Qi, Yibo Yuan, Xiaowen Ruan, Shuhui Wang, Weigang Zhang, Qingming Huang | (参考訳) TSGV(Temporal Sentence Grounding in Video)は、入力ビデオやクエリテキストに類似のセマンティックコンポーネントを持つサンプルに対して、ターゲットモーメントの不均一な時間分布に起因するデータセットバイアスの問題に悩まされている。
既存の手法では、偏見に関する事前の知識を利用して、この不均一な分布を人工的に破壊する。
本研究では,シングルモダリティ特徴と目標モーメントの時間的位置との潜在的スパーラスな相関を明示的に活用して,動的にバイアスコンプリクトサンプルを生成するバイアスコンフリクトサンプル合成および逆除去デビアス戦略(bssard)を提案する。
逆行訓練を通じて、バイアス発生器はバイアスを連続的に導入し、バイアスを伴うサンプルを生成して基底モデルを欺く。
一方、接地モデルは導入されたバイアスを継続的に排除し、多モードアライメント情報をモデル化する必要がある。
BSSARDは、ほとんどの種類の結合関係をカバーし、言語と視覚バイアスを同時に破壊する。
Charades-CDとActivityNet-CDの大規模な実験は、BSSARDの有望な脱バイアス能力を示している。
ソースコードはhttps://github.com/qzhb/BSSARDで入手できる。 Temporal Sentence Grounding in Video (TSGV) is troubled by dataset bias issue, which is caused by the uneven temporal distribution of the target moments for samples with similar semantic components in input videos or query texts. Existing methods resort to utilizing prior knowledge about bias to artificially break this uneven distribution, which only removes a limited amount of significant language biases. In this work, we propose the bias-conflict sample synthesis and adversarial removal debias strategy (BSSARD), which dynamically generates bias-conflict samples by explicitly leveraging potentially spurious correlations between single-modality features and the temporal position of the target moments. Through adversarial training, its bias generators continuously introduce biases and generate bias-conflict samples to deceive its grounding model. Meanwhile, the grounding model continuously eliminates the introduced biases, which requires it to model multi-modality alignment information. BSSARD will cover most kinds of coupling relationships and disrupt language and visual biases simultaneously. Extensive experiments on Charades-CD and ActivityNet-CD demonstrate the promising debiasing capability of BSSARD. Source codes are available at https://github.com/qzhb/BSSARD. | 翻訳日:2024-01-22 18:04:16 公開日:2024-01-19 |
# input convex lipschitz rnn: エンジニアリングタスクのための高速で堅牢なアプローチ Input Convex Lipschitz RNN: A Fast and Robust Approach for Engineering Tasks ( http://arxiv.org/abs/2401.07494v2 ) ライセンス: Link先を確認 | Zihao Wang, P S Pravin, Zhe Wu | (参考訳) 計算効率と敵対的ロバスト性は実世界の工学的応用において重要な要素である。
しかし、従来のニューラルネットワークは、同時に、あるいは別々に対処できないことが多い。
自然物理系や既存の文献からの洞察を引き合いに出し、入力凸構造が計算効率を高めるのに対し、リプシッツ拘束型アーキテクチャは逆ロバスト性を高めることが知られている。
凸性およびリプシッツ連続性の強みを活用することにより、入出力凸リプシッツ再帰ニューラルネットワークと呼ばれる新しいネットワークアーキテクチャを開発する。
このモデルは、計算効率と逆ロバスト性の観点から、エンジニアリングタスクのスペクトル全体で既存の再帰ユニットを上回る。
これらのタスクには、MNIST画像分類のベンチマーク、シンガポールのLHTホールディングスのソーラーPVシステム計画のための実世界の太陽光照射予測、化学反応器のリアルタイムモデル予測制御の最適化が含まれる。 Computational efficiency and adversarial robustness are critical factors in real-world engineering applications. Yet, conventional neural networks often fall short in addressing both simultaneously, or even separately. Drawing insights from natural physical systems and existing literature, it is known that an input convex architecture enhances computational efficiency, while a Lipschitz-constrained architecture bolsters adversarial robustness. By leveraging the strengths of convexity and Lipschitz continuity, we develop a novel network architecture, termed Input Convex Lipschitz Recurrent Neural Networks. This model outperforms existing recurrent units across a spectrum of engineering tasks in terms of computational efficiency and adversarial robustness. These tasks encompass a benchmark MNIST image classification, real-world solar irradiance prediction for Solar PV system planning at LHT Holdings in Singapore, and real-time Model Predictive Control optimization for a chemical reactor. | 翻訳日:2024-01-22 18:03:54 公開日:2024-01-19 |
# A2Q+: 蓄積器対応重み量子化の改善 A2Q+: Improving Accumulator-Aware Weight Quantization ( http://arxiv.org/abs/2401.10432v1 ) ライセンス: Link先を確認 | Ian Colbert, Alessandro Pappalardo, Jakoba Petri-Koenig, Yaman Umuroglu | (参考訳) 量子化技術は、重みとアクティベーションの精度を制限し、ニューラルネットワークの推論コストを低減する。
近年の研究では、アキュムレータの精度を低下させることで、数値オーバーフローのリスクでハードウェア効率がさらに向上し、モデル精度を低下させる算術誤差が生じることが示されている。
精度を維持しつつ数値オーバーフローを回避するために、最近の研究は、トレーニング中にモデル重みを制約し、推論中にターゲットアキュムレータビット幅を安全に使用する量子化アウェアトレーニング手法であるaccumulator-aware quantization (a2q)を提案した。
これは約束を示すが、a2qは過度に制限的な制約とサブ最適重み初期化戦略に依存しており、それぞれが過剰な量子化誤差をもたらすことを実証する。
これらの欠点に対処するために,(1)オーバーフロー回避を伴わずに累積制約を緩和する改良境界,(2)事前訓練された浮動小数点チェックポイントから量子化重みを初期化する新しい戦略を提案する。
これらを重み正規化と組み合わせてA2Q+を導入する。
A2Q+はアキュムレータビット幅とモデル精度のトレードオフを著しく改善し、アキュムレータ制約の結果生じる新たなトレードオフを特徴付ける実験で分析を支援した。 Quantization techniques commonly reduce the inference costs of neural networks by restricting the precision of weights and activations. Recent studies show that also reducing the precision of the accumulator can further improve hardware efficiency at the risk of numerical overflow, which introduces arithmetic errors that can degrade model accuracy. To avoid numerical overflow while maintaining accuracy, recent work proposed accumulator-aware quantization (A2Q), a quantization-aware training method that constrains model weights during training to safely use a target accumulator bit width during inference. Although this shows promise, we demonstrate that A2Q relies on an overly restrictive constraint and a sub-optimal weight initialization strategy that each introduce superfluous quantization error. To address these shortcomings, we introduce: (1) an improved bound that alleviates accumulator constraints without compromising overflow avoidance; and (2) a new strategy for initializing quantized weights from pre-trained floating-point checkpoints. We combine these contributions with weight normalization to introduce A2Q+. We support our analysis with experiments that show A2Q+ significantly improves the trade-off between accumulator bit width and model accuracy and characterize new trade-offs that arise as a consequence of accumulator constraints. | 翻訳日:2024-01-22 17:21:57 公開日:2024-01-19 |
# 組合せ問題に対する解の再生によるモンテカルロ探索の事前学習 Learning a Prior for Monte Carlo Search by Replaying Solutions to Combinatorial Problems ( http://arxiv.org/abs/2401.10431v1 ) ライセンス: Link先を確認 | Tristan Cazenave | (参考訳) モンテカルロ探索は、複数の難しい組合せ問題に優れた結果を与える。
検索中に前者が非一様プレイアウトを行うと、一様プレイアウトに比べて多くの結果が改善される。
組み合わせ問題に適した手作りヒューリスティックは、しばしば先行として使用される。
本稿では,事前計算を自動的に行う手法を提案する。
解決された問題の統計を利用する。
これは、プレイアウト時に計算コストを伴わず、大きなパフォーマンス向上をもたらす単純で一般的な方法である。
この方法は、ラテンスクエアコンプリート、カクロ、逆RNAフォールディングの3つの難しい組み合わせ問題に適用される。 Monte Carlo Search gives excellent results in multiple difficult combinatorial problems. Using a prior to perform non uniform playouts during the search improves a lot the results compared to uniform playouts. Handmade heuristics tailored to the combinatorial problem are often used as priors. We propose a method to automatically compute a prior. It uses statistics on solved problems. It is a simple and general method that incurs no computational cost at playout time and that brings large performance gains. The method is applied to three difficult combinatorial problems: Latin Square Completion, Kakuro, and Inverse RNA Folding. | 翻訳日:2024-01-22 17:21:30 公開日:2024-01-19 |
# 動的不変量のレンズによる学習の理解 Understanding Learning through the Lens of Dynamical Invariants ( http://arxiv.org/abs/2401.10428v1 ) ライセンス: Link先を確認 | Alex Ushveridze | (参考訳) 本稿では,学習に関する新しい視点を提案し,動的不変量 -- システムの進化とともに時間とともに変化の少ないデータの組み合わせ -- の追求を実証する。
この概念は、これらの不変量の本質的性質に根ざした情報的・物理的原理の両方に基づいている。
第一に、その安定性は記憶と連想ネットワークへの統合に理想的であり、知識構造の基礎を形成します。
第二に、これらの安定な不変量の予測可能性は、正確な予測情報のビット当たりktln2として定量化できる有用なエネルギー源となる。
このエネルギーは、新たな変革を探求し、学習システムをエネルギ的に自律的かつより効果的にレンダリングするために利用することができる。
このようなシステムは、エネルギー源として新しいデータ不変性を継続的に求めている。
さらに,予測可能な情報パターンを利用可能なエネルギー源として活用する自律型自己推進型学習エージェントのメタアーキテクチャについて検討した。 This paper proposes a novel perspective on learning, positing it as the pursuit of dynamical invariants -- data combinations that remain constant or exhibit minimal change over time as a system evolves. This concept is underpinned by both informational and physical principles, rooted in the inherent properties of these invariants. Firstly, their stability makes them ideal for memorization and integration into associative networks, forming the basis of our knowledge structures. Secondly, the predictability of these stable invariants makes them valuable sources of usable energy, quantifiable as kTln2 per bit of accurately predicted information. This energy can be harnessed to explore new transformations, rendering learning systems energetically autonomous and increasingly effective. Such systems are driven to continuously seek new data invariants as energy sources. The paper further explores several meta-architectures of autonomous, self-propelled learning agents that utilize predictable information patterns as a source of usable energy. | 翻訳日:2024-01-22 17:21:20 公開日:2024-01-19 |
# 言語横断型言語モデルによる多言語性の呪いの破れ Breaking the Curse of Multilinguality with Cross-lingual Expert Language Models ( http://arxiv.org/abs/2401.10440v1 ) ライセンス: Link先を確認 | Terra Blevins, Tomasz Limisiewicz, Suchin Gururangan, Margaret Li, Hila Gonen, Noah A. Smith, Luke Zettlemoyer | (参考訳) 非英語のnlpで人気があるにもかかわらず、多言語モデルは、モデルパラメーターの言語間競争のため、しばしば単言語モデルよりも劣っている。
我々は,多言語コーパスのサブセット上で言語モデルを独立に訓練することにより,競争を緩和する言語間エキスパート言語モデル(X-ELM)を提案する。
このプロセスは、多言語アンサンブルとして有効でありながら、異なる言語にX-ELMを特化している。
実験の結果、X-ELMは、同じ計算予算を与えられた場合、すべての言語において、共同で訓練された多言語モデルよりも優れており、下流タスクに変換されることがわかった。
新しい専門家を反復的に追加し、破滅的な忘れをせずに新しい言語にX-ELMを適用する。
さらに、トレーニングは非同期であり、多言語トレーニングのハードウェア要件を減らし、多言語モデリングを民主化する。 Despite their popularity in non-English NLP, multilingual language models often underperform monolingual ones due to inter-language competition for model parameters. We propose Cross-lingual Expert Language Models (X-ELM), which mitigate this competition by independently training language models on subsets of the multilingual corpus. This process specializes X-ELMs to different languages while remaining effective as a multilingual ensemble. Our experiments show that when given the same compute budget, X-ELM outperforms jointly trained multilingual models across all considered languages and that these gains transfer to downstream tasks. X-ELM provides additional benefits over performance improvements: new experts can be iteratively added, adapting X-ELM to new languages without catastrophic forgetting. Furthermore, training is asynchronous, reducing the hardware requirements for multilingual training and democratizing multilingual modeling. | 翻訳日:2024-01-22 17:14:21 公開日:2024-01-19 |
# コントラスト学習による混合整数プログラムのバックドア学習 Learning Backdoors for Mixed Integer Programs with Contrastive Learning ( http://arxiv.org/abs/2401.10467v1 ) ライセンス: Link先を確認 | Junyang Cai, Taoan Huang, Bistra Dilkina | (参考訳) 多くの実世界の問題は、Mixed Integer Programs (MIP) として効率的にモデル化でき、ブランチ・アンド・バウンド法で解決できる。
以前の研究は、可能な限りブランチの優先順位付けが実行時間の短縮につながるような、小さな変数セットであるMIPバックドアの存在を示していた。
しかし、実行時間を改善する高品質なバックドアを見つけることは、まだ未解決の問題である。
以前の研究では、ランダムにサンプリングされたバックドアの相対解法速度をランキングを通じて推定し、それを使うかどうかを判断する。
本稿では,モンテカルロ木探索法を用いてランダムサンプリングに頼らず,トレーニングのためのバックドアを収集し,グラフアテンションネットワークモデルをトレーニングしてバックドアを予測するためのコントラスト学習フレームワークを適用する。
本手法は4つの共通mip問題領域で評価し, gurobiモデルと従来モデルの性能改善を示す。 Many real-world problems can be efficiently modeled as Mixed Integer Programs (MIPs) and solved with the Branch-and-Bound method. Prior work has shown the existence of MIP backdoors, small sets of variables such that prioritizing branching on them when possible leads to faster running times. However, finding high-quality backdoors that improve running times remains an open question. Previous work learns to estimate the relative solver speed of randomly sampled backdoors through ranking and then decide whether to use it. In this paper, we utilize the Monte-Carlo tree search method to collect backdoors for training, rather than relying on random sampling, and adapt a contrastive learning framework to train a Graph Attention Network model to predict backdoors. Our method, evaluated on four common MIP problem domains, demonstrates performance improvements over both Gurobi and previous models. | 翻訳日:2024-01-22 17:10:36 公開日:2024-01-19 |
# レキシコンフリーテキスト対音声のためのデータ駆動グラフ-音素表現 Data-driven grapheme-to-phoneme representations for a lexicon-free text-to-speech ( http://arxiv.org/abs/2401.10465v1 ) ライセンス: Link先を確認 | Abhinav Garg, Jiyeon Kim, Sushil Khyalia, Chanwoo Kim, Dhananjaya Gowda | (参考訳) Grapheme-to-Phoneme (G2P) は、近代的で高品質なText-to-Speech (TTS) システムにおいて重要な第一歩である。
現在のG2Pシステムのほとんどは、専門家によって開発された慎重に手作りのレキシコンに依存している。
これは2つの問題を引き起こす。
第一に、レキシコンは固定音素集合(通常はarpabetまたはipa)を使用して生成されるが、これは全ての言語で音素を表現する最も最適な方法ではない。
第二に、そのような専門家の辞書を作るのに必要な工数は非常に高い。
本稿では,これら2つの問題を自己教師型学習の最近の進歩を利用して,固定表現の代わりにデータ駆動型音素表現を得る。
当社のレキシコンフリーアプローチを,優れたレキシコンを利用する強力なベースラインと比較した。
さらに,このデータ駆動レキシコンフリー手法は,従来のルールベースあるいはレキシコンベースニューラルg2psよりも,従来型言語レキシコンや音素セットを使わずに,平均意見スコア(mos)で,あるいは言語的専門知識を使わずに,優れた性能を示す。 Grapheme-to-Phoneme (G2P) is an essential first step in any modern, high-quality Text-to-Speech (TTS) system. Most of the current G2P systems rely on carefully hand-crafted lexicons developed by experts. This poses a two-fold problem. Firstly, the lexicons are generated using a fixed phoneme set, usually, ARPABET or IPA, which might not be the most optimal way to represent phonemes for all languages. Secondly, the man-hours required to produce such an expert lexicon are very high. In this paper, we eliminate both of these issues by using recent advances in self-supervised learning to obtain data-driven phoneme representations instead of fixed representations. We compare our lexicon-free approach against strong baselines that utilize a well-crafted lexicon. Furthermore, we show that our data-driven lexicon-free method performs as good or even marginally better than the conventional rule-based or lexicon-based neural G2Ps in terms of Mean Opinion Score (MOS) while using no prior language lexicon or phoneme set, i.e. no linguistic expertise. | 翻訳日:2024-01-22 17:10:22 公開日:2024-01-19 |
# グロッキングの視点からみた言語モデルの臨界データサイズ Critical Data Size of Language Models from a Grokking Perspective ( http://arxiv.org/abs/2401.10463v1 ) ライセンス: Link先を確認 | Xuekai Zhu, Yao Fu, Bowen Zhou, Zhouhan Lin | (参考訳) 我々は、言語モデルにおける重要なデータサイズを探索する。これは、素早い記憶から遅い一般化への根本的なシフトを示すしきい値である。
グロッキング構成下での相転移をデータ効率仮説に定式化し,言語モデルの学習ダイナミクスにおけるデータ不足,不十分,余剰レジームを同定する。
我々は、初期化と重み劣化を再スケーリングすることで、単純化された言語モデル上でグラッキングを安定的に再現するためのグラッキング構成を開発する。
一般化は言語モデルが臨界サイズに達する場合にのみ起こることを示す。
サンプル単位とモデル単位のグロッキングを解析し,提案するデータ効率仮説を検証した。
実験の結果,言語データセットのクリティカルデータセットサイズで発生するスムーズな相転移が明らかになった。
モデルのサイズが大きくなると、このクリティカルポイントも大きくなり、より大きなモデルにはより多くのデータが必要となる。
その結果,言語モデル学習の理解を深め,言語モデルの学習メカニズムにおけるデータの役割に関する新たな視点が得られた。 We explore the critical data size in language models, a threshold that marks a fundamental shift from quick memorization to slow generalization. We formalize the phase transition under the grokking configuration into the Data Efficiency Hypothesis and identify data insufficiency, sufficiency, and surplus regimes in language models training dynamics. We develop a grokking configuration to reproduce grokking on simplistic language models stably by rescaling initialization and weight decay. We show that generalization occurs only when language models reach a critical size. We analyze grokking across sample-wise and model-wise, verifying the proposed data efficiency hypothesis. Our experiments reveal smoother phase transitions occurring at the critical dataset size for language datasets. As the model size increases, this critical point also becomes larger, indicating that larger models require more data. Our results deepen the understanding of language model training, offering a novel perspective on the role of data in the learning mechanism of language models. | 翻訳日:2024-01-22 17:10:01 公開日:2024-01-19 |
# スパイクストリームから低照度ダイナミックシーンをロバストに再構築する学習 Learning to Robustly Reconstruct Low-light Dynamic Scenes from Spike Streams ( http://arxiv.org/abs/2401.10461v1 ) ライセンス: Link先を確認 | Liwen Hu, Ziluo Ding, Mianzhi Liu, Lei Ma, Tiejun Huang | (参考訳) 高時間分解能のニューロモルフィックセンサーとして、スパイクカメラは連続したバイナリスパイクストリームを生成してピクセル当たりの光強度を捉えることができる。
高速シナリオにおけるシーン詳細の復元に復元手法を用いることができる。
しかし、スパイクストリームの情報が少ないため、低照度シーンを効果的に再現することは困難である。
本稿では,光ロバスト表現(LR-Rep)と融合モジュールを含む双方向のリカレントに基づく再構成フレームワークを提案する。
LR-Repはスパイクストリーム内の時間情報を集約するために設計され、融合モジュールを使用して時間的特徴を抽出する。
また,高速低照度シーンの再構成ベンチマークを開発した。
現場の光源は、現実世界の状況と慎重に一致している。
実験の結果,本手法は実際のスパイクストリームにもよく適用できることを示す。
関連するコードと提案されたデータセットは、公開後にリリースされる。 As a neuromorphic sensor with high temporal resolution, spike camera can generate continuous binary spike streams to capture per-pixel light intensity. We can use reconstruction methods to restore scene details in high-speed scenarios. However, due to limited information in spike streams, low-light scenes are difficult to effectively reconstruct. In this paper, we propose a bidirectional recurrent-based reconstruction framework, including a Light-Robust Representation (LR-Rep) and a fusion module, to better handle such extreme conditions. LR-Rep is designed to aggregate temporal information in spike streams, and a fusion module is utilized to extract temporal features. Additionally, we have developed a reconstruction benchmark for high-speed low-light scenes. Light sources in the scenes are carefully aligned to real-world conditions. Experimental results demonstrate the superiority of our method, which also generalizes well to real spike streams. Related codes and proposed datasets will be released after publication. | 翻訳日:2024-01-22 17:09:45 公開日:2024-01-19 |
# 高品質音声合成のための超軽量ニューラル微分DSPヴォコーダ Ultra-lightweight Neural Differential DSP Vocoder For High Quality Speech Synthesis ( http://arxiv.org/abs/2401.10460v1 ) ライセンス: Link先を確認 | Prabhav Agrawal, Thilo Koehler, Zhiping Xiu, Prashant Serai, Qing He | (参考訳) ニューラルヴォコーダは生のオーディオ波形をモデル化し、高品質なオーディオを合成するが、MB-MelGANやLPCNetのような高効率なものでさえ、スマートグラスのようなローエンドデバイスでリアルタイムに実行できない。
純粋なデジタル信号処理(DSP)ベースのボコーダは、軽量高速フーリエ変換(FFT)によって実装できるため、どの神経ボコーダよりも高速である。
DSPヴォコーダは、声道の近似表現の過度に平滑な音響モデル予測を使用するため、音質が低下することが多い。
本稿では,dsp vocoderと協調的に最適化した音響モデルを用いて,声道のスペクトル特徴を抽出せずに学習する超軽量差動dsp(ddsp)vocoderを提案する。
このモデルは、DSPボコーダとして効率的でありながら、平均MOSが4.36であるニューラルボコーダに匹敵する音質を実現する。
我々のC++実装はハードウェア固有の最適化を伴わず、15 MFLOPSであり、FLOPSではMB-MelGANを340倍上回り、vocoderのみのRTF0.003、全体的なRTF0.044を達成し、2GHzのIntel Xeon CPU上でシングルスレッドで動作する。 Neural vocoders model the raw audio waveform and synthesize high-quality audio, but even the highly efficient ones, like MB-MelGAN and LPCNet, fail to run real-time on a low-end device like a smartglass. A pure digital signal processing (DSP) based vocoder can be implemented via lightweight fast Fourier transforms (FFT), and therefore, is a magnitude faster than any neural vocoder. A DSP vocoder often gets a lower audio quality due to consuming over-smoothed acoustic model predictions of approximate representations for the vocal tract. In this paper, we propose an ultra-lightweight differential DSP (DDSP) vocoder that uses a jointly optimized acoustic model with a DSP vocoder, and learns without an extracted spectral feature for the vocal tract. The model achieves audio quality comparable to neural vocoders with a high average MOS of 4.36 while being efficient as a DSP vocoder. Our C++ implementation, without any hardware-specific optimization, is at 15 MFLOPS, surpasses MB-MelGAN by 340 times in terms of FLOPS, and achieves a vocoder-only RTF of 0.003 and overall RTF of 0.044 while running single-threaded on a 2GHz Intel Xeon CPU. | 翻訳日:2024-01-22 17:09:32 公開日:2024-01-19 |
# コントラスト的アンラーニング: 機械的アンラーニングに対するコントラスト的アプローチ Contrastive Unlearning: A Contrastive Approach to Machine Unlearning ( http://arxiv.org/abs/2401.10458v1 ) ライセンス: Link先を確認 | Hong kyu Lee, Qiuchen Zhang, Carl Yang, Jian Lou, Li Xiong | (参考訳) 機械学習は、訓練されたモデルからトレーニングサンプルのサブセット(すなわち、未学習サンプル)の影響を取り除くことを目的としている。
モデル全体のパフォーマンスに悪影響を与えることなく、非学習サンプルを効果的かつ効率的に除去することは依然として難しい。
本稿では,表現学習の概念を有効活用する,対照的な非学習フレームワークを提案する。
組込みを残りのサンプルと対比することで、未学習のサンプルの影響を排除し、元のクラスから追い出され、他のクラスに引っ張られる。
表現空間を直接最適化することにより、未学習サンプルの影響を効果的に除去し、残りのサンプルから学んだ表現を維持できる。
クラスアンラーニングとサンプルアンラーニングの両方で、さまざまなデータセットとモデルの実験により、対照的なアンラーニングは、最先端のアルゴリズムと比較して、最高のアンラーニング効果と効率を達成できることを示した。 Machine unlearning aims to eliminate the influence of a subset of training samples (i.e., unlearning samples) from a trained model. Effectively and efficiently removing the unlearning samples without negatively impacting the overall model performance is still challenging. In this paper, we propose a contrastive unlearning framework, leveraging the concept of representation learning for more effective unlearning. It removes the influence of unlearning samples by contrasting their embeddings against the remaining samples so that they are pushed away from their original classes and pulled toward other classes. By directly optimizing the representation space, it effectively removes the influence of unlearning samples while maintaining the representations learned from the remaining samples. Experiments on a variety of datasets and models on both class unlearning and sample unlearning showed that contrastive unlearning achieves the best unlearning effects and efficiency with the lowest performance loss compared with the state-of-the-art algorithms. | 翻訳日:2024-01-22 17:09:06 公開日:2024-01-19 |
# ハイブリッドスピンオプトメカニカル量子インタフェースを用いたマイクロ波単一光子検出 Microwave single-photon detection using a hybrid spin-optomechanical quantum interface ( http://arxiv.org/abs/2401.10455v1 ) ライセンス: Link先を確認 | Pratyush Anand, Ethan G. Arnault, Matthew E. Trusheim, and Dirk R. Englund | (参考訳) 赤外および光単一光子検出器は高い量子効率で存在するが、単一マイクロ波光子を検出することは現在進行中の課題である。
特に、マイクロ波光子検出は、そのエネルギースケールが4桁から5桁小さく、低い動作温度を必要とするため、光学素子と比較すると困難である。
本稿では、単一マイクロ波光子を検出するためのハイブリッドスピンオプトメカニカルインタフェースを提案する。
マイクロ波光子は圧電アクチュエータを介してフォノン共振器に結合される。
この音速キャビティは、ダイヤモンドにケイ素空洞(SiV)を埋め込んだフォトニックキャビティとしても機能する。
フォノンは単一量子レベルで高いスピン-機械的カップリングを可能にするため、マイクロ波空洞のSiVスピンへの量子状態移動を媒介する。
このことから、光キャビティは、スピン状態のキャビティ強化シングルショット読み出しを行うために用いられる。
ここで、実験的に実現可能なパラメータのセットから、完全なプロトコルをシミュレートし、全体的な検出成功確率$P_s^0$$0.972$、シャノンの相互情報$I^{0}(X;Y)$$$0.82\ln(2)$、合計検出時間$\sim2$$\mu s$を推定する。
また、$P_s^0$がユニティに近づき、$I^{0}(X;Y)$が$\ln(2)$に近づき、マイクロ波光子の存在や不在について正確に1ビットの情報検索を示す実験的な状況についても述べる。 While infrared and optical single-photon detectors exist at high quantum efficiencies, detecting single microwave photons has been an ongoing challenge. Specifically, microwave photon detection is challenging compared to its optical counterpart as its energy scale is four to five orders of magnitude smaller, necessitating lower operating temperatures. Here, we propose a hybrid spin-optomechanical interface to detect single microwave photons. The microwave photons are coupled to a phononic resonator via piezoelectric actuation. This phononic cavity also acts as a photonic cavity with an embedded Silicon-Vacancy (SiV) center in diamond. Phonons mediate the quantum state transfer of the microwave cavity to the SiV spin, in order to allow for high spin-mechanical coupling at the single quantum level. From this, the optical cavity is used to perform a cavity-enhanced single-shot readout of the spin-state. Here, starting with a set of experimentally realizable parameters, we simulate the complete protocol and estimate an overall detection success probability $P_s^0$ of $0.972$, Shannon's mutual information $I^{0}(X;Y)$ of $0.82\ln(2)$, and a total detection time of $\sim2$ $\mu s$. We also talk about the experimental regimes in which $P_s^0$ tends to near unity and $I^{0}(X;Y)$ tends to $\ln(2)$ indicating exactly one bit of information retrieval about the presence or absence of a microwave photon. | 翻訳日:2024-01-22 17:08:52 公開日:2024-01-19 |
# 学習支援確率的容量拡張計画:ベイズ最適化アプローチ Learning-assisted Stochastic Capacity Expansion Planning: A Bayesian Optimization Approach ( http://arxiv.org/abs/2401.10451v1 ) ライセンス: Link先を確認 | Aron Brenner, Rahman Khorramfar, Dharik Mallapragada, Saurabh Amin | (参考訳) 大規模容量拡大問題(CEP)の解決は、地域規模のエネルギーシステムのコスト効率の高い脱炭の中心である。
CEPの意図した結果を保証するため、気象に依存した可変再生可能エネルギー(VRE)の供給とエネルギー需要による不確実性をモデル化することが重要である。
しかし、結果として得られる確率的最適化モデルは、しばしば決定論的モデルよりも計算的に扱いにくい。
本稿では,2段階確率CEPを抽出可能な学習支援近似解法を提案する。
提案手法は,時間的集約型サロゲート問題の構築と解決により,低コストな計画決定を識別する。
我々は,時系列集約ハイパーパラメータの空間を探索し,供給需要予測の検証セットのコストを最小化する近似解を計算するベイズ最適化手法を採用する。
重要な点として,解決された計画の成果を連続したテストプロジェクションで評価する。
我々は,ニューイングランドにまたがるジョイントパワーガスシステムの発電・送電拡張計画にアプローチを適用した。
本手法は,ベンチマーク時系列アグリゲーション手法と比較して,最大3.8%のコスト削減が期待できることを示す。 Solving large-scale capacity expansion problems (CEPs) is central to cost-effective decarbonization of regional-scale energy systems. To ensure the intended outcomes of CEPs, modeling uncertainty due to weather-dependent variable renewable energy (VRE) supply and energy demand becomes crucially important. However, the resulting stochastic optimization models are often less computationally tractable than their deterministic counterparts. Here, we propose a learning-assisted approximate solution method to tractably solve two-stage stochastic CEPs. Our method identifies low-cost planning decisions by constructing and solving a sequence of tractable temporally aggregated surrogate problems. We adopt a Bayesian optimization approach to searching the space of time series aggregation hyperparameters and compute approximate solutions that minimize costs on a validation set of supply-demand projections. Importantly, we evaluate solved planning outcomes on a held-out set of test projections. We apply our approach to generation and transmission expansion planning for a joint power-gas system spanning New England. We show that our approach yields an estimated cost savings of up to 3.8% in comparison to benchmark time series aggregation approaches. | 翻訳日:2024-01-22 17:08:20 公開日:2024-01-19 |
# 注意に基づくバイアスフレーズ強調ビーム検索による文脈別自動音声認識 Contextualized Automatic Speech Recognition with Attention-Based Bias Phrase Boosted Beam Search ( http://arxiv.org/abs/2401.10449v1 ) ライセンス: Link先を確認 | Yui Sudo, Muhammad Shakeel, Yosuke Fukumoto, Yifan Peng, Shinji Watanabe | (参考訳) エンドツーエンド (E2E) 自動音声認識 (ASR) 手法は優れた性能を示す。
しかし、そのような手法の性能はトレーニングデータに存在するコンテキストと本質的に関連しているため、E2E-ASR法は見当たらないユーザコンテキスト(技術的用語、個人名、プレイリストなど)に対して望ましくは機能しない。
したがって、E2E-ASRメソッドは、ユーザまたは開発者によって簡単にコンテキスト化されなければならない。
本稿では,編集可能な句リスト(バイアスリストと呼ぶ)を用いてカスタマイズ可能な注意に基づく文脈バイアス手法を提案する。
提案手法は、入力音声データ中のバイアスフレーズを検出するために、バイアスフレーズインデックス損失と特別なトークンを組み合わせることで効果的に訓練することができる。
さらに,推定中の文脈化性能を向上させるために,バイアスフレーズインデックス確率に基づくバイアスフレーズ強調(bpb)ビーム探索アルゴリズムを提案する。
実験結果から,提案手法は,Lbrispeech-960(英語)と社内(日本語)データセットのバイアスリストにおいて,単語誤り率とターゲット句の文字誤り率を一貫して改善することを示した。 End-to-end (E2E) automatic speech recognition (ASR) methods exhibit remarkable performance. However, since the performance of such methods is intrinsically linked to the context present in the training data, E2E-ASR methods do not perform as desired for unseen user contexts (e.g., technical terms, personal names, and playlists). Thus, E2E-ASR methods must be easily contextualized by the user or developer. This paper proposes an attention-based contextual biasing method that can be customized using an editable phrase list (referred to as a bias list). The proposed method can be trained effectively by combining a bias phrase index loss and special tokens to detect the bias phrases in the input speech data. In addition, to improve the contextualization performance during inference further, we propose a bias phrase boosted (BPB) beam search algorithm based on the bias phrase index probability. Experimental results demonstrate that the proposed method consistently improves the word error rate and the character error rate of the target phrases in the bias list on both the Librispeech-960 (English) and our in-house (Japanese) dataset, respectively. | 翻訳日:2024-01-22 17:08:04 公開日:2024-01-19 |
# 音声認識における言語モデルのための低ランク適応の学習戦略とモデルロバスト性の検討 Investigating Training Strategies and Model Robustness of Low-Rank Adaptation for Language Modeling in Speech Recognition ( http://arxiv.org/abs/2401.10447v1 ) ライセンス: Link先を確認 | Yu Yu, Chao-Han Huck Yang, Tuan Dinh, Sungho Ryu, Jari Kolehmainen, Roger Ren, Denis Filimonov, Prashanth G. Shivakumar, Ankur Gandhe, Ariya Rastow, Jia Xu, Ivan Bulyko, Andreas Stolcke | (参考訳) 低ランク適応(LoRA)と凍結事前学習言語モデル(PLM)の使用は、メモリ制約ハードウェアの主流で資源効率の高いモデリング手法として人気が高まっている。
本研究では,様々なLoRAトレーニング戦略を導入し,パブリックなLibrispeechデータセットで3.50\%,メッセージングドメインの内部データセットで3.67\%の単語誤り率削減を実現し,モデル性能を向上させる方法について検討する。
loraに基づく第2パス音声認識モデルの安定性をさらに高めるため,入力摂動に対するロバスト性を検討する。
これらの摂動は、ホモホンの置換とn-best perturbation-based rescoring robustness(nprr)と呼ばれる新しい計量に根ざしており、どちらもリコーリングモデルの性能の相対的劣化を測定するために設計された。
実験結果から,LoRAの高度変種である動的ランクアロケーションLoRAは,1ドル=best摂動において性能劣化を引き起こすが,$N$-best摂動では劣化が緩和されることが示唆された。
この発見は、完全にチューニングされたモデルとバニラLoRAチューニングベースラインと比較して、計算コストの削減と堅牢な言語モデリングにLoRAベースの適応を使用する場合、包括的な選択が必要であることを示唆している。 The use of low-rank adaptation (LoRA) with frozen pretrained language models (PLMs) has become increasing popular as a mainstream, resource-efficient modeling approach for memory-constrained hardware. In this study, we first explore how to enhance model performance by introducing various LoRA training strategies, achieving relative word error rate reductions of 3.50\% on the public Librispeech dataset and of 3.67\% on an internal dataset in the messaging domain. To further characterize the stability of LoRA-based second-pass speech recognition models, we examine robustness against input perturbations. These perturbations are rooted in homophone replacements and a novel metric called N-best Perturbation-based Rescoring Robustness (NPRR), both designed to measure the relative degradation in the performance of rescoring models. Our experimental results indicate that while advanced variants of LoRA, such as dynamic rank-allocated LoRA, lead to performance degradation in $1$-best perturbation, they alleviate the degradation in $N$-best perturbation. This finding is in comparison to fully-tuned models and vanilla LoRA tuning baselines, suggesting that a comprehensive selection is needed when using LoRA-based adaptation for compute-cost savings and robust language modeling. | 翻訳日:2024-01-22 17:07:43 公開日:2024-01-19 |
# 大規模言語モデルによる音声認識の効率的学習 Large Language Models are Efficient Learners of Noise-Robust Speech Recognition ( http://arxiv.org/abs/2401.10446v1 ) ライセンス: Link先を確認 | Yuchen Hu, Chen Chen, Chao-Han Huck Yang, Ruizhe Li, Chao Zhang, Pin-Yu Chen, EnSiong Chng | (参考訳) 大規模言語モデル(LLM)の最近の進歩は、LLMの豊富な言語知識と強力な推論能力を活用して音声認識結果を改善する自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
最新の研究は、HyPoradiseデータセットを用いたGERベンチマークを提案し、効率的なLLM微調整により、ASR N-best仮説から基底構造転写へのマッピングを学習する。
本研究では,このベンチマークを雑音条件にまで拡張し,LLMに雑音情報を導入し,強靭なASRと同じように,GERの雑音処理をLLMに教えることができるかを検討する。
しかし、オーディオエンコーダからのノイズ埋め込みを直接組み込むことは、モード間ギャップによるLCMチューニングを損なう可能性がある。
そこで本研究では,GERにおける雑音処理を促進するため,N-bestリストから言語空間雑音を抽出し,音源音声の雑音条件を表現することを提案する。
さらに,音声雑音の表現能力を向上させるために,相互情報推定による知識蒸留(kd)手法を考案し,音声埋め込みにおける実雑音情報の抽出を行う。
最新の LLM 実験では,学習データに制限のある場合,単語誤り率を最大53.9% 補正することで,新たなブレークスルーを実現している。
分析の結果,本研究の言語空間雑音埋め込みは音源音声の雑音条件をよく表現できることがわかった。 Recent advances in large language models (LLMs) have promoted generative error correction (GER) for automatic speech recognition (ASR), which leverages the rich linguistic knowledge and powerful reasoning ability of LLMs to improve recognition results. The latest work proposes a GER benchmark with HyPoradise dataset to learn the mapping from ASR N-best hypotheses to ground-truth transcription by efficient LLM finetuning, which shows great effectiveness but lacks specificity on noise-robust ASR. In this work, we extend the benchmark to noisy conditions and investigate if we can teach LLMs to perform denoising for GER just like what robust ASR do}, where one solution is introducing noise information as a conditioner into LLM. However, directly incorporating noise embeddings from audio encoder could harm the LLM tuning due to cross-modality gap. To this end, we propose to extract a language-space noise embedding from the N-best list to represent the noise conditions of source speech, which can promote the denoising process in GER. Furthermore, in order to enhance its representation ability of audio noise, we design a knowledge distillation (KD) approach via mutual information estimation to distill the real noise information in audio embeddings to our language embedding. Experiments on various latest LLMs demonstrate our approach achieves a new breakthrough with up to 53.9% correction improvement in terms of word error rate while with limited training data. Analysis shows that our language-space noise embedding can well represent the noise conditions of source speech, under which off-the-shelf LLMs show strong ability of language-space denoising. | 翻訳日:2024-01-22 17:07:18 公開日:2024-01-19 |
# 認知アーキテクチャはLLMを根本的に強化できるか?
それともVice Versa? Can A Cognitive Architecture Fundamentally Enhance LLMs? Or Vice Versa? ( http://arxiv.org/abs/2401.10444v1 ) ライセンス: Link先を確認 | Ron Sun | (参考訳) 本稿は、現在のLLM中心AIシステムの限界に対処するために何が必要なのかを論じる。
論文は、計算認知アーキテクチャによって具現化された人間の認知と心理学からの洞察を取り入れることで、より有能で、より信頼性があり、より人間に近いシステムを開発するのに役立つと論じている。
現在のLLMの限界に対処する上で、デュアルプロセスアーキテクチャとハイブリッドニューロシンボリックアプローチの重要性を強調している。
反対の方向には、AIとコンピューティング技術の進歩をよりよく反映する計算認知アーキテクチャの見直しの必要性も強調されている。
全体として、この論文は、AIと人間の心を理解するためのより良いモデルを開発するための、多分野、相互に有益なアプローチを提唱している。 The paper discusses what is needed to address the limitations of current LLM-centered AI systems. The paper argues that incorporating insights from human cognition and psychology, as embodied by a computational cognitive architecture, can help develop systems that are more capable, more reliable, and more human-like. It emphasizes the importance of the dual-process architecture and the hybrid neuro-symbolic approach in addressing the limitations of current LLMs. In the opposite direction, the paper also highlights the need for an overhaul of computational cognitive architectures to better reflect advances in AI and computing technology. Overall, the paper advocates for a multidisciplinary, mutually beneficial approach towards developing better models both for AI and for understanding the human mind. | 翻訳日:2024-01-22 17:06:30 公開日:2024-01-19 |
# シナリオベース自動運転システムテストにおける自動運転違反原因分析に向けて Towards Automated Driving Violation Cause Analysis in Scenario-Based Testing for Autonomous Driving Systems ( http://arxiv.org/abs/2401.10443v1 ) ライセンス: Link先を確認 | Ziwen Wan, Yuqi Huai, Yuntianyi Chen, Joshua Garcia, Qi Alfred Chen | (参考訳) WaymoやCruiseが24/7の有料タクシーサービスを提供していることを実証した自動運転車(AV)の急速な進歩は、安全規制や交通規則、ミッションディレクティブといった様々なポリシーへのAVのコンプライアンスを確保することの重要性を強調している。
ADS(Autonomous Driving System)テストツールの開発には大きな進展があったが、運転違反の原因となる研究は注目されていない。
プログラム失敗の根本原因を特定するための有望なアプローチとして、因果解析が出現している。
誤り誘発入力のピンポインティングの有効性は証明されているが、AVコンテキストへの直接適用により、どのコンポーネントによって生成される計算結果が根本原因となるかが決定される。
重要な障害は、各コンポーネントの出力とシステムレベルの運転違反の間の因果関係を確立するために、特定の内部メッセージの影響を直接的に排除できないことです。
本研究では,運転違反原因分析(DVCA)ツールを提案する。
シミュレーションによって得られるユニークな機会を活用することにより,ADSコンポーネントの対実解析を可能にするために,理想化されたコンポーネント置換体を設計する。
実際のバグやインジェクト障害のあるベンチマークでツールを評価しました。
その結果, 完全成分レベルの属性精度 (100%) とほぼ完全 (>98%) のメッセージレベルの精度を実現することができた。
このツールは、数百の複雑な相互依存メッセージから1つのコンポーネントによって生成される単一の計算結果まで、デバッグのスコープを縮小できる。 The rapid advancement of Autonomous Vehicles (AVs), exemplified by companies like Waymo and Cruise offering 24/7 paid taxi services, highlights the paramount importance of ensuring AVs' compliance with various policies, such as safety regulations, traffic rules, and mission directives. Despite significant progress in the development of Autonomous Driving System (ADS) testing tools, there has been a notable absence of research on attributing the causes of driving violations. Counterfactual causality analysis has emerged as a promising approach for identifying the root cause of program failures. While it has demonstrated effectiveness in pinpointing error-inducing inputs, its direct application to the AV context to determine which computation result, generated by which component, serves as the root cause poses a considerable challenge. A key obstacle lies in our inability to straightforwardly eliminate the influence of a specific internal message to establish the causal relationship between the output of each component and a system-level driving violation. In this work, we propose a novel driving violation cause analysis (DVCA) tool. We design idealized component substitutes to enable counterfactual analysis of ADS components by leveraging the unique opportunity provided by the simulation. We evaluate our tool on a benchmark with real bugs and injected faults. The results show that our tool can achieve perfect component-level attribution accuracy (100%) and almost (>98%) perfect message-level accuracy. Our tool can reduce the debugging scope from hundreds of complicated interdependent messages to one single computation result generated by one component. | 翻訳日:2024-01-22 17:06:07 公開日:2024-01-19 |
# 経路法におけるクリアアトリビューションのためのパス選択事項 Path Choice Matters for Clear Attribution in Path Methods ( http://arxiv.org/abs/2401.10442v1 ) ライセンス: Link先を確認 | Borui Zhang, Wenzhao Zheng, Jie Zhou, Jiwen Lu | (参考訳) 厳格さと明快さはどちらもDNNの解釈に不可欠である。
経路法は通常、3つの公理を満たす厳密な属性を生成するために用いられる。
しかし、帰属の意味は経路の選択によって曖昧である。
あいまいさに対処するために,必然的特徴に対する高い属性を集中的に割り当て,美観と疎さを付与する「textbf{Concentration Principle}」を導入する。
次に、モデルに依存しないインタプリタである \textbf{SAMP} を提示する。
さらに, 厳密性と最適性を改善するために, 無限小制約 (ic) と運動量戦略 (ms) を提案する。
可視化により、SAMPは鮮明な画像画素をピンポイントすることでDNNを正確に明らかにすることができる。
また,定量的な実験を行い,本手法の精度が有意に向上することが確認された。
コード:https://github.com/zbr17/SAMP。 Rigorousness and clarity are both essential for interpretations of DNNs to engender human trust. Path methods are commonly employed to generate rigorous attributions that satisfy three axioms. However, the meaning of attributions remains ambiguous due to distinct path choices. To address the ambiguity, we introduce \textbf{Concentration Principle}, which centrally allocates high attributions to indispensable features, thereby endowing aesthetic and sparsity. We then present \textbf{SAMP}, a model-agnostic interpreter, which efficiently searches the near-optimal path from a pre-defined set of manipulation paths. Moreover, we propose the infinitesimal constraint (IC) and momentum strategy (MS) to improve the rigorousness and optimality. Visualizations show that SAMP can precisely reveal DNNs by pinpointing salient image pixels. We also perform quantitative experiments and observe that our method significantly outperforms the counterparts. Code: https://github.com/zbr17/SAMP. | 翻訳日:2024-01-22 17:05:24 公開日:2024-01-19 |
# FinSQL:財務分析のためのモデルに依存しないLCMベースのテキスト・トゥ・SQLフレームワーク FinSQL: Model-Agnostic LLMs-based Text-to-SQL Framework for Financial Analysis ( http://arxiv.org/abs/2401.10506v1 ) ライセンス: Link先を確認 | Chao Zhang, Yuren Mao, Yijiang Fan, Yu Mi, Yunjun Gao, Lu Chen, Dongfang Lou, Jinshu Lin | (参考訳) リレーショナルデータベースを操作するためのゼロコードインターフェースを提供するText-to-SQLは、財務分析において大きな注目を集めている。
しかし、これまで金融分析のための実践的なText-to-SQLベンチマークデータセットは存在せず、既存のText-to-SQLメソッドは、一般的なワイドテーブルのような金融アプリケーションにおけるデータベースのユニークな特性を考慮していない。
これらの問題に対処するために,実用的なテキスト-sqlベンチマークデータセットを収集し,金融分析のためのモデル非依存大規模言語モデル(llms)ベースのテキスト-sqlフレームワークを提案する。
ベンチマークデータセットであるBULLは、ファンド、株式、マクロ経済のデータベースを含む、Hundsun Technologies Inc.の実用的な財務分析ビジネスから収集されている。
さらに、提案されたllmsベースのテキストからsqlへのフレームワークであるfinsqlは、迅速な構築、パラメータ効率の良い微調整、出力キャリブレーションの観点から、金融テキストからsqlへの体系的な処理を提供する。
BULLに関する大規模な実験結果によると、FinSQLは最先端のText-to-SQLのパフォーマンスを低コストで達成している。 Text-to-SQL, which provides zero-code interface for operating relational databases, has gained much attention in financial analysis; because, financial professionals may not well-skilled in SQL programming. However, until now, there is no practical Text-to-SQL benchmark dataset for financial analysis, and existing Text-to-SQL methods have not considered the unique characteristics of databases in financial applications, such as commonly existing wide tables. To address these issues, we collect a practical Text-to-SQL benchmark dataset and propose a model-agnostic Large Language Model (LLMs)-based Text-to-SQL framework for financial analysis. The benchmark dataset, BULL, is collected from the practical financial analysis business of Hundsun Technologies Inc., including databases for fund, stock, and macro economy. Besides, the proposed LLMs-based Text-to-SQL framework, FinSQL, provides a systematic treatment for financial Text-to-SQL from the perspectives of prompt construction, parameter-efficient fine-tuning and output calibration. Extensive experimental results on BULL demonstrate that FinSQL achieves the state-of-the-art Text-to-SQL performance at a small cost; furthermore, FinSQL can bring up to 36.64% performance improvement in scenarios requiring few-shot cross-database model transfer. | 翻訳日:2024-01-22 16:58:00 公開日:2024-01-19 |
# マッチング関係モデリングによる医用視覚言語コントラスト学習の強化 Enhancing medical vision-language contrastive learning via inter-matching relation modelling ( http://arxiv.org/abs/2401.10501v1 ) ライセンス: Link先を確認 | Mingjian Li, Mingyuan Meng, Michael Fulham, David Dagan Feng, Lei Bi, Jinman Kim | (参考訳) 医用画像表現は、医用視覚言語コントラスト学習(mvlcl)によって学習でき、医用画像報告は画像テキストアライメントによる弱い監督として使用される。
これらの学習された画像表現は、疾患分類やセグメンテーションなどの下流の医療ビジョンタスクに転送され、利益を得ることができる。
最近のmVLCL法は画像サブリージョンとレポートキーワードを局所マッチングとして整列しようとする。
しかし、これらの手法は単純なプーリング操作を通じて全ての局所マッチングを集約し、それらの関係を無視する。
したがって、これらの方法は、意味的に関連づけられた局所マッチング(例えば、疾患語に対応する局所マッチング)と位置単語(意味関連)の区別に失敗し、また、臨床的に重要な局所マッチングと、より意味の薄い単語、例えば結合語(類似関係)とを区別できない。
そこで我々は,relation-enhanced contrastive learning framework(RECLF)を用いて,局所マッチング間のマッチング関係をモデル化するmVLCL法を提案する。
RECLFでは,画像表現学習のためのより詳細なレポート管理を実現するために,意味関連推論モジュール (SRM) と重要関連推論モジュール (IRM) を導入する。
提案手法は,セグメンテーション,ゼロショット分類,教師付き分類,クロスモーダル検索の4つの下流タスクにおける4つのベンチマークデータセットを用いて評価した。
以上の結果から,従来のmVLCL法よりもRECLFの方が一貫した改善が得られた。
これらの結果から, マッチング関係をモデル化することで, 医用画像表現の改善と一般化能力の向上が期待できることが示唆された。 Medical image representations can be learned through medical vision-language contrastive learning (mVLCL) where medical imaging reports are used as weak supervision through image-text alignment. These learned image representations can be transferred to and benefit various downstream medical vision tasks such as disease classification and segmentation. Recent mVLCL methods attempt to align image sub-regions and the report keywords as local-matchings. However, these methods aggregate all local-matchings via simple pooling operations while ignoring the inherent relations between them. These methods therefore fail to reason between local-matchings that are semantically related, e.g., local-matchings that correspond to the disease word and the location word (semantic-relations), and also fail to differentiate such clinically important local-matchings from others that correspond to less meaningful words, e.g., conjunction words (importance-relations). Hence, we propose a mVLCL method that models the inter-matching relations between local-matchings via a relation-enhanced contrastive learning framework (RECLF). In RECLF, we introduce a semantic-relation reasoning module (SRM) and an importance-relation reasoning module (IRM) to enable more fine-grained report supervision for image representation learning. We evaluated our method using four public benchmark datasets on four downstream tasks, including segmentation, zero-shot classification, supervised classification, and cross-modal retrieval. Our results demonstrated the superiority of our RECLF over the state-of-the-art mVLCL methods with consistent improvements across single-modal and cross-modal tasks. These results suggest that our RECLF, by modelling the inter-matching relations, can learn improved medical image representations with better generalization capabilities. | 翻訳日:2024-01-22 16:57:36 公開日:2024-01-19 |
# 有限温度におけるスペクトル形状因子とクリロフ複雑性のスケーリング関係 Scaling Relations of Spectrum Form Factor and Krylov Complexity at Finite Temperature ( http://arxiv.org/abs/2401.10499v1 ) ライセンス: Link先を確認 | Chengming Tan, Zhiyang Wei, and Ren Zhang | (参考訳) 量子カオス診断の研究において、無限温度の系のKrylov複雑性とスペクトル形成因子(SFF)にかなりの注意が払われている。
これらの研究は量子カオスシステムの普遍的性質を明らかにした。
解析をクリロフ複雑性とSFFに対する有限温度効果を含むように拡張することにより、ワイトマン内部積に関連付けられたランツォス係数$b_n$が、PRX 9 041017 (2019) で示される普遍仮説との整合性を示すことを示した。
この結果は、標準内積に関連するランツォ係数の挙動とは対照的である。
その結果、$b_n$のスロープ$\alpha$は$\pi k_bt$で区切られ、ここで$k_b$はボルツマン定数、$t$は温度である。
また,スペクトルの2点相関を特徴付け,カオス系において$g$で表されるエルゴード性指標をカプセル化するsffについても検討した。
分析の結果,温度が低下すると,$g$の値も低下することがわかった。
また,演算子成長率を表す$\alpha$を考えると,エルゴディディティ指標とLanczos係数勾配との定量的関係を確立する。
この知見を支持するために,ガウス直交アンサンブルとランダムスピンモデルを用いてエビデンスを提供する。
我々の研究は、クリロフ複雑性、SFF、エルゴディディティと演算子成長の関連性に対する有限温度効果の理解を深める。 In the study of quantum chaos diagnostics, considerable attention has been attributed to the Krylov complexity and spectrum form factor (SFF) for systems at infinite temperature. These investigations have unveiled universal properties of quantum chaotic systems. By extending the analysis to include the finite temperature effects on the Krylov complexity and SFF, we demonstrate that the Lanczos coefficients $b_n$, which are associated with the Wightman inner product, display consistency with the universal hypothesis presented in PRX 9, 041017 (2019). This result contrasts with the behavior of Lanczos coefficients associated with the standard inner product. Our results indicate that the slope $\alpha$ of the $b_n$ is bounded by $\pi k_BT$, where $k_B$ is the Boltzmann constant and $T$ the temperature. We also investigate the SFF, which characterizes the two-point correlation of the spectrum and encapsulates an indicator of ergodicity denoted by $g$ in chaotic systems. Our analysis demonstrates that as the temperature decreases, the value of $g$ decreases as well. Considering that $\alpha$ also represents the operator growth rate, we establish a quantitative relationship between ergodicity indicator and Lanczos coefficients slope. To support our findings, we provide evidence using the Gaussian orthogonal ensemble and a random spin model. Our work deepens the understanding of the finite temperature effects on Krylov complexity, SFF, and the connection between ergodicity and operator growth. | 翻訳日:2024-01-22 16:57:07 公開日:2024-01-19 |
# 条件エントロピーによる因果層形成 Causal Layering via Conditional Entropy ( http://arxiv.org/abs/2401.10495v1 ) ライセンス: Link先を確認 | Itai Feigenbaum, Devansh Arpit, Huan Wang, Shelby Heinecke, Juan Carlos Niebles, Weiran Yao, Caiming Xiong, and Silvio Savarese | (参考訳) 因果発見は、生成する可観測データから、観測されていない因果グラフに関する情報を回復することを目的としている。
階層化は効果を発生させる変数の順序付けである。
本稿では,分布が離散的であれば,条件付きエントロピーオラクルを通じてデータにアクセスすることにより,グラフの階層化を回復する方法を提案する。
私たちのアルゴリズムは、繰り返しソースやシンクをグラフから取り除くことで動作します。
適切な仮定と条件付けの下では、条件エントロピーとノイズの無条件エントロピーを比較して、ノードの残りの部分からソースやシンクを分離することができる。
我々のアルゴリズムは証明可能で、最悪の場合の二次時間に動作します。
主な前提は、忠実さと射影雑音であり、既知のノイズエントロピーか、指示経路に沿って弱い単調に増加するノイズエントロピーである。
さらに、忠実性の非常に穏やかな拡張の1つ、厳密に単調に増大するノイズエントロピー、あるいは構造関数に追加の1つの引数を含むようにノイズ注入性を拡張する必要がある。 Causal discovery aims to recover information about an unobserved causal graph from the observable data it generates. Layerings are orderings of the variables which place causes before effects. In this paper, we provide ways to recover layerings of a graph by accessing the data via a conditional entropy oracle, when distributions are discrete. Our algorithms work by repeatedly removing sources or sinks from the graph. Under appropriate assumptions and conditioning, we can separate the sources or sinks from the remainder of the nodes by comparing their conditional entropy to the unconditional entropy of their noise. Our algorithms are provably correct and run in worst-case quadratic time. The main assumptions are faithfulness and injective noise, and either known noise entropies or weakly monotonically increasing noise entropies along directed paths. In addition, we require one of either a very mild extension of faithfulness, or strictly monotonically increasing noise entropies, or expanding noise injectivity to include an additional single argument in the structural functions. | 翻訳日:2024-01-22 16:56:40 公開日:2024-01-19 |
# 大規模言語モデルの知識融合 Knowledge Fusion of Large Language Models ( http://arxiv.org/abs/2401.10491v1 ) ライセンス: Link先を確認 | Fanqi Wan, Xinting Huang, Deng Cai, Xiaojun Quan, Wei Bi, Shuming Shi | (参考訳) 大規模言語モデル(LLM)をスクラッチからトレーニングすることで、機能と強みの異なるモデルを生成することができるが、かなりのコストがかかり、冗長な機能をもたらす可能性がある。
あるいは、コスト効率が高く魅力的なアプローチは、既存のトレーニング済みのLCMをより強力なモデルにマージすることである。
しかし、これらのllmの様々なアーキテクチャのため、重みを直接ブレンドすることは現実的ではない。
本稿では,LLM の知識融合の概念を紹介し,既存の LLM の能力とそれらを単一の LLM に変換することを目的とした。
ソースLLMの生成的分布を利用することで、それらの集合的知識と独特な強みを外部化し、任意のソースLLMよりもターゲットモデルの能力を高める可能性がある。
我々は,Llama-2,MPT,OpenLLaMAの3つのアーキテクチャを持つLLMを用いて,様々なベンチマークやタスクに対してアプローチを検証する。
その結果,llmの融合により,推論やコモンセンス,コード生成など,さまざまな機能にわたる対象モデルのパフォーマンス向上が期待できることがわかった。
我々のコード、モデルウェイト、データは \url{https://github.com/fanqiwan/FuseLLM} で公開されています。 While training large language models (LLMs) from scratch can generate models with distinct functionalities and strengths, it comes at significant costs and may result in redundant capabilities. Alternatively, a cost-effective and compelling approach is to merge existing pre-trained LLMs into a more potent model. However, due to the varying architectures of these LLMs, directly blending their weights is impractical. In this paper, we introduce the notion of knowledge fusion for LLMs, aimed at combining the capabilities of existing LLMs and transferring them into a single LLM. By leveraging the generative distributions of source LLMs, we externalize their collective knowledge and unique strengths, thereby potentially elevating the capabilities of the target model beyond those of any individual source LLM. We validate our approach using three popular LLMs with different architectures--Llama-2, MPT, and OpenLLaMA--across various benchmarks and tasks. Our findings confirm that the fusion of LLMs can improve the performance of the target model across a range of capabilities such as reasoning, commonsense, and code generation. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/FuseLLM}. | 翻訳日:2024-01-22 16:56:24 公開日:2024-01-19 |
# 演算子学習のための一般化誤り保証オートエンコーダに基づく非線形モデル削減 Generalization Error Guaranteed Auto-Encoder-Based Nonlinear Model Reduction for Operator Learning ( http://arxiv.org/abs/2401.10490v1 ) ライセンス: Link先を確認 | Hao Liu, Biraj Dahal, Rongjie Lai, Wenjing Liao | (参考訳) 科学と工学における多くの物理過程は自然に無限次元函数空間の間の作用素によって表される。
この文脈での演算子学習の問題は、データの無限次元あるいは高次元性のために困難である経験的データからこれらの物理過程を抽出することを目指している。
この課題に対処する重要な要素は、データ次元と問題サイズの両方を削減するモデル縮小である。
本稿では,オートエンコーダベースニューラルネットワーク(AENet)を用いて,モデル縮小における低次元非線形構造を利用する。
AENetはまず入力データの潜伏変数を学び、次にこれらの潜伏変数から対応する出力データへの変換を学ぶ。
数値実験により,非線形偏微分方程式の解演算子を正確に学習する能力について検証した。
さらに,AENetの一般化誤差を分析する数学的・統計的推定理論を確立する。
我々の理論的な枠組みは、aenetのトレーニングのサンプル複雑性が、モデル化プロセスの固有次元と複雑に結びついていると同時に、aenetのノイズに対する顕著な弾力性も示している。 Many physical processes in science and engineering are naturally represented by operators between infinite-dimensional function spaces. The problem of operator learning, in this context, seeks to extract these physical processes from empirical data, which is challenging due to the infinite or high dimensionality of data. An integral component in addressing this challenge is model reduction, which reduces both the data dimensionality and problem size. In this paper, we utilize low-dimensional nonlinear structures in model reduction by investigating Auto-Encoder-based Neural Network (AENet). AENet first learns the latent variables of the input data and then learns the transformation from these latent variables to corresponding output data. Our numerical experiments validate the ability of AENet to accurately learn the solution operator of nonlinear partial differential equations. Furthermore, we establish a mathematical and statistical estimation theory that analyzes the generalization error of AENet. Our theoretical framework shows that the sample complexity of training AENet is intricately tied to the intrinsic dimension of the modeled process, while also demonstrating the remarkable resilience of AENet to noise. | 翻訳日:2024-01-22 16:56:05 公開日:2024-01-19 |
# Generative Dense Retrieval:メモリはバーデンになれる Generative Dense Retrieval: Memory Can Be a Burden ( http://arxiv.org/abs/2401.10487v1 ) ライセンス: Link先を確認 | Peiwen Yuan, Xinglin Wang, Shaoxiong Feng, Boyuan Pan, Yiwei Li, Heda Wang, Xupeng Miao, Kan Li | (参考訳) クエリが与えられた文書識別子を自動でデコードする生成検索(gr)は,小規模コーパスの設定下でうまく機能することが示されている。
モデルパラメータで文書コーパスを記憶することにより、GRはクエリとドキュメント間の深い相互作用を暗黙的に達成する。
しかし,このような記憶機構の欠点は,(1) 文書の微細な特徴に対する記憶精度の低下,(2) コーパスサイズの増加に伴う記憶の混乱,(3) 新たな文書に対するメモリ更新コストの増大,の3つである。
これらの問題を緩和するために,GDR(Generative Dense Retrieval)パラダイムを提案する。
具体的には、gdrはまず、限られたメモリボリュームを使用して、クエリから関連するドキュメントクラスタへのクラスタ間マッチングを実現する。
次に、Dense Retrieval (DR) のメモリフリーマッチング機構を導入し、クラスタから関連ドキュメントへのきめ細かいクラスタ内マッチングを行う。
粗粒度プロセスはGRの深い相互作用とDRのスケーラビリティの利点を最大化する。
さらに,コーパスメモリを容易にするクラスタ識別子構築戦略とクラスタ内マッピング能力を高めるクラスタ適応型ネガティブサンプリング戦略を設計する。
実験の結果、GDRはNQデータセットを複数の設定で平均3.0R@100改善し、スケーラビリティが向上した。 Generative Retrieval (GR), autoregressively decoding relevant document identifiers given a query, has been shown to perform well under the setting of small-scale corpora. By memorizing the document corpus with model parameters, GR implicitly achieves deep interaction between query and document. However, such a memorizing mechanism faces three drawbacks: (1) Poor memory accuracy for fine-grained features of documents; (2) Memory confusion gets worse as the corpus size increases; (3) Huge memory update costs for new documents. To alleviate these problems, we propose the Generative Dense Retrieval (GDR) paradigm. Specifically, GDR first uses the limited memory volume to achieve inter-cluster matching from query to relevant document clusters. Memorizing-free matching mechanism from Dense Retrieval (DR) is then introduced to conduct fine-grained intra-cluster matching from clusters to relevant documents. The coarse-to-fine process maximizes the advantages of GR's deep interaction and DR's scalability. Besides, we design a cluster identifier constructing strategy to facilitate corpus memory and a cluster-adaptive negative sampling strategy to enhance the intra-cluster mapping ability. Empirical results show that GDR obtains an average of 3.0 R@100 improvement on NQ dataset under multiple settings and has better scalability. | 翻訳日:2024-01-22 16:55:47 公開日:2024-01-19 |
# 抽選券仮説と知識蒸留型ニューラルネットワークプルーニングによるレコメンダシステムのスケーラビリティ向上 Enhancing Scalability in Recommender Systems through Lottery Ticket Hypothesis and Knowledge Distillation-based Neural Network Pruning ( http://arxiv.org/abs/2401.10484v1 ) ライセンス: Link先を確認 | Rajaram R, Manoj Bharadhwaj, Vasan VS and Nargis Pervin | (参考訳) 本研究では,エッジデバイスへの展開を重視した,ニューラルネットワークの効率的なプルーニングを目的とした革新的なアプローチを提案する。
本手法は,LTH(Lottery Ticket hypothesis)とKD(Knowledge Distillation)フレームワークを統合することで,3つの異なるプルーニングモデルの定式化を実現する。
これらのモデルはレコメンデータシステムにおけるスケーラビリティの問題に対処するために開発されており、ディープラーニングモデルの複雑さが実際の展開を妨げる。
プルーニング手法を巧みに応用することにより, 精度を損なうことなく, 消費電力とモデル寸法を効果的に削減する。
多様なドメインの2つの実世界のデータセットを用いて、2つのベースラインに対して実証評価を行った。
幸いなことに、我々のアプローチはGPU計算能力の最大66.67%を削減した。
特に,本研究は,LTHとKDの応用を開拓し,レコメンデーションシステムの分野に貢献する。 This study introduces an innovative approach aimed at the efficient pruning of neural networks, with a particular focus on their deployment on edge devices. Our method involves the integration of the Lottery Ticket Hypothesis (LTH) with the Knowledge Distillation (KD) framework, resulting in the formulation of three distinct pruning models. These models have been developed to address scalability issue in recommender systems, whereby the complexities of deep learning models have hindered their practical deployment. With judicious application of the pruning techniques, we effectively curtail the power consumption and model dimensions without compromising on accuracy. Empirical evaluation has been performed using two real world datasets from diverse domains against two baselines. Gratifyingly, our approaches yielded a GPU computation-power reduction of up to 66.67%. Notably, our study contributes to the field of recommendation system by pioneering the application of LTH and KD. | 翻訳日:2024-01-22 16:55:24 公開日:2024-01-19 |
# エスケープスカイハイコスト:マルチステップ推論のための早期停止型自己整合性 Escape Sky-high Cost: Early-stopping Self-Consistency for Multi-step Reasoning ( http://arxiv.org/abs/2401.10480v1 ) ライセンス: Link先を確認 | Yiwei Li, Peiwen Yuan, Shaoxiong Feng, Boyuan Pan, Xinglin Wang, Bin Sun, Heda Wang, Kan Li | (参考訳) 自己整合性(Self-Consistency, SC)は、思考の連鎖推論のためのデコード戦略として広く用いられている。
様々なマルチステップ推論タスクに大幅なパフォーマンス改善をもたらすが、プリセットサイズで複数のサンプリングを必要とする低コストな方法である。
本稿では,簡易でスケーラブルなサンプリングプロセスである \textbf{E}arly-Stopping \textbf{S}elf-\textbf{C}onsistency (ESC) を提案する。
これに基づいて、ESCの1つの制御スキームを導出し、異なるタスクやモデルのパフォーマンスコストバランスを動的に選択する。
ESCの有効性を示すために,算術,コモンセンス,記号的推論という3つの一般的な推論課題のカテゴリについて,様々なスケールの言語モデルに対して広範な実験を行った。
実証実験の結果、ESCはMATH (-33.8%)、GSM8K (-80.1%)、StrategyQA (-76.8%)、CommonsenseQA (-78.5%)、Coin Flip (-84.2%)、Last Letters (-67.4%)を含む6つのベンチマークにおいて、チェーン・オブ・シークレットのサンプリング平均数をかなりのマージンで削減している。 Self-consistency (SC) has been a widely used decoding strategy for chain-of-thought reasoning. Despite bringing significant performance improvements across a variety of multi-step reasoning tasks, it is a high-cost method that requires multiple sampling with the preset size. In this paper, we propose a simple and scalable sampling process, \textbf{E}arly-Stopping \textbf{S}elf-\textbf{C}onsistency (ESC), to greatly reduce the cost of SC without sacrificing performance. On this basis, one control scheme for ESC is further derivated to dynamically choose the performance-cost balance for different tasks and models. To demonstrate ESC's effectiveness, we conducted extensive experiments on three popular categories of reasoning tasks: arithmetic, commonsense and symbolic reasoning over language models with varying scales. The empirical results show that ESC reduces the average number of sampling of chain-of-thought reasoning by a significant margin on six benchmarks, including MATH (-33.8%), GSM8K (-80.1%), StrategyQA (-76.8%), CommonsenseQA (-78.5%), Coin Flip (-84.2%) and Last Letters (-67.4%), while attaining comparable performances. | 翻訳日:2024-01-22 16:55:08 公開日:2024-01-19 |
# フェデレーション学習によるオンラインモデル選択と微調整 Budgeted Online Model Selection and Fine-Tuning via Federated Learning ( http://arxiv.org/abs/2401.10478v1 ) ライセンス: Link先を確認 | Pouya M. Ghari, Yanning Shen | (参考訳) オンラインモデル選択は、データストリームで予測を行うために、候補モデルのセットからモデルを選択することを伴う。
その後の候補モデルの選択は、パフォーマンスに大きな影響を与えます。
候補モデルのより大きなセットを採用すると、モデル選択の柔軟性が向上するが、限られたメモリを持つエッジデバイスで予測タスクが実行される場合、これは実現不可能である。
本稿では,学習者グループ(クライアント)が,サーバがすべての候補モデルを格納するのに十分なメモリを持つサーバと対話する,オンラインフェデレーションモデル選択フレームワークを提案する。
しかしながら、各クライアントは、メモリに適合するモデルのサブセットを格納することのみを選択し、ストアされたモデルの1つを使用して独自の予測タスクを実行する。
さらに,提案アルゴリズムを用いて,クライアントとサーバが協調してモデルを微調整し,非定常環境に適用する。
理論的解析により,提案アルゴリズムは後見の最良のモデルに関して,線形な後悔を味わうことが証明された。
実データを用いた実験により,提案アルゴリズムの有効性が示された。 Online model selection involves selecting a model from a set of candidate models 'on the fly' to perform prediction on a stream of data. The choice of candidate models henceforth has a crucial impact on the performance. Although employing a larger set of candidate models naturally leads to more flexibility in model selection, this may be infeasible in cases where prediction tasks are performed on edge devices with limited memory. Faced with this challenge, the present paper proposes an online federated model selection framework where a group of learners (clients) interacts with a server with sufficient memory such that the server stores all candidate models. However, each client only chooses to store a subset of models that can be fit into its memory and performs its own prediction task using one of the stored models. Furthermore, employing the proposed algorithm, clients and the server collaborate to fine-tune models to adapt them to a non-stationary environment. Theoretical analysis proves that the proposed algorithm enjoys sub-linear regret with respect to the best model in hindsight. Experiments on real datasets demonstrate the effectiveness of the proposed algorithm. | 翻訳日:2024-01-22 16:54:37 公開日:2024-01-19 |
# cbvs - 実世界のショートビデオ検索シナリオのための大規模中国の画像テキストベンチマーク CBVS: A Large-Scale Chinese Image-Text Benchmark for Real-World Short Video Search Scenarios ( http://arxiv.org/abs/2401.10475v1 ) ライセンス: Link先を確認 | Xiangshuo Qiao, Xianxin Li, Xiaozhe Qu, Jie Zhang, Yang Liu, Yu Luo, Cihang Jin, Jin Ma | (参考訳) 大規模画像テキストデータセットで事前訓練された視覚言語モデルは、画像検索などの下流タスクにおいて優れた性能を示している。
事前学習用の画像のほとんどは、オープンドメインの常識的な視覚要素の形で提示される。
異なるのは、短いビデオ検索シナリオにおけるビデオカバーは、ビデオの重要なビジュアル要約を提供するユーザーによるコンテンツとして提示される。
さらに、ビデオのカバーの一部には、セマンティック補完を提供するカバーテキストが手作業でデザインされている。
ショートビデオのカバーデータにおけるギャップを埋めるため,中国のショートビデオ検索シナリオを対象とした,最初の大規模カバーテキストベンチマークを構築した。
具体的には,ショートビデオカバーを提供するために2つの大規模データセット cbvs-5m/10m と,中国のショートビデオ検索分野におけるイメージテキストベンチマークテストとして機能する実ユーザクエリを提供する手作業用データセット cbvs-20k をリリースする。
モダリティが欠如している場合のカバーテキストの意味論を統合するために、トレーニング中にカバーテキストが指導的役割を果たすUniCLIPを提案するが、推論には依存しない。
CBVS-20Kの大規模評価は,提案手法の優れた性能を示す。
UniCLIPはTencentのオンラインビデオ検索システムに数億回の訪問で展開され、大きな成功を収めている。
完全なデータセット、コード、チェックポイントはリリース時に提供される。 Vision-Language Models pre-trained on large-scale image-text datasets have shown superior performance in downstream tasks such as image retrieval. Most of the images for pre-training are presented in the form of open domain common-sense visual elements. Differently, video covers in short video search scenarios are presented as user-originated contents that provide important visual summaries of videos. In addition, a portion of the video covers come with manually designed cover texts that provide semantic complements. In order to fill in the gaps in short video cover data, we establish the first large-scale cover-text benchmark for Chinese short video search scenarios. Specifically, we release two large-scale datasets CBVS-5M/10M to provide short video covers, and the manual fine-labeling dataset CBVS-20K to provide real user queries, which serves as an image-text benchmark test in the Chinese short video search field. To integrate the semantics of cover text in the case of modality missing, we propose UniCLIP where cover texts play a guiding role during training, however are not relied upon by inference. Extensive evaluation on CBVS-20K demonstrates the excellent performance of our proposal. UniCLIP has been deployed to Tencent's online video search systems with hundreds of millions of visits and achieved significant gains. The complete dataset, code and checkpoints will be available upon release. | 翻訳日:2024-01-22 16:54:17 公開日:2024-01-19 |
# ldreg: 局所次元正規化自己教師付き学習 LDReg: Local Dimensionality Regularized Self-Supervised Learning ( http://arxiv.org/abs/2401.10474v1 ) ライセンス: Link先を確認 | Hanxun Huang, Ricardo J. G. B. Campello, Sarah Monazam Erfani, Xingjun Ma, Michael E. Houle, James Bailey | (参考訳) 自己教師付き学習(SSL)によって学習された表現は、学習された表現部分空間が極端に低次元であり、従って完全なデータ分布とモダリティを表現できないような次元崩壊の影響を受けやすい。
次元崩壊は"underfilling"現象としても知られ、ダウンストリームタスクにおける性能低下の主な原因の1つである。
これまで、sslの次元的崩壊問題をグローバルレベルで研究してきた。
本稿では,世界規模で高次元空間に展開できるが,局所的に崩壊することを示す。
これを解決するために、$\textit{local dimensionality regularization (LDReg)}$という手法を提案する。
この定式化はフィッシャー・ラオ計量の導出に基づき,各データ点に対して漸近的に小さい半径で局所距離分布を比較し,最適化する。
局所固有次元を増大させることにより、LDRegがSSLの表現品質を向上させる実験の幅を広げる。
また,LDRegは局所的および大域的に次元を規則化できることを示した。 Representations learned via self-supervised learning (SSL) can be susceptible to dimensional collapse, where the learned representation subspace is of extremely low dimensionality and thus fails to represent the full data distribution and modalities. Dimensional collapse also known as the "underfilling" phenomenon is one of the major causes of degraded performance on downstream tasks. Previous work has investigated the dimensional collapse problem of SSL at a global level. In this paper, we demonstrate that representations can span over high dimensional space globally, but collapse locally. To address this, we propose a method called $\textit{local dimensionality regularization (LDReg)}$. Our formulation is based on the derivation of the Fisher-Rao metric to compare and optimize local distance distributions at an asymptotically small radius for each data point. By increasing the local intrinsic dimensionality, we demonstrate through a range of experiments that LDReg improves the representation quality of SSL. The results also show that LDReg can regularize dimensionality at both local and global levels. | 翻訳日:2024-01-22 16:53:55 公開日:2024-01-19 |
# Metric Learning for Life Sciences によるドメインシフト下での名前タグ付け Name Tagging Under Domain Shift via Metric Learning for Life Sciences ( http://arxiv.org/abs/2401.10472v1 ) ライセンス: Link先を確認 | Hongyi Liu, Qingyun Wang, Payam Karisani, Heng Ji | (参考訳) 名前のタグ付けは情報抽出(IE)の重要な要素であり、特に生物医学や化学などの科学分野では大きな言語モデル(LLM)、例えばChatGPTが不足している。
バイオメディカルドメイン(ソースドメイン)でトレーニングされた名前タグモデルを,化学ドメイン(ターゲットドメイン)で使用するための転写学習の適用性について検討した。
このようなモデルを数ショットの学習環境でトレーニングするための一般的な実践は、ラベル付きソースデータ上でモデルを事前訓練し、ラベル付きターゲットサンプルのハンドフルで微調整することである。
我々の実験では、そのようなモデルは、しばしばテキストに現れるソースエンティティを、ターゲットエンティティとして誤ってラベル付けする傾向があることを観察した。
この問題を軽減するため、我々は、ソースドメインからターゲットドメインへ知識を転送するモデルを提案するが、同時に、ソースエンティティを投影し、ターゲットエンティティを機能空間の別々の領域に投影するモデルを提案する。
これにより、ソースエンティティをターゲットエンティティと誤ラベルするリスクが軽減される。
私たちのモデルは2つの段階からなる。
1) エンティティ間の関係を確立するために注釈付きイベントからの知識を取り入れたソースドメイン内のエンティティグループ化
2) 対象ドメインのエンティティ識別は,2つのドメインのエンティティ間の識別を高めるために,擬似ラベリングとコントラスト学習に依存している。
3つのソースと3つのターゲットデータセットにまたがる広範な実験を行い、いくつかのシナリオにおいて、我々のメソッドがベースラインを5倍の絶対値で上回ることを示す。 Name tagging is a key component of Information Extraction (IE), particularly in scientific domains such as biomedicine and chemistry, where large language models (LLMs), e.g., ChatGPT, fall short. We investigate the applicability of transfer learning for enhancing a name tagging model trained in the biomedical domain (the source domain) to be used in the chemical domain (the target domain). A common practice for training such a model in a few-shot learning setting is to pretrain the model on the labeled source data, and then, to finetune it on a hand-full of labeled target examples. In our experiments we observed that such a model is prone to mis-labeling the source entities, which can often appear in the text, as the target entities. To alleviate this problem, we propose a model to transfer the knowledge from the source domain to the target domain, however, at the same time, to project the source entities and target entities into separate regions of the feature space. This diminishes the risk of mis-labeling the source entities as the target entities. Our model consists of two stages: 1) entity grouping in the source domain, which incorporates knowledge from annotated events to establish relations between entities, and 2) entity discrimination in the target domain, which relies on pseudo labeling and contrastive learning to enhance discrimination between the entities in the two domains. We carry out our extensive experiments across three source and three target datasets, and demonstrate that our method outperforms the baselines, in some scenarios by 5\% absolute value. | 翻訳日:2024-01-22 16:53:38 公開日:2024-01-19 |
# DeepEdit: 制約付きデコードとしての知識編集 DeepEdit: Knowledge Editing as Decoding with Constraints ( http://arxiv.org/abs/2401.10471v1 ) ライセンス: Link先を確認 | Yiwei Wang, Muhao Chen, Nanyun Peng, Kai-Wei Chang | (参考訳) 我々は,制約付きデコードとして,大規模言語モデル(LLM)の知識編集の新しい視点を開発する。
本稿では,推論のコヒーレンス,質問との関連性,知識更新の認識を向上し,知識編集を改善する神経シンボリック手法であるdeepedit(deep-first search based progressive decoding for knowledge editing)を提案する。
DeepEdit はすべてのブラックボックス LLM に柔軟に適用可能で、モデルパラメータ、表現、出力語彙分布へのアクセスは一切不要である。
deepeditは、効果的な知識編集のための高品質な推論ステップを徐々に作り出します。
深度優先探索を用いてLCMの出力を修正し、入力問題に対する出力の情報性を改善し、更新された知識の認識を高める。
定性的には、DeepEditはLLMを効果的に制御し、知識編集に応じてより簡潔な推論を生成する。
DeepEditは、知識編集を伴う挑戦的なマルチホップ質問回答データセットであるMQuaKEに大きな利益をもたらす。
ソースコードはhttps://github.com/wangywUST/DeepEditで公開しています。 We develop a new perspective of knowledge editing for large language models (LLMs) as decoding with constraints. We propose DeepEdit (Depth-first Search based Progressive Decoding for Knowledge Editing), a neuro-symbolic method that improves knowledge editing with better coherence of reasoning, relevance to the question, and awareness of updated knowledge. DeepEdit can be flexibly applied to all black-box LLMs: it does not require any access to the model parameters, representations, or output vocabulary distributions. DeepEdit progressively produces the high-quality reasoning steps towards effective knowledge editing. It utilizes a depth-first search to revise the LLMs' output, which improves the output's informativeness to the input question and awareness of the updated knowledge. Qualitatively, DeepEdit effectively controls LLMs to produce more succinct reasoning in accord with knowledge editing. Quantitatively, DeepEdit yields significant gains on MQuaKE, a challenging multi-hop question-answering dataset with knowledge editing. We release the source code at https://github.com/wangywUST/DeepEdit. | 翻訳日:2024-01-22 16:53:12 公開日:2024-01-19 |
# 生存分析を用いたがん治療センターの安定型マッチングアサインメント A Stable Matching Assignment for Cancer Treatment Centers using Survival Analysis ( http://arxiv.org/abs/2401.10469v1 ) ライセンス: Link先を確認 | Navid Seidi | (参考訳) がんの治療は、現代公衆衛生研究の領域で最も議論されている問題の1つである。
一般市民と政府にとって最大の関心事の1つは、最も有効ながん治療を最も手頃な価格で開発することである。
これは、がんと診断された人の数が年々増加しているためである。
本研究の範囲内では,治療センターの推薦システムを開発することを提案する。
このシステムは、まずリスクの高い患者を選別し、その後、彼らの収入と、安定したマッチングアルゴリズムを用いて住んでいる場所に基づいて、最も適切ながん治療センターを推奨する。 The treatment of cancer is one of the most discussed issues in the realm of contemporary public health research. One of the primary concerns of both the general public and the government is the development of the most effective cancer treatment at the most affordable price. This is due to the fact that the number of persons diagnosed with cancer increases on an annual basis. Within the scope of this project, we propose the development of a system for the recommendation of treatment centers. This system would initially select patients who posed a higher risk value, and then it would recommend the most appropriate cancer treatment center for those patients based on their income and the location where they lived using a stable matching algorithm. | 翻訳日:2024-01-22 16:52:53 公開日:2024-01-19 |
# STEM教育のためのオープンソース自動フィードバックシステムの設計から学んだ教訓 Lessons Learned from Designing an Open-Source Automated Feedback System for STEM Education ( http://arxiv.org/abs/2401.10531v1 ) ライセンス: Link先を確認 | Steffen Steinert, Lars Krupp, Karina E. Avila, Anke S. Janssen, Verena Ruf, David Dzsotjan, Christian De Schryver, Jakob Karolus, Stefan Ruzika, Karen Joisten, Paul Lukowicz, Jochen Kuhn, Norbert Wehn, Stefan K\"uchemann | (参考訳) 遠隔学習がますます重要になり、人工知能ツールが進歩を続けるにつれ、個人学習のための自動化システムが注目されている。
しかし、パーソナライズされたフィードバックを提供するオープンソースオンラインツールの不足により、研究ベースのフィードバックシステムの広範な実装が制限された。
本稿では,書式フィードバックなどの研究ベースの機能を組み込んだオープンソース自動フィードバックシステム(AFS)であるRATsAppを紹介する。
このシステムは、数学的能力、表現能力、データリテラシーなどの中核的なSTEM能力に焦点を当てている。
また、講師が生徒の進捗を監視することもできる。
本研究は,一組の学生(n=64)を対象に,技術受容モデル(tam2)に基づく調査を行った。
その結果,TAM2フレームワークの適用性を確認し,研究の妥当性,出力品質,使いやすさなどの要因が有用性に大きく影響していることが判明した。
また,認識された有用性と使用意図の線形関係も見出され,これは使用頻度の有意な予測因子となった。
さらに, RATsAppの形式的フィードバック機能は, 教育ツールとしての可能性を示す肯定的なフィードバックを受けた。
さらに、オープンソースのプラットフォームとして、RATsAppは継続的な開発へのパブリックコントリビューションを奨励し、教育ツールを改善するための共同アプローチを促進している。 As distance learning becomes increasingly important and artificial intelligence tools continue to advance, automated systems for individual learning have attracted significant attention. However, the scarcity of open-source online tools that are capable of providing personalized feedback has restricted the widespread implementation of research-based feedback systems. In this work, we present RATsApp, an open-source automated feedback system (AFS) that incorporates research-based features such as formative feedback. The system focuses on core STEM competencies such as mathematical competence, representational competence, and data literacy. It also allows lecturers to monitor students' progress. We conducted a survey based on the technology acceptance model (TAM2) among a set of students (N=64). Our findings confirm the applicability of the TAM2 framework, revealing that factors such as the relevance of the studies, output quality, and ease of use significantly influence the perceived usefulness. We also found a linear relation between the perceived usefulness and the intention to use, which in turn is a significant predictor of the frequency of use. Moreover, the formative feedback feature of RATsApp received positive feedback, indicating its potential as an educational tool. Furthermore, as an open-source platform, RATsApp encourages public contributions to its ongoing development, fostering a collaborative approach to improve educational tools. | 翻訳日:2024-01-22 16:46:34 公開日:2024-01-19 |
# NWPU-MOC: 航空画像における細粒度多カテゴリーオブジェクトカウントのベンチマーク NWPU-MOC: A Benchmark for Fine-grained Multi-category Object Counting in Aerial Images ( http://arxiv.org/abs/2401.10530v1 ) ライセンス: Link先を確認 | Junyu Gao, Liangliang Zhao, and Xuelong Li | (参考訳) オブジェクトカウントはコンピュータビジョンにおけるホットトピックであり、与えられた画像内のオブジェクトの数を推定することを目的としている。
しかし、ほとんどの手法は画像の単一のカテゴリのオブジェクトをカウントするだけであり、特に空中シーンでは複数のカテゴリのオブジェクトを同時にカウントする必要があるシーンには適用できない。
そこで本稿では, 航空画像中の異物(車, 建物, 船舶など)の数を推定する多カテゴリー対象計数(MOC)タスクを提案する。
このタスクのためのデータセットがないことを考慮し、解像度1024$\times$1024の3,416シーンからなる大規模データセット(nwpu-moc)を収集し、14の細粒度オブジェクトカテゴリを使用して注釈を付ける。
さらに、各シーンにはRGBと近赤外線(NIR)画像が含まれており、NIRスペクトルはRGBスペクトルよりもリッチな特徴情報を提供できる。
NWPU-MOCに基づいて、RGBとNIRの特徴を融合させる二重アテンションモジュールを用いて、各対象カテゴリに対応する多チャンネル密度マップを回帰するマルチスペクトル多カテゴリオブジェクトカウントフレームワークを提案する。
さらに,各対象カテゴリーの密度マップ内の異なるチャネル間の依存性をモデル化するために,空間コントラスト損失を同じ空間位置で重なる予測のペナルティとして設計する。
実験により, 提案手法は, 主流のカウントアルゴリズムと比較して, 最先端の性能を実現することを示した。
データセット、コード、モデルはhttps://github.com/lyongo/NWPU-MOCで公開されている。 Object counting is a hot topic in computer vision, which aims to estimate the number of objects in a given image. However, most methods only count objects of a single category for an image, which cannot be applied to scenes that need to count objects with multiple categories simultaneously, especially in aerial scenes. To this end, this paper introduces a Multi-category Object Counting (MOC) task to estimate the numbers of different objects (cars, buildings, ships, etc.) in an aerial image. Considering the absence of a dataset for this task, a large-scale Dataset (NWPU-MOC) is collected, consisting of 3,416 scenes with a resolution of 1024 $\times$ 1024 pixels, and well-annotated using 14 fine-grained object categories. Besides, each scene contains RGB and Near Infrared (NIR) images, of which the NIR spectrum can provide richer characterization information compared with only the RGB spectrum. Based on NWPU-MOC, the paper presents a multi-spectrum, multi-category object counting framework, which employs a dual-attention module to fuse the features of RGB and NIR and subsequently regress multi-channel density maps corresponding to each object category. In addition, to modeling the dependency between different channels in the density map with each object category, a spatial contrast loss is designed as a penalty for overlapping predictions at the same spatial position. Experimental results demonstrate that the proposed method achieves state-of-the-art performance compared with some mainstream counting algorithms. The dataset, code and models are publicly available at https://github.com/lyongo/NWPU-MOC. | 翻訳日:2024-01-22 16:46:14 公開日:2024-01-19 |
# Mementos: 画像シーケンスに対するマルチモーダル大規模言語モデル推論のための総合ベンチマーク Mementos: A Comprehensive Benchmark for Multimodal Large Language Model Reasoning over Image Sequences ( http://arxiv.org/abs/2401.10529v1 ) ライセンス: Link先を確認 | Xiyao Wang, Yuhang Zhou, Xiaoyu Liu, Hongjin Lu, Yuancheng Xu, Feihong He, Jaehong Yoon, Taixi Lu, Gedas Bertasius, Mohit Bansal, Huaxiu Yao, Furong Huang | (参考訳) MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクを扱う能力を示す。
しかし、現在のMLLMベンチマークは、単一の画像に関する静的情報に基づいて推論を評価するために主に設計されており、現代のMLLMが画像列から外挿する能力は、常に変化する世界を理解するのに欠かせないものである。
そこで本稿では,MLLMの逐次的画像推論能力を評価するためのベンチマークであるMementosを紹介する。
Mementosには4,761の多様な画像シーケンスがあり、長さは様々である。
また,GPT-4を用いたMLLM推論性能の評価を行った。
GPT-4V や Gemini を含む最近の9つの Mementos 上でのMLLM の慎重な評価により、与えられた画像列の動的情報を正確に記述することは困難であり、しばしば幻覚/誤表現やそれに対応する行動を引き起こす。
定量的解析とケーススタディにより,mllmsの逐次的画像推論に影響を与える3つの重要な要因,対象と行動の幻覚の相関,共起行動の影響,行動幻覚の複合的影響が同定された。
私たちのデータセットはhttps://github.com/umd-huang-lab/mementosで利用可能です。 Multimodal Large Language Models (MLLMs) have demonstrated proficiency in handling a variety of visual-language tasks. However, current MLLM benchmarks are predominantly designed to evaluate reasoning based on static information about a single image, and the ability of modern MLLMs to extrapolate from image sequences, which is essential for understanding our ever-changing world, has been less investigated. To address this challenge, this paper introduces Mementos, a new benchmark designed to assess MLLMs' sequential image reasoning abilities. Mementos features 4,761 diverse image sequences with varying lengths. We also employ a GPT-4 assisted method to evaluate MLLM reasoning performance. Through a careful evaluation of nine recent MLLMs on Mementos, including GPT-4V and Gemini, we find that they struggle to accurately describe dynamic information about given image sequences, often leading to hallucinations/misrepresentations of objects and their corresponding behaviors. Our quantitative analysis and case studies identify three key factors impacting MLLMs' sequential image reasoning: the correlation between object and behavioral hallucinations, the influence of cooccurring behaviors, and the compounding impact of behavioral hallucinations. Our dataset is available at https://github.com/umd-huang-lab/Mementos. | 翻訳日:2024-01-22 16:45:44 公開日:2024-01-19 |
# ジオデシック蒸留損失を利用したCLIP誘導画像形成における安定性・塑性ジレンマの緩和について On mitigating stability-plasticity dilemma in CLIP-guided image morphing via geodesic distillation loss ( http://arxiv.org/abs/2401.10526v1 ) ライセンス: Link先を確認 | Yeongtak Oh, Saehyung Lee, Uiwon Hwang, Sungroh Yoon | (参考訳) CLIPのような大規模言語ビジョン事前学習モデルは、いくつかの非条件生成モデルを活用することで、テキスト誘導画像の顕著なモーフィングを実現している。
しかし, 既存のCLIP誘導画像改質法では, 光写実画像の改質が困難である。
具体的には、既存のガイダンスでは画像内の変形領域の詳細な説明が得られず、誤認につながる。
そこで本研究では,正規化損失を正規化することで,このような誤用を効果的に軽減できることを示した。
私たちのアプローチには2つの重要な要素があります。
1)CLIP空間の投影部分空間上のモード間特徴(画像とテキスト)を最小化する測地的コサイン類似性損失
2)画像多様体上のモダリティ内特徴(画像と画像)を最小限に抑える潜在正規化損失。
そこで本手法は,CLIP-inversionを含む様々なベンチマークにおいて,画像とビデオの両方において,より優れたモーフィング結果が得られることを示す。 Large-scale language-vision pre-training models, such as CLIP, have achieved remarkable text-guided image morphing results by leveraging several unconditional generative models. However, existing CLIP-guided image morphing methods encounter difficulties when morphing photorealistic images. Specifically, existing guidance fails to provide detailed explanations of the morphing regions within the image, leading to misguidance. In this paper, we observed that such misguidance could be effectively mitigated by simply using a proper regularization loss. Our approach comprises two key components: 1) a geodesic cosine similarity loss that minimizes inter-modality features (i.e., image and text) on a projected subspace of CLIP space, and 2) a latent regularization loss that minimizes intra-modality features (i.e., image and image) on the image manifold. By replacing the na\"ive directional CLIP loss in a drop-in replacement manner, our method achieves superior morphing results on both images and videos for various benchmarks, including CLIP-inversion. | 翻訳日:2024-01-22 16:45:21 公開日:2024-01-19 |
# 独Focaler-IoU:「ユニオン・ロス」に注目 Focaler-IoU: More Focused Intersection over Union Loss ( http://arxiv.org/abs/2401.10525v1 ) ライセンス: Link先を確認 | Hao Zhang, Shuaijie Zhang | (参考訳) 境界箱回帰は物体検出の分野において重要な役割を担い、物体検出の位置決め精度は境界箱回帰の損失関数に大きく依存する。
既往の研究は, 境界ボックス間の幾何学的関係を生かし, 困難かつ簡単なサンプル分布が境界ボックスの回帰に与える影響を無視して, 回帰性能を向上させる。
本稿では, 困難で簡単な試料分布が回帰結果に与える影響を解析し, 異なる回帰サンプルに着目し, 異なる検出タスクにおける検出性能を向上させるFocaler-IoUを提案する。
最後に, 既存の高度検出器と回帰法を用いて, 異なる検出タスクに対して比較実験を行い, 本論文で提案する手法を用いて検出性能をさらに向上させた。 Bounding box regression plays a crucial role in the field of object detection, and the positioning accuracy of object detection largely depends on the loss function of bounding box regression. Existing researchs improve regression performance by utilizing the geometric relationship between bounding boxes, while ignoring the impact of difficult and easy sample distribution on bounding box regression. In this article, we analyzed the impact of difficult and easy sample distribution on regression results, and then proposed Focaler-IoU, which can improve detector performance in different detection tasks by focusing on different regression samples. Finally, comparative experiments were conducted using existing advanced detectors and regression methods for different detection tasks, and the detection performance was further improved by using the method proposed in this paper.Code is available at \url{https://github.com/malagoutou/Focaler-IoU}. | 翻訳日:2024-01-22 16:45:03 公開日:2024-01-19 |
# FARe: ReRAMベースのPIM加速器の故障認識GNNトレーニング FARe: Fault-Aware GNN Training on ReRAM-based PIM Accelerators ( http://arxiv.org/abs/2401.10522v1 ) ライセンス: Link先を確認 | Pratyush Dhingra, Chukwufumnanya Ogbogu, Biresh Kumar Joardar, Janardhan Rao Doppa, Ananth Kalyanaraman, Partha Pratim Pande | (参考訳) 抵抗的ランダムアクセスメモリ(ReRAM)ベースの処理インメモリ(PIM)アーキテクチャは、エッジプラットフォーム上でグラフニューラルネットワーク(GNN)をトレーニングするための魅力的なソリューションである。
しかし、未熟な製造プロセスとReRAMの書き込み持続性に制限があるため、ハードウェアの欠陥が原因でGNNトレーニングへの採用が制限される。
さらに、既存のフォールトトレラントソリューションは、フォールトの存在下でGNNを効果的に訓練するには不十分である。
本稿では,GNN トレーニングにおける障害の影響を緩和する FARe と呼ばれるフォールト・アウェア・フレームワークを提案する。
FAReは、精度とタイミングのオーバーヘッドの両方の観点から、既存のアプローチより優れている。
実験の結果、FAReフレームワークは障害のないReRAMハードウェアでGNNテストの精度を47.6%向上できることがわかった。 Resistive random-access memory (ReRAM)-based processing-in-memory (PIM) architecture is an attractive solution for training Graph Neural Networks (GNNs) on edge platforms. However, the immature fabrication process and limited write endurance of ReRAMs make them prone to hardware faults, thereby limiting their widespread adoption for GNN training. Further, the existing fault-tolerant solutions prove inadequate for effectively training GNNs in the presence of faults. In this paper, we propose a fault-aware framework referred to as FARe that mitigates the effect of faults during GNN training. FARe outperforms existing approaches in terms of both accuracy and timing overhead. Experimental results demonstrate that FARe framework can restore GNN test accuracy by 47.6% on faulty ReRAM hardware with a ~1% timing overhead compared to the fault-free counterpart. | 翻訳日:2024-01-22 16:44:47 公開日:2024-01-19 |
# 多言語モデルにおける言語間編集 Cross-lingual Editing in Multilingual Language Models ( http://arxiv.org/abs/2401.10521v1 ) ライセンス: Link先を確認 | Himanshu Beniwal, Kowsik Nandagopan D, Mayank Singh | (参考訳) 大規模言語モデル (LLMs) の訓練には大量のデータと計算資源が必要であり、古い LLM の更新には多大な努力とリソースが必要である。
多くのモデル編集技術 (MET) が再訓練なしにモデル出力を効率的に更新するために出現しているが、知識が多様な言語に格納されている多言語LLMにおいての有効性は、まだ未調査の研究領域である。
本稿では,言語間モデル編集(\textbf{xme})のパラダイムについて紹介する。
BLOOM, mBERT, および XLM-RoBERTa を用いて, BLOOM と mBERT, および XLM-RoBERTa を用いて, 書字文字である \textit{Latin} (英語,フランス語,スペイン語) と \textit{Indic} (ヒンディー語, グジャラティ語, ベンガル語) を用いて実験を行った。
その結果,言語が2つの異なるスクリプトファミリーに属している場合,XME設定下での最先端のMETの性能制限が顕著であった。
これらの知見は、これらの課題に対処するXME技術のさらなる研究・開発の必要性を浮き彫りにしている。
より包括的な情報は、この研究で使用されるデータセットと関連するコードは、以下のurl\url{https://github.com/lingo-iitgn/xme}で公開されている。 The training of large language models (LLMs) necessitates substantial data and computational resources, and updating outdated LLMs entails significant efforts and resources. While numerous model editing techniques (METs) have emerged to efficiently update model outputs without retraining, their effectiveness in multilingual LLMs, where knowledge is stored in diverse languages, remains an underexplored research area. This research paper introduces the cross-lingual model editing (\textbf{XME}) paradigm, wherein a fact is edited in one language, and the subsequent update propagation is observed across other languages. To investigate the XME paradigm, we conducted experiments using BLOOM, mBERT, and XLM-RoBERTa using the two writing scripts: \textit{Latin} (English, French, and Spanish) and \textit{Indic} (Hindi, Gujarati, and Bengali). The results reveal notable performance limitations of state-of-the-art METs under the XME setting, mainly when the languages involved belong to two distinct script families. These findings highlight the need for further research and development of XME techniques to address these challenges. For more comprehensive information, the dataset used in this research and the associated code are publicly available at the following URL\url{https://github.com/lingo-iitgn/XME}. | 翻訳日:2024-01-22 16:44:33 公開日:2024-01-19 |
# 観測なし領域の時空間予測 Spatial-temporal Forecasting for Regions without Observations ( http://arxiv.org/abs/2401.10518v1 ) ライセンス: Link先を確認 | Xinyu Su and Jianzhong Qi and Egemen Tanin and Yanchuan Chang and Majid Sarvi | (参考訳) 空間時空間予測は,交通予測,大気汚染物質予測,クラウドフロー予測など,現実の多くの応用において重要な役割を果たす。
最先端の空間-時間予測モデルはデータ駆動アプローチを採用し、データ可用性に大きく依存する。
このようなモデルは、データが不完全である場合の精度の問題に苦しんでいる。
いくつかの最近の研究は不完全データの問題に対処しようとした。
彼らは典型的には、短い期間またはいくつかの場所で関心のある領域でデータ可用性を仮定する。
本稿では,非平衡領域の発達,センサの段階的展開,オープンデータの欠如といったシナリオに対処するため,歴史的観測のない領域の時空間予測について検討する。
タスクに対してSTSMというモデルを提案する。
このモデルは、データを記録した隣接領域から空間時間パターンを学習するために、対照的な学習に基づくアプローチをとる。
我々の重要な洞察は、関心領域に類似した場所から学習することであり、学習を可能にするための選択的マスキング戦略を提案する。
その結果、我々のモデルは適応型最先端モデルよりも優れており、交通および大気汚染物質の予測タスクにおける誤差が一貫して減少する。
ソースコードはhttps://github.com/suzy0223/STSMで入手できる。 Spatial-temporal forecasting plays an important role in many real-world applications, such as traffic forecasting, air pollutant forecasting, crowd-flow forecasting, and so on. State-of-the-art spatial-temporal forecasting models take data-driven approaches and rely heavily on data availability. Such models suffer from accuracy issues when data is incomplete, which is common in reality due to the heavy costs of deploying and maintaining sensors for data collection. A few recent studies attempted to address the issue of incomplete data. They typically assume some data availability in a region of interest either for a short period or at a few locations. In this paper, we further study spatial-temporal forecasting for a region of interest without any historical observations, to address scenarios such as unbalanced region development, progressive deployment of sensors or lack of open data. We propose a model named STSM for the task. The model takes a contrastive learning-based approach to learn spatial-temporal patterns from adjacent regions that have recorded data. Our key insight is to learn from the locations that resemble those in the region of interest, and we propose a selective masking strategy to enable the learning. As a result, our model outperforms adapted state-of-the-art models, reducing errors consistently over both traffic and air pollutant forecasting tasks. The source code is available at https://github.com/suzy0223/STSM. | 翻訳日:2024-01-22 16:44:06 公開日:2024-01-19 |
# 拡張状態逆空間を用いたエピソード強化学習 Episodic Reinforcement Learning with Expanded State-reward Space ( http://arxiv.org/abs/2401.10516v1 ) ライセンス: Link先を確認 | Dayang Liang, Yaru Zhang and Yunlong Liu | (参考訳) 深層ニューラルネットワークを駆使した深層強化学習(DRL)は、ゲームやヘルスケア、自動運転など、さまざまな分野で大きな成功を収めている。
これらの進歩にもかかわらず、DRLは依然として大量の環境サンプルを必要とする効果的な政策であるため、データ非効率であると認識されている。
近年, エピソディック制御(EC)に基づくモデルフリーDRL法は, エピソディックメモリから過去の経験を思い出し, サンプル効率を向上している。
しかし、既存のECベースの手法では、(過去)検索状態の広範な利用を無視するため、状態と報酬空間の間の潜在的なミスアライメントの制限に悩まされ、おそらく不正確な価値推定と劣化した政策性能を引き起こす。
この問題に対処するため,拡張された状態が入力として使用され,トレーニングで使用される報酬が履歴情報と現在の情報の両方を含む,効率的なECベースのDRLフレームワークを導入する。
具体的には、ECが取得した履歴状態を入力状態の一部として再利用し、得られたMC-リターンをインタラクティブな遷移毎に即時報酬に統合する。
これにより,検索情報の完全活用と,時間差(td)損失による状態値のより良い評価を同時に達成することができる。
Box2d と Mujoco のタスクに挑戦する実験的な結果から,最近の兄弟メソッドや共通ベースラインよりも提案手法が優れていることを示す。
さらに、Q値比較のさらなる実験により、Q値過大評価を緩和する手法の有効性を検証する。 Empowered by deep neural networks, deep reinforcement learning (DRL) has demonstrated tremendous empirical successes in various domains, including games, health care, and autonomous driving. Despite these advancements, DRL is still identified as data-inefficient as effective policies demand vast numbers of environmental samples. Recently, episodic control (EC)-based model-free DRL methods enable sample efficiency by recalling past experiences from episodic memory. However, existing EC-based methods suffer from the limitation of potential misalignment between the state and reward spaces for neglecting the utilization of (past) retrieval states with extensive information, which probably causes inaccurate value estimation and degraded policy performance. To tackle this issue, we introduce an efficient EC-based DRL framework with expanded state-reward space, where the expanded states used as the input and the expanded rewards used in the training both contain historical and current information. To be specific, we reuse the historical states retrieved by EC as part of the input states and integrate the retrieved MC-returns into the immediate reward in each interactive transition. As a result, our method is able to simultaneously achieve the full utilization of retrieval information and the better evaluation of state values by a Temporal Difference (TD) loss. Empirical results on challenging Box2d and Mujoco tasks demonstrate the superiority of our method over a recent sibling method and common baselines. Further, we also verify our method's effectiveness in alleviating Q-value overestimation by additional experiments of Q-value comparison. | 翻訳日:2024-01-22 16:43:44 公開日:2024-01-19 |
# 進化的計算の新しい道 New Pathways in Coevolutionary Computation ( http://arxiv.org/abs/2401.10515v1 ) ライセンス: Link先を確認 | Moshe Sipper, Jason H. Moore, Ryan J. Urbanowicz | (参考訳) 適合性(共進化)が組み合わされた2種または複数の種の同時進化は、進化計算の分野でうまく利用されてきた。
本稿では,最近設計・適用した2種類の共進化アルゴリズムについて述べる。
OMNIREPは、特定の関心の問題を解決するための表現とエンコーディングの両方を発見する協調的共進化アルゴリズムである。
safeは共進化的共進化アルゴリズムであり、2つの共進化的な集団を維持する: 進化中の解の質を測定するのに必要な、候補の解の集団と候補の客観的関数の集団。 The simultaneous evolution of two or more species with coupled fitness -- coevolution -- has been put to good use in the field of evolutionary computation. Herein, we present two new forms of coevolutionary algorithms, which we have recently designed and applied with success. OMNIREP is a cooperative coevolutionary algorithm that discovers both a representation and an encoding for solving a particular problem of interest. SAFE is a commensalistic coevolutionary algorithm that maintains two coevolving populations: a population of candidate solutions and a population of candidate objective functions needed to measure solution quality during evolution. | 翻訳日:2024-01-22 16:43:18 公開日:2024-01-19 |
# 画像レベルアンサンブル学習による色不変性の探索 Exploring Color Invariance through Image-Level Ensemble Learning ( http://arxiv.org/abs/2401.10512v1 ) ライセンス: Link先を確認 | Yunpeng Gong and Jiaquan Li and Lifei Chen and Min Jiang | (参考訳) コンピュータビジョンの分野では、現実世界の照明条件やカメラ条件の変動によって生じる色バイアスの持続的な存在は、モデルの堅牢性に重大な課題をもたらす。
この問題は、人の再識別や産業ダストセグメンテーションのような複雑な広域監視シナリオにおいて特に顕著であり、環境変動があるため、トレーニング中に色情報に過度に適合するため、モデルの性能が低下することがある。
したがって、カメラ条件の複雑さに対応するために、効果的にモデルを適用する必要がある。
そこで本研究では,無作為色消去という学習戦略を導入し,アンサンブル学習からインスピレーションを得た。
この戦略は、トレーニングデータの部分的又は完全な色情報を元の画像構造を損なうことなく選択的に消去し、ニューラルネットワーク内の色特徴その他の特徴のバランスの取れた重み付けを実現する。
このアプローチは過剰フィッティングのリスクを軽減し、モデルの色の変化を扱う能力を高め、全体的なロバスト性を改善する。
提案手法は,強固な解釈可能性によって特徴付けられるアンサンブル学習戦略として機能する。
本稿では,本手法の包括的解析について述べる。
人物再同定や意味セグメンテーションといった様々なタスクを通して、我々のアプローチは一貫して強力なベースラインメソッドを改善します。
特に、カラーロバスト性を優先する既存の方法と比較して、この戦略はクロスドメインシナリオのパフォーマンスを著しく向上させる。
コードは \url{https://github.com/layumi/Person\_reID\_baseline\_pytorch/blob/master/random\_erasing.py} または \url{https://github.com/finger-monkey/Data-Augmentation} で公開されている。 In the field of computer vision, the persistent presence of color bias, resulting from fluctuations in real-world lighting and camera conditions, presents a substantial challenge to the robustness of models. This issue is particularly pronounced in complex wide-area surveillance scenarios, such as person re-identification and industrial dust segmentation, where models often experience a decline in performance due to overfitting on color information during training, given the presence of environmental variations. Consequently, there is a need to effectively adapt models to cope with the complexities of camera conditions. To address this challenge, this study introduces a learning strategy named Random Color Erasing, which draws inspiration from ensemble learning. This strategy selectively erases partial or complete color information in the training data without disrupting the original image structure, thereby achieving a balanced weighting of color features and other features within the neural network. This approach mitigates the risk of overfitting and enhances the model's ability to handle color variation, thereby improving its overall robustness. The approach we propose serves as an ensemble learning strategy, characterized by robust interpretability. A comprehensive analysis of this methodology is presented in this paper. Across various tasks such as person re-identification and semantic segmentation, our approach consistently improves strong baseline methods. Notably, in comparison to existing methods that prioritize color robustness, our strategy significantly enhances performance in cross-domain scenarios. The code available at \url{https://github.com/layumi/Person\_reID\_baseline\_pytorch/blob/master/random\_erasing.py} or \url{https://github.com/finger-monkey/Data-Augmentation}. | 翻訳日:2024-01-22 16:43:08 公開日:2024-01-19 |
# GMC-IQA:非参照画像品質評価のためのグローバル相関と平均オピニオン一貫性の爆発 GMC-IQA: Exploiting Global-correlation and Mean-opinion Consistency for No-reference Image Quality Assessment ( http://arxiv.org/abs/2401.10511v1 ) ライセンス: Link先を確認 | Zewen Chen, Juan Wang, Bing Li, Chunfeng Yuan, Weiming Hu, Junxian Liu, Peng Li, Yan Wang, Youqun Zhang, Congxuan Zhang | (参考訳) 画質アセスメント(iqa)の主観的性質から、画像に対して絶対平均評価スコアを割り当てるよりも、画像列間でどの画像がより良い品質を持つかを評価する方が信頼性が高い。
したがって、IQAモデルは、MAEやMSEのような平均意見整合(MOC)メトリクスではなく、PLCCやSROCCのようなグローバル相関整合(GCC)メトリクスによって評価される。
しかし、既存のほとんどの手法では、トレーニング中にGCCメトリクスを計算できないため、損失関数を定義するためにMOCメトリクスを採用している。
本研究では,グローバル相関と平均オピニオン整合性を利用する新たな損失関数とネットワークを構築し,GMC-IQAフレームワークを構築する。
具体的には,sroccの非微分問題を解くために,ペアワイズな選好に基づくランク推定を定義し,前のデータを予約するキュー機構を導入し,全データの大域的な結果の近似を行い,新たなgcc損失を提案する。
さらに,重み学習のランダム性を緩和し,モデルロバスト性を高めるために,多様な意見特徴を統合した平均オピニオンネットワークを提案する。
実験の結果,本手法はsoma法よりも精度と一般化が優れることがわかった。
また、提案する損失をさまざまなネットワークに適応させることで、パフォーマンスの向上とより安定したトレーニングを実現します。 Due to the subjective nature of image quality assessment (IQA), assessing which image has better quality among a sequence of images is more reliable than assigning an absolute mean opinion score for an image. Thus, IQA models are evaluated by global correlation consistency (GCC) metrics like PLCC and SROCC, rather than mean opinion consistency (MOC) metrics like MAE and MSE. However, most existing methods adopt MOC metrics to define their loss functions, due to the infeasible computation of GCC metrics during training. In this work, we construct a novel loss function and network to exploit Global-correlation and Mean-opinion Consistency, forming a GMC-IQA framework. Specifically, we propose a novel GCC loss by defining a pairwise preference-based rank estimation to solve the non-differentiable problem of SROCC and introducing a queue mechanism to reserve previous data to approximate the global results of the whole data. Moreover, we propose a mean-opinion network, which integrates diverse opinion features to alleviate the randomness of weight learning and enhance the model robustness. Experiments indicate that our method outperforms SOTA methods on multiple authentic datasets with higher accuracy and generalization. We also adapt the proposed loss to various networks, which brings better performance and more stable training. | 翻訳日:2024-01-22 16:42:36 公開日:2024-01-19 |
# 一貫性天国における一致: 大きな言語モデルが進化的アルゴリズムを満たすとき A match made in consistency heaven: when large language models meet evolutionary algorithms ( http://arxiv.org/abs/2401.10510v1 ) ライセンス: Link先を確認 | Wang Chao, Jiaxuan Zhao, Licheng Jiao, Lingling Li, Fang Liu, Shuyuan Yang | (参考訳) 事前訓練された大規模言語モデル(LLM)は、創造的な自然言語を生成する強力な能力を持つ。
進化的アルゴリズム(EA)は、複雑な現実世界の問題に対する多様な解決策を発見できる。
本論文は,テキストシーケンス生成と進化の共通する集合的・指向性から,トークン埋め込みとジェノタイプ・フェノタイプマッピング,位置エンコーディングとフィットネス・シェーピング,位置埋め込みと選択,注意と交叉,フィードフォワードニューラルネットワークと変異,モデルトレーニングとパラメータ更新,マルチタスク学習と多目的最適化といった,複数の重要な特徴を含むLLMとEAの強い一貫性を示す。
この一貫性の観点から、進化的微調整やLLM強化EAを含む既存の結合研究が分析されている。
これらの洞察を生かして、LLMとEAの結合に関する将来の研究の基本的なロードマップを概説するとともに、その過程で重要な課題を強調します。
この一貫性はllmsの背後にある進化のメカニズムを明らかにするだけでなく、生物に接近または打ち勝つ進化した人工エージェントの開発を促進する。 Pre-trained large language models (LLMs) have powerful capabilities for generating creative natural text. Evolutionary algorithms (EAs) can discover diverse solutions to complex real-world problems. Motivated by the common collective and directionality of text sequence generation and evolution, this paper illustrates the strong consistency of LLMs and EAs, which includes multiple one-to-one key characteristics: token embedding and genotype-phenotype mapping, position encoding and fitness shaping, position embedding and selection, attention and crossover, feed-forward neural network and mutation, model training and parameter update, and multi-task learning and multi-objective optimization. Based on this consistency perspective, existing coupling studies are analyzed, including evolutionary fine-tuning and LLM-enhanced EAs. Leveraging these insights, we outline a fundamental roadmap for future research in coupling LLMs and EAs, while highlighting key challenges along the way. The consistency not only reveals the evolution mechanism behind LLMs but also facilitates the development of evolved artificial agents that approach or surpass biological organisms. | 翻訳日:2024-01-22 16:42:10 公開日:2024-01-19 |
# icecap:近赤外ナノフォトニックデバイスからの放出、収集、光子検出のための3-in-1統合低温システム ICECAP: a 3-in-1 integrated cryogenic system for emission, collection and photon-detection from near infrared quantum nanophotonic devices ( http://arxiv.org/abs/2401.10509v1 ) ライセンス: Link先を確認 | Victoria A. Norman, Sridhar Majety, Alex H. Rubin, Pranta Saha, Jeanette Simo, Bradi Palomarez, Liang Li, Pietra B. Curro, Scott Dhuey, Selven Virasawmy, Marina Radulaski | (参考訳) 量子通信技術の展開には、低温環境における各ネットワークノードにおける単一光子発光、収集および検出能力が必要である。
2K以下の温度で動作する光クライオスタットに超伝導ナノワイヤ単光子検出器を組み込んだ3-in-1系を実証するために、最近の技術進歩を組み合わさり、このICECAP系はサンプルを冷却し、放出を回収し、近赤外線量子エミッタに適した1つの効率的な環境下で単一の光子を検出する。
本システムを用いて,炭化ケイ素色中心からの発光を発光および時間分解測定で特徴付ける。
さらに, 4H-SiCナノピラーに集積された窒素空孔中心の光学的特性を示す。 Deployment of quantum telecommunication technologies requires single-photon light emission, collection and detection capability at each network node in cryogenic environments. We combine recent technological advancements in single-photon detectors and cryogenics to demonstrate a 3-in-1 system that incorporates superconducting nanowire single-photon detectors into an optical cryostat operating at temperatures below 2 K. Dubbed the ICECAP system, this cryostation cools samples, collects emission, and detects single photons in one efficient environment suitable for a variety of near infrared quantum emitters. We utilize this system to characterize emission from silicon carbide color centers in photoluminescence and time-resolved measurements. Moreover, we demonstrate the first optical characterization of nitrogen-vacancy centers integrated in 4H-SiC nanopillars. | 翻訳日:2024-01-22 16:41:49 公開日:2024-01-19 |
# シリコン位相導波路におけるフォトニックスーパーカップリング Photonic Supercoupling in Silicon Topological Waveguides ( http://arxiv.org/abs/2401.10508v1 ) ライセンス: Link先を確認 | Ridong Jia, Yi Ji Tan, Nikhil Navaratna, Abhishek Kumar, Ranjan Singh | (参考訳) フォトニックシステム間の電磁波の結合は、通常1つの波長に制限されたエバネッセント場に依存する。
エバネッセントカップリング距離を延ばすには、大きな結合比を達成するために低屈折率のコントラストと完全運動量マッチングが必要である。
本稿では,位相型バレーホール導波路におけるフォトニックスーパーカップリングの発見について報告する。
実験により、電磁エネルギーの谷内保存渦流による導波路間の超高結合比を実現し、最大3波長の分離において95%の結合効率を実現する。
このトポロジカルシステムにおけるフォトニックスーパーカップリングのデモンストレーションは、オンチップ導波路とコンポーネント間の結合距離を著しく延長し、スーパーカップリングフォトニック集積デバイス、光センシング、電気通信の開発への道を開く。 Electromagnetic wave coupling between photonic systems relies on the evanescent field typically confined within a single wavelength. Extending evanescent coupling distance requires low refractive index contrast and perfect momentum matching for achieving a large coupling ratio. Here, we report the discovery of photonic supercoupling in a topological valley Hall pair of waveguides, showing a substantial improvement in coupling efficiency across multiple wavelengths. Experimentally, we realize ultra-high coupling ratios between waveguides through valley-conserved vortex flow of electromagnetic energy, attaining 95% coupling efficiency for separations of up to three wavelengths. This demonstration of photonic supercoupling in topological systems significantly extends the coupling distance between on-chip waveguides and components, paving the path for the development of supercoupled photonic integrated devices, optical sensing, and telecommunications. | 翻訳日:2024-01-22 16:41:32 公開日:2024-01-19 |
# ロバストなマルチモーダル密度推定 Robust Multi-Modal Density Estimation ( http://arxiv.org/abs/2401.10566v1 ) ライセンス: Link先を確認 | Anna M\'esz\'aros, Julian F. Schumann, Javier Alonso-Mora, Arkady Zgonnikov, Jens Kober | (参考訳) マルチモーダル確率予測モデルの開発は、包括的な評価指標の必要性を招いた。
いくつかの指標は機械学習モデルの精度を特徴付けることができる(例えば、負のlog-likelihood、jensen-shannon divergence)が、これらの指標は一般に確率密度で作用する。
純粋なサンプルベースの予測モデルに適用するには、基礎となる密度関数を推定する必要がある。
しかし、カーネル密度推定(KDE)のような一般的な手法はロバスト性を欠いていることが証明されている一方、より複雑な手法はマルチモーダル推定では評価されていない。
本稿では,マルチモーダル分布,非正規分布,高相関分布を推定するための非パラメトリック手法であるrobust multi-modal density estimator(robust multi-modal density estimator)を提案する。
ROMEはクラスタリングを利用して、サンプルのマルチモーダルセットを複数のユニモーダルに分割し、単一のマルチモーダル推定で個々のクラスタに対して得られた単純なKDE推定を結合する。
提案手法を,密度推定法やROMEの短縮法と比較したところ,確立した手法に勝るだけでなく,様々な分布に対してより堅牢であることがわかった。
その結果,ローマは,他の推定者が提示する過剰フィッティングや過剰スムーシングの問題を克服でき,確率的機械学習モデルのより堅牢な評価が期待できることがわかった。 Development of multi-modal, probabilistic prediction models has lead to a need for comprehensive evaluation metrics. While several metrics can characterize the accuracy of machine-learned models (e.g., negative log-likelihood, Jensen-Shannon divergence), these metrics typically operate on probability densities. Applying them to purely sample-based prediction models thus requires that the underlying density function is estimated. However, common methods such as kernel density estimation (KDE) have been demonstrated to lack robustness, while more complex methods have not been evaluated in multi-modal estimation problems. In this paper, we present ROME (RObust Multi-modal density Estimator), a non-parametric approach for density estimation which addresses the challenge of estimating multi-modal, non-normal, and highly correlated distributions. ROME utilizes clustering to segment a multi-modal set of samples into multiple uni-modal ones and then combines simple KDE estimates obtained for individual clusters in a single multi-modal estimate. We compared our approach to state-of-the-art methods for density estimation as well as ablations of ROME, showing that it not only outperforms established methods but is also more robust to a variety of distributions. Our results demonstrate that ROME can overcome the issues of over-fitting and over-smoothing exhibited by other estimators, promising a more robust evaluation of probabilistic machine learning models. | 翻訳日:2024-01-22 16:36:52 公開日:2024-01-19 |
# Dream360: トランスフォーマーをベースとした360度画像出力による屋外仮想シーン作成 Dream360: Diverse and Immersive Outdoor Virtual Scene Creation via Transformer-Based 360 Image Outpainting ( http://arxiv.org/abs/2401.10564v1 ) ライセンス: Link先を確認 | Hao Ai, Zidong Cao, Haonan Lu, Chen Chen, Jian Ma, Pengyuan Zhou, Tae-Kyun Kim, Pan Hui, and Lin Wang | (参考訳) 360画像は、視野180x360のfov(field-of-view)で、仮想観光など、新しい仮想現実(vr)アプリケーションのための没入的かつ現実的な環境を提供する。
これによって,“ユーザが特定のビューポートを備えた狭義のfovイメージから,多様で没入的な仮想シーンを自由に作成できる方法”という,技術的な課題が生まれました。
そこで本稿では,360画像の球面特性を考慮し,ユーザが選択したビューポートから多様で高精細で高精細なパノラマを生成できるトランスフォーマベースの360画像描画フレームワークdream360を提案する。
例えば、360度画像の球面特性を見渡しながら、主に長方形のマスクや中央位置の入力に焦点を当てた既存の方法と比較すると、ドリーム360は、球面表現に基づいて、より高い彩色柔軟性と忠実度を提供する。
Dream360は、 (I) コードブックベースのパノラマがSpherical-VQGAN (S-VQGAN) を介して描画され、 (II) 周波数認識による新しい整合性損失による改善である。
具体的には、S-VQGANは、球面調和(SH)値から球面固有のコードブックを学習し、シーンモデリングのための球面データ分布のより良い表現を提供する。
周波数認識補正は分解能と一致し、生成した結果のセマンティック一貫性と視覚的忠実度をさらに向上する。
私たちのdream360はfrechetインセプション距離(fid)スコアを従来の方法よりも大幅に低くし、視覚的忠実度も向上します。
また、参加者15名を対象に、VRにおける生成結果の品質をインタラクティブに評価し、Dream360フレームワークの柔軟性と優位性を実証した。 360 images, with a field-of-view (FoV) of 180x360, provide immersive and realistic environments for emerging virtual reality (VR) applications, such as virtual tourism, where users desire to create diverse panoramic scenes from a narrow FoV photo they take from a viewpoint via portable devices. It thus brings us to a technical challenge: `How to allow the users to freely create diverse and immersive virtual scenes from a narrow FoV image with a specified viewport?' To this end, we propose a transformer-based 360 image outpainting framework called Dream360, which can generate diverse, high-fidelity, and high-resolution panoramas from user-selected viewports, considering the spherical properties of 360 images. Compared with existing methods, e.g., [3], which primarily focus on inputs with rectangular masks and central locations while overlooking the spherical property of 360 images, our Dream360 offers higher outpainting flexibility and fidelity based on the spherical representation. Dream360 comprises two key learning stages: (I) codebook-based panorama outpainting via Spherical-VQGAN (S-VQGAN), and (II) frequency-aware refinement with a novel frequency-aware consistency loss. Specifically, S-VQGAN learns a sphere-specific codebook from spherical harmonic (SH) values, providing a better representation of spherical data distribution for scene modeling. The frequency-aware refinement matches the resolution and further improves the semantic consistency and visual fidelity of the generated results. Our Dream360 achieves significantly lower Frechet Inception Distance (FID) scores and better visual fidelity than existing methods. We also conducted a user study involving 15 participants to interactively evaluate the quality of the generated results in VR, demonstrating the flexibility and superiority of our Dream360 framework. | 翻訳日:2024-01-22 16:36:06 公開日:2024-01-19 |
# maediff:spected autoencoder-enhanced diffusion modelによる脳画像の非教師なし異常検出 MAEDiff: Masked Autoencoder-enhanced Diffusion Models for Unsupervised Anomaly Detection in Brain Images ( http://arxiv.org/abs/2401.10561v1 ) ライセンス: Link先を確認 | Rui Xu, Yunke Wang, Bo Du | (参考訳) 医用画像の分野では,コストの高いピクセルレベルのアノテーションを緩和できるため,教師なしの異常検出が注目されている。
これを達成するために、現代のアプローチでは、通常、生成モデルを使用して、病気の画像の健全な参照を生成し、健康な参照と元の病気画像を比較して異常を識別する。
近年、拡散モデルでは、良好なモードカバレッジと高いサンプル品質のために、医用画像における教師なし異常検出に有望な可能性が示されている。
しかし, 医用画像の特徴, 低コントラスト, 複雑な人体解剖学的構造は, 再構成を困難にしている。
さらに、医療画像のグローバルな情報は、しばしば未利用のままである。
これら2つの問題に対処するため,脳画像における教師なし異常検出のためのMasked Autoencoder-enhanced Diffusion Model (MAEDiff)を提案する。
MAEDiffは階層的なパッチパーティションを含む。
上層パッチを重畳して健全な画像を生成し、サブレベルパッチで動作するマスク付きオートエンコーダに基づく機構を実装し、未通知領域の条件を強化する。
腫瘍および多発性硬化症病変のデータに関する広範な実験により,本法の有効性が示された。 Unsupervised anomaly detection has gained significant attention in the field of medical imaging due to its capability of relieving the costly pixel-level annotation. To achieve this, modern approaches usually utilize generative models to produce healthy references of the diseased images and then identify the abnormalities by comparing the healthy references and the original diseased images. Recently, diffusion models have exhibited promising potential for unsupervised anomaly detection in medical images for their good mode coverage and high sample quality. However, the intrinsic characteristics of the medical images, e.g. the low contrast, and the intricate anatomical structure of the human body make the reconstruction challenging. Besides, the global information of medical images often remain underutilized. To address these two issues, we propose a novel Masked Autoencoder-enhanced Diffusion Model (MAEDiff) for unsupervised anomaly detection in brain images. The MAEDiff involves a hierarchical patch partition. It generates healthy images by overlapping upper-level patches and implements a mechanism based on the masked autoencoders operating on the sub-level patches to enhance the condition on the unnoised regions. Extensive experiments on data of tumors and multiple sclerosis lesions demonstrate the effectiveness of our method. | 翻訳日:2024-01-22 16:34:36 公開日:2024-01-19 |
# 360ORB-SLAM:奥行き網を有するパノラマ画像のための視線SLAMシステム 360ORB-SLAM: A Visual SLAM System for Panoramic Images with Depth Completion Network ( http://arxiv.org/abs/2401.10560v1 ) ライセンス: Link先を確認 | Yichen Chen, Yiqi Pan, Ruyu Liu, Haoyu Zhang, Guodao Zhang, Bo Sun and Jianhua Zhang | (参考訳) AR/VRアプリケーションと視覚補助・検査システムの性能と効果を高めるため、視覚的同時位置決めとマッピング(vSLAM)はコンピュータビジョンとロボティクスの基本的な課題である。
しかし、従来のvSLAMシステムは視野の狭いカメラによって制限されており、細かな特徴分布や深度情報の欠如といった課題が生じる。
そこで本稿では,この限界を克服するために,パノラマ画像のための360orb-slamシステムを提案する。
本システムは、パノラマ画像から特徴点を抽出し、パノラマ三角モジュールを用いてスパース深度情報を生成し、深度網を用いて高密度パノラマ深度マップを得る。
Carlaをベースとした新しいパノラマデータセットの実験結果から,提案手法は既存の単分子SLAM法よりも精度が高く,特徴関連性やスケール曖昧性の課題に効果的に対処できることを示した。
奥行き完了ネットワークの統合はシステムの安定性を高め、動的要素のslam性能への影響を緩和する。 To enhance the performance and effect of AR/VR applications and visual assistance and inspection systems, visual simultaneous localization and mapping (vSLAM) is a fundamental task in computer vision and robotics. However, traditional vSLAM systems are limited by the camera's narrow field-of-view, resulting in challenges such as sparse feature distribution and lack of dense depth information. To overcome these limitations, this paper proposes a 360ORB-SLAM system for panoramic images that combines with a depth completion network. The system extracts feature points from the panoramic image, utilizes a panoramic triangulation module to generate sparse depth information, and employs a depth completion network to obtain a dense panoramic depth map. Experimental results on our novel panoramic dataset constructed based on Carla demonstrate that the proposed method achieves superior scale accuracy compared to existing monocular SLAM methods and effectively addresses the challenges of feature association and scale ambiguity. The integration of the depth completion network enhances system stability and mitigates the impact of dynamic elements on SLAM performance. | 翻訳日:2024-01-22 16:33:53 公開日:2024-01-19 |
# OrchMoE: タスクスキルのシナジーによる効率的なマルチアダプタ学習 OrchMoE: Efficient Multi-Adapter Learning with Task-Skill Synergy ( http://arxiv.org/abs/2401.10559v1 ) ライセンス: Link先を確認 | Haowen Wang, Tao Sun, Kaixiang Ji, Jian Wang, Cong Fan, Jinjie Gu | (参考訳) 我々は,ニューラルネットワークの前方転送を向上するためのモジュラースキルアーキテクチャを活かした,新しいマルチアダプタ手法OrchMoEにより,PEFTの分野を前進させる。
明示的なタスク識別入力に依存する以前のモデルとは異なり、OrchMoEはタスクカテゴリを自動的に識別し、学習プロセスを合理化している。
これは自動タスク分類モジュールとタスクスキル割当モジュールからなる統合機構によって実現され、タスク固有の分類と仕立てのスキル割当行列を総合的に推定する。
超自然命令'データセットの広範な評価から,orchmoeは,同じパラメータ制約内で動作しながら,性能とサンプル利用効率の両方において,同等のマルチアダプタベースラインを実質的に上回っていることが示された。
これらの結果は,OrchMoEがマルチタスク学習の効率化に大きく前進していることを示唆している。 We advance the field of Parameter-Efficient Fine-Tuning (PEFT) with our novel multi-adapter method, OrchMoE, which capitalizes on modular skill architecture for enhanced forward transfer in neural networks. Unlike prior models that depend on explicit task identification inputs, OrchMoE automatically discerns task categories, streamlining the learning process. This is achieved through an integrated mechanism comprising an Automatic Task Classification module and a Task-Skill Allocation module, which collectively deduce task-specific classifications and tailor skill allocation matrices. Our extensive evaluations on the 'Super Natural Instructions' dataset, featuring 1,600 diverse instructional tasks, indicate that OrchMoE substantially outperforms comparable multi-adapter baselines in terms of both performance and sample utilization efficiency, all while operating within the same parameter constraints. These findings suggest that OrchMoE offers a significant leap forward in multi-task learning efficiency. | 翻訳日:2024-01-22 16:33:32 公開日:2024-01-19 |
# ポイントとしてのシンボル:ポイントベース表現によるパノプティカルシンボルスポッティング Symbol as Points: Panoptic Symbol Spotting via Point-based Representation ( http://arxiv.org/abs/2401.10556v1 ) ライセンス: Link先を確認 | Wenlong Liu, Tianyu Yang, Yuhan Wang, Qizhi Yu, Lei Zhang | (参考訳) 本研究は,コンピュータ支援設計(CAD)図面から,可算オブジェクトインスタンス(ウィンドウ,ドア,テーブルなど)と非可算オブジェクト(壁,手すりなど)を識別・解析する,汎視的シンボルスポッティングの問題を研究する。
既存の手法では、ベクターグラフィックスを画像にラスタ化したり、画像に基づくシンボルスポッティングを使ったり、グラフを直接構築したり、グラフニューラルネットワークをシンボル認識に用いたりするのが一般的である。
本稿では,グラフィックプリミティブを,ローカルに接続された2dポイントの集合として扱い,それに取り組むためにポイントクラウドセグメンテーション手法を用いるという,異なるアプローチを採用する。
具体的には、点変換器を用いて原始的な特徴を抽出し、マスク2フォルマーのようなスポッティングヘッドを付加して最終的な出力を予測する。
プリミティブの局所接続情報をよりよく利用し、識別可能性を高めるために、接続モジュール(ACM)とコントラスト接続学習スキーム(CCL)による注目をさらに高める。
最後に,スポッティングヘッドのマスクアテンションモジュールに対するkn補間機構を提案する。画像の画素レベルとは対照的に,プリミティブなマスクダウンサンプリングをよりうまく処理する。
われわれのアプローチはSymPointと呼ばれ、FloorPlanCADデータセット上で9.6%のPQと10.4%のRQを絶対的に増加させ、最新の最先端のGAT-CADNetよりも優れている。
ソースコードとモデルはhttps://github.com/nicehuster/sympointで入手できる。 This work studies the problem of panoptic symbol spotting, which is to spot and parse both countable object instances (windows, doors, tables, etc.) and uncountable stuff (wall, railing, etc.) from computer-aided design (CAD) drawings. Existing methods typically involve either rasterizing the vector graphics into images and using image-based methods for symbol spotting, or directly building graphs and using graph neural networks for symbol recognition. In this paper, we take a different approach, which treats graphic primitives as a set of 2D points that are locally connected and use point cloud segmentation methods to tackle it. Specifically, we utilize a point transformer to extract the primitive features and append a mask2former-like spotting head to predict the final output. To better use the local connection information of primitives and enhance their discriminability, we further propose the attention with connection module (ACM) and contrastive connection learning scheme (CCL). Finally, we propose a KNN interpolation mechanism for the mask attention module of the spotting head to better handle primitive mask downsampling, which is primitive-level in contrast to pixel-level for the image. Our approach, named SymPoint, is simple yet effective, outperforming recent state-of-the-art method GAT-CADNet by an absolute increase of 9.6% PQ and 10.4% RQ on the FloorPlanCAD dataset. The source code and models will be available at https://github.com/nicehuster/SymPoint. | 翻訳日:2024-01-22 16:33:14 公開日:2024-01-19 |
# 不完全多視点データの統一ビューインプットと特徴選択学習 Unified View Imputation and Feature Selection Learning for Incomplete Multi-view Data ( http://arxiv.org/abs/2401.10549v1 ) ライセンス: Link先を確認 | Yanyong Huang, Zongxin Shen, Tianrui Li, Fengmao Lv | (参考訳) マルチビュー非教師付き特徴選択(MUFS)は、機械学習における次元性を低減する効果的な技術であるが、既存の手法では、一部のサンプルが欠落している不完全なマルチビューデータを直接扱うことはできない。
これらのメソッドは、まず所定の値を適用して、欠落したデータをインプットし、それから完全なデータセットで特徴選択を実行する。
インプテーションと特徴選択プロセスの分離は、特徴選択から得られた局所構造情報がインプテーションを導く可能性のあるシナジーに乗じないため、特徴選択性能が向上する。
さらに、従来の手法は、特徴空間の固有の局所性を無視しながら、サンプルの局所構造情報を活用することのみに焦点を当てていた。
これらの問題に対処するため,Unified View Imputation and Feature selectIon lEaRning (UNIFIER)と呼ばれる新しいMUFS手法を提案する。
UNIFIERは、サンプルと特徴空間の両方から類似性誘発グラフを適応的に学習することにより、マルチビューデータの局所構造を探索する。
そして、UNIFIERは、標本で案内された行方不明のビューを動的に復元し、特徴選択手順中に特徴類似性グラフを特徴付ける。
さらに、半量子最小化技術を使用して、異なるインスタンスを自動的に重み付けし、異常値と信頼性の低い復元データの影響を軽減する。
包括的実験の結果,ユニファイヤは他の最先端手法よりも優れていた。 Although multi-view unsupervised feature selection (MUFS) is an effective technology for reducing dimensionality in machine learning, existing methods cannot directly deal with incomplete multi-view data where some samples are missing in certain views. These methods should first apply predetermined values to impute missing data, then perform feature selection on the complete dataset. Separating imputation and feature selection processes fails to capitalize on the potential synergy where local structural information gleaned from feature selection could guide the imputation, thereby improving the feature selection performance in turn. Additionally, previous methods only focus on leveraging samples' local structure information, while ignoring the intrinsic locality of the feature space. To tackle these problems, a novel MUFS method, called UNified view Imputation and Feature selectIon lEaRning (UNIFIER), is proposed. UNIFIER explores the local structure of multi-view data by adaptively learning similarity-induced graphs from both the sample and feature spaces. Then, UNIFIER dynamically recovers the missing views, guided by the sample and feature similarity graphs during the feature selection procedure. Furthermore, the half-quadratic minimization technique is used to automatically weight different instances, alleviating the impact of outliers and unreliable restored data. Comprehensive experimental results demonstrate that UNIFIER outperforms other state-of-the-art methods. | 翻訳日:2024-01-22 16:32:46 公開日:2024-01-19 |
# PhoGAD:永続ホモロジー最適化を用いたグラフベース異常検出 PhoGAD: Graph-based Anomaly Behavior Detection with Persistent Homology Optimization ( http://arxiv.org/abs/2401.10547v1 ) ライセンス: Link先を確認 | Ziqi Yuan, Haoyi Zhou, Tianyu Chen, Jianxin Li | (参考訳) ネットワーク攻撃から匿名のトラフィック、スパムまで、多くの有害なオンライン行動がネットワークのスムーズな運用を著しく妨害している。
ネットワークの振る舞いに固有の送受信機能があるため、グラフベースのフレームワークは異常な振る舞いを検出するために一般的に使用される。
しかし、現実のシナリオでは、通常の振る舞いと異常な振る舞いの境界は曖昧である。
グラフの局所的ヘテロフィリは検出を妨害し、ノードやエッジに基づく既存の手法は不要なノイズを表現結果に導入し、検出の有効性に影響を与える。
これらの問題に対処するため,グラフベースの異常検出フレームワークであるPhoGADを提案する。
PhoGADは永続的ホモロジー最適化を利用して行動境界を明らかにする。
これに基づいて、隣接するエッジの重みは局所的なヘテロフィリーの影響を軽減するように設計されている。
その後,ノイズ問題に取り組むため,形式的解析を行い,不連続表現に基づく明示的埋め込み法を提案し,最終的に異常行動検出を実現する。
侵入、トラフィック、スパムデータセットの実験により、PhoGADが検出有効性において最先端(SOTA)フレームワークのパフォーマンスを上回ったことが確認された。
特に、PhoGADは異常比が小さくても堅牢な検出を示し、現実世界のシナリオへの適用性を強調している。
永続ホモロジーの解析は、通常のエッジ特徴によって形成されるトポロジ構造を捕捉する効果を示す。
さらに、アブレーション実験はphogadに統合された革新的なメカニズムの有効性を検証する。 A multitude of toxic online behaviors, ranging from network attacks to anonymous traffic and spam, have severely disrupted the smooth operation of networks. Due to the inherent sender-receiver nature of network behaviors, graph-based frameworks are commonly used for detecting anomalous behaviors. However, in real-world scenarios, the boundary between normal and anomalous behaviors tends to be ambiguous. The local heterophily of graphs interferes with the detection, and existing methods based on nodes or edges introduce unwanted noise into representation results, thereby impacting the effectiveness of detection. To address these issues, we propose PhoGAD, a graph-based anomaly detection framework. PhoGAD leverages persistent homology optimization to clarify behavioral boundaries. Building upon this, the weights of adjacent edges are designed to mitigate the effects of local heterophily. Subsequently, to tackle the noise problem, we conduct a formal analysis and propose a disentangled representation-based explicit embedding method, ultimately achieving anomaly behavior detection. Experiments on intrusion, traffic, and spam datasets verify that PhoGAD has surpassed the performance of state-of-the-art (SOTA) frameworks in detection efficacy. Notably, PhoGAD demonstrates robust detection even with diminished anomaly proportions, highlighting its applicability to real-world scenarios. The analysis of persistent homology demonstrates its effectiveness in capturing the topological structure formed by normal edge features. Additionally, ablation experiments validate the effectiveness of the innovative mechanisms integrated within PhoGAD. | 翻訳日:2024-01-22 16:32:23 公開日:2024-01-19 |
# aat:様々な音響認識タスクにオーディオトランスフォーマーを適用する AAT: Adapting Audio Transformer for Various Acoustics Recognition Tasks ( http://arxiv.org/abs/2401.10544v1 ) ライセンス: Link先を確認 | Yun Liang, Hai Lin, Shaojian Qiu, Yihang Zhang | (参考訳) 近年,音響認識の分野でトランスフォーマが導入されている。
それらは、教師付き学習や半教師付き学習などの手法を使用して、大規模なデータセット上で事前トレーニングされ、堅牢な汎用性を示す。
しかし、現在使われている主な微調整方法は、トレーニング中にすべてのパラメータを更新する完全な微調整である。
これはメモリ使用量と時間コストを増大させるだけでなく、モデルの一般性を損なう。
他の微調整方法は、この問題に対処するのに苦労するか、あるいは一致したパフォーマンスを達成するのに失敗する。
そこで我々は,既存のファインチューニング手法を包括的に分析し,アダプタチューニングに基づく効率的なファインチューニング手法,すなわちAATを提案する。
コアとなるアイデアは、オーディオトランスフォーマーモデルを凍結し、学習可能な余分なアダプタを挿入し、モデルの本来の汎用性を損なうことなく、下流のタスク知識を効率的に取得することだ。
実験の結果,パラメータの7.118%しか最適化せず,完全微調整に匹敵する性能を示した。
他の微調整法よりも優れていることも示している。 Recently, Transformers have been introduced into the field of acoustics recognition. They are pre-trained on large-scale datasets using methods such as supervised learning and semi-supervised learning, demonstrating robust generality--It fine-tunes easily to downstream tasks and shows more robust performance. However, the predominant fine-tuning method currently used is still full fine-tuning, which involves updating all parameters during training. This not only incurs significant memory usage and time costs but also compromises the model's generality. Other fine-tuning methods either struggle to address this issue or fail to achieve matching performance. Therefore, we conducted a comprehensive analysis of existing fine-tuning methods and proposed an efficient fine-tuning approach based on Adapter tuning, namely AAT. The core idea is to freeze the audio Transformer model and insert extra learnable Adapters, efficiently acquiring downstream task knowledge without compromising the model's original generality. Extensive experiments have shown that our method achieves performance comparable to or even superior to full fine-tuning while optimizing only 7.118% of the parameters. It also demonstrates superiority over other fine-tuning methods. | 翻訳日:2024-01-22 16:32:00 公開日:2024-01-19 |
# ゼロリソース言語のための多言語音響単語埋め込み Multilingual acoustic word embeddings for zero-resource languages ( http://arxiv.org/abs/2401.10543v1 ) ライセンス: Link先を確認 | Christiaan Jacobs and Herman Kamper | (参考訳) 本研究は,ラベル付きデータに欠けるゼロリソース言語のための音声アプリケーションを開発することの課題に対処する。
具体的には、多言語トランスファーを使用して、多言語音声セグメントの固定次元表現であるawe(a acoustic word embedded)を使用している。
この研究は、ゼロリソース言語で既存のaweモデルを上回る新しいニューラルネットワークを導入している。
優れたリソース言語の選択の影響を探求するものだ。
AWEは、スワヒリのラジオ放送におけるヘイトスピーチ検出のためのキーワードスポッティングシステムに適用され、現実世界のシナリオにおける堅牢性を示す。
さらに、新しいセマンティックAWEモデルは、セマンティッククエリ・バイ・サンプル検索を改善する。 This research addresses the challenge of developing speech applications for zero-resource languages that lack labelled data. It specifically uses acoustic word embedding (AWE) -- fixed-dimensional representations of variable-duration speech segments -- employing multilingual transfer, where labelled data from several well-resourced languages are used for pertaining. The study introduces a new neural network that outperforms existing AWE models on zero-resource languages. It explores the impact of the choice of well-resourced languages. AWEs are applied to a keyword-spotting system for hate speech detection in Swahili radio broadcasts, demonstrating robustness in real-world scenarios. Additionally, novel semantic AWE models improve semantic query-by-example search. | 翻訳日:2024-01-22 16:31:40 公開日:2024-01-19 |
# I-SplitEE:早期排他型DNNにおける画像分類 I-SplitEE: Image classification in Split Computing DNNs with Early Exits ( http://arxiv.org/abs/2401.10541v1 ) ライセンス: Link先を確認 | Divya Jyoti Bajpai, Aastha Jaiswal, Manjesh Kumar Hanawal | (参考訳) 近年のDeep Neural Networks(DNN)の進歩は、さまざまな領域にわたる例外的なパフォーマンスに起因している。
しかし、それら固有の大規模なネットワークは、エッジ、モバイル、IoTプラットフォームといったリソース制約のあるデバイスにこれらのネットワークをデプロイすることを妨げる。
部分的なクラウド計算のオフロード(スプリットコンピューティング)からDNN層への早期出口の統合に至るまで、戦略が生まれている。
我々の研究は、アーリーエグジットとスプリットコンピューティングを融合した革新的な統一アプローチを提示している。
我々は,エッジデバイス計算におけるDNNの最適深さである分割層を決定するとともに,精度,計算効率,通信コストを考慮した推定のためにエッジデバイス上で推論するか,クラウドにオフロードするかを決定する。
また、画像分類は、時刻、照明、天候などの要因によって、様々な環境歪みに直面している。
これらの歪みに対応するために,本論文では,基礎的真理や逐次データに欠けるシナリオに理想的なオンライン非教師なしアルゴリズムであるi-spliteeを提案する。
caltech-256とcifar-10を用いた実験検証では、i-spliteeのコスト削減能力が最低55%、限界性能低下が最大5%を示す。 The recent advances in Deep Neural Networks (DNNs) stem from their exceptional performance across various domains. However, their inherent large size hinders deploying these networks on resource-constrained devices like edge, mobile, and IoT platforms. Strategies have emerged, from partial cloud computation offloading (split computing) to integrating early exits within DNN layers. Our work presents an innovative unified approach merging early exits and split computing. We determine the 'splitting layer', the optimal depth in the DNN for edge device computations, and whether to infer on edge device or be offloaded to the cloud for inference considering accuracy, computational efficiency, and communication costs. Also, Image classification faces diverse environmental distortions, influenced by factors like time of day, lighting, and weather. To adapt to these distortions, we introduce I-SplitEE, an online unsupervised algorithm ideal for scenarios lacking ground truths and with sequential data. Experimental validation using Caltech-256 and Cifar-10 datasets subjected to varied distortions showcases I-SplitEE's ability to reduce costs by a minimum of 55% with marginal performance degradation of at most 5%. | 翻訳日:2024-01-22 16:31:25 公開日:2024-01-19 |
# 品質多様性アルゴリズムはおそらく最適化に役立つ Quality-Diversity Algorithms Can Provably Be Helpful for Optimization ( http://arxiv.org/abs/2401.10539v1 ) ライセンス: Link先を確認 | Chao Qian, Ke Xue, Ren-Jian Wang | (参考訳) quality-diversity (qd) アルゴリズムは新しいタイプの進化アルゴリズム (eas) であり、高性能で多様な解を見つけることを目的としている。
彼らは強化学習とロボティクスで多くの成功例を見つけ、複雑な環境での堅牢性を改善するのに役立った。
さらに、従来の検索アルゴリズムよりも優れた総合的なソリューションを経験的に見つけることも多い。
しかし、それらの理論的な分析はずっと遅れており、多くの基本的な疑問は未解決である。
本稿では,厳密な実行時間解析によってQDアルゴリズムの最適化能力に光を当てる。
一般的なQDアルゴリズムMAP-Elitesを$(\mu+1)$-EA(より良い目的値のみを求める典型的なEA)と比較することにより、広範に応用されたNP-ハードな2つの問題クラス、すなわち、サイズ制約とセットカバーを持つ単調な部分モジュラー最大化に対して、MAP-Elitesは(漸近的に)最適多項式時間近似比を達成できるが、$(\mu+1)$-EAはいくつかのインスタンスにおいて指数的に期待時間を必要とすることを証明できる。
これにより、qdアルゴリズムが最適化に役立つという理論的正当性が提供され、多様な振る舞いを持つハイパフォーマンスソリューションの同時探索は、優れたソリューションの踏み台となり、局所的なオプティマを避けることができる。 Quality-Diversity (QD) algorithms are a new type of Evolutionary Algorithms (EAs), aiming to find a set of high-performing, yet diverse solutions. They have found many successful applications in reinforcement learning and robotics, helping improve the robustness in complex environments. Furthermore, they often empirically find a better overall solution than traditional search algorithms which explicitly search for a single highest-performing solution. However, their theoretical analysis is far behind, leaving many fundamental questions unexplored. In this paper, we try to shed some light on the optimization ability of QD algorithms via rigorous running time analysis. By comparing the popular QD algorithm MAP-Elites with $(\mu+1)$-EA (a typical EA focusing on finding better objective values only), we prove that on two NP-hard problem classes with wide applications, i.e., monotone approximately submodular maximization with a size constraint, and set cover, MAP-Elites can achieve the (asymptotically) optimal polynomial-time approximation ratio, while $(\mu+1)$-EA requires exponential expected time on some instances. This provides theoretical justification for that QD algorithms can be helpful for optimization, and discloses that the simultaneous search for high-performing solutions with diverse behaviors can provide stepping stones to good overall solutions and help avoid local optima. | 翻訳日:2024-01-22 16:31:06 公開日:2024-01-19 |
# 実世界顔ペンキのための位置認識型暗示ニューラルネットワークの学習 Learning Position-Aware Implicit Neural Network for Real-World Face Inpainting ( http://arxiv.org/abs/2401.10537v1 ) ライセンス: Link先を確認 | Bo Zhao, Huan Yang and Jianlong Fu | (参考訳) フェイスインペインティングでは、モデルが顔の位置構造を正確にグローバルに理解する必要がある。
深層学習のバックボーンの強力な能力から恩恵を受けながら、近年の塗り絵は理想的な設定(512px$の正方形)で優れたパフォーマンスを実現している。
しかし、既存の手法はしばしば視覚的に不快な結果をもたらし、特に実世界のシナリオにおいて任意の形の画像に直接適用する場合、位置感応的な細部(眼と鼻など)において顕著である。
視覚的に不快な位置感性の詳細は、位置情報処理能力の観点から既存の手法の欠点を示している。
本稿では,位置情報の明示的モデリングにより,現実のシナリオにおける任意の形状の顔画像を処理するために,textbf{I}mplicit \textbf{N}eural \textbf{I}npainting \textbf{N}etwork (IN$^2$)を提案する。
具体的には,ダウンサンプル処理エンコーダを提案し,グローバル意味的特徴を生かしながら情報損失を低減する。
入力の形状を制約することなくモデルの顔認識能力を向上させるために,ハイブリッドアテンション機構を備えた隣り合うハイブリッドアテンションブロックを提案する。
最後に、位置情報を明示的にモデル化し、低解像度特徴と高解像度出力のギャップを埋める暗黙のニューラルネットワークピラミッドデコーダを導入する。
実世界の顔塗装作業において,提案手法の優位性を示す実験を行った。 Face inpainting requires the model to have a precise global understanding of the facial position structure. Benefiting from the powerful capabilities of deep learning backbones, recent works in face inpainting have achieved decent performance in ideal setting (square shape with $512px$). However, existing methods often produce a visually unpleasant result, especially in the position-sensitive details (e.g., eyes and nose), when directly applied to arbitrary-shaped images in real-world scenarios. The visually unpleasant position-sensitive details indicate the shortcomings of existing methods in terms of position information processing capability. In this paper, we propose an \textbf{I}mplicit \textbf{N}eural \textbf{I}npainting \textbf{N}etwork (IN$^2$) to handle arbitrary-shape face images in real-world scenarios by explicit modeling for position information. Specifically, a downsample processing encoder is proposed to reduce information loss while obtaining the global semantic feature. A neighbor hybrid attention block is proposed with a hybrid attention mechanism to improve the facial understanding ability of the model without restricting the shape of the input. Finally, an implicit neural pyramid decoder is introduced to explicitly model position information and bridge the gap between low-resolution features and high-resolution output. Extensive experiments demonstrate the superiority of the proposed method in real-world face inpainting task. | 翻訳日:2024-01-22 16:30:32 公開日:2024-01-19 |
# 音声スウィン変換器:音声感情認識のためのシフトウィンドウ付き階層変換器の探索 Speech Swin-Transformer: Exploring a Hierarchical Transformer with Shifted Windows for Speech Emotion Recognition ( http://arxiv.org/abs/2401.10536v1 ) ライセンス: Link先を確認 | Yong Wang, Cheng Lu, Hailun Lian, Yan Zhao, Bj\"orn Schuller, Yuan Zong, Wenming Zheng | (参考訳) Swin-Transformerは、Transformerに基づいた階層的特徴表現を活用することで、コンピュータビジョンにおいて顕著な成功を収めた。
音声信号では、感情情報は様々な種類の音声特徴に分散される。
g である。
言葉、フレーズ、発話。
上述のインスピレーションにより,SER(Speech Swin-Transformer)と呼ばれる音声感情認識のためのマルチスケール感情特徴を集約する階層型音声変換器を提案する。
具体的には、まず音声スペクトログラムを、複数のフレームパッチからなる時間領域のセグメントレベルパッチに分割する。
これらのセグメントレベルのパッチはスウィングブロックのスタックを使ってエンコードされ、各セグメントパッチのフレームパッチにまたがるローカルなフレーム間感情情報を探索するためにローカルウィンドウトランスフォーマーが使用される。
その後、セグメントパッチの境界付近のパッチ相関を補償するためにシフトウィンドウトランスを設計した。
最後に,フレームレベルからセグメントレベルへ変換器の受容場を拡大することにより,階層的音声表現のためのセグメントレベルの感情特徴を集約するパッチマージ操作を用いる。
実験の結果,提案した音声スウィン変換器は最先端手法よりも優れていた。 Swin-Transformer has demonstrated remarkable success in computer vision by leveraging its hierarchical feature representation based on Transformer. In speech signals, emotional information is distributed across different scales of speech features, e.\,g., word, phrase, and utterance. Drawing above inspiration, this paper presents a hierarchical speech Transformer with shifted windows to aggregate multi-scale emotion features for speech emotion recognition (SER), called Speech Swin-Transformer. Specifically, we first divide the speech spectrogram into segment-level patches in the time domain, composed of multiple frame patches. These segment-level patches are then encoded using a stack of Swin blocks, in which a local window Transformer is utilized to explore local inter-frame emotional information across frame patches of each segment patch. After that, we also design a shifted window Transformer to compensate for patch correlations near the boundaries of segment patches. Finally, we employ a patch merging operation to aggregate segment-level emotional features for hierarchical speech representation by expanding the receptive field of Transformer from frame-level to segment-level. Experimental results demonstrate that our proposed Speech Swin-Transformer outperforms the state-of-the-art methods. | 翻訳日:2024-01-22 16:30:08 公開日:2024-01-19 |
# 自然言語処理の「植民地的衝動」--ベンガル感情分析ツールとそのアイデンティティに基づくバイアスの監査 The "Colonial Impulse" of Natural Language Processing: An Audit of Bengali Sentiment Analysis Tools and Their Identity-based Biases ( http://arxiv.org/abs/2401.10535v1 ) ライセンス: Link先を確認 | Dipto Das and Shion Guha and Jed Brubaker and Bryan Semaan | (参考訳) 植民地化は、様々な次元の人々のアイデンティティに社会史的に影響を及ぼしてきたが、これらの植民地の価値観とバイアスは、社会学的システムによって持続され続けている。
社会学的な体系の1つのカテゴリーである感覚分析ツール(sentiment analysis tools)は、植民地の価値観とバイアスを持続することができるが、そのようなツールが植民地の存続にどのように寄与するかにはあまり注意が払われていない。
本稿では,植民地主義の影響を経験し継続してきたベンガル人コミュニティの文脈における感情分析ツールの潜在的なバイアスについて考察する。
ベンガル人コミュニティにおける植民地主義の影響が最も大きいアイデンティティカテゴリーについて考察し,性別,宗教,国籍について分析的に考察した。
我々は、Pythonパッケージインデックス(PyPI)とGitHubで利用可能なBengaliのすべての感情分析ツールのアルゴリズムによる監査を行った。
類似のセマンティックな内容と構造にもかかわらず,ベンガルの感情分析ツールは,異なるツールからの出力の不整合に加えて,異なるアイデンティティカテゴリ間のバイアスを示し,異なるアイデンティティ表現の方法に異なる応答を示すことを示した。
本研究は,ベンガル人コミュニティの植民地型社会文化構造と結びついて,感情分析ツールの下流バイアスの影響について考察する。 While colonization has sociohistorically impacted people's identities across various dimensions, those colonial values and biases continue to be perpetuated by sociotechnical systems. One category of sociotechnical systems--sentiment analysis tools--can also perpetuate colonial values and bias, yet less attention has been paid to how such tools may be complicit in perpetuating coloniality, although they are often used to guide various practices (e.g., content moderation). In this paper, we explore potential bias in sentiment analysis tools in the context of Bengali communities that have experienced and continue to experience the impacts of colonialism. Drawing on identity categories most impacted by colonialism amongst local Bengali communities, we focused our analytic attention on gender, religion, and nationality. We conducted an algorithmic audit of all sentiment analysis tools for Bengali, available on the Python package index (PyPI) and GitHub. Despite similar semantic content and structure, our analyses showed that in addition to inconsistencies in output from different tools, Bengali sentiment analysis tools exhibit bias between different identity categories and respond differently to different ways of identity expression. Connecting our findings with colonially shaped sociocultural structures of Bengali communities, we discuss the implications of downstream bias of sentiment analysis tools. | 翻訳日:2024-01-22 16:29:48 公開日:2024-01-19 |
# デジタルアナログ量子コンピューティングとアルゴリズム Digital-Analog Quantum Computing and Algorithms ( http://arxiv.org/abs/2401.10622v1 ) ライセンス: Link先を確認 | Ana Martin | (参考訳) この論文は、digital-analog quantum computing (daqc)パラダイムを用いた量子アルゴリズムの開発と実装に焦点をあてている。
DAQCと従来のデジタルアプローチ、特に現在のノイズの多い中間スケール量子(NISQ)デバイスからのノイズ源の存在における性能の比較分析を提供する。
DAQCパラダイムは、デジタルおよびアナログ量子コンピューティングの強みを組み合わせることで、実際のハードウェア上で量子アルゴリズムを実装するための効率と精度を高める。
この論文は、デジタルおよびデジタルアナログアプローチを用いた4つの関連する量子アルゴリズムの比較に焦点を当てており、結果は後者に有利である。
さらに, クロス共振効果を考察し, 効率的かつ高精度なハミルトニアンシミュレーションを実現する。
この結果は、デジタルアナログパラダイムが実用的な量子コンピューティングアプリケーションに期待できることを示している。
実際のハードウェアに量子アルゴリズムを実装する際の効率と精度を高める能力は、従来のデジタルアプローチよりも大きなアドバンテージである。 This Thesis delves into the development and implementation of quantum algorithms using the digital-analog quantum computing (DAQC) paradigm. It provides a comparative analysis of the performance of DAQC versus traditional digital approaches, particularly in the presence of noise sources from current noisy intermediate-scale quantum (NISQ) devices. The DAQC paradigm combines the strengths of digital and analog quantum computing, offering greater efficiency and precision for implementing quantum algorithms on real hardware. The Thesis focuses on the comparison of four relevant quantum algorithms using digital and digital-analog approaches, and the results show significant advantages in favor of the latter. Furthermore, the Thesis investigates the cross-resonance effect to achieve efficient and high-precision Hamiltonian simulations. The findings indicate that the digital-analog paradigm is promising for practical quantum computing applications. Its ability to deliver greater efficiency and accuracy in implementing quantum algorithms on real hardware is a significant advantage over traditional digital approaches. | 翻訳日:2024-01-22 16:22:15 公開日:2024-01-19 |
# フローの低次モデリングのためのスムースクラスタリングを用いたポリトピーオートエンコーダ Polytopic Autoencoders with Smooth Clustering for Reduced-order Modelling of Flows ( http://arxiv.org/abs/2401.10620v1 ) ライセンス: Link先を確認 | Jan Heiland, Yongho Kim | (参考訳) ニューラルネットワークの進歩により、低次モデルへのオートエンコーダの適用に関する研究論文において、量と多様性の両方において顕著な増加が見られた。
本稿では,軽量な非線形エンコーダ,凸結合デコーダ,スムーズなクラスタリングネットワークを備えた多目的オートエンコーダアーキテクチャを提案する。
いくつかの証明によって支持されたモデルアーキテクチャは、すべての再構成された状態がポリトープ内にあることを保証し、ポリトープエラーと呼ばれる構築されたポリトープの品質を示す計量を伴っている。
さらに、適切な直交分解(pod)と比較して許容可能な再構成誤差を達成しながら、多点線形パラメータ変動システムに対する最小数の凸座標を提供する。
提案モデルを検証するために, 圧縮不能なnavier-stokes方程式を用いて2つの流れシナリオをシミュレーションする。
数値実験により,モデルの性能保証,podとの比較による再構成誤差の低減,クラスタリングネットワークによる誤差の改善が示された。 With the advancement of neural networks, there has been a notable increase, both in terms of quantity and variety, in research publications concerning the application of autoencoders to reduced-order models. We propose a polytopic autoencoder architecture that includes a lightweight nonlinear encoder, a convex combination decoder, and a smooth clustering network. Supported by several proofs, the model architecture ensures that all reconstructed states lie within a polytope, accompanied by a metric indicating the quality of the constructed polytopes, referred to as polytope error. Additionally, it offers a minimal number of convex coordinates for polytopic linear-parameter varying systems while achieving acceptable reconstruction errors compared to proper orthogonal decomposition (POD). To validate our proposed model, we conduct simulations involving two flow scenarios with the incompressible Navier-Stokes equation. Numerical results demonstrate the guaranteed properties of the model, low reconstruction errors compared to POD, and the improvement in error using a clustering network. | 翻訳日:2024-01-22 16:22:01 公開日:2024-01-19 |
# M2ORT : 病理像からの空間転写学予測のための多対一回帰変換器 M2ORT: Many-To-One Regression Transformer for Spatial Transcriptomics Prediction from Histopathology Images ( http://arxiv.org/abs/2401.10608v1 ) ライセンス: Link先を確認 | Hongyi Wang, Xiuju Du, Jing Liu, Shuyi Ouyang, Yen-Wei Chen, Lanfen Lin | (参考訳) 空間転写学(Spatial Transcriptomics, ST)の進歩により, 組織像に基づく遺伝子発現の空間的プロファイリングが促進された。
STデータは腫瘍の微小環境に関する貴重な知見を提供するが、買収コストは高い。
したがって、デジタル病理画像から直接ST表現を予測することが望ましい。
現在の手法では、デジタル病理画像に固有のマルチスケール階層データ構造を無視する既存の回帰バックボーンを採用することが多い。
この限界に対処するために,マルチスケール特徴抽出器を用いて病理像の階層構造を満足する多対一回帰トランスフォーマであるm2ortを提案する。
1対1のイメージラベルペアで訓練された従来のモデルとは異なり、M2ORTは異なる倍率の複数の病理画像を受け入れ、トレーニングを通じて多対1の関係を学ぶことを目的として、対応する共通ST領域での遺伝子発現を共同で予測する。
我々は3つのパブリックSTデータセット上でM2ORTを試験し、実験結果から、M2ORTはパラメータが少なく、浮動小数点演算(FLOP)で最先端のパフォーマンスを達成できることが示された。
コードはhttps://github.com/dootmaan/m2ort/。 The advancement of Spatial Transcriptomics (ST) has facilitated the spatially-aware profiling of gene expressions based on histopathology images. Although ST data offers valuable insights into the micro-environment of tumors, its acquisition cost remains expensive. Therefore, directly predicting the ST expressions from digital pathology images is desired. Current methods usually adopt existing regression backbones for this task, which ignore the inherent multi-scale hierarchical data structure of digital pathology images. To address this limit, we propose M2ORT, a many-to-one regression Transformer that can accommodate the hierarchical structure of the pathology images through a decoupled multi-scale feature extractor. Different from traditional models that are trained with one-to-one image-label pairs, M2ORT accepts multiple pathology images of different magnifications at a time to jointly predict the gene expressions at their corresponding common ST spot, aiming at learning a many-to-one relationship through training. We have tested M2ORT on three public ST datasets and the experimental results show that M2ORT can achieve state-of-the-art performance with fewer parameters and floating-point operations (FLOPs). The code is available at: https://github.com/Dootmaan/M2ORT/. | 翻訳日:2024-01-22 16:21:43 公開日:2024-01-19 |
# ZnTrack -- コードとしてのデータ ZnTrack -- Data as Code ( http://arxiv.org/abs/2401.10603v1 ) ライセンス: Link先を確認 | Fabian Zills, Moritz Sch\"afer, Samuel Tovey, Johannes K\"astner and Christian Holm | (参考訳) 過去10年間、計算の飛躍的なブレークスルーを経験しており、これがすぐに遅くなる兆候はない。
機械学習、大規模コンピューティングリソース、産業への注目が高まり、データ管理、シミュレーション、モデル生成のためのコンピュータ駆動ソリューションへの投資が増加した。
しかし、この計算の増大により、データの拡張はさらに大きくなり、データストレージ、共有、追跡の複雑さが増している。
この作業では、Python駆動のデータバージョニングツールであるZnTrackを紹介します。
zntrackは確立されたバージョン管理システム上に構築されており、実験におけるパラメータの追跡、ワークフローの設計、データの保存と共有のためのユーザフレンドリーで使いやすいインターフェースを提供する。
この大きなデータセットを単純なpythonスクリプトに還元する能力から、データ・アズ・コード(data as code)という概念が生まれました。
ZnTrackはオープンソースでFAIRデータ互換のPythonパッケージを提供する。 The past decade has seen tremendous breakthroughs in computation and there is no indication that this will slow any time soon. Machine learning, large-scale computing resources, and increased industry focus have resulted in rising investments in computer-driven solutions for data management, simulations, and model generation. However, with this growth in computation has come an even larger expansion of data and with it, complexity in data storage, sharing, and tracking. In this work, we introduce ZnTrack, a Python-driven data versioning tool. ZnTrack builds upon established version control systems to provide a user-friendly and easy-to-use interface for tracking parameters in experiments, designing workflows, and storing and sharing data. From this ability to reduce large datasets to a simple Python script emerges the concept of Data as Code, a core component of the work presented here and an undoubtedly important concept as the age of computation continues to evolve. ZnTrack offers an open-source, FAIR data compatible Python package to enable users to harness these concepts of the future. | 翻訳日:2024-01-22 16:21:20 公開日:2024-01-19 |
# フラクショナル・コンフォーマルマップ, クビットダイナミクスおよびレゲット・ガーグ不等式 Fractional Conformal Map, Qubit Dynamics and the Leggett-Garg Inequality ( http://arxiv.org/abs/2401.10602v1 ) ライセンス: Link先を確認 | Sourav Paul, Anant Vijay Varma, Sourin Das | (参考訳) キュービットの任意の純粋な状態は、立体射影を通して拡張複素平面上の点として幾何学的に表すことができる。
拡張複素平面上の連続な共形写像を利用することで、キュービットの純粋状態の効率的な離散時間発展を生成することができる。
この研究は分数線型共形写像として知られる解析写像の部分集合に焦点を当てる。
これらのマップは、様々な量子にインスパイアされた知覚可能力学の統一フレームワークとして機能することを示す。
(i)ユニタリダイナミクス(unitary dynamics)
(ii)非単体だが線形力学
(iii) 線型性(非線形性)がヒルベルト空間上の離散時間発展作用素の作用を指す非ユニタリかつ非線形力学。
本稿では,非符号化時間 (NSIT) とアロー・オブ・タイム (AoT) 条件を補完するレゲット・ガルグの不等式の観点から,これらのマップの特性について述べる。 Any pure state of a qubit can be geometrically represented as a point on the extended complex plane through stereographic projection. By employing successive conformal maps on the extended complex plane, we can generate an effective discrete-time evolution of the pure states of the qubit. This work focuses on a subset of analytic maps known as fractional linear conformal maps. We show that these maps serve as a unifying framework for a diverse range of quantum-inspired conceivable dynamics, including (i) unitary dynamics,(ii) non-unitary but linear dynamics and (iii) non-unitary and non-linear dynamics where linearity (non-linearity) refers to the action of the discrete time evolution operator on the Hilbert space. We provide a characterization of these maps in terms of Leggett-Garg Inequality complemented with No-signaling in Time (NSIT) and Arrow of Time (AoT) conditions. | 翻訳日:2024-01-22 16:21:03 公開日:2024-01-19 |
# バランス強化による逆ロバスト符号付きグラフコントラスト学習 Adversarially Robust Signed Graph Contrastive Learning from Balance Augmentation ( http://arxiv.org/abs/2401.10590v1 ) ライセンス: Link先を確認 | Jialong Zhou, Xing Ai, Yuni Lai, Kai Zhou | (参考訳) 符号付きグラフはエッジとサインで構成されており、それぞれ構造情報とバランス関連情報に分けられる。
既存のグラフニューラルネットワーク(SGNN)は通常、埋め込みを生成するためにバランス関連の情報に依存する。
しかし、近年の敵対的攻撃の出現は、バランス関連の情報に有害な影響を及ぼした。
構造学習が無符号グラフを復元する方法と同様に、有毒グラフのバランス度を改善することにより、符号付きグラフにバランス学習を適用することができる。
しかし、このアプローチは「バランス関連情報の非可逆性」という課題に遭遇する - バランス度が向上する一方で、元の攻撃の影響を受けるエッジは復元されていない可能性があり、防御効果が低下する。
この課題に対処するために、グラフコントラスト学習の原則とバランス強化技術を組み合わせたバランス強化グラフコントラスト学習(BA-SGCL)と呼ばれる堅牢なSGNNフレームワークを提案する。
実験結果から,BA-SGCLは既存の敵攻撃に対する堅牢性を向上するだけでなく,各種データセット間のリンクサイン予測タスクの性能も向上することが示された。 Signed graphs consist of edges and signs, which can be separated into structural information and balance-related information, respectively. Existing signed graph neural networks (SGNNs) typically rely on balance-related information to generate embeddings. Nevertheless, the emergence of recent adversarial attacks has had a detrimental impact on the balance-related information. Similar to how structure learning can restore unsigned graphs, balance learning can be applied to signed graphs by improving the balance degree of the poisoned graph. However, this approach encounters the challenge "Irreversibility of Balance-related Information" - while the balance degree improves, the restored edges may not be the ones originally affected by attacks, resulting in poor defense effectiveness. To address this challenge, we propose a robust SGNN framework called Balance Augmented-Signed Graph Contrastive Learning (BA-SGCL), which combines Graph Contrastive Learning principles with balance augmentation techniques. Experimental results demonstrate that BA-SGCL not only enhances robustness against existing adversarial attacks but also achieves superior performance on link sign prediction task across various datasets. | 翻訳日:2024-01-22 16:20:48 公開日:2024-01-19 |
# MaxSAT局所探索問題におけるソフトコンフリクト擬似ブール制約の再考 Rethinking the Soft Conflict Pseudo Boolean Constraint on MaxSAT Local Search Solvers ( http://arxiv.org/abs/2401.10589v1 ) ライセンス: Link先を確認 | Jiongzhi Zheng and Zhuo Chen and Chu-Min Li and Kun He | (参考訳) MaxSATは有名なNP完全満足度問題(SAT)の最適化版である。
MaxSATのアルゴリズムは主に完全解法と局所探索不完全解法を含む。
多くの完全解法において、より良い解が見つかると、より良い解を求めるアルゴリズムを強制するために、ソフトコンフリクト Pseudo Boolean (SPB) 制約が生成される。
多くの局所探索アルゴリズムにおいて、節重み付けは探索方向を効果的に導く重要な手法である。
本稿では,SPB制約を局所探索法の節重み付けシステムに転送し,アルゴリズムをより良い解へと導くことを提案する。
さらに,定値を用いて節重みを調整するという伝統を破る適応的節重み付け戦略を提案する。
上記の手法に基づいて,maxsat局所探索ソルバに対する節重み付けの新しい視点を提供する,spb-maxsatと呼ばれる新しい局所探索アルゴリズムを提案する。
広範な実験により,提案手法の性能が実証された。 MaxSAT is an optimization version of the famous NP-complete Satisfiability problem (SAT). Algorithms for MaxSAT mainly include complete solvers and local search incomplete solvers. In many complete solvers, once a better solution is found, a Soft conflict Pseudo Boolean (SPB) constraint will be generated to enforce the algorithm to find better solutions. In many local search algorithms, clause weighting is a key technique for effectively guiding the search directions. In this paper, we propose to transfer the SPB constraint into the clause weighting system of the local search method, leading the algorithm to better solutions. We further propose an adaptive clause weighting strategy that breaks the tradition of using constant values to adjust clause weights. Based on the above methods, we propose a new local search algorithm called SPB-MaxSAT that provides new perspectives for clause weighting on MaxSAT local search solvers. Extensive experiments demonstrate the excellent performance of the proposed methods. | 翻訳日:2024-01-22 16:20:30 公開日:2024-01-19 |
# DGL: テキストビデオ検索のための動的グローバルローカルプロンプトチューニング DGL: Dynamic Global-Local Prompt Tuning for Text-Video Retrieval ( http://arxiv.org/abs/2401.10588v1 ) ライセンス: Link先を確認 | Xiangpeng Yang, Linchao Zhu, Xiaohan Wang, Yi Yang | (参考訳) テキストビデオ検索は、テキストクエリーに最も関連性の高いビデオを見つけるための重要なマルチモーダルタスクである。
CLIPのような事前訓練されたモデルはこの分野において目覚ましい可能性を示しているが、モデルサイズの増加によるモデルを完全に微調整するコストの上昇が問題となっている。
この課題に対処するため、プロンプトチューニングが代替手段として登場した。
しかし,(1)視覚エンコーダはフレームレベルの特徴しかエンコードできず,グローバルレベルの汎用映像情報の抽出に失敗した。
(2) 視覚とテキストのエンコーダを分離したプロンプトに装備することは,視覚とテキストのモダリティギャップを緩和することはできなかった。
そこで本研究では,グローバルローカルビデオアテンションを用いたモーダル動的プロンプトチューニング手法であるDGLを提案する。
従来のプロンプトチューニング手法とは対照的に,ローカルレベルのテキストとフレームプロンプトを生成し,モーダル間インタラクションを促進する。
さらに,即時チューニングの観点から,グローバルな映像情報をキャプチャするグローバルローカルアテンション機構によるビデオモデリングを提案する。
大規模な実験により、パラメータが0.67%しかチューニングされていない場合、我々のクロスモーダルプロンプトチューニング戦略DGLは、MSR-VTT、VATEX、LSMDC、ActivityNetデータセットの完全な微調整手法に匹敵するか、あるいは同等であることがわかった。
コードはhttps://github.com/knightyxp/DGLで入手できる。 Text-video retrieval is a critical multi-modal task to find the most relevant video for a text query. Although pretrained models like CLIP have demonstrated impressive potential in this area, the rising cost of fully finetuning these models due to increasing model size continues to pose a problem. To address this challenge, prompt tuning has emerged as an alternative. However, existing works still face two problems when adapting pretrained image-text models to downstream video-text tasks: (1) The visual encoder could only encode frame-level features and failed to extract global-level general video information. (2) Equipping the visual and text encoder with separated prompts failed to mitigate the visual-text modality gap. To this end, we propose DGL, a cross-modal Dynamic prompt tuning method with Global-Local video attention. In contrast to previous prompt tuning methods, we employ the shared latent space to generate local-level text and frame prompts that encourage inter-modal interaction. Furthermore, we propose modeling video in a global-local attention mechanism to capture global video information from the perspective of prompt tuning. Extensive experiments reveal that when only 0.67% parameters are tuned, our cross-modal prompt tuning strategy DGL outperforms or is comparable to fully finetuning methods on MSR-VTT, VATEX, LSMDC, and ActivityNet datasets. Code will be available at https://github.com/knightyxp/DGL | 翻訳日:2024-01-22 16:20:14 公開日:2024-01-19 |
# PuriDefense: Black-box Query ベースの攻撃に対するランダム化ローカルインシシデント対策 PuriDefense: Randomized Local Implicit Adversarial Purification for Defending Black-box Query-based Attacks ( http://arxiv.org/abs/2401.10586v1 ) ライセンス: Link先を確認 | Ping Guo, Zhiyuan Yang, Xi Lin, Qingchuan Zhao, Qingfu Zhang | (参考訳) ブラックボックスクエリベースの攻撃は、ターゲットモデルのアーキテクチャやパラメータにアクセスすることなく、敵対的な例を生成することができるため、MLaaSシステムに対する重大な脅威となる。
敵の訓練、勾配マスキング、入力変換といった従来の防御機構は、かなりの計算コストを課すか、非敵の入力のテスト精度を損なう。
これらの課題に対処するため、低レベルの推論コストで軽量な浄化モデルのアンサンブルを用いて、ランダムなパッチワイド精製を利用する効率的な防御機構であるPuriDefenseを提案する。
これらのモデルは局所的な暗黙関数を利用して自然画像多様体を再構築する。
理論的分析から,このアプローチは,無作為性を純粋に取り入れることで,クエリベースの攻撃の収束を遅くすることが示唆された。
CIFAR-10 と ImageNet の大規模な実験により,提案手法の有効性が検証され,クエリベースの攻撃に対するロバスト性を著しく向上した。 Black-box query-based attacks constitute significant threats to Machine Learning as a Service (MLaaS) systems since they can generate adversarial examples without accessing the target model's architecture and parameters. Traditional defense mechanisms, such as adversarial training, gradient masking, and input transformations, either impose substantial computational costs or compromise the test accuracy of non-adversarial inputs. To address these challenges, we propose an efficient defense mechanism, PuriDefense, that employs random patch-wise purifications with an ensemble of lightweight purification models at a low level of inference cost. These models leverage the local implicit function and rebuild the natural image manifold. Our theoretical analysis suggests that this approach slows down the convergence of query-based attacks by incorporating randomness into purifications. Extensive experiments on CIFAR-10 and ImageNet validate the effectiveness of our proposed purifier-based defense mechanism, demonstrating significant improvements in robustness against query-based attacks. | 翻訳日:2024-01-22 16:19:46 公開日:2024-01-19 |
# リアルタイムQKD受信器を用いた乱流光チャネル上の古典的および連続的可変QKD信号の共伝搬 Co-propagation of Classical and Continuous-variable QKD Signals over a Turbulent Optical Channel with a Real-time QKD Receiver ( http://arxiv.org/abs/2401.10581v1 ) ライセンス: Link先を確認 | Jo\~ao dos Reis Fraz\~ao, Vincent van Vliet, Sjoerd van der Heide, Menno van den Hout, Kadir G\"um\"u\c{s}, Aaron Albores-Mej\'ia, Boris \v{S}kori\'c, and Chigo Okonkwo | (参考訳) 我々は3Tbit/sスループットと2.7Mbit/sシークレットキーレートを持つ乱流自由空間チャネル上での古典的および量子的信号の共伝播を実証する。
当社のリアルタイムgpuベース受信機は,異なる乱流条件下で初めて量子信号の完全性を評価した。 We demonstrate classical and quantum signal co-propagation over a turbulent free-space channel with 3 Tbit/s throughput and record 2.7 Mbit/s secret-key rate. Our real-time GPU-based receiver assessed quantum signal integrity under different turbulence scenarios for the first time. | 翻訳日:2024-01-22 16:19:26 公開日:2024-01-19 |
# PHOENIX: 直接参照最適化のためのオープンソースの言語適応 PHOENIX: Open-Source Language Adaption for Direct Preference Optimization ( http://arxiv.org/abs/2401.10580v1 ) ライセンス: Link先を確認 | Matthias Uhlig, Sigurd Schacht, Sudarshan Kamath Barkur | (参考訳) 近年,大規模言語モデルの重要性が高まり,様々な課題の解決に顕著な成果を上げている。
しかし、これらの成果にもかかわらず、大きな言語モデルの文脈では、多くの疑問が解決されていない。
推論のためのモデルの最適利用と望ましい仕様への結果のアライメントに加えて、他の言語へのモデルの移動は、まだ未開発の研究領域である。
Llama-2やZephyrといった最近のモデルの発表は、アーキテクチャの改善と人間のフィードバックの使用に関する新たな洞察を提供した。
しかし、これらの技法を他の言語に適用するための洞察は乏しい。
本稿では,最新の改良の上に構築し,ドイツ語への直接参照最適化(DPO)アプローチを適用する。
モデルはhttps://huggingface.co/DRXD1000/Phoenixで入手できる。 Large language models have gained immense importance in recent years and have demonstrated outstanding results in solving various tasks. However, despite these achievements, many questions remain unanswered in the context of large language models. Besides the optimal use of the models for inference and the alignment of the results to the desired specifications, the transfer of models to other languages is still an underdeveloped area of research. The recent publication of models such as Llama-2 and Zephyr has provided new insights into architectural improvements and the use of human feedback. However, insights into adapting these techniques to other languages remain scarce. In this paper, we build on latest improvements and apply the Direct Preference Optimization(DPO) approach to the German language. The model is available at https://huggingface.co/DRXD1000/Phoenix. | 翻訳日:2024-01-22 16:19:19 公開日:2024-01-19 |
# スプーキーペブリングを用いた古典空間と量子空間のトレードオフ Trade-offs between classical and quantum space using spooky pebbling ( http://arxiv.org/abs/2401.10579v1 ) ライセンス: Link先を確認 | Arend-Jan Quist and Alfons Laarman | (参考訳) pebble gamesは、空間/時間のトレードオフを研究するために使われる。
近年,量子コンピュータ上での古典回路シミュレーションのための古典空間/量子空間/時間トレードオフを研究するために,スポーキーな小石ゲームが導入された。
本稿では,一般的な回路に対して,スポーキーな小石ゲームフレームワークを初めて適用する。
このフレームワークを使って、スプーキーなpebbleゲームで量子空間の上限を証明します。
我々はまた、スプーキーなpebbleゲームの解決がpspace完全であることを証明する。
さらに,ヒューリスティック解法と組み合わせた満足度に基づく,スプーキーpebbleゲームのための解法を提案する。
最適古典空間 / 量子空間 / 時間トレードオフを計算し, 経験的評価を行った。
制限されたランタイム内では、古典的な空間を考慮すると量子空間を減らす戦略を見つけることができ、スポーキー小石モデルが量子空間を減らすのに有用であることを示す。 Pebble games are used to study space/time trade-offs. Recently, spooky pebble games were introduced to study classical space / quantum space / time trade-offs for simulation of classical circuits on quantum computers. In this paper, the spooky pebble game framework is applied for the first time to general circuits. Using this framework we prove an upper bound for quantum space in the spooky pebble game. We also prove that solving the spooky pebble game is PSPACE-complete. Moreover, we present a solver for the spooky pebble game based on satisfiability combined with heuristic solvers. This spooky pebble game solver was empirically evaluated by calculating optimal classical space / quantum space / time trade-offs. Within limited runtime, the solver could find a strategy reducing quantum space when classical space is taken into account, showing that the spooky pebble model is useful to reduce quantum space. | 翻訳日:2024-01-22 16:19:09 公開日:2024-01-19 |
# 見えないカテゴリの3次元形状補完:弱教師付きアプローチ 3D Shape Completion on Unseen Categories:A Weakly-supervised Approach ( http://arxiv.org/abs/2401.10578v1 ) ライセンス: Link先を確認 | Lintai Wu, Junhui Hou, Linqi Song, and Yong Xu | (参考訳) スキャン装置が捉えた3d形状は、しばしば閉塞のために不完全である。
この限界に対処するために3次元形状補完法が検討されている。
しかし、これらの手法のほとんどは、カテゴリのサブセット上でのみ訓練され、テストされ、その結果、見当たらないカテゴリへの一般化が不十分になる。
本稿では,未知のカテゴリから完全形状を再構築する新しい弱教師付き枠組みを提案する。
まず,既往のカテゴリからのデータを活用して粗い形状を推定する,エンドツーエンドの事前支援型形状学習ネットワークを提案する。
具体的には,出現するカテゴリの代表的な形状からなる先行バンクを構築する。
そして,入力内の局所パターンと先行パターンの相関関係を様々なスケールで解析することにより,入力の完全な形状を学習する多スケールパターン相関モジュールを設計する。
さらに, 粗い形状をさらに洗練するための自己教師あり形状改善モデルを提案する。
カテゴリごとの3次元物体の形状変化を考慮し, 形状改善を容易にするために, カテゴリ固有の先行バンクを構築する。
次に, ボクセルによる部分的マッチング損失を考案し, 部分的スキャンを活用し, 精製過程を推し進める。
広範な実験結果から,我々のアプローチは最先端の手法よりも大きなマージンで優れていることがわかった。 3D shapes captured by scanning devices are often incomplete due to occlusion. 3D shape completion methods have been explored to tackle this limitation. However, most of these methods are only trained and tested on a subset of categories, resulting in poor generalization to unseen categories. In this paper, we introduce a novel weakly-supervised framework to reconstruct the complete shapes from unseen categories. We first propose an end-to-end prior-assisted shape learning network that leverages data from the seen categories to infer a coarse shape. Specifically, we construct a prior bank consisting of representative shapes from the seen categories. Then, we design a multi-scale pattern correlation module for learning the complete shape of the input by analyzing the correlation between local patterns within the input and the priors at various scales. In addition, we propose a self-supervised shape refinement model to further refine the coarse shape. Considering the shape variability of 3D objects across categories, we construct a category-specific prior bank to facilitate shape refinement. Then, we devise a voxel-based partial matching loss and leverage the partial scans to drive the refinement process. Extensive experimental results show that our approach is superior to state-of-the-art methods by a large margin. | 翻訳日:2024-01-22 16:18:55 公開日:2024-01-19 |
# CivRealm: 意思決定エージェントの文明化における学習と推論 CivRealm: A Learning and Reasoning Odyssey in Civilization for Decision-Making Agents ( http://arxiv.org/abs/2401.10568v1 ) ライセンス: Link先を確認 | Siyuan Qi, Shuo Chen, Yexin Li, Xiangyu Kong, Junqi Wang, Bangcheng Yang, Pring Wong, Yifan Zhong, Xiaoyuan Zhang, Zhaowei Zhang, Nian Liu, Wei Wang, Yaodong Yang, Song-Chun Zhu | (参考訳) 意思決定エージェントの一般化は、過去の経験から学ぶことと、新しい文脈における推論という2つの基本的な要素を含んでいる。
しかし、ほとんどのインタラクティブな環境では、しばしば推論の複雑さを犠牲にして、学習に重点を置いている。
本稿では,文明ゲームに触発された環境であるCivRealmを紹介する。
文明と人類の歴史と社会との深い連携は高度な学習を必要とし、その変化を続ける状況は、一般化を強く要求する。
特に、CivRealmはプレイヤー数の変化する不完全情報汎用ゲームを設置し、外交と交渉のスキルを必要とするオープンエンドの確率的環境に対処するようエージェントに挑戦する複雑な特徴を多数提示する。
CivRealm内では、学習に焦点を当てたテンソルベースのエージェントと推論を重視した言語ベースのエージェントの2つの典型的なエージェントタイプのインターフェースを提供する。
さらなる研究を促進するために,両パラダイムの初期結果を示す。
標準的RLベースのエージェントはミニゲームにおいて合理的なパフォーマンスを示すが、RLベースのエージェントとLLMベースのエージェントはゲーム全体においてかなりの進歩を遂げることができない。
全体として、CivRealmは意思決定エージェントにとってユニークな学習と推論の課題である。
コードはhttps://github.com/bigai-ai/civrealmで入手できる。 The generalization of decision-making agents encompasses two fundamental elements: learning from past experiences and reasoning in novel contexts. However, the predominant emphasis in most interactive environments is on learning, often at the expense of complexity in reasoning. In this paper, we introduce CivRealm, an environment inspired by the Civilization game. Civilization's profound alignment with human history and society necessitates sophisticated learning, while its ever-changing situations demand strong reasoning to generalize. Particularly, CivRealm sets up an imperfect-information general-sum game with a changing number of players; it presents a plethora of complex features, challenging the agent to deal with open-ended stochastic environments that require diplomacy and negotiation skills. Within CivRealm, we provide interfaces for two typical agent types: tensor-based agents that focus on learning, and language-based agents that emphasize reasoning. To catalyze further research, we present initial results for both paradigms. The canonical RL-based agents exhibit reasonable performance in mini-games, whereas both RL- and LLM-based agents struggle to make substantial progress in the full game. Overall, CivRealm stands as a unique learning and reasoning challenge for decision-making agents. The code is available at https://github.com/bigai-ai/civrealm. | 翻訳日:2024-01-22 16:18:35 公開日:2024-01-19 |
# データ-テキスト生成における自己記憶からの自己学習 Self-training from Self-memory in Data-to-text Generation ( http://arxiv.org/abs/2401.10567v1 ) ライセンス: Link先を確認 | Hoang-Thang Ta | (参考訳) 本稿では,data-to-text generation(dtg)における自己メモリ(stsm)からの自己学習という新しい学習モデルを提案する。
データ・トゥ・テキスト(D2T)とテキスト・トゥ・データ(T2D)の2つのモデルにより,(1)D2Tモデルの出力における全てのソース値の出現,(2)T2Dモデルの出力におけるソースデータへの変換能力の2つの事前定義された条件によって,自己記憶の品質が検証される。
我々は、すべてのソース値を含む場合、greedyアルゴリズムを用いてより短いD2T出力を生成する。
次に、T2Dモデルを用いて、テキストをデータに変換する能力を示すことで、これらの出力が入力関係をキャプチャできることを確認する。
データセットの30%で、D2Tモデルを同じセットアップでの完全なトレーニングと比較して、競争力のあるパフォーマンスでトレーニングできます。
我々は,E2E NLGとDARTという2つのデータセットを用いて実験を行った。
STSMはD2Tモデルに、トレーニングデータ量を削減しつつ、サブセットメモリからの一般化機能を提供する。
最終的には,dtgタスクに自己記憶型として組み込むことにより,新たなトレーニングデータに適応する継続的学習ソリューションに寄与することを期待した。
キュレートされたデータセットは、https://github.com/hoangthangta/stsmで公開されている。 This paper introduces a novel training model, self-training from self-memory (STSM) in data-to-text generation (DTG), allowing the model to self-train on subsets, including self-memory as outputs inferred directly from the trained models and/or the new data. The quality of self-memory is validated by two models, data-to-text (D2T) and text-to-data (T2D), by two pre-defined conditions: (1) the appearance of all source values in the outputs of the D2T model and (2) the ability to convert back to source data in the outputs in the T2D model. We utilize a greedy algorithm to generate shorter D2T outputs if they contain all source values. Subsequently, we use the T2D model to confirm that these outputs can capture input relationships by demonstrating their capacity to convert text back into data. With 30% of the dataset, we can train the D2T model with a competitive performance compared to full training in the same setup. We experiment with our model on two datasets, E2E NLG and DART. STSM offers the D2T model a generalization capability from its subset memory while reducing training data volume. Ultimately, we anticipate that this paper will contribute to continual learning solutions that adapt to new training data, incorporating it as a form of self-memory in DTG tasks. The curated dataset is publicly available at: https://github.com/hoangthangta/STSM. | 翻訳日:2024-01-22 16:18:13 公開日:2024-01-19 |
# 時間依存ロビン境界条件で制御される離散座標暗号・エルミタン量子系 Discrete-coordinate crypto-Hermitian quantum system controlled by time-dependent Robin boundary conditions ( http://arxiv.org/abs/2401.10682v1 ) ライセンス: Link先を確認 | Miloslav Znojil | (参考訳) 非エルミート的(あるいはより正確にはエルミート的)相互作用-ピクチャー表現で定式化されたユニタリ量子力学の非定常バージョンは、選択された基本$N$ by $N$ matrix Hamiltonian $H(t)$ で示される。
このモデルは解析的解法として$N=2$で表される。
これは、基礎となるハイゼンベルク方程式とschr\"{o}dinger発展方程式の両方に対して、生成子(つまり、我々の記法では、各作用素 $\sigma(t)$ と $g(t)$) が閉形式で利用可能になることを意味する。
鍵となるメッセージは、従来の信念に反して、システムの進化のユニタリティーにもかかわらず、その ``heisenbergian ``hamiltonian'' $\sigma(t)$ や ``schr\"{o}dingerian ``hamiltonian'' $g(t)$ は実スペクトルを持つ(あるいは複素固有値の共役対を含むスペクトルも含む)。 Non-stationary version of unitary quantum mechanics formulated in non-Hermitian (or, more precisely, in hiddenly Hermitian) interaction-picture representation is illustrated via a preselected elementary $N$ by $N$ matrix Hamiltonian $H(t)$ mimicking a 1D-box system with physics controlled by general time-dependent boundary conditions. The model is presented as analytically solvable at $N=2$. {\it Expressis verbis} this means that for both of the underlying Heisenberg and Schr\"{o}dinger evolution equations the generators (i.e., in our notation, the respective operators $\Sigma(t)$ and $G(t)$) become available in closed form. The key message is that contrary to the conventional beliefs and in spite of the unitarity of the evolution of the system, neither its ``Heisenbergian ``Hamiltonian'' $\Sigma(t)$ nor its ``Schr\"{o}dingerian ``Hamiltonian'' $G(t)$ possesses a real spectrum (or even some spectrum containing the conjugate pairs of complex eigenvalues). | 翻訳日:2024-01-22 16:13:02 公開日:2024-01-19 |
# AutoChunk: メモリ効率の良いロングシーケンス推論のための自動アクティベーションチャンク AutoChunk: Automated Activation Chunk for Memory-Efficient Long Sequence Inference ( http://arxiv.org/abs/2401.10652v1 ) ライセンス: Link先を確認 | Xuanlei Zhao, Shenggan Cheng, Guangyang Lu, Jiarui Fang, Haotian Zhou, Bin Jia, Ziming Liu, Yang You | (参考訳) 大規模なディープラーニングモデルは、さまざまなアプリケーションで素晴らしいパフォーマンスを達成しています。
しかしながら、パラメータメモリやアクティベーションメモリなどの大きなメモリ要件は、実用的なサービスにとって大きな課題となっている。
既存の手法は主にパラメータメモリを扱うが、アクティベーションメモリの重要性は見過ごされている。
特に長い入力シーケンスでは、アクティベーションメモリはシーケンス長が増加するにつれて指数関数的に増加することが期待されている。
本手法では,チャンク戦略による長いシーケンス推論の活性化メモリを効率的に削減する自動適応型コンパイラシステムautochunkを提案する。
提案システムは,複数段階の最適化によりチャンクプランを生成する。
各段階で、チャンク検索パスは可能なチャンク候補をすべて探索し、チャンク選択パスは最適なチャンクを識別する。
実行時にAutoChunkはコード生成を使用してチャンク戦略を自動的に適用する。
実験の結果、AutoChunkは10%以内の速度損失を維持しながら80%以上のアクティベーションメモリを削減し、最大シーケンス長を3.2倍から11.7倍に拡張し、最先端の手法よりも大きなマージンで性能を向上できることが示された。 Large deep learning models have achieved impressive performance across a range of applications. However, their large memory requirements, including parameter memory and activation memory, have become a significant challenge for their practical serving. While existing methods mainly address parameter memory, the importance of activation memory has been overlooked. Especially for long input sequences, activation memory is expected to experience a significant exponential growth as the length of sequences increases. In this approach, we propose AutoChunk, an automatic and adaptive compiler system that efficiently reduces activation memory for long sequence inference by chunk strategies. The proposed system generates chunk plans by optimizing through multiple stages. In each stage, the chunk search pass explores all possible chunk candidates and the chunk selection pass identifies the optimal one. At runtime, AutoChunk employs code generation to automatically apply chunk strategies. The experiments demonstrate that AutoChunk can reduce over 80\% of activation memory while maintaining speed loss within 10%, extend max sequence length by 3.2x to 11.7x, and outperform state-of-the-art methods by a large margin. | 翻訳日:2024-01-22 16:12:33 公開日:2024-01-19 |
# 量子メモリのための低損失・コンパクト・ファイバー集積セル Low-loss, compact, fibre-integrated cell for quantum memories ( http://arxiv.org/abs/2401.10651v1 ) ライセンス: Link先を確認 | Cameron McGarry and Kerrianne Harrington and Daniel J. Goodwin and Charles Perek-Jennings and Tim A. Birks and Kristina Rusimova and Peter J. Mosley | (参考訳) 単一モードファイバ(SMF)と一体化した低損失,コンパクト,中空コアファイバ(HCF)セルを提案する。
このセルは原子蒸気で満たされ、フォトニック量子テクノロジーのコンポーネントとして使われ、量子メモリや光スイッチの用途に使われている。
SMF-HCF界面の損失を最小限に抑えるために, 反射防止コーティングと組み合わせた効率の良いモードマッチングを実現するため, 780nm波長での総挿入損失0.6(2)dBを実現する。
有限要素シミュレーションを必要とせずに効率的に行うことのできる,これらのインタフェースの数値モデリングも提案する。
サポートキャピラリー内のSMFに結合することでHCFコアをカプセル化し、耐久性を高め、既存のファイバープラットフォームへのシームレスな統合を容易にする。 We present a low-loss, compact, hollow core optical fibre (HCF) cell integrated with single mode fibre (SMF). The cell is designed to be filled with atomic vapour and used as a component in photonic quantum technologies, with applications in quantum memory and optical switching. We achieve a total insertion loss of 0.6(2) dB at 780 nm wavelength via graded index fibre to ensure efficient mode matching coupled with anti-reflection coatings to minimise loss at the SMF-HCF interfaces. We also present numerical modelling of these interfaces, which can be undertaken efficiently without the need for finite element simulation. We encapsulate the HCF core by coupling to the SMF inside a support capillary, enhancing durability and facilitating seamless integration into existing fibre platforms. | 翻訳日:2024-01-22 16:12:13 公開日:2024-01-19 |
# 大規模ユーザを対象とした静止情報を用いた地域モデリングとCOVID-19の影響分析 Area Modeling using Stay Information for Large-Scale Users and Analysis for Influence of COVID-19 ( http://arxiv.org/abs/2401.10648v1 ) ライセンス: Link先を確認 | Kazuyuki Shoji, Shunsuke Aoki, Takuro Yonezawa, Nobuo Kawaguchi | (参考訳) 都市の人々がどのように地域を利用するかを理解することは、マーケティングから都市計画まで、幅広い分野において貴重な情報となる。
地域利用は季節変化やパンデミックなど様々なイベントによって時間とともに変化する。
スマートフォンの普及以前、このデータはアンケートによって収集されていた。
しかし、これは結果とコストに関して持続的なアプローチではありません。
関心のポイント(POI)や地域間移動データを用いて,何らかの情報を持つ地域を特徴付ける地域モデリングに関する研究が数多く行われている。
しかし,POIは空間に静的に結びついているデータであり,地域間移動データは地域内の人々の行動を無視しているため,地域利用の変化を捉える上では,既存の手法では不十分である。
本稿では,Word2Vecにインスパイアされた新しいエリアモデリング手法であるArea2Vecを提案する。
本手法は,地域住民の滞在情報を用いて,その利用状況に基づいて地域を特徴付けることができるという発見に基づいている。
そして、モデリング結果において、ある領域における人々の行動の動的変化を反映する新しい手法である。
本研究では,地域の機能的分類によってArea2vecを検証した。
その結果,Area2Vecは一般領域分析に利用できることがわかった。
また,わが国の2地区における新型コロナウイルス(covid-19)による地域利用の変化についても調査した。
新型コロナウイルス(COVID-19)は、エンターテイメントエリアの訪問など不要な外出を控える可能性がある。 Understanding how people use area in a city can be a valuable information in a wide range of fields, from marketing to urban planning. Area usage is subject to change over time due to various events including seasonal shifts and pandemics. Before the spread of smartphones, this data had been collected through questionnaire survey. However, this is not a sustainable approach in terms of time to results and cost. There are many existing studies on area modeling, which characterize an area with some kind of information, using Point of Interest (POI) or inter-area movement data. However, since POI is data that is statically tied to space, and inter-area movement data ignores the behavior of people within an area, existing methods are not sufficient in terms of capturing area usage changes. In this paper, we propose a novel area modeling method named Area2Vec, inspired by Word2Vec, which models areas based on people's location data. This method is based on the discovery that it is possible to characterize an area based on its usage by using people's stay information in the area. And it is a novel method that can reflect the dynamically changing people's behavior in an area in the modeling results. We validated Area2vec by performing a functional classification of areas in a district of Japan. The results show that Area2Vec can be usable in general area analysis. We also investigated area usage changes due to COVID-19 in two districts in Japan. We could find that COVID-19 made people refrain from unnecessary going out, such as visiting entertainment areas. | 翻訳日:2024-01-22 16:12:00 公開日:2024-01-19 |
# 風を吹いて風を吹く:言語モデルの編集が与える影響 Sowing the Wind, Reaping the Whirlwind: The Impact of Editing Language Models ( http://arxiv.org/abs/2401.10647v1 ) ライセンス: Link先を確認 | Rima Hazra, Sayan Layek, Somnath Banerjee, Soujanya Poria | (参考訳) 急速に進歩する人工知能の分野では、red-teaming や jailbreaking large language models (llms) の概念が重要な研究分野として浮上している。
このアプローチは、これらのモデルの安全性と堅牢性の評価と強化において特に重要である。
本稿では,モデル編集による修正の複雑な結果について検討し,モデル精度の向上と倫理的整合性維持の複雑な関係を明らかにする。
正確な情報を注入することはモデルの信頼性に不可欠であるが、モデルの基礎的なフレームワークをパラドックス的に不安定化し、予測不可能で潜在的に安全でない振る舞いをもたらす。
さらに、この安全でない振る舞いを同一領域と横断領域の両方で調査するベンチマークデータセットNicheHazardQAを提案する。
私たちの研究のこの側面は、モデルの安全性指標やガードレールにどのように影響するかに光を当てています。
この結果から,対象の編集を体系的に適用し,結果のモデル行動を評価することにより,モデル編集がトピック再作業のコスト効率を高めるツールであることが示された。 In the rapidly advancing field of artificial intelligence, the concept of Red-Teaming or Jailbreaking large language models (LLMs) has emerged as a crucial area of study. This approach is especially significant in terms of assessing and enhancing the safety and robustness of these models. This paper investigates the intricate consequences of such modifications through model editing, uncovering a complex relationship between enhancing model accuracy and preserving its ethical integrity. Our in-depth analysis reveals a striking paradox: while injecting accurate information is crucial for model reliability, it can paradoxically destabilize the model's foundational framework, resulting in unpredictable and potentially unsafe behaviors. Additionally, we propose a benchmark dataset NicheHazardQA to investigate this unsafe behavior both within the same and cross topical domain. This aspect of our research sheds light on how the edits, impact the model's safety metrics and guardrails. Our findings show that model editing serves as a cost-effective tool for topical red-teaming by methodically applying targeted edits and evaluating the resultant model behavior | 翻訳日:2024-01-22 16:11:37 公開日:2024-01-19 |
# hwnに効率的なデータラベリングを付与する:クラスタ型フェデレーション半教師付き学習アプローチ Empowering HWNs with Efficient Data Labeling: A Clustered Federated Semi-Supervised Learning Approach ( http://arxiv.org/abs/2401.10646v1 ) ライセンス: Link先を確認 | Moqbel Hamood and Abdullatif Albaseer and Mohamed Abdallah and Ala Al-Fuqaha | (参考訳) CFL(Clustered Federated Multitask Learning)は、統計上の課題を克服するための効果的な戦略として、特に複数のユーザにわたって非独立的で同一の(非ID)データを扱う際に、注目されている。
しかし、cflに関する既存の研究の多くは、デバイスが正確な基底真理ラベルにアクセスできるという非現実的な前提の下で行われている。
この仮定は階層型ワイヤレスネットワーク(hwns)では特に問題となり、エッジネットワークには大量のラベルなしデータが含まれており、特に2層のモデルアグリゲーションを扱う場合、収束率が低下し処理時間が増加する。
これらの問題に対処するために,より現実的なHWNシナリオ用に設計された新しいフレームワークであるClustered Federated Semi-Supervised Learning (CFSL)を導入する。
提案手法では, 多様な環境から得られたデータであっても, ラベルのないデータに対して, 正確な擬似ラベルを生成することが可能な, 特殊なモデルが割り当てられる。
CFSLの有効性を検証し,最近の文献で強調されている手法と比較した。
数値計算の結果,CFSLはラベル付きデータとラベル付きデータの比率が異なる場合,評価精度,ラベル付け精度,ラベル付け遅延などの重要な指標を著しく改善すると同時に,無線エッジネットワークの非IID特性とユニークな特性を調節することを示した。 Clustered Federated Multitask Learning (CFL) has gained considerable attention as an effective strategy for overcoming statistical challenges, particularly when dealing with non independent and identically distributed (non IID) data across multiple users. However, much of the existing research on CFL operates under the unrealistic premise that devices have access to accurate ground truth labels. This assumption becomes especially problematic in hierarchical wireless networks (HWNs), where edge networks contain a large amount of unlabeled data, resulting in slower convergence rates and increased processing times, particularly when dealing with two layers of model aggregation. To address these issues, we introduce a novel framework, Clustered Federated Semi-Supervised Learning (CFSL), designed for more realistic HWN scenarios. Our approach leverages a best-performing specialized model algorithm, wherein each device is assigned a specialized model that is highly adept at generating accurate pseudo-labels for unlabeled data, even when the data stems from diverse environments. We validate the efficacy of CFSL through extensive experiments, comparing it with existing methods highlighted in recent literature. Our numerical results demonstrate that CFSL significantly improves upon key metrics such as testing accuracy, labeling accuracy, and labeling latency under varying proportions of labeled and unlabeled data while also accommodating the non-IID nature of the data and the unique characteristics of wireless edge networks. | 翻訳日:2024-01-22 16:11:18 公開日:2024-01-19 |
# ディープラーニングに基づく車両再識別に関する包括的調査 : モデル,データセット,課題 A Comprehensive Survey on Deep-Learning-based Vehicle Re-Identification: Models, Data Sets and Challenges ( http://arxiv.org/abs/2401.10643v1 ) ライセンス: Link先を確認 | Ali Amiri, Aydin Kaya and Ali Seydi Keceli | (参考訳) 車両再識別(ReID)は、様々な交通環境にまたがる分散カメラネットワークから収集された車両画像に関連付ける。
このタスクは、車中心技術の範囲内で最も重要な役割を担い、インテリジェントトランスポーテーションシステム(ITS)の展開とスマートシティイニシアチブの推進に重要な役割を果たしている。
ディープラーニングの急速な進歩は、近年の車両ReID技術の進化を著しく促進している。
そのため、車両再識別のための深層学習を中心とした総合的な方法論調査が必然的かつ不可避なものとなった。
本稿では,車載reidに適用する深層学習技術について詳細に検討する。
これらの手法の分類について概説し、教師なしのアプローチを包含し、これらのカテゴリ内の既存の研究を精査し、データセットと評価基準を導入し、今後の課題と潜在的研究の方向性を説明する。
この総合的な評価は、車両のReIDにおける深層学習の状況を調べ、将来の研究の基盤と出発点を確立する。
課題と新たなトレンドを強調し、ディープラーニングモデルを活用した車載ReIDの進歩と応用を促進することで、完全なリファレンスとして機能することを目指している。 Vehicle re-identification (ReID) endeavors to associate vehicle images collected from a distributed network of cameras spanning diverse traffic environments. This task assumes paramount importance within the spectrum of vehicle-centric technologies, playing a pivotal role in deploying Intelligent Transportation Systems (ITS) and advancing smart city initiatives. Rapid advancements in deep learning have significantly propelled the evolution of vehicle ReID technologies in recent years. Consequently, undertaking a comprehensive survey of methodologies centered on deep learning for vehicle re-identification has become imperative and inescapable. This paper extensively explores deep learning techniques applied to vehicle ReID. It outlines the categorization of these methods, encompassing supervised and unsupervised approaches, delves into existing research within these categories, introduces datasets and evaluation criteria, and delineates forthcoming challenges and potential research directions. This comprehensive assessment examines the landscape of deep learning in vehicle ReID and establishes a foundation and starting point for future works. It aims to serve as a complete reference by highlighting challenges and emerging trends, fostering advancements and applications in vehicle ReID utilizing deep learning models. | 翻訳日:2024-01-22 16:10:51 公開日:2024-01-19 |
# 大規模ラベル付きグラフの高速バタフライコアコミュニティ検索 Fast Butterfly-Core Community Search For Large Labeled Graphs ( http://arxiv.org/abs/2401.10642v1 ) ライセンス: Link先を確認 | JiaYi Du, Yinghao Wu, Wei Ai, Tao Meng, CanHao Xie, KeQin Li | (参考訳) Community Search (CS) は、グラフ内のクエリ頂点に対応する密接な相互接続されたサブグラフを特定することを目的としている。
しかし、既存の異種グラフベースのコミュニティ検索手法は、グループ間コミュニティを識別し、効率上の問題に悩まされるため、大きなグラフには適さない。
本稿では,ヘテロジニアスグラフのバタフライコア・コミュニティ(bcc)構造に基づく高速コミュニティ探索モデルを提案する。
ランダムウォーク・ウィズ・リスタート(RWR)アルゴリズムと蝶の学位は、コミュニティ内の頂点の重要性を包括的に評価し、リーダー頂点を迅速に更新し、グループ間の結合を維持する。
さらに,より効率的な頂点距離更新手法を考案し,頂点訪問の最小化と運用効率の向上を図る。
いくつかの実世界の時間グラフに関する大規模な実験は、この解の有効性と効率を実証している。 Community Search (CS) aims to identify densely interconnected subgraphs corresponding to query vertices within a graph. However, existing heterogeneous graph-based community search methods need help identifying cross-group communities and suffer from efficiency issues, making them unsuitable for large graphs. This paper presents a fast community search model based on the Butterfly-Core Community (BCC) structure for heterogeneous graphs. The Random Walk with Restart (RWR) algorithm and butterfly degree comprehensively evaluate the importance of vertices within communities, allowing leader vertices to be rapidly updated to maintain cross-group cohesion. Moreover, we devised a more efficient method for updating vertex distances, which minimizes vertex visits and enhances operational efficiency. Extensive experiments on several real-world temporal graphs demonstrate the effectiveness and efficiency of this solution. | 翻訳日:2024-01-22 16:10:30 公開日:2024-01-19 |
# 大方向グラフを用いたトラスに基づくコミュニティ検索のための効果的な指標 An Effective Index for Truss-based Community Search on Large Directed Graphs ( http://arxiv.org/abs/2401.10641v1 ) ライセンス: Link先を確認 | Wei Ai, CanHao Xie, Tao Meng, Yinghao Wu, KeQin Li | (参考訳) コミュニティ検索は、コミュニティのオンラインおよびパーソナライズされた発見を可能にするコミュニティ検出の派生であり、大規模な現実世界のネットワークで広範囲のアプリケーションを見つけてきた。
近年,非有向グラフに関する実質的な研究が行われているにもかかわらず,有向グラフ内のコミュニティ検索問題にもっと注目する必要がある。
最近提案されたD-トラスモデルにより,地域社会の質が向上した。
しかし、Dトラスをベースとした既存の作業では、最大Dトラスを取得するには計算資源が多すぎるため、大きなグラフ上で効率的なコミュニティ検索を行うことはできない。
この問題を解決するために、D-トラス接続と呼ばれる革新的なマージ関係を導入し、D-トラス内部のエッジの固有密度と凝集度を捉える。
この関係により、元のグラフのすべての辺を一連のD-トラス連結クラスに分割できる。
そして、D-トラス接続に基づく簡潔でコンパクトな指標 ConDTruss を構築する。
ConDTrussを用いることで、最大Dトラス検索の効率を大幅に改善し、理論的に最適なアプローチとなる。
提案手法の有効性を検証した大規模有向グラフ証明の実験的検討を行った。 Community search is a derivative of community detection that enables online and personalized discovery of communities and has found extensive applications in massive real-world networks. Recently, there needs to be more focus on the community search issue within directed graphs, even though substantial research has been carried out on undirected graphs. The recently proposed D-truss model has achieved good results in the quality of retrieved communities. However, existing D-truss-based work cannot perform efficient community searches on large graphs because it consumes too many computing resources to retrieve the maximal D-truss. To overcome this issue, we introduce an innovative merge relation known as D-truss-connected to capture the inherent density and cohesiveness of edges within D-truss. This relation allows us to partition all the edges in the original graph into a series of D-truss-connected classes. Then, we construct a concise and compact index, ConDTruss, based on D-truss-connected. Using ConDTruss, the efficiency of maximum D-truss retrieval will be greatly improved, making it a theoretically optimal approach. Experimental evaluations conducted on large directed graph certificate the effectiveness of our proposed method. | 翻訳日:2024-01-22 16:10:04 公開日:2024-01-19 |
# XAIの忠実度指標に関する総合的研究 A comprehensive study on fidelity metrics for XAI ( http://arxiv.org/abs/2401.10640v1 ) ライセンス: Link先を確認 | Miquel Mir\'o-Nicolau, Antoni Jaume-i-Cap\'o, Gabriel Moy\`a-Alcover | (参考訳) eXplainable Artificial Intelligence (XAI)システムの使用は、解決を必要とする一連の課題を導入している。
本稿では、フィールド内のオープンな質問であるXAIメソッドを正しく選択する方法に焦点を当てる。
この課題の本質的な難しさは、根底的な真実の欠如にある。
いくつかの著者が、異なるXAI手法の忠実度を近似する指標を提案している。
これらの指標には検証の欠如と不一致がある。
本研究では,よく知られた透過的モデル,すなわち決定木を用いて,忠実度メトリクスを検証する新しい手法を提案する。
このモデルにより、完璧に忠実な説明が得られました。
提案手法は,これらの指標に対する最初の客観的ベンチマークを構成し,既存の提案との比較を促進し,既存の手法を上回っている。
52,000枚の画像からなる公開データセットを用いて2つの異なる実験で既存の忠実度メトリクスを評価するためにベンチマークを適用した。
これらのデータセットの画像は、サイズが128×128ピクセルであり、トレーニングプロセスを単純化した合成データである。
すべての測定値が忠実さの欠如を示し、最高の値が完全な説明のために期待値から30%の偏差を示した。
実験の結果、現在の忠実度メトリクスは実際のシナリオで使えるほど信頼できないと結論づけました。
この発見から,検出された問題を回避するために,新たなメトリクスの開発が必要であると考え,これらの制限に対処するために,科学コミュニティにおけるベンチマークとしての提案の利用を推奨した。 The use of eXplainable Artificial Intelligence (XAI) systems has introduced a set of challenges that need resolution. Herein, we focus on how to correctly select an XAI method, an open questions within the field. The inherent difficulty of this task is due to the lack of a ground truth. Several authors have proposed metrics to approximate the fidelity of different XAI methods. These metrics lack verification and have concerning disagreements. In this study, we proposed a novel methodology to verify fidelity metrics, using a well-known transparent model, namely a decision tree. This model allowed us to obtain explanations with perfect fidelity. Our proposal constitutes the first objective benchmark for these metrics, facilitating a comparison of existing proposals, and surpassing existing methods. We applied our benchmark to assess the existing fidelity metrics in two different experiments, each using public datasets comprising 52,000 images. The images from these datasets had a size a 128 by 128 pixels and were synthetic data that simplified the training process. All metric values, indicated a lack of fidelity, with the best one showing a 30 \% deviation from the expected values for perfect explanation. Our experimentation led us to conclude that the current fidelity metrics are not reliable enough to be used in real scenarios. From this finding, we deemed it necessary to development new metrics, to avoid the detected problems, and we recommend the usage of our proposal as a benchmark within the scientific community to address these limitations. | 翻訳日:2024-01-22 16:09:31 公開日:2024-01-19 |
# 医用画像におけるUniversal Unsupervised Anomaly Detectionに向けて Towards Universal Unsupervised Anomaly Detection in Medical Imaging ( http://arxiv.org/abs/2401.10637v1 ) ライセンス: Link先を確認 | Cosmin I. Bercea and Benedikt Wiestler and Daniel Rueckert and Julia A. Schnabel | (参考訳) 医療画像データの複雑さの増大は、様々な病理を自動的に識別する高度な異常検出方法の必要性を浮き彫りにする。
現在の方法では、広い範囲の異常を捉えることが困難であり、しばしば脳スキャンで特定の病変タイプに制限される。
この課題に対処するため,我々は,より広い範囲の病理を検出可能な,現実的な擬似健康再構築を実現するために設計された, \textit{reversed auto-encoders (ra)"と呼ばれる新しい教師なしアプローチを導入する。
提案手法は, 脳のMRI, 小児手首X線, 胸部X線などの様々な画像モダリティにまたがって評価され, 既存の最先端法と比較して, 異常検出に優れた性能を示す。
医用画像の診断精度は,広範囲の未知の病態を同定することによって向上する可能性がある。
私たちのコードは、次のように公開されています。 The increasing complexity of medical imaging data underscores the need for advanced anomaly detection methods to automatically identify diverse pathologies. Current methods face challenges in capturing the broad spectrum of anomalies, often limiting their use to specific lesion types in brain scans. To address this challenge, we introduce a novel unsupervised approach, termed \textit{Reversed Auto-Encoders (RA)}, designed to create realistic pseudo-healthy reconstructions that enable the detection of a wider range of pathologies. We evaluate the proposed method across various imaging modalities, including magnetic resonance imaging (MRI) of the brain, pediatric wrist X-ray, and chest X-ray, and demonstrate superior performance in detecting anomalies compared to existing state-of-the-art methods. Our unsupervised anomaly detection approach may enhance diagnostic accuracy in medical imaging by identifying a broader range of unknown pathologies. Our code is publicly available at: \url{https://github.com/ci-ber/RA}. | 翻訳日:2024-01-22 16:08:52 公開日:2024-01-19 |
# catch the butterfly: spdxライセンスの条件と紛争を覗く Catch the Butterfly: Peeking into the Terms and Conflicts among SPDX Licenses ( http://arxiv.org/abs/2401.10636v1 ) ライセンス: Link先を確認 | Tao Liu, Chengwei Liu, Tianwei Liu, He Wang, Gaofei Wu, Yang Liu, Yuqing Zhang | (参考訳) ソフトウェア開発におけるサードパーティ製ライブラリ(TPL)の普及により、モダンなソフトウェアの開発が加速した。
しかし、この利便性には法的リスクが伴う。
開発者は必然的にTPLのライセンスを侵害し、法的問題を引き起こす可能性がある。
既存の研究では、ソフトウェアライセンスと潜在的な非互換性を調査してきたが、これらの研究は、しばしば限られたライセンスセットに焦点を当てたり、低品質のライセンスデータに依存する。
このギャップに対処するためには、開発者がソフトウェアライセンスの複雑な状況をナビゲートし、潜在的な法的落とし穴を回避し、ソフトウェア開発におけるライセンスコンプライアンスとコンプライアンスを管理するためのガイドソリューションを支援するために、幅広い主要なライセンスを含む高品質なライセンスデータセットが必要である。
この目的のために,我々は,用語の粒度に基づいて主流のソフトウェアライセンスを理解し,453のspdxライセンスの良質なデータセットを得るための最初の作業を行う。
具体的には、まず、各ライセンスの用語と態度を理解するために、主要なプラットフォームを微分分析する。
次に,既存の主流ライセンスを高品質でキャプチャしてラベル付けするための,標準化されたライセンス用語を提案する。
さらに、コピーレフト紛争を含み、453のSPDXライセンスのうち3つの主要なライセンス紛争を終わらせます。
これらに基づいて,ライセンスとライセンスの両方の観点から,懸念と脅威を明らかにするための2つの実証研究を行った。
ある研究では、spdxライセンス間の類似点、相違点、競合点を詳細に分析し、npmエコシステムにおけるライセンスの使用と競合を再検討し、以前の作業と異なる結論を引き出す。
我々の研究は洞察に富んだ知見を明らかにし、関連する分析データを開示し、さらなる研究の舞台となった。 The widespread adoption of third-party libraries (TPLs) in software development has accelerated the creation of modern software. However, this convenience comes with potential legal risks. Developers may inadvertently violate the licenses of TPLs, leading to legal issues. While existing studies have explored software licenses and potential incompatibilities, these studies often focus on a limited set of licenses or rely on low-quality license data, which may affect their conclusions. To address this gap, there is a need for a high-quality license dataset that encompasses a broad range of mainstream licenses to help developers navigate the complex landscape of software licenses, avoid potential legal pitfalls, and guide solutions for managing license compliance and compatibility in software development. To this end, we conduct the first work to understand the mainstream software licenses based on term granularity and obtain a high-quality dataset of 453 SPDX licenses with well-labeled terms and conflicts. Specifically, we first conduct a differential analysis of the mainstream platforms to understand the terms and attitudes of each license. Next, we propose a standardized set of license terms to capture and label existing mainstream licenses with high quality. Moreover, we include copyleft conflicts and conclude the three major types of license conflicts among the 453 SPDX licenses. Based on these, we carry out two empirical studies to reveal the concerns and threats from the perspectives of both licensors and licensees. One study provides an in-depth analysis of the similarities, differences, and conflicts among SPDX licenses, revisits the usage and conflicts of licenses in the NPM ecosystem, and draws conclusions that differ from previous work. Our studies reveal some insightful findings and disclose relevant analytical data, which set the stage for further research. | 翻訳日:2024-01-22 16:08:00 公開日:2024-01-19 |
# 部分既知の因果グラフに対する介入的公平性:制約付き最適化アプローチ Interventional Fairness on Partially Known Causal Graphs: A Constrained Optimization Approach ( http://arxiv.org/abs/2401.10632v1 ) ライセンス: Link先を確認 | Aoqi Zuo, Yiqing Li, Susan Wei, Mingming Gong | (参考訳) fair machine learningは、性別や人種といった繊細な属性に基づく個人やサブ人口に対する差別を防ぐことを目的としている。
近年、因果推論手法は、因果効果によって不公平さを測定するために、公正な機械学習でますます利用されてきた。
しかし、現在の手法では真の因果グラフが与えられたと仮定しており、現実のアプリケーションでは当てはまらないことが多い。
この制限に対処するために,本論文では,真因果グラフが部分的に知られている場合の介入の概念に基づく因果公平性を実現する枠組みを提案する。
提案手法は,部分指向非巡回グラフ(PDAG)を用いて,観測データとドメイン知識を組み合わせた因果DAGのクラスを用いて,公正な予測をモデル化することを含む。
PDAGは因果フェアネスを測定するために使用され、公正性と精度のバランスをとるために制約付き最適化問題を定式化する。
シミュレーションと実世界の両方のデータセットの結果から,本手法の有効性が示された。 Fair machine learning aims to prevent discrimination against individuals or sub-populations based on sensitive attributes such as gender and race. In recent years, causal inference methods have been increasingly used in fair machine learning to measure unfairness by causal effects. However, current methods assume that the true causal graph is given, which is often not true in real-world applications. To address this limitation, this paper proposes a framework for achieving causal fairness based on the notion of interventions when the true causal graph is partially known. The proposed approach involves modeling fair prediction using a Partially Directed Acyclic Graph (PDAG), specifically, a class of causal DAGs that can be learned from observational data combined with domain knowledge. The PDAG is used to measure causal fairness, and a constrained optimization problem is formulated to balance between fairness and accuracy. Results on both simulated and real-world datasets demonstrate the effectiveness of this method. | 翻訳日:2024-01-22 16:06:58 公開日:2024-01-19 |
# 光学的ツイーザにおけるアルカリ-地球原子の長寿命円環 Long-Lived Circular Rydberg Qubits of Alkaline-Earth Atoms in Optical Tweezers ( http://arxiv.org/abs/2401.10625v1 ) ライセンス: Link先を確認 | Christian H\"olzl, Aaron G\"otzelmann, Einius Pultinevicius, Moritz Wirth, Florian Meinert | (参考訳) rydberg原子の量子シミュレータとコンピュータにおけるコヒーレンス時間とゲートフィダリティは、rydberg状態の寿命によって基本的に制限される。
円のリドベルク状態は、最大角運動量のために減衰から効果的に保護できるため、この制限を桁違いに克服する非常に有望な候補である。
光トワイザーに閉じ込められたアルカリ-地球円形リドベルグ原子を初めて実現し,光学活性型イオンコアによる新規な制御可能性を示した。
具体的には、非常に高い n$ (n=79$) の円状状態 ($^{88}$sr) の生成を示す。
我々は室温で2.55msの寿命を計測し、空洞支援による黒体放射の抑制によって達成される。
近傍多様体の円状に符号化されたマイクロ波量子ビットのコヒーレント制御を示し、ラムゼーおよびスピンエコー分光法を用いてコヒーレンス時間を特徴付ける。
最後に、Sr$^+$コア偏光率を利用した円状状態ツイーザトラップを、量子ビット上のトラップ誘起光シフトの測定により定量化する。
我々の研究は、2価原子の円リドベルグ状態を持つ量子シミュレーションの経路を開き、光学活性核イオンに関連する創発的ツールボックスを利用する。 Coherence time and gate fidelities in Rydberg atom quantum simulators and computers are fundamentally limited by the Rydberg state lifetime. Circular Rydberg states are highly promising candidates to overcome this limitation by orders of magnitude, as they can be effectively protected from decay due to their maximum angular momentum. We report the first realization of alkaline-earth circular Rydberg atoms trapped in optical tweezers, which provide unique and novel control possibilities due to the optically active ionic core. Specifically, we demonstrate creation of very high-$n$ ($n=79$) circular states of $^{88}$Sr. We measure lifetimes as long as 2.55 ms at room temperature, which are achieved via cavity-assisted suppression of black-body radiation. We show coherent control of a microwave qubit encoded in circular states of nearby manifolds, and characterize the qubit coherence time via Ramsey and spin-echo spectroscopy. Finally, circular state tweezer trapping exploiting the Sr$^+$ core polarizability is quantified via measurements of the trap-induced light shift on the qubit. Our work opens routes for quantum simulations with circular Rydberg states of divalent atoms, exploiting the emergent toolbox associated with the optically active core ion. | 翻訳日:2024-01-22 16:06:41 公開日:2024-01-19 |
# 製造シミュレーションのための量子コンピューティング強化サービスエコシステム Quantum Computing Enhanced Service Ecosystem for Simulation in Manufacturing ( http://arxiv.org/abs/2401.10623v1 ) ライセンス: Link先を確認 | Wolfgang Maass, Ankit Agrawal, Alessandro Ciani, Sven Danz, Alejandro Delgadillo, Philipp Ganser, Pascal Kienast, Marco Kulig, Valentina K\"onig, Nil Rodellas-Gr\`acia, Rivan Rughubar, Stefan Schr\"oder, Marc Stautner, Hannah Stein, Tobias Stollenwerk, Daniel Zeuch, Frank K. Wilhelm | (参考訳) 量子コンピューティング (QC) と機械学習 (ML) は、量子支援ML (QML) に個別にあるいは組み合わせられ、計算が高速化、精度の向上、リソース削減といった大きな可能性を秘めている。
工学における数値シミュレーションの改善は、製造業に強い経済的影響を与える可能性を示唆している。
本稿では, ハードウェアからアルゴリズム, サービス層, 組織層に至るまで, さまざまなレイヤから構成される, 製造シミュレーションのための量子コンピューティングによるサービスエコシステムの枠組みを提案する。
さらに,QCとQMLに基づくアプリケーション研究の現状について,科学的・産業的な観点から考察する。
我々は,これらの新しい計算パラダイムの定量的評価を目的とし,これら2つの高価値なユースケースをさらに分析する。 Quantum computing (QC) and machine learning (ML), taken individually or combined into quantum-assisted ML (QML), are ascending computing paradigms whose calculations come with huge potential for speedup, increase in precision, and resource reductions. Likely improvements for numerical simulations in engineering imply the possibility of a strong economic impact on the manufacturing industry. In this project report, we propose a framework for a quantum computing-enhanced service ecosystem for simulation in manufacturing, consisting of various layers ranging from hardware to algorithms to service and organizational layers. In addition, we give insight into the current state of the art of applications research based on QC and QML, both from a scientific and an industrial point of view. We further analyse two high-value use cases with the aim of a quantitative evaluation of these new computing paradigms for industrially-relevant settings. | 翻訳日:2024-01-22 16:06:21 公開日:2024-01-19 |
# ビデオ質問応答のための大規模マルチモーダルモデルによる弱教師付きガウスコントラストグラウンド Weakly Supervised Gaussian Contrastive Grounding with Large Multimodal Models for Video Question Answering ( http://arxiv.org/abs/2401.10711v1 ) ライセンス: Link先を確認 | Haibo Wang, Chenghang Lai, Yixuan Sun, Weifeng Ge | (参考訳) Video Question Answering (VideoQA)は、ビデオで見られる情報に基づいて自然言語の質問に答えることを目的としている。
画像言語理解と推論におけるLMM(Large Multimodal Models)の成功にもかかわらず、ビデオQAは、一様にサンプリングされたフレームを視覚入力として扱うだけでは不十分である。
さらに、既存のVideoQAデータセットには、質問クリティカルなタイムスタンプに対する人間のアノテーションはありません。
そこで本研究では,視覚的入力として質問クリティカルモーメントによる回答を推論するために,LMMを強制する,弱い教師付きフレームワークを提案する。
具体的には、質問と回答のペアをイベント記述として融合して、複数のキーフレームをターゲットモーメントとして見つける。
これらの擬似ラベルを弱監督として,軽量なガウス型コントラストグラウンド(GCG)モジュールを考案した。
GCGはビデオの時間構造を特徴付けるために複数のガウス関数を学習し、LMMの視覚的入力である正のモーメントとして質問クリティカルフレームをサンプリングする。
いくつかのビデオQAベンチマークにおいて、我々のフレームワークの有効性を検証し、従来の最先端手法と比較して大幅に改善した。 Video Question Answering (VideoQA) aims to answer natural language questions based on the information observed in videos. Despite the recent success of Large Multimodal Models (LMMs) in image-language understanding and reasoning, they deal with VideoQA insufficiently by simply taking uniformly sampled frames as visual inputs, which ignores question-relevant visual clues. Moreover, there are no human annotations for question-critical timestamps in existing VideoQA datasets. In light of this, we propose a novel weakly supervised framework to enforce the LMMs to reason out the answers with question-critical moments as visual inputs. Specifically, we fuse the question and answer pairs as event descriptions to find multiple keyframes as target moments, which will be pseudo-labels. With these pseudo-labels as additionally weak supervision, we devise a lightweight Gaussian-based Contrastive Grounding (GCG) module. GCG learns multiple Gaussian functions to characterize the temporal structure of the video, and sample question-critical frames as positive moments to be the visual inputs of LMMs. Extensive experiments on several VideoQA benchmarks verify the effectiveness of our framework, and we achieve substantial improvements compared to previous state-of-the-art methods. | 翻訳日:2024-01-22 15:58:48 公開日:2024-01-19 |
# スパース二重降下を操作する Manipulating Sparse Double Descent ( http://arxiv.org/abs/2401.10686v1 ) ライセンス: Link先を確認 | Ya Shi Zhang | (参考訳) 本稿では,L1正則化と表現次元に着目し,二層ニューラルネットワークにおける二重降下現象について検討する。
スパース二重降下と呼ばれる別の二重降下現象を探索する。
この研究は、モデルの複雑さ、スパーシリティ、一般化の間の複雑な関係を強調し、より多様なモデルとデータセットに関するさらなる研究を提案する。
この結果は、ニューラルネットワークのトレーニングと最適化に関する深い理解に寄与する。 This paper investigates the double descent phenomenon in two-layer neural networks, focusing on the role of L1 regularization and representation dimensions. It explores an alternative double descent phenomenon, named sparse double descent. The study emphasizes the complex relationship between model complexity, sparsity, and generalization, and suggests further research into more diverse models and datasets. The findings contribute to a deeper understanding of neural network training and optimization. | 翻訳日:2024-01-22 15:58:26 公開日:2024-01-19 |
# ニューラル擬似補正による終端GPS位置推定に向けて Towards End-to-End GPS Localization with Neural Pseudorange Correction ( http://arxiv.org/abs/2401.10685v1 ) ライセンス: Link先を確認 | Xu Weng, KV Ling, Haochen Liu, Kun Cao | (参考訳) 擬似誤差はGPSにおける局所化不正確性の根本原因である。
従来のデータ駆動手法は、手作り中間ラベルを用いて擬似乱数エラーを退避し除去する。
それらと異なり, エンドツーエンドのgpsローカライズフレームワークであるe2e-prnetを提案し, gps受信状態の基底的真理に基づいて計算した最終タスク損失から直接ニューラルネットワークを訓練する。
学習可能なパラメータに対する損失の勾配は、微分可能な非線形最小二乗最適化器を通してPrNetに逆伝播する。
E2E-PrNetは最先端のエンドツーエンドGPSローカライゼーション手法よりも優れていることを示す。 Pseudorange errors are the root cause of localization inaccuracy in GPS. Previous data-driven methods regress and eliminate pseudorange errors using handcrafted intermediate labels. Unlike them, we propose an end-to-end GPS localization framework, E2E-PrNet, to train a neural network for pseudorange correction (PrNet) directly using the final task loss calculated with the ground truth of GPS receiver states. The gradients of the loss with respect to learnable parameters are backpropagated through a differentiable nonlinear least squares optimizer to PrNet. The feasibility is verified with GPS data collected by Android phones, showing that E2E-PrNet outperforms the state-of-the-art end-to-end GPS localization methods. | 翻訳日:2024-01-22 15:58:19 公開日:2024-01-19 |
# QuantumReservoirPy: 時系列予測のためのソフトウェアパッケージ QuantumReservoirPy: A Software Package for Time Series Prediction ( http://arxiv.org/abs/2401.10683v1 ) ライセンス: Link先を確認 | Stanley Miao, Ola Tangen Kulseng, Alexander Stasik, Franz G. Fuchs | (参考訳) 近年、量子貯水池計算が時系列予測の潜在的資源として浮上している。
したがって、非線形力学系として量子回路をテストする柔軟なフレームワークが必要である。
我々は、量子リザーバが共通の構造に適合するソフトウェアパッケージを開発した。これは「(古典的な)リザーバコンピューティングアーキテクチャを容易に定義、訓練、使用するために設計されたpythonツール」と宣伝されているreservaverpyに似ている。
このパッケージは,量子貯留層アーキテクチャの比較のための簡易な開発と論理手法をもたらす。
ソフトウェアパッケージを使用した量子貯水池計算の実行の単純さを示すための例が提供されている。 In recent times, quantum reservoir computing has emerged as a potential resource for time series prediction. Hence, there is a need for a flexible framework to test quantum circuits as nonlinear dynamical systems. We have developed a software package to allow for quantum reservoirs to fit a common structure, similar to that of reservoirpy which is advertised as "a python tool designed to easily define, train and use (classical) reservoir computing architectures". Our package results in simplified development and logical methods of comparison between quantum reservoir architectures. Examples are provided to demonstrate the resulting simplicity of executing quantum reservoir computing using our software package. | 翻訳日:2024-01-22 15:58:05 公開日:2024-01-19 |
# 単一アルカリ-地球原子における微細構造量子ビットのコヒーレント制御 Coherent Control of the Fine-Structure Qubit in a Single Alkaline-Earth Atom ( http://arxiv.org/abs/2401.10679v1 ) ライセンス: Link先を確認 | Govind Unnikrishnan, Philipp Ilzh\"ofer, Achim Scholz, Christian H\"olzl, Aaron G\"otzelmann, Ratnesh Kumar Gupta, Jiachen Zhao, Jennifer Krauter, Sebastian Weber, Nastasia Makki, Hans Peter B\"uchler, Tilman Pfau, Florian Meinert | (参考訳) 準安定な微細構造状態である${3\rm{P}_0}$と${3\rm{P}_2}$の単一の$^{88}$Sr原子を光学的ツイーザに閉じ込めた新しい中性原子量子ビットを初めて実現したことを報告した。
キュービット状態のラマンカップリングは、高速なライドバーグ媒介の2体ゲートと同等の高速な単一量子ビット回転を約束する。
我々は,キュービットの生成,読み出し,コヒーレント制御を実証する。
一対の位相同期クロックレーザーを用いて17 THz以上のエネルギーギャップをブリッジするRabi発振を駆動するのに加えて、ラムゼー分光を行い、逆量子ビットコヒーレンス時間$T_2$を抽出する。
外部制御磁場を介して{^3\rm{p}_2}$状態のテンソル偏光性をチューニングすることにより、tweezerをマジックトラップ条件に調整すると、$t_2 = 1.2$ms を測定できる。
観測されたコヒーレンス時間を制限する主な制約と、システムに対する近い将来のプロジェクト改善を特定します。
我々の研究は、中性原子ベースの量子コンピューティングのための未探索の量子ビット符号化概念の扉を開く。 We report on the first realization of a novel neutral atom qubit encoded in the metastable fine-structure states ${^3\rm{P}_0}$ and ${^3\rm{P}_2}$ of single $^{88}$Sr atoms trapped in an optical tweezer. Raman coupling of the qubit states promises rapid single-qubit rotations on par with the fast Rydberg-mediated two-body gates. We demonstrate preparation, read-out, and coherent control of the qubit. In addition to driving Rabi oscillations bridging an energy gap of more than 17 THz using a pair of phase-locked clock lasers, we also carry out Ramsey spectroscopy to extract the transverse qubit coherence time $T_2$. When the tweezer is tuned into magic trapping conditions, which is achieved in our setup by tuning the tensor polarizability of the ${^3\rm{P}_2}$ state via an external control magnetic field, we measure $T_2 = 1.2$ ms. A microscopic quantum mechanical model is used to simulate our experiments including dominant noise sources. We identify the main constraints limiting the observed coherence time and project improvements to our system in the immediate future. Our work opens the door for a so far unexplored qubit encoding concept for neutral atom based quantum computing. | 翻訳日:2024-01-22 15:57:55 公開日:2024-01-19 |
# 葉状spt相の観測による多極性とフラクトン位相秩序 Multipole and fracton topological order via gauging foliated SPT phases ( http://arxiv.org/abs/2401.10677v1 ) ライセンス: Link先を確認 | Hiromi Ebisu, Masazumi Honda, Taiichi Nakanishi | (参考訳) 近年, フラクトントポロジカル相, 分数化準粒子を有する特異なトポロジカル相の発達により, 対称性の概念が再燃した。
特に、双極子や四重項モーメントや大域電荷のような多極子の保存に関連する多極対称性の進行に従って、そのような対称性を持つ位相位相相が提案されている。
これらのトポロジカル位相は、励起が多重極対称性に対応するモビリティ制約を受けるため、従来と異なる。
我々は、対称性保護位相(SPT)位相の層を作成し、大域対称性のゲージ化を実装することによって、そのような位相を構成する方法を示す。
ゲージング後、SPT相を横切ると分数励起の統計が変化し、多極対称性を持つ位相位相相が生じる。
位相を構成する方法によって、多極対称性や他のフラクトンモデルを持つ位相相の場理論を包括的に理解することができる。 Spurred by recent development of fracton topological phases, unusual topological phases possessing fractionalized quasi-particles with mobility constraints, the concept of symmetries has been renewed. In particular, in accordance with the progress of multipole symmetries, associated with conservation of multipoles, such as dipole or quadruple moments as well as global charges, there have been proposed topological phases with such symmetries. These topological phases are unconventional as excitations are subject to mobility constraints corresponding to the multipole symmetries. We demonstrate a way to construct such phases by preparing layers of symmetry protected topological (SPT) phases and implementing gauging a global symmetry. After gauging, the statistics of a fractional excitation is altered when crossing the SPT phases, resulting in topological phases with the multipole symmetries. The way we construct the phases allows us to have a comprehensive understanding of field theories of topological phases with the multipole symmetries and other fracton models. | 翻訳日:2024-01-22 15:57:30 公開日:2024-01-19 |
# 深層学習による自動車CANの組込み侵入検知システム Deep Learning-based Embedded Intrusion Detection System for Automotive CAN ( http://arxiv.org/abs/2401.10674v1 ) ライセンス: Link先を確認 | Shashwat Khandelwal, Eashan Wadhwa, Shreejith Shanker | (参考訳) 自動車内電子機器の複雑さの高まりは、自動運転やアクティブセーフティなどの新しい機能を可能にしている。
しかし、自動化の増大は、canのようなレガシーネットワークにおけるビルトインセキュリティ対策の欠如により、セキュリティの脅威のリスクを増大させ、攻撃者がそのようなブロードキャストネットワーク上で共有される情報を監視、改ざん、変更することができる。
このような脅威を検知し、対処するために、さまざまな侵入検出アプローチが提案されており、機械学習モデルは極めて効果的である。
しかしながら、マシンラーニングモデルをデプロイするには、行数に近い処理を行うために、ハイエンドプロセッサやGPUによる高処理能力が必要になる。
本稿では,深部CNN侵入検出モデルを実装した専用ハードウェアアクセラレータを通じて,IDS機能を透過的に統合可能なFPGAベースのハイブリッドECU手法を提案する。
提案手法は、複数の攻撃データセットに対して平均99%以上の精度を提供し、0.64%の誤検出率を持ち、94%のエネルギーを消費し、GPU上のIDS実装と比較して、メッセージ単位の処理遅延を51.8%削減する。 Rising complexity of in-vehicle electronics is enabling new capabilities like autonomous driving and active safety. However, rising automation also increases risk of security threats which is compounded by lack of in-built security measures in legacy networks like CAN, allowing attackers to observe, tamper and modify information shared over such broadcast networks. Various intrusion detection approaches have been proposed to detect and tackle such threats, with machine learning models proving highly effective. However, deploying machine learning models will require high processing power through high-end processors or GPUs to perform them close to line rate. In this paper, we propose a hybrid FPGA-based ECU approach that can transparently integrate IDS functionality through a dedicated off-the-shelf hardware accelerator that implements a deep-CNN intrusion detection model. Our results show that the proposed approach provides an average accuracy of over 99% across multiple attack datasets with 0.64% false detection rates while consuming 94% less energy and achieving 51.8% reduction in per-message processing latency when compared to IDS implementations on GPUs. | 翻訳日:2024-01-22 15:57:12 公開日:2024-01-19 |
# a room with a overview: 消費者のモノのインターネットにとって有意義な透明性を目指して A Room With an Overview: Towards Meaningful Transparency for the Consumer Internet of Things ( http://arxiv.org/abs/2401.10669v1 ) ライセンス: Link先を確認 | Chris Norval and Jatinder Singh | (参考訳) 物理的環境がますます接続され、計測され、自動化されるにつれて、ユーザがその内部で何が起きているのか、なぜなのかを理解するのがますます難しくなります。
IoTの広範かつ物理的性質により、データ誤用、プライバシー、監視、さらには物理的損害のリスクが生じる。
このような懸念は、監視と説明責任をサポートする手段として、技術(一般的には)の透明性向上を求める声が高まる中である。
本稿では,消費者IoTにおける透明性メカニズムの実践的側面について考察する。
つまり、スマートホームがより意味のある透明化を図り、ユーザーがより深く理解し、監視し、制御することを支援する。
ユーザー中心の3つの研究を通して
(i)スマートホーム利用者を対象に、スマートホームにおける意味のある透明性がどのような意味を持つかを総合的に把握するための調査
(二)2つの共同設計作業場を通じて作成されたユーザ要求及び設計要素(スマートホーム透明性を支援するための設計特徴)のカテゴリを特定し、
(iii)全く新しい参加者による評価を通して検証する。
全体として、これらの要件とインターフェースデザイン要素は、スマートホーム内でどのように有意義な透明性が達成されるかを理解するための基礎を提供する。 As our physical environments become ever-more connected, instrumented and automated, it can be increasingly difficult for users to understand what is happening within them and why. This warrants attention; with the pervasive and physical nature of the IoT comes risks of data misuse, privacy, surveillance, and even physical harm. Such concerns come amid increasing calls for more transparency surrounding technologies (in general), as a means for supporting scrutiny and accountability. This paper explores the practical dimensions to transparency mechanisms within the consumer IoT. That is, we consider how smart homes might be made more meaningfully transparent, so as to support users in gaining greater understanding, oversight, and control. Through a series of three user-centric studies, we (i) survey prospective smart home users to gain a general understanding of what meaningful transparency within smart homes might entail; (ii) identify categories of user-derived requirements and design elements (design features for supporting smart home transparency) that have been created through two co-design workshops; and (iii) validate these through an evaluation with an altogether new set of participants. In all, these categories of requirements and interface design elements provide a foundation for understanding how meaningful transparency might be achieved within smart homes, and introduces several wider considerations for doing so. | 翻訳日:2024-01-22 15:56:51 公開日:2024-01-19 |
# MixNet: 効果的で効率的なUHD低光画像強調を目指す MixNet: Towards Effective and Efficient UHD Low-Light Image Enhancement ( http://arxiv.org/abs/2401.10666v1 ) ライセンス: Link先を確認 | Chen Wu and Zhuoran Zheng and Xiuyi Jia and Wenqi Ren | (参考訳) 撮像装置の継続的な進歩に伴い、UHD(Ultra-High-Definition)画像の普及が進んでいる。
多くの画像復元手法は有望な結果を得たが、uhd画像の計算複雑性が本質的に高いため、計算資源の少ないデバイスでは直接uhd画像に適用できない。
本稿では,低照度画像強調(LLIE)の課題に焦点をあて,UHD画像に対して明示的に設計されたMixNetと呼ばれる新しいLLIE手法を提案する。
過剰な計算複雑性を伴わずに、機能の長距離依存性を捉えるために、Global Feature Modulation Layer (GFML)を提案する。
GFMLは、機能マップを置換することで、異なるビューの機能を関連付け、長距離依存性の効率的なモデリングを可能にする。
さらに、局所特徴変調層(LFML)とフィードフォワード層(FFL)を設計して、局所特徴をキャプチャし、特徴をコンパクトな表現に変換する。
これにより,モデルパラメータが少なく,計算量も少ない効率的なllieを実現する。
合成と実世界の両方のデータセットについて広範な実験を行い,提案手法が現在の最先端手法よりも優れていることを示す。
コードは \url{https://github.com/zzr-idam/MixNet} で入手できる。 With the continuous advancement of imaging devices, the prevalence of Ultra-High-Definition (UHD) images is rising. Although many image restoration methods have achieved promising results, they are not directly applicable to UHD images on devices with limited computational resources due to the inherently high computational complexity of UHD images. In this paper, we focus on the task of low-light image enhancement (LLIE) and propose a novel LLIE method called MixNet, which is designed explicitly for UHD images. To capture the long-range dependency of features without introducing excessive computational complexity, we present the Global Feature Modulation Layer (GFML). GFML associates features from different views by permuting the feature maps, enabling efficient modeling of long-range dependency. In addition, we also design the Local Feature Modulation Layer (LFML) and Feed-forward Layer (FFL) to capture local features and transform features into a compact representation. This way, our MixNet achieves effective LLIE with few model parameters and low computational complexity. We conducted extensive experiments on both synthetic and real-world datasets, and the comprehensive results demonstrate that our proposed method surpasses the performance of current state-of-the-art methods. The code will be available at \url{https://github.com/zzr-idam/MixNet}. | 翻訳日:2024-01-22 15:56:28 公開日:2024-01-19 |
# 連続ブリルアン活性固体系における音響的絡み合い Optoacoustic entanglement in a continuous Brillouin-active solid state system ( http://arxiv.org/abs/2401.10665v1 ) ライセンス: Link先を確認 | Changlong Zhu, Claudiu Genes, and Birgit Stiller | (参考訳) 光や力学など、基本的に異なる自由度からなるハイブリッド量子システムにおける絡み合いは、量子技術における幅広い応用の関心事である。
本稿では,ブリルアン活性固体系における進行音響フォノンとそれに伴う光波との2成分の絡み合いについて検討する。
この効果は、ブリルアンストークス過程を刺激する最先端の導波路に光ポンプパルスを適用することで達成される。
このパルス的アプローチは、標準のオプティメカルなセットアップに直交するシステムにおいて、熱ゆらぎに耐性のある、絡み合った光子-フォノン対を生成することができる。
本研究では,2ポンプ構成のストークス光子とアンチストークス光子の同時検出により,視音響エンタングルメントの読み出しを行う実験プラットフォームを提案する。
提案されたメカニズムは、フォノンモードの量子基底状態の初期生成を必要としないという重要な特徴を示す。 Entanglement in hybrid quantum systems comprised of fundamentally different degrees of freedom, such as light and mechanics is of interest for a wide range of applications in quantum technologies. Here, we propose to engineer bipartite entanglement between traveling acoustic phonons in a Brillouin active solid state system and the accompanying light wave. The effect is achieved by applying optical pump pulses to state-of-the-art waveguides, exciting a Brillouin Stokes process. This pulsed approach, in a system operating in a regime orthogonal to standard optomechanical setups, allows for the generation of entangled photon-phonon pairs, resilient to thermal fluctuations. We propose an experimental platform where readout of the optoacoustics entanglement is done by the simultaneous detection of Stokes and Anti-Stokes photons in a two-pump configuration. The proposed mechanism presents an important feature in that it does not require initial preparation of the quantum ground state of the phonon mode. | 翻訳日:2024-01-22 15:56:08 公開日:2024-01-19 |
# 単言語テキスト生成のための多言語言語モデル高速化のための簡易フレームワーク A Simple Framework to Accelerate Multilingual Language Model for Monolingual Text Generation ( http://arxiv.org/abs/2401.10660v1 ) ライセンス: Link先を確認 | Jimin Hong and Gibbeum Lee and Jaewoong Cho | (参考訳) 近年の大規模言語モデルの進歩により、英語だけでなく、英語以外の言語でも複雑な言語タスクの実行が容易になった。
しかしながら、英語中心のコーパスで訓練されたLlamaのようなほとんどの言語モデルのトークン化子は、非英語言語でトークンを過度に断片化する傾向がある。
この問題は、文字やUnicodeレベルで分割されることが多い非ローマ字アルファベット言語では特に顕著であり、テキスト生成が遅くなる。
そこで本研究では,これらの言語でテキスト生成を高速化する新しいフレームワークを提案する。
このフレームワークは、従来の多言語トークン化器よりも大きい言語単位を予測し、特にターゲット言語に適合し、デコードステップの数を削減している。
実験の結果,提案手法は単言語タスクにおける事前学習型多言語モデルの性能を維持しつつ,標準復号化よりも1.9倍の速度で生成速度を向上することが示された。 Recent advancements in large language models have facilitated the execution of complex language tasks, not only in English but also in non-English languages. However, the tokenizers of most language models, such as Llama, trained on English-centric corpora, tend to excessively fragment tokens in non-English languages. This issue is especially pronounced in non-roman alphabetic languages, which are often divided at a character or even Unicode level, leading to slower text generation. To address this, our study introduces a novel framework designed to expedite text generation in these languages. This framework predicts larger linguistic units than those of conventional multilingual tokenizers and is specifically tailored to the target language, thereby reducing the number of decoding steps required. Our empirical results demonstrate that the proposed framework increases the generation speed by a factor of 1.9 compared to standard decoding while maintaining the performance of a pre-trained multilingual model on monolingual tasks. | 翻訳日:2024-01-22 15:55:51 公開日:2024-01-19 |
# badodd:バングラデシュの自動運転オブジェクト検出データセット BadODD: Bangladeshi Autonomous Driving Object Detection Dataset ( http://arxiv.org/abs/2401.10659v1 ) ライセンス: Link先を確認 | Mirza Nihal Baig, Rony Hajong, Mahdi Murshed Patwary, Mohammad Shahidur Rahman, Husne Ara Chowdhury | (参考訳) バングラデシュの9地区にまたがる多様な運転環境における物体検出のための包括的データセットを提案する。
スマートフォンカメラからのみ収集されたデータセットは、昼と夜を含む現実のシナリオをリアルに表現する。
既存のデータセットの多くはバングラデシュの道路での自律ナビゲーションに適したクラスを欠いているため、研究者が道路シナリオの複雑さを扱えるモデルを開発するのは難しい。
この問題に対処するため,著者らは,車両名ではなく特徴に基づく新しいクラスを提案した。
このデータセットは、バングラデシュの道路シナリオのユニークな課題に対処できるモデルの開発を促進することを目的としている。
データセットは、自動運転車が直面する現実の状況をシミュレートするオンラインイメージで構成されていない。
バングラデシュの道路での車両の分類は、世界中の他の場所では見つからないものを含む様々な種類の車両の分類が困難である。
提案する分類システムはスケーラブルであり、将来の車両に対応できるため、自動運転車分野の研究者にとって貴重な資源となる。 We propose a comprehensive dataset for object detection in diverse driving environments across 9 districts in Bangladesh. The dataset, collected exclusively from smartphone cameras, provided a realistic representation of real-world scenarios, including day and night conditions. Most existing datasets lack suitable classes for autonomous navigation on Bangladeshi roads, making it challenging for researchers to develop models that can handle the intricacies of road scenarios. To address this issue, the authors proposed a new set of classes based on characteristics rather than local vehicle names. The dataset aims to encourage the development of models that can handle the unique challenges of Bangladeshi road scenarios for the effective deployment of autonomous vehicles. The dataset did not consist of any online images to simulate real-world conditions faced by autonomous vehicles. The classification of vehicles is challenging because of the diverse range of vehicles on Bangladeshi roads, including those not found elsewhere in the world. The proposed classification system is scalable and can accommodate future vehicles, making it a valuable resource for researchers in the autonomous vehicle sector. | 翻訳日:2024-01-22 15:55:34 公開日:2024-01-19 |
# fimba:adversarial attackによるゲノム学におけるaiのロバスト性の評価 FIMBA: Evaluating the Robustness of AI in Genomics via Feature Importance Adversarial Attacks ( http://arxiv.org/abs/2401.10657v1 ) ライセンス: Link先を確認 | Heorhii Skovorodnikov, Hoda Alkhzaimi | (参考訳) バイオテクノロジーの応用におけるAIの利用が着実に増加し、ゲノムシークエンシングが広く採用されるにつれ、AIベースのアルゴリズムとツールが研究と生産段階に入り、薬物発見や臨床結果といった重要な意思決定の流れに影響を与える。
本稿では、認識された公開ゲノムデータセット上の下流タスクを利用するAIモデルの脆弱性を実証する。
我々は、実際のデータを模倣しながら入力変換に焦点を当てた攻撃を展開し、モデル決定を混乱させ、最終的にモデル性能の顕著な劣化をもたらすことによって、モデルロバスト性を損なう。
さらに,変異型オートエンコーダモデルを用いて有毒なデータを生成することにより,我々のアプローチを強化する。
実験の結果, 精度が低下し, 偽陽性や偽陰性が増加し, モデル性能が低下していることが明らかとなった。
さらに,このような攻撃に対する対策として,スペクトル分析により分析結果が得られた。 With the steady rise of the use of AI in bio-technical applications and the widespread adoption of genomics sequencing, an increasing amount of AI-based algorithms and tools is entering the research and production stage affecting critical decision-making streams like drug discovery and clinical outcomes. This paper demonstrates the vulnerability of AI models often utilized downstream tasks on recognized public genomics datasets. We undermine model robustness by deploying an attack that focuses on input transformation while mimicking the real data and confusing the model decision-making, ultimately yielding a pronounced deterioration in model performance. Further, we enhance our approach by generating poisoned data using a variational autoencoder-based model. Our empirical findings unequivocally demonstrate a decline in model performance, underscored by diminished accuracy and an upswing in false positives and false negatives. Furthermore, we analyze the resulting adversarial samples via spectral analysis yielding conclusions for countermeasures against such attacks. | 翻訳日:2024-01-22 15:55:15 公開日:2024-01-19 |
# attentive fusion:マルチモーダルヘイトスピーチ検出のためのトランスフォーマティブベースアプローチ Attentive Fusion: A Transformer-based Approach to Multimodal Hate Speech Detection ( http://arxiv.org/abs/2401.10653v1 ) ライセンス: Link先を確認 | Atanu Mandal, Gargi Roy, Amit Barman, Indranil Dutta, Sudip Kumar Naskar | (参考訳) 近年のソーシャルメディア利用の急増と急激な成長により、ヘイトフルコンテンツの存在をソーシャルメディアのコンテンツを精査することが最も重要である。
過去10年間、研究者は憎しみを促進するコンテンツとそうでないコンテンツの区別に熱心に取り組んできた。
伝統的に、主な焦点はテキストコンテンツの分析だった。
しかし、音声ベースのコンテンツの同定にも近年の研究が始まっている。
それにもかかわらず、音声またはテキストベースのコンテンツのみに頼ることは効果がない可能性があることが研究によって示されている。
これらの課題を克服するために、音声とテキストの両方の表現を利用して、スピーチが憎悪を助長するか否かを特定するアプローチを提案する。
提案手法は,音声とテキストのサンプリングを併用したTransformerフレームワークをベースとして,Attentive Fusionと呼ばれる独自のレイヤを付加する。
その結果,テストセットのマクロF1スコア0.927を達成し,従来の最先端技術を上回る結果を得た。 With the recent surge and exponential growth of social media usage, scrutinizing social media content for the presence of any hateful content is of utmost importance. Researchers have been diligently working since the past decade on distinguishing between content that promotes hatred and content that does not. Traditionally, the main focus has been on analyzing textual content. However, recent research attempts have also commenced into the identification of audio-based content. Nevertheless, studies have shown that relying solely on audio or text-based content may be ineffective, as recent upsurge indicates that individuals often employ sarcasm in their speech and writing. To overcome these challenges, we present an approach to identify whether a speech promotes hate or not utilizing both audio and textual representations. Our methodology is based on the Transformer framework that incorporates both audio and text sampling, accompanied by our very own layer called "Attentive Fusion". The results of our study surpassed previous state-of-the-art techniques, achieving an impressive macro F1 score of 0.927 on the Test Set. | 翻訳日:2024-01-22 15:54:58 公開日:2024-01-19 |
# ハイブリッドFPGAを用いた軽量マルチアタックCAN侵入検知システム A Lightweight Multi-Attack CAN Intrusion Detection System on Hybrid FPGAs ( http://arxiv.org/abs/2401.10689v1 ) ライセンス: Link先を確認 | Shashwat Khandelwal, Shreejith Shanker | (参考訳) 車両の接続性を高めることで、次世代車の安全性と信頼性を向上させるために、コネクテッド自動運転や高度な運転支援システム(ADAS)などの新機能が実現されている。
この車載機能へのアクセスの増加は、固有のセキュリティや認証機構を持たない controller area network (can) のような古い車載ネットワークを使用する重要な機能を損なう。
侵入検出と緩和アプローチ、特に機械学習モデルを用いて、新しいベクトルに一般化する能力を通じて、CAN内の複数の攻撃ベクトルを検出するという有望な結果を示している。
しかし、ほとんどのデプロイメントでは、ラインレート検出を行うためにGPUのような専用コンピューティングユニットを必要とし、はるかに高い電力を消費する。
本稿では,zynq ultrascale+ (xczu3eg) fpga上でxilinxのディープラーニング処理ユニットipを用いて,can侵入検出データセットを用いてトレーニングおよび検証を行う軽量なマルチアタック量子化機械学習モデルを提案する。
定量化モデルは,99%以上の精度と0.07%の偽陽性率でサービス拒否とファジング攻撃を検出し,文献の最先端技術に匹敵する。
Intrusion Detection System (IDS) の実行は、ECU上で動作するソフトウェアタスクで2.0Wしか消費せず、最先端の実装よりもメッセージ単位の処理遅延を25%削減する。
このデプロイメントにより、ECU関数はタスクの変更を最小限にしてIDSと共存することができ、車載システムにおけるリアルタイムIDSに最適である。 Rising connectivity in vehicles is enabling new capabilities like connected autonomous driving and advanced driver assistance systems (ADAS) for improving the safety and reliability of next-generation vehicles. This increased access to in-vehicle functions compromises critical capabilities that use legacy invehicle networks like Controller Area Network (CAN), which has no inherent security or authentication mechanism. Intrusion detection and mitigation approaches, particularly using machine learning models, have shown promising results in detecting multiple attack vectors in CAN through their ability to generalise to new vectors. However, most deployments require dedicated computing units like GPUs to perform line-rate detection, consuming much higher power. In this paper, we present a lightweight multi-attack quantised machine learning model that is deployed using Xilinx's Deep Learning Processing Unit IP on a Zynq Ultrascale+ (XCZU3EG) FPGA, which is trained and validated using the public CAN Intrusion Detection dataset. The quantised model detects denial of service and fuzzing attacks with an accuracy of above 99 % and a false positive rate of 0.07%, which are comparable to the state-of-the-art techniques in the literature. The Intrusion Detection System (IDS) execution consumes just 2.0 W with software tasks running on the ECU and achieves a 25 % reduction in per-message processing latency over the state-of-the-art implementations. This deployment allows the ECU function to coexist with the IDS with minimal changes to the tasks, making it ideal for real-time IDS in in-vehicle systems. | 翻訳日:2024-01-22 15:51:01 公開日:2024-01-19 |
# 空洞に結合した二原子気体の集団ロビブロニックダイナミクス Collective rovibronic dynamics of a diatomic gas coupled by cavity ( http://arxiv.org/abs/2401.10723v1 ) ライセンス: Link先を確認 | Niclas Krupp and Oriol Vendrell | (参考訳) 我々は,fabry-p\'erotキャビティの2つの分極方向と結合したホモ核二原子分子の完全な量子シミュレーションによるアンサンブルを考える。
解析結果と合わせて,2つの垂直偏光が同時に介在する結合機構を同定し,分子回転に対する偏光緩和を誘導する。
この機構は光誘起円錐交叉(licI)の概念と関連している。
しかし、licIと異なり、これらの非断熱経路は、偏極面における全ての電子遷移双極子の分子間配向に依存するため、集合的な性質を持つ。
この回転機構は明るい上方偏光状態と下方偏光状態を直接結合し、暗黒状態への団結緩和と直接競合する。
気相キャビティ結合系における分子回転ダイナミクスは、ダーク状態多様体に対する非放射的ポラリトニック崩壊の新しいプローブとして機能する可能性が示唆された。 We consider an ensemble of homonuclear diatomic molecules coupled to the two polarization directions of a Fabry-P\'erot cavity via fully quantum simulations. Accompanied by analytical results, we identify a coupling mechanism mediated simultaneously by the two perpendicular polarizations, and inducing polaritonic relaxation towards molecular rotations. This mechanism is related to the concept of light-induced conical intersections (LICI). However, unlike LICIs, these non-adiabatic pathways are of collective nature, since they depend on the \emph{relative} intermolecular orientation of all electronic transition dipoles in the polarization plane. Notably, this rotational mechanism directly couples the bright upper and lower polaritonic states, and it stays in direct competition with the collective relaxation towards dark-states. Our simulations indicate that the molecular rotational dynamics in gas-phase cavity-coupled systems can serve as a novel probe for non-radiative polaritonic decay towards the dark-states manifold. | 翻訳日:2024-01-22 15:47:03 公開日:2024-01-19 |
# 初期状態から最終状態への反応経路構築のための生成モデル Generative Model for Constructing Reaction Path from Initial to Final States ( http://arxiv.org/abs/2401.10721v1 ) ライセンス: Link先を確認 | Akihide Hayashi, So Takamoto, Ju Li, Daisuke Okanohara | (参考訳) 反応経路とその活性化障壁のマッピングは分子シミュレーションの重要な側面である。
本質的にの複雑性と非線形性を考えると、これらの経路を最初に推測することさえ難しい問題である。
本稿では,ニューラルネットワークを用いた反応経路の初期推定手法を提案する。
提案手法は初期状態の座標を入力し,その構造に漸進的な変更を加えることで開始する。
この反復過程は、反応経路の近似表現と最終状態の座標の生成に結実する。
この方法の適用は、有機反応によって示される複雑な反応経路にまで及ぶ。
トレーニングは有機反応経路データセットであるtransition1xデータセット上で実行された。
その結果, 対応する試験データとかなり類似した反応が得られた。
この方法の柔軟性は、所定の条件に適合するか、ランダムな方法で反応を生成することができる。 Mapping out reaction pathways and their corresponding activation barriers is a significant aspect of molecular simulation. Given their inherent complexity and nonlinearity, even generating a initial guess of these paths remains a challenging problem. Presented in this paper is an innovative approach that utilizes neural networks to generate initial guess for these reaction pathways. The proposed method is initiated by inputting the coordinates of the initial state, followed by progressive alterations to its structure. This iterative process culminates in the generation of the approximate representation of the reaction path and the coordinates of the final state. The application of this method extends to complex reaction pathways illustrated by organic reactions. Training was executed on the Transition1x dataset, an organic reaction pathway dataset. The results revealed generation of reactions that bore substantial similarities with the corresponding test data. The method's flexibility allows for reactions to be generated either to conform to predetermined conditions or in a randomized manner. | 翻訳日:2024-01-22 15:46:49 公開日:2024-01-19 |
# 構造化符号表現によりコード言語モデルのデータ効率の良い適応を可能にする Structured Code Representations Enable Data-Efficient Adaptation of Code Language Models ( http://arxiv.org/abs/2401.10716v1 ) ライセンス: Link先を確認 | Mayank Agarwal, Yikang Shen, Bailin Wang, Yoon Kim, Jie Chen | (参考訳) コードタスクに適した現在の言語モデルは、しばしば自然言語処理からトレーニング済みの微調整パラダイムを採用し、ソースコードをプレーンテキストとしてモデル化する。
しかし、このアプローチはプログラミング言語に固有の曖昧な構造を見落としている。
そこで本研究では,事前学習とプログラム構造による微調整により,事前学習されたコードモデルのデータ効率適応について検討する。
具体的には、プログラムを、具体的な構文木(CST)としても知られるパースツリーとして表現し、シリアライズされたCSTに事前訓練されたモデルを適用する。
適応するモデルはプログラムの表面形式にのみ事前学習されているが,CST上での連続的な事前学習や微調整は,モデルアーキテクチャを変更することなく,様々なコードタスクのベースラインアプローチよりも改善されている。
これらの改善は、限られたトレーニング例がある場合、特に重要であり、プログラム構造をプレトレーニングされていないバックボーンモデルで作業しても、プレーンテキスト表現と統合する効果を示す。 Current language models tailored for code tasks often adopt the pre-training-then-fine-tuning paradigm from natural language processing, modeling source code as plain text. This approach, however, overlooks the unambiguous structures inherent in programming languages. In this work, we explore data-efficient adaptation of pre-trained code models by further pre-training and fine-tuning them with program structures. Specifically, we represent programs as parse trees -- also known as concrete syntax trees (CSTs) -- and adapt pre-trained models on serialized CSTs. Although the models that we adapt have been pre-trained only on the surface form of programs, we find that a small amount of continual pre-training and fine-tuning on CSTs without changing the model architecture yields improvements over the baseline approach across various code tasks. The improvements are found to be particularly significant when there are limited training examples, demonstrating the effectiveness of integrating program structures with plain-text representation even when working with backbone models that have not been pre-trained with structures. | 翻訳日:2024-01-22 15:46:35 公開日:2024-01-19 |
# エンタングルド・スペクタ粒子を用いたbhabha散乱におけるエンタングルメント分布 Entanglement distribution in Bhabha scattering with entangled spectator particle ( http://arxiv.org/abs/2401.10715v1 ) ライセンス: Link先を確認 | Massimo Blasone, Gaetano Lambiase and Bruno Micciola | (参考訳) bhabha散乱過程 $(e^-e^+\rightarrow e^-e^+)$ で木レベルでの絡み合いの発生と分布を解析した。
我々の設定では、電子$A$散乱体と陽電子$B$は、最初は他の電子$C$(観察者)と絡み合っており、プロセスに直接は参加しない。
qed散乱は3つの粒子の間で非自明な方法で絡み合いを生成し、分散していることが判明した: 出力チャネルの相関値である$ab$, $ac$, $bc$は、散乱パラメータと初期絡み合いの関数として詳細に研究されている。
特定の場合に導出されるが,本解析の拡張が単純である他の類似したqed散乱過程の一般的な特徴を示す。 We analyze how entanglement is generated and distributed in a Bhabha scattering process $(e^-e^+\rightarrow e^-e^+)$ at tree level. In our setup an electron $A$ scatters with a positron $B$, which is initially entangled with another electron $C$ (spectator), that does not participate directly to the process. We find that the QED scattering generates and distributes entanglement in a non-trivial way among the three particles: the correlations in the output channels $AB$, $AC$ and $BC$ are studied in detail as functions of the scattering parameters and of the initial entanglement weight. Although derived in a specific case, our results exhibit some general features of other similar QED scattering processes, for which the extension of the present analysis is straightforward. | 翻訳日:2024-01-22 15:46:20 公開日:2024-01-19 |
# Q&Aプロンプト:様々な世界知識を必要とするVQAに対する質問応答プロンプトのマイニングを通して、リッチなビジュアルクルーを発見する Q&A Prompts: Discovering Rich Visual Clues through Mining Question-Answer Prompts for VQA requiring Diverse World Knowledge ( http://arxiv.org/abs/2401.10712v1 ) ライセンス: Link先を確認 | Haibi Wang, Weifeng Ge | (参考訳) マルチモーダルな大規模言語モデルのブレークスルーによって、高度な推論能力と世界知識を要求する複雑な視覚的疑問に答えることが、AIモデルを開発する上でこれまで以上に重要なテストベッドになっている。
しかし、人間の認知スキームが体系的に理解されていないため、堅牢な相互モダリティ推論能力を持つAIモデルを装備することは依然として困難である。
本稿では,与えられた画像の視覚的手がかりをできるだけ集めることができれば,画像をより正確に認識し,質問をよりよく理解し,関連する知識をより簡単に思い出し,最終的に答えを推論できると考えている。
画像中の質問応答ペアをマイニングし,複数のモーダルな大言語モデルにプロンプトとして送ることで,これらのリッチな視覚的手がかりを発見する。
提案手法をQ&A Promptsと呼ぶ。
具体的には、まず、視覚的質問生成モデルの入力と出力として、トレーニングセットのイメージ・アンサー・ペアと対応する質問を使用する。
そして,画像タグモデルを用いて,様々なインスタンスを識別し,パッケージ化された画像タグペアを視覚質問生成モデルに送信し,抽出した画像タグと関連する質問を回答として生成する。
最後に、これらの生成した問合せペアを視覚認識プロンプトモジュールでプロンプトとしてエンコードし、学習済みのマルチモーダルな大言語モデルに送信し、最終的な答えを推論する。
実験結果から,我々のQ&A Promptsは最先端の手法と比較して,OK-VQAやA-OKVQAといった多種多様な世界知識の推論を必要とするデータセットに対する挑戦的な視覚的質問応答の精度向上を実現していることがわかった。 With the breakthrough of multi-modal large language models, answering complex visual questions that demand advanced reasoning abilities and world knowledge has become a much more important testbed for developing AI models than ever. However, equipping AI models with robust cross-modality reasoning ability remains challenging since the cognition scheme of humans has not been understood systematically. In this paper, we believe that if we can collect visual clues in the given image as much as possible, we will recognize the image more accurately, understand the question better, recall relevant knowledge more easily, and finally reason out the answer. We discover these rich visual clues by mining question-answer pairs in images and sending them into multi-modal large language models as prompts. We call the proposed method Q&A Prompts. Specifically, we first use the image-answer pairs and the corresponding questions in the training set as inputs and outputs to train a visual question generation model. Then, we use an image tagging model to identify various instances and send packaged image-tag pairs into the visual question generation model to generate relevant questions with the extracted image tags as answers. Finally, we encode these generated question-answer pairs as prompts with a visual-aware prompting module and send them into pre-trained multi-modal large language models to reason out the final answers. Experimental results show that, compared with state-of-the-art methods, our Q&A Prompts achieves substantial improvements on the challenging visual question answering datasets requiring reasoning over diverse world knowledge, such as OK-VQA and A-OKVQA. | 翻訳日:2024-01-22 15:46:05 公開日:2024-01-19 |
# 2次決定関数を持つニューラルネットワークによる分類 Classification with neural networks with quadratic decision functions ( http://arxiv.org/abs/2401.10710v1 ) ライセンス: Link先を確認 | Leon Frischauf, Otmar Scherzer, Cong Shi | (参考訳) アフィン線形ニューラルネットワークの代替として、二次決定関数を持つニューラルネットワークが導入された。
識別対象が円や楕円のようなコンパクトな基本的な幾何学である場合、それらは有利である。
本稿では,このようなアンザッツ関数の分類について検討する。
特に,手書き桁の分類と亜種分類のために,MNISTデータセット上でアルゴリズムを試験・比較する。
また、この実装は、ソフトウェアTensorflowとKerasのニューラルネットワーク構造に基づいていることも示している。 Neural network with quadratic decision functions have been introduced as alternatives to standard neural networks with affine linear one. They are advantageous when the objects to be identified are of compact basic geometries like circles, ellipsis etc. In this paper we investigate the use of such ansatz functions for classification. In particular we test and compare the algorithm on the MNIST dataset for classification of handwritten digits and for classification of subspecies. We also show, that the implementation can be based on the neural network structure in the software Tensorflow and Keras, respectively. | 翻訳日:2024-01-22 15:45:32 公開日:2024-01-19 |
# ライダーによる高密度3次元再構築 : ブタ前生組織の比較検討 Dense 3D Reconstruction Through Lidar: A Comparative Study on Ex-vivo Porcine Tissue ( http://arxiv.org/abs/2401.10709v1 ) ライセンス: Link先を確認 | Guido Caccianiga, Julian Nubert, Marco Hutter, Katherine J. Kuchenbecker | (参考訳) 新しいセンシング技術と高度な処理アルゴリズムは、コンピュータ統合手術を変革している。
視覚支援のための深部センシングと3次元再構成を積極的に研究している研究者はいるが、最小限の侵襲的手術のために、リアルタイムで正確でロバストな腹腔の3d表現を実現するのは難しい。
そこで本研究では, 生鮮ブタの組織を定量的に測定し, 3dレーザーを用いた飛行時間センサ(lidar)を用いて解剖学的表面再構成を行った。
地表面形状を商用レーザースキャナーで捕捉し, 得られた符号付き誤差場を厳密な統計ツールを用いて解析する。
最新の画像からの学習に基づくステレオマッチングと比較すると、時間飛行センシングは高精度、処理遅延の低減、フレームレートの向上、センサ距離に対する堅牢性の向上、照明の低下を示す。
さらに, 近赤外光透過によるlidar測定の精度の悪影響について検討し, 脂肪や肝臓とは対照的に, 筋の奥行きオフセットを有意な測定値と同定した。
本研究は, 術中3次元知覚におけるライダーの可能性と, 飛行時間と分光画像の相補的組み合わせによる新しい方法への展望を明らかにする。 New sensing technologies and more advanced processing algorithms are transforming computer-integrated surgery. While researchers are actively investigating depth sensing and 3D reconstruction for vision-based surgical assistance, it remains difficult to achieve real-time, accurate, and robust 3D representations of the abdominal cavity for minimally invasive surgery. Thus, this work uses quantitative testing on fresh ex-vivo porcine tissue to thoroughly characterize the quality with which a 3D laser-based time-of-flight sensor (lidar) can perform anatomical surface reconstruction. Ground-truth surface shapes are captured with a commercial laser scanner, and the resulting signed error fields are analyzed using rigorous statistical tools. When compared to modern learning-based stereo matching from endoscopic images, time-of-flight sensing demonstrates higher precision, lower processing delay, higher frame rate, and superior robustness against sensor distance and poor illumination. Furthermore, we report on the potential negative effect of near-infrared light penetration on the accuracy of lidar measurements across different tissue samples, identifying a significant measured depth offset for muscle in contrast to fat and liver. Our findings highlight the potential of lidar for intraoperative 3D perception and point toward new methods that combine complementary time-of-flight and spectral imaging. | 翻訳日:2024-01-22 15:45:24 公開日:2024-01-19 |
# 可能性誘導拡散モデルによる安全オフライン強化学習 Safe Offline Reinforcement Learning with Feasibility-Guided Diffusion Model ( http://arxiv.org/abs/2401.10700v1 ) ライセンス: Link先を確認 | Yinan Zheng, Jianxiong Li, Dongjie Yu, Yujie Yang, Shengbo Eben Li, Xianyuan Zhan, Jingjing Liu | (参考訳) 安全なオフラインRLは、リスクの高いオンラインインタラクションを、安全なポリシー学習にバイパスする有望な方法です。
既存のほとんどの手法はソフトな制約、すなわち所定の閾値以下での安全違反を強制するだけである。
これは潜在的に安全でない結果をもたらす可能性があるため、安全クリティカルなシナリオでは受け入れられない。
別の方法は、ゼロ違反の厳しい制約を強制することである。
しかし、安全制約の満足度、報酬の最大化、オフラインデータセットによって課される行動規則化の3つの非常に複雑で相関性の高い側面で適切なバランスを取る必要があるため、これはオフライン環境では難しい。
興味深いことに、安全制御理論の到達可能性解析によって、ハードセーフ制約はオフラインデータセットが与える最大の実現可能な領域を特定することに等価に変換できる。
これにより、元の三部作問題を実現可能性依存目標、すなわち実現不可能領域における安全リスクを最小化しつつ、実現可能領域内の報酬価値を最大化するようにシームレスに変換することができる。
これらに着想を得たFISOR(FeasIbility-guided Safe Offline RL)を提案し,安全性の確保,報酬の最大化,オフラインポリシ学習を3つの非結合プロセスを通じて実現し,高い安全性性能と安定性を提供する。
fisorでは、翻訳最適化問題の最適方針は、重み付き行動クローニングの特別な形態で導出することができる。
そこで本研究では, 複雑な時間依存型分類器の訓練を必要とせず, 学習を単純化した新しいエネルギー誘導拡散モデルを提案する。
我々は、安全なオフラインRLのためのDSRLベンチマークのベースラインと比較する。
評価の結果、fisorがすべてのタスクで安全性を保証し、ほとんどのタスクでトップリターンを達成できる唯一の方法であることが判明した。 Safe offline RL is a promising way to bypass risky online interactions towards safe policy learning. Most existing methods only enforce soft constraints, i.e., constraining safety violations in expectation below thresholds predetermined. This can lead to potentially unsafe outcomes, thus unacceptable in safety-critical scenarios. An alternative is to enforce the hard constraint of zero violation. However, this can be challenging in offline setting, as it needs to strike the right balance among three highly intricate and correlated aspects: safety constraint satisfaction, reward maximization, and behavior regularization imposed by offline datasets. Interestingly, we discover that via reachability analysis of safe-control theory, the hard safety constraint can be equivalently translated to identifying the largest feasible region given the offline dataset. This seamlessly converts the original trilogy problem to a feasibility-dependent objective, i.e., maximizing reward value within the feasible region while minimizing safety risks in the infeasible region. Inspired by these, we propose FISOR (FeasIbility-guided Safe Offline RL), which allows safety constraint adherence, reward maximization, and offline policy learning to be realized via three decoupled processes, while offering strong safety performance and stability. In FISOR, the optimal policy for the translated optimization problem can be derived in a special form of weighted behavior cloning. Thus, we propose a novel energy-guided diffusion model that does not require training a complicated time-dependent classifier to extract the policy, greatly simplifying the training. We compare FISOR against baselines on DSRL benchmark for safe offline RL. Evaluation results show that FISOR is the only method that can guarantee safety satisfaction in all tasks, while achieving top returns in most tasks. | 翻訳日:2024-01-22 15:45:00 公開日:2024-01-19 |
# 可変性の迷路による構成可能なソフトウェアシステムのエキスパートのナビゲーション Navigating Expertise in Configurable Software Systems through the Maze of Variability ( http://arxiv.org/abs/2401.10699v1 ) ライセンス: Link先を確認 | Karolina Milano, Bruno Cafeo | (参考訳) 大規模ソフトウェアシステムにおけるソースコードの理解は、開発者にとって大きな課題となる。
ソースコードにおける専門知識の役割は、実質的な変更に責任を持つ開発者を特定するために重要になる。
しかし、事前処理と条件コンパイルを用いた構成可能なソフトウェアシステム(CSS)の文脈では、従来の専門知識メトリクスは、自然モジュール構造による可変性の実装の非調整のために制限に直面する可能性がある。
この初期の研究では、CSSにおける開発作業の分散、特に変数および必須コードに焦点を当てている。
また、割り当てられたファイルに可変コードを持つ特定専門家の関与についても調べる。
この調査結果は、タスク割り当てのダイナミクスに関する洞察を提供し、既存のメトリクスの適用可能性に関する疑問を提起し、可変コードを扱う開発者の専門知識を評価するための代替アプローチの土台を築いている。
本研究は,CSSにおける課題の包括的理解に寄与することを目的としており,この文脈における専門知識の評価を推し進めるための最初のステップを示す。 The understanding of source code in large-scale software systems poses a challenge for developers. The role of expertise in source code becomes critical for identifying developers accountable for substantial changes. However, in the context of configurable software systems (CSS) using pre-processing and conditional compilation, conventional expertise metrics may encounter limitations due to the non-alignment of variability implementation with the natural module structure. This early research study investigates the distribution of development efforts in CSS, specifically focusing on variable and mandatory code. It also examines the engagement of designated experts with variable code in their assigned files. The findings provide insights into task allocation dynamics and raise questions about the applicability of existing metrics, laying the groundwork for alternative approaches to assess developer expertise in handling variable code. This research aims to contribute to a comprehensive understanding of challenges within CSS, marking initial steps toward advancing the evaluation of expertise in this context. | 翻訳日:2024-01-22 15:44:30 公開日:2024-01-19 |
# 自発4波混合源のポンプ管理に基づく再構成可能な絡み合い分布ネットワーク Reconfigurable entanglement distribution network based on pump management of spontaneous four-wave mixing source ( http://arxiv.org/abs/2401.10697v1 ) ライセンス: Link先を確認 | Jingyuan Liu, Dongning Liu, Zhanping Jin, Zhihao Lin, Hao Li, Lixing You, Xue Feng, Fang Liu, Kaiyu Cui, Yidong Huang and Wei Zhang | (参考訳) 量子エンタングルメントのユニークな性質を活用し、量子エンタングルメント分布ネットワークは複数の量子情報アプリケーションをサポートし、量子ネットワークの発展に不可欠である。
しかし、その実践的な実装は、ネットワークのスケーラビリティと柔軟性に大きな課題をもたらす。
本研究では、自然発生4波混合(SFWM)音源の可変マルチポンポン励振に基づく、再構成可能な絡み合い分布ネットワークと時間共有手法を提案する。
異なるポンプ条件下での2光子相関を特徴付け, ポンプ縮退およびポンプ非縮退sfwm過程が2光子相関および可変性に及ぼす影響を示す。
そして、ベンチマークアプリケーションとして、トリプルポンプライトを備えたタイムシェアリング方式で、10ユーザ完全接続量子キー分散(QKD)ネットワークを確立する。
各ユーザが1つの周波数チャネルを受信すると、ネットワークトポロジに拘わらず、周波数チャネル数とユーザ数の間の線形スケーリングを示す。
その結果,拡張性,機能,再構成性などにより,大規模エンタングルメント分散ネットワークのネットワーク化が期待できる。 Leveraging the unique properties of quantum entanglement, quantum entanglement distribution networks support multiple quantum information applications and are essential to the development of quantum networks. However, its practical implementation poses significant challenges to network scalability and flexibility. In this work, we propose a novel reconfigurable entanglement distribution network based on tunable multi-pump excitation of a spontaneous four-wave mixing (SFWM) source and a time-sharing method. We characterize the two-photon correlation under different pump conditions to demonstrate the effect of pump degenerate and pump non-degenerate SFWM processes on the two-photon correlation, and its tunability. Then as a benchmark application, a 10-user fully-connected quantum key distribution (QKD) network is established in a time-sharing way with triple pump lights. Each user receives one frequency channel thus it shows a linear scaling between the number of frequency channels and the user number in despite of the network topology. Our results thus provide a promising networking scheme for large-scale entanglement distribution networks owing to its scalability, functionality, and reconfigurability. | 翻訳日:2024-01-22 15:44:15 公開日:2024-01-19 |
# langbridge: 多言語指導のない多言語推論 LangBridge: Multilingual Reasoning Without Multilingual Supervision ( http://arxiv.org/abs/2401.10695v1 ) ライセンス: Link先を確認 | Dongkeun Yoon, Joel Jang, Sungdong Kim, Seungone Kim, Sheikh Shafayat, Minjoon Seo | (参考訳) 我々は多言語推論タスクに言語モデルを適応させるゼロショットアプローチであるLangBridgeを紹介した。
LangBridgeは2つのモデルをブリッジして動作し、それぞれ異なる側面に特化している。(1) 複数の言語(例えばmT5エンコーダ)を理解することに特化したもの、(2)推論に特化したもの(例えばOrca 2)。
LangBridgeは、トレーニング可能な最小限のパラメータを導入して、2つのモデルを接続する。
英語のデータのみをトレーニングに利用しているにもかかわらず、LangBridgeは数学的推論、コーディング、論理推論にまたがる低リソース言語における言語モデルの性能を大幅に向上させる。
解析の結果,LangBridgeの有効性は多言語表現の言語非依存性に起因することが示唆された。
コードとモデルを公開しています。 We introduce LangBridge, a zero-shot approach to adapt language models for multilingual reasoning tasks without multilingual supervision. LangBridge operates by bridging two models, each specialized in different aspects: (1) one specialized in understanding multiple languages (e.g., mT5 encoder) and (2) one specialized in reasoning (e.g., Orca 2). LangBridge connects the two models by introducing minimal trainable parameters between them. Despite utilizing only English data for training, LangBridge considerably enhances the performance of language models on low-resource languages across mathematical reasoning, coding, and logical reasoning. Our analysis suggests that the efficacy of LangBridge stems from the language-agnostic characteristics of multilingual representations. We publicly release our code and models. | 翻訳日:2024-01-22 15:43:57 公開日:2024-01-19 |
# 調和振動子とキラルスカラー場のためのコヒーレント状態プロジェクタによるレゲット・ガルグ不等式大破 Large violation of Leggett-Garg inequalities with coherent-state projectors for a harmonic oscillator and chiral scalar field ( http://arxiv.org/abs/2401.10692v1 ) ライセンス: Link先を確認 | Tomoya Hirotani, Akira Matsumura, Yasusada Nambu, Kazuhiro Yamamoto | (参考訳) 本研究では,高調波発振器のレゲットガルグ不等式(lgis)とコヒーレント状態プロジェクタを用いた(1+1)次元キラルスカラー場(ヘテロダイン型計測スキームと同値)の違反について検討する。
高調波発振器では、真空状態と熱状態が2時間準確率分布関数の評価によりLGIに反することがわかった。
特に、2回の準確率の値は、lgisの最大違反に対応するl\"udersの98%に相当する圧縮コヒーレント状態プロジェクタに対して-0.123に達することを実証する。
また、高調波発振器の場合に似たコヒーレント状態のプロジェクタを構築することにより、量子カイラルスカラー場の局所モードに対するLGIの違反も見いだす。
調和振動子とは対照的に、準確率の時間方向の周期性は消失し、これは局所モードとその相補的な自由度の間の量子的絡み合いの存在に関連している。 We investigate violations of Leggett-Garg inequalities (LGIs) for a harmonic oscillator and a (1+1)-dimensional chiral scalar field with coherent-state projectors, which is equivalent to a heterodyne-type measurement scheme. For the harmonic oscillator, we found that the vacuum and thermal states violated the LGIs by evaluating the two-time quasi-probability distribution function. In particular, we demonstrate that the value of the two-time quasi-probability reaches -0.123 for a squeezed coherent-state projector, which is equivalent to 98% of the L\"uders bound corresponding to the maximal violation of the LGIs. We also find a violation of the LGIs for the local mode of a quantum chiral scalar field by constructing a coherent-state projector similar to the harmonic oscillator case. In contrast to the harmonic oscillator, the periodicity in the time direction of the quasi-probability disappears, which is related to the existence of quantum entanglement between the local mode and its complementary degrees of freedom. | 翻訳日:2024-01-22 15:43:38 公開日:2024-01-19 |
# RMSEとMAEを超えて: ダイアドレグレッションモデルにおける隠れバイアスと不公平を解き放つためのEAUCの導入 Beyond RMSE and MAE: Introducing EAUC to unmask hidden bias and unfairness in dyadic regression models ( http://arxiv.org/abs/2401.10690v1 ) ライセンス: Link先を確認 | Jorge Paz-Ruza, Amparo Alonso-Betanzos, Bertha Guijarro-Berdi\~nas, Brais Cancela, Carlos Eiras-Franco | (参考訳) 多くの領域(例えば、レコメンダシステムにおけるユーザーの製品に対する評価の予測)で基本であり、他の多くの分野(例えば、パーソナライズされた薬理学において、患者に対する薬物の適切な投与量を近似する)で有望かつ現在調査中である。
本研究では, 個々の実体の観測値分布の非一様性が, 最先端モデルにおいて著しく偏り, 観測された過去の値の平均値に対して予測を歪め, 偏心的かつ均等に重要な場合において, 乱数よりも低い予測力を与えることを示した。
我々は,偏心バイアスと呼ばれるこの現象を捉えるには,根平均二乗誤差 (rmse) や平均絶対誤差 (mae) のような大域的誤差メトリクスの使用が不十分であることを示す。
また,非バイアス補正によるEAUCの妥当性を実証し,低次モデルバイアスが低次EAUCと逆逆の関係に相関していることを示す。
この研究は、そのようなシステムの批判的実世界応用における潜在的な不公平さやリスクを避けるために、ディヤド回帰モデルに対するバイアスを意識した評価に寄与する。 Dyadic regression models, which predict real-valued outcomes for pairs of entities, are fundamental in many domains (e.g. predicting the rating of a user to a product in Recommender Systems) and promising and under exploration in many others (e.g. approximating the adequate dosage of a drug for a patient in personalized pharmacology). In this work, we demonstrate that non-uniformity in the observed value distributions of individual entities leads to severely biased predictions in state-of-the-art models, skewing predictions towards the average of observed past values for the entity and providing worse-than-random predictive power in eccentric yet equally important cases. We show that the usage of global error metrics like Root Mean Squared Error (RMSE) and Mean Absolute Error (MAE) is insufficient to capture this phenomenon, which we name eccentricity bias, and we introduce Eccentricity-Area Under the Curve (EAUC) as a new complementary metric that can quantify it in all studied models and datasets. We also prove the adequateness of EAUC by using naive de-biasing corrections to demonstrate that a lower model bias correlates with a lower EAUC and vice-versa. This work contributes a bias-aware evaluation of dyadic regression models to avoid potential unfairness and risks in critical real-world applications of such systems. | 翻訳日:2024-01-22 15:43:02 公開日:2024-01-19 |
# 交通分類のためのデータ拡張 Data Augmentation for Traffic Classification ( http://arxiv.org/abs/2401.10754v1 ) ライセンス: Link先を確認 | Chao Wang, Alessandro Finamore, Pietro Michiardi, Massimo Gallo, Dario Rossi | (参考訳) Data Augmentation (DA) -- 合成サンプルを追加してトレーニングデータを強化する - は、モデルパフォーマンスを改善するためにコンピュータビジョン(CV)と自然言語処理(NLP)タスクに広く採用されているテクニックである。
しかし、daはネットワークのコンテキスト、特にトラフィック分類(tc)タスクで牽引力を得るのに苦労している。
本研究では,パケット時系列を入力表現として用いた3TCデータセットに適用した18の拡張関数をベンチマークし,様々な訓練条件を考慮した。
私たちの結果は
(i)daは、未調査の利益を享受することができる
二 時系列順序の順に作用する増補及びマスクは、TCK及びTCKにとってより適しているもの
三) 単純な潜在空間解析は、拡張が正あるいは負の効果を持つ理由のヒントを与えることができる。 Data Augmentation (DA) -- enriching training data by adding synthetic samples -- is a technique widely adopted in Computer Vision (CV) and Natural Language Processing (NLP) tasks to improve models performance. Yet, DA has struggled to gain traction in networking contexts, particularly in Traffic Classification (TC) tasks. In this work, we fulfill this gap by benchmarking 18 augmentation functions applied to 3 TC datasets using packet time series as input representation and considering a variety of training conditions. Our results show that (i) DA can reap benefits previously unexplored with (ii) augmentations acting on time series sequence order and masking being a better suit for TC and (iii) simple latent space analysis can provide hints about why augmentations have positive or negative effects. | 翻訳日:2024-01-22 15:35:19 公開日:2024-01-19 |
# BoolGebra: ブール代数操作のためのグラフ学習 BoolGebra: Attributed Graph-learning for Boolean Algebraic Manipulation ( http://arxiv.org/abs/2401.10753v1 ) ライセンス: Link先を確認 | Yingjie Li, Anthony Agnesina, Yanqing Zhang, Haoxing Ren, Cunxi Yu | (参考訳) ブール代数的操作は、電子設計自動化(EDA)設計フローにおける論理合成のコアである。
既存の手法は最適化の機会を十分に活用するのに苦労し、しばしば爆発的な検索スペースとスケーラビリティの限界に悩まされる。
この研究は、ブール代数的操作のための新しい属性付きグラフ学習アプローチであるBoolGebraを提示する。
BoolGebraにはグラフニューラルネットワーク(GNN)が組み込まれており、構造情報と機能情報の両方を入力として組み込む。
直接最適化結果予測の予測器として完全連結ニューラルネットワークを用い、探索空間を著しく低減し、最適化空間を効率的に配置する。
この実験は、BoolGebraモデルw.r.tの設計特化およびクロスデザイン推論をトレーニングすることを含み、BoolGebraはクロスデザイン推論の一般化可能性を示し、小さな単純なトレーニングデータセットから大規模な複雑な推論データセットにスケールする可能性を示した。
最後に、boolgebraは既存の合成ツールabcと統合され、エンドツーエンド論理最小化評価w.r.t sotaベースラインを実行する。 Boolean algebraic manipulation is at the core of logic synthesis in Electronic Design Automation (EDA) design flow. Existing methods struggle to fully exploit optimization opportunities, and often suffer from an explosive search space and limited scalability efficiency. This work presents BoolGebra, a novel attributed graph-learning approach for Boolean algebraic manipulation that aims to improve fundamental logic synthesis. BoolGebra incorporates Graph Neural Networks (GNNs) and takes initial feature embeddings from both structural and functional information as inputs. A fully connected neural network is employed as the predictor for direct optimization result predictions, significantly reducing the search space and efficiently locating the optimization space. The experiments involve training the BoolGebra model w.r.t design-specific and cross-design inferences using the trained model, where BoolGebra demonstrates generalizability for cross-design inference and its potential to scale from small, simple training datasets to large, complex inference datasets. Finally, BoolGebra is integrated with existing synthesis tool ABC to perform end-to-end logic minimization evaluation w.r.t SOTA baselines. | 翻訳日:2024-01-22 15:35:05 公開日:2024-01-19 |
# HiCD:階層的相関蒸留による画質変動画像の変化検出 HiCD: Change Detection in Quality-Varied Images via Hierarchical Correlation Distillation ( http://arxiv.org/abs/2401.10752v1 ) ライセンス: Link先を確認 | Chao Pang, Xingxing Weng, Jiang Wu, Qiang Wang, and Gui-Song Xia | (参考訳) 高度な変化検出技術は主に画像対の等質と高品質を目標とする。
しかし、画像条件やプラットフォームの変化は、画質の異なるイメージペアをしばしば引き起こす: 画像は高品質であり、一方は低品質である。
これらの画像品質の相違は、画像ペアを意味的に理解し、変化特徴を抽出する上で重要な課題を示し、最終的に性能の顕著な低下をもたらす。
この課題に対処するために、知識蒸留に基づく革新的なトレーニング戦略を導入する。
コアとなるアイデアは、高品質なイメージペアから得られたタスク知識を活用して、品質の違いを示すイメージペアを扱う際のモデルの学習プロセスをガイドするものだ。
さらに, 階層的相関蒸留アプローチ(自己相関, 相互相関, 大域的相関)を開発した。
このアプローチは、個々の特徴のみに焦点を当てるのではなく、教師モデルに内在する相関を学生モデルに再現させる。
これにより、生徒モデルのトレーニング柔軟性を維持しながら、効果的な知識伝達が保証される。 Advanced change detection techniques primarily target image pairs of equal and high quality. However, variations in imaging conditions and platforms frequently lead to image pairs with distinct qualities: one image being high-quality, while the other being low-quality. These disparities in image quality present significant challenges for understanding image pairs semantically and extracting change features, ultimately resulting in a notable decline in performance. To tackle this challenge, we introduce an innovative training strategy grounded in knowledge distillation. The core idea revolves around leveraging task knowledge acquired from high-quality image pairs to guide the model's learning process when dealing with image pairs that exhibit differences in quality. Additionally, we develop a hierarchical correlation distillation approach (involving self-correlation, cross-correlation, and global correlation). This approach compels the student model to replicate the correlations inherent in the teacher model, rather than focusing solely on individual features. This ensures effective knowledge transfer while maintaining the student model's training flexibility. | 翻訳日:2024-01-22 15:34:47 公開日:2024-01-19 |
# EFO: 感情フレームオントロジー EFO: the Emotion Frame Ontology ( http://arxiv.org/abs/2401.10751v1 ) ライセンス: Link先を確認 | Stefano De Giorgis and Aldo Gangemi | (参考訳) 感情は様々な分野において激しい議論の対象である。
理論や定義の増大にもかかわらず、感情が何であるか、そして、それらについて話すときに関係する異なる概念をどうモデル化するかについては、まだ合意がない。
本稿では,感情のオントロジーである感情フレームオントロジー(EFO:Emotion Frames Ontology)を提案する。
EFOは感情を意味的なフレームとして扱い、感情経験の異なる側面を捉えるセマンティックな役割のセットである。
EFOはパターンベースのオントロジー設計に従っており、DOLCEの基礎オントロジーと一致している。
EFOは、感情オントロジーネットワークのモジュールとしてクロスリンクできる複数の感情理論をモデル化するために使用される。
本稿では,Ekman の Basic Emotions (BE) 理論を EFO-BE モジュールとしてモデル化し,感情状況の表現に対して自動推論を行う方法を示す。
EFO-BEは、フレームスター知識グラフからBE感情フレームを語彙化し、テキストからグラフベースの感情検出を実装することで評価されている。
さらに、感情的な発話や感情的な表情を含むマルチモーダルデータセットのefo統合によって、クロスモーダルな感情セマンティクスのさらなる調査が可能になる。 Emotions are a subject of intense debate in various disciplines. Despite the proliferation of theories and definitions, there is still no consensus on what emotions are, and how to model the different concepts involved when we talk about - or categorize - them. In this paper, we propose an OWL frame-based ontology of emotions: the Emotion Frames Ontology (EFO). EFO treats emotions as semantic frames, with a set of semantic roles that capture the different aspects of emotional experience. EFO follows pattern-based ontology design, and is aligned to the DOLCE foundational ontology. EFO is used to model multiple emotion theories, which can be cross-linked as modules in an Emotion Ontology Network. In this paper, we exemplify it by modeling Ekman's Basic Emotions (BE) Theory as an EFO-BE module, and demonstrate how to perform automated inferences on the representation of emotion situations. EFO-BE has been evaluated by lexicalizing the BE emotion frames from within the Framester knowledge graph, and implementing a graph-based emotion detector from text. In addition, an EFO integration of multimodal datasets, including emotional speech and emotional face expressions, has been performed to enable further inquiry into crossmodal emotion semantics. | 翻訳日:2024-01-22 15:34:31 公開日:2024-01-19 |
# 脳波復号のための深層学習によるユークリッドアライメントの体系的評価 A Systematic Evaluation of Euclidean Alignment with Deep Learning for EEG Decoding ( http://arxiv.org/abs/2401.10746v1 ) ライセンス: Link先を確認 | Bruna Junqueira, Bruno Aristimunha, Sylvain Chevallier, Raphael Y. de Camargo | (参考訳) 脳波(EEG)信号は脳-コンピュータインタフェース(BCI)タスクに頻繁に使用される。
ディープラーニング(DL)技術は有望な結果を示しているが、かなりのデータ要件によって妨げられている。
複数の被験者のデータを活用することで、転送学習はDLモデルのより効果的なトレーニングを可能にする。
普及しているテクニックは、使いやすさ、計算複雑性の低さ、ディープラーニングモデルとの互換性のため、ユークリッドアライメント(ea)である。
しかし、共有DLモデルと個別DLモデルのトレーニング性能に与える影響を評価する研究はほとんどない。
本研究では,BCI信号の復号化におけるEAとDLの併用効果を系統的に評価する。
EAを用いて複数の被験者のデータを共有モデルで学習し,新しい被験者への伝達性を評価した。
実験の結果,対象対象物の復号化を4.33%改善し,収束時間を70%以上短縮できることがわかった。
また,各被験者の個別モデルを,多数投票型アンサンブル分類器として使用するように訓練した。
このシナリオでは、3モデルアンサンブルの精度が3.7%向上した。
しかし、EAとの共有モデルと比較すると、アンサンブルの精度は3.62%低かった。 Electroencephalography (EEG) signals are frequently used for various Brain-Computer Interface (BCI) tasks. While Deep Learning (DL) techniques have shown promising results, they are hindered by the substantial data requirements. By leveraging data from multiple subjects, transfer learning enables more effective training of DL models. A technique that is gaining popularity is Euclidean Alignment (EA) due to its ease of use, low computational complexity, and compatibility with Deep Learning models. However, few studies evaluate its impact on the training performance of shared and individual DL models. In this work, we systematically evaluate the effect of EA combined with DL for decoding BCI signals. We used EA to train shared models with data from multiple subjects and evaluated its transferability to new subjects. Our experimental results show that it improves decoding in the target subject by 4.33% and decreases convergence time by more than 70%. We also trained individual models for each subject to use as a majority-voting ensemble classifier. In this scenario, using EA improved the 3-model ensemble accuracy by 3.7%. However, when compared to the shared model with EA, the ensemble accuracy was 3.62% lower. | 翻訳日:2024-01-22 15:34:12 公開日:2024-01-19 |
# FinLLMs: 大規模言語モデルを用いた金融推論データセット生成フレームワーク FinLLMs: A Framework for Financial Reasoning Dataset Generation with Large Language Models ( http://arxiv.org/abs/2401.10744v1 ) ライセンス: Link先を確認 | Ziqiang Yuan, Kaiyuan Wang, Shoutai Zhu, Ye Yuan, Jingya Zhou, Yanlin Zhu, Wenqi Wei | (参考訳) 大規模言語モデル(llm)は通常、広範なトレーニングデータセットに依存する。
金融分野において、テーブルと長いテキストの混合を含む数値推論データセットの作成には、多くの場合、かなりの手動のアノテーション費用がかかる。
限られたデータ資源に対処し、アノテーションコストを削減すべく、大言語モデルを用いた共通金融公式に基づく財務質問応答データを生成するfinllmsを紹介する。
まず、共通の財務公式のリストをコンパイルし、これらの公式が採用する変数に基づいてグラフを構築する。
次に、同一変数を共有する変数を新しい要素として組み合わせることで、式集合を補足する。
具体的には, 手動アノテーションによって得られた公式を探索し, 構築したグラフを横断することにより, それらの式を共有変数にマージする。
最後に、gpt-3.5を利用して表情報と長文コンテンツの両方を包含する財務的質問応答データを生成する。
実験の結果,FinLLMsが生成した合成データにより,金融分野における大規模数値推論モデルの性能が向上することが確認された。 Large Language models (LLMs) usually rely on extensive training datasets. In the financial domain, creating numerical reasoning datasets that include a mix of tables and long text often involves substantial manual annotation expenses. To address the limited data resources and reduce the annotation cost, we introduce FinLLMs, a method for generating financial question-answering data based on common financial formulas using Large Language Models. First, we compile a list of common financial formulas and construct a graph based on the variables these formulas employ. We then augment the formula set by combining those that share identical variables as new elements. Specifically, we explore formulas obtained by manual annotation and merge those formulas with shared variables by traversing the constructed graph. Finally, utilizing GPT-3.5, we generate financial question-answering data that encompasses both tabular information and long textual content, building on the collected formula set. Our experiments demonstrate that synthetic data generated by FinLLMs effectively enhances the performance of several large-scale numerical reasoning models in the financial domain, outperforming two established benchmark financial question-answering datasets. | 翻訳日:2024-01-22 15:33:54 公開日:2024-01-19 |
# 深部ニューラルネットワークを用いたビザンチンシールの文字認識 Character Recognition in Byzantine Seals with Deep Neural Networks ( http://arxiv.org/abs/2401.10741v1 ) ライセンス: Link先を確認 | Th\'eophile Rageau, Laurence Likforman-Sulem, Attilio Fiandrotti, Victoria Eyharabide, B\'eatrice Caseau and Jean-Claude Cheynet | (参考訳) シールは小さな硬貨形の人工物で、主に鉛で作られ、文字を印字するための紐で保持されている。
この作品では、ビザンティンの封印画像のテキストの自動読取への最初の試みを示し、ビザンティンの封印は一般的に横面の図像と裏面のギリシア文字で装飾されている。
テキストには、送り手の名前、ビザンツ貴族の地位、祈りの要素が含まれている。
テキストと図像は電子的に活用されるのを待つ貴重な文献資料であり、アザラシ画像の解釈のためのコンピュータシステムの開発が最重要である。
この作品の貢献は、ビザンチンのシール画像を転写するための深い2段階の文字読み取りパイプラインである。
第1の深層畳み込みニューラルネットワーク(cnn)は、シールの文字(特性局在)を検出する。
第2の畳み込みネットワークは、ローカライズされた文字(キャラクタ分類)を読み込む。
最後に、2つのネットワーク出力を後処理してアザラシの外交的転写を行う。
それぞれのcnnを分離し,両方のcnnを組み合わせて実験的に評価する。
すべてのパフォーマンスはクロスバリデーションによって評価される。
文字ローカライゼーションは平均平均精度(mAP@0.5)が0.9以上に達する。
地上の真理境界箱から抽出した文字の分類は、トップ1の精度が0.92以上に達する。
エンド・ツー・エンドの評価は、類似したタスクに対してSoTAと比較して提案手法の効率性を示す。 Seals are small coin-shaped artifacts, mostly made of lead, held with strings to seal letters. This work presents the first attempt towards automatic reading of text on Byzantine seal images.Byzantine seals are generally decorated with iconography on the obverse side and Greek text on the reverse side. Text may include the sender's name, position in the Byzantine aristocracy, and elements of prayers. Both text and iconography are precious literary sources that wait to be exploited electronically, so the development of computerized systems for interpreting seals images is of paramount importance. This work's contribution is hence a deep, two-stages, character reading pipeline for transcribing Byzantine seal images. A first deep convolutional neural network (CNN) detects characters in the seal (character localization). A second convolutional network reads the localized characters (character classification). Finally, a diplomatic transcription of the seal is provided by post-processing the two network outputs. We provide an experimental evaluation of each CNN in isolation and both CNNs in combination. All performances are evaluated by cross-validation. Character localization achieves a mean average precision (mAP@0.5) greater than 0.9. Classification of characters cropped from ground truth bounding boxes achieves Top-1 accuracy greater than 0.92. End-to-end evaluation shows the efficiency of the proposed approach when compared to the SoTA for similar tasks. | 翻訳日:2024-01-22 15:33:37 公開日:2024-01-19 |
# 大規模言語モデル時代のイデオロギーにおける人間-ai体験 : 文献レビュー In-IDE Human-AI Experience in the Era of Large Language Models; A Literature Review ( http://arxiv.org/abs/2401.10739v1 ) ライセンス: Link先を確認 | Agnia Sergeyuk, Sergey Titov, Maliheh Izadi | (参考訳) 現代のソフトウェア開発において重要なIDEは、プログラミング効率と意思決定を向上させるためにAIの統合によって進化してきた。
私たちは、IDEにおけるヒューマンAIエクスペリエンスに重点を置いて、これらのAIツールがソフトウェア開発プロセスをどのように作り直し、生産性とコード品質に影響を与えるかを理解しています。
私たちの文献レビューは,IDE内におけるプログラマとAIアシスタント間のあいまいな相互作用を理解するためのギャップに対処するため,IDE内人間-AIエクスペリエンス研究の現状を理解することを目的としている。
36の論文を分析した結果、デザイン、インパクト、品質の3つの主要な研究分野が明らかになった。
この記事では、ソフトウェア開発のダイナミックな性質を強調する、トレンド、課題、機会に光を当てる。
この分野における将来の研究と開発のためのガイドとして機能し、これらのインタラクションの3つの重要な側面、すなわちタスク固有のユーザインターフェースの設計、信頼の育成、可読性の向上をコミュニティに促している。 IDEs, crucial in contemporary software development, have evolved with the integration of AI to boost programming efficiency and decision-making. Our focus on in-IDE Human-AI Experience delves into understanding how these AI tools reshape the software development process, impacting productivity and code quality. Our literature review aimed to comprehend the current state of in-IDE Human-AI Experience research, addressing a gap in understanding the nuanced interactions between programmers and AI assistants within IDEs. Analyzing 36 chosen papers, our study reveals three key research branches: Design, Impact, and Quality of Interaction. This paper sheds light on trends, challenges, and opportunities, underscoring the dynamic nature of software development. It serves as a guide for future research and development in this field, urging the community to explore three vital aspects of these interactions: designing task-specific user interfaces, fostering trust, and enhancing readability. | 翻訳日:2024-01-22 15:33:16 公開日:2024-01-19 |
# 大規模言語モデルを用いた臨床文書の動的Q&A Dynamic Q&A of Clinical Documents with Large Language Models ( http://arxiv.org/abs/2401.10733v1 ) ライセンス: Link先を確認 | Ran Elgedawy, Sudarshan Srinivasan, Ioana Danciu | (参考訳) 電子健康記録(EHR)は臨床記録に重要な患者データを格納する。
音量や複雑さが増大するにつれて、手作業による抽出が困難になる。
本研究は,臨床ノートにおける動的質問応答のための大規模言語モデル(LLM)を用いた自然言語インタフェースを提案する。
弊社のチャットボットはLangchainとTransformerベースのLLMで、ユーザーは自然言語で検索でき、臨床ノートから関連する回答を受信できる。
様々な埋め込みモデルと高度なllmを利用した実験では、高い計算要求にもかかわらずウィザードヴィクナの優れた精度を示す。
重量量子化を含むモデル最適化は、レイテンシを約48倍改善する。
有望な結果は潜在性を示しているが、モデル幻覚や限定的な多様な医療事例評価のような課題は残っている。
これらのギャップに対処することは、臨床ノートの価値を解き放ち、AIによる臨床意思決定を進めるために不可欠である。 Electronic health records (EHRs) house crucial patient data in clinical notes. As these notes grow in volume and complexity, manual extraction becomes challenging. This work introduces a natural language interface using large language models (LLMs) for dynamic question-answering on clinical notes. Our chatbot, powered by Langchain and transformer-based LLMs, allows users to query in natural language, receiving relevant answers from clinical notes. Experiments, utilizing various embedding models and advanced LLMs, show Wizard Vicuna's superior accuracy, albeit with high compute demands. Model optimization, including weight quantization, improves latency by approximately 48 times. Promising results indicate potential, yet challenges such as model hallucinations and limited diverse medical case evaluations remain. Addressing these gaps is crucial for unlocking the value in clinical notes and advancing AI-driven clinical decision-making. | 翻訳日:2024-01-22 15:32:58 公開日:2024-01-19 |
# 機械と人間の画像符号化のギャップを埋める Bridging the gap between image coding for machines and humans ( http://arxiv.org/abs/2401.10732v1 ) ライセンス: Link先を確認 | Nam Le, Honglei Zhang, Francesco Cricri, Ramin G. Youvalari, Hamed Rezazadegan Tavakoli, Emre Aksu, Miska M. Hannuksela, Esa Rahtu | (参考訳) image coding for machines (icm) は、画像表現に必要なビットレートを削減し、マシンビジョン分析の精度を最小化することを目的としている。
監視などの多くのユースケースでは、圧縮処理によって視覚的品質が著しく劣化しないことも重要である。
ニューラルネットワーク(NN)ベースのICMコーデックを用いた最近の研究は、従来の手法に対して大きなコードゲインを示しているが、圧縮された画像、特に低ビットレートでは、チェッカーボードのアーティファクトがしばしば含まれている。
本稿では,ICMコーデックの視覚的品質を著しく向上する上で,推論フェーズに余分なビットコストやパラメータを加えることなく,機械解析精度を保ちながら,効果的なデコーダファインタニング手法を提案する。
その結果,チェッカーボードのアーティファクトは,タスクパフォーマンススコアの相対的変化が-1.6%の無視コストで完全に取り除かれた。
機械消費が主なターゲットである場合など、ある程度のアーティファクトが許容できる場合、この技術はタスク性能を損なうことなく画素忠実度と特徴忠実度の両方を高めることができる。 Image coding for machines (ICM) aims at reducing the bitrate required to represent an image while minimizing the drop in machine vision analysis accuracy. In many use cases, such as surveillance, it is also important that the visual quality is not drastically deteriorated by the compression process. Recent works on using neural network (NN) based ICM codecs have shown significant coding gains against traditional methods; however, the decompressed images, especially at low bitrates, often contain checkerboard artifacts. We propose an effective decoder finetuning scheme based on adversarial training to significantly enhance the visual quality of ICM codecs, while preserving the machine analysis accuracy, without adding extra bitcost or parameters at the inference phase. The results show complete removal of the checkerboard artifacts at the negligible cost of -1.6% relative change in task performance score. In the cases where some amount of artifacts is tolerable, such as when machine consumption is the primary target, this technique can enhance both pixel-fidelity and feature-fidelity scores without losing task performance. | 翻訳日:2024-01-22 15:32:42 公開日:2024-01-19 |
# 粗粒核融合によるrgb赤外物体検出の改善と除去 Removal and Selection: Improving RGB-Infrared Object Detection via Coarse-to-Fine Fusion ( http://arxiv.org/abs/2401.10731v1 ) ライセンス: Link先を確認 | Tianyi Zhao, Maoxun Yuan, Xingxing Wei | (参考訳) 近年,可視光(RGB)と赤外線(IR)画像の物体検出が広く行われている。
オブジェクト検出器は、RGBとIR画像の補完特性を活用して、昼夜の信頼性と堅牢な物体位置決めを提供する。
既存の融合戦略は、RGBとIR画像を畳み込みニューラルネットワークに直接注入し、検出性能が劣る。
RGB と IR の特徴はモーダリティ特有のノイズを持っているため、これらの戦略は伝搬とともに融合した特徴を悪化させる。
人間の脳がマルチモーダル情報を処理するメカニズムに触発され、この研究は2つのモダリティの特徴を精製し融合するための新しい粗い視点を導入する。
具体的には,各モダリティ内の干渉情報を粗末に除去する冗長スペクトル除去モジュールと,特徴融合に必要な特徴を微細に選択する動的特徴選択モジュールを設計した。
粗大な核融合戦略の有効性を検証するため,除去・選択検出器 (RSDet) と呼ばれる新しい物体検出器を構築した。
3つのRGB-IRオブジェクト検出データセットの大規模な実験により,本手法の優れた性能が検証された。 Object detection in visible (RGB) and infrared (IR) images has been widely applied in recent years. Leveraging the complementary characteristics of RGB and IR images, the object detector provides reliable and robust object localization from day to night. Existing fusion strategies directly inject RGB and IR images into convolution neural networks, leading to inferior detection performance. Since the RGB and IR features have modality-specific noise, these strategies will worsen the fused features along with the propagation. Inspired by the mechanism of human brain processing multimodal information, this work introduces a new coarse-to-fine perspective to purify and fuse two modality features. Specifically, following this perspective, we design a Redundant Spectrum Removal module to coarsely remove interfering information within each modality and a Dynamic Feature Selection module to finely select the desired features for feature fusion. To verify the effectiveness of the coarse-to-fine fusion strategy, we construct a new object detector called Removal and Selection Detector (RSDet). Extensive experiments on three RGB-IR object detection datasets verify the superior performance of our method. | 翻訳日:2024-01-22 15:32:22 公開日:2024-01-19 |
# Tool-LMM: エージェント学習のための大規模マルチモーダルモデル Tool-LMM: A Large Multi-Modal Model for Tool Agent Learning ( http://arxiv.org/abs/2401.10727v1 ) ライセンス: Link先を確認 | Chenyu Wang, Weixin Luo, Qianyu Chen, Haonan Mai, Jindi Guo, Sixun Dong, Xiaohua (Michael) Xuan, Zhengxin Li, Lin Ma, Shenghua Gao | (参考訳) 近年,自然言語理解と生成タスクにおける大規模言語モデル(llm)の驚くべき性能が,エージェントシステム構築のための中央制御系としての利用を大いに促進した。
複数の研究は、アプリケーションのシナリオを拡張するためにLLMを外部ツールにブリッジすることに焦点を当てている。
しかし、現在のLLMのツール使用能力は単一のテキストクエリに限られており、ユーザの実際の意図を理解するための曖昧さをもたらす可能性がある。
LLMは視覚的または聴覚的な命令の情報を知覚することでそれを排除することが期待されている。
そこで本稿では,オープンソースのLLMとマルチモーダルエンコーダを組み込んだツールLMMを提案する。
モデルの能力評価を容易にするために,hughingfaceからマルチモーダル入力ツールを用いたデータセットを収集した。
我々のデータセットのもう1つの重要な特徴は、同一の関数と同義関数が存在するため、我々のデータセットが同一の命令に対して複数の潜在的選択肢を含むことである。
実験の結果,LMMはマルチモーダル命令に適したツールを推奨できることがわかった。
コードとデータはhttps://github.com/Tool-LMM/Tool-LMMで公開されている。 Recently, the astonishing performance of large language models (LLMs) in natural language comprehension and generation tasks triggered lots of exploration of using them as central controllers to build agent systems. Multiple studies focus on bridging the LLMs to external tools to extend the application scenarios. However, the current LLMs' perceiving tool-use ability is limited to a single text query, which may result in ambiguity in understanding the users' real intentions. LLMs are expected to eliminate that by perceiving the visual- or auditory-grounded instructions' information. Therefore, in this paper, we propose Tool-LMM, a system incorporating open-source LLMs and multi-modal encoders so that the learnt LLMs can be conscious of multi-modal input instruction and then select the function-matched tool correctly. To facilitate the evaluation of the model's capability, we collect a dataset featured by consisting of multi-modal input tools from HuggingFace. Another important feature of our dataset is that our dataset also contains multiple potential choices for the same instruction due to the existence of identical functions and synonymous functions, which provides more potential solutions for the same query. The experiments reveal that our LMM is capable of recommending appropriate tools for multi-modal instructions. Codes and data are available at https://github.com/Tool-LMM/Tool-LMM. | 翻訳日:2024-01-22 15:32:03 公開日:2024-01-19 |
# 実用的なデータ駆動ツールによるアグリゲータの強化: 要求応答に対するアグリゲータと非アグリゲータの柔軟性 Empowering Aggregators with Practical Data-Driven Tools: Harnessing Aggregated and Disaggregated Flexibility for Demand Response ( http://arxiv.org/abs/2401.10726v1 ) ライセンス: Link先を確認 | Costas Mylonas, Donata Boric, Leila Luttenberger Maric, Alexandros Tsitsanis, Eleftheria Petrianou, Magda Foti | (参考訳) 本研究は, 再生可能エネルギー源(RES)が提示する不確実性の中で, 強固な脱炭化とエネルギーシステムのレジリエンスの強化に重点を置いて, 需要応答(DR)プログラムを通じて, フレキシビリティを活性化する上で, 集合体と集合体との間の重要な相互作用を探求するものである。
まず,データ制限のある環境において,離散フーリエ変換 (dft) とクラスタリング技術を用いて作業者の活動パターンを識別し,集約された柔軟性提供戦略を最適化する手法を提案する。
第2に、DRイベント中の暖房換気・空調システム(HVAC)の非凝集フレキシビリティ・プロビジョニングを評価し、正確なデバイスレベルの分析に機械学習と最適化技術を用いる。
第1のアプローチは、アグリゲータが建物全体の消費のために単一のスマートメータの環境で柔軟性を提供するための非意図的な経路を提供し、第2のアプローチは、居住者の温熱的快適性プロファイルの構築を慎重に検討すると同時に、hvacシステムに専用のスマートメータが存在する場合の柔軟性を最大化する。
本稿は,データ駆動技術の適用と,産業・住宅双方の事例研究を通じて,バランスと新興市場におけるアグリゲータの重要な機会を明らかにしただけでなく,アグリゲータのエンド・ツー・エンドの実践ツールの開発にも成功している。
さらに、このツールの有効性は、詳細なケーススタディを通じて検証され、その運用能力を実証し、レジリエントで効率的なエネルギーシステムの進化に寄与する。 This study explores the crucial interplay between aggregators and building occupants in activating flexibility through Demand Response (DR) programs, with a keen focus on achieving robust decarbonization and fortifying the resilience of the energy system amidst the uncertainties presented by Renewable Energy Sources (RES). Firstly, it introduces a methodology of optimizing aggregated flexibility provision strategies in environments with limited data, utilizing Discrete Fourier Transformation (DFT) and clustering techniques to identify building occupant's activity patterns. Secondly, the study assesses the disaggregated flexibility provision of Heating Ventilation and Air Conditioning (HVAC) systems during DR events, employing machine learning and optimization techniques for precise, device-level analysis. The first approach offers a non-intrusive pathway for aggregators to provide flexibility services in environments of a single smart meter for the whole building's consumption, while the second approach carefully considers building occupants' thermal comfort profiles, while maximizing flexibility in case of existence of dedicated smart meters to the HVAC systems. Through the application of data-driven techniques and encompassing case studies from both industrial and residential buildings, this paper not only unveils pivotal opportunities for aggregators in the balancing and emerging flexibility markets but also successfully develops end-to-end practical tools for aggregators. Furthermore, the efficacy of this tool is validated through detailed case studies, substantiating its operational capability and contributing to the evolution of a resilient and efficient energy system. | 翻訳日:2024-01-22 15:31:39 公開日:2024-01-19 |
# 第14回自動沈み込み国際会議に参加して Proceedings 14th International Conference on Automated Deduction in Geometry ( http://arxiv.org/abs/2401.10725v1 ) ライセンス: Link先を確認 | Pedro Quaresma (University of Coimbra, Portugal), Zolt\'an Kov\'acs (The Private University College of Education of the Diocese of Linz, Austria) | (参考訳) ADGは、アイデアとビューを交換し、研究結果と進捗を示し、幾何学と自動推論の交差点でソフトウェアツールを実証するためのフォーラムである。
会議は2年ごとに行われます。
前回のADGは2021年にハゲンベルクで、2018年に南京、2016年にストラスブールで、2014年にコインブラ、2010年にミュンヘンで、2008年に上海で、2006年にポンテベドラで、2004年にゲインズビルで、2002年にハゲンベルクで、2000年にチューリッヒで、1998年に北京で、1996年にトゥールーズで開催された。
第14回ADG 2023は、セルビアのベオグラードで2023年9月20-22日に開催された。
このADGのエディションには、Deduction in Educationという特別なトピックが追加された。
招待講演者: フランスのストラスブール大学julien narboux "formalization, arithmetization and automatization of geometry"; セルビアのベオグラード大学filip mari\'c "automatization, formalization and visualization of hyperbolic geometry"; zlatan magajna, university of ljubljana, slovenia, "workshop ok geometry" ADG is a forum to exchange ideas and views, to present research results and progress, and to demonstrate software tools at the intersection between geometry and automated deduction. The conference is held every two years. The previous editions of ADG were held in Hagenberg in 2021 (online, postponed from 2020 due to COVID-19), Nanning in 2018, Strasbourg in 2016, Coimbra in 2014, Edinburgh in 2012, Munich in 2010, Shanghai in 2008, Pontevedra in 2006, Gainesville in 2004, Hagenberg in 2002, Zurich in 2000, Beijing in 1998, and Toulouse in 1996. The 14th edition, ADG 2023, was held in Belgrade, Serbia, in September 20-22, 2023. This edition of ADG had an additional special focus topic, Deduction in Education. Invited Speakers: Julien Narboux, University of Strasbourg, France "Formalisation, arithmetization and automatisation of geometry"; Filip Mari\'c, University of Belgrade, Serbia, "Automatization, formalization and visualization of hyperbolic geometry"; Zlatan Magajna, University of Ljubljana, Slovenia, "Workshop OK Geometry" | 翻訳日:2024-01-22 15:31:07 公開日:2024-01-19 |
# fpga上での自動車制御エリアネットワークの実時間ゼロデイ侵入検出システム Real-Time Zero-Day Intrusion Detection System for Automotive Controller Area Network on FPGAs ( http://arxiv.org/abs/2401.10724v1 ) ライセンス: Link先を確認 | Shashwat Khandelwal, Shreejith Shanker | (参考訳) 外部とのコネクティビティの増大による車両の自動化の強化により、以前サイロ化されていた controller area networks (can) のような自動車ネットワークの脆弱性が顕在化している。
電子制御ユニット(ECU)間の放送ベースの通信のようなCANの属性は、Denial of Service(DoS)、fuzzing、spoofing攻撃といったアクティブなインジェクション攻撃を実行するために、デプロイコストを削減している。
研究文献では、悪意のある行為を検出するために侵入検知システム(IDS)としてデプロイされた複数の教師付き機械学習モデルが提案されている。
アクティブ・インジェクション・アタックの複雑さが増すにつれ、これらのネットワークにおけるゼロデイ(ノーベル)アタックをリアルタイムに(伝播を防ぐため)検出することが、特定の関心事となる。
本稿では,ゼロデイ攻撃を検出するための教師なし学習に基づく畳み込み自動符号化アーキテクチャを提案する。
我々は,資源制約のZynq UltrascaleプラットフォームをターゲットとしたAMD/XilinxのVitis-AIツールを用いたモデルを,統合のためのIDS-ECUシステムとして定量化する。
提案モデルでは,最先端の教師なし学習ベースIDSと比較して,未確認のDoS,ファジング,スプーフィング攻撃に対して,同等以上の分類精度(>99.5%)を達成できた。
さらに、受信機とCANメッセージのウィンドウ上でIDS操作を巧みに重畳することにより、高速CANのラインレート検出 (0.43 ms per window) を達成でき、推論あたりの低エネルギー消費と組み合わせると、このアーキテクチャは重要なCANネットワークに対するゼロデイ攻撃を検出するのに最適である。 Increasing automation in vehicles enabled by increased connectivity to the outside world has exposed vulnerabilities in previously siloed automotive networks like controller area networks (CAN). Attributes of CAN such as broadcast-based communication among electronic control units (ECUs) that lowered deployment costs are now being exploited to carry out active injection attacks like denial of service (DoS), fuzzing, and spoofing attacks. Research literature has proposed multiple supervised machine learning models deployed as Intrusion detection systems (IDSs) to detect such malicious activity; however, these are largely limited to identifying previously known attack vectors. With the ever-increasing complexity of active injection attacks, detecting zero-day (novel) attacks in these networks in real-time (to prevent propagation) becomes a problem of particular interest. This paper presents an unsupervised-learning-based convolutional autoencoder architecture for detecting zero-day attacks, which is trained only on benign (attack-free) CAN messages. We quantise the model using Vitis-AI tools from AMD/Xilinx targeting a resource-constrained Zynq Ultrascale platform as our IDS-ECU system for integration. The proposed model successfully achieves equal or higher classification accuracy (> 99.5%) on unseen DoS, fuzzing, and spoofing attacks from a publicly available attack dataset when compared to the state-of-the-art unsupervised learning-based IDSs. Additionally, by cleverly overlapping IDS operation on a window of CAN messages with the reception, the model is able to meet line-rate detection (0.43 ms per window) of high-speed CAN, which when coupled with the low energy consumption per inference, makes this architecture ideally suited for detecting zero-day attacks on critical CAN networks. | 翻訳日:2024-01-22 15:30:40 公開日:2024-01-19 |
# パフォーマンス分析のためのグラフを用いた新しい表現学習手法 Novel Representation Learning Technique using Graphs for Performance Analytics ( http://arxiv.org/abs/2401.10799v1 ) ライセンス: Link先を確認 | Tarek Ramadan, Ankur Lahiry, Tanzima Z. Islam | (参考訳) ハイパフォーマンスコンピューティング(HPC)のパフォーマンス分析ドメインは、実行時間予測などの回帰問題を解決するために表データを使用する。
既存の機械学習(ML)技術は、サンプル間の関係を直接活用するのではなく、グラフデータセットに与えられた特徴間の相関を利用する。
さらに、原特徴からの高品質な埋め込みは下流予測モデルの忠実度を向上させるため、既存の手法は広範な機能エンジニアリングと事前処理ステップ、コストのかかる時間と手作業に依存している。
この2つのギャップを埋めるため,グラフニューラルネットワーク(GNN)技術の進歩を生かして,特徴とサンプルの複雑な関係を捉えるために,グラフをグラフに変換する新しい手法を提案する。
ソーシャルネットワークのような他のMLアプリケーションドメインとは対照的に、グラフは提供されない。
このギャップに対処するために,ノードがサンプルを表現するグラフ構築手法を提案する。
gnnから生成された埋め込みの有効性を,単純なフィードフォワードニューラルネットワークでも,他の最先端表現学習手法と比較して,レグレッションタスクに対してどれだけうまく機能するかに基づいて評価する。
我々の評価では、データセット毎に25%のランダムな値が失われても、一般的に使用されているグラフとディープニューラルネットワーク(DNN)ベースのアプローチより優れており、それぞれHPCデータセットと機械学習データセットに対して、DNNベースラインに対する最大61.67%と78.56%のMSE損失が達成されている。 The performance analytics domain in High Performance Computing (HPC) uses tabular data to solve regression problems, such as predicting the execution time. Existing Machine Learning (ML) techniques leverage the correlations among features given tabular datasets, not leveraging the relationships between samples directly. Moreover, since high-quality embeddings from raw features improve the fidelity of the downstream predictive models, existing methods rely on extensive feature engineering and pre-processing steps, costing time and manual effort. To fill these two gaps, we propose a novel idea of transforming tabular performance data into graphs to leverage the advancement of Graph Neural Network-based (GNN) techniques in capturing complex relationships between features and samples. In contrast to other ML application domains, such as social networks, the graph is not given; instead, we need to build it. To address this gap, we propose graph-building methods where nodes represent samples, and the edges are automatically inferred iteratively based on the similarity between the features in the samples. We evaluate the effectiveness of the generated embeddings from GNNs based on how well they make even a simple feed-forward neural network perform for regression tasks compared to other state-of-the-art representation learning techniques. Our evaluation demonstrates that even with up to 25% random missing values for each dataset, our method outperforms commonly used graph and Deep Neural Network (DNN)-based approaches and achieves up to 61.67% & 78.56% improvement in MSE loss over the DNN baseline respectively for HPC dataset and Machine Learning Datasets. | 翻訳日:2024-01-22 15:23:54 公開日:2024-01-19 |
# アクティビティアウェア動的健康モニタリングシステムによる深層強化学習 Deep Reinforcement Learning Empowered Activity-Aware Dynamic Health Monitoring Systems ( http://arxiv.org/abs/2401.10794v1 ) ライセンス: Link先を確認 | Ziqiaing Ye, Yulan Gao, Yue Xiao, Zehui Xiong and Dusit Niyato | (参考訳) スマートヘルスケアでは、さまざまなツールや技術を使って患者のリアルタイムな生体信号データを分析し、即時行動と介入を可能にする。
既存のモニタリングアプローチは、医療機器がいくつかの健康指標を同時に追跡し、指定された機能範囲に合わせて設計されている。
これは、その範囲内で関連するすべての健康値を報告し、無関係な健康指標の監視による過剰なリソース使用と外部データの収集をもたらす可能性があることを意味する。
そこで本稿では,ユーザ活動に基づく正確なモニタリングを確実にするための,DRL(Deep Reinforcement Learning)とSlowFast Model(SlowFast Model)に基づく新しいフレームワークである,最適なモニタリング性能とコスト効率のバランスを打つための動的アクティビティ意識型ヘルスモニタリング戦略(DActAHM)を提案する。
特に、slowfastモデルでは、dactahmは個々のアクティビティを効率的に識別し、これらの結果をキャプチャして強化処理を行う。
その後、DActAHMはDRLフレームワークを組み込むことにより、特定された活動に応答して健康指標モニタリングを洗練する。
DActAHMと最先端の3つのアプローチを比較した大規模な実験は、タイムライン上の監視動作を修正する最高のパフォーマンスのベースラインよりも27.3%向上したことを示している。 In smart healthcare, health monitoring utilizes diverse tools and technologies to analyze patients' real-time biosignal data, enabling immediate actions and interventions. Existing monitoring approaches were designed on the premise that medical devices track several health metrics concurrently, tailored to their designated functional scope. This means that they report all relevant health values within that scope, which can result in excess resource use and the gathering of extraneous data due to monitoring irrelevant health metrics. In this context, we propose Dynamic Activity-Aware Health Monitoring strategy (DActAHM) for striking a balance between optimal monitoring performance and cost efficiency, a novel framework based on Deep Reinforcement Learning (DRL) and SlowFast Model to ensure precise monitoring based on users' activities. Specifically, with the SlowFast Model, DActAHM efficiently identifies individual activities and captures these results for enhanced processing. Subsequently, DActAHM refines health metric monitoring in response to the identified activity by incorporating a DRL framework. Extensive experiments comparing DActAHM against three state-of-the-art approaches demonstrate it achieves 27.3% higher gain than the best-performing baseline that fixes monitoring actions over timeline. | 翻訳日:2024-01-22 15:23:25 公開日:2024-01-19 |
# 2層ネットワークトレーニングの初期アライメントは2刃剣である Early alignment in two-layer networks training is a two-edged sword ( http://arxiv.org/abs/2401.10791v1 ) ライセンス: Link先を確認 | Etienne Boursier, Nicolas Flammarion | (参考訳) 1次最適化手法によるニューラルネットワークのトレーニングは、ディープラーニングの実証的な成功の核心にある。
初期化のスケールは重要な要素であり、小さな初期化は一般に、勾配降下が暗黙的に単純な解に偏っている特徴学習環境と関連している。
この研究は、もともと Maennel et al. (2018) によって導入された初期のアライメント位相の一般的かつ定量的な記述を提供する。
小さな初期化と1つの隠されたReLU層ネットワークのために、トレーニングダイナミクスの初期段階は、ニューロンをキー方向に向けてアライメントする。
このアライメントは、収束時の勾配流の暗黙のバイアスに直接関係するネットワークのスパース表現を誘導する。
同時に、過度にパラメータ化されたネットワークがグローバルなミニマに向かって収束せず、代わりに急激な定常点にのみ収束する単純なデータ例も提供します。 Training neural networks with first order optimisation methods is at the core of the empirical success of deep learning. The scale of initialisation is a crucial factor, as small initialisations are generally associated to a feature learning regime, for which gradient descent is implicitly biased towards simple solutions. This work provides a general and quantitative description of the early alignment phase, originally introduced by Maennel et al. (2018) . For small initialisation and one hidden ReLU layer networks, the early stage of the training dynamics leads to an alignment of the neurons towards key directions. This alignment induces a sparse representation of the network, which is directly related to the implicit bias of gradient flow at convergence. This sparsity inducing alignment however comes at the expense of difficulties in minimising the training objective: we also provide a simple data example for which overparameterised networks fail to converge towards global minima and only converge to a spurious stationary point instead. | 翻訳日:2024-01-22 15:23:00 公開日:2024-01-19 |
# シーンレベルの物体が物体検出に与える影響の測定:検出決定の定量的説明に向けて Measuring the Impact of Scene Level Objects on Object Detection: Towards Quantitative Explanations of Detection Decisions ( http://arxiv.org/abs/2401.10790v1 ) ライセンス: Link先を確認 | Lynn Vonder Haar, Timothy Elvira, Luke Newcomb, Omar Ochoa | (参考訳) 精度やその他の一般的なメトリクスは、オブジェクト検出モデルのパフォーマンスに有用な窓を提供するが、モデルの決定過程のより深い視点を欠いている。
トレーニングデータとプロセスの品質に関わらず、オブジェクト検出モデルが学習する特徴は保証できない。
モデルは特定の背景コンテキスト、すなわちシーンレベルのオブジェクトとラベル付きクラスの存在の間の関係を学習することができる。
さらに、標準的な性能検証とメトリクスは、この現象を特定しない。
本稿では,画像中の物体の識別に対するシーンレベルの物体の影響を見出すことにより,物体検出モデルの追加検証のためのブラックボックス説明可能性法を提案する。
テストデータ上のモデルの精度とシーンレベルのオブジェクトの有無を比較することで、モデルの性能に対するこれらのオブジェクトの貢献はより明確になる。
今回紹介した実験は、画像環境における建物や人々の緊急車両検出への影響を、微調整されたyolov8モデルによって評価するものである。
シーンレベルのオブジェクトの存在による精度の大きな向上は、モデルがそのオブジェクトに依存していることを示し、その検出を行う。
本研究の結果は,オブジェクト検出モデルの意思決定過程を定量的に説明し,モデルの性能をより深く理解することにつながる。 Although accuracy and other common metrics can provide a useful window into the performance of an object detection model, they lack a deeper view of the model's decision process. Regardless of the quality of the training data and process, the features that an object detection model learns cannot be guaranteed. A model may learn a relationship between certain background context, i.e., scene level objects, and the presence of the labeled classes. Furthermore, standard performance verification and metrics would not identify this phenomenon. This paper presents a new black box explainability method for additional verification of object detection models by finding the impact of scene level objects on the identification of the objects within the image. By comparing the accuracies of a model on test data with and without certain scene level objects, the contributions of these objects to the model's performance becomes clearer. The experiment presented here will assess the impact of buildings and people in image context on the detection of emergency road vehicles by a fine-tuned YOLOv8 model. A large increase in accuracy in the presence of a scene level object will indicate the model's reliance on that object to make its detections. The results of this research lead to providing a quantitative explanation of the object detection model's decision process, enabling a deeper understanding of the model's performance. | 翻訳日:2024-01-22 15:22:43 公開日:2024-01-19 |
# 光子エンタングルメントを用いた単層培養細胞の分極応答の探索 Probing polarization response of monolayer cell cultures with photon entanglement ( http://arxiv.org/abs/2401.10789v1 ) ライセンス: Link先を確認 | L. Zhang, V. R. Besaga, P. R\"uhl4, C. Zou, S. H. Heinemann, Y. Wang, and F. Setzpfandt | (参考訳) 本研究は, 試料の完全性を損なうことなく精度を確保するために, 低光束条件下での生体試料識別のための光学的検出法において, 高い信号対雑音比の必要性に対処する。
偏光に基づくプローブについて検討し, 試料の形態評価において, 強度変調に優れることが多い。
非古典的な光源を活用し、サブポアソニアン光子統計と量子相関に基づく測定を活用している。
本稿では,光子対を用いた単層細胞培養の高感度探索法を提案する。
本手法は単層細胞解析において,2種類の単層細胞とその宿主媒質を区別する能力を示す。
実験結果は,本手法の感度を強調し,量子的手法を用いた生体試料検出の可能性を示し,高度な診断方法の道を開いた。 This study addresses the critical need for high signal-to-noise ratio in optical detection methods for biological sample discrimination under low-photon-flux conditions to ensure accuracy without compromising sample integrity. We explore polarization-based probing, which often excels over intensity modulation when assessing a specimen's morphology. Leveraging non-classical light sources, our approach capitalizes on sub-Poissonian photon statistics and quantum correlation-based measurements. We present a novel, highly sensitive method for probing single-layer cell cultures using entangled photon pairs. Our approach demonstrates capability in monolayer cell analysis, distinguishing between two types of monolayer cells and their host medium. The experimental results highlight our method's sensitivity, showcasing its potential for biological sample detection using quantum techniques, and paving the way for advanced diagnostic methodologies. | 翻訳日:2024-01-22 15:22:25 公開日:2024-01-19 |
# Sat2Scene:衛星画像からの3次元都市景観生成 Sat2Scene: 3D Urban Scene Generation from Satellite Images with Diffusion ( http://arxiv.org/abs/2401.10786v1 ) ライセンス: Link先を確認 | Zuoyue Li, Zhenqiang Li, Zhaopeng Cui, Marc Pollefeys, Martin R. Oswald | (参考訳) 衛星画像からシーンを直接生成することは、ゲームや地図サービスのようなアプリケーションに統合するエキサイティングな可能性をもたらす。
しかし、大きな視点の変化とシーンスケールから課題が生じる。
以前の取り組みは、主に画像またはビデオ生成に焦点を当て、任意のビューに対するシーン生成の適応性の探求を欠いていた。
既存の3d生成作品は物体レベルで動作するか、衛星画像から得られた形状を利用するのが困難である。
これらの制約を克服するために,3次元スパース表現に拡散モデルを導入し,それらをニューラルレンダリング技術と組み合わせることで,直接3次元シーン生成のための新しいアーキテクチャを提案する。
具体的には、まず3次元拡散モデルを用いて、所定の幾何学の点レベルのテクスチャ色を生成し、次にフィードフォワード方式でシーン表現に変換する。
この表現は、任意のビューをレンダリングするために使用することができ、単一のフレーム品質とフレーム間の一貫性の両方に優れる。
2つの都市規模データセットによる実験により,衛星画像からリアルなストリートビュー画像シーケンスとクロスビュー都市シーンを生成する能力を示した。 Directly generating scenes from satellite imagery offers exciting possibilities for integration into applications like games and map services. However, challenges arise from significant view changes and scene scale. Previous efforts mainly focused on image or video generation, lacking exploration into the adaptability of scene generation for arbitrary views. Existing 3D generation works either operate at the object level or are difficult to utilize the geometry obtained from satellite imagery. To overcome these limitations, we propose a novel architecture for direct 3D scene generation by introducing diffusion models into 3D sparse representations and combining them with neural rendering techniques. Specifically, our approach generates texture colors at the point level for a given geometry using a 3D diffusion model first, which is then transformed into a scene representation in a feed-forward manner. The representation can be utilized to render arbitrary views which would excel in both single-frame quality and inter-frame consistency. Experiments in two city-scale datasets show that our model demonstrates proficiency in generating photo-realistic street-view image sequences and cross-view urban scenes from satellite imagery. | 翻訳日:2024-01-22 15:22:08 公開日:2024-01-19 |
# 計量動的平衡論理 Metric Dynamic Equilibrium Logic ( http://arxiv.org/abs/2401.10781v1 ) ライセンス: Link先を確認 | Arvid Becker, Pedro Cabalar, Mart\'in Di\'eguez, Luis Fari\~nas, Torsten Schaub, Anna Schuhmann | (参考訳) 線形時間に基づく Answer Set Programming (ASP) の時間拡張では、動的システムの振る舞いは状態列によって捉えられる。
この表現は相対的な順序を反映するが、各状態に関連する特定の時間を抽象化する。
しかし、多くのアプリケーションでは、例えば計画とスケジューリングが相次いでいる場合など、タイミング制約が重要である。
本稿では,動的演算子を整数上の間隔で制約する線形時間動的平衡論理の計量拡張を開発することで,この問題に対処する。
その結果生まれたMetric Dynamic Equilibrium Logicは、定性的かつ定量的な動的制約を指定するためのASPベースのアプローチの基礎を提供する。
したがって、平衡論理の時間的拡張のスペクトル全体の中で最も一般的なものとなる。
具体的には、時間的、動的、計量的、正則な平衡論理を包含すると同時に、排除された中間の法則が加えられると、その古典的論理も包含することを示す。 In temporal extensions of Answer Set Programming (ASP) based on linear-time, the behavior of dynamic systems is captured by sequences of states. While this representation reflects their relative order, it abstracts away the specific times associated with each state. In many applications, however, timing constraints are important like, for instance, when planning and scheduling go hand in hand. We address this by developing a metric extension of linear-time Dynamic Equilibrium Logic, in which dynamic operators are constrained by intervals over integers. The resulting Metric Dynamic Equilibrium Logic provides the foundation of an ASP-based approach for specifying qualitative and quantitative dynamic constraints. As such, it constitutes the most general among a whole spectrum of temporal extensions of Equilibrium Logic. In detail, we show that it encompasses Temporal, Dynamic, Metric, and regular Equilibrium Logic, as well as its classic counterparts once the law of the excluded middle is added. | 翻訳日:2024-01-22 15:21:51 公開日:2024-01-19 |
# 産業生産における手動操作のインテリジェント制御のためのスタンドの効率指標の決定 Determination of efficiency indicators of the stand for intelligent control of manual operations in industrial production ( http://arxiv.org/abs/2401.10777v1 ) ライセンス: Link先を確認 | Anton Sergeev, Victor Minchenkov, Aleksei Soldatov | (参考訳) 工業生産における手動操作のインテリジェント制御システムは、近年多くの産業で実施されている。
このようなシステムは高解像度カメラとコンピュータビジョンアルゴリズムを使用して、オペレータの操作を自動的に追跡し、アセンブリプロセスにおける技術的エラーを防ぐ。
同時に、ワークスペースにおける安全規則の遵守も監視される。
これにより、製造製品の欠陥率と、任意の装置の手動組立時の事故数を減少させる。
インテリジェントな制御システムを実運用に導入する前には、その効率を計算する必要がある。
手動操作制御システムのためのスタンド上で実験を行った。
本稿では,効率指標の計算手法を提案する。
この数学的アプローチは、アセンブリステージ間の実時間と予測時間間隔のIoU計算に基づいている。
その結果, 手動組立の有効性を追跡する精度が高く, 組立工程の継続時間に依存しないことがわかった。 Systems of intelligent control of manual operations in industrial production are being implemented in many industries nowadays. Such systems use high-resolution cameras and computer vision algorithms to automatically track the operator's manipulations and prevent technological errors in the assembly process. At the same time compliance with safety regulations in the workspace is monitored. As a result, the defect rate of manufactured products and the number of accidents during the manual assembly of any device are decreased. Before implementing an intelligent control system into a real production it is necessary to calculate its efficiency. In order to do it experiments on the stand for manual operations control systems were carried out. This paper proposes the methodology for calculating the efficiency indicators. This mathematical approach is based on the IoU calculation of real- and predicted-time intervals between assembly stages. The results show high precision in tracking the validity of manual assembly and do not depend on the duration of the assembly process. | 翻訳日:2024-01-22 15:21:36 公開日:2024-01-19 |
# medusa: 複数のデコードヘッドを持つシンプルなllm推論アクセラレーションフレームワーク Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads ( http://arxiv.org/abs/2401.10774v1 ) ライセンス: Link先を確認 | Tianle Cai, Yuhong Li, Zhengyang Geng, Hongwu Peng, Jason D. Lee, Deming Chen, Tri Dao | (参考訳) LLM(Large Language Models)における推論プロセスは、自動回帰復号プロセスにおける並列性の欠如によってしばしば制限され、ほとんどの演算はアクセラレータのメモリ帯域幅によって制限される。
投機的復号法のような手法はこの問題に対処するために提案されているが、それらの実装は独立したドラフトモデルの取得と維持に関わる課題によって妨げられている。
本稿では,複数のトークンを並列に予測するために,余分なデコードヘッドを追加することで,LCM推論を効率化するMedusaを提案する。
ツリーベースのアテンション機構を使用して、メデューサは複数の候補コンティニュエーションを構築し、各デコードステップで同時に検証する。
並列処理を活用することで、Medusaは1ステップのレイテンシにおいて最小限のオーバーヘッドしか導入せず、デコードステップの数を大幅に削減する。
Medusa-1: Medusa は凍結した背骨 LLM 上に直接微調整され,無害な推論の加速を可能にする。
Medusa-2: MedusaはバックボーンLLMと共に微調整され、Medusaヘッドの予測精度とスピードアップが向上するが、バックボーンモデルの能力を保持する特別なトレーニングレシピが必要である。
さらに,トレーニングデータがない状況に対処するための自己蒸留や,世代品質を維持しつつ受入率を高めるための典型的な受入スキームなど,メデューサの有用性を向上あるいは拡張するいくつかの拡張を提案する。
様々なサイズのモデルと訓練手順を用いてメデューサを評価する。
実験の結果,medusa-1は2.2倍の速度アップを達成でき,medusa-2は2.3-3.6倍のスピードアップを実現できた。 The inference process in Large Language Models (LLMs) is often limited due to the absence of parallelism in the auto-regressive decoding process, resulting in most operations being restricted by the memory bandwidth of accelerators. While methods such as speculative decoding have been suggested to address this issue, their implementation is impeded by the challenges associated with acquiring and maintaining a separate draft model. In this paper, we present Medusa, an efficient method that augments LLM inference by adding extra decoding heads to predict multiple subsequent tokens in parallel. Using a tree-based attention mechanism, Medusa constructs multiple candidate continuations and verifies them simultaneously in each decoding step. By leveraging parallel processing, Medusa introduces only minimal overhead in terms of single-step latency while substantially reducing the number of decoding steps required. We present two levels of fine-tuning procedures for Medusa to meet the needs of different use cases: Medusa-1: Medusa is directly fine-tuned on top of a frozen backbone LLM, enabling lossless inference acceleration. Medusa-2: Medusa is fine-tuned together with the backbone LLM, enabling better prediction accuracy of Medusa heads and higher speedup but needing a special training recipe that preserves the backbone model's capabilities. Moreover, we propose several extensions that improve or expand the utility of Medusa, including a self-distillation to handle situations where no training data is available and a typical acceptance scheme to boost the acceptance rate while maintaining generation quality. We evaluate Medusa on models of various sizes and training procedures. Our experiments demonstrate that Medusa-1 can achieve over 2.2x speedup without compromising generation quality, while Medusa-2 further improves the speedup to 2.3-3.6x. | 翻訳日:2024-01-22 15:21:25 公開日:2024-01-19 |
# メモリデコヒーレンス存在下での分散表面符号のしきい値 Thresholds for the distributed surface code in the presence of memory decoherence ( http://arxiv.org/abs/2401.10770v1 ) ライセンス: Link先を確認 | S\'ebastian de Bone, Paul M\"oller, Conor E. Bradley, Tim H. Taminiau, David Elkouss | (参考訳) スケーラブルでフォールトトレラントな量子コンピューティングの探索において、分散量子コンピュータは有望な候補である。
これらのシステムは、大規模量子ネットワークで実現したり、近接したノードを持つ1つのチップに凝縮することができる。
本稿では,各データキュービットが分離ノードの一部であり,誤り検出性能はノード間で発生する4量子ビットgreenberger-horne-zeilinger(ghz)状態の品質に依存する,分散トーリック表面符号を用いたメモリチャネルの数値シミュレーションのためのフレームワークを提案する。
メモリデコヒーレンスの影響を定量的に検討し、デコヒーレンスレベルに合わせたGHZ生成プロトコルの利点を評価する。
我々は, 窒素空孔中心を実験的に評価したモデルを用いて, ダイヤモンド中の色中心の特定の場合の枠組みを適用した。
ダイヤモンド色中心では、エンタングルメント生成時のコヒーレンス時間は、アイドリングキュービットのコヒーレンス時間よりも桁違いに低い。
これらのコヒーレンス時間はアプリケーションの限界因子であるが、以前の表面コードシミュレーションではそのような扱いはされなかった。
顕著なノイズファクターとしてのコヒーレンス時間制限の導入は、現実的な演算時間をシミュレーションに統合し、演算スケジューリングの戦略を取り入れることが不可欠である。
本モデルでは,より理想的なノイズモデルを用いた前処理と比較して,ゲートと測定の誤差確率閾値を少なくとも3倍削減する。
また、エンタングルメント生成とデコヒーレンス率の比率が4\cdot10^2$のしきい値を示し、実験進捗のベンチマークを設定した。 In the search for scalable, fault-tolerant quantum computing, distributed quantum computers are promising candidates. These systems can be realized in large-scale quantum networks or condensed onto a single chip with closely situated nodes. We present a framework for numerical simulations of a memory channel using the distributed toric surface code, where each data qubit of the code is part of a separate node, and the error-detection performance depends on the quality of four-qubit Greenberger-Horne-Zeilinger (GHZ) states generated between the nodes. We quantitatively investigate the effect of memory decoherence and evaluate the advantage of GHZ creation protocols tailored to the level of decoherence. We do this by applying our framework for the particular case of color centers in diamond, employing models developed from experimental characterization of nitrogen-vacancy centers. For diamond color centers, coherence times during entanglement generation are orders of magnitude lower than coherence times of idling qubits. These coherence times represent a limiting factor for applications, but previous surface code simulations did not treat them as such. Introducing limiting coherence times as a prominent noise factor makes it imperative to integrate realistic operation times into simulations and incorporate strategies for operation scheduling. Our model predicts error probability thresholds for gate and measurement reduced by at least a factor of three compared to prior work with more idealized noise models. We also find a threshold of $4\cdot10^2$ in the ratio between the entanglement generation and the decoherence rates, setting a benchmark for experimental progress. | 翻訳日:2024-01-22 15:20:53 公開日:2024-01-19 |
# 知識整合的アライメントによる大規模言語モデルの幻覚の緩和 Mitigating Hallucinations of Large Language Models via Knowledge Consistent Alignment ( http://arxiv.org/abs/2401.10768v1 ) ライセンス: Link先を確認 | Fanqi Wan, Xinting Huang, Leyang Cui, Xiaojun Quan, Wei Bi, Shuming Shi | (参考訳) LLM(Large Language Models)は、アライメント後に様々なタスクにおいて例外的であることが証明されているが、それでも、文脈や世界の知識と矛盾する応答を生じる可能性がある。
本稿では,トレーニングデータにカプセル化されている外部知識と,事前学習コーパスに継承される内在知識との矛盾を解消することで,幻覚のアライメントを軽減できることを実証する。
具体的には,新しい知識一貫性アライメント(kca)アプローチを導入し,llmの理解にアクセスするための外部知識に基づいた試験を自動的に作成する。
知識の不整合を含むデータに対して、KCAはいくつかの単純かつ効率的な処理戦略を実装している。
異なるバックボーンとスケールのLSMを用いて6つのベンチマークで幻覚を緩和するKCA手法の優れた性能について述べる。
さらに,知識不整合と幻覚の相関性を確認し,幻覚の緩和における知識不整合の低減効果を示す。
私たちのコード、モデルウェイト、データは、 \url{https://github.com/fanqiwan/KCA}で公開されています。 While Large Language Models (LLMs) have proven to be exceptional on a variety of tasks after alignment, they may still produce responses that contradict the context or world knowledge confidently, a phenomenon known as ``hallucination''. In this paper, we demonstrate that reducing the inconsistency between the external knowledge encapsulated in the training data and the intrinsic knowledge inherited in the pretraining corpus could mitigate hallucination in alignment. Specifically, we introduce a novel knowledge consistent alignment (KCA) approach, which involves automatically formulating examinations based on external knowledge for accessing the comprehension of LLMs. For data encompassing knowledge inconsistency, KCA implements several simple yet efficient strategies for processing. We illustrate the superior performance of the proposed KCA approach in mitigating hallucinations across six benchmarks using LLMs of different backbones and scales. Furthermore, we confirm the correlation between knowledge inconsistency and hallucination, signifying the effectiveness of reducing knowledge inconsistency in alleviating hallucinations. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/KCA}. | 翻訳日:2024-01-22 15:20:26 公開日:2024-01-19 |
# starlit: プライバシー保護型フェデレーション学習で金融不正検出を強化 Starlit: Privacy-Preserving Federated Learning to Enhance Financial Fraud Detection ( http://arxiv.org/abs/2401.10765v1 ) ライセンス: Link先を確認 | Aydin Abadi, Bradley Doyle, Francesco Gini, Kieron Guinamard, Sasi Kumar Murakonda, Jack Liddell, Paul Mellor, Steven J. Murdoch, Mohammad Naseri, Hector Page, George Theodorakopoulos, Suzanne Weller | (参考訳) Federated Learning(FL)は、さまざまなクライアントとローカルデータ間の協調的なモデルトレーニングを可能にするデータ最小化アプローチである。
しかし、不正な金融取引を識別するための最先端のFLソリューションは、以下の制限のサブセットを示している。
They (1) lack a formal security definition and proof, (2) assume prior freezing of suspicious customers' accounts by financial institutions (limiting the solutions' adoption), (3) scale poorly, involving either $O(n^2)$ computationally expensive modular exponentiation (where $n$ is the total number of financial institutions) or highly inefficient fully homomorphic encryption, (4) assume the parties have already completed the identity alignment phase, hence excluding it from the implementation, performance evaluation, and security analysis, and (5) struggle to resist clients' dropouts.
この作業では,これらの制限を克服する,スケーラブルなプライバシ保護FL機構であるStarlitが導入されている。
金融詐欺の検出の強化、テロの緩和、デジタルヘルスの強化など、様々な応用がある。
我々はstarlitを実装し,グローバル金融取引におけるキープレイヤーの合成データを用いて詳細なパフォーマンス分析を行った。
評価はstarlitのスケーラビリティ、効率、正確性を示している。 Federated Learning (FL) is a data-minimization approach enabling collaborative model training across diverse clients with local data, avoiding direct data exchange. However, state-of-the-art FL solutions to identify fraudulent financial transactions exhibit a subset of the following limitations. They (1) lack a formal security definition and proof, (2) assume prior freezing of suspicious customers' accounts by financial institutions (limiting the solutions' adoption), (3) scale poorly, involving either $O(n^2)$ computationally expensive modular exponentiation (where $n$ is the total number of financial institutions) or highly inefficient fully homomorphic encryption, (4) assume the parties have already completed the identity alignment phase, hence excluding it from the implementation, performance evaluation, and security analysis, and (5) struggle to resist clients' dropouts. This work introduces Starlit, a novel scalable privacy-preserving FL mechanism that overcomes these limitations. It has various applications, such as enhancing financial fraud detection, mitigating terrorism, and enhancing digital health. We implemented Starlit and conducted a thorough performance analysis using synthetic data from a key player in global financial transactions. The evaluation indicates Starlit's scalability, efficiency, and accuracy. | 翻訳日:2024-01-22 15:20:06 公開日:2024-01-19 |
# NN-VVC: マシンの自己教師付き画像符号化によりビデオ符号化が強化 NN-VVC: Versatile Video Coding boosted by self-supervisedly learned image coding for machines ( http://arxiv.org/abs/2401.10761v1 ) ライセンス: Link先を確認 | Jukka I. Ahonen, Nam Le, Honglei Zhang, Antti Hallapuro, Francesco Cricri, Hamed Rezazadegan Tavakoli, Miska M. Hannuksela, Esa Rahtu | (参考訳) 近年の人工知能の進歩は、ニューラルネットワークを中心に、機械解析アルゴリズムによる画像やビデオの利用をますます増加させている。
それでも、メディアの圧縮、保存、送信は伝統的にコンテンツの視聴者として人間を考慮して設計されてきた。
機械解析のための画像と映像の符号化に関する最近の研究は、主に2つのほぼ直交方向に進んでいる。
1つ目はエンドツーエンド(E2E)の学習コーデックであり、画像符号化のパフォーマンスは高いが、従来のビデオコーデックに匹敵せず、相互運用性に欠ける。
第2の方向性は、VVC(Versatile Video Coding)標準または他の従来のビデオコーデック(CVC)と、マシン分析を対象とする前処理と後処理の操作を併用することである。
CVCベースの手法はインターオペラビリティと幅広いハードウェアとソフトウェアのサポートの恩恵を受けるが、特に低ビットレートにおいて、マシンタスクのパフォーマンスは望ましいレベルよりも低い。
本稿では, NN-VVC と呼ばれるマシン用ハイブリッドコーデックを提案する。このコーデックは, E2E 学習画像コーデックと CVC の利点を組み合わせて, マシン用画像符号化とビデオ符号化の両方において高い性能を実現する。
実験の結果,複数の異なるデータセットとマシンビジョンタスクで評価した場合,提案方式はvvcよりも-43.20%,-26.8%のbj{\o}ntegaardデルタレート低下を達成した。
我々の知る限りでは、複数のデータセットと複数のマシンビジョンタスクでVVCを上回るパフォーマンスを持つハイブリッドビデオコーデックを示す最初の研究論文である。 The recent progress in artificial intelligence has led to an ever-increasing usage of images and videos by machine analysis algorithms, mainly neural networks. Nonetheless, compression, storage and transmission of media have traditionally been designed considering human beings as the viewers of the content. Recent research on image and video coding for machine analysis has progressed mainly in two almost orthogonal directions. The first is represented by end-to-end (E2E) learned codecs which, while offering high performance on image coding, are not yet on par with state-of-the-art conventional video codecs and lack interoperability. The second direction considers using the Versatile Video Coding (VVC) standard or any other conventional video codec (CVC) together with pre- and post-processing operations targeting machine analysis. While the CVC-based methods benefit from interoperability and broad hardware and software support, the machine task performance is often lower than the desired level, particularly in low bitrates. This paper proposes a hybrid codec for machines called NN-VVC, which combines the advantages of an E2E-learned image codec and a CVC to achieve high performance in both image and video coding for machines. Our experiments show that the proposed system achieved up to -43.20% and -26.8% Bj{\o}ntegaard Delta rate reduction over VVC for image and video data, respectively, when evaluated on multiple different datasets and machine vision tasks. To the best of our knowledge, this is the first research paper showing a hybrid video codec that outperforms VVC on multiple datasets and multiple machine vision tasks. | 翻訳日:2024-01-22 15:19:46 公開日:2024-01-19 |
# プロンプト問題とのインタラクション:大規模言語モデルによるプログラミング教育の新しい方法 Interactions with Prompt Problems: A New Way to Teach Programming with Large Language Models ( http://arxiv.org/abs/2401.10759v1 ) ライセンス: Link先を確認 | James Prather, Paul Denny, Juho Leinonen, David H. Smith IV, Brent N. Reeves, Stephen MacNeil, Brett A. Becker, Andrew Luxton-Reilly, Thezyrie Amarouche, Bailey Kimmel | (参考訳) 大規模言語モデル(llm)は、コンピュータ教育において数十年にわたって教育されてきた。
学生は以前、コード読み込みと理解に重点を置いている小さな問題の多くを、textit{writing}を通じてプログラミングすることを学びました。
近年の研究では、llmsを用いたフリーコード生成ツールが自然言語で提示される入門的プログラミング問題を容易に解決できることが示されている。
本稿では,プロンプト問題を用いてプログラミングを教える新しい方法を提案する。
学生は視覚的に問題を受け取り、入力を出力に変換する方法を示し、それをllmが解読するプロンプトに変換する必要がある。
この問題は、学生プロンプトによって生成されたコードが全てのテストケースをパスできる場合、正しいと考えられる。
本稿では,このツールの設計について述べるとともに,学習中の学生とのインタラクションを考察するとともに,llmを統合した新しいプログラミング問題や設計ツールについて考察する。 Large Language Models (LLMs) have upended decades of pedagogy in computing education. Students previously learned to code through \textit{writing} many small problems with less emphasis on code reading and comprehension. Recent research has shown that free code generation tools powered by LLMs can solve introductory programming problems presented in natural language with ease. In this paper, we propose a new way to teach programming with Prompt Problems. Students receive a problem visually, indicating how input should be transformed to output, and must translate that to a prompt for an LLM to decipher. The problem is considered correct when the code that is generated by the student prompt can pass all test cases. In this paper we present the design of this tool, discuss student interactions with it as they learn, and provide insights into this new class of programming problems as well as the design tools that integrate LLMs. | 翻訳日:2024-01-22 15:19:17 公開日:2024-01-19 |
# 多重関係を持つハイパーグラフに基づくコードレビュア勧告 Code Reviewer Recommendation Based on a Hypergraph with Multiplex Relationships ( http://arxiv.org/abs/2401.10755v1 ) ライセンス: Link先を確認 | Yu Qiao, Jian Wang, Can Cheng, Wei Tang, Peng Liang, Yuqi Zhao, Bing Li | (参考訳) コードレビューはソフトウェア開発の重要なコンポーネントであり、コード変更の包括的なチェックを保証する上で重要な役割を果たす。
しかし、プルリクエストの継続的な流入と利用可能なレビュア候補の限られたプールは、レビュープロセスに重大な課題をもたらし、各レビューリクエストに適切なレビュアを割り当てる作業はますます困難になる。
この問題に対処するために、多重関係を持つハイパーグラフを利用する新しいコードレビュアレコメンデーション手法であるMIRRecを提案する。
MIRRecは、プルリクエストと開発者間の学位なしハイパーエッジを使用して、従来のペアワイズ接続を超える高次相関をエンコードする。
これにより、高次の暗黙の接続をキャプチャし、潜在的なレビュアーを特定することができる。
MIRRecの有効性を検証するために、GitHubにホストされている10の人気のあるオープンソースプロジェクトからの48,374のプルリクエストからなるデータセットを用いて実験を行った。
実験の結果,特にPR-レビューコメンテータの関係がないMIRRecは,ACCとMRRの観点から既存のコードレビュア推奨手法よりも優れており,コードレビュープロセスの改善におけるその意義を強調している。 Code review is an essential component of software development, playing a vital role in ensuring a comprehensive check of code changes. However, the continuous influx of pull requests and the limited pool of available reviewer candidates pose a significant challenge to the review process, making the task of assigning suitable reviewers to each review request increasingly difficult. To tackle this issue, we present MIRRec, a novel code reviewer recommendation method that leverages a hypergraph with multiplex relationships. MIRRec encodes high-order correlations that go beyond traditional pairwise connections using degree-free hyperedges among pull requests and developers. This way, it can capture high-order implicit connectivity and identify potential reviewers. To validate the effectiveness of MIRRec, we conducted experiments using a dataset comprising 48,374 pull requests from ten popular open-source software projects hosted on GitHub. The experiment results demonstrate that MIRRec, especially without PR-Review Commenters relationship, outperforms existing stateof-the-art code reviewer recommendation methods in terms of ACC and MRR, highlighting its significance in improving the code review process. | 翻訳日:2024-01-22 15:19:00 公開日:2024-01-19 |
# カテゴリレベルオブジェクトポーズ推定のためのソースフリーかつ画像のみの教師なしドメイン適応 Source-Free and Image-Only Unsupervised Domain Adaptation for Category Level Object Pose Estimation ( http://arxiv.org/abs/2401.10848v1 ) ライセンス: Link先を確認 | Prakhar Kaushik, Aayush Mishra, Adam Kortylewski, Alan Yuille | (参考訳) 本稿では,RGB画像のみからターゲットドメインへの変換時に,ソースドメインデータや3Dアノテーションにアクセスせずに,ソースフリーなカテゴリレベルのポーズ推定を行う問題について考察する。
実世界の3Dデータとそれに対応する画像の収集と注釈付けは、複雑で費用がかかるが避けられないプロセスである。
3Dデータや深度データを使わずに、ニュアンスドライディングされたターゲットドメインに適応できる3DUDAを導入する。
我々の重要な洞察は、特定のオブジェクトサブパートメントがドメイン外(OOD)シナリオ全体にわたって安定したままであり、効果的なモデル更新のためにこれらの不変サブコンポーネントの戦略的利用を可能にすることに起因しています。
対象カテゴリを単純な立方体メッシュとして表現し、差分レンダリングを用いて学習した各メッシュ頂点でモデル化されたニューラル特徴アクティベーションの生成モデルを利用する。
我々は、局所的に堅牢なメッシュ頂点の特徴に着目し、グローバルなポーズが正しくない場合でも、ターゲット領域の対応する特徴に近接して繰り返し更新する。
我々のモデルはEM方式で訓練され、頂点特徴と特徴抽出器の更新を交互に行う。
本手法は,対象領域に漸近的に収束する軽度仮定下でのグローバル擬似ラベルデータセットの微調整をシミュレートする。
実際のノイズ、合成ノイズ、閉塞を組み合わせた複雑なUDA構成を含む広範な実証的検証を通じて、我々は、ドメインシフト問題に対処し、ポーズ推定精度を大幅に改善する簡単なアプローチの有効性を実証する。 We consider the problem of source-free unsupervised category-level pose estimation from only RGB images to a target domain without any access to source domain data or 3D annotations during adaptation. Collecting and annotating real-world 3D data and corresponding images is laborious, expensive, yet unavoidable process, since even 3D pose domain adaptation methods require 3D data in the target domain. We introduce 3DUDA, a method capable of adapting to a nuisance-ridden target domain without 3D or depth data. Our key insight stems from the observation that specific object subparts remain stable across out-of-domain (OOD) scenarios, enabling strategic utilization of these invariant subcomponents for effective model updates. We represent object categories as simple cuboid meshes, and harness a generative model of neural feature activations modeled at each mesh vertex learnt using differential rendering. We focus on individual locally robust mesh vertex features and iteratively update them based on their proximity to corresponding features in the target domain even when the global pose is not correct. Our model is then trained in an EM fashion, alternating between updating the vertex features and the feature extractor. We show that our method simulates fine-tuning on a global pseudo-labeled dataset under mild assumptions, which converges to the target domain asymptotically. Through extensive empirical validation, including a complex extreme UDA setup which combines real nuisances, synthetic noise, and occlusion, we demonstrate the potency of our simple approach in addressing the domain shift challenge and significantly improving pose estimation accuracy. | 翻訳日:2024-01-22 15:11:36 公開日:2024-01-19 |
# ソフトウェア工学テキストにおける感情分類:事前学習されたトランスフォーマー言語モデルの比較分析 Emotion Classification In Software Engineering Texts: A Comparative Analysis of Pre-trained Transformers Language Models ( http://arxiv.org/abs/2401.10845v1 ) ライセンス: Link先を確認 | Mia Mohammad Imran | (参考訳) ソフトウェア工学のテキストにおける感情認識は、開発者表現の理解とコラボレーションの改善に不可欠である。
本稿では,github と stack overflow の2つのベンチマークデータセットにおけるきめ細かな感情分類のための最先端事前学習言語モデル (ptm) の比較分析を行う。
我々は、現在最高のパフォーマンスツールであるSEntiMojiに対して、BERT、RoBERTa、ALBERT、DeBERTa、CodeBERT、GraphCodeBERTの6つのトランスフォーマーモデルを評価する。
分析の結果、マクロ平均値とマイクロ平均値のF1スコアは1.17\%から16.79\%まで一貫した改善が見られ、一般のドメインモデルは特殊値よりも優れていた。
PTMをさらに強化するために、トレーニング中に注意層に極性特性を取り入れ、ベースラインのPTMアプローチよりも1.0\%から10.23\%の平均ゲインを増すことを示した。
私たちの研究は、ソフトウェアエンジニアリングの文脈において、怒り、愛、恐怖、喜び、悲しみ、驚きといったニュアンス的な感情を認識するptmが与えた進歩の強力な証拠を提供します。
包括的なベンチマークとエラー解析を通じて、コンテキストギャップに対処するための改善のスコープを概説する。 Emotion recognition in software engineering texts is critical for understanding developer expressions and improving collaboration. This paper presents a comparative analysis of state-of-the-art Pre-trained Language Models (PTMs) for fine-grained emotion classification on two benchmark datasets from GitHub and Stack Overflow. We evaluate six transformer models - BERT, RoBERTa, ALBERT, DeBERTa, CodeBERT and GraphCodeBERT against the current best-performing tool SEntiMoji. Our analysis reveals consistent improvements ranging from 1.17\% to 16.79\% in terms of macro-averaged and micro-averaged F1 scores, with general domain models outperforming specialized ones. To further enhance PTMs, we incorporate polarity features in attention layer during training, demonstrating additional average gains of 1.0\% to 10.23\% over baseline PTMs approaches. Our work provides strong evidence for the advancements afforded by PTMs in recognizing nuanced emotions like Anger, Love, Fear, Joy, Sadness, and Surprise in software engineering contexts. Through comprehensive benchmarking and error analysis, we also outline scope for improvements to address contextual gaps. | 翻訳日:2024-01-22 15:11:10 公開日:2024-01-19 |
# LLMを用いた過激派ソーシャルメディアにおける反ユダヤ的ヘイトスピーチの出現 Using LLMs to discover emerging coded antisemitic hate-speech emergence in extremist social media ( http://arxiv.org/abs/2401.10841v1 ) ライセンス: Link先を確認 | Dhanush Kikkisetti, Raza Ul Mustafa, Wendy Melillo, Roberto Corizzo, Zois Boukouvalas, Jeff Gill and Nathalie Japkowicz | (参考訳) オンラインヘイトスピーチの拡散は、ソーシャルメディアプラットフォームにとって難しい問題を生み出した。
特定の課題は、ユーザに対する所有意識の創造と検出の回避の両方に関心を持つグループによる符号化言語の使用に関連している。
コード言語は急速に進化し、その用途は時間とともに変化する。
本稿では,ヘイトレーデン用語の出現を検知する手法を提案する。
この方法論は、オンラインの反ユダヤ的談話の文脈でテストされる。
このアプローチでは、ソーシャルメディアプラットフォームから削除された投稿を考慮し、過激派ユーザーがしばしば使用する。
ポストは、以前知られていたユダヤ人に対する憎しみの談話に関連する種表現を使ってスクラップされる。
この方法は、各ポストの最も代表的な表現を識別し、コーパス全体の頻度を計算することから始まる。
文法的に一貫性のない表現や、以前に遭遇した表現をフィルターして、創発的なよく形づくられた用語に焦点を合わせる。
続いて、微調整された大言語モデルを用いて、既知の反ユダヤ的用語と意味的類似性を評価し、その後、既知の憎しみの表現から遠すぎる表現をフィルタリングする。
ユダヤ人の話題に関する明確な用語を含む創発的な反ユダヤ表現は、憎悪のコーディングされた表現のみを返すために削除される。 Online hate speech proliferation has created a difficult problem for social media platforms. A particular challenge relates to the use of coded language by groups interested in both creating a sense of belonging for its users and evading detection. Coded language evolves quickly and its use varies over time. This paper proposes a methodology for detecting emerging coded hate-laden terminology. The methodology is tested in the context of online antisemitic discourse. The approach considers posts scraped from social media platforms, often used by extremist users. The posts are scraped using seed expressions related to previously known discourse of hatred towards Jews. The method begins by identifying the expressions most representative of each post and calculating their frequency in the whole corpus. It filters out grammatically incoherent expressions as well as previously encountered ones so as to focus on emergent well-formed terminology. This is followed by an assessment of semantic similarity to known antisemitic terminology using a fine-tuned large language model, and subsequent filtering out of the expressions that are too distant from known expressions of hatred. Emergent antisemitic expressions containing terms clearly relating to Jewish topics are then removed to return only coded expressions of hatred. | 翻訳日:2024-01-22 15:10:47 公開日:2024-01-19 |
# コードの品質要件:保守性仕様の未解決可能性について Quality Requirements for Code: On the Untapped Potential in Maintainability Specifications ( http://arxiv.org/abs/2401.10833v1 ) ライセンス: Link先を確認 | Markus Borg | (参考訳) ソフトウェアエンジニアリングの成功には品質要件が不可欠で、メンテナンス性は重要な内部品質になります。
ソフトウェアメトリクスの研究において大きな注目を集めているにもかかわらず、メンテナンス性は、Requirements Engineering (RE)コミュニティにおいて驚くほどほとんど注目されていない。
本稿では、コード指向研究とREの専門知識を組み合わせて、有意義な産業的影響を生み出すための相乗的アプローチを提案する。
6つの実例を紹介し,今後の3つの研究方向を提案する。
その結果,品質目標の設定を目的としたQUPERモデルは,保守性というユニークな側面に適切に対応していないことがわかった。 Quality requirements are critical for successful software engineering, with maintainability being a key internal quality. Despite significant attention in software metrics research, maintainability has attracted surprisingly little focus in the Requirements Engineering (RE) community. This position paper proposes a synergistic approach, combining code-oriented research with RE expertise, to create meaningful industrial impact. We introduce six illustrative use cases and propose three future research directions. Preliminary findings indicate that the established QUPER model, designed for setting quality targets, does not adequately address the unique aspects of maintainability. | 翻訳日:2024-01-22 15:10:29 公開日:2024-01-19 |
# ユニバーサルコンセプト発見によるビデオトランスフォーマーの理解 Understanding Video Transformers via Universal Concept Discovery ( http://arxiv.org/abs/2401.10831v1 ) ライセンス: Link先を確認 | Matthew Kowal, Achal Dave, Rares Ambrus, Adrien Gaidon, Konstantinos G. Derpanis, Pavel Tokmakov | (参考訳) 本稿では,映像におけるトランスフォーマティブ表現の概念に基づく解釈可能性の問題について検討する。
具体的には、自動で検出される高レベルな時空間概念に基づいて、ビデオトランスフォーマーの決定過程を説明する。
概念に基づく解釈可能性に関する以前の研究は、画像レベルのタスクのみに集中していた。
相対的に、ビデオモデルは時間的次元の追加、複雑さの増大、時間とともに動的な概念を特定する上での課題を扱います。
本稿では,ビデオトランスフォーマー概念発見(VTCD)アルゴリズムを導入することで,これらの課題を体系的に解決する。
そこで本研究では,ビデオトランスフォーマー表現の単位を教師なしで識別する手法を提案し,その重要性をモデルの出力にランク付けする。
結果として得られる概念は高度に解釈可能であり、非構造化ビデオモデルにおける時空間推論機構とオブジェクト中心表現を明らかにする。
この解析を様々な教師付き表現と自己教師付き表現で共同で行うことで,ビデオトランスフォーマーにおいて,これらのメカニズムのいくつかが普遍的であることを見出した。
最後に,VTCDは細粒度タスクのモデル性能向上に有効であることを示す。 This paper studies the problem of concept-based interpretability of transformer representations for videos. Concretely, we seek to explain the decision-making process of video transformers based on high-level, spatiotemporal concepts that are automatically discovered. Prior research on concept-based interpretability has concentrated solely on image-level tasks. Comparatively, video models deal with the added temporal dimension, increasing complexity and posing challenges in identifying dynamic concepts over time. In this work, we systematically address these challenges by introducing the first Video Transformer Concept Discovery (VTCD) algorithm. To this end, we propose an efficient approach for unsupervised identification of units of video transformer representations - concepts, and ranking their importance to the output of a model. The resulting concepts are highly interpretable, revealing spatio-temporal reasoning mechanisms and object-centric representations in unstructured video models. Performing this analysis jointly over a diverse set of supervised and self-supervised representations, we discover that some of these mechanism are universal in video transformers. Finally, we demonstrate that VTCDcan be used to improve model performance for fine-grained tasks. | 翻訳日:2024-01-22 15:10:21 公開日:2024-01-19 |
# 名前付きエンティティ認識の最近の進歩に関する調査 A survey on recent advances in named entity recognition ( http://arxiv.org/abs/2401.10825v1 ) ライセンス: Link先を確認 | Imed Keraghel and Stanislas Morbieu and Mohamed Nadif | (参考訳) Named Entity Recognitionは、現実世界のオブジェクトを名付けるテキスト内でサブストリングを抽出し、それらのタイプ(例えば、人や組織を指すかどうか)を決定する。
本稿では,近年の一般的なアプローチの概要を紹介するとともに,他の調査ではあまり取り上げられていない大規模言語モデル(LLM)を含むグラフおよびトランスフォーマーベースの手法についても考察する。
第二に、アノテーションの少ないデータセット用に設計された手法に焦点を当てる。
第3に,異なる特徴(ドメイン,サイズ,クラス数など)を持つデータセットに対して,主要なNER実装の性能を評価する。
したがって、一緒に考慮されないアルゴリズムの深い比較を提供する。
私たちの実験では、データセットの特徴が、比較したメソッドの振る舞いにどのように影響するかについて光を当てました。 Named Entity Recognition seeks to extract substrings within a text that name real-world objects and to determine their type (for example, whether they refer to persons or organizations). In this survey, we first present an overview of recent popular approaches, but we also look at graph- and transformer- based methods including Large Language Models (LLMs) that have not had much coverage in other surveys. Second, we focus on methods designed for datasets with scarce annotations. Third, we evaluate the performance of the main NER implementations on a variety of datasets with differing characteristics (as regards their domain, their size, and their number of classes). We thus provide a deep comparison of algorithms that are never considered together. Our experiments shed some light on how the characteristics of datasets affect the behavior of the methods that we compare. | 翻訳日:2024-01-22 15:10:03 公開日:2024-01-19 |
# FSO量子ネットワークにおける再構成可能なインテリジェントサーフェス(RIS)支援エンタングルメント分布 Reconfigurable Intelligent Surface (RIS)-Assisted Entanglement Distribution in FSO Quantum Networks ( http://arxiv.org/abs/2401.10823v1 ) ライセンス: Link先を確認 | Mahdi Chehimi, Mohamed Elhattab, Walid Saad, Gayane Vardoyan, Nitish K. Panigrahy, Chadi Assi, Don Towsley | (参考訳) 自由空間光(FSO)量子チャネルに依存する量子ネットワーク(QN)は、光ファイバー基盤の確立が困難でコストがかかる環境における量子アプリケーションをサポートすることができる。
しかし、FSOベースのQNは、ユーザ間の明確な視線(LoS)を必要とする。
本稿では,ユーザ間で仮想LoSを提供するコスト効率の高いフレームワークとして,再構成可能なインテリジェントサーフェス(RIS)を用いたFSOベースのQNを提案する。
大気の損失、乱流、ポインティングエラーによって定義されるFSOチャネル上での量子状態による量子ノイズと損失をモデル化する。
そして、不均一な絡み合い率と忠実度制約の下で、絡み合い分布とRIS配置問題の合同最適化を定式化する。
この問題はシミュレートされたアニーリングメタヒューリスティックアルゴリズムを用いて解決される。
シミュレーションの結果,提案フレームワークは全ユーザの量子アプリケーションの最小忠実度要件を効果的に満たしていることがわかった。
これは、エンド・ツー・エンドのフィデリティの少なくとも83%の減少につながるベースラインアルゴリズムとは対照的である。
提案フレームワークは,ベースラインレートの最大化フレームワークと比較して,ユーザ間の公平度レベルが64%向上する。
最後に、雨などの気象条件は、誤差や乱気流を指さすよりも大きな効果があることが観察される。 Quantum networks (QNs) relying on free-space optical (FSO) quantum channels can support quantum applications in environments wherein establishing an optical fiber infrastructure is challenging and costly. However, FSO-based QNs require a clear line-of-sight (LoS) between users, which is challenging due to blockages and natural obstacles. In this paper, a reconfigurable intelligent surface (RIS)-assisted FSO-based QN is proposed as a cost-efficient framework providing a virtual LoS between users for entanglement distribution. A novel modeling of the quantum noise and losses experienced by quantum states over FSO channels defined by atmospheric losses, turbulence, and pointing errors is derived. Then, the joint optimization of entanglement distribution and RIS placement problem is formulated, under heterogeneous entanglement rate and fidelity constraints. This problem is solved using a simulated annealing metaheuristic algorithm. Simulation results show that the proposed framework effectively meets the minimum fidelity requirements of all users' quantum applications. This is in stark contrast to baseline algorithms that lead to a drop of at least 83% in users' end-to-end fidelities. The proposed framework also achieves a 64% enhancement in the fairness level between users compared to baseline rate maximizing frameworks. Finally, the weather conditions, e.g., rain, are observed to have a more significant effect than pointing errors and turbulence. | 翻訳日:2024-01-22 15:09:50 公開日:2024-01-19 |
# ActAnywhere:主観的ビデオ背景生成 ActAnywhere: Subject-Aware Video Background Generation ( http://arxiv.org/abs/2401.10822v1 ) ライセンス: Link先を確認 | Boxiao Pan, Zhan Xu, Chun-Hao Paul Huang, Krishna Kumar Singh, Yang Zhou, Leonidas J. Guibas, Jimei Yang | (参考訳) 映画産業や視覚効果コミュニティにとって,前景運動に合わせた映像背景の生成は重要な課題である。
このタスクは、フォアグラウンドの主題の動きや外観に合わせて背景を合成すると同時に、アーティストの創造的な意図にも合致する。
私たちは、伝統的に面倒な手作業を必要とするこのプロセスを自動化する生成モデルであるActAnywhereを紹介します。
本モデルは,大規模ビデオ拡散モデルのパワーを活用し,この課題に特化している。
actanywhereは、前景テーマセグメンテーションのシーケンスを入力とし、所望のシーンを条件として表現した画像を作成し、条件フレームに固執しながら、現実的な前景バックグランドインタラクションを備えたコヒーレントビデオを生成する。
我々は、人間とシーンのインタラクションビデオの大規模データセットでモデルをトレーニングする。
大規模な評価は,本モデルの優れた性能を示し,ベースラインを著しく上回る結果となった。
さらに,ActAnywhereは,非人体を含む多様な分布外サンプルに一般化されていることを示す。
プロジェクトのwebページはhttps://actanywhere.github.io.com/でどうぞ。 Generating video background that tailors to foreground subject motion is an important problem for the movie industry and visual effects community. This task involves synthesizing background that aligns with the motion and appearance of the foreground subject, while also complies with the artist's creative intention. We introduce ActAnywhere, a generative model that automates this process which traditionally requires tedious manual efforts. Our model leverages the power of large-scale video diffusion models, and is specifically tailored for this task. ActAnywhere takes a sequence of foreground subject segmentation as input and an image that describes the desired scene as condition, to produce a coherent video with realistic foreground-background interactions while adhering to the condition frame. We train our model on a large-scale dataset of human-scene interaction videos. Extensive evaluations demonstrate the superior performance of our model, significantly outperforming baselines. Moreover, we show that ActAnywhere generalizes to diverse out-of-distribution samples, including non-human subjects. Please visit our project webpage at https://actanywhere.github.io. | 翻訳日:2024-01-22 15:09:30 公開日:2024-01-19 |
# ニューロシンボリック学習システムの最適化 Optimisation in Neurosymbolic Learning Systems ( http://arxiv.org/abs/2401.10819v1 ) ライセンス: Link先を確認 | Emile van Krieken | (参考訳) Neurosymbolic AIは、ディープラーニングとシンボリックAIを統合することを目指している。
この統合には、ニューラルネットワークのトレーニングに必要なデータ量の削減、モデルによって与えられる答えの説明可能性と解釈可能性の向上、トレーニングされたシステムの正確性検証など、多くの約束がある。
我々は、記号言語を用いて表現されたデータと背景知識の両方を持つニューロシンボリック学習を研究する。
この知識を伝達するために、シンボリックコンポーネントとニューラルコンポーネントをどうやって結合するか?
一つの選択肢は、真理の程度を研究するファジィ推論である。
例えば、背が高いことはバイナリの概念ではない。
その代わり、確率的推論は、何かが真実である、または起こる確率を研究する。
我々の最初の研究は、ファジィ推論の異なる形態が学習とどのように結合するかである。
緑色のリンゴを観察すると、レイヴンパラドックスと接続して「レイヴンが黒い」ことを確認するという驚くべき結果が得られます。
本研究では,トレーニング後にモデルをデプロイしたとき,背景知識は使用しなかった。
第2の研究質問では,デプロイモデルにおけるバックグラウンド知識の利用方法を検討した。
我々はファジィ推論に基づく新しいニューラルネットワーク層を開発した。
確率的推論は、通常確率的になるようにトレーニングされるニューラルネットワークに自然に適合する。
しかし、計算には費用がかかり、大規模なタスクにはスケールしない。
第3の研究質問では、確率的推論とニューラルネットワークをサンプリングして平均値を推定する方法を調査し、最終研究質問では、確率的ニューロシンボリック学習を以前よりもはるかに大きな問題にスケールする方法について研究した。
我々の洞察は、確率的推論の結果を予測するために、合成データでニューラルネットワークを訓練することです。 Neurosymbolic AI aims to integrate deep learning with symbolic AI. This integration has many promises, such as decreasing the amount of data required to train a neural network, improving the explainability and interpretability of answers given by models and verifying the correctness of trained systems. We study neurosymbolic learning, where we have both data and background knowledge expressed using symbolic languages. How do we connect the symbolic and neural components to communicate this knowledge? One option is fuzzy reasoning, which studies degrees of truth. For example, being tall is not a binary concept. Instead, probabilistic reasoning studies the probability that something is true or will happen. Our first research question studies how different forms of fuzzy reasoning combine with learning. We find surprising results like a connection to the Raven paradox stating we confirm "ravens are black" when we observe a green apple. In this study, we did not use the background knowledge when we deployed our models after training. In our second research question, we studied how to use background knowledge in deployed models. We developed a new neural network layer based on fuzzy reasoning. Probabilistic reasoning is a natural fit for neural networks, which we usually train to be probabilistic. However, they are expensive to compute and do not scale well to large tasks. In our third research question, we study how to connect probabilistic reasoning with neural networks by sampling to estimate averages, while in the final research question, we study scaling probabilistic neurosymbolic learning to much larger problems than before. Our insight is to train a neural network with synthetic data to predict the result of probabilistic reasoning. | 翻訳日:2024-01-22 15:09:11 公開日:2024-01-19 |
# 健康のためのコパイロット:健康結果を改善するためにパーソナライズされたアルゴリズムai Co-Pilot for Health: Personalized Algorithmic AI Nudging to Improve Health Outcomes ( http://arxiv.org/abs/2401.10816v1 ) ライセンス: Link先を確認 | Jodi Chiam, Aloysius Lim, Cheryl Nott, Nicholas Mark, Ankur Teredesai, Sunil Shinde | (参考訳) 大規模な人口の健康行動を自動的に形作る能力は、ウェアラブルのタイプや病気の状況にまたがって、世界的な健康結果を改善する大きな可能性を秘めている。
我々は、gnn(graph-neural network)ベースのレコメンデーションシステムと、ウェアラブルフィットネスデバイスからの粒度の健康行動データによって実現される、デジタルアルゴリズムによるナジングのためのai駆動プラットフォームを設計し、実装した。
ここでは,シンガポールで12週間の期間に,パーソナライズおよびコンテキストヌーディングをn=84,764ドルの個人に対して行うことで,このプラットフォームの有効性について述べる。
このようなaiを最適化した毎日のナッジを受けた対象グループの参加者は、ステップ数(p = 3.09\times10^{-4}$)のような日々の身体活動が6.17%増加し、中等度から活発な身体活動(mvpa)が1週間に7.61%(p = 1.16\times10^{-2}$)上昇したことを統計的に検証した。
さらに、これらのナッジの13.1%が開封(開封率)され、開封されたナッジの11.7%が有用であり、1.9%は役に立たないと評価され、人口レベルのエンゲージメント指標が大幅に向上した。 The ability to shape health behaviors of large populations automatically, across wearable types and disease conditions at scale has tremendous potential to improve global health outcomes. We designed and implemented an AI driven platform for digital algorithmic nudging, enabled by a Graph-Neural Network (GNN) based Recommendation System, and granular health behavior data from wearable fitness devices. Here we describe the efficacy results of this platform with its capabilities of personalized and contextual nudging to $n=84,764$ individuals over a 12-week period in Singapore. We statistically validated that participants in the target group who received such AI optimized daily nudges increased daily physical activity like step count by 6.17% ($p = 3.09\times10^{-4}$) and weekly minutes of Moderate to Vigorous Physical Activity (MVPA) by 7.61% ($p = 1.16\times10^{-2}$), compared to matched participants in control group who did not receive any nudges. Further, such nudges were very well received, with a 13.1% of nudges sent being opened (open rate), and 11.7% of the opened nudges rated useful compared to 1.9% rated as not useful thereby demonstrating significant improvement in population level engagement metrics. | 翻訳日:2024-01-22 15:08:48 公開日:2024-01-19 |
# RAD-DINO:テキストスーパービジョンを超えたスケーラブルな医療画像エンコーダ RAD-DINO: Exploring Scalable Medical Image Encoders Beyond Text Supervision ( http://arxiv.org/abs/2401.10815v1 ) ライセンス: Link先を確認 | Fernando P\'erez-Garc\'ia, Harshita Sharma, Sam Bond-Taylor, Kenza Bouzid, Valentina Salvatelli, Maximilian Ilse, Shruthi Bannur, Daniel C. Castro, Anton Schwaighofer, Matthew P. Lungren, Maria Wetscherek, Noel Codella, Stephanie L. Hyland, Javier Alvarez-Valle, Ozan Oktay | (参考訳) 言語教師付き事前学習は、画像から意味的に意味のある特徴を抽出し、コンピュータビジョンおよび医療画像領域におけるマルチモーダルシステムの基本要素として有用であることが証明されている。
しかし、結果として得られる特徴はテキストに含まれる情報によって制限される。
これは医学画像学において特に問題であり、放射線技師の発見は特定の観察に焦点を当てており、個人の健康情報の漏洩に関する懸念から、ペア画像テキストデータの不足によって複雑化されている。
本研究は,汎用バイオメディカルイメージングエンコーダを学習するための言語指導の要点に根本的に挑戦する。
rad-dinoは単調なバイオメディカルイメージングデータのみに基づいて事前トレーニングされたバイオメディカル画像エンコーダで,最先端のバイオメディカル言語教師モデルと同等あるいはそれ以上のパフォーマンスを,さまざまなベンチマークで実現する。
具体的には、標準撮像タスク(分類と意味セグメンテーション)と視覚言語アライメントタスク(画像からのテキストレポート生成)で学習表現の品質を評価する。
言語指導の欠点をさらに示すために,RAD-DINOの特徴と他の医療記録(性別や年齢など)との相関が,一般的にはラジオロジー報告に言及されていない言語監督モデルよりも優れていることを示す。
最後に, RAD-DINOの下流性能はトレーニングデータの量や多様性とよく一致し, 基礎的なバイオメディカル画像エンコーダをトレーニングするための, 画像のみの監督がスケーラブルなアプローチであることを実証する。 Language-supervised pre-training has proven to be a valuable method for extracting semantically meaningful features from images, serving as a foundational element in multimodal systems within the computer vision and medical imaging domains. However, resulting features are limited by the information contained within the text. This is particularly problematic in medical imaging, where radiologists' written findings focus on specific observations; a challenge compounded by the scarcity of paired imaging-text data due to concerns over leakage of personal health information. In this work, we fundamentally challenge the prevailing reliance on language supervision for learning general purpose biomedical imaging encoders. We introduce RAD-DINO, a biomedical image encoder pre-trained solely on unimodal biomedical imaging data that obtains similar or greater performance than state-of-the-art biomedical language supervised models on a diverse range of benchmarks. Specifically, the quality of learned representations is evaluated on standard imaging tasks (classification and semantic segmentation), and a vision-language alignment task (text report generation from images). To further demonstrate the drawback of language supervision, we show that features from RAD-DINO correlate with other medical records (e.g., sex or age) better than language-supervised models, which are generally not mentioned in radiology reports. Finally, we conduct a series of ablations determining the factors in RAD-DINO's performance; notably, we observe that RAD-DINO's downstream performance scales well with the quantity and diversity of training data, demonstrating that image-only supervision is a scalable approach for training a foundational biomedical image encoder. | 翻訳日:2024-01-22 15:08:21 公開日:2024-01-19 |
# シミュレーションに基づくベイズ最適化 Simulation Based Bayesian Optimization ( http://arxiv.org/abs/2401.10811v1 ) ライセンス: Link先を確認 | Roi Naveiro, Becky Tang | (参考訳) ベイズ最適化(BO)は、事前知識と継続する関数評価を組み合わせることでブラックボックス関数を最適化する強力な手法である。
BOは、共変数が与えられた目的関数の確率的サロゲートモデルを構築し、そのモデルを用いて、取得関数を介して将来の評価点の選択を知らせる。
滑らかな連続探索空間に対して、ガウス過程(gps)は後続予測分布に対する解析的アクセスを提供し、取得関数の計算と最適化を容易にするため、サロゲートモデルとして一般的に用いられる。
しかし、分類的あるいは混合共変量空間上の最適化を含む複雑なシナリオでは、GPは理想的ではないかもしれない。
本稿では, 後続予測分布への 'emph{sampling-based} アクセスのみを必要とする獲得関数を最適化するための新しい手法として, シミュレーションベースベイズ最適化 (SBBO) を提案する。
SBBOは、離散変数を持つ組合せ空間に適した代理確率モデルの使用を可能にする。
マルコフ連鎖モンテカルロによって後進推論が行われるベイズモデルはすべて、sbboのサロゲートモデルとして選択することができる。
組合せ最適化を含むアプリケーションでは、様々な代理モデルの選択肢を用いてSBBO法の有効性を実証的に示す。 Bayesian Optimization (BO) is a powerful method for optimizing black-box functions by combining prior knowledge with ongoing function evaluations. BO constructs a probabilistic surrogate model of the objective function given the covariates, which is in turn used to inform the selection of future evaluation points through an acquisition function. For smooth continuous search spaces, Gaussian Processes (GPs) are commonly used as the surrogate model as they offer analytical access to posterior predictive distributions, thus facilitating the computation and optimization of acquisition functions. However, in complex scenarios involving optimizations over categorical or mixed covariate spaces, GPs may not be ideal. This paper introduces Simulation Based Bayesian Optimization (SBBO) as a novel approach to optimizing acquisition functions that only requires \emph{sampling-based} access to posterior predictive distributions. SBBO allows the use of surrogate probabilistic models tailored for combinatorial spaces with discrete variables. Any Bayesian model in which posterior inference is carried out through Markov chain Monte Carlo can be selected as the surrogate model in SBBO. In applications involving combinatorial optimization, we demonstrate empirically the effectiveness of SBBO method using various choices of surrogate models. | 翻訳日:2024-01-22 15:07:54 公開日:2024-01-19 |
# Neglected Hessian 成分はシャープネス正則化におけるミステリーを説明する Neglected Hessian component explains mysteries in Sharpness regularization ( http://arxiv.org/abs/2401.10809v1 ) ライセンス: Link先を確認 | Yann N. Dauphin, Atish Agarwala, Hossein Mobahi | (参考訳) 最近の研究では、二階情報の明示的あるいは暗黙的にペナルティを課すsamのような手法がディープラーニングの一般化を改善できることが示されている。
重みのノイズや勾配のペナルティのような類似の手法は、しばしばそのような利点を提供しない。
これらの違いは、損失のヘシアンの構造によって説明できることを示す。
まず,Hessianの共通分解は特徴探索から特徴利用を分離するものとして定量的に解釈できることを示す。
非線形モデリング誤差行列(NME)によって記述できる特徴探索は、補間時に消滅するため、文献で一般的に無視される。
我々の研究は、NMEが実際に重要であることを示しており、なぜ勾配のペナルティが活性化関数の選択に敏感であるかを説明することができる。
この洞察を使って、パフォーマンスを改善するための介入をデザインします。
また,重み付き雑音と勾配のペナルティの長期的等価性に挑戦する証拠も提示する。
この等価性は、NMEを無視できるという仮定に依存しており、それらが重要な特徴学習を含むため、現代のネットワークには当てはまらない。
機能エクスプロイトを正規化するが、機能探索ではないことは、グラデーションペナルティと同じようなパフォーマンスをもたらす。 Recent work has shown that methods like SAM which either explicitly or implicitly penalize second order information can improve generalization in deep learning. Seemingly similar methods like weight noise and gradient penalties often fail to provide such benefits. We show that these differences can be explained by the structure of the Hessian of the loss. First, we show that a common decomposition of the Hessian can be quantitatively interpreted as separating the feature exploitation from feature exploration. The feature exploration, which can be described by the Nonlinear Modeling Error matrix (NME), is commonly neglected in the literature since it vanishes at interpolation. Our work shows that the NME is in fact important as it can explain why gradient penalties are sensitive to the choice of activation function. Using this insight we design interventions to improve performance. We also provide evidence that challenges the long held equivalence of weight noise and gradient penalties. This equivalence relies on the assumption that the NME can be ignored, which we find does not hold for modern networks since they involve significant feature learning. We find that regularizing feature exploitation but not feature exploration yields performance similar to gradient penalties. | 翻訳日:2024-01-22 15:07:35 公開日:2024-01-19 |
# アクションを視覚的に結びつける学習とその効果 Learning to Visually Connect Actions and their Effects ( http://arxiv.org/abs/2401.10805v1 ) ライセンス: Link先を確認 | Eric Peh, Paritosh Parmar, Basura Fernando | (参考訳) 本稿では,映像理解における視覚的結合行動とその効果(CATE)について紹介する。
CATEは、タスク計画やデモからの学習といった分野に応用できる。
本稿では,アクション選択やアクション仕様など,さまざまなcateベースのタスク定式化を提案し,ビデオ理解モデルが意味的および細かなレベルでアクションと効果を関連付ける。
異なる定式化が直感的な動作特性を捉えた表現を生み出すことを観察する。
また、アクション選択およびアクション仕様のための様々なベースラインモデルも設計する。
タスクの直感的な性質にもかかわらず、モデルが苦労し、人間が大きなマージンでそれらを上回ります。
本研究は,映像理解における行動と効果の結合の柔軟性と汎用性を実証し,先進的な定式化とモデルの実現を目指して,今後の取り組みの基盤を確立することを目的とする。 In this work, we introduce the novel concept of visually Connecting Actions and Their Effects (CATE) in video understanding. CATE can have applications in areas like task planning and learning from demonstration. We propose different CATE-based task formulations, such as action selection and action specification, where video understanding models connect actions and effects at semantic and fine-grained levels. We observe that different formulations produce representations capturing intuitive action properties. We also design various baseline models for action selection and action specification. Despite the intuitive nature of the task, we observe that models struggle, and humans outperform them by a large margin. The study aims to establish a foundation for future efforts, showcasing the flexibility and versatility of connecting actions and effects in video understanding, with the hope of inspiring advanced formulations and models. | 翻訳日:2024-01-22 15:07:15 公開日:2024-01-19 |
# 機械学習に基づくレアイベントアルゴリズムによるAMOC遷移確率の推定 Estimation of AMOC transition probabilities using a machine learning based rare-event algorithm ( http://arxiv.org/abs/2401.10800v1 ) ライセンス: Link先を確認 | Val\'erian Jacques-Dumas, Ren\'e M. van Westen and Henk A. Dijkstra | (参考訳) 大西洋局(atlantic meridional overturning circulation, amoc)は、地球温暖化によって崩壊する可能性があるため、世界的な気候の重要な要素である。
本研究の目的は,TAMS (Trajectory-Adaptive Multilevel Splitting) と呼ばれる希少なアルゴリズムを用いて,AMOCが特定の時間窓内で崩壊する確率を計算することである。
しかし,TAMSの効率と精度はスコア関数の選択に依存する。
最適スコア関数の定義は ``committor function' と呼ばれるが、一般にはそれを事前計算することは不可能である。
本稿では,tamと,レアイベントアルゴリズムが生成するデータからコミッタ関数を推定する次世代貯留層計算手法を組み合わせる。
本稿では,この手法を,F(ast)-transitionsとS(low)-transitionsという2種類の遷移が存在するAMOCの確率的ボックスモデルで検証する。
結果】f-transtionsは,身体的不定点関数を用いた文献と好適に比較できた。
機械学習と希少なアルゴリズムを結合することにより、幅広いモデルパラメータに対する遷移確率、遷移時間、遷移経路の正確な推定が可能になることを示す。
次に、これらの結果を同じモデルにおけるS-遷移のより難しい問題に拡張する。
また,f- と s-遷移のいずれの場合においても,次世代貯留層計算手法を解釈してコミッタ関数の解析的推定値を取得する方法を示す。 The Atlantic Meridional Overturning Circulation (AMOC) is an important component of the global climate, known to be a tipping element, as it could collapse under global warming. The main objective of this study is to compute the probability that the AMOC collapses within a specified time window, using a rare-event algorithm called Trajectory-Adaptive Multilevel Splitting (TAMS). However, the efficiency and accuracy of TAMS depend on the choice of the score function. Although the definition of the optimal score function, called ``committor function" is known, it is impossible in general to compute it a priori. Here, we combine TAMS with a Next-Generation Reservoir Computing technique that estimates the committor function from the data generated by the rare-event algorithm. We test this technique in a stochastic box model of the AMOC for which two types of transition exist, the so-called F(ast)-transitions and S(low)-transitions. Results for the F-transtions compare favorably with those in the literature where a physically-informed score function was used. We show that coupling a rare-event algorithm with machine learning allows for a correct estimation of transition probabilities, transition times, and even transition paths for a wide range of model parameters. We then extend these results to the more difficult problem of S-transitions in the same model. In both cases of F- and S-transitions, we also show how the Next-Generation Reservoir Computing technique can be interpreted to retrieve an analytical estimate of the committor function. | 翻訳日:2024-01-22 15:07:01 公開日:2024-01-19 |
# depth anything: 大規模なラベルなしデータのパワーを解き放つ Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data ( http://arxiv.org/abs/2401.10891v1 ) ライセンス: Link先を確認 | Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao | (参考訳) この研究は、ロバストな単眼深度推定の非常に実用的な解である depth anything を提示している。
新たな技術モジュールを追求することなく、あらゆる状況下でイメージを扱う、シンプルで強力な基盤モデルの構築を目標としています。
この目的のために,データエンジンを設計してデータセットをスケールアップし,大規模未ラベルデータ(~62M)を自動アノテートすることで,データカバレッジを大幅に拡大し,一般化エラーを低減する。
データスケーリングを有望にする2つの単純かつ効果的な戦略について検討する。
まず、データ拡張ツールを活用することで、より困難な最適化ターゲットを作成する。
モデルを積極的に視覚知識を求め、堅牢な表現を得るように強制する。
第二に、事前学習されたエンコーダからリッチなセマンティクス優先を継承することをモデルに強制するために補助監督が開発されている。
6つの公開データセットとランダムに撮影された写真を含む、ゼロショット機能を広範囲に評価した。
これは印象的な一般化能力を示す。
さらに、NYUv2およびKITTIの計量深度情報を微調整することにより、新しいSOTAを設定する。
我々のより良い深度モデルもまた、より優れた深度条件のコントロールネットをもたらす。
私たちのモデルはhttps://github.com/liheyoung/depth-anythingでリリースしています。 This work presents Depth Anything, a highly practical solution for robust monocular depth estimation. Without pursuing novel technical modules, we aim to build a simple yet powerful foundation model dealing with any images under any circumstances. To this end, we scale up the dataset by designing a data engine to collect and automatically annotate large-scale unlabeled data (~62M), which significantly enlarges the data coverage and thus is able to reduce the generalization error. We investigate two simple yet effective strategies that make data scaling-up promising. First, a more challenging optimization target is created by leveraging data augmentation tools. It compels the model to actively seek extra visual knowledge and acquire robust representations. Second, an auxiliary supervision is developed to enforce the model to inherit rich semantic priors from pre-trained encoders. We evaluate its zero-shot capabilities extensively, including six public datasets and randomly captured photos. It demonstrates impressive generalization ability. Further, through fine-tuning it with metric depth information from NYUv2 and KITTI, new SOTAs are set. Our better depth model also results in a better depth-conditioned ControlNet. Our models are released at https://github.com/LiheYoung/Depth-Anything. | 翻訳日:2024-01-22 14:59:47 公開日:2024-01-19 |
# 新たなデータソースからのイベント検出:GPSトレースとともに衛星画像を活用する Event detection from novel data sources: Leveraging satellite imagery alongside GPS traces ( http://arxiv.org/abs/2401.10890v1 ) ライセンス: Link先を確認 | Ekin Ugurel, Steffen Coenen, Minda Zhou Chen, Cynthia Chen | (参考訳) 突破事件に対する迅速な識別と対応、特に自然災害や紛争などの人間の生命に脅威を与えるものは、最重要事項である。
モバイルデバイスの普及とネットワーク接続のユビキタス化は、時間的および空間的にサンプリングされた膨大なデータを生み出した。
多くの研究がモバイルデータを用いて、様々な応用のための個人の移動パターンを導出してきた。
同様に、軌道衛星の数が増加すると、地理的領域のスナップショットを日々の頻度で撮影する高解像度画像の収集が容易になる。
本稿では,衛星画像とプライバシ強化されたモバイルデータを統合した新しいデータ融合手法を提案する。
地上にブーツがない場合、モバイルデータは、人間の移動性、互いに近接性、および構築された環境の近似を与えることができる。
一方、衛星画像は、構築された自然環境に対する物理的変化の視覚的情報を提供することができる。
本手法は,農村部における小規模の災害検知(竜巻,山火事,洪水),遠隔地における失われたハイカーの捜索・救助活動の強化,戦争・紛争状態におけるアクティブコンフリクト地域と人口移動の特定等を想定した。
私たちの実装はGitHubでオープンソースです。 Rapid identification and response to breaking events, particularly those that pose a threat to human life such as natural disasters or conflicts, is of paramount importance. The prevalence of mobile devices and the ubiquity of network connectivity has generated a massive amount of temporally- and spatially-stamped data. Numerous studies have used mobile data to derive individual human mobility patterns for various applications. Similarly, the increasing number of orbital satellites has made it easier to gather high-resolution images capturing a snapshot of a geographical area in sub-daily temporal frequency. We propose a novel data fusion methodology integrating satellite imagery with privacy-enhanced mobile data to augment the event inference task, whether in real-time or historical. In the absence of boots on the ground, mobile data is able to give an approximation of human mobility, proximity to one another, and the built environment. On the other hand, satellite imagery can provide visual information on physical changes to the built and natural environment. The expected use cases for our methodology include small-scale disaster detection (i.e., tornadoes, wildfires, and floods) in rural regions, search and rescue operation augmentation for lost hikers in remote wilderness areas, and identification of active conflict areas and population displacement in war-torn states. Our implementation is open-source on GitHub: https://github.com/ekinugurel/SatMobFusion. | 翻訳日:2024-01-22 14:59:29 公開日:2024-01-19 |
# 3次元制御による移動者の合成 Synthesizing Moving People with 3D Control ( http://arxiv.org/abs/2401.10889v1 ) ライセンス: Link先を確認 | Boyi Li, Jathushan Rajasegaran, Yossi Gandelsman, Alexei A. Efros, Jitendra Malik | (参考訳) 本稿では,対象とする3次元運動系列の単一画像から人物をアニメーションする拡散モデルに基づくフレームワークを提案する。
このアプローチには2つのコアコンポーネントがあります。
a) 人体や衣服の見えない部分について先行を学習し、
b) 適切な服装及びテクスチャで新しい身体ポーズを作成すること。
まず,1つの画像が与えられた人の見えない部分を幻覚させる拡散モデルについて学習する。
我々はこのモデルをテクスチャマップ空間上でトレーニングし、ポーズや視点に不変であるため、よりサンプリング効率がよい。
第2に,3次元人間のポーズによって制御される拡散に基づくレンダリングパイプラインを開発する。
これは、衣服、毛髪、目に見えない領域の埋め合わせなど、人物の斬新なポーズをリアルに表現する。
この不整合アプローチにより、3次元ポーズにおける対象運動に忠実な画像列と、視覚的類似性の観点から入力画像に忠実な画像列を生成することができる。
さらに3Dコントロールは、さまざまな合成カメラの軌跡を人体に描画することを可能にする。
実験の結果,提案手法は長動きの発生に耐性があり,従来の手法と比較して難易度や複雑なポーズが変化することがわかった。
https://boyiliee.github.io/3dhm.github.io/ In this paper, we present a diffusion model-based framework for animating people from a single image for a given target 3D motion sequence. Our approach has two core components: a) learning priors about invisible parts of the human body and clothing, and b) rendering novel body poses with proper clothing and texture. For the first part, we learn an in-filling diffusion model to hallucinate unseen parts of a person given a single image. We train this model on texture map space, which makes it more sample-efficient since it is invariant to pose and viewpoint. Second, we develop a diffusion-based rendering pipeline, which is controlled by 3D human poses. This produces realistic renderings of novel poses of the person, including clothing, hair, and plausible in-filling of unseen regions. This disentangled approach allows our method to generate a sequence of images that are faithful to the target motion in the 3D pose and, to the input image in terms of visual similarity. In addition to that, the 3D control allows various synthetic camera trajectories to render a person. Our experiments show that our method is resilient in generating prolonged motions and varied challenging and complex poses compared to prior methods. Please check our website for more details: https://boyiliee.github.io/3DHM.github.io/. | 翻訳日:2024-01-22 14:59:04 公開日:2024-01-19 |
# エピポーラ監視によるサブピクセル対応推定 SCENES: Subpixel Correspondence Estimation With Epipolar Supervision ( http://arxiv.org/abs/2401.10886v1 ) ライセンス: Link先を確認 | Dominik A. Kloepfer, Jo\~ao F. Henriques, Dylan Campbell | (参考訳) シーンの2つ以上のビューからポイント対応を抽出することは、相対的なカメラポーズ推定と運動からの構造に特に重要である基本的なコンピュータビジョン問題である。
既存のローカル機能マッチングアプローチは、大規模なデータセットの対応監督でトレーニングされ、テストセットで高い精度の一致を得る。
しかし、古典的な特徴抽出器とは異なり、トレーニングされたデータと異なる特徴を持つ新しいデータセットにうまく一般化していない。
代わりに微調整が必要で、地平線対応や地平線カメラのポーズや3D構造が利用できると仮定する。
この仮定を緩和するために、深度マップや点雲といった3d構造の必要性を取り除き、オドメトリーから得られるカメラのポーズ情報のみを必要とする。
対応する損失をエピポーラ損失に置き換えることで、関連するエピポーララインに一致することを奨励します。
対応の監督よりも弱いが、この手がかりは既存のモデルを新しいデータで微調整するのに十分である。
次に,新たなブートストラップアプローチにおいて,ポーズ推定を用いて,既知のカメラポーズの仮定をさらに緩和する。
室内ドローンデータセットと屋外スマートフォンカメラデータセットを含む高度に困難なデータセットを評価し、強力な監視なしに最先端の結果を得る。 Extracting point correspondences from two or more views of a scene is a fundamental computer vision problem with particular importance for relative camera pose estimation and structure-from-motion. Existing local feature matching approaches, trained with correspondence supervision on large-scale datasets, obtain highly-accurate matches on the test sets. However, they do not generalise well to new datasets with different characteristics to those they were trained on, unlike classic feature extractors. Instead, they require finetuning, which assumes that ground-truth correspondences or ground-truth camera poses and 3D structure are available. We relax this assumption by removing the requirement of 3D structure, e.g., depth maps or point clouds, and only require camera pose information, which can be obtained from odometry. We do so by replacing correspondence losses with epipolar losses, which encourage putative matches to lie on the associated epipolar line. While weaker than correspondence supervision, we observe that this cue is sufficient for finetuning existing models on new data. We then further relax the assumption of known camera poses by using pose estimates in a novel bootstrapping approach. We evaluate on highly challenging datasets, including an indoor drone dataset and an outdoor smartphone camera dataset, and obtain state-of-the-art results without strong supervision. | 翻訳日:2024-01-22 14:58:45 公開日:2024-01-19 |
# 磁気均一電子ガスの熱力学限界と密度電流対の表現可能性 Thermodynamic limit for the magnetic uniform electron gas and representability of density-current pairs ( http://arxiv.org/abs/2401.10885v1 ) ライセンス: Link先を確認 | Mih\'aly A. Csirik and Andre Laestadius and Erik I. Tellgren | (参考訳) 均一電子気体の概念は量子物理学に必須であるが、最近、Lewin, Lieb and Seiringer によって厳密な方法でしか定義されていない。
我々は, 気体の渦度が一定であることを示す磁気的ケースを含むために, そのアプローチを拡張した。
我々の定義は、現在の密度汎関数論の文脈でヴィニャーレとラソルトによって導入された普遍汎函数のグランドカノニカルバージョンを含む。
熱力学的極限の存在の確立に加えて、(混合)電流密度表現可能性問題に対する便利な答えを与える運動エネルギー汎関数の推定も導出する。 Although the concept of the uniform electron gas is essential to quantum physics, it has only been defined recently in a rigorous manner by Lewin, Lieb and Seiringer. We extend their approach to include the magnetic case, by which we mean that the vorticity of the gas is also held constant. Our definition involves the grand-canonical version of the universal functional introduced by Vignale and Rasolt in the context of current-density-functional theory. Besides establishing the existence of the thermodynamic limit, we derive an estimate on the kinetic energy functional that also gives a convenient answer to the (mixed) current-density representability problem. | 翻訳日:2024-01-22 14:58:23 公開日:2024-01-19 |
# 人的フィードバックとしてのコミュニティスコアを用いたプログラミング領域における質問応答のための強化学習 Reinforcement learning for question answering in programming domain using public community scoring as a human feedback ( http://arxiv.org/abs/2401.10882v1 ) ライセンス: Link先を確認 | Alexey Gorbatovski and Sergey Kovalchuk | (参考訳) 本研究では,コミュニティ質問応答(cqa)におけるgpt neo 125mのパフォーマンス向上について,人的フィードバック(rlhf)からの強化学習の統合とスタックオーバーフローからのスコア活用を通して検討した。
PPO(Proximal Policy Optimization)による微調整には、2つの異なる報酬モデルトレーニング戦略が採用されている。
特に、この手法による性能改善は、GPT Neo 2.7Bパラメータの変種に匹敵するものである。
さらに補助的なスコアリング機構を導入し、プログラミング領域における応答評価における従来の言語指標の限界を示す。
本稿では, 従来の言語指標と人間関係に基づく報酬モデルとの相違について, ドメイン特化評価手法の意義を強調する。
プログラムCQAにRLHFを適用することに関わる複雑さを解明し、文脈認識評価の重要性を強調することにより、焦点を絞った人間のフィードバックを通じて大規模言語モデルを改善するための継続的な取り組みに寄与する。 In this study, we investigate the enhancement of the GPT Neo 125M performance in Community Question Answering (CQA) with a focus on programming, through the integration of Reinforcement Learning from Human Feedback (RLHF) and the utilization of scores from Stack Overflow. Two distinct reward model training strategies are employed for fine-tuning with Proximal Policy Optimization (PPO). Notably, the improvements in performance achieved through this method are comparable to those of GPT Neo 2.7B parameter variant. Additionally, an auxiliary scoring mechanism is introduced, which demonstrates the limitations of conventional linguistic metrics in evaluating responses in the programming domain. Through accurate analysis, this paper looks at the divergence between traditional linguistic metrics and our human-preferences-based reward model, underscoring the imperative for domain-specific evaluation methods. By elucidating the complexities involved in applying RLHF to programming CQA and accentuating the significance of context-aware evaluation, this study contributes to the ongoing efforts in refining Large Language Models through focused human feedback. | 翻訳日:2024-01-22 14:58:11 公開日:2024-01-19 |
# 機械のキャダバー:モーションキャプチャ技術における計測と検証の社会的実践 The Cadaver in the Machine: The Social Practices of Measurement and Validation in Motion Capture Technology ( http://arxiv.org/abs/2401.10877v1 ) ライセンス: Link先を確認 | Emma Harvey, Hauke Sandhaus, Abigail Z. Jacobs, Emanuel Moss, Mona Sloane | (参考訳) 様々な領域で使用されるモーションキャプチャシステムは、技術プロセスを通じて身体表現を具体化する。
身体の測定とモーションキャプチャシステムにおける測定の検証は,社会的実践として理解することができる。
社会実践理論のレンズを通して体系的文献レビュー(n=278)の知見を分析した結果,これらのプラクティス,および誤りに対する様々な注意が,時間とともにモーションキャプチャ設計やイノベーションにどのように浸透するかを示す。
さらに,現代のモーションキャプチャーシステムは,人体とその動きに関する仮定を永続的に行うかを示す。
本研究では,データ駆動システムやセンサ駆動システムの開発において,社会的な計測・検証の実践がより広範に行われていることを示唆し,隠れた設計仮定とその人間とコンピュータの相互作用における潜在的な負の結果を調査するための基盤として,本研究を提案する。 Motion capture systems, used across various domains, make body representations concrete through technical processes. We argue that the measurement of bodies and the validation of measurements for motion capture systems can be understood as social practices. By analyzing the findings of a systematic literature review (N=278) through the lens of social practice theory, we show how these practices, and their varying attention to errors, become ingrained in motion capture design and innovation over time. Moreover, we show how contemporary motion capture systems perpetuate assumptions about human bodies and their movements. We suggest that social practices of measurement and validation are ubiquitous in the development of data- and sensor-driven systems more broadly, and provide this work as a basis for investigating hidden design assumptions and their potential negative consequences in human-computer interaction. | 翻訳日:2024-01-22 14:57:51 公開日:2024-01-19 |
# 超伝導回路における非自明なトポロジーのスペクトルシグネチャ Spectral signatures of non-trivial topology in a superconducting circuit ( http://arxiv.org/abs/2401.10876v1 ) ライセンス: Link先を確認 | L. Peyruchat (1 and 2), R. H. Rodriguez (1 and 2), J.-L. Smirr (2), R. Leone (3), \c{C}. \"O. Girit (1 and 2) ((1) Quantronics Group, Universit\'e Paris Saclay, CEA, CNRS, SPEC, (2) JEIP, USR 3573 CNRS, Coll\`ege de France, PSL University, (3) Laboratoire de Physique et Chimie Th\'eoriques, Universit\'e de Lorraine, CNRS) | (参考訳) トポロジーは対称性と同様に、物理系の一般性を理解する基本的な概念である。
凝縮物質系では、非自明なトポロジーはエネルギースペクトルの特異な特徴や、電気伝導率や磁束のような観測可能な量の量子化として現れる。
マイクロ波分光法を用いて、3つのジョセフソントンネル接合を平行に持つ超伝導回路は、$\textrm{\emph{intrinsic}}$非自明なトポロジーを示すエネルギーデジネラキシーを持つことを示す。
3つの位相不変量を特定し、そのうちの1つは隠れた量子力学的超対称性と関連している。
製造パラメータによっては、デバイスはギャップが無く、接合の不完全性、非対称性、インダクタンスといった摂動にロバストであることが示されている単純な位相図に落ちる。
ジョセフソントンネル接合回路は、従来のマイクロリソグラフィー技術で容易に製造でき、凝縮物質アナログを持たない幅広いトポロジカルシステムにアクセスできる。
デジェネラシーやフラットバンドといったこれらの回路の顕著なスペクトル特性は量子情報応用に利用されうるが、量子化された輸送特性はメトロロジー応用に有用である。 Topology, like symmetry, is a fundamental concept in understanding general properties of physical systems. In condensed matter systems, non-trivial topology may manifest itself as singular features in the energy spectrum or the quantization of observable quantities such as electrical conductance and magnetic flux. Using microwave spectroscopy, we show that a superconducting circuit with three Josephson tunnel junctions in parallel can possess energy degeneracies indicative of $\textrm{\emph{intrinsic}}$ non-trivial topology. We identify three topological invariants, one of which is related to a hidden quantum mechanical supersymmetry. Depending on fabrication parameters, devices are gapless or not, and fall on a simple phase diagram which is shown to be robust to perturbations including junction imperfections, asymmetry, and inductance. Josephson tunnel junction circuits, which are readily fabricated with conventional microlithography techniques, allow access to a wide range of topological systems which have no condensed matter analog. Notable spectral features of these circuits, such as degeneracies and flat bands, may be leveraged for quantum information applications, whereas quantized transport properties could be useful for metrology applications. | 翻訳日:2024-01-22 14:57:34 公開日:2024-01-19 |
# 相関格子QCDアンサンブル生成への流れモデルの適用 Applications of flow models to the generation of correlated lattice QCD ensembles ( http://arxiv.org/abs/2401.10874v1 ) ライセンス: Link先を確認 | Ryan Abbott, Aleksandar Botev, Denis Boyda, Daniel C. Hackett, Gurtej Kanwar, S\'ebastien Racani\`ere, Danilo J. Rezende, Fernando Romero-L\'opez, Phiala E. Shanahan and Julian M. Urban | (参考訳) 機械学習による正規化フローは、格子量子場理論の文脈において、異なる動作パラメータで格子ゲージ場の統計的に相関したアンサンブルを生成するために用いられる。
この研究は、観測可能な計算の分散低減にこれらの相関をいかに活用するかを実証する。
ゲージ理論の連続限界(continuum limit of gauge theory)、qcd観測可能性の質量依存性(mass dependence of qcd observables)、そしてファインマン・ヘルマンのアプローチに基づくハドロン行列要素(hadronic matrix elements)という3つの異なる概念実証応用が、新しい残留フローアーキテクチャを用いて実証されている。
いずれの場合も,非相関なアンサンブルや直接再重み付けによる計算と比較して,機械学習フローが組み込まれた場合,統計的不確実性が著しく低下することが示されている。 Machine-learned normalizing flows can be used in the context of lattice quantum field theory to generate statistically correlated ensembles of lattice gauge fields at different action parameters. This work demonstrates how these correlations can be exploited for variance reduction in the computation of observables. Three different proof-of-concept applications are demonstrated using a novel residual flow architecture: continuum limits of gauge theories, the mass dependence of QCD observables, and hadronic matrix elements based on the Feynman-Hellmann approach. In all three cases, it is shown that statistical uncertainties are significantly reduced when machine-learned flows are incorporated as compared with the same calculations performed with uncorrelated ensembles or direct reweighting. | 翻訳日:2024-01-22 14:57:10 公開日:2024-01-19 |
# 防犯用プルーニング : 微調整のない配向LLMの耐ジェイルブレイク性の向上 Pruning for Protection: Increasing Jailbreak Resistance in Aligned LLMs Without Fine-Tuning ( http://arxiv.org/abs/2401.10862v1 ) ライセンス: Link先を確認 | Adib Hasan, Ileana Rugina and Alex Wang | (参考訳) 大規模言語モデル(LLM)は、これらのモデルを悪質で違法なコンテンツを生成するための攻撃の一種である'Jailbreaking'プロンプトに対して脆弱である。
本稿では, LLMパラメータの最大20%のプルーニングが, 追加トレーニングや標準ベンチマークのパフォーマンスを犠牲にすることなく, 攻撃に対する抵抗を著しく高めることを示す。
興味深いことに, 改良された安全性は, モデルの初期安全性トレーニングレベルと相関し, プルーニングの効果はより一般的なものになり, 安全性を超える他のLCMの挙動を保てる可能性が示唆された。
さらに,5つのカテゴリにまたがる225の有害なタスクを10種類のジェイルブレイクプロンプトに挿入したキュレートデータセットを導入し,ジェイルブレイクプロンプトにおけるタスク関連トークンに注意を集中させることにより,プルーニングがLLMを支援することを示した。
最後に, LLaMA-2 Chat, Vicuna, Mistral Instructなどの著名なチャットモデルでは, 脱獄攻撃に対して高い感受性を示し, いくつかのカテゴリが70~100%の成功率を達成した。
これらの知見は、LLMの安全性、信頼性、および潜在的に望まれる行動を改善するための一般化可能なアプローチとしてのプルーニングの可能性を示している。 Large Language Models (LLMs) are vulnerable to `Jailbreaking' prompts, a type of attack that can coax these models into generating harmful and illegal content. In this paper, we show that pruning up to 20% of LLM parameters markedly increases their resistance to such attacks without additional training and without sacrificing their performance in standard benchmarks. Intriguingly, we discovered that the enhanced safety observed post-pruning correlates to the initial safety training level of the model, hinting that the effect of pruning could be more general and may hold for other LLM behaviors beyond safety. Additionally, we introduce a curated dataset of 225 harmful tasks across five categories, inserted into ten different Jailbreaking prompts, showing that pruning aids LLMs in concentrating attention on task-relevant tokens in jailbreaking prompts. Lastly, our experiments reveal that the prominent chat models, such as LLaMA-2 Chat, Vicuna, and Mistral Instruct exhibit high susceptibility to jailbreaking attacks, with some categories achieving nearly 70-100% success rate. These insights underline the potential of pruning as a generalizable approach for improving LLM safety, reliability, and potentially other desired behaviors. | 翻訳日:2024-01-22 14:56:53 公開日:2024-01-19 |
# エンサンブラ:協調推論におけるモデルアンサンブルを用いたモデル反転攻撃 Ensembler: Combating model inversion attacks using model ensemble during collaborative inference ( http://arxiv.org/abs/2401.10859v1 ) ライセンス: Link先を確認 | Dancheng Liu, Jinjun Xiong | (参考訳) ディープラーニングモデルは、さまざまな領域で顕著なパフォーマンスを示している。
それでも、急成長するモデルサイズによって、エッジデバイスは推論プロセスのかなりの部分をクラウドにオフロードせざるを得なくなる。
このプラクティスは多くのアドバンテージを提供する一方で、ユーザデータのプライバシに関する重要な懸念を提起する。
クラウドサーバの信頼性が問題となるシナリオでは、データプライバシを保護するための実用的で適応可能な方法の必要性が不可欠になる。
本稿では,対戦相手に対するモデル反転攻撃の実施の難しさを大幅に向上する拡張可能なフレームワークであるEnsemblerを紹介する。
Ensemblerは、競合サーバ上でモデルアンサンブルを活用し、協調推論中に機密データに摂動を導入する既存のアプローチと並行して動作する。
実験により,基本的なガウス雑音と組み合わせた場合,アンサンブルはレコンストラクション攻撃からイメージを効果的に保護し,厳格な設定で人間のパフォーマンスを下回る認識レベルを達成し,アンサンブルフレームワークを欠いたベースラインメソッドを著しく上回ることを実証した。 Deep learning models have exhibited remarkable performance across various domains. Nevertheless, the burgeoning model sizes compel edge devices to offload a significant portion of the inference process to the cloud. While this practice offers numerous advantages, it also raises critical concerns regarding user data privacy. In scenarios where the cloud server's trustworthiness is in question, the need for a practical and adaptable method to safeguard data privacy becomes imperative. In this paper, we introduce Ensembler, an extensible framework designed to substantially increase the difficulty of conducting model inversion attacks for adversarial parties. Ensembler leverages model ensembling on the adversarial server, running in parallel with existing approaches that introduce perturbations to sensitive data during colloborative inference. Our experiments demonstrate that when combined with even basic Gaussian noise, Ensembler can effectively shield images from reconstruction attacks, achieving recognition levels that fall below human performance in some strict settings, significantly outperforming baseline methods lacking the Ensembler framework. | 翻訳日:2024-01-22 14:56:28 公開日:2024-01-19 |
# 注意型深層学習による単眼視覚オドメトリーの運動一貫性損失 Motion Consistency Loss for Monocular Visual Odometry with Attention-Based Deep Learning ( http://arxiv.org/abs/2401.10857v1 ) ライセンス: Link先を確認 | Andr\'e O. Fran\c{c}ani, Marcos R. O. A. Maximo | (参考訳) ディープラーニングアルゴリズムは多くの複雑なタスクで表現力のある進歩をもたらしました。
損失関数は、ニューラルネットワークの学習プロセスを導くディープラーニング技術の中核コンポーネントである。
本稿では,深層学習に基づくアプローチによる視覚オドメトリの一貫性損失について紹介する。
動きの一貫性の損失は、繰り返し重なり合うビデオクリップに現れる反復的な動きを探索する。
実験の結果,KITTI odometry ベンチマークによるモデルの性能向上が得られた。 Deep learning algorithms have driven expressive progress in many complex tasks. The loss function is a core component of deep learning techniques, guiding the learning process of neural networks. This paper contributes by introducing a consistency loss for visual odometry with deep learning-based approaches. The motion consistency loss explores repeated motions that appear in consecutive overlapped video clips. Experimental results show that our approach increased the performance of a model on the KITTI odometry benchmark. | 翻訳日:2024-01-22 14:56:09 公開日:2024-01-19 |
# 単孔CaOH+分子イオンの光解離スペクトル Photodissociation spectra of single trapped CaOH+ molecular ions ( http://arxiv.org/abs/2401.10854v1 ) ライセンス: Link先を確認 | Zhenlin Wu, Stefan Walser, Verena Podlesnic, Mariano Isaza-Monsalve, Elyas Mattivi, Guanqun Mu, Ren\'e Nardi, Brandon J. Furey and Philipp Schindler | (参考訳) 捕捉された原子イオンによる化学反応によって生成される分子イオンは、分子量子技術を開発するための容易で成功したテストベッドとして機能する。
一方で、バックグラウンドガスによる避けられない反応が情報担体を破壊するため、原子イオンに基づく量子コンピュータのスケールアップにも障害となる。
本研究では, フェムト秒レーザーシステムを用いてca$^+$イオン結晶に結合したcaoh$^+$分子イオンの1光子および2光子解離過程について検討した。
我々は,CaOH$^+$の光解離断面積スペクトルを$\lambda=245 - 275$ nmで,$\lambda=500 - 540$ nmで2光子過程に対して報告する。
この結果は、CaOH$^+$の内部構造を研究するための解離に基づく分光の基礎となる。
この結果はまた、バックグラウンド水蒸気の存在下で形成された未望のCaOH^+$イオンの大規模捕捉Ca$^+$量子実験において、Ca$^+$イオンをリサイクルするための処方薬を与える。 Molecular ions that are generated by chemical reactions with trapped atomic ions can serve as an accessible and successful testbed for developing molecular quantum technologies. On the other hand, they are also a hindrance to scaling up quantum computers based on atomic ions as unavoidable reactions with background gas destroy the information carriers. Here, we investigate the single-photon and two-photon dissociation processes of single CaOH$^+$ molecular ions co-trapped in Ca$^+$ ion crystals using a femtosecond laser system. We report the photodissociation cross section spectra of CaOH$^+$ for single-photon processes at $\lambda=245 - 275$ nm and for two-photon processes at $\lambda=500 - 540$ nm. This result can serve as a basis for dissociation-based spectroscopy for studying the internal structure of CaOH$^+$. The result also gives a prescription for recycling Ca$^+$ ions in large-scale trapped Ca$^+$ quantum experiments from undesired CaOH$^+$ ions formed in the presence of background water vapor. | 翻訳日:2024-01-22 14:56:00 公開日:2024-01-19 |
# 自然言語処理とディープラーニングによるeヘルスデータ分析の進歩 Advancements in eHealth Data Analytics through Natural Language Processing and Deep Learning ( http://arxiv.org/abs/2401.10850v1 ) ライセンス: Link先を確認 | Elena-Simona Apostol and Ciprian-Octavian Truic\u{a} | (参考訳) 医療環境は一般に「情報豊か」であるが、「知識不足」とも呼ばれる。
医療システムは、検査報告、医療手紙、医療ツールやプログラムのログ、処方薬など、さまざまな情報源から大量のデータを収集する。
これらの膨大なデータセットは、医療サービスを改善するための優れた知識と情報を提供することができ、患者の症状や疾患予防を分析して疾患予測のような医療領域全体を、疾患に対する行動要因の発見を容易にする。
残念なことに、テキストのeHealthデータの比較的小さなボリュームのみが処理され、解釈されるため、ビッグデータ操作を効率的に実行するのが困難である。
医学分野では、ドメイン固有の多語単語の検出は、数単語で概念全体を定義できるため、重要なタスクである。
用語は言語構造または概念として定義することができ、ドメインに特定の意味を持つ1つ以上の単語から構成される。
ドメインのすべての用語は、その用語を生み出します。
本章は、非構造化(画像およびテキスト的)なeヘルスデータを分析するための、現在最も高性能なソリューションに関する批判的研究を提供する。
この研究は、eHealthコンテキストにおける現在の自然言語処理とディープラーニング技術の比較も提供する。
最後に,現状の課題について検討し,議論し,この領域における研究の方向性を定義した。 The healthcare environment is commonly referred to as "information-rich" but also "knowledge poor". Healthcare systems collect huge amounts of data from various sources: lab reports, medical letters, logs of medical tools or programs, medical prescriptions, etc. These massive sets of data can provide great knowledge and information that can improve the medical services, and overall the healthcare domain, such as disease prediction by analyzing the patient's symptoms or disease prevention, by facilitating the discovery of behavioral factors for diseases. Unfortunately, only a relatively small volume of the textual eHealth data is processed and interpreted, an important factor being the difficulty in efficiently performing Big Data operations. In the medical field, detecting domain-specific multi-word terms is a crucial task as they can define an entire concept with a few words. A term can be defined as a linguistic structure or a concept, and it is composed of one or more words with a specific meaning to a domain. All the terms of a domain create its terminology. This chapter offers a critical study of the current, most performant solutions for analyzing unstructured (image and textual) eHealth data. This study also provides a comparison of the current Natural Language Processing and Deep Learning techniques in the eHealth context. Finally, we examine and discuss some of the current issues, and we define a set of research directions in this area. | 翻訳日:2024-01-22 14:55:42 公開日:2024-01-19 |
# 時間制約決定課題における構造の役割を探る Exploring the role of structure in a time constrained decision task ( http://arxiv.org/abs/2401.10849v1 ) ライセンス: Link先を確認 | Naomi Chaix-Eichel, Gautham Venugopal, Thomas Boraud, Nicolas P. Rougier | (参考訳) 基底神経節の構造は、多くの種(しばしば直接的、間接的、超直接的な経路で説明される)で著しく類似しており、意思決定と行動選択に深く関わっている。
本稿では、実際の構造について強い仮定をしないまま、意思決定タスクの解決における構造の役割を探究することに興味がある。
そこで我々は、ランダムなアーキテクチャに基づいて複雑なタスクを解くことができるエコー状態ネットワークパラダイムを利用する。
時間的決定タスクを考えると、特定の構造がより良いパフォーマンスを許容するかどうかと、その構造が基底神経節と何らかの類似性を持っているかどうかが問題となる。
我々の結果は、意思決定タスク中に遅延情報を扱うことができる遅い(ダイレクト)と速い(ハイパーダイレクト)経路を持つことの利点を強調します。 The structure of the basal ganglia is remarkably similar across a number of species (often described in terms of direct, indirect and hyperdirect pathways) and is deeply involved in decision making and action selection. In this article, we are interested in exploring the role of structure when solving a decision task while avoiding to make any strong assumption regarding the actual structure. To do so, we exploit the echo state network paradigm that allows to solve complex task based on a random architecture. Considering a temporal decision task, the question is whether a specific structure allows for better performance and if so, whether this structure shares some similarity with the basal ganglia. Our results highlight the advantage of having a slow (direct) and a fast (hyperdirect) pathway that allows to deal with late information during a decision making task. | 翻訳日:2024-01-22 14:55:20 公開日:2024-01-19 |
# InterVENOR: 修復の対話的連鎖による大規模言語モデルの符号化能力向上 INTERVENOR: Prompt the Coding Ability of Large Language Models with the Interactive Chain of Repairing ( http://arxiv.org/abs/2311.09868v3 ) ライセンス: Link先を確認 | Hanbin Wang, Zhenghao Liu, Shuo Wang, Ganqu Cui, Ning Ding, Zhiyuan Liu and Ge Yu | (参考訳) 本稿では,人間のコード修復行動(反復的判断,再検討,修復)を模倣し,大規模言語モデル(llm)のコーディング能力を促進する対話型修復チェーン(intervenor)を提案する。
具体的には、2つのLLMベースのエージェントであるCode LearnerとCode Teacherを使って、コード修復の異なる役割を演じ、生成されたコードを修正するために対話的に作業する。
コード学習者は、コード教師からの指示に従ってコードの生成と修復を依頼される。
Code Teacherは、コンパイラからのフィードバックに応じてコードエラーを再考し、コードラーナーのコード修復プロセスをガイドするために繰り返し再ペアリング(CoR)を生成する。
実験の結果、intervenorは最先端のメソッドよりも優れており、コード生成とコード変換タスクにおいて、gpt-3.5モデルよりも約13%と4.5%改善されていることがわかった。
さらに分析した結果,CoRは自然言語によるバグの理由や解決計画に照らし出すことができることがわかった。
コードコンパイラのフィードバックにより、intervenorはコードの構文エラーとアサーションエラーを正確に識別し、コードを修正する正確な指示を提供することができる。
すべてのデータとコードはhttps://github.com/NEUIR/INTERVENORで入手できる。 This paper proposes INTERactiVE chaiN Of Repairing (INTERVENOR), which mimics human code repairing behavior (iteratively judging, rethinking, and repairing) and prompts the coding ability of regard Large Language Models (LLMs). Specifically, INTERVENOR employs two LLM based agents, Code Learner and Code Teacher, to play different roles in code repairing and work interactively to repair the generated codes. The Code Learner is asked to generate and repair code according to the instructions from the Code Teacher. The Code Teacher rethinks the code errors according to the corresponding feedback from compilers and iteratively generates the chain-of-repairing (CoR) to guide the code repairing process for Code Learner. Our experiments show that INTERVENOR outperforms the state-of-the-art methods and achieves about 13% and 4.5% improvements over the GPT-3.5 model in code generation and code translation tasks, respectively. Our further analyses show that CoR can illuminate the bug reasons and solution plans via natural language. With the feedback of code compilers, INTERVENOR can accurately identify the syntax errors and assertion errors in the code and provide precise instructions to repair codes. All data and codes are available at https://github.com/NEUIR/INTERVENOR | 翻訳日:2024-01-22 13:12:33 公開日:2024-01-19 |
# 入力凸LSTM:高速リアプノフモデル予測制御のための凸アプローチ Input Convex LSTM: A Convex Approach for Fast Lyapunov-Based Model Predictive Control ( http://arxiv.org/abs/2311.07202v3 ) ライセンス: Link先を確認 | Zihao Wang, Zhe Wu | (参考訳) 入力凸ニューラルネットワーク(ICNN)を活用し、ICNNベースのモデル予測制御(MPC)は、MPCフレームワーク内の凸性を維持することで、グローバルに最適なソリューションを実現する。
しかし、現在のicnnアーキテクチャは、複雑なタスクのためのディープニューラルネットワークとして機能する能力を制限する、消失/爆発勾配の問題に遭遇する。
さらに、従来のニューラルネットワークベースのMPCやICNNベースのMPCを含む現在のニューラルネットワークベースのMPCは、第一原理モデルに基づくMPCと比較して収束速度が遅い。
本研究では, リアプノフ系mpcのための新しい入力凸lstmを提案するために, icnnsの原理を活用し, 収束時間を短縮し, 消滅・爆発勾配問題を緩和し, 閉ループ安定性を確保した。
本研究では, 非線形化学反応器のシミュレーションから, 拡散勾配問題の緩和, 収束時間の低減, 46.7%, 31.3%, 20.2%のパーセンテージ低下を観測した。 Leveraging Input Convex Neural Networks (ICNNs), ICNN-based Model Predictive Control (MPC) successfully attains globally optimal solutions by upholding convexity within the MPC framework. However, current ICNN architectures encounter the issue of vanishing/exploding gradients, which limits their ability to serve as deep neural networks for complex tasks. Additionally, the current neural network-based MPC, including conventional neural network-based MPC and ICNN-based MPC, faces slower convergence speed when compared to MPC based on first-principles models. In this study, we leverage the principles of ICNNs to propose a novel Input Convex LSTM for Lyapunov-based MPC, with the specific goal of reducing convergence time and mitigating the vanishing/exploding gradient problem while ensuring closed-loop stability. From a simulation study of a nonlinear chemical reactor, we observed a mitigation of vanishing/exploding gradient problem and a reduction in convergence time, with a percentage decrease of 46.7%, 31.3%, and 20.2% compared to baseline plain RNN, plain LSTM, and Input Convex Recurrent Neural Networks, respectively. | 翻訳日:2024-01-22 13:12:08 公開日:2024-01-19 |
# 階層型マスク型3次元拡散モデルによる映像アウトパインティング Hierarchical Masked 3D Diffusion Model for Video Outpainting ( http://arxiv.org/abs/2309.02119v3 ) ライセンス: Link先を確認 | Fanda Fan, Chaoxu Guo, Litong Gong, Biao Wang, Tiezheng Ge, Yuning Jiang, Chunjie Luo, Jianfeng Zhan | (参考訳) video outpaintingは、ビデオフレームの端にある欠損領域を適切に完成することを目的としている。
画像のオーバーペイントと比較すると、モデルが満たされた領域の時間的一貫性を維持する必要があるため、追加の課題がある。
本稿では,映像出力のためのマスク付き3次元拡散モデルを提案する。
マスクモデリングの手法を用いて3次元拡散モデルを訓練する。
これにより、複数のガイドフレームを使用して複数のビデオクリップの推測結果を接続し、時間的一貫性を確保し、隣接するフレーム間のジッタを低減できる。
一方,映像のグローバルフレームをプロンプトとして抽出し,モデルにクロスアテンションを用いて現在の映像クリップ以外の情報を得るよう誘導する。
また,アーティファクトの蓄積問題を解決するために,ハイブリッドな粗粒度推定パイプラインを導入する。
既存の粗粒度パイプラインはインフィルディング戦略のみを使用するため、スパースフレームの時間間隔が大きすぎるため、劣化が発生する。
我々のパイプラインは、マスクモデリングの双方向学習の恩恵を受けており、スパースフレームを生成する際に、埋め込みと補間というハイブリッド戦略を利用することができる。
実験の結果,本手法は映像の画質向上に有効であることがわかった。
さらなる結果とコードは、https://fanfanda.github.io/M3DDM/で公開されています。 Video outpainting aims to adequately complete missing areas at the edges of video frames. Compared to image outpainting, it presents an additional challenge as the model should maintain the temporal consistency of the filled area. In this paper, we introduce a masked 3D diffusion model for video outpainting. We use the technique of mask modeling to train the 3D diffusion model. This allows us to use multiple guide frames to connect the results of multiple video clip inferences, thus ensuring temporal consistency and reducing jitter between adjacent frames. Meanwhile, we extract the global frames of the video as prompts and guide the model to obtain information other than the current video clip using cross-attention. We also introduce a hybrid coarse-to-fine inference pipeline to alleviate the artifact accumulation problem. The existing coarse-to-fine pipeline only uses the infilling strategy, which brings degradation because the time interval of the sparse frames is too large. Our pipeline benefits from bidirectional learning of the mask modeling and thus can employ a hybrid strategy of infilling and interpolation when generating sparse frames. Experiments show that our method achieves state-of-the-art results in video outpainting tasks. More results and codes are provided at our https://fanfanda.github.io/M3DDM/. | 翻訳日:2024-01-22 13:11:47 公開日:2024-01-19 |
# 分布シフト下におけるマルチモーダル画像テキストモデルのベンチマークロバスト性 Benchmarking Robustness of Multimodal Image-Text Models under Distribution Shift ( http://arxiv.org/abs/2212.08044v3 ) ライセンス: Link先を確認 | Jielin Qiu, Yi Zhu, Xingjian Shi, Florian Wenzel, Zhiqiang Tang, Ding Zhao, Bo Li, Mu Li | (参考訳) マルチモーダル画像テキストモデルはここ数年で顕著な性能を示した。
しかし、現実のアプリケーションでそれを採用する前に、分散シフトに対する堅牢性を評価することが重要である。
本研究では,5つのタスク(画像-テキスト検索,視覚推論,視覚関連,画像キャプション,テキスト-画像生成)の共通摂動下で,人気のある12種類の画像テキストモデルのロバスト性について検討する。
特に,既存のデータセット上に17のイメージ摂動と16のテキスト摂動技術を適用し,新しいマルチモーダルロバストネスベンチマークを提案する。
マルチモーダルモデルは,画像やテキストの摂動,特に画像の摂動に対して頑健ではない。
検討した摂動法のうち,文字レベルの摂動はテキストの分布変化の最も重く,ズームボケは画像データに対する最も重度なシフトである。
また、マルチモーダルモデルの適切な評価のための2つの新しいロバストネス指標(マルチモーダルインパクトスコアは\textbf{MMI}、ミスオブジェクトレートは \textbf{MOR})も導入する。
広範な研究により、ロバストなマルチモーダルモデルの開発に向けた新しい方向が明らかになることを願っています。
詳細はプロジェクトのwebページにある。 Multimodal image-text models have shown remarkable performance in the past few years. However, evaluating robustness against distribution shifts is crucial before adopting them in real-world applications. In this work, we investigate the robustness of 12 popular open-sourced image-text models under common perturbations on five tasks (image-text retrieval, visual reasoning, visual entailment, image captioning, and text-to-image generation). In particular, we propose several new multimodal robustness benchmarks by applying 17 image perturbation and 16 text perturbation techniques on top of existing datasets. We observe that multimodal models are not robust to image and text perturbations, especially to image perturbations. Among the tested perturbation methods, character-level perturbations constitute the most severe distribution shift for text, and zoom blur is the most severe shift for image data. We also introduce two new robustness metrics (\textbf{MMI} for MultiModal Impact score and \textbf{MOR} for Missing Object Rate) for proper evaluations of multimodal models. We hope our extensive study sheds light on new directions for the development of robust multimodal models. More details can be found on the project webpage: \url{https://MMRobustness.github.io}. | 翻訳日:2024-01-22 13:11:30 公開日:2024-01-19 |
# 効率的なスロットラベリング Efficient slot labelling ( http://arxiv.org/abs/2401.09343v2 ) ライセンス: Link先を確認 | Vladimir Vlasov | (参考訳) スロットラベリングは対話システムにおいて不可欠な要素であり、ユーザのターン毎に重要な引数を見つけることを目的としている。
一般的なアプローチはBERTやRoBERTaのような大規模な事前学習言語モデル(PLM)であるが、高い計算要求や事前学習データへの依存といった課題に直面している。
そこで本研究では,従来のPLM法と同等以上の性能を示す軽量な手法を提案する。
これは、現実の産業シナリオに特に当てはまる。 Slot labelling is an essential component of any dialogue system, aiming to find important arguments in every user turn. Common approaches involve large pre-trained language models (PLMs) like BERT or RoBERTa, but they face challenges such as high computational requirements and dependence on pre-training data. In this work, we propose a lightweight method which performs on par or better than the state-of-the-art PLM-based methods, while having almost 10x less trainable parameters. This makes it especially applicable for real-life industry scenarios. | 翻訳日:2024-01-22 12:30:18 公開日:2024-01-19 |
# CFASL: 変分オートエンコーダの絡み合いに対する複合因子適応対称性学習 CFASL: Composite Factor-Aligned Symmetry Learning for Disentanglement in Variational AutoEncoder ( http://arxiv.org/abs/2401.08897v2 ) ライセンス: Link先を確認 | Hee-Jun Jung, Jaehyoung Jeong and Kangil Kim | (参考訳) 入力ベクトルと潜伏ベクトルの対称性は、VAEにおける不整合学習に有用な洞察を与えてきたが、教師なしの手法としていくつかの研究が提案され、これらの研究でさえ、トレーニングデータに既知の因子情報を必要とする。
本稿では,教師なし学習における非教師あり学習における対称性に基づく不等角性学習のためのvaesに統合した合成因子整合対称性学習(cfasl)を提案する。cfaslは対称性に基づく異角性学習のための3つの新しい特徴を取り入れている。
1) ラテントベクトル次元を明示的に学習可能な対称性コードブック内の因子整列対称性に整合させる誘導バイアス注入
2 コードブック内の因子整合対称性の学習による2つのランダムサンプル間の未知の因子変化を表現するための合成対称性の学習
3) 群同変エンコーダとデコーダの2つの条件でVAEを訓練する。
さらに,vaesにおける絡み合い評価と比較し,多因子変化に対する拡張評価指標を提案する。
cfaslは量的・奥行きの質的分析において,単因子変化のばらつき,多因子変化条件の有意な改善を,最先端法と比較して示している。 Symmetries of input and latent vectors have provided valuable insights for disentanglement learning in VAEs.However, only a few works were proposed as an unsupervised method, and even these works require known factor information in training data. We propose a novel method, Composite Factor-Aligned Symmetry Learning (CFASL), which is integrated into VAEs for learning symmetry-based disentanglement in unsupervised learning without any knowledge of the dataset factor information.CFASL incorporates three novel features for learning symmetry-based disentanglement: 1) Injecting inductive bias to align latent vector dimensions to factor-aligned symmetries within an explicit learnable symmetry codebook 2) Learning a composite symmetry to express unknown factors change between two random samples by learning factor-aligned symmetries within the codebook 3) Inducing group equivariant encoder and decoder in training VAEs with the two conditions. In addition, we propose an extended evaluation metric for multi-factor changes in comparison to disentanglement evaluation in VAEs. In quantitative and in-depth qualitative analysis, CFASL demonstrates a significant improvement of disentanglement in single-factor change, and multi-factor change conditions compared to state-of-the-art methods. | 翻訳日:2024-01-22 12:29:55 公開日:2024-01-19 |
# 分断は忘れず--連続学習における選択訓練専門家の集まり Divide and not forget: Ensemble of selectively trained experts in Continual Learning ( http://arxiv.org/abs/2401.10191v2 ) ライセンス: Link先を確認 | Grzegorz Rype\'s\'c, Sebastian Cygert, Valeriya Khan, Tomasz Trzci\'nski, Bartosz Zieli\'nski, Bart{\l}omiej Twardowski | (参考訳) クラス増分学習は、モデルがすでに知っていることを忘れずに適用範囲を広げるのに役立つため、人気が高まっている。
この領域のトレンドは、異なるモデルがタスクを解決するために一緒に働く、エキスパートの混合技術を使うことである。
しかし、専門家は通常、すべてのタスクデータを使って一度に訓練されるため、計算負荷を忘れて増大する傾向があります。
この制限に対処するために,SEEDという新しいアプローチを導入する。
SEEDは、考慮されたタスクに対して最も最適な専門家である1人だけを選択し、このタスクからのデータを使用して、この専門家のみを微調整する。
この目的のために、各専門家は各クラスをガウス分布で表現し、それらの分布の類似性に基づいて最適な専門家を選択する。
その結果、SEEDはアンサンブル法の安定性を維持しつつ、専門家の多様性と不均一性を高める。
この実験により、SEEDは様々なシナリオにまたがる模範のない設定において最先端のパフォーマンスを実現し、連続学習におけるデータによる専門家の多様化の可能性を示している。 Class-incremental learning is becoming more popular as it helps models widen their applicability while not forgetting what they already know. A trend in this area is to use a mixture-of-expert technique, where different models work together to solve the task. However, the experts are usually trained all at once using whole task data, which makes them all prone to forgetting and increasing computational burden. To address this limitation, we introduce a novel approach named SEED. SEED selects only one, the most optimal expert for a considered task, and uses data from this task to fine-tune only this expert. For this purpose, each expert represents each class with a Gaussian distribution, and the optimal expert is selected based on the similarity of those distributions. Consequently, SEED increases diversity and heterogeneity within the experts while maintaining the high stability of this ensemble method. The extensive experiments demonstrate that SEED achieves state-of-the-art performance in exemplar-free settings across various scenarios, showing the potential of expert diversification through data in continual learning. | 翻訳日:2024-01-22 12:19:00 公開日:2024-01-19 |
# Motion-Zero:拡散映像生成のためのゼロショット移動物体制御フレームワーク Motion-Zero: Zero-Shot Moving Object Control Framework for Diffusion-Based Video Generation ( http://arxiv.org/abs/2401.10150v2 ) ライセンス: Link先を確認 | Changgu Chen, Junwei Shu, Lianggangxu Chen, Gaoqi He, Changbo Wang and Yang Li | (参考訳) 最近の大規模事前学習拡散モデルは、詳細なテキスト記述から高品質のビデオを生成する強力な生成能力を示している。
しかし、ビデオ拡散モデルによって生成されたビデオにおける物体の動きを制御することは難しい問題である。
本稿では,ゼロショット移動物体軌道制御フレームワークであるMotion-Zeroを提案し,移動物体の外観の安定性と位置の精度を向上させるために,初期ノイズ先行モジュールを設計する。
さらに、U-netの注意マップに基づいて、拡散モデルの復調過程に空間的制約を直接適用することにより、推論中の移動物体の位置的および空間的整合性を確保する。
さらに、シフト時間注意機構により、時間整合性が保証される。
本手法は, 訓練過程を必要とせず, 様々な映像拡散モデルに適用できる。
提案手法は,物体の運動軌跡を制御し,高品質な映像を生成できることを示す。 Recent large-scale pre-trained diffusion models have demonstrated a powerful generative ability to produce high-quality videos from detailed text descriptions. However, exerting control over the motion of objects in videos generated by any video diffusion model is a challenging problem. In this paper, we propose a novel zero-shot moving object trajectory control framework, Motion-Zero, to enable a bounding-box-trajectories-controlled text-to-video diffusion model.To this end, an initial noise prior module is designed to provide a position-based prior to improve the stability of the appearance of the moving object and the accuracy of position. In addition, based on the attention map of the U-net, spatial constraints are directly applied to the denoising process of diffusion models, which further ensures the positional and spatial consistency of moving objects during the inference. Furthermore, temporal consistency is guaranteed with a proposed shift temporal attention mechanism. Our method can be flexibly applied to various state-of-the-art video diffusion models without any training process. Extensive experiments demonstrate our proposed method can control the motion trajectories of objects and generate high-quality videos. | 翻訳日:2024-01-22 12:18:41 公開日:2024-01-19 |
# 不確かさを持つハミルトニアンのバイナリ量子制御最適化 Binary Quantum Control Optimization with Uncertain Hamiltonians ( http://arxiv.org/abs/2401.10120v2 ) ライセンス: Link先を確認 | Xinyu Fei and Lucas T. Brady and Jeffrey Larson and Sven Leyffer and Siqian Shen | (参考訳) 量子システムの制御の最適化は、量子技術の進歩において重要な役割を果たす。
量子系における時変ノイズと不均一量子アンサンブルの広範な使用は、不確実性の下で高品質な量子制御の必要性を増大させる。
本稿では,予測可能な不確実性を持つハミルトン系を含む二元最適量子制御問題の確率的離散最適化を定式化する。
本稿では,リスクニュートラルとリスクアバースの両制御ポリシを最適化したサンプルベース改質法を提案する。
さらに,目的関数の微分可能性について議論し,二元制御問題に対する最適解と連続緩和との間のギャップの上限を証明した。
量子パルス最適化の2つの応用に基づいて、様々な問題インスタンスについて数値的研究を行い、量子システムにおける不確実性の影響を緩和するための異なる戦略を評価した。
確率最適化モデルの制御は, 決定論的モデルの制御と比較して, 極めて高い品質と頑健性が得られることを示す。 Optimizing the controls of quantum systems plays a crucial role in advancing quantum technologies. The time-varying noises in quantum systems and the widespread use of inhomogeneous quantum ensembles raise the need for high-quality quantum controls under uncertainties. In this paper, we consider a stochastic discrete optimization formulation of a binary optimal quantum control problem involving Hamiltonians with predictable uncertainties. We propose a sample-based reformulation that optimizes both risk-neutral and risk-averse measurements of control policies, and solve these with two gradient-based algorithms using sum-up-rounding approaches. Furthermore, we discuss the differentiability of the objective function and prove upper bounds of the gaps between the optimal solutions to binary control problems and their continuous relaxations. We conduct numerical studies on various sized problem instances based of two applications of quantum pulse optimization; we evaluate different strategies to mitigate the impact of uncertainties in quantum systems. We demonstrate that the controls of our stochastic optimization model achieve significantly higher quality and robustness compared to the controls of a deterministic model. | 翻訳日:2024-01-22 12:18:23 公開日:2024-01-19 |
# VIPTR: 高速かつ高能率なシーンテキスト認識のための視覚可変エクストラクタ VIPTR: A Vision Permutable Extractor for Fast and Efficient Scene Text Recognition ( http://arxiv.org/abs/2401.10110v2 ) ライセンス: Link先を確認 | Xianfu Cheng, Weixiao Zhou, Xiang Li, Xiaoming Chen, Jian Yang, Tongliang Li, Zhoujun Li | (参考訳) シーンテキスト認識(STR)は、自然のシーンの画像内のテキストを認識するという課題である。
現在のSTRの最先端モデルは高い性能を示すが、一般的にはビジュアルエンコーダとシーケンスデコーダで構成されるハイブリッドアーキテクチャに依存するため、推論効率が低い。
本研究では,高速かつ効率的なシーンテキスト認識(VIPTR)のためのVIsion Permutable extractorを提案する。
具体的には、VIPTRは、伝統的なシークエンスデコーダをエシェレーションしながら、複数の自己アテンション層を特徴とするピラミッド構造を持つ視覚的意味抽出器を利用する。
この設計選択は、様々なサイズの入力を処理できる軽量で効率的なモデルをもたらす。
中国語と英語のテキスト認識のための様々な標準データセットに関する広範囲な実験結果がviptrの優位性を検証している。
特に、VIPTR-T(Tiny)は、他の軽量モデルと同等の高い競争精度を提供し、SOTA推論速度を達成する。
一方、VIPTR-L(Large)変異は、低いパラメータ数と好ましい推論速度を維持しつつ、より高い認識精度を実現する。
提案手法は,高い精度と効率をブレンドし,高速で信頼性の高いテキスト認識を必要とする実世界のアプリケーションに多大な恩恵を与える。
コードはhttps://github.com/cxfyxl/VIPTRで公開されている。 Scene Text Recognition (STR) is a challenging task that involves recognizing text within images of natural scenes. Although current state-of-the-art models for STR exhibit high performance, they typically suffer from low inference efficiency due to their reliance on hybrid architectures comprised of visual encoders and sequence decoders. In this work, we propose the VIsion Permutable extractor for fast and efficient scene Text Recognition (VIPTR), which achieves an impressive balance between high performance and rapid inference speeds in the domain of STR. Specifically, VIPTR leverages a visual-semantic extractor with a pyramid structure, characterized by multiple self-attention layers, while eschewing the traditional sequence decoder. This design choice results in a lightweight and efficient model capable of handling inputs of varying sizes. Extensive experimental results on various standard datasets for both Chinese and English scene text recognition validate the superiority of VIPTR. Notably, the VIPTR-T (Tiny) variant delivers highly competitive accuracy on par with other lightweight models and achieves SOTA inference speeds. Meanwhile, the VIPTR-L (Large) variant attains greater recognition accuracy, while maintaining a low parameter count and favorable inference speed. Our proposed method provides a compelling solution for the STR challenge, which blends high accuracy with efficiency and greatly benefits real-world applications requiring fast and reliable text recognition. The code is publicly available at https://github.com/cxfyxl/VIPTR. | 翻訳日:2024-01-22 12:18:10 公開日:2024-01-19 |
# 人物再識別のためのクロスモーダル摂動シナジー攻撃 Cross-Modality Perturbation Synergy Attack for Person Re-identification ( http://arxiv.org/abs/2401.10090v2 ) ライセンス: Link先を確認 | Yunpeng Gong and Zhun Zhong and Zhiming Luo and Yansong Qu and Rongrong Ji and Min Jiang | (参考訳) 近年,rgb画像に基づくreid(single-modal person re-identification)システムにおいて,セキュリティ上の懸念に対処する研究が盛んに行われている。
しかし、赤外線カメラで撮影された画像を含む実用的な用途で一般的に見られるクロスモダリティシナリオの安全性は十分に注目されていない。
相互モダリティReIDの主な課題は、異なるモダリティ間の視覚的差異を効果的に扱うことである。
例えば、赤外線画像は、色情報を含む可視画像とは異なり、通常グレースケールである。
既存の攻撃方法は、可視画像モダリティの特徴に重点を置いており、他のモダリティの特徴や異なるモダリティ間のデータ分布の変化を見渡している。
この監視は、様々なモードにわたる画像検索におけるこれらの手法の有効性を損なう可能性がある。
本研究は, クロスモダリティReIDモデルの安全性に関する最初の調査であり, クロスモダリティReIDに特化して設計された普遍的摂動攻撃を提案する。
この攻撃は、多様なモダリティデータからの勾配を利用して摂動を最適化し、判別器を乱し、モダリティ間の差異を補強する。
regdbとsysuという2つの多種多様なクロスモダリティデータセットについて実験を行い,本手法の有効性を実証するとともに,今後のクロスモダリティreidシステムのロバスト性向上に向けた知見を提供した。 In recent years, there has been significant research focusing on addressing security concerns in single-modal person re-identification (ReID) systems that are based on RGB images. However, the safety of cross-modality scenarios, which are more commonly encountered in practical applications involving images captured by infrared cameras, has not received adequate attention. The main challenge in cross-modality ReID lies in effectively dealing with visual differences between different modalities. For instance, infrared images are typically grayscale, unlike visible images that contain color information. Existing attack methods have primarily focused on the characteristics of the visible image modality, overlooking the features of other modalities and the variations in data distribution among different modalities. This oversight can potentially undermine the effectiveness of these methods in image retrieval across diverse modalities. This study represents the first exploration into the security of cross-modality ReID models and proposes a universal perturbation attack specifically designed for cross-modality ReID. This attack optimizes perturbations by leveraging gradients from diverse modality data, thereby disrupting the discriminator and reinforcing the differences between modalities. We conducted experiments on two widely used cross-modality datasets, namely RegDB and SYSU, which not only demonstrated the effectiveness of our method but also provided insights for future enhancements in the robustness of cross-modality ReID systems. | 翻訳日:2024-01-22 12:17:44 公開日:2024-01-19 |
# 重要情報を用いた説明変換器の改良 Better Explain Transformers by Illuminating Important Information ( http://arxiv.org/abs/2401.09972v2 ) ライセンス: Link先を確認 | Linxin Song, Yan Cui, Ao Luo, Freddy Lecue, Irene Li | (参考訳) トランスフォーマーベースのモデルは様々な自然言語処理(nlp)タスクに優れており、内部動作を説明するための無数の努力を惹きつけている。
従来の手法では,非関連情報が説明計算中によく考慮されるトークン属性スコアとして,生勾配と注目度に着目してトランスフォーマーを説明する。
本研究では,lrp(layer-wise associated propagation)手法上で,重要情報を強調表示し,無関係な情報を排除することを提案する。
具体的には,構文的頭部と位置的頭部を重要な注意点として同定し,これらの重要な頭部から得られる関連性に着目した。
実験結果から、無関係な情報が出力帰属スコアを歪め、説明計算中に隠蔽することを示した。
分類・問合せデータセットの8つのベースラインと比較すると,提案手法は説明指標の3倍から33倍に向上し,優れた説明性能が得られる。
私たちの匿名コードリポジトリは、https://github.com/LinxinS97/Mask-LRPで利用可能です。 Transformer-based models excel in various natural language processing (NLP) tasks, attracting countless efforts to explain their inner workings. Prior methods explain Transformers by focusing on the raw gradient and attention as token attribution scores, where non-relevant information is often considered during explanation computation, resulting in confusing results. In this work, we propose highlighting the important information and eliminating irrelevant information by a refined information flow on top of the layer-wise relevance propagation (LRP) method. Specifically, we consider identifying syntactic and positional heads as important attention heads and focus on the relevance obtained from these important heads. Experimental results demonstrate that irrelevant information does distort output attribution scores and then should be masked during explanation computation. Compared to eight baselines on both classification and question-answering datasets, our method consistently outperforms with over 3\% to 33\% improvement on explanation metrics, providing superior explanation performance. Our anonymous code repository is available at: https://github.com/LinxinS97/Mask-LRP | 翻訳日:2024-01-22 12:17:22 公開日:2024-01-19 |
# 神経オデムの補間における深さと幅の相互作用 Interplay between depth and width for interpolation in neural ODEs ( http://arxiv.org/abs/2401.09902v2 ) ライセンス: Link先を確認 | Antonio \'Alvarez-L\'opez, Arselane Hadj Slimane, Enrique Zuazua | (参考訳) ニューラル常微分方程式 (neural ODEs) は制御の観点から教師あり学習の自然な道具として登場したが、それらの最適アーキテクチャの完全な理解はいまだ解明されていない。
本研究では,その幅$p$と層遷移数$L$(事実上深さ$L+1$)の相互作用について検討する。
具体的には、ワッサーシュタイン誤差マージン$\varepsilon>0$の中で、N$の点対からなる有限データセット$D$または2つの確率測度を$\mathbb{R}^d$で補間する能力の観点からモデル表現性を評価する。
この結果から,データセット補間は$O(1+N/p)$,測定補間は$L=O\left(1+(p\varepsilon^d)^{-1}\right)$として,$L$が$O(1+N/p)$,$L$が$L$のバランスをとることが判明した。
自律的なケースでは、$l=0$の場合、データセットの補間に焦点を当てた別の研究が必要です。
我々は、$\varepsilon$-approximate controllabilityの緩和問題に対処し、$\varepsilon\sim O(\log(p)p^{-1/d})$の誤差崩壊を確立する。
この減衰率は、$d$を補間するカスタム構築リプシッツベクトル場に普遍近似定理を適用する結果である。
高次元設定では、$p=O(N)$ニューロンが正確な制御を達成するのに十分であることを示す。 Neural ordinary differential equations (neural ODEs) have emerged as a natural tool for supervised learning from a control perspective, yet a complete understanding of their optimal architecture remains elusive. In this work, we examine the interplay between their width $p$ and number of layer transitions $L$ (effectively the depth $L+1$). Specifically, we assess the model expressivity in terms of its capacity to interpolate either a finite dataset $D$ comprising $N$ pairs of points or two probability measures in $\mathbb{R}^d$ within a Wasserstein error margin $\varepsilon>0$. Our findings reveal a balancing trade-off between $p$ and $L$, with $L$ scaling as $O(1+N/p)$ for dataset interpolation, and $L=O\left(1+(p\varepsilon^d)^{-1}\right)$ for measure interpolation. In the autonomous case, where $L=0$, a separate study is required, which we undertake focusing on dataset interpolation. We address the relaxed problem of $\varepsilon$-approximate controllability and establish an error decay of $\varepsilon\sim O(\log(p)p^{-1/d})$. This decay rate is a consequence of applying a universal approximation theorem to a custom-built Lipschitz vector field that interpolates $D$. In the high-dimensional setting, we further demonstrate that $p=O(N)$ neurons are likely sufficient to achieve exact control. | 翻訳日:2024-01-22 12:17:03 公開日:2024-01-19 |
# 顕微鏡における細粒化セグメンテーションのための骨格誘導型インスタンス分離 Skeleton-Guided Instance Separation for Fine-Grained Segmentation in Microscopy ( http://arxiv.org/abs/2401.09895v2 ) ライセンス: Link先を確認 | Jun Wang, Chengfeng Zhou, Zhaoyan Ming, Lina Wei, Xudong Jiang, and Dahong Qian | (参考訳) 顕微鏡(MS)画像解析における基本的な課題の1つはインスタンスセグメンテーション(IS)であり、特にサイズや形状の異なる複数のオブジェクトが任意の向きに連結したり重なり合ったりする場合である。
既存のisメソッドは通常、キーポイントや水平境界ボックス(h-bboxes)といった粗いインスタンス表現に依存するため、そのようなシナリオを扱うのに失敗する。
本稿では,この課題に対処し,MS画像におけるISの精度を高めるために,A2B-ISという新しいワンステージフレームワークを提案する。
このアプローチは各インスタンスをピクセルレベルのマスクマップと回転したバウンディングボックス(r-bbox)で表現する。
セグメンテーションにボックスプロポーザルを使用する2段階の手法とは異なり、我々の手法はマスクとボックス予測を分離し、同時処理でモデルパイプラインを合理化することができる。
さらに,(1)アンカー配置をガイドし,計算コストを低減しつつ,背景領域からノイズを除去してRoI対応の特徴を学習する能力を向上させるという,ISタスクを支援するガウススケルトンマップを導入する。
2) インスタンス境界付近の誤ったボックス予測を正すことで,密集したインスタンスの正確な分離を実現する。
性能をさらに向上するため,(1)高精細なマルチスケール情報を持つ高精細な特徴マップを抽出するために設計されたA2B(Atrous Attention Block)と,(2)ラベル付き画像と未ラベル画像の両方をモデルトレーニングに活用するSemi-Supervised Learning(SSL)戦略の2つのモジュールをフレームワークに統合した。
本手法は,2つの大規模msデータセット上で徹底的に検証され,最先端手法よりも優れていることを示す。 One of the fundamental challenges in microscopy (MS) image analysis is instance segmentation (IS), particularly when segmenting cluster regions where multiple objects of varying sizes and shapes may be connected or even overlapped in arbitrary orientations. Existing IS methods usually fail in handling such scenarios, as they rely on coarse instance representations such as keypoints and horizontal bounding boxes (h-bboxes). In this paper, we propose a novel one-stage framework named A2B-IS to address this challenge and enhance the accuracy of IS in MS images. Our approach represents each instance with a pixel-level mask map and a rotated bounding box (r-bbox). Unlike two-stage methods that use box proposals for segmentations, our method decouples mask and box predictions, enabling simultaneous processing to streamline the model pipeline. Additionally, we introduce a Gaussian skeleton map to aid the IS task in two key ways: (1) It guides anchor placement, reducing computational costs while improving the model's capacity to learn RoI-aware features by filtering out noise from background regions. (2) It ensures accurate isolation of densely packed instances by rectifying erroneous box predictions near instance boundaries. To further enhance the performance, we integrate two modules into the framework: (1) An Atrous Attention Block (A2B) designed to extract high-resolution feature maps with fine-grained multiscale information, and (2) A Semi-Supervised Learning (SSL) strategy that leverages both labeled and unlabeled images for model training. Our method has been thoroughly validated on two large-scale MS datasets, demonstrating its superiority over most state-of-the-art approaches. | 翻訳日:2024-01-22 12:16:31 公開日:2024-01-19 |
# 教師なし類似度尺度を用いたソースコードクローン検出 Source Code Clone Detection Using Unsupervised Similarity Measures ( http://arxiv.org/abs/2401.09885v2 ) ライセンス: Link先を確認 | Jorge Martinez-Gil | (参考訳) 近年,クローン検出やコード検索,レコメンデーションといったソフトウェア工学タスクの重要性から,ソースコードの類似性の評価が注目されている。
本研究はソースコードクローン検出のための教師なし類似度尺度の比較分析を行う。
目標は、現在の最先端技術、その強み、弱点を概観することである。
そのため、既存の教師なし戦略をコンパイルし、ベンチマークデータセットでパフォーマンスを評価することで、ソフトウェアエンジニアが特定のユースケースに適した方法を選択するようにガイドします。
この研究のソースコードはhttps://github.com/jorge-martinez-gil/codesimで入手できる。 Assessing similarity in source code has gained significant attention in recent years due to its importance in software engineering tasks such as clone detection and code search and recommendation. This work presents a comparative analysis of unsupervised similarity measures for identifying source code clone detection. The goal is to overview the current state-of-the-art techniques, their strengths, and weaknesses. To do that, we compile the existing unsupervised strategies and evaluate their performance on a benchmark dataset to guide software engineers in selecting appropriate methods for their specific use cases. The source code of this study is available at https://github.com/jorge-martinez-gil/codesim | 翻訳日:2024-01-22 12:15:58 公開日:2024-01-19 |
# 大規模言語モデルのための高速で高性能でセキュアな分散トレーニングフレームワーク A Fast, Performant, Secure Distributed Training Framework For Large Language Model ( http://arxiv.org/abs/2401.09796v2 ) ライセンス: Link先を確認 | Wei Huang, Yinggui Wang, Anda Cheng, Aihui Zhou, Chaofan Yu, Lei Wang | (参考訳) 分散LLMは、サイロデータを用いてドメイン固有のLLMを協調訓練するための重要な方法である。
しかし、悪意あるモデルパラメータとデータをサーバまたはクライアント側から盗むことは、解決すべき緊急の問題となっている。
本稿では,モデルスライシングに基づくセキュア分散LLMを提案する。
この場合、クライアント側とサーバ側の両方にTrusted Execution Environment(TEE)をデプロイし、微調整構造(LoRAまたはP-tuning v2)をTEEに組み込む。
そして、軽量暗号化により、TEEおよび一般的な環境でセキュアな通信が実行される。
機器コストをさらに削減し,モデル性能と精度を向上させるため,分割微調整方式を提案する。
特に、LLMをレイヤで分割し、後者のレイヤをサーバサイドのTEE(クライアントはTEEを必要としない)に配置します。
次に,提案したスパシフィケーションパラメータファインチューニング(SPF)とLoRA部分を組み合わせることで,下流タスクの精度を向上させる。
多数の実験により,セキュリティを維持しながら精度を保証できることが示されている。 The distributed (federated) LLM is an important method for co-training the domain-specific LLM using siloed data. However, maliciously stealing model parameters and data from the server or client side has become an urgent problem to be solved. In this paper, we propose a secure distributed LLM based on model slicing. In this case, we deploy the Trusted Execution Environment (TEE) on both the client and server side, and put the fine-tuned structure (LoRA or embedding of P-tuning v2) into the TEE. Then, secure communication is executed in the TEE and general environments through lightweight encryption. In order to further reduce the equipment cost as well as increase the model performance and accuracy, we propose a split fine-tuning scheme. In particular, we split the LLM by layers and place the latter layers in a server-side TEE (the client does not need a TEE). We then combine the proposed Sparsification Parameter Fine-tuning (SPF) with the LoRA part to improve the accuracy of the downstream task. Numerous experiments have shown that our method guarantees accuracy while maintaining security. | 翻訳日:2024-01-22 12:15:48 公開日:2024-01-19 |
# 散逸環境におけるデチューニングがエントロピー不確実性と量子相関に及ぼす影響 The effects of detuning on entropic uncertainty bound and quantum correlations in dissipative environment ( http://arxiv.org/abs/2401.09782v2 ) ライセンス: Link先を確認 | Shahram Mehrmanesh, Maryam Hadipour, Soroush Haseli | (参考訳) 量子情報理論の基本的な議論の1つは不確実性原理である。
この原理に従って、2つの非互換な観測可能量は高い精度で同時に測定することはできない。
本研究では,量子メモリの存在下でのエントロピー不確実性関係を用いる。
散逸環境を考えると、量子メモリの遷移周波数とキャビティの中心周波数との調律がエントリピック不確実性境界と量子メモリと測定粒子との量子相関に与える影響について検討する。
デチューニングを増加させることで、量子相関が維持されることが示されている。
その結果、不確実性境界と量子相関との逆関係により、測定結果はより正確に推測される。 One of the fundamental arguments in quantum information theory is the uncertainty principle. In accordance with this principle, two incompatible observables cannot be measured with high precision at the same time. In this work, we will use the entropic uncertainty relation in the presence of quantum memory. Considering a dissipative environment, the effects of the detuning between the transition frequency of a quantum memory and the center frequency of a cavity on entrpic uncertainty bound and quantum correlation between quantum memory and measured particle will be studied. It is shown that by increasing the detuning, quantum correlation is maintained. As a result, due to the inverse relationship between the uncertainty bound and quantum correlation, the measurement results is guessed more accurately. | 翻訳日:2024-01-22 12:15:28 公開日:2024-01-19 |
# 点雲色情報のための高速グラフベースデノイング Fast graph-based denoising for point cloud color information ( http://arxiv.org/abs/2401.09721v2 ) ライセンス: Link先を確認 | Ryosuke Watanabe and Keisuke Nonaka and Eduardo Pavez and Tatsuya Kobayashi and Antonio Ortega | (参考訳) ポイントクラウドは、クロスリアリティ(XR)やリアルな3Dディスプレイなど、さまざまな3Dアプリケーションで利用されている。
例えば、3dポイントクラウドを使ったライブストリーミングでは、視覚品質を向上させるためにリアルタイムポイントクラウドの表示方法が必要となる。
しかし、K近傍のグラフ構造とノイズレベル推定の複雑さのため、従来の高精度デノナイズ法は大規模点雲に対してリアルタイムに実行できない。
本稿では,大規模クラウドのための高速グラフベースデノイング(FGBD)を提案する。
まず,様々な方向の点雲を走査し,近傍の走査線を探索することで高速グラフ構築を実現する。
次に,グラフ上の共分散行列の固有値を用いた高速雑音レベル推定法を提案する。
また,高速化アルゴリズムによる劣化を補うために,デノナイジング精度を向上させるための新しい低コストフィルタ選択法を提案する。
実験では,従来手法と比較して精度を維持しつつ,処理時間を劇的に短縮することに成功した。
30fpsで撮影され、約100万点のフレームが撮影された。 Point clouds are utilized in various 3D applications such as cross-reality (XR) and realistic 3D displays. In some applications, e.g., for live streaming using a 3D point cloud, real-time point cloud denoising methods are required to enhance the visual quality. However, conventional high-precision denoising methods cannot be executed in real time for large-scale point clouds owing to the complexity of graph constructions with K nearest neighbors and noise level estimation. This paper proposes a fast graph-based denoising (FGBD) for a large-scale point cloud. First, high-speed graph construction is achieved by scanning a point cloud in various directions and searching adjacent neighborhoods on the scanning lines. Second, we propose a fast noise level estimation method using eigenvalues of the covariance matrix on a graph. Finally, we also propose a new low-cost filter selection method to enhance denoising accuracy to compensate for the degradation caused by the acceleration algorithms. In our experiments, we succeeded in reducing the processing time dramatically while maintaining accuracy relative to conventional denoising methods. Denoising was performed at 30fps, with frames containing approximately 1 million points. | 翻訳日:2024-01-22 12:15:18 公開日:2024-01-19 |
# ニューラルネットワークの各層に画像特徴を入力した模倣学習 Imitation Learning Inputting Image Feature to Each Layer of Neural Network ( http://arxiv.org/abs/2401.09691v2 ) ライセンス: Link先を確認 | Koki Yamane, Sho Sakaino, Toshiaki Tsuji | (参考訳) 模倣学習は、トレーニングデータから人間の行動を学習し、再現することを可能にする。
機械学習の最近の進歩は、画像などの高次元観測データを直接処理するエンドツーエンドの学習アプローチを可能にする。
しかし、これらの手法は複数のモードからデータを処理する場合、特に短いサンプリング時間を使用する場合、特に所望の出力との相関が低いデータを不注意に無視する場合、重要な課題に直面している。
本稿では,各ニューラルネットワーク層にデータを入力することで,データの影響を比較的低い相関で増幅する,この課題に対処する有用な手法を提案する。
提案手法は,学習プロセスに多様なデータソースを効果的に組み込む。
原画像と関節情報を入力として簡単なピック・アンド・プレイス操作を用いた実験により,短いサンプリング期間のデータを扱う場合においても,成功率の大幅な向上が示された。 Imitation learning enables robots to learn and replicate human behavior from training data. Recent advances in machine learning enable end-to-end learning approaches that directly process high-dimensional observation data, such as images. However, these approaches face a critical challenge when processing data from multiple modalities, inadvertently ignoring data with a lower correlation to the desired output, especially when using short sampling periods. This paper presents a useful method to address this challenge, which amplifies the influence of data with a relatively low correlation to the output by inputting the data into each neural network layer. The proposed approach effectively incorporates diverse data sources into the learning process. Through experiments using a simple pick-and-place operation with raw images and joint information as input, significant improvements in success rates are demonstrated even when dealing with data from short sampling periods. | 翻訳日:2024-01-22 12:15:00 公開日:2024-01-19 |
# 対実DPOを用いた大規模言語モデルのアライメント Aligning Large Language Models with Counterfactual DPO ( http://arxiv.org/abs/2401.09566v2 ) ライセンス: Link先を確認 | Bradley Butcher | (参考訳) 大規模言語モデル(LLM)の進歩は、様々なアプリケーションで顕著な機能を示している。
これらのモデルは文脈的に一貫性があり、幅広い主題をカバーするテキスト補完を生成するのに優れている。
しかし、トレーニングに必要な膨大なデータセットは、事前トレーニングと指導のチューニングフェーズにおける応答スタイルの整合を困難にしている。
その結果、通常、追加のアライメントフェーズが採用され、モデルはさらに人間の嗜好データで訓練され、その出力と人間の期待をより良く調整される。
このプロセスは、本質的に新しい機能を導入していないが、モデルに固有の生成スタイルをアクセント化する。
本稿では,人間の介入に頼らずにモデルスタイルを整合させるために,直接選好最適化(DPO)フレームワーク内での対実的プロンプトの利用について検討する。
本手法は,望ましい動作を効果的に排除し,望ましくない動作を緩和し,不適切な指示を無視するようモデルに促すことを実証する。
我々の知見は、DPOによる反実的プロンプトは、責任的かつ倫理的に整合したAIシステムに対する要求を満たすために、LLMを微調整する低リソースな方法を示すことを示唆している。 Advancements in large language models (LLMs) have demonstrated remarkable capabilities across a diverse range of applications. These models excel in generating text completions that are contextually coherent and cover an extensive array of subjects. However, the vast datasets required for their training make aligning response styles during the pretraining and instruction tuning phases challenging. Consequently, an additional alignment phase is typically employed, wherein the model is further trained with human preference data to better align its outputs with human expectations. While this process doesn't introduce new capabilities per se, it does accentuate generation styles innate to the model. This paper explores the utilization of counterfactual prompting within the framework of Direct Preference Optimization (DPO) to align the model's style without relying on human intervention. We demonstrate that this method effectively instils desirable behaviour, mitigates undesirable ones, and encourages the model to disregard inappropriate instructions. Our findings suggest that counterfactual prompting with DPO presents a low-resource way to fine-tune LLMs to meet the demands for responsible and ethically aligned AI systems. | 翻訳日:2024-01-22 12:14:47 公開日:2024-01-19 |
# IPR-NeRF:オーナシップ検証とニューラルラジアンスフィールド IPR-NeRF: Ownership Verification meets Neural Radiance Field ( http://arxiv.org/abs/2401.09495v2 ) ライセンス: Link先を確認 | Win Kent Ong, Kam Woh Ng, Chee Seng Chan, Yi Zhe Song, Tao Xiang | (参考訳) neural radiance field(nerf)モデルは、最近のコンピュータビジョンコミュニティにおいて、最先端の視覚品質で大きな注目を集め、印象的なデモンストレーションを生み出した。
それ以来、技術者はNeRFモデルを利益のあるビジネスに活用しようとしてきた。
そのため、NeRFモデルは、違法にそれらのモデルをコピー、再配布、または誤用するリスクを負う。
本稿では, ブラックボックスおよびホワイトボックス設定, IPR-NeRFにおけるNeRFモデルに対する包括的知的財産権保護フレームワークを提案する。
ブラックボックス設定では、2段階最適化プロセスを介して透かしを埋め込み抽出するために拡散ベースの溶液が導入された。
ホワイトボックス設定では、指定されたデジタル署名が、符号損失目標を採用して、nerfモデルの重みに埋め込まれる。
我々は,IPR-NeRFモデルの忠実度(レンダリング品質)を維持するだけでなく,従来の技術と比較して曖昧さと除去攻撃に対して頑健であることを示した。 Neural Radiance Field (NeRF) models have gained significant attention in the computer vision community in the recent past with state-of-the-art visual quality and produced impressive demonstrations. Since then, technopreneurs have sought to leverage NeRF models into a profitable business. Therefore, NeRF models make it worth the risk of plagiarizers illegally copying, re-distributing, or misusing those models. This paper proposes a comprehensive intellectual property (IP) protection framework for the NeRF model in both black-box and white-box settings, namely IPR-NeRF. In the black-box setting, a diffusion-based solution is introduced to embed and extract the watermark via a two-stage optimization process. In the white-box setting, a designated digital signature is embedded into the weights of the NeRF model by adopting the sign loss objective. Our extensive experiments demonstrate that not only does our approach maintain the fidelity (\ie, the rendering quality) of IPR-NeRF models, but it is also robust against both ambiguity and removal attacks compared to prior arts. | 翻訳日:2024-01-22 12:14:26 公開日:2024-01-19 |