このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231016となっている論文です。

PDF登録状況(公開日: 20231016)

TitleAuthorsAbstract論文公表日・翻訳日
# 超特異同型環 Ring と 1 の同型問題は同値である

The supersingular Endomorphism Ring and One Endomorphism problems are equivalent ( http://arxiv.org/abs/2309.10432v2 )

ライセンス: Link先を確認
Aurel Page, Benjamin Wesolowski, (参考訳) 超特異自己同型リング問題(英語版)(supersingular Endomorphism Ring problem)は以下の問題である: 超特異楕円曲線が与えられたとき、その自己同型を全て計算する。 この問題の難しさは、同種暗号の基盤となる。 1 の自己同型問題は、単一の非スカラー自己同型を見つけることだけを要求する。 この2つの問題は確率多項式時間短縮の下で等価であることを示す。 私たちはいくつかの結果を証明する。 まず、自己準同型リング問題の硬さを仮定すると、Charles-Goren-Lauterハッシュ関数は衝突耐性があり、SQIsign識別プロトコルは健全である。 第二に、自己準同型環問題は超特異楕円曲線の間の任意の等元性を計算する問題と等価である。 第三に、時間 O~(sqrt(p)) における自己準同型環の問題を解くための無条件確率的アルゴリズムが存在する。 本研究の主な成果を証明するため,同種グラフ研究のためのフレキシブルなフレームワークを導入する。 我々は、汎用的で使いやすい急速混合定理を証明した。 この結果の証明は、拡張されたDeuring対応とJacquet-Langlands対応によって行われる。

The supersingular Endomorphism Ring problem is the following: given a supersingular elliptic curve, compute all of its endomorphisms. The presumed hardness of this problem is foundational for isogeny-based cryptography. The One Endomorphism problem only asks to find a single non-scalar endomorphism. We prove that these two problems are equivalent, under probabilistic polynomial time reductions. We prove a number of consequences. First, assuming the hardness of the endomorphism ring problem, the Charles--Goren--Lauter hash function is collision resistant, and the SQIsign identification protocol is sound. Second, the endomorphism ring problem is equivalent to the problem of computing arbitrary isogenies between supersingular elliptic curves, a result previously known only for isogenies of smooth degree. Third, there exists an unconditional probabilistic algorithm to solve the endomorphism ring problem in time O~(sqrt(p)), a result that previously required to assume the generalized Riemann hypothesis. To prove our main result, we introduce a flexible framework for the study of isogeny graphs with additional information. We prove a general and easy-to-use rapid mixing theorem. The proof of this result goes via an augmented Deuring correspondence and the Jacquet-Langlands correspondence.
翻訳日:2024-03-19 04:20:31 公開日:2023-10-16
# BRC-20をEthereumにブリッジする

Bridging BRC-20 to Ethereum ( http://arxiv.org/abs/2310.10065v1 )

ライセンス: Link先を確認
Guangsheng Yu, Qin Wang, (参考訳) 本稿では,これまで不均一に非接触であったBitcoinとEthereumネットワークを接続するための軽量ブリッジ(ミドルウェアの一種)の設計,実装,および(一部)評価を行う。 最近発表されたBitcoin Request Comment (BRC-20)標準にインスパイアされた私たちは、それぞれのサトシに編集可能な操作を埋め込んで、プログラマブルなEthereumスマートコントラクトにマッピングすることで、Bitcoinの碑文の柔軟性を活用しています。 ユーザは、Bitcoinネットワークからのリクエストを初期化して、Ethereumネットワーク上で対応するアクションをトリガーすることができる。 我々は,2つの異種生態系間のセキュアでシームレスな相互作用を促進するための,ソリューションの軽量な性質と能力を検証する。

In this paper, we design, implement, and (partially-) evaluate a lightweight bridge (as a type of middleware) to connect the Bitcoin and Ethereum networks that were heterogeneously uncontactable before. Inspired by the recently introduced Bitcoin Request Comment (BRC-20) standard, we leverage the flexibility of Bitcoin inscriptions by embedding editable operations within each satoshi and mapping them to programmable Ethereum smart contracts. A user can initialize his/her requests from the Bitcoin network, subsequently triggering corresponding actions on the Ethereum network. We validate the lightweight nature of our solution and its ability to facilitate secure and seamless interactions between two heterogeneous ecosystems.
翻訳日:2024-03-19 02:23:27 公開日:2023-10-16
# 医療分野におけるサイバーセキュリティに関する白書 HEIRソリューション

White paper on cybersecurity in the healthcare sector. The HEIR solution ( http://arxiv.org/abs/2310.10139v1 )

ライセンス: Link先を確認
Konstantinos Lampropoulos, Apostolis Zarras, Eftychia Lakka, Polyanthi Barmpaki, Kostas Drakonakis, Manos Athanatos, Herve Debar, Andreas Alexopoulos, Aristeidis Sotiropoulos, George Tsakirakis, Nikos Dimakopoulos, Dimitris Tsolovos, Matthias Pocs, Michalis Smyrlis, Ioannis Basdekis, Georgios Spanoudakis, Ovidiu Mihaila, Bogdan Prelipcean, Eliot Salant, Sotiris Athanassopoulos, Petros Papachristou, Ioannis Ladakis, John Chang, Evangelos Floros, Konstantinos Smyrlis, Rouven Besters, Pietro Randine, Karianna Fjeld Lovaas, John Cooper, Iulia Ilie, Gabriel Danciu, Marwan Darwish Khabbaz, (参考訳) 医療セクターは、デジタル化が進んでいるため、サイバー攻撃にますます脆弱になっている。 医療記録や財務情報を含む患者データは危険にさらされており、個人情報の盗難や患者の安全上の懸念につながる可能性がある。 欧州連合(EU)や他の組織は、医療システム改善の鍵となる領域を特定できるが、業界はいまだに不十分なセキュリティプラクティスに悩まされている。 HEIRプロジェクトは、包括的なサイバーセキュリティアプローチを提供し、さまざまな規制フレームワークからのセキュリティ機能を促進し、セキュアヘルスケアフレームワークや医療アプリケーションに対するリスクアセスメント(RAMA)などのツールを導入している。 これらの対策は、デジタルヘルスのセキュリティを強化し、機密性の高い患者データを保護し、セキュアなデータアクセスとプライバシ認識技術を促進することを目的としている。 HEIRは、急速に進化する脅威の世界で、医療サイバーセキュリティのための有望なフレームワークを提供する。

The healthcare sector is increasingly vulnerable to cyberattacks due to its growing digitalization. Patient data, including medical records and financial information, are at risk, potentially leading to identity theft and patient safety concerns. The European Union and other organizations identify key areas for healthcare system improvement, yet the industry still grapples with inadequate security practices. In response, the HEIR project offers a comprehensive cybersecurity approach, promoting security features from various regulatory frameworks and introducing tools such as the Secure Healthcare Framework and Risk Assessment for Medical Applications (RAMA). These measures aim to enhance digital health security and protect sensitive patient data while facilitating secure data access and privacy-aware techniques. In a rapidly evolving threat landscape, HEIR presents a promising framework for healthcare cybersecurity.
翻訳日:2024-03-19 02:23:27 公開日:2023-10-16
# 連結車両の多層セキュリティ基盤 -現場からの最初の教訓-

A Multilayered Security Infrastructure for Connected Vehicles -- First Lessons from the Field ( http://arxiv.org/abs/2310.10336v1 )

ライセンス: Link先を確認
Timo Häckel, Philipp Meyer, Lukas Stahlbock, Falk Langer, Sebastian A. Eckhardt, Franz Korf, Thomas C. Schmidt, (参考訳) 接続された車両は操作に脆弱であり、広範囲の攻撃面を使用して、地球上のどこからでも車内ネットワークを侵入することができる。 本研究では,ネットワーク保護,監視,インシデント管理,および対策を含む統合セキュリティ基盤について述べる。 当社の車両は,通信経路の制限,誤動作を明確化するためのネットワーク異常検出,アジャイル対策を可能にする仮想コントローラ機能,車両のインシデントを分析し管理する自動車クラウドディフェンスセンターを実装している。 我々はプロトタイプの運用から学んだ最初の測定と教訓を提示する: バックボーン内のソフトウェア定義アクセス制御によって多くのネットワーク攻撃を防げる; 異常検出は確実に検知できるが、偽陽性率を改善する必要がある; コントローラ仮想化は車内要求を満たすためのフレームワークをカスタマイズする必要がある; クラウドディフェンスは艦隊管理と高度な対策を可能にする。 以上の結果から,車両の攻撃緩和時間は257msから328ms,雲を横断する2,168msから2,713msであった。

Connected vehicles are vulnerable to manipulation and a broad attack surface can be used to intrude in-vehicle networks from anywhere on earth. In this work, we present an integrated security infrastructure comprising network protection, monitoring, incident management, and counteractions, which we built into a prototype based on a production car. Our vehicle implements a Software-Defined Networking Ethernet backbone to restrict communication routes, network anomaly detection to make misbehavior evident, virtual controller functions to enable agile countermeasures, and an automotive cloud defense center to analyse and manage incidents on vehicle fleets. We present first measurements and lessons learned from operating the prototype: many network attacks can be prevented through software-defined access control in the backbone; anomaly detection can reliably detect misbehavior but needs to improve on false positive rate; controller virtualization needs tailored frameworks to meet in-car requirements; and cloud defence enables fleet management and advanced countermeasures. Our findings indicate attack mitigation times in the vehicle from 257 ms to 328 ms and from 2,168 ms to 2,713 ms traversing the cloud.
翻訳日:2024-03-19 02:23:27 公開日:2023-10-16
# 暗号通貨のセキュリティ

Security in Cryptocurrency ( http://arxiv.org/abs/2310.10768v1 )

ライセンス: Link先を確認
Chelsea Medina, Lily Shaw, Dissy Vargas, Sundar Krishnan, (参考訳) 本稿では,暗号通貨の仕組み,システムにおけるセキュリティ利用の考え方,その人気について論じる。 筆者らはまず、暗号通貨とその仕組みについて、その背景を提供している。 著者らは、ほとんどの人はこの概念に精通しているが、どのように機能するかは知らないかもしれないと理解している。 次に、著者らは論文の中で暗号通貨のセキュリティについて論じている。 著者らは、システム内の脆弱性を示すために、暗号通貨システムに対する攻撃の例も提供している。 最後に,暗号通貨におけるセキュリティの必要性をさらに強調するシステムの人気について論じる。

This paper discusses the mechanisms of cryptocurrency, the idea of using security in the system, and the popularity of it. To begin, the authors provide a background on cryptocurrency and how it works. The authors understand that while most people may be familiar with the concept, they may not know how it works. Next, the authors discuss the security of cryptocurrency in-depth within the paper. The authors also provide examples of attacks on cryptocurrency systems to show the vulnerabilities within the system. Lastly, the authors discuss the popularity of the system to further express the need for security in cryptocurrency.
翻訳日:2024-03-19 02:13:39 公開日:2023-10-16
# 時空間埋め込み:マルチモーダルコンピュータビジョンのための時空間データからのスケーラブルな自己監督型時間表現学習

Temporal Embeddings: Scalable Self-Supervised Temporal Representation Learning from Spatiotemporal Data for Multimodal Computer Vision ( http://arxiv.org/abs/2401.08581v1 )

ライセンス: Link先を確認
Yi Cao and Swetava Ganguli and Vipul Pandey(参考訳) 地形活動の時間的パターンと土地利用の種類には相関関係がある。 移動活動時系列に基づいて景観を階層化する新しい自己監督手法を提案する。 まず、時系列信号は周波数領域に変換され、時間系列で観察される周期時間パターンを保存する収縮型オートエンコーダによりタスク非依存の時間埋め込みに圧縮される。 ピクセルワイズ埋め込みは、深いセマンティックセグメンテーションを用いた下流空間タスクのタスクベースマルチモーダルモデリングに使用できるイメージライクなチャネルに変換される。 実験により,時間的埋め込みは時系列データの意味的に意味のある表現であり,住宅地や商業地域を分類するといった様々なタスクに有効であることが示された。 時間的埋め込みは、連続的な時空間運動軌跡データを意味論的に意味のある画像のようなテンソル表現に変換し(マルチモーダル融合)、画像のようなテンソル表現(RBG画像、道路ネットワークのグラフ埋め込み、SARなどの受動的収集画像など)に変換して、地理空間コンピュータビジョンにおけるマルチモーダル学習を容易にする。 マルチモーダルコンピュータビジョンは、地理空間的特徴検出のための機械学習モデルをトレーニングするために重要であり、地理空間的マッピングサービスをリアルタイムで最新に保つ。

There exists a correlation between geospatial activity temporal patterns and type of land use. A novel self-supervised approach is proposed to stratify landscape based on mobility activity time series. First, the time series signal is transformed to the frequency domain and then compressed into task-agnostic temporal embeddings by a contractive autoencoder, which preserves cyclic temporal patterns observed in time series. The pixel-wise embeddings are converted to image-like channels that can be used for task-based, multimodal modeling of downstream geospatial tasks using deep semantic segmentation. Experiments show that temporal embeddings are semantically meaningful representations of time series data and are effective across different tasks such as classifying residential area and commercial areas. Temporal embeddings transform sequential, spatiotemporal motion trajectory data into semantically meaningful image-like tensor representations that can be combined (multimodal fusion) with other data modalities that are or can be transformed into image-like tensor representations (for e.g., RBG imagery, graph embeddings of road networks, passively collected imagery like SAR, etc.) to facilitate multimodal learning in geospatial computer vision. Multimodal computer vision is critical for training machine learning models for geospatial feature detection to keep a geospatial mapping service up-to-date in real-time and can significantly improve user experience and above all, user safety.
翻訳日:2024-01-22 10:02:34 公開日:2023-10-16
# クラスタ間モデリングによるコード生成のためのニューラルランカ

Neural Rankers for Code Generation via Inter-Cluster Modeling ( http://arxiv.org/abs/2311.03366v1 )

ライセンス: Link先を確認
Hung Quoc To, Minh Huynh Nguyen, Nghi D. Q. Bui(参考訳) Code Large Language Models (CodeLLMs)は、コード生成の新たな時代を支えている。 しかし、可能なすべてのcodellmソリューションの中から最良のソリューションを選択することは依然として課題である。 それまでの手法では、複雑な機能的類似性やクラスタ間の相互作用がしばしば見過ごされ、結果として準最適結果が得られた。 本稿では,クラスタ間関係のモデリングに焦点をあてたコード生成から,最適なソリューションを選択するための新たな戦略である‘textit{SRank} を紹介する。 クラスタ間の機能の重複を定量化することにより、私たちのアプローチは、コードソリューションのより良いランキング戦略を提供します。 実験結果から,pass@1 スコアにおいて顕著な結果が得られた。 例えば、human-evalベンチマークでは、pass@1において、codex002で69.66\%、wizardcoderで75.31\%、starcoderで53.99\%、codegenで60.55\%を達成する。 ランダムサンプリング法と比較して,Human-Evalでは$\approx 23.07\%,MBPPでは17.64\%の平均的な改善が得られる。 テスト入力が限られているシナリオであっても、私たちのアプローチは堅牢性と優位性を示し、コード生成の新たな最先端をマークしています。

Code Large Language Models (CodeLLMs) have ushered in a new era of code generation advancements. However, selecting the best solutions from among all possible CodeLLM solutions remains a challenge. Previous methods frequently overlooked the intricate functional similarities and interactions between clusters, resulting in suboptimal results. In this work, we introduce \textit{SRank}, a novel reranking strategy for selecting the best solution from code generation that focuses on modeling inter-cluster relationship. By quantifying the functional overlap between clusters, our approach provides a better ranking strategy of code solutions. Empirical results show that our method achieves a remarkable results on pass@1 score. For instance, on the Human-Eval benchmark, we achieve 69.66\% in pass@1 with Codex002, 75.31\% for WizardCoder, 53.99\% for StarCoder and 60.55\% for CodeGen, which surpass the state-of-the-arts solution ranking methods, such as CodeT and Coder-Reviewer on the same CodeLLM with significant margin ($\approx 6.1\%$ improvement on average). Comparing to the random sampling method, we can achieve an average improvement of $\approx 23.07\%$ on Human-Eval and 17.64\% on MBPP. Even in scenarios with limited test inputs, our approach demonstrates robustness and superiority, marking a new state-of-the-arts in code generation reranking.
翻訳日:2023-11-12 19:47:32 公開日:2023-10-16
# シリコン炭化物パワーMOSFETデバイスの高次レベル3逆モデリングのためのディープラーニングアルゴリズム

Deep Learning Algorithm for Advanced Level-3 Inverse-Modeling of Silicon-Carbide Power MOSFET Devices ( http://arxiv.org/abs/2310.17657v1 )

ライセンス: Link先を確認
Massimo Orazio Spata, Sebastiano Battiato, Alessandro Ortis, Francesco Rundo, Michele Calabretta, Carmelo Pino, Angelo Messina(参考訳) ディープラーニングアルゴリズムによる逆モデリングは、静的な振る舞いからデバイスのパラメータを予測するためにディープアーキテクチャをトレーニングする。 逆デバイスモデリングは、時間的に劣化したデバイスのドリフト物理パラメータを再構築したり、物理的構成を検索するのに適している。 逆モデリング法の性能に影響を与える多くの変数がある。 本研究では,炭化ケイ素MOSFET(SiC Power MOS)のレベル3モデルの物理パラメータを取得するためのディープラーニング手法を提案する。 SiCデバイスは、高温または高スイッチング能力のために古典的なシリコンデバイスが故障したアプリケーションで使用される。 SiCパワーデバイスのキーとなる応用は、自動車分野(すなわち電気自動車分野)である。 生理的劣化や高ストレス環境のため, SiC Power MOS は逆モデリングを用いて観測できる物理パラメータの顕著なドリフトを示す。 本研究の目的は,SiC Power MOSFETの物理パラメータを取得するためのディープラーニングベースのソリューションを提供することである。 装置のチャネル長の検索に基づく予備結果が報告される。 電力MOSFETのチャネル長は、デバイスの静的および動的動作に関わる重要なパラメータである。 本研究で報告した実験結果から, このパラメータを回収する多層パーセプトロンの有効性が確認された。

Inverse modelling with deep learning algorithms involves training deep architecture to predict device's parameters from its static behaviour. Inverse device modelling is suitable to reconstruct drifted physical parameters of devices temporally degraded or to retrieve physical configuration. There are many variables that can influence the performance of an inverse modelling method. In this work the authors propose a deep learning method trained for retrieving physical parameters of Level-3 model of Power Silicon-Carbide MOSFET (SiC Power MOS). The SiC devices are used in applications where classical silicon devices failed due to high-temperature or high switching capability. The key application of SiC power devices is in the automotive field (i.e. in the field of electrical vehicles). Due to physiological degradation or high-stressing environment, SiC Power MOS shows a significant drift of physical parameters which can be monitored by using inverse modelling. The aim of this work is to provide a possible deep learning-based solution for retrieving physical parameters of the SiC Power MOSFET. Preliminary results based on the retrieving of channel length of the device are reported. Channel length of power MOSFET is a key parameter involved in the static and dynamic behaviour of the device. The experimental results reported in this work confirmed the effectiveness of a multi-layer perceptron designed to retrieve this parameter.
翻訳日:2023-11-05 14:13:30 公開日:2023-10-16
# バス輸送解析における機械学習の利点

Advantages of Machine Learning in Bus Transport Analysis ( http://arxiv.org/abs/2310.19810v1 )

ライセンス: Link先を確認
Amirsadegh Roshanzamir(参考訳) Supervised Machine Learningは、過去の経験を使って人間の学習を模倣することを目的とした革新的な手法である。 本研究では,テヘランBRTバスシステムの周期性に寄与する要因を,教師付き機械学習アルゴリズムを用いて解析する。 テヘラン市から2020年から2022年までの公開データセットを収集して、モデルをトレーニングし、テストしています。 様々なアルゴリズムを採用し,PythonのSci Kit Learn and Stats Modelsライブラリを活用することで,バスルートが特定の日のオンタイムパフォーマンスの所定の基準を満たすかどうかを予測できる正確なモデルを構築する。 さらに、各アルゴリズムの意思決定過程を深く掘り下げて、最も影響力のある要因を判断する。 この調査により,バス経路の有効性に大きな影響を及ぼす重要な特徴を明らかにすることができ,性能向上のための貴重な洞察を提供することができる。

Supervised Machine Learning is an innovative method that aims to mimic human learning by using past experiences. In this study, we utilize supervised machine learning algorithms to analyze the factors that contribute to the punctuality of Tehran BRT bus system. We gather publicly available datasets of 2020 to 2022 from Municipality of Tehran to train and test our models. By employing various algorithms and leveraging Python's Sci Kit Learn and Stats Models libraries, we construct accurate models capable of predicting whether a bus route will meet the prescribed standards for on-time performance on any given day. Furthermore, we delve deeper into the decision-making process of each algorithm to determine the most influential factor it considers. This investigation allows us to uncover the key feature that significantly impacts the effectiveness of bus routes, providing valuable insights for improving their performance.
翻訳日:2023-11-05 13:26:06 公開日:2023-10-16
# MgNO:マルチグリッドによる線形演算子の効率的なパラメータ化

MgNO: Efficient Parameterization of Linear Operators via Multigrid ( http://arxiv.org/abs/2310.19809v1 )

ライセンス: Link先を確認
Juncai He, Xinliang Liu and Jinchao Xu(参考訳) 本研究では,演算子学習のための簡潔なニューラル演算子アーキテクチャを提案する。 非線形作用素層における$i$-thニューロンの出力は、$\mathcal O_i(u) = \sigma\left( \sum_j \mathcal W_{ij} u + \mathcal B_{ij}\right)$で定義される。 ここで、$\mathcal w_{ij}$ は、$j$-th 入力ニューロンと$i$-th 出力ニューロンを接続する有界線型作用素を表し、バイアス $\mathcal b_{ij}$ はスカラーではなく関数の形を取る。 新しい普遍近似特性から、2つのニューロン(バナッハ空間)間の有界線型作用素の効率的なパラメータ化が重要な役割を果たす。 その結果, ニューロン間の線形演算子をパラメータ化するために, マルチグリッド構造を利用したmgnoを導入する。 このアプローチは数学的厳密さと実践的表現性の両方を提供する。 さらに、MgNOは従来のリフティングおよび投射演算子が従来のニューラル演算子で必要とされることを妨げる。 さらに、多様な境界条件をシームレスに満たす。 実験結果から,mgnoは他のcnnモデルに比べてトレーニングが容易であると同時に,スペクトル型ニューラルオペレータと対比した場合の過剰フィッティングに対する感受性も低下していることが明らかとなった。 偏微分方程式 (PDE) の多種差分式 (PDE) 上で, 定常に最先端性能を示す手法の有効性と精度を示す。

In this work, we propose a concise neural operator architecture for operator learning. Drawing an analogy with a conventional fully connected neural network, we define the neural operator as follows: the output of the $i$-th neuron in a nonlinear operator layer is defined by $\mathcal O_i(u) = \sigma\left( \sum_j \mathcal W_{ij} u + \mathcal B_{ij}\right)$. Here, $\mathcal W_{ij}$ denotes the bounded linear operator connecting $j$-th input neuron to $i$-th output neuron, and the bias $\mathcal B_{ij}$ takes the form of a function rather than a scalar. Given its new universal approximation property, the efficient parameterization of the bounded linear operators between two neurons (Banach spaces) plays a critical role. As a result, we introduce MgNO, utilizing multigrid structures to parameterize these linear operators between neurons. This approach offers both mathematical rigor and practical expressivity. Additionally, MgNO obviates the need for conventional lifting and projecting operators typically required in previous neural operators. Moreover, it seamlessly accommodates diverse boundary conditions. Our empirical observations reveal that MgNO exhibits superior ease of training compared to other CNN-based models, while also displaying a reduced susceptibility to overfitting when contrasted with spectral-type neural operators. We demonstrate the efficiency and accuracy of our method with consistently state-of-the-art performance on different types of partial differential equations (PDEs).
翻訳日:2023-11-05 13:25:51 公開日:2023-10-16
# ユニバーサル音声モデルを利用した知覚型シーケンス分類器による音声異常検出

Detecting Speech Abnormalities with a Perceiver-based Sequence Classifier that Leverages a Universal Speech Model ( http://arxiv.org/abs/2310.13010v1 )

ライセンス: Link先を確認
Hagen Soltau, Izhak Shafran, Alex Ottenwess, Joseph R. JR Duffy, Rene L. Utianski, Leland R. Barnard, John L. Stricker, Daniela Wiepert, David T. Jones, Hugo Botha(参考訳) 本稿では,複数の神経疾患の音声反射の異常を検出する知覚器に基づくシーケンス分類器を提案する。 この分類器を、1200万時間に及ぶ様々な音声録音で訓練(教師なし)されたユニバーサル音声モデル(usm)と組み合わせる。 本モデルでは,長い列をクラス固有の潜在表現の小さなセットに圧縮し,不規則な入力音声の異なる属性を予測するために,分解プロジェクションを用いる。 私たちのアプローチの利点は、異なるクラスの入力の異なる領域をモデル化できると同時に、データ効率も良いことです。 マヨクリニックのキュレートコーパスを用いて,提案モデルを広範囲に評価した。 我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。 タスク固有の限られたデータでは、非関連自動音声認識(ASR)タスクで事前訓練が重要であり、驚くほど事前訓練することが有用である。 中間層からのエンコーディングは音響情報と音声情報の両方を提供し、最終層エンコーディング(83.1%対79.6%)のみを使用して最高の予測結果を得る。 結果は有望であり、さらなる改善により、臨床医は高度に専門化された言語病理学者にアクセスすることなく、音声異常を検出することができる。

We propose a Perceiver-based sequence classifier to detect abnormalities in speech reflective of several neurological disorders. We combine this classifier with a Universal Speech Model (USM) that is trained (unsupervised) on 12 million hours of diverse audio recordings. Our model compresses long sequences into a small set of class-specific latent representations and a factorized projection is used to predict different attributes of the disordered input speech. The benefit of our approach is that it allows us to model different regions of the input for different classes and is at the same time data efficient. We evaluated the proposed model extensively on a curated corpus from the Mayo Clinic. Our model outperforms standard transformer (80.9%) and perceiver (81.8%) models and achieves an average accuracy of 83.1%. With limited task-specific data, we find that pretraining is important and surprisingly pretraining with the unrelated automatic speech recognition (ASR) task is also beneficial. Encodings from the middle layers provide a mix of both acoustic and phonetic information and achieve best prediction results compared to just using the final layer encodings (83.1% vs. 79.6%). The results are promising and with further refinements may help clinicians detect speech abnormalities without needing access to highly specialized speech-language pathologists.
翻訳日:2023-10-29 16:11:03 公開日:2023-10-16
# LoBaSS: 教師付き微調整データにおける学習性向上

LoBaSS: Gauging Learnability in Supervised Fine-tuning Data ( http://arxiv.org/abs/2310.13008v1 )

ライセンス: Link先を確認
Haotian Zhou, Tingkai Liu, Qianli Ma, Jianbo Yuan, Pengfei Liu, Yang You and Hongxia Yang(参考訳) Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) を特定のタスクの前提条件に合わせる上で重要なフェーズである。 微調整データの選定は、伝統的にデータ品質と分散に基礎を置いているモデルの性能に大きな影響を及ぼす。 本稿では,SFTデータ選択における新しい次元:学習可能性について紹介する。 この新たな次元は、SFTが事前訓練フェーズ中にLLMが取得した能力をアンロックするという直感によって動機付けられる。 異なる事前訓練されたモデルが異なる能力を持つことを考えると、SFTのデータは他のモデルに適さないかもしれない。 そこで本研究では,モデルによる効果的な学習のためのデータの適合性を定義するための学習可能性という用語を提案する。 本稿では,sptデータ選択の主基準としてデータ学習性を活用したロスベースsptデータ選択(lobass)手法を提案する。 この方法は、データ選択と固有のモデル機能とのアライメントを可能にし、最適な互換性と学習効率を確保する。 7bモデルと13bモデルとの比較では,全トレーニングデータのわずか6%で全データの微調整を超越することができた。 16.7%のデータを採用した場合、LoBaSSは会話や数学的領域でモデルの能力を調和させ、その有効性と適応性を証明する。

Supervised Fine-Tuning (SFT) serves as a crucial phase in aligning Large Language Models (LLMs) to specific task prerequisites. The selection of fine-tuning data profoundly influences the model's performance, whose principle is traditionally grounded in data quality and distribution. In this paper, we introduce a new dimension in SFT data selection: learnability. This new dimension is motivated by the intuition that SFT unlocks capabilities acquired by a LLM during the pretraining phase. Given that different pretrained models have disparate capabilities, the SFT data appropriate for one may not suit another. Thus, we introduce the term learnability to define the suitability of data for effective learning by the model. We present the Loss Based SFT Data Selection (LoBaSS) method, utilizing data learnability as the principal criterion for the selection SFT data. This method provides a nuanced approach, allowing the alignment of data selection with inherent model capabilities, ensuring optimal compatibility and learning efficiency. In experimental comparisons involving 7B and 13B models, our LoBaSS method is able to surpass full-data fine-tuning at merely 6% of the total training data. When employing 16.7% of the data, LoBaSS harmonizes the model's capabilities across conversational and mathematical domains, proving its efficacy and adaptability.
翻訳日:2023-10-29 16:10:39 公開日:2023-10-16
# GSL(Generative Sparse-latent)信号の圧縮センシング

Compressed Sensing of Generative Sparse-latent (GSL) Signals ( http://arxiv.org/abs/2310.15119v1 )

ライセンス: Link先を確認
Antoine Honor\'e, Anubhab Ghosh, Saikat Chatterjee(参考訳) 本研究では、ニューラルネットワークに基づく生成モデルを持つ圧縮センシング(CS)装置における環境信号の再構成を検討する。 生成モデルはスパースラテント入力を持ち、生成した周囲信号を生成スパースラテント信号(GSL)と呼ぶ。 提案手法は本質的に非凸であり,勾配に基づく探索が良好な再構成性能を示すことを示す。 シミュレーションデータを用いて提案アルゴリズムを評価する。

We consider reconstruction of an ambient signal in a compressed sensing (CS) setup where the ambient signal has a neural network based generative model. The generative model has a sparse-latent input and we refer to the generated ambient signal as generative sparse-latent signal (GSL). The proposed sparsity inducing reconstruction algorithm is inherently non-convex, and we show that a gradient based search provides a good reconstruction performance. We evaluate our proposed algorithm using simulated data.
翻訳日:2023-10-29 15:59:08 公開日:2023-10-16
# モバイルアプリのアクセシビリティレポート自動生成に向けて

Towards Automated Accessibility Report Generation for Mobile Apps ( http://arxiv.org/abs/2310.00091v2 )

ライセンス: Link先を確認
Amanda Swearngin, Jason Wu, Xiaoyi Zhang, Esteban Gomez, Jen Coughenour, Rachel Stukenborg, Bhavya Garg, Greg Hughes, Adriana Hilliard, Jeffrey P. Bigham, Jeffrey Nichols(参考訳) 多くのアプリは、ラベルの欠如やコントラストの低下など、基本的なアクセシビリティの問題を抱えている。 自動ツールは、アプリ開発者が基本的な問題を見つけるのに役立つが、面倒なことや専用のテストを書く必要がある。 本研究では,大規模技術企業におけるアクセシビリティステークホルダーとの協調的なプロセスにより,さまざまなデータ収集手法(アプリクローリング,手動記録など)と既存のアクセシビリティスキャナを組み合わせることで,アプリケーションアクセシビリティレポート全体を生成するシステムを提案する。 このようなスキャナの多くはシングルスクリーンスキャンに基づいており、アプリアクセシビリティレポートの大きな問題は、アプリ全体で収集された問題を効果的に分離し、まとめることである。 そこで我々は96.9%の精度(88.8%のF1スコア)と97%の精度(98.2%のF1スコア)のUI要素マッチングヒューリスティックスを備えたスクリーングループモデルを開発した。 これらのテクノロジをシステムに組み合わせて、アプリ全体でユニークな問題を報告し、要約し、ユニークなピクセルベースの無視機能を有効にすることで、エンジニアやテスタがアプリの生涯にわたって報告された問題をよりよく管理できるようにします。 18名のアクセシビリティにフォーカスしたエンジニアとテスタによる質的評価を行い,既存のアクセシビリティテストツールキットを強化し,現在のアクセシビリティスキャニングツールの重要な制限に対処できることを示した。

Many apps have basic accessibility issues, like missing labels or low contrast. Automated tools can help app developers catch basic issues, but can be laborious or require writing dedicated tests. We propose a system, motivated by a collaborative process with accessibility stakeholders at a large technology company, to generate whole app accessibility reports by combining varied data collection methods (e.g., app crawling, manual recording) with an existing accessibility scanner. Many such scanners are based on single-screen scanning, and a key problem in whole app accessibility reporting is to effectively de-duplicate and summarize issues collected across an app. To this end, we developed a screen grouping model with 96.9% accuracy (88.8% F1-score) and UI element matching heuristics with 97% accuracy (98.2% F1-score). We combine these technologies in a system to report and summarize unique issues across an app, and enable a unique pixel-based ignore feature to help engineers and testers better manage reported issues across their app's lifetime. We conducted a qualitative evaluation with 18 accessibility-focused engineers and testers which showed this system can enhance their existing accessibility testing toolkit and address key limitations in current accessibility scanning tools.
翻訳日:2023-10-21 15:09:14 公開日:2023-10-16
# nバージョン設計による高可用性ブロックチェーンノード

Highly Available Blockchain Nodes With N-Version Design ( http://arxiv.org/abs/2303.14438v2 )

ライセンス: Link先を確認
Javier Ron, C\'esar Soto-Valero, Long Zhang, Benoit Baudry, Martin Monperrus(参考訳) すべてのソフトウェアと同様に、ブロックチェーンノードは、基盤となる実行スタックの障害にさらされる。 不安定な実行環境は、ブロックチェーンノードインターフェースの可用性を損なう可能性がある。 本稿では,N-version Blockchainノードの概念を紹介する。 この新しいタイプのノードは、AvizienisのNバージョンプログラミングビジョンのラインで、同じブロックチェーンプロトコルの異なる実装の同時実行に依存している。 N-ETHと呼ばれるEthereumのコンテキストでN-versionブロックチェーンノードのプロトタイプを設計し実装する。 我々は,N-ETHが不安定な実行環境の影響を緩和し,環境欠陥下での可用性を著しく向上できることを示す。 不安定な実行環境をシミュレートするため,システムコールレベルで障害注入を行う。 その結果、既存のethereumノードの実装は、同じ不安定なシナリオで非対称に振る舞うことが判明した。 N-ETHは、Ethereumノードの多様な実装で利用可能なこの非対称な振る舞いを活用して、最も積極的なフォールトインジェクション戦略の下でも、可用性を向上します。 私たちはブロックチェーンインフラストラクチャのドメインにおけるNバージョン設計の妥当性を最初に検証しています。 産業的観点から見ると、私たちの結果は、GoogleやConsenSys、その他多くの大手ブロックチェーン企業など、ブロックチェーンノードを運用する企業にとって最も重要です。

As all software, blockchain nodes are exposed to faults in their underlying execution stack. Unstable execution environments can disrupt the availability of blockchain nodes interfaces, resulting in downtime for users. This paper introduces the concept of N-version Blockchain nodes. This new type of node relies on simultaneous execution of different implementations of the same blockchain protocol, in the line of Avizienis' N-version programming vision. We design and implement an N-version blockchain node prototype in the context of Ethereum, called N-ETH. We show that N-ETH is able to mitigate the effects of unstable execution environments and significantly enhance availability under environment faults. To simulate unstable execution environments, we perform fault injection at the system-call level. Our results show that existing Ethereum node implementations behave asymmetrically under identical instability scenarios. N-ETH leverages this asymmetric behavior available in the diverse implementations of Ethereum nodes to provide increased availability, even under our most aggressive fault-injection strategies. We are the first to validate the relevance of N-version design in the domain of blockchain infrastructure. From an industrial perspective, our results are of utmost importance for businesses operating blockchain nodes, including Google, ConsenSys, and many other major blockchain companies.
翻訳日:2023-10-21 15:08:27 公開日:2023-10-16
# web3アプリケーションに向けて:アクセスと遷移の容易化

Towards Web3 Applications: Easing the Access and Transition ( http://arxiv.org/abs/2210.05903v3 )

ライセンス: Link先を確認
Guangsheng Yu and Xu Wang and Qin Wang and Tingting Bi and Yifei Dong and Ren Ping Liu and Nektarios Georgalas and Andrew Reeves(参考訳) Web3は、多くのWeb2アプリケーションでさえ乗りたがっている次世代のWebサービスの波を導いている。 しかし、Web2開発者にとってWeb3の背景がないことは、簡単で効果的なアクセスと移行を妨げる。 一方、Web3アプリケーションは、市場シェアが低いため、従来のWeb2企業やプロジェクトからの奨励や広告を望んでいる。 本稿では,Web3の意味と Web2 アプリケーションと Web3 アプリケーションの主な違いを探った WebttCom という Web2 から Web3 へのシームレスな遷移フレームワークを提案する。 また、提案フレームワークをサポートするユースケースとしてフルスタック実装を提供し、続いて4つのポジティブな反応と1つの自然な反応を示す5人の参加者とのインタビューを行う。 提案するフレームワークであるWebttComが,その定義された研究課題に対処していることを確認し,その実装は,インタビュー結果に基づいて,強い必要性,ユーザビリティ,完全性の観点から,フレームワークであるWebttComを十分に満足させる。

Web3 is leading a wave of the next generation of web services that even many Web2 applications are keen to ride. However, the lack of Web3 background for Web2 developers hinders easy and effective access and transition. On the other hand, Web3 applications desire for encouragement and advertisement from conventional Web2 companies and projects due to their low market shares. In this paper, we propose a seamless transition framework that transits Web2 to Web3, named WebttCom, after exploring the connotation of Web3 and the key differences between Web2 and Web3 applications. We also provide a full-stack implementation as a use case to support the proposed framework, followed by interviews with five participants that show four positive and one natural response. We confirm that the proposed framework WebttCom addresses the defined research question, and the implementation well satisfies the framework WebttCom in terms of strong necessity, usability, and completeness based on the interview results.
翻訳日:2023-10-21 15:07:15 公開日:2023-10-16
# stackageリポジトリ:その進化に関する探索的研究

The Stackage Repository: An Exploratory Study of its Evolution ( http://arxiv.org/abs/2310.10887v1 )

ライセンス: Link先を確認
Paul Leger and Felipe Ruiz and Nicol\'as Sep\'ulveda and Ismael Figueroa and Nicol\'as Cardozo(参考訳) コンテキスト。 プログラミング言語のパッケージリポジトリはますます一般的になっている。 リポジトリはパッケージの進化のレジスタを保持することができる。 プログラミング言語Haskellでは、その特性モナドを定義することで、Hackageリポジトリで安定したHaskellパッケージのためのキュレートされたリポジトリであるStackageリポジトリを見つけることができます。 Stackageが工業的ターゲットで広く利用されているにもかかわらず、私たちはこのリポジトリがどのように進化したかについて、モナドの使用を含む多くの経験的な研究を知らない。 目的。 本稿では,2014~2023年における22の長期サポートリリースを通じて,モナドパッケージを考慮したスタックの進化に関する実証研究を行う。 5つの研究課題に焦点を当てて、この進化は、依存関係とインポートを伴うパッケージの観点から分析される。 私たちの知る限りでは、これは使用済みのパッケージとモナドに関するstackageリポジトリの進化に関する最初の大規模な分析です。 方法。 リポジトリの進化に関する6つの研究質問を定義し、22リリースにまたがる51,716パッケージ (17.05 GB) でそれらを分析した。 各パッケージに対してキャバクラファイルとソースコードを解析してデータを抽出し,依存関係の観点から解析し,Pandasスクリプトを使ってインポートする。 結果だ 方法論から異なる結果が得られます。 例えば、stackageの特定のリリースではバージョンが利用できない他のパッケージに依存するパッケージがある。 mtlとtransformerは、Stackageの進化で最もよく使われているパッケージのトップ10に入っている。 これらの調査結果をstackageのメンテナと議論し,研究課題の洗練に役立てました。

Context. Package repositories for a programming language are increasingly common. A repository can keep a register of the evolution of its packages. In the programming language Haskell, with its defining characteristic monads, we can find the Stackage repository, which is a curated repository for stable Haskell packages in the Hackage repository. Despite the widespread use of Stackage in its industrial target, we are not aware of much empirical research about how this repository has evolved, including the use of monads. Objective. This paper conducts empirical research about the evolution of Stackage considering monad packages through 22 Long-Term Support releases during the period 2014-2023. Focusing on five research questions, this evolution is analyzed in terms of packages with their dependencies and imports; including the most used monad packages. To the best of our knowledge, this is the first large-scale analysis of the evolution of the Stackage repository regarding packages used and monads. Method. We define six research questions regarding the repository's evolution, and analyze them on 51,716 packages (17.05 GB) spread over 22 releases. For each package, we parse its cabal file and source code to extract the data, which is analyzed in terms of dependencies and imports using Pandas scripts. Results. From the methodology we get different findings. For example, there are packages that depend on other packages whose versions are not available in a particular release of Stackage; opening a potential stability issue. The mtl and transformers are on the top 10 packages most used/imported across releases of the Stackage evolution. We discussed these findings with Stackage maintainers, which allowed us to refine the research questions.
翻訳日:2023-10-21 14:58:31 公開日:2023-10-16
# ページビューログ分析による文書利用の探索

Exploring Documentation Usage via Page-view Log Analysis ( http://arxiv.org/abs/2310.10817v1 )

ライセンス: Link先を確認
Daye Nam and Andrew Macvean and Brad Myers and Bogdan Vasilescu(参考訳) 現代のソフトウェアシステムはほとんどゼロから書かれておらず、開発者はサードパーティーのライブラリやソフトウェアサービスの使用を効果的に学ばなければならない。 そのため、多くの実践者や研究者が、開発者の学習をサポートする効果的なドキュメントを作成する方法を模索している。 しかしながら、人々が実際にドキュメントを使う方法に焦点を当てている取り組みはほとんどない。 本稿では,4つのクラウドベースの産業サービスからのドキュメントページビューログの探索的,多相混合手法に関する実証研究について報告する。 10万人以上のユーザのページビューログを分析することで、さまざまなドキュメントページ訪問パターンが見つかる。 さらに,どのドキュメンテーションページを訪れているかは,特定の製品に対する過去の経験や将来的なAPIの採用など,ユーザ特性と相関することが多いことを統計的に示す。 我々は、これらの結果がドキュメント設計に与える影響について議論し、ドキュメントの監査を設計するための実行可能なテクニックとしてドキュメントページビューログ分析を提案し、ソフトウェア開発者向けに書かれたものからエンドユーザをサポートするように設計されたもの(Adobe Photoshopなど)まで。

Almost no modern software system is written from scratch, and developers are required to effectively learn to use third-party libraries or software services. Thus, many practitioners and researchers have looked for ways to create effective documentation that supports developers' learning. However, few efforts have focused on how people actually use the documentation. In this paper, we report on an exploratory, multi-phase, mixed methods empirical study of documentation page-view logs from four cloud-based industrial services. By analyzing page-view logs for over 100,000 users, we find diverse patterns of documentation page visits. Moreover, we show statistically that which documentation pages people visit often correlates with user characteristics such as past experience with the specific product, on the one hand, and with future adoption of the API on the other hand. We discuss the implications of these results on documentation design and propose documentation page-view log analysis as a feasible technique for design audits of documentation, from ones written for software developers to ones designed to support end users (e.g., Adobe Photoshop).
翻訳日:2023-10-21 14:58:06 公開日:2023-10-16
# ソフトウェア遺産オープンサイエンスのエコシステム

The Software Heritage Open Science Ecosystem ( http://arxiv.org/abs/2310.10295v1 )

ライセンス: Link先を確認
Roberto Di Cosmo (UPCit\'e), Stefano Zacchiroli (IP Paris, LTCI)(参考訳) ソフトウェア遺産 (Software Heritage) は、ソフトウェアソースコードと関連する開発履歴の公開アーカイブであり、現代のバージョン管理システムによって収集されている。 2023年7月現在、同社は2億5000万以上の共同開発プロジェクトから160億以上のユニークなソースコードファイルをアーカイブしている。 本章では,研究とオープンサイエンスのユースケースに焦点を当てたソフトウェアヘリテージのエコシステムについて述べる。一方,ソフトウェアヘリテージは,単一のmerkle直接非循環グラフで公開コードの開発履歴を具体化することにより,ソフトウェアに関する実証的な研究を支援する。 この巨大なソースコードアーティファクト(ファイル、ディレクトリ、コミット)のグラフは、リポジトリフォーク、オープンソースコントリビュータ、脆弱性の伝播、ソフトウェアプロファイランスの追跡、ソースコードインデクシングなどの研究に使われてきました。一方、ソフトウェア遺産は、実験を行うためにソフトウェアに依存するあらゆる分野のソフトウェアアーティファクトのソースコードの可用性と整合性を確保し、研究の再現に寄与します。 科学実験で使用されるソースコードは、例えば、下流の整合性チェックと他の学術的なデジタルアーティファクトとのリンクを可能にする永続的な識別子を使用して、オープンアクセスレポジトリ参照との統合を通じてアーカイブすることができる。

Software Heritage is the largest public archive of software source code and associated development history, as captured by modern version control systems. As of July 2023, it has archived more than 16 billion unique source code files coming from more than 250 million collaborative development projects. In this chapter, we describe the Software Heritage ecosystem, focusing on research and open science use cases.On the one hand, Software Heritage supports empirical research on software by materializing in a single Merkle direct acyclic graph the development history of public code. This giant graph of source code artifacts (files, directories, and commits) can be used-and has been used-to study repository forks, open source contributors, vulnerability propagation, software provenance tracking, source code indexing, and more.On the other hand, Software Heritage ensures availability and guarantees integrity of the source code of software artifacts used in any field that relies on software to conduct experiments, contributing to making research reproducible. The source code used in scientific experiments can be archived-e.g., via integration with open-access repositories-referenced using persistent identifiers that allow downstream integrity checks and linked to/from other scholarly digital artifacts.
翻訳日:2023-10-21 14:57:46 公開日:2023-10-16
# 電磁波方程式に類似したschr\"odinger方程式の導出に関する解析

Analysis on the Derivation of the Schr\"odinger Equation with Analogy to Electromagnetic Wave Equation ( http://arxiv.org/abs/2310.12175v1 )

ライセンス: Link先を確認
Xuefeng Bao(参考訳) schr\"odinger方程式は、定義条件内で観測された結果と整合する優れた予測のため、普遍的に受け入れられる。 それでも、ニュートンの運動法則のような基本法則の単純さは持っていないようである。 シュリンガー方程式の背後にある理性を理解するために、様々な洞察力のある試みがなされている。 本稿では,既存の説明を見直し,schr\"odinger方程式の導出について提案する。

The Schr\"odinger equation is universally accepted due to its excellent predictions aligning with observed results within its defined conditions. Nevertheless, it does not seem to possess the simplicity of fundamental laws, such as Newton's laws of motion. Various insightful attempts have been made to elucidate the rationale behind the Schr\"odinger equation. This paper seeks to review existing explanations and propose some prospectives on the derivation of the Schr\"odinger equation.
翻訳日:2023-10-20 18:26:14 公開日:2023-10-16
# 非相対論的量子力学の「第二量子化」形式入門:ファインマンの「統計力学」の6.7と6.8の置換の可能性

Introduction to the "second quantization" formalism for non-relativistic quantum mechanics: A possible substitution for Sections 6.7 and 6.8 of Feynman's "Statistical Mechanics" ( http://arxiv.org/abs/1812.10732v5 )

ライセンス: Link先を確認
Hal Tasaki(参考訳) これは、多くの粒子の非相対論的量子力学のための生成および消滅作用素(フォック空間表現(fock space representation)または「第二量子化」(second quantization)形式(second quantization formalism)としても知られる)に関する自己完結的で読みやすい説明である。 波動関数の定式化における従来の量子力学の知識のみを仮定し、生成と消滅演算子を定義し、それらの性質について議論し、多粒子系の状態と演算子の対応する表現を導入する。 注記のタイトルが示すように、我々はファインマンの「統計力学:講義のセット」の6.7と6.8のセクションで扱われるほとんどのトピックをカバーしている。 また,未分化粒子を記述する波動関数の対称性についても慎重に検討する。 現在の注記の内容はすべて完全に標準的であり、ここで示される定義や導出は多くの人に知られている。 現在のノートのスタイルは、標準的な物理学文献よりわずかに数学的であるが、完全な数学的厳密さを達成しようとはしない。 (専門家への注記:特にここでは、単に宣言するのではなく、創造・消滅操作者の(反)交換関係を導出します。 この意味での私たちのアプローチは、Feynman氏のものに近いものです。 しかし、FeynmanはSlater-determinant-type状態を最初から多用しているのに対し、一般の$N$ボディウェーブ関数に対する生成/消滅演算子の作用に焦点をあてる。 フォーマリズムに関して、私たちのプレゼンテーションがより良い視点を提供することを期待しています。 )

This is a self-contained and hopefully readable account on the method of creation and annihilation operators (also known as the Fock space representation or the "second quantization" formalism) for non-relativistic quantum mechanics of many particles. Assuming knowledge only on conventional quantum mechanics in the wave function formalism, we define the creation and annihilation operators, discuss their properties, and introduce corresponding representations of states and operators of many-particle systems. As the title of the note suggests, we cover most topics treated in sections 6.7 and 6.8 of Feynman's "Statistical Mechanics: A Set of Lectures". As a preliminary, we also carefully discuss the symmetry of wave functions describing indistinguishable particles. We note that all the contents of the present note are completely standard, and the definitions and the derivations presented here have been known to many. Although the style of the present note may be slightly more mathematical than standard physics literatures, we do not try to achieve full mathematical rigor.(Note to experts: In particular we here DERIVE the (anti)commutation relations of the creation and annihilation operators, rather than simply declaring them. In this sense our approach is quite close to that of Feynman's. But we here focus on the action of creation/annihilation operators on general $N$ body wave functions, while Feynman makes a heavy use of Slater-determinant-type states from the beginning. We hope that our presentation provides a better perspective on the formalism.)
翻訳日:2023-10-19 01:08:41 公開日:2023-10-16
# Manifold-Aware Deep Clustering:正規表現に基づく埋め込みベクトル間の角度の最大化

Manifold-Aware Deep Clustering: Maximizing Angles between Embedding Vectors Based on Regular Simplex ( http://arxiv.org/abs/2106.02331v3 )

ライセンス: Link先を確認
Keitaro Tanaka, Ryosuke Sawata and Shusuke Takahashi(参考訳) 本稿では,従来のdcよりも高効率なハイパースペース利用を実現するために,m-dcと呼ばれる新しい深層クラスタリング手法を提案する。 元々のdcは、1つのホットベクトルに基づく損失関数を用いて直交関係を持つ2つの話者を組込む必要があり、一方、本手法は正則な単純性に基づいて超空間の目標角を最大化することを目的とした一意的な損失関数を導出する。 提案する損失は,話者が誤って割り当てられた場合,元のdcよりも高いペナルティを課す。 DC から M-DC への変更は、ネットワークアーキテクチャやモデルパラメータの変更なしに、DC の損失関数で 1 項だけ書き直すことで容易に実現できる。 したがって,本手法は元々の推論に影響を与えないため,高い実用性を有する。 実験の結果,提案手法は元のDCと拡張法の性能を向上することがわかった。

This paper presents a new deep clustering (DC) method called manifold-aware DC (M-DC) that can enhance hyperspace utilization more effectively than the original DC. The original DC has a limitation in that a pair of two speakers has to be embedded having an orthogonal relationship due to its use of the one-hot vector-based loss function, while our method derives a unique loss function aimed at maximizing the target angle in the hyperspace based on the nature of a regular simplex. Our proposed loss imposes a higher penalty than the original DC when the speaker is assigned incorrectly. The change from DC to M-DC can be easily achieved by rewriting just one term in the loss function of DC, without any other modifications to the network architecture or model parameters. As such, our method has high practicability because it does not affect the original inference part. The experimental results show that the proposed method improves the performances of the original DC and its expansion method.
翻訳日:2023-10-19 01:02:39 公開日:2023-10-16
# Photo Rater:ディープラーニングで自動セレクタを撮影

Photo Rater: Photographs Auto-Selector with Deep Learning ( http://arxiv.org/abs/2211.14420v2 )

ライセンス: Link先を確認
Wentao Guo, Charlie Ruan, Claire Zhou(参考訳) Photo Raterは、ニューラルネットワークを使って、写真家が同じシーンで撮影された写真の中から最高の写真を選ぶのを助けるコンピュータービジョンプロジェクトだ。 このプロセスは通常、写真では「彫刻」と呼ばれ、手作業で行うと退屈で時間がかかることがある。 photo raterは3つの別個のニューラルネットワークを使用して、一般的な画像品質評価のための1つ、写真のぼやけを分類する1つ(非定常な手や集中力の欠如による)、一般的な美的評価のための1つ(写真の構成を含む)というタスクを完了している。 それぞれのニューラルネットワークを通じて画像を入力した後、Photo Raterは各画像の最終スコアを出力し、このスコアに基づいてランク付けし、ユーザに提示する。

Photo Rater is a computer vision project that uses neural networks to help photographers select the best photo among those that are taken based on the same scene. This process is usually referred to as "culling" in photography, and it can be tedious and time-consuming if done manually. Photo Rater utilizes three separate neural networks to complete such a task: one for general image quality assessment, one for classifying whether the photo is blurry (either due to unsteady hands or out-of-focusness), and one for assessing general aesthetics (including the composition of the photo, among others). After feeding the image through each neural network, Photo Rater outputs a final score for each image, ranking them based on this score and presenting it to the user.
翻訳日:2023-10-19 00:45:20 公開日:2023-10-16
# バターゾーン:完全連結ニューラルネットワークにおけるトレーニングダイナミクスに関する実証的研究

The BUTTER Zone: An Empirical Study of Training Dynamics in Fully Connected Neural Networks ( http://arxiv.org/abs/2207.12547v2 )

ライセンス: Link先を確認
Charles Edison Tripp, Jordan Perr-Sauer, Lucas Hayne, Monte Lunacek, Jamil Gafur(参考訳) 完全接続型フィードフォワード多層パーセプトロンニューラルネットワークにおけるディープラーニング現象を探索する実験データセットを提案する。 データセットは現在、オンラインで無料で利用可能であり、アーキテクチャ、タスク、深さ、ネットワークサイズ(パラメータ数)、学習率、バッチサイズ、正規化ペナルティの483の異なるハイパーパラメータのトレーニングと一般化のパフォーマンスを記録している。 各実験を24回繰り返すと、合計1100万回のトレーニング実行と400億エポックを記録した。 この1.7TBデータセットの蓄積には、1万1千のCPUコア年、72.3のGPU年、163のノード年が使用された。 データセットの調査では、タスクやトポロジにまたがる永続的なパターンを観察します。 我々は、エネルギー集約的かつヒューリスティックな実践を超えて分野を前進させるために必要な理論的発見の触媒として、機械学習技術の科学的研究を刺激することを目指している。

We present an empirical dataset surveying the deep learning phenomenon on fully-connected feed-forward multilayer perceptron neural networks. The dataset, which is now freely available online, records the per-epoch training and generalization performance of 483 thousand distinct hyperparameter choices of architectures, tasks, depths, network sizes (number of parameters), learning rates, batch sizes, and regularization penalties. Repeating each experiment an average of 24 times resulted in 11 million total training runs and 40 billion epochs recorded. Accumulating this 1.7 TB dataset utilized 11 thousand CPU core-years, 72.3 GPU-years, and 163 node-years. In surveying the dataset, we observe durable patterns persisting across tasks and topologies. We aim to spark scientific study of machine learning techniques as a catalyst for the theoretical discoveries needed to progress the field beyond energy-intensive and heuristic practices.
翻訳日:2023-10-19 00:43:50 公開日:2023-10-16
# derivative-informed neural operator:高次元パラメトリック微分学習のための効率的な枠組み

Derivative-Informed Neural Operator: An Efficient Framework for High-Dimensional Parametric Derivative Learning ( http://arxiv.org/abs/2206.10745v4 )

ライセンス: Link先を確認
Thomas O'Leary-Roseberry, Peng Chen, Umberto Villa, and Omar Ghattas(参考訳) 入力関数空間から出力関数空間や関心量への無限次元写像としての近似演算子として、ニューラルネットワークの一般族である微分型ニューラルネットワーク(dinos)を提案する。 離散化後、入力と出力の両方が高次元となる。 提案手法は, 精度向上した演算子だけでなく, 入力関数値パラメータに対するデリバティブ(ヤコビアン)を近似し, ベイズ逆問題, パラメータ不確かさによる最適化, 最適実験設計などの多くの応用において, 導関数ベースのアルゴリズムを有効化することを目的とする。 主な困難は、微分訓練データを生成する計算コストと、大きな訓練コストにつながる問題の高次元化である。 これらの課題に対処するために,デリバティブの固有低次元性を活用し,デリバティブ情報圧縮アルゴリズムを開発し,デリバティブ不定型ニューラル演算子を付与するニューラルオペレータトレーニングにおいて効率的に構成する。 これらの進歩は、大規模な問題(例えば、非線形定常状態パラメトリックPDEマップ)に対するデータ生成とトレーニングの両方のコストを著しく削減し、導関数を使わずにコストを極端または同等にし、特に入力と出力関数の離散化次元に依存していることを示す。 さらに、DINOは、特に訓練データに制限がある場合に、関数近似と微分近似(例えば、ガウス・ニュートン・ヘッセン)の両方に対して、微分情報なしで訓練された神経演算子よりもはるかに精度が高いことを示す。

We propose derivative-informed neural operators (DINOs), a general family of neural networks to approximate operators as infinite-dimensional mappings from input function spaces to output function spaces or quantities of interest. After discretizations both inputs and outputs are high-dimensional. We aim to approximate not only the operators with improved accuracy but also their derivatives (Jacobians) with respect to the input function-valued parameter to empower derivative-based algorithms in many applications, e.g., Bayesian inverse problems, optimization under parameter uncertainty, and optimal experimental design. The major difficulties include the computational cost of generating derivative training data and the high dimensionality of the problem leading to large training cost. To address these challenges, we exploit the intrinsic low-dimensionality of the derivatives and develop algorithms for compressing derivative information and efficiently imposing it in neural operator training yielding derivative-informed neural operators. We demonstrate that these advances can significantly reduce the costs of both data generation and training for large classes of problems (e.g., nonlinear steady state parametric PDE maps), making the costs marginal or comparable to the costs without using derivatives, and in particular independent of the discretization dimension of the input and output functions. Moreover, we show that the proposed DINO achieves significantly higher accuracy than neural operators trained without derivative information, for both function approximation and derivative approximation (e.g., Gauss-Newton Hessian), especially when the training data are limited.
翻訳日:2023-10-19 00:43:33 公開日:2023-10-16
# COLD Fusion:不確かさを意識したマルチモーダル感情認識のための校正および正規潜在分布融合

COLD Fusion: Calibrated and Ordinal Latent Distribution Fusion for Uncertainty-Aware Multimodal Emotion Recognition ( http://arxiv.org/abs/2206.05833v2 )

ライセンス: Link先を確認
Mani Kumar Tellamekala, Shahin Amiriparian, Bj\"orn W. Schuller, Elisabeth Andr\'e, Timo Giesbrecht, Michel Valstar(参考訳) 入力データや機械学習フレームワークで使用されるラベルなど、さまざまな不確実性の原因が原因で、顔や声から感情を自動的に認識することは難しい。 本稿では,感情予測に対する不確かさを定量化する不確実性認識音声視覚融合手法を提案する。 そこで本稿では,視覚的時間的文脈ベクトル上での潜時分布を個別に学習し,各モータリティが感情認識に与える情報量を表すために,一様潜時分布の分散ベクトルを制約する,新たな融合フレームワークを提案する。 特に,視聴覚的潜在分布の分散ベクトルにキャリブレーションと順序ランキングの制約を課す。 よく校正されたモダリティに関する不確実性スコアは、それらの対応する予測が基底の真理ラベルとどの程度異なるかを示す。 よくランク付けされた不確実性スコアは、モダリティをまたいだ異なるフレームの順序付けを可能にする。 これらの制約を両立させるために,ソフトマックス分布整合損失を提案する。 分類と回帰設定の両方において,不確実性を考慮した核融合モデルと標準モデル非依存核融合ベースラインを比較した。 avec 2019 cesとiemocapの2つの感情認識コーパスの評価結果から,視聴覚的感情認識は,高度に調整された潜在性不確実性尺度の恩恵を受ける可能性が示唆された。

Automatically recognising apparent emotions from face and voice is hard, in part because of various sources of uncertainty, including in the input data and the labels used in a machine learning framework. This paper introduces an uncertainty-aware audiovisual fusion approach that quantifies modality-wise uncertainty towards emotion prediction. To this end, we propose a novel fusion framework in which we first learn latent distributions over audiovisual temporal context vectors separately, and then constrain the variance vectors of unimodal latent distributions so that they represent the amount of information each modality provides w.r.t. emotion recognition. In particular, we impose Calibration and Ordinal Ranking constraints on the variance vectors of audiovisual latent distributions. When well-calibrated, modality-wise uncertainty scores indicate how much their corresponding predictions may differ from the ground truth labels. Well-ranked uncertainty scores allow the ordinal ranking of different frames across the modalities. To jointly impose both these constraints, we propose a softmax distributional matching loss. In both classification and regression settings, we compare our uncertainty-aware fusion model with standard model-agnostic fusion baselines. Our evaluation on two emotion recognition corpora, AVEC 2019 CES and IEMOCAP, shows that audiovisual emotion recognition can considerably benefit from well-calibrated and well-ranked latent uncertainty measures.
翻訳日:2023-10-19 00:41:59 公開日:2023-10-16
# グループ感情認識のための最重要人物誘導型デュアルブランチクロスパッチ注意

Most Important Person-guided Dual-branch Cross-Patch Attention for Group Affect Recognition ( http://arxiv.org/abs/2212.07055v2 )

ライセンス: Link先を確認
Hongxia Xie, Ming-Xian Lee, Tzu-Jui Chen, Hung-Jen Chen, Hou-I Liu, Hong-Han Shuai, Wen-Huang Cheng(参考訳) グループ・インフルエント(group affect)とは、グループ内の外部刺激によって誘発される主観的な感情のことであり、グループ行動や結果を形成する重要な要素である。 集団的影響を認識するには、感情を誘発できる群集の中で重要な個人と有能な対象を特定する必要がある。 しかし、既存の手法の多くは、グループダイナミクスにおける感情的な意味に注意を払わず、グループレベルの画像における顔やオブジェクトの文脈的関連性を考慮できていない。 本研究では,群集の中でもっとも注目に値する顔を表わし,情緒的意味を持つ最重要人物(mip)の心理的概念を取り入れた解法を提案する。 本稿では,グローバルイメージとMIPを併用したDual-branch Cross-Patch Attention Transformer(DCAT)を提案する。 具体的には、まず、mipが生成する情報的顔領域と、グローバルコンテキストを別々に学習する。 次に、MIPとグローバルコンテキストの特徴を融合させて相互補完するために、クロスパッチアテンションモジュールを提案する。 提案手法は,GAF 3.0, GroupEmoW, HECOデータセットの最先端手法より優れている。 さらに,提案するモデルを他のグループインパクトタスクやグループ凝集に移し,同等の結果が得られることを示すことにより,より広範なアプリケーションの可能性を示す。

Group affect refers to the subjective emotion that is evoked by an external stimulus in a group, which is an important factor that shapes group behavior and outcomes. Recognizing group affect involves identifying important individuals and salient objects among a crowd that can evoke emotions. However, most existing methods lack attention to affective meaning in group dynamics and fail to account for the contextual relevance of faces and objects in group-level images. In this work, we propose a solution by incorporating the psychological concept of the Most Important Person (MIP), which represents the most noteworthy face in a crowd and has affective semantic meaning. We present the Dual-branch Cross-Patch Attention Transformer (DCAT) which uses global image and MIP together as inputs. Specifically, we first learn the informative facial regions produced by the MIP and the global context separately. Then, the Cross-Patch Attention module is proposed to fuse the features of MIP and global context together to complement each other. Our proposed method outperforms state-of-the-art methods on GAF 3.0, GroupEmoW, and HECO datasets. Moreover, we demonstrate the potential for broader applications by showing that our proposed model can be transferred to another group affect task, group cohesion, and achieve comparable results.
翻訳日:2023-10-18 22:50:06 公開日:2023-10-16
# Sketchy: 頻繁な方向を持つメモリ効率の適応正規化

Sketchy: Memory-efficient Adaptive Regularization with Frequent Directions ( http://arxiv.org/abs/2302.03764v2 )

ライセンス: Link先を確認
Vladimir Feinberg, Xinyi Chen, Y. Jennifer Sun, Rohan Anil, Elad Hazan(参考訳) 対角エントリ以上を利用する適応正規化法は、多くのタスクでアートパフォーマンスの状態を示すが、メモリと実行時間の観点からは禁止される。 深層学習(DL)訓練タスクにおけるKronecker-factored gradient covariance matrixのスペクトルは、トレーニングを通して変化する小さなリード固有空間に集中しており、ローランクスケッチのアプローチを動機付けている。 本稿では,FDスケッチを用いた行列プレコンディショナの維持に必要なメモリと計算量を削減できる汎用手法について述べる。 従来,2次最適化のためのFDの適用について検討してきたが,オンライン凸最適化 (OCO) 設定において,Dd$ 以上の条件で資源要求の効率的な補間と,次数$k$ による後悔の保証の低下を可能にする新たな解析手法を提案する。 さらに,shampoo と adam との競合性は高いが,第2モーメントを追跡するにはサブリニアメモリしか必要としない。

Adaptive regularization methods that exploit more than the diagonal entries exhibit state of the art performance for many tasks, but can be prohibitive in terms of memory and running time. We find the spectra of the Kronecker-factored gradient covariance matrix in deep learning (DL) training tasks are concentrated on a small leading eigenspace that changes throughout training, motivating a low-rank sketching approach. We describe a generic method for reducing memory and compute requirements of maintaining a matrix preconditioner using the Frequent Directions (FD) sketch. While previous approaches have explored applying FD for second-order optimization, we present a novel analysis which allows efficient interpolation between resource requirements and the degradation in regret guarantees with rank $k$: in the online convex optimization (OCO) setting over dimension $d$, we match full-matrix $d^2$ memory regret using only $dk$ memory up to additive error in the bottom $d-k$ eigenvalues of the gradient covariance. Further, we show extensions of our work to Shampoo, resulting in a method competitive in quality with Shampoo and Adam, yet requiring only sub-linear memory for tracking second moments.
翻訳日:2023-10-18 22:43:00 公開日:2023-10-16
# CDANs: 自己相関および非定常時系列データによる時間的因果発見

CDANs: Temporal Causal Discovery from Autocorrelated and Non-Stationary Time Series Data ( http://arxiv.org/abs/2302.03246v2 )

ライセンス: Link先を確認
Muhammad Hasan Ferdous, Uzma Hasan, Md Osman Gani(参考訳) 時系列データは、医療時系列、電子健康記録(EHR)、バイタルの測定、ウェアラブルデバイスなど、医療の多くの領域で見られる。 因果関係を観測データから推定する因果発見は、人間の健康に関する実用的な洞察を抽出する上で重要な役割を果たす可能性がある。 本研究では,自己相関および非定常時系列データ(cdans)に対する制約に基づく新しい因果発見手法を提案する。 提案手法は,高次元性,タグ付き因果関係の同定不能,変化モジュールの見落としなど,自己相関および非定常時系列データに対する既存の因果発見手法のいくつかの制限に対処する。 当社のアプローチでは,時間とともに変化するモジュールとともに,遅延および即時/同時因果関係を識別する。 本手法は, 制約に基づく探索において, 高次元性に対処する過去全体を条件付けする代わりに, タグ付けされた親を考慮し, 条件セットを最適化する。 変更モジュールは、同時性およびタグ付けされた両親の両方を考慮して検出される。 このアプローチはまず遅延した隣接を検知し、その後に変化するモジュールと同時の隣接を識別し、最終的に因果方向を決定する。 提案手法を総合的および実世界の臨床データセットで広く評価し,その性能をいくつかのベースラインアプローチと比較した。 実験結果は,自己相関と非定常時系列データに対する因果関係の検出とモジュールの変更における提案手法の有効性を示す。

Time series data are found in many areas of healthcare such as medical time series, electronic health records (EHR), measurements of vitals, and wearable devices. Causal discovery, which involves estimating causal relationships from observational data, holds the potential to play a significant role in extracting actionable insights about human health. In this study, we present a novel constraint-based causal discovery approach for autocorrelated and non-stationary time series data (CDANs). Our proposed method addresses several limitations of existing causal discovery methods for autocorrelated and non-stationary time series data, such as high dimensionality, the inability to identify lagged causal relationships, and overlooking changing modules. Our approach identifies lagged and instantaneous/contemporaneous causal relationships along with changing modules that vary over time. The method optimizes the conditioning sets in a constraint-based search by considering lagged parents instead of conditioning on the entire past that addresses high dimensionality. The changing modules are detected by considering both contemporaneous and lagged parents. The approach first detects the lagged adjacencies, then identifies the changing modules and contemporaneous adjacencies, and finally determines the causal direction. We extensively evaluated our proposed method on synthetic and real-world clinical datasets, and compared its performance with several baseline approaches. The experimental results demonstrate the effectiveness of the proposed method in detecting causal relationships and changing modules for autocorrelated and non-stationary time series data.
翻訳日:2023-10-18 22:42:11 公開日:2023-10-16
# 量子位相推定のための低深さアルゴリズムについて

On low-depth algorithms for quantum phase estimation ( http://arxiv.org/abs/2302.02454v3 )

ライセンス: Link先を確認
Hongkang Ni, Haoya Li, Lexing Ying(参考訳) 量子位相推定は量子コンピューティングの重要な構成要素の一つである。 早期のフォールトトレラント量子デバイスにおいては、(1)最小数のアンシラ量子ビットを使用する量子位相推定アルゴリズムが望ましい。(2)重要なミスマッチを伴う初期状態が不有効であること、(3)使用する全リソースに対するハイゼンベルグ限界を達成すること、(4)初期状態とターゲット状態との重なり合いが1に近づくと、最大回路長の減少プレファクタを有すること。 本稿では,量子力学からの既存のアルゴリズムが最初の3つの要件を達成できることを示す。 第2の貢献として,第4の要件を満たすアルゴリズムの修正版を提案する。

Quantum phase estimation is one of the key building blocks of quantum computing. For early fault-tolerant quantum devices, it is desirable for a quantum phase estimation algorithm to (1) use a minimal number of ancilla qubits, (2) allow for inexact initial states with a significant mismatch, (3) achieve the Heisenberg limit for the total resource used, and (4) have a diminishing prefactor for the maximum circuit length when the overlap between the initial state and the target state approaches one. In this paper, we prove that an existing algorithm from quantum metrology can achieve the first three requirements. As a second contribution, we propose a modified version of the algorithm that also meets the fourth requirement, which makes it particularly attractive for early fault-tolerant quantum devices.
翻訳日:2023-10-18 22:41:15 公開日:2023-10-16
# 半教師あり学習による幾何と関数の合同皮質登録

Joint cortical registration of geometry and function using semi-supervised learning ( http://arxiv.org/abs/2303.01592v4 )

ライセンス: Link先を確認
Jian Li, Greta Tuckute, Evelina Fedorenko, Brian L. Edlow, Bruce Fischl, Adrian V. Dalca(参考訳) 脳表面に基づく画像登録は、脳画像解析の重要な構成要素であり、皮質表面間の空間的対応を確立する。 既存の反復的および学習に基づくアプローチは、大脳皮質の折り畳みパターンの正確な登録に焦点を当てており、幾何が機能を予測すると仮定しているため、機能領域も適切に整列する。 しかし, 解剖学的対応領域の構造・機能的多様性は, 広く報告されている。 本研究では,最適なアトラスを学習しながら,折り畳みパターンと関数マップを協調的に整列する学習ベースの皮質登録フレームワークJOSAを紹介する。 JOSAは既存手法よりも解剖学的・機能的ドメインの登録性能を大幅に向上させることができることを示す。 半教師付きトレーニング戦略を採用することで、提案フレームワークは推論中に機能的データの必要性を軽減し、機能的データが観察できない広い神経科学領域での使用を可能にする。 JOSAのソースコードはhttps://voxelmorph.net.comで公開される。

Brain surface-based image registration, an important component of brain image analysis, establishes spatial correspondence between cortical surfaces. Existing iterative and learning-based approaches focus on accurate registration of folding patterns of the cerebral cortex, and assume that geometry predicts function and thus functional areas will also be well aligned. However, structure/functional variability of anatomically corresponding areas across subjects has been widely reported. In this work, we introduce a learning-based cortical registration framework, JOSA, which jointly aligns folding patterns and functional maps while simultaneously learning an optimal atlas. We demonstrate that JOSA can substantially improve registration performance in both anatomical and functional domains over existing methods. By employing a semi-supervised training strategy, the proposed framework obviates the need for functional data during inference, enabling its use in broad neuroscientific domains where functional data may not be observed. The source code of JOSA will be released to the public at https://voxelmorph.net.
翻訳日:2023-10-18 22:31:09 公開日:2023-10-16
# 対話行動を用いた人間中心型安全ロボット強化学習フレームワーク

A Human-Centered Safe Robot Reinforcement Learning Framework with Interactive Behaviors ( http://arxiv.org/abs/2302.13137v3 )

ライセンス: Link先を確認
Shangding Gu, Alap Kshirsagar, Yali Du, Guang Chen, Jan Peters, Alois Knoll(参考訳) ロボット応用のための強化学習(rl)アルゴリズムを現実世界に展開するには、ロボットとその環境の安全性を確保する必要がある。 安全ロボットRL(SRRL)は人間ロボット共存を実現するための重要なステップである。 本稿では,安全な探索,安全価値アライメント,安全なコラボレーションという3段階からなる,人間中心のsrrlフレームワークを想定する。 これらの分野における研究ギャップを調べ,srrlにおける対話的行動の活用を提案する。 対話的な行動は、会話ロボットChatGPTのような人間とロボット間の双方向の情報伝達を可能にする。 対話行動はSRRLコミュニティからさらに注意が必要であると我々は主張する。 対話行動を伴うSRRLの堅牢性,効率性,透明性,適応性に関する4つのオープン課題について論じる。

Deployment of Reinforcement Learning (RL) algorithms for robotics applications in the real world requires ensuring the safety of the robot and its environment. Safe Robot RL (SRRL) is a crucial step towards achieving human-robot coexistence. In this paper, we envision a human-centered SRRL framework consisting of three stages: safe exploration, safety value alignment, and safe collaboration. We examine the research gaps in these areas and propose to leverage interactive behaviors for SRRL. Interactive behaviors enable bi-directional information transfer between humans and robots, such as conversational robot ChatGPT. We argue that interactive behaviors need further attention from the SRRL community. We discuss four open challenges related to the robustness, efficiency, transparency, and adaptability of SRRL with interactive behaviors.
翻訳日:2023-10-18 22:30:36 公開日:2023-10-16
# 直接反復によるインバージョン:画像復元における拡散の代替

Inversion by Direct Iteration: An Alternative to Denoising Diffusion for Image Restoration ( http://arxiv.org/abs/2303.11435v4 )

ライセンス: Link先を確認
Mauricio Delbracio and Peyman Milanfar(参考訳) inversion by direct iteration (indi) は、いわゆる ‘regression to the mean' 効果を回避し、既存の回帰ベースの方法よりもリアルで詳細な画像を生成する、教師あり画像復元の新しい定式化である。 これは、生成的ノイズ拡散モデルと同様に、小さなステップで画像品質を徐々に改善することで実現している。 画像復元は、複数の高品質画像が与えられた低品質入力を再現できるような不適切な問題である。 したがって、単一の段階回帰モデルの結果は、通常、全ての可能な説明の集まりであり、したがって詳細と現実主義を欠いている。 InDIの主な利点は、単一のステップでクリーンなターゲット画像を予測するのではなく、小さなステップで徐々に画像を改善し、知覚的品質を向上させることである。 生成的減数化拡散モデルも小さなステップで作用するが、この定式化は分解過程の分析形式に関する知識を必要としないという点で異なる。 代わりに、低品質で高品質なペアリング例から反復的な復元プロセスを直接学習します。 InDIは、ペアのトレーニングデータから、事実上どんな画像劣化にも適用できる。 条件付き復調拡散画像復元において、劣化した入力に基づいて条件付き純雑音の初期画像を繰り返し復調して復調した画像を生成する。 条件付きデノージングの定式化とは対照的に、indiは入力された低品質の画像を反復的に復元し、動きや焦点外デブローリング、超解像、圧縮アーティファクト除去、デノージングなど様々な画像復元タスクで高品質な結果を生成することで直接進行する。

Inversion by Direct Iteration (InDI) is a new formulation for supervised image restoration that avoids the so-called ``regression to the mean'' effect and produces more realistic and detailed images than existing regression-based methods. It does this by gradually improving image quality in small steps, similar to generative denoising diffusion models. Image restoration is an ill-posed problem where multiple high-quality images are plausible reconstructions of a given low-quality input. Therefore, the outcome of a single step regression model is typically an aggregate of all possible explanations, therefore lacking details and realism. The main advantage of InDI is that it does not try to predict the clean target image in a single step but instead gradually improves the image in small steps, resulting in better perceptual quality. While generative denoising diffusion models also work in small steps, our formulation is distinct in that it does not require knowledge of any analytic form of the degradation process. Instead, we directly learn an iterative restoration process from low-quality and high-quality paired examples. InDI can be applied to virtually any image degradation, given paired training data. In conditional denoising diffusion image restoration the denoising network generates the restored image by repeatedly denoising an initial image of pure noise, conditioned on the degraded input. Contrary to conditional denoising formulations, InDI directly proceeds by iteratively restoring the input low-quality image, producing high-quality results on a variety of image restoration tasks, including motion and out-of-focus deblurring, super-resolution, compression artifact removal, and denoising.
翻訳日:2023-10-18 22:22:17 公開日:2023-10-16
# 離散時間系のニューラルリアプノフ制御

Neural Lyapunov Control for Discrete-Time Systems ( http://arxiv.org/abs/2305.06547v2 )

ライセンス: Link先を確認
Junlin Wu, Andrew Clark, Yiannis Kantaros and Yevgeniy Vorobeychik(参考訳) 線形系の安定性はよく理解されているが、非線形系の大きな課題である。 そのような場合の一般的なアプローチは、リャプノフ函数と関連する制御ポリシーの組み合わせを計算することである。 しかし、一般非線形系に対するリアプノフ函数の発見は難しい課題である。 この課題に対処するために、ニューラルネットワークを用いてリアプノフ関数を表現するいくつかの方法が提案されている。 しかし、そのようなアプローチは連続時間系、あるいは非線形力学の高度に制限されたクラスに焦点を当てる。 離散時間系におけるニューラルリアプノフ制御の学習のための最初のアプローチを提案する。 3つの重要な要素により、確実に安定した制御方針を効果的に学習することができる。 1つ目は、離散時間リアプノフ安定性条件を検証し、これらの条件の特定の構造を活用するための新しい混合整数線形計画法である。 2つ目は、検証済みのサブレベル集合を計算するための新しいアプローチである。 3つ目は、リプノフ関数学習を著しく高速化する反例を素早く見つけるヒューリスティック勾配に基づく手法である。 4つの標準ベンチマーク実験により、我々のアプローチは最先端のベースラインを大きく上回ることを示した。 例えば、パストラッキングベンチマークでは、最近のニューラルネットワークのlyapunovコントロールベースラインを、実行時間とアトラクション領域のサイズの両方で桁違いに上回り、この4つのベンチマーク(cartpoleとpvtol)のうち2つでは、当社が証明可能な安定したコントローラを返すための最初の自動アプローチです。 私たちのコードは、https://github.com/jlwu002/nlc_discreteで利用可能です。

While ensuring stability for linear systems is well understood, it remains a major challenge for nonlinear systems. A general approach in such cases is to compute a combination of a Lyapunov function and an associated control policy. However, finding Lyapunov functions for general nonlinear systems is a challenging task. To address this challenge, several methods have been proposed that represent Lyapunov functions using neural networks. However, such approaches either focus on continuous-time systems, or highly restricted classes of nonlinear dynamics. We propose the first approach for learning neural Lyapunov control in a broad class of discrete-time systems. Three key ingredients enable us to effectively learn provably stable control policies. The first is a novel mixed-integer linear programming approach for verifying the discrete-time Lyapunov stability conditions, leveraging the particular structure of these conditions. The second is a novel approach for computing verified sublevel sets. The third is a heuristic gradient-based method for quickly finding counterexamples to significantly speed up Lyapunov function learning. Our experiments on four standard benchmarks demonstrate that our approach significantly outperforms state-of-the-art baselines. For example, on the path tracking benchmark, we outperform recent neural Lyapunov control baselines by an order of magnitude in both running time and the size of the region of attraction, and on two of the four benchmarks (cartpole and PVTOL), ours is the first automated approach to return a provably stable controller. Our code is available at: https://github.com/jlwu002/nlc_discrete.
翻訳日:2023-10-18 22:11:34 公開日:2023-10-16
# テキストレコメンデーションのための編集可能なユーザプロファイル

Editable User Profiles for Controllable Text Recommendation ( http://arxiv.org/abs/2304.04250v3 )

ライセンス: Link先を確認
Sheshera Mysore, Mahmood Jasim, Andrew McCallum, Hamed Zamani(参考訳) 高品質なレコメンデーションを行う方法は、しばしば相互作用データから潜在表現を学ぶことに依存している。 これらのメソッドは、performantだが、ユーザが受信したレコメンデーションを制御するための準備されたメカニズムを提供していない。 我々の研究は、制御可能なテキストレコメンデーションのための新しい概念価値ボトルネックモデルであるLACEを提案し、この問題に対処する。 LACEは、ユーザが操作した文書を検索し、ユーザ文書に基づいて概念のパーソナライズされた表現を学ぶことによって、簡潔な人間可読概念のセットでユーザを表現する。 このコンセプトに基づくユーザープロフィールは、レコメンデーションに活用される。 モデルの設計は,透過的なユーザプロファイルとの直感的な対話を通じて,レコメンデーションを制御できる。 まず、ウォームスタート、コールドスタート、ゼロショット設定の6つのデータセットにまたがる3つのレコメンデーションタスクのオフライン評価において、LACEから得られるレコメンデーションの品質を確立する。 次に,ユーザインタラクションシミュレーションによるlaceの制御性を検証する。 最後に,対話型制御可能なレコメンデーションシステムにLACEを実装し,ユーザが編集可能なユーザプロファイルとのインタラクションを通じて,レコメンデーションの質を向上させることができることを示す。

Methods for making high-quality recommendations often rely on learning latent representations from interaction data. These methods, while performant, do not provide ready mechanisms for users to control the recommendation they receive. Our work tackles this problem by proposing LACE, a novel concept value bottleneck model for controllable text recommendations. LACE represents each user with a succinct set of human-readable concepts through retrieval given user-interacted documents and learns personalized representations of the concepts based on user documents. This concept based user profile is then leveraged to make recommendations. The design of our model affords control over the recommendations through a number of intuitive interactions with a transparent user profile. We first establish the quality of recommendations obtained from LACE in an offline evaluation on three recommendation tasks spanning six datasets in warm-start, cold-start, and zero-shot setups. Next, we validate the controllability of LACE under simulated user interactions. Finally, we implement LACE in an interactive controllable recommender system and conduct a user study to demonstrate that users are able to improve the quality of recommendations they receive through interactions with an editable user profile.
翻訳日:2023-10-18 22:10:26 公開日:2023-10-16
# 周波数誘導拡散モデルによるゼロショット医用画像翻訳

Zero-shot Medical Image Translation via Frequency-Guided Diffusion Models ( http://arxiv.org/abs/2304.02742v2 )

ライセンス: Link先を確認
Yunxiang Li, Hua-Chieh Shao, Xiao Liang, Liyuan Chen, Ruiqi Li, Steve Jiang, Jing Wang, You Zhang(参考訳) 近年、拡散モデルは高品質で現実的な画像を生成できる優れた生成モデルとして登場している。 しかし, 医学的画像翻訳では, 原産地画像の構造詳細は前方拡散過程中に失われ, 学習された逆拡散により完全には回復できないため, 既存の拡散モデルでは構造情報の保持が不十分であり, 解剖学的構造の完全性は医療画像において極めて重要である。 例えば、画像翻訳の誤りは、構造や腫瘍を歪ませたり、変化させたり、あるいは取り除いたりすることがあり、誤った診断や不適切な治療につながる。 ペア化されたソースとターゲット画像を用いたトレーニングと条件付き拡散モデルは、解剖学的に一致する。 しかしながら、このようなペアデータを得るのは非常に困難でコストがかかるため、分散テストデータに対する先進モデルの堅牢性も低下する可能性がある。 構造保存画像変換のための拡散モデルを導出するために周波数領域フィルタを用いた周波数誘導拡散モデル(FGDM)を提案する。 その設計に基づいて、FGDMはゼロショット学習を可能にし、ターゲットドメインのデータのみに基づいてトレーニングすることができ、トレーニング中にソースドメインデータに露出することなく、直接ソースからターゲットドメインへの変換に使用できる。 頭頸部CTデータのみに基づいてFGDMを訓練し, 頭頸部CTと肺円錐部CT(CBCT)-CTの双方で評価した。 FGDMは、Fr\'echet Inception Distance(FID)、Peak Signal-to-Noise Ratio(PSNR)、Structure similarity Index Measure(SSIM)のメトリクスにおいて最先端の手法(GANベース、VAEベース、拡散ベース)よりも優れており、ゼロショットの医用画像翻訳においてその大きな優位性を示している。

Recently, the diffusion model has emerged as a superior generative model that can produce high quality and realistic images. However, for medical image translation, the existing diffusion models are deficient in accurately retaining structural information since the structure details of source domain images are lost during the forward diffusion process and cannot be fully recovered through learned reverse diffusion, while the integrity of anatomical structures is extremely important in medical images. For instance, errors in image translation may distort, shift, or even remove structures and tumors, leading to incorrect diagnosis and inadequate treatments. Training and conditioning diffusion models using paired source and target images with matching anatomy can help. However, such paired data are very difficult and costly to obtain, and may also reduce the robustness of the developed model to out-of-distribution testing data. We propose a frequency-guided diffusion model (FGDM) that employs frequency-domain filters to guide the diffusion model for structure-preserving image translation. Based on its design, FGDM allows zero-shot learning, as it can be trained solely on the data from the target domain, and used directly for source-to-target domain translation without any exposure to the source-domain data during training. We trained FGDM solely on the head-and-neck CT data, and evaluated it on both head-and-neck and lung cone-beam CT (CBCT)-to-CT translation tasks. FGDM outperformed the state-of-the-art methods (GAN-based, VAE-based, and diffusion-based) in metrics of Fr\'echet Inception Distance (FID), Peak Signal-to-Noise Ratio (PSNR), and Structural Similarity Index Measure (SSIM), showing its significant advantages in zero-shot medical image translation.
翻訳日:2023-10-18 22:09:37 公開日:2023-10-16
# 階層型コヒーレント多変量混合ネットワーク

Hierarchically Coherent Multivariate Mixture Networks ( http://arxiv.org/abs/2305.07089v2 )

ライセンス: Link先を確認
Kin G. Olivares, David Luo, Cristian Challu, Stefania La Vattiata, Max Mergenthaler, Artur Dubrawski(参考訳) 時系列データの大規模なコレクションは、しばしば異なるレベルの集約を持つ階層に分割される。 確率的コヒーレント予測(probabilistic coherent forecasting)は、集約のレベルにわたって一貫した予測を生成する。 本研究では,コヒーレントな多変量混合出力によるニューラル予測アーキテクチャの拡張を提案する。 我々は,高計算効率を保ちながら時系列の関係を捉えることができる,複合的可能性目的のネットワークを最適化する。 我々のアプローチでは、最先端のベースラインと比較して、ほとんどのデータセットの平均精度が13.2%向上している。 我々は,フレームワークコンポーネントのアブレーション研究を行い,その理論的基礎を提供する。 関連する作業を支援するためのコードは、このhttps://github.com/nixtla/neuralforecastで入手できる。

Large collections of time series data are often organized into hierarchies with different levels of aggregation; examples include product and geographical groupings. Probabilistic coherent forecasting is tasked to produce forecasts consistent across levels of aggregation. In this study, we propose to augment neural forecasting architectures with a coherent multivariate mixture output. We optimize the networks with a composite likelihood objective, allowing us to capture time series' relationships while maintaining high computational efficiency. Our approach demonstrates 13.2% average accuracy improvements on most datasets compared to state-of-the-art baselines. We conduct ablation studies of the framework components and provide theoretical foundations for them. To assist related work, the code is available at this https://github.com/Nixtla/neuralforecast.
翻訳日:2023-10-18 22:02:05 公開日:2023-10-16
# 局所非エルミート量子系におけるスクランブルと作用素絡み合い

Scrambling and operator entanglement in local non-Hermitian quantum systems ( http://arxiv.org/abs/2305.12054v3 )

ライセンス: Link先を確認
Brian Barch, Namit Anand, Jeffrey Marshall, Eleanor Rieffel, Paolo Zanardi(参考訳) 局所的非エルミート量子系におけるリーブ・ロビンソン境界の崩壊は、量子多体現象学の豊かな展望の可能性を開く。 我々はこれを、パラダイム的局所量子スピンチェーンモデルの非エルミート変種における情報スクランブルと量子カオスの研究によって解明する。 数値計算には厳密対角化法とテンソルネットワーク法を併用し,3つの動的量に着目した。 (i)オフ・オブ・タイム・コリエータ(otoc) (ii)動力学の演算子絡み合い、及び (iii)製品初期状態からのクエンチ後の絡み合い成長。 OTOCは、単純で局所的でない非エルミート的逆場イジングモデルでは、情報を捕捉できないが、密接に関連する作用素の絡み合いは、興味の動的性質の堅牢な測度である。 さらに,演算子の絡み合いの短期的な成長は,これらの系の'絡み合い相転移'を全般的に検出できる一方で,その長期平均は量子カオスと絡み合い相の信頼性の高い指標であることを示す。 これにより、閉かつオープンな量子システムに関する以前の研究から、監視量子力学の新しい領域まで、演算子絡み合いに基づく診断を拡張できる。 最後に, 連続監視における積分性/カオス検出における動的量の有効性について述べる。

The breakdown of Lieb-Robinson bounds in local, non-Hermitian quantum systems opens up the possibility for a rich landscape of quantum many-body phenomenology. We elucidate this by studying information scrambling and quantum chaos in non-Hermitian variants of paradigmatic local quantum spin-chain models. We utilize a mixture of exact diagonalization and tensor network techniques for our numerical results and focus on three dynamical quantities: (i) out-of-time-ordered correlators (OTOCs), (ii) operator entanglement of the dynamics, and (iii) entanglement growth following a quench from product initial states. We show that while OTOCs fail to capture information scrambling in a simple, local, non-Hermitian transverse-field Ising model, the closely related operator entanglement is a robust measure of dynamical properties of interest. Moreover, we show that the short-time growth of operator entanglement can generically detect ``entanglement phase transitions'' in these systems while its long-time average is shown to be a reliable indicator of quantum chaos and entanglement phases. This allows us to extend operator entanglement based diagnostics from previous works on closed and open quantum systems, to the new arena of monitored quantum dynamics. Finally, we remark on the efficacy of these dynamical quantities in detecting integrability/chaos in the presence of continuous monitoring.
翻訳日:2023-10-18 21:51:18 公開日:2023-10-16
# 近似安定化器ランクの二次下限:確率論的アプローチ

Quadratic Lower bounds on the Approximate Stabilizer Rank: A Probabilistic Approach ( http://arxiv.org/abs/2305.10277v3 )

ライセンス: Link先を確認
Saeed Mehraban and Mehrdad Tahmasbi(参考訳) 量子状態の近似安定化器ランクは、その状態の任意の近似分解における最小の項数である。 Bravyi と Gosset は、$|T\rangle^{\otimes n}$ のようないわゆる「魔術的」状態の近似安定化ランクは、多項式因子まで、クリフォードゲートと$n$$$T$ゲートを持つ任意の量子回路をシミュレートするのに必要となる古典的な演算の回数の上限であることを示した。 その結果、この量に対する指数関数的な下限は避けられないように思える。 この直観にもかかわらず、様々な技法を使ったいくつかの試みは、状態を正確に生成する分解の最小サイズを意味する${|t\rangle}^{\otimes n}$の「実」ランクの線形下限よりも良い結果をもたらすことができなかった。 量子回路をシミュレートするコストとより現実的に関係している「近似」ランクについて、$\tilde \Omega(\sqrt n)$よりも低い境界は知られていない。 本論文では,近似パラメータの広い範囲に対して,近似ランクの下位境界を$\tilde \Omega (n^2)$に改善する。 この結果の直接の帰結は、多項式時間計算可能な関数の存在であり、任意の分解における超線形項数を$\mathbb{f}_2$ 上の二次形式の指数型に分解し、[wil18] で問題を解く。 提案手法は,Haar測度からサンプリングされた量子状態の近似ランクに基づく強い下限,Haar測度からサンプリングされたマジック状態テレポーテーションプロトコルの近似ランクのステップバイステップ解析,および[LKS18]で$T$ゲートでClifford演算を取引する結果に基づく。

The approximate stabilizer rank of a quantum state is the minimum number of terms in any approximate decomposition of that state into stabilizer states. Bravyi and Gosset showed that the approximate stabilizer rank of a so-called "magic" state like $|T\rangle^{\otimes n}$, up to polynomial factors, is an upper bound on the number of classical operations required to simulate an arbitrary quantum circuit with Clifford gates and $n$ number of $T$ gates. As a result, an exponential lower bound on this quantity seems inevitable. Despite this intuition, several attempts using various techniques could not lead to a better than a linear lower bound on the "exact" rank of ${|T\rangle}^{\otimes n}$, meaning the minimal size of a decomposition that exactly produces the state. For the "approximate" rank, which is more realistically related to the cost of simulating quantum circuits, no lower bound better than $\tilde \Omega(\sqrt n)$ has been known. In this paper, we improve the lower bound on the approximate rank to $\tilde \Omega (n^2)$ for a wide range of the approximation parameters. An immediate corollary of our result is the existence of polynomial time computable functions which require a super-linear number of terms in any decomposition into exponentials of quadratic forms over $\mathbb{F}_2$, resolving a question in [Wil18]. Our approach is based on a strong lower bound on the approximate rank of a quantum state sampled from the Haar measure, a step-by-step analysis of the approximate rank of a magic-state teleportation protocol to sample from the Haar measure, and a result about trading Clifford operations with $T$ gates by [LKS18].
翻訳日:2023-10-18 21:49:24 公開日:2023-10-16
# 医学文献の多言語化

Multilingual Simplification of Medical Texts ( http://arxiv.org/abs/2305.12532v3 )

ライセンス: Link先を確認
Sebastian Joseph, Kathryn Kazanas, Keziah Reina, Vishnesh J. Ramanathan, Wei Xu, Byron C. Wallace, and Junyi Jessy Li(参考訳) 自動テキスト単純化は、複雑なテキストの単純なバージョンを作成することを目的としている。 このタスクは特に医学領域で有用であり、最新の医学所見は一般的に複雑で技術的な記事を通じて伝達される。 このことは、最新の医学的発見へのアクセスを求める平民にとって障壁となり、その結果、健康リテラシーの進歩を妨げる。 医学的テキストの単純化に関する既存の研究は、モノリンガルな設定に重点を置いており、その結果、そのような証拠はたった一つの言語(多くは英語)でのみ利用可能となる。 この作業は、多言語による単純化、すなわち複雑なテキストを複数の言語で単純化されたテキストへ直接単純化することで、この制限に対処する。 英語、スペイン語、フランス語、ファルシ語という4つの言語で、医学領域で最初の文を並べた多言語テキスト簡易化データセットであるmulticochraneを導入する。 我々はこれらの言語にまたがる微調整およびゼロショットモデルを評価し,広範な評価と分析を行った。 モデルは現在、実行可能な簡易テキストを生成することができるが、このデータセットが対処できる未解決の課題を特定する。

Automated text simplification aims to produce simple versions of complex texts. This task is especially useful in the medical domain, where the latest medical findings are typically communicated via complex and technical articles. This creates barriers for laypeople seeking access to up-to-date medical findings, consequently impeding progress on health literacy. Most existing work on medical text simplification has focused on monolingual settings, with the result that such evidence would be available only in just one language (most often, English). This work addresses this limitation via multilingual simplification, i.e., directly simplifying complex texts into simplified texts in multiple languages. We introduce MultiCochrane, the first sentence-aligned multilingual text simplification dataset for the medical domain in four languages: English, Spanish, French, and Farsi. We evaluate fine-tuned and zero-shot models across these languages, with extensive human assessments and analyses. Although models can now generate viable simplified texts, we identify outstanding challenges that this dataset might be used to address.
翻訳日:2023-10-18 21:38:23 公開日:2023-10-16
# 大きな言語モデルは強固な抽象的推論者ではない

Large Language Models Are Not Strong Abstract Reasoners ( http://arxiv.org/abs/2305.19555v2 )

ライセンス: Link先を確認
Ga\"el Gendron, Qiming Bao, Michael Witbrock, Gillian Dobbie(参考訳) 大規模言語モデルは、テキスト理解から常識推論まで、多種多様な自然言語処理タスクにおいて大きなパフォーマンスを示してきた。 しかし、この成功のメカニズムはいまだ不透明であり、LLMが人間のような認知能力を達成することができるのか、あるいはこれらのモデルがいまだに根底から取り囲まれているのかは不明である。 抽象的推論は認知の基本的なタスクであり、少数のデータから一般的なパターンを発見し、適用する。 このタスクにおける深いニューラルネットワークアーキテクチャの評価は、推論とその広範な一般化能力に関する潜在的な制限について洞察を与える可能性がある。 本稿では,抽象的推論タスクの記憶以外の言語モデルを評価するための新しいベンチマークを提案する。 我々は最先端のLLMを広範囲に評価し、現在、他の自然言語処理と比較して非常に限られた性能を達成していることを示す。 我々は、他のNLPタスクのパフォーマンス向上に実証された手法を適用し、抽象的推論への影響が限定されていることを示す。

Large Language Models have shown tremendous performance on a large variety of natural language processing tasks, ranging from text comprehension to common sense reasoning. However, the mechanisms responsible for this success remain opaque, and it is unclear whether LLMs can achieve human-like cognitive capabilities or whether these models are still fundamentally circumscribed. Abstract reasoning is a fundamental task for cognition, consisting of finding and applying a general pattern from few data. Evaluating deep neural architectures on this task could give insight into their potential limitations regarding reasoning and their broad generalisation abilities, yet this is currently an under-explored area. In this paper, we introduce a new benchmark for evaluating language models beyond memorization on abstract reasoning tasks. We perform extensive evaluations of state-of-the-art LLMs, showing that they currently achieve very limited performance in contrast with other natural language tasks, and we examine the reasons for this difference. We apply techniques that have been shown to improve performance on other NLP tasks and show that their impact on abstract reasoning is limited.
翻訳日:2023-10-18 21:29:49 公開日:2023-10-16
# 平均対称性を持つ位相相:疎結合、乱れ、内在的

Topological Phases with Average Symmetries: the Decohered, the Disordered, and the Intrinsic ( http://arxiv.org/abs/2305.16399v2 )

ライセンス: Link先を確認
Ruochen Ma and Jian-Hao Zhang and Zhen Bi and Meng Cheng and Chong Wang(参考訳) グローバル対称性はトポロジカル量子相の風景を大いに豊かにし、トポロジカルな絶縁体から分数量子ホール効果まで重要な役割を果たす。 混合量子状態のトポロジカル位相は、開放量子系のデコヒーレンスや不完全な結晶性固体の障害に由来するもので、近年大きな関心を集めている。 純粋な状態とは異なり、混合量子状態は平均対称性を示すことができる。 本研究では,一般対称性群に適用可能な平均対称性保護位相位相(aspt)位相の系統的分類と特徴付けを行い,ボソニックおよびフェルミオン系の平均対称性と正確な対称性の両方を包含する。 さらに、不規則なボゾン系における平均対称性リッチトポロジカル位の理論を定式化する。 我々の体系的アプローチは, 先行文献におけるニュアンス問題を明確にし, 説得力のある新物理を明らかにするのに役立つ。 Notably, we discover that (1) the definition and classification of ASPT phases in decohered and disordered systems exhibit subtle differences; (2) despite these differences, ASPT phases in both settings can be classified and characterized under a unified framework of defect decoration and spectral sequence; (3) this systematic classification uncovers a plethora of ASPT phases that are intrinsically mixed, implying they can exclusively manifest in decohered or disordered systems where part of the symmetry is average; (4) similarly for ASET, we find intrinsically disordered phases exhibiting exotic anyon behaviors -- the ground states of such phases necessarily contain localized anyons, with gapless (yet still localized) excitation spectral.

Global symmetries greatly enrich the landscape of topological quantum phases, playing an essential role from topological insulators to fractional quantum Hall effect. Topological phases in mixed quantum states, originating from decoherence in open quantum systems or disorders in imperfect crystalline solids, have recently garnered significant interest. Unlike pure states, mixed quantum states can exhibit average symmetries -- symmetries that keep the total ensemble invariant but not on each individual state. In this work, we present a systematic classification and characterization of average symmetry-protected topological (ASPT) phases applicable to generic symmetry groups, encompassing both average and exact symmetries, for bosonic and fermionic systems. Moreover, we formulate the theory of average symmetry-enriched topological (ASET) orders in disordered bosonic systems. Our systematic approach helps clarify nuanced issues in previous literature and uncovers compelling new physics. Notably, we discover that (1) the definition and classification of ASPT phases in decohered and disordered systems exhibit subtle differences; (2) despite these differences, ASPT phases in both settings can be classified and characterized under a unified framework of defect decoration and spectral sequence; (3) this systematic classification uncovers a plethora of ASPT phases that are intrinsically mixed, implying they can exclusively manifest in decohered or disordered systems where part of the symmetry is average; (4) similarly for ASET, we find intrinsically disordered phases exhibiting exotic anyon behaviors -- the ground states of such phases necessarily contain localized anyons, with gapless (yet still localized) excitation spectral.
翻訳日:2023-10-18 21:28:57 公開日:2023-10-16
# CommonScenes: シーングラフによるCommonsense 3D屋内シーンの生成

CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graphs ( http://arxiv.org/abs/2305.16283v4 )

ライセンス: Link先を確認
Guangyao Zhai, Evin P{\i}nar \"Ornek, Shun-Cheng Wu, Yan Di, Federico Tombari, Nassir Navab, Benjamin Busam(参考訳) 制御可能なシーン合成は,様々な産業用途を対象とした対話型環境の構築を目的としている。 シーングラフは、シーンコンテキストをコンパクトに抽象化することでこれらのアプリケーションを容易にするのに非常に適したインターフェースを提供する。 既存の手法は、広範囲のデータベースや事前学習された形状埋め込みからの検索に依存しており、しばしばシーン-オブジェクトとオブジェクト-オブジェクトの関係を見落としている。 この問題に対処するため,我々は,シーングラフを対応する制御可能な3dシーンに変換する完全生成モデルであるcommonscenesを提案する。 我々のパイプラインは2つの枝から構成されており、1つは変分オートエンコーダで全体のシーンレイアウトを予測し、もう1つは潜時拡散により互換性のある形状を生成する。 生成したシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作できる。 高品質なオブジェクトレベルのメッシュと関係性を提供するシーングラフデータセットが欠如しているため、SG-FRONTを構築することで、既製の屋内データセット3D-FRONTを付加的なシーングラフラベルで強化する。 SG-FRONTでは、生成一貫性、品質、多様性に関する他の手法に対して、CommonScenesが明確な優位性を示す。 コードとデータセットは受け入れ時にリリースされる。

Controllable scene synthesis aims to create interactive environments for various industrial use cases. Scene graphs provide a highly suitable interface to facilitate these applications by abstracting the scene context in a compact manner. Existing methods, reliant on retrieval from extensive databases or pre-trained shape embeddings, often overlook scene-object and object-object relationships, leading to inconsistent results due to their limited generation capacity. To address this issue, we present CommonScenes, a fully generative model that converts scene graphs into corresponding controllable 3D scenes, which are semantically realistic and conform to commonsense. Our pipeline consists of two branches, one predicting the overall scene layout via a variational auto-encoder and the other generating compatible shapes via latent diffusion, capturing global scene-object and local inter-object relationships while preserving shape diversity. The generated scenes can be manipulated by editing the input scene graph and sampling the noise in the diffusion model. Due to lacking a scene graph dataset offering high-quality object-level meshes with relations, we also construct SG-FRONT, enriching the off-the-shelf indoor dataset 3D-FRONT with additional scene graph labels. Extensive experiments are conducted on SG-FRONT where CommonScenes shows clear advantages over other methods regarding generation consistency, quality, and diversity. Codes and the dataset will be released upon acceptance.
翻訳日:2023-10-18 21:28:07 公開日:2023-10-16
# 滑らかさを活用できるサンプルはいくつ必要か?

How many samples are needed to leverage smoothness? ( http://arxiv.org/abs/2305.16014v3 )

ライセンス: Link先を確認
Vivien Cabannes, Stefano Vigogna(参考訳) 統計学習における中心となる原理は、対象関数の滑らかさが次元性の呪いを破ることができることである。 しかし、滑らかな関数の学習には、データ数と入力次元の比率が比較的小さい機械学習の問題では、高次微分の有意義な推定を得るためには、互いに十分なサンプルが必要と思われる。 一般化誤差に関する新しい下限を導出することにより、本論文は、古典的学習理論のステートメントを超えて記述されない定数や推移的体制の役割を研究する前に、そのような直観を形式化する。

A core principle in statistical learning is that smoothness of target functions allows to break the curse of dimensionality. However, learning a smooth function seems to require enough samples close to one another to get meaningful estimate of high-order derivatives, which would be hard in machine learning problems where the ratio between number of data and input dimension is relatively small. By deriving new lower bounds on the generalization error, this paper formalizes such an intuition, before investigating the role of constants and transitory regimes which are usually not depicted beyond classical learning theory statements while they play a dominant role in practice.
翻訳日:2023-10-18 21:27:40 公開日:2023-10-16
# 学習タイヤモデルによる3分間のデータによる自律ドリフト

Autonomous Drifting with 3 Minutes of Data via Learned Tire Models ( http://arxiv.org/abs/2306.06330v2 )

ライセンス: Link先を確認
Franck Djeumou and Jonathan Y.M. Goh and Ufuk Topcu and Avinash Balachandran(参考訳) 接着限界付近では、タイヤによって生じる力は非線形で複雑な結合である。 この地域の効率的かつ正確なモデリングは、特に高力を必要とする緊急時の安全性を向上させることができる。 そこで本研究では,ニューラル常微分方程式とニューラル-ExpTanhパラメータ化に基づくタイヤ力モデルを提案する。 これらのモデルは、物理的に洞察に富んだ仮定を満たすとともに、車両の状態測定から直接高次効果を捉えるのに十分な忠実さを持つように設計されている。 既存の非線形モデル予測制御フレームワークにおける解析的ブラシタイヤモデルのドロップイン置換として使用される。 トヨタ・スプラの実験では、運転データが少ない(3分未満)ため、高速で45mphの速度で高速な自動ドリフトを実現するのに十分であることが示された。 ベンチマークモデルと比較すると、パフォーマンスの追跡、制御入力のスムーズ化、高速で一貫性のある計算時間の改善が4 \times$で示されている。

Near the limits of adhesion, the forces generated by a tire are nonlinear and intricately coupled. Efficient and accurate modelling in this region could improve safety, especially in emergency situations where high forces are required. To this end, we propose a novel family of tire force models based on neural ordinary differential equations and a neural-ExpTanh parameterization. These models are designed to satisfy physically insightful assumptions while also having sufficient fidelity to capture higher-order effects directly from vehicle state measurements. They are used as drop-in replacements for an analytical brush tire model in an existing nonlinear model predictive control framework. Experiments with a customized Toyota Supra show that scarce amounts of driving data -- less than three minutes -- is sufficient to achieve high-performance autonomous drifting on various trajectories with speeds up to 45mph. Comparisons with the benchmark model show a $4 \times$ improvement in tracking performance, smoother control inputs, and faster and more consistent computation time.
翻訳日:2023-10-18 21:20:34 公開日:2023-10-16
# REFLECT:失敗説明と訂正のためのロボット体験の要約

REFLECT: Summarizing Robot Experiences for Failure Explanation and Correction ( http://arxiv.org/abs/2306.15724v4 )

ライセンス: Link先を確認
Zeyi Liu, Arpit Bahety, Shuran Song(参考訳) 故障した実行を自動的に検出し分析する能力は、説明可能で堅牢なロボットシステムにとって不可欠である。 近年,Large Language Models (LLM) はテキスト入力に対して強い推論能力を示している。 ロボットの故障説明にllmのパワーを活用するために,マルチセンサによるロボットの過去の経験の階層的要約に基づいて,障害推論にllmを問合せするフレームワークであるreflectionを提案する。 失敗の説明はさらに、言語ベースのプランナーに障害を修正し、タスクを完了させるよう誘導する。 フレームワークを体系的に評価するために、さまざまなタスクと障害シナリオを備えたRoboFailデータセットを作成します。 LLMをベースとしたフレームワークは,修正計画の成功を支援する情報的障害説明を生成可能であることを実証する。

The ability to detect and analyze failed executions automatically is crucial for an explainable and robust robotic system. Recently, Large Language Models (LLMs) have demonstrated strong reasoning abilities on textual inputs. To leverage the power of LLMs for robot failure explanation, we introduce REFLECT, a framework which queries LLM for failure reasoning based on a hierarchical summary of robot past experiences generated from multisensory observations. The failure explanation can further guide a language-based planner to correct the failure and complete the task. To systematically evaluate the framework, we create the RoboFail dataset with a variety of tasks and failure scenarios. We demonstrate that the LLM-based framework is able to generate informative failure explanations that assist successful correction planning.
翻訳日:2023-10-18 21:09:38 公開日:2023-10-16
# 線形バンドイットの性能と理論的保証のバランスをとる幾何アウェアアプローチ

Geometry-Aware Approaches for Balancing Performance and Theoretical Guarantees in Linear Bandits ( http://arxiv.org/abs/2306.14872v2 )

ライセンス: Link先を確認
Yuwei Luo, Mohsen Bayati(参考訳) 本稿は,トンプソンサンプリングやグリーディのようなアルゴリズムの有望な実験性能と,悲観的理論的後悔境界との相違を明らかにする線形バンディット文学の最近の発展を動機としている。 この課題は、これらのアルゴリズムが特定の問題インスタンスではうまく機能しないが、典型例では優れているという事実から生じる。 そこで本研究では,不確実な楕円体の形状を追跡するデータ駆動手法を提案する。この手法により,Greedy,OFUL,Thompsonのサンプリングなど,幅広いアルゴリズムに対して,インスタンス依存の頻繁な後悔を解消することができる。 この結果により、ベースアルゴリズムが性能が劣るインスタンスを識別し、 `course-correct' することが可能になる。 コース修正されたアルゴリズムは、基本アルゴリズムの望ましい性質をほとんど保持しながら、$\tilde{\mathcal{o}}(d\sqrt{t})$の最小最適後悔を達成する。 実験の結果をシミュレーションにより検証し,本アルゴリズムの性能をベースラインと比較した。

This paper is motivated by recent developments in the linear bandit literature, which have revealed a discrepancy between the promising empirical performance of algorithms such as Thompson sampling and Greedy, when compared to their pessimistic theoretical regret bounds. The challenge arises from the fact that while these algorithms may perform poorly in certain problem instances, they generally excel in typical instances. To address this, we propose a new data-driven technique that tracks the geometry of the uncertainty ellipsoid, enabling us to establish an instance-dependent frequentist regret bound for a broad class of algorithms, including Greedy, OFUL, and Thompson sampling. This result empowers us to identify and ``course-correct" instances in which the base algorithms perform poorly. The course-corrected algorithms achieve the minimax optimal regret of order $\tilde{\mathcal{O}}(d\sqrt{T})$, while retaining most of the desirable properties of the base algorithms. We present simulation results to validate our findings and compare the performance of our algorithms with the baselines.
翻訳日:2023-10-18 21:09:09 公開日:2023-10-16
# 安定最適化:16ビットニューラルネットワークトレーニングにおける数値不安定対策の新しいアプローチ

Stable Optimization: A Novel Approach to Counter Numerical Instability in 16-bit Neural Network Training ( http://arxiv.org/abs/2307.16189v5 )

ライセンス: Link先を確認
Juyoung Yun(参考訳) 本研究では,機械学習モデルの16ビット計算で観測される数値不安定性に関する重要な問題に対処する。 このような不安定性、特にRMSPropやAdamのような一般的な最適化アルゴリズムを採用する場合、しばしばディープニューラルネットワークの信頼性の低いトレーニングにつながる。 これは学習プロセスを損なうだけでなく、現実のアプリケーションに信頼性のあるモデルをデプロイする上でも大きな課題となる。 本研究は, この不安定性の原因として, エプシロンハイパーパラメーターを同定した。 16ビット計算におけるエプシロンの微妙な調整は、RMSPropとAdamの信頼性を高め、より安定した16ビットニューラルネットワークのトレーニングを可能にする。 本稿では,Adamオプティマイザからの更新を利用して学習プロセスの安定性を高める,新しい信頼性の高いアプローチを提案する。 当社のコントリビューションは、低精度計算における最適化の課題に対する深い洞察を提供し、ディープニューラルネットワークトレーニングの安定性を確保するためのソリューションを提供し、さまざまなアプリケーションで使用するための方法を提供します。

In this research, we address critical concerns related to the numerical instability observed in 16-bit computations of machine learning models. Such instability, particularly when employing popular optimization algorithms like RMSProp and Adam, often leads to unreliable training of deep neural networks. This not only disrupts the learning process but also poses significant challenges in deploying dependable models in real-world applications. Our investigation identifies the epsilon hyperparameter as the primary source of this instability. A nuanced exploration reveals that subtle adjustments to epsilon within 16-bit computations can enhance the reliability of RMSProp and Adam, enabling more stable training of 16-bit neural networks. We propose a novel, dependable approach that leverages updates from the Adam optimizer to bolster the stability of the learning process. Our contributions provide deeper insights into optimization challenges in low-precision computations and offer solutions to ensure the stability of deep neural network training, paving the way for their dependable use in various applications.
翻訳日:2023-10-18 21:01:17 公開日:2023-10-16
# グリッドセルによる効率的な地図構築のためのフラグメンテーションとリコール

Grid Cell-Inspired Fragmentation and Recall for Efficient Map Building ( http://arxiv.org/abs/2307.05793v2 )

ライセンス: Link先を確認
Jaedong Hwang, Zhang-Wei Hong, Eric Chen, Akhilan Boopathy, Pulkit Agrawal, Ila Fiete(参考訳) 動物とロボットは、宇宙の地図を構築し、精製することで環境をナビゲートします。 これらのマップは、家へのナビゲーション、計画、検索、飼料などの機能を可能にする。 ここでは、ニューロサイエンス、特に複合空間におけるグリッドセルマップの断片化を観察し、大きな空間のマッピングにフラグメンテーション・アンド・リコール(FARMap)の概念を提案し、適用する。 エージェントは空間の予備的なクラスタリングを通じて局所写像を構築し、空間探索のためにサブゴールを設定することでマッピング問題を解決する。 エージェントは観測を予測するためにローカルマップを構築し、使用します。 これらのイベントでは、最近のローカルマップを長期メモリ(LTM)に配置し、異なるローカルマップを初期化する。 フラクチャーポイントでの観測が保存されたローカルマップの1つでの観測と一致した場合、そのマップはLTMからリコールされる(再利用される)。 断片化ポイントは、大きな空間の自然なオンラインクラスタリングを誘導し、トポロジカルグラフとしてLTMに格納される固有のポテンシャルサブゴールの集合を形成する。 エージェントは、それぞれの次のサブゴールを、現在のローカルマップまたはLTM内から、近縁および遠縁のサブゴールのセットから選択する。 したがって、ローカルマップは地域探検をガイドし、ltmはグローバルな探検を促進する。 複雑なプロシージャ生成空間環境におけるfarmapの評価と現実的なシミュレーションを行い、このマッピング戦略がより迅速に環境(エージェントステップ数と壁時計時間)をカバーし、パフォーマンスを損なうことなく、アクティブメモリ使用においてより効率的であることを実証する。

Animals and robots navigate through environments by building and refining maps of space. These maps enable functions including navigation back to home, planning, search and foraging. Here, we use observations from neuroscience, specifically the observed fragmentation of grid cell map in compartmentalized spaces, to propose and apply the concept of Fragmentation-and-Recall (FARMap) in the mapping of large spaces. Agents solve the mapping problem by building local maps via a surprisal-based clustering of space, which they use to set subgoals for spatial exploration. Agents build and use a local map to predict their observations; high surprisal leads to a "fragmentation event" that truncates the local map. At these events, the recent local map is placed into long-term memory (LTM) and a different local map is initialized. If observations at a fracture point match observations in one of the stored local maps, that map is recalled (and thus reused) from LTM. The fragmentation points induce a natural online clustering of the larger space, forming a set of intrinsic potential subgoals that are stored in LTM as a topological graph. Agents choose their next subgoal from the set of near and far potential subgoals from within the current local map or LTM, respectively. Thus, local maps guide exploration locally, while LTM promotes global exploration. We evaluate FARMap on complex procedurally-generated spatial environments and realistic simulations to demonstrate that this mapping strategy much more rapidly covers the environment (number of agent steps and wall clock time) and is more efficient in active memory usage, without loss of performance.
翻訳日:2023-10-18 20:59:42 公開日:2023-10-16
# ベル・クラウン・ホーン・シモニー・ホルト不等式におけるバンファイドハールウェーブレットによる最大違反

Maximal violation of the Bell-Clauser-Horne-Shimony-Holt inequality via bumpified Haar wavelets ( http://arxiv.org/abs/2307.04611v3 )

ライセンス: Link先を確認
David Dudal, Philipe De Fabritiis, Marcelo S. Guimaraes, Itzhak Roditi, Silvio P. Sorella(参考訳) 我々は、量子場理論の文脈で、真空状態におけるベル-CHSH不等式違反を調査するための一般的な設定を考案する。 1+1)$次元ミンコフスキー時空における無質量スピノル場を用いて実験を行った。 アリスとボブのテスト関数は、まずハールウェーブレットを用いて明示的に構成され、プランクタッパーウィンドウ関数に依存する滑らか化手順によって適切なテスト関数にバンプされる。 相対論的因果関係は、アリスとボブのテスト関数をそれぞれ左と右のリンドラーウェッジに配置することを要求することによって実現される。 ベル-CHSHの不等式は、ツィレルソンの限界に近いことが報告されている。 我々はこの余分なポータルについて簡単にコメントし、以前の研究と比較して、ベル-CHSHの不等式と一般の相互作用する量子場理論を精査する。

We devise a general setup to investigate the violation of the Bell-CHSH inequality in the vacuum state in the context of Quantum Field Theory. We test the method with massless spinor fields in $(1+1)$-dimensional Minkowski space-time. Alice's and Bob's test functions are explicitly constructed, first by employing Haar wavelets which are then bumpified into proper test functions via a smoothening procedure relying on the Planck-taper window function. Relativistic causality is implemented by requiring the support of Alice's and Bob's test functions to be located in the left and right Rindler wedges, respectively. Violations of the Bell-CHSH inequality as close as desired to Tsirelson's bound are reported. We briefly comment on the extra portal, compared to earlier works, this opens to scrutinize Bell-CHSH inequalities with generic, interacting Quantum Field Theories.
翻訳日:2023-10-18 20:59:11 公開日:2023-10-16
# 等変拡散モデルによる形状条件付き3次元分子生成

Shape-conditioned 3D Molecule Generation via Equivariant Diffusion Models ( http://arxiv.org/abs/2308.11890v3 )

ライセンス: Link先を確認
Ziqi Chen, Bo Peng, Srinivasan Parthasarathy, Xia Ning(参考訳) リガンドベースの薬物設計は、既知の活性分子と類似した形状の新しい薬物候補を特定することを目的としている。 本稿では, シリカ形状条件分子生成問題を定式化し, 与えられた分子の形状を条件とした3次元分子構造を生成する。 この問題に対処するために, 変換および回転同変形状誘導生成モデル shapemol を開発した。 ShapeMolは、分子表面形状を潜在埋め込みにマッピングする同変形状エンコーダと、これらの埋め込みに基づいて3次元分子を生成する同変拡散モデルからなる。 実験の結果、shapemolは、与えられた形状条件に類似した3d分子形状を保持する、新しい多様な薬物様分子を生成できることが示されている。 これらの結果は、タンパク質標的ポケットに結合する所望の3d形状の薬物候補の設計におけるshapemolの可能性を示している。

Ligand-based drug design aims to identify novel drug candidates of similar shapes with known active molecules. In this paper, we formulated an in silico shape-conditioned molecule generation problem to generate 3D molecule structures conditioned on the shape of a given molecule. To address this problem, we developed a translation- and rotation-equivariant shape-guided generative model ShapeMol. ShapeMol consists of an equivariant shape encoder that maps molecular surface shapes into latent embeddings, and an equivariant diffusion model that generates 3D molecules based on these embeddings. Experimental results show that ShapeMol can generate novel, diverse, drug-like molecules that retain 3D molecular shapes similar to the given shape condition. These results demonstrate the potential of ShapeMol in designing drug candidates of desired 3D shapes binding to protein target pockets.
翻訳日:2023-10-18 20:48:27 公開日:2023-10-16
# 人工知能のメタヒューリスティックアルゴリズムとバイオインフォマティクス, バイオ統計学, 生態学, 製造業への応用

Metaheuristic Algorithms in Artificial Intelligence with Applications to Bioinformatics, Biostatistics, Ecology and, the Manufacturing Industries ( http://arxiv.org/abs/2308.10875v2 )

ライセンス: Link先を確認
Elvis Han Cui, Zizhao Zhang, Culsome Junwen Chen, Weng Kee Wong(参考訳) 自然にインスパイアされたメタヒューリスティックアルゴリズムは、人工知能の重要なコンポーネントであり、様々な最適化問題に取り組むために、分野間でますます使われています。 我々は,CSO-MAを用いた競合Swarm Optimizationrという,自然に着想を得たメタヒューリスティックアルゴリズムを新たに提案し,その柔軟性と性能を,統計学における様々な最適化問題に適用した。 特に、アルゴリズムは効率的であり、様々なコスト構造や複数のユーザ指定非線形制約を組み込むことができる。 私たちのアプリケーションには 一 単細胞一般化傾向モデルにおけるパラメータの最大推定値を求め、バイオインフォマティクスにおける擬似時間を研究する。 (ii)教育研究における一般的なraschモデルにおけるパラメータの推定 (iii)マルコフ更新モデルにおけるcox回帰のためのm-estimatesの探索と (4) 2つのコンパートメントモデルにおける欠落値を暗示する行列補完。 さらに応用についても論じる。 (v)生態問題において最適な変数を選定し、 (vi)複数の相互作用因子をもつロジスティックモデルを用いて自動車産業のための燃料補給実験を設計する。

Nature-inspired metaheuristic algorithms are important components of artificial intelligence, and are increasingly used across disciplines to tackle various types of challenging optimization problems. We apply a newly proposed nature-inspired metaheuristic algorithm called competitive swarm optimizer with mutated agents (CSO-MA) and demonstrate its flexibility and out-performance relative to its competitors in a variety of optimization problems in the statistical sciences. In particular, we show the algorithm is efficient and can incorporate various cost structures or multiple user-specified nonlinear constraints. Our applications include (i) finding maximum likelihood estimates of parameters in a single cell generalized trend model to study pseudotime in bioinformatics, (ii) estimating parameters in a commonly used Rasch model in education research, (iii) finding M-estimates for a Cox regression in a Markov renewal model and (iv) matrix completion to impute missing values in a two compartment model. In addition we discuss applications to (v) select variables optimally in an ecology problem and (vi) design a car refueling experiment for the auto industry using a logistic model with multiple interacting factors.
翻訳日:2023-10-18 20:48:12 公開日:2023-10-16
# ロボット支援給餌におけるシークエンシャル・アクセシション・ポリシーの学習

Learning Sequential Acquisition Policies for Robot-Assisted Feeding ( http://arxiv.org/abs/2309.05197v2 )

ライセンス: Link先を確認
Priya Sundaresan, Jiajun Wu, Dorsa Sadigh(参考訳) 食事支援ロボットは、さまざまな食材を拾い、給餌するために、様々な器具で特別な操作を行う必要がある。 これらの巧妙な低レベルスキル以外にも、補助ロボットは皿を片付け、食事を完成させるために、長い地平線を越えてこれらの戦略を順に計画する必要がある。 ロボット支援給餌の従来の方法は、それらを組み立てる手段を使わずに食品を扱うための高度に専門的なプリミティブを導入する。 一方、ロングホリゾン操作に対する既存のアプローチは、高度に専門化されたプリミティブをフレームワークに組み込む柔軟性を欠いている。 本稿では,長期食品購入のためのフレームワークであるVAPORS(Visual Action Planning OveR Sequences)を提案する。 VAPORSは、シミュレーションにおいて学習された潜在プレートダイナミクスを活用することで、ハイレベルなアクション選択のポリシーを学習する。 実世界でシーケンシャルプランを実行するために、VAPORSはアクションの実行を視覚的にパラメータ化されたプリミティブに委譲する。 我々は,ヌードル獲得とゼリー豆のバイマンスクーピングを含む複雑な実世界の買収試験に対するアプローチを検証する。 38枚のプレートで、VAPORSはベースラインよりもはるかに効率よく取得し、トッピングやソースのような現実的なプレートのバリエーションを一般化し、49人を対象に実施した調査において、利用者の嗜好に質的にアピールする。 コード、データセット、ビデオ、補足資料は、私たちのWebサイト(https://sites.google.com/view/vaporsbot)で参照できます。

A robot providing mealtime assistance must perform specialized maneuvers with various utensils in order to pick up and feed a range of food items. Beyond these dexterous low-level skills, an assistive robot must also plan these strategies in sequence over a long horizon to clear a plate and complete a meal. Previous methods in robot-assisted feeding introduce highly specialized primitives for food handling without a means to compose them together. Meanwhile, existing approaches to long-horizon manipulation lack the flexibility to embed highly specialized primitives into their frameworks. We propose Visual Action Planning OveR Sequences (VAPORS), a framework for long-horizon food acquisition. VAPORS learns a policy for high-level action selection by leveraging learned latent plate dynamics in simulation. To carry out sequential plans in the real world, VAPORS delegates action execution to visually parameterized primitives. We validate our approach on complex real-world acquisition trials involving noodle acquisition and bimanual scooping of jelly beans. Across 38 plates, VAPORS acquires much more efficiently than baselines, generalizes across realistic plate variations such as toppings and sauces, and qualitatively appeals to user feeding preferences in a survey conducted across 49 individuals. Code, datasets, videos, and supplementary materials can be found on our website: https://sites.google.com/view/vaporsbot.
翻訳日:2023-10-18 20:38:18 公開日:2023-10-16
# ワイル作用素、富田竹崎理論、ベル・クライザー・ホーネ・シモニー・ホルト不等式違反

Weyl operators, Tomita-Takesaki theory, and Bell-Clauser-Horne-Shimony-Holt inequality violations ( http://arxiv.org/abs/2309.02941v2 )

ライセンス: Link先を確認
P. De Fabritiis, F. M. Guedes, M. S. Guimaraes, G. Peruzzo, I. Roditi, S. P. Sorella(参考訳) 相対論的自由実スカラー場の真空状態におけるベル-CHSH不等式の不等式は、富田・竹崎構成とワイル作用素の相関関数の直接計算により決定される。

The violation of the Bell-CHSH inequality in the vacuum state of a relativistic free real scalar field is established by means of the Tomita-Takesaki construction and of the direct computation of the correlation functions of Weyl operators.
翻訳日:2023-10-18 20:37:29 公開日:2023-10-16
# 大規模変圧器訓練用小型プロキシ

Small-scale proxies for large-scale Transformer training instabilities ( http://arxiv.org/abs/2309.14322v2 )

ライセンス: Link先を確認
Mitchell Wortsman, Peter J. Liu, Lechao Xiao, Katie Everett, Alex Alemi, Ben Adlam, John D. Co-Reyes, Izzeddin Gur, Abhishek Kumar, Roman Novak, Jeffrey Pennington, Jascha Sohl-dickstein, Kelvin Xu, Jaehoon Lee, Justin Gilmer, Simon Kornblith(参考訳) 大規模なトランスフォーマーベースのモデルをトレーニングしたチームは、同じハイパーパラメータを小さなスケールでトレーニングする場合に現れない大規模なトレーニング不安定性を報告している。 このような不安定の原因は科学的に興味深いが、それらの再生に必要な資源の量は調査を困難にしている。 本研究では,小規模でトレーニングの安定性と不安定性を再現し,研究する方法を模索する。 まず,注意層におけるロジットの成長(Dehghani et al., 2023)と,ログ確率からの出力ロジットのばらつき(Chowdhery et al., 2022)の2つのトレーニング不安定性源に着目した。 学習率と損失の関係を尺度で測定することにより,高い学習率でトレーニングする場合に,これらの不安定性が小モデルにも現れること,大規模で従来採用されていた緩和効果が等しく有効であることを示す。 これにより、他の既知のオプティマイザやモデル介入が学習率の変化に対する最終損失の感度にどの程度影響するかを調べることができる。 この目的のために、ウォームアップ、重量減少、および$\mu$param (yang et al., 2022) のような手法を研究し、学習率の変動の桁にまたがる類似の損失を達成する小さなモデルを訓練する手法を組み合わせる。 最後に, モデルアクティベーションと勾配規範のスケーリング挙動を調べることにより, 不安定性が出現前に予測できる2つの事例について考察した。

Teams that have trained large Transformer-based models have reported training instabilities at large scale that did not appear when training with the same hyperparameters at smaller scales. Although the causes of such instabilities are of scientific interest, the amount of resources required to reproduce them has made investigation difficult. In this work, we seek ways to reproduce and study training stability and instability at smaller scales. First, we focus on two sources of training instability described in previous work: the growth of logits in attention layers (Dehghani et al., 2023) and divergence of the output logits from the log probabilities (Chowdhery et al., 2022). By measuring the relationship between learning rate and loss across scales, we show that these instabilities also appear in small models when training at high learning rates, and that mitigations previously employed at large scales are equally effective in this regime. This prompts us to investigate the extent to which other known optimizer and model interventions influence the sensitivity of the final loss to changes in the learning rate. To this end, we study methods such as warm-up, weight decay, and the $\mu$Param (Yang et al., 2022), and combine techniques to train small models that achieve similar losses across orders of magnitude of learning rate variation. Finally, to conclude our exploration we study two cases where instabilities can be predicted before they emerge by examining the scaling behavior of model activation and gradient norms.
翻訳日:2023-10-18 20:28:06 公開日:2023-10-16
# GPT-Driver: GPTでドライブを学ぶ

GPT-Driver: Learning to Drive with GPT ( http://arxiv.org/abs/2310.01415v2 )

ライセンス: Link先を確認
Jiageng Mao, Yuxi Qian, Hang Zhao, Yue Wang(参考訳) 我々は,OpenAI GPT-3.5モデルを自律走行車のための信頼性の高い運動プランナに変換する,シンプルで効果的なアプローチを提案する。 運動計画は自動運転における中核的な課題であり、安全で快適な運転経路を計画することを目指している。 既存の運動プランナーは、主にヒューリスティックな手法を用いて運転軌跡を予測するが、これらの手法は、新規で目に見えない運転シナリオに直面した上での一般化能力が不十分であることを示す。 本稿では,大規模言語モデル(llm)に固有の強力な推論能力と一般化可能性を活かした動き計画手法を提案する。 我々のアプローチの基本的な洞察は、言語モデリング問題としての運動計画の再構築である。 具体的には、プランナーの入力と出力を言語トークンとして表現し、LLMを利用して座標位置の言語記述を通して駆動軌道を生成する。 さらに,llmの数値推論ポテンシャルを刺激する新しいprogging-reasoning-finetuning strategyを提案する。 この戦略により、LLMは高精度な軌道座標と、自然言語における内部決定過程を記述できる。 我々は,大規模な nuScenes データセットに対するアプローチを評価し,GPT ベースの運動プランナの有効性,一般化能力,解釈可能性について検証した。 コードはhttps://github.com/PointsCoder/GPT-Driver.comで入手できる。

We present a simple yet effective approach that can transform the OpenAI GPT-3.5 model into a reliable motion planner for autonomous vehicles. Motion planning is a core challenge in autonomous driving, aiming to plan a driving trajectory that is safe and comfortable. Existing motion planners predominantly leverage heuristic methods to forecast driving trajectories, yet these approaches demonstrate insufficient generalization capabilities in the face of novel and unseen driving scenarios. In this paper, we propose a novel approach to motion planning that capitalizes on the strong reasoning capabilities and generalization potential inherent to Large Language Models (LLMs). The fundamental insight of our approach is the reformulation of motion planning as a language modeling problem, a perspective not previously explored. Specifically, we represent the planner inputs and outputs as language tokens, and leverage the LLM to generate driving trajectories through a language description of coordinate positions. Furthermore, we propose a novel prompting-reasoning-finetuning strategy to stimulate the numerical reasoning potential of the LLM. With this strategy, the LLM can describe highly precise trajectory coordinates and also its internal decision-making process in natural language. We evaluate our approach on the large-scale nuScenes dataset, and extensive experiments substantiate the effectiveness, generalization ability, and interpretability of our GPT-based motion planner. Code is now available at https://github.com/PointsCoder/GPT-Driver.
翻訳日:2023-10-18 20:18:54 公開日:2023-10-16
# 大規模言語モデルによるスマートコントラクト脆弱性検出 - 新しい展望

Large Language Model-Powered Smart Contract Vulnerability Detection: New Perspectives ( http://arxiv.org/abs/2310.01152v2 )

ライセンス: Link先を確認
Sihao Hu, Tiansheng Huang, Fatih \.Ilhan, Selim Furkan Tekin, Ling Liu(参考訳) 本稿では,GPT-4 などの大規模言語モデル (LLM) を利用したスマートコントラクトにおける脆弱性の探索を行う機会,課題,潜在的な解決策を系統的に分析する。 スマートコントラクト脆弱性検出のタスクでは、偽陽性の数を最小化しながら、可能な限り多くの真の脆弱性を特定するために、実用的なユーザビリティのヒンジを達成します。 高いランダム性でより多くの回答を生成することは、正しい回答を生み出す可能性を大幅に押し上げるが、必然的に偽陽性の数が増加する。 この緊張を軽減するために,従来の1段階検出を2つの相乗的段階に分解し,進行的検出と精細化のために,従来の1段階検出を2つの相乗的段階に分解するgptlensと呼ばれる敵対的枠組みを提案する。 auditorの目標は、正解を包含することを期待して、広範囲の脆弱性を発生させることである。一方、特定された脆弱性の有効性を評価する批判の目的は、偽陽性の数を最小限にすることである。 実験結果と実例から, オーディエンスと批評家が調和して作業し, 従来の一段階検出よりも顕著な改善が得られた。 gptlensは直感的で、戦略的で、スマートコントラクトの専門知識に頼ることなく、完全にllm駆動であり、その方法論上の汎用性と幅広い脆弱性を検出する可能性を示している。 私たちのコードは、https://github.com/git-disl/GPTLens.comで利用可能です。

This paper provides a systematic analysis of the opportunities, challenges, and potential solutions of harnessing Large Language Models (LLMs) such as GPT-4 to dig out vulnerabilities within smart contracts based on our ongoing research. For the task of smart contract vulnerability detection, achieving practical usability hinges on identifying as many true vulnerabilities as possible while minimizing the number of false positives. Nonetheless, our empirical study reveals contradictory yet interesting findings: generating more answers with higher randomness largely boosts the likelihood of producing a correct answer but inevitably leads to a higher number of false positives. To mitigate this tension, we propose an adversarial framework dubbed GPTLens that breaks the conventional one-stage detection into two synergistic stages $-$ generation and discrimination, for progressive detection and refinement, wherein the LLM plays dual roles, i.e., auditor and critic, respectively. The goal of auditor is to yield a broad spectrum of vulnerabilities with the hope of encompassing the correct answer, whereas the goal of critic that evaluates the validity of identified vulnerabilities is to minimize the number of false positives. Experimental results and illustrative examples demonstrate that auditor and critic work together harmoniously to yield pronounced improvements over the conventional one-stage detection. GPTLens is intuitive, strategic, and entirely LLM-driven without relying on specialist expertise in smart contracts, showcasing its methodical generality and potential to detect a broad spectrum of vulnerabilities. Our code is available at: https://github.com/git-disl/GPTLens.
翻訳日:2023-10-18 20:18:30 公開日:2023-10-16
# LLaMA:音声認識のためのクロスモーダル生成誤差補正フレームワーク

Whispering LLaMA: A Cross-Modal Generative Error Correction Framework for Speech Recognition ( http://arxiv.org/abs/2310.06434v2 )

ライセンス: Link先を確認
Srijith Radhakrishnan, Chao-Han Huck Yang, Sumeer Ahmad Khan, Rohit Kumar, Narsis A. Kiani, David Gomez-Cabrero, Jesper N. Tegner(参考訳) 本稿では,自動音声認識(ASR)における生成誤り訂正のための新たなクロスモーダル融合手法を提案する。 本手法は,音響情報と外部言語表現を併用し,正確な音声認識コンテキストを生成する。 これはn-best仮説の領域における生成的誤り訂正の新しいパラダイムへの一歩である。 既存のランキングに基づくリコーリング手法とは異なり,本手法は個別の初期化手法とパラメータ効率の高いアルゴリズムを用いて,事前学習された音声・テキストモデルから得られるasr性能を向上させる。 多様なasrデータセットをまたいで評価することにより,本手法の安定性と再現性を評価し,その単語誤り率相対(werr)性能を,n-best仮説と比較して37.66%向上させた。 将来の研究を促進するため、コードと事前訓練されたモデルをhttps://github.com/Srijith-rkr/Whispering-LLaMAでオープンソース化しました。

We introduce a new cross-modal fusion technique designed for generative error correction in automatic speech recognition (ASR). Our methodology leverages both acoustic information and external linguistic representations to generate accurate speech transcription contexts. This marks a step towards a fresh paradigm in generative error correction within the realm of n-best hypotheses. Unlike the existing ranking-based rescoring methods, our approach adeptly uses distinct initialization techniques and parameter-efficient algorithms to boost ASR performance derived from pre-trained speech and text models. Through evaluation across diverse ASR datasets, we evaluate the stability and reproducibility of our fusion technique, demonstrating its improved word error rate relative (WERR) performance in comparison to n-best hypotheses by relatively 37.66%. To encourage future research, we have made our code and pre-trained models open source at https://github.com/Srijith-rkr/Whispering-LLaMA.
翻訳日:2023-10-18 20:08:16 公開日:2023-10-16
# LLMトレーニングのための tokenizer Choice: 無視可能か、それとも致命的か?

Tokenizer Choice For LLM Training: Negligible or Crucial? ( http://arxiv.org/abs/2310.08754v2 )

ライセンス: Link先を確認
Mehdi Ali, Michael Fromm, Klaudia Thellmann, Richard Rutmann, Max L\"ubbering, Johannes Leveling, Katrin Klug, Jan Ebert, Niclas Doll, Jasper Schulze Buschhoff, Charvi Jain, Alexander Arno Weber, Lena Jurkschat, Hammam Abdelwahab, Chelsea John, Pedro Ortiz Suarez, Malte Ostendorff, Samuel Weinbach, Rafet Sifa, Stefan Kesselheim, Nicolas Flores-Herr(参考訳) LLMの最近の成功は、トレーニングデータセット構成のキュレーション、モデルアーキテクチャとデータセットサイズの拡大、事前トレーニング目標の進歩、トークン化ツールの影響を盲点として残すことで、主に推進されている。 この未探索領域に光を当てると,24個の単言語 LLM と多言語 LLM を2.6B のパラメータスケールで訓練し,異なるトークン化アルゴリズムとパラメータ化を非難することにより,トークン化選択が LLM 下流性能に与える影響を包括的に研究する。 我々の研究は、トークン化ツールの選択が、モデルの下流のパフォーマンス、トレーニング、推論コストに大きな影響を与えることを強調している。 特に,共通トークン化評価指標の成熟度とパリティは必ずしもモデルダウンストリームのパフォーマンスを予測できないため,トークン化指標の評価には疑問の余地がある。 さらに,ヨーロッパで最も頻度の高い5つの言語で訓練された多言語トークン化器では,英語と比較して語彙サイズが3倍に増大することを示す。 英語のみのトークン化器は従来,多言語LLMのトレーニングに応用されてきたが,非効率なトークン化語彙により,ダウンストリーム性能が著しく低下し,トレーニングコストが最大68%向上することがわかった。

The recent success of LLMs has been predominantly driven by curating the training dataset composition, scaling of model architectures and dataset sizes and advancements in pretraining objectives, leaving tokenizer influence as a blind spot. Shedding light on this underexplored area, we conduct a comprehensive study on the influence of tokenizer choice on LLM downstream performance by training 24 mono- and multilingual LLMs at a 2.6B parameter scale, ablating different tokenizer algorithms and parameterizations. Our studies highlight that the tokenizer choice can significantly impact the model's downstream performance, training and inference costs. In particular, we find that the common tokenizer evaluation metrics fertility and parity are not always predictive of model downstream performance, rendering these metrics a questionable choice for tokenizer evaluation. Furthermore, we show that multilingual tokenizers trained on the five most frequent European languages require vocabulary size increases of factor three in comparison to English. While English-only tokenizers have been applied to the training of multi-lingual LLMs in the past, we find that this approach results in a severe downstream performance degradation and additional training costs of up to 68%, due to an inefficient tokenization vocabulary.
翻訳日:2023-10-18 20:00:20 公開日:2023-10-16
# 量子貯留層計算における時系列処理資源としてのスクイーズ

Squeezing as a resource for time series processing in quantum reservoir computing ( http://arxiv.org/abs/2310.07406v2 )

ライセンス: Link先を確認
Jorge Garc\'ia-Beni, Gian Luca Giorgi, Miguel C. Soriano and Roberta Zambrini(参考訳) Squeezingは、メトロジー、暗号、コンピューティングなど多くの分野で量子リソースとして知られており、マルチモード設定における絡み合いに関連している。 本稿では,時系列処理のためのニューロモルフィック機械学習におけるスクイーズの効果について述べる。 特に,循環型フォトニックアーキテクチャを貯留層計算に適用し,アクティブ結合項とパッシブ結合項の両方を持つハミルトニアンを考慮し,貯水池におけるスクイーズの効果に対処する。 興味深いことに、スクイージングは理想的なモデルから現実的なモデルに移行するとき、実験的なノイズを考慮し、量子貯水池コンピューティングに有害または有用である。 マルチモードスクイーズによりアクセス可能なメモリが向上し,複数のベンチマーク時間的タスクのパフォーマンスが向上することを示す。 この改善の起源は、スクイーズが増加するにつれて、貯水池のロバスト性や再生ノイズにまで遡る。

Squeezing is known to be a quantum resource in many applications in metrology, cryptography, and computing, being related to entanglement in multimode settings. In this work, we address the effects of squeezing in neuromorphic machine learning for time series processing. In particular, we consider a loop-based photonic architecture for reservoir computing and address the effect of squeezing in the reservoir, considering a Hamiltonian with both active and passive coupling terms. Interestingly, squeezing can be either detrimental or beneficial for quantum reservoir computing when moving from ideal to realistic models, accounting for experimental noise. We demonstrate that multimode squeezing enhances its accessible memory, which improves the performance in several benchmark temporal tasks. The origin of this improvement is traced back to the robustness of the reservoir to readout noise as squeezing increases.
翻訳日:2023-10-18 19:58:26 公開日:2023-10-16
# コードセマンティックとLLMのブリッジ: コード生成のためのセマンティック連鎖

Bridging Code Semantic and LLMs: Semantic Chain-of-Thought Prompting for Code Generation ( http://arxiv.org/abs/2310.10698v1 )

ライセンス: Link先を確認
Yingwei Ma, Yue Yu, Shanshan Li, Yu Jiang, Yong Guo, Yuanliang Zhang, Yutao Xie, Xiangke Liao(参考訳) 大規模言語モデル(LLM)は、コード生成において顕著な進歩を見せている。 しかし、自然言語要求とコードの間の高度なセマンティックマッピングを必要とするため、自動コード生成は依然として難しい。 コード生成のための既存のllmsベースのアプローチの多くは、デコーダのみによる因果言語モデルに依存しているが、多くの場合、単に平易なテキストトークンとしてコードを扱う。 このギャップを埋めるため,本論文では,secot というコードの意味的情報を侵入する "semantic chain-of-thought" アプローチを提案する。 我々のモチベーションは、ソースコードの意味情報(データフローと制御フロー)がより正確なプログラム実行行動、意図、機能を記述することである。 LLMを考慮し、セマンティック情報を統合することにより、より粒度の細かいコード理解と表現を実現し、コード生成の精度を高めることができる。 一方、従来の手法では、データフローや制御フローなどの機能を得るためには、複雑な静的または動的コード解析を必要とするが、SeCoTは、このプロセスがLLMの本質的な能力(コンテキスト内学習)を介して完全に自動化され、一般化可能であり、挑戦的なドメインに適用可能であることを実証している。 本論文は,SeCoT を異なる LLM に適用できる一方で,強力な GPT スタイルモデルである ChatGPT (クローズソースモデル) と WizardCoder (オープンソースモデル) に焦点を当てる。 The experimental study on three popular DL benchmarks (\ie HumanEval, HumanEval-ET, MBPP) shows that SeCoT can achieve the-of-the-art performance, significantly improve the potential of large model and code generation。

Large language models (LLMs) have showcased remarkable prowess in code generation. However, automated code generation is still challenging since it requires a high-level semantic mapping between natural language requirements and codes. Most existing LLMs-based approaches for code generation rely on decoder-only causal language models often treate codes merely as plain text tokens \ie feeding the requirements as a prompt input, and outputing code as flat sequence of tokens, potentially missing the rich semantic features inherent in source code. To bridge this gap, this paper proposes the "Semantic Chain-of-Thought" approach to intruduce semantic information of code, named SeCoT. Our motivation is that the semantic information of the source code (\eg data flow and control flow) describes more precise program execution behavior, intention and function. By guiding LLM consider and integrate semantic information, we can achieve a more granular understanding and representation of code, enhancing code generation accuracy. Meanwhile, while traditional techniques leveraging such semantic information require complex static or dynamic code analysis to obtain features such as data flow and control flow, SeCoT demonstrates that this process can be fully automated via the intrinsic capabilities of LLMs (\ie in-context learning), while being generalizable and applicable to challenging domains. While SeCoT can be applied with different LLMs, this paper focuses on the powerful GPT-style models: ChatGPT(close-source model) and WizardCoder(open-source model). The experimental study on three popular DL benchmarks (\ie HumanEval, HumanEval-ET and MBPP) shows that SeCoT can achieves state-of-the-art performance, greatly improving the potential for large models and code generation.
翻訳日:2023-10-18 19:48:28 公開日:2023-10-16
# 人気分布シフトに対するロバストな協調フィルタリング

Robust Collaborative Filtering to Popularity Distribution Shift ( http://arxiv.org/abs/2310.10696v1 )

ライセンス: Link先を確認
An Zhang, Wenchang Ma, Jingnan Zheng, Xiang Wang, Tat-seng Chua(参考訳) cfモデル(leading collaborative filtering)では、ユーザとアイテムの表現が、トレーニングデータの人気バイアスをショートカットとして学習する傾向がある。 人気ショートカットのトリックは、分散(id)パフォーマンスには適しているが、分散(ood)データ、すなわちテストデータの人気分布がトレーニングデータにシフトしたときには、あまり一般化されていない。 ギャップを埋めるために、デバイアスング戦略はショートカットの度合いを評価し、それらを表現から緩和しようとする。 しかし, ショートカットの度合いを測る場合には, 1 つの側面(項目の項目頻度, ユーザ側のユーザ頻度など)でのみ統計値を使用する戦略が多く, ユーザとイタムのペアの構成次数に適合しない, 2) ショートカットを緩和する場合は, テスト分布が事前に知られていると仮定する戦略が多い, という2つの欠点がある。 これにより低品質のデバイアス表現が得られる。 さらに悪いことに、これらの戦略はID性能を犠牲にしてOODの一般化性を達成する。 本研究では,テストデータに仮定することなく,対話的人気ショートカットの定量化と削減を行う,シンプルかつ効果的なデバイアス戦略popgoを提案する。 まず、人気表現に基づいて、ユーザとイタムのペアのショートカット次数を生成するショートカットモデルを学習する。 そして、相互作用ワイドショートカット度で予測を調整することでCFモデルを訓練する。 因果的な情報理論の両方をPopGoで見ることによって、CFモデルが重要な人気に依存しない特徴を捉えつつ、急激な人気関連パターンを排除した理由を正当化することができる。 PopGoを使って、4つのベンチマークデータセット上で2つの高性能CFモデル(MF、LightGCN)をデバイアスします。 IDとOODの両方のテストセットでは、PopGoは最先端のデバイアス戦略(DICE、MACRなど)よりも大幅に向上している。

In leading collaborative filtering (CF) models, representations of users and items are prone to learn popularity bias in the training data as shortcuts. The popularity shortcut tricks are good for in-distribution (ID) performance but poorly generalized to out-of-distribution (OOD) data, i.e., when popularity distribution of test data shifts w.r.t. the training one. To close the gap, debiasing strategies try to assess the shortcut degrees and mitigate them from the representations. However, there exist two deficiencies: (1) when measuring the shortcut degrees, most strategies only use statistical metrics on a single aspect (i.e., item frequency on item and user frequency on user aspect), failing to accommodate the compositional degree of a user-item pair; (2) when mitigating shortcuts, many strategies assume that the test distribution is known in advance. This results in low-quality debiased representations. Worse still, these strategies achieve OOD generalizability with a sacrifice on ID performance. In this work, we present a simple yet effective debiasing strategy, PopGo, which quantifies and reduces the interaction-wise popularity shortcut without any assumptions on the test data. It first learns a shortcut model, which yields a shortcut degree of a user-item pair based on their popularity representations. Then, it trains the CF model by adjusting the predictions with the interaction-wise shortcut degrees. By taking both causal- and information-theoretical looks at PopGo, we can justify why it encourages the CF model to capture the critical popularity-agnostic features while leaving the spurious popularity-relevant patterns out. We use PopGo to debias two high-performing CF models (MF, LightGCN) on four benchmark datasets. On both ID and OOD test sets, PopGo achieves significant gains over the state-of-the-art debiasing strategies (e.g., DICE, MACR).
翻訳日:2023-10-18 19:47:51 公開日:2023-10-16
# 適応結晶を用いた安定構造生成のためのデータ駆動スコアベースモデル

Data-Driven Score-Based Models for Generating Stable Structures with Adaptive Crystal Cells ( http://arxiv.org/abs/2310.10695v1 )

ライセンス: Link先を確認
Arsen Sultanov, Jean-Claude Crivello, Tabea Rebafka, Nataliya Sokolovska(参考訳) 新しい機能と安定な材料の発見は、その複雑さのために大きな課題である。 本研究の目的は, 機械学習生成モデルを用いて, 化学安定性や化学組成など, 望ましい特性を持つ新しい結晶構造の生成である。 分子の生成と比較すると、結晶構造は結晶の周期的性質と空間群に関連する特定の対称性の制約から生じる新たな困難をもたらす。 本研究では,様々な応用において優れた性能を示すアニール型ランジュバン力学に基づくスコアベース確率モデルを結晶生成の課題に適用する。 提案手法の新規性は、結晶セルの格子が固定されていないという事実に存在する。 モデルのトレーニング中は、利用可能なデータから格子を学習する一方、新しい化学構造のサンプリングでは、原子位置の生成に沿って格子を生成するために2つの消音過程が並列に使用される。 対称性の制約を尊重し、計算上の利点とサンプル構造の品質を生かしたマルチグラフ結晶表現が導入された。 我々は,選択した化学系および結晶群において,新たな候補構造を生成することができることを示す。 提案手法の機能を説明するために,記述子に基づくメトリクスに基づく最近の生成モデルとの比較を行った。

The discovery of new functional and stable materials is a big challenge due to its complexity. This work aims at the generation of new crystal structures with desired properties, such as chemical stability and specified chemical composition, by using machine learning generative models. Compared to the generation of molecules, crystal structures pose new difficulties arising from the periodic nature of the crystal and from the specific symmetry constraints related to the space group. In this work, score-based probabilistic models based on annealed Langevin dynamics, which have shown excellent performance in various applications, are adapted to the task of crystal generation. The novelty of the presented approach resides in the fact that the lattice of the crystal cell is not fixed. During the training of the model, the lattice is learned from the available data, whereas during the sampling of a new chemical structure, two denoising processes are used in parallel to generate the lattice along the generation of the atomic positions. A multigraph crystal representation is introduced that respects symmetry constraints, yielding computational advantages and a better quality of the sampled structures. We show that our model is capable of generating new candidate structures in any chosen chemical system and crystal group without any additional training. To illustrate the functionality of the proposed method, a comparison of our model to other recent generative models, based on descriptor-based metrics, is provided.
翻訳日:2023-10-18 19:47:12 公開日:2023-10-16
# 自然主義市民科学コミュニティのネットワーク分析

Network Analysis of the iNaturalist Citizen Science Community ( http://arxiv.org/abs/2310.10693v1 )

ライセンス: Link先を確認
Yu Lu Liu and Thomas Jiralerspong(参考訳) 近年、市民科学は科学コミュニティのより大きな部分を占めるようになった。 何千もの市民科学者からデータや専門知識を収集する能力は、非常に有益だ。 この分野の人気が高まっているにもかかわらず、市民科学プロジェクトの相互作用と構造はまだ理解されておらず、分析されていない。 我々は,iNaturalistの市民科学プラットフォームを事例研究として,市民科学プロジェクトの構造を分析する。 iNaturalistのデータを二部ネットワークとしてフレーム化し、視覚化と確立したネットワークサイエンス技術を用いて、市民科学プロジェクトにおけるユーザ間の構造とインタラクションに関する洞察を得る。 最後に、inaturalistデータを用いて、他の一般的なベンチマークネットワークと比較して特異な構造を持つネットワークを構築することにより、ネットワーク科学研究のための新たなユニークなベンチマークを提案する。 リンク予測タスクを用いて,このネットワークを用いて様々なネットワーク科学手法に対する新たな洞察を得ることを実証する。

In recent years, citizen science has become a larger and larger part of the scientific community. Its ability to crowd source data and expertise from thousands of citizen scientists makes it invaluable. Despite the field's growing popularity, the interactions and structure of citizen science projects are still poorly understood and under analyzed. We use the iNaturalist citizen science platform as a case study to analyze the structure of citizen science projects. We frame the data from iNaturalist as a bipartite network and use visualizations as well as established network science techniques to gain insights into the structure and interactions between users in citizen science projects. Finally, we propose a novel unique benchmark for network science research by using the iNaturalist data to create a network which has an unusual structure relative to other common benchmark networks. We demonstrate using a link prediction task that this network can be used to gain novel insights into a variety of network science methods.
翻訳日:2023-10-18 19:46:51 公開日:2023-10-16
# w$状態は、任意の局所ハミルトンのユニークな基底状態ではない

$W$ state is not the unique ground state of any local Hamiltonian ( http://arxiv.org/abs/2310.10716v1 )

ライセンス: Link先を確認
Lei Gioia and Ryan Thorngren(参考訳) すべての量子状態の基底状態の特徴づけは、量子多体物理学において重要な問題である。 例えば、ガッピングハミルトニアンの有名な絡み合い領域の法則は、行列積状態を用いた1dおよびいくつかの2d量子系の効率的なシミュレーションを可能にした。 基底状態のうち、(ghz状態のような)猫状態や位相秩序状態のようないくつかのタイプは、自発的対称性の破れの理論から理解されるように、縮退したパートナーと共にのみ現れる。 本研究では, ギャップレスモデルや乱れモデルであっても, 正確に縮退したパートナーとともに, 基底状態としてのみ発生可能な$W$状態を含む, 新しい単純な状態のクラスを導入する。 これらの状態は安定なギャップ付き基底状態多様体の要素ではないことが示され、ギャップ付き位相の数値探索において、広範囲の「不安定な」絡み合い領域の法則を破棄する新しい方法を提供する。 一方、これらの退化状態がギャップのない系の基底状態であるとき、それらは$O(1/L^2)$有限サイズ分裂を持つ励起スペクトルを持つ。 このような特殊なギャップレス性が発生する一般的な状況の1つは、ゼロモードによるリフシッツ遷移、つまりそのような臨界点の量子状態シグネチャである。 病理学的な親ハミルトニアンを探索し、高次元や他の関連する状態への一般化、および多体量子系の熱力学的極限を理解するための意味について論じる。

The characterization of ground states among all quantum states is an important problem in quantum many-body physics. For example, the celebrated entanglement area law for gapped Hamiltonians has allowed for efficient simulation of 1d and some 2d quantum systems using matrix product states. Among ground states, some types, such as cat states (like the GHZ state) or topologically ordered states, can only appear alongside their degenerate partners, as is understood from the theory of spontaneous symmetry breaking. In this work, we introduce a new class of simple states, including the $W$ state, that can only occur as a ground state alongside an exactly degenerate partner, even in gapless or disordered models. We show that these states are never an element of a stable gapped ground state manifold, which may provide a new method to discard a wide range of 'unstable' entanglement area law states in the numerical search of gapped phases. On the other hand when these degenerate states are the ground states of gapless systems they possess an excitation spectrum with $O(1/L^2)$ finite-size splitting. One familiar situation where this special kind of gaplessness occurs is at a Lifshitz transition due to a zero mode; a potential quantum state signature of such a critical point. We explore pathological parent Hamiltonians, and discuss generalizations to higher dimensions, other related states, and implications for understanding thermodynamic limits of many-body quantum systems.
翻訳日:2023-10-18 19:38:50 公開日:2023-10-16
# 大規模モデルを用いた深部視覚ニューロンの自然言語自動記述

Automated Natural Language Explanation of Deep Visual Neurons with Large Models ( http://arxiv.org/abs/2310.10708v1 )

ライセンス: Link先を確認
Chenxu Zhao, Wei Qian, Yucheng Shi, Mengdi Huai, Ninghao Liu(参考訳) ディープニューラルネットワークは、さまざまな現実世界のタスクで顕著なパフォーマンスを示している。 しかし、その効果の根底にある理由を理解することは難しい問題である。 ディープニューラルネットワークをニューロンを調べることで解釈することは、ニューラルネットワークの内部動作を探索する上で、異なる利点をもたらす。 これまでの研究では、ディープビジョンネットワーク内の特定のニューロンは意味的意味を持ち、モデルのパフォーマンスにおいて重要な役割を果たすことが示されている。 それでも、現在のニューロンのセマンティクスを生成する方法は、人間の介入に大きく依存している。 この制限に対処するため,本稿では,人間の介入や事前知識を必要とせず,大きな基礎モデルを持つニューロンの意味的説明を生成する新しいポストホックフレームワークを提案する。 我々のフレームワークは、様々なモデルアーキテクチャやデータセットと互換性があり、自動化されたスケーラブルなニューロン解釈を容易にするように設計されています。 提案手法の有効性を検証するため,質的および定量的分析を行い実験を行った。

Deep neural networks have exhibited remarkable performance across a wide range of real-world tasks. However, comprehending the underlying reasons for their effectiveness remains a challenging problem. Interpreting deep neural networks through examining neurons offers distinct advantages when it comes to exploring the inner workings of neural networks. Previous research has indicated that specific neurons within deep vision networks possess semantic meaning and play pivotal roles in model performance. Nonetheless, the current methods for generating neuron semantics heavily rely on human intervention, which hampers their scalability and applicability. To address this limitation, this paper proposes a novel post-hoc framework for generating semantic explanations of neurons with large foundation models, without requiring human intervention or prior knowledge. Our framework is designed to be compatible with various model architectures and datasets, facilitating automated and scalable neuron interpretation. Experiments are conducted with both qualitative and quantitative analysis to verify the effectiveness of our proposed approach.
翻訳日:2023-10-18 19:38:25 公開日:2023-10-16
# デモは必要なもの - 文脈内学習による攻撃的コンテンツパラフレージングの促進

Demonstrations Are All You Need: Advancing Offensive Content Paraphrasing using In-Context Learning ( http://arxiv.org/abs/2310.10707v1 )

ライセンス: Link先を確認
Anirudh Som, Karan Sikka, Helen Gent, Ajay Divakaran, Andreas Kathol, Dimitra Vergyri(参考訳) 攻撃的コンテンツのパラフレーズ化は、コンテンツ削除のより良い代替手段であり、コミュニケーション環境における市民性向上に役立つ。 しかし、意味や意図を保存するための大量のラベル付きデータに大きく依存している。 また、オリジナルコンテンツの不快感の大部分を保持しており、ユーザビリティに関する疑問を提起している。 本稿では,大規模言語モデル(LLM)を用いたインコンテキスト学習(ICL)を探索し,特定のクエリに対して所望のアウトプットを生成する上で,入力ラベルのデモペアを限定的に使用することにより,実践者を支援することを目的とする。 本研究は, 実演の回数と順序, 即席指導の排除, 測定毒性の低減など, 重要な要因に焦点を当てた。 提案した文脈対応ポリトパラフレーズデータセットを含む3つのデータセットに対して,対話スタイルの失礼な発話,丁寧な言い回し,追加の対話コンテキストを含む基本的評価を行う。 2つのクローズドソースと1つのオープンソースLLMを用いてアプローチを評価する。 以上の結果から,ICLは品質管理手法と同等であり,人体評価では25%,毒性では76%と質的に優れていた。 また、ICLベースのパラフレーズは10%のトレーニングデータでもわずかに性能が低下している。

Paraphrasing of offensive content is a better alternative to content removal and helps improve civility in a communication environment. Supervised paraphrasers; however, rely heavily on large quantities of labelled data to help preserve meaning and intent. They also retain a large portion of the offensiveness of the original content, which raises questions on their overall usability. In this paper we aim to assist practitioners in developing usable paraphrasers by exploring In-Context Learning (ICL) with large language models (LLMs), i.e., using a limited number of input-label demonstration pairs to guide the model in generating desired outputs for specific queries. Our study focuses on key factors such as -- number and order of demonstrations, exclusion of prompt instruction, and reduction in measured toxicity. We perform principled evaluation on three datasets, including our proposed Context-Aware Polite Paraphrase dataset, comprising of dialogue-style rude utterances, polite paraphrases, and additional dialogue context. We evaluate our approach using two closed source and one open source LLM. Our results reveal that ICL is comparable to supervised methods in generation quality, while being qualitatively better by 25% on human evaluation and attaining lower toxicity by 76%. Also, ICL-based paraphrasers only show a slight reduction in performance even with just 10% training data.
翻訳日:2023-10-18 19:38:11 公開日:2023-10-16
# LLMの力の調和:ニュース見出し生成のレンズによる人間-AIテキストの共クリーションの評価

Harnessing the Power of LLMs: Evaluating Human-AI text Co-Creation through the Lens of News Headline Generation ( http://arxiv.org/abs/2310.10706v1 )

ライセンス: Link先を確認
Zijian Ding, Alison Smith-Renner, Wenjuan Zhang, Joel R. Tetreault, Alejandro Jaimes(参考訳) 筆者らは, LLMによるニュース見出し生成の文脈において, LLMを最大限に活用する方法と, これらのモデルとのインタラクションが, 書き込みプロセスにおけるオーナシップや信頼感にどのように影響するかを検討するために, 一般的な人間とAIのインタラクションタイプ(例えば, 誘導システム, システムアウトプットからの選択, 編集後アウトプット)を比較した。 LLMだけで十分なニュースの見出しを生成することができるが、平均すると、望ましくないモデル出力を修正するには人間による制御が必要である。 インタラクションメソッドのうち、モデル出力の導出と選択は、(時間と労力において)最低コストで最も利益を上げた。 さらに、AI支援は、フリーフォーム編集に比べて参加者のコントロールに対する認識を損なうことはなかった。

To explore how humans can best leverage LLMs for writing and how interacting with these models affects feelings of ownership and trust in the writing process, we compared common human-AI interaction types (e.g., guiding system, selecting from system outputs, post-editing outputs) in the context of LLM-assisted news headline generation. While LLMs alone can generate satisfactory news headlines, on average, human control is needed to fix undesirable model outputs. Of the interaction methods, guiding and selecting model output added the most benefit with the lowest cost (in time and effort). Further, AI assistance did not harm participants' perception of control compared to freeform editing.
翻訳日:2023-10-18 19:37:46 公開日:2023-10-16
# 半導体ウェハマップにおける欠陥パターン同定のための機械学習技術:調査,実証,実験による評価

Machine Learning Techniques for Identifying the Defective Patterns in Semiconductor Wafer Maps: A Survey, Empirical, and Experimental Evaluations ( http://arxiv.org/abs/2310.10705v1 )

ライセンス: Link先を確認
Kamal Taha(参考訳) 本稿では,半導体製造におけるウエハ欠陥の同定に機械学習(ML)技術を用いた方法論の総合的なレビューを行う。 ウェハ欠陥同定におけるmlの有効性を実証する研究が増えているにもかかわらず、本研究の包括的なレビューは明らかでない。 この調査は、利用可能な文献を要約し、ウェハ欠陥検出の領域における様々なMLアルゴリズムの利点、限界、および潜在的な応用の詳細な分析を提供することによって、この空白を埋めようとしている。 提案する方法論の革新的な分類法では,より洗練されたカテゴリと手法に詳細なアルゴリズムを分類する。 この分類は、幅広い方法論のカテゴリから始まり、特定のサブテクニックで終わる4層構造に従う。 異なるアルゴリズムとその技術の間の複雑な関係を理解するのに役立つ。 我々は,これらの異なる手法をランク付けするために,厳密な経験的および実験的評価を行っている。 実証評価では,4つの基準のセットに基づいて手法を評価する。 実験評価では、同じサブテクニック、テクニック、サブカテゴリ、カテゴリを使用するアルゴリズムをランク付けした。 この多層分類、経験的評価、比較実験の統合は、ウェハ欠陥を特定するためのML技術とアルゴリズムの詳細な理解を提供する。 このアプローチは、研究者がよりインフォームドな意思決定を行うことを導く。 さらに,本論文は,ウェハ欠陥同定技術の将来展望を照らし,今後の展望と今後の研究機会について述べる。

This survey paper offers a comprehensive review of methodologies utilizing machine learning (ML) techniques for identifying wafer defects in semiconductor manufacturing. Despite the growing body of research demonstrating the effectiveness of ML in wafer defect identification, there is a noticeable absence of comprehensive reviews on this subject. This survey attempts to fill this void by amalgamating available literature and providing an in-depth analysis of the advantages, limitations, and potential applications of various ML algorithms in the realm of wafer defect detection. An innovative taxonomy of methodologies that we present provides a detailed classification of algorithms into more refined categories and techniques. This taxonomy follows a four-tier structure, starting from broad methodology categories and ending with specific sub-techniques. It aids researchers in comprehending the complex relationships between different algorithms and their techniques. We employ a rigorous empirical and experimental evaluation to rank these varying techniques. For the empirical evaluation, we assess techniques based on a set of four criteria. The experimental evaluation ranks the algorithms employing the same sub-techniques, techniques, sub-categories, and categories. This integration of a multi-layered taxonomy, empirical evaluations, and comparative experiments provides a detailed and holistic understanding of ML techniques and algorithms for identifying wafer defects. This approach guides researchers towards making more informed decisions in their work. Additionally, the paper illuminates the future prospects of ML techniques for wafer defect identification, underscoring potential advancements and opportunities for further research in this field
翻訳日:2023-10-18 19:37:30 公開日:2023-10-16
# 転写誤り訂正のための最適化トークン化

Optimized Tokenization for Transcribed Error Correction ( http://arxiv.org/abs/2310.10704v1 )

ライセンス: Link先を確認
Tomer Wullach, Shlomo E. Chazan(参考訳) 音声認識システムに直面する課題は、発音の変化、悪い音声条件、ラベル付きデータの不足などであり、繰り返しエラーを修正する後処理ステップの必要性を強調している。 従来の研究では、専用の誤り訂正モデルを用いることの利点が示されているが、そのようなモデルの訓練には、容易に取得できない大量のラベル付きデータが必要である。 この制限を克服するために、合成転写データを利用することが多いが、転写誤りと合成ノイズとの分配ギャップを埋めることは容易ではない。 本稿では,合成データのみを用いてトレーニングを行うことで,補正モデルの性能を大幅に向上できることを示す。 具体的には,(1)一組の転写データから生成された誤り分布を用いて生成された合成データは,ランダムな摂動を適用する一般的なアプローチを上回っており,(2)bpeトークン化器の語彙に言語固有の調整を適用すると,認識されていない分布への適応と転写されたエラーの知識の保持のバランスが崩れる。 本稿では,これらの重要な観測結果の利点を示し,複数の言語,音声認識システム,著名音声認識データセットを用いたアプローチを評価する。

The challenges facing speech recognition systems, such as variations in pronunciations, adverse audio conditions, and the scarcity of labeled data, emphasize the necessity for a post-processing step that corrects recurring errors. Previous research has shown the advantages of employing dedicated error correction models, yet training such models requires large amounts of labeled data which is not easily obtained. To overcome this limitation, synthetic transcribed-like data is often utilized, however, bridging the distribution gap between transcribed errors and synthetic noise is not trivial. In this paper, we demonstrate that the performance of correction models can be significantly increased by training solely using synthetic data. Specifically, we empirically show that: (1) synthetic data generated using the error distribution derived from a set of transcribed data outperforms the common approach of applying random perturbations; (2) applying language-specific adjustments to the vocabulary of a BPE tokenizer strike a balance between adapting to unseen distributions and retaining knowledge of transcribed errors. We showcase the benefits of these key observations, and evaluate our approach using multiple languages, speech recognition systems and prominent speech recognition datasets.
翻訳日:2023-10-18 19:37:09 公開日:2023-10-16
# 概念に基づく透過的異常検出

Transparent Anomaly Detection via Concept-based Explanations ( http://arxiv.org/abs/2310.10702v1 )

ライセンス: Link先を確認
Laya Rafiee Sevyeri, Ivaxi Sheth, Farhood Farahnak, Shirin Abbasinejad Enger(参考訳) ディープラーニング技術の進歩により、異常検出のパフォーマンスが向上した。 しかし、現実世界および安全クリティカルなアプリケーションは、正確性を超えたレベルの透明性と推論を必要とする。 異常検出(AD)の課題は、与えられたサンプルが学習された分布に従うかどうかを調べることである。 既存の方法には、結果を明確に説明して推論する能力がない。 したがって、この課題を克服するために、Transparent {A}nomaly Detection {C}oncept {E}xplanations (ACE)を提案する。 ACEは、人間の解釈可能な概念の説明と異常予測を提供することができる。 我々の知る限りでは、この論文は解釈可能な副設計異常検出を提案する最初の論文である。 ADにおける透明性の促進に加えて、効果的な人間-モデル相互作用を可能にする。 提案モデルではブラックボックス非解釈モデルよりも高いか同等の結果を示す。 CUB-200-2011の鳥の分類、TIL-WSI-TCGAの病理組織学的スライド画像分類、CelebAの性別分類の3つの現実的データセットにおけるACEの性能を検証した。 さらに,概念学習パラダイムを他の分類ベースの広告手法とシームレスに統合できることを実証する。

Advancements in deep learning techniques have given a boost to the performance of anomaly detection. However, real-world and safety-critical applications demand a level of transparency and reasoning beyond accuracy. The task of anomaly detection (AD) focuses on finding whether a given sample follows the learned distribution. Existing methods lack the ability to reason with clear explanations for their outcomes. Hence to overcome this challenge, we propose Transparent {A}nomaly Detection {C}oncept {E}xplanations (ACE). ACE is able to provide human interpretable explanations in the form of concepts along with anomaly prediction. To the best of our knowledge, this is the first paper that proposes interpretable by-design anomaly detection. In addition to promoting transparency in AD, it allows for effective human-model interaction. Our proposed model shows either higher or comparable results to black-box uninterpretable models. We validate the performance of ACE across three realistic datasets - bird classification on CUB-200-2011, challenging histopathology slide image classification on TIL-WSI-TCGA, and gender classification on CelebA. We further demonstrate that our concept learning paradigm can be seamlessly integrated with other classification-based AD methods.
翻訳日:2023-10-18 19:36:46 公開日:2023-10-16
# 大規模言語モデルによるマルチエージェント協調のための心の理論

Theory of Mind for Multi-Agent Collaboration via Large Language Models ( http://arxiv.org/abs/2310.10701v1 )

ライセンス: Link先を確認
Huao Li, Yu Quan Chong, Simon Stepputtis, Joseph Campbell, Dana Hughes, Michael Lewis, Katia Sycara(参考訳) 大規模言語モデル(llm)は推論と計画の両方において印象的な成果を上げてきたが、マルチエージェントコラボレーションにおけるその能力はほとんど未調査のままである。 本研究では,MARL(Multi-Agent Reinforcement Learning)とプランニングベースライン(MARL)を併用した多エージェント協調型テキストゲームにおけるLLMエージェントの評価を行った。 llmに基づくエージェント間の創発的協調行動と高次心機能理論の証拠を観察した。 この結果から,LLMエージェントの長期的コンテキスト管理における系統的障害とタスク状態に対する幻覚による計画最適化の限界が明らかになった。 本研究では,これらの問題を緩和するために,明示的な信念状態表現を用いることで,LCMに基づくエージェントに対するタスク性能とToM推論の精度を向上させることを明らかにする。

While Large Language Models (LLMs) have demonstrated impressive accomplishments in both reasoning and planning, their abilities in multi-agent collaborations remains largely unexplored. This study evaluates LLM-based agents in a multi-agent cooperative text game with Theory of Mind (ToM) inference tasks, comparing their performance with Multi-Agent Reinforcement Learning (MARL) and planning-based baselines. We observed evidence of emergent collaborative behaviors and high-order Theory of Mind capabilities among LLM-based agents. Our results reveal limitations in LLM-based agents' planning optimization due to systematic failures in managing long-horizon contexts and hallucination about the task state. We explore the use of explicit belief state representations to mitigate these issues, finding that it enhances task performance and the accuracy of ToM inferences for LLM-based agents.
翻訳日:2023-10-18 19:36:31 公開日:2023-10-16
# PELA:低ランク近似を用いたパラメータ効率学習モデル

PELA: Learning Parameter-Efficient Models with Low-Rank Approximation ( http://arxiv.org/abs/2310.10700v1 )

ライセンス: Link先を確認
Yangyang Guo and Guangzhi Wang and Mohan Kankanhalli(参考訳) リソース制約のある条件下では、ダウンストリームタスクに事前訓練された大きなモデルを適用することは禁止される。 最近の効率問題に対する支配的なアプローチは、固定バックボーンモデルにいくつかの学習可能なパラメータを追加することである。 しかし、この戦略は、限られたリソースで下流の微調整のために大きなモデルをロードする際のさらなる課題をもたらす。 本稿では,中間プリトレーニングステージを導入することにより,事前学習モデルのパラメータ効率を向上させる新しい手法を提案する。 この目的のために、我々はまず最初に低ランク近似を用いて元の大模型を圧縮し、次に特徴蒸留モジュールと重み摂動正規化モジュールを考案した。 これらのモジュールは低ランクモデルを強化するように設計されている。 具体的には、事前トレーニング中にバックボーンパラメータを凍結しながら低ランクモデルのみを更新する。 これにより、下流タスクにおける低ランクモデルの直接的かつ効率的な利用が可能になる。 提案手法は,要求パラメータと計算時間の両方の効率性を実現し,ベースアーキテクチャに最小限の修正を加えて比較結果を維持する。 具体的には、3つの視覚のみと1つの視覚言語トランスフォーマーモデルに適用すると、元のパラメータサイズを1/3から2/3に減らしながら、性能が$\sim$0.6ポイント低下することを示す。

Applying a pre-trained large model to downstream tasks is prohibitive under resource-constrained conditions. Recent dominant approaches for addressing efficiency issues involve adding a few learnable parameters to the fixed backbone model. This strategy, however, leads to more challenges in loading large models for downstream fine-tuning with limited resources. In this paper, we propose a novel method for increasing the parameter efficiency of pre-trained models by introducing an intermediate pre-training stage. To this end, we first employ low-rank approximation to compress the original large model and then devise a feature distillation module and a weight perturbation regularization module. These modules are specifically designed to enhance the low-rank model. Concretely, we update only the low-rank model while freezing the backbone parameters during pre-training. This allows for direct and efficient utilization of the low-rank model for downstream tasks. The proposed method achieves both efficiencies in terms of required parameters and computation time while maintaining comparable results with minimal modifications to the base architecture. Specifically, when applied to three vision-only and one vision-language Transformer models, our approach often demonstrates a $\sim$0.6 point decrease in performance while reducing the original parameter size by 1/3 to 2/3.
翻訳日:2023-10-18 19:36:15 公開日:2023-10-16
# 効率的な訓練のための多線形演算子による事前学習モデルの再利用

Reusing Pretrained Models by Multi-linear Operators for Efficient Training ( http://arxiv.org/abs/2310.10699v1 )

ライセンス: Link先を確認
Yu Pan, Ye Yuan, Yichun Yin, Zenglin Xu, Lifeng Shang, Xin Jiang, Qun Liu(参考訳) 大きなモデルをスクラッチからトレーニングするには、通常はかなりのリソースが必要です。 この問題に向けて、bert2bertやligoといった最近の研究は、大きなモデル("target model"と呼ばれる)を初期化するために、小さな事前訓練されたモデルを再利用している。 これらの研究の成功にもかかわらず、彼らは部分重みのみをマッピングし、モデル全体の潜在的な相関を無視して事前訓練されたモデルを成長させた。 本稿で示すように,前訓練モデルと目標モデルの重みの間には,相互相互作用と内相互作用が存在する。 その結果、部分写像は完全な情報を捉えず、不適切な成長をもたらす可能性がある。 本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させて加速能力を向上する手法を提案する。 マルチ線形演算子を用いて計算と空間の複雑さを低減し、許容できるリソース要求を実現する。 実験により,DeiT-smallから転送されるDeiT-smallの計算コストは76 %であり,それぞれ bert2BERT を+12.0\%,LiGO を+20.7\% で上回ることがわかった。

Training large models from scratch usually costs a substantial amount of resources. Towards this problem, recent studies such as bert2BERT and LiGO have reused small pretrained models to initialize a large model (termed the ``target model''), leading to a considerable acceleration in training. Despite the successes of these previous studies, they grew pretrained models by mapping partial weights only, ignoring potential correlations across the entire model. As we show in this paper, there are inter- and intra-interactions among the weights of both the pretrained and the target models. As a result, the partial mapping may not capture the complete information and lead to inadequate growth. In this paper, we propose a method that linearly correlates each weight of the target model to all the weights of the pretrained model to further enhance acceleration ability. We utilize multi-linear operators to reduce computational and spacial complexity, enabling acceptable resource requirements. Experiments demonstrate that our method can save 76\% computational costs on DeiT-base transferred from DeiT-small, which outperforms bert2BERT by +12.0\% and LiGO by +20.7\%, respectively.
翻訳日:2023-10-18 19:35:54 公開日:2023-10-16
# idrnet: 意味セグメンテーションのための介入駆動関係ネットワーク

IDRNet: Intervention-Driven Relation Network for Semantic Segmentation ( http://arxiv.org/abs/2310.10755v1 )

ライセンス: Link先を確認
Zhenchao Jin, Xiaowei Hu, Lingting Zhu, Luchuan Song, Li Yuan and Lequan Yu(参考訳) 共発的な視覚的パターンは、ピクセル関係モデリングが密集した予測タスクを促進することを示唆し、多数のコンテキストモデリングパラダイム、例えば \emph{emph{e}, multi-scale-driven and similarity-driven context schemeの開発を刺激している。 印象的な結果にもかかわらず、これらの既存のパラダイムは、大量の予め決められた事前に依存するため、不適切な、あるいは効果的な文脈情報集約に悩まされることが多い。 この問題を軽減するために,異なる画素間のコンテキスト関係のモデリングを導くために,削除診断手順を利用する新しい \textbf{I}ntervention-\textbf{D}riven \textbf{R}elation \textbf{Net}work (\textbf{IDRNet}) を提案する。 具体的には、擬似ラベルの指導により、まずピクセルレベル表現を意味レベル表現にグループ化し、さらに特徴拡張モジュールを用いてグループ化表現の識別性を向上させる。 次に、ネットワーク出力を知覚することにより、これらの意味レベル表現の関係をモデル化するために削除診断手順を行い、抽出された関係を利用して、相互に相互作用する意味レベル表現を導く。 最後に、対話表現を用いて、最終的な予測のために元のピクセルレベル表現を増強する。 IDRNetの有効性を定量的に定性的に検証するための実験を行った。 特に、介入駆動のコンテキストスキームは、最先端セグメンテーションフレームワークに一貫したパフォーマンス改善をもたらし、ADE20K、COCO-Stuff、PASCAL-Context、LIP、Cityscapesといった一般的なベンチマークデータセットで競合する結果を得る。 コードは \url{https://github.com/SegmentationBLWX/ssegmentation} で入手できる。

Co-occurrent visual patterns suggest that pixel relation modeling facilitates dense prediction tasks, which inspires the development of numerous context modeling paradigms, \emph{e.g.}, multi-scale-driven and similarity-driven context schemes. Despite the impressive results, these existing paradigms often suffer from inadequate or ineffective contextual information aggregation due to reliance on large amounts of predetermined priors. To alleviate the issues, we propose a novel \textbf{I}ntervention-\textbf{D}riven \textbf{R}elation \textbf{Net}work (\textbf{IDRNet}), which leverages a deletion diagnostics procedure to guide the modeling of contextual relations among different pixels. Specifically, we first group pixel-level representations into semantic-level representations with the guidance of pseudo labels and further improve the distinguishability of the grouped representations with a feature enhancement module. Next, a deletion diagnostics procedure is conducted to model relations of these semantic-level representations via perceiving the network outputs and the extracted relations are utilized to guide the semantic-level representations to interact with each other. Finally, the interacted representations are utilized to augment original pixel-level representations for final predictions. Extensive experiments are conducted to validate the effectiveness of IDRNet quantitatively and qualitatively. Notably, our intervention-driven context scheme brings consistent performance improvements to state-of-the-art segmentation frameworks and achieves competitive results on popular benchmark datasets, including ADE20K, COCO-Stuff, PASCAL-Context, LIP, and Cityscapes. Code is available at \url{https://github.com/SegmentationBLWX/sssegmentation}.
翻訳日:2023-10-18 19:28:40 公開日:2023-10-16
# 画像のない量子画像の保持

Quantum Image Thresholding without Images ( http://arxiv.org/abs/2310.10753v1 )

ライセンス: Link先を確認
Ayan Barui, Mayukha Pal and Prasanta K. Panigrahi(参考訳) 本研究では,画像のヒストグラムのみに依存する非シャープ測定(um)によるグレースケール画像のしきい値化と二元化のためのハイブリッド量子アプローチを提案する。 画像ヒストグラムは一般に複数の重なりの正規分布を特徴とし、それらは小さなが著しい重なりを持つ物体や画像の特徴を中心に構成されており、適切な閾値を確立するのが困難である。 提案手法は,通常の分布をディラックデルタ関数にマッピングすることで重要な画像特徴を分離し,マハラノビス距離を通常のユークリッド距離に変換するというオーバーコンプリートに基づく。 このプロセスは、より多くのしきい値を得るために反復的に繰り返され、高コントラスト画像を得るために適用され、ピーク信号対雑音比と構造類似度指標の値に匹敵する結果となる。 同様に qubits の空間で実装され、Qiskit で AerSimulator を用いて実験的に実証された。 得られた閾値は、しきい値エンコーダと効率的な量子コンパレータ(qc)とを統合した新しい拡張量子画像表現を用いてグレースケール画像の双対化に使用される。 出力結果は、バイナリ強度値を表す1つの測定状態と対応する位置画素とで、全双対像を描画する。 このアプローチは、従来のモデルと比較して提案されたQCの複雑さを著しく低減する。

We propose a hybrid quantum approach to threshold and binarize a grayscale image through unsharp measurements (UM), which depends only on the image's histogram, maintaining secrecy among parties. An image histogram is generally characterized by multiple overlapping normal distributions, which are centered around objects or image features with small but significant overlaps, making it difficult to establish suitable thresholds. The proposed method is based on an overcomplete basis that separates important image features by mapping normal distribution into the Dirac delta function, thereby converting Mahalanobis distance into regular Euclidean distance. This process is iteratively repeated to get more thresholds, which are applied to get high-contrast images, resulting in comparable peak signal-to-noise ratio and structural similarity index measure values. The same is implemented in the space of qubits and experimentally demonstrated in Qiskit using the AerSimulator. The obtained thresholds are used to binarize a grayscale image by using novel enhanced quantum image representation integrated with a threshold encoder and an efficient quantum comparator (QC). The output result depicts the whole binarized picture with just one measured state representing the binary intensity value with its corresponding position pixel. This approach significantly reduces the complexity of the proposed QC when compared to earlier models.
翻訳日:2023-10-18 19:28:07 公開日:2023-10-16
# 非線形オートエンコーダのための森-Zwanzig潜在空間クープマン閉包

Mori-Zwanzig latent space Koopman closure for nonlinear autoencoder ( http://arxiv.org/abs/2310.10745v1 )

ライセンス: Link先を確認
Priyam Gupta, Peter J. Schmid, Denis Sipp, Taraneh Sayadi, Georgios Rigas(参考訳) クープマン作用素は、非線形システムの大域的線形化を達成するための魅力的なアプローチを示し、複素力学の理解を単純化する価値のある方法である。 データ駆動手法は有限koopman演算子を近似する可能性を示したが、可観測性の選択、次元の縮小、複雑なシステムの振る舞いを正確に予測する能力といった様々な課題に挑んでいる。 本研究は、低次元空間におけるクープマン作用素を頑健に近似するモリ・ズワンツィヒオートエンコーダ(MZ-AE)と呼ばれる新しいアプローチを提案する。 提案手法は非線形オートエンコーダを用いて,有限不変なクープマン部分空間を近似するキーオブザーバブルを抽出し,モリ・ズワンジッヒ形式を用いた非マルコフ補正機構を統合する。 その結果、このアプローチは非線形オートエンコーダの潜在多様体内の力学の閉表現となり、クープマン作用素近似の精度と安定性が向上する。 デモでは、円柱まわりの流れにおけるレジーム遷移を捉える技術が紹介されている。 また、カオス的クラモト・シヴァシンスキーの低次元近似を提供し、短期予測可能性とロバストな長期統計性能を約束した。 データ駆動技術とクープマン理論の数学的基礎とのギャップを埋めることにより、MZ-AEは複雑な非線形力学の理解と予測を改善するための有望な道を提供する。

The Koopman operator presents an attractive approach to achieve global linearization of nonlinear systems, making it a valuable method for simplifying the understanding of complex dynamics. While data-driven methodologies have exhibited promise in approximating finite Koopman operators, they grapple with various challenges, such as the judicious selection of observables, dimensionality reduction, and the ability to predict complex system behaviours accurately. This study presents a novel approach termed Mori-Zwanzig autoencoder (MZ-AE) to robustly approximate the Koopman operator in low-dimensional spaces. The proposed method leverages a nonlinear autoencoder to extract key observables for approximating a finite invariant Koopman subspace and integrates a non-Markovian correction mechanism using the Mori-Zwanzig formalism. Consequently, this approach yields a closed representation of dynamics within the latent manifold of the nonlinear autoencoder, thereby enhancing the precision and stability of the Koopman operator approximation. Demonstrations showcase the technique's ability to capture regime transitions in the flow around a circular cylinder. It also provided a low dimensional approximation for chaotic Kuramoto-Sivashinsky with promising short-term predictability and robust long-term statistical performance. By bridging the gap between data-driven techniques and the mathematical foundations of Koopman theory, MZ-AE offers a promising avenue for improved understanding and prediction of complex nonlinear dynamics.
翻訳日:2023-10-18 19:27:45 公開日:2023-10-16
# 表データに対する高速adversarial label-flipping攻撃

Fast Adversarial Label-Flipping Attack on Tabular Data ( http://arxiv.org/abs/2310.10744v1 )

ライセンス: Link先を確認
Xinglong Chang, Gillian Dobbie, J\"org Wicker(参考訳) マシンラーニングモデルは、サイバーセキュリティのような高い信頼性を必要とする分野で、ますます使われています。 しかし、これらのモデルは様々な攻撃に対して脆弱であり、その内、敵対的なラベルフライング攻撃は重大な脅威となる。 ラベルフリッピング攻撃では、悪意のある相手がトレーニングラベルの一部をひっくり返して機械学習モデルに妥協する。 本稿では,これらの攻撃が解き易い分類問題として,高度に歪んだデータセットをカモフラージュし,機械学習の実践者を低い防御と潜在的なリスクの誤計算に導いてしまうことを懸念する。 この懸念は、真のラベルを特定するには専門知識が必要であり、悪意のあるラベルフリッピング攻撃が容易にレーダーの下に滑り込むことができる、表形式のデータ設定を増幅する。 このリスクが敵の目的に受け継がれることを示すため、敵ラベル作成のための新たな効果的な攻撃であるFALFA(Fast Adversarial Label-Flipping Attack)を提案する。 FALFAは敵の目的を変換し、計算複雑性を低減するために線形プログラミングを利用する。 10の実際のグラフデータセットを使用して、FALFAの優れた攻撃可能性を示し、このような脅威に対する堅牢な防御の必要性を強調します。

Machine learning models are increasingly used in fields that require high reliability such as cybersecurity. However, these models remain vulnerable to various attacks, among which the adversarial label-flipping attack poses significant threats. In label-flipping attacks, the adversary maliciously flips a portion of training labels to compromise the machine learning model. This paper raises significant concerns as these attacks can camouflage a highly skewed dataset as an easily solvable classification problem, often misleading machine learning practitioners into lower defenses and miscalculations of potential risks. This concern amplifies in tabular data settings, where identifying true labels requires expertise, allowing malicious label-flipping attacks to easily slip under the radar. To demonstrate this risk is inherited in the adversary's objective, we propose FALFA (Fast Adversarial Label-Flipping Attack), a novel efficient attack for crafting adversarial labels. FALFA is based on transforming the adversary's objective and employs linear programming to reduce computational complexity. Using ten real-world tabular datasets, we demonstrate FALFA's superior attack potential, highlighting the need for robust defenses against such threats.
翻訳日:2023-10-18 19:27:18 公開日:2023-10-16
# オフライン強化学習によるパーソナライズ型対話エージェントの構築

Building Persona Consistent Dialogue Agents with Offline Reinforcement Learning ( http://arxiv.org/abs/2310.10735v1 )

ライセンス: Link先を確認
Ryan Shea and Zhou Yu(参考訳) 一貫性のあるペルソナを維持することは、オープンドメイン対話システムにとって重要な品質である。 現在の最先端システムは、教師付き学習やオンライン強化学習(RL)による訓練エージェントによって実現されている。 しかし、教師付き学習で訓練されたシステムは、矛盾の発言に対して決して罰されないため、一貫性を欠くことが多い。 RLによる追加トレーニングはこれらの問題のいくつかを軽減することができるが、トレーニングプロセスは高価である。 代わりに,対話システムのペルソナ一貫性を改善するためのオフラインrlフレームワークを提案する。 我々のフレームワークは、教師付き学習のように既存のデータに基づいてモデルを安価にトレーニングし、RLのように特定の発話を罰・報奨しながら、従来の手法の利点を組み合わせることができる。 また,VaRMI(Variance-Reducing MLE-Initialized (VaRMI) importance sample)と呼ぶオフラインRLトレーニングにおいて,重みの分散を低減するための簡易な重要サンプリング手法を提案する。 自動評価と人的評価により,我々のフレームワークは,最先端のソーシャルチャットボットのペルソナ一貫性と対話品質の両方を改善していることが示された。

Maintaining a consistent persona is a key quality for any open domain dialogue system. Current state-of-the-art systems do this by training agents with supervised learning or online reinforcement learning (RL). However, systems trained with supervised learning often lack consistency as they are never punished for uttering contradictions. Additional training with RL can alleviate some of these issues, however the training process is expensive. Instead, we propose an offline RL framework to improve the persona consistency of dialogue systems. Our framework allows us to combine the advantages of previous methods as we can inexpensively train our model on existing data as in supervised learning, while punishing and rewarding specific utterances as in RL. We also introduce a simple importance sampling method to reduce the variance of importance weights in offline RL training which we call Variance-Reducing MLE-Initialized (VaRMI) importance sampling. Our automatic and human evaluations show that our framework improves both the persona consistency and dialogue quality of a state-of-the-art social chatbot.
翻訳日:2023-10-18 19:26:57 公開日:2023-10-16
# MOFDiff: 金属-有機フレームワーク設計のための粗粒拡散

MOFDiff: Coarse-grained Diffusion for Metal-Organic Framework Design ( http://arxiv.org/abs/2310.10732v1 )

ライセンス: Link先を確認
Xiang Fu, Tian Xie, Andrew S. Rosen, Tommi Jaakkola, Jake Smith(参考訳) 金属-有機系フレームワーク(mofs)は、その特異な気孔性と可変化学性のため、ガス貯蔵や炭素捕獲などの用途に非常に興味を持っている。 そのモジュラー性により、既知のネットワークトポロジーに従って分子構造ブロックを組み合わせることで、仮説MOFを生成するテンプレートベースの手法が利用可能になった。 しかし、これらの手法が最高性能のMOFを識別する能力は、しばしば化学空間の限られた多様性によって妨げられる。 そこで本研究では, 粗粒拡散モデルMOFDiffを提案し, 建物ブロックの座標と同一性に対するデノナイズ拡散過程を通じてCG MOF構造を生成する。 その後、全原子MOF構造は、新しい組立アルゴリズムによって決定される。 等変グラフニューラルネットワークは、置換およびロート遷移対称性を尊重する拡散モデルとして用いられる。 分子シミュレーションを用いた炭素捕獲用MOF材料の設計において, 有効かつ新規なMOF構造を生成するモデルの有効性を総合的に評価した。

Metal-organic frameworks (MOFs) are of immense interest in applications such as gas storage and carbon capture due to their exceptional porosity and tunable chemistry. Their modular nature has enabled the use of template-based methods to generate hypothetical MOFs by combining molecular building blocks in accordance with known network topologies. However, the ability of these methods to identify top-performing MOFs is often hindered by the limited diversity of the resulting chemical space. In this work, we propose MOFDiff: a coarse-grained (CG) diffusion model that generates CG MOF structures through a denoising diffusion process over the coordinates and identities of the building blocks. The all-atom MOF structure is then determined through a novel assembly algorithm. Equivariant graph neural networks are used for the diffusion model to respect the permutational and roto-translational symmetries. We comprehensively evaluate our model's capability to generate valid and novel MOF structures and its effectiveness in designing outstanding MOF materials for carbon capture applications with molecular simulations.
翻訳日:2023-10-18 19:26:40 公開日:2023-10-16
# ドープ原子状半導体ヘテロ構造における強電子-励起子結合による超伝導

Superconductivity induced by strong electron-exciton coupling in doped atomically thin semiconductor heterostructures ( http://arxiv.org/abs/2310.10726v1 )

ライセンス: Link先を確認
Jonas von Milczewski, Xin Chen, Atac Imamoglu, Richard Schmidt(参考訳) 励起子が電子間の効果的なアトラクションを媒介する原子間半導体において超伝導を誘導する機構について検討する。 我々のモデルは、フォノンを媒介とする超伝導のパラダイムを超えた相互作用効果を含み、ボースとフェルミのポーラロンの確立した限界に接続する。 トリオンの強い結合の物理を考慮すれば、実効的な電子-励起子相互作用は強い周波数と運動量依存性を発達させ、bcs-becの相互作用を弱結合のs$-wave cooper対から超流動のバイポーラロンへと導く。 強いカップリングでも双極子は比較的軽いままであり、フェルミ温度の最大10\%の臨界温度となる。 これにより、2次元材料のヘテロ構造が電子ドーピングとトライアン結合エネルギーによって設定された高温で超伝導を実現するための候補となる。

We study a mechanism to induce superconductivity in atomically thin semiconductors where excitons mediate an effective attraction between electrons. Our model includes interaction effects beyond the paradigm of phonon-mediated superconductivity and connects to the well-established limits of Bose and Fermi polarons. By accounting for the strong-coupling physics of trions, we find that the effective electron-exciton interaction develops a strong frequency and momentum dependence accompanied by the system undergoing an emerging BCS-BEC crossover from weakly bound $s$-wave Cooper pairs to a superfluid of bipolarons. Even at strong-coupling the bipolarons remain relatively light, resulting in critical temperatures of up to 10\% of the Fermi temperature. This renders heterostructures of two-dimensional materials a promising candidate to realize superconductivity at high critical temperatures set by electron doping and trion binding energies.
翻訳日:2023-10-18 19:26:22 公開日:2023-10-16
# 2Dを超えるテンソルネットワークデコード

Tensor Network Decoding Beyond 2D ( http://arxiv.org/abs/2310.10722v1 )

ライセンス: Link先を確認
Christophe Piveteau, Christopher T. Chubb, and Joseph M. Renes(参考訳) 近似テンソルネットワークの縮約に基づく復号アルゴリズムは、表面/曲線符号やカラー符号のような2次元局所量子符号の復号化に成功し、効果的に最適な復号精度を実現している。 そこで本研究では, 3次元符号に適用できるようにテンソルネットワーク復号を高次元に一般化する手法と, 雑音を呈する2次元符号(現象ノイズや回路レベルノイズ)について紹介する。 3次元の場合、関連するテンソルの収縮は2次元の場合よりも劇的に減少するため、2次元の場合よりもかなり困難である。 いずれにせよ,本手法の復号精度は, 3次元曲面符号の復号器よりも, 点数およびループ数ともに優れ, ノイズの除極にも優れることを示す。 本手法は,デコーディングをオフラインで行なえ,精度が最も重要である場合,量子誤差補正の短期実験において有用である。 この目的のために、テンソルネットワークデコーディングが回路レベルのノイズにどのように適用できるかを示し、回転した曲面符号上での整合デコーダよりも優れた性能を示す。 私たちのコードはhttps://github.com/ChriPiv/tndecoder3dで利用可能です。

Decoding algorithms based on approximate tensor network contraction have proven tremendously successful in decoding 2D local quantum codes such as surface/toric codes and color codes, effectively achieving optimal decoding accuracy. In this work, we introduce several techniques to generalize tensor network decoding to higher dimensions so that it can be applied to 3D codes as well as 2D codes with noisy syndrome measurements (phenomenological noise or circuit-level noise). The three-dimensional case is significantly more challenging than 2D, as the involved approximate tensor contraction is dramatically less well-behaved than its 2D counterpart. Nonetheless, we numerically demonstrate that the decoding accuracy of our approach outperforms state-of-the-art decoders on the 3D surface code, both in the point and loop sectors, as well as for depolarizing noise. Our techniques could prove useful in near-term experimental demonstrations of quantum error correction, when decoding is to be performed offline and accuracy is of utmost importance. To this end, we show how tensor network decoding can be applied to circuit-level noise and demonstrate that it outperforms the matching decoder on the rotated surface code. Our code is available at https://github.com/ChriPiv/tndecoder3d
翻訳日:2023-10-18 19:26:02 公開日:2023-10-16
# 遷移金属ジカルコゲナイドヘテロ構造を有する可変ボース-フェルミ混合系のトポロジカル超伝導の実現

Realizing Topological Superconductivity in Tunable Bose-Fermi Mixtures with Transition Metal Dichalcogenide Heterostructures ( http://arxiv.org/abs/2310.10720v1 )

ライセンス: Link先を確認
Caterina Zerba, Clemens Kuhlenkamp, Ata\c{c} Imamo\u{g}lu, Michael Knap(参考訳) 2次元遷移金属ジアルコゲナイド(TMD)のヘテロ構造は、物質のエキゾチックな相関状態を研究するための有望な基盤として現れている。 本稿では,三層構造中のドープ電荷に層間励起子を結合させることにより,ボース-フェルミ混合物を作製する。 これらの相互作用は層間トリオンによって決定され、そのスピン選択性により励起子は1つのスピン種のみの電荷キャリア間の魅力的な相互作用を媒介することができる。 注目すべきは、このことが、低温でトポロジカルp+ip超伝導が不安定になることである。 次に, 固体feshbach共鳴を用いたトリオン結合エネルギーの調整により, この非典型的な状態の発達と制御を行う一般的な機構を示す。

Heterostructures of two-dimensional transition metal dichalcogenides (TMDs) are emerging as a promising platform for investigating exotic correlated states of matter. Here, we propose to engineer Bose-Fermi mixtures in these systems by coupling inter-layer excitons to doped charges in a trilayer structure. Their interactions are determined by the inter-layer trion, whose spin-selective nature allows excitons to mediate an attractive interaction between charge carriers of only one spin species. Remarkably, we find that this causes the system to become unstable to topological p+ip superconductivity at low temperatures. We then demonstrate a general mechanism to develop and control this unconventional state by tuning the trion binding energy using a solid-state Feshbach resonance.
翻訳日:2023-10-18 19:25:41 公開日:2023-10-16
# 物質パワースペクトルにおける動的暗黒エネルギー探索のための表現学習手法

A representation learning approach to probe for dynamical dark energy in matter power spectra ( http://arxiv.org/abs/2310.10717v1 )

ライセンス: Link先を確認
Davide Piras, Lucas Lombriser(参考訳) 本稿では、宇宙大規模構造の観測研究において、動的ダークエネルギー(DE)モデルの圧縮表現を探索する可変オートエンコーダ(VAE)アーキテクチャについて述べる。 DE-VAEは、波数$k\in(0.01-2.5) \ h/\rm{Mpc}$と4つの赤方偏移値$z\in(0.1,0.48,0.78,1.5)$で生成される物質パワースペクトルブーストに基づいて訓練される。 ブーストは低次元の表現に圧縮され、標準のコールドダークマター(CDM)パラメータと連結され、再構成されたブーストにマッピングされる。 驚くべきことに、1つの潜在性パラメータは、ステージivのような調査のために宇宙のばらつき、ショットノイズ、系統的な効果を含むガウス誤差の1,\sigma$(2,sigma$)の範囲内で、幅広い宇宙論的パラメータ上で生成されるデパワースペクトルの95%(99%)を予測するのに十分である。 この1つのパラメータは2つのDEパラメータと高い相互情報を示し、これらの3つの変数はシンボル回帰を通じて明示的な方程式とリンクすることができる。 2つの潜在変数を持つモデルを考えると、予測の精度がわずかに向上するだけであり、第3の潜在変数を追加することはモデルの性能に大きな影響を与えない。 本稿では,DE-VAE アーキテクチャを概念実証から一般のフレームワークに拡張して,より広い範囲のモデルと異なる宇宙論的データセットの共通低次元パラメトリゼーションを探索する方法について論じる。 そのようなフレームワークは、最適プローブを標的にすることで宇宙探査の発展を知らせると同時に、$\Lambda$CDMモデル以上の一般的な現象学的側面に関する理論的洞察を与えることができる。

We present DE-VAE, a variational autoencoder (VAE) architecture to search for a compressed representation of dynamical dark energy (DE) models in observational studies of the cosmic large-scale structure. DE-VAE is trained on matter power spectra boosts generated at wavenumbers $k\in(0.01-2.5) \ h/\rm{Mpc}$ and at four redshift values $z\in(0.1,0.48,0.78,1.5)$ for the most typical dynamical DE parametrization with two extra parameters describing an evolving DE equation of state. The boosts are compressed to a lower-dimensional representation, which is concatenated with standard cold dark matter (CDM) parameters and then mapped back to reconstructed boosts; both the compression and the reconstruction components are parametrized as neural networks. Remarkably, we find that a single latent parameter is sufficient to predict 95% (99%) of DE power spectra generated over a broad range of cosmological parameters within $1\sigma$ ($2\sigma$) of a Gaussian error which includes cosmic variance, shot noise and systematic effects for a Stage IV-like survey. This single parameter shows a high mutual information with the two DE parameters, and these three variables can be linked together with an explicit equation through symbolic regression. Considering a model with two latent variables only marginally improves the accuracy of the predictions, and adding a third latent variable has no significant impact on the model's performance. We discuss how the DE-VAE architecture can be extended from a proof of concept to a general framework to be employed in the search for a common lower-dimensional parametrization of a wide range of beyond-$\Lambda$CDM models and for different cosmological datasets. Such a framework could then both inform the development of cosmological surveys by targeting optimal probes, and provide theoretical insight into the common phenomenological aspects of beyond-$\Lambda$CDM models.
翻訳日:2023-10-18 19:25:28 公開日:2023-10-16
# 安全であるべき: 分子設計のための新しい枠組み

Gotta be SAFE: A New Framework for Molecular Design ( http://arxiv.org/abs/2310.10773v1 )

ライセンス: Link先を確認
Emmanuel Noutahi, Cristian Gabellini, Michael Craig, Jonathan S.C Lim, Prudencio Tossou(参考訳) SMILESのような伝統的な分子文字列表現は、しばしばAI駆動の分子設計に挑戦する。 この問題に対処するため,我々は化学構造のための新しい線記法であるシーケンシャルアタッチメントに基づくフラグメント埋め込み(safe)を導入する。 SAFEはSMILES文字列を、既存のSMILESパーサとの完全な互換性を維持しながら、相互接続された断片ブロックの順序のないシーケンスとして再定義する。 足場装飾、フラグメントリンク、ポリマー生成、足場ホッピングなどの複雑な生成タスクを合理化し、フラグメント制約設計の自己回帰生成を容易にし、複雑なデコードやグラフベースモデルの必要性をなくす。 我々は,110億のSAFE表現を含むデータセット上で,8700万パラメータのGPT2ライクなモデルをトレーニングすることにより,SAFEの有効性を示す。 実験により,SAFE-GPTモデルは多目的かつ堅牢な最適化性能を示すことを示した。 SAFEは、様々な制約の下で化学空間を迅速に探索するための新しい道を開き、AI駆動の分子設計のブレークスルーを約束する。

Traditional molecular string representations, such as SMILES, often pose challenges for AI-driven molecular design due to their non-sequential depiction of molecular substructures. To address this issue, we introduce Sequential Attachment-based Fragment Embedding (SAFE), a novel line notation for chemical structures. SAFE reimagines SMILES strings as an unordered sequence of interconnected fragment blocks while maintaining full compatibility with existing SMILES parsers. It streamlines complex generative tasks, including scaffold decoration, fragment linking, polymer generation, and scaffold hopping, while facilitating autoregressive generation for fragment-constrained design, thereby eliminating the need for intricate decoding or graph-based models. We demonstrate the effectiveness of SAFE by training an 87-million-parameter GPT2-like model on a dataset containing 1.1 billion SAFE representations. Through extensive experimentation, we show that our SAFE-GPT model exhibits versatile and robust optimization performance. SAFE opens up new avenues for the rapid exploration of chemical space under various constraints, promising breakthroughs in AI-driven molecular design.
翻訳日:2023-10-18 19:19:49 公開日:2023-10-16
# セマンティック圧縮による非教師なし鉛板生成

Unsupervised Lead Sheet Generation via Semantic Compression ( http://arxiv.org/abs/2310.10772v1 )

ライセンス: Link先を確認
Zachary Novack, Nikita Srivatsan, Taylor Berg-Kirkpatrick, Julian McAuley(参考訳) リードシートは生成的音楽研究において一般的となり、マルチトラック音楽の生成や自動アレンジなどの下流タスクの初期圧縮表現として使われている。 それにもかかわらず、研究者は、ペアのリードシートとフルスコアを求めるときにリードシートを生成する決定論的縮小法(スカイラインアルゴリズムなど)をしばしば廃止し、リードシート自体の品質と、それらをいかに正確に反映するかにはほとんど注意が払われていない。 これらの問題に対処するために、条件付きリードシート生成の問題(すなわち、フルスコアバージョンが与えられたリードシートを生成する)を提案し、このタスクを教師なしの音楽圧縮タスクとして定式化できることを示し、リードシートがスコアの圧縮潜在バージョンを表す。 そこで本研究では,リードシートを元の配列の離散的な部分選択としてモデル化し,局所的スパーシティ制約を制御可能なtop-k演算子を用いた新しいモデルであるleading-aeを提案する。 自動プロキシタスクと直接人間評価の両方において,本手法は確立された決定論的ベースラインを改善し,大規模マルチトラックスコアのコヒーレントな削減を実現する。

Lead sheets have become commonplace in generative music research, being used as an initial compressed representation for downstream tasks like multitrack music generation and automatic arrangement. Despite this, researchers have often fallen back on deterministic reduction methods (such as the skyline algorithm) to generate lead sheets when seeking paired lead sheets and full scores, with little attention being paid toward the quality of the lead sheets themselves and how they accurately reflect their orchestrated counterparts. To address these issues, we propose the problem of conditional lead sheet generation (i.e. generating a lead sheet given its full score version), and show that this task can be formulated as an unsupervised music compression task, where the lead sheet represents a compressed latent version of the score. We introduce a novel model, called Lead-AE, that models the lead sheets as a discrete subselection of the original sequence, using a differentiable top-k operator to allow for controllable local sparsity constraints. Across both automatic proxy tasks and direct human evaluations, we find that our method improves upon the established deterministic baseline and produces coherent reductions of large multitrack scores.
翻訳日:2023-10-18 19:19:30 公開日:2023-10-16
# 量子計測装置の信頼性とアクセシビリティについて

On the reliability and accessibility of quantum measurement apparatuses ( http://arxiv.org/abs/2310.10770v1 )

ライセンス: Link先を確認
Nicola Pranzini, Paola Verrucchi(参考訳) 本稿では,その信頼性とアクセシビリティに基づく測定装置の分類を提案する。 信頼性の概念は,機器を所定の時間帯に使用する際の予期せぬ誤った結果が得られる可能性をパラメータ化し,アクセシビリティーの概念は機器を測定システムと相互作用させるために必要なエネルギーコストを記述する。 この分類は、装置の信頼性とアクセシビリティを、そのポインタ状態の重複の時間依存性に関連付けて得られる。 例えば、全ての量子ビットが測定装置として機能する1対1の量子ビット相互作用について研究する。 このモデルは、ランダムに選択されたカップリングを使用することで、アクセス可能だが予測不能な測定装置が得られることを示す。 逆に、均一結合装置は高い信頼性を示すが、エネルギー的によりコストがかかる。

We propose a classification of measurement apparatuses based on their reliability and accessibility. Our notion of reliability parameterises the possibility of getting unexpected wrong results when using the apparatus in a given time window, and the one of accessibility describes the energy cost required to make the apparatus interact with a measured system. The classification is obtained by relating an apparatus's reliability and accessibility to the time dependence of the overlap of its pointer states. As an example, we study a one-to-all qubit interaction in which all the qubits act as a measurement apparatus for the one. This model shows that using randomly selected couplings results in accessible but unpredictable measurement apparatuses. Conversely, apparatuses with uniform coupling exhibit higher reliability but are energetically more costly.
翻訳日:2023-10-18 19:19:07 公開日:2023-10-16
# LAMP:Few-Shotベースの動画生成のためのモーションパターンを学ぶ

LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation ( http://arxiv.org/abs/2310.10769v1 )

ライセンス: Link先を確認
Ruiqi Wu, Liangyu Chen, Tong Yang, Chunle Guo, Chongyi Li, Xiangyu Zhang(参考訳) 拡散に基づくテキスト対画像生成の素晴らしい進歩により、テキスト対ビデオの強力な生成能力の拡張が注目を集めている。 既存の方法は、大規模なテキストビデオペアと多数のトレーニングリソースを必要とするか、テンプレートビデオと正確に一致したモーションを学習する。 生成の自由度とビデオ生成のリソースコストのトレードオフをバランスさせることは簡単ではない。 本研究では,1つのGPU上で8~16本の動画でテキスト・画像拡散モデルの学習を可能にする,数ショットベースのチューニングフレームワークであるLAMPを提案する。 具体的には,コンテンツ生成のためのオフザシェルフテキスト・ツー・イメージモデルを用いたファーストフレーム・コンディショニングパイプラインを設計し,主にモーション学習に焦点を当てたビデオ拡散モデルを提案する。 高度に開発されたテキストから画像への技術は、視覚的に快適で多様なコンテンツを生成条件として提供し、ビデオの品質と生成の自由を高度に向上させる。 時間次元の特徴を捉えるために,t2iモデルの事前学習された2次元畳み込み層を,新たな時間空間運動学習層に拡張し,注意ブロックを時間レベルに修正する。 さらに,効率的な推論手法である共有ノイズサンプリングを開発し,計算コストで動画の安定性を向上させる。 また,本手法は他のタスク,例えば実世界の画像アニメーションやビデオ編集にも柔軟に適用できる。 広範な実験により、lampは限られたデータで運動パターンを効果的に学習し、高品質のビデオを生成することができる。 コードとモデルはhttps://rq-wu.github.io/projects/LAMPで公開されている。

With the impressive progress in diffusion-based text-to-image generation, extending such powerful generative ability to text-to-video raises enormous attention. Existing methods either require large-scale text-video pairs and a large number of training resources or learn motions that are precisely aligned with template videos. It is non-trivial to balance a trade-off between the degree of generation freedom and the resource costs for video generation. In our study, we present a few-shot-based tuning framework, LAMP, which enables text-to-image diffusion model Learn A specific Motion Pattern with 8~16 videos on a single GPU. Specifically, we design a first-frame-conditioned pipeline that uses an off-the-shelf text-to-image model for content generation so that our tuned video diffusion model mainly focuses on motion learning. The well-developed text-to-image techniques can provide visually pleasing and diverse content as generation conditions, which highly improves video quality and generation freedom. To capture the features of temporal dimension, we expand the pretrained 2D convolution layers of the T2I model to our novel temporal-spatial motion learning layers and modify the attention blocks to the temporal level. Additionally, we develop an effective inference trick, shared-noise sampling, which can improve the stability of videos with computational costs. Our method can also be flexibly applied to other tasks, e.g. real-world image animation and video editing. Extensive experiments demonstrate that LAMP can effectively learn the motion pattern on limited data and generate high-quality videos. The code and models are available at https://rq-wu.github.io/projects/LAMP.
翻訳日:2023-10-18 19:18:53 公開日:2023-10-16
# ガウス過程としての広義ニューラルネットワーク:深部平衡モデルからの教訓

Wide Neural Networks as Gaussian Processes: Lessons from Deep Equilibrium Models ( http://arxiv.org/abs/2310.10767v1 )

ライセンス: Link先を確認
Tianxiang Gao, Xiaokai Huo, Hailiang Liu, Hongyang Gao(参考訳) 広い層を持つニューラルネットワークはガウス過程と等価性から大きな注目を集めており、良性オーバーフィッティングとして知られる一般化性能を維持しながら、トレーニングデータの完全なフィッティングを可能にしている。 しかし、既存の結果は、主に浅層または有限層ネットワークに焦点をあて、ニューラル常微分方程式(ODE)やディープ平衡モデル(DEQ)のような無限層を持つ広層ニューラルネットワークの包括的解析を必要とする。 本稿では,層間における共有重み行列を持つ無限深度ニューラルネットワークであるDeep equilibrium Model (DEQ)について検討する。 解析により,deq層の幅が無限に近づくにつれて,ガウス過程に収束し,nngp(neural network and gaussian process)の対応が確立されることが明らかとなった。 この収束は、無限深層パーセプトロン(MLP)ネットワークでは観測されない深さと幅の限界が交換されたとしても維持される。 さらに、関連するガウスベクトルが任意のペアの異なる入力データに対して非退化のままであり、NNGPカーネルを用いて対応するカーネル行列の正の最小固有値を保証する。 これらの知見は、deqの訓練と一般化を研究する基本的な要素となり、この分野における今後の研究の基礎となる。

Neural networks with wide layers have attracted significant attention due to their equivalence to Gaussian processes, enabling perfect fitting of training data while maintaining generalization performance, known as benign overfitting. However, existing results mainly focus on shallow or finite-depth networks, necessitating a comprehensive analysis of wide neural networks with infinite-depth layers, such as neural ordinary differential equations (ODEs) and deep equilibrium models (DEQs). In this paper, we specifically investigate the deep equilibrium model (DEQ), an infinite-depth neural network with shared weight matrices across layers. Our analysis reveals that as the width of DEQ layers approaches infinity, it converges to a Gaussian process, establishing what is known as the Neural Network and Gaussian Process (NNGP) correspondence. Remarkably, this convergence holds even when the limits of depth and width are interchanged, which is not observed in typical infinite-depth Multilayer Perceptron (MLP) networks. Furthermore, we demonstrate that the associated Gaussian vector remains non-degenerate for any pairwise distinct input data, ensuring a strictly positive smallest eigenvalue of the corresponding kernel matrix using the NNGP kernel. These findings serve as fundamental elements for studying the training and generalization of DEQs, laying the groundwork for future research in this area.
翻訳日:2023-10-18 19:18:24 公開日:2023-10-16
# BiomedJourney:マルチモーダル患者からの指導学習によるバイオメディカル画像生成

BiomedJourney: Counterfactual Biomedical Image Generation by Instruction-Learning from Multimodal Patient Journeys ( http://arxiv.org/abs/2310.10765v1 )

ライセンス: Link先を確認
Yu Gu, Jianwei Yang, Naoto Usuyama, Chunyuan Li, Sheng Zhang, Matthew P. Lungren, Jianfeng Gao, Hoifung Poon(参考訳) InstructPix2Pixの例のように、自然言語による画像編集のためのインストラクション学習が急速に進歩している。 バイオメディシンでは, 因果構造と突発的相関とを区別し, 疾患進行モデルのための堅牢な画像解釈を容易にする, 反ファクト画像生成に適用することができる。 しかし、汎用的な画像編集モデルは生体医学領域に不適合であり、反事実的生体医学的画像生成は概ね過小評価されている。 本稿では,マルチモーダル患者からの指導学習によるバイオメディカル画像生成のための新しい手法であるBiomedJourneyを提案する。 異なる地点で2つの生体医用画像が撮影された場合,gpt-4を用いて対応する画像報告を処理し,疾患進展の自然言語記述を生成する。 得られたトリプル(優先画像、進行記述、新しい画像)は、反事実的生物医学的画像生成のための潜在拡散モデルを訓練するために使用される。 画像時系列データの相対的不足を考慮し,より豊富な単一画像レポートペア(ダミー先行画像を含む)を用いてデノナイジングネットワークを事前訓練し,次いで,デノナイジングネットワークを用いたトレーニングを継続する2段階カリキュラムを導入する。 標準MIMIC-CXRデータセットを用いた実験により,提案手法の可能性を実証した。 InstructPix2PixやRoentGenのような命令画像編集や医用画像生成において、BiomedJourneyは従来の最先端の手法を大幅に上回っている。 偽医療生成における今後の研究を促進するため,我々は,教育学習コードと事前学習モデルをリリースする予定である。

Rapid progress has been made in instruction-learning for image editing with natural-language instruction, as exemplified by InstructPix2Pix. In biomedicine, such methods can be applied to counterfactual image generation, which helps differentiate causal structure from spurious correlation and facilitate robust image interpretation for disease progression modeling. However, generic image-editing models are ill-suited for the biomedical domain, and counterfactual biomedical image generation is largely underexplored. In this paper, we present BiomedJourney, a novel method for counterfactual biomedical image generation by instruction-learning from multimodal patient journeys. Given a patient with two biomedical images taken at different time points, we use GPT-4 to process the corresponding imaging reports and generate a natural language description of disease progression. The resulting triples (prior image, progression description, new image) are then used to train a latent diffusion model for counterfactual biomedical image generation. Given the relative scarcity of image time series data, we introduce a two-stage curriculum that first pretrains the denoising network using the much more abundant single image-report pairs (with dummy prior image), and then continues training using the counterfactual triples. Experiments using the standard MIMIC-CXR dataset demonstrate the promise of our method. In a comprehensive battery of tests on counterfactual medical image generation, BiomedJourney substantially outperforms prior state-of-the-art methods in instruction image editing and medical image generation such as InstructPix2Pix and RoentGen. To facilitate future study in counterfactual medical generation, we plan to release our instruction-learning code and pretrained models.
翻訳日:2023-10-18 19:18:00 公開日:2023-10-16
# ヒト大脳皮質における超弾性物質モデル探索--人工ニューラルネットワークによる多変量解析

Exploring hyperelastic material model discovery for human brain cortex: multivariate analysis vs. artificial neural network approaches ( http://arxiv.org/abs/2310.10762v1 )

ライセンス: Link先を確認
Jixin Hou, Nicholas Filla, Xianyan Chen, Mir Jalil Razavi, Tianming Liu, and Xianqiao Wang(参考訳) 有限要素分析のような従来の計算手法は、脳の物理的行動の基本的なメカニズムを明らかにするための貴重な洞察を与えてきた。 しかし、脳物理学の正確な予測は、脳組織の複雑な機械的特性を表現する効果的な構成モデルを必要とする。 本研究では,ヒト脳組織において最も好ましい構成物質モデルを同定することを目的とした。 これを実現するために,広く受け入れられている古典モデルの一般化にニューラルネットワークと複数の回帰法を適用し,これら2つのアプローチから得られた結果を比較した。 モデルの適用性と有効性を評価するため、潜在的なオーバーフィッティングを防ぐためのアプローチを除いて、両方の手法で全ての設定が整合性を維持した。 その結果、ニューラルネットワークは、与えられた許容推定値から正確な構成モデルを自動的に識別できることがわかった。 それにもかかわらず、シングルモードとマルチモードのロードシナリオでトレーニングされた5項と2項のニューラルネットワークモデルは、サブ最適であり、さらに2項と1項に単純化され、複数の回帰を用いた精度が向上した。 本研究は, ニューラルネットワークにおけるハイパーパラメータの重要性を強調し, 物質構成モデルの開発において, 地球レベルでの最適選択を確保するために, 正規化パラメータの詳細な相互検証の必要性を強調した。 本研究では,従来の多変量回帰の精度を損なうことなく,適切な正規化を伴う構成材料モデルを自動的に発見するニューラルネットワークの適用可能性と精度を検証する。

Traditional computational methods, such as the finite element analysis, have provided valuable insights into uncovering the underlying mechanisms of brain physical behaviors. However, precise predictions of brain physics require effective constitutive models to represent the intricate mechanical properties of brain tissue. In this study, we aimed to identify the most favorable constitutive material model for human brain tissue. To achieve this, we applied artificial neural network and multiple regression methods to a generalization of widely accepted classic models, and compared the results obtained from these two approaches. To evaluate the applicability and efficacy of the model, all setups were kept consistent across both methods, except for the approach to prevent potential overfitting. Our results demonstrate that artificial neural networks are capable of automatically identifying accurate constitutive models from given admissible estimators. Nonetheless, the five-term and two-term neural network models trained under single-mode and multi-mode loading scenarios, were found to be suboptimal and could be further simplified into two-term and single-term, respectively, with higher accuracy using multiple regression. Our findings highlight the importance of hyperparameters for the artificial neural network and emphasize the necessity for detailed cross-validations of regularization parameters to ensure optimal selection at a global level in the development of material constitutive models. This study validates the applicability and accuracy of artificial neural network to automatically discover constitutive material models with proper regularization as well as the benefits in model simplification without compromising accuracy for traditional multivariable regression.
翻訳日:2023-10-18 19:17:29 公開日:2023-10-16
# 大規模言語モデルを用いた財務報告情報抽出における幻覚の低減に向けて

Towards reducing hallucination in extracting information from financial reports using Large Language Models ( http://arxiv.org/abs/2310.10760v1 )

ライセンス: Link先を確認
Bhaskarjit Sarmah, Tianjie Zhu, Dhagash Mehta, Stefano Pasquali(参考訳) 金融アナリストにとって、会社の財務報告書のq&aセグメントは、さまざまな分析と投資の決定において重要な情報である。 しかしながら、q\&aセクションから貴重な洞察を抽出することは、詳細な読み出しやメモ取りといった従来の方法がスケーラビリティを欠き、ヒューマンエラーに影響を受けやすく、またocr(optical character recognition)や同様の技術が、非構造化テキストの正確な処理に困難を伴い、しばしば投資家の決定を後押しする微妙な言語ニュアンスを欠いているため、相当な課題を提起している。 本稿では,大規模言語モデル(LLMs)を用いて収益報告書からの情報を効率的にかつ迅速に抽出し,抽出プロセスの高精度な変換と,検索強化生成技術とメタデータを組み合わせることで幻覚の低減を図った。 提案手法を,Q\&Aシステム評価のための様々な客観的指標に基づいて評価し,提案手法の優位性を実証的に実証した。

For a financial analyst, the question and answer (Q\&A) segment of the company financial report is a crucial piece of information for various analysis and investment decisions. However, extracting valuable insights from the Q\&A section has posed considerable challenges as the conventional methods such as detailed reading and note-taking lack scalability and are susceptible to human errors, and Optical Character Recognition (OCR) and similar techniques encounter difficulties in accurately processing unstructured transcript text, often missing subtle linguistic nuances that drive investor decisions. Here, we demonstrate the utilization of Large Language Models (LLMs) to efficiently and rapidly extract information from earnings report transcripts while ensuring high accuracy transforming the extraction process as well as reducing hallucination by combining retrieval-augmented generation technique as well as metadata. We evaluate the outcomes of various LLMs with and without using our proposed approach based on various objective metrics for evaluating Q\&A systems, and empirically demonstrate superiority of our method.
翻訳日:2023-10-18 19:17:07 公開日:2023-10-16
# アフィン同変推定に対する統計的障壁

Statistical Barriers to Affine-equivariant Estimation ( http://arxiv.org/abs/2310.10758v1 )

ライセンス: Link先を確認
Zihao Chen, Yeshwanth Cherapanamjeri(参考訳) 我々は,ロバスト平均推定のためのアフィン同変推定器の定量的性能について検討した。 自然安定要件として、そのようなアフィン同変推定器の構築は統計学で広く研究されている。 我々は,最近の研究課題である重み付き汚職と敵対的汚職の2つのモデルを用いて,これらの推定値を定量的に評価した。 affine-equivariance が回復誤差の厳格な低下を招き、両者の設定で$\sqrt{d}$ の因子で定量的に劣化することを示す下限を定式化する。 タキー中央値 (Tukey '75) やスタヘル・ドノホ推定器 (Stahel '81) やドノホ推定器 (Donoho '82) のような古典的推定器は、アフィン同変推定器のクラスにおいても定量的に最適であるか、あるいは量的保証が欠如していることが分かる。 一方で、強い量的保証を持つ最近の推定値はアフィン同値ではなく、それを達成するために追加の分布的仮定を必要とする。 我々は、下界にほぼ一致する新しいアフィン同変推定器を構築することでこれを改善した。 我々の推定子は、独立性のある高次元の中央値の概念に基づいている。 特に,この結果は,アフィン同値な推定者に対して等方性分布のユークリッドノルムの評価に対応するマハラノビスノルムで評価される任意の推定子に対してより広く適用できる。

We investigate the quantitative performance of affine-equivariant estimators for robust mean estimation. As a natural stability requirement, the construction of such affine-equivariant estimators has been extensively studied in the statistics literature. We quantitatively evaluate these estimators under two outlier models which have been the subject of much recent work: the heavy-tailed and adversarial corruption settings. We establish lower bounds which show that affine-equivariance induces a strict degradation in recovery error with quantitative rates degrading by a factor of $\sqrt{d}$ in both settings. We find that classical estimators such as the Tukey median (Tukey '75) and Stahel-Donoho estimator (Stahel '81 and Donoho '82) are either quantitatively sub-optimal even within the class of affine-equivariant estimators or lack any quantitative guarantees. On the other hand, recent estimators with strong quantitative guarantees are not affine-equivariant or require additional distributional assumptions to achieve it. We remedy this by constructing a new affine-equivariant estimator which nearly matches our lower bound. Our estimator is based on a novel notion of a high-dimensional median which may be of independent interest. Notably, our results are applicable more broadly to any estimator whose performance is evaluated in the Mahalanobis norm which, for affine-equivariant estimators, corresponds to an evaluation in Euclidean norm on isotropic distributions.
翻訳日:2023-10-18 19:16:46 公開日:2023-10-16
# 3次元心臓画像分割のための深部条件形状モデル

Deep Conditional Shape Models for 3D cardiac image segmentation ( http://arxiv.org/abs/2310.10756v1 )

ライセンス: Link先を確認
Athira J Jacob, Puneet Sharma and Daniel Ruckert(参考訳) 解剖学的構造の説明は、多くの医療画像解析ワークフローの第一段階であることが多い。 畳み込みニューラルネットワークは高い性能を達成するが、解剖学的形状情報は含まない。 本稿では,Deep Conditional Shape Model (DCSM) をコアコンポーネントとする新しいセグメンテーションアルゴリズムを提案する。 深い暗黙の形状表現を用いて、アルゴリズムは、任意の解剖学のために符号付き距離関数を生成することができるモダリティ非依存の形状モデルを学ぶ。 生成した形状を画像に適合させるために、ユーザが自動的に検出または提供できる解剖学的ランドマークに基づいて形状モデルを条件付ける。 最後に、モダリティ依存で軽量なリファインメントネットワークを追加して、暗黙の関数で表現されていない詳細をキャプチャします。 心臓左室(LV)の複数の3次元モダリティ(造影CT,非造影CT,3次元心エコー法-3DE)のセグメンテーションの問題点について検討した。 その結果,dcsmは局所的な精細化を伴わずに非造影ctのベースラインを上回り,造影ctと3deを改良し,特にハウスドルフ距離を著しく改善した。 ユーザ入力のランドマークを持つ半自動DCSMは、コントラストCTでしか訓練されていないが、すべてのモダリティに対して92%以上のDiceを実現している。 改良されたDCSMとセミオートマチックDCSMの両方の自動DCSMは、これらのモダリティに対するユーザ間のばらつきと比べて同等またはより良い性能を達成する。

Delineation of anatomical structures is often the first step of many medical image analysis workflows. While convolutional neural networks achieve high performance, these do not incorporate anatomical shape information. We introduce a novel segmentation algorithm that uses Deep Conditional Shape models (DCSMs) as a core component. Using deep implicit shape representations, the algorithm learns a modality-agnostic shape model that can generate the signed distance functions for any anatomy of interest. To fit the generated shape to the image, the shape model is conditioned on anatomic landmarks that can be automatically detected or provided by the user. Finally, we add a modality-dependent, lightweight refinement network to capture any fine details not represented by the implicit function. The proposed DCSM framework is evaluated on the problem of cardiac left ventricle (LV) segmentation from multiple 3D modalities (contrast-enhanced CT, non-contrasted CT, 3D echocardiography-3DE). We demonstrate that the automatic DCSM outperforms the baseline for non-contrasted CT without the local refinement, and with the refinement for contrasted CT and 3DE, especially with significant improvement in the Hausdorff distance. The semi-automatic DCSM with user-input landmarks, while only trained on contrasted CT, achieves greater than 92% Dice for all modalities. Both automatic DCSM with refinement and semi-automatic DCSM achieve equivalent or better performance compared to inter-user variability for these modalities.
翻訳日:2023-10-18 19:16:16 公開日:2023-10-16
# 適切なラプラシアン表現学習

Proper Laplacian Representation Learning ( http://arxiv.org/abs/2310.10833v1 )

ライセンス: Link先を確認
Diego Gomez, Michael Bowling, Marlos C. Machado(参考訳) 国家の優れた表現を学ぶ能力は、探索、一般化、移動が特に困難な大規模な強化学習問題の解決に不可欠である。 ラプラシアン表現は、時間的に拡張された行動発見と報酬形成のための内在的な報酬を誘導し、情報的な状態エンコーディングを行うことで、これらの問題に対処する有望なアプローチである。 ラプラシアン表現を得るためには、グラフラプラシアンの固有系を計算する必要がある。 しかし、これらの近似は効率的にチューニングできないハイパーパラメータに依存し、所望の固有ベクトルの任意の回転に収束し、対応する固有値を正確に回復できない。 本稿では,ラプラシアン表現を近似するための理論的に適切な目的と対応する最適化アルゴリズムを提案する。 提案手法は, 固有ベクトルと固有値の両方を自然に回収し, 従来の近似のハイパーパラメータ依存を除去する。 提案手法を理論的に保証し,実験によって複数の環境にまたがる堅牢な学習に変換することを示す。

The ability to learn good representations of states is essential for solving large reinforcement learning problems, where exploration, generalization, and transfer are particularly challenging. The Laplacian representation is a promising approach to address these problems by inducing intrinsic rewards for temporally-extended action discovery and reward shaping, and informative state encoding. To obtain the Laplacian representation one needs to compute the eigensystem of the graph Laplacian, which is often approximated through optimization objectives compatible with deep learning approaches. These approximations, however, depend on hyperparameters that are impossible to tune efficiently, converge to arbitrary rotations of the desired eigenvectors, and are unable to accurately recover the corresponding eigenvalues. In this paper we introduce a theoretically sound objective and corresponding optimization algorithm for approximating the Laplacian representation. Our approach naturally recovers both the true eigenvectors and eigenvalues while eliminating the hyperparameter dependence of previous approximations. We provide theoretical guarantees for our method and we show that those results translate empirically into robust learning across multiple environments.
翻訳日:2023-10-18 19:09:31 公開日:2023-10-16
# 糖尿病網膜症の特徴抽出と分類のための畳み込みニューラルネットワークモデル

Convolutional Neural Network Model for Diabetic Retinopathy Feature Extraction and Classification ( http://arxiv.org/abs/2310.10806v1 )

ライセンス: Link先を確認
Sharan Subramanian, Leilani H. Gilpin(参考訳) 医療市場における人工知能の応用は、懸念が高まるが、糖尿病網膜症のようなサイレントな進行疾患をよりタイムリーに診断する助けとなる。 糖尿病網膜症(DR:diabetic Retinopathy)の診断のために、眼科医は色眼底画像(網膜の裏面の画像)を使用して、困難で時間のかかるプロセスを通じて小さな特徴を識別する。 我々の研究は,新しいcnnモデルを作成し,基礎画像入力によるdrの重症度を同定する。 われわれは, 畳み込み層を介し, 微小動脈瘤, 綿毛, 排出液, 出血の4つのDR特徴を分類し, 追加のユーザ入力なしで正確な診断が可能であった。 提案されたモデルはより解釈可能で、過度に適合する。 感度は97%,精度は71%であった。 我々の貢献は、より複雑なモデルに類似した精度で解釈可能なモデルである。 これにより、我々のモデルはDR検出の分野を前進させ、AIに焦点を絞った診断への重要なステップであることが証明される。

The application of Artificial Intelligence in the medical market brings up increasing concerns but aids in more timely diagnosis of silent progressing diseases like Diabetic Retinopathy. In order to diagnose Diabetic Retinopathy (DR), ophthalmologists use color fundus images, or pictures of the back of the retina, to identify small distinct features through a difficult and time-consuming process. Our work creates a novel CNN model and identifies the severity of DR through fundus image input. We classified 4 known DR features, including micro-aneurysms, cotton wools, exudates, and hemorrhages, through convolutional layers and were able to provide an accurate diagnostic without additional user input. The proposed model is more interpretable and robust to overfitting. We present initial results with a sensitivity of 97% and an accuracy of 71%. Our contribution is an interpretable model with similar accuracy to more complex models. With that, our model advances the field of DR detection and proves to be a key step towards AI-focused medical diagnosis.
翻訳日:2023-10-18 19:09:14 公開日:2023-10-16
# SD-HuBERT: HuBERTにおける自己蒸留によるSyllabic Organizationの誘導

SD-HuBERT: Self-Distillation Induces Syllabic Organization in HuBERT ( http://arxiv.org/abs/2310.10803v1 )

ライセンス: Link先を確認
Cheol Jun Cho, Abdelrahman Mohamed, Shang-Wen Li, Alan W Black and Gopala K. Anumanchipalli(参考訳) 音声の自己教師付き学習(SSL)におけるデータ駆動単位探索は,音声処理の新たな時代を幕開けた。 しかし、発見されたユニットはしばしば音声空間に留まり、SSL表現の有用性を制限している。 ここでは,音声の文レベル表現の学習において,音節的組織が出現することを示す。 特に,前訓練されたヒューバートを,文全体を要約するアグリゲータトークンで微調整する「自己蒸留」の目的を採用する。 いかなる監督もなしに、結果として得られるモデルは明確な境界を音声で描き、フレームをまたいだ表現は明快な音節構造を示す。 この創発的構造は、主に真理音節に対応することを実証する。 さらに,音声の文レベル表現を評価するための新しいベンチマークタスクであるSpken Speech ABXを提案する。 従来のモデルと比較すると,教師なし音節探索と文レベル表現の双方において,モデルの性能は優れていた。 共に,hubertの自己蒸留は,外部のラベルやモダリティに頼らずに音節構造を生じさせ,音声言語モデリングのための新しいデータ駆動単位を提供する。

Data-driven unit discovery in self-supervised learning (SSL) of speech has embarked on a new era of spoken language processing. Yet, the discovered units often remain in phonetic space, limiting the utility of SSL representations. Here, we demonstrate that a syllabic organization emerges in learning sentence-level representation of speech. In particular, we adopt "self-distillation" objective to fine-tune the pretrained HuBERT with an aggregator token that summarizes the entire sentence. Without any supervision, the resulting model draws definite boundaries in speech, and the representations across frames show salient syllabic structures. We demonstrate that this emergent structure largely corresponds to the ground truth syllables. Furthermore, we propose a new benchmark task, Spoken Speech ABX, for evaluating sentence-level representation of speech. When compared to previous models, our model outperforms in both unsupervised syllable discovery and learning sentence-level representation. Together, we demonstrate that the self-distillation of HuBERT gives rise to syllabic organization without relying on external labels or modalities, and potentially provides novel data-driven units for spoken language modeling.
翻訳日:2023-10-18 19:08:56 公開日:2023-10-16
# Webのための3つの量子プログラミング言語パーザ実装

Three Quantum Programming Language Parser Implementations for the Web ( http://arxiv.org/abs/2310.10802v1 )

ライセンス: Link先を確認
Marcus Edwards(参考訳) IBMは2017年から量子コンピューティングのゲートモデルに特化して量子アセンブリ(QASM)言語を開発した[CBSG17]。 タイミング、パルス制御、ゲート修飾を加えたバージョン3.0は現在2023年[CJA+21]のファイナライゼーションが進行中である。 同様に、ロスアラモス国立研究所のpakinは2016年にd-wave量子アニーラーのための量子マクロアセンブラ(qmasm)を発表した [pak16]。 このアセンブラは、特にD-Waveのような量子アニールをターゲットとしている。 連続可変(CV)量子コンピューティングをターゲットとする同等の技術は、2018年からXanaduによって開発されたBlackbird言語である[KIQ+19]。 TypeScriptでは、それぞれの言語に対するパーサを特異なアプローチで実装しています。 BlackbirdやQMASMの場合、これらはWeb互換である最初のパーサ実装であり、これらの言語を新しいオーディエンスと新しいランタイムにもたらす。 これにより、重いコンパイルツールチェーンにアクセスできないWebおよびモバイル環境で、QMASM、QASM、Blackbirdのパースと実行が可能になり、採用と科学研究が可能になる。

IBM has developed a quantum assembly (QASM) language particular to gate model quantum computing since 2017 [CBSG17]. Version 3.0 which adds timing, pulse control, and gate modifiers is currently undergoing finalization in 2023 [CJA+21]. In a similar vein, Pakin of Los Alamos National Laboratory published a quantum macro assembler (QMASM) for D-Wave quantum annealers in 2016 [Pak16]. This assembler specifically targets quantum annealers like D-Wave's. A comparable technology that targets continuous-variable (CV) quantum computing is the Blackbird language developed by Xanadu since 2018 [KIQ+19]. We implement parsers for each of these languages in TypeScript with a singular approach. In the cases of Blackbird and QMASM these are the first parser implementations that are web compatible and so bring these languages to a new audience and to new runtimes. This makes the parsing and execution of QMASM, QASM and Blackbird possible in web and mobile environments that don't have access to heavy compile toolchains, enabling adoption and scientific research.
翻訳日:2023-10-18 19:08:25 公開日:2023-10-16
# 量子クラスターアプローチのための行列生成状態に基づくバンドランゾス解法

Matrix-product-state-based band-Lanczos solver for quantum cluster approaches ( http://arxiv.org/abs/2310.10799v1 )

ライセンス: Link先を確認
Sebastian Paeckel, Thomas K\"ohler, Salvatore R. Manmana, Benjamin Lenz(参考訳) 本稿では,変分クラスタ近似(VCA)などの量子クラスタ手法の解法として,MPSに基づくバンドレンツェ法を提案する。 クラスタソルバとしてのMPSの実装は適用範囲をわずかに改善するが,本手法はクラスタジオメトリを正確な対角化法の範囲を超えて扱えることを示す。 私たちが導入した重要な修正は、連続的なエネルギー乱れと収束基準が組み合わされ、MPS表現によって導入された近似誤差に対してより堅牢になり、結果のグリーン関数の偏差に束縛される。 クラスタソルバのポテンシャルは、1バンドのハバードモデルの自己エネルギー関数を、異なるクラスタジオメトリ上で強く相関した状態の半減期で計算することによって示される。 ここでは、大きなクラスターサイズを扱う場合のみ、観測可能な粒子を熱力学的限界に外挿することができ、スタッガード磁化の例を示す。 最大6\times 6$のクラスタサイズを扱うことで、量子モンテカルロの結果と良好な一致が得られる。

We present a matrix-product state (MPS) based band-Lanczos method as solver for quantum cluster methods such as the variational cluster approximation (VCA). While a na\"ive implementation of MPS as cluster solver would barely improve its range of applicability, we show that our approach makes it possible to treat cluster geometries well beyond the reach of exact diagonalization methods. The key modifications we introduce are a continuous energy truncation combined with a convergence criterion that is more robust against approximation errors introduced by the MPS representation and provides a bound to deviations in the resulting Green's function. The potential of the resulting cluster solver is demonstrated by computing the self-energy functional for the single-band Hubbard model at half filling in the strongly correlated regime, on different cluster geometries. Here, we find that only when treating large cluster sizes, observables can be extrapolated to the thermodynamic limit, which we demonstrate at the example of the staggered magnetization. Treating clusters sizes with up to $6\times 6$ sites we obtain excellent agreement with quantum Monte-Carlo results.
翻訳日:2023-10-18 19:07:55 公開日:2023-10-16
# クロス共分散グラフによるグラフニューラルネットワークのモチベーション

Neural Tangent Kernels Motivate Graph Neural Networks with Cross-Covariance Graphs ( http://arxiv.org/abs/2310.10791v1 )

ライセンス: Link先を確認
Shervin Khalafi, Saurabh Sihag, Alejandro Ribeiro(参考訳) 神経接核(neural tangent kernel, ntks)は、過パラメータニューラルネットワークの学習と一般化行動を分析する理論的手法である。 教師付き学習タスクでは、NTKカーネルの固有ベクトルと与えられたデータ(この論文ではアライメントと呼ばれる概念)の関連性は、勾配降下の収束率を制御でき、また、目に見えないデータへの一般化も可能である。 この概念に基づいて、グラフニューラルネットワーク(GNN)のコンテキストにおけるNTKとアライメントを調査し、その分析により、アライメントの最適化がGNNのグラフ表現やグラフシフト演算子を最適化することを示した。 この結果は,2層GNNのアライメントの最適性に関する理論的保証をさらに確立し,これらの保証は,入力と出力データの相互共分散関数であるグラフシフト演算子によって特徴づけられる。 NTKの分析から得られた理論的知見は、公開データセットの多変量時系列予測タスクに焦点を当てた実験により検証される。 具体的には、グラフシフト演算子としてクロス共分散を持つgnnが、入力データのみから共分散行列を操作するものよりも優れていることを実証する。

Neural tangent kernels (NTKs) provide a theoretical regime to analyze the learning and generalization behavior of over-parametrized neural networks. For a supervised learning task, the association between the eigenvectors of the NTK kernel and given data (a concept referred to as alignment in this paper) can govern the rate of convergence of gradient descent, as well as generalization to unseen data. Building upon this concept, we investigate NTKs and alignment in the context of graph neural networks (GNNs), where our analysis reveals that optimizing alignment translates to optimizing the graph representation or the graph shift operator in a GNN. Our results further establish the theoretical guarantees on the optimality of the alignment for a two-layer GNN and these guarantees are characterized by the graph shift operator being a function of the cross-covariance between the input and the output data. The theoretical insights drawn from the analysis of NTKs are validated by our experiments focused on a multi-variate time series prediction task for a publicly available dataset. Specifically, they demonstrate that GNNs with cross-covariance as the graph shift operator indeed outperform those that operate on the covariance matrix from only the input data.
翻訳日:2023-10-18 19:07:12 公開日:2023-10-16
# 普遍的調音運動を推定する音声の自己監督モデル

Self-Supervised Models of Speech Infer Universal Articulatory Kinematics ( http://arxiv.org/abs/2310.10788v1 )

ライセンス: Link先を確認
Cheol Jun Cho, Abdelrahman Mohamed, Alan W Black and Gopala K. Anumanchipalli(参考訳) 音声の自己教師付き学習(SSL)に基づくモデルは、下流タスクで顕著なパフォーマンスを示している。 これらの最先端のモデルはブラックボックスのままだが、最近の多くの研究は、内部表現を音声の異なる側面に関連付けるために、HuBERTのような「探索」モデルを開始した。 本稿では、これらのモデルが音響を音声信号の根底にある因果的調音力学に変換する能力であるSSLモデルの基本的な特性として「調音キネマティクスの推論」を示す。 また,この抽象化がモデルの学習に使用されるデータの言語に重なり合っており,類似した音韻体系を持つ言語に好意的であることも示している。 さらに,単純なアフィン変換では,aai(a acoustic-to-articulatory inversion)が話者間,性別,言語,方言間でも転送可能であり,この性質の一般化性を示す。 これらの結果は、それらの優れた性能にとって重要なsslモデルの内部に新しい光を当て、言語に依存しない音声工学の普遍的モデルへの新しい道を開き、それらは音声科学において解釈可能で基礎となっている。

Self-Supervised Learning (SSL) based models of speech have shown remarkable performance on a range of downstream tasks. These state-of-the-art models have remained blackboxes, but many recent studies have begun "probing" models like HuBERT, to correlate their internal representations to different aspects of speech. In this paper, we show "inference of articulatory kinematics" as fundamental property of SSL models, i.e., the ability of these models to transform acoustics into the causal articulatory dynamics underlying the speech signal. We also show that this abstraction is largely overlapping across the language of the data used to train the model, with preference to the language with similar phonological system. Furthermore, we show that with simple affine transformations, Acoustic-to-Articulatory inversion (AAI) is transferrable across speakers, even across genders, languages, and dialects, showing the generalizability of this property. Together, these results shed new light on the internals of SSL models that are critical to their superior performance, and open up new avenues into language-agnostic universal models for speech engineering, that are interpretable and grounded in speech science.
翻訳日:2023-10-18 19:06:50 公開日:2023-10-16
# BLP-2023タスク1におけるBanglaNLP:ベンガルにおける暴力的テキスト検出のための異なるトランスフォーマーモデルのベンチマーク

BanglaNLP at BLP-2023 Task 1: Benchmarking different Transformer Models for Violence Inciting Text Detection in Bengali ( http://arxiv.org/abs/2310.10781v1 )

ライセンス: Link先を確認
Saumajit Saha and Albert Nanda(参考訳) 本稿では,バングラデシュにおける暴力に関する共通課題を解決するために開発したシステムについて述べる。 私たちは、モデルを学ぶのに使った従来のアプローチと最近のアプローチの両方を説明します。 提案システムでは,テキストに脅威があるかどうかを分類する。 利用可能なデータセットが限られている場合、データ拡張の影響を調査した。 定量的には,多言語e5ベースモデルの微調整が,他のトランスフォーマーベースのアーキテクチャと比較して優れた性能を示した。 我々は、テストセットで68.11\%のマクロF1を取得し、この共有タスクのパフォーマンスは、リーダーボードで23にランク付けした。

This paper presents the system that we have developed while solving this shared task on violence inciting text detection in Bangla. We explain both the traditional and the recent approaches that we have used to make our models learn. Our proposed system helps to classify if the given text contains any threat. We studied the impact of data augmentation when there is a limited dataset available. Our quantitative results show that finetuning a multilingual-e5-base model performed the best in our task compared to other transformer-based architectures. We obtained a macro F1 of 68.11\% in the test set and our performance in this shared task is ranked at 23 in the leaderboard.
翻訳日:2023-10-18 19:06:20 公開日:2023-10-16
# 統計的観点からの裏口攻撃の非合法化

Demystifying Poisoning Backdoor Attacks from a Statistical Perspective ( http://arxiv.org/abs/2310.10780v1 )

ライセンス: Link先を確認
Xun Xian, Ganghua Wang, Jayanth Srinivasa, Ashish Kundu, Xuan Bi, Mingyi Hong, Jie Ding(参考訳) 現実世界のアプリケーションにおける機械学習への依存の増大は、その安全性の理解と保証の重要性を強調している。 バックドア攻撃は、そのステルス性や深刻な影響により、重大なセキュリティリスクを引き起こす。 このような攻撃は、アクティブトリガーが存在するときに悪意のある振る舞いを起こそうとすると同時に、通常の機能を維持しながら学習モデルにトリガーを埋め込むことを含む。 本稿では, クリーンおよびバックドア試験データにおいて, 妥協モデルの性能向上のために, 一定のトリガを組み込んだバックドア攻撃の有効性について検討した。 先進的な理論は,(1)バックドア攻撃の成功の要因は何か,(2)最も効果的なバックドア攻撃の方向性は何か,(3)人間に知覚できないトリガーが成功するのか,といった,基本的な未解明の課題に対処する。 我々の導出した理解は、識別モデルと生成モデルの両方に適用できる。 また,ベンチマークデータセットと最先端バックドア攻撃シナリオを用いて実験を行い,理論を実証する。

The growing dependence on machine learning in real-world applications emphasizes the importance of understanding and ensuring its safety. Backdoor attacks pose a significant security risk due to their stealthy nature and potentially serious consequences. Such attacks involve embedding triggers within a learning model with the intention of causing malicious behavior when an active trigger is present while maintaining regular functionality without it. This paper evaluates the effectiveness of any backdoor attack incorporating a constant trigger, by establishing tight lower and upper boundaries for the performance of the compromised model on both clean and backdoor test data. The developed theory answers a series of fundamental but previously underexplored problems, including (1) what are the determining factors for a backdoor attack's success, (2) what is the direction of the most effective backdoor attack, and (3) when will a human-imperceptible trigger succeed. Our derived understanding applies to both discriminative and generative models. We also demonstrate the theory by conducting experiments using benchmark datasets and state-of-the-art backdoor attack scenarios.
翻訳日:2023-10-18 19:06:07 公開日:2023-10-16
# 物理インフォームドニューラルネットワーク(PINN)における修正モデル誤特定

Correcting model misspecification in physics-informed neural networks (PINNs) ( http://arxiv.org/abs/2310.10776v1 )

ライセンス: Link先を確認
Zongren Zou, Xuhui Meng, George Em Karniadakis(参考訳) データ駆動による計算科学における制御方程式の発見は、正確な物理モデルを得るための新しいパラダイムとして現れ、理論的導出の代替として考えられる。 最近開発された物理インフォームドニューラルネットワーク(PINN)も、さまざまな科学分野にまたがるデータに基づく支配方程式を学習するために使用されている。 PINNが支配方程式の発見に有効であるにもかかわらず、PINNに符号化された物理モデルは、いくつかの物理過程が完全には理解できないため、複雑なシステムでは誤特定され、PINN予測の精度が低下する可能性がある。 本研究では,不特定な物理モデルをPINNで補正し,厳密でノイズの多いデータから支配方程式を探索する手法を提案する。 具体的には、まず仮定された物理モデルを符号化し、不完全なモデルと観測データとの相違をモデル化するために他のディープニューラルネットワーク(DNN)を使用する。 提案手法は, DNNの表現性から, モデルの不特定による計算誤差を低減し, 物理過程が正確には分かっていない複雑なシステムにおいて, PINNの応用を可能にする。 さらに,ベイジアンPINN(B-PINN)および/またはアンサンブルPINNを用いて,発見された支配方程式のノイズデータおよび/またはギャップデータから生じる不確実性を定量化する。 非ニュートンチャネルやキャビティフローを含む一連の数値的な例は、追加されたDNNがPINNのモデルの不特定性を補正し、物理的モデルと観測データとの相違を低減できることを示している。 提案手法は, 物理化学的, 生物学的プロセスがよく理解されていない問題における支配方程式の発見に, PINNの応用を拡大すると考えられる。

Data-driven discovery of governing equations in computational science has emerged as a new paradigm for obtaining accurate physical models and as a possible alternative to theoretical derivations. The recently developed physics-informed neural networks (PINNs) have also been employed to learn governing equations given data across diverse scientific disciplines. Despite the effectiveness of PINNs for discovering governing equations, the physical models encoded in PINNs may be misspecified in complex systems as some of the physical processes may not be fully understood, leading to the poor accuracy of PINN predictions. In this work, we present a general approach to correct the misspecified physical models in PINNs for discovering governing equations, given some sparse and/or noisy data. Specifically, we first encode the assumed physical models, which may be misspecified, then employ other deep neural networks (DNNs) to model the discrepancy between the imperfect models and the observational data. Due to the expressivity of DNNs, the proposed method is capable of reducing the computational errors caused by the model misspecification and thus enables the applications of PINNs in complex systems where the physical processes are not exactly known. Furthermore, we utilize the Bayesian PINNs (B-PINNs) and/or ensemble PINNs to quantify uncertainties arising from noisy and/or gappy data in the discovered governing equations. A series of numerical examples including non-Newtonian channel and cavity flows demonstrate that the added DNNs are capable of correcting the model misspecification in PINNs and thus reduce the discrepancy between the physical models and the observational data. We envision that the proposed approach will extend the applications of PINNs for discovering governing equations in problems where the physico-chemical or biological processes are not well understood.
翻訳日:2023-10-18 19:05:47 公開日:2023-10-16
# ガウス過程に基づく時系列分類のためのデータ拡張と期待シグネチャ

Gaussian processes based data augmentation and expected signature for time series classification ( http://arxiv.org/abs/2310.10836v1 )

ライセンス: Link先を確認
Marco Romito and Francesco Triggiano(参考訳) シグネチャはパス(つまり、区間からユークリッド空間への連続関数)を記述する基本的なオブジェクトである。 同様に、期待される符号は確率過程の法則の統計的記述を提供する。 本稿では,期待署名に基づく時系列の特徴抽出モデルを提案する。 これはガウス過程に基づくデータ拡張によって計算される。 主な特徴の1つは、モデルを使用する教師付きタスクを通して最適な特徴抽出を学ぶことである。

The signature is a fundamental object that describes paths (that is, continuous functions from an interval to a Euclidean space). Likewise, the expected signature provides a statistical description of the law of stochastic processes. We propose a feature extraction model for time series built upon the expected signature. This is computed through a Gaussian processes based data augmentation. One of the main features is that an optimal feature extraction is learnt through the supervised task that uses the model.
翻訳日:2023-10-18 18:58:44 公開日:2023-10-16
# Score-based Generative Priors を用いた確率的イメージング

Provable Probabilistic Imaging using Score-Based Generative Priors ( http://arxiv.org/abs/2310.10835v1 )

ライセンス: Link先を確認
Yu Sun, Zihui Wu, Yifan Chen, Berthy T. Feng, Katherine L. Bouman(参考訳) 不確かさを定量化しながら高品質な画像を推定することは、不適切な逆問題を解くための画像再構成アルゴリズムにおいて2つの望ましい特徴である。 本稿では,一般的な逆問題に対する解の空間を特徴付けるための原則的枠組みとして,プラグアンドプレイ型モンテカルロ(PMC)を提案する。 PMCは、高画質の画像再構成のために、表現力のあるスコアベースの生成先を組み込むことができる。 特に,従来のpnp(plug-and-play priors)のサンプリングアナログと見なすことのできる2つのpmcアルゴリズムと,(red)アルゴリズムによる正規化を導入する。 また,pmcアルゴリズムの収束を特徴付ける理論的解析も確立した。 我々の分析は,非log-concave確率や不完全なスコアネットワークが存在する場合でも,両アルゴリズムの漸近的定常性を保証する。 線形前方モデルと非線形前方モデルの両方を用いた複数の代表逆問題に対する PMC アルゴリズムの性能を示す。 実験の結果, PMCは再建品質を著しく向上し, 高忠実度不確実性定量化を可能にした。

Estimating high-quality images while also quantifying their uncertainty are two desired features in an image reconstruction algorithm for solving ill-posed inverse problems. In this paper, we propose plug-and-play Monte Carlo (PMC) as a principled framework for characterizing the space of possible solutions to a general inverse problem. PMC is able to incorporate expressive score-based generative priors for high-quality image reconstruction while also performing uncertainty quantification via posterior sampling. In particular, we introduce two PMC algorithms which can be viewed as the sampling analogues of the traditional plug-and-play priors (PnP) and regularization by denoising (RED) algorithms. We also establish a theoretical analysis for characterizing the convergence of the PMC algorithms. Our analysis provides non-asymptotic stationarity guarantees for both algorithms, even in the presence of non-log-concave likelihoods and imperfect score networks. We demonstrate the performance of the PMC algorithms on multiple representative inverse problems with both linear and nonlinear forward models. Experimental results show that PMC significantly improves reconstruction quality and enables high-fidelity uncertainty quantification.
翻訳日:2023-10-18 18:58:37 公開日:2023-10-16
# 不確かさの前方伝播のための力学系の高精度データ駆動サーロゲート

Accurate Data-Driven Surrogates of Dynamical Systems for Forward Propagation of Uncertainty ( http://arxiv.org/abs/2310.10831v1 )

ライセンス: Link先を確認
Saibal De, Reese E. Jones, Hemanth Kolla(参考訳) 確率的コロケーション(Stochastic collocation, SC)は、不確実性定量化のための代理モデルを構築する方法としてよく知られている。 力学系において、SCは確率的入力パラメータを持つモデルの高次元一次解場の分布を特徴付けるフルフィールド不確実性伝播に特に適している。 しかしながら、最も単純な力学系においてもパラメータ対解写像の高度に非線形な性質のため、構築されたscサロゲートはしばしば不正確である。 この研究は、解ではなくモデルのダイナミクスにsc近似を適用する別のアプローチを提示している。 data-driven sparse identification of nonlinear dynamics (sindy) framework (sindy) とscを組み合わせることで,動的サロゲートを構築し,時間を通じてそれらを統合してサロゲートソリューションを構築する。 SC-over-dynamics フレームワークは,システムトラジェクトリの近似とモデル状態分布の両面において,直接的に適用したフルフィールド SC と比較して誤差が小さくなることを示した。 カオス常微分方程式と固体力学からの2つの偏微分方程式の3つのテスト問題を用いて、この改善の数値的な証拠を示す。

Stochastic collocation (SC) is a well-known non-intrusive method of constructing surrogate models for uncertainty quantification. In dynamical systems, SC is especially suited for full-field uncertainty propagation that characterizes the distributions of the high-dimensional primary solution fields of a model with stochastic input parameters. However, due to the highly nonlinear nature of the parameter-to-solution map in even the simplest dynamical systems, the constructed SC surrogates are often inaccurate. This work presents an alternative approach, where we apply the SC approximation over the dynamics of the model, rather than the solution. By combining the data-driven sparse identification of nonlinear dynamics (SINDy) framework with SC, we construct dynamics surrogates and integrate them through time to construct the surrogate solutions. We demonstrate that the SC-over-dynamics framework leads to smaller errors, both in terms of the approximated system trajectories as well as the model state distributions, when compared against full-field SC applied to the solutions directly. We present numerical evidence of this improvement using three test problems: a chaotic ordinary differential equation, and two partial differential equations from solid mechanics.
翻訳日:2023-10-18 18:58:21 公開日:2023-10-16
# 羊の服のフェイクニュース: llm-empoweredスタイル攻撃に対するロバストなフェイクニュース検出

Fake News in Sheep's Clothing: Robust Fake News Detection Against LLM-Empowered Style Attacks ( http://arxiv.org/abs/2310.10830v1 )

ライセンス: Link先を確認
Jiaying Wu, Bryan Hooi(参考訳) オンライン偽ニュースや信頼できるニュースは、センセーショナリズムと客観的言語の使用など、文章のスタイルに大きく違いがあることが一般的である。 しかし、スタイル関連の機能はスタイルベースの攻撃にも利用できることを強調する。 特に、強力な大規模言語モデル(LLM)の台頭により、悪意のあるユーザーが最小限のコストで信頼できるニュースメディアのスタイルを模倣できるようになった。 分析の結果,LLMをカモフラージュした偽ニュースコンテンツは,最先端のテキストベース検出器の性能低下(F1 Scoreの最大38%低下)を招き,オンラインエコシステムにおける自動検出の課題となった。 これに対処するため、我々はニュースライティングスタイルに頑健なスタイル非依存のフェイクニュース検出器であるhrowdogを紹介する。 SheepDogはこの適応性をLLMを利用したニュースリフレーミングを通じて実現し、スタイル指向のリフレーミングプロンプトを使用して各記事が異なる書き込みスタイルにマッチするようにカスタマイズする。 スタイルに依存しないトレーニングを採用することで、SheepDogは、これらの多様なリフレーミングの予測一貫性を最大化することによって、そのレジリエンスを、スタイル的なバリエーションに拡張する。 さらに、ニュースコンテンツがファクトチェックの根拠に対して評価されるllmsから、コンテンツ中心の検証性属性を抽出する。 これらの属性は、妥当性予測を支援する補助情報と潜在的な解釈可能性を提供する。 3つのベンチマークデータセットでは、SheepDogは競争ベースラインよりも大幅に改善され、LLMによるスタイル攻撃に対する堅牢性を高めている。

It is commonly perceived that online fake news and reliable news exhibit stark differences in writing styles, such as the use of sensationalist versus objective language. However, we emphasize that style-related features can also be exploited for style-based attacks. Notably, the rise of powerful Large Language Models (LLMs) has enabled malicious users to mimic the style of trustworthy news outlets at minimal cost. Our analysis reveals that LLM-camouflaged fake news content leads to substantial performance degradation of state-of-the-art text-based detectors (up to 38% decrease in F1 Score), posing a significant challenge for automated detection in online ecosystems. To address this, we introduce SheepDog, a style-agnostic fake news detector robust to news writing styles. SheepDog achieves this adaptability through LLM-empowered news reframing, which customizes each article to match different writing styles using style-oriented reframing prompts. By employing style-agnostic training, SheepDog enhances its resilience to stylistic variations by maximizing prediction consistency across these diverse reframings. Furthermore, SheepDog extracts content-focused veracity attributions from LLMs, where the news content is evaluated against a set of fact-checking rationales. These attributions provide supplementary information and potential interpretability that assist veracity prediction. On three benchmark datasets, empirical results show that SheepDog consistently yields significant improvements over competitive baselines and enhances robustness against LLM-empowered style attacks.
翻訳日:2023-10-18 18:58:00 公開日:2023-10-16
# オンラインビジュアル言語マッピングによる実世界の視覚と言語ナビゲーション

Vision and Language Navigation in the Real World via Online Visual Language Mapping ( http://arxiv.org/abs/2310.10822v1 )

ライセンス: Link先を確認
Chengguang Xu, Hieu T. Nguyen, Christopher Amato, Lawson L.S. Wong(参考訳) 無人環境での移動は、移動ロボットにとって不可欠である。 自然言語で指示に従う能力でそれらを強化することで、目に見えないケースのナビゲーション効率をさらに向上する。 しかし、現状技術(SOTA)のビジョン・アンド・ランゲージナビゲーション(VLN)法は主にシミュレーションにおいて評価され、複雑でノイズの多い実世界は無視される。 シミュレーションで訓練されたSOTAナビゲーションポリシーを現実世界に直接移行することは、視覚領域のギャップと、目に見えない環境に関する事前の知識がないために困難である。 本研究では,実世界のVLNタスクに対処する新しいナビゲーションフレームワークを提案する。 Utilizing the powerful foundation models, the proposed framework includes four key components: (1) an LLMs-based instruction parser that converts the language instruction into a sequence of pre-defined macro-action descriptions, (2) an online visual-language mapper that builds a real-time visual-language map to maintain a spatial and semantic understanding of the unseen environment, (3) a language indexing-based localizer that grounds each macro-action description into a waypoint location on the map, and (4) a DD-PPO-based local controller that predicts the action. 未確認実験環境において,Interbotix LoCoBot WX250を用いたパイプラインの評価を行った。 微調整がなければ、私たちのパイプラインは、現実世界のSOTA VLNベースラインを著しく上回ります。

Navigating in unseen environments is crucial for mobile robots. Enhancing them with the ability to follow instructions in natural language will further improve navigation efficiency in unseen cases. However, state-of-the-art (SOTA) vision-and-language navigation (VLN) methods are mainly evaluated in simulation, neglecting the complex and noisy real world. Directly transferring SOTA navigation policies trained in simulation to the real world is challenging due to the visual domain gap and the absence of prior knowledge about unseen environments. In this work, we propose a novel navigation framework to address the VLN task in the real world. Utilizing the powerful foundation models, the proposed framework includes four key components: (1) an LLMs-based instruction parser that converts the language instruction into a sequence of pre-defined macro-action descriptions, (2) an online visual-language mapper that builds a real-time visual-language map to maintain a spatial and semantic understanding of the unseen environment, (3) a language indexing-based localizer that grounds each macro-action description into a waypoint location on the map, and (4) a DD-PPO-based local controller that predicts the action. We evaluate the proposed pipeline on an Interbotix LoCoBot WX250 in an unseen lab environment. Without any fine-tuning, our pipeline significantly outperforms the SOTA VLN baseline in the real world.
翻訳日:2023-10-18 18:57:29 公開日:2023-10-16
# ハイブリッドモデルに基づく後継機能強化学習によるタスク間の不確実性認識伝達

Uncertainty-aware transfer across tasks using hybrid model-based successor feature reinforcement learning ( http://arxiv.org/abs/2310.10818v1 )

ライセンス: Link先を確認
Parvin Malekzadeh, Ming Hou, and Konstantinos N. Plataniotis(参考訳) サンプル効率は、複雑かつ大規模な意思決定問題に対する実践的強化学習(RL)の開発の中心である。 以前の経験から得られた知識をダウンストリームタスクに移し、一般化する能力は、サンプル効率を大幅に改善することができる。 近年の研究では、後継機能(SF)RLアルゴリズムは、異なる報酬を持つタスク間の知識一般化を可能にするが、遷移ダイナミクスは同一である。 近年、モデルベース(MB)法とSFアルゴリズムを組み合わせることで、固定遷移力学の限界を緩和できると仮定されている。 さらに, 不確実性認識探索は, サンプル効率向上のための別の魅力的なアプローチとして広く認識されている。 ハイブリッドモデルベースの後継機能(MB-SF)と不確実性(不確実性)の2つのアイデアを組み合わせることで、異なる遷移ダイナミクスや報酬関数を持つタスク間の効率的な不確実性を考慮した知識伝達の問題へのアプローチにつながる。 本稿では,各動作の値の不確かさをカルマンフィルタ(kf)に基づく多重モデル適応推定によって近似する。 このKFベースのフレームワークは、モデルのパラメータをランダム変数として扱う。 私たちの知る限りでは、これはmb法よりも少ない計算を必要とせず、様々な遷移ダイナミクスを持つ大規模または連続的な状態空間タスクにまたがる知識を一般化できるハイブリッドmb-sfアルゴリズムを定式化する最初の試みである。 タスクの学習に必要なサンプル数は、最近のSFやMBベースラインと比較された。 その結果,本アルゴリズムは,異なる遷移力学の知識を一般化し,スクラッチから始めるよりもはるかに少ないサンプルで下流タスクを学習し,既存のアプローチよりも優れていた。

Sample efficiency is central to developing practical reinforcement learning (RL) for complex and large-scale decision-making problems. The ability to transfer and generalize knowledge gained from previous experiences to downstream tasks can significantly improve sample efficiency. Recent research indicates that successor feature (SF) RL algorithms enable knowledge generalization between tasks with different rewards but identical transition dynamics. It has recently been hypothesized that combining model-based (MB) methods with SF algorithms can alleviate the limitation of fixed transition dynamics. Furthermore, uncertainty-aware exploration is widely recognized as another appealing approach for improving sample efficiency. Putting together two ideas of hybrid model-based successor feature (MB-SF) and uncertainty leads to an approach to the problem of sample efficient uncertainty-aware knowledge transfer across tasks with different transition dynamics or/and reward functions. In this paper, the uncertainty of the value of each action is approximated by a Kalman filter (KF)-based multiple-model adaptive estimation. This KF-based framework treats the parameters of a model as random variables. To the best of our knowledge, this is the first attempt at formulating a hybrid MB-SF algorithm capable of generalizing knowledge across large or continuous state space tasks with various transition dynamics while requiring less computation at decision time than MB methods. The number of samples required to learn the tasks was compared to recent SF and MB baselines. The results show that our algorithm generalizes its knowledge across different transition dynamics, learns downstream tasks with significantly fewer samples than starting from scratch, and outperforms existing approaches.
翻訳日:2023-10-18 18:57:09 公開日:2023-10-16
# 逆正則化によるロバスト多エージェント強化学習:理論基礎と安定アルゴリズム

Robust Multi-Agent Reinforcement Learning via Adversarial Regularization: Theoretical Foundation and Stable Algorithms ( http://arxiv.org/abs/2310.10810v1 )

ライセンス: Link先を確認
Alexander Bukharin, Yan Li, Yue Yu, Qingru Zhang, Zhehui Chen, Simiao Zuo, Chao Zhang, Songan Zhang, and Tuo Zhao(参考訳) MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。 この約束にもかかわらず、MARLポリシーは堅牢性に欠けることが多く、そのため環境の変化に敏感である。 これは、テスト環境がトレーニング環境とわずかに異なる可能性があるMARLアルゴリズムの現実的な展開に対して深刻な懸念を示している。 本研究では,政策のリプシッツ定数を制御し,穏やかな条件下ではリプシッツとオプティカル・トゥ・オプティカル・ポリシーの存在を確立することで,堅牢性を得ることができることを示す。 これらの知見に基づいて,反則化による状態観察と行動に関して,政策のリプシッツ連続性を促進する新しい強固なmarlフレームワークernieを提案する。 ernieフレームワークは、ノイズの観測、遷移ダイナミクスの変化、エージェントの悪意のあるアクションに対する堅牢性を提供します。 しかし、ERNIEの逆正則化は、ある程度のトレーニング不安定をもたらす可能性がある。 この不安定さを軽減するため、逆正則化をスタックルバーグゲームとして再構成する。 提案手法の有効性を,交通光制御および粒子環境における広範囲な実験により実証する。 さらに、ERNIE を平均場 MARL に拡張し、分散的ロバストな最適化に基づく定式化を行い、非ロバストな最適化よりも優れ、独立した関心を持つ。 私たちのコードはhttps://github.com/abukharin3/ernieで利用可能です。

Multi-Agent Reinforcement Learning (MARL) has shown promising results across several domains. Despite this promise, MARL policies often lack robustness and are therefore sensitive to small changes in their environment. This presents a serious concern for the real world deployment of MARL algorithms, where the testing environment may slightly differ from the training environment. In this work we show that we can gain robustness by controlling a policy's Lipschitz constant, and under mild conditions, establish the existence of a Lipschitz and close-to-optimal policy. Based on these insights, we propose a new robust MARL framework, ERNIE, that promotes the Lipschitz continuity of the policies with respect to the state observations and actions by adversarial regularization. The ERNIE framework provides robustness against noisy observations, changing transition dynamics, and malicious actions of agents. However, ERNIE's adversarial regularization may introduce some training instability. To reduce this instability, we reformulate adversarial regularization as a Stackelberg game. We demonstrate the effectiveness of the proposed framework with extensive experiments in traffic light control and particle environments. In addition, we extend ERNIE to mean-field MARL with a formulation based on distributionally robust optimization that outperforms its non-robust counterpart and is of independent interest. Our code is available at https://github.com/abukharin3/ERNIE.
翻訳日:2023-10-18 18:56:38 公開日:2023-10-16
# 情報源が語るなら:歴史研究支援のための大規模言語モデルの評価

If the Sources Could Talk: Evaluating Large Language Models for Research Assistance in History ( http://arxiv.org/abs/2310.10808v1 )

ライセンス: Link先を確認
Giselle Gonzalez Garcia, Christian Weilbach(参考訳) 近年の強力なLarge-Language Models (LLM) の出現は、歴史記憶(この場合、トレーニングデータ)に関する新たな会話形式の調査を提供する。 高度に専門化された学術資料からベクター埋め込みによるLSMの強化により,人文科学史家や他の研究者が会話の方法論を利用できることを示す。 具体的には, llm が研究者を支援する能力を評価, 実証し, (1) に限らず, 様々な種類の文書をカスタマイズしたコーパスについて検討した。 主な資料は(2)。 専門家による二次資料,(3) これら2つの組み合わせです メタデータや全文検索などのデジタルカタログの確立された検索インタフェースと比較し,2つの主なタスクの性能について,よりリッチな会話スタイルのllmを評価した。 question-anwering と (2) データの抽出と整理です 本稿では,問題特定タスクにおけるllmsの意味検索と推論能力が,そのトレーニングデータの一部ではない大規模テキストアーカイブに適用可能であることを実証する。 したがって、LSMは特定の研究プロジェクトに関連するソースで拡張することができ、研究者によってプライベートにクエリすることができる。

The recent advent of powerful Large-Language Models (LLM) provides a new conversational form of inquiry into historical memory (or, training data, in this case). We show that by augmenting such LLMs with vector embeddings from highly specialized academic sources, a conversational methodology can be made accessible to historians and other researchers in the Humanities. Concretely, we evaluate and demonstrate how LLMs have the ability of assisting researchers while they examine a customized corpora of different types of documents, including, but not exclusive to: (1). primary sources, (2). secondary sources written by experts, and (3). the combination of these two. Compared to established search interfaces for digital catalogues, such as metadata and full-text search, we evaluate the richer conversational style of LLMs on the performance of two main types of tasks: (1). question-answering, and (2). extraction and organization of data. We demonstrate that LLMs semantic retrieval and reasoning abilities on problem-specific tasks can be applied to large textual archives that have not been part of the its training data. Therefore, LLMs can be augmented with sources relevant to specific research projects, and can be queried privately by researchers.
翻訳日:2023-10-18 18:56:15 公開日:2023-10-16
# 逆訓練線形回帰の正則化特性

Regularization properties of adversarially-trained linear regression ( http://arxiv.org/abs/2310.10807v1 )

ライセンス: Link先を確認
Ant\^onio H. Ribeiro, Dave Zachariah, Francis Bach, Thomas B. Sch\"on(参考訳) 最先端の機械学習モデルは、反対に構築される非常に小さな入力摂動に対して脆弱である。 敵の訓練はそれに対して効果的なアプローチである。 min-max問題として定式化され、最悪のケースでトレーニングデータが破損したときの最良の解決策を検索する。 線形モデルは,脆弱性を観測し,研究の焦点となる単純なモデルの一つである。 この場合、逆トレーニングは、有限和の最小化として定式化できる凸最適化問題につながる。 線形回帰法における逆訓練の解法と他の正規化法との比較分析を行った。 主な知見は, (A) 対人訓練は, 最大外乱半径がしきい値よりも小さい限り, 過パラメータ化状態(データよりも多くのパラメータ)における最小ノルム補間解をもたらす。 そして逆に、最小ノルム補間器は、与えられた半径を持つ逆訓練の解である。 (B)逆行訓練はパラメータ縮小法(リッジ回帰法とラッソ法)と等価である。 これは、逆半径と零平均対称分布共変量の適切な選択のために、非パラメータ領域で起こる。 c)$\ell_\infty$-adversarial training -- square-root lassoのように、最適な境界に対する逆半径の選択は、加算雑音の分散に依存しない。 理論的知見を数値例で確認する。

State-of-the-art machine learning models can be vulnerable to very small input perturbations that are adversarially constructed. Adversarial training is an effective approach to defend against it. Formulated as a min-max problem, it searches for the best solution when the training data were corrupted by the worst-case attacks. Linear models are among the simple models where vulnerabilities can be observed and are the focus of our study. In this case, adversarial training leads to a convex optimization problem which can be formulated as the minimization of a finite sum. We provide a comparative analysis between the solution of adversarial training in linear regression and other regularization methods. Our main findings are that: (A) Adversarial training yields the minimum-norm interpolating solution in the overparameterized regime (more parameters than data), as long as the maximum disturbance radius is smaller than a threshold. And, conversely, the minimum-norm interpolator is the solution to adversarial training with a given radius. (B) Adversarial training can be equivalent to parameter shrinking methods (ridge regression and Lasso). This happens in the underparametrized region, for an appropriate choice of adversarial radius and zero-mean symmetrically distributed covariates. (C) For $\ell_\infty$-adversarial training -- as in square-root Lasso -- the choice of adversarial radius for optimal bounds does not depend on the additive noise variance. We confirm our theoretical findings with numerical examples.
翻訳日:2023-10-18 18:55:55 公開日:2023-10-16
# 自動セグメンテーションアルゴリズムによる3次元遺産物体表面の穴埋め

Filling the Holes on 3D Heritage Object Surface based on Automatic Segmentation Algorithm ( http://arxiv.org/abs/2310.10875v1 )

ライセンス: Link先を確認
Sinh Van Nguyen, Son Thanh Le, Minh Khai Tran and Le Thanh Sach(参考訳) 3Dオブジェクトの再構成と処理は、コンピュータグラフィックス、画像処理、コンピュータビジョンの研究分野で人気がある。 3Dオブジェクトは、幾何学的モデリング、応用数学と計算幾何学の分野、画像処理に基づく機械学習アルゴリズムなどの手法に基づいて処理される。 幾何学的オブジェクトの計算は、曲線と表面の処理、分割、単純化、メッシュ化、穴埋め、再構成、および3次元表面オブジェクトを点雲データと三角形メッシュの両方で精製する。 機械学習の手法は深層学習モデルを用いて開発されている。 3DレーザースキャンデバイスとLidar技術のサポートにより、得られたデータセットは実際のオブジェクトの本来の形状に近い。 さらに、近年の最新の技術に基づく写真とその応用は、データを収集し、3Dモデルをより正確に処理するのに役立ちます。 本稿では, 自動セグメンテーションに基づく3次元物体表面に穴を埋める改良手法を提案する。 既存の方法で穴を直接埋める代わりに、穴を埋める前に穴を分割します。 穴はまず決定され、局所曲率の計算に基づいて自動的に分割される。 その後、穴の各部分に充填され、局所的な曲率形状に合致する。 この方法は3次元の点雲表面と三角形のメッシュ表面の両方に作用する。 提案手法は, 工法と比較すると, 再建された3次元物体の精度が高い。

Reconstructing and processing the 3D objects are popular activities in the research field of computer graphics, image processing and computer vision. The 3D objects are processed based on the methods like geometric modeling, a branch of applied mathematics and computational geometry, or the machine learning algorithms based on image processing. The computation of geometrical objects includes processing the curves and surfaces, subdivision, simplification, meshing, holes filling, reconstructing, and refining the 3D surface objects on both point cloud data and triangular mesh. While the machine learning methods are developed using deep learning models. With the support of 3D laser scan devices and Lidar techniques, the obtained dataset is close to original shape of the real objects. Besides, the photography and its application based on the modern techniques in recent years help us collect data and process the 3D models more precise. This article proposes an improved method for filling holes on the 3D object surface based on an automatic segmentation. Instead of filling the hole directly as the existing methods, we now subdivide the hole before filling it. The hole is first determined and segmented automatically based on computation of its local curvature. It is then filled on each part of the hole to match its local curvature shape. The method can work on both 3D point cloud surfaces and triangular mesh surface. Comparing to the state of the art methods, our proposed method obtained higher accuracy of the reconstructed 3D objects.
翻訳日:2023-10-18 18:46:54 公開日:2023-10-16
# Invisible Map:スマートフォンを用いた屋内ナビゲーションのためのフィデューシャルマーカー付きビジュアル慣性SLAM

The Invisible Map: Visual-Inertial SLAM with Fiducial Markers for Smartphone-based Indoor Navigation ( http://arxiv.org/abs/2310.10862v1 )

ライセンス: Link先を確認
Paul Ruvolo, Ayush Chakraborty, Rucha Dave, Richard Li, Duncan Mazza, Xierui Shen, Raiyan Siddique and Krishna Suresh(参考訳) 本稿では,メインストリームのスマートフォンを用いた3Dマップ作成システムを提案する。 提案手法では,グラフSLAMの例として3次元マッピング問題を定式化し,ランドマーク(画像マーカー)とナビゲーション可能な環境(音声ポーズ)の両方の位置を推定する。 本結果は,正確な3次元地図作成能力を示すものである。 さらに,ハイパーパラメータを慎重に選択することの重要性を強調し,これらのハイパーパラメータを調整してアルゴリズムを新しい環境に適応させる手法を提案する。

We present a system for creating building-scale, easily navigable 3D maps using mainstream smartphones. In our approach, we formulate the 3D-mapping problem as an instance of Graph SLAM and infer the position of both building landmarks (fiducial markers) and navigable paths through the environment (phone poses). Our results demonstrate the system's ability to create accurate 3D maps. Further, we highlight the importance of careful selection of mapping hyperparameters and provide a novel technique for tuning these hyperparameters to adapt our algorithm to new environments.
翻訳日:2023-10-18 18:46:32 公開日:2023-10-16
# SoybeanNet:無人航空機(UAV)画像からダイズポッドを数えるトランスフォーマーベースの畳み込みニューラルネットワーク

SoybeanNet: Transformer-Based Convolutional Neural Network for Soybean Pod Counting from Unmanned Aerial Vehicle (UAV) Images ( http://arxiv.org/abs/2310.10861v1 )

ライセンス: Link先を確認
Jiajia Li, Raju Thada Magar, Dong Chen, Feng Lin, Dechun Wang, Xiang Yin, Weichao Zhuang and Zhaojian Li(参考訳) 大豆は食物、タンパク質、油の重要な供給源であり、その収量の向上、栽培法の改善、大豆の育種技術の進歩をめざす広範な研究が行われている。 この文脈において、ダイズポッドカウントは生産の理解と最適化において重要な役割を果たす。 近年の進歩にもかかわらず,実地環境で効果的に動作可能なロバストポッドカウントアルゴリズムの開発は,米国ミシガン州の実際の大豆畑から採取した無人航空機(uav)画像を用いた高精度大豆ポッドカウント手法の先駆的課題である。 具体的には,大豆ポッドの同時カウントとローカライゼーションを高精度に行うために,強力なトランスフォーマーバックボーンを利用する新しいポイントベースカウントネットワークであるSoybeanNetを提案する。 さらに、ダイズポッドカウントのためのUAV取得画像のデータセットが作成、オープンソース化され、113枚のドローン画像と260k以上の手動で注釈付けされたダイズポッドが自然の照明下で捕獲された。 総合的な評価を通じて、SoybeanNetは、収集した画像をテストする際に、5つの最先端アプローチよりも優れた性能を示した。 注目すべきは、SoybeanNetがテストデータセットでテストした場合のカウント精度が84.51\%に達したことだ。 また、ソースコード(\url{https://github.com/jiajiali04/soybean-pod-counting-from-uav-images})とラベル付き大豆データセット(\url{https://www.kaggle.com/datasets/jiajiali/uav-based-soybean-pod-images})も提供している。

Soybeans are a critical source of food, protein and oil, and thus have received extensive research aimed at enhancing their yield, refining cultivation practices, and advancing soybean breeding techniques. Within this context, soybean pod counting plays an essential role in understanding and optimizing production. Despite recent advancements, the development of a robust pod-counting algorithm capable of performing effectively in real-field conditions remains a significant challenge This paper presents a pioneering work of accurate soybean pod counting utilizing unmanned aerial vehicle (UAV) images captured from actual soybean fields in Michigan, USA. Specifically, this paper presents SoybeanNet, a novel point-based counting network that harnesses powerful transformer backbones for simultaneous soybean pod counting and localization with high accuracy. In addition, a new dataset of UAV-acquired images for soybean pod counting was created and open-sourced, consisting of 113 drone images with more than 260k manually annotated soybean pods captured under natural lighting conditions. Through comprehensive evaluations, SoybeanNet demonstrated superior performance over five state-of-the-art approaches when tested on the collected images. Remarkably, SoybeanNet achieved a counting accuracy of $84.51\%$ when tested on the testing dataset, attesting to its efficacy in real-world scenarios. The publication also provides both the source code (\url{https://github.com/JiajiaLi04/Soybean-Pod-Counting-from-UAV-Images}) and the labeled soybean dataset (\url{https://www.kaggle.com/datasets/jiajiali/uav-based-soybean-pod-images}), offering a valuable resource for future research endeavors in soybean pod counting and related fields.
翻訳日:2023-10-18 18:46:22 公開日:2023-10-16
# 多元深部強化学習を用いた信号化道路網における信号制御と車両ルーティングの協調最適化

Joint Optimization of Traffic Signal Control and Vehicle Routing in Signalized Road Networks using Multi-Agent Deep Reinforcement Learning ( http://arxiv.org/abs/2310.10856v1 )

ライセンス: Link先を確認
Xianyue Peng, Hang Gao, Gengyue Han, Hao Wang, Michael Zhang(参考訳) 都市交通渋滞は現代の道路網を苦しめる重要な課題である。 この問題を緩和し、交通効率を高めるために、交通信号制御と車両のルーティングが効果的な手段であることが証明されている。 本稿では,信号化道路網における交通信号制御と車両ルーティングの協調最適化手法を提案する。 本研究の目的は,マルチエージェント深層強化学習(madrl)を用いた信号タイミングと経路選択の同時制御によるネットワーク性能の向上である。 信号制御エージェント (sas) は交差点での信号タイミングの確立に用いられ、一方、ras ( vehicle routing agent) は車両経路の選定に責任がある。 エージェント間の関連性を確立し、観察と報酬を共有できるようにすることで、エージェント間の相互作用と協力が促進され、個々のトレーニングが強化される。 Multi-Agent Advantage Actor-Criticアルゴリズムはマルチエージェント環境を処理するために使用され、Deep Neural Network(DNN)構造はアルゴリズムの収束を促進するために設計されている。 特筆すべきは,信号制御と車両経路の最適ジョイントポリシの決定にmadrlを最初に利用したことである。 改良Siouxネットワーク上で行った数値実験により、信号制御と車両ルーティングの統合は、信号タイミングや車両の経路のみを制御し、交通効率を向上することを示した。

Urban traffic congestion is a critical predicament that plagues modern road networks. To alleviate this issue and enhance traffic efficiency, traffic signal control and vehicle routing have proven to be effective measures. In this paper, we propose a joint optimization approach for traffic signal control and vehicle routing in signalized road networks. The objective is to enhance network performance by simultaneously controlling signal timings and route choices using Multi-Agent Deep Reinforcement Learning (MADRL). Signal control agents (SAs) are employed to establish signal timings at intersections, whereas vehicle routing agents (RAs) are responsible for selecting vehicle routes. By establishing relevance between agents and enabling them to share observations and rewards, interaction and cooperation among agents are fostered, which enhances individual training. The Multi-Agent Advantage Actor-Critic algorithm is used to handle multi-agent environments, and Deep Neural Network (DNN) structures are designed to facilitate the algorithm's convergence. Notably, our work is the first to utilize MADRL in determining the optimal joint policy for signal control and vehicle routing. Numerical experiments conducted on the modified Sioux network demonstrate that our integration of signal control and vehicle routing outperforms controlling signal timings or vehicles' routes alone in enhancing traffic efficiency.
翻訳日:2023-10-18 18:45:40 公開日:2023-10-16
# cotformer: より少ない深さで注意を向けるトークンが増える

CoTFormer: More Tokens With Attention Make Up For Less Depth ( http://arxiv.org/abs/2310.10845v1 )

ライセンス: Link先を確認
Amirkeivan Mohtashami, Matteo Pagliardini, Martin Jaggi(参考訳) より大きくより深い基盤モデルを継続的に開発するレースが進行中である。 しかし、Chain-of-Thought(CoT)メソッドのようなテクニックは、最適な下流のパフォーマンスを達成する上で重要な役割を担い続けている。 本研究では,チェーン・オブ・シントとより深い変換器を併用した近似的な並列性を確立する。 この知見に基づいて,より深いモデルに匹敵するキャパシティを実現するために,暗黙のCoTライクなメカニズムを利用するトランスフォーマー変種であるCoTFormerを紹介する。 実験により,CoTFormersが標準変圧器より大幅に優れており,CoTFormersの有効性が示された。

The race to continually develop ever larger and deeper foundational models is underway. However, techniques like the Chain-of-Thought (CoT) method continue to play a pivotal role in achieving optimal downstream performance. In this work, we establish an approximate parallel between using chain-of-thought and employing a deeper transformer. Building on this insight, we introduce CoTFormer, a transformer variant that employs an implicit CoT-like mechanism to achieve capacity comparable to a deeper model. Our empirical findings demonstrate the effectiveness of CoTFormers, as they significantly outperform larger standard transformers.
翻訳日:2023-10-18 18:45:21 公開日:2023-10-16
# 敵意攻撃による大規模言語モデルの脆弱性調査

Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks ( http://arxiv.org/abs/2310.10844v1 )

ライセンス: Link先を確認
Erfan Shayegani, Md Abdullah Al Mamun, Yu Fu, Pedram Zaree, Yue Dong, Nael Abu-Ghazaleh(参考訳) 大規模言語モデル(llm)はアーキテクチャと能力において急速に進歩しており、複雑なシステムにより深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まる。 本稿では, 自然言語処理とセキュリティの両面から, 信頼に値するMLのサブフィールドであるLLMに対する, 学際的攻撃の新たな分野について調査する。 以前の研究は、安全に整合したLSMでさえ(人間のフィードバックを通じて指導チューニングと強化学習を通じて)、ChatGPTやBardのようなモデルに対する'jailbreak'攻撃の頻度によって証明されているように、弱点や誤ったAIシステムを悪用する敵攻撃の影響を受けやすいことを示した。 本調査ではまず,大規模言語モデルの概要,安全性の整合性の説明,テキストのみの攻撃,マルチモーダル攻撃,フェデレート学習やマルチエージェントシステムなどの複雑なシステムを対象とした攻撃方法など,さまざまな学習構造に基づく既存研究の分類を行う。 また、脆弱性や潜在的な防御の基本的な源泉に焦点を当てた作業に関する包括的な発言も提供します。 この分野を新参者にとってよりアクセスしやすいものにするため,本論文では,既存の著作物の体系的レビュー,敵の攻撃概念の構造化的タイポロジー,および関連するトピックに関するプレゼンテーションのスライドを含む追加リソースについて紹介する(acl'24)。

Large Language Models (LLMs) are swiftly advancing in architecture and capability, and as they integrate more deeply into complex systems, the urgency to scrutinize their security properties grows. This paper surveys research in the emerging interdisciplinary field of adversarial attacks on LLMs, a subfield of trustworthy ML, combining the perspectives of Natural Language Processing and Security. Prior work has shown that even safety-aligned LLMs (via instruction tuning and reinforcement learning through human feedback) can be susceptible to adversarial attacks, which exploit weaknesses and mislead AI systems, as evidenced by the prevalence of `jailbreak' attacks on models like ChatGPT and Bard. In this survey, we first provide an overview of large language models, describe their safety alignment, and categorize existing research based on various learning structures: textual-only attacks, multi-modal attacks, and additional attack methods specifically targeting complex systems, such as federated learning or multi-agent systems. We also offer comprehensive remarks on works that focus on the fundamental sources of vulnerabilities and potential defenses. To make this field more accessible to newcomers, we present a systematic review of existing works, a structured typology of adversarial attack concepts, and additional resources, including slides for presentations on related topics at the 62nd Annual Meeting of the Association for Computational Linguistics (ACL'24).
翻訳日:2023-10-18 18:45:10 公開日:2023-10-16
# ガウス混合モデルとマスキング自己回帰流を用いた密度推定による確率的分類

Probabilistic Classification by Density Estimation Using Gaussian Mixture Model and Masked Autoregressive Flow ( http://arxiv.org/abs/2310.10843v1 )

ライセンス: Link先を確認
Benyamin Ghojogh, Milad Amir Toutounchian(参考訳) データの分布を推定する密度推定は、確率的機械学習の重要なカテゴリである。 密度推定器の族は、期待最大化によるガウス混合モデル(GMM)のような混合モデルである。 密度推定器のもう1つのファミリーは、入力潜在変数からデータを生成する生成モデルである。 生成モデルの1つは、正規化フローと自己回帰ネットワークを利用するMasked Autoregressive Flow (MAF)である。 本稿では,密度推定器を用いて分類するが,データの分布を推定するためによく用いられる。 我々は,GMMとMAFを用いて,密度推定によるデータクラスの可能性のモデル化を行う。 提案する分類器は, 1 つのガウス分布のみを用いて確率をモデル化する線形判別分析などの単純な分類器よりも優れている。 本研究は,結合密度推定に基づく他の確率的分類器を提案するための研究の扉を開く。

Density estimation, which estimates the distribution of data, is an important category of probabilistic machine learning. A family of density estimators is mixture models, such as Gaussian Mixture Model (GMM) by expectation maximization. Another family of density estimators is the generative models which generate data from input latent variables. One of the generative models is the Masked Autoregressive Flow (MAF) which makes use of normalizing flows and autoregressive networks. In this paper, we use the density estimators for classification, although they are often used for estimating the distribution of data. We model the likelihood of classes of data by density estimation, specifically using GMM and MAF. The proposed classifiers outperform simpler classifiers such as linear discriminant analysis which model the likelihood using only a single Gaussian distribution. This work opens the research door for proposing other probabilistic classifiers based on joint density estimation.
翻訳日:2023-10-18 18:44:42 公開日:2023-10-16
# センサデータ記録時系列における周波数に基づく事象の自動検出のための機械学習アルゴリズム

A Machine Learning-based Algorithm for Automated Detection of Frequency-based Events in Recorded Time Series of Sensor Data ( http://arxiv.org/abs/2310.10841v1 )

ライセンス: Link先を確認
Bahareh Medghalchi, Andreas Vogel(参考訳) 自動イベント検出は,センサデータを用いた技術システムの挙動監視の基本的な手法の1つである。 自動車業界では、これらの手法は時系列データでイベントを追跡する需要が高い。 車両の安全システムを評価するため、様々な運転シナリオが実施されている。 これらのシナリオでは、外部センサーを使用して車両の挙動を記録し、運用性能の評価を可能にする。 このような状況下では、自動検出手法は、データ検査における主観的、人間に基づく評価を回避し、評価を標準化し、客観化する。 本研究では,時系列データ中の周波数に基づくイベントを識別する新しいイベント検出手法を提案する。 この目的のために、時系列データは、スカルグラムとして知られる時間周波数領域の表現にマッピングされる。 信号の関連部分を強化するためにスカルグラムをフィルタリングした後、対象検出モデルを訓練して、スカルグラム内の所望のイベントオブジェクトを検出する。 未発見の時系列データの解析には、訓練対象検出モデルを用いて、それらのスカルグラム内でイベントを検出でき、その後、時系列データにマッピングして対応する時間間隔をマークする。 このアルゴリズムは、未知のデータセットで評価され、イベント検出において0.97の精度を実現し、人間の視覚検査による正確な指示が難しい鋭い時間間隔境界を提供する。 この手法を車両開発プロセスに組み込むことで、迅速なテスト分析において重要なイベント検出の精度と信頼性が向上する。

Automated event detection has emerged as one of the fundamental practices to monitor the behavior of technical systems by means of sensor data. In the automotive industry, these methods are in high demand for tracing events in time series data. For assessing the active vehicle safety systems, a diverse range of driving scenarios is conducted. These scenarios involve the recording of the vehicle's behavior using external sensors, enabling the evaluation of operational performance. In such setting, automated detection methods not only accelerate but also standardize and objectify the evaluation by avoiding subjective, human-based appraisals in the data inspection. This work proposes a novel event detection method that allows to identify frequency-based events in time series data. To this aim, the time series data is mapped to representations in the time-frequency domain, known as scalograms. After filtering scalograms to enhance relevant parts of the signal, an object detection model is trained to detect the desired event objects in the scalograms. For the analysis of unseen time series data, events can be detected in their scalograms with the trained object detection model and are thereafter mapped back to the time series data to mark the corresponding time interval. The algorithm, evaluated on unseen datasets, achieves a precision rate of 0.97 in event detection, providing sharp time interval boundaries whose accurate indication by human visual inspection is challenging. Incorporating this method into the vehicle development process enhances the accuracy and reliability of event detection, which holds major importance for rapid testing analysis.
翻訳日:2023-10-18 18:44:28 公開日:2023-10-16
# 一般散乱過程におけるヘリシティ状態の量子トモグラフィー

Quantum tomography of helicity states for general scattering processes ( http://arxiv.org/abs/2310.10838v1 )

ライセンス: Link先を確認
Alexander Bernal(参考訳) 量子トモグラフィーは、物理学における量子系の密度行列 $\rho$ を計算するために必須のツールとなっている。 近年、高エネルギー粒子物理学におけるエンタングルメントとベルの不等式試験の基本的なステップとしての重要性が高まっている。 本稿では,一般散乱過程のヘリシティ量子初期状態を再構成するための理論的枠組みを提案する。 特に、既約テンソル作用素 $\{t^l_m\}$ 上で$\rho$ の展開を行い、適切な選択されたウィグナー d-行列重み(最終粒子の角分布データ)の下で平均化によって対応する係数を一意に計算する。 さらに、正規化微分断面と一般化生産行列 $\Gamma$ の両方の明示的な角依存性を与える。 最後に、weyl-wigner-moyal 形式を用いた量子情報の観点から、これまでのすべての結果を再導出し、wigner $p$ と $q$ の記号に対する単純な解析式を得る。

Quantum tomography has become an indispensable tool in order to compute the density matrix $\rho$ of quantum systems in Physics. Recently, it has further gained importance as a basic step to test entanglement and violation of Bell inequalities in High-Energy Particle Physics. In this work, we present the theoretical framework for reconstructing the helicity quantum initial state of a general scattering process. In particular, we perform an expansion of $\rho$ over the irreducible tensor operators $\{T^L_M\}$ and compute the corresponding coefficients uniquely by averaging, under properly chosen Wigner D-matrices weights, the angular distribution data of the final particles. Besides, we provide the explicit angular dependence of both the normalised differential cross section and the generalised production matrix $\Gamma$. Finally, we re-derive all our previous results from a quantum-information perspective using the Weyl-Wigner-Moyal formalism and we obtain in addition simple analytical expressions for the Wigner $P$ and $Q$ symbols.
翻訳日:2023-10-18 18:44:03 公開日:2023-10-16
# 効率的な変圧器用2層フィードフォワードネットワークの近似

Approximating Two-Layer Feedforward Networks for Efficient Transformers ( http://arxiv.org/abs/2310.10837v1 )

ライセンス: Link先を確認
R\'obert Csord\'as, Kazuki Irie, J\"urgen Schmidhuber(参考訳) パフォーマンスを犠牲にすることなく、ニューラルネットワーク(NN)の計算とメモリ要件をいかに削減するか? 最近の多くの作品では、リソース効率の高い大言語モデル(lms)を構築するために、専門家のスパース混合物(moes)を使用している。 ここでは,2層NN(例えば,トランスフォーマーのフィードフォワードブロック)を近似する様々な手法を統一する汎用フレームワークとして,製品キーメモリ(PKM)など,MoEに関するいくつかの新しい視点を紹介する。 このフレームワークからの洞察を生かして,moesとpkmsの両方を改善する手法を提案する。 計算方程式条件下でmoesと密接なベースラインを比較する先行研究とは異なり,本評価条件はパラメータ等式であり,lmsを適切に評価することが重要である。 当社のmoesはwikitext-103とenwiki8のデータセットで2つの異なるスケールで高密度トランスフォーマーxlと競合するが、リソース効率ははるかに高い。 このことは、MoE が極めて大きな LM だけでなく、資源効率の高い LM にも関係していることを示している。 私たちのコードは公開されています。

How to reduce compute and memory requirements of neural networks (NNs) without sacrificing performance? Many recent works use sparse Mixtures of Experts (MoEs) to build resource-efficient large language models (LMs). Here we introduce several novel perspectives on MoEs, presenting a general framework that unifies various methods to approximate two-layer NNs (e.g., feedforward blocks of Transformers), including product-key memories (PKMs). Leveraging insights from this framework, we propose methods to improve both MoEs and PKMs. Unlike prior work that compares MoEs with dense baselines under the compute-equal condition, our evaluation condition is parameter-equal, which is crucial to properly evaluate LMs. We show that our MoEs are competitive with the dense Transformer-XL on both the WikiText-103 and enwiki8 datasets at two different scales, while being much more resource efficient. This demonstrates that MoEs are relevant not only to extremely large LMs but also to any-scale resource-efficient LMs. Our code is public.
翻訳日:2023-10-18 18:43:42 公開日:2023-10-16
# 簡単な漸近的最適クリフォード回路コンパイルアルゴリズム

A simple asymptotically optimal Clifford circuit compilation algorithm ( http://arxiv.org/abs/2310.10882v1 )

ライセンス: Link先を確認
Timothy Proctor and Kevin Young(参考訳) 我々は,任意の$n$-qubit Clifford演算子をCNOTまたはCPHASEゲートのみを含む3つのサブ回路と,各サブ回路の前後の1量子ゲートの層からなる回路に分解するアルゴリズムを提案する。 他の漸近的に最適なクリフォードコンパイルアルゴリズムと同様に、回路は$o(n^2/\log n)$ 2 量子ビットゲートを含む。 アルゴリズムの導出はクリフォードゲートのシンプレクティック表現、基本行および列行列の操作、および0 と 1 上の一般行列のいくつかの既知の性質のみを必要とする。

We present an algorithm that decomposes any $n$-qubit Clifford operator into a circuit consisting of three subcircuits containing only CNOT or CPHASE gates with layers of one-qubit gates before and after each of these subcircuits. As with other asymptotically optimal Clifford compilation algorithms, the resulting circuit contains $O(n^2/\log n)$ two-qubit gates. The derivation of our algorithm only requires the symplectic representation of Clifford gates, basic row and column matrix manipulations, and some known properties of general matrices over 0 and 1.
翻訳日:2023-10-18 18:36:56 公開日:2023-10-16
# BLoad: 効率的なシーケンスデータ処理によるニューラルネットワークトレーニングの強化

BLoad: Enhancing Neural Network Training with Efficient Sequential Data Handling ( http://arxiv.org/abs/2310.10879v1 )

ライセンス: Link先を確認
Raphael Ruschel, A. S. M. Iftekhar, B. S. Manjunath, Suya You(参考訳) 現代のディープニューラルネットワークモデルの複雑さの増加とデータセットのサイズ拡大は、最適化されたスケーラブルなトレーニング方法の開発を必要とする。 本稿では,様々な大きさのシーケンスを用いたニューラルネットワークモデルの効率的に学習することの課題について論じる。 この課題に対処すべく,少ないオーバヘッドで,異なるサイズのシーケンスで効率的な分散データ並列トレーニングを実現する新しいトレーニング手法を提案する。 このスキームを使用することで、1つのフレームを削除することなく、パディングの量を100$x$以上削減することができ、トレーニング時間とリコールの両方で全体的なパフォーマンスが向上しました。

The increasing complexity of modern deep neural network models and the expanding sizes of datasets necessitate the development of optimized and scalable training methods. In this white paper, we addressed the challenge of efficiently training neural network models using sequences of varying sizes. To address this challenge, we propose a novel training scheme that enables efficient distributed data-parallel training on sequences of different sizes with minimal overhead. By using this scheme we were able to reduce the padding amount by more than 100$x$ while not deleting a single frame, resulting in an overall increased performance on both training time and Recall in our experiments.
翻訳日:2023-10-18 18:36:47 公開日:2023-10-16
# ニューラルネットワークを用いた自動走行車のエコ運転制御

Eco-Driving Control of Connected and Automated Vehicles using Neural Network based Rollout ( http://arxiv.org/abs/2310.10878v1 )

ライセンス: Link先を確認
Jacob Paugh, Zhaoxuan Zhu, Shobhit Gupta, Marcello Canova, Stephanie Stockar(参考訳) 接続された自動運転車は、車速とパワートレインのダイナミクスを車間情報で最適化することで、エネルギー消費を最小限に抑えることができる。 既存の決定論的および確率論的手法は、一般に高い計算とメモリ要求に悩まされ、オンライン実装は困難である。 本稿では,ニューラルネットワークを用いた階層型マルチホライゾン最適化フレームワークを提案する。 ニューラルネットワークは、経路情報のばらつきを考慮したフルルート値関数を学習し、後退地平線最適化における終端コストを近似するために使用される。 実世界の経路上でのシミュレーションにより,提案手法は強化学習によって得られる確率的最適化ソリューションに匹敵する性能を達成し,高度な訓練パラダイムやオンボードメモリの無視を必要としないことを示した。

Connected and autonomous vehicles have the potential to minimize energy consumption by optimizing the vehicle velocity and powertrain dynamics with Vehicle-to-Everything info en route. Existing deterministic and stochastic methods created to solve the eco-driving problem generally suffer from high computational and memory requirements, which makes online implementation challenging. This work proposes a hierarchical multi-horizon optimization framework implemented via a neural network. The neural network learns a full-route value function to account for the variability in route information and is then used to approximate the terminal cost in a receding horizon optimization. Simulations over real-world routes demonstrate that the proposed approach achieves comparable performance to a stochastic optimization solution obtained via reinforcement learning, while requiring no sophisticated training paradigm and negligible on-board memory.
翻訳日:2023-10-18 18:36:36 公開日:2023-10-16
# 21世紀における宗教関係--世界価値調査における機械学習の視点から

Religious Affiliation in the Twenty-First Century: A Machine Learning Perspective on the World Value Survey ( http://arxiv.org/abs/2310.10874v1 )

ライセンス: Link先を確認
Elaheh Jafarigol, William Keely, Tess Hartog, Tom Welborn, Peyman Hekmatpour, Theodore B. Trafalis(参考訳) 本稿では,世界値調査によって収集されたデータを定量的に分析する。 このデータは、社会における個人の宗教的信念、価値観、行動の変化の軌跡を研究するために用いられる。 本研究は,無作為林の利用により,信頼度の主要な要因を特定し,国レベルのデータを用いて宗教的・非宗教的に分類することを目的とする。 データのバランスを保ち、不均衡な学習パフォーマンスメトリクスを改善するために、再サンプリング技術を使用します。 変動重要度分析の結果は、ほとんどの国で年齢と所得が最も重要な変数であることを示している。 結果は、宗教と人間の行動に関する基本的な社会学的理論と議論される。 本研究は,世界価値調査に参加する30カ国のデータに基盤となるパターンを特定するための機械学習の応用である。 不均衡データの可変重要度分析と分類の結果は、理論家や社会科学研究者にとって有益な洞察を与える。

This paper is a quantitative analysis of the data collected globally by the World Value Survey. The data is used to study the trajectories of change in individuals' religious beliefs, values, and behaviors in societies. Utilizing random forest, we aim to identify the key factors of religiosity and classify respondents of the survey as religious and non religious using country level data. We use resampling techniques to balance the data and improve imbalanced learning performance metrics. The results of the variable importance analysis suggest that Age and Income are the most important variables in the majority of countries. The results are discussed with fundamental sociological theories regarding religion and human behavior. This study is an application of machine learning in identifying the underlying patterns in the data of 30 countries participating in the World Value Survey. The results from variable importance analysis and classification of imbalanced data provide valuable insights beneficial to theoreticians and researchers of social sciences.
翻訳日:2023-10-18 18:36:23 公開日:2023-10-16
# IDEAL: インフルエンス駆動選択アノテーションは、大規模言語モデルにおけるインテクスト学習に役立てる

IDEAL: Influence-Driven Selective Annotations Empower In-Context Learners in Large Language Models ( http://arxiv.org/abs/2310.10873v1 )

ライセンス: Link先を確認
Shaokun Zhang, Xiaobo Xia, Zhaoqing Wang, Ling-Hao Chen, Jiale Liu, Qingyun Wu, Tongliang Liu(参考訳) インコンテキスト学習は、大規模言語モデルの予測のプロンプトとして、インコンテキストサンプルを利用する有望なパラダイムである。 これらのプロンプトは、強力なパフォーマンスを達成するために重要です。 しかし、多くの注釈付き例からプロンプトをサンプリングする必要があるため、適切なプロンプトを見つけると、アノテーションコストが高くなる可能性がある。 そこで本稿では,アノテーションのコストを最小化し,文脈内例の品質を向上させるためのインフルエンス駆動選択的アノテーション手法を提案する。 本手法の本質は,大規模非ラベルデータプールから重要なサブセットを選択し,それに続くプロンプトのサンプリングに注釈を付けることである。 具体的には、有向グラフはラベルのないデータを表すために最初に構築される。 その後、候補非ラベル部分集合の影響は拡散過程によって定量化される。 ラベルなしデータ選択のための単純で効果的なグリードアルゴリズムを最後に紹介する。 定量化された影響に対して限界ゲインが最大であれば、データを反復的に選択する。 提案手法は,従来の選択アノテーションと比較してエンドツーエンドで機能し,データの多様性と代表性の間の難解なバランスを回避し,理論的支援を享受する。 実験では,提案手法が様々なベンチマークで優れていることを確認し,部分集合選択時の低消費下での性能を向上した。 プロジェクトページはhttps://skzhang1.github.io/ideal/。

In-context learning is a promising paradigm that utilizes in-context examples as prompts for the predictions of large language models. These prompts are crucial for achieving strong performance. However, since the prompts need to be sampled from a large volume of annotated examples, finding the right prompt may result in high annotation costs. To address this challenge, this paper introduces an influence-driven selective annotation method that aims to minimize annotation costs while improving the quality of in-context examples. The essence of our method is to select a pivotal subset from a large-scale unlabeled data pool to annotate for the subsequent sampling of prompts. Specifically, a directed graph is first constructed to represent unlabeled data. Afterward, the influence of candidate unlabeled subsets is quantified with a diffusion process. A simple yet effective greedy algorithm for unlabeled data selection is lastly introduced. It iteratively selects the data if it provides a maximum marginal gain with respect to quantified influence. Compared with previous efforts on selective annotations, our influence-driven method works in an end-to-end manner, avoids an intractable explicit balance between data diversity and representativeness, and enjoys theoretical support. Experiments confirm the superiority of the proposed method on various benchmarks, achieving better performance under lower time consumption during subset selection. The project page is available at https://skzhang1.github.io/IDEAL/.
翻訳日:2023-10-18 18:36:10 公開日:2023-10-16
# スライスマッチング作用素の近似特性

Approximation properties of slice-matching operators ( http://arxiv.org/abs/2310.10869v1 )

ライセンス: Link先を確認
Shiying Li and Caroline Moosmueller(参考訳) 反復スライスマッチング手順は、特に高次元において、ソース測度をターゲット測度に転送する効率的なスキームである。 これらのスキームはカラー転送や形状検索などのアプリケーションでうまく使われており、正規性仮定の下で収束することが保証されている。 本稿では,そのような反復スキームの1ステップに関する近似特性を,ソース測度,目標測度,スライシング方向に応じて関連するスライスマッチング演算子を調べることにより検討する。 特に,ソース測度に対する不変性,対象測度に対する同分散性,スライシング方向に関するリプシッツ連続性を示す。 さらに、スライスマッチングスキームの1ステップで目標測度を近似する誤差境界を設定し、スライスマッチングオペレータが2つの測度間の最適な輸送マップを復元する状況を特徴付ける。 また, (スライス) ワッサースタイン距離に関するアフィン登録問題との関連性についても検討した。 これらの接続はスライスマッチング作用素の不変性と等値性の拡張と見なすことができ、スライスマッチングスキームがアフィン効果を包含する範囲を示すことができる。

Iterative slice-matching procedures are efficient schemes for transferring a source measure to a target measure, especially in high dimensions. These schemes have been successfully used in applications such as color transfer and shape retrieval, and are guaranteed to converge under regularity assumptions. In this paper, we explore approximation properties related to a single step of such iterative schemes by examining an associated slice-matching operator, depending on a source measure, a target measure, and slicing directions. In particular, we demonstrate an invariance property with respect to the source measure, an equivariance property with respect to the target measure, and Lipschitz continuity concerning the slicing directions. We furthermore establish error bounds corresponding to approximating the target measure by one step of the slice-matching scheme and characterize situations in which the slice-matching operator recovers the optimal transport map between two measures. We also investigate connections to affine registration problems with respect to (sliced) Wasserstein distances. These connections can be also be viewed as extensions to the invariance and equivariance properties of the slice-matching operator and illustrate the extent to which slice-matching schemes incorporate affine effects.
翻訳日:2023-10-18 18:35:49 公開日:2023-10-16
# 王子は本当の愛のキスを得るのか? フェアリータルテキスト上のジェンダー摂動に対するモデル感度について

Will the Prince Get True Love's Kiss? On the Model Sensitivity to Gender Perturbation over Fairytale Texts ( http://arxiv.org/abs/2310.10865v1 )

ライセンス: Link先を確認
Christina Chance, Da Yin, Dakuo Wang, Kai-Wei Chang(参考訳) 最近の研究では、伝統的な妖精は有害な性的偏見を持つ。 本研究の目的は, 性差に対する頑健性を評価することによって, 言語モデルの学習バイアスを評価することである。 具体的には、妖精の質問応答(QA)タスクに焦点を当てる。 本研究では,FairytaleQAデータセットに対する非現実的データ拡張を用いて,スワップしたジェンダーキャラクタ情報に対するモデルロバスト性を評価し,トレーニング中に反現実的ジェンダーステレオタイプを導入することで学習バイアスを軽減する。 さらに,おとぎ話以外のテキストジャンルをサポートするために,言語モデルの膨大な語彙を利用する新しい手法を提案する。 実験結果から,モデルが性別の摂動に敏感であることが示唆された。 しかし、反事実訓練データセットで最初に微調整された場合、モデルは後に導入された反ジェンダーステレオタイプテキストに対する感度が低下する。

Recent studies show that traditional fairytales are rife with harmful gender biases. To help mitigate these gender biases in fairytales, this work aims to assess learned biases of language models by evaluating their robustness against gender perturbations. Specifically, we focus on Question Answering (QA) tasks in fairytales. Using counterfactual data augmentation to the FairytaleQA dataset, we evaluate model robustness against swapped gender character information, and then mitigate learned biases by introducing counterfactual gender stereotypes during training time. We additionally introduce a novel approach that utilizes the massive vocabulary of language models to support text genres beyond fairytales. Our experimental results suggest that models are sensitive to gender perturbations, with significant performance drops compared to the original testing set. However, when first fine-tuned on a counterfactual training dataset, models are less sensitive to the later introduced anti-gender stereotyped text.
翻訳日:2023-10-18 18:35:28 公開日:2023-10-16
# 量子重ね合わせにおける回転ブラックホールのシグネチャ

Signatures of Rotating Black Holes in Quantum Superposition ( http://arxiv.org/abs/2310.10864v1 )

ライセンス: Link先を確認
Cendikiawan Suryaatmadja, Cemile Senem Arabaci, Matthew P. G. Robbins, Joshua Foo, Magdalena Zych, Robert B. Mann(参考訳) 半古典状態の量子重ね合わせにおける時空の影響を運用的に研究するための新しいアプローチが、最近著者たちによって提案されている。 このアプローチは、質量の重畳における(2+1)次元のBa\~nados-Teitelboim-Zanelli (BTZ)ブラックホールの場合に適用され、時空に存在する量子場と相互作用する2段階の系が重畳された質量の特定の値で共鳴ピークを示すことを示した。 ここで、この解析を質量重ね合わせの回転するbtzブラックホールに拡張し、2段階の系が軌道の重ね合わせでブラックホールと共回転する場合を考える。 重畳された外地平線半径の有理比での検出器応答関数における同様の共鳴は、特に内地平線と外地平線の比が固定された場合に見いだされる。 これは、量子重力におけるブラックホールの離散的地平線スペクトルに関するベッケンシュタインのseminal conjectureとの関係を示唆している。 量子重力現象の深い洞察は、相対論的量子情報や時空量子場理論のツールを通して得られる可能性がある。

A new approach for operationally studying the effects of spacetime in quantum superpositions of semiclassical states has recently been proposed by some of the authors. This approach was applied to the case of a (2+1)-dimensional Ba\~nados-Teitelboim-Zanelli (BTZ) black hole in a superposition of masses, where it was shown that a two-level system interacting with a quantum field residing in the spacetime exhibits resonant peaks in its response at certain values of the superposed masses. Here, we extend this analysis to a mass-superposed rotating BTZ black hole, considering the case where the two-level system co-rotates with the black hole in a superposition of trajectories. We find similar resonances in the detector response function at rational ratios of the superposed outer horizon radii, specifically in the case where the ratio of the inner and outer horizons is fixed. This suggests a connection with Bekenstein's seminal conjecture concerning the discrete horizon spectra of black holes in quantum gravity, generalized to the case of rotating black holes. Our results suggest that deeper insights into quantum-gravitational phenomena may be accessible via tools in relativistic quantum information and curved spacetime quantum field theory.
翻訳日:2023-10-18 18:35:11 公開日:2023-10-16
# グリーディ・パースペクティブ: クラッタ環境における協調被覆のための多次元ビュープランニング

Greedy Perspectives: Multi-Drone View Planning for Collaborative Coverage in Cluttered Environments ( http://arxiv.org/abs/2310.10863v1 )

ライセンス: Link先を確認
Krishna Suresh, Aditya Rauniyar, Micah Corah, Sebastian Scherer(参考訳) 航空ロボットのチームの配置は、チームスポーツやシネマトグラフィーなどの分野における新しい応用のために、複雑な環境におけるダイナミックグループ(俳優)の大規模な撮影を可能にする。 この目的に向けて、シーケンシャル・グリーディ・プランニングによるサブモジュラー・マキシマイゼーション(submodular maximization)の手法は、ロボットチーム間のカメラビューのスケーラブルな最適化に使用することができる。 障害物はオクルージョンを発生させ、ロボット同士の衝突の可能性を増大させる。 密集した環境下での人々の撮影グループにおける航空ロボットのチームを協調させるためには、より一般的なビュープランニングアプローチが必要である。 本研究では,複数ロボットによるマルチアクタ・ビュー・プランナーの開発を通じて,衝突と咬合が撮影性能に与える影響について検討した。 パフォーマンスを評価するために,複雑なマルチアクタ動作を持つ5つのテスト環境を計画する。 フォーメーションプランナーと比較して、シーケンシャルプランナーは3つのシナリオでアクターよりも14%高いビュー報酬を発生させ、他の2つのシナリオでフォーメーションプランナーに匹敵するパフォーマンスを与えます。 また,ロボット間衝突制約を伴わない連続計画のほぼ同一性能を観測した。 全体として、衝突や閉塞を引き起こす障害物が混ざり合った環境下で、分割、融合、あるいは分散するグループを撮影するための航空ロボットのチームの効果的な調整を実証する。

Deployment of teams of aerial robots could enable large-scale filming of dynamic groups of people (actors) in complex environments for novel applications in areas such as team sports and cinematography. Toward this end, methods for submodular maximization via sequential greedy planning can be used for scalable optimization of camera views across teams of robots but face challenges with efficient coordination in cluttered environments. Obstacles can produce occlusions and increase chances of inter-robot collision which can violate requirements for near-optimality guarantees. To coordinate teams of aerial robots in filming groups of people in dense environments, a more general view-planning approach is required. We explore how collision and occlusion impact performance in filming applications through the development of a multi-robot multi-actor view planner with an occlusion-aware objective for filming groups of people and compare with a greedy formation planner. To evaluate performance, we plan in five test environments with complex multiple-actor behaviors. Compared with a formation planner, our sequential planner generates 14% greater view reward over the actors for three scenarios and comparable performance to formation planning on two others. We also observe near identical performance of sequential planning both with and without inter-robot collision constraints. Overall, we demonstrate effective coordination of teams of aerial robots for filming groups that may split, merge, or spread apart and in environments cluttered with obstacles that may cause collisions or occlusions.
翻訳日:2023-10-18 18:34:46 公開日:2023-10-16
# コスト効果のあるTCR-Epitope結合親和性予測のためのアクティブラーニングフレームワーク

Active Learning Framework for Cost-Effective TCR-Epitope Binding Affinity Prediction ( http://arxiv.org/abs/2310.10893v1 )

ライセンス: Link先を確認
Pengfei Zhang, Seojin Bang and Heewook Lee(参考訳) T細胞受容体(TCR)は、宿主細胞表面に提示されるエピトープ配列を認識して脅威に応答する免疫系の重要な構成要素である。 近年,機械/深層学習によるTCRとエピトープの結合親和性の計算的予測が注目されている。 しかし、その成功は注釈付きtcr-epitopeペアの大規模なコレクションの欠如によって妨げられている。 結合親和性を示すには、高価で時間を要するウェットラブの評価が必要である。 アノテーションコストを削減するため,アクティブラーニングとTCR-epitopeバインディング親和性予測モデルを組み込んだActiveTCRを提案する。 ラベル付きトレーニングペアの小さなセットから始めると、ActiveTCRはアノテーションの'worth'であるラベル付きTCR-epitopeペアを反復検索する。 アノテーションのコストを最小化しながら、パフォーマンスの向上を最大化する。 4つのクエリ戦略をランダムサンプリングベースラインと比較し,activetcrがアノテーションコストを約40%削減できることを実証した。 さらに,tcr-epitopeペアの基底的真理ラベルをクエリ戦略に提供することで,モデル性能を損なうことなく,すでに注釈付きペアの40%以上の冗長性を識別し,低減できることを示した。 本研究はtcr-epitope結合親和性予測のためのデータ最適化に関する最初の体系的調査である。

T cell receptors (TCRs) are critical components of adaptive immune systems, responsible for responding to threats by recognizing epitope sequences presented on host cell surface. Computational prediction of binding affinity between TCRs and epitope sequences using machine/deep learning has attracted intense attention recently. However, its success is hindered by the lack of large collections of annotated TCR-epitope pairs. Annotating their binding affinity requires expensive and time-consuming wet-lab evaluation. To reduce annotation cost, we present ActiveTCR, a framework that incorporates active learning and TCR-epitope binding affinity prediction models. Starting with a small set of labeled training pairs, ActiveTCR iteratively searches for unlabeled TCR-epitope pairs that are ''worth'' for annotation. It aims to maximize performance gains while minimizing the cost of annotation. We compared four query strategies with a random sampling baseline and demonstrated that ActiveTCR reduces annotation costs by approximately 40%. Furthermore, we showed that providing ground truth labels of TCR-epitope pairs to query strategies can help identify and reduce more than 40% redundancy among already annotated pairs without compromising model performance, enabling users to train equally powerful prediction models with less training data. Our work is the first systematic investigation of data optimization for TCR-epitope binding affinity prediction.
翻訳日:2023-10-18 18:23:33 公開日:2023-10-16
# Calysto Schemeプロジェクト

The Calysto Scheme Project ( http://arxiv.org/abs/2310.10886v1 )

ライセンス: Link先を確認
Douglas S. Blank and James B. Marshall(参考訳) Calysto SchemeはScheme in Continuation-Passing Styleで書かれており、一連の正当性保存プログラム変換を通じてPythonに変換する。 標準スキーム機能、call/cc、構文拡張、自動バックトラッキングのための非決定性演算子、pythonの相互運用を可能にする多くの拡張をサポートしている。 Python基盤のため、機械学習やその他の教育的コンテキストを含む、最新のPythonライブラリを利用することができる。 Calysto Schemeは教育目的で開発されたが、そのシンプルさとインストールの容易さから一般に有用であることが証明されている。 Jupyter Notebookエコシステムに統合され、教室でいくつかの興味深いユニークなツイストで入門プログラミング言語を教えるために使用されている。

Calysto Scheme is written in Scheme in Continuation-Passing Style, and converted through a series of correctness-preserving program transformations into Python. It has support for standard Scheme functionality, including call/cc, as well as syntactic extensions, a nondeterministic operator for automatic backtracking, and many extensions to allow Python interoperation. Because of its Python foundation, it can take advantage of modern Python libraries, including those for machine learning and other pedagogical contexts. Although Calysto Scheme was developed with educational purposes in mind, it has proven to be generally useful due to its simplicity and ease of installation. It has been integrated into the Jupyter Notebook ecosystem and used in the classroom to teach introductory Programming Languages with some interesting and unique twists.
翻訳日:2023-10-18 18:23:10 公開日:2023-10-16
# 変分量子回路における絡み合いの役割の校正

Calibrating the role of entanglement in variational quantum circuits ( http://arxiv.org/abs/2310.10885v1 )

ライセンス: Link先を確認
Azar C. Nakhl, Thomas Quella, Muhammad Usman(参考訳) 絡み合い(Entanglement)は量子コンピューティングの重要な性質であり、古典的なものと区別するが、量子アルゴリズム、特に変分量子アルゴリズムのパフォーマンスにおけるその正確な役割はよく理解されていない。 本研究では,量子近似最適化アルゴリズム (QAOA) と量子ニューラルネットワーク (QNN) の2つの変分量子アルゴリズムの動作における絡み合いの役割を,制御された絡み合い環境下での原型問題に対して系統的に解析するためにテンソルネットワーク手法を利用する。 QAOAを用いて解いたMAX-CUT問題に対して, 絡み合い関数としての忠実度は, 層数, グラフのエッジのレイアウト, エッジ密度に大きく依存しており, 一般に, 絡み合いの切り離しに対する高いレジリエンスを示すことが示されている。 これは、QAOAの忠実度がシステムの量子ビットあたりの絡み合いに関するスケーリング法則に従うことを示す4層以上のQAOA層に基づく以前の研究とは対照的である。 対照的に、QNNの場合、高いテスト精度のトレーニング回路は高い絡み合いによって支えられ、強制的な絡み合いの制限はテスト精度の急激な低下をもたらす。 これは、QAOAとは異なり、QNNは高い絡み合い状態を生成する量子デバイスを必要とすることを示唆する、一貫して高い回路の絡み合いエントロピーによって裏付けられている。 全体として、我々の研究は、変分量子アルゴリズムの作業における絡み合いの役割をより深く理解し、これらのアルゴリズムをnisq時代の量子ハードウェアに最大化する方法で実装するのに役立つかもしれません。

Entanglement is a key property of quantum computing that separates it from its classical counterpart, however, its exact role in the performance of quantum algorithms, especially variational quantum algorithms, is not well understood. In this work, we utilise tensor network methods to systematically probe the role of entanglement in the working of two variational quantum algorithms, the Quantum Approximate Optimisation Algorithm (QAOA) and Quantum Neural Networks (QNNs), on prototypical problems under controlled entanglement environments. We find that for the MAX-CUT problem solved using QAOA, the fidelity as a function of entanglement is highly dependent on the number of layers, layout of edges in the graph, and edge density, generally exhibiting that a high number of layers indicates a higher resilience to truncation of entanglement. This is in contrast to previous studies based on no more than four QAOA layers which show that the fidelity of QAOA follows a scaling law with respect to the entanglement per qubit of the system. Contrarily, in the case of QNNs, trained circuits with high test accuracies are underpinned by higher entanglement, with any enforced limitation in entanglement resulting in a sharp decline in test accuracy. This is corroborated by the entanglement entropy of these circuits which is consistently high suggesting that, unlike QAOA, QNNs may require quantum devices capable of generating highly entangled states. Overall our work provides a deeper understanding of the role of entanglement in the working of variational quantum algorithms which may help to implement these algorithms on NISQ-era quantum hardware in a way that maximises their accuracies.
翻訳日:2023-10-18 18:22:56 公開日:2023-10-16
# ナップサック制約を受ける高速適応型非単調サブモジュラー最大化

Fast Adaptive Non-Monotone Submodular Maximization Subject to a Knapsack Constraint ( http://arxiv.org/abs/2007.05014v2 )

ライセンス: Link先を確認
Georgios Amanatidis, Federico Fusco, Philip Lazos, Stefano Leonardi, Rebecca Reiffenh\"auser(参考訳) サブモジュラー最大化(submodular maximization)は、データマイニングや機械学習のさまざまな応用において、古典的なアルゴリズムの問題である。 後者にとって重要な尺度は \emph{adaptive complexity} であり、アルゴリズムが終了するために必要な並列計算の逐次ラウンドの数をキャプチャする。 本研究では、knapsack 制約を満たす非単調な極大化に対する最初の \emph{constant factor} 近似アルゴリズムを、 \emph{near-optimal} $O(\log n)$ 適応複雑性で得られる。 考慮すべき重要な機能は、機能評価(あるいは値クエリ)の総数によって表される。 このアルゴリズムは$\tilde{o}(n^2)$値クエリを要求するが、$o(\log^2n)$という適応的複雑性を低く保ちながら$\tilde{o}(n)$で実行するように修正することができる。 上記の適応性の改善に加えて、この問題に対する部分線形適応的複雑性を持つ最初の \emph{combinatorial} アプローチであり、濃度制約や単調目的の特別な場合であっても、最先端に匹敵するアルゴリズムが得られる。

Submodular maximization is a classic algorithmic problem with multiple applications in data mining and machine learning; there, the growing need to deal with massive instances motivates the design of algorithms balancing the quality of the solution with applicability. For the latter, an important measure is the \emph{adaptive complexity}, which captures the number of sequential rounds of parallel computation needed by an algorithm to terminate. In this work, we obtain the first \emph{constant factor} approximation algorithm for non-monotone submodular maximization subject to a knapsack constraint with \emph{near-optimal} $O(\log n)$ adaptive complexity. Low adaptivity by itself, however, is not enough: a crucial feature to account for is represented by the total number of function evaluations (or value queries). Our algorithm asks $\tilde{O}(n^2)$ value queries but can be modified to run with only $\tilde{O}(n)$ instead while retaining a low adaptive complexity of $O(\log^2n)$. Besides the above improvement in adaptivity, this is also the first \emph{combinatorial} approach with sublinear adaptive complexity for the problem and yields algorithms comparable to the state-of-the-art even for the special cases of cardinality constraints or monotone objectives.
翻訳日:2023-10-18 07:27:03 公開日:2023-10-16
# Hilbert Flattening: 局所保存マトリックス展開法

Hilbert Flattening: a Locality-Preserving Matrix Unfolding Method ( http://arxiv.org/abs/2202.10240v6 )

ライセンス: Link先を確認
Qingsong Zhao, Zhipeng Zhou, Yi Wang, Yu Qiao, Duoqian Miao, Cairong Zhao(参考訳) フラット化は多次元の特徴地図や画像を一次元ベクトルに変換することによってコンピュータビジョンにおいて不可欠である。 しかし、既存のフラット化アプローチは局所的な滑らかさの維持を怠り、視覚モデルの表現的学習能力に影響を与える可能性がある。 本稿では,平坦行列の局所性を保存するための革新的手法としてヒルベルト曲線平滑化を提案する。 一般的なジグザグ演算と比較し、ヒルベルト曲線の平坦化は、入力スケールのばらつきに対して頑健性を維持しつつ、元の格子構造の空間的関係と局所的滑らかさを保ち続けることができることを示した。 また、Hilbertトークンサンプリングをトークン集約器に組み込んだ視覚変換器アーキテクチャであるLocalformerを導入し、その局所性バイアスを高める。 画像分類とセマンティックセグメンテーションタスクに関する大規模な実験は、Localformerがベースラインモデルを一貫して上回ることを示した。 また、他の一般的なアーキテクチャ(MLP-Mixerなど)に対して、一貫したパフォーマンス向上をもたらすことも示しています。

Flattening is essential in computer vision by converting multi-dimensional feature maps or images into one-dimensional vectors. However, existing flattening approaches neglect the preservation of local smoothness, which can impact the representational learning capacity of vision models. In this paper, we propose Hilbert curve flattening as an innovative method to preserve locality in flattened matrices. We compare it with the commonly used Zigzag operation and demonstrate that Hilbert curve flattening can better retain the spatial relationships and local smoothness of the original grid structure, while maintaining robustness against the input scale variance. And, we introduce the Localformer, a vision transformer architecture that incorporates Hilbert token sampling with a token aggregator to enhance its locality bias. Extensive experiments on image classification and semantic segmentation tasks demonstrate that the Localformer outperforms baseline models consistently. We also show it brings consistent performance boosts for other popular architectures (e.g. MLP-Mixer).
翻訳日:2023-10-18 07:21:05 公開日:2023-10-16
# 動作認識に注意を向けた高次テンソルプーリング

High-order Tensor Pooling with Attention for Action Recognition ( http://arxiv.org/abs/2110.05216v3 )

ライセンス: Link先を確認
Lei Wang and Piotr Koniusz and Ke Sun(参考訳) 本稿では,ニューラルネットワークによって形成される特徴ベクトルの高次統計を捉え,エンドツーエンドの2次・高次プーリングを提案し,テンソルディスクリプタを構成する。 テンソルディスクリプタは、集約ベクトルの少ない数と、与えられた特徴が統計的に予想されるよりも頻繁に現れるバーストネス現象のために、堅牢な類似度尺度を必要とする。 グラフラプラシアン上の熱拡散過程(HDP)は、逆がループグラフラプラシアンを形成する共分散自己相関行列の固有値パワー正規化(EPN)と密接に関係している。 我々は,HDPとEPNが同一の役割を担っていること,すなわち固有スペクトルの大きさを増大または減衰させることにより,バーストの防止を図っている。 我々は、高次発生のスペクトル検出器として作用するepnに高次テンソルを装備し、バーストネスを防止する。 また、d次元特徴記述子から構築された位数 r のテンソルに対して、そのような検出器は、少なくとも1つの高次発生がテンソルで表されるbinom(d,r)部分空間の1つに「射影」される可能性を示し、したがってそのような「detectors」のようなbinom(d,r)で導かれるテンソルパワー正規化計量を形成する。 実験的なコントリビューションとして,2次および高次プール変種をアクション認識に適用し,これまでに提示されていないプール変種の比較を行い,HMDB-51,YUP++,MPII調理活動の最先端結果を示す。

We aim at capturing high-order statistics of feature vectors formed by a neural network, and propose end-to-end second- and higher-order pooling to form a tensor descriptor. Tensor descriptors require a robust similarity measure due to low numbers of aggregated vectors and the burstiness phenomenon, when a given feature appears more/less frequently than statistically expected. The Heat Diffusion Process (HDP) on a graph Laplacian is closely related to the Eigenvalue Power Normalization (EPN) of the covariance/autocorrelation matrix, whose inverse forms a loopy graph Laplacian. We show that the HDP and the EPN play the same role, i.e., to boost or dampen the magnitude of the eigenspectrum thus preventing the burstiness. We equip higher-order tensors with EPN which acts as a spectral detector of higher-order occurrences to prevent burstiness. We also prove that for a tensor of order r built from d dimensional feature descriptors, such a detector gives the likelihood if at least one higher-order occurrence is 'projected' into one of binom(d,r) subspaces represented by the tensor; thus forming a tensor power normalization metric endowed with binom(d,r) such 'detectors'. For experimental contributions, we apply several second- and higher-order pooling variants to action recognition, provide previously not presented comparisons of such pooling variants, and show state-of-the-art results on HMDB-51, YUP++ and MPII Cooking Activities.
翻訳日:2023-10-18 07:19:53 公開日:2023-10-16
# ニューラルネットワークを用いたPDE制約モデル:最適化と大域収束

PDE-constrained Models with Neural Network Terms: Optimization and Global Convergence ( http://arxiv.org/abs/2105.08633v6 )

ライセンス: Link先を確認
Justin Sirignano, Jonathan MacArt, Konstantinos Spiliopoulos(参考訳) 近年、深層学習を用いて、科学と工学における偏微分方程式(pde)モデルを開発した。 PDEの機能形式はニューラルネットワークによって決定され、ニューラルネットワークパラメータは利用可能なデータに校正される。 PDEを最適化することで、組み込みニューラルネットワークの校正を行うことができる。 これらの応用に動機づけられ,ニューラルネットワークを用いた線形楕円型pdesの最適化を厳格に検討した。 PDEのニューラルネットワークパラメータは勾配降下を用いて最適化され、その勾配は隣接PDEを用いて評価される。 パラメータの数が大きくなると、PDE と随伴する PDE は非局所 PDE 系に収束する。 この制限付きPDEシステムを用いて、最適化中にニューラルネットワーク-PDEのグローバル最小値への収束を証明できる。 最後に,この随伴法を用いて,reynolds-averaged navier-stokes (rans)方程式の閉包モデルとしてニューラルネットワークが機能する流体力学への応用を学習する。 RANSニューラルネットワークモデルは、乱流チャネルフローの複数のデータセットに基づいてトレーニングされ、Reynoldsの異なる数値でサンプル外評価される。

Recent research has used deep learning to develop partial differential equation (PDE) models in science and engineering. The functional form of the PDE is determined by a neural network, and the neural network parameters are calibrated to available data. Calibration of the embedded neural network can be performed by optimizing over the PDE. Motivated by these applications, we rigorously study the optimization of a class of linear elliptic PDEs with neural network terms. The neural network parameters in the PDE are optimized using gradient descent, where the gradient is evaluated using an adjoint PDE. As the number of parameters become large, the PDE and adjoint PDE converge to a non-local PDE system. Using this limit PDE system, we are able to prove convergence of the neural network-PDE to a global minimum during the optimization. Finally, we use this adjoint method to train a neural network model for an application in fluid mechanics, in which the neural network functions as a closure model for the Reynolds-averaged Navier--Stokes (RANS) equations. The RANS neural network model is trained on several datasets for turbulent channel flow and is evaluated out-of-sample at different Reynolds numbers.
翻訳日:2023-10-18 07:18:35 公開日:2023-10-16
# ビューティーパワービースト

BEAUTY Powered BEAST ( http://arxiv.org/abs/2103.00674v5 )

ライセンス: Link先を確認
Kai Zhang, Zhigen Zhao, Wen Zhou(参考訳) 本研究は,UniformiTY (BEAUTY) の2成分拡張近似を用いた分布自由性試験である。 この方法は有名なオイラーの公式を一般化し、周縁二元展開からの二元相互作用の期待の線形結合を通じて任意のコプラの特性関数を近似する。 この新理論は、決定論的重み行列が各テストのパワー特性を特徴づける、対称性統計の特定の二次形式からの近似を通じて、独立性の多くの重要なテストを統合することができる。 強固なパワーを得るために,二元展開適応対称性テスト (beast) と呼ばれるデータ適応重みを持つテスト統計量を調べる。 二元展開濾過の特性を用いて、一様性のニーマン・ピアソン検定をオラクル重み付き対称性統計量和で近似できることを実証する。 このオラクルを使ったBEASTは、実現可能なパワーの有用なベンチマークを提供します。 このオラクルの力に近づくために、私たちはoracleテストの正規化再サンプリング近似を通じて野獣を考案します。 BEASTは、多くの既存のテストの幅広い選択肢に対する経験的パワーを改善し、重要な場合の依存性フォームの明確な解釈を提供する。

We study distribution-free goodness-of-fit tests with the proposed Binary Expansion Approximation of UniformiTY (BEAUTY) approach. This method generalizes the renowned Euler's formula, and approximates the characteristic function of any copula through a linear combination of expectations of binary interactions from marginal binary expansions. This novel theory enables a unification of many important tests of independence via approximations from specific quadratic forms of symmetry statistics, where the deterministic weight matrix characterizes the power properties of each test. To achieve a robust power, we examine test statistics with data-adaptive weights, referred to as the Binary Expansion Adaptive Symmetry Test (BEAST). Using properties of the binary expansion filtration, we demonstrate that the Neyman-Pearson test of uniformity can be approximated by an oracle weighted sum of symmetry statistics. The BEAST with this oracle provides a useful benchmark of feasible power. To approach this oracle power, we devise the BEAST through a regularized resampling approximation of the oracle test. The BEAST improves the empirical power of many existing tests against a wide spectrum of common alternatives and delivers a clear interpretation of dependency forms when significant.
翻訳日:2023-10-18 07:18:17 公開日:2023-10-16
# テキスト生成のためのgraphmax

Graphmax for Text Generation ( http://arxiv.org/abs/2101.00153v2 )

ライセンス: Link先を確認
Liu Bin, Yin Guosheng(参考訳) テキスト生成において、大きな言語モデル(LM)は、ソフトマックス関数を使用してコンテキストの以前の選択のみに基づいて、新しい単語を選択する。 それでも、シーン固有のコーパスに基づく同時単語のリンク統計情報は、次の単語を選択するのに有用であり、生成されたテキストのトピックが現在のタスクに一致することを保証するのに役立つ。 共起情報を完全に探究するために,タスク固有のテキスト生成のためのグラフマックス関数を提案する。 グラフベースの正規化を使用して、graphmaxは、lmからのグローバル知識とシーン固有のコーパスからのローカル知識の両方で最終単語の選択を決定できる。 伝統的なソフトマックス関数はグラフ総変動(gtv)項で正規化され、局所的な知識をlmに取り入れ、モデルにシーン固有のコーパスにおける単語間の統計的関係を検討するように促す。 提案したグラフマックスは汎用的であり、テキスト生成や機械翻訳のために任意の大きな訓練済みLMに簡単にプラグインできる。 広範な実験を通じて,新しいgtvベースの正規化により,既存の手法と比較して様々な自然言語処理タスクの性能が向上することを示す。 さらに,人間実験により,参加者がgraphmaxやsoftmaxで生成されたテキストを容易に識別できることを確認した。

In text generation, a large language model (LM) makes a choice of each new word based only on the former selection of its context using the softmax function. Nevertheless, the link statistics information of concurrent words based on a scene-specific corpus is valuable in choosing the next word, which can help to ensure the topic of the generated text to be aligned with the current task. To fully explore the co-occurrence information,we propose a graphmax function for task-specific text generation. Using the graph-based regularization, graphmax enables the final word choice to be determined by both the global knowledge from the LM and the local knowledge from the scene-specific corpus. The traditional softmax function is regularized with a graph total variation (GTV) term, which incorporates the local knowledge into the LM and encourages the model to consider the statistical relationships between words in a scene-specific corpus. The proposed graphmax is versatile and can be readily plugged into any large pre-trained LM for text generation and machine translation. Through extensive experiments, we demonstrate that the new GTV-based regularization can improve performances in various natural language processing tasks in comparison with existing methods. Moreover, through human experiments, we observe that participants can easily distinguish the text generated by graphmax or softmax.
翻訳日:2023-10-18 07:17:58 公開日:2023-10-16
# サンプル外モデル評価のための診断ツール

Diagnostic Tool for Out-of-Sample Model Evaluation ( http://arxiv.org/abs/2206.10982v3 )

ライセンス: Link先を確認
Ludvig Hult, Dave Zachariah and Petre Stoica(参考訳) モデル適合性の評価は機械学習の重要な部分である。 標準的なパラダイムは、トレーニングデータ上で平均される選択された損失関数を最小化し、将来のデータに対する小さな損失を達成することによって、モデルを学ぶことである。 本稿では,モデルの将来的損失を特徴付けるための有限キャリブレーションデータセットの利用について検討する。 弱仮定下で有限サンプル保証を提供する簡易なモデル診断ツールを提案する。 このツールは計算と解釈が簡単です。 提案手法が分布シフトの影響を定量化し,回帰分析を補助し,ハイパーパラメータチューニングと同様にモデル選択を可能にすることを示す数値実験を行った。

Assessment of model fitness is a key part of machine learning. The standard paradigm is to learn models by minimizing a chosen loss function averaged over training data, with the aim of achieving small losses on future data. In this paper, we consider the use of a finite calibration data set to characterize the future, out-of-sample losses of a model. We propose a simple model diagnostic tool that provides finite-sample guarantees under weak assumptions. The tool is simple to compute and to interpret. Several numerical experiments are presented to show how the proposed method quantifies the impact of distribution shifts, aids the analysis of regression, and enables model selection as well as hyper-parameter tuning.
翻訳日:2023-10-18 07:11:53 公開日:2023-10-16
# 土壌水分検索のための機械学習データ融合モデル

A Machine Learning Data Fusion Model for Soil Moisture Retrieval ( http://arxiv.org/abs/2206.09649v3 )

ライセンス: Link先を確認
Vishal Batchu, Grey Nearing, Varun Gulshan(参考訳) 深層学習に基づく畳み込み回帰モデルを開発し, 上部5cmまでの土壌水分量の推定を行った。 入力予測器には、Sentinel-1(アクティブレーダ)、Sentinel-2(光学画像)、SMAP(パッシブレーダ)、SoilGridsの物理変数、GLDASの土壌水分場などが含まれる。 このモデルは2015年から2021年の間に全世界で約1300個のインサイトセンサーのデータに基づいて訓練・評価され、センサーごとの平均相関は0.727、ubRMSEは0.054となり、名目上の320mの解像度で土壌水分マップを作成することができる。 これらの結果は, 異なる場所における他の13の土壌水分処理と比較し, 重要な予測因子の同定にアブレーションを用いた。

We develop a deep learning based convolutional-regression model that estimates the volumetric soil moisture content in the top ~5 cm of soil. Input predictors include Sentinel-1 (active radar), Sentinel-2 (optical imagery), and SMAP (passive radar) as well as geophysical variables from SoilGrids and modelled soil moisture fields from GLDAS. The model was trained and evaluated on data from ~1300 in-situ sensors globally over the period 2015 - 2021 and obtained an average per-sensor correlation of 0.727 and ubRMSE of 0.054, and can be used to produce a soil moisture map at a nominal 320m resolution. These results are benchmarked against 13 other soil moisture works at different locations, and an ablation study was used to identify important predictors.
翻訳日:2023-10-18 07:11:42 公開日:2023-10-16
# SU($N$)フェルミオンの物質波の干渉ダイナミクス

Interference dynamics of matter-waves of SU($N$) fermions ( http://arxiv.org/abs/2206.02807v2 )

ライセンス: Link先を確認
Wayne J. Chetcuti, Andreas Osterloh, Luigi Amico and Juan Polo(参考訳) 有効磁束によるリング状格子内の強い相関を持つsu($n$)フェルミオンのモーメントに関連する2つの物理観測値:ホモダイン(momentum distribution)と自己ヘテロダイン干渉パターンを解析した。 これらの分析によって、永続的な現在のパターンを監視できることを示す。 ホモダインと自己ヘテロダインの干渉は、フェルミ分布の構造と粒子の相関に特異的に依存していることが判明した。 ホモダインプロトコルでは、運動量分布は2つの異なる方法で粒子統計によって影響を受ける。 ゼロ相互作用において、運動量$\mathbf{k}=0$の周りの運動量分布の特徴的な穴は、SU($N$) フェルミ球の半分が変位すると開になる。 2つ目の効果は相互作用に由来する: 相互作用系における分数化は、穴の発生のフラックスに追加の 'delay' によってそれ自体を現わし、それが現在$\mathbf{k}=0$ で抑うつとなる。 自己ヘテロダイン干渉パターンの場合、我々は監視できるだけでなく、分数化も観察できる。 実際、分数化された角モーメントは、系内の平面交差によって、干渉図に存在する転位に反映される。 我々の分析は、干渉縞の研究によって、SU($N$)フェルミオンの粒子数と成分数の両方にアクセスできることを示す。

We analyze the two main physical observables related to the momenta of strongly correlated SU($N$) fermions in ring-shaped lattices pierced by an effective magnetic flux: homodyne (momentum distribution) and self-heterodyne interference patterns. We demonstrate how their analysis allows us to monitor the persistent current pattern. We find that both homodyne and self-heterodyne interference display a specific dependence on the structure of the Fermi distribution and particles' correlations. For homodyne protocols, the momentum distribution is affected by the particle statistics in two distinctive ways. The first effect is a purely statistical one: at zero interactions, the characteristic hole in the momentum distribution around the momentum $\mathbf{k}=0$ opens up once half of the SU($N$) Fermi sphere is displaced. The second effect originates from interaction: the fractionalization in the interacting system manifests itself by an additional `delay' in the flux for the occurrence of the hole, that now becomes a depression at $\mathbf{k}=0$. In the case of self-heterodyne interference patterns, we are not only able to monitor, but also observe the fractionalization. Indeed, the fractionalized angular momenta, due to level crossings in the system, are reflected in dislocations present in interferograms. Our analysis demonstrate how the study of the interference fringes grants us access to both number of particles and number of components of SU($N$) fermions.
翻訳日:2023-10-18 07:11:23 公開日:2023-10-16
# 投機的復号:自己回帰翻訳のロスレス高速化

Speculative Decoding: Lossless Speedup of Autoregressive Translation ( http://arxiv.org/abs/2203.16487v5 )

ライセンス: Link先を確認
Heming Xia, Tao Ge, Si-Qing Chen, Furu Wei, Zhifang Sui(参考訳) 品質を犠牲にして自己回帰翻訳(AT)を高速化する以前の研究とは違って,ATと非自己回帰翻訳(NAT)のそれぞれの利点を組み合わせた,コンピュータアーキテクチャにおける投機的実行にインスパイアされた新しい復号パラダイムであるSpecDec(Speculative Decoding)を提案する。 それぞれのデコードステップにおいて、SpecDecは次に$k$トークンをNATモデルで投機的にドラフトし、それをATモデルで検証し、検証に合格するトークンのみをデコードトークンとして受け入れ、翻訳結果の保証はATと全く同じである。 NATドラフトとAT検証の協力により、投機的復号化によって実現された並列コンピューティングにより、品質損失のない復号速度が大幅に向上する。 我々は、4つの標準wmt翻訳ベンチマークで実験を行い、vanilla specdecが約3\times$のスピードアップでgreedyデコードと全く同じ結果が得られることを確認し、その変種(specdec++)がgreedyデコードよりも優れるだけでなく、デコード速度をさらに向上させ、atで約$5\times$のスピードアップを実現しました。 さらに、SpecDecは抽象的な要約のような他のSeq2seqタスクを高速化し、より強力なコンピューティングデバイスから恩恵を受け、効率よくロスレスなSeq2seq生成のための将来の‘textit{de facto}デコーディング標準になる可能性を示している。 結果の再現を容易にするために、すべてのコードとチェックポイントをリリースします。

Different from some previous work accelerating autoregressive translation (AT) at the sacrifice of quality, we propose Speculative Decoding (SpecDec) -- a novel decoding paradigm inspired by speculative execution in computer architecture, which combines respective advantages of AT and non-autoregressive translation (NAT) for lossless speedup of translation. At each decoding step, SpecDec first speculatively drafts (i.e. decodes) next $k$ tokens with an NAT model and then verifies them with an AT model, where only the drafted tokens passing the verification are accepted as decoded tokens for guaranteeing its translation result is exactly the same as AT. The collaboration of NAT drafting and AT verification leads to a much higher decoding speed without quality loss due to parallel computing enabled by speculative decoding. We conduct experiments in 4 standard WMT translation benchmarks and confirm the vanilla SpecDec yields exactly the same results as AT greedy decoding with an around $3\times$ speedup, and that its variant (SpecDec++) with an advanced verification strategy not only outperforms AT greedy decoding, but also further improves the decoding speed, resulting in an around $5\times$ speedup over AT. Moreover, SpecDec can be easily generalized for speeding up other seq2seq tasks like Abstractive Summarization, and benefit more from stronger computing devices, demonstrating its potential to become a \textit{de facto} decoding standard in the future for efficient and lossless seq2seq generation. We will release all our codes and checkpoints to facilitate reproducing our results.
翻訳日:2023-10-18 07:09:38 公開日:2023-10-16
# マルチモーダル医療画像タスクにおける説明可能なAIの評価:既存のアルゴリズムは臨床要件を満たすか?

Evaluating Explainable AI on a Multi-Modal Medical Imaging Task: Can Existing Algorithms Fulfill Clinical Requirements? ( http://arxiv.org/abs/2203.06487v2 )

ライセンス: Link先を確認
Weina Jin, Xiaoxiao Li, Ghassan Hamarneh(参考訳) 臨床エンドユーザに予測を説明できることは、ai(artificial intelligence, 人工知能)モデルの力を臨床決定支援に活用する必要性である。 医療画像では、機能帰属マップ(feature attribution map、heatmap)は、aiモデルの予測において重要な特徴を強調する最も一般的な説明形式である。 しかし、ヒートマップがマルチモーダルな医療画像の意思決定にどの程度効果があるかは分かっておらず、それぞれの画像のモダリティやチャネルが、同じ基礎となるバイオメディカル現象の異なる臨床情報を視覚化している。 このようなモダリティに依存した特徴を理解することは、臨床ユーザーのAI決定の解釈に不可欠である。 臨床的に重要な問題であるが技術的に無視される問題に対処するために,モーダリティ特異的特徴重要度(MSFI)尺度を提案する。 モダリティ優先順位付けおよびモダリティ特異的特徴ローカライゼーションの臨床的画像および解釈パターンを符号化する。 我々は,計算手法と臨床ユーザスタディを用いた臨床要件ベースで体系的な評価を行う。 その結果、16のヒートマップアルゴリズムは、AIモデル決定プロセスや意思決定品質を正しく示すための臨床要件を満たすことができなかった。 評価基準とMSFI基準はXAIアルゴリズムの設計と選択を誘導し,マルチモーダルな説明に対する臨床要件を満たす。

Being able to explain the prediction to clinical end-users is a necessity to leverage the power of artificial intelligence (AI) models for clinical decision support. For medical images, a feature attribution map, or heatmap, is the most common form of explanation that highlights important features for AI models' prediction. However, it is unknown how well heatmaps perform on explaining decisions on multi-modal medical images, where each image modality or channel visualizes distinct clinical information of the same underlying biomedical phenomenon. Understanding such modality-dependent features is essential for clinical users' interpretation of AI decisions. To tackle this clinically important but technically ignored problem, we propose the modality-specific feature importance (MSFI) metric. It encodes clinical image and explanation interpretation patterns of modality prioritization and modality-specific feature localization. We conduct a clinical requirement-grounded, systematic evaluation using computational methods and a clinician user study. Results show that the examined 16 heatmap algorithms failed to fulfill clinical requirements to correctly indicate AI model decision process or decision quality. The evaluation and MSFI metric can guide the design and selection of XAI algorithms to meet clinical requirements on multi-modal explanation.
翻訳日:2023-10-18 07:09:07 公開日:2023-10-16
# 相対エントロピー崩壊と完全正の混合時間

Relative entropy decay and complete positivity mixing time ( http://arxiv.org/abs/2209.11684v2 )

ライセンス: Link先を確認
Li Gao, Marius Junge, Nicholas LaRacuente, Haojian Li(参考訳) 量子マルコフ半群の完全修飾対数ソボレフ定数は、その完全正の混合時間の逆によって有界であることを示す。 古典的なマルコフ半群に対して、これはコンパクト多様体上の h\"ormander system によって与えられるすべての部分ラプラシアンが、行列値関数に対する一様修正された対数ソボレフ不等式を満たすことを意味する。 量子マルコフ半群に対して、完全修正対数ソボレフ定数は次元定数の対数として定数までのスペクトルギャップに匹敵する。 この推定は量子出生-死過程において漸近的にタイトである。 我々の結果と濃度不等式の結果は、一般フォン・ノイマン代数上の GNS-対称半群に適用できる。

We prove that the complete modified logarithmic Sobolev constant of a quantum Markov semigroup is bounded by the inverse of its complete positivity mixing time. For classical Markov semigroups, this implies that every sub-Laplacian given by a H\"ormander system on a compact manifold satisfies a uniform modified log-Sobolev inequality for matrix-valued functions. For quantum Markov semigroups, we obtain that the complete modified logarithmic Sobolev constant is comparable to spectral gap up to a constant as logarithm of dimension constant. This estimate is asymptotically tight for a quantum birth-death process. Our results and the consequence of concentration inequalities apply to GNS-symmetric semigroups on general von Neumann algebras.
翻訳日:2023-10-18 07:01:40 公開日:2023-10-16
# スケーラブルフルスタック量子コンピュータにおける資源効率の最適化

Optimizing resource efficiencies for scalable full-stack quantum computers ( http://arxiv.org/abs/2209.05469v3 )

ライセンス: Link先を確認
Marco Fellous-Asiani and Jing Hao Chai and Yvain Thonnart and Hui Khoon Ng and Robert S. Whitney and Alexia Auff\`eves(参考訳) スケーラブルな量子コンピュータの構築競争において、ターゲット性能を達成するためにフルスタックのリソース消費を最小限に抑えることが重要である。 基礎物理学と工学のシナジーを義務付けており、前者は計算性能の微視的な側面、後者はマクロ的な資源消費である。 本研究では、量子物理学(例えば、量子ビット上のノイズ)、量子情報(例えば、計算アーキテクチャやエラー訂正)、技術(例えば、極低温、制御エレクトロニクス、配線)の概念をまとめて、フルスタックの量子コンピュータの全ての側面を定量化し、最適化することができる、Metric-Noise-Resource (MNR) と呼ばれる全体論的方法論を提案する。 この総合的なアプローチにより、資源効率を性能と資源コストの比として定義し、研究することができる。 概念実証として、MNRを用いてフルスタックの量子コンピュータの消費電力を最小限に抑え、興味のあるタスクの目標性能でノイズやフォールトトレラントな計算を行う。 これを同じタスクを実行する古典的なプロセッサと比較し、一般的な量子計算上のアドバンテージとは異なるパラメータの配置における量子エネルギーアドバンテージを同定する。 これは以前に見過ごされた量子コンピュータ構築の実践的議論を提供する。 我々の図は、連続した誤り訂正を伴う超伝導量子ビットにインスパイアされた非常に理想化されたパラメータを用いていますが、この手法は他の量子ビットや誤り訂正符号にも適用でき、実験者にエネルギー効率のよい量子プロセッサを構築するためのガイドラインを提供します。 高エネルギー消費のいくつかのレジームでは、この消費を桁違いに減らすことができる。 全体として、我々の方法論は資源効率のよい量子技術の理論的基礎を定めている。

In the race to build scalable quantum computers, minimizing the resource consumption of their full stack to achieve a target performance becomes crucial. It mandates a synergy of fundamental physics and engineering: the former for the microscopic aspects of computing performance, and the latter for the macroscopic resource consumption. For this we propose a holistic methodology dubbed Metric-Noise-Resource (MNR) able to quantify and optimize all aspects of the full-stack quantum computer, bringing together concepts from quantum physics (e.g., noise on the qubits), quantum information (e.g., computing architecture and type of error correction), and enabling technologies (e.g., cryogenics, control electronics, and wiring). This holistic approach allows us to define and study resource efficiencies as ratios between performance and resource cost. As a proof of concept, we use MNR to minimize the power consumption of a full-stack quantum computer, performing noisy or fault-tolerant computing with a target performance for the task of interest. Comparing this with a classical processor performing the same task, we identify a quantum energy advantage in regimes of parameters distinct from the commonly considered quantum computational advantage. This provides a previously overlooked practical argument for building quantum computers. While our illustration uses highly idealized parameters inspired by superconducting qubits with concatenated error correction, the methodology is universal -- it applies to other qubits and error-correcting codes -- and provides experimenters with guidelines to build energy-efficient quantum processors. In some regimes of high energy consumption, it can reduce this consumption by orders of magnitudes. Overall, our methodology lays the theoretical foundation for resource-efficient quantum technologies.
翻訳日:2023-10-18 07:01:12 公開日:2023-10-16
# 神経画像のためのパイプライン不変表現学習

Pipeline-Invariant Representation Learning for Neuroimaging ( http://arxiv.org/abs/2208.12909v3 )

ライセンス: Link先を確認
Xinhui Li, Alex Fedorov, Mrinal Mathur, Anees Abrol, Gregory Kiar, Sergey Plis, Vince Calhoun(参考訳) 深層学習は、磁気共鳴画像(MRI)ボリュームから脳-フェノタイプ関係を予測することを含む、神経イメージングに広く応用されている。 MRIデータは通常、モデリングに先立って広範囲の事前処理を必要とするが、異なるMRI前処理パイプラインによって導入された変化は、同一のデータを使用しても異なる科学的発見につながる可能性がある。 データ中心の観点から、我々はまず、前処理パイプラインの選択が教師付き学習モデルの下流性能にどのように影響するかを評価する。 次に,2つのパイプライン不変表現学習手法,MPSLとPXLを提案する。 英国バイオバンクデータセットの2000人の被験者を用いて、提案モデルがユニークかつ共有的な利点を示し、特にmpslを新しいパイプラインへのサンプル外一般化の改善に、pxlをサンプル内予測性能向上に使用できることを実証した。 MPSLとPXLはどちらも、より類似したパイプ間表現を学習することができる。 これらの結果は,提案モデルを用いてパイプライン関連バイアスを軽減し,脳表現型モデルにおける予測ロバスト性を改善することを示唆する。

Deep learning has been widely applied in neuroimaging, including predicting brain-phenotype relationships from magnetic resonance imaging (MRI) volumes. MRI data usually requires extensive preprocessing prior to modeling, but variation introduced by different MRI preprocessing pipelines may lead to different scientific findings, even when using the identical data. Motivated by the data-centric perspective, we first evaluate how preprocessing pipeline selection can impact the downstream performance of a supervised learning model. We next propose two pipeline-invariant representation learning methodologies, MPSL and PXL, to improve robustness in classification performance and to capture similar neural network representations. Using 2000 human subjects from the UK Biobank dataset, we demonstrate that proposed models present unique and shared advantages, in particular that MPSL can be used to improve out-of-sample generalization to new pipelines, while PXL can be used to improve within-sample prediction performance. Both MPSL and PXL can learn more similar between-pipeline representations. These results suggest that our proposed models can be applied to mitigate pipeline-related biases, and to improve prediction robustness in brain-phenotype modeling.
翻訳日:2023-10-18 07:00:22 公開日:2023-10-16
# サイン付きネットワーク埋め込みとコミュニティと異常の同時検出への応用

Signed Network Embedding with Application to Simultaneous Detection of Communities and Anomalies ( http://arxiv.org/abs/2207.09324v3 )

ライセンス: Link先を確認
Haoran Zhang and Junhui Wang(参考訳) 署名されたネットワークは、各エッジに関連するサイン情報を追加して実生活でしばしば観測されるが、既存のネットワークモデルでは無視されている。 本稿では,コミュニティ検出,異常検出,ネットワーク推論など,下流分析の大幅な効率化を図るため,ネットワーク間のバランス構造と異常効果を両立させる統合型埋め込みモデルを提案する。 提案モデルでは, 正規化定式化により共同で推定される低ランク+スパース行列分解により, バランス構造と異常効果の両方を捕捉する。 その理論的保証は、ネットワーク埋め込み、コミュニティ検出、異常検出のための漸近一貫性と有限サンプル確率境界の観点から確立されている。 また, 組込みモデルの利点は, 合成ネットワークと国際関係ネットワークの両方に関する広範な数値実験によっても証明できる。

Signed networks are frequently observed in real life with additional sign information associated with each edge, yet such information has been largely ignored in existing network models. This paper develops a unified embedding model for signed networks to disentangle the intertwined balance structure and anomaly effect, which can greatly facilitate the downstream analysis, including community detection, anomaly detection, and network inference. The proposed model captures both balance structure and anomaly effect through a low rank plus sparse matrix decomposition, which are jointly estimated via a regularized formulation. Its theoretical guarantees are established in terms of asymptotic consistency and finite-sample probability bounds for network embedding, community detection and anomaly detection. The advantage of the proposed embedding model is also demonstrated through extensive numerical experiments on both synthetic networks and an international relation network.
翻訳日:2023-10-18 06:58:19 公開日:2023-10-16
# コントラスト学習と多スケールグラフ畳み込みネットワークを用いた深部画像クラスタリング

Deep Image Clustering with Contrastive Learning and Multi-scale Graph Convolutional Networks ( http://arxiv.org/abs/2207.07173v2 )

ライセンス: Link先を確認
Yuankun Xu, Dong Huang, Chang-Dong Wang, Jian-Huang Lai(参考訳) ディープクラスタリングは、ディープニューラルネットワークによる共同表現学習とクラスタリングにおいて有望な能力を示している。 この大きな進歩にもかかわらず、既存のディープクラスタリングは主に分散ベースのクラスタリング損失を利用しており、表現学習とマルチスケール構造学習を統合する能力が欠如している。 そこで本論文では,畳み込みニューラルネットワーク(CNN)とグラフ畳み込みネットワーク(GCN)のギャップを埋める,コントラスト学習とマルチスケール構造学習のギャップを埋める,コントラスト学習とマルチスケールグラフ畳み込みネットワーク(IcicleGCN)を用いた画像クラスタリング手法を提案する。 このフレームワークは、cnnベースのバックボーン、インスタンス類似モジュール(ism)、jc-slim(joint cluster structure learning and instance reconstruction module)、マルチスケールgcnモジュール(m-gcn)の4つの主要なモジュールから構成されている。 具体的には、2つの重み共有ビューを持つバックボーンネットワークを用いて、2つの強化サンプル(各画像から)の表現を学習する。 次に、JC-SLIMにおけるオートエンコーダが、M-GCNモジュールへのブリッジとして機能するように事前訓練される、連立インスタンスレベルとクラスタレベルのコントラスト学習のためのISMとJC-SLIMに、学習された表現が供給される。 さらに、マルチスケールな近隣構造学習を実施するために、GCNとオートエンコーダの2つのストリームを同時にトレーニングする。 一 表象融合及び表象融合との層間相互作用 (ii)共同自己適応学習。 複数の画像データセットの実験は、最先端のIcicleGCNよりも優れたクラスタリング性能を示している。 コードはhttps://github.com/xuyuankun631/IcicleGCNで入手できる。

Deep clustering has shown its promising capability in joint representation learning and clustering via deep neural networks. Despite the significant progress, the existing deep clustering works mostly utilize some distribution-based clustering loss, lacking the ability to unify representation learning and multi-scale structure learning. To address this, this paper presents a new deep clustering approach termed image clustering with contrastive learning and multi-scale graph convolutional networks (IcicleGCN), which bridges the gap between convolutional neural network (CNN) and graph convolutional network (GCN) as well as the gap between contrastive learning and multi-scale structure learning for the deep clustering task. Our framework consists of four main modules, namely, the CNN-based backbone, the Instance Similarity Module (ISM), the Joint Cluster Structure Learning and Instance reconstruction Module (JC-SLIM), and the Multi-scale GCN module (M-GCN). Specifically, the backbone network with two weight-sharing views is utilized to learn the representations for the two augmented samples (from each image). The learned representations are then fed to ISM and JC-SLIM for joint instance-level and cluster-level contrastive learning, respectively, during which an auto-encoder in JC-SLIM is also pretrained to serve as a bridge to the M-GCN module. Further, to enforce multi-scale neighborhood structure learning, two streams of GCNs and the auto-encoder are simultaneously trained via (i) the layer-wise interaction with representation fusion and (ii) the joint self-adaptive learning. Experiments on multiple image datasets demonstrate the superior clustering performance of IcicleGCN over the state-of-the-art. The code is available at https://github.com/xuyuankun631/IcicleGCN.
翻訳日:2023-10-18 06:58:06 公開日:2023-10-16
# Mind the Labels: 事前訓練されたモデルと知識グラフの関連性を記述する

Mind the Labels: Describing Relations in Knowledge Graphs With Pretrained Models ( http://arxiv.org/abs/2210.07373v3 )

ライセンス: Link先を確認
Zden\v{e}k Kasner, Ioannis Konstas, Ond\v{r}ej Du\v{s}ek(参考訳) データ・トゥ・テキスト(D2T)生成のための事前訓練された言語モデル(PLM)は、列の見出し、キー、関係名などの人間が読めるデータラベルを使用して、ドメイン外の例に一般化することができる。 しかし、これらのラベルが曖昧であるか不完全である場合、意味的に不正確な出力を生成することはよく知られており、これはD2Tデータセットでよく見られる。 本稿では,2つの実体間の関係を解明する作業において,この問題を明らかにする。 本研究では,3つの大規模知識グラフ(Wikidata,DBPedia,YAGO)から,多種多様な1,522個の一意関係を言語化するための新しいデータセットを収集した。 D2T 生成のための PLM は未知のケースで失敗すると予想されるが、多種多様な関係ラベルで訓練されたモデルは、新規で目に見えない関係において驚くほど堅牢である。 我々は,新しいドメインに一般化可能なD2T生成システムを訓練する上で,多種多様な明確なラベルを持つデータを使用することが重要であると主張している。

Pretrained language models (PLMs) for data-to-text (D2T) generation can use human-readable data labels such as column headings, keys, or relation names to generalize to out-of-domain examples. However, the models are well-known in producing semantically inaccurate outputs if these labels are ambiguous or incomplete, which is often the case in D2T datasets. In this paper, we expose this issue on the task of descibing a relation between two entities. For our experiments, we collect a novel dataset for verbalizing a diverse set of 1,522 unique relations from three large-scale knowledge graphs (Wikidata, DBPedia, YAGO). We find that although PLMs for D2T generation expectedly fail on unclear cases, models trained with a large variety of relation labels are surprisingly robust in verbalizing novel, unseen relations. We argue that using data with a diverse set of clear and meaningful labels is key to training D2T generation systems capable of generalizing to novel domains.
翻訳日:2023-10-18 06:52:25 公開日:2023-10-16
# 密度検索のためのロバスト加速器Hybrid Inverted Index

Hybrid Inverted Index Is a Robust Accelerator for Dense Retrieval ( http://arxiv.org/abs/2210.05521v2 )

ライセンス: Link先を確認
Peitian Zhang, Zheng Liu, Shitao Xiao, Zhicheng Dou, Jing Yao(参考訳) 逆ファイル構造は高密度検索を高速化する一般的な手法である。 ドキュメントは埋め込みに基づいてクラスタ化され、検索中に近くのクラスタw.r.t.を探索し、後続のコーデックによるドキュメントの評価のみを行う。 しかしながら、クラスタリングは常に失われるので、調査対象クラスタ内の関連ドキュメントのミスが発生し、検索品質が低下する。 対照的に、健全な用語の重複のような語彙マッチングは、関係する文書を特定するのに強い特徴である。 本研究では,組込みクラスタとサラエント項が協調的に動作するハイブリッド逆インデックス(hi$^2$)を提案する。 有効性と効率の両立を図るため,クラスタセレクタとタームセレクタを考案し,コンパクトな逆リストを構築し,それらを効率的に探索する。 さらに、単純な教師なしアルゴリズムとエンドツーエンドの知識蒸留を利用してこれらの2つのモジュールを学習し、後者の有効性をさらに向上させる。 一般的な検索ベンチマークの総合的な実験に基づいて、クラスタと用語が互いに実際に補完していることを確認し、HI$^2$で、さまざまなインデックス設定の競争効率で、損失のない検索品質を達成できる。 私たちのコードとチェックポイントはhttps://github.com/namespace-Pt/Adon/tree/HI2で公開されています。

Inverted file structure is a common technique for accelerating dense retrieval. It clusters documents based on their embeddings; during searching, it probes nearby clusters w.r.t. an input query and only evaluates documents within them by subsequent codecs, thus avoiding the expensive cost of exhaustive traversal. However, the clustering is always lossy, which results in the miss of relevant documents in the probed clusters and hence degrades retrieval quality. In contrast, lexical matching, such as overlaps of salient terms, tends to be strong feature for identifying relevant documents. In this work, we present the Hybrid Inverted Index (HI$^2$), where the embedding clusters and salient terms work collaboratively to accelerate dense retrieval. To make best of both effectiveness and efficiency, we devise a cluster selector and a term selector, to construct compact inverted lists and efficiently searching through them. Moreover, we leverage simple unsupervised algorithms as well as end-to-end knowledge distillation to learn these two modules, with the latter further boosting the effectiveness. Based on comprehensive experiments on popular retrieval benchmarks, we verify that clusters and terms indeed complement each other, enabling HI$^2$ to achieve lossless retrieval quality with competitive efficiency across various index settings. Our code and checkpoint are publicly available at https://github.com/namespace-Pt/Adon/tree/HI2.
翻訳日:2023-10-18 06:51:20 公開日:2023-10-16
# グラフニューラルネットワークによる流体構造相互作用の予測

Predicting fluid-structure interaction with graph neural networks ( http://arxiv.org/abs/2210.04193v2 )

ライセンス: Link先を確認
Rui Gao, Rajeev K. Jaiman(参考訳) 流体-構造相互作用系の低次モデリングのための回転同変準モノリシックグラフニューラルネットワークフレームワークを提案する。 任意のラグランジアン-オイラーの定式化の支援により、系状態は2つのサブネットワークで時間的に進化する。 メッシュの移動は複素値の固有直交分解によっていくつかの係数の進化に還元され、これらの係数の時間的予測は単一の多層パーセプトロンによって処理される。 有限要素にインスパイアされたハイパーグラフニューラルネットワークを用いて、システム全体の状態に基づいて流体状態の進化を予測する。 構造状態は固流体界面上のメッシュの移動によって暗黙的にモデル化されるため、提案したフレームワークは準モノリシックである。 提案手法の有効性は,2つの原型流体構造システム,すなわち弾性載置シリンダまわりの流れと固定シリンダに取り付けられた超弾性板まわりの流れについて評価した。 提案されたフレームワークは、インターフェース記述を追跡し、少なくとも2000の時間ステップのロールアウト中に安定かつ正確なシステム状態予測を提供する。 提案フレームワークは,既存の畳み込みに基づくアーキテクチャとは対照的に,予測流体とメッシュ状態を用いてリフトとドラッグの力を直接計算することを可能にする。 グラフニューラルネットワークによる低次モデルの提案は、移動境界と流体構造相互作用に関する物理ベースのディジタルツインの開発に影響を及ぼす。

We present a rotation equivariant, quasi-monolithic graph neural network framework for the reduced-order modeling of fluid-structure interaction systems. With the aid of an arbitrary Lagrangian-Eulerian formulation, the system states are evolved temporally with two sub-networks. The movement of the mesh is reduced to the evolution of several coefficients via complex-valued proper orthogonal decomposition, and the prediction of these coefficients over time is handled by a single multi-layer perceptron. A finite element-inspired hypergraph neural network is employed to predict the evolution of the fluid state based on the state of the whole system. The structural state is implicitly modeled by the movement of the mesh on the solid-fluid interface; hence it makes the proposed framework quasi-monolithic. The effectiveness of the proposed framework is assessed on two prototypical fluid-structure systems, namely the flow around an elastically-mounted cylinder, and the flow around a hyperelastic plate attached to a fixed cylinder. The proposed framework tracks the interface description and provides stable and accurate system state predictions during roll-out for at least 2000 time steps, and even demonstrates some capability in self-correcting erroneous predictions. The proposed framework also enables direct calculation of the lift and drag forces using the predicted fluid and mesh states, in contrast to existing convolution-based architectures. The proposed reduced-order model via graph neural network has implications for the development of physics-based digital twins concerning moving boundaries and fluid-structure interactions.
翻訳日:2023-10-18 06:50:02 公開日:2023-10-16
# グラフニューラルネットワークのためのユニバーサルプロンプトチューニング

Universal Prompt Tuning for Graph Neural Networks ( http://arxiv.org/abs/2209.15240v4 )

ライセンス: Link先を確認
Taoran Fang, Yunchao Zhang, Yang Yang, Chunping Wang, Lei Chen(参考訳) 近年、プロンプトチューニングは、事前訓練されたモデルに適応する研究の急増を引き起こしている。 言語分野における統合事前学習戦略とは異なり、グラフフィールドは様々な事前学習戦略を示し、グラフニューラルネットワークの適切なプロンプトベースのチューニング方法を設計する上での課題を提起する。 いくつかの先駆的な研究は、エッジ予測を事前訓練タスクとして使用するモデルの特別なプロンプト機能を考案しているが、これらの手法は特定の事前訓練されたGNNモデルに限定されており、より広範な適用性に欠ける。 本稿では,任意の事前学習戦略の下で事前学習したGNNモデルに対して,GPF(Graph Prompt Feature)と呼ばれる汎用的なプロンプトベースのチューニング手法を提案する。 GPFは入力グラフの特徴空間で動作し、理論上任意の形式のプロンプト関数に等価な効果を達成できる。 その結果、各事前学習戦略に対応するプロンプト関数を明示的に記述する必要がなくなった。 代わりに、我々はGPFを用いて、下流タスクの誘導グラフを適応的に取得する。 GPFの普遍性を実証し、その有効性を保証するための厳密な導出を提供する。 様々な事前学習戦略による実験結果から,本手法は微調整よりも優れた性能を示し,全ショットシナリオでは平均1.4%,小ショットシナリオでは約3.2%改善した。 さらに,本手法は,事前学習戦略を利用したモデルに適用した場合,既存の特殊プロンプトベースのチューニング手法よりも優れる。 これらの多くの利点は、この手法を下流適応のための微調整の説得力のある代替手段と位置づけている。

In recent years, prompt tuning has sparked a research surge in adapting pre-trained models. Unlike the unified pre-training strategy employed in the language field, the graph field exhibits diverse pre-training strategies, posing challenges in designing appropriate prompt-based tuning methods for graph neural networks. While some pioneering work has devised specialized prompting functions for models that employ edge prediction as their pre-training tasks, these methods are limited to specific pre-trained GNN models and lack broader applicability. In this paper, we introduce a universal prompt-based tuning method called Graph Prompt Feature (GPF) for pre-trained GNN models under any pre-training strategy. GPF operates on the input graph's feature space and can theoretically achieve an equivalent effect to any form of prompting function. Consequently, we no longer need to illustrate the prompting function corresponding to each pre-training strategy explicitly. Instead, we employ GPF to obtain the prompted graph for the downstream task in an adaptive manner. We provide rigorous derivations to demonstrate the universality of GPF and make guarantee of its effectiveness. The experimental results under various pre-training strategies indicate that our method performs better than fine-tuning, with an average improvement of about 1.4% in full-shot scenarios and about 3.2% in few-shot scenarios. Moreover, our method significantly outperforms existing specialized prompt-based tuning methods when applied to models utilizing the pre-training strategy they specialize in. These numerous advantages position our method as a compelling alternative to fine-tuning for downstream adaptations.
翻訳日:2023-10-18 06:49:01 公開日:2023-10-16
# モジュール音源分離のための潜時反復リファインメント

Latent Iterative Refinement for Modular Source Separation ( http://arxiv.org/abs/2211.11917v2 )

ライセンス: Link先を確認
Dimitrios Bralios, Efthymios Tzinis, Gordon Wichern, Paris Smaragdis, Jonathan Le Roux(参考訳) 従来のソース分離アプローチでは、トレーニングセット全体の経験的リスクを最小限にすることで、すべてのデータをエンドツーエンドでトレーニングする。 推論側では、モデルをトレーニングした後、静的な計算グラフを取得し、特定された混合信号上でフルモデルを実行し、推定されたソース信号を取得する。 さらに、これらのモデルの多くは、連続的に適用されるいくつかの基本的な処理ブロックで構成されている。 我々は、モデルのトレーニングと推論手順を潜在信号表現の反復的マッピングとして再構成することで、トレーニングと推論の段階でのリソース効率を著しく向上できると主張する。 まず、出力に1回以上同じ処理ブロックを適用することで、入力信号を洗練し、パラメータ効率を向上させる。 トレーニング中は、メモリ要求の削減を可能にするブロックワイズ手順に従うことができる。 したがって、エンドツーエンドのトレーニングに比べて計算量が大幅に少ないため、非常に複雑なネットワーク構造をトレーニングすることができる。 推論中は、ゲーティングモジュールを用いて、入力信号が必要とする特定のブロックの処理ブロックと繰り返し数を動的に調整できる。

Traditional source separation approaches train deep neural network models end-to-end with all the data available at once by minimizing the empirical risk on the whole training set. On the inference side, after training the model, the user fetches a static computation graph and runs the full model on some specified observed mixture signal to get the estimated source signals. Additionally, many of those models consist of several basic processing blocks which are applied sequentially. We argue that we can significantly increase resource efficiency during both training and inference stages by reformulating a model's training and inference procedures as iterative mappings of latent signal representations. First, we can apply the same processing block more than once on its output to refine the input signal and consequently improve parameter efficiency. During training, we can follow a block-wise procedure which enables a reduction on memory requirements. Thus, one can train a very complicated network structure using significantly less computation compared to end-to-end training. During inference, we can dynamically adjust how many processing blocks and iterations of a specific block an input signal needs using a gating module.
翻訳日:2023-10-18 06:40:14 公開日:2023-10-16
# 適応マージによる縦続ネットワークの効率的な推定

Efficient Estimation for Longitudinal Network via Adaptive Merging ( http://arxiv.org/abs/2211.07866v3 )

ライセンス: Link先を確認
Haoran Zhang and Junhui Wang(参考訳) 縦ネットワークは複数のノード間の時間的エッジのシーケンスで構成され、時間的エッジはリアルタイムで観測される。 オンラインソーシャルプラットフォームやeコマースの台頭とともにユビキタスになってきたが、文学ではほとんど調査されていない。 本稿では,適応型ネットワークマージ,テンソル分解,点過程の強みを活用した,縦型ネットワークの効率的な推定手法を提案する。 近傍のスパースネットワークをマージし、観測されたエッジの数を増加させ、推定ばらつきを減少させるが、ネットワークマージによってもたらされる推定バイアスは、適応ネットワーク近傍の局所時間構造を利用して制御される。 各イテレーションにおける推定誤差の上限が確立されるような推定を容易にするために,投影勾配降下アルゴリズムが提案されている。 提案手法の漸近的挙動を定量化するために詳細な解析を行い,推定誤差を大幅に低減できることを示すとともに,様々なシナリオにおけるネットワークマージのガイドラインを提供する。 さらに,提案手法の利点を,合成データセットと軍国間紛争データセットに関する広範な数値実験により実証する。

Longitudinal network consists of a sequence of temporal edges among multiple nodes, where the temporal edges are observed in real time. It has become ubiquitous with the rise of online social platform and e-commerce, but largely under-investigated in literature. In this paper, we propose an efficient estimation framework for longitudinal network, leveraging strengths of adaptive network merging, tensor decomposition and point process. It merges neighboring sparse networks so as to enlarge the number of observed edges and reduce estimation variance, whereas the estimation bias introduced by network merging is controlled by exploiting local temporal structures for adaptive network neighborhood. A projected gradient descent algorithm is proposed to facilitate estimation, where the upper bound of the estimation error in each iteration is established. A thorough analysis is conducted to quantify the asymptotic behavior of the proposed method, which shows that it can significantly reduce the estimation error and also provides guideline for network merging under various scenarios. We further demonstrate the advantage of the proposed method through extensive numerical experiments on synthetic datasets and a militarized interstate dispute dataset.
翻訳日:2023-10-18 06:39:22 公開日:2023-10-16
# 機能アライメントを超えた一般化:コンセプトアクティベーションによるコントラスト学習

Generalization Beyond Feature Alignment: Concept Activation-Guided Contrastive Learning ( http://arxiv.org/abs/2211.06843v2 )

ライセンス: Link先を確認
Yibing Liu, Chris Xing Tian, Haoliang Li, Shiqi Wang(参考訳) コントラスト学習による不変表現の学習は、ドメイン一般化(dg)において最先端のパフォーマンスを示す。 このような成功にもかかわらず、本論文では、そのコア学習戦略 -- 機能アライメント -- がモデルの一般化を妨げる可能性があることを見出します。 ニューロンの解釈可能性に関する洞察を導き、ニューロンの活性化の観点からこの問題を特徴づける。 具体的には、特徴要素をニューロン活性化状態として扱うことにより、従来のアライメント手法は学習した不変な特徴の多様性を低下させる傾向を示し、ニューロン活性化の差を無差別に最小化する。 多くのニューロンは、活性化パターンが異なるにもかかわらず、同じ視覚概念を識別する。 そこで本研究では,ニューロンにコードされるハイレベルな概念を対比することにより,要素的特徴のアライメントを緩和する,単純かつ効果的な概念コントラスト(coco)を提案する。 当社のCoCoはプラグイン・アンド・プレイ方式で動作しているので,DGのコントラスト手法に統合することが可能です。 我々はCoCoを4つの正準コントラスト法で評価し、CoCoは特徴表現の多様性を促進し、モデルの一般化能力を一貫して改善することを示した。 この成功をニューロンのカバレッジ分析によって分離することで、CoCoがトレーニング中により有意義なニューロンを誘発し、モデル学習を改善する可能性があることがさらに明らかになった。

Learning invariant representations via contrastive learning has seen state-of-the-art performance in domain generalization (DG). Despite such success, in this paper, we find that its core learning strategy -- feature alignment -- could heavily hinder model generalization. Drawing insights in neuron interpretability, we characterize this problem from a neuron activation view. Specifically, by treating feature elements as neuron activation states, we show that conventional alignment methods tend to deteriorate the diversity of learned invariant features, as they indiscriminately minimize all neuron activation differences. This instead ignores rich relations among neurons -- many of them often identify the same visual concepts despite differing activation patterns. With this finding, we present a simple yet effective approach, Concept Contrast (CoCo), which relaxes element-wise feature alignments by contrasting high-level concepts encoded in neurons. Our CoCo performs in a plug-and-play fashion, thus it can be integrated into any contrastive method in DG. We evaluate CoCo over four canonical contrastive methods, showing that CoCo promotes the diversity of feature representations and consistently improves model generalization capability. By decoupling this success through neuron coverage analysis, we further find that CoCo potentially invokes more meaningful neurons during training, thereby improving model learning.
翻訳日:2023-10-18 06:39:03 公開日:2023-10-16
# マルチエージェント強化学習による2次ダイナミクスをもつ車両のドメイン被覆

Efficient Domain Coverage for Vehicles with Second-Order Dynamics via Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2211.05952v4 )

ライセンス: Link先を確認
Xinyu Zhao, Razvan C. Fetecau, Mo Chen(参考訳) 特定の地域をカバーする協調的な自律型マルチエージェントシステムには、UAV探索と救助、森林火災戦、リアルタイム高解像度監視など、多くの潜在的な応用がある。 このようなカバレッジ問題に対する従来のアプローチには、センサデータに基づいたモデルベースの制御ポリシの設計が含まれる。 しかし、モデルベースのコントローラの設計は困難であり、最先端の古典的制御ポリシーは依然としてかなりの準最適性を示している。 本稿では,2次ダイナミクスを持つエージェントを含むマルチエージェント効率的なドメインカバレッジ問題に対する強化学習(rl)手法を提案する。 提案手法は,MAPPO(Multi-Agent Proximal Policy Optimization Algorithm)に基づく。 提案するネットワークアーキテクチャには,LSTMと自己注意が組み込まれている。 我々の訓練された政策は、最先端の古典的な制御政策を著しく上回っている。 提案手法を様々なシミュレーション実験で実証する。

Collaborative autonomous multi-agent systems covering a specified area have many potential applications, such as UAV search and rescue, forest fire fighting, and real-time high-resolution monitoring. Traditional approaches for such coverage problems involve designing a model-based control policy based on sensor data. However, designing model-based controllers is challenging, and the state-of-the-art classical control policy still exhibits a large degree of sub-optimality. In this paper, we present a reinforcement learning (RL) approach for the multi-agent efficient domain coverage problem involving agents with second-order dynamics. Our approach is based on the Multi-Agent Proximal Policy Optimization Algorithm (MAPPO). Our proposed network architecture includes the incorporation of LSTM and self-attention, which allows the trained policy to adapt to a variable number of agents. Our trained policy significantly outperforms the state-of-the-art classical control policy. We demonstrate our proposed method in a variety of simulated experiments.
翻訳日:2023-10-18 06:38:41 公開日:2023-10-16
# 排他的相互検証のための濃度不等式

Concentration inequalities for leave-one-out cross validation ( http://arxiv.org/abs/2211.02478v3 )

ライセンス: Link先を確認
Benny Avelin and Lauri Viitasaari(参考訳) 本稿では,一般のフレームワークに濃度境界を設けることで,残余のクロスバリデーションが健全な手順であることを証明するのに,推定器の安定性が十分であることを示す。 特に、損失または推定子に対するリプシッツ連続性仮定を超える濃度境界を提供する。 対数的ソボレフの不等式を満たす分布を持つ確率変数を頼りにすることで、比較的リッチな分布クラスが得られる。 本稿では, 線形回帰, カーネル密度推定, 安定化カーネル回帰などの安定化/縮小推定器など, 興味深い例をいくつか挙げる。

In this article we prove that estimator stability is enough to show that leave-one-out cross validation is a sound procedure, by providing concentration bounds in a general framework. In particular, we provide concentration bounds beyond Lipschitz continuity assumptions on the loss or on the estimator. We obtain our results by relying on random variables with distribution satisfying the logarithmic Sobolev inequality, providing us a relatively rich class of distributions. We illustrate our method by considering several interesting examples, including linear regression, kernel density estimation, and stabilized/truncated estimators such as stabilized kernel regression.
翻訳日:2023-10-18 06:37:33 公開日:2023-10-16
# 機械理解のための単純な確率的ニューラルネットワーク

A simple probabilistic neural network for machine understanding ( http://arxiv.org/abs/2210.13179v4 )

ライセンス: Link先を確認
Rongrong Xie and Matteo Marsili(参考訳) 機械理解のためのモデルとして,確率的ニューラルネットワークと固定内部表現を議論する。 ここでの理解は、特徴空間の組織をエンコードする既存の表現にデータをマッピングすることを目的としています。 最大限の関連性の原則を満たし、どのように異なる特徴が組み合わされるかに関する最大限の無知を満たすことで、内部表現を導出する。 隠れた単位がバイナリ変数である場合、これら2つの原則は、完全可解であり、特徴の観点で自然な解釈を提供する階層的特徴モデル(hfm)というユニークなモデルを特定する。 このアーキテクチャを持つ学習機械は、パラメータやデータの変化に対する表現の連続性、圧縮レベルを制御する可能性、一般化を超えて機能をサポートする能力など、多くの興味深い特性を享受していると我々は主張する。 本研究では, 内部表現が固定されたモデルが, 制限ボルツマンマシンのような従来のモデルと定性的に異なる学習モダリティを再現することを議論する。

We discuss probabilistic neural networks with a fixed internal representation as models for machine understanding. Here understanding is intended as mapping data to an already existing representation which encodes an {\em a priori} organisation of the feature space. We derive the internal representation by requiring that it satisfies the principles of maximal relevance and of maximal ignorance about how different features are combined. We show that, when hidden units are binary variables, these two principles identify a unique model -- the Hierarchical Feature Model (HFM) -- which is fully solvable and provides a natural interpretation in terms of features. We argue that learning machines with this architecture enjoy a number of interesting properties, like the continuity of the representation with respect to changes in parameters and data, the possibility to control the level of compression and the ability to support functions that go beyond generalisation. We explore the behaviour of the model with extensive numerical experiments and argue that models where the internal representation is fixed reproduce a learning modality which is qualitatively different from that of traditional models such as Restricted Boltzmann Machines.
翻訳日:2023-10-18 06:37:22 公開日:2023-10-16
# 自然言語フィードバックによる要約ファクト一貫性の改善について

On Improving Summarization Factual Consistency from Natural Language Feedback ( http://arxiv.org/abs/2212.09968v2 )

ライセンス: Link先を確認
Yixin Liu, Budhaditya Deb, Milagro Teruel, Aaron Halfaker, Dragomir Radev, Ahmed H. Awadallah(参考訳) 言語生成モデルの最近の進歩にもかかわらず、そのアウトプットは常にユーザの期待に応えるとは限らない。 本研究では,自然言語における情報フィードバックを利用して生成品質とユーザ嗜好の整合性を向上させることができるかを検討する。 この目的のために、要約における事実整合性、要約が入力文書でサポートされている情報のみを含むべき品質を、ユーザが予測した嗜好として考慮する。 要約文と要約文,要約文の編集,要約の事実的一貫性に関する説明からなる,人間のデモンストレーションと情報的自然言語フィードバックを含む,質の高いデータセットであるデファクトを収集した。 本研究では,(1)人的フィードバックによる要約の編集,(2)原要約の編集のための人的フィードバックの生成,(3)人的フィードバックと編集要約の両方を生成して事実的誤りを訂正するための最初の要約の修正,の3つの自然言語生成タスクについて検討した。 DeFactoは、その情報的自然言語フィードバックのおかげで、現実的に一貫性のある要約や、要約の事実整合性に関するさらなる洞察を提供することができる。 さらに,制御可能なテキスト生成を必要とするタスクにおいて,大規模言語モデルではゼロショット学習能力が欠如しているのに対して,微調整型言語モデルでは,データセットを活用して事実整合性を改善することができることを示す。

Despite the recent progress in language generation models, their outputs may not always meet user expectations. In this work, we study whether informational feedback in natural language can be leveraged to improve generation quality and user preference alignment. To this end, we consider factual consistency in summarization, the quality that the summary should only contain information supported by the input documents, as the user-expected preference. We collect a high-quality dataset, DeFacto, containing human demonstrations and informational natural language feedback consisting of corrective instructions, edited summaries, and explanations with respect to the factual consistency of the summary. Using our dataset, we study three natural language generation tasks: (1) editing a summary by following the human feedback, (2) generating human feedback for editing the original summary, and (3) revising the initial summary to correct factual errors by generating both the human feedback and edited summary. We show that DeFacto can provide factually consistent human-edited summaries and further insights into summarization factual consistency thanks to its informational natural language feedback. We further demonstrate that fine-tuned language models can leverage our dataset to improve the summary factual consistency, while large language models lack the zero-shot learning ability in our proposed tasks that require controllable text generation.
翻訳日:2023-10-18 06:31:13 公開日:2023-10-16
# テキストローカライゼーションのための拡張TrOCR -フルページスキャン画像のOCR-

Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned Receipt Images ( http://arxiv.org/abs/2212.05525v3 )

ライセンス: Link先を確認
Hongkuan Zhang, Edward Whittaker, Ikuo Kitagishi(参考訳) スキャンされたレシートのデジタル化は、レシート画像からテキストを取り出し、構造化されたドキュメントに保存することを目的としている。 これは通常、テキストローカライゼーションと光学文字認識(OCR)という2つのサブタスクに分けられる。 既存のocrモデルは、テキスト領域検出モデルが提供するバウンディングボックス情報を必要とするクロッピングされたテキストインスタンスイメージのみに焦点を当てている。 テキストインスタンスイメージを事前に識別する追加の検出器を導入すると複雑さが増すが、様々なレイアウトに配置された複数のテキスト行を含むレシート画像など、ドキュメントレベルのocrのイメージ全体を処理する場合、インスタンスレベルのocrモデルは非常に精度が低い。 そこで本研究では,レシート画像中のすべての文字を順序付きシーケンス・ツー・エンドに変換するローカライズフリーな文書レベルOCRモデルを提案する。 具体的には,事前学習されたインスタンスレベルのモデルtrocrをランダムに切り抜いた画像チャンクで微調整し,画像チャンクサイズを徐々に増やし,インスタンス画像からフルページ画像への認識能力を一般化する。 SROIE受信OCRデータセットを用いた実験では,64.4F1スコアと22.8%文字誤り率(CER)を達成し,48.5F1スコアと50.6%CERのベースライン結果を上回った。 最良のモデルは、全画像を15の等サイズのチャンクに分割し、87.8 f1-scoreと4.98% cerを与え、出力の予備処理または後処理を最小化する。 また、生成した文書レベルシーケンス内の文字を読み出し順に配置し、実世界のアプリケーションで実用的である。

Digitization of scanned receipts aims to extract text from receipt images and save it into structured documents. This is usually split into two sub-tasks: text localization and optical character recognition (OCR). Most existing OCR models only focus on the cropped text instance images, which require the bounding box information provided by a text region detection model. Introducing an additional detector to identify the text instance images in advance adds complexity, however instance-level OCR models have very low accuracy when processing the whole image for the document-level OCR, such as receipt images containing multiple text lines arranged in various layouts. To this end, we propose a localization-free document-level OCR model for transcribing all the characters in a receipt image into an ordered sequence end-to-end. Specifically, we finetune the pretrained instance-level model TrOCR with randomly cropped image chunks, and gradually increase the image chunk size to generalize the recognition ability from instance images to full-page images. In our experiments on the SROIE receipt OCR dataset, the model finetuned with our strategy achieved 64.4 F1-score and a 22.8% character error rate (CER), respectively, which outperforms the baseline results with 48.5 F1-score and 50.6% CER. The best model, which splits the full image into 15 equally sized chunks, gives 87.8 F1-score and 4.98% CER with minimal additional pre or post-processing of the output. Moreover, the characters in the generated document-level sequences are arranged in the reading order, which is practical for real-world applications.
翻訳日:2023-10-18 06:30:29 公開日:2023-10-16
# ClozeからComprehensionへ:事前学習されたマスク言語モデルから事前学習された機械読取機へ

From Cloze to Comprehension: Retrofitting Pre-trained Masked Language Model to Pre-trained Machine Reader ( http://arxiv.org/abs/2212.04755v3 )

ライセンス: Link先を確認
Weiwen Xu, Xin Li, Wenxuan Zhang, Meng Zhou, Wai Lam, Luo Si, Lidong Bing(参考訳) ラベル付きデータを取得することなく、事前学習された機械読解(MRC)モデルにMLM(pre-trained masked language model)を適合させる新しい手法であるPMRを提案する。 PMRは、既存のMLMのモデル事前学習と下流微調整の相違を解決することができる。 提案したPMRを構築するために,ウィキペディアハイパーリンクを用いて多量の汎用的で高品質なMRCスタイルのトレーニングデータを構築し,MRCスタイルの事前学習をガイドするWikiアンカー抽出タスクを設計した。 その単純さとは別に、PMRは抽出質問回答や名前付きエンティティ認識などの抽出タスクを効果的に解決する。 PMRは、特に低リソースのシナリオにおいて、既存のアプローチよりも大幅に改善されている。 MRC定式化におけるシーケンス分類タスクに適用すると、PMRは高品質な有理数の抽出を可能とし、分類過程を説明し、予測説明可能性を高める。 PMRはまた、MRCの定式化において様々な抽出および分類タスクに取り組む統一モデルとして機能する可能性がある。

We present Pre-trained Machine Reader (PMR), a novel method for retrofitting pre-trained masked language models (MLMs) to pre-trained machine reading comprehension (MRC) models without acquiring labeled data. PMR can resolve the discrepancy between model pre-training and downstream fine-tuning of existing MLMs. To build the proposed PMR, we constructed a large volume of general-purpose and high-quality MRC-style training data by using Wikipedia hyperlinks and designed a Wiki Anchor Extraction task to guide the MRC-style pre-training. Apart from its simplicity, PMR effectively solves extraction tasks, such as Extractive Question Answering and Named Entity Recognition. PMR shows tremendous improvements over existing approaches, especially in low-resource scenarios. When applied to the sequence classification task in the MRC formulation, PMR enables the extraction of high-quality rationales to explain the classification process, thereby providing greater prediction explainability. PMR also has the potential to serve as a unified model for tackling various extraction and classification tasks in the MRC formulation.
翻訳日:2023-10-18 06:29:56 公開日:2023-10-16
# refiner: フェデレート学習における勾配漏洩攻撃に対するデータ精錬

Refiner: Data Refining against Gradient Leakage Attacks in Federated Learning ( http://arxiv.org/abs/2212.02042v2 )

ライセンス: Link先を確認
Mingyuan Fan, Cen Chen, Chengyu Wang, Xiaodan Li, Wenmeng Zhou, Jun Huang(参考訳) 最近の研究は、勾配漏洩攻撃に対する連合学習(fl)システムの脆弱性に注意を向けている。 このような攻撃は、クライアントがアップロードした勾配を利用して機密データを再構築し、FLのプライバシー保護能力を損なう。 これに対し、アップロードされた勾配を操作することで脅威を軽減する様々な防御機構が提案されている。 残念なことに、実証的な評価は、これらの防御が高度な攻撃に対して限られた弾力性を示しており、より効果的な防御が必要であることを示している。 本稿では,従来の勾配摂動アプローチを離れて,ロバストなデータの構築に重点を置く,新たな防御パラダイムについて検討する。 直感的には、ロバストデータとクライアントの生データとのセマンティックな類似性が低い場合、ロバストデータに関連する勾配は攻撃者を効果的に難なくすることができる。 この目的のために、プライバシ保護とパフォーマンス維持のための2つのメトリクスを共同で最適化するRefinerを設計する。 ユーティリティメトリックは、ロバストデータに関連する重要なパラメータの勾配と、クライアントのデータから派生したパラメータとの一貫性を促進するように設計されている。 さらに、プライバシー基準は、クライアントのデータとのセマンティックギャップを拡大するための堅牢なデータの生成を導く。 理論的解析はRefinerの有効性を支持し、複数のベンチマークデータセットに対する経験的評価はRefinerの最先端攻撃に対する防御効果が優れていることを示す。

Recent works have brought attention to the vulnerability of Federated Learning (FL) systems to gradient leakage attacks. Such attacks exploit clients' uploaded gradients to reconstruct their sensitive data, thereby compromising the privacy protection capability of FL. In response, various defense mechanisms have been proposed to mitigate this threat by manipulating the uploaded gradients. Unfortunately, empirical evaluations have demonstrated limited resilience of these defenses against sophisticated attacks, indicating an urgent need for more effective defenses. In this paper, we explore a novel defensive paradigm that departs from conventional gradient perturbation approaches and instead focuses on the construction of robust data. Intuitively, if robust data exhibits low semantic similarity with clients' raw data, the gradients associated with robust data can effectively obfuscate attackers. To this end, we design Refiner that jointly optimizes two metrics for privacy protection and performance maintenance. The utility metric is designed to promote consistency between the gradients of key parameters associated with robust data and those derived from clients' data, thus maintaining model performance. Furthermore, the privacy metric guides the generation of robust data towards enlarging the semantic gap with clients' data. Theoretical analysis supports the effectiveness of Refiner, and empirical evaluations on multiple benchmark datasets demonstrate the superior defense effectiveness of Refiner at defending against state-of-the-art attacks.
翻訳日:2023-10-18 06:29:39 公開日:2023-10-16
# データ駆動型多項ランダムフォレスト:強い一貫性を持つ新しいランダムフォレスト変種

Data-driven multinomial random forest: A new random forest variant with strong consistency ( http://arxiv.org/abs/2211.15154v2 )

ライセンス: Link先を確認
JunHao Chen(参考訳) そこで本稿では, 従来, 弱弱無害な森林変種の証明法を, 強く一貫した証明法に修正し, それらの変種のデータ利用を改良して, より良い理論的特性と実験性能を得る。 さらに,データ駆動型多項ランダムフォレスト(dmrf)を提案する。これはbreimanrf(breimanが提案する)と同等の複雑性を持ち,確率1と強い一貫性を満足する。 分類および回帰問題において、弱い一貫性しか満たさない以前のRF変種よりも優れた性能を示し、ほとんどの場合、分類タスクにおいてブレイマンRFを超えている。 我々の知る限り、DMRFは現在、確率1と強い整合性を達成するランダム森林の低複雑さで高いパフォーマンスの変動である。

In this paper, we modify the proof methods of some previously weakly consistent variants of random forests into strongly consistent proof methods, and improve the data utilization of these variants in order to obtain better theoretical properties and experimental performance. In addition, we propose a data-driven multinomial random forest (DMRF), which has the same complexity with BreimanRF (proposed by Breiman) while satisfying strong consistency with probability 1. It has better performance in classification and regression problems than previous RF variants that only satisfy weak consistency, and in most cases even surpasses BreimanRF in classification tasks. To the best of our knowledge, DMRF is currently a low-complexity and high-performing variation of random forests that achieves strong consistency with probability 1.
翻訳日:2023-10-18 06:29:13 公開日:2023-10-16
# 協調進化探索によるML対応自律システムの危険性境界の同定

Identifying the Hazard Boundary of ML-enabled Autonomous Systems Using Cooperative Co-Evolutionary Search ( http://arxiv.org/abs/2301.13807v3 )

ライセンス: Link先を確認
Sepehr Sharifi, Donghwan Shin, Lionel C. Briand and Nathan Aschbacher(参考訳) 機械学習(ML)対応自律システム(MLAS)では,MLコンポーネント(MLC)の危険境界を解析で識別することが不可欠である。 このようなバウンダリがLCCの振る舞いやハザードに繋がるシステムコンテキストという観点で条件を捉えていることを考慮すれば、例えばハザード境界に到達する際に、事前に定義されたフォールバック機構を実行時に取得できる安全モニターを構築することができる。 しかし、このようなMLコンポーネントのハザード境界を決定することは困難である。 これは、システムコンテキスト(シナリオ)とMLCの振る舞い(入力と出力)を組み合わせた問題空間が、徹底的な探索には大きすぎること、遺伝的アルゴリズムのような従来のメタヒューリスティック(メタヒューリスティック)を扱うことにさえ原因がある。 さらに、MLASの安全性違反を判定するために必要なシミュレーションの計算コストが高いため、この問題はさらに難しくなる。 さらに、シミュレーションにおける制御不能なパラメータとMLASにおけるMLモデル(例えばディープニューラルネットワーク)の非線形な振る舞いのために、問題空間内の領域が決定論的に安全または安全でないと考えることは非現実的である。 この課題に対処するために,協調進化アルゴリズム(CCEA)に基づく新しい手法であるMLCSHE(ML Component Safety Hazard Envelope)を提案する。 さらに,安全で安全でない領域を確率論的に捉え,確率的ハザード境界からの距離を測定する新しい適合関数を定義し,探索を効果的に推進する。 複雑な自律走行車(AV)におけるMLCSHEの有効性と効率について検討した。 評価の結果,MLCSHEは標準的な遺伝的アルゴリズムやランダム検索よりも効率的かつ効率的であることが示唆された。

In Machine Learning (ML)-enabled autonomous systems (MLASs), it is essential to identify the hazard boundary of ML Components (MLCs) in the MLAS under analysis. Given that such boundary captures the conditions in terms of MLC behavior and system context that can lead to hazards, it can then be used to, for example, build a safety monitor that can take any predefined fallback mechanisms at runtime when reaching the hazard boundary. However, determining such hazard boundary for an ML component is challenging. This is due to the problem space combining system contexts (i.e., scenarios) and MLC behaviors (i.e., inputs and outputs) being far too large for exhaustive exploration and even to handle using conventional metaheuristics, such as genetic algorithms. Additionally, the high computational cost of simulations required to determine any MLAS safety violations makes the problem even more challenging. Furthermore, it is unrealistic to consider a region in the problem space deterministically safe or unsafe due to the uncontrollable parameters in simulations and the non-linear behaviors of ML models (e.g., deep neural networks) in the MLAS under analysis. To address the challenges, we propose MLCSHE (ML Component Safety Hazard Envelope), a novel method based on a Cooperative Co-Evolutionary Algorithm (CCEA), which aims to tackle a high-dimensional problem by decomposing it into two lower-dimensional search subproblems. Moreover, we take a probabilistic view of safe and unsafe regions and define a novel fitness function to measure the distance from the probabilistic hazard boundary and thus drive the search effectively. We evaluate the effectiveness and efficiency of MLCSHE on a complex Autonomous Vehicle (AV) case study. Our evaluation results show that MLCSHE is significantly more effective and efficient compared to a standard genetic algorithm and random search.
翻訳日:2023-10-18 06:19:57 公開日:2023-10-16
# DiffSTG:拡散モデルを用いた確率的時空間グラフ予測

DiffSTG: Probabilistic Spatio-Temporal Graph Forecasting with Denoising Diffusion Models ( http://arxiv.org/abs/2301.13629v3 )

ライセンス: Link先を確認
Haomin Wen, Youfang Lin, Yutong Xia, Huaiyu Wan, Qingsong Wen, Roger Zimmermann, Yuxuan Liang(参考訳) 時空間グラフニューラルネットワーク(STGNN)が時空間グラフ(STG)予測の主流モデルとなっている。 成功にもかかわらず、STGデータ内の本質的な不確実性のモデル化には失敗し、意思決定の下流タスクにおける実用性を損なう。 本稿では,不確実性や複雑なST依存のモデル化が困難であることから,確率的STG予測に焦点をあてる。 本研究では,STGの拡散確率モデルを一般化する最初の試みとして,DiffSTGと呼ばれる新しい非自己回帰的フレームワークと,STGのためのネットワークUGnetを提案する。 提案手法は,STGNNの時空間学習能力と拡散モデルの不確実性測定を組み合わせたものである。 広範な実験により、diffstgは連続ランク付き確率スコア(crps)を4%-14%削減し、ルート平均二乗誤差(rmse)を3つの実世界のデータセット上の既存の方法よりも2%-7%削減できることが確認された。

Spatio-temporal graph neural networks (STGNN) have emerged as the dominant model for spatio-temporal graph (STG) forecasting. Despite their success, they fail to model intrinsic uncertainties within STG data, which cripples their practicality in downstream tasks for decision-making. To this end, this paper focuses on probabilistic STG forecasting, which is challenging due to the difficulty in modeling uncertainties and complex ST dependencies. In this study, we present the first attempt to generalize the popular denoising diffusion probabilistic models to STGs, leading to a novel non-autoregressive framework called DiffSTG, along with the first denoising network UGnet for STG in the framework. Our approach combines the spatio-temporal learning capabilities of STGNNs with the uncertainty measurements of diffusion models. Extensive experiments validate that DiffSTG reduces the Continuous Ranked Probability Score (CRPS) by 4%-14%, and Root Mean Squared Error (RMSE) by 2%-7% over existing methods on three real-world datasets.
翻訳日:2023-10-18 06:19:21 公開日:2023-10-16
# 表面マイニングにおける自動化とAI技術 -Pilbaraにおけるオープンピット操作の簡単な紹介-

Automation and AI Technology in Surface Mining With a Brief Introduction to Open-Pit Operations in the Pilbara ( http://arxiv.org/abs/2301.09771v5 )

ライセンス: Link先を確認
Raymond Leung, Andrew J Hill, Arman Melkumyan(参考訳) 本稿では,鉱業,特に西オーストラリアのピルバラ鉄鉱地帯で発生した工学的問題,技術革新,ロボット開発,自動化の取り組みについて概説する。 目標は、テクノロジの展望を描き、エンジニアリングのオーディエンスに関連する問題を強調して、aiとマイニングの自動化トレンドに対する意識を高めることだ。 読者はマイニングに関する事前知識がなく、集中した議論と一般的なオープンピットマイニング操作の短い要約を通じて徐々にコンテキストを構築していると仮定している。 主要な活動は、資源開発、鉱業、鉄道、港湾事業の観点で分類することができる。 鉱物探査から鉱石の出荷まで、その中間にはおよそ9つの段階がある。 地質学的アセスメント、鉱山計画と開発、生産の掘削と調査、爆破と掘削、鉱石と廃棄物の輸送、解体とスクリーン、ストックパイルとロードアウト、鉄道網の流通、および鉱石車ダンピングなどである。 目的は、これらのプロセスを説明し、10年にわたる産業大学と研究開発のパートナーシップの観点から、課題や機会について洞察を提供することである。

This survey article provides a synopsis on some of the engineering problems, technological innovations, robotic development and automation efforts encountered in the mining industry -- particularly in the Pilbara iron-ore region of Western Australia. The goal is to paint the technology landscape and highlight issues relevant to an engineering audience to raise awareness of AI and automation trends in mining. It assumes the reader has no prior knowledge of mining and builds context gradually through focused discussion and short summaries of common open-pit mining operations. The principal activities that take place may be categorized in terms of resource development, mine-, rail- and port operations. From mineral exploration to ore shipment, there are roughly nine steps in between. These include: geological assessment, mine planning and development, production drilling and assaying, blasting and excavation, transportation of ore and waste, crush and screen, stockpile and load-out, rail network distribution, and ore-car dumping. The objective is to describe these processes and provide insights on some of the challenges/opportunities from the perspective of a decade-long industry-university R&D partnership.
翻訳日:2023-10-18 06:18:21 公開日:2023-10-16
# MixupE: 方向微分の観点からのミックスアップの理解と改善

MixupE: Understanding and Improving Mixup from Directional Derivative Perspective ( http://arxiv.org/abs/2212.13381v5 )

ライセンス: Link先を確認
Yingtian Zou, Vikas Verma, Sarthak Mittal, Wai Hoh Tang, Hieu Pham, Juho Kannala, Yoshua Bengio, Arno Solin, Kenji Kawaguchi(参考訳) Mixupはディープニューラルネットワークをトレーニングするための一般的なデータ拡張テクニックで、入力とラベルを線形に補間することで追加サンプルを生成する。 この技術は多くの学習パラダイムや応用において一般化性能を向上させることが知られている。 本研究では,まず混合を解析し,すべての順序の無限個の方向微分を暗黙的に規則化することを示す。 この新たな知見に基づいて,理論上はバニラミックスアップよりも優れた一般化性能を提供するため,mixupの改良版を提案する。 提案手法の有効性を示すために,画像,表データ,音声,グラフなどの様々な領域で実験を行った。 提案手法は,様々なアーキテクチャを用いて,複数のデータセットのミックスアップを改良し,ImageNet Top-1の精度が0.8%向上したことを示す。

Mixup is a popular data augmentation technique for training deep neural networks where additional samples are generated by linearly interpolating pairs of inputs and their labels. This technique is known to improve the generalization performance in many learning paradigms and applications. In this work, we first analyze Mixup and show that it implicitly regularizes infinitely many directional derivatives of all orders. Based on this new insight, we propose an improved version of Mixup, theoretically justified to deliver better generalization performance than the vanilla Mixup. To demonstrate the effectiveness of the proposed method, we conduct experiments across various domains such as images, tabular data, speech, and graphs. Our results show that the proposed method improves Mixup across multiple datasets using a variety of architectures, for instance, exhibiting an improvement over Mixup by 0.8% in ImageNet top-1 accuracy.
翻訳日:2023-10-18 06:17:13 公開日:2023-10-16
# 名前付きエンティティ認識のためのタイプアウェア分解フレームワーク

Type-Aware Decomposed Framework for Few-Shot Named Entity Recognition ( http://arxiv.org/abs/2302.06397v2 )

ライセンス: Link先を確認
Yongqi Li, Yu Yu, Tieyun Qian(参考訳) 少数ショット名付きエンティティ認識(NER)タスクにおける2段階のプロトタイプネットワークの最近の成功にもかかわらず、スパン検出段階における過剰検出された偽のスパンと型分類段階における不正確で不安定なプロトタイプは依然として難しい問題である。 本稿では,これらの問題を解決するための新しいタイプアウェア分解フレームワーク,すなわちTadNERを提案する。 まず、型名から遠く離れたものを取り除き、偽スパンをフィルタリングする型認識スパンフィルタリング戦略を提案する。 そこで我々は,より正確で安定したプロトタイプを構築するための型認識型コントラスト学習戦略を提案する。 様々なベンチマーク実験により,提案したTadNERフレームワークが新たな最先端性能を実現することが示された。 私たちのコードとデータはhttps://github.com/NLPWM-WHU/TadNER.comで公開されます。

Despite the recent success achieved by several two-stage prototypical networks in few-shot named entity recognition (NER) task, the overdetected false spans at the span detection stage and the inaccurate and unstable prototypes at the type classification stage remain to be challenging problems. In this paper, we propose a novel Type-Aware Decomposed framework, namely TadNER, to solve these problems. We first present a type-aware span filtering strategy to filter out false spans by removing those semantically far away from type names. We then present a type-aware contrastive learning strategy to construct more accurate and stable prototypes by jointly exploiting support samples and type names as references. Extensive experiments on various benchmarks prove that our proposed TadNER framework yields a new state-of-the-art performance. Our code and data will be available at https://github.com/NLPWM-WHU/TadNER.
翻訳日:2023-10-18 06:11:15 公開日:2023-10-16
# 最適単一ビットトモグラフィー:量子コンピュータ上での局所的最適測定の実現

Optimal Single Qubit Tomography: Realization of Locally Optimal Measurements on a Quantum Computer ( http://arxiv.org/abs/2302.05140v2 )

ライセンス: Link先を確認
Bacui Li, Lorcan O. Conlon, Ping Koy Lam, Syed M. Assad(参考訳) 量子ビット(qubits)は、現在の量子コンピュータの基本構成要素である。 したがって、できるだけ正確に量子ビットの状態を特徴付けることが重要である。 量子メトロロジーの観点から量子ビットキャラクタリゼーション問題を評価することにより,適切な事前知識を仮定して最適な測定値を求めることができる。 これらの測定を超伝導量子コンピュータに実装する。 提案実験は, 長岡-早石境界で与えられる理論限界の飽和を許容するための十分低い誤差を生じる。 また,提案手法を用いた適応計測方式のシミュレーションを行った。 シミュレーションの結果,事前知識の相違による任意の量子状態の特徴付けにおける手法の堅牢性を示す。

Quantum bits, or qubits, are the fundamental building blocks of present quantum computers. Hence, it is important to be able to characterize the state of a qubit as accurately as possible. By evaluating the qubit characterization problem from the viewpoint of quantum metrology, we are able to find optimal measurements under the assumption of good prior knowledge. We implement these measurements on a superconducting quantum computer. Our experiment produces sufficiently low error to allow the saturation of the theoretical limits, given by the Nagaoka--Hayashi bound. We also present simulations of adaptive measurement schemes utilizing the proposed method. The results of the simulations show the robustness of the method in characterizing arbitrary qubit states with different amounts of prior knowledge.
翻訳日:2023-10-18 06:10:16 公開日:2023-10-16
# AV-NeRF:リアルワールドオーディオ映像合成のためのニューラルネットワーク学習

AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis ( http://arxiv.org/abs/2302.02088v3 )

ライセンス: Link先を確認
Susan Liang, Chao Huang, Yapeng Tian, Anurag Kumar, Chenliang Xu(参考訳) 映像を録音する機械は、新しい位置や新しい視点の方向で、現実的な映像体験を生み出すことができるか? 我々は,実世界の音声・視覚シーン合成という新しい課題と,nrfに基づくマルチモーダル学習のアプローチについて検討した。 具体的には、映像シーンの映像記録を前提として、そのシーンの任意のカメラ軌跡に沿って、空間的オーディオで新しい映像を合成する。 本研究では,音声伝搬の事前知識をnerfに統合した音響認識型音声生成モジュールを提案し,視覚環境の3次元形状と材料特性を暗黙的に関連付ける。 さらに,音源に対する視野方向を表現する座標変換モジュールを提案し,モデルが音源中心の音響場を学習できるようにする。 このタスクの学習を容易にするために,RWAVS(Real-World Audio-Visual Scene)データセットを高品質に収集する。 本手法の利点を実世界のデータセットとシミュレーションベースのSoundSpacesデータセットに示す。

Can machines recording an audio-visual scene produce realistic, matching audio-visual experiences at novel positions and novel view directions? We answer it by studying a new task -- real-world audio-visual scene synthesis -- and a first-of-its-kind NeRF-based approach for multimodal learning. Concretely, given a video recording of an audio-visual scene, the task is to synthesize new videos with spatial audios along arbitrary novel camera trajectories in that scene. We propose an acoustic-aware audio generation module that integrates prior knowledge of audio propagation into NeRF, in which we implicitly associate audio generation with the 3D geometry and material properties of a visual environment. Furthermore, we present a coordinate transformation module that expresses a view direction relative to the sound source, enabling the model to learn sound source-centric acoustic fields. To facilitate the study of this new task, we collect a high-quality Real-World Audio-Visual Scene (RWAVS) dataset. We demonstrate the advantages of our method on this real-world dataset and the simulation-based SoundSpaces dataset.
翻訳日:2023-10-18 06:08:28 公開日:2023-10-16
# 教師付きサラウンドビュー深度推定のための簡易ベースライン

A Simple Baseline for Supervised Surround-view Depth Estimation ( http://arxiv.org/abs/2303.07759v2 )

ライセンス: Link先を確認
Xianda Guo, Wenjie Yuan, Yunpeng Zhang, Tian Yang, Chenming Zhang, Zheng Zhu, Long Chen(参考訳) 深度推定は広く研究され、知的車両の3次元知覚の基本的なステップとなっている。 過去数十年間、単眼深度推定において顕著な進歩があったが、これらの試みは主に、周囲カメラ間の相関を無視する前面カメラのみを用いたKITTIベンチマークで行われている。 本稿では,S3Depthを提案する。S3Depthは,複数の周囲カメラにまたがる深度マップを共同で予測する簡易ベースラインである。 具体的には,CNNとトランスフォーマー層を組み合わせたグローバル-ローカルな特徴抽出モジュールを用いて表現を豊かにする。 さらに、ビュー内およびビュー間特徴伝搬を可能にするために、アジャセントビュー注意機構を提案する。 前者は各ビュー内のセルフアテンションモジュールで達成され、後者はアテンションモジュールで実現され、マルチカメラ間でアテンションを計算し、サラウンドビュー特徴マップでマルチスケール表現を交換する。 本手法はDDADとnuScenesの両方のデータセット上で,既存の最先端手法よりも優れた性能を示す。

Depth estimation has been widely studied and serves as the fundamental step of 3D perception for intelligent vehicles. Though significant progress has been made in monocular depth estimation in the past decades, these attempts are mainly conducted on the KITTI benchmark with only front-view cameras, which ignores the correlations across surround-view cameras. In this paper, we propose S3Depth, a Simple Baseline for Supervised Surround-view Depth Estimation, to jointly predict the depth maps across multiple surrounding cameras. Specifically, we employ a global-to-local feature extraction module which combines CNN with transformer layers for enriched representations. Further, the Adjacent-view Attention mechanism is proposed to enable the intra-view and inter-view feature propagation. The former is achieved by the self-attention module within each view, while the latter is realized by the adjacent attention module, which computes the attention across multi-cameras to exchange the multi-scale representations across surround-view feature maps. Extensive experiments show that our method achieves superior performance over existing state-of-the-art methods on both DDAD and nuScenes datasets.
翻訳日:2023-10-18 06:00:45 公開日:2023-10-16
# シリコンのホールスピン量子ビットを用いた量子推定とリモート電荷検出

Quantum estimation and remote charge sensing with a hole-spin qubit in silicon ( http://arxiv.org/abs/2303.07161v3 )

ライセンス: Link先を確認
Gaia Forghieri, Andrea Secchi, Andrea Bertoni, Paolo Bordone, and Filippo Troiani(参考訳) 半導体中のホールスピン量子ビットは、量子技術応用のための成熟したプラットフォームである。 ここでは、量子センサーとしての利用、特にリモート電荷の量子ビットからの距離を推定するための利用について考察する。 単一の量子ドットと二重量子ドット、基底状態と平衡状態、ラビとラムゼーの測定に基づいて異なるアプローチが検討され、識別確率と古典的および量子フィッシャー情報を用いて比較分析される。 詳細な量的側面は、ルッティンガー・コーン・ハミルトニアン(Luttinger-Kohn Hamiltonian)によって説明される孔状態の多重バンド特性から生じる。 さらに、上記の選択肢の相対的効率性について一般的な結論を導き、rabiおよびramseyスキーム内の一般的なキュービットのフィッシャー情報に対して解析式を導出する。

Hole-spin qubits in semiconductors represent a mature platform for quantum technological applications. Here we consider their use as quantum sensors, and specifically for inferring the presence and estimating the distance from the qubit of a remote charge. Different approaches are considered - based on the use of single or double quantum dots, ground and out-of-equilibrium states, Rabi and Ramsey measurements - and comparatively analyzed by means of the discrimination probability, and of the classical and quantum Fisher information. Detailed quantitative aspects result from the multiband character of the hole states, which we account for by means of the Luttinger-Kohn Hamiltonian. Furthermore, general conclusions can be drawn on the relative efficiency of the above options, and analytical expressions are derived for the Fisher information of a generic qubit within the Rabi and Ramsey schemes.
翻訳日:2023-10-18 06:00:24 公開日:2023-10-16
# モデルベースオフライン強化学習における環境トランスフォーマーとポリシー最適化

Environment Transformer and Policy Optimization for Model-Based Offline Reinforcement Learning ( http://arxiv.org/abs/2303.03811v2 )

ライセンス: Link先を確認
Pengqin Wang, Meixin Zhu, Shaojie Shen(参考訳) 実際の環境と相互作用してデータを取得することは、しばしばロボット作業においてコストと時間を要する。 モデルベースオフライン強化学習(RL)は実現可能なソリューションを提供する。 一方、実際の環境との相互作用の要求を排除します。 一方、オフラインデータセットからトランジションダイナミクスと報酬関数を学び、トレーニングを加速するためにシミュレートされたロールアウトを生成する。 従来のモデルベースオフラインRL法では、確率的アンサンブルニューラルネットワーク(NN)を採用して、アレタリック不確実性とてんかんの不確実性をモデル化していた。 しかし、これはトレーニング時間と計算リソース要求の指数関数的な増加をもたらす。 さらに,これらの手法は長期ロールアウトのシミュレーションにおいて環境力学モデルの累積誤差により容易に阻害される。 そこで本稿では,環境トランスフォーマーと呼ばれる不確実性を考慮したシーケンスモデリングアーキテクチャを提案する。 環境力学と報酬関数の確率分布をモデル化し、アレタリック不確かさを捉え、認識の不確かさを学習可能なノイズパラメータとして扱う。 遷移力学と報酬関数の正確なモデリングにより、環境変換器は任意の計画、動的プログラミング、オフラインRLのためのポリシー最適化アルゴリズムと組み合わせることができる。 この場合、保守的Q-Learning(CQL)を行い、保守的なQ-functionを学習する。 シミュレーション実験により,本手法はオフラインrlベンチマークにおいて最先端性能を達成または達成できることを実証した。 さらに,環境トランスフォーマーの模擬ロールアウト品質,サンプル効率,長期ロールアウトシミュレーション能力は,従来のモデルベースオフラインRL法よりも優れていることを示す。

Interacting with the actual environment to acquire data is often costly and time-consuming in robotic tasks. Model-based offline reinforcement learning (RL) provides a feasible solution. On the one hand, it eliminates the requirements of interaction with the actual environment. On the other hand, it learns the transition dynamics and reward function from the offline datasets and generates simulated rollouts to accelerate training. Previous model-based offline RL methods adopt probabilistic ensemble neural networks (NN) to model aleatoric uncertainty and epistemic uncertainty. However, this results in an exponential increase in training time and computing resource requirements. Furthermore, these methods are easily disturbed by the accumulative errors of the environment dynamics models when simulating long-term rollouts. To solve the above problems, we propose an uncertainty-aware sequence modeling architecture called Environment Transformer. It models the probability distribution of the environment dynamics and reward function to capture aleatoric uncertainty and treats epistemic uncertainty as a learnable noise parameter. Benefiting from the accurate modeling of the transition dynamics and reward function, Environment Transformer can be combined with arbitrary planning, dynamics programming, or policy optimization algorithms for offline RL. In this case, we perform Conservative Q-Learning (CQL) to learn a conservative Q-function. Through simulation experiments, we demonstrate that our method achieves or exceeds state-of-the-art performance in widely studied offline RL benchmarks. Moreover, we show that Environment Transformer's simulated rollout quality, sample efficiency, and long-term rollout simulation capability are superior to those of previous model-based offline RL methods.
翻訳日:2023-10-18 05:59:34 公開日:2023-10-16
# Koopman Observablesとしての補助関数:多項最適化による動的システムのデータ駆動解析

Auxiliary Functions as Koopman Observables: Data-Driven Analysis of Dynamical Systems via Polynomial Optimization ( http://arxiv.org/abs/2303.01483v4 )

ライセンス: Link先を確認
Jason J. Bramburger and Giovanni Fantuzzi(参考訳) 本稿では,明示的なモデル発見を必要としない動的システム解析のための柔軟なデータ駆動手法を提案する。 この手法は、データからクープマン演算子を近似する確立した手法に根ざし、数値的に解ける半定プログラムとして実装される。 さらに,本手法は決定的あるいは確率的プロセスによってデータが生成されるかどうかを知らないため,ユーザの事前調整は不要である。 厳密な収束の結果は、この方法の適用性を正当化すると同時に、文献全体から同様の結果を拡張および統一する。 リアプノフ関数の発見、エルゴード最適化の実行、および決定論的および確率的ダイナミクスのアトラクタ上の境界付き極値の例は、これらの収束結果を例示し、この手法の性能を示す。

We present a flexible data-driven method for dynamical system analysis that does not require explicit model discovery. The method is rooted in well-established techniques for approximating the Koopman operator from data and is implemented as a semidefinite program that can be solved numerically. Furthermore, the method is agnostic of whether data is generated through a deterministic or stochastic process, so its implementation requires no prior adjustments by the user to accommodate these different scenarios. Rigorous convergence results justify the applicability of the method, while also extending and uniting similar results from across the literature. Examples on discovering Lyapunov functions, performing ergodic optimization, and bounding extrema over attractors for both deterministic and stochastic dynamics exemplify these convergence results and demonstrate the performance of the method.
翻訳日:2023-10-18 05:58:50 公開日:2023-10-16
# GestureDiffuCLIP:CLIP潜伏剤を用いたジェスチャ拡散モデル

GestureDiffuCLIP: Gesture Diffusion Model with CLIP Latents ( http://arxiv.org/abs/2303.14613v4 )

ライセンス: Link先を確認
Tenglong Ao, Zeyi Zhang, Libin Liu(参考訳) 近年,スタイリングされた共同音声ジェスチャーの自動生成が注目されている。 従来のシステムでは,事前に定義されたテキストラベルやモーションクリップによるスタイルコントロールが可能で,ユーザの意図を正確に伝えるには柔軟性に欠けることが多い。 本稿では,フレキシブルなスタイル制御による,リアルでスタイリッシュなコスピーチジェスチャを合成するニューラルネットワークフレームワークであるjuicediffuclipを提案する。 本稿では,CLIP(Contrastive-Language-Image-Pre-Training)モデルのパワーを活用し,テキストやモーションクリップ,ビデオなどの複数の入力モードから,効率的なスタイル表現を抽出する新しいCLIP誘導機構を提案する。 我々のシステムは,高品質なジェスチャを生成するために潜時拡散モデルを学び,適応インスタンス正規化(AdaIN)層を介してスタイルのCLIP表現をジェネレータに注入する。 さらに、コントラスト学習に基づく意味論的に正しいジェスチャー生成を可能にするジェスチャー記述アライメント機構を考案する。 我々のシステムは、個々の身体部分のきめ細かいスタイル制御を可能にするよう拡張することもできる。 我々は、様々なスタイル記述に対するモデルの柔軟性と一般化性を示す、広範な例を示します。 ユーザ・スタディにおいて,本システムは,人間の類似性,適切性,スタイル正確性に関する最先端のアプローチを上回っていることを示す。

The automatic generation of stylized co-speech gestures has recently received increasing attention. Previous systems typically allow style control via predefined text labels or example motion clips, which are often not flexible enough to convey user intent accurately. In this work, we present GestureDiffuCLIP, a neural network framework for synthesizing realistic, stylized co-speech gestures with flexible style control. We leverage the power of the large-scale Contrastive-Language-Image-Pre-training (CLIP) model and present a novel CLIP-guided mechanism that extracts efficient style representations from multiple input modalities, such as a piece of text, an example motion clip, or a video. Our system learns a latent diffusion model to generate high-quality gestures and infuses the CLIP representations of style into the generator via an adaptive instance normalization (AdaIN) layer. We further devise a gesture-transcript alignment mechanism that ensures a semantically correct gesture generation based on contrastive learning. Our system can also be extended to allow fine-grained style control of individual body parts. We demonstrate an extensive set of examples showing the flexibility and generalizability of our model to a variety of style descriptions. In a user study, we show that our system outperforms the state-of-the-art approaches regarding human likeness, appropriateness, and style correctness.
翻訳日:2023-10-18 05:51:30 公開日:2023-10-16
# CHENTIT:対話による多方向対話型顔画像編集を目指して

CHATEDIT: Towards Multi-turn Interactive Facial Image Editing via Dialogue ( http://arxiv.org/abs/2303.11108v3 )

ライセンス: Link先を確認
Xing Cui, Zekun Li, Peipei Li, Yibo Hu, Hailin Shi, Zhaofeng He(参考訳) 本稿では,対話による対話型顔画像編集について検討し,このコンテキストにおける画像編集と会話能力を評価するためのchateditベンチマークデータセットを紹介する。 ChatEditはCelebA-HQデータセットから構築され、画像上のユーザの編集要求に対応する注釈付きマルチターンダイアログが組み込まれている。 ユーザの要求を動的に追跡し、画像を編集し、適切なレスポンスを生成する必要があるため、データセットは難しい。 そこで我々は3つのベンチマークタスクを提案する。 (i)ユーザの編集要求追跡 (ii)画像編集、及び (iii)反応生成。 本稿では,ユーザ要求のトラッキングと応答生成のための対話モジュールと,画像編集のための画像編集モジュールを統合した新しいベースラインフレームワークを提案する。 従来のアプローチとは異なり,我々のフレームワークは,対話履歴全体から現在のターンまで,ユーザの編集要求を直接追跡し,前のターンの出力を調整するのではなく,元のイメージを変更する。 ChatEditデータセットに関する大規模な実験は、フレームワークの先行モデルに対する優れたパフォーマンスと、さらなる研究の余地を強調します。 複雑な対話型顔画像編集の進歩を促進するため、コードとデータを公開します。

This paper explores interactive facial image editing via dialogue and introduces the ChatEdit benchmark dataset for evaluating image editing and conversation abilities in this context. ChatEdit is constructed from the CelebA-HQ dataset, incorporating annotated multi-turn dialogues corresponding to user edit requests on the images. The dataset is challenging, as it requires the system to dynamically track user requests, edit images, and generate appropriate responses. Accordingly, we propose three benchmark tasks: (i) user edit request tracking, (ii) image editing, and (iii) response generation. We present a novel baseline framework that integrates a dialogue module for both tracking user requests and generating responses and an image editing module for image editing. Unlike previous approaches, our framework directly tracks user edit requests from the entire dialogue history up to the current turn and modifies the original image rather than adjusting the previous turn's output, thereby reducing error accumulation and preventing attribute forgetfulness. Extensive experiments on the ChatEdit dataset underline our framework's superior performance against prior models, while also highlighting potential room for further research. We will release the code and data publicly to facilitate advancements in complex interactive facial image editing.
翻訳日:2023-10-18 05:50:18 公開日:2023-10-16
# 医学的時間的制約の抽出のための文脈内学習のスコープ

The Scope of In-Context Learning for the Extraction of Medical Temporal Constraints ( http://arxiv.org/abs/2303.09366v2 )

ライセンス: Link先を確認
Parker Seegmiller, Joseph Gatto, Madhusudan Basak, Diane Cook, Hassan Ghasemzadeh, John Stankovic and Sarah Preum(参考訳) 薬はしばしば日常的な患者活動に時間的制約を課す。 このような医学的時間的制約(MTC)の違反は、医療結果の悪化と医療費の増加に加えて、治療の順守の欠如につながる。 これらのMDCは、患者の教育材料と臨床テキストの両方において、薬物使用ガイドライン(DUG)に見出される。 DUGにおけるMCCの計算的表現は、安全な患者の活動パターンを定義することで、患者中心の医療応用を促進する。 本研究では, DUG に含まれる MTC の新しい分類法を定義し,非構造化 DUG から MTC を計算的に表現する新しい文脈自由文法 (CFG) モデルを開発した。 さらに,N = 836 DUGを正規化MCCでラベル付けした3つの新しいデータセットもリリースした。 我々は、DUGsで見つかったMCCを自動的に抽出し、正規化するインコンテキスト学習(ICL)ソリューションを開発し、すべてのデータセットの平均F1スコアが0.62に達する。 最後に,ICLモデルの性能をベースラインモデル,データセットおよびMCCタイプ,深度誤差解析を通じて厳密に検討する。

Medications often impose temporal constraints on everyday patient activity. Violations of such medical temporal constraints (MTCs) lead to a lack of treatment adherence, in addition to poor health outcomes and increased healthcare expenses. These MTCs are found in drug usage guidelines (DUGs) in both patient education materials and clinical texts. Computationally representing MTCs in DUGs will advance patient-centric healthcare applications by helping to define safe patient activity patterns. We define a novel taxonomy of MTCs found in DUGs and develop a novel context-free grammar (CFG) based model to computationally represent MTCs from unstructured DUGs. Additionally, we release three new datasets with a combined total of N = 836 DUGs labeled with normalized MTCs. We develop an in-context learning (ICL) solution for automatically extracting and normalizing MTCs found in DUGs, achieving an average F1 score of 0.62 across all datasets. Finally, we rigorously investigate ICL model performance against a baseline model, across datasets and MTC types, and through in-depth error analysis.
翻訳日:2023-10-18 05:49:16 公開日:2023-10-16
# Transformers Parse は Masked Word を予測中か?

Do Transformers Parse while Predicting the Masked Word? ( http://arxiv.org/abs/2303.08117v2 )

ライセンス: Link先を確認
Haoyu Zhao, Abhishek Panigrahi, Rong Ge, Sanjeev Arora(参考訳) 事前学習された言語モデルは、例えば依存木や構成構文解析木のような言語構造を埋め込みでエンコードし、マスク付き言語モデリングのような教師なしの損失関数で訓練されることが示されている。 モデルが実際に解析を行っているのか、あるいはそれと弱い相関関係にある計算だけなのか、いくつかの疑問が持ち上がっている。 質問を勉強します (a) 構文解析を行うことができる現実的な埋め込み次元や頭数などのトランスフォーマーを明示的に記述することは可能か -- あるいは近似解析さえ可能か? b) 事前学習モデルが解析構造をキャプチャする理由 本稿では,PCFGを用いた生成モデリングの文脈において,これらの疑問に答えるための一歩を踏み出した。 bertやrobertaのような中規模のマスキング言語モデルは、英語のpcfg [marcus et al, 1993] の内側側アルゴリズムをほぼ実行可能であることを示した。 Inside-OutsideアルゴリズムはPCFG生成データに対するマスク付き言語モデリング損失に対して最適であることを示す。 また、50ドルのレイヤ、15ドルのアテンションヘッド、そして平均1275ドルの埋め込みを持つトランスフォーマーを構築し、その埋め込みを使用することでptbデータセットに$70\%$ f1スコアで構成解析を行うことができます。 我々はPCFG生成データ上で事前学習されたモデルに対する探索実験を行い、この手法により近似解析木を復元できるだけでなく、インサイド・アウトサイド・アルゴリズムによって計算された限界範囲の確率を復元できることを示す。

Pre-trained language models have been shown to encode linguistic structures, e.g. dependency and constituency parse trees, in their embeddings while being trained on unsupervised loss functions like masked language modeling. Some doubts have been raised whether the models actually are doing parsing or only some computation weakly correlated with it. We study questions: (a) Is it possible to explicitly describe transformers with realistic embedding dimension, number of heads, etc. that are capable of doing parsing -- or even approximate parsing? (b) Why do pre-trained models capture parsing structure? This paper takes a step toward answering these questions in the context of generative modeling with PCFGs. We show that masked language models like BERT or RoBERTa of moderate sizes can approximately execute the Inside-Outside algorithm for the English PCFG [Marcus et al, 1993]. We also show that the Inside-Outside algorithm is optimal for masked language modeling loss on the PCFG-generated data. We also give a construction of transformers with $50$ layers, $15$ attention heads, and $1275$ dimensional embeddings in average such that using its embeddings it is possible to do constituency parsing with $>70\%$ F1 score on PTB dataset. We conduct probing experiments on models pre-trained on PCFG-generated data to show that this not only allows recovery of approximate parse tree, but also recovers marginal span probabilities computed by the Inside-Outside algorithm, which suggests an implicit bias of masked language modeling towards this algorithm.
翻訳日:2023-10-18 05:48:58 公開日:2023-10-16
# スケルトンクラウドカラー化による自己教師付き3次元行動表現学習

Self-Supervised 3D Action Representation Learning with Skeleton Cloud Colorization ( http://arxiv.org/abs/2304.08799v3 )

ライセンス: Link先を確認
Siyuan Yang, Jun Liu, Shijian Lu, Er Meng Hwa, Yongjian Hu, Alex C. Kot(参考訳) 3dスケルトンに基づく人間の行動認識は近年注目を集めている。 既存の作業の多くは教師あり学習に重点を置いており、大量のラベル付けされたアクションシーケンスを必要とする。 本稿では骨格に基づく行動認識のための自己教師型3次元行動表現学習について述べる。 自己教師あり表現学習と,ラベルなしスケルトンシーケンスデータから空間的および時間的スケルトン表現を学習できる新しいスケルトンクラウドカラー化手法の設計について検討した。 我々は3次元スケルトン雲として骨格行動シーケンスを表現し、元の(注釈のない)スケルトンシーケンスの時間的および空間的順序に従って雲の各点を着色する。 色付きスケルトン点雲を活用することで、スケルトン関節の人工色ラベルから空間的特徴を効果的に学習できる自動エンコーダフレームワークを設計する。 具体的には,細粒度と粗粒度を生かした2次元事前学習ネットワークをデザインし,マルチスケール空間-時間的特徴を学習する。 さらに、設計した自動エンコーダフレームワークを事前訓練して情報表現を学習できるMasked Skeleton Cloud Repaintingタスクを設計する。 我々は,教師なし,半教師なし,完全教師なし,転送学習設定を含む,異なる構成でトレーニングされた線形分類器を用いて,スケルトンクラウドカラー化アプローチを評価した。 NTU RGB+D, NTU RGB+D 120, PKU-MMD, NW-UCLA, UWA3Dデータセットの大規模な実験により, 提案手法は既存の教師なしおよび半教師付き3D動作認識手法よりも大きなマージンで優れており, 教師付き3D動作認識における競争性能も向上していることが示された。

3D Skeleton-based human action recognition has attracted increasing attention in recent years. Most of the existing work focuses on supervised learning which requires a large number of labeled action sequences that are often expensive and time-consuming to annotate. In this paper, we address self-supervised 3D action representation learning for skeleton-based action recognition. We investigate self-supervised representation learning and design a novel skeleton cloud colorization technique that is capable of learning spatial and temporal skeleton representations from unlabeled skeleton sequence data. We represent a skeleton action sequence as a 3D skeleton cloud and colorize each point in the cloud according to its temporal and spatial orders in the original (unannotated) skeleton sequence. Leveraging the colorized skeleton point cloud, we design an auto-encoder framework that can learn spatial-temporal features from the artificial color labels of skeleton joints effectively. Specifically, we design a two-steam pretraining network that leverages fine-grained and coarse-grained colorization to learn multi-scale spatial-temporal features. In addition, we design a Masked Skeleton Cloud Repainting task that can pretrain the designed auto-encoder framework to learn informative representations. We evaluate our skeleton cloud colorization approach with linear classifiers trained under different configurations, including unsupervised, semi-supervised, fully-supervised, and transfer learning settings. Extensive experiments on NTU RGB+D, NTU RGB+D 120, PKU-MMD, NW-UCLA, and UWA3D datasets show that the proposed method outperforms existing unsupervised and semi-supervised 3D action recognition methods by large margins and achieves competitive performance in supervised 3D action recognition as well.
翻訳日:2023-10-18 05:40:58 公開日:2023-10-16
# H2RBox-v2:水平箱監視物体検出の促進のための対称性の導入

H2RBox-v2: Incorporating Symmetry for Boosting Horizontal Box Supervised Oriented Object Detection ( http://arxiv.org/abs/2304.04403v4 )

ライセンス: Link先を確認
Yi Yu, Xue Yang, Qingyun Li, Yue Zhou, Gefan Zhang, Feipeng Da, Junchi Yan(参考訳) 自律走行やリモートセンシングなどのオブジェクト指向物体検出の需要が急速に増大する中で、より容易に利用できる水平ボックス(HBox)から回転箱(RBox)を学習するための弱い教師付き検出器H2RBoxを含むパラダイムが提案されている。 本稿では,h2rbox-v2を用いて,hbox-supervised と rbox-supervised oriented object のギャップを埋める。 具体的には、H2RBoxに似た弱い教師付きネットワーク分岐と、視覚オブジェクトに固有の対称性から向きを学習する新しい自己教師付きブランチを用いて、リフレクション対称性を利用する。 この検出器はさらに安定化され、角周期性などの周辺問題に対処するための実用的な技術によって強化される。 我々の知る限り、H2RBox-v2は指向オブジェクト検出のための最初の対称性を意識した自己監督パラダイムである。 特に,H2RBoxと比較して,低品質なアノテーションやトレーニングデータへの感受性が低い。 具体的には、H2RBox-v2は、ローテーションアノテーション訓練済みの -- ローテーションFCOSに非常に近いパフォーマンスを達成する。 1)DOTA-v1.0/1.5/2.0:72.31%/64.76%/50.33%対72.44%/64.53%/51.77% 2)HRSC:89.66%対88.99% 3)FAIR1M:42.27%対41.25%。

With the rapidly increasing demand for oriented object detection, e.g. in autonomous driving and remote sensing, the recently proposed paradigm involving weakly-supervised detector H2RBox for learning rotated box (RBox) from the more readily-available horizontal box (HBox) has shown promise. This paper presents H2RBox-v2, to further bridge the gap between HBox-supervised and RBox-supervised oriented object detection. Specifically, we propose to leverage the reflection symmetry via flip and rotate consistencies, using a weakly-supervised network branch similar to H2RBox, together with a novel self-supervised branch that learns orientations from the symmetry inherent in visual objects. The detector is further stabilized and enhanced by practical techniques to cope with peripheral issues e.g. angular periodicity. To our best knowledge, H2RBox-v2 is the first symmetry-aware self-supervised paradigm for oriented object detection. In particular, our method shows less susceptibility to low-quality annotation and insufficient training data compared to H2RBox. Specifically, H2RBox-v2 achieves very close performance to a rotation annotation trained counterpart -- Rotated FCOS: 1) DOTA-v1.0/1.5/2.0: 72.31%/64.76%/50.33% vs. 72.44%/64.53%/51.77%; 2) HRSC: 89.66% vs. 88.99%; 3) FAIR1M: 42.27% vs. 41.25%.
翻訳日:2023-10-18 05:39:59 公開日:2023-10-16
# サイバーセキュリティのためのグラフマイニング:調査

Graph Mining for Cybersecurity: A Survey ( http://arxiv.org/abs/2304.00485v2 )

ライセンス: Link先を確認
Bo Yan, Cheng Yang, Chuan Shi, Yong Fang, Qi Li, Yanfang Ye, Junping Du(参考訳) マルウェア、スパム、侵入といったサイバー攻撃の爆発的な成長は、社会に深刻な影響をもたらした。 サイバースペースの確保は、組織や政府にとって最大の関心事となっている。 従来の機械学習(ML)ベースの手法は、サイバー脅威の検出に広く用いられているが、現実のサイバーエンティティ間の相関をモデル化することはほとんどない。 近年, グラフマイニング技術の普及に伴い, サイバーエンティティ間の相関を捉え, 高い性能を達成するための手法が研究されている。 今後の研究のガイドを提供するため、既存のグラフベースのサイバーセキュリティソリューションを要約することが不可欠である。 そこで,本稿の重要な貢献として,サイバーセキュリティタスクの概要,一般的なグラフマイニング技術,サイバーセキュリティに適用する一般的なプロセス,さまざまなサイバーセキュリティタスクに対するさまざまなソリューションなど,サイバーセキュリティのためのグラフマイニングの包括的なレビューを行う。 各タスクに対して、関連するメソッドを調査し、モデリングにおけるグラフタイプ、グラフアプローチ、タスクレベルを強調します。 さらに,グラフベースのサイバーセキュリティのためのオープンデータセットとツールキットを収集する。 最後に,この分野の今後の方向性について考察する。

The explosive growth of cyber attacks nowadays, such as malware, spam, and intrusions, caused severe consequences on society. Securing cyberspace has become an utmost concern for organizations and governments. Traditional Machine Learning (ML) based methods are extensively used in detecting cyber threats, but they hardly model the correlations between real-world cyber entities. In recent years, with the proliferation of graph mining techniques, many researchers investigated these techniques for capturing correlations between cyber entities and achieving high performance. It is imperative to summarize existing graph-based cybersecurity solutions to provide a guide for future studies. Therefore, as a key contribution of this paper, we provide a comprehensive review of graph mining for cybersecurity, including an overview of cybersecurity tasks, the typical graph mining techniques, and the general process of applying them to cybersecurity, as well as various solutions for different cybersecurity tasks. For each task, we probe into relevant methods and highlight the graph types, graph approaches, and task levels in their modeling. Furthermore, we collect open datasets and toolkits for graph-based cybersecurity. Finally, we outlook the potential directions of this field for future research.
翻訳日:2023-10-18 05:39:04 公開日:2023-10-16
# 結合スピンの安定性遷移に基づく高速ビットフリップ

Fast Bit-Flipping based on a Stability Transition of Coupled Spins ( http://arxiv.org/abs/2303.16171v2 )

ライセンス: Link先を確認
Maximilian F. I. Kieler and Arnd B\"acker(参考訳) ある定義された状態から別の状態への高速な転移が存在する二部スピン系が提案されている。 スピン間の十分な結合のために、これはトンネルによって引き起こされるものよりもずっと速いビットフリッピング機構を実装している。 これらの状態は、楕円-楕円安定性から増大したカップリングの複素不安定性への安定性遷移を伴う平衡点への半古典的極限に対応する。 高速移動は、複雑な不安定なダイナミクスのスパイラル特性によるものである。 古典的なシステムに基づいて、転送時間に対する普遍的なスケーリングを見つけ、それは深い量子状態にも適用される。 単純なモデルシステムを調べることで、古典的な安定性遷移が固有関数の構造の根本的な変化に反映されることを示す。

A bipartite spin system is proposed for which a fast transfer from one defined state into another exists. For sufficient coupling between the spins, this implements a bit-flipping mechanism which is much faster than that induced by tunneling. The states correspond in the semiclassical limit to equilibrium points with a stability transition from elliptic-elliptic stability to complex instability for increased coupling. The fast transfer is due to the spiraling characteristics of the complex unstable dynamics. Based on the classical system we find a universal scaling for the transfer time, which even applies in the deep quantum regime. By investigating a simple model system, we show that the classical stability transition is reflected in a fundamental change of the structure of the eigenfunctions.
翻訳日:2023-10-18 05:37:37 公開日:2023-10-16
# チップレット上の量子コンピューティングのためのコンパイル

Compilation for Quantum Computing on Chiplets ( http://arxiv.org/abs/2305.05149v2 )

ライセンス: Link先を確認
Hezi Zhang, Keyi Yin, Anbang Wu, Hassan Shapourian, Alireza Shabani, Yufei Ding(参考訳) chiplet アーキテクチャは量子コンピューティングの新たなアーキテクチャであり、スケーラビリティとモジュール性に優れて qubit リソースを大幅に増加させる可能性がある。 しかし、計算規模が大きくなるにつれて、長いルーティング距離のため、キュービット間の通信はより深刻なボトルネックとなる。 本稿では,マルチエントリ・通信・ハイウェイ機構の提案と,高速資源を効率的に管理・活用するためのコンパイルフレームワークの構築により,プログラム並行処理のための補助キュービットを交換する。 評価の結果,回路深度といくつかの典型的な量子ベンチマークでの演算数の両方において,このフレームワークはベースラインのアプローチを著しく上回り,より効率的で誤りの少ない量子プログラムのコンパイルに繋がることがわかった。

Chiplet architecture is an emerging architecture for quantum computing that could significantly increase qubit resources with its great scalability and modularity. However, as the computing scale increases, communication between qubits would become a more severe bottleneck due to the long routing distances. In this paper, we trade ancillary qubits for program concurrency by proposing a multi-entry communication highway mechanism, and building a compilation framework to efficiently manage and utilize the highway resources. Our evaluation shows that this framework significantly outperforms the baseline approach in both the circuit depth and the number of operations on some typical quantum benchmarks, leading to a more efficient and less error-prone compilation of quantum programs.
翻訳日:2023-10-18 05:31:36 公開日:2023-10-16
# 単粒子-励起密度汎関数理論

Single-particle-exact density functional theory ( http://arxiv.org/abs/2305.03233v2 )

ライセンス: Link先を確認
Martin-Isbj\"orn Trappe, Jun Hao Hue, Jonah Huang Zi Chao, Miko{\l}aj Paraniak, Djamila Hiller, Jerzy Cios{\l}owski, Berthold-Georg Englert(参考訳) 1pEx-DFT(Single-Partic-Exact density functional theory)は、エネルギーへの単一粒子の完全な寄与を表す新しい密度汎関数法である。 本稿では,量子多体系の単粒子状態の「参加数」から密度行列を構築するための2つの新しいスキームを用いて,相互作用エネルギー汎関数をパラメータ化する。 これらの参加数は、標準軌道自由密度汎関数理論における粒子密度に似た変分変数の役割を担っている。 我々は、進化アルゴリズムの助けを借りて総エネルギーを最小化し、相互作用するフェルミ気体と原子やイオンの電子構造を相対論的補正なしで構成する原理実証シミュレーションにおいて、一般的に1パーセント精度の基底状態エネルギーを得る。 これにより, 1pex-dftの成分と実用的特徴を明らかにし, メソスコピック量子多体系をシミュレートする精度, スケーラブル, 転送可能な技術となる可能性を明らかにする。

We introduce 'single-particle-exact density functional theory' (1pEx-DFT), a novel density functional approach that represents all single-particle contributions to the energy with exact functionals. Here, we parameterize interaction energy functionals by utilizing two new schemes for constructing density matrices from 'participation numbers' of the single-particle states of quantum many-body systems. These participation numbers play the role of the variational variables akin to the particle densities in standard orbital-free density functional theory. We minimize the total energies with the help of evolutionary algorithms and obtain ground-state energies that are typically accurate at the one-percent level for our proof-of-principle simulations that comprise interacting Fermi gases as well as the electronic structure of atoms and ions, with and without relativistic corrections. We thereby illustrate the ingredients and practical features of 1pEx-DFT and reveal its potential of becoming an accurate, scalable, and transferable technology for simulating mesoscopic quantum many-body systems.
翻訳日:2023-10-18 05:31:24 公開日:2023-10-16
# 非有界差分量子と最大推定

Unbounded Differentially Private Quantile and Maximum Estimation ( http://arxiv.org/abs/2305.01177v2 )

ライセンス: Link先を確認
David Durfee(参考訳) 本研究では,データに対する量子化の差分計算の問題,特に最大値などの最も高い量子化を,データセットに対する非有界範囲で検討する。 これは、データに上限がない場合でも、基本スパースベクトル技法で反復的に呼び出されるサブルーチンである$\textt{AboveThreshold}$を単純な呼び出しで効率的に行うことができることを示す。 特に, この手法により, 最大量子化量に対してより正確かつ堅牢な推定が可能であり, 差分的な和と平均推定に必須なクリッピングへの応用が期待できることを示す。 さらに,2つの呼び出しが完全に束縛されていないデータ設定を処理可能であることを示す。 本研究により,$\texttt{abovethreshold}$ の分析精度が向上し,独立性のある分散ベクトル手法に対するプライバシーの保証が向上することを示した。 我々は、プライバシーの保証を改善する方法に直ちに適用される$\texttt{AboveThreshold}$に対して、より一般的なプライバシー損失の特徴を与える。 我々のアルゴリズムでは、データに1ドルO(n)$のパスしか必要とせず、ソートできないため、各クエリは1ドルO(1)$の時間を要する。 非有界なアルゴリズムと最先端のアルゴリズムを有界な設定で実験的に比較する。 内部量子化では、本手法は非合成データセットでよく機能する。 微分プライベート和計算に応用した最大量子化に対して,本手法は性能が著しく向上することがわかった。

In this work we consider the problem of differentially private computation of quantiles for the data, especially the highest quantiles such as maximum, but with an unbounded range for the dataset. We show that this can be done efficiently through a simple invocation of $\texttt{AboveThreshold}$, a subroutine that is iteratively called in the fundamental Sparse Vector Technique, even when there is no upper bound on the data. In particular, we show that this procedure can give more accurate and robust estimates on the highest quantiles with applications towards clipping that is essential for differentially private sum and mean estimation. In addition, we show how two invocations can handle the fully unbounded data setting. Within our study, we show that an improved analysis of $\texttt{AboveThreshold}$ can improve the privacy guarantees for the widely used Sparse Vector Technique that is of independent interest. We give a more general characterization of privacy loss for $\texttt{AboveThreshold}$ which we immediately apply to our method for improved privacy guarantees. Our algorithm only requires one $O(n)$ pass through the data, which can be unsorted, and each subsequent query takes $O(1)$ time. We empirically compare our unbounded algorithm with the state-of-the-art algorithms in the bounded setting. For inner quantiles, we find that our method often performs better on non-synthetic datasets. For the maximal quantiles, which we apply to differentially private sum computation, we find that our method performs significantly better.
翻訳日:2023-10-18 05:30:02 公開日:2023-10-16
# 3モードの非ガウス量子照明

Non-Gaussian Quantum Illumination with three modes ( http://arxiv.org/abs/2305.10458v2 )

ライセンス: Link先を確認
Ricardo Gallego Torrom\'e(参考訳) 信号状態が2つのモードを記述し、アイドラーが1つのフォトンモードを記述した3モード非ガウス状態の量子照明は、高雑音下で標準ガウス量子照明を上回ることができることが示されている。

It is shown that quantum illumination with three-mode non-Gaussian states, where the signal states describes two modes and the idler is described one photon mode state, can outperform standard Gaussian quantum illumination in a high noisy background.
翻訳日:2023-10-18 05:19:30 公開日:2023-10-16
# AbdomenAtlas-8K:3週間の多臓器切除における8,000CTボリュームの注記

AbdomenAtlas-8K: Annotating 8,000 CT Volumes for Multi-Organ Segmentation in Three Weeks ( http://arxiv.org/abs/2305.09666v2 )

ライセンス: Link先を確認
Chongyu Qu, Tiezheng Zhang, Hualin Qiao, Jie Liu, Yucheng Tang, Alan Yuille, Zongwei Zhou(参考訳) 医用画像、特に臓器分割のアノテーションは、手間と時間を要する。 例えば、腹部臓器のアノテートには、アノテーターの専門知識と臓器の大きさ、可視性、複雑さに基づいて、CT体積あたり30~60分を見積もる必要がある。 したがって、マルチ組織セグメンテーションのための公開データセットは、しばしばデータサイズと臓器の多様性に制限される。 本稿では,臓器分節の注釈処理を迅速化するためのアクティブラーニング手法を提案し,脾臓,肝臓,腎臓,胃,胆嚢,膵臓,大動脈,ivcに対して,8,448ctボリュームで注釈を付け,320万スライスと同等の(これまで限り)最大のマルチオルガンデータセットを作成する。 従来のアノテーション手法では、このタスクを完了するのに1,600週間(または約30.8年)を要した。 対照的に、アノテーションメソッドは、同様の、あるいはより優れたアノテーション品質を維持しながら、3週間(8時間の作業日、週5日)でこのタスクを完了しました。 この成果は,(1)複数の事前学習されたセグメンテーションモデルを用いたラベルバイアス低減,(2)モデル予測における効果的な誤り検出,(3)最もサルエントな誤りを訂正するための注釈者への注意誘導,の3つの特徴に起因している。 さらに,AIアルゴリズムやアノテータによる一般的なエラーの分類を要約する。 これにより、AIとアノテーションの両方を継続的に修正し、幅広い医療画像タスクのために大規模なデータセットを作成するのに必要なアノテーションコストを大幅に削減できる。

Annotating medical images, particularly for organ segmentation, is laborious and time-consuming. For example, annotating an abdominal organ requires an estimated rate of 30-60 minutes per CT volume based on the expertise of an annotator and the size, visibility, and complexity of the organ. Therefore, publicly available datasets for multi-organ segmentation are often limited in data size and organ diversity. This paper proposes an active learning method to expedite the annotation process for organ segmentation and creates the largest multi-organ dataset (by far) with the spleen, liver, kidneys, stomach, gallbladder, pancreas, aorta, and IVC annotated in 8,448 CT volumes, equating to 3.2 million slices. The conventional annotation methods would take an experienced annotator up to 1,600 weeks (or roughly 30.8 years) to complete this task. In contrast, our annotation method has accomplished this task in three weeks (based on an 8-hour workday, five days a week) while maintaining a similar or even better annotation quality. This achievement is attributed to three unique properties of our method: (1) label bias reduction using multiple pre-trained segmentation models, (2) effective error detection in the model predictions, and (3) attention guidance for annotators to make corrections on the most salient errors. Furthermore, we summarize the taxonomy of common errors made by AI algorithms and annotators. This allows for continuous revision of both AI and annotations and significantly reduces the annotation costs required to create large-scale datasets for a wider variety of medical imaging tasks.
翻訳日:2023-10-18 05:19:24 公開日:2023-10-16
# 量子コヒーレンス支援動的相転移

Quantum coherence assisted dynamical phase transition ( http://arxiv.org/abs/2305.08400v3 )

ライセンス: Link先を確認
Bao-Ming Xu(参考訳) 量子コヒーレンス(英語版)は、量子多体系の力学を理解する上で、間違いなく基本的な役割を果たす。 本稿では,コヒーレントギブス状態において初期化された一次元横磁場量子イジングモデルに関する議論を専門とし,量子コヒーレンスが動的相転移(dqpt)に及ぼす影響について検討する。 横磁場の強さを緩和した後、量子コヒーレンスの効果はフィッシャー零点とロスシュミットエコーの速度関数によって研究される。 量子コヒーレンスは熱ゆらぎによって破壊されるDQPTを回復するだけでなく、平衡量子臨界点に依存しない全く新しいDQPTを生成する。 また, 温度変化に対して臨界モードを持続させる必要があるため, 想像軸を切断するフィッシャーゼロはDQPTを生成するのに十分ではないことがわかった。 dqptは量子揺らぎに根ざしていることを示すことができる。 この研究は、量子臨界現象と量子コヒーレンスとの基本的な関係に新しい光を放つ。

Quantum coherence will undoubtedly play a fundamental role in understanding the dynamics of quantum many-body systems, thereby to reveal its genuine contribution is of great importance. In this paper, we specialize our discussions on the one-dimensional transverse field quantum Ising model initialized in the coherent Gibbs state, and investigate the effects of quantum coherence on dynamical phase transition (DQPT). After quenching the strength of the transverse field, the effects of quantum coherence are studied by Fisher zeros and the rate function of Loschmidt echo. We find that quantum coherence not only recovers DQPT destroyed by thermal fluctuations, but also generates some entirely new DQPTs which are independent of equilibrium quantum critical point. We also find that Fisher zero cutting the imaginary axis is not sufficient to generate DQPT because it also requires the critical mode to be survived against thermal fluctuations at high temperature. It can be manifested that DQPTs are rooted in quantum fluctuations. This work sheds new light on the fundamental connection between quantum critical phenomena and quantum coherence.
翻訳日:2023-10-18 05:18:37 公開日:2023-10-16
# 可変誤り補正量子ビットによるフルスタック量子コンピューティングの実現

Enabling Full-Stack Quantum Computing with Changeable Error-Corrected Qubits ( http://arxiv.org/abs/2305.07072v4 )

ライセンス: Link先を確認
Anbang Wu, Keyi Yin, Andrew W. Cross, Ang Li, Yufei Ding(参考訳) 量子エラー補正(QEC)による量子アプリケーションの実行は、イージン・ニウルの定理によって課されるゲート不等式問題に直面する。 1つのリソース時間効率のソリューションとして、コードスイッチングは論理キュービットのエンコーディングを変更し、普遍論理ゲートを実装する。 残念ながら、変更可能な論理量子ビットに基づいてフルスタックのフォールトトレラント量子コンピューティング(FTQC)を実行する方法はまだ不明である。 特に3つの重要な問題は未解決のままである。 a) 動的論理キュービットをハードウェアに実装する方法 b) 論理キュービットの変化の適切なタイミングを決定する方法 c) 異なる機能を持つプログラムのシステム全体のパフォーマンスを改善する方法。 これらの設計問題を克服するために,変更可能な論理量子ビットに基づくFTQCの大規模設計空間を探索するCECQを提案する。 様々な量子プログラムの実験は、CECQの有効性を示す。

Executing quantum applications with quantum error correction (QEC) faces the gate non-universality problem imposed by the Eastin-Knill theorem. As one resource-time-efficient solution, code switching changes the encoding of logical qubits to implement universal logical gates. Unfortunately, it is still unclear how to perform full-stack fault-tolerant quantum computing (FTQC) based on the changeable logical qubit. Specifically, three critical problems remain unsolved: a) how to implement the dynamic logical qubit on hardware; b) how to determine the appropriate timing for logical qubit varying; c) how to improve the overall system performance for programs of different features. To overcome those design problems, We propose CECQ, to explore the large design space for FTQC based on changeable logical qubits. Experiments on various quantum programs demonstrate the effectiveness of CECQ.
翻訳日:2023-10-18 05:17:44 公開日:2023-10-16
# カバレッジ保証付き不定形変分推論

Amortized Variational Inference with Coverage Guarantees ( http://arxiv.org/abs/2305.14275v2 )

ライセンス: Link先を確認
Yash Patel, Declan McNamara, Jackson Loper, Jeffrey Regier, Ambuj Tewari(参考訳) amortized variational inference は後続近似を生じさせ、新しい観測から素早く計算できる。 残念ながら、これらの近似後部の品質に関する保証はほとんどない。 我々は,スケーラブルで実装が容易で,限界カバレッジが保証された,コンフォーマライズされたamortized neural variational inference (canvi)を提案する。 候補補正後近似器の集合が与えられた場合、CANVIは各候補に基づいて共形予測器を構築し、予測効率と呼ばれる計量を用いて予測器を比較し、最も効率的な予測器を返す。 CANVIは、結果の予測器が、ユーザが特定した確率レベルで真実を含む領域を構築することを保証する。 CANVIは、候補近似器の定式化における設計上の決定に非依存であり、フォワードモデルからのサンプルへのアクセスのみを必要とするため、可能性のない設定での使用が可能である。 我々は,CANVIが生成する領域の予測効率の低い境界を証明し,その近似に基づいて,後部近似の品質と予測領域の予測効率の関係について検討する。 最後に、シミュレーションベース推論ベンチマークの一連のタスクと重要な科学的タスクである銀河放出スペクトルの分析において、CANVIの正確な校正と高い予測効率を示す。

Amortized variational inference produces a posterior approximation that can be rapidly computed given any new observation. Unfortunately, there are few guarantees about the quality of these approximate posteriors. We propose Conformalized Amortized Neural Variational Inference (CANVI), a procedure that is scalable, easily implemented, and provides guaranteed marginal coverage. Given a collection of candidate amortized posterior approximators, CANVI constructs conformalized predictors based on each candidate, compares the predictors using a metric known as predictive efficiency, and returns the most efficient predictor. CANVI ensures that the resulting predictor constructs regions that contain the truth with a user-specified level of probability. CANVI is agnostic to design decisions in formulating the candidate approximators and only requires access to samples from the forward model, permitting its use in likelihood-free settings. We prove lower bounds on the predictive efficiency of the regions produced by CANVI and explore how the quality of a posterior approximation relates to the predictive efficiency of prediction regions based on that approximation. Finally, we demonstrate the accurate calibration and high predictive efficiency of CANVI on a suite of simulation-based inference benchmark tasks and an important scientific task: analyzing galaxy emission spectra.
翻訳日:2023-10-18 05:11:12 公開日:2023-10-16
# メトリック学習に基づく正常音声と無声音声の視覚音声認識におけるギャップの改善

Improving the Gap in Visual Speech Recognition Between Normal and Silent Speech Based on Metric Learning ( http://arxiv.org/abs/2305.14203v2 )

ライセンス: Link先を確認
Sara Kashiwagi, Keitaro Tanaka, Qi Feng, Shigeo Morishima(参考訳) 本稿では,視覚音声認識(VSR)における正常音声と無声音声のパフォーマンスギャップに対処する新しい距離学習手法を提案する。 両者の唇の動きの違いは既存のVSRモデルにとって困難であり、無声音声に適用すると劣化した精度を示す。 この問題を解決し,サイレントスピーチの訓練データの不足に対処するために,正規音声とサイレント音声の共有リテラルコンテンツを活用し,バイセムに基づくメトリック学習手法を提案する。 具体的には,2種類の音声の入力を,類似のビセム表現を持つ場合の潜時空間にマッピングすることを目的とする。 2つの音声タイプ間の予測されたビジーム確率分布のkullback-leibler発散を最小化することにより、実測のアイデンティティを効果的に学習し予測する。 本手法は,限られた訓練データであってもサイレントVSRの精度を向上させることを示す。

This paper presents a novel metric learning approach to address the performance gap between normal and silent speech in visual speech recognition (VSR). The difference in lip movements between the two poses a challenge for existing VSR models, which exhibit degraded accuracy when applied to silent speech. To solve this issue and tackle the scarcity of training data for silent speech, we propose to leverage the shared literal content between normal and silent speech and present a metric learning approach based on visemes. Specifically, we aim to map the input of two speech types close to each other in a latent space if they have similar viseme representations. By minimizing the Kullback-Leibler divergence of the predicted viseme probability distributions between and within the two speech types, our model effectively learns and predicts viseme identities. Our evaluation demonstrates that our method improves the accuracy of silent VSR, even when limited training data is available.
翻訳日:2023-10-18 05:10:51 公開日:2023-10-16
# 群不変GANの統計的保証

Statistical Guarantees of Group-Invariant GANs ( http://arxiv.org/abs/2305.13517v2 )

ライセンス: Link先を確認
Ziyu Chen, Markos A. Katsoulakis, Luc Rey-Bellet, Wei Zhu(参考訳) GAN(Group-invariant Generative Adversarial Network)は、ジェネレータと識別器を群対称性で固定したGANの一種である。 実験的な研究により、これらのネットワークはデータ効率を著しく改善し、グループ不変の分布を学習できることが示されている。 本研究では,グループ不変なGANのサンプル複雑性の低減を解析することにより,この改善を厳密に定量化することを目的とする。 その結果,群不変分布を学習する場合,群不変GANに必要なサンプル数は群の大きさのパワーに比例して減少し,本パワーは分布の固有次元に依存することがわかった。 我々の知る限り、この研究はグループ不変生成モデル、特にGANに対する最初の統計的推定であり、他のグループ不変生成モデルの研究に光を当てるかもしれない。

Group-invariant generative adversarial networks (GANs) are a type of GANs in which the generators and discriminators are hardwired with group symmetries. Empirical studies have shown that these networks are capable of learning group-invariant distributions with significantly improved data efficiency. In this study, we aim to rigorously quantify this improvement by analyzing the reduction in sample complexity for group-invariant GANs. Our findings indicate that when learning group-invariant distributions, the number of samples required for group-invariant GANs decreases proportionally with a power of the group size, and this power depends on the intrinsic dimension of the distribution's support. To our knowledge, this work presents the first statistical estimation for group-invariant generative models, specifically for GANs, and it may shed light on the study of other group-invariant generative models.
翻訳日:2023-10-18 05:10:00 公開日:2023-10-16
# 回帰誤差の一般推定に基づくリッジレス最小方形推定器の予測リスクと推定リスク

Prediction Risk and Estimation Risk of the Ridgeless Least Squares Estimator under General Assumptions on Regression Errors ( http://arxiv.org/abs/2305.12883v2 )

ライセンス: Link先を確認
Sungyoon Lee, Sokbae Lee(参考訳) 近年、最小$\ell_2$ノルム(リッジレス)補間最小二乗推定器に焦点を当てた研究が著しい成長を遂げている。 しかし、これらの分析のほとんどは単純な回帰誤差構造に制限されており、平均と共分散がゼロである独立かつ同一の分散誤差を仮定している。 本稿では,より一般的な回帰誤差仮定の下での予測リスクと推定リスクについて検討し,有限サンプルにおける過パラメータの利点を浮き彫りにする。 サンプルサイズに対する重要でないパラメータを多数含むと、両方のリスクを効果的に低減できることがわかった。 特に,両リスクの分散成分に関連する推定の難しさを回帰誤差の分散共分散行列のトレースを通して要約できることを示す。

In recent years, there has been a significant growth in research focusing on minimum $\ell_2$ norm (ridgeless) interpolation least squares estimators. However, the majority of these analyses have been limited to a simple regression error structure, assuming independent and identically distributed errors with zero mean and common variance. In this paper, we explore prediction risk as well as estimation risk under more general regression error assumptions, highlighting the benefits of overparameterization in a finite sample. We find that including a large number of unimportant parameters relative to the sample size can effectively reduce both risks. Notably, we establish that the estimation difficulties associated with the variance components of both risks can be summarized through the trace of the variance-covariance matrix of the regression errors.
翻訳日:2023-10-18 05:09:27 公開日:2023-10-16
# DisCo:半教師付きテキストマイニングのための学生共学モデル

DisCo: Distilled Student Models Co-training for Semi-supervised Text Mining ( http://arxiv.org/abs/2305.12074v2 )

ライセンス: Link先を確認
Weifeng Jiang, Qianren Mao, Jianxin Li, Ting Deng, Weiyi Yang, Zheng Wang and Chenghua Lin(参考訳) 多くのテキストマイニングモデルは、ダウンストリームタスクで大きな深層事前学習言語モデル(plm)を微調整することで構築される。 しかし、最近の重要な課題は、ラベル付きサンプルが限定された軽量モデルを使用する場合のパフォーマンスを維持することです。 本稿では、知識蒸留を用いた大規模PLMから生成された小学生モデルのコホートを微調整するための、半教師付き学習(SSL)フレームワークであるDisCoを紹介する。 我々の重要な洞察は、蒸留された学生コホート間で補完的な知識を共有し、SSLの有効性を促進することである。 discoは、異なる蒸留戦略によって生成されたモデルビューと、様々な入力拡張によって生成されたデータビューである、多様化した視点の下での学生間の知識共有を促進することにより、複数の小学生モデルのコホートを最適化するために、新しいコトレーニング技術を採用している。 半教師付きテキスト分類と抽出要約タスクにおけるDisCoの評価を行った。 実験の結果、DisCoは7.6倍小さく、4.8倍の推論速度を持つ学生モデルを生産でき、性能は同等であることがわかった。 また、DisCo生成した学生モデルは、異なるタスクで精巧に調整された類似サイズのモデルよりも優れていることを示す。

Many text mining models are constructed by fine-tuning a large deep pre-trained language model (PLM) in downstream tasks. However, a significant challenge nowadays is maintaining performance when we use a lightweight model with limited labelled samples. We present DisCo, a semi-supervised learning (SSL) framework for fine-tuning a cohort of small student models generated from a large PLM using knowledge distillation. Our key insight is to share complementary knowledge among distilled student cohorts to promote their SSL effectiveness. DisCo employs a novel co-training technique to optimize a cohort of multiple small student models by promoting knowledge sharing among students under diversified views: model views produced by different distillation strategies and data views produced by various input augmentations. We evaluate DisCo on both semi-supervised text classification and extractive summarization tasks. Experimental results show that DisCo can produce student models that are 7.6 times smaller and 4.8 times faster in inference than the baseline PLMs while maintaining comparable performance. We also show that DisCo-generated student models outperform the similar-sized models elaborately tuned in distinct tasks.
翻訳日:2023-10-18 05:08:24 公開日:2023-10-16
# 旅行モード検出のための地理空間コンテキスト情報の評価

Evaluating geospatial context information for travel mode detection ( http://arxiv.org/abs/2305.19428v2 )

ライセンス: Link先を確認
Ye Hong, Emanuel St\"udeli, Martin Raubal(参考訳) 地球航法衛星システム(GNSS)軌道から旅行モードを検出することは、個々の旅行行動を理解する上で不可欠であり、持続可能な輸送システムを実現するための前提条件である。 地理空間的コンテキスト情報を旅行モード検出モデルに組み込むことの利点を研究は認めているが、コンテキストモデリングアプローチを要約し、これらのコンテキスト特徴の意義を分析し、効率的なモデルの開発を妨げるものはほとんどない。 本稿では,関連する作業から文脈表現を同定し,ランダムフォレストモデルとシャプリー加法(shap)法に基づいて,旅行モード検出のための地理空間的コンテキスト情報の寄与度を評価する解析パイプラインを提案する。 大規模GNSS追跡データセットの実験を通じて,鉄道や道路ネットワークとの距離などのインフラストラクチャネットワークとの関係を記述した特徴が,モデルの予測に大きく寄与していることを報告する。 さらに、地理空間的要素に関連する特徴は公共交通機関の移動を識別するのに役立つが、土地利用と土地被覆のほとんどの特徴はこのタスクにはほとんど寄与しない。 地理空間的コンテキストは、異なる移動モードを識別し、適切なコンテキスト情報やモデリングアプローチを選択するための洞察を提供する上で、異なる貢献をすることが明らかとなった。 本研究は,移動と地理空間的文脈の関係の理解を深め,効果的かつ効率的な移動モード検出モデルの実装を導くものである。

Detecting travel modes from global navigation satellite system (GNSS) trajectories is essential for understanding individual travel behavior and a prerequisite for achieving sustainable transport systems. While studies have acknowledged the benefits of incorporating geospatial context information into travel mode detection models, few have summarized context modeling approaches and analyzed the significance of these context features, hindering the development of an efficient model. Here, we identify context representations from related work and propose an analytical pipeline to assess the contribution of geospatial context information for travel mode detection based on a random forest model and the SHapley Additive exPlanation (SHAP) method. Through experiments on a large-scale GNSS tracking dataset, we report that features describing relationships with infrastructure networks, such as the distance to the railway or road network, significantly contribute to the model's prediction. Moreover, features related to the geospatial point entities help identify public transport travel, but most land-use and land-cover features barely contribute to the task. We finally reveal that geospatial contexts have distinct contributions in identifying different travel modes, providing insights into selecting appropriate context information and modeling approaches. The results from this study enhance our understanding of the relationship between movement and geospatial context and guide the implementation of effective and efficient transport mode detection models.
翻訳日:2023-10-18 05:00:46 公開日:2023-10-16
# 一般化因果感度解析のためのシャープ境界

Sharp Bounds for Generalized Causal Sensitivity Analysis ( http://arxiv.org/abs/2305.16988v2 )

ライセンス: Link先を確認
Dennis Frauen, Valentyn Melnychuk, Stefan Feuerriegel(参考訳) 観測データからの因果推論は医学や経済学など多くの分野において重要である。 しかし、未確定性仮定(因果感度解析)の緩和の下での因果効果の鋭い境界は、現在進行中の研究である。 これまでのところ、シャープな境界を持つ作業は、非常に単純な設定(例えば単一のバイナリ処理)に限定されている。 本稿では,種々の環境下での観測不能な条件下での因果感度分析のための統一的な枠組みを提案する。 そこで我々は,限界感度モデル(MSM)のフレキシブルな一般化を提案し,その上で,幅広い因果効果に対する鋭い境界を導出する。 これには、(条件付き)平均治療効果、媒介分析および経路分析に対する効果、分布効果が含まれる。 さらに, 感度モデルは, 離散処理, 連続処理, 時間変化処理にも適用できる。 興味の因果効果を評価しながら、潜在共同設立者の分布シフトとして、観察できない共起の下での部分的識別問題を解釈することができる。 単一二分処理の特別な場合、平均治療効果(条件付き)の限界は、因果感度分析の最近の最適性結果と一致する。 最後に,観測データから鋭い境界を推定するスケーラブルなアルゴリズムを提案する。

Causal inference from observational data is crucial for many disciplines such as medicine and economics. However, sharp bounds for causal effects under relaxations of the unconfoundedness assumption (causal sensitivity analysis) are subject to ongoing research. So far, works with sharp bounds are restricted to fairly simple settings (e.g., a single binary treatment). In this paper, we propose a unified framework for causal sensitivity analysis under unobserved confounding in various settings. For this, we propose a flexible generalization of the marginal sensitivity model (MSM) and then derive sharp bounds for a large class of causal effects. This includes (conditional) average treatment effects, effects for mediation analysis and path analysis, and distributional effects. Furthermore, our sensitivity model is applicable to discrete, continuous, and time-varying treatments. It allows us to interpret the partial identification problem under unobserved confounding as a distribution shift in the latent confounders while evaluating the causal effect of interest. In the special case of a single binary treatment, our bounds for (conditional) average treatment effects coincide with recent optimality results for causal sensitivity analysis. Finally, we propose a scalable algorithm to estimate our sharp bounds from observational data.
翻訳日:2023-10-18 04:59:29 公開日:2023-10-16
# 拡散モデルの並列サンプリング

Parallel Sampling of Diffusion Models ( http://arxiv.org/abs/2305.16317v3 )

ライセンス: Link先を確認
Andy Shih, Suneel Belkhale, Stefano Ermon, Dorsa Sadigh, Nima Anari(参考訳) 拡散モデルは強力な生成モデルであるが、遅いサンプリングに悩まされ、しばしば1つのサンプルに対して1000のシーケンシャルな復調ステップを踏む。 その結果,デノナイジングステップの削減に向けてかなりの努力が払われているが,これらの手法はサンプルの品質を損なう。 この論文では、デノナイジングステップの数を減少させる代わりに、直交的なアプローチとして、デノナイジングステップを並列に実行できるか(速度のトレーディング計算)を探索する。 分別ステップの逐次的性質にもかかわらず,今後の分別ステップの解を推算し,収束まで反復的に精錬することで,ピカード反復によるサンプリングを驚くほど並列化することができることを示した。 そこで本研究では,複数ステップの並列化により,事前学習した拡散モデルのサンプリングを高速化する新しい手法であるパラダイムを提案する。 ParaDiGMSは、高速な取引計算を可能にする最初の拡散サンプリング手法であり、DDIMやDPMSolverといった既存の高速サンプリング技術と互換性がある。 そこでParaDiGMSを用いて,100ステップのDiffusionPolicyで0.2秒,1000ステップのStableDiffusion-v2で14.6秒のサンプリング速度を,タスク報酬,FIDスコア,CLIPスコアの計測不能な精度で実現した。

Diffusion models are powerful generative models but suffer from slow sampling, often taking 1000 sequential denoising steps for one sample. As a result, considerable efforts have been directed toward reducing the number of denoising steps, but these methods hurt sample quality. Instead of reducing the number of denoising steps (trading quality for speed), in this paper we explore an orthogonal approach: can we run the denoising steps in parallel (trading compute for speed)? In spite of the sequential nature of the denoising steps, we show that surprisingly it is possible to parallelize sampling via Picard iterations, by guessing the solution of future denoising steps and iteratively refining until convergence. With this insight, we present ParaDiGMS, a novel method to accelerate the sampling of pretrained diffusion models by denoising multiple steps in parallel. ParaDiGMS is the first diffusion sampling method that enables trading compute for speed and is even compatible with existing fast sampling techniques such as DDIM and DPMSolver. Using ParaDiGMS, we improve sampling speed by 2-4x across a range of robotics and image generation models, giving state-of-the-art sampling speeds of 0.2s on 100-step DiffusionPolicy and 14.6s on 1000-step StableDiffusion-v2 with no measurable degradation of task reward, FID score, or CLIP score.
翻訳日:2023-10-18 04:59:14 公開日:2023-10-16
# 知覚-NeRF:拡散モデルからの擬似観測によるNeRF再構成の促進

Deceptive-NeRF: Enhancing NeRF Reconstruction using Pseudo-Observations from Diffusion Models ( http://arxiv.org/abs/2305.15171v3 )

ライセンス: Link先を確認
Xinhang Liu, Jiaben Chen, Shiu-hong Kao, Yu-Wing Tai, Chi-Keung Tang(参考訳) そこで本研究では, 拡散モデルを用いて疑似観測を合成し, 再構成を改善するための新しい手法であるdeceptive-nerfを提案する。 このアプローチは3つの重要なステップを通じて展開される。 1) 粗いNeRFをスパース入力データから再構成すること。 2) 粗いNeRFを用いて画像を描画し,その後,それらに基づいて擬似観測を生成する。 3)疑似観測を付加した入力画像を用いた改良nyrfモデルのトレーニング。 我々は,RGB画像と深度マップを粗いNeRFから光写実的な擬似観測へと順応的に変換し,シーンのセマンティクスを保ちながら,認識拡散モデルを構築した。 さらに、現在のNeRFレンダリングを用いて、次のイテレーションのNeRFを強化する擬似観測を生成することによって、Deceptive-NeRFを訓練するためのプログレッシブ戦略を提案する。 広範な実験により,非常に少ない入力を持つ複雑なシーンでも,フォトリアリスティックなノベルビューを合成できることが実証された。 コードはリリースされる。

We introduce Deceptive-NeRF, a novel methodology for few-shot NeRF reconstruction, which leverages diffusion models to synthesize plausible pseudo-observations to improve the reconstruction. This approach unfolds through three key steps: 1) reconstructing a coarse NeRF from sparse input data; 2) utilizing the coarse NeRF to render images and subsequently generating pseudo-observations based on them; 3) training a refined NeRF model utilizing input images augmented with pseudo-observations. We develop a deceptive diffusion model that adeptly transitions RGB images and depth maps from coarse NeRFs into photo-realistic pseudo-observations, all while preserving scene semantics for reconstruction. Furthermore, we propose a progressive strategy for training the Deceptive-NeRF, using the current NeRF renderings to create pseudo-observations that enhance the next iteration's NeRF. Extensive experiments demonstrate that our approach is capable of synthesizing photo-realistic novel views, even for highly complex scenes with very sparse inputs. Codes will be released.
翻訳日:2023-10-18 04:58:44 公開日:2023-10-16
# 構造予測における認証一般化について

On Certified Generalization in Structured Prediction ( http://arxiv.org/abs/2306.09112v2 )

ライセンス: Link先を確認
Bastian Boll, Christoph Schn\"orr(参考訳) 構造化予測では、対象オブジェクトは独立成分に分解されず、一般的な仮定に反する豊富な内部構造を持つ。 この課題は、画像分割やシーングラフ生成といったアプリケーションにおける指数関数的に大きな出力空間を通じて明らかになる。 本稿では,構造化予測のための新しいpac-ベイズリスクを提示する。一般化の速度は,構造化例の数だけでなく,その大きさによってもスケールする。 生成モデルに関する現在進行中の研究に従えば、データは因子化基準測度のノッチ・ロセンブラット再配置によって生成されると仮定される。 これにより、ランダム出力変数間の構造をwasserstein依存性行列に明示的に蒸留することができる。 本研究は,構造化予測の難解な設定において,判別下流タスクの一般化境界を確立するために,強力な生成モデルを活用するための予備的なステップである。

In structured prediction, target objects have rich internal structure which does not factorize into independent components and violates common i.i.d. assumptions. This challenge becomes apparent through the exponentially large output space in applications such as image segmentation or scene graph generation. We present a novel PAC-Bayesian risk bound for structured prediction wherein the rate of generalization scales not only with the number of structured examples but also with their size. The underlying assumption, conforming to ongoing research on generative models, is that data are generated by the Knothe-Rosenblatt rearrangement of a factorizing reference measure. This allows to explicitly distill the structure between random output variables into a Wasserstein dependency matrix. Our work makes a preliminary step towards leveraging powerful generative models to establish generalization bounds for discriminative downstream tasks in the challenging setting of structured prediction.
翻訳日:2023-10-18 04:51:59 公開日:2023-10-16
# 合成能動推論エージェントの実現 : 第1報 認識論的目標とグラフィカル仕様言語

Realising Synthetic Active Inference Agents, Part I: Epistemic Objectives and Graphical Specification Language ( http://arxiv.org/abs/2306.08014v2 )

ライセンス: Link先を確認
Magnus Koudahl, Thijs van de Laar, Bert de Vries(参考訳) 自由エネルギー原理(英: Free Energy Principle、FEP)とは、自由エネルギー関数を最小化することによって(知的な)システムがコヒーレントで安定な構造に自己組織化する方法を記述する理論的枠組みである。 アクティブ推論(active inference, aif)は、情報探索コンポーネントを組み込んだ特定の自由エネルギー汎関数を最小化することで、将来(agents)機能をどのように計画できるかを具体的に記述したfepの組織である。 本稿では,自由形式因子グラフ上でAIFの合成版を導出する2つのシリーズの最初のものである。 本稿では,AIF に使用される自由エネルギー関数の局所バージョンを導出することに焦点を当てる。 これにより、任意のグラフィカルモデルやインターフェースに適用可能なAIFのバージョンを、メッセージパッシングアルゴリズムに先立って構築することができる。 得られたメッセージは私たちの共用紙に導出されます。 また、因子グラフに使用される図式表記のギャップも特定した。 因子グラフは生成モデルを表現するのに優れているが、制約を含む完全な最適化問題を特定できなかった。 この問題を解決するために,変分推論対象の完全にグラフィカルな記述を可能にするConstrained Forney-style Factor Graph (CFFG) 表記法を開発した。 次に、cffgがaifの事前アルゴリズムの再構築や新しいアルゴリズムの導出にどのように使えるかを示す。 後者は、AIFエージェントの直接的なポリシー推論を可能にするアルゴリズムを導出し、これまでAIFの工業的利用を妨げてきた長期にわたるスケーリング問題を回避している。 本稿では,従来のT-mazeタスクにアルゴリズムを適用し,AIFの目立った特徴である行動を求める情報を再現することを示す。

The Free Energy Principle (FEP) is a theoretical framework for describing how (intelligent) systems self-organise into coherent, stable structures by minimising a free energy functional. Active Inference (AIF) is a corollary of the FEP that specifically details how systems that are able to plan for the future (agents) function by minimising particular free energy functionals that incorporate information seeking components. This paper is the first in a series of two where we derive a synthetic version of AIF on free form factor graphs. The present paper focuses on deriving a local version of the free energy functionals used for AIF. This enables us to construct a version of AIF which applies to arbitrary graphical models and interfaces with prior work on message passing algorithms. The resulting messages are derived in our companion paper. We also identify a gap in the graphical notation used for factor graphs. While factor graphs are great at expressing a generative model, they have so far been unable to specify the full optimisation problem including constraints. To solve this problem we develop Constrained Forney-style Factor Graph (CFFG) notation which permits a fully graphical description of variational inference objectives. We then proceed to show how CFFG's can be used to reconstruct prior algorithms for AIF as well as derive new ones. The latter is demonstrated by deriving an algorithm that permits direct policy inference for AIF agents, circumventing a long standing scaling issue that has so far hindered the application of AIF in industrial settings. We demonstrate our algorithm on the classic T-maze task and show that it reproduces the information seeking behaviour that is a hallmark feature of AIF.
翻訳日:2023-10-18 04:51:45 公開日:2023-10-16
# 交流場センサとしてのフロッケ時間結晶

Floquet time-crystals as sensors of AC fields ( http://arxiv.org/abs/2306.03927v3 )

ライセンス: Link先を確認
Fernando Iemini, Rosario Fazio, Anna Sanpera(参考訳) 量子センサとしての離散時間結晶(dtcs)の性能について考察する。 DTCによって表示される長距離空間と時間の順序は、指数関数的に遅い加熱をもたらし、DTCを有利なセンサーに変える。 特に、acフィールドを推定する性能(量子フィッシャー情報によって決定される)は、非常に長時間のセンシングプロトコルを許容しながら、ショットノイズ制限を克服することができる。 多体相互作用の集合応答はDTCダイナミクスをノイズに対して安定化させるため、これらのセンサはプロトコルの欠陥に対してより堅牢になる。 このようなセンサの性能は、多体局所化相の存在の有無を調査するために二重の役割でも使用できる。

We discuss the performance of discrete time crystals (DTCs) as quantum sensors. The long-range spatial and time ordering displayed by DTCs, leads to an exponentially slow heating, turning DTC into advantageous sensors. Specifically, their performance (determined by the quantum Fisher information) to estimate AC fields can overcome the shot-noise limit while allowing for extremely long time sensing protocols. Since the collective response of the many-body interactions stabilizes the DTC dynamics against noise, these sensors become moreover robust to imperfections in the protocol. The performance of such a sensor can also be used in a dual role to probe the presence or absence of a many-body localized phase.
翻訳日:2023-10-18 04:49:58 公開日:2023-10-16
# ポイントクラウド事前トレーニングに必要なマルチビュー表現

Multi-View Representation is What You Need for Point-Cloud Pre-Training ( http://arxiv.org/abs/2306.02558v2 )

ライセンス: Link先を確認
Siming Yan, Chen Song, Youkang Kong, Qixing Huang(参考訳) 3dポイントクラウドを事前トレーニングする有望な方向は、2dの膨大なデータを活用することだが、2dと3dの間のドメインギャップは根本的な課題を生み出す。 本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。 まず2次元の特徴を予測し、次に次元を持ち上げることで3次元特徴を得るという一般的な慣行とは異なり、本手法は特徴抽出に3次元ネットワークを直接使用する。 本研究では,新しい2次元知識伝達損失の助けを借りて3次元特徴抽出ネットワークを訓練し,事前学習された2次元ネットワークの出力と整合する3次元特徴の2次元投影を強制する。 この特徴が3D信号を捨てるのを防ぐために,複数のビューにまたがる画素ワイド対応を捉えるために,投影された2D特徴表現をさらに促進する多視点整合損失を導入する。 このような対応は3次元幾何学を誘導し、投影された2次元特徴の3次元特徴を効果的に保持する。 実験結果から,3次元形状分類,部分分割,3次元物体検出,意味的セグメンテーションなど,各種下流タスクへの事前学習モデルの導入が成功し,最先端性能が達成できた。

A promising direction for pre-training 3D point clouds is to leverage the massive amount of data in 2D, whereas the domain gap between 2D and 3D creates a fundamental challenge. This paper proposes a novel approach to point-cloud pre-training that learns 3D representations by leveraging pre-trained 2D networks. Different from the popular practice of predicting 2D features first and then obtaining 3D features through dimensionality lifting, our approach directly uses a 3D network for feature extraction. We train the 3D feature extraction network with the help of the novel 2D knowledge transfer loss, which enforces the 2D projections of the 3D feature to be consistent with the output of pre-trained 2D networks. To prevent the feature from discarding 3D signals, we introduce the multi-view consistency loss that additionally encourages the projected 2D feature representations to capture pixel-wise correspondences across different views. Such correspondences induce 3D geometry and effectively retain 3D features in the projected 2D features. Experimental results demonstrate that our pre-trained model can be successfully transferred to various downstream tasks, including 3D shape classification, part segmentation, 3D object detection, and semantic segmentation, achieving state-of-the-art performance.
翻訳日:2023-10-18 04:49:23 公開日:2023-10-16
# 拡張短絡による内部ボソニックジョセフソン接合部のスピンスクイージング

Spin Squeezing in Internal Bosonic Josephson Junctions via Enhanced Shortcuts to Adiabaticity ( http://arxiv.org/abs/2305.20032v2 )

ライセンス: Link先を確認
Manuel Odelli, Vladimir M. Stojanovic, Andreas Ruschhaupt(参考訳) 2つの異なる超微細構造を持つ原子間の時間依存非線形結合強度を持つ内部ボソニックジョセフソン接合において、スピン配列状態の時間効率とロバストな合成について検討した。 本稿では,最近提案された量子制御プロトコルを,拡張STA(eSTA)法として解析的に修正した。 本稿では,コヒーレントスピンスキーズパラメータと数スキーズパラメータの時間依存性と目標状態忠実度を評価することにより,状態準備過程を特徴付ける。 また,eSTA法を用いて得られた状態準備時間は,従来提案されていた手法と比較した。 さらに重要なのは、eSTAアプローチのロバスト性(STAと比べ)の増大が、強いスピンスクイーズ状態の潜在的実験的実現にさらなる利点をもたらすことを示すことである。

We investigate a time-efficient and robust preparation of spin-squeezed states -- a class of states of interest for quantum-enhanced metrology -- in internal bosonic Josephson junctions with a time-dependent nonlinear coupling strength between atoms in two different hyperfine states. We treat this state-preparation problem, which had previously been addressed using shortcuts to adiabaticity (STA), using the recently proposed analytical modification of this class of quantum-control protocols that became known as the enhanced STA (eSTA) method. We characterize the state-preparation process by evaluating the time dependence of the coherent spin-squeezing and number-squeezing parameters and the target-state fidelity. We show that the state-preparation times obtained using the eSTA method compare favourably to those found in previously proposed approaches. Even more importantly, we demonstrate that the increased robustness of the eSTA approach -- compared to its STA counterpart -- leads to additional advantages for potential experimental realizations of strongly spin-squeezed states.
翻訳日:2023-10-18 04:47:59 公開日:2023-10-16
# 正常を超えて:相互情報推定器の評価について

Beyond Normal: On the Evaluation of Mutual Information Estimators ( http://arxiv.org/abs/2306.11078v2 )

ライセンス: Link先を確認
Pawe{\l} Czy\.z, Frederic Grabowski, Julia E. Vogt, Niko Beerenwinkel, Alexander Marx(参考訳) 相互情報は、表現学習、因果関係、領域の一般化、計算生物学に応用されている一般的な統計的依存尺度である。 しかし、相互情報推定器は通常、多変量正規分布と1次元の確率変数を持つ選択分布の単純な族で評価される。 本稿では,既知の相互情報を含む多様な分布を構築する方法を示し,相互情報推定者のための言語に依存しないベンチマークプラットフォームを提案する。 本稿では,高次元,疎相互作用,長期分布,高相互情報を含む設定における古典的・神経的推定器の適用性と限界について論じる。 最後に,新たなデータセットに推定器を適用する際に考慮すべき問題や課題に適応した適切な推定器の選択方法について,実践者に対してガイドラインを提供する。

Mutual information is a general statistical dependency measure which has found applications in representation learning, causality, domain generalization and computational biology. However, mutual information estimators are typically evaluated on simple families of probability distributions, namely multivariate normal distribution and selected distributions with one-dimensional random variables. In this paper, we show how to construct a diverse family of distributions with known ground-truth mutual information and propose a language-independent benchmarking platform for mutual information estimators. We discuss the general applicability and limitations of classical and neural estimators in settings involving high dimensions, sparse interactions, long-tailed distributions, and high mutual information. Finally, we provide guidelines for practitioners on how to select appropriate estimator adapted to the difficulty of problem considered and issues one needs to consider when applying an estimator to a new data set.
翻訳日:2023-10-18 04:37:24 公開日:2023-10-16
# NAR-Former V2:Universal Neural Network Representation Learningのための変換器の再考

NAR-Former V2: Rethinking Transformer for Universal Neural Network Representation Learning ( http://arxiv.org/abs/2306.10792v2 )

ライセンス: Link先を確認
Yun Yi, Haokui Zhang, Rong Xiao, Nannan Wang, Xiaoyu Wang(参考訳) 現実世界のアプリケーションでより多くのディープラーニングモデルが適用されると、ニューラルネットワーク自体の表現をモデリングし学習する必要性が高まる。 効率的な表現は、実際のトレーニングやデプロイメント手順を必要とせずに、ネットワークのターゲット属性を予測し、効率的なネットワークデプロイメントと設計を容易にするために使用できる。 近年、Transformerの成功に触発されて、Transformerベースの表現学習フレームワークが提案され、セル構造モデルを扱う上で有望な性能を達成した。 しかし、グラフニューラルネットワーク(GNN)に基づくアプローチは、ネットワーク全体の学習表現の分野を支配している。 本稿では、Transformerを再検討し、GNNと比較し、異なるアーキテクチャ特性を分析する。 次に,トランスフォーマーに基づく汎用ニューラルネットワーク表現学習モデル NAR-Former V2 を提案する。 セル構造ネットワークとネットワーク全体から効率的な表現を学ぶことができる。 具体的には、まずネットワークをグラフとして、ネットワークをシーケンスにエンコードするための簡単なトークン化器を設計します。 そして、GNNの帰納的表現学習能力をTransformerに組み込むことで、未確認アーキテクチャに遭遇した場合に、Transformerをより一般化することができる。 さらに,グラフ構造から表現を学習する際のトランスフォーマーの能力を高めるための,単純かつ効果的な修正も導入する。 提案手法は, NNLQPデータセットの遅延推定において, GNN-based method NNLPをはるかに上回っている。 さらに,nasbench101およびnasbench201データセットの精度予測について,他の最先端手法と同等の性能を実現する。

As more deep learning models are being applied in real-world applications, there is a growing need for modeling and learning the representations of neural networks themselves. An efficient representation can be used to predict target attributes of networks without the need for actual training and deployment procedures, facilitating efficient network deployment and design. Recently, inspired by the success of Transformer, some Transformer-based representation learning frameworks have been proposed and achieved promising performance in handling cell-structured models. However, graph neural network (GNN) based approaches still dominate the field of learning representation for the entire network. In this paper, we revisit Transformer and compare it with GNN to analyse their different architecture characteristics. We then propose a modified Transformer-based universal neural network representation learning model NAR-Former V2. It can learn efficient representations from both cell-structured networks and entire networks. Specifically, we first take the network as a graph and design a straightforward tokenizer to encode the network into a sequence. Then, we incorporate the inductive representation learning capability of GNN into Transformer, enabling Transformer to generalize better when encountering unseen architecture. Additionally, we introduce a series of simple yet effective modifications to enhance the ability of the Transformer in learning representation from graph structures. Our proposed method surpasses the GNN-based method NNLP by a significant margin in latency estimation on the NNLQP dataset. Furthermore, regarding accuracy prediction on the NASBench101 and NASBench201 datasets, our method achieves highly comparable performance to other state-of-the-art methods.
翻訳日:2023-10-18 04:37:10 公開日:2023-10-16
# 複数反射境界は絡み合い収穫を向上させるか?

Are multiple reflecting boundaries capable of enhancing entanglement harvesting? ( http://arxiv.org/abs/2306.09943v2 )

ライセンス: Link先を確認
Dipankar Barman, Bibhas Ranjan Majhi(参考訳) 相対論的設定で収穫する量子絡み合いは近年多くの注目を集めている。 2つの量子ビット内でより絡み合うものを取得することは、それらの間の実りあるコミュニケーションを確立するために非常に望ましい。 一方、時空における反射境界の使用は、空洞量子光学系とよく似ている。 そこで,2つの反射境界が存在する場合,背景スカラー場と相互作用するunruh-dewitt検出器間の絡み合いの発生について検討する。 境界や単一境界の状況は無くとも、リンドラーの対向するウェッジでは絡み合いの収穫が可能である。 反射境界が二重の役割を果たすことを観察する。 ある種のパラメータ空間では抑制を引き起こすが、他のパラメータ空間では境界や単一境界の場合と比較して絡み合いが増大する。 したがって、境界の増大はこの現象に重大な影響を与え、パラメータの選択が望ましい増加をもたらす。

Quantum entanglement harvesting in the relativistic setup attracted a lot of attention in recent times. Acquiring more entanglement within two qubits may be very desirable to establish fruitful communication between them. On the other hand use of reflecting boundaries in a spacetime has close resemblance to the cavity quantum optomechanical systems. Here, in presence of two reflecting boundaries, we study the generation of entanglement between two uniformly accelerated Unruh-DeWitt detectors which are interacting with the background scalar fields. Like no boundary and single boundary situations, entanglement harvesting is possible for their motions in opposite Rindler wedges. We observe that the reflecting boundaries can play double roles. In some parameter space it causes suppression, while in other parameter space we can have enhancement of entanglement compared to no boundary and single boundary cases. Thus increase of boundaries has significant impact in this phenomena and a suitable choices of parameters provides desirable increment of it.
翻訳日:2023-10-18 04:36:44 公開日:2023-10-16
# 雑音量子コンピューティングデバイスにおける高精度画像生成

Precise Image Generation on Current Noisy Quantum Computing Devices ( http://arxiv.org/abs/2307.05253v3 )

ライセンス: Link先を確認
Florian Rehm, Sofia Vallecorsa, Kerstin Borras, Dirk Kr\"ucker, Michele Grossi, Valle Varo(参考訳) 量子アングルジェネレータ(QAG)は、現在のノイズ中間スケール(NISQ)量子デバイス上で正確な画像を生成するために設計された、新しいフル量子機械学習モデルである。 変動量子回路はQAGモデルのコアを形成し、様々な回路アーキテクチャを評価する。 いわゆるMERA-upsamplingアーキテクチャと組み合わせて、QAGモデルは優れた結果を得ることができ、詳細な分析と評価を行う。 我々の知る限り、量子モデルがそのような正確な結果を得たのはこれが初めてである。 モデルから雑音へのロバスト性を調べるために、広範囲な量子ノイズ研究を行う。 本稿では,物理量子デバイスでトレーニングしたモデルがハードウェアのノイズ特性を学習し,優れた結果が得られることを示す。 トレーニング中に最大8%の量子ハードウェアマシンキャリブレーションが変更しても、十分に許容できることが確認された。 このモデルは、粒子エネルギーを測定するために必要となる高エネルギー物理学における不必要なシミュレーションや、最終的にCERNの大型ハドロン衝突型加速器で未知の粒子を発見するために用いられる。

The Quantum Angle Generator (QAG) is a new full Quantum Machine Learning model designed to generate accurate images on current Noise Intermediate Scale (NISQ) Quantum devices. Variational quantum circuits form the core of the QAG model, and various circuit architectures are evaluated. In combination with the so-called MERA-upsampling architecture, the QAG model achieves excellent results, which are analyzed and evaluated in detail. To our knowledge, this is the first time that a quantum model has achieved such accurate results. To explore the robustness of the model to noise, an extensive quantum noise study is performed. In this paper, it is demonstrated that the model trained on a physical quantum device learns the noise characteristics of the hardware and generates outstanding results. It is verified that even a quantum hardware machine calibration change during training of up to 8% can be well tolerated. For demonstration, the model is employed in indispensable simulations in high energy physics required to measure particle energies and, ultimately, to discover unknown particles at the Large Hadron Collider at CERN.
翻訳日:2023-10-18 04:29:45 公開日:2023-10-16
# 符号化データ構造を用いた変分量子回帰アルゴリズム

Variational quantum regression algorithm with encoded data structure ( http://arxiv.org/abs/2307.03334v2 )

ライセンス: Link先を確認
C.-C. Joseph Wang and Ryan S. Bennink(参考訳) 変分量子アルゴリズム(vqas)は、組合せ最適化、量子化学シミュレーション、量子機械学習、ノイズ量子コンピュータ上の量子誤差補正といった実用的な問題を解決するために用いられる。 変分量子機械学習では、アルゴリズムに組み込まれたモデル解釈性を持つ変分アルゴリズムはまだ活用されていない。 本稿では、古典的データテーブルの構造を反映した量子振幅でデータを直接符号化する回路を用いて、量子回帰アルゴリズムを構築し、学習された回帰係数に対する変動パラメータの直接関係を同定する。 このアルゴリズムは、よく接続された量子ビットに特に適している。 With compressed encoding and digital-analog gate operation, the run time complexity is logarithmically more advantageous than that for digital 2-local gate native hardware with the number of data entries encoded, a decent improvement in noisy intermediate-scale quantum computers and a minor improvement for large-scale quantum computing Our suggested method of compressed binary encoding offers a remarkable reduction in the number of physical qubits needed when compared to the traditional one-hot-encoding technique with the same input data. このアルゴリズムは本質的に線形回帰を行うが、非線形特徴をトレーニングデータに組み込むことで、非線形回帰に容易に利用できる。 モデルトレーニングにおいて、良いモデルと貧弱なモデルとを区別する測定コスト関数は、コード化されたデータ構造が観測可能なレコード数よりも機能の数がはるかに少ない場合に限り有効である。 この発見とハードウェアノイズを軽減するために、正規化から重要な特徴選択を伴う量子回帰モデル学習からのアンサンブルモデルトレーニングを取り入れ、数値的に図示する。

Variational quantum algorithms (VQAs) prevail to solve practical problems such as combinatorial optimization, quantum chemistry simulation, quantum machine learning, and quantum error correction on noisy quantum computers. For variational quantum machine learning, a variational algorithm with model interpretability built into the algorithm is yet to be exploited. In this paper, we construct a quantum regression algorithm and identify the direct relation of variational parameters to learned regression coefficients, while employing a circuit that directly encodes the data in quantum amplitudes reflecting the structure of the classical data table. The algorithm is particularly suitable for well-connected qubits. With compressed encoding and digital-analog gate operation, the run time complexity is logarithmically more advantageous than that for digital 2-local gate native hardware with the number of data entries encoded, a decent improvement in noisy intermediate-scale quantum computers and a minor improvement for large-scale quantum computing Our suggested method of compressed binary encoding offers a remarkable reduction in the number of physical qubits needed when compared to the traditional one-hot-encoding technique with the same input data. The algorithm inherently performs linear regression but can also be used easily for nonlinear regression by building nonlinear features into the training data. In terms of measured cost function which distinguishes a good model from a poor one for model training, it will be effective only when the number of features is much less than the number of records for the encoded data structure to be observable. To echo this finding and mitigate hardware noise in practice, the ensemble model training from the quantum regression model learning with important feature selection from regularization is incorporated and illustrated numerically.
翻訳日:2023-10-18 04:29:06 公開日:2023-10-16
# 神経進化のランタイム分析への第一歩

First Steps Towards a Runtime Analysis of Neuroevolution ( http://arxiv.org/abs/2307.00799v2 )

ライセンス: Link先を確認
Paul Fischer and Emil Lundt Larsen and Carsten Witt(参考訳) 進化的アルゴリズムが単純なニューラルネットワークの重みと活性化関数を最適化する、神経進化における単純な設定を考える。 次に、ネットワークによって学習される単純な例関数を定義し、単一のニューロンと複数のニューロンと2つの層を持つより高度な構造を持つネットワークの厳密な実行時解析を行う。 その結果,提案アルゴリズムは1つのニューロンに対して設計された2つのサンプル問題に対して効率が良く,二層ネットワークのサンプル問題に対して少なくとも一定の確率で効率がよいことがわかった。 特に、確率が1/j$に比例するサイズを$j$とするいわゆる調和突然変異作用素は、下層の探索空間にとって良い選択であることが判明した。 しかし,1つのニューロンの場合,局所視能が困難である場合も同定する。 我々の神経進化アルゴリズムと最先端CMA-ESの実験的研究は理論的な発見を支持している。

We consider a simple setting in neuroevolution where an evolutionary algorithm optimizes the weights and activation functions of a simple artificial neural network. We then define simple example functions to be learned by the network and conduct rigorous runtime analyses for networks with a single neuron and for a more advanced structure with several neurons and two layers. Our results show that the proposed algorithm is generally efficient on two example problems designed for one neuron and efficient with at least constant probability on the example problem for a two-layer network. In particular, the so-called harmonic mutation operator choosing steps of size $j$ with probability proportional to $1/j$ turns out as a good choice for the underlying search space. However, for the case of one neuron, we also identify situations with hard-to-overcome local optima. Experimental investigations of our neuroevolutionary algorithm and a state-of-the-art CMA-ES support the theoretical findings.
翻訳日:2023-10-18 04:28:22 公開日:2023-10-16
# WASP-12 b の更新軌道解: 市民科学データを活用した決定のエフェメリスと証拠

An updated Orbital Solution for WASP-12 b: Updated Ephemeris and Evidence for Decay leveraging Citizen Science Data ( http://arxiv.org/abs/2306.17473v4 )

ライセンス: Link先を確認
Avinash S. Nediyedath, Shivaraj R. Maidur, Martin J. Fowler, K. Davis, P. Das, D. Lalla, Bryan E. Martin, S. Dixon, P. Lewin, Andre O. Kovacs, A. Odasso, M. Primm, A. Norris(参考訳) NASA市民科学者はExoplanet Transit Interpretation Code(EXOTIC)を使用して、民間の望遠鏡が撮影するWASP-12の40セットの時系列画像と、Center for Astrophysics | Harvard & Smithsonian MicroObservatory (MOBs)が運営する6インチの望遠鏡を削減した。 これらのセットのうち24は、NASA Exoplanet Watchのウェブサイトに含まれるWASP-12 bのきれいなトランジット光曲線をもたらす。 我々は、NASA Exoplanet Archiveの先行データを用いて惑星の固有点を計算し、ETD(Exoplanet Transit Database)、ExoClock(Exoplanet Survey Satellite)、TESS(Transiting Exoplanet Survey Satellite)の観測と組み合わせた。 これらのデータセットを組み合わせることで、WASP-12 bの2454508.97923 +/- 0.000051 BJDTDBの軌道周期1.09141935 +/- 2.16e-08日を更新し、将来の宇宙望遠鏡観測の効率的なスケジューリングを知らせることができる。 軌道減衰は-6.89e-10 +/- 4.01e-11日/epochであった。 これらの結果は、市民科学者が太陽系外惑星研究の分野を拡大するために分析できるアマチュア天文学者による長期観測の利点を示している。

NASA Citizen Scientists have used Exoplanet Transit Interpretation Code (EXOTIC) to reduce 40 sets of time-series images of WASP-12 taken by privately owned telescopes and a 6-inch telescope operated by the Center for Astrophysics | Harvard & Smithsonian MicroObservatory (MOBs). Of these sets, 24 result in clean transit light curves of WASP-12 b which are included in the NASA Exoplanet Watch website. We use priors from the NASA Exoplanet Archive to calculate the ephemeris of the planet and combine it with ETD (Exoplanet Transit Database), ExoClock, and TESS (Transiting Exoplanet Survey Satellite) observations. Combining these datasets gives an updated ephemeris for the WASP-12 b system of 2454508.97923 +/- 0.000051 BJDTDB with an orbital period of 1.09141935 +/- 2.16e-08 days which can be used to inform the efficient scheduling of future space telescope observations. The orbital decay of the planet was found to be -6.89e-10 +/- 4.01e-11 days/epoch. These results show the benefits of long-term observations by amateur astronomers that citizen scientists can analyze to augment the field of Exoplanet research.
翻訳日:2023-10-18 04:28:07 公開日:2023-10-16
# 厳しい制約のあるアプリケーションにおけるAutoML

AutoML in Heavily Constrained Applications ( http://arxiv.org/abs/2306.16913v2 )

ライセンス: Link先を確認
Felix Neutatz and Marius Lindauer and Ziawasch Abedjan(参考訳) タスクに対する機械学習パイプラインの最適化には、さまざまなハイパーパラメータの慎重な設定が必要で、通常は、トレーニングデータセットのハイパーパラメータを最適化するAutoMLシステムによってサポートされている。 しかし、AutoMLシステム自身の2階のメタ設定に依存するため、AutoMLプロセスのパフォーマンスは大幅に異なる可能性がある。 現在のAutoMLシステムは、独自の設定を特定のユースケースに自動的に適応することはできない。 さらに、パイプラインとその生成の有効性と効率に関するユーザ定義のアプリケーション制約をコンパイルすることはできない。 本稿では,メタラーニングを用いて,検索戦略,検証戦略,検索空間などの独自のAutoMLパラメータを手作業で自動的に適用するCAMLを提案する。 CAMLの動的AutoML戦略は、ユーザ定義の制約を考慮に入れ、高い予測性能で制約を満たすパイプラインを得る。

Optimizing a machine learning pipeline for a task at hand requires careful configuration of various hyperparameters, typically supported by an AutoML system that optimizes the hyperparameters for the given training dataset. Yet, depending on the AutoML system's own second-order meta-configuration, the performance of the AutoML process can vary significantly. Current AutoML systems cannot automatically adapt their own configuration to a specific use case. Further, they cannot compile user-defined application constraints on the effectiveness and efficiency of the pipeline and its generation. In this paper, we propose CAML, which uses meta-learning to automatically adapt its own AutoML parameters, such as the search strategy, the validation strategy, and the search space, for a task at hand. The dynamic AutoML strategy of CAML takes user-defined constraints into account and obtains constraint-satisfying pipelines with high predictive performance.
翻訳日:2023-10-18 04:27:40 公開日:2023-10-16
# ニューラルネットワーク量子状態を用いたスケーラブルな想像時間発展

Scalable Imaginary Time Evolution with Neural Network Quantum States ( http://arxiv.org/abs/2307.15521v3 )

ライセンス: Link先を確認
Eimantas Ledinauskas and Egidijus Anisimovas(参考訳) ニューラルネットワーク量子状態(NQS)としての量子波関数の表現は、多体量子系の基底状態を見つけるための強力な変分アンサッツを提供する。 しかし、複雑な変動地形のため、従来の手法では量子幾何テンソルの計算を使い、その結果最適化技術が複雑になる。 代替手法の定式化への貢献として、計量テンソルの計算を回避し、ユークリッド計量による一階勾配勾配にのみ依存するアプローチを導入する。 これにより、より大きなニューラルネットワークの応用と、他の機械学習ドメインからのより標準的な最適化方法の利用が可能になる。 提案手法は,Schr\\odinger方程式から導かれるターゲット波動関数を構築し,ニューラルネットワークをトレーニングして,この目標を近似することで,虚時進化の原理を利用する。 我々は,NQSのエネルギーが減少するまで最適な時間ステップを決定し,目標を固定し,適応的に安定させる。 2次元J1-J2ハイゼンベルクモデルを用いた数値実験により, 直接エネルギー損失最小化と比較して, 安定性とエネルギー精度が向上した。 提案手法は,確率的再構成による密度行列再正規化法とNQS最適化との競合性を示す。

The representation of a quantum wave function as a neural network quantum state (NQS) provides a powerful variational ansatz for finding the ground states of many-body quantum systems. Nevertheless, due to the complex variational landscape, traditional methods often employ the computation of quantum geometric tensor, consequently complicating optimization techniques. Contributing to efforts aiming to formulate alternative methods, we introduce an approach that bypasses the computation of the metric tensor and instead relies exclusively on first-order gradient descent with Euclidean metric. This allows for the application of larger neural networks and the use of more standard optimization methods from other machine learning domains. Our approach leverages the principle of imaginary time evolution by constructing a target wave function derived from the Schr\"odinger equation, and then training the neural network to approximate this target. We make this method adaptive and stable by determining the optimal time step and keeping the target fixed until the energy of the NQS decreases. We demonstrate the benefits of our scheme via numerical experiments with 2D J1-J2 Heisenberg model, which showcase enhanced stability and energy accuracy in comparison to direct energy loss minimization. Importantly, our approach displays competitiveness with the well-established density matrix renormalization group method and NQS optimization with stochastic reconfiguration.
翻訳日:2023-10-18 04:20:10 公開日:2023-10-16
# PNT-Edge: 画素レベルの雑音遷移学習による雑音ラベルによるロバストエッジ検出に向けて

PNT-Edge: Towards Robust Edge Detection with Noisy Labels by Learning Pixel-level Noise Transitions ( http://arxiv.org/abs/2307.14070v2 )

ライセンス: Link先を確認
Wenjie Xuan, Shanshan Zhao, Yu Yao, Juhua Liu, Tongliang Liu, Yixin Chen, Bo Du, Dacheng Tao(参考訳) 画素レベルラベルを用いた大規模トレーニングデータから,従来のエッジ検出手法は高い性能を実現している。 しかし、特に大規模なデータセットでは、エッジを正確に手動でラベル付けすることは困難である。 このラベルノイズ問題は分類のために広く研究されてきたが、エッジ検出については未調査のままである。 本稿では,エッジ検出のためのラベルノイズ問題に対処するため,画素レベルのノイズ遷移を学習し,ラベル分解過程をモデル化する。 そこで,我々は,クリーンラベルからノイズラベルへの移行を変位場として推定する,新しい画素単位シフト学習(psl)モジュールを開発した。 pnt-edgeと名づけたこのモデルでは、推定ノイズ遷移を利用して、予測をラベルのクリーン化に適合させることができる。 さらに,局所的エッジ密度正規化項を考案し,局所構造情報をより優れたトランジッション学習に活用する。 この用語は複雑な局所構造を持つ辺に対する大きなシフトを学ぶことを奨励する。 SBDとCityscapesの実験は,ラベルノイズの影響を緩和する手法の有効性を示した。 コードはhttps://github.com/DREAMXFAR/PNT-Edgeで入手できる。

Relying on large-scale training data with pixel-level labels, previous edge detection methods have achieved high performance. However, it is hard to manually label edges accurately, especially for large datasets, and thus the datasets inevitably contain noisy labels. This label-noise issue has been studied extensively for classification, while still remaining under-explored for edge detection. To address the label-noise issue for edge detection, this paper proposes to learn Pixel-level NoiseTransitions to model the label-corruption process. To achieve it, we develop a novel Pixel-wise Shift Learning (PSL) module to estimate the transition from clean to noisy labels as a displacement field. Exploiting the estimated noise transitions, our model, named PNT-Edge, is able to fit the prediction to clean labels. In addition, a local edge density regularization term is devised to exploit local structure information for better transition learning. This term encourages learning large shifts for the edges with complex local structures. Experiments on SBD and Cityscapes demonstrate the effectiveness of our method in relieving the impact of label noise. Codes are available at https://github.com/DREAMXFAR/PNT-Edge.
翻訳日:2023-10-18 04:19:15 公開日:2023-10-16
# ボソニック系のエネルギー保存進化

Energy preserving evolutions over Bosonic systems ( http://arxiv.org/abs/2307.13801v2 )

ライセンス: Link先を確認
Paul Gondolf, Tim M\"obus, Cambyse Rouz\'e(参考訳) 量子マルコフ半群の不変部分空間への指数収束は、量子情報理論において重要な役割を果たす。 例えば、ボソニックなエラー訂正スキームでは、あるタイプのエラーに対して保護された不変部分空間であるコード空間に状態を戻すために消散を使用する。 本稿では,連続変数(CV)システム上での量子力学半群の摂動について検討し,不変部分空間を許容する。 まず、物理仮定の下でCV系上の量子マルコフ半群の生成定理を証明する。 i)生成元は、消滅演算子と生成演算子の多項式として定義された対応するジャンプ演算子を持つGKSL形式を有する。 (ii)(多分無界)発生器は、制御された方法ですべてのモーメントを増加させる。 さらに、有界な第一モーメントを持つ作用素のレベル集合が進化の許容部分空間であることを示し、摂動解析の基礎を提供する。 結果は時間依存半群にも及んでいる。 我々は,連続変数量子情報処理に関心のある2つの設定に汎用フレームワークを適用する。 まず、量子力学半群のマルコフ摂動のエネルギー制約付き容量の連続性境界を導出する新しいスキームを提供する。 第二に、コード空間外のCAT量子ビットの普遍ゲートセットを生成する連続時間進化の減衰の定量的解析を行う。

The exponential convergence to invariant subspaces of quantum Markov semigroups plays a crucial role in quantum information theory. One such example is in bosonic error correction schemes, where dissipation is used to drive states back to the code-space -- an invariant subspace protected against certain types of errors. In this paper, we investigate perturbations of quantum dynamical semigroups that operate on continuous variable (CV) systems and admit an invariant subspace. First, we prove a generation theorem for quantum Markov semigroups on CV systems under the physical assumptions that (i) the generator has GKSL form with corresponding jump operators defined as polynomials of annihilation and creation operators; and (ii) the (possibly unbounded) generator increases all moments in a controlled manner. Additionally, we show that the level sets of operators with bounded first moments are admissible subspaces of the evolution, providing the foundations for a perturbative analysis. Our results also extend to time-dependent semigroups. We apply our general framework to two settings of interest in continuous variables quantum information processing. First, we provide a new scheme for deriving continuity bounds on the energy-constrained capacities of Markovian perturbations of Quantum dynamical semigroups. Second, we provide a quantitative analysis of the dampening of continuous-time evolutions generating a universal gate set for CAT-qubits outside their code-space.
翻訳日:2023-10-18 04:18:28 公開日:2023-10-16
# Thresh: 微細テキスト評価のための統一された、カスタマイズ可能な、デプロイ可能なプラットフォーム

Thresh: A Unified, Customizable and Deployable Platform for Fine-Grained Text Evaluation ( http://arxiv.org/abs/2308.06953v3 )

ライセンス: Link先を確認
David Heineman, Yao Dou, Wei Xu(参考訳) 要約, 単純化, 機械翻訳, ニュース生成などのテキスト生成タスクを評価するための信頼性が高く, 堅牢な手法として人体評価が登場し, 得られたアノテーションは自動メトリクスのトレーニングや言語モデルの改善に有用である。 しかし、これらの評価フレームワークに実装されている既存のアノテーションツールには、異なるドメインや言語に拡張したり、ユーザのニーズに応じてアノテーション設定を変更する適応性がない。 本稿では,細粒度評価のための統合化,カスタマイズ,デプロイ可能なプラットフォームであるthreshを紹介する。 単一のyaml構成ファイルで、ユーザはあらゆるフレームワークのアノテーションインターフェースを数分で構築し、テストすることができる。 コラボレーションと共有を容易にするために、threshは、コミュニティが作成、収集する細かなフレームワークと対応するアノテーションのコレクションをホストするコミュニティハブを提供し、幅広いnlpタスクをカバーしている。 Threshは、小さな手動検査から大規模なクラウドソーシングまで、あらゆる規模のアノテーションプロジェクトに複数のオプションを提供する。 さらに,タイポロジー設計からアノテーション処理へのデプロイまで,プロセス全体を合理化するpythonライブラリも導入する。 Threshはhttps://thresh.tools.comで公開されている。

Fine-grained, span-level human evaluation has emerged as a reliable and robust method for evaluating text generation tasks such as summarization, simplification, machine translation and news generation, and the derived annotations have been useful for training automatic metrics and improving language models. However, existing annotation tools implemented for these evaluation frameworks lack the adaptability to be extended to different domains or languages, or modify annotation settings according to user needs; and, the absence of a unified annotated data format inhibits the research in multi-task learning. In this paper, we introduce Thresh, a unified, customizable and deployable platform for fine-grained evaluation. With a single YAML configuration file, users can build and test an annotation interface for any framework within minutes -- all in one web browser window. To facilitate collaboration and sharing, Thresh provides a community hub that hosts a collection of fine-grained frameworks and corresponding annotations made and collected by the community, covering a wide range of NLP tasks. For deployment, Thresh offers multiple options for any scale of annotation projects from small manual inspections to large crowdsourcing ones. Additionally, we introduce a Python library to streamline the entire process from typology design and deployment to annotation processing. Thresh is publicly accessible at https://thresh.tools.
翻訳日:2023-10-18 04:10:40 公開日:2023-10-16
# MaxSATによる安定化器符号の最適合成

Optimal Synthesis of Stabilizer Codes via MaxSAT ( http://arxiv.org/abs/2308.06428v3 )

ライセンス: Link先を確認
Keyi Yin, Hezi Zhang, Yunong Shi, Travis Humble, Ang Li, Yufei Ding(参考訳) 量子誤り訂正(QEC)符号は、長期にわたってフォールトトレラント量子コンピューティングを達成するために重要である。 しかし、ハードウェア上でこれらのコードを効率的に実装するには、ハードウェア接続マッチング、効率的な回路スケジューリング、フォールトトレランス強制など、重大な課題がある。 本研究では,maxsatを用いて汎用安定化器コードを多種多様なハードウェア構造に縫い付ける最適合成器を提案する。 本評価は,(1)様々なコードやデバイスに適用するアプローチの能力,(2)特定のqec符号のみを対象とする最善の事前ヒューリスティックアプローチよりも一貫して優れた効率を示す。 高レベルのQECコード設計と低レベルのハードウェア制約のギャップを埋めることにより、この作業は長期のフォールトトレラントな量子コンピューティング目標を達成するための道を開く。

Quantum Error Correction (QEC) codes are crucial for achieving fault-tolerant quantum computing in the long term. However, efficiently implementing these codes on hardware poses significant challenges, including hardware connectivity matching, efficient circuit scheduling, and fault-tolerance enforcement. In this study, we present an optimal synthesizer that stitches generic stabilizer codes onto diverse hardware structures via MaxSAT. Our evaluation demonstrates (1) the capability of our approach to be applied for various codes and devices and (2) the consistently better efficiency than the best prior heuristic approaches that only target specific QEC codes. By bridging the gap between high-level QEC code design and low-level hardware constraints, this work paves the way toward achieving long-term fault-tolerant quantum computing goals.
翻訳日:2023-10-18 04:09:53 公開日:2023-10-16
# CLEVA: 中国語モデルによる評価プラットフォーム

CLEVA: Chinese Language Models EVAluation Platform ( http://arxiv.org/abs/2308.04813v2 )

ライセンス: Link先を確認
Yanyang Li, Jianqiao Zhao, Duo Zheng, Zi-Yuan Hu, Zhi Chen, Xiaohui Su, Yongfeng Huang, Shijia Huang, Dahua Lin, Michael R. Lyu, Liwei Wang(参考訳) 中国の大規模言語モデル(LLM)の継続的な出現に伴い、モデルの能力を評価する方法がますます大きな問題となっている。 モデルの性能を徹底的に評価する包括的な中国のベンチマークの欠如、標準化されず互換性のないプロンプト手順、そして汚染のリスクが現在の中国のLLMの評価において大きな課題となっている。 CLEVAは,中国のLLMを階層的に評価するためのユーザフレンドリーなプラットフォームである。 当社のプラットフォームでは,LLMのパフォーマンスをさまざまな面で評価するために,標準化されたワークフローを採用しています。 汚染を軽減するため、clevaは新しいデータのかなりの割合をキュレーションし、リーダーボードラウンドごとにユニークなサブセットを保証するサンプリング戦略を開発する。 マウスクリック数回とモデルAPIを必要とする使いやすいインターフェースと、最小限のコーディングで徹底的な評価を行うことができる。 23個の中国のLLMを含む大規模な実験は、CLEVAの有効性を実証している。

With the continuous emergence of Chinese Large Language Models (LLMs), how to evaluate a model's capabilities has become an increasingly significant issue. The absence of a comprehensive Chinese benchmark that thoroughly assesses a model's performance, the unstandardized and incomparable prompting procedure, and the prevalent risk of contamination pose major challenges in the current evaluation of Chinese LLMs. We present CLEVA, a user-friendly platform crafted to holistically evaluate Chinese LLMs. Our platform employs a standardized workflow to assess LLMs' performance across various dimensions, regularly updating a competitive leaderboard. To alleviate contamination, CLEVA curates a significant proportion of new data and develops a sampling strategy that guarantees a unique subset for each leaderboard round. Empowered by an easy-to-use interface that requires just a few mouse clicks and a model API, users can conduct a thorough evaluation with minimal coding. Large-scale experiments featuring 23 Chinese LLMs have validated CLEVA's efficacy.
翻訳日:2023-10-18 04:09:09 公開日:2023-10-16
# PoSynDA:ロバストな3次元ポース推定のための多相ポス合成領域適応

PoSynDA: Multi-Hypothesis Pose Synthesis Domain Adaptation for Robust 3D Human Pose Estimation ( http://arxiv.org/abs/2308.09678v2 )

ライセンス: Link先を確認
Hanbing Liu, Jun-Yan He, Zhi-Qi Cheng, Wangmeng Xiang, Qize Yang, Wenhao Chai, Gaoang Wang, Xu Bao, Bin Luo, Yifeng Geng, Xuansong Xie(参考訳) 既存の3Dポーズ推定器は、トレーニングセットに2D-3Dポーズペアが欠如しているため、新しいデータセットに適応する際の課題に直面している。 この問題を解決するために、ターゲット領域におけるデータ格差を補うために、textit{Multi-Hypothesis \textbf{P}ose \textbf{Syn}thesis \textbf{D}omain \textbf{A}daptation} (\textbf{PoSynDA})フレームワークを提案する。 通常、PoSynDAは拡散にインスパイアされた構造を用いて、ターゲット領域の3Dポーズ分布をシミュレートする。 多仮説ネットワークを組み込むことで、PoSynDAは多様なポーズ仮説を生成し、ターゲットドメインと整列させる。 これを実現するために、まずターゲット固有のソース拡張を利用して、スケールと位置パラメータを分離することで、ソースドメインからターゲットドメイン分布データを取得する。 この過程は教師・生徒のパラダイムと低位適応によってさらに洗練される。 Human3.6M や MPI-INF-3DHP などのベンチマークとの比較により、PoSynDA はターゲットトレーニングされた MixSTE モデルに匹敵する競争性能を示した。 この研究は、見えない領域における3次元人間のポーズ推定の実用的応用への道を開くものである。 コードはhttps://github.com/hbing-l/PoSynDAで入手できる。

Existing 3D human pose estimators face challenges in adapting to new datasets due to the lack of 2D-3D pose pairs in training sets. To overcome this issue, we propose \textit{Multi-Hypothesis \textbf{P}ose \textbf{Syn}thesis \textbf{D}omain \textbf{A}daptation} (\textbf{PoSynDA}) framework to bridge this data disparity gap in target domain. Typically, PoSynDA uses a diffusion-inspired structure to simulate 3D pose distribution in the target domain. By incorporating a multi-hypothesis network, PoSynDA generates diverse pose hypotheses and aligns them with the target domain. To do this, it first utilizes target-specific source augmentation to obtain the target domain distribution data from the source domain by decoupling the scale and position parameters. The process is then further refined through the teacher-student paradigm and low-rank adaptation. With extensive comparison of benchmarks such as Human3.6M and MPI-INF-3DHP, PoSynDA demonstrates competitive performance, even comparable to the target-trained MixSTE model\cite{zhang2022mixste}. This work paves the way for the practical application of 3D human pose estimation in unseen domains. The code is available at https://github.com/hbing-l/PoSynDA.
翻訳日:2023-10-18 04:00:06 公開日:2023-10-16
# 対照損失に基づくオフライン手書き署名検証モデルにおけるホワイトボックス偽正逆攻撃法

A White-Box False Positive Adversarial Attack Method on Contrastive Loss-Based Offline Handwritten Signature Verification Models ( http://arxiv.org/abs/2308.08925v2 )

ライセンス: Link先を確認
Zhongliang Guo, Weiye Li, Yifei Qian, Ognjen Arandjelovi\'c, Lei Fang(参考訳) 本稿では, 競合的損失に基づくオフライン手書き署名検証モデルに対して, 白箱偽正逆攻撃の課題に取り組む。 本稿では,この攻撃を,密接に関連するが異なる文体間のスタイル伝達として扱う新しい攻撃手法を提案する。 そこで本研究では,原画像と合成画像の埋め込みベクトル間のユークリッド距離を摂動させ,生成画像と原画像との差を小さくすることで最小限の摂動を確保することにより,攻撃成功率を高める2つの新たな損失関数を導入する。 提案手法は,白箱攻撃による逆損失に基づくオフライン手書き署名検証モデルに対する最先端性能を示す。 本稿では,新しい偽陽性攻撃法,新たな2つの損失関数,筆跡スタイルにおける効果的なスタイル転送,ホワイトボックス偽陽性攻撃において他のホワイトボックス攻撃法と比較して優れた性能を示す。

In this paper, we tackle the challenge of white-box false positive adversarial attacks on contrastive loss-based offline handwritten signature verification models. We propose a novel attack method that treats the attack as a style transfer between closely related but distinct writing styles. To guide the generation of deceptive images, we introduce two new loss functions that enhance the attack success rate by perturbing the Euclidean distance between the embedding vectors of the original and synthesized samples, while ensuring minimal perturbations by reducing the difference between the generated image and the original image. Our method demonstrates state-of-the-art performance in white-box attacks on contrastive loss-based offline handwritten signature verification models, as evidenced by our experiments. The key contributions of this paper include a novel false positive attack method, two new loss functions, effective style transfer in handwriting styles, and superior performance in white-box false positive attacks compared to other white-box attack methods.
翻訳日:2023-10-18 03:58:41 公開日:2023-10-16
# 多粒度クロスドメインアライメントによる異常セグメンテーションの改善

Improving Anomaly Segmentation with Multi-Granularity Cross-Domain Alignment ( http://arxiv.org/abs/2308.08696v2 )

ライセンス: Link先を確認
Ji Zhang, Xiao Wu, Zhi-Qi Cheng, Qi He, Wei Li(参考訳) 異常セグメンテーションは、画像中の非定型物体を識別する上で重要な役割を担っている。 既存の手法は合成データに顕著な結果を示すが、合成データドメインと実世界のデータドメインの相違を考慮できないことが多い。 このギャップに対処するために、シーンと個々のサンプルレベルの両方でドメイン間の機能を調和させるのに適した、Multi-Granularity Cross-Domain Alignment (MGCDA)フレームワークを導入します。 私たちの貢献は2つあります i)マルチソースドメイン適応トレーニングモジュールを提案する。 これにより、動的ラベル平滑化と組み合わせたマルチソースの逆損失が統合され、複数の処理段階にわたるドメインに依存しない表現の学習が容易になる。 二 革新的クロスドメイン異常認識コントラスト学習手法を提案する。 } この手法は,異常中心の戦略を用いて,挑戦的なアンカーポイントと画像を選択し,試料レベルで正確なアライメントを確保する。 fishyscapesとroadanomalyデータセットの広範な評価は、mgcdaの優れた性能と適応性を示している。 さらに、パラメータフリー推論と様々なネットワークアーキテクチャで機能を実行する能力は、異常セグメンテーションのフロンティアを前進させる際、その特異性を強調している。

Anomaly segmentation plays a pivotal role in identifying atypical objects in images, crucial for hazard detection in autonomous driving systems. While existing methods demonstrate noteworthy results on synthetic data, they often fail to consider the disparity between synthetic and real-world data domains. Addressing this gap, we introduce the Multi-Granularity Cross-Domain Alignment (MGCDA) framework, tailored to harmonize features across domains at both the scene and individual sample levels. Our contributions are twofold: i) We present the Multi-source Domain Adversarial Training module. This integrates a multi-source adversarial loss coupled with dynamic label smoothing, facilitating the learning of domain-agnostic representations across multiple processing stages. ii) We propose an innovative Cross-domain Anomaly-aware Contrastive Learning methodology.} This method adeptly selects challenging anchor points and images using an anomaly-centric strategy, ensuring precise alignment at the sample level. Extensive evaluations of the Fishyscapes and RoadAnomaly datasets demonstrate MGCDA's superior performance and adaptability. Additionally, its ability to perform parameter-free inference and function with various network architectures highlights its distinctiveness in advancing the frontier of anomaly segmentation.
翻訳日:2023-10-18 03:58:21 公開日:2023-10-16
# SummHelper: 協調的な人-コンピュータの要約

SummHelper: Collaborative Human-Computer Summarization ( http://arxiv.org/abs/2308.08363v2 )

ライセンス: Link先を確認
Aviv Slobodkin, Niv Nachum, Shmuel Amar, Ori Shapira, Ido Dagan(参考訳) テキスト要約の現在のアプローチは、主に自動であり、人間の介入やプロセスの制御に限られている。 本稿では,人間と機械の協調を促進するために設計された2相要約アシスタントSummHelperを紹介する。 最初のフェーズでは、潜在的なコンテンツを推薦し、ユーザーが追加の選択を受け入れ、修正し、導入することができる。 その後のフェーズであるコンテンツ統合では、summhelperがこれらの選択からコヒーレントなサマリを生成し、サマリとソーステキスト間の視覚的マッピングを使用して洗練することができる。 参加者は、自動化されたガイダンスと個人入力の機会のバランスを特に認識している。

Current approaches for text summarization are predominantly automatic, with rather limited space for human intervention and control over the process. In this paper, we introduce SummHelper, a 2-phase summarization assistant designed to foster human-machine collaboration. The initial phase involves content selection, where the system recommends potential content, allowing users to accept, modify, or introduce additional selections. The subsequent phase, content consolidation, involves SummHelper generating a coherent summary from these selections, which users can then refine using visual mappings between the summary and the source text. Small-scale user studies reveal the effectiveness of our application, with participants being especially appreciative of the balance between automated guidance and opportunities for personal input.
翻訳日:2023-10-18 03:58:00 公開日:2023-10-16
# PokerKit: 細粒度多変数ポーカーゲームシミュレーションのための総合Pythonライブラリ

PokerKit: A Comprehensive Python Library for Fine-Grained Multi-Variant Poker Game Simulations ( http://arxiv.org/abs/2308.07327v5 )

ライセンス: Link先を確認
Juho Kim(参考訳) PokerKitは、既存のポーカーゲームシミュレーションと手評価ツールの制限を克服するために設計された、オープンソースのPythonライブラリである。 対照的に、ポーカーキットはポーカーの多種多様なバリエーションをサポートし、ユーザーが独自のゲームを定義するための柔軟なアーキテクチャを提供する。 本稿では,ポーカーキットの設計と実装について詳述する。ポーカーキットは,直感的なプログラムapi,多変量ゲームサポート,さまざまな手のタイプにわたる統一的なハンド評価スイートなどである。 PokerKitの柔軟性により、ポーカーAI開発、ツール作成、オンラインポーカーカジノ実装など、さまざまな分野のアプリケーションが可能になる。 PokerKitの信頼性は静的型チェック、広範なドクテスト、ユニットテストを通じて確立され、99%のコードカバレッジを達成した。 PokerKitの導入は、コンピュータポーカーの分野への重要な貢献であり、様々なポーカーゲームのための将来の研究と高度なAI開発を促進する。 ソースコードはhttps://github.com/uoftcprg/pokerkitで入手できる。

PokerKit is an open-source Python library designed to overcome the restrictions of existing poker game simulation and hand evaluation tools, which typically support only a handful of poker variants and lack flexibility in game state control. In contrast, PokerKit significantly expands this scope by supporting an extensive array of poker variants and it provides a flexible architecture for users to define their custom games. This paper details the design and implementation of PokerKit, including its intuitive programmatic API, multi-variant game support, and a unified hand evaluation suite across different hand types. The flexibility of PokerKit allows for applications in diverse areas, such as poker AI development, tool creation, and online poker casino implementation. PokerKit's reliability has been established through static type checking, extensive doctests, and unit tests, achieving 99% code coverage. The introduction of PokerKit represents a significant contribution to the field of computer poker, fostering future research and advanced AI development for a wide variety of poker games. The source code is available at https://github.com/uoftcprg/pokerkit
翻訳日:2023-10-18 03:57:24 公開日:2023-10-16
# 二次オプション検出器を用いた相関型ファジィクラスタ妥当性指標

A correlation-based fuzzy cluster validity index with secondary options detector ( http://arxiv.org/abs/2308.14785v2 )

ライセンス: Link先を確認
Nathakhun Wiroonsri and Onthada Preedasawakul(参考訳) クラスタ分析を適用する上で,クラスタの最適な数を主な関心事のひとつに挙げる。 この問題に対処するためにいくつかのクラスタ妥当性指標が導入された。 しかし、いくつかの状況では、最後の数のクラスタとして選択できる選択肢が複数存在する。 この側面は、この分野の既存の作品の大半で見過ごされている。 本研究では,Wiroonsri-Preedasawakul(WP)インデックスと呼ばれる相関に基づくファジィクラスタの妥当性指標を提案する。 この指標は、データポイント間の実際の距離と、そのペアに対する調整されたセントロイド間の距離との相関に基づいて定義される。 我々は,Xie-Beni,Pakhira-Bandyopadhyay-Maulik,Tang,Wu-Li,Generalized C,Kwon2などの既存指標と比較した。 この評価をファジィc-meansアルゴリズムを用いて,人工データセット,実世界のデータセット,ランク付きシミュレーションデータセット,画像データセットの4種類のデータセットについて行った。 全体として、wpインデックスは、クラスタの最適な数を正確に検出し、正確な二次オプションを提供するという点で、これらインデックスのほとんどを上回っている。 さらに、ファジィパラメータ$m$が大きな値に設定された場合でも、インデックスは有効である。 この作業で使用されるUniversalCVIと呼ばれるRパッケージはhttps://CRAN.R-project.org/package=UniversalCVIで利用可能です。

The optimal number of clusters is one of the main concerns when applying cluster analysis. Several cluster validity indexes have been introduced to address this problem. However, in some situations, there is more than one option that can be chosen as the final number of clusters. This aspect has been overlooked by most of the existing works in this area. In this study, we introduce a correlation-based fuzzy cluster validity index known as the Wiroonsri-Preedasawakul (WP) index. This index is defined based on the correlation between the actual distance between a pair of data points and the distance between adjusted centroids with respect to that pair. We evaluate and compare the performance of our index with several existing indexes, including Xie-Beni, Pakhira-Bandyopadhyay-Maulik, Tang, Wu-Li, generalized C, and Kwon2. We conduct this evaluation on four types of datasets: artificial datasets, real-world datasets, simulated datasets with ranks, and image datasets, using the fuzzy c-means algorithm. Overall, the WP index outperforms most, if not all, of these indexes in terms of accurately detecting the optimal number of clusters and providing accurate secondary options. Moreover, our index remains effective even when the fuzziness parameter $m$ is set to a large value. Our R package called UniversalCVI used in this work is available at https://CRAN.R-project.org/package=UniversalCVI.
翻訳日:2023-10-18 03:51:43 公開日:2023-10-16
# Dcc --help: 大規模言語モデルによるコンテキスト対応コンパイラエラー記述の生成

Dcc --help: Generating Context-Aware Compiler Error Explanations with Large Language Models ( http://arxiv.org/abs/2308.11873v2 )

ライセンス: Link先を確認
Andrew Taylor and Alexandra Vassar and Jake Renzella and Hammond Pearce(参考訳) 導入プログラミングの難しい分野では、高い参加率と失敗率によって、学生の成果を高めるためのツールやシステム、特に大規模なコホートにスケールする自動化ツールが探求されることになります。 本稿では,debugging cコンパイラ (dcc) への大規模言語モデル (llm) の統合により,各エラーに合わせたユニークな初心者向け説明を生成する dcc --help tool を提案し,評価する。 dcc --help は、ソースコード、エラー位置、標準コンパイラエラーメッセージを含むコンパイル時および実行時のエラー発生のコンテキスト情報を持つ LLM をプロンプトする。 LLMは初心者向けで行動可能なエラー説明とガイダンスを生成するよう指示されており、ソリューションを提供することなく、生徒が問題の理解と解決を支援するように設計されている。 dcc --helpはCS1とCS2のコースにデプロイされ、2565人の学生が10週間で64,000回以上このツールを使っている。 我々はこれらの誤り/説明ペアのサブセットを分析し、概念的正当性、関連性、全体的な品質など、それらの特性を評価した。 LLMが生成した説明は、コンパイル時間の90%と実行時の75%で概念的に正確であるが、コードに解決策を提供しない命令を無視することが多かった。 本研究は,dcc-helpが学生のプログラミング導入に新たな機会をもたらすことを示すものである。

In the challenging field of introductory programming, high enrollments and failure rates drive us to explore tools and systems to enhance student outcomes, especially automated tools that scale to large cohorts. This paper presents and evaluates the dcc --help tool, an integration of a Large Language Model (LLM) into the Debugging C Compiler (DCC) to generate unique, novice-focused explanations tailored to each error. dcc --help prompts an LLM with contextual information of compile- and run-time error occurrences, including the source code, error location and standard compiler error message. The LLM is instructed to generate novice-focused, actionable error explanations and guidance, designed to help students understand and resolve problems without providing solutions. dcc --help was deployed to our CS1 and CS2 courses, with 2,565 students using the tool over 64,000 times in ten weeks. We analysed a subset of these error/explanation pairs to evaluate their properties, including conceptual correctness, relevancy, and overall quality. We found that the LLM-generated explanations were conceptually accurate in 90% of compile-time and 75% of run-time cases, but often disregarded the instruction not to provide solutions in code. Our findings, observations and reflections following deployment indicate that dcc-help provides novel opportunities for scaffolding students' introduction to programming.
翻訳日:2023-10-18 03:49:34 公開日:2023-10-16
# 数学定数間の固有順序のアルゴリズムによる発見

Algorithm-assisted discovery of an intrinsic order among mathematical constants ( http://arxiv.org/abs/2308.11829v2 )

ライセンス: Link先を確認
Rotem Elimelech, Ofir David, Carlos De la Cruz Mengual, Rotem Kalisch, Wolfgang Berndt, Michael Shalyt, Mark Silberstein, Yaron Hadad, and Ido Kaminer(参考訳) 近年、数学の分野における多くの発見がコンピュータアルゴリズムによって支援され、主に人間が調査するのに時間がかかりすぎる大きなパラメータ空間を探索している。 コンピュータとアルゴリズムがより強力になるにつれて、人間の直観とコンピュータアルゴリズムの相互作用が新たな数学的概念の発見に繋がる可能性がある。 この観点を実現するため,我々は,前例のない数式を基本数定数に対して連続的に生成する超並列計算機アルゴリズムを開発した。 アルゴリズムによって発見された数式は、我々が保守行列場と呼ぶ新しい数学的構造を明らかにしている。 そのような行列体 (1) は数千の既存の公式を統一し、(2) は無限に多くの新しい公式を生成し、(3) より重要なのは、リーマンゼータ函数の複数の整数値を含む異なる数学定数の間の予期せぬ関係を導くことである。 保守行列場はまた、不合理性の新たな数学的証明を可能にする。 特に、これらは ap\'ery による $\zeta(3)$ の不合理性に対する証明の一般化に使うことができる。 世界中の何千ものパーソナルコンピュータを活用して,実験数学の力を実証し,長期にわたるオープン問題に取り組み,様々な科学分野にわたる予期せぬつながりを発見する大規模計算手法の展望を明らかにした。

In recent decades, a growing number of discoveries in fields of mathematics have been assisted by computer algorithms, primarily for exploring large parameter spaces that humans would take too long to investigate. As computers and algorithms become more powerful, an intriguing possibility arises - the interplay between human intuition and computer algorithms can lead to discoveries of novel mathematical concepts that would otherwise remain elusive. To realize this perspective, we have developed a massively parallel computer algorithm that discovers an unprecedented number of continued fraction formulas for fundamental mathematical constants. The sheer number of formulas discovered by the algorithm unveils a novel mathematical structure that we call the conservative matrix field. Such matrix fields (1) unify thousands of existing formulas, (2) generate infinitely many new formulas, and most importantly, (3) lead to unexpected relations between different mathematical constants, including multiple integer values of the Riemann zeta function. Conservative matrix fields also enable new mathematical proofs of irrationality. In particular, we can use them to generalize the celebrated proof by Ap\'ery for the irrationality of $\zeta(3)$. Utilizing thousands of personal computers worldwide, our computer-supported research strategy demonstrates the power of experimental mathematics, highlighting the prospects of large-scale computational approaches to tackle longstanding open problems and discover unexpected connections across diverse fields of science.
翻訳日:2023-10-18 03:49:07 公開日:2023-10-16
# RLSynC: シントーン補完のためのオフラインオンライン強化学習

RLSynC: Offline-Online Reinforcement Learning for Synthon Completion ( http://arxiv.org/abs/2309.02671v2 )

ライセンス: Link先を確認
Frazier N. Baker, Ziqi Chen, and Xia Ning(参考訳) レトロ合成(Retro synthesis)は、反応可能な反応分子の集合が望ましい生成物を形成する過程である。 合成反応の逆論理を模倣する半テンポレートベースの逆合成法は、まず生成物の反応中心を予測し、その結果のシンソンを反応剤に戻す。 これらの手法は、合成計画に必要とされる解釈可能性と高実用性を可能にする。 セミテンプレート法におけるシントーン補完のためのオフラインオンライン強化学習法 RLSynC を開発した。 rlsyncは1つのエージェントを各シントンに割り当て、それぞれが同期した方法でアクションをステップバイステップで実行することでシントンを完了する。 RLSynCはオフライントレーニングエピソードとオンラインインタラクションの両方からポリシーを学び、RSynCは新しい反応空間を探索する。 RLSynCは、生成物を合成する際に予測された反応物質の可能性を評価するために前方合成モデルを使用し、したがって作用探索を導く。 RLSynCと最先端の逆合成法を比較した。 実験の結果, RLSynCはこれらの手法よりも14.9%, レトロ合成では14.0%向上し, 合成計画におけるその可能性を強調した。

Retrosynthesis is the process of determining the set of reactant molecules that can react to form a desired product. Semi-template-based retrosynthesis methods, which imitate the reverse logic of synthesis reactions, first predict the reaction centers in the products, and then complete the resulting synthons back into reactants. These methods enable necessary interpretability and high practical utility to inform synthesis planning. We develop a new offline-online reinforcement learning method RLSynC for synthon completion in semi-template-based methods. RLSynC assigns one agent to each synthon, all of which complete the synthons by conducting actions step by step in a synchronized fashion. RLSynC learns the policy from both offline training episodes and online interactions which allow RLSynC to explore new reaction spaces. RLSynC uses a forward synthesis model to evaluate the likelihood of the predicted reactants in synthesizing a product, and thus guides the action search. We compare RLSynC with the state-of-the-art retrosynthesis methods. Our experimental results demonstrate that RLSynC can outperform these methods with improvement as high as 14.9% on synthon completion, and 14.0% on retrosynthesis, highlighting its potential in synthesis planning.
翻訳日:2023-10-18 03:39:36 公開日:2023-10-16
# 逐次的デクスタリティ:ロングホリゾン操作のためのデクスタラスポリシーの連鎖

Sequential Dexterity: Chaining Dexterous Policies for Long-Horizon Manipulation ( http://arxiv.org/abs/2309.00987v2 )

ライセンス: Link先を確認
Yuanpei Chen, Chen Wang, Li Fei-Fei, C. Karen Liu(参考訳) 多くの実世界の操作タスクは、互いに著しく異なる一連のサブタスクで構成される。 このような長いホリゾンの複雑なタスクは、適応性と汎用性を持ち、再グラッピングや外部ツールの必要なく、異なるモードの機能をシームレスに切り替えることができるデクスタラスハンドの可能性を浮き彫りにしている。 しかし、この課題は、デキスタラスハンドの高次元の作用空間と、長い水平タスクの複雑な構成力学によって生じる。 本稿では,強化学習(rl)に基づく汎用システムである逐次的デクスタリティ(sequential dexterity)を提案する。 システムのコアは、チェーン成功率を高めるためにサブポリティシーを段階的に微調整するトランジッション実現機能であると同時に、障害からの回復のための自律的なポリシー切り替えと冗長なステージのバイパスを可能にする。 数個のタスクオブジェクトのシミュレーションでしか訓練されていないにもかかわらず、システムは新しいオブジェクト形状への一般化能力を示し、デクスタースハンドを装備した実世界ロボットへのゼロショット転送を可能にする。 コードとビデオはhttps://sequential-dexterity.github.ioで入手できる。

Many real-world manipulation tasks consist of a series of subtasks that are significantly different from one another. Such long-horizon, complex tasks highlight the potential of dexterous hands, which possess adaptability and versatility, capable of seamlessly transitioning between different modes of functionality without the need for re-grasping or external tools. However, the challenges arise due to the high-dimensional action space of dexterous hand and complex compositional dynamics of the long-horizon tasks. We present Sequential Dexterity, a general system based on reinforcement learning (RL) that chains multiple dexterous policies for achieving long-horizon task goals. The core of the system is a transition feasibility function that progressively finetunes the sub-policies for enhancing chaining success rate, while also enables autonomous policy-switching for recovery from failures and bypassing redundant stages. Despite being trained only in simulation with a few task objects, our system demonstrates generalization capability to novel object shapes and is able to zero-shot transfer to a real-world robot equipped with a dexterous hand. Code and videos are available at https://sequential-dexterity.github.io
翻訳日:2023-10-18 03:38:42 公開日:2023-10-16
# 微分ゲーム, 最適制御, エネルギーベースモデルによるマルチエージェント相互作用の関連について

On a Connection between Differential Games, Optimal Control, and Energy-based Models for Multi-Agent Interactions ( http://arxiv.org/abs/2308.16539v2 )

ライセンス: Link先を確認
Christopher Diehl and Tobias Klosek and Martin Kr\"uger and Nils Murzyn and Torsten Bertram(参考訳) ゲーム理論は多エージェント相互作用をモデル化するための解釈可能な数学的枠組みを提供する。 しかし、現実世界のロボット応用への適用性は、未知のエージェントの好みや目標など、いくつかの課題によって妨げられている。 これらの課題に対処するために, 微分ゲーム, 最適制御, エネルギーベースモデルとの関係を示し, 提案するエネルギーベースのポテンシャルゲーム定式化の下で既存のアプローチをどのように統一できるかを実証する。 この定式化に基づいて、本研究では、ゲームパラメータ推論のためのニューラルネットワークと、インダクティブバイアスとして働く微分可能ゲーム理論最適化層を組み合わせた、新しいエンドツーエンド学習アプリケーションを紹介する。 シミュレーションされた移動ロボット歩行者インタラクションと実世界の自動運転データを用いた実験は、ゲーム理論層が様々なニューラルネットワークバックボーンの予測性能を向上させることを示す実証的証拠を提供する。

Game theory offers an interpretable mathematical framework for modeling multi-agent interactions. However, its applicability in real-world robotics applications is hindered by several challenges, such as unknown agents' preferences and goals. To address these challenges, we show a connection between differential games, optimal control, and energy-based models and demonstrate how existing approaches can be unified under our proposed Energy-based Potential Game formulation. Building upon this formulation, this work introduces a new end-to-end learning application that combines neural networks for game-parameter inference with a differentiable game-theoretic optimization layer, acting as an inductive bias. The experiments using simulated mobile robot pedestrian interactions and real-world automated driving data provide empirical evidence that the game-theoretic layer improves the predictive performance of various neural network backbones.
翻訳日:2023-10-18 03:38:15 公開日:2023-10-16
# decode: 拡張畳み込みニューラルネットワークによる極大比吸気の検出

DECODE: DilatEd COnvolutional neural network for Detecting Extreme-mass-ratio inspirals ( http://arxiv.org/abs/2308.16422v2 )

ライセンス: Link先を確認
Tianyu Zhao, Yue Zhou, Ruijun Shi, Zhoujian Cao, Zhixiang Ren(参考訳) EMRI(Extreme Mass Ratio Inspirals)の検出は、複雑な波形、持続時間、SNR(low signal-to-noise ratio)によって複雑化しており、コンパクトなバイナリコリゾネッセンスと比較して識別が困難である。 マッチングフィルタリングに基づく手法は計算要求で知られているが、既存のディープラーニングベースの手法は主に時間領域のデータを扱うものであり、データ持続時間やSNRによって制約されることが多い。 加えて、既存のほとんどの研究は時間遅延干渉法(TDI)を無視し、検出器応答計算に長波長近似を適用し、レーザー周波数ノイズを処理する能力を制限する。 本研究では,周波数領域におけるシーケンスモデリングによるEMRI信号検出に着目したエンドツーエンドモデルDECODEを提案する。 拡張された因果畳み込みニューラルネットワークを中心に、TDI-1.5検出応答を考慮した合成データに基づいてトレーニングされたDECODEは、約50のSNRで1年分のマルチチャネルTDIデータを効率的に処理することができる。 50~120のsnrを蓄積した1年間のデータからモデルを評価し,偽陽性率1%で96.3%の真陽性率を達成し,0.01秒未満の推測時間を保った。 解釈可能性と一般化のための3つのEMRI信号の可視化により、DECODEは将来の宇宙ベースの重力波データ解析に強い可能性を示す。

The detection of Extreme Mass Ratio Inspirals (EMRIs) is intricate due to their complex waveforms, extended duration, and low signal-to-noise ratio (SNR), making them more challenging to be identified compared to compact binary coalescences. While matched filtering-based techniques are known for their computational demands, existing deep learning-based methods primarily handle time-domain data and are often constrained by data duration and SNR. In addition, most existing work ignores time-delay interferometry (TDI) and applies the long-wavelength approximation in detector response calculations, thus limiting their ability to handle laser frequency noise. In this study, we introduce DECODE, an end-to-end model focusing on EMRI signal detection by sequence modeling in the frequency domain. Centered around a dilated causal convolutional neural network, trained on synthetic data considering TDI-1.5 detector response, DECODE can efficiently process a year's worth of multichannel TDI data with an SNR of around 50. We evaluate our model on 1-year data with accumulated SNR ranging from 50 to 120 and achieve a true positive rate of 96.3% at a false positive rate of 1%, keeping an inference time of less than 0.01 seconds. With the visualization of three showcased EMRI signals for interpretability and generalization, DECODE exhibits strong potential for future space-based gravitational wave data analyses.
翻訳日:2023-10-18 03:37:32 公開日:2023-10-16
# 製品状態 量子$p$-spinモデルを大きな$p$で最適化する

Product states optimize quantum $p$-spin models for large $p$ ( http://arxiv.org/abs/2309.11709v2 )

ライセンス: Link先を確認
Eric R. Anschuetz, David Gamarnik, Bobak T. Kiani(参考訳) 我々は、広く研究されている古典的スピングラスモデルの量子アナログである量子$p$局所スピングラスランダムハミルトニアンの最大エネルギーを推定する問題を考える。 E^*(p)$(適切な正規化)極大エネルギーを多数の量子ビットの極限の$n$で表すと、$E^*(p)$ approach $\sqrt{2\log 6}$が$p$の増加として現れる。 この値は、古典的なスピングラスの設定において広く研究されている、非常に単純な「ランダムエネルギーモデル」の最大エネルギーとして解釈される。 我々の最も顕著で(間違いなく)驚くべき結果は、生成状態であり、従って絡み合っていない準最大エネルギー状態の存在を証明している。 特に、任意の $e<e^*(p)$ に対して、高い確率で $n\to\infty$ とすると、十分な大きな定数 $p$ で、エネルギー $\geq e$ を持つ積状態が存在することが証明される。 さらに驚くべきことに、ポーリ固有状態のテンソル積に制限しても、これは事実である。 私たちの近似は、モノガミー・オブ・アングルメントスタイルの引数から知られているものを超えています -- この正規化において、最もよいのは、$n$で近似誤差が増大することです。 我々の結果は、ランダムな局所ハミルトニアンの極低温状態が無視できない絡み合いを示すべきという物理学における一般的な信念に挑戦するだけでなく、古典的なアルゴリズムは、大きな局所性を持つハミルトニアンを最適化する量子アルゴリズムと同じくらい効果的であることを示す。 この結果はランダム性(不規則性)の選択に関して頑健であり、リンデバーグの補間法を用いてスパースランダムハミルトニアンの場合に適用できる。 主結果の証明は、関連する分割関数の期待されるトレースを推定し、その漸近性と積状態の極値エネルギーを第2モーメント法を用いて一致させることによって得られる。

We consider the problem of estimating the maximal energy of quantum $p$-local spin glass random Hamiltonians, the quantum analogues of widely studied classical spin glass models. Denoting by $E^*(p)$ the (appropriately normalized) maximal energy in the limit of a large number of qubits $n$, we show that $E^*(p)$ approaches $\sqrt{2\log 6}$ as $p$ increases. This value is interpreted as the maximal energy of a much simpler so-called Random Energy Model, widely studied in the setting of classical spin glasses. Our most notable and (arguably) surprising result proves the existence of near-maximal energy states which are product states, and thus not entangled. Specifically, we prove that with high probability as $n\to\infty$, for any $E<E^*(p)$ there exists a product state with energy $\geq E$ at sufficiently large constant $p$. Even more surprisingly, this remains true even when restricting to tensor products of Pauli eigenstates. Our approximations go beyond what is known from monogamy-of-entanglement style arguments -- the best of which, in this normalization, achieve approximation error growing with $n$. Our results not only challenge prevailing beliefs in physics that extremely low-temperature states of random local Hamiltonians should exhibit non-negligible entanglement, but they also imply that classical algorithms can be just as effective as quantum algorithms in optimizing Hamiltonians with large locality -- though performing such optimization is still likely a hard problem. Our results are robust with respect to the choice of the randomness (disorder) and apply to the case of sparse random Hamiltonian using Lindeberg's interpolation method. The proof of the main result is obtained by estimating the expected trace of the associated partition function, and then matching its asymptotics with the extremal energy of product states using the second moment method.
翻訳日:2023-10-18 03:31:18 公開日:2023-10-16
# 金ヨーロ:ゲザ・アンド・ディストビュート機構による効率的な物体検出装置

Gold-YOLO: Efficient Object Detector via Gather-and-Distribute Mechanism ( http://arxiv.org/abs/2309.11331v4 )

ライセンス: Link先を確認
Chengcheng Wang, Wei He, Ying Nie, Jianyuan Guo, Chuanjian Liu, Kai Han, Yunhe Wang(参考訳) 近年, リアルタイム物体検出の分野における主要なアプローチとして, YOLOシリーズモデルが登場している。 多くの研究が、アーキテクチャを変更し、データを増やし、新しい損失を設計することで、ベースラインをより高いレベルに押し上げた。 しかし,従来モデルでは,機能ピラミッドネットワーク (fpn) とパスアグリゲーションネットワーク (panet) がこれを緩和しているが,情報融合問題に苦しんでいる。 そこで本研究では,畳み込みと自己アテンション操作によって実現される高度な集合分散機構(gd)機構を提案する。 この新しい設計モデルはGold-YOLOと呼ばれ、マルチスケールの機能融合能力を高め、すべてのモデルスケールでレイテンシと精度の理想的なバランスを実現する。 さらに, YOLOシリーズにMAEスタイルの事前トレーニングを初めて実装し, YOLOシリーズモデルが教師なし事前トレーニングの恩恵を受けられるようにした。 Gold-YOLO-Nは、COCO val2017データセットで39.9%のAP、T4 GPUで1030 FPSを達成した。 PyTorchコードはhttps://github.com/huawei-noah/Efficient-Computing/tree/master/detection/Gold-YOLOで、MindSporeコードはhttps://gitee.com/mindspore/models/tree/master/research/cv/Gold_YOLOで入手できる。

In the past years, YOLO-series models have emerged as the leading approaches in the area of real-time object detection. Many studies pushed up the baseline to a higher level by modifying the architecture, augmenting data and designing new losses. However, we find previous models still suffer from information fusion problem, although Feature Pyramid Network (FPN) and Path Aggregation Network (PANet) have alleviated this. Therefore, this study provides an advanced Gatherand-Distribute mechanism (GD) mechanism, which is realized with convolution and self-attention operations. This new designed model named as Gold-YOLO, which boosts the multi-scale feature fusion capabilities and achieves an ideal balance between latency and accuracy across all model scales. Additionally, we implement MAE-style pretraining in the YOLO-series for the first time, allowing YOLOseries models could be to benefit from unsupervised pretraining. Gold-YOLO-N attains an outstanding 39.9% AP on the COCO val2017 datasets and 1030 FPS on a T4 GPU, which outperforms the previous SOTA model YOLOv6-3.0-N with similar FPS by +2.4%. The PyTorch code is available at https://github.com/huawei-noah/Efficient-Computing/tree/master/Detection/Gold-YOLO, and the MindSpore code is available at https://gitee.com/mindspore/models/tree/master/research/cv/Gold_YOLO.
翻訳日:2023-10-18 03:30:39 公開日:2023-10-16
# ラベルなし3次元セグメンテーションのためのクロスモーダルおよびクロスドメイン知識伝達

Cross-modal and Cross-domain Knowledge Transfer for Label-free 3D Segmentation ( http://arxiv.org/abs/2309.10649v2 )

ライセンス: Link先を確認
Jingyu Zhang, Huitong Yang, Dai-Jie Wu, Jacky Keung, Xuesong Li, Xinge Zhu, Yuexin Ma(参考訳) 現在の最先端のクラウドベースの知覚手法は通常、高価な手動アノテーションを必要とする大規模なラベル付きデータに依存している。 自然な選択肢は、3D知覚タスクの教師なし方法論を検討することである。 しかし、このような手法は、しばしばパフォーマンスの低下に悩まされる。 幸いなことに、画像ベースのデータセットが多数存在し、2D画像の知識を3Dポイントクラウドに転送する代替案が提案できることがわかった。 具体的には,画像とポイントクラウドの関係を十分に検討し,効果的な機能アライメント戦略を設計することにより,クロスモーダルおよびクロスドメイン適応タスクに挑戦する新しいアプローチを提案する。 3dラベルがなければ,既存の教師なしおよび弱い教師付きベースラインと比較して,kitti360とgta5の知識を用いて,semantickitti上の3d point cloudセマンティックセグメンテーションの最先端性能を実現する。

Current state-of-the-art point cloud-based perception methods usually rely on large-scale labeled data, which requires expensive manual annotations. A natural option is to explore the unsupervised methodology for 3D perception tasks. However, such methods often face substantial performance-drop difficulties. Fortunately, we found that there exist amounts of image-based datasets and an alternative can be proposed, i.e., transferring the knowledge in the 2D images to 3D point clouds. Specifically, we propose a novel approach for the challenging cross-modal and cross-domain adaptation task by fully exploring the relationship between images and point clouds and designing effective feature alignment strategies. Without any 3D labels, our method achieves state-of-the-art performance for 3D point cloud semantic segmentation on SemanticKITTI by using the knowledge of KITTI360 and GTA5, compared to existing unsupervised and weakly-supervised baselines.
翻訳日:2023-10-18 03:29:42 公開日:2023-10-16
# PixArt-$\alpha$:フォトリアリスティックテキスト・画像合成のための拡散変換器の高速訓練

PixArt-$\alpha$: Fast Training of Diffusion Transformer for Photorealistic Text-to-Image Synthesis ( http://arxiv.org/abs/2310.00426v2 )

ライセンス: Link先を確認
Junsong Chen, Jincheng Yu, Chongjian Ge, Lewei Yao, Enze Xie, Yue Wu, Zhongdao Wang, James Kwok, Ping Luo, Huchuan Lu, Zhenguo Li(参考訳) 最も先進的なテキスト・ツー・イメージ(T2I)モデルでは、膨大なトレーニングコスト(GPU時間など)が必要であり、AIGCコミュニティの根本的な革新を著しく妨げつつ、CO2排出量を増大させる。 本稿では,最新の画像生成装置 (imagen, sdxl, midjourney など) と画像生成品質が競合するトランスフォーマチックなt2i拡散モデルpixart-$\alpha$について紹介する。 さらに、図1と2に示すように、トレーニングコストの低い1024pxまでの高解像度画像合成をサポートする。 To achieve this goal, three core designs are proposed: (1) Training strategy decomposition: We devise three distinct training steps that separately optimize pixel dependency, text-image alignment, and image aesthetic quality; (2) Efficient T2I Transformer: We incorporate cross-attention modules into Diffusion Transformer (DiT) to inject text conditions and streamline the computation-intensive class-condition branch; (3) High-informative data: We emphasize the significance of concept density in text-image pairs and leverage a large Vision-Language model to auto-label dense pseudo-captions to assist text-image alignment learning. その結果、PIXART-$\alpha$のトレーニング速度は既存の大規模T2Iモデルを大きく上回り、例えば、PIXART-$\alpha$は安定拡散v1.5のトレーニング時間(675対6,250 A100 GPU日)の10.8%しか必要とせず、300,000ドル近く節約でき(26,000対320,000ドル)、90%のCO2排出量を削減できる。 さらに、より大きなSOTAモデルであるRAPHAELと比較して、トレーニングコストは1%に過ぎません。 大規模な実験により、PIXART-$\alpha$は画質、芸術性、セマンティックコントロールに優れていた。 PIXART-$\alpha$はAIGCコミュニティとスタートアップに新たな洞察を与えて、高品質で低コストな生成モデルをスクラッチから構築することを願っている。

The most advanced text-to-image (T2I) models require significant training costs (e.g., millions of GPU hours), seriously hindering the fundamental innovation for the AIGC community while increasing CO2 emissions. This paper introduces PIXART-$\alpha$, a Transformer-based T2I diffusion model whose image generation quality is competitive with state-of-the-art image generators (e.g., Imagen, SDXL, and even Midjourney), reaching near-commercial application standards. Additionally, it supports high-resolution image synthesis up to 1024px resolution with low training cost, as shown in Figure 1 and 2. To achieve this goal, three core designs are proposed: (1) Training strategy decomposition: We devise three distinct training steps that separately optimize pixel dependency, text-image alignment, and image aesthetic quality; (2) Efficient T2I Transformer: We incorporate cross-attention modules into Diffusion Transformer (DiT) to inject text conditions and streamline the computation-intensive class-condition branch; (3) High-informative data: We emphasize the significance of concept density in text-image pairs and leverage a large Vision-Language model to auto-label dense pseudo-captions to assist text-image alignment learning. As a result, PIXART-$\alpha$'s training speed markedly surpasses existing large-scale T2I models, e.g., PIXART-$\alpha$ only takes 10.8% of Stable Diffusion v1.5's training time (675 vs. 6,250 A100 GPU days), saving nearly \$300,000 (\$26,000 vs. \$320,000) and reducing 90% CO2 emissions. Moreover, compared with a larger SOTA model, RAPHAEL, our training cost is merely 1%. Extensive experiments demonstrate that PIXART-$\alpha$ excels in image quality, artistry, and semantic control. We hope PIXART-$\alpha$ will provide new insights to the AIGC community and startups to accelerate building their own high-quality yet low-cost generative models from scratch.
翻訳日:2023-10-18 03:19:09 公開日:2023-10-16
# IBM最大の量子プロセッサの効率的なテンソルネットワークシミュレーション

Efficient tensor network simulation of IBM's largest quantum processors ( http://arxiv.org/abs/2309.15642v2 )

ライセンス: Link先を確認
Siddhartha Patra, Saeed S. Jahromi, Sukhbinder Singh, Roman Orus(参考訳) 量子インスパイアされた2dテンソルネットワークを用いて、ibmの最大の量子プロセッサであるeagle (127 qubits)、osprey (433 qubits)、condor (1121 qubits)を効率的に正確にシミュレートする方法を示す。 我々は、複雑な量子多体系の力学をシミュレートする -- 特に、IBMが最近Nature 618, p. 500-505 (2023)で検討したキックドイジング実験は、グラフベースの射影エンタングルドペアステート(gPEPS)を使用しており、PRB 99, 195105 (2019)で提案されている。 以上の結果から, 単純なテンソル更新は, 計算資源を極端に少なくして, 極めて大きな精度を実現するのに十分であることが示唆された。 127量子ビットの当初の実験をシミュレートすることとは別に、その結果を433量子ビットと1121量子ビットに拡張し、進化の時間を約8倍長くすることで、最新のIBM量子マシンのベンチマークを設定します。 また、無限個の量子ビットの正確なシミュレーションを報告する。 その結果、gpepsは超伝導量子ビットに基づく全ての量子プロセッサのような格子ベースの量子ビット接続で量子コンピュータを効率的にシミュレートする自然なツールであることがわかった。

We show how quantum-inspired 2d tensor networks can be used to efficiently and accurately simulate the largest quantum processors from IBM, namely Eagle (127 qubits), Osprey (433 qubits) and Condor (1121 qubits). We simulate the dynamics of a complex quantum many-body system -- specifically, the kicked Ising experiment considered recently by IBM in Nature 618, p. 500-505 (2023) -- using graph-based Projected Entangled Pair States (gPEPS), which was proposed by some of us in PRB 99, 195105 (2019). Our results show that simple tensor updates are already sufficient to achieve very large unprecedented accuracy with remarkably low computational resources for this model. Apart from simulating the original experiment for 127 qubits, we also extend our results to 433 and 1121 qubits, and for evolution times around 8 times longer, thus setting a benchmark for the newest IBM quantum machines. We also report accurate simulations for infinitely-many qubits. Our results show that gPEPS are a natural tool to efficiently simulate quantum computers with an underlying lattice-based qubit connectivity, such as all quantum processors based on superconducting qubits.
翻訳日:2023-10-18 03:17:12 公開日:2023-10-16
# リモートセンシングのための建物を分割する

Segment Any Building For Remote Sensing ( http://arxiv.org/abs/2310.01164v2 )

ライセンス: Link先を確認
Lei Li(参考訳) リモートセンシング画像中の建物を識別・分断する作業は、学術調査の最前線に長年立っていた。 この原稿は、画像にセグメンテーションを構築するための最先端表現学習パラダイムを用いて、多様なデータセットをタンデムで活用する能力を示す。 異なるデータセットの戦略的アマルガメーションを通じて、モデルトレーニングに利用可能な情報水平線を拡張しただけでなく、複数のデータセットにまたがる非並列なパフォーマンス指標も示した。 我々の前衛合同訓練体制は, 都市インフラ整備, 防災戦略, 生態モニタリングなど, 重要な分野に重大な影響を及ぼし, アプローチのメリットを浮き彫りにしている。 我々の手法は、データセットの融合と事前訓練されたモデルからの洞察に基づくものであり、セグメンテーションの取り組みの成果に新しいベンチマークを彫っている。 この研究の成果は、学術的な追求に伴う基礎の強化と、建物区分の分野における革新的応用による地平線の形成の両方に寄与する。

The task of identifying and segmenting buildings within remote sensing imagery has perennially stood at the forefront of scholarly investigations. This manuscript accentuates the potency of harnessing diversified datasets in tandem with cutting-edge representation learning paradigms for building segmentation in such images. Through the strategic amalgamation of disparate datasets, we have not only expanded the informational horizon accessible for model training but also manifested unparalleled performance metrics across multiple datasets. Our avant-garde joint training regimen underscores the merit of our approach, bearing significant implications in pivotal domains such as urban infrastructural development, disaster mitigation strategies, and ecological surveillance. Our methodology, predicated upon the fusion of datasets and gleaning insights from pre-trained models, carves a new benchmark in the annals of building segmentation endeavors. The outcomes of this research both fortify the foundations for ensuing scholarly pursuits and presage a horizon replete with innovative applications in the discipline of building segmentation.
翻訳日:2023-10-18 03:09:09 公開日:2023-10-16
# 二重被覆に基づく符号なし距離場からのロバストゼロレベルセット抽出

Robust Zero Level-Set Extraction from Unsigned Distance Fields Based on Double Covering ( http://arxiv.org/abs/2310.03431v2 )

ライセンス: Link先を確認
Fei Hou, Xuhui Chen, Wencheng Wang, Hong Qin, Ying He(参考訳) 本論文では、符号なし距離場(UDF)からゼロレベルセットを抽出するDoubleCoverUDFと呼ばれる新しい手法を提案する。 doublecoverudfは、学習済みudfとユーザ指定パラメータ$r$(小さな正の実数)を入力として、従来のマーチングキューブアルゴリズムを使用してiso値$r$でiso-surfaceを抽出する。 計算されたアイソ曲面は、目標零レベルセット$S$の$r$オフセット体積の境界であることを示し、これは、$S$の位相によらず、向き付け可能な多様体である。 次に、アルゴリズムはカバーマップを計算して境界メッシュを$s$に投影し、メッシュのトポロジを保持し、折りたたみを回避する。 もし$S$が向き付け可能な多様体表面であれば、我々のアルゴリズムは二層メッシュをロバストな最小カット後処理ステップを用いて単一層に分離する。 そうでなければ、二重層メッシュを出力として保持する。 オープンモデルの3次元表面を再構成してアルゴリズムの有効性を検証し, 合成モデルやベンチマークデータセット上での有効性と有効性を示す。 実験の結果,本手法は頑健であり,既存のudf方式よりも視覚的評価と定量的測定の両面で,優れた品質を有するメッシュを生成できることが確認された。 ソースコードはhttps://github.com/jjjkkyz/DCUDFで入手できる。

In this paper, we propose a new method, called DoubleCoverUDF, for extracting the zero level-set from unsigned distance fields (UDFs). DoubleCoverUDF takes a learned UDF and a user-specified parameter $r$ (a small positive real number) as input and extracts an iso-surface with an iso-value $r$ using the conventional marching cubes algorithm. We show that the computed iso-surface is the boundary of the $r$-offset volume of the target zero level-set $S$, which is an orientable manifold, regardless of the topology of $S$. Next, the algorithm computes a covering map to project the boundary mesh onto $S$, preserving the mesh's topology and avoiding folding. If $S$ is an orientable manifold surface, our algorithm separates the double-layered mesh into a single layer using a robust minimum-cut post-processing step. Otherwise, it keeps the double-layered mesh as the output. We validate our algorithm by reconstructing 3D surfaces of open models and demonstrate its efficacy and effectiveness on synthetic models and benchmark datasets. Our experimental results confirm that our method is robust and produces meshes with better quality in terms of both visual evaluation and quantitative measures than existing UDF-based methods. The source code is available at https://github.com/jjjkkyz/DCUDF.
翻訳日:2023-10-18 02:58:30 公開日:2023-10-16
# 半教師型医用画像分割のための頭部相互学習

Cross-head mutual Mean-Teaching for semi-supervised medical image segmentation ( http://arxiv.org/abs/2310.05082v2 )

ライセンス: Link先を確認
Wei Li, Ruifeng Bian, Wenyi Zhao, Weijin Xu, Huihua Yang(参考訳) semi-supervised medical image segmentation (ssmis) は限定されたラベル付きデータと豊富なラベル付きデータを活用することで、かなりの進歩を遂げている。 それにもかかわらず、既存の最先端のSOTA(State-of-the-art)手法は、ラベルのないデータのラベルを正確に予測し、トレーニング中に破壊的なノイズを引き起こし、誤情報の過度な適合を生じさせる。 さらに、不正確な予測に摂動を適用することで、一貫した学習をさらに減らす。 これらの課題に対処するため, クロスヘッド相互学習ネットワーク(CMMT-Net)に強弱データ拡張を導入し, 自己学習と一貫性学習の両立を図った。 具体的には、cmmt-netは、共有エンコーダと2つのわずかに異なるデコーダを持つ教師間ピアネットワークからなり、一方の教師ヘッドが生成した擬似ラベルを用いて、他の学生ブランチを監督し、相互整合性を達成する。 さらに,決定境界の円滑化と特徴表現の強化を目的として,相互仮想敵訓練(mvat)を提案する。 一貫性のトレーニングサンプルを多様化するため,クロスセットカットミックス戦略を採用し,分散ミスマッチ問題にも対処した。 特に、CMMT-Netはデータ、特徴、ネットワークの摂動を同時に実装し、モデルの多様性と一般化性能を増幅する。 3つの公開データセットによる実験結果から,本手法は様々な半教師付きシナリオにまたがる従来のSOTA法よりも顕著に改善されていることが示唆された。 コードとログはhttps://github.com/Leesoon1984/CMMT-Net.comで入手できる。

Semi-supervised medical image segmentation (SSMIS) has witnessed substantial advancements by leveraging limited labeled data and abundant unlabeled data. Nevertheless, existing state-of-the-art (SOTA) methods encounter challenges in accurately predicting labels for the unlabeled data, giving rise to disruptive noise during training and susceptibility to erroneous information overfitting. Moreover, applying perturbations to inaccurate predictions further reduces consistent learning. To address these concerns, we propose a novel Cross-head mutual mean-teaching Network (CMMT-Net) incorporated strong-weak data augmentation, thereby benefitting both self-training and consistency learning. Specifically, our CMMT-Net consists of both teacher-student peer networks with a share encoder and dual slightly different decoders, and the pseudo labels generated by one mean teacher head are adopted to supervise the other student branch to achieve a mutual consistency. Furthermore, we propose mutual virtual adversarial training (MVAT) to smooth the decision boundary and enhance feature representations. To diversify the consistency training samples, we employ Cross-Set CutMix strategy, which also helps address distribution mismatch issues. Notably, CMMT-Net simultaneously implements data, feature, and network perturbations, amplifying model diversity and generalization performance. Experimental results on three publicly available datasets indicate that our approach yields remarkable improvements over previous SOTA methods across various semi-supervised scenarios. Code and logs will be available at https://github.com/Leesoon1984/CMMT-Net.
翻訳日:2023-10-18 02:48:12 公開日:2023-10-16
# 多段軸圧縮機空気力学における先端クリアランス変動の深層学習モデル

Deep learning modelling of tip clearance variations on multi-stage axial compressors aerodynamics ( http://arxiv.org/abs/2310.04264v2 )

ライセンス: Link先を確認
Giuseppe Bruni, Sepehr Maleki, Senthil K. Krishnababu(参考訳) CFD(Computational Fluid Dynamics)などの物理シミュレーションにおける深層学習法のターボ機械への応用は,産業的関連性に限界がある。 本稿では,ガスタービン用多段軸圧縮機の流動場および空力性能に及ぼす先端クリアランス変動の影響をリアルタイムに予測するための深層学習フレームワークの開発と応用について述べる。 提案するアーキテクチャは,産業アプリケーションにスケーラブルであることが証明されており,cfdベンチマークに匹敵するリアルタイム精度を実現している。 デプロイされたモデルは、ガスタービンの製造および製造プロセスに容易に統合され、パフォーマンスへの影響を分析的に評価し、高価な物理テストの要件を削減できる機会を提供する。

Application of deep learning methods to physical simulations such as CFD (Computational Fluid Dynamics) for turbomachinery applications, have been so far of limited industrial relevance. This paper demonstrates the development and application of a deep learning framework for real-time predictions of the impact of tip clearance variations on the flow field and aerodynamic performance of multi-stage axial compressors in gas turbines. The proposed architecture is proven to be scalable to industrial applications, and achieves in real-time accuracy comparable to the CFD benchmark. The deployed model, is readily integrated within the manufacturing and build process of gas turbines, thus providing the opportunity to analytically assess the impact on performance and potentially reduce requirements for expensive physical tests.
翻訳日:2023-10-18 02:47:33 公開日:2023-10-16
# 胎児 EPI MRI 時系列における胎盤分割の整合性正規化による改善

Consistency Regularization Improves Placenta Segmentation in Fetal EPI MRI Time Series ( http://arxiv.org/abs/2310.03870v2 )

ライセンス: Link先を確認
Yingcheng Liu, Neerav Karani, Neel Dey, S. Mazdak Abulnaga, Junshen Xu, P. Ellen Grant, Esra Abaci Turk, Polina Golland(参考訳) 胎盤は胎児の成長において重要な役割を担っている。 胎児 EPI MRI による3次元胎盤分割の自動化は出生前治療の進歩を約束する。 本稿では,胎児のEPI MRI時系列における胎盤分割を改善するための効果的な半教師付き学習法を提案する。 時系列における同一画像の空間的変換と近傍画像間の時間的一貫性の下での一貫性を促進する一貫性正規化損失を用いる。 実験結果から,本手法はセグメンテーション全体の精度が向上し,異常値やハードサンプルの性能が向上した。 また,本手法により予測の時間的コヒーレンシが向上し,時間的胎盤バイオマーカーの精度が向上する可能性が示唆された。 本研究は胎盤および出生前臨床決定に関する研究に寄与する。 コードはhttps://github.com/firstmover/cr-segで入手できる。

The placenta plays a crucial role in fetal development. Automated 3D placenta segmentation from fetal EPI MRI holds promise for advancing prenatal care. This paper proposes an effective semi-supervised learning method for improving placenta segmentation in fetal EPI MRI time series. We employ consistency regularization loss that promotes consistency under spatial transformation of the same image and temporal consistency across nearby images in a time series. The experimental results show that the method improves the overall segmentation accuracy and provides better performance for outliers and hard samples. The evaluation also indicates that our method improves the temporal coherency of the prediction, which could lead to more accurate computation of temporal placental biomarkers. This work contributes to the study of the placenta and prenatal clinical decision-making. Code is available at https://github.com/firstmover/cr-seg.
翻訳日:2023-10-18 02:46:39 公開日:2023-10-16
# MedSyn:高忠実度3DCT画像のテキスト誘導型解剖学的合成

MedSyn: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images ( http://arxiv.org/abs/2310.03559v3 )

ライセンス: Link先を確認
Yanwu Xu, Li Sun, Wei Peng, Kilian Pohl, Shyam Visweswaran, and Kayhan Batmanghelich(参考訳) 本稿では,テキスト情報を用いた高品質な3次元肺CT画像作成手法を提案する。 拡散に基づく生成モデルが医療画像にますます使われている一方で、現在の最先端のアプローチは低解像度の出力に限られており、放射線学レポートの豊富な情報を不活用している。 放射線レポートは、追加のガイダンスを提供し、画像合成のきめ細かい制御を提供することで、生成プロセスを強化することができる。 それでも、高解像度の3D画像へのテキスト誘導生成の拡大は、重要な記憶と解剖学的詳細保存の課題を引き起こす。 メモリ問題に対処するため,UNetアーキテクチャを改良した階層型スキームを導入する。 まず,テキストに条件づけられた低解像度画像を合成し,それに続くボリュームデータ生成の基盤として機能する。 生成した試料の解剖学的可溶性を確保するため,ct画像と連動して血管,気道,球状分節マスクを作製し,さらなる指導を行う。 このモデルは、テキスト入力とセグメンテーションタスクを使用して合成画像を生成する能力を示す。 比較評価の結果,ganおよび拡散法に基づく最も先進的なモデルと比較して,特に断裂線,気道,血管構造などの重要な解剖学的特徴を正確に保持する手法が優れていることが示された。 この革新は新しい可能性をもたらす。 本研究は,(1)文章的プロンプトと解剖学的要素に基づく画像作成手法の開発,(2)解剖学的要素を条件とした新たな画像生成機能の開発,という2つの目的に焦点を当てた。 画像生成の進歩は、多くの下流タスクを強化するために応用できる。

This paper introduces an innovative methodology for producing high-quality 3D lung CT images guided by textual information. While diffusion-based generative models are increasingly used in medical imaging, current state-of-the-art approaches are limited to low-resolution outputs and underutilize radiology reports' abundant information. The radiology reports can enhance the generation process by providing additional guidance and offering fine-grained control over the synthesis of images. Nevertheless, expanding text-guided generation to high-resolution 3D images poses significant memory and anatomical detail-preserving challenges. Addressing the memory issue, we introduce a hierarchical scheme that uses a modified UNet architecture. We start by synthesizing low-resolution images conditioned on the text, serving as a foundation for subsequent generators for complete volumetric data. To ensure the anatomical plausibility of the generated samples, we provide further guidance by generating vascular, airway, and lobular segmentation masks in conjunction with the CT images. The model demonstrates the capability to use textual input and segmentation tasks to generate synthesized images. The results of comparative assessments indicate that our approach exhibits superior performance compared to the most advanced models based on GAN and diffusion techniques, especially in accurately retaining crucial anatomical features such as fissure lines, airways, and vascular structures. This innovation introduces novel possibilities. This study focuses on two main objectives: (1) the development of a method for creating images based on textual prompts and anatomical components, and (2) the capability to generate new images conditioning on anatomical elements. The advancements in image generation can be applied to enhance numerous downstream tasks.
翻訳日:2023-10-18 02:46:25 公開日:2023-10-16
# プログレッシブ条件付き拡散モデルによるポーズ誘導画像合成

Advancing Pose-Guided Image Synthesis with Progressive Conditional Diffusion Models ( http://arxiv.org/abs/2310.06313v2 )

ライセンス: Link先を確認
Fei Shen, Hu Ye, Jun Zhang, Cong Wang, Xiao Han, Wei Yang(参考訳) 近年の研究では、ポーズ誘導人物画像合成における拡散モデルの有意な可能性を示している。 しかし、ソースイメージとターゲットイメージ間のポーズの不整合のため、ソースイメージとターゲットポーズ情報にのみ依存して、異なるポーズでイメージを合成することは深刻な課題である。 本稿では,ターゲット下の人物像とソースポーズのギャップを段階的に橋渡しするプログレッシブ条件拡散モデル(PCDM)を提案する。 具体的には,第1段階では,ポーズ座標と画像出現のグローバルアライメント関係をマイニングすることにより,対象画像の全体的特徴を予測する簡易事前条件拡散モデルを設計する。 そこで,第2段では,前段のグローバルな特徴を用いたソース画像とターゲット画像との密接な対応性を確立し,文脈的特徴をさらに整合させ,より粗い人物画像を生成するために,塗装条件拡散モデルを提案する。 第3段階では,前段からの粗い生成画像を条件として利用する精製条件拡散モデルを提案し,テクスチャ復元を実現し,細部整合性を向上させる。 3段階のPCDMは、最終的な高品質で高忠実な合成画像を生成するために徐々に機能する。 定性的かつ定量的な結果は、挑戦的なシナリオ下で提案したPCDMの一貫性とフォトリアリズムを示し、コードとモデルはhttps://github.com/muzishen/PCDMsで利用可能である。

Recent work has showcased the significant potential of diffusion models in pose-guided person image synthesis. However, owing to the inconsistency in pose between the source and target images, synthesizing an image with a distinct pose, relying exclusively on the source image and target pose information, remains a formidable challenge. This paper presents Progressive Conditional Diffusion Models (PCDMs) that incrementally bridge the gap between person images under the target and source poses through three stages. Specifically, in the first stage, we design a simple prior conditional diffusion model that predicts the global features of the target image by mining the global alignment relationship between pose coordinates and image appearance. Then, the second stage establishes a dense correspondence between the source and target images using the global features from the previous stage, and an inpainting conditional diffusion model is proposed to further align and enhance the contextual features, generating a coarse-grained person image. In the third stage, we propose a refining conditional diffusion model to utilize the coarsely generated image from the previous stage as a condition, achieving texture restoration and enhancing fine-detail consistency. The three-stage PCDMs work progressively to generate the final high-quality and high-fidelity synthesized image. Both qualitative and quantitative results demonstrate the consistency and photorealism of our proposed PCDMs under challenging scenarios.The code and model will be available at https://github.com/muzishen/PCDMs.
翻訳日:2023-10-18 02:37:42 公開日:2023-10-16
# DiffuSeq-v2: 加速されたSeq2Seq拡散モデルのための離散と連続テキスト空間

DiffuSeq-v2: Bridging Discrete and Continuous Text Spaces for Accelerated Seq2Seq Diffusion Models ( http://arxiv.org/abs/2310.05793v2 )

ライセンス: Link先を確認
Shansan Gong, Mukai Li, Jiangtao Feng, Zhiyong Wu, Lingpeng Kong(参考訳) 拡散モデルは高品質なテキスト列を生成する際に顕著になった。 しかしながら、現在のアプローチは、主に連続拡散空間内の離散テキストを表現しており、トレーニング中にかなりの計算オーバーヘッドが発生し、サンプリング速度が遅くなる。 本稿では,基礎となるガウス空間に基づいて離散的突然変異を再構成し,条件信号の復元能力を高めるために,拡散モデルを容易にするソフト吸収状態を提案する。 サンプリングフェーズでは,サンプリングプロセスの高速化のために,連続空間内で最先端のODEソルバを用いる。 包括的実験により,提案手法は4倍の収束を効果的に促進し,同様の品質の試料を800倍高速に生成し,実用化にかなり近づいた。 \footnote{The code is released at \url{https://github.com/Shark-NLP/DiffuSeq}

Diffusion models have gained prominence in generating high-quality sequences of text. Nevertheless, current approaches predominantly represent discrete text within a continuous diffusion space, which incurs substantial computational overhead during training and results in slower sampling speeds. In this paper, we introduce a soft absorbing state that facilitates the diffusion model in learning to reconstruct discrete mutations based on the underlying Gaussian space, thereby enhancing its capacity to recover conditional signals. During the sampling phase, we employ state-of-the-art ODE solvers within the continuous space to expedite the sampling process. Comprehensive experimental evaluations reveal that our proposed method effectively accelerates the training convergence by 4x and generates samples of similar quality 800x faster, rendering it significantly closer to practical application. \footnote{The code is released at \url{https://github.com/Shark-NLP/DiffuSeq}
翻訳日:2023-10-18 02:37:17 公開日:2023-10-16
# スパースビューを用いた神経表面再構成のための幾何誘導線増補法

Geometry-Guided Ray Augmentation for Neural Surface Reconstruction with Sparse Views ( http://arxiv.org/abs/2310.05483v2 )

ライセンス: Link先を確認
Jiawei Yao and Tong Wu(参考訳) 本稿では,スパース多視点画像からの3次元シーンとオブジェクト再構成の新たな手法を提案する。 シーン間の奥行きや一般化などの付加的な情報を利用する従来の方法とは異なり,マルチビュー入力に埋め込まれたシーンプロパティを活用して,事前のトレーニングなしに最適化のための正確な擬似ラベルを作成する。 具体的には,球面高調波を利用して新しい放射能を予測し,シーン内の点に対するすべての色観測を確率的に考慮しながら,疎視による表面再構成精度を向上させる幾何誘導手法を提案する。 また,このパイプラインはプロキシジオメトリを活用し,従来の画像ウォーピング手法では回避できなかった放射能の擬似ラベルを生成する際に,オクルージョンを正しく処理する。 Ray Augmentation (RayAug) と呼ばれるこの手法は、事前トレーニングを必要とせず、DTUおよびBlenderデータセット上で優れた結果を得ることができ、スパースビュー再構成の問題に対処する効果を実証することができる。 私たちのパイプラインは柔軟で、スパースビューのための他の暗黙的な神経再構成方法に統合できます。

In this paper, we propose a novel method for 3D scene and object reconstruction from sparse multi-view images. Different from previous methods that leverage extra information such as depth or generalizable features across scenes, our approach leverages the scene properties embedded in the multi-view inputs to create precise pseudo-labels for optimization without any prior training. Specifically, we introduce a geometry-guided approach that improves surface reconstruction accuracy from sparse views by leveraging spherical harmonics to predict the novel radiance while holistically considering all color observations for a point in the scene. Also, our pipeline exploits proxy geometry and correctly handles the occlusion in generating the pseudo-labels of radiance, which previous image-warping methods fail to avoid. Our method, dubbed Ray Augmentation (RayAug), achieves superior results on DTU and Blender datasets without requiring prior training, demonstrating its effectiveness in addressing the problem of sparse view reconstruction. Our pipeline is flexible and can be integrated into other implicit neural reconstruction methods for sparse views.
翻訳日:2023-10-18 02:35:50 公開日:2023-10-16
# ラテント合成による効率的なテキストデータ利用によるエンドツーエンド音声処理の改善

Improving End-to-End Speech Processing by Efficient Text Data Utilization with Latent Synthesis ( http://arxiv.org/abs/2310.05374v2 )

ライセンス: Link先を確認
Jianqiao Lu, Wenyong Huang, Nianzu Zheng, Xingshan Zeng, Yu Ting Yeung, Xiao Chen(参考訳) 高性能なエンドツーエンド音声(E2E)処理モデルを訓練するには、特にデータ中心人工知能の時代において、大量のラベル付き音声データが必要となる。 しかし、ラベル付き音声データは通常、テキストデータに比べて、収集が困難で費用がかかる。 E2E音声処理モデルのための効率的なテキストデータ利用フレームワークLaSynを提案する。 我々は、テキストデータを事前訓練された音声モデルの中間潜在表現に変換するために、潜在合成器を訓練する。 テキストデータの擬似音響表現は、モデルトレーニングのための音響データを増強する。 我々は,低リソース自動音声認識(ASR)と音声言語理解(SLU)タスクにおけるLaSynの評価を行った。 ASRでは、LibriSpeechトレインクリーン100で訓練されたE2Eベースラインを改善し、異なるテストセットで単語エラー率を22.3%以上削減した。 SLUでは,SLURP上でのSLU-F1の絶対4.1%,SLURP上でのスロット充填SLU-F1の絶対4.49%,STOP上でのEMとEM-Treeの精度2.25%でE2Eベースラインを改善した。 パラメータが少なければ、LaSynの結果は出版されている最先端の作品と競合する。 その結果,強化トレーニングデータの品質が示された。 ソースコードはコミュニティで入手できる。

Training a high performance end-to-end speech (E2E) processing model requires an enormous amount of labeled speech data, especially in the era of data-centric artificial intelligence. However, labeled speech data are usually scarcer and more expensive for collection, compared to textual data. We propose Latent Synthesis (LaSyn), an efficient textual data utilization framework for E2E speech processing models. We train a latent synthesizer to convert textual data into an intermediate latent representation of a pre-trained speech model. These pseudo acoustic representations of textual data augment acoustic data for model training. We evaluate LaSyn on low-resource automatic speech recognition (ASR) and spoken language understanding (SLU) tasks. For ASR, LaSyn improves an E2E baseline trained on LibriSpeech train-clean-100, with relative word error rate reductions over 22.3% on different test sets. For SLU, LaSyn improves our E2E baseline by absolute 4.1% for intent classification accuracy and 3.8% for slot filling SLU-F1 on SLURP, and absolute 4.49% and 2.25% for exact match (EM) and EM-Tree accuracies on STOP respectively. With fewer parameters, the results of LaSyn are competitive to published state-of-the-art works. The results demonstrate the quality of the augmented training data. The source code will be available to the community.
翻訳日:2023-10-18 02:34:58 公開日:2023-10-16
# LLM4Vis: ChatGPTを用いた説明可能な可視化レコメンデーション

LLM4Vis: Explainable Visualization Recommendation using ChatGPT ( http://arxiv.org/abs/2310.07652v2 )

ライセンス: Link先を確認
Lei Wang, Songheng Zhang, Yun Wang, Ee-Peng Lim, Yong Wang(参考訳) データ可視化は、さまざまな領域の洞察を探索し、伝達するための強力なツールである。 データセットの可視化選択を自動化するために、可視化レコメンデーションと呼ばれるタスクが提案されている。 この目的のために様々な機械学習ベースのアプローチが開発されているが、トレーニングには大量のデータセットと視覚のペアが必要であり、結果に自然な説明が欠けていることが多い。 この研究ギャップに対処するために,我々は,ChatGPTをベースとした新しいプロンプトアプローチであるLSM4Visを提案し,ごく少数の実演例を用いて,可視化レコメンデーションを行い,人間的な説明を返す。 提案手法は,特徴記述,実演例選択,説明生成,実演例構築,推論ステップを含む。 高品質な説明を伴う実演例を得るために,前世代とテンプレートに基づくヒントを考慮し,反復的に説明を洗練するための説明生成ブートストラップを提案する。 VizMLデータセットの評価によると、LLM4Visはランダムフォレスト、決定木、MLPといった教師付き学習モデルと、少数ショットとゼロショットの両方の設定で比較または類似して動作する。 また,LLM4Visによる説明の有効性についても定性評価を行った。 当社のコードは、 \href{https://github.com/demoleiwang/LLM4Vis}{https://github.com/demoleiwang/LLM4Vis} で公開しています。

Data visualization is a powerful tool for exploring and communicating insights in various domains. To automate visualization choice for datasets, a task known as visualization recommendation has been proposed. Various machine-learning-based approaches have been developed for this purpose, but they often require a large corpus of dataset-visualization pairs for training and lack natural explanations for their results. To address this research gap, we propose LLM4Vis, a novel ChatGPT-based prompting approach to perform visualization recommendation and return human-like explanations using very few demonstration examples. Our approach involves feature description, demonstration example selection, explanation generation, demonstration example construction, and inference steps. To obtain demonstration examples with high-quality explanations, we propose a new explanation generation bootstrapping to iteratively refine generated explanations by considering the previous generation and template-based hint. Evaluations on the VizML dataset show that LLM4Vis outperforms or performs similarly to supervised learning models like Random Forest, Decision Tree, and MLP in both few-shot and zero-shot settings. The qualitative evaluation also shows the effectiveness of explanations generated by LLM4Vis. We make our code publicly available at \href{https://github.com/demoleiwang/LLM4Vis}{https://github.com/demoleiwang/LLM4Vis}.
翻訳日:2023-10-18 02:29:46 公開日:2023-10-16
# 異なる空間スケールの気象地図を用いたパリにおけるヘイズ発生予測のための分岐型深層畳み込みネットワーク

A Branched Deep Convolutional Network for Forecasting the Occurrence of Hazes in Paris using Meteorological Maps with Different Characteristic Spatial Scales ( http://arxiv.org/abs/2310.07437v2 )

ライセンス: Link先を確認
Chien Wang(参考訳) 低可視性イベントやヘイズの発生を予測するために,ディープラーニングプラットフォームが開発された。 様々な気象・水文変数の多次元日次地域地図を入力特徴として、表面視認性観測を目標として訓練する。 異なる入力特徴の空間情報を訓練用として保存するため,パリ・ハゼの場合の2つの分岐アーキテクチャが最近開発された。 これらの新しいアーキテクチャはネットワークのパフォーマンスを改善し、トレーニングや検証に使われていない2021年と2022年のデータを使用して、検証とブラインド予測の両方で合理的なスコアを生み出した。

A deep learning platform has been developed to forecast the occurrence of the low visibility events or hazes. It is trained by using multi-decadal daily regional maps of various meteorological and hydrological variables as input features and surface visibility observations as the targets. To better preserve the characteristic spatial information of different input features for training, two branched architectures have recently been developed for the case of Paris hazes. These new architectures have improved the performance of the network, producing reasonable scores in both validation and a blind forecasting evaluation using the data of 2021 and 2022 that have not been used in the training and validation.
翻訳日:2023-10-18 02:29:22 公開日:2023-10-16
# 転送学習のための自己教師付きデータセット蒸留

Self-Supervised Dataset Distillation for Transfer Learning ( http://arxiv.org/abs/2310.06511v2 )

ライセンス: Link先を確認
Dong Bok Lee, Seanie Lee, Joonho Ko, Kenji Kawaguchi, Juho Lee, Sung Ju Hwang(参考訳) データセット蒸留法は、大規模なデータセットを少数の代表サンプルに蒸留することに成功した。 しかし、自己教師付き事前学習を容易にするために効果的に使用できる蒸留データセットを作成するように設計されていない。 そこで本研究では,ラベルのないデータセットを,効率的な自己教師付き学習(SSL)のための小さな合成サンプル集合に蒸留する新しい問題を提案する。 まず,二値最適化におけるsslの目的に対する合成サンプルの勾配が,データの増補やマスキングに由来するランダム性から \textit{biased} であることが証明される。 この問題に対処するため,本論文では,合成例のモデル表現と学習可能な対象特徴表現との間の平均二乗誤差(mse)を最小限に抑えることを提案する。 我々の主な動機は、提案した内部最適化によって得られたモデルが \textit{self-supervised target model} を模倣できることである。 そこで本研究では,内部モデルと自己教師対象モデルとのMSEを,外部最適化のための元となる全データセット上に導入する。 最後に、特徴抽出器が固定されていると仮定すると、特徴抽出器の上の直線ヘッドのみを最適化し、計算コストを削減し、カーネルリッジ回帰を伴うヘッドの閉形式解を得る。 転送学習を含む様々な応用における本手法の有効性を実証的に検証する。

Dataset distillation methods have achieved remarkable success in distilling a large dataset into a small set of representative samples. However, they are not designed to produce a distilled dataset that can be effectively used for facilitating self-supervised pre-training. To this end, we propose a novel problem of distilling an unlabeled dataset into a set of small synthetic samples for efficient self-supervised learning (SSL). We first prove that a gradient of synthetic samples with respect to a SSL objective in naive bilevel optimization is \textit{biased} due to the randomness originating from data augmentations or masking. To address this issue, we propose to minimize the mean squared error (MSE) between a model's representations of the synthetic examples and their corresponding learnable target feature representations for the inner objective, which does not introduce any randomness. Our primary motivation is that the model obtained by the proposed inner optimization can mimic the \textit{self-supervised target model}. To achieve this, we also introduce the MSE between representations of the inner model and the self-supervised target model on the original full dataset for outer optimization. Lastly, assuming that a feature extractor is fixed, we only optimize a linear head on top of the feature extractor, which allows us to reduce the computational cost and obtain a closed-form solution of the head with kernel ridge regression. We empirically validate the effectiveness of our method on various applications involving transfer learning.
翻訳日:2023-10-18 02:25:43 公開日:2023-10-16
# 自動車インターセクションナビゲーションのための深部強化学習

Deep Reinforcement Learning for Autonomous Vehicle Intersection Navigation ( http://arxiv.org/abs/2310.08595v2 )

ライセンス: Link先を確認
Badr Ben Elallid, Hamza El Alaoui, and Nabil Benamar(参考訳) 本稿では、自動運転車(avs)の密集した交通シナリオにおける複雑なt-intersectionsのナビゲートに関する課題について検討する。 強化学習アルゴリズムは、avsが安全かつ効率的な意思決定をリアルタイムで行えるようにすることで、これらの課題に対処する有望なアプローチとして登場した。 そこで本研究では,TD3強化学習アルゴリズムに基づく低コスト単エージェントアプローチを用いて,T断面積を効率よく安全にナビゲートする問題に対処する。 このtd3ベースの手法は,carlaシミュレーションプラットフォームでトレーニングおよびテストを行うと,様々な交通密度で安定収束し,安全性が向上することを示す。 提案手法により,AVはT断面積を効果的にナビゲートし,走行遅延,衝突最小化,総コストの面で従来の手法より優れていることがわかった。 本研究は、自律運転における強化学習応用に関する知識の増大に寄与し、より複雑な運転シナリオに対処するための単エージェントで費用対効果の高い方法や、将来的な強化学習アルゴリズムの進歩の可能性を強調した。

In this paper, we explore the challenges associated with navigating complex T-intersections in dense traffic scenarios for autonomous vehicles (AVs). Reinforcement learning algorithms have emerged as a promising approach to address these challenges by enabling AVs to make safe and efficient decisions in real-time. Here, we address the problem of efficiently and safely navigating T-intersections using a lower-cost, single-agent approach based on the Twin Delayed Deep Deterministic Policy Gradient (TD3) reinforcement learning algorithm. We show that our TD3-based method, when trained and tested in the CARLA simulation platform, demonstrates stable convergence and improved safety performance in various traffic densities. Our results reveal that the proposed approach enables the AV to effectively navigate T-intersections, outperforming previous methods in terms of travel delays, collision minimization, and overall cost. This study contributes to the growing body of knowledge on reinforcement learning applications in autonomous driving and highlights the potential of single-agent, cost-effective methods for addressing more complex driving scenarios and advancing reinforcement learning algorithms in the future.
翻訳日:2023-10-18 02:15:38 公開日:2023-10-16
# 思考連鎖をもつ変圧器の表現力

The Expresssive Power of Transformers with Chain of Thought ( http://arxiv.org/abs/2310.07923v2 )

ライセンス: Link先を確認
William Merrill and Ashish Sabharwal(参考訳) 最近の理論研究では、グラフ内の2つのノードが接続されているかどうかの確認や有限状態マシンのシミュレートなど、驚くほど単純な推論の問題が特定されている。 しかし、実際には、トランスフォーマーの推論は「思考の連鎖」または「スクラッチパッド」、すなわち答えの前に中間トークン列の生成と条件を使用することによって改善することができる。 このような中間生成はデコーダのみのトランスフォーマーの計算能力を根本的に拡張するのでしょうか? 答えはイエスであるが、増加量は中間世代の量に大きく依存する。 例えば、対数的な数の復号ステップ(w.r.t. 入力長)を持つ復号器デコーダが標準変圧器の限界をわずかに押し上げるのに対して、線形数の復号器デコーダは、すべての正規言語を認識する明確な新しい能力(標準的な複雑性予想の下で)を付加する。 また, 線形ステップは, トランスフォーマーデコーダを文脈に敏感な言語に保持し, 多項式ステップは多項式時間可解問題のクラスを正確に認識する。 本研究の結果は, トランスフォーマーの思考チェーンの長さが, その推論能力に与える影響を理解するための, 微妙な枠組みを提供する。

Recent theoretical work has identified surprisingly simple reasoning problems, such as checking if two nodes in a graph are connected or simulating finite-state machines, that are provably unsolvable by standard transformers that answer immediately after reading their input. However, in practice, transformers' reasoning can be improved by allowing them to use a "chain of thought" or "scratchpad", i.e., generate and condition on a sequence of intermediate tokens before answering. Motivated by this, we ask: Does such intermediate generation fundamentally extend the computational power of a decoder-only transformer? We show that the answer is yes, but the amount of increase depends crucially on the amount of intermediate generation. For instance, we find that transformer decoders with a logarithmic number of decoding steps (w.r.t. the input length) push the limits of standard transformers only slightly, while a linear number of decoding steps adds a clear new ability (under standard complexity conjectures): recognizing all regular languages. Our results also imply that linear steps keep transformer decoders within context-sensitive languages, and polynomial steps make them recognize exactly the class of polynomial-time solvable problems -- the first exact characterization of a type of transformers in terms of standard complexity classes. Together, our results provide a nuanced framework for understanding how the length of a transformer's chain of thought or scratchpad impacts its reasoning power.
翻訳日:2023-10-18 02:15:21 公開日:2023-10-16
# 凸最適化のための線探索のない単純一様最適化法

A simple uniformly optimal method without line search for convex optimization ( http://arxiv.org/abs/2310.10082v1 )

ライセンス: Link先を確認
Tianjiao Li and Guanghui Lan(参考訳) 直線探索(またはバックトラック)手順は、凸最適化問題を解決する一階法、特に未知の問題パラメータ(例えばリプシッツ定数)に広く採用されている。 本稿では,事前パラメータが与えられていない凸最適化問題の解法において,線形探索が最適収束率の達成に過剰であることを示す。 特に,大域リプシッツ定数の見積や線探索手順を使わずに,滑らかな凸最適化に最適な$\mathcal{O}(1/k^2)$収束率を達成できる,自動条件付高速勾配法 (AC-FGM) と呼ばれる新しい加速勾配勾配型アルゴリズムを提案する。 次に、H\"{o}lder の連続勾配で凸最適化問題を解くために AC-FGM を拡張し、解の所望の精度を唯一の入力として全ての問題クラスに対して一様収束率を自動で達成することを示す。 最後に,従来開発された凸最適化のためのパラメータフリー法よりもac-fgmの利点を示す数値計算結果について報告する。

Line search (or backtracking) procedures have been widely employed into first-order methods for solving convex optimization problems, especially those with unknown problem parameters (e.g., Lipschitz constant). In this paper, we show that line search is superfluous in attaining the optimal rate of convergence for solving a convex optimization problem whose parameters are not given a priori. In particular, we present a novel accelerated gradient descent type algorithm called auto-conditioned fast gradient method (AC-FGM) that can achieve an optimal $\mathcal{O}(1/k^2)$ rate of convergence for smooth convex optimization without requiring the estimate of a global Lipschitz constant or the employment of line search procedures. We then extend AC-FGM to solve convex optimization problems with H\"{o}lder continuous gradients and show that it automatically achieves the optimal rates of convergence uniformly for all problem classes with the desired accuracy of the solution as the only input. Finally, we report some encouraging numerical results that demonstrate the advantages of AC-FGM over the previously developed parameter-free methods for convex optimization.
翻訳日:2023-10-18 01:48:47 公開日:2023-10-16
# tpopt:低次元多様体上の効率的な訓練可能なテンプレート最適化

TpopT: Efficient Trainable Template Optimization on Low-Dimensional Manifolds ( http://arxiv.org/abs/2310.10039v1 )

ライセンス: Link先を確認
Jingkai Yan, Shiyu Wang, Xinyu Rain Wei, Jimmy Wang, Zsuzsanna M\'arka, Szabolcs M\'arka, John Wright(参考訳) 科学的・工学的なシナリオでは、繰り返し行われるタスクは、信号やパターンの低次元ファミリーの検出である。 テンプレートマッチングによって例示される古典的なアプローチのファミリは、検索スペースを密集したテンプレートバンクでカバーすることを目的としている。 単純かつ高度に解釈可能であるが、信号空間の次元が不利なスケーリングのために計算効率が低下する。 本研究では,TpopT(TemPlate OPTimization)を,高い解釈性を維持する低次元信号群を検出するための拡張性フレームワークとして検討する。 我々は、TpopT に対するリーマン勾配勾配の収束の理論解析を行い、それが被覆に優れた次元スケーリングを持つことを証明する。 また,非パラメトリック信号集合のための実用的TpopTフレームワークを提案する。これは埋め込みやカーネル補間を組み込んだもので,アンロール最適化によりトレーニング可能なネットワークアーキテクチャにさらに構成可能である。 提案したトレーニング可能なTpopTは、現在マッチングフィルタリングが選択されている重力波検出のための効率-精度トレードオフを著しく改善している。 さらに,手書きの数字データを用いた実験により,このアプローチの汎用性について述べる。

In scientific and engineering scenarios, a recurring task is the detection of low-dimensional families of signals or patterns. A classic family of approaches, exemplified by template matching, aims to cover the search space with a dense template bank. While simple and highly interpretable, it suffers from poor computational efficiency due to unfavorable scaling in the signal space dimensionality. In this work, we study TpopT (TemPlate OPTimization) as an alternative scalable framework for detecting low-dimensional families of signals which maintains high interpretability. We provide a theoretical analysis of the convergence of Riemannian gradient descent for TpopT, and prove that it has a superior dimension scaling to covering. We also propose a practical TpopT framework for nonparametric signal sets, which incorporates techniques of embedding and kernel interpolation, and is further configurable into a trainable network architecture by unrolled optimization. The proposed trainable TpopT exhibits significantly improved efficiency-accuracy tradeoffs for gravitational wave detection, where matched filtering is currently a method of choice. We further illustrate the general applicability of this approach with experiments on handwritten digit data.
翻訳日:2023-10-18 01:48:24 公開日:2023-10-16
# 固体中の局在量子エミッタ間の近接場エネルギー移動の第一原理的研究

First-Principle Investigation Of Near-Field Energy Transfer Between Localized Quantum Emitters in Solids ( http://arxiv.org/abs/2310.10028v1 )

ライセンス: Link先を確認
Swarnabha Chattaraj, Supratik Guha, and Giulia Galli(参考訳) 弱結合状態における光子の第一原理電子構造計算と非相対論的量子電磁力学記述を結合した半導体中の局所欠陥間の近接場エネルギー移動過程を予測的・一般的に検討する。 本研究は,mgoのf中心である酸化物のexemplar point欠陥を調査し,磁気源からのエネルギー移動,例えば、希土類不純物から空隙へのエネルギー移動が、フォトニックデバイスの設計や超高密度メモリとの距離において、近接場における支配的な過程である非保存的長寿命励起をスピンさせることを示した。 また,コヒーレントエネルギー移動のためのディスクリプタを定義し,エミッタの幾何学的配置を予測し,半導体および絶縁体における光メモリの設計に有用な長寿命励起を可能にする。

We present a predictive and general approach to investigate near-field energy transfer processes between localized defects in semiconductors, which couples first principle electronic structure calculations and a nonrelativistic quantum electrodynamics description of photons in the weak-coupling regime. We apply our approach to investigate an exemplar point defect in an oxide, the F center in MgO, and we show that the energy transfer from a magnetic source, e.g., a rare earth impurity, to the vacancy can lead to spin non conserving long-lived excitation that are dominant processes in the near field, at distances relevant to the design of photonic devices and ultra-high dense memories. We also define a descriptor for coherent energy transfer to predict geometrical configurations of emitters to enable long-lived excitations, that are useful to design optical memories in semiconductor and insulators.
翻訳日:2023-10-18 01:48:06 公開日:2023-10-16
# 逆正則化による分割学習におけるパッシブ推論攻撃

Passive Inference Attacks on Split Learning via Adversarial Regularization ( http://arxiv.org/abs/2310.10483v1 )

ライセンス: Link先を確認
Xiaochen Zhu, Xinjian Luo, Yuncheng Wu, Yangfan Jiang, Xiaokui Xiao, Beng Chin Ooi(参考訳) 分割学習(slit learning, sl)は、従来の連合学習に代わる実践的で効率的な選択肢として登場した。 SL攻撃の試みは、しばしば過度に強い仮定や、容易に悪用できるモデルに頼っているが、我々はより実用的な攻撃方法を模索している。 我々は,sldに対する新たな攻撃フレームワークであるsdarを紹介する。 SDARは補助データと逆正則化を利用してクライアントのプライベートモデルのデオード可能なシミュレータを学習し、バニラSLの下でクライアントのプライベート機能を効果的に推測する。 提案する攻撃の有効性を検証するため,両構成の広範な実験を行った。 特に、既存のパッシブアタックがクライアントのプライベートデータを効果的に再構築するのに苦労する、困難だが実用的なシナリオでは、SDARはアクティブアタックに匹敵するアタックパフォーマンスを一貫して達成します。 CIFAR-10では、7の深さ分割レベルでは、SDARは、バニラとU字型の両方において0.025以上の平均2乗誤差でプライベートな特徴再構成を達成し、U字型設定では98%以上のラベル推測精度を達成し、既存の攻撃では非自明な結果が得られない。

Split Learning (SL) has emerged as a practical and efficient alternative to traditional federated learning. While previous attempts to attack SL have often relied on overly strong assumptions or targeted easily exploitable models, we seek to develop more practical attacks. We introduce SDAR, a novel attack framework against SL with an honest-but-curious server. SDAR leverages auxiliary data and adversarial regularization to learn a decodable simulator of the client's private model, which can effectively infer the client's private features under the vanilla SL, and both features and labels under the U-shaped SL. We perform extensive experiments in both configurations to validate the effectiveness of our proposed attacks. Notably, in challenging but practical scenarios where existing passive attacks struggle to reconstruct the client's private data effectively, SDAR consistently achieves attack performance comparable to active attacks. On CIFAR-10, at the deep split level of 7, SDAR achieves private feature reconstruction with less than 0.025 mean squared error in both the vanilla and the U-shaped SL, and attains a label inference accuracy of over 98% in the U-shaped setting, while existing attacks fail to produce non-trivial results.
翻訳日:2023-10-18 01:37:47 公開日:2023-10-16
# 物理における機械学習 : 簡単なガイド

Machine learning in physics: a short guide ( http://arxiv.org/abs/2310.10368v1 )

ライセンス: Link先を確認
Francisco A. Rodrigues(参考訳) 機械学習は急速に成長する分野であり、物理学を含む科学分野に革命をもたらす可能性がある。 このレビューでは、物理における機械学習の簡単な概要を説明し、教師付き、教師なし、強化学習の主観、そして因果推論、記号回帰、ディープラーニングといったより特殊なトピックを取り上げている。 物理学における機械学習の主な応用をいくつか紹介し、関連する課題と展望について議論する。

Machine learning is a rapidly growing field with the potential to revolutionize many areas of science, including physics. This review provides a brief overview of machine learning in physics, covering the main concepts of supervised, unsupervised, and reinforcement learning, as well as more specialized topics such as causal inference, symbolic regression, and deep learning. We present some of the principal applications of machine learning in physics and discuss the associated challenges and perspectives.
翻訳日:2023-10-18 01:37:22 公開日:2023-10-16
# 粗い格子上の偏微分方程式を解くためのニューラルネットワークに基づく時間積分法

Time integration schemes based on neural networks for solving partial differential equations on coarse grids ( http://arxiv.org/abs/2310.10308v1 )

ライセンス: Link先を確認
Xinxin Yan, Zhideng Zhou, Xiaohan Cheng, Xiaolei Yang(参考訳) 粗い格子上の偏微分方程式(pdes)の解の精度は、離散化スキームの選択に大きく影響される。 そこで本研究では,3つの異なる数学的制約セット,すなわち根条件と半拘束され,根条件と一貫性条件の両方で完全に拘束された,ニューラルネットワークに基づく時間統合スキームを学習することを提案する。 我々は3段階線形多段階法の学習に焦点をあて、その後3つのモデルPDE、すなわち1次元熱方程式、1次元波動方程式、および1次元バーガーズ方程式を解いた。 その結果,学習された完全制約スキームの予測誤差は,Runge-Kutta法やAdams-Bashforth法に近いことがわかった。 従来の方法と比較すると、学習未拘束と半拘束のスキームは粗い格子の予測誤差を大幅に低減させる。 基準格子の4倍の粗い格子上では、平均二乗誤差は、いくつかの熱方程式の場合の最大等級の減少と、波動方程式の位相予測の大幅な改善を示す。 32倍の粗い格子では、バーガースの方程式の平均平方誤差を最大35%から40%まで減少させることができる。

The accuracy of solving partial differential equations (PDEs) on coarse grids is greatly affected by the choice of discretization schemes. In this work, we propose to learn time integration schemes based on neural networks which satisfy three distinct sets of mathematical constraints, i.e., unconstrained, semi-constrained with the root condition, and fully-constrained with both root and consistency conditions. We focus on the learning of 3-step linear multistep methods, which we subsequently applied to solve three model PDEs, i.e., the one-dimensional heat equation, the one-dimensional wave equation, and the one-dimensional Burgers' equation. The results show that the prediction error of the learned fully-constrained scheme is close to that of the Runge-Kutta method and Adams-Bashforth method. Compared to the traditional methods, the learned unconstrained and semi-constrained schemes significantly reduce the prediction error on coarse grids. On a grid that is 4 times coarser than the reference grid, the mean square error shows a reduction of up to an order of magnitude for some of the heat equation cases, and a substantial improvement in phase prediction for the wave equation. On a 32 times coarser grid, the mean square error for the Burgers' equation can be reduced by up to 35% to 40%.
翻訳日:2023-10-18 01:37:13 公開日:2023-10-16
# 非エルミート量子論へのエルミートバイパス

A Hermitian bypass to the non-Hermitian quantum theory ( http://arxiv.org/abs/2310.10263v1 )

ライセンス: Link先を確認
Priyanshi Bhasin, Tanmoy Das(参考訳) 非エルミート作用素 (NH) は物理学のあらゆる分野やそれ以上において重要性が増している。 しかし、nh量子論は特異性、不安定性、標準線型代数と微分幾何学の違反に関する問題に直面している。 本稿では、エルミート作用素の適切な定義基底状態の展開パラメータに再割り当てることで、これらの不安定性を解消する量子理論を提案する。 h^\dagger h$ の固有空間で定義される計算基底を見つけ、h$ の例外点を 2 つの境界上の vacua として位置づける。 この理論はまた、計算空間内の動的「時空」変換として機能する一般双対空間写像も導入している。 この変換が静的対称性を仮定すると、実際のエネルギーを保証し、ハーミシティやパリティ時間反転対称性を超えて隠れた対称性を解き放つ。 我々の形式主義は、例外点、正規作用素、双対空間写像、動的計量多様体、創発対称性強化実固有値など、NH作用素に関連するいくつかの特徴の起源と解釈を解明する。 我々の一般的な枠組みは、NH作用素がはしご演算子、順序パラメータ、自己エネルギー、プロジェクタ、その他の実体として表される物理学の多くの分野にまたがってNH理論の適用を広げる。

Non-Hermitian (NH) operators are gaining growing significance in all branches of physics and beyond. However, NH quantum theory faces challenges with singularities, instabilities, and violations of standard linear algebra and differential geometry. Here, we propose a quantum theory that resolves these instabilities by reassigning them to the expansion parameters of a suitably defined basis state of a Hermitian operator. We discover a computational basis, defined by the eigenspace of $H^\dagger H$, in which the exceptional points of $H$ are positioned as vacua on the two boundaries. The theory also introduces a generic dual space map that functions as a dynamical `space-time' transformation within the computational space. When this transformation assumes a static symmetry, it ensures real energies, unraveling a hidden symmetry beyond hermiticity or parity-time reversal symmetries. Our formalism elucidates the origin and interpretation of several features associated with NH operators, including exceptional points, normal operators, dual-space mapping, dynamical metric manifold, and emergent symmetry-enforced real eigenvalues. Our general framework broadens the application of NH theory across numerous branches of physics where NH operators manifest as ladder operators, order parameters, self-energies, projectors, and other entities.
翻訳日:2023-10-18 01:36:54 公開日:2023-10-16
# 文脈的包帯報酬の最大化における不均一な流出効果の活用

Leveraging heterogeneous spillover effects in maximizing contextual bandit rewards ( http://arxiv.org/abs/2310.10259v1 )

ライセンス: Link先を確認
Ahmed Sayeed Faruk, Elena Zheleva(参考訳) コンテクストマルチアームバンドに依存するレコメンダシステムは、コンテクスト情報を考慮して、関連するアイテムレコメンデーションを継続的に改善する。 これらのバンディットアルゴリズムの目的は、各ユーザの最高のアーム(推奨すべき最善のアイテム)を学習し、ユーザのレコメンデーションによる累積報酬を最大化することである。 しかしながら、現在のアプローチでは、あるユーザのアクションが他のユーザのアクションや報酬に影響を与える可能性がある、インタラクションユーザ間の潜在的な流出を無視している。 さらに、他人の好みや、他のユーザーとの結びつきの近さによって、引きこもりは異なる可能性がある。 これにより、あるユーザのアクションが他のユーザのアクションにどの程度影響するかという、スプリンクラー効果の不均一性が生じる。 本稿では,各ユーザに対して最適なアームを選択する際に,コンテキスト的マルチアームバンディットを考慮に入れたフレームワークを提案する。 線形および非線形の文脈的バンディットアルゴリズムを用いて,実世界のデータセットを複数実験することにより,提案手法が流出を無視する既存の解よりも高い報酬をもたらすことを検証した。

Recommender systems relying on contextual multi-armed bandits continuously improve relevant item recommendations by taking into account the contextual information. The objective of these bandit algorithms is to learn the best arm (i.e., best item to recommend) for each user and thus maximize the cumulative rewards from user engagement with the recommendations. However, current approaches ignore potential spillover between interacting users, where the action of one user can impact the actions and rewards of other users. Moreover, spillover may vary for different people based on their preferences and the closeness of ties to other users. This leads to heterogeneity in the spillover effects, i.e., the extent to which the action of one user can impact the action of another. Here, we propose a framework that allows contextual multi-armed bandits to account for such heterogeneous spillovers when choosing the best arm for each user. By experimenting on several real-world datasets using prominent linear and non-linear contextual bandit algorithms, we observe that our proposed method leads to significantly higher rewards than existing solutions that ignore spillover.
翻訳日:2023-10-18 01:36:31 公開日:2023-10-16
# ペニングトラップにおける1つのプロトンの170mk軸温度までのイメージ電流による交感神経レーザー冷却

Image-current mediated sympathetic laser cooling of a single proton in a Penning trap down to 170 mK axial temperature ( http://arxiv.org/abs/2310.10208v1 )

ライセンス: Link先を確認
C. Will, M. Wiesinger, P. Micke, H. Yildiz, T. Driscoll, S. Kommu, F. Abbass, B. P. Arndt, B. B. Bauer, S. Erlewein, M. Fleck, J. I. J\"ager, B. M. Latacz, A. Mooser, D. Schweitzer, G. Umbrazunas, E. Wursten, K. Blaum, J. A. Devlin, C. Ospelkaus, W. Quint, A. Soter, J. Walz, C. Smorra, S. Ulmer(参考訳) 低温ペニングトラップ中の1つのプロトンをレーザー冷却した^9$be$^+$でイメージ電流による交感神経冷却を行うための新しい温度記録を示す。 軸モード温度170mkに達するが、これは以前の最高値よりも15倍改善される。 我々の冷却技術は荷電粒子に適用できるので、この測定はエキゾチック粒子を用いた次世代の高精度ペニングトラップ測定に向けたマイルストーンとなる。

We demonstrate a new temperature record for image-current mediated sympathetic cooling of a single proton in a cryogenic Penning trap by laser-cooled $^9$Be$^+$. An axial mode temperature of 170 mK is reached, which is a 15-fold improvement compared to the previous best value. Our cooling technique is applicable to any charged particle, so that the measurements presented here constitute a milestone towards the next generation of high-precision Penning-trap measurements with exotic particles.
翻訳日:2023-10-18 01:36:11 公開日:2023-10-16
# 電子カルテからの院内受注予測のための解釈型深層学習フレームワーク

An Interpretable Deep-Learning Framework for Predicting Hospital Readmissions From Electronic Health Records ( http://arxiv.org/abs/2310.10187v1 )

ライセンス: Link先を確認
Fabio Azzalini, Tommaso Dolci and Marco Vagaggini(参考訳) 患者のデータが利用可能になるにつれ、現代医学は将来的な医療へとシフトしつつある。 電子健康記録には、臨床患者説明に有用な様々な情報が含まれており、同様の医学的履歴が同様の進展につながる可能性があることから、予測モデルの構築に活用することができる。 ひとつは、病院の費用削減と患者の健康改善に不可欠な課題である、未計画の入院予測である。 特に深層学習モデルにおいて、非常に優れたパフォーマンスを示す予測モデルにもかかわらず、医療分野における基本的な特徴である、不正確な予測が患者の健康に重大な影響をもたらす可能性がある、という評価がしばしば行われている。 本稿では, 単語埋め込みに関するNLPの知見と, 時間的データを扱うためのニューラルネットワークモデル(ConvLSTM)によって支援された, 病院入院予測のための新しい, 解釈可能なディープラーニングフレームワークを提案する。 実世界データを用いて,30日と180日以内の院内入院の予測タスクを検証した。 また, 医療スタッフが容易に結果の表現を解釈できるように, モデル依存型手法を導入し, テストを行った。 我々のソリューションは、機械学習に基づく従来のモデルよりも優れたパフォーマンスを実現すると同時に、より解釈可能な結果を提供する。

With the increasing availability of patients' data, modern medicine is shifting towards prospective healthcare. Electronic health records contain a variety of information useful for clinical patient description and can be exploited for the construction of predictive models, given that similar medical histories will likely lead to similar progressions. One example is unplanned hospital readmission prediction, an essential task for reducing hospital costs and improving patient health. Despite predictive models showing very good performances especially with deep-learning models, they are often criticized for the poor interpretability of their results, a fundamental characteristic in the medical field, where incorrect predictions might have serious consequences for the patient health. In this paper we propose a novel, interpretable deep-learning framework for predicting unplanned hospital readmissions, supported by NLP findings on word embeddings and by neural-network models (ConvLSTM) for better handling temporal data. We validate our system on the two predictive tasks of hospital readmission within 30 and 180 days, using real-world data. In addition, we introduce and test a model-dependent technique to make the representation of results easily interpretable by the medical staff. Our solution achieves better performances compared to traditional models based on machine learning, while providing at the same time more interpretable results.
翻訳日:2023-10-18 01:36:01 公開日:2023-10-16
# カリキュラム学習におけるプライバシーリスクに関する総合的研究

A Comprehensive Study of Privacy Risks in Curriculum Learning ( http://arxiv.org/abs/2310.10124v1 )

ライセンス: Link先を確認
Joann Qiongna Chen, Xinlei He, Zheng Li, Yang Zhang, Zhou Li(参考訳) 機械学習モデルを有意義な順序、すなわち簡単から難しい順にトレーニングすることは、トレーニングプロセスを加速し、よりよいモデルパフォーマンスを達成する上で有効であることが証明されている。 重要な実現技術はカリキュラム学習(cl)であり、大きな成功を収め、画像やテキストの分類といった領域に展開されている。 しかし、clが機械学習のプライバシーにどう影響するかは不明だ。 CLはトレーニングデータを記憶する方法を変えるため、データのプライバシへの影響を徹底的に評価する必要がある。 この知識ギャップを埋めるために,最初の研究を行い,メンバシップ推論攻撃(mia)と属性推論攻撃(aia)を2つのベクトルとして活用し,clによるプライバシリークを定量化する。 攻撃手法(NNベース,メートル法,ラベルのみMIA,NNベースAIA)を用いた実世界の9つのデータセットの評価を行ったところ,CLに関する新たな知見が得られた。 第一に、CLを適用するとMIAは少し効果が増すが、その影響はトレーニングサンプルのサブセットよりもはるかに顕著である。 第2に、CLの下でトレーニングされたモデルは、MIAに比べてAIA下での脆弱性が低い。 第3に、DP-SGD、MemGuard、MixupMMDといった既存の防衛技術は、まだCLの下では有効であるが、DP-SGDはターゲットモデルの精度に大きな影響を与える。 最後に,clに関する知見に基づいて,難易度スコアを生かして結果校正を行う新しいmiaを提案する。 本研究では,新たな機械学習技術の意図しないプライバシーリスクにコミュニティの注意を向け,新たな攻撃ベンチマークや防御ソリューションの開発を期待する。

Training a machine learning model with data following a meaningful order, i.e., from easy to hard, has been proven to be effective in accelerating the training process and achieving better model performance. The key enabling technique is curriculum learning (CL), which has seen great success and has been deployed in areas like image and text classification. Yet, how CL affects the privacy of machine learning is unclear. Given that CL changes the way a model memorizes the training data, its influence on data privacy needs to be thoroughly evaluated. To fill this knowledge gap, we perform the first study and leverage membership inference attack (MIA) and attribute inference attack (AIA) as two vectors to quantify the privacy leakage caused by CL. Our evaluation of nine real-world datasets with attack methods (NN-based, metric-based, label-only MIA, and NN-based AIA) revealed new insights about CL. First, MIA becomes slightly more effective when CL is applied, but the impact is much more prominent to a subset of training samples ranked as difficult. Second, a model trained under CL is less vulnerable under AIA, compared to MIA. Third, the existing defense techniques like DP-SGD, MemGuard, and MixupMMD are still effective under CL, though DP-SGD has a significant impact on target model accuracy. Finally, based on our insights into CL, we propose a new MIA, termed Diff-Cali, which exploits the difficulty scores for result calibration and is demonstrated to be effective against all CL methods and the normal training method. With this study, we hope to draw the community's attention to the unintended privacy risks of emerging machine-learning techniques and develop new attack benchmarks and defense solutions.
翻訳日:2023-10-18 01:35:42 公開日:2023-10-16
# 大域的および局所的凸円錐制約を伴う連合学習のためのラグランジアン近似アルゴリズム

A proximal augmented Lagrangian based algorithm for federated learning with global and local convex conic constraints ( http://arxiv.org/abs/2310.10117v1 )

ライセンス: Link先を確認
Chuan He, Le Peng, Ju Sun(参考訳) 本稿では,大域的および局所的凸円錐制約を受ける局所的目的関数の総和を,中央サーバと全ローカルクライアントがまとめて最小化する,制約付き連合学習(FL)について考察する。 クライアントから中央サーバへローカルデータを移動させることなくモデルをトレーニングするために,各ローカルクライアントがローカルオブジェクトとローカル制約を用いて複数の更新を行うFLフレームワークを提案し,一方,中央サーバはグローバル制約を処理し,更新されたローカルモデルに基づいて集約を行う。 特に,大域的および局所的な凸円錐制約を持つFLのための近似拡張ラグランジアン(AL)アルゴリズムを開発した。 このアルゴリズムで生じるサブプロブレムは、連合方式で乗算器(ADMM)の不正確な交互方向法によって解決される。 局所的なリプシッツ条件と軽度の仮定の下で、近似KKT解を求めるアルゴリズムの最悪の複雑性境界を確立する。 我々の知る限り、この研究は世界的および局所的な制約を持つFLのための最初のアルゴリズムを提案する。 数値実験により,FLの文脈におけるNeyman-Pearson分類とモデルフェアネス向上におけるアルゴリズムの実用的利点を実証した。

This paper considers federated learning (FL) with constraints, where the central server and all local clients collectively minimize a sum of convex local objective functions subject to global and local convex conic constraints. To train the model without moving local data from clients to the central server, we propose an FL framework in which each local client performs multiple updates using the local objective and local constraint, while the central server handles the global constraint and performs aggregation based on the updated local models. In particular, we develop a proximal augmented Lagrangian (AL) based algorithm for FL with global and local convex conic constraints. The subproblems arising in this algorithm are solved by an inexact alternating direction method of multipliers (ADMM) in a federated fashion. Under a local Lipschitz condition and mild assumptions, we establish the worst-case complexity bounds of the proposed algorithm for finding an approximate KKT solution. To the best of our knowledge, this work proposes the first algorithm for FL with global and local constraints. Our numerical experiments demonstrate the practical advantages of our algorithm in performing Neyman-Pearson classification and enhancing model fairness in the context of FL.
翻訳日:2023-10-18 01:35:04 公開日:2023-10-16
# オーバーザ・エアによるフェデレーション学習と最適化

Over-the-Air Federated Learning and Optimization ( http://arxiv.org/abs/2310.10089v1 )

ライセンス: Link先を確認
Jingyang Zhu, Yuanming Shi, Yong Zhou, Chunxiao Jiang, Wei Chen, Khaled B. Letaief(参考訳) フェデレートラーニング(FL)は、新興の分散機械学習パラダイムであり、プライバシーを維持しながら、多数のエッジデバイスがグローバルモデルを協調的にトレーニングすることを可能にする。 本稿では,無線ネットワーク上でのflの通信オーバーヘッドを,チャネルフェーディングやノイズに起因するモデル集約エラーによる学習性能の妥協を犠牲にするために提案する,aircomp(over-the-air computation)によるflにフォーカスする。 まず,AirCompをベースとしたFedAvg(AirFedAvg)アルゴリズムを,データヘテロジニティ(heregeneity)の存在下での学習率を一定かつ低下させるような,強い凸と非凸の両方の条件下での収束に関する総合的研究を行った。 収束および漸近解析を通じて、集約誤差が収束境界に与える影響を特徴づけ、収束保証を伴うシステム設計の洞察を与える。 次に、強凸および非凸目的に対するAirFedAvgアルゴリズムの収束率を導出する。 エッジデバイスで送信可能なさまざまなローカルアップデート(ローカルモデル、勾配、モデル差分など)について、airfedavg内のローカルモデル送信がトレーニング手順の相違を引き起こす可能性があることを明らかにする。 さらに,より実用的な信号処理方式について検討し,通信効率の向上と,これらの信号処理方式に起因するモデル集約誤差の異なる形態への収束解析をさらに拡張する。 目的関数の異なる設定下での広範囲なシミュレーション結果、送信されたローカル情報、および通信方式により理論的結論が検証される。

Federated learning (FL), as an emerging distributed machine learning paradigm, allows a mass of edge devices to collaboratively train a global model while preserving privacy. In this tutorial, we focus on FL via over-the-air computation (AirComp), which is proposed to reduce the communication overhead for FL over wireless networks at the cost of compromising in the learning performance due to model aggregation error arising from channel fading and noise. We first provide a comprehensive study on the convergence of AirComp-based FedAvg (AirFedAvg) algorithms under both strongly convex and non-convex settings with constant and diminishing learning rates in the presence of data heterogeneity. Through convergence and asymptotic analysis, we characterize the impact of aggregation error on the convergence bound and provide insights for system design with convergence guarantees. Then we derive convergence rates for AirFedAvg algorithms for strongly convex and non-convex objectives. For different types of local updates that can be transmitted by edge devices (i.e., local model, gradient, and model difference), we reveal that transmitting local model in AirFedAvg may cause divergence in the training procedure. In addition, we consider more practical signal processing schemes to improve the communication efficiency and further extend the convergence analysis to different forms of model aggregation error caused by these signal processing schemes. Extensive simulation results under different settings of objective functions, transmitted local information, and communication schemes verify the theoretical conclusions.
翻訳日:2023-10-18 01:34:25 公開日:2023-10-16
# ワッサーシュタインラグランジアン流れを解くための計算フレームワーク

A Computational Framework for Solving Wasserstein Lagrangian Flows ( http://arxiv.org/abs/2310.10649v1 )

ライセンス: Link先を確認
Kirill Neklyudov, Rob Brekelmans, Alexander Tong, Lazar Atanackovic, Qiang Liu, Alireza Makhzani(参考訳) 最適輸送の動的定式化は、基礎となる幾何(\textit{kinetic energy}$)と密度経路の正規化(\textit{potential energy}$)の様々な選択を通して拡張することができる。 これらの組み合わせは異なる変分問題("\textit{Lagrangians}$")をもたらし、シュリンガー橋、不均衡の最適輸送、物理的制約のある最適輸送など、最適な輸送問題の多くのバリエーションを含んでいる。 一般に、最適密度経路は未知であり、これらの変動問題の解法は計算的に困難である。 そこで,ラグランジアンの二重定式化を活かし,これらすべての問題に対して統一的な視点からアプローチする新しい深層学習型フレームワークを提案する。 本手法では,学習力学の軌跡をシミュレーションしたり逆伝播したりする必要はなく,最適結合へのアクセスは不要である。 本稿では, 単一セル軌道推定における従来の手法よりも優れた手法として, 従来の知識を動的に組み込むことが, 正しい予測に不可欠であることを示す。

The dynamical formulation of the optimal transport can be extended through various choices of the underlying geometry ($\textit{kinetic energy}$), and the regularization of density paths ($\textit{potential energy}$). These combinations yield different variational problems ($\textit{Lagrangians}$), encompassing many variations of the optimal transport problem such as the Schr\"odinger bridge, unbalanced optimal transport, and optimal transport with physical constraints, among others. In general, the optimal density path is unknown, and solving these variational problems can be computationally challenging. Leveraging the dual formulation of the Lagrangians, we propose a novel deep learning based framework approaching all of these problems from a unified perspective. Our method does not require simulating or backpropagating through the trajectories of the learned dynamics, and does not need access to optimal couplings. We showcase the versatility of the proposed framework by outperforming previous approaches for the single-cell trajectory inference, where incorporating prior knowledge into the dynamics is crucial for correct predictions.
翻訳日:2023-10-18 01:28:43 公開日:2023-10-16
# BayRnTune: 戦略的微調整による適応型ベイズドメインランダム化

BayRnTune: Adaptive Bayesian Domain Randomization via Strategic Fine-tuning ( http://arxiv.org/abs/2310.10606v1 )

ライセンス: Link先を確認
Tianle Huang, Nitish Sontakke, K. Niranjan Kumar, Irfan Essa, Stefanos Nikolaidis, Dennis W. Hong, Sehoon Ha(参考訳) ドメインランダム化(dr)は、ランダム化されたダイナミクスによるポリシーのトレーニングを伴い、シミュレーションと現実世界の間のギャップを減らすための単純かつ効果的なアルゴリズムであることが証明されている。 しかし、drはしばしばランダム化パラメータの注意深いチューニングを必要とする。 Bayesian Domain Randomization (Bayesian DR) や Active Domain Randomization (Adaptive DR) のような手法は、現実世界の経験を使ってパラメータ範囲の選択を自動化することでこの問題に対処する。 有効ではあるが、新しいポリシーはイテレーション毎にスクラッチから訓練されるため、これらのアルゴリズムは長い計算時間を必要とすることが多い。 本研究では,BayRnの精神を継承するストラテジックファインチューニング(BayRnTune)による適応ベイズドメインランダム化を提案する。 このアイデアは、重要な問いに繋がる: 微調整の間、どの以前のポリシーを前もって使うべきか? 4種類の微調整戦略を調査し,単純なベンチマークタスクからより複雑な脚型ロボット環境まで,5つのシミュレーション環境におけるベースラインアルゴリズムと比較した。 解析の結果,バニラ領域のランダム化やベイジアンdrと同等の時間ステップで報奨を得ることができた。

Domain randomization (DR), which entails training a policy with randomized dynamics, has proven to be a simple yet effective algorithm for reducing the gap between simulation and the real world. However, DR often requires careful tuning of randomization parameters. Methods like Bayesian Domain Randomization (Bayesian DR) and Active Domain Randomization (Adaptive DR) address this issue by automating parameter range selection using real-world experience. While effective, these algorithms often require long computation time, as a new policy is trained from scratch every iteration. In this work, we propose Adaptive Bayesian Domain Randomization via Strategic Fine-tuning (BayRnTune), which inherits the spirit of BayRn but aims to significantly accelerate the learning processes by fine-tuning from previously learned policy. This idea leads to a critical question: which previous policy should we use as a prior during fine-tuning? We investigated four different fine-tuning strategies and compared them against baseline algorithms in five simulated environments, ranging from simple benchmark tasks to more complex legged robot environments. Our analysis demonstrates that our method yields better rewards in the same amount of timesteps compared to vanilla domain randomization or Bayesian DR.
翻訳日:2023-10-18 01:28:22 公開日:2023-10-16
# Pareto Optimizationによる多目的仮想スクリーニングの高速化

Pareto Optimization to Accelerate Multi-Objective Virtual Screening ( http://arxiv.org/abs/2310.10598v1 )

ライセンス: Link先を確認
Jenna C. Fromer, David E. Graff, Connor W. Coley(参考訳) 治療分子の発見は、基本的に多目的最適化問題である。 この問題の定式化の一つは、標的タンパク質に対する強い結合親和性、最小の標的外相互作用、適切な薬物動態特性を同時に発現する分子を同定することである。 アクティブ・ラーニングによる強力なバインダーの同定を加速する先行研究に触発されて,マルチプロパティ・仮想スクリーニングの計算コストを低減し,ドッキングスコアに基づいて選択されると予測されるリガンドをオン・オフ・ターゲットに識別する多目的ベイズ最適化を実装した。 3つのケーススタディを通じて,スカラー化よりもpareto最適化が優れていることを示す。 さらに,この最適化ツールを用いて,EGFRおよびIGF1Rの選択的二重阻害剤と推定される4M以上の分子の仮想ライブラリを探索し,ライブラリのわずか8%を探索した後,図書館のパレートフロントを構成する分子の100%を取得する。 このワークフローと関連するオープンソースソフトウェアは、分子設計プロジェクトのスクリーニングの負担を軽減し、結合予測やその他の分子特性の精度向上を目的とした研究を補完する。

The discovery of therapeutic molecules is fundamentally a multi-objective optimization problem. One formulation of the problem is to identify molecules that simultaneously exhibit strong binding affinity for a target protein, minimal off-target interactions, and suitable pharmacokinetic properties. Inspired by prior work that uses active learning to accelerate the identification of strong binders, we implement multi-objective Bayesian optimization to reduce the computational cost of multi-property virtual screening and apply it to the identification of ligands predicted to be selective based on docking scores to on- and off-targets. We demonstrate the superiority of Pareto optimization over scalarization across three case studies. Further, we use the developed optimization tool to search a virtual library of over 4M molecules for those predicted to be selective dual inhibitors of EGFR and IGF1R, acquiring 100% of the molecules that form the library's Pareto front after exploring only 8% of the library. This workflow and associated open source software can reduce the screening burden of molecular design projects and is complementary to research aiming to improve the accuracy of binding predictions and other molecular properties.
翻訳日:2023-10-18 01:27:57 公開日:2023-10-16
# 二次元計測エントロピー生成とモジュラー理論に関する一考察

A note on two-times measurement entropy production and modular theory ( http://arxiv.org/abs/2310.10582v1 )

ライセンス: Link先を確認
Tristan Benoist and Laurent Bruneau and Vojkan Jaksic and Annalisa Panati and Claude-Alain Pillet(参考訳) 量子統計力学における2回測定エントロピー生成(2TMEP)に関する最近の理論的研究は、量子力学的確率則の数学と物理学に新たな光を当てている。 注目すべき発展としては、量子領域へのエントロピーゆらぎ関係の拡張、2TMEPと作用素代数のモジュラー理論の間の深いリンクの発見がある。 これらすべての展開は、最初の測定の瞬間におけるシステムの状態がエントロピー生成を測定する状態と同じであるような設定に関するものである。 この研究では、これらの2つの状態が異なる場合を考え、より一般的な 2temp をモジュラー理論に結びつける。 確立された接続により、一般のエルゴード性仮定の下では、2TEMPは、第1の測定によって引き起こされるデコヒーレンス効果により、第1の測定の瞬間に系の状態の選択から本質的に独立であることを示すことができる。 この安定性は量子エントロピー生成の概念、特に有名な古典ガラヴォッティ-コーエンゆらぎ理論の量子定式化について新しい光を放ち、この研究の継続について研究される。

Recent theoretical investigations of the two-times measurement entropy production (2TMEP) in quantum statistical mechanics have shed a new light on the mathematics and physics of the quantum-mechanical probabilistic rules. Among notable developments are the extensions of entropic fluctuation relations to quantum domain and discovery of a deep link between 2TMEP and modular theory of operator algebras. All these developments concerned the setting where the state of the system at the instant of the first measurement is the same as the state whose entropy production is measured. In this work we consider the case where these two states are different and link this more general 2TEMP to modular theory. The established connection allows us to show that under general ergodicity assumptions the 2TEMP is essentially independent of the choice of the system state at the instant of the first measurement due to a decoherence effect induced by the first measurement. This stability sheds a new light on the concept of quantum entropy production, and, in particular, on possible quantum formulations of the celebrated classical Gallavotti--Cohen Fluctuation Theorem which will be studied in the continuation of this work.
翻訳日:2023-10-18 01:27:36 公開日:2023-10-16
# 空間的自己回帰に基づく人口ベース風力発電モニタリング

Population-based wind farm monitoring based on a spatial autoregressive approach ( http://arxiv.org/abs/2310.10555v1 )

ライセンス: Link先を確認
W. Lin, K. Worden and E.J. Cross(参考訳) 風力発電業者が直面する重要な課題は、運用コストとメンテナンスコストの削減である。 構造的健康モニタリングは、不要なメンテナンストリップを最小化し、タービンの寿命を延ばすことでコスト削減の手段を提供する。 人口に基づく構造的健康モニタリングは、複数の構造(すなわちタービン)のための1つのシステムを実装することで、健康モニタリングシステムのコストをさらに削減することができる。 同時に、構造の集団内の共有データは、構造行動の予測を改善する可能性がある。 人口・農業レベルでタービン性能を監視するためには、まず、正常な条件下での全てのタービンの挙動を記述するモデルを構築することが重要となる。 本稿では,ウェイク効果によって引き起こされる(タービン間の)空間的および時間的相関を明示的に捉える人口レベルモデルを提案する。 提案モデルはガウス過程に基づく空間自己回帰モデルであり,GP-SPARXモデルと命名された。 このアプローチはそれ以来開発されています (a)覚醒効果の身体的理解を反映しており、 (b)確率的データに基づく学習者の恩恵を受ける。 gp-sparxモデルが空間的および時間的変動を捉え、健康モニタリングシステムに適用できる可能性を示すケーススタディを提供する。

An important challenge faced by wind farm operators is to reduce operation and maintenance cost. Structural health monitoring provides a means of cost reduction through minimising unnecessary maintenance trips as well as prolonging turbine service life. Population-based structural health monitoring can further reduce the cost of health monitoring systems by implementing one system for multiple structures (i.e.~turbines). At the same time, shared data within a population of structures may improve the predictions of structural behaviour. To monitor turbine performance at a population/farm level, an important initial step is to construct a model that describes the behaviour of all turbines under normal conditions. This paper proposes a population-level model that explicitly captures the spatial and temporal correlations (between turbines) induced by the wake effect. The proposed model is a Gaussian process-based spatial autoregressive model, named here a GP-SPARX model. This approach is developed since (a) it reflects our physical understanding of the wake effect, and (b) it benefits from a stochastic data-based learner. A case study is provided to demonstrate the capability of the GP-SPARX model in capturing spatial and temporal variations as well as its potential applicability in a health monitoring system.
翻訳日:2023-10-18 01:27:20 公開日:2023-10-16
# 直流電界センシング用常温蒸気電池における高角運動量rydberg状態

High-angular-momentum Rydberg states in a room-temperature vapor cell for DC electric-field sensing ( http://arxiv.org/abs/2310.10542v1 )

ライセンス: Link先を確認
Alisher Duspayev, Ryan Cardman, David A. Anderson, Georg Raithel(参考訳) 我々は、3光フォトトン電磁誘導透過(EIT)と高周波ドレッシング(RF)を用いて、軌道量子数$\ell \le 6$でRydberg状態を作成し、分析し、電界センシングに高$$の状態を用いる。 室温気相セル中のルビジウム85原子は、まず3つの赤外線レーザービームで、Rydberg-EITを介して25F_{5/2}$状態に昇格する。 2つのRFドレッシングフィールドは、(ほぼ)共鳴的に25$Rydberg状態と高い$$\ell$を持つ。 EIT を用いてRF, RF, レーザー周波数に対するRF-dressed Rydberg 状態構造の影響を特徴付ける。 さらに, 高い$\ell$ rydberg 状態を用いた直流電界センシングの原理を議論し, 気相壁の光照射により誘起される$\lesssim$~50~v/m の電界実験を用いて実験的に実証した。 光照射レーザの出力に対する直流電界強度の高非線形依存性を測定する。 実験観測をうまく再現する数値計算は、基礎となる物理学を解明する。 本研究はRydberg状態の高精度分光法,Rydberg原子を用いた電場センシング,プラズマ電場診断に関係している。

We prepare and analyze Rydberg states with orbital quantum numbers $\ell \le 6$ using three-optical-photon electromagnetically-induced transparency (EIT) and radio-frequency (RF) dressing, and employ the high-$\ell$ states in electric-field sensing. Rubidium-85 atoms in a room-temperature vapor cell are first promoted into the $25F_{5/2}$ state via Rydberg-EIT with three infrared laser beams. Two RF dressing fields then (near-)resonantly couple $25 \ell$ Rydberg states with high $\ell$. The dependence of the RF-dressed Rydberg-state level structure on RF powers, RF and laser frequencies is characterized using EIT. Furthermore, we discuss the principles of DC-electric-field sensing using high-$\ell$ Rydberg states, and experimentally demonstrate the method using test electric fields of $\lesssim$~50~V/m induced via photo-illumination of the vapor-cell wall. We measure the highly nonlinear dependence of the DC-electric-field strength on the power of the photo-illumination laser. Numerical calculations, which reproduce our experimental observations well, elucidate the underlying physics. Our study is relevant to high-precision spectroscopy of high-$\ell$ Rydberg states, Rydberg-atom-based electric-field sensing, and plasma electric-field diagnostics.
翻訳日:2023-10-18 01:27:01 公開日:2023-10-16
# 量子自然勾配に基づく効率的な量子回路

Efficient Quantum Circuits based on the Quantum Natural Gradient ( http://arxiv.org/abs/2310.10538v1 )

ライセンス: Link先を確認
Ananda Roy, Sameer Erramilli and Robert M. Konik(参考訳) 任意の絡み合った量子状態の効率的な合成は量子計算に不可欠である。 これは、変分ハイブリッド量子古典アルゴリズムに依存するうるさい中間スケール量子シミュレータにとって特に重要である。 そこで我々は,対称保存型量子近似最適化アルゴリズム~(SCom-QAOA)回路を提案する。 これらの回路の深さは、目的状態に対する所望の忠実度だけでなく、状態が含む絡み合いの量にも依存する。 SCom-QAOA回路のパラメータは、フビニ・スタディ計量に基づく量子自然勾配法を用いて最適化される。 SCom-QAOA回路は、非絡み合った状態を、システムサイズではなく、有限相関長に依存する回路深度で、ギャップ付き1次元ハミルトンの基底状態に変換する。 対照的に、回路の深さは臨界1次元系の低次状態を作成するためのシステムサイズに比例して大きくなる。 後者の場合においても、SCom-QAOA回路はシステムサイズよりも深さが小さいため、99\%を超える忠実な状態を生成するのに十分であった。 提案手法は、変分量子アルゴリズムで利用できる初期状態の集合を拡大し、量子シミュレータにおける非平衡現象の研究範囲を広げる。

Efficient preparation of arbitrary entangled quantum states is crucial for quantum computation. This is particularly important for noisy intermediate scale quantum simulators relying on variational hybrid quantum-classical algorithms. To that end, we propose symmetry-conserving modified quantum approximate optimization algorithm~(SCom-QAOA) circuits. The depths of these circuits depend not only on the desired fidelity to the target state, but also on the amount of entanglement the state contains. The parameters of the SCom-QAOA circuits are optimized using the quantum natural gradient method based on the Fubini-Study metric. The SCom-QAOA circuit transforms an unentangled state into a ground state of a gapped one-dimensional Hamiltonian with a circuit-depth that depends not on the system-size, but rather on the finite correlation length. In contrast, the circuit depth grows proportionally to the system size for preparing low-lying states of critical one-dimensional systems. Even in the latter case, SCom-QAOA circuits with depth less than the system-size were sufficient to generate states with fidelity in excess of 99\%, which is relevant for near-term applications. The proposed scheme enlarges the set of the initial states accessible for variational quantum algorithms and widens the scope of investigation of non-equilibrium phenomena in quantum simulators.
翻訳日:2023-10-18 01:26:35 公開日:2023-10-16
# スペクトル理論から統計的独立へ : システム同定への応用

From Spectral Theorem to Statistical Independence with Application to System Identification ( http://arxiv.org/abs/2310.10523v1 )

ライセンス: Link先を確認
Muhammad Abdullah Naeem, Amir Khazraei and Miroslav Pajic(参考訳) サイバーフィジカルシステム、s&p 1500の異なるストックに対する日々のリターン、mckeanvlasovリミット周辺の相互作用粒子系の速度プロファイルなどを含む、高次元のランダム力学系はユビキタスである。 数学的には、基礎となる現象は安定な$n$-次元線型変換 `$a$' と加法ランダムネスによって捉えることができる。 システム同定は、基礎となる力学系に関する有用な情報を抽出することを目的としており、それから長さ$n$の軌道(n \times n$ 次元データ行列に対応)が与えられる。 非エルミート作用素に対するスペクトル定理を用いて、状態遷移行列に対応する異なる固有値の代数的および幾何学的多重性の差によって時空間相関が引き起こされることを示す。 小さな相違点は、元の軌道は本質的には$A$不変部分空間上の複数の低次元ランダムな力学系から成り、統計的に互いに独立であることを意味する。 この過程において、状態遷移行列 $\|a^{k}\|$ の有限の力の減衰率に関する最初の定量的な取り扱いを提供する。 安定な力学系が 1 つの固有値しか持たず、その差が $n-1$ であることが示されている: $\|a\|$ は $n$ に依存するので、結果として得られる力学系は空間的に分離できず、典型的大きさの共変量を持つ少なくとも 1 行が存在する。 これらの結果を踏まえて、要素分解誤差が本質的によく知られたリトルウッド・オブフォード問題の変種であることを示すことにより、観測軌道上の状態遷移行列 $a$ の最小二乗回帰推定における非漸近的誤差解析の段階を設定した。

High dimensional random dynamical systems are ubiquitous, including -- but not limited to -- cyber-physical systems, daily return on different stocks of S&P 1500 and velocity profile of interacting particle systems around McKeanVlasov limit. Mathematically, underlying phenomenon can be captured via a stable $n$-dimensional linear transformation `$A$' and additive randomness. System identification aims at extracting useful information about underlying dynamical system, given a length $N$ trajectory from it (corresponds to an $n \times N$ dimensional data matrix). We use spectral theorem for non-Hermitian operators to show that spatio-temperal correlations are dictated by the discrepancy between algebraic and geometric multiplicity of distinct eigenvalues corresponding to state transition matrix. Small discrepancies imply that original trajectory essentially comprises of multiple lower dimensional random dynamical systems living on $A$ invariant subspaces and are statistically independent of each other. In the process, we provide first quantitative handle on decay rate of finite powers of state transition matrix $\|A^{k}\|$ . It is shown that when a stable dynamical system has only one distinct eigenvalue and discrepancy of $n-1$: $\|A\|$ has a dependence on $n$, resulting dynamics are spatially inseparable and consequently there exist at least one row with covariates of typical size $\Theta\big(\sqrt{N-n+1}$ $e^{n}\big)$ i.e., even under stability assumption, covariates can suffer from curse of dimensionality. In the light of these findings we set the stage for non-asymptotic error analysis in estimation of state transition matrix $A$ via least squares regression on observed trajectory by showing that element-wise error is essentially a variant of well-know Littlewood-Offord problem.
翻訳日:2023-10-18 01:26:14 公開日:2023-10-16
# 機械学習サロゲートモデルによる太陽系外惑星大気パラメータ検索のためのベイズ後方分布の再現

Reproducing Bayesian Posterior Distributions for Exoplanet Atmospheric Parameter Retrievals with a Machine Learning Surrogate Model ( http://arxiv.org/abs/2310.10521v1 )

ライセンス: Link先を確認
Eyup B. Unlu, Roy T. Forestano, Konstantin T. Matchev, Katia Matcheva(参考訳) 本稿では,TauRexのような典型的な検索ソフトウェアを用いたトランジット惑星の透過スペクトルから得られた外惑星大気パラメータのベイズ後部分布を再現する機械学習に基づく代理モデルについて述べる。 このモデルは、惑星半径、大気温度、および5つの一般的な吸収剤の混合比である$H_2O$、$CH_4$、$NH_3$、$CO2$の7つのパラメータの真理分布に基づいて訓練されている。 モデルの性能は、ドメインにインスパイアされた特徴の事前処理と半教師付き学習を用いて向上し、利用可能な大量の未学習トレーニングデータを活用する。 このモデルは、2023年のariel machine learning data challengeで優勝したソリューションの1つだった。

We describe a machine-learning-based surrogate model for reproducing the Bayesian posterior distributions for exoplanet atmospheric parameters derived from transmission spectra of transiting planets with typical retrieval software such as TauRex. The model is trained on ground truth distributions for seven parameters: the planet radius, the atmospheric temperature, and the mixing ratios for five common absorbers: $H_2O$, $CH_4$, $NH_3$, $CO$ and $CO_2$. The model performance is enhanced by domain-inspired preprocessing of the features and the use of semi-supervised learning in order to leverage the large amount of unlabelled training data available. The model was among the winning solutions in the 2023 Ariel Machine Learning Data Challenge.
翻訳日:2023-10-18 01:25:39 公開日:2023-10-16
# トレンドフォロー戦略のための金融時系列学習パターン

Few-Shot Learning Patterns in Financial Time-Series for Trend-Following Strategies ( http://arxiv.org/abs/2310.10500v1 )

ライセンス: Link先を確認
Kieran Wood, Samuel Kessler, Stephen J. Roberts, Stefan Zohren(参考訳) 2020年の新型コロナウイルス(covid-19)パンデミックの到来で市場状況が劇的に変化し、多くの予測モデルが損失を計上したように、システム的取引戦略の予測モデルは金融市場の状況が変化するとすぐには適応しない。 このような状況に対処するため,我々は,新たな市場状況に迅速に適応可能な,新たな時系列トレンド追従予測器を提案する。 私たちは、ディープラーニングコミュニティからの最近の開発を活用し、ほんの少しの学習を使用します。 本稿では,金融時系列体制の状況に係わる役割を担うクロス注意時系列トレンドネットワーク(X-Trend)を提案する。 x-trendは、コンテキストセット内の類似のパターンからトレンドを転送し、予測を行い、新しいターゲットレジームのポジションを取る。 x-trendは、2018年から2023年までの混乱した市場期間において、神経予測器よりも18.9%、従来の時系列モーメント戦略よりも10倍の急上昇で、新しい金融体制に迅速に適応することができる。 われわれの戦略は、ニューラル・フォカスターの2倍の速さで回復する。 また、X-Trendは5倍のシャープ比を、同じ期間にニューラルな時系列トレンド予測器から得ることで、新規の目に見えない金融資産のゼロショットポジションを取ることもできる。 x-trendは翌日の価格を予測し、取引信号を出力する。 さらに、クロスアテンション機構により、コンテキストセット内の予測とパターンの関係を解釈することができる。

Forecasting models for systematic trading strategies do not adapt quickly when financial market conditions change, as was seen in the advent of the COVID-19 pandemic in 2020, when market conditions changed dramatically causing many forecasting models to take loss-making positions. To deal with such situations, we propose a novel time-series trend-following forecaster that is able to quickly adapt to new market conditions, referred to as regimes. We leverage recent developments from the deep learning community and use few-shot learning. We propose the Cross Attentive Time-Series Trend Network - X-Trend - which takes positions attending over a context set of financial time-series regimes. X-Trend transfers trends from similar patterns in the context set to make predictions and take positions for a new distinct target regime. X-Trend is able to quickly adapt to new financial regimes with a Sharpe ratio increase of 18.9% over a neural forecaster and 10-fold over a conventional Time-series Momentum strategy during the turbulent market period from 2018 to 2023. Our strategy recovers twice as quickly from the COVID-19 drawdown compared to the neural-forecaster. X-Trend can also take zero-shot positions on novel unseen financial assets obtaining a 5-fold Sharpe ratio increase versus a neural time-series trend forecaster over the same period. X-Trend both forecasts next-day prices and outputs a trading signal. Furthermore, the cross-attention mechanism allows us to interpret the relationship between forecasts and patterns in the context set.
翻訳日:2023-10-18 01:25:23 公開日:2023-10-16
# 単一光子量子ウォークによる解釈可能な量子機械学習

Towards interpretable quantum machine learning via single-photon quantum walks ( http://arxiv.org/abs/2301.13669v2 )

ライセンス: Link先を確認
Fulvio Flamini, Marius Krumm, Lukas J. Fiderer, Thomas M\"uller, and Hans J. Briegel(参考訳) 変分量子アルゴリズムは、古典的ニューラルネットワークをパラメトリズド量子回路に置き換える量子機械学習における有望なアプローチである。 しかし、どちらのアプローチも明確な制限、すなわち解釈可能性の欠如に苦しんでいる。 本稿では,人工知能の解釈を目的とした強化学習モデルである射影シミュレーション(PS)の定量化手法を提案する。 PSにおける決定は、エージェントのメモリを記述するグラフ上のランダムウォークとしてモデル化される。 量子化モデルを実現するために、可変アルゴリズムによって訓練された可変メイス・ゼーダー干渉計の格子内の単一光子の量子ウォークを考える。 転送学習の例を用いて、量子化PSモデルが量子干渉を利用して古典的手法以上の能力を得ることができることを示す。 最後に,意思決定過程の学習と追跡における量子干渉の役割について論じ,解釈可能な量子学習エージェントの実現に向けての方法を提案する。

Variational quantum algorithms represent a promising approach to quantum machine learning where classical neural networks are replaced by parametrized quantum circuits. However, both approaches suffer from a clear limitation, that is a lack of interpretability. Here, we present a variational method to quantize projective simulation (PS), a reinforcement learning model aimed at interpretable artificial intelligence. Decision making in PS is modeled as a random walk on a graph describing the agent's memory. To implement the quantized model, we consider quantum walks of single photons in a lattice of tunable Mach-Zehnder interferometers trained via variational algorithms. Using an example from transfer learning, we show that the quantized PS model can exploit quantum interference to acquire capabilities beyond those of its classical counterpart. Finally, we discuss the role of quantum interference for training and tracing the decision making process, paving the way for realizations of interpretable quantum learning agents.
翻訳日:2023-10-17 23:38:46 公開日:2023-10-16
# ローカライゼーションは編集をインフォームするか? 因果関係に基づく局所化と言語モデルにおける知識編集の相違

Does Localization Inform Editing? Surprising Differences in Causality-Based Localization vs. Knowledge Editing in Language Models ( http://arxiv.org/abs/2301.04213v2 )

ライセンス: Link先を確認
Peter Hase, Mohit Bansal, Been Kim, Asma Ghandeharioun(参考訳) 言語モデルは事前学習中に大量の事実情報を学習し、最近の研究は、この情報を中層MLP重みのような特定のモデル重みにローカライズしている。 本稿では,既存の方法がモデルに格納されていることを示唆する重みと異なる位置にある重みを編集することで,モデル内の事実の保存方法を変更することが可能であることを示す。 特定のモデルパラメータに事実をローカライズすることで、モデル内の知識をどこで操作するかがわかると期待できるので、これは驚くべきことです。 具体的には、表現記述の局所化の結論(因果トレースとも呼ばれる)が、既存の保存された事実を新しいもので上書きするために、どのモデルMLP層を編集するのが最適かという洞察を与えていないことを示す。 この発見は、過去の作業がどのモデルレイヤを編集するかを選択するためにCausal Tracingに依存するかという疑問を引き起こす。 次に,事実の消去や増幅など,編集問題の変種について考察する。 編集問題の一つでは,編集性能は表現の局所化結果と関係しているが,どのレイヤを編集するかは,より優れた性能予測因子であることが判明した。 我々の結果は、事前訓練された言語モデルがどのように機能するかのより優れた機械的理解が、必ずしも行動の最良の変更方法に関する洞察に結びつくとは限らないことを示唆している。 私たちのコードはhttps://github.com/google/belief-localizationで利用可能です。

Language models learn a great quantity of factual information during pretraining, and recent work localizes this information to specific model weights like mid-layer MLP weights. In this paper, we find that we can change how a fact is stored in a model by editing weights that are in a different location than where existing methods suggest that the fact is stored. This is surprising because we would expect that localizing facts to specific model parameters would tell us where to manipulate knowledge in models, and this assumption has motivated past work on model editing methods. Specifically, we show that localization conclusions from representation denoising (also known as Causal Tracing) do not provide any insight into which model MLP layer would be best to edit in order to override an existing stored fact with a new one. This finding raises questions about how past work relies on Causal Tracing to select which model layers to edit. Next, we consider several variants of the editing problem, including erasing and amplifying facts. For one of our editing problems, editing performance does relate to localization results from representation denoising, but we find that which layer we edit is a far better predictor of performance. Our results suggest, counterintuitively, that better mechanistic understanding of how pretrained language models work may not always translate to insights about how to best change their behavior. Our code is available at https://github.com/google/belief-localization
翻訳日:2023-10-17 23:38:31 公開日:2023-10-16
# 森林火災予測のための深層学習

Deep Learning for Global Wildfire Forecasting ( http://arxiv.org/abs/2211.00534v3 )

ライセンス: Link先を確認
Ioannis Prapas, Akanksha Ahuja, Spyros Kondylatos, Ilektra Karasante, Eleanna Panagiotou, Lazaro Alonso, Charalampos Davalas, Dimitrios Michail, Nuno Carvalhais, Ioannis Papoutsis(参考訳) 気候変動は、火災の悪化によって野火活動が悪化すると予想されている。 世界規模で山火事を予知する能力の向上は、その悪影響を軽減する上で非常に重要である。 本研究では,グローバルファイアデータセットを作成し,セグメンテーション深層学習モデルを用いて,サブシーズンスケールでのグローバルバーンエリアの存在を予測するためのプロトタイプを実証する。 特に,気候,植生,海洋指数,人間関連変数など,季節的および季節的火災要因に関連する様々な変数と,2001-2021年の歴史的焼損地域と山火事発生量を含むオープンアクセス型グローバル分析対応データキューブを提案する。 我々は,地球規模の山火事予測をイメージセグメンテーションタスクとして扱う深層学習モデルを訓練し,燃えているエリア8,16,32,64日前の存在を正確に予測する。 本研究は, 森林火災予測における深層学習の活用を動機とし, 地球規模の山火事の予測改善への道を開く。

Climate change is expected to aggravate wildfire activity through the exacerbation of fire weather. Improving our capabilities to anticipate wildfires on a global scale is of uttermost importance for mitigating their negative effects. In this work, we create a global fire dataset and demonstrate a prototype for predicting the presence of global burned areas on a sub-seasonal scale with the use of segmentation deep learning models. Particularly, we present an open-access global analysis-ready datacube, which contains a variety of variables related to the seasonal and sub-seasonal fire drivers (climate, vegetation, oceanic indices, human-related variables), as well as the historical burned areas and wildfire emissions for 2001-2021. We train a deep learning model, which treats global wildfire forecasting as an image segmentation task and skillfully predicts the presence of burned areas 8, 16, 32 and 64 days ahead of time. Our work motivates the use of deep learning for global burned area forecasting and paves the way towards improved anticipation of global wildfire patterns.
翻訳日:2023-10-17 23:37:35 公開日:2023-10-16
# Bridging Discreteとバックプロパゲーション: ストレートスロットと向こう側

Bridging Discrete and Backpropagation: Straight-Through and Beyond ( http://arxiv.org/abs/2304.08612v3 )

ライセンス: Link先を確認
Liyuan Liu, Chengyu Dong, Xiaodong Liu, Bin Yu, Jianfeng Gao(参考訳) ディープラーニングの基礎となるバックプロパゲーションは、連続変数の計算勾配に限られている。 この制限は離散潜在変数を含む問題に対して問題を引き起こす。 この問題に対処するために,離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。 まず,広く用いられているストレートスルー(st)ヒューリスティックを調べ,勾配の一階近似として機能することを示す。 そこで本研究では,2次数値解法である heun's method を統合することで2次精度を実現する reinmax を提案する。 ReinMaxはHessianや他の二階微分を必要としないため、計算オーバーヘッドは無視できる。 様々なタスクに関する大規模な実験結果は、ReinMaxが最先端技術よりも優れていることを示している。 実装はhttps://github.com/microsoft/reinmaxでリリースされる。

Backpropagation, the cornerstone of deep learning, is limited to computing gradients for continuous variables. This limitation poses challenges for problems involving discrete latent variables. To address this issue, we propose a novel approach to approximate the gradient of parameters involved in generating discrete latent variables. First, we examine the widely used Straight-Through (ST) heuristic and demonstrate that it works as a first-order approximation of the gradient. Guided by our findings, we propose ReinMax, which achieves second-order accuracy by integrating Heun's method, a second-order numerical method for solving ODEs. ReinMax does not require Hessian or other second-order derivatives, thus having negligible computation overheads. Extensive experimental results on various tasks demonstrate the superiority of ReinMax over the state of the art. Implementations are released at https://github.com/microsoft/ReinMax.
翻訳日:2023-10-17 23:27:09 公開日:2023-10-16
# 対実的状況テスト: 公平さによる差別の発見

Counterfactual Situation Testing: Uncovering Discrimination under Fairness given the Difference ( http://arxiv.org/abs/2302.11944v3 )

ライセンス: Link先を確認
Jose M. Alvarez and Salvatore Ruggieri(参考訳) 分類器の識別を検出するための因果的データマイニングフレームワークであるcst(counterfactual situation testing)を提案する。 cstは、行動可能で意味のある方法で答えることを目的としており、直感的な質問は「モデルの結果が、個人、または苦情が、異なる保護された状態であったとしたら、何だったのか? これは、反実的推論を用いた差異から公正性の概念を運用することによって、Tanh et al. (2011) の法的根拠による状況検証を拡張している。 どんな苦情に対しても、分類器が制御およびテストグループを構築するために使用するデータセットにおいて、類似した保護されたインスタンスと非保護されたインスタンスを見つけ、比較します。 訴追者を取り巻く双方のグループを構築する状況テストとは違って,訴追者側が因果的知識を用いて生成した反事実に基づくテストグループを構築する。 counterfactualは、変更時に保護された属性が、分類器が使用する一見中立的な属性にどのように影響するかを反映することを目的としている。 CSTでは、各グループ内の類似した個人を比較検討するが、不一致者とその反事実との相違が考えられるため、双方で異同する。 2つの分類シナリオの枠組みを評価することで,Kusnerら (2017) の対実フェアネス条件を満たした場合でも, 状況検査よりも多くの事例が明らかになった。

We present counterfactual situation testing (CST), a causal data mining framework for detecting discrimination in classifiers. CST aims to answer in an actionable and meaningful way the intuitive question "what would have been the model outcome had the individual, or complainant, been of a different protected status?" It extends the legally-grounded situation testing of Thanh et al. (2011) by operationalizing the notion of fairness given the difference using counterfactual reasoning. For any complainant, we find and compare similar protected and non-protected instances in the dataset used by the classifier to construct a control and test group, where a difference between the decision outcomes of the two groups implies potential individual discrimination. Unlike situation testing, which builds both groups around the complainant, we build the test group on the complainant's counterfactual generated using causal knowledge. The counterfactual is intended to reflect how the protected attribute when changed affects the seemingly neutral attributes used by the classifier, which is taken for granted in many frameworks for discrimination. Under CST, we compare similar individuals within each group but dissimilar individuals across both groups due to the possible difference between the complainant and its counterfactual. Evaluating our framework on two classification scenarios, we show that it uncovers a greater number of cases than situation testing, even when the classifier satisfies the counterfactual fairness condition of Kusner et al. (2017).
翻訳日:2023-10-17 23:25:22 公開日:2023-10-16
# 分散シフトに対する大規模言語モデルのロバストプロンプト最適化

Robust Prompt Optimization for Large Language Models Against Distribution Shifts ( http://arxiv.org/abs/2305.13954v2 )

ライセンス: Link先を確認
Moxin Li, Wenjie Wang, Fuli Feng, Yixin Cao, Jizhi Zhang, Tat-Seng Chua(参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて重要な能力を示している。 しかし、その効果はタスクプロンプトの表現に大きく依存しており、ラベル付きタスクデータを用いた自動プロンプト最適化の研究に繋がる。 我々は,これらの迅速な最適化手法が,顧客レビュー分析などの現実シナリオにおいてLLMに共通するサブポピュレーションシフトなどの分散シフトに対して脆弱であることを明らかにする。 そこで本研究では,ラベル付きソースグループに対して最適化されたプロンプトを,ラベル付きターゲットグループに同時に一般化できるような,分散シフトに対するLSMのロバストなプロンプト最適化法を提案する。 そこで本研究では,対象グループからのラベルなしデータをプロンプト最適化に組み込む汎用的なプロンプト最適化フレームワークを提案する。 大規模な実験結果から,提案フレームワークの有効性が示され,対象群では性能が向上し,ソース群では同等の性能が向上した。

Large Language Model (LLM) has demonstrated significant ability in various Natural Language Processing tasks. However, their effectiveness is highly dependent on the phrasing of the task prompt, leading to research on automatic prompt optimization using labeled task data. We reveal that these prompt optimization techniques are vulnerable to distribution shifts such as subpopulation shifts, which are common for LLMs in real-world scenarios such as customer reviews analysis. In this light, we propose a new problem of robust prompt optimization for LLMs against distribution shifts, which requires the prompt optimized over the labeled source group can simultaneously generalize to an unlabeled target group. To solve this problem, we propose Generalized Prompt Optimization framework, which incorporates the unlabeled data from the target group into prompt optimization. Extensive experimental results demonstrate the effectiveness of the proposed framework with significant performance improvement on the target group and comparable performance on the source group.
翻訳日:2023-10-17 23:18:27 公開日:2023-10-16
# 予測をフリップする最小トレーニングサブセットのリラベル

Relabeling Minimal Training Subset to Flip a Prediction ( http://arxiv.org/abs/2305.12809v3 )

ライセンス: Link先を確認
Jinghan Yang, Linjie Xu, Lequan Yu(参考訳) 機械学習モデルから不十分な予測に直面する場合、基礎となる理由を調査し、その結果を逆転する可能性を探ることが不可欠である。 テストポイント$x_t$で予測をひっくり返すには、最小のトレーニングサブセット$\mathcal{S}_t$をどうやって識別すればよいのか? 拡張影響関数を用いてそのような部分集合を同定し、レバー化する効率的な手順を提案する。 トレーニングポイントの2%未満を許容することは、常に予測を覆すことができる。 このメカニズムは、(1) トレーニングポイントを変更することによってモデル予測に挑戦するアプローチを提供すること、(2) 部分集合の濃度とモデルロバスト性を評価すること(すなわち、$|\mathcal{s}_t|$)、そして、$|\mathcal{s}_t|$ がトレーニングセットのノイズ比と非常に関連していること、および$||\mathcal{s}_t|$ が相関しているが、予測確率と相補的であること、(3) グループ帰属バイアスにつながるトレーニングポイントを明らかにすることである。 私たちの知る限りでは、私たちは、与えられた予測を覆すのに必要な最小限のトレーニングサブセットを特定し、緩和することについて、最初に調査します。

When facing an unsatisfactory prediction from a machine learning model, it is crucial to investigate the underlying reasons and explore the potential for reversing the outcome. We ask: To flip the prediction on a test point $x_t$, how to identify the smallest training subset $\mathcal{S}_t$ we need to relabel? We propose an efficient procedure to identify and relabel such a subset via an extended influence function. We find that relabeling fewer than 2% of the training points can always flip a prediction. This mechanism can serve multiple purposes: (1) providing an approach to challenge a model prediction by altering training points; (2) evaluating model robustness with the cardinality of the subset (i.e., $|\mathcal{S}_t|$); we show that $|\mathcal{S}_t|$ is highly related to the noise ratio in the training set and $|\mathcal{S}_t|$ is correlated with but complementary to predicted probabilities; (3) revealing training points lead to group attribution bias. To the best of our knowledge, we are the first to investigate identifying and relabeling the minimal training subset required to flip a given prediction.
翻訳日:2023-10-17 23:18:11 公開日:2023-10-16
# D$^2$TV:多対多マルチモーダル要約のための二重知識蒸留とターゲット指向ビジョンモデリング

D$^2$TV: Dual Knowledge Distillation and Target-oriented Vision Modeling for Many-to-Many Multimodal Summarization ( http://arxiv.org/abs/2305.12767v2 )

ライセンス: Link先を確認
Yunlong Liang, Fandong Meng, Jiaan Wang, Jinan Xu, Yufeng Chen, Jie Zhou(参考訳) many-to-many multimodal summarization (M$^3$S) タスクは、任意の言語における文書入力と、MMS(Multimodal monolingual summarization)タスクとMXLS(Multimodal cross-lingual summarization)タスクからなる対応する画像シーケンスを持つ任意の言語における要約を生成することを目的としている。 MMS や MXLS に多くの研究が注がれており、近年注目されているが、M$3$S の課題にはほとんど注目されていない。 それに 既存の研究は主に 1)MMSを利用した知識蒸留によるMXLSの高度化,又はMMSの性能を考慮せずに 2) 要約非関連視覚特徴を暗黙的な学習, 明示的な複雑な訓練目的でフィルタリングすることにより, MMSモデルを改善する。 本稿では,まず,m$^3$sという汎用的かつ実用的な課題について述べる。 さらに, m$^3$sタスクのための二重知識蒸留と目標指向視覚モデリングフレームワークを提案する。 具体的には、二重知識蒸留法は、MMSとMXLSの知識を相互に伝達できることを保証し、両者を相互に促進する。 目標指向の視覚機能を提供するため、単純で効果的な目標指向の対比目的が設計され、不要な視覚情報を破棄する責任がある。 多対多設定に関する広範囲な実験により,提案手法の有効性が示された。 さらに、多対多のマルチモーダル要約(m$^3$sum)データセットも提供します。

Many-to-many multimodal summarization (M$^3$S) task aims to generate summaries in any language with document inputs in any language and the corresponding image sequence, which essentially comprises multimodal monolingual summarization (MMS) and multimodal cross-lingual summarization (MXLS) tasks. Although much work has been devoted to either MMS or MXLS and has obtained increasing attention in recent years, little research pays attention to the M$^3$S task. Besides, existing studies mainly focus on 1) utilizing MMS to enhance MXLS via knowledge distillation without considering the performance of MMS or 2) improving MMS models by filtering summary-unrelated visual features with implicit learning or explicitly complex training objectives. In this paper, we first introduce a general and practical task, i.e., M$^3$S. Further, we propose a dual knowledge distillation and target-oriented vision modeling framework for the M$^3$S task. Specifically, the dual knowledge distillation method guarantees that the knowledge of MMS and MXLS can be transferred to each other and thus mutually prompt both of them. To offer target-oriented visual features, a simple yet effective target-oriented contrastive objective is designed and responsible for discarding needless visual information. Extensive experiments on the many-to-many setting show the effectiveness of the proposed approach. Additionally, we will contribute a many-to-many multimodal summarization (M$^3$Sum) dataset.
翻訳日:2023-10-17 23:17:41 公開日:2023-10-16
# 大規模言語モデルによる産業ドメイン固有の質問応答の性能向上

Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering ( http://arxiv.org/abs/2305.11541v3 )

ライセンス: Link先を確認
Fangkai Yang, Pu Zhao, Zezhong Wang, Lu Wang, Jue Zhang, Mohit Garg, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang(参考訳) 大規模言語モデル(LLM)は、オープンドメインタスクにおいて顕著な成果を上げてきたが、実際の産業ドメイン固有のシナリオにおけるパフォーマンスは、特定のドメイン知識が欠如していることから平均的である。 この問題は広く注目を集めているが、関連するベンチマークはほとんどない。 本稿では、Microsoft製品を中心にMSQA(QA)データセットのベンチマークを行い、顧客が遭遇するIT技術問題について述べる。 このデータセットには業界クラウド固有のqa知識が含まれており、一般的なllmで広くカバーされていない領域であり、llmsのドメイン特化能力を高めるための評価方法に適している。 さらに,LLMが熟練していない領域固有のタスクにおいて,より優れたパフォーマンスを実現するための新しいモデル相互作用パラダイムを提案する。 広範な実験により,本手法のアプローチが検索法でよく用いられるllmよりも優れていることが証明された。 ソースコードとサンプルデータを、https://aka.ms/Microsoft_QA.comで公開しています。

Large Language Model (LLM) has gained popularity and achieved remarkable results in open-domain tasks, but its performance in real industrial domain-specific scenarios is average due to its lack of specific domain knowledge. This issue has attracted widespread attention, but there are few relevant benchmarks available. In this paper, we provide a benchmark Question Answering (QA) dataset named MSQA, centered around Microsoft products and IT technical problems encountered by customers. This dataset contains industry cloud-specific QA knowledge, an area not extensively covered in general LLMs, making it well-suited for evaluating methods aiming to enhance LLMs' domain-specific capabilities. In addition, we propose a new model interaction paradigm that can empower LLM to achieve better performance on domain-specific tasks where it is not proficient. Extensive experiments demonstrate that the approach following our method outperforms the commonly used LLM with retrieval methods. We make our source code and sample data available at: https://aka.ms/Microsoft_QA.
翻訳日:2023-10-17 23:16:23 公開日:2023-10-16
# LLM-CXR:CXR画像理解・生成のための命令型LCM

LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation ( http://arxiv.org/abs/2305.11490v3 )

ライセンス: Link先を確認
Suhyeon Lee, Won Jun Kim, Jong Chul Ye(参考訳) LLMの印象的な発展に続いて、マルチモーダル推論と視覚IOを可能にするために、LLMの視覚言語アライメントが活発に研究されている。 この研究の方向性は、医用画像分析と生成が視覚特徴と事前知識の組み合わせに基づく推論で構成されているため、特に医用画像に関係している。 近年の多くの研究は、画像処理ネットワークとllm間の情報ブリッジとして機能するアダプタネットワークの訓練に焦点を当てているが、おそらくは、視覚情報に対するllmの最大推論能力を達成するために、視覚機能と言語機能はより自由に相互作用できるべきである。 これは、胸部X線(CXR)などの医用画像の理解と生成が、正確な視覚的および言語に基づく推論だけでなく、2つのモダリティ間のより親密なマッピングを必要とするため、医療領域において特に重要である。 そこで本稿では, 双方向画像とテキスト生成のためのトランスフォーマとVQ-GANの組み合わせに関する以前の研究から着想を得て, テキストのみに事前学習したLLMを指導し, 医用画像の視覚言語能力を得る手法を開発した。 具体的には、事前学習されたLLMの既存の質問回答と指示追従能力を利用して、画像入力に関する質問に答えるよう指示し、左右対称に、画像ベースのテキスト生成とテキストベースの画像生成を含む多様なタスクでLLMをチューニングすることにより、所定のクエリに適したテキストと画像応答を出力する。 提案手法で学習したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示すとともに,より狭い範囲のタスクを実行する従来開発されたモデルよりも小型であることを示す。 コードはhttps://github.com/hyn2028/llm-cxr。

Following the impressive development of LLMs, vision-language alignment in LLMs is actively being researched to enable multimodal reasoning and visual IO. This direction of research is particularly relevant to medical imaging because medical image analysis and generation consist of reasoning based on a combination of visual features and prior knowledge. Many recent works have focused on training adapter networks that serve as an information bridge between image processing networks and LLMs; but presumably, in order to achieve maximum reasoning potential of LLMs on visual information as well, visual and language features should be allowed to interact more freely. This is especially important in the medical domain because understanding and generating medical images such as chest X-rays (CXR) require not only accurate visual and language-based reasoning but also a more intimate mapping between the two modalities. Thus, taking inspiration from previous work on the transformer and VQ-GAN combination for bidirectional image and text generation, we build upon this approach and develop a method for instruction-tuning an LLM pre-trained only on text to gain vision-language capabilities for medical images. Specifically, we leverage a pretrained LLM's existing question-answering and instruction-following abilities to teach it to understand visual inputs by instructing it to answer questions about image inputs and, symmetrically, output both text and image responses appropriate to a given query by tuning the LLM with diverse tasks that encompass image-based text-generation and text-based image-generation. We show that our model, LLM-CXR, trained in this approach shows better image-text alignment in both CXR understanding and generation tasks while being smaller in size compared to previously developed models that perform a narrower range of tasks. The code is at https://github.com/hyn2028/llm-cxr.
翻訳日:2023-10-17 23:16:07 公開日:2023-10-16
# 一対一:パラメータ効率の良い微調整のための一般化LORA

One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning ( http://arxiv.org/abs/2306.07967v2 )

ライセンス: Link先を確認
Arnav Chavan and Zhuang Liu and Deepak Gupta and Eric Xing and Zhiqiang Shen(参考訳) 汎用LoRA (GLoRA) は, パラメータ効率の高い微調整タスクのための高度な手法である。 低ランク適応(lora)の強化 gloraは、事前トレーニングされたモデル重みを最適化し、中間アクティベーションを調整し、さまざまなタスクやデータセットにまたがる柔軟性と能力を提供する、汎用的なプロンプトモジュールを採用している。 さらにgloraは、各レイヤのアダプタを個別に学習するスケーラブルでモジュール性のある階層構造探索を使用することで、効率的なパラメータ適応を促進する。 統一数学的定式化から派生したgloraは、重みだけでなくアクティベーションのような追加次元によって新しいタスクに適応するため、強い転送学習、少数ショット学習、ドメイン一般化能力を示す。 包括的な実験により、gloraは従来の全ての手法を自然、特殊、構造化した視覚ベンチマークで上回り、より少ないパラメータと計算で優れた精度を達成することが示されている。 LLaMA-1 と LLaMA-2 の手法も言語領域のオリジナルの LoRA と比較して大幅に拡張された。 さらに、構造的再パラメータ化設計により、GLoRAが余分な推論コストを発生させないことが保証され、リソース制限されたアプリケーションに実用的なソリューションとなる。 コードとモデルは、https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRAで入手できる。

We present Generalized LoRA (GLoRA), an advanced approach for universal parameter-efficient fine-tuning tasks. Enhancing Low-Rank Adaptation (LoRA), GLoRA employs a generalized prompt module to optimize pre-trained model weights and adjust intermediate activations, providing more flexibility and capability across diverse tasks and datasets. Moreover, GLoRA facilitates efficient parameter adaptation by employing a scalable, modular, layer-wise structure search that learns individual adapter of each layer. Originating from a unified mathematical formulation, GLoRA exhibits strong transfer learning, few-shot learning and domain generalization abilities, as it adapts to new tasks through not only weights but also additional dimensions like activations. Comprehensive experiments demonstrate that GLoRA outperforms all previous methods in natural, specialized, and structured vision benchmarks, achieving superior accuracy with fewer parameters and computations. The proposed method on LLaMA-1 and LLaMA-2 also show considerable enhancements compared to the original LoRA in the language domain. Furthermore, our structural re-parameterization design ensures that GLoRA incurs no extra inference cost, rendering it a practical solution for resource-limited applications. Code and models are available at: https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA.
翻訳日:2023-10-17 23:07:09 公開日:2023-10-16
# リワードスープ:多様な報酬を微調整した重量補間によるパレート最適アライメントに向けて

Rewarded soups: towards Pareto-optimal alignment by interpolating weights fine-tuned on diverse rewards ( http://arxiv.org/abs/2306.04488v2 )

ライセンス: Link先を確認
Alexandre Ram\'e, Guillaume Couairon, Mustafa Shukor, Corentin Dancette, Jean-Baptiste Gaya, Laure Soulier and Matthieu Cord(参考訳) ファンデーションモデルは、最初は大量の教師なしデータセットで事前トレーニングされ、次にラベル付きデータで微調整される。 強化学習、特に人間からのフィードバック(RLHF)は、ネットワークを意図した用途に合わせることができる。 しかし、代理報酬の不完全性はトレーニングを妨げ、最適な結果をもたらす可能性がある。 本稿では,マルチポリシー戦略に従うことによって,多様な報酬の多様性を受け入れることを提案する。 1つの優先報酬に焦点をあてるのではなく、選好空間全体にわたってパレート最適一般化を目指す。 そこで我々は、まず複数のネットワークを独立に(プロキシの報酬ごとに)指定し、その重みを線形に補間する報奨スープを提案する。 これは経験的に成功し、共有事前学習された初期化から様々な報酬を微調整した場合、重みが線形に連結されることを示したためである。 我々は,テキスト・ツー・テキスト(要約,Q&A,補助アシスタント,レビュー),テキスト・イメージ(画像キャプション,テキスト・ツー・イメージ生成,視覚的グラウンド,VQA),制御(移動)タスクに対するアプローチの有効性を示す。 私たちは、深層モデルの整合性を高め、その多様性のすべてにおいて、どのように世界と相互作用するかを望んでいる。

Foundation models are first pre-trained on vast unsupervised datasets and then fine-tuned on labeled data. Reinforcement learning, notably from human feedback (RLHF), can further align the network with the intended usage. Yet the imperfections in the proxy reward may hinder the training and lead to suboptimal results; the diversity of objectives in real-world tasks and human opinions exacerbate the issue. This paper proposes embracing the heterogeneity of diverse rewards by following a multi-policy strategy. Rather than focusing on a single a priori reward, we aim for Pareto-optimal generalization across the entire space of preferences. To this end, we propose rewarded soup, first specializing multiple networks independently (one for each proxy reward) and then interpolating their weights linearly. This succeeds empirically because we show that the weights remain linearly connected when fine-tuned on diverse rewards from a shared pre-trained initialization. We demonstrate the effectiveness of our approach for text-to-text (summarization, Q&A, helpful assistant, review), text-image (image captioning, text-to-image generation, visual grounding, VQA), and control (locomotion) tasks. We hope to enhance the alignment of deep models, and how they interact with the world in all its diversity.
翻訳日:2023-10-17 23:06:15 公開日:2023-10-16
# 脳のモデルにおける配列による計算

Computation with Sequences in a Model of the Brain ( http://arxiv.org/abs/2306.03812v2 )

ライセンス: Link先を確認
Max Dabagia, Christos H. Papadimitriou, Santosh S. Vempala(参考訳) 機械学習は多くのアプリケーションで人間レベルのパフォーマンスを上回っているが、脳の学習能力の汎用性、堅牢性、迅速性は相容れないままである。 神経活動から認知がどのように生じるかは、神経科学において中心的なオープンな問題であり、知性自体の研究から不可解である。 神経活動の単純な形式モデルがpadimitriou [2020]で提案され、その後、数学的証明とシミュレーションの両方を通じて、ニューロンのアセンブリの作成と操作を通じて、特定の単純な認知操作を実行することができることが示されている。 しかし、多くの知的行動は刺激の時間的シーケンス(計画、言語、ナビゲーションなど)を認識し、記憶し、操作する能力に依存している。 ここでは, 同じモデルにおいて, シナプス重みと可塑性により, 時刻を優先的に捉えることができ, 結果として, 集合列上の計算範囲を計算できることを示す。 特に、一連の刺激の繰り返しの提示は、対応する神経集合体を通して配列を記憶させる: 配列内の任意の刺激の将来の提示では、対応するアセンブリとその後続の刺激は、配列の終わりまで、それぞれ活性化される。 最後に、任意の有限状態機械は、適切なシーケンスパターンの提示を通じて、同様の方法で学習できることを示す。 この機構の拡張により、モデルは普遍的な計算が可能であることが示される。 我々は、このモデルにおける学習の限界を重要な方法で探究するために、いくつかの実験で分析を支援します。 これらの結果は、脳の卓越した計算と学習能力の基礎となる具体的な仮説を与え、配列が重要な役割を担っている。

Even as machine learning exceeds human-level performance on many applications, the generality, robustness, and rapidity of the brain's learning capabilities remain unmatched. How cognition arises from neural activity is a central open question in neuroscience, inextricable from the study of intelligence itself. A simple formal model of neural activity was proposed in Papadimitriou [2020] and has been subsequently shown, through both mathematical proofs and simulations, to be capable of implementing certain simple cognitive operations via the creation and manipulation of assemblies of neurons. However, many intelligent behaviors rely on the ability to recognize, store, and manipulate temporal sequences of stimuli (planning, language, navigation, to list a few). Here we show that, in the same model, time can be captured naturally as precedence through synaptic weights and plasticity, and, as a result, a range of computations on sequences of assemblies can be carried out. In particular, repeated presentation of a sequence of stimuli leads to the memorization of the sequence through corresponding neural assemblies: upon future presentation of any stimulus in the sequence, the corresponding assembly and its subsequent ones will be activated, one after the other, until the end of the sequence. Finally, we show that any finite state machine can be learned in a similar way, through the presentation of appropriate patterns of sequences. Through an extension of this mechanism, the model can be shown to be capable of universal computation. We support our analysis with a number of experiments to probe the limits of learning in this model in key ways. Taken together, these results provide a concrete hypothesis for the basis of the brain's remarkable abilities to compute and learn, with sequences playing a vital role.
翻訳日:2023-10-17 23:05:52 公開日:2023-10-16
# SnapFusion:2秒以内にモバイルデバイス上でのテキストと画像の拡散モデル

SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two Seconds ( http://arxiv.org/abs/2306.00980v3 )

ライセンス: Link先を確認
Yanyu Li, Huan Wang, Qing Jin, Ju Hu, Pavlo Chemerys, Yun Fu, Yanzhi Wang, Sergey Tulyakov, Jian Ren(参考訳) テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語記述から素晴らしい画像を作ることができる。 しかし、これらのモデルは大規模であり、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションがあり、計算コストが高く、実行が遅い。 その結果、大規模に拡散モデルを実行するには、ハイエンドGPUとクラウドベースの推論が必要である。 これはコストが高く、特にユーザデータがサードパーティに送信された場合、プライバシーに影響を及ぼす。 これらの課題を克服するために,我々は,モバイル端末上でテキストから画像への拡散モデルを実行する際,初めて2ドル未満でアンロックを行う方法を提案する。 我々は,効率的なネットワークアーキテクチャを導入し,ステップ蒸留を改善した。 具体的には, 元のモデルの冗長性を同定し, データ蒸留による画像デコーダの計算量を削減することで, 効率的な unet を提案する。 さらに, 学習戦略を探究し, 分類器なし指導からの正規化を導入することで, ステップ蒸留の促進を図る。 ms-cocoでの広範な実験で、我々のモデルは8ドルのステップで、安定した拡散v$1.5$と50ドルのステップよりも良いfidとクリップスコアが得られることが分かりました。 私たちの仕事は、強力なテキストから画像への拡散モデルによって、コンテンツの創造を民主化します。

Text-to-image diffusion models can create stunning images from natural language descriptions that rival the work of professional artists and photographers. However, these models are large, with complex network architectures and tens of denoising iterations, making them computationally expensive and slow to run. As a result, high-end GPUs and cloud-based inference are required to run diffusion models at scale. This is costly and has privacy implications, especially when user data is sent to a third party. To overcome these challenges, we present a generic approach that, for the first time, unlocks running text-to-image diffusion models on mobile devices in less than $2$ seconds. We achieve so by introducing efficient network architecture and improving step distillation. Specifically, we propose an efficient UNet by identifying the redundancy of the original model and reducing the computation of the image decoder via data distillation. Further, we enhance the step distillation by exploring training strategies and introducing regularization from classifier-free guidance. Our extensive experiments on MS-COCO show that our model with $8$ denoising steps achieves better FID and CLIP scores than Stable Diffusion v$1.5$ with $50$ steps. Our work democratizes content creation by bringing powerful text-to-image diffusion models to the hands of users.
翻訳日:2023-10-17 23:05:23 公開日:2023-10-16
# スペクトル分解による深層化

Going Deeper with Spectral Decompositions ( http://arxiv.org/abs/2306.00742v2 )

ライセンス: Link先を確認
Vivien Cabannes, Francis Bach(参考訳) 歴史的に、機械学習コミュニティはグラフベースのアプローチからスペクトル分解を導出した。 このアプローチを破り、ガレルキン法の統計的および計算的優越性を証明し、研究を少数のテスト関数に限定する。 特に,大きな次元の微分演算子を構造化カーネルで扱うための実装手法を導入する。 最後に、損失ベースの最適化手順を通じて、ディープニューラルネットワークによってパラメータ化される関数など、関数の非線形空間に適用するためのアプローチ以外のコア原則を拡張します。

Historically, the machine learning community has derived spectral decompositions from graph-based approaches. We break with this approach and prove the statistical and computational superiority of the Galerkin method, which consists in restricting the study to a small set of test functions. In particular, we introduce implementation tricks to deal with differential operators in large dimensions with structured kernels. Finally, we extend on the core principles beyond our approach to apply them to non-linear spaces of functions, such as the ones parameterized by deep neural networks, through loss-based optimization procedures.
翻訳日:2023-10-17 23:05:00 公開日:2023-10-16
# chatgpt v bard v bing v claude 2 v aria v human-expert。 科学書のAIチャットボットはどれくらい優れているか?

ChatGPT v Bard v Bing v Claude 2 v Aria v human-expert. How good are AI chatbots at scientific writing? ( http://arxiv.org/abs/2309.08636v3 )

ライセンス: Link先を確認
Edisa Lozi\'c and Benjamin \v{S}tular(参考訳) 熟達を書くことの歴史的重点は、生成的AI、特に科学的な文章の進歩とともにシフトしてきた。 この研究は、6つのAIチャットボットを分析し、人文科学と考古学を学術的に記述した。 事実の正しさと科学的貢献を評価する手法を用いて、ChatGPT-4は高い定量精度を示し、次いでChatGPT-3.5、Bing、Bardが続いた。 しかし、クロード2とアリアの得点はかなり低かった。 質的に言えば、すべてのAIは既存の知識を融合する能力を示したが、オリジナルの科学的内容は得られなかった。 この間,chatgpt-4は大きな言語モデルの大きさの高原である可能性が示唆された。 この研究は、人間の研究の独特で複雑な性質を強調し、AIが科学的執筆において人間の独創性をエミュレートすることは難しいことを示唆している。 2023年現在、AIはコンテンツ生成を変革しているが、人文科学におけるオリジナルの貢献に苦戦している。 AIチャットボットがLLMベースのソフトウェアに進化し続ければ、これは変わるかもしれない。

Historical emphasis on writing mastery has shifted with advances in generative AI, especially in scientific writing. This study analysed six AI chatbots for scholarly writing in humanities and archaeology. Using methods that assessed factual correctness and scientific contribution, ChatGPT-4 showed the highest quantitative accuracy, closely followed by ChatGPT-3.5, Bing, and Bard. However, Claude 2 and Aria scored considerably lower. Qualitatively, all AIs exhibited proficiency in merging existing knowledge, but none produced original scientific content. Inter-estingly, our findings suggest ChatGPT-4 might represent a plateau in large language model size. This research emphasizes the unique, intricate nature of human research, suggesting that AI's emulation of human originality in scientific writing is challenging. As of 2023, while AI has transformed content generation, it struggles with original contributions in humanities. This may change as AI chatbots continue to evolve into LLM-powered software.
翻訳日:2023-10-17 22:57:52 公開日:2023-10-16
# RaLLe: 大規模言語モデルの検索と評価のためのフレームワーク

RaLLe: A Framework for Developing and Evaluating Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2308.10633v2 )

ライセンス: Link先を確認
Yasuto Hoshi, Daisuke Miyashita, Youyang Ng, Kento Tatsuno, Yasuhiro Morioka, Osamu Torii, Jun Deguchi(参考訳) Retrieval-augmented large language model (R-LLMs) は、事前訓練された大言語モデル(LLMs)と情報検索システムを組み合わせて、事実質問の精度を向上させる。 しかし、R-LLMを構築するための現在のライブラリは、検索や生成のような特定の推論プロセス内でプロンプトを評価し最適化するのに十分な透明性を持たず、ハイレベルな抽象化を提供する。 このギャップに対処するため,R-LLMの開発,評価,最適化を容易にするオープンソースのフレームワークであるRaLLeを提案する。 RaLLeを使えば、開発者は簡単にR-LLMを開発、評価でき、手作りのプロンプトを改善し、個々の推論プロセスを評価し、システム全体のパフォーマンスを定量的に測定できる。 これらの機能を活用することで、開発者は知識集約型生成タスクにおけるR-LLMのパフォーマンスと精度を向上させることができる。 ソースコードはhttps://github.com/yhoshi3/RaLLe.comで公開しています。

Retrieval-augmented large language models (R-LLMs) combine pre-trained large language models (LLMs) with information retrieval systems to improve the accuracy of factual question-answering. However, current libraries for building R-LLMs provide high-level abstractions without sufficient transparency for evaluating and optimizing prompts within specific inference processes such as retrieval and generation. To address this gap, we present RaLLe, an open-source framework designed to facilitate the development, evaluation, and optimization of R-LLMs for knowledge-intensive tasks. With RaLLe, developers can easily develop and evaluate R-LLMs, improving hand-crafted prompts, assessing individual inference processes, and objectively measuring overall system performance quantitatively. By leveraging these features, developers can enhance the performance and accuracy of their R-LLMs in knowledge-intensive generation tasks. We open-source our code at https://github.com/yhoshi3/RaLLe.
翻訳日:2023-10-17 22:57:33 公開日:2023-10-16
# 構成拡散モデルによるデータ保護の訓練

Training Data Protection with Compositional Diffusion Models ( http://arxiv.org/abs/2308.01937v2 )

ライセンス: Link先を確認
Aditya Golatkar, Alessandro Achille, Ashwin Swaminathan, Stefano Soatto(参考訳) 本研究では,異なるデータソース上で異なる拡散モデル(あるいはプロンプト)を訓練し,任意に合成する手法であるpartmentalized diffusion models (cdm)を提案する。 個々のモデルは、独立して、異なる時間に、異なる分布とドメインでトレーニングでき、後にすべてのデータでトレーニングされたパラゴンモデルに匹敵するパフォーマンスを達成するために構成することができる。 さらに、各モデルにはトレーニング中に公開したデータのサブセットに関する情報のみが含まれており、いくつかの形式のトレーニングデータ保護を可能にする。 特に、CDMは、大規模拡散モデルに対する選択的忘れと継続学習の両方を可能にするとともに、ユーザのアクセス権に基づいてカスタマイズされたモデルを提供するための最初の方法である。 CDMはまた、特定のサンプルを生成する際のデータのサブセットの重要性を決定することができる。

We introduce Compartmentalized Diffusion Models (CDM), a method to train different diffusion models (or prompts) on distinct data sources and arbitrarily compose them at inference time. The individual models can be trained in isolation, at different times, and on different distributions and domains and can be later composed to achieve performance comparable to a paragon model trained on all data simultaneously. Furthermore, each model only contains information about the subset of the data it was exposed to during training, enabling several forms of training data protection. In particular, CDMs are the first method to enable both selective forgetting and continual learning for large-scale diffusion models, as well as allowing serving customized models based on the user's access rights. CDMs also allow determining the importance of a subset of the data in generating particular samples.
翻訳日:2023-10-17 22:56:30 公開日:2023-10-16
# HyPoradise: 大規模言語モデルを用いた生成音声認識のためのオープンベースライン

HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models ( http://arxiv.org/abs/2309.15701v2 )

ライセンス: Link先を確認
Chen Chen, Yuchen Hu, Chao-Han Huck Yang, Sabato Macro Siniscalchi, Pin-Yu Chen, Eng Siong Chng(参考訳) ディープニューラルネットワークの進歩により、自動音声認識(ASR)システムは、公開されているクリーンな音声データセットで人間のパリティを達成できるようになった。 しかし、最先端のasrシステムでさえ、悪条件に直面すると性能が低下し、よく訓練された音響モデルは、例えば背景雑音のような音声領域の変化に敏感である。 直感的には、人間は言語的知識に頼ることでこの問題に対処する: あいまいな言葉の意味は通常、文脈的手がかりから推測されるので、聴覚システムへの依存を減らす。 この観察に触発されて我々は、asr誤り訂正に外部大言語モデル(llm)を利用する最初のオープンソースベンチマークを紹介し、n-bestデコード仮説が真の転写予測に有用な要素を提供する。 このアプローチは、1つの仮説のみを出力転写として選択できる従来の言語モデル再構成戦略からパラダイムシフトである。 提案するベンチマークには,334,000組以上のN-best仮説とそれに対応する音声領域の正確な転写を含む新しいデータセットHyPoradise (HP)が含まれている。 本データセットを用いて,ラベル付き仮説-書き起こしペアを多量に有するLLMに基づく3種類の誤り訂正手法について検討し,単語誤り率(WER)を大幅に低減する。 実験的な証拠は,提案手法が従来の再ランク付け手法の上限を超えることによって,ブレークスルーを達成することを示している。 さらに驚くべきことに、適切なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。 そこで本研究では,LLM を用いた ASR 誤り訂正のための新たな評価パラダイムを提供する。

Advancements in deep neural networks have allowed automatic speech recognition (ASR) systems to attain human parity on several publicly available clean speech datasets. However, even state-of-the-art ASR systems experience performance degradation when confronted with adverse conditions, as a well-trained acoustic model is sensitive to variations in the speech domain, e.g., background noise. Intuitively, humans address this issue by relying on their linguistic knowledge: the meaning of ambiguous spoken terms is usually inferred from contextual cues thereby reducing the dependency on the auditory system. Inspired by this observation, we introduce the first open-source benchmark to utilize external large language models (LLMs) for ASR error correction, where N-best decoding hypotheses provide informative elements for true transcription prediction. This approach is a paradigm shift from the traditional language model rescoring strategy that can only select one candidate hypothesis as the output transcription. The proposed benchmark contains a novel dataset, HyPoradise (HP), encompassing more than 334,000 pairs of N-best hypotheses and corresponding accurate transcriptions across prevalent speech domains. Given this dataset, we examine three types of error correction techniques based on LLMs with varying amounts of labeled hypotheses-transcription pairs, which gains a significant word error rate (WER) reduction. Experimental evidence demonstrates the proposed technique achieves a breakthrough by surpassing the upper bound of traditional re-ranking based methods. More surprisingly, LLM with reasonable prompt and its generative capability can even correct those tokens that are missing in N-best list. We make our results publicly accessible for reproducible pipelines with released pre-trained models, thus providing a new evaluation paradigm for ASR error correction with LLMs.
翻訳日:2023-10-17 22:44:35 公開日:2023-10-16
# 思考推論の連鎖に関する調査 : 進歩,フロンティア,未来

A Survey of Chain of Thought Reasoning: Advances, Frontiers and Future ( http://arxiv.org/abs/2309.15402v2 )

ライセンス: Link先を確認
Zheng Chu, Jingchang Chen, Qianglong Chen, Weijiang Yu, Tao He, Haotian Wang, Weihua Peng, Ming Liu, Bing Qin, Ting Liu(参考訳) 人間の知性に根ざした認知プロセスである思考の連鎖推論は、人工知能と自然言語処理の分野で大きな注目を集めている。 しかし、この競技場に関する総合的な調査がまだ残っていない。 この目的のために、我々はまず第一歩を踏み出し、この研究分野を慎重に、広く調査する。 我々は X-of-Thought を広い意味で Chain-of-Thought と呼ぶ。 具体的には,XoT構築,XoT構造変異,拡張XoTを含む手法の分類に基づいて,現在の研究を体系的に整理する。 さらに,xot をフロンティアアプリケーションで記述し,計画,ツール使用,蒸留について述べる。 さらに, 課題に対処し, 忠実性, マルチモーダル, 理論など, 今後の方向性について論じる。 この調査が、チェーン・オブ・シークレット・推論の領域内で革新を目指す研究者にとって、貴重なリソースになることを願っています。

Chain-of-thought reasoning, a cognitive process fundamental to human intelligence, has garnered significant attention in the realm of artificial intelligence and natural language processing. However, there still remains a lack of a comprehensive survey for this arena. To this end, we take the first step and present a thorough survey of this research field carefully and widely. We use X-of-Thought to refer to Chain-of-Thought in a broad sense. In detail, we systematically organize the current research according to the taxonomies of methods, including XoT construction, XoT structure variants, and enhanced XoT. Additionally, we describe XoT with frontier applications, covering planning, tool use, and distillation. Furthermore, we address challenges and discuss some future directions, including faithfulness, multi-modal, and theory. We hope this survey serves as a valuable resource for researchers seeking to innovate within the domain of chain-of-thought reasoning.
翻訳日:2023-10-17 22:44:07 公開日:2023-10-16
# インドにおける法的質問応答--現代のaiモデルの有効性、課題、可能性

Legal Question-Answering in the Indian Context: Efficacy, Challenges, and Potential of Modern AI Models ( http://arxiv.org/abs/2309.14735v2 )

ライセンス: Link先を確認
Shubham Kumar Nigam, Shubham Kumar Mishra, Ayush Kumar Mishra, Noel Shallum and Arnab Bhattacharya(参考訳) 法的なQAプラットフォームは、法の専門家が法学的な文書を扱う方法を変えることを約束する。 この展示会で私たちは、現代のaiフレームワークの比較調査に着手し、インドの法律milieuのユニークな要求に対応し、インドの法的質問応答(ailqa)に重点を置いている。 本論文では,OpenAI GPTモデルを基準点として,検索とQA機構の配列をゼロとする。 この知見は、自然言語のプロンプトを復号し、正確な応答を切断する上で、AILQAパラダイムが広く普及していることを示す。 本研究の根拠は、その複雑な性質と関連する論理的制約によって区別される、インドの刑事法的な景観と結びついている。 包括的評価を保証するため、我々は、経験的メトリクスを、経験豊富な法律実務者から得られた洞察で調整し、インド法QAの領域におけるAIの可能性と課題の全体像を描く。

Legal QA platforms bear the promise to metamorphose the manner in which legal experts engage with jurisprudential documents. In this exposition, we embark on a comparative exploration of contemporary AI frameworks, gauging their adeptness in catering to the unique demands of the Indian legal milieu, with a keen emphasis on Indian Legal Question Answering (AILQA). Our discourse zeroes in on an array of retrieval and QA mechanisms, positioning the OpenAI GPT model as a reference point. The findings underscore the proficiency of prevailing AILQA paradigms in decoding natural language prompts and churning out precise responses. The ambit of this study is tethered to the Indian criminal legal landscape, distinguished by its intricate nature and associated logistical constraints. To ensure a holistic evaluation, we juxtapose empirical metrics with insights garnered from seasoned legal practitioners, thereby painting a comprehensive picture of AI's potential and challenges within the realm of Indian legal QA.
翻訳日:2023-10-17 22:43:52 公開日:2023-10-16
# 任意に小さい非局所性からの非有界デバイス非依存量子鍵レート

Unbounded device-independent quantum key rates from arbitrarily small non-locality ( http://arxiv.org/abs/2310.08635v2 )

ライセンス: Link先を確認
M\'at\'e Farkas(参考訳) デバイス非依存の量子キー分散は、潜在的に信頼できない2つのデバイス間で共有暗号キーのセキュリティを証明することができる。 セキュリティ証明はベル実験の測定結果統計(相関)に基づいており、セキュリティは量子理論の法則によって保証されている。 観測された相関はセキュリティを証明するためにベル非局所でなければならないことが知られているが、最近の結果はベル非局所性は一般に標準のデバイス非依存量子鍵分布には不十分であることを示している。 本研究では,デバイス非依存の量子鍵分布に十分である非局所性量に対する低い境界は存在しないことを示す。 さらに、任意に小さな非局所性を示す特定の相関から、非有界なデバイス非依存鍵レートを抽出できることを示す。 したがって、デバイス非依存の鍵レートとベル非局所性の間の定量的な関係は一般には引けない。 本手法は,最近発見されたベル不等式群に適用された,自己検査とデバイス非依存の量子鍵分布の厳密な接続から構成する。

Device-independent quantum key distribution allows for proving the security of a shared cryptographic key between two distant parties with potentially untrusted devices. The security proof is based on the measurement outcome statistics (correlation) of a Bell experiment, and security is guaranteed by the laws of quantum theory. While it is known that the observed correlation must be Bell non-local in order to prove security, recent results show that Bell non-locality is in general not sufficient for standard device-independent quantum key distribution. In this work, we show that conversely, there is no lower bound on the amount of non-locality that is sufficient for device-independent quantum key distribution. Even more so, we show that from certain correlations that exhibit arbitrarily small non-locality, one can still extract unbounded device-independent key rates. Therefore, a quantitative relation between device-independent key rates and Bell non-locality cannot be drawn in general. Our main technique comprises a rigorous connection between self-testing and device-independent quantum key distribution, applied to a recently discovered family of Bell inequalities with arbitrarily many measurement outcomes.
翻訳日:2023-10-17 22:35:42 公開日:2023-10-16
# XAI手法の人間中心評価

Human-Centered Evaluation of XAI Methods ( http://arxiv.org/abs/2310.07534v2 )

ライセンス: Link先を確認
Karam Dawoud, Wojciech Samek, Peter Eisert, Sebastian Lapuschkin, Sebastian Bosse(参考訳) 人工知能の分野では、ディープラーニングにおいていわゆる「ブラックボックス」の中の意思決定プロセスを解読することが重要な課題となっている。 近年、様々なタスクにわたる決定を説明するために多くの方法が登場している。 特に画像分類のようなタスクでは、これらの手法は分類器の予測に最も影響を及ぼす重要なピクセルを識別し強調する。 興味深いことに、このアプローチは人間の振る舞いを反映している。イメージを分類する合理性を説明するために、私たちはしばしば最も健全な特徴や側面を指し示します。 これと平行して、我々の研究はユーザー中心の研究を始めた。 本研究では,(1)原型部分ネットワーク,(2)排除,(3)レイヤワイド関連伝播の3つの主要な説明手法の解釈可能性の客観的評価を試みた。 興味深いことに、我々の研究結果は、これらの手法によって見出される領域は広範囲にまたがるが、それらはすべて人間にほぼ同等の理解深度を提供する。 これにより、ユーザーは画像の識別と分類を効率的に行い、aiの透明性を高めるためにこれらの方法の価値を強化することができる。

In the ever-evolving field of Artificial Intelligence, a critical challenge has been to decipher the decision-making processes within the so-called "black boxes" in deep learning. Over recent years, a plethora of methods have emerged, dedicated to explaining decisions across diverse tasks. Particularly in tasks like image classification, these methods typically identify and emphasize the pivotal pixels that most influence a classifier's prediction. Interestingly, this approach mirrors human behavior: when asked to explain our rationale for classifying an image, we often point to the most salient features or aspects. Capitalizing on this parallel, our research embarked on a user-centric study. We sought to objectively measure the interpretability of three leading explanation methods: (1) Prototypical Part Network, (2) Occlusion, and (3) Layer-wise Relevance Propagation. Intriguingly, our results highlight that while the regions spotlighted by these methods can vary widely, they all offer humans a nearly equivalent depth of understanding. This enables users to discern and categorize images efficiently, reinforcing the value of these methods in enhancing AI transparency.
翻訳日:2023-10-17 22:35:05 公開日:2023-10-16
# 発音駆動サブワードトークン化を用いたCTCに基づくエンドツーエンド音声認識のパーソナライズ

Personalization of CTC-based End-to-End Speech Recognition Using Pronunciation-Driven Subword Tokenization ( http://arxiv.org/abs/2310.09988v1 )

ライセンス: Link先を確認
Zhihong Lei, Ernest Pusateri, Shiyi Han, Leo Liu, Mingbin Xu, Tim Ng, Ruchir Travadi, Youyuan Zhang, Mirko Hannemann, Man-Hung Siu, Zhen Huang(参考訳) 近年のディープラーニングと自動音声認識の進歩により、エンドツーエンド音声認識システムの精度が向上しているが、連絡先等の個人コンテンツ認識は依然として課題である。 本稿では,コネクショナリズムの時間的分類に基づくエンドツーエンド音声認識システムのパーソナライズソリューションについて述べる。 先行研究を基盤として,発音から個人用サブワードトークンを生成する新しい手法を提案する。 この手法と文脈バイアスとワードピース事前正規化という2つの確立した手法を組み合わせることで,競合するハイブリッドシステムと同等の個人名付きエンティティ精度を実現できることを示す。

Recent advances in deep learning and automatic speech recognition have improved the accuracy of end-to-end speech recognition systems, but recognition of personal content such as contact names remains a challenge. In this work, we describe our personalization solution for an end-to-end speech recognition system based on connectionist temporal classification. Building on previous work, we present a novel method for generating additional subword tokenizations for personal entities from their pronunciations. We show that using this technique in combination with two established techniques, contextual biasing and wordpiece prior normalization, we are able to achieve personal named entity accuracy on par with a competitive hybrid system.
翻訳日:2023-10-17 17:09:30 公開日:2023-10-16
# Black-box Targeted Adversarial Attack on Segment Anything (SAM)

Black-box Targeted Adversarial Attack on Segment Anything (SAM) ( http://arxiv.org/abs/2310.10010v1 )

ライセンス: Link先を確認
Sheng Zheng, Chaoning Zhang(参考訳) 深層認識モデルは、画像入力に準可視摂動を加えることによってモデル出力を変化させる敵の例に広く脆弱である。 近年,Segment Anything Model (SAM) がコンピュータビジョンの基盤モデルとして注目されている。 SAMに対する柔軟な攻撃を実現することは、SAMの強靭性を理解する上で有益である。 本研究の目的は,SAM上での敵攻撃(TAA)を実現することである。 具体的には、特定のプロンプトの下では、敵の例の予測マスクを所定のターゲット画像のマスクに類似させることが目的である。 SAM上でのTAAのタスクは、プロンプトとモデルへのアクセスを仮定することで、最近のarXivのホワイトボックス設定で実現されている。 プロンプト依存の問題に対処するために,画像エンコーダを攻撃するだけで,簡単かつ効果的なアプローチを提案する。 さらに, ランダム自然画像に対する逆画像の特徴的優位を増大させることにより, クロスモデル転送性を高める新しい正規化損失を提案する。 SAM上でのブラックボックスTAAを成功させるために,提案手法の有効性を検証した。

Deep recognition models are widely vulnerable to adversarial examples, which change the model output by adding quasi-imperceptible perturbation to the image input. Recently, Segment Anything Model (SAM) has emerged to become a popular foundation model in computer vision due to its impressive generalization to unseen data and tasks. Realizing flexible attacks on SAM is beneficial for understanding the robustness of SAM in the adversarial context. To this end, this work aims to achieve a targeted adversarial attack (TAA) on SAM. Specifically, under a certain prompt, the goal is to make the predicted mask of an adversarial example resemble that of a given target image. The task of TAA on SAM has been realized in a recent arXiv work in the white-box setup by assuming access to prompt and model, which is thus less practical. To address the issue of prompt dependence, we propose a simple yet effective approach by only attacking the image encoder. Moreover, we propose a novel regularization loss to enhance the cross-model transferability by increasing the feature dominance of adversarial images over random natural images. Extensive experiments verify the effectiveness of our proposed simple techniques to conduct a successful black-box TAA on SAM.
翻訳日:2023-10-17 17:01:06 公開日:2023-10-16
# 統一的かつ効果的なドメイン一般化に向けて

Towards Unified and Effective Domain Generalization ( http://arxiv.org/abs/2310.10008v1 )

ライセンス: Link先を確認
Yiyuan Zhang, Kaixiong Gong, Xiaohan Ding, Kaipeng Zhang, Fangrui Lv, Kurt Keutzer, Xiangyu Yue(参考訳) アーキテクチャによらず、基礎モデルのアウト・オブ・ディストリビューションの一般化性能を大幅に向上させることができる、$\textbf{UniDG}$, a novel and $\textbf{Uni}$fied framework for $\textbf{D}$omain $\textbf{G}$eneralizationを提案する。 UniDGの中核となる考え方は、推論段階でモデルを微調整することであり、反復的なトレーニングのコストを削減している。 具体的には、モデルに教師なしの方法でテストデータの分布を学習させ、モデルパラメータの更新ステップに関してペナルティを課すことを推奨する。 ペナルティ用語は、原モデルの貴重な知識を最大限に保存したいという願望から、破滅的な忘れる問題を効果的に減らすことができる。 実証的には、CNN-、MLP-、Transformer-ベースモデルを含む12の視覚バックボーンにまたがって、1.89Mから303Mのパラメータがあり、UniDGはDomainBedの平均精度が+5.4%向上したことを示している。 これらの性能はUniDGの優位性と汎用性を示す。 コードはhttps://github.com/invictus717/UniDGで公開されている。

We propose $\textbf{UniDG}$, a novel and $\textbf{Uni}$fied framework for $\textbf{D}$omain $\textbf{G}$eneralization that is capable of significantly enhancing the out-of-distribution generalization performance of foundation models regardless of their architectures. The core idea of UniDG is to finetune models during the inference stage, which saves the cost of iterative training. Specifically, we encourage models to learn the distribution of test data in an unsupervised manner and impose a penalty regarding the updating step of model parameters. The penalty term can effectively reduce the catastrophic forgetting issue as we would like to maximally preserve the valuable knowledge in the original model. Empirically, across 12 visual backbones, including CNN-, MLP-, and Transformer-based models, ranging from 1.89M to 303M parameters, UniDG shows an average accuracy improvement of +5.4% on DomainBed. These performance results demonstrate the superiority and versatility of UniDG. The code is publicly available at https://github.com/invictus717/UniDG
翻訳日:2023-10-17 17:00:44 公開日:2023-10-16
# ソフトアセンチュアによる暗黙の規則化

Implicit regularization via soft ascent-descent ( http://arxiv.org/abs/2310.10006v1 )

ライセンス: Link先を確認
Matthew J. Holland and Kosuke Nakatani(参考訳) モデルが大きくなり、より複雑になるにつれて、最小限の試行錯誤でサンプル外の一般化を向上することは、マシンラーニングワークフローの信頼性と経済性に不可欠である。 局所最小値を求めるためのよく研究されたヒューリスティックのプロキシとして、勾配正則化は自然の道であり、洪水やシャープネス認識最小化(SAM)のような一階近似は注目されているが、それらの性能は、事前に指定できないハイパーパラメータ(フロードしきい値と近傍半径)に大きく依存している。 不特定過度パラメータに対してより耐性の高い方法を開発するために,フルーディングで使用されるハードスレッショルド「アセンチュアルド」スイッチング装置をモチベーションとして,フルーディングにおいて下降重みが境界線を指差し,降降圧の影響を制限し,昇降圧効果を保ち,ソフトADと呼ばれるソフト化ポイントワイズ機構を提案する。 我々は形式的な定常性の保証と洪水の保証を比較し、より小さい損失一般化ギャップとモデル規範を維持しながら、softadがsamやフラッディングと競合する分類精度をどのように実現できるかを実証的に示す。 私たちの経験的なテストは、平面上の単純なバイナリ分類から、数百万のパラメータを持つニューラルネットワークによる画像分類まで様々です。

As models grow larger and more complex, achieving better off-sample generalization with minimal trial-and-error is critical to the reliability and economy of machine learning workflows. As a proxy for the well-studied heuristic of seeking "flat" local minima, gradient regularization is a natural avenue, and first-order approximations such as Flooding and sharpness-aware minimization (SAM) have received significant attention, but their performance depends critically on hyperparameters (flood threshold and neighborhood radius, respectively) that are non-trivial to specify in advance. In order to develop a procedure which is more resilient to misspecified hyperparameters, with the hard-threshold "ascent-descent" switching device used in Flooding as motivation, we propose a softened, pointwise mechanism called SoftAD that downweights points on the borderline, limits the effects of outliers, and retains the ascent-descent effect. We contrast formal stationarity guarantees with those for Flooding, and empirically demonstrate how SoftAD can realize classification accuracy competitive with SAM and Flooding while maintaining a much smaller loss generalization gap and model norm. Our empirical tests range from simple binary classification on the plane to image classification using neural networks with millions of parameters; the key trends are observed across all datasets and models studied, and suggest a potential new approach to implicit regularization.
翻訳日:2023-10-17 17:00:20 公開日:2023-10-16
# 共形文脈ロバスト最適化

Conformal Contextual Robust Optimization ( http://arxiv.org/abs/2310.10003v1 )

ライセンス: Link先を確認
Yash Patel, Sahana Rayan, Ambuj Tewari(参考訳) データ駆動による意思決定問題の予測-最適化アプローチは、安全クリティカルな環境での不確実な領域の特定のリスクを軽減する。 しかし、現在のアプローチは、過度に保守的な不確実な地域を考慮し、しばしば最適以下の意思決定をもたらす。 そこで本稿では,条件付き生成モデルに基づく高次元空間上の高度に有益で非凸な共形予測領域を活用するための枠組みであるconformal-predict-then-optimize (cpo)を提案する。 堅牢性を保証するにもかかわらず、ブラックボックス最適化の手順だけでは、特定の決定が最適であることが判明した理由の説明が欠如しているため、自信がほとんどなかった。 そこで我々は,CPOに意味論的に意味のある不確実領域の視覚的要約を付加し,最適決定に対する質的な直感を与える。 我々は,確率的天気予報に基づくシミュレーションベース推論ベンチマークタスクと車両ルーティングタスクの結果を示すことで,CPOフレームワークを強調した。

Data-driven approaches to predict-then-optimize decision-making problems seek to mitigate the risk of uncertainty region misspecification in safety-critical settings. Current approaches, however, suffer from considering overly conservative uncertainty regions, often resulting in suboptimal decisionmaking. To this end, we propose Conformal-Predict-Then-Optimize (CPO), a framework for leveraging highly informative, nonconvex conformal prediction regions over high-dimensional spaces based on conditional generative models, which have the desired distribution-free coverage guarantees. Despite guaranteeing robustness, such black-box optimization procedures alone inspire little confidence owing to the lack of explanation of why a particular decision was found to be optimal. We, therefore, augment CPO to additionally provide semantically meaningful visual summaries of the uncertainty regions to give qualitative intuition for the optimal decision. We highlight the CPO framework by demonstrating results on a suite of simulation-based inference benchmark tasks and a vehicle routing task based on probabilistic weather prediction.
翻訳日:2023-10-17 16:59:48 公開日:2023-10-16
# ロバスト冠動脈セグメンテーションのためのエンコーダ・デコーダアーキテクチャの評価

Assessing Encoder-Decoder Architectures for Robust Coronary Artery Segmentation ( http://arxiv.org/abs/2310.10002v1 )

ライセンス: Link先を確認
Shisheng Zhang, Ramtin Gharleghi, Sonit Singh, Arcot Sowmya, Susann Beier(参考訳) 冠状動脈疾患は世界中で死亡の原因となっている。 正確な冠動脈セグメンテーションによって促進されるタイムリーかつ正確な診断は、患者の結果を変える上で重要である。 バイオメディカルイメージングの領域では、畳み込みニューラルネットワーク、特にU-Netアーキテクチャがセグメンテーションプロセスに革命をもたらした。 しかしながら、主要な課題の1つは、冠動脈に特有のベンチマークデータセットの欠如である。 しかし、最近公開されたパブリックデータセットASOCAを使用することで、正確な冠動脈セグメンテーションのためのディープラーニングの可能性を改善することができる。 本稿では,25個のエンコーダとデコーダの組み合わせの性能について検討する。 ASOCA参加者に提供される40のケースの分析により,エンコーダとデコーダとして機能するEfficientNet-LinkNetの組み合わせが注目されている。 サイス係数0.882、95%のハウスドルフ距離4.753である。 これらの知見は,MICCAI 2020の課題と比べ,本モデルの優位性を示すだけでなく,冠動脈セグメンテーションの今後の進歩,診断・治療戦略の強化への扉を開くためのステージも設定した。

Coronary artery diseases are among the leading causes of mortality worldwide. Timely and accurate diagnosis, facilitated by precise coronary artery segmentation, is pivotal in changing patient outcomes. In the realm of biomedical imaging, convolutional neural networks, especially the U-Net architecture, have revolutionised segmentation processes. However, one of the primary challenges remains the lack of benchmarking datasets specific to coronary arteries. However through the use of the recently published public dataset ASOCA, the potential of deep learning for accurate coronary segmentation can be improved. This paper delves deep into examining the performance of 25 distinct encoder-decoder combinations. Through analysis of the 40 cases provided to ASOCA participants, it is revealed that the EfficientNet-LinkNet combination, serving as encoder and decoder, stands out. It achieves a Dice coefficient of 0.882 and a 95th percentile Hausdorff distance of 4.753. These findings not only underscore the superiority of our model in comparison to those presented at the MICCAI 2020 challenge but also set the stage for future advancements in coronary artery segmentation, opening doors to enhanced diagnostic and treatment strategies.
翻訳日:2023-10-17 16:59:30 公開日:2023-10-16
# 理論性能保証付き生成モデルを用いた外乱検出

Outlier Detection Using Generative Models with Theoretical Performance Guarantees ( http://arxiv.org/abs/2310.09999v1 )

ライセンス: Link先を確認
Jirong Yi, Jingchao Gao, Tianming Wang, Xiaodong Wu, Weiyu Xu(参考訳) 本稿では, 疎外乱で汚染された線形測定から生成モデルでモデル化した信号の回収問題について考察する。 粗大な外乱下での生成モデルによりモデル化された地中構造信号の再構成のための外乱検出手法を提案する。 我々は、生成モデルを用いて、外れ値の存在下で信号の復元を理論的に保証し、修正可能な外れ値の数に低い境界を与える。 この結果は線形生成ニューラルネットワークと任意の数の層を持つ非線形生成ニューラルネットワークの両方に適用できる。 そこで本研究では,$\ell_1$ノルム最小化による外乱検出問題を解くための乗算器アルゴリズムの反復交互方向法と,$\ell_1$ノルム最小化による外乱検出問題を解く勾配降下アルゴリズムを提案する。 変動型オートエンコーダと深層畳み込み型生成逆ネットワークを用いて広範囲な実験を行い,本手法を用いて異常値下で信号の再構成を成功させることができた。 我々のアプローチは従来のLassoおよび$\ell_2$最小化アプローチよりも優れている。

This paper considers the problem of recovering signals modeled by generative models from linear measurements contaminated with sparse outliers. We propose an outlier detection approach for reconstructing the ground-truth signals modeled by generative models under sparse outliers. We establish theoretical recovery guarantees for reconstruction of signals using generative models in the presence of outliers, giving lower bounds on the number of correctable outliers. Our results are applicable to both linear generator neural networks and the nonlinear generator neural networks with an arbitrary number of layers. We propose an iterative alternating direction method of multipliers (ADMM) algorithm for solving the outlier detection problem via $\ell_1$ norm minimization, and a gradient descent algorithm for solving the outlier detection problem via squared $\ell_1$ norm minimization. We conduct extensive experiments using variational auto-encoder and deep convolutional generative adversarial networks, and the experimental results show that the signals can be successfully reconstructed under outliers using our approach. Our approach outperforms the traditional Lasso and $\ell_2$ minimization approach.
翻訳日:2023-10-17 16:59:11 公開日:2023-10-16
# SeUNet-Trans:医療画像セグメンテーションのためのシンプルで効果的なUNet-Transformerモデル

SeUNet-Trans: A Simple yet Effective UNet-Transformer Model for Medical Image Segmentation ( http://arxiv.org/abs/2310.09998v1 )

ライセンス: Link先を確認
Tan-Hanh Pham, Xianqi Li, Kim-Doang Nguyen(参考訳) 正確な診断の必要性の高まり、パーソナライズされた治療計画の推進、機械学習アルゴリズムの進歩、特に深層学習法の導入によって、医療画像の自動分割が現代の臨床でますます重要になっている。 畳み込みニューラルネットワーク(cnns)はこれらの手法で広く普及しているが、コンピュータビジョンタスクにおけるトランスフォーマーベースのモデルの注目すべきポテンシャルは認識されている。 cnnモデルとトランスフォーマモデルの両方の利点を活用するため、医療画像分割のための単純かつ効果的なunet-transformer(seunet-trans)モデルを提案する。 提案手法では,入力画像から複数の特徴マップを生成する機能抽出器としてUNetモデルを設計し,これらのマップをブリッジ層に伝播させてUNetとトランスフォーマーを順次接続する。 この段階では,位置埋め込みベクトルを使わずに画素レベルの埋め込み技術を用いてモデルをより効率的にする。 さらに,トランスフォーマーの空間的減算を応用し,計算/メモリオーバーヘッドを低減した。 UNetアーキテクチャと自己認識機構を活用することで、我々のモデルはローカルとグローバルの両方のコンテキスト情報を保存するだけでなく、入力要素間の長距離依存関係もキャプチャする。 提案モデルはポリプセグメンテーションを含む5つの医用画像セグメンテーションデータセットを用いて広範囲に実験を行い,その効果を実証した。 これらのデータセットにおける最先端セグメンテーションモデルとの比較では、seUNet-Transの性能が優れている。

Automated medical image segmentation is becoming increasingly crucial in modern clinical practice, driven by the growing demand for precise diagnoses, the push towards personalized treatment plans, and advancements in machine learning algorithms, especially the incorporation of deep learning methods. While convolutional neural networks (CNNs) have been prevalent among these methods, the remarkable potential of Transformer-based models for computer vision tasks is gaining more acknowledgment. To harness the advantages of both CNN-based and Transformer-based models, we propose a simple yet effective UNet-Transformer (seUNet-Trans) model for medical image segmentation. In our approach, the UNet model is designed as a feature extractor to generate multiple feature maps from the input images, and these maps are propagated into a bridge layer, which sequentially connects the UNet and the Transformer. In this stage, we employ the pixel-level embedding technique without position embedding vectors to make the model more efficient. Moreover, we applied spatial-reduction attention in the Transformer to reduce the computational/memory overhead. By leveraging the UNet architecture and the self-attention mechanism, our model not only preserves both local and global context information but also captures long-range dependencies between input elements. The proposed model is extensively experimented on five medical image segmentation datasets, including polyp segmentation, to demonstrate its efficacy. A comparison with several state-of-the-art segmentation models on these datasets shows the superior performance of seUNet-Trans.
翻訳日:2023-10-17 16:58:53 公開日:2023-10-16
# Forecaster: 一時的に抽象的なツリー検索計画に向けて

Forecaster: Towards Temporally Abstract Tree-Search Planning from Pixels ( http://arxiv.org/abs/2310.09997v1 )

ライセンス: Link先を確認
Thomas Jiralerspong, Flemming Kondrup, Doina Precup, Khimya Khetarpal(参考訳) さまざまな抽象化レベルを計画する能力により、エージェントは意思決定の長期的な影響を想定することができ、サンプル効率のよい学習が可能になる。 これは、ゴールが遠く、報酬がスパースである画素のような高次元状態空間からの複雑な環境において特に有益となる。 本稿では,時間的抽象世界モデルを活用した高次目標を計画する階層的強化学習手法であるForecasterを紹介する。 予測者は、遷移ダイナミクスを抽象レベルでモデル化し、そのような遷移に関する世界モデルを訓練することによって、その環境の抽象モデルを学ぶ。 次に、この世界モデルを使用して、ツリー検索計画手順を通じて最適なハイレベル目標を選択する。 また、これらの目標を達成するための低レベルの政策も訓練している。 提案手法は,より長い地平線を持つ世界モデルの構築だけでなく,下流タスクにおけるそのようなモデルによる計画も行う。 我々は、単タスク学習とantmazeドメインにおける新しいタスクへの一般化の両方において予測可能性を示す。

The ability to plan at many different levels of abstraction enables agents to envision the long-term repercussions of their decisions and thus enables sample-efficient learning. This becomes particularly beneficial in complex environments from high-dimensional state space such as pixels, where the goal is distant and the reward sparse. We introduce Forecaster, a deep hierarchical reinforcement learning approach which plans over high-level goals leveraging a temporally abstract world model. Forecaster learns an abstract model of its environment by modelling the transitions dynamics at an abstract level and training a world model on such transition. It then uses this world model to choose optimal high-level goals through a tree-search planning procedure. It additionally trains a low-level policy that learns to reach those goals. Our method not only captures building world models with longer horizons, but also, planning with such models in downstream tasks. We empirically demonstrate Forecaster's potential in both single-task learning and generalization to new tasks in the AntMaze domain.
翻訳日:2023-10-17 16:58:26 公開日:2023-10-16
# リモートセンシングデータのためのグラフと注意に基づくハイパースペクトル画像分類法の検討

A Survey of Graph and Attention Based Hyperspectral Image Classification Methods for Remote Sensing Data ( http://arxiv.org/abs/2310.09994v1 )

ライセンス: Link先を確認
Aryan Vats, Manan Suri(参考訳) ハイパースペクトルイメージング(hsi)の分類におけるディープラーニング技術の利用は急速に成長し、パフォーマンスが向上している。 HSI画像を生成するセンサーが捉えたデータの性質のため、一般的な問題はバンドの次元性であり、ラベルの分類に寄与するかもしれないし、寄与しないかもしれない。 クラスラベルの広範な性質のため、主成分分析は次元の減少に使用される一般的な手法である。 しかし、ハイパースペクトル画像のすべてのバンドをアテンション機構の助けを借りて組み込む方法が存在するかもしれない。 さらに、より優れたスペクトル空間特徴抽出を実現するために、近年の手法では、グラフ畳み込みネットワークの利用と、ピクセルのスペクトル構成に類似した予測にノード特徴を使用するユニークな能力についても検討されている。 本稿では,リモートセンシングおよび空中HSI画像のためのハイパースペクトル画像分類を行うためのグラフベースおよび注意ベース手法の総合的な概要を示す。 また,これらの手法が評価された関連データセットを要約し,処理手法のベンチマークを行った。

The use of Deep Learning techniques for classification in Hyperspectral Imaging (HSI) is rapidly growing and achieving improved performances. Due to the nature of the data captured by sensors that produce HSI images, a common issue is the dimensionality of the bands that may or may not contribute to the label class distinction. Due to the widespread nature of class labels, Principal Component Analysis is a common method used for reducing the dimensionality. However,there may exist methods that incorporate all bands of the Hyperspectral image with the help of the Attention mechanism. Furthermore, to yield better spectral spatial feature extraction, recent methods have also explored the usage of Graph Convolution Networks and their unique ability to use node features in prediction, which is akin to the pixel spectral makeup. In this survey we present a comprehensive summary of Graph based and Attention based methods to perform Hyperspectral Image Classification for remote sensing and aerial HSI images. We also summarize relevant datasets on which these techniques have been evaluated and benchmark the processing techniques.
翻訳日:2023-10-17 16:58:08 公開日:2023-10-16
# バイオ医薬品のプロセス開発・製造における機械学習の応用 : 現状, 課題, 機会

Applications of Machine Learning in Biopharmaceutical Process Development and Manufacturing: Current Trends, Challenges, and Opportunities ( http://arxiv.org/abs/2310.09991v1 )

ライセンス: Link先を確認
Thanh Tung Khuat, Robert Bassett, Ellen Otte, Alistair Grevis-James, Bogdan Gabrys(参考訳) 機械学習(ml)はバイオ医薬品分野に多大な貢献をしてきたが、その応用はまだ初期段階にあり、バイオ医薬品の質的開発と製造を直接支援し、その開発から製造までのバイオプロセス自動化の巨大な可能性を阻害している。 しかし,大規模生産データの蓄積により,従来の多変量データ解析法に代えてMLモデルの採用が著しく増加している。 この傾向は主に、高度なプロセス分析技術の実装を通じて、プロセス変数とバイオ医薬品の品質特性のリアルタイムモニタリングによってもたらされる。 バイオプロダクティヴデザイン、バイオプロセス開発、および製品製造データの複雑さと多次元性を考えると、MLベースのアプローチは、バイオ医薬品分野における分析、モニタリング、制御の問題に対処するために、正確で柔軟で高性能な予測モデルを達成するために、ますます採用されている。 本稿では, 生物製品設計, 監視, 制御, 最適化による上流, 下流, 製品定式化プロセスにおけるmlソリューションの現在の応用を総合的に検討することを目的とする。 最後に, バイオプロセスそのもの, プロセスデータ, およびバイオ医薬品のプロセス開発および製造における機械学習モデルの利用に関する主な課題について概説する。 さらに、新しいデジタルバイオファーマソリューションの開発における革新的な機械学習手法の導入と新しいトレンドに関するさらなる洞察を提供する。

While machine learning (ML) has made significant contributions to the biopharmaceutical field, its applications are still in the early stages in terms of providing direct support for quality-by-design based development and manufacturing of biopharmaceuticals, hindering the enormous potential for bioprocesses automation from their development to manufacturing. However, the adoption of ML-based models instead of conventional multivariate data analysis methods is significantly increasing due to the accumulation of large-scale production data. This trend is primarily driven by the real-time monitoring of process variables and quality attributes of biopharmaceutical products through the implementation of advanced process analytical technologies. Given the complexity and multidimensionality of a bioproduct design, bioprocess development, and product manufacturing data, ML-based approaches are increasingly being employed to achieve accurate, flexible, and high-performing predictive models to address the problems of analytics, monitoring, and control within the biopharma field. This paper aims to provide a comprehensive review of the current applications of ML solutions in a bioproduct design, monitoring, control, and optimisation of upstream, downstream, and product formulation processes. Finally, this paper thoroughly discusses the main challenges related to the bioprocesses themselves, process data, and the use of machine learning models in biopharmaceutical process development and manufacturing. Moreover, it offers further insights into the adoption of innovative machine learning methods and novel trends in the development of new digital biopharma solutions.
翻訳日:2023-10-17 16:57:51 公開日:2023-10-16
# 量子誤差緩和のための純度を用いたゼロノイズ外挿法

Zero-noise Extrapolation Assisted with Purity for Quantum Error Mitigation ( http://arxiv.org/abs/2310.10037v1 )

ライセンス: Link先を確認
Tian-ren Jin, Zheng-an Wang, Tian-ming Li, Kai Xu, and Heng Fan(参考訳) 量子エラー軽減は、量子システムで発生するエラーを後処理する技法であり、期待されるエラーを低減し、より高い精度を達成する。 ゼロノイズ外挿(zero-noise extrapolation)は量子誤差緩和の方法の1つで、まずノイズを増幅し、次に観測可能な関心の期待値をノイズフリーポイントに外挿する。 従来,この手法はノイズの誤差モデルに依存しており,ノイズの度合いを表すパラメータである誤差率をノイズ増幅の手順で推定する。 本稿では、ノイズ回路の出力状態の純度が、誤差率の推定を避けるために外挿手順を補助できることを示す。 また、外挿に用いるフィッティングモデルの形式についても論じる。 本手法をクラウドベースの量子コンピュータquafu上での数値シミュレーションと実験により検証し,通常のゼロノイズ外挿法と比較する。 純度を補助することにより、測定のランダムなゆらぎと異なる種類のノイズの下で、外挿はより安定であることが示される。

Quantum error mitigation is the technique to post-process the error occurring in the quantum system, which reduces the expected errors to achieve higher accuracy. Zero-noise extrapolation is one of the methods of quantum error mitigation, which first amplifies the noise and then extrapolates the observable expectation of interest to the noise-free point. Conventionally, this method depends on the error model of noise, since error rates, the parameter describing the degree of noise, are presumed in the procedure of noise amplification. In this paper, we show that the purity of output states of noisy circuits can assist in the extrapolation procedure to avoid the presumption of error rates. We also discuss the form of fitting model used in extrapolation. We verify this method and compare it with the ordinary zero-noise extrapolation method via numerical simulations and experiments on the cloud-based quantum computer, Quafu. It is shown that with the assistance of purity, the extrapolation is more stable under the random fluctuation of measurements, and different kinds of noise.
翻訳日:2023-10-17 16:49:59 公開日:2023-10-16
# Evading Detection Actively: toward anti-forensics against forgery Localization

Evading Detection Actively: Toward Anti-Forensics against Forgery Localization ( http://arxiv.org/abs/2310.10036v1 )

ライセンス: Link先を確認
Long Zhuo and Shenghai Luo and Shunquan Tan and Han Chen and Bin Li and Jiwu Huang(参考訳) 反forensicsは、改ざんした人工物の痕跡を取り除いたり隠そうとしている。 通常、対法法はバイナリ検出器を騙し、画像の真偽を誤認するよう説得するために設計されている。 しかし、我々の知る限りでは、ピクセルレベルで偽造検出器を欺き、偽造された領域を誤検出する試みは行われていない。 伝統的な敵対的攻撃方法は、以下の欠陥のため、偽造のローカライズに対して直接使用することはできない。 1) 対象の法医学モデルに、画素レベルのプリズムや偽判定を逆転させるだけを誘導する傾向がある。 2) その反フォレンス効果は, 未発見の法医学モデルに直面すると, 著しく低下する傾向にある。 3) 対象の法医学モデルが生成した反フォレンス画像で再訓練されると有効性が失われる。 これら3つの欠陥に対処するために, 自己監督型対人訓練アルゴリズムであるSEAR(Self-supErvised Anti-foRensics)を提案する。 SEARは、自己教師型学習のための摂動を再構築するためのプレテキストタスクを設定する。 逆行訓練において、SEARは不正なローカライゼーションモデルを用いて、改ざん機能を探究し、ディープラーニングの隠蔽装置を構築して、対応するトレースを消去する。 多様なデータセットにわたる大規模な実験を行った。 実験の結果,自己指導型学習と対人学習の組み合わせにより,SEARは従来の対人攻撃手法に関する3つの問題点に対処すると同時に,最先端のフォージェリーローカライゼーション手法を騙すことに成功した。

Anti-forensics seeks to eliminate or conceal traces of tampering artifacts. Typically, anti-forensic methods are designed to deceive binary detectors and persuade them to misjudge the authenticity of an image. However, to the best of our knowledge, no attempts have been made to deceive forgery detectors at the pixel level and mis-locate forged regions. Traditional adversarial attack methods cannot be directly used against forgery localization due to the following defects: 1) they tend to just naively induce the target forensic models to flip their pixel-level pristine or forged decisions; 2) their anti-forensics performance tends to be severely degraded when faced with the unseen forensic models; 3) they lose validity once the target forensic models are retrained with the anti-forensics images generated by them. To tackle the three defects, we propose SEAR (Self-supErvised Anti-foRensics), a novel self-supervised and adversarial training algorithm that effectively trains deep-learning anti-forensic models against forgery localization. SEAR sets a pretext task to reconstruct perturbation for self-supervised learning. In adversarial training, SEAR employs a forgery localization model as a supervisor to explore tampering features and constructs a deep-learning concealer to erase corresponding traces. We have conducted largescale experiments across diverse datasets. The experimental results demonstrate that, through the combination of self-supervised learning and adversarial learning, SEAR successfully deceives the state-of-the-art forgery localization methods, as well as tackle the three defects regarding traditional adversarial attack methods mentioned above.
翻訳日:2023-10-17 16:49:42 公開日:2023-10-16
# ChatGPTを用いたゼロショットNERの実験的検討

Empirical Study of Zero-Shot NER with ChatGPT ( http://arxiv.org/abs/2310.10035v1 )

ライセンス: Link先を確認
Tingyu Xie, Qi Li, Jian Zhang, Yan Zhang, Zuozhu Liu, Hongwei Wang(参考訳) 大規模言語モデル(LLM)は様々な自然言語処理タスクにおいて強力な能力を示した。 本研究は、ゼロショット情報抽出におけるLLM性能の探索に焦点をあて、ChatGPTと名前付きエンティティ認識(NER)タスクに焦点をあてる。 記号的推論と算術的推論におけるLLMの顕著な推論能力に着想を得て,NERに代表的な推論手法を適用し,NERに適した推論戦略を提案する。 まず、NERタスクをラベルによる単純なサブプロブレムに分解することで、分解された質問応答パラダイムを探索する。 第2に,モデルの中間的思考を刺激するための構文的拡張法を提案する。構文的プロンプトは,モデルが構文構造自体を分析することを促進し,ツール拡張は,解析ツールによって生成された構文的情報をモデルに提供する。 さらに、我々は、最も一貫した言及に対して最初に投票し、次に最も一貫したタイプである2段階の多数決戦略を提案することで、NERに自己整合性を適用する。 提案手法は、中国語と英語のデータセットを含む7つのベンチマークと、ドメイン固有のシナリオと汎用ドメインのシナリオにおいて、ゼロショットのNERを大幅に改善する。 さらに,最適化方向の提案を含むエラータイプの包括的解析を行う。 また,提案手法が複数ショット設定および他のLLMに対して有効であることを示す。

Large language models (LLMs) exhibited powerful capability in various natural language processing tasks. This work focuses on exploring LLM performance on zero-shot information extraction, with a focus on the ChatGPT and named entity recognition (NER) task. Inspired by the remarkable reasoning capability of LLM on symbolic and arithmetic reasoning, we adapt the prevalent reasoning methods to NER and propose reasoning strategies tailored for NER. First, we explore a decomposed question-answering paradigm by breaking down the NER task into simpler subproblems by labels. Second, we propose syntactic augmentation to stimulate the model's intermediate thinking in two ways: syntactic prompting, which encourages the model to analyze the syntactic structure itself, and tool augmentation, which provides the model with the syntactic information generated by a parsing tool. Besides, we adapt self-consistency to NER by proposing a two-stage majority voting strategy, which first votes for the most consistent mentions, then the most consistent types. The proposed methods achieve remarkable improvements for zero-shot NER across seven benchmarks, including Chinese and English datasets, and on both domain-specific and general-domain scenarios. In addition, we present a comprehensive analysis of the error types with suggestions for optimization directions. We also verify the effectiveness of the proposed methods on the few-shot setting and other LLMs.
翻訳日:2023-10-17 16:49:12 公開日:2023-10-16
# コンテンツ適応勾配更新と変形不変非局所モデリングによる画像圧縮センシングのためのディープ展開ネットワーク

Deep Unfolding Network for Image Compressed Sensing by Content-adaptive Gradient Updating and Deformation-invariant Non-local Modeling ( http://arxiv.org/abs/2310.10033v1 )

ライセンス: Link先を確認
Wenxue Cui, Xiaopeng Fan, Jian Zhang, Debin Zhao(参考訳) 特定の最適化解法にインスパイアされたdeep unfolding network (dun) は、近年画像圧縮センシング (cs) において注目を集めている。 しかし、以下の2つの問題が存在する。 1)既存のDUNでは、ほとんどのハイパーパラメータはコンテンツに依存しないため、異なる入力内容への適応性が大幅に制限される。 2) 各イテレーションにおいて、通常、平易な畳み込みニューラルネットワークが採用され、より広い文脈の知覚が弱まり、表現能力が低下する。 本稿では,従来のPGDアルゴリズムにヒントを得て,画像圧縮センシング(DUN-CSNet)のための新しいDUNを提案する。 具体的には、コンテンツ対応ステップサイズマップを生成し、コンテンツ適応勾配更新を実現することにより、入力画像のテクスチャ毎に対応するステップサイズを動的に割り当てる、よく設計されたステップサイズ生成サブネットワークを開発した新しいコンテンツ適応勾配降下ネットワークを提案する。 第2の課題は、画像に類似するパッチが多数存在するが変形しているという事実を考慮して、非局所パッチ間の長距離依存関係を変形不変非局所モデリングによって適応的に構築し、コンテキスト優先の認識を広める、新しい変形不変非局所マッピングネットワークを開発したことである。 DUN-CSNetは、既存の最先端CS手法よりも大きなマージンで優れていた。

Inspired by certain optimization solvers, the deep unfolding network (DUN) has attracted much attention in recent years for image compressed sensing (CS). However, there still exist the following two issues: 1) In existing DUNs, most hyperparameters are usually content independent, which greatly limits their adaptability for different input contents. 2) In each iteration, a plain convolutional neural network is usually adopted, which weakens the perception of wider context prior and therefore depresses the expressive ability. In this paper, inspired by the traditional Proximal Gradient Descent (PGD) algorithm, a novel DUN for image compressed sensing (dubbed DUN-CSNet) is proposed to solve the above two issues. Specifically, for the first issue, a novel content adaptive gradient descent network is proposed, in which a well-designed step size generation sub-network is developed to dynamically allocate the corresponding step sizes for different textures of input image by generating a content-aware step size map, realizing a content-adaptive gradient updating. For the second issue, considering the fact that many similar patches exist in an image but have undergone a deformation, a novel deformation-invariant non-local proximal mapping network is developed, which can adaptively build the long-range dependencies between the nonlocal patches by deformation-invariant non-local modeling, leading to a wider perception on context priors. Extensive experiments manifest that the proposed DUN-CSNet outperforms existing state-of-the-art CS methods by large margins.
翻訳日:2023-10-17 16:48:49 公開日:2023-10-16
# 教師なし機械学習による電力系統抵抗曲線の基本特性の解明

Unraveling Fundamental Properties of Power System Resilience Curves using Unsupervised Machine Learning ( http://arxiv.org/abs/2310.10030v1 )

ライセンス: Link先を確認
Bo Li, Ali Mostafavi(参考訳) インフラストラクチャのレジリエンスの標準モデルであるレジリエンス三角形は、インフラストラクチャのレジリエンスを特徴づけ、定量化する主要な方法である。 しかし、理論モデルは単にすべてのインフラシステムに一大のフレームワークを提供するだけである。 既存研究の多くは, シミュレーションシステムの性能に基づく解析モデルに基づいて, インフラストラクチャのレジリエンス曲線の特性について検討している。 限定的な実証研究は、インフラストラクチャシステムのレジリエンス特性を完全に理解し、予測する能力を妨げました。 このギャップに対処するため,三大極度気象イベントにおける停電に伴う200以上のレジリエンス曲線を調査した。 教師なし機械学習を用いて,異なる曲線アーチタイプ,および各弾性曲線アーチタイプの基本特性を検討した。 その結果, 電力系統弾性曲線, 三角曲線, 台形曲線の2つの主要なアーチタイプが得られた。 三角形曲線は弾性挙動を特徴づける 1. 重要な機能しきい値 2. 重要な機能回復率、及び 3. 回復ピボットポイント。 トラペジイド型アーチタイプによる弾性曲線の解明 一 持続的機能喪失及び持続的機能喪失の期間 2. 一定の回復率 機能損失の持続期間が長ければ長いほど、回復の一定速度が遅くなる。 本研究の知見は, 電力系統インフラのレジリエンス性能をよりよく理解し, 予測することを可能にする新しい視点を提供する。

The standard model of infrastructure resilience, the resilience triangle, has been the primary way of characterizing and quantifying infrastructure resilience. However, the theoretical model merely provides a one-size-fits-all framework for all infrastructure systems. Most of the existing studies examine the characteristics of infrastructure resilience curves based on analytical models constructed upon simulated system performance. Limited empirical studies hindered our ability to fully understand and predict resilience characteristics in infrastructure systems. To address this gap, this study examined over 200 resilience curves related to power outages in three major extreme weather events. Using unsupervised machine learning, we examined different curve archetypes, as well as the fundamental properties of each resilience curve archetype. The results show two primary archetypes for power system resilience curves, triangular, and trapezoidal curves. Triangular curves characterize resilience behavior based on 1. critical functionality threshold, 2. critical functionality recovery rate, and 3. recovery pivot point. Trapezoidal archetypes explain resilience curves based on 1. duration of sustained function loss and 2. constant recovery rate. The longer the duration of sustained function loss, the slower the constant rate of recovery. The findings of this study provide novel perspectives enabling better understanding and prediction of resilience performance of power system infrastructures.
翻訳日:2023-10-17 16:48:19 公開日:2023-10-16
# roomdesigner:スタイル一貫性と形状対応の屋内シーン生成のためのアンカーラタント符号化

RoomDesigner: Encoding Anchor-latents for Style-consistent and Shape-compatible Indoor Scene Generation ( http://arxiv.org/abs/2310.10027v1 )

ライセンス: Link先を確認
Yiqun Zhao, Zibo Zhao, Jing Li, Sixun Dong, Shenghua Gao(参考訳) 室内シーン生成は、空間的に合理的なレイアウトで形状に整合したスタイルの家具配置を作成することを目的としている。 しかし、既存のほとんどのアプローチは、個々の家具に関する特定の詳細を組み込むことなく、もっともらしい家具レイアウトを生成することに重点を置いている。 この制限に対処するために,家具をアンカー潜在表現としてエンコードすることで,形状先行を室内シーン生成に統合する2段階モデルを提案する。 第1段階では,家具部品をアンカーラタントとして符号化するために離散ベクトル量子化を用いる。 アンカーラテント表現に基づき, 家具の形状と位置情報は, 位置, サイズ, 方向, クラス, アンカーラテントの結合によって特徴づけられた。 第2段階では,室内シーンの自動回帰予測にトランスフォーマーモデルを利用する。 提案したアンカーラテント表現を取り入れることで, 形状に整合した形状の家具配置と合成家具を多種多様な形状で生成する。 さらに,スタイル一貫性のあるシーンコンプリート,オブジェクトミスマッチ補正,制御可能なオブジェクトレベルの編集など,さまざまなヒューマンインタラクションアプリケーションを実現する。 3d-frontデータセットの実験結果は,既存の手法と比較して,形状検索を行わなくても,より一貫性と互換性のある室内シーンを生成できることを示した。 また,室内シーン生成モデルにおける設計選択の有効性を広範囲に検証した。

Indoor scene generation aims at creating shape-compatible, style-consistent furniture arrangements within a spatially reasonable layout. However, most existing approaches primarily focus on generating plausible furniture layouts without incorporating specific details related to individual furniture pieces. To address this limitation, we propose a two-stage model integrating shape priors into the indoor scene generation by encoding furniture as anchor latent representations. In the first stage, we employ discrete vector quantization to encode furniture pieces as anchor-latents. Based on the anchor-latents representation, the shape and location information of the furniture was characterized by a concatenation of location, size, orientation, class, and our anchor latent. In the second stage, we leverage a transformer model to predict indoor scenes autoregressively. Thanks to incorporating the proposed anchor-latents representations, our generative model produces shape-compatible and style-consistent furniture arrangements and synthesis furniture in diverse shapes. Furthermore, our method facilitates various human interaction applications, such as style-consistent scene completion, object mismatch correction, and controllable object-level editing. Experimental results on the 3D-Front dataset demonstrate that our approach can generate more consistent and compatible indoor scenes compared to existing methods, even without shape retrieval. Additionally, extensive ablation studies confirm the effectiveness of our design choices in the indoor scene generation model.
翻訳日:2023-10-17 16:48:01 公開日:2023-10-16
# 低分解能マイクロ表現認識における超解像の実証的研究

An Empirical Study of Super-resolution on Low-resolution Micro-expression Recognition ( http://arxiv.org/abs/2310.10022v1 )

ライセンス: Link先を確認
Ling Zhou, Mingpei Wang, Xiaohua Huang, Wenming Zheng, Qirong Mao, Guoying Zhao(参考訳) 低解像度(LR)シナリオにおけるマイクロ圧縮認識(MER)は、特に混み合った環境におけるグループMERのような実践的応用において、重要かつ複雑な課題を示す。 LR画像やビデオの品質向上のための超解像技術が大幅に進歩しているにもかかわらず, LR MERを改善するための超解像の研究はほとんど行われていない。 調査の不十分さは、原解像度のMERサンプルであっても微小表現の微妙な動きを捉えるのに固有の困難さに起因し得るが、特徴の喪失によりLRサンプルではさらに困難になる。 さらに、系統的なベンチマークの欠如と超解像支援MER法の徹底的な解析が注目されている。 本稿では,超解像(SR)法とMER法を統合した一連のベンチマーク実験を行い,これらの課題に対処する。 具体的には、7つの最先端技術(SOTA)MER技術を用いて、13のSOTA SR技術から生成されたサンプルの性能を評価し、MERにおける超解像問題に対処する。 実証研究を通じて、SR支援MERに関連する主要な課題を明らかにし、SRおよびMER方法論の最近の進歩を活用して、これらの課題に取り組むための道を特定する。 我々の分析は、より効率的なSR支援MERに向けた進歩の洞察を提供する。

Micro-expression recognition (MER) in low-resolution (LR) scenarios presents an important and complex challenge, particularly for practical applications such as group MER in crowded environments. Despite considerable advancements in super-resolution techniques for enhancing the quality of LR images and videos, few study has focused on investigate super-resolution for improving LR MER. The scarcity of investigation can be attributed to the inherent difficulty in capturing the subtle motions of micro-expressions, even in original-resolution MER samples, which becomes even more challenging in LR samples due to the loss of distinctive features. Furthermore, a lack of systematic benchmarking and thorough analysis of super-resolution-assisted MER methods has been noted. This paper tackles these issues by conducting a series of benchmark experiments that integrate both super-resolution (SR) and MER methods, guided by an in-depth literature survey. Specifically, we employ seven cutting-edge state-of-the-art (SOTA) MER techniques and evaluate their performance on samples generated from 13 SOTA SR techniques, thereby addressing the problem of super-resolution in MER. Through our empirical study, we uncover the primary challenges associated with SR-assisted MER and identify avenues to tackle these challenges by leveraging recent advancements in both SR and MER methodologies. Our analysis provides insights for progressing toward more efficient SR-assisted MER.
翻訳日:2023-10-17 16:47:37 公開日:2023-10-16
# 自身のスキルをブートストラップする - 大規模言語モデルガイダンスによる新しいタスクの解決を学ぶ

Bootstrap Your Own Skills: Learning to Solve New Tasks with Large Language Model Guidance ( http://arxiv.org/abs/2310.10021v1 )

ライセンス: Link先を確認
Jesse Zhang, Jiahui Zhang, Karl Pertsch, Ziyi Liu, Xiang Ren, Minsuk Chang, Shao-Hua Sun, Joseph J. Lim(参考訳) 我々は,学習スキルライブラリを最小限の監督で拡張することにより,新しい長方形,複雑,有意義なタスクを自動的に解く手法であるbossを提案する。 強化学習における以前の仕事は、長期的タスクを学ぶために、デモンストレーションや豊富な報酬関数の形で専門家の監督を必要とする。 代わりに、私たちのアプローチであるBOSS(BOotStrapping your own Skills)は、プリミティブスキルセットを持つエージェントが環境と対話して、初期スキルセット外のタスクに対する報酬フィードバックを受けずに新しいスキルを実践する、"スキルブートストラッピング"を実行することで、新しいタスクを達成することを学びます。 このブートストラッピングフェーズは、エージェントにチェーンする意味のあるスキルを知らせる大きな言語モデル(LLM)によってガイドされる。 このプロセスを通じて、BOSSはプリミティブスキルの基本的なセットから、幅広い複雑さと有用な振る舞いを構築する。 我々は, LLM誘導型ブートストラップ法で訓練されたエージェントが実生活環境において, 従来の非教師なしスキル獲得手法よりも優れており, 新たな環境下での非教師なしロングホライゾンタスクのゼロショット実行を実証する。 website at clvrai.com/boss.com

We propose BOSS, an approach that automatically learns to solve new long-horizon, complex, and meaningful tasks by growing a learned skill library with minimal supervision. Prior work in reinforcement learning require expert supervision, in the form of demonstrations or rich reward functions, to learn long-horizon tasks. Instead, our approach BOSS (BOotStrapping your own Skills) learns to accomplish new tasks by performing "skill bootstrapping," where an agent with a set of primitive skills interacts with the environment to practice new skills without receiving reward feedback for tasks outside of the initial skill set. This bootstrapping phase is guided by large language models (LLMs) that inform the agent of meaningful skills to chain together. Through this process, BOSS builds a wide range of complex and useful behaviors from a basic set of primitive skills. We demonstrate through experiments in realistic household environments that agents trained with our LLM-guided bootstrapping procedure outperform those trained with naive bootstrapping as well as prior unsupervised skill acquisition methods on zero-shot execution of unseen, long-horizon tasks in new environments. Website at clvrai.com/boss.
翻訳日:2023-10-17 16:47:13 公開日:2023-10-16
# リーマン残留ニューラルネットワーク

Riemannian Residual Neural Networks ( http://arxiv.org/abs/2310.10013v1 )

ライセンス: Link先を確認
Isay Katsman and Eric Ming Chen and Sidhanth Holalkere and Anna Asch and Aaron Lou and Ser-Nam Lim and Christopher De Sa(参考訳) 幾何学的深層学習の最近の手法は、リーマン多様体上のデータを操作するために様々なニューラルネットワークを導入している。 このようなネットワークは、階層構造を持つグラフ上でよく学習するか、自然科学で遭遇する多様体値データから学ぶためにしばしば必要となる。 これらのネットワークは、しばしば標準ユークリッドニューラルネットワークにインスパイアされ、直接一般化される。 しかし、ユークリッドネットワークの拡張は困難であり、一部の多様体に対してしか行われていない。 本研究では、残留ニューラルネットワーク(ResNet)について検討し、この構成を幾何学的原理で一般リーマン多様体に拡張する方法を示す。 ResNetはもともと、消滅する勾配の問題を解決するために導入され、機械学習において、有益な学習特性、優れた経験的結果、そして様々なニューラルネットワークを構築する際に容易に組み込める性質のために、ユビキタスになった。 双曲空間と対称正定値行列の多様体を学習するために設計された既存の多様体ニューラルネットワークと比較して、私たちは関連するテストメトリクスとトレーニングダイナミクスの観点から、両方の種類のネットワークよりも優れています。

Recent methods in geometric deep learning have introduced various neural networks to operate over data that lie on Riemannian manifolds. Such networks are often necessary to learn well over graphs with a hierarchical structure or to learn over manifold-valued data encountered in the natural sciences. These networks are often inspired by and directly generalize standard Euclidean neural networks. However, extending Euclidean networks is difficult and has only been done for a select few manifolds. In this work, we examine the residual neural network (ResNet) and show how to extend this construction to general Riemannian manifolds in a geometrically principled manner. Originally introduced to help solve the vanishing gradient problem, ResNets have become ubiquitous in machine learning due to their beneficial learning properties, excellent empirical results, and easy-to-incorporate nature when building varied neural networks. We find that our Riemannian ResNets mirror these desirable properties: when compared to existing manifold neural networks designed to learn over hyperbolic space and the manifold of symmetric positive definite matrices, we outperform both kinds of networks in terms of relevant testing metrics and training dynamics.
翻訳日:2023-10-17 16:46:51 公開日:2023-10-16
# リング・ア・ベル! 拡散モデルにおける概念除去手法の信頼性について

Ring-A-Bell! How Reliable are Concept Removal Methods for Diffusion Models? ( http://arxiv.org/abs/2310.10012v1 )

ライセンス: Link先を確認
Yu-Lin Tsai, Chia-Yi Hsu, Chulin Xie, Chih-Hsun Lin, Jia-You Chen, Bo Li, Pin-Yu Chen, Chia-Mu Yu, Chun-Ying Huang(参考訳) 安定拡散(sd)などのt2i合成のための拡散モデルは、最近、高品質なコンテンツを生成するための例外的な能力を示している。 しかし、この進歩は、著作権、禁止、制限されたコンテンツ、またはnsfw画像の作成において、潜在的な誤用に関するいくつかの懸念を引き起こした。 評価段階で安全フィルタを実装したり、望ましくない概念やスタイルを排除するための微調整モデルによって、このような問題を解決する努力がなされているが、幅広いプロンプトに対処する上での安全対策の有効性はほとんど未定である。 本研究では,新しい概念検索アルゴリズムを1つ提案し,その安全性について検討する。 本稿では,T2I拡散モデルに対するモデルに依存しないレッドチームツールであるRing-A-Bellを紹介する。 具体的には、ring-a-bellはまず概念抽出を行い、敏感で不適切な概念の全体的表現を得る。 その後、抽出された概念を活用することで、ring-a-bellは拡散モデルの問題のあるプロンプトと対応する不適切なコンテンツの生成を自動的に識別し、デプロイされた安全機構の信頼性を評価することができる。 最後に、Midjourneyなどのオンラインサービスやさまざまなコンセプト削除方法をテストすることで、我々の手法を実証的に検証する。 この結果から, 安全プロンプトベンチマークの操作により, 既存の安全機構を回避できると考えられるプロンプトを変換し, 実質的に有害な内容の生成につながるような, いわゆる安全機構の欠陥を明らかにすることができた。

Diffusion models for text-to-image (T2I) synthesis, such as Stable Diffusion (SD), have recently demonstrated exceptional capabilities for generating high-quality content. However, this progress has raised several concerns of potential misuse, particularly in creating copyrighted, prohibited, and restricted content, or NSFW (not safe for work) images. While efforts have been made to mitigate such problems, either by implementing a safety filter at the evaluation stage or by fine-tuning models to eliminate undesirable concepts or styles, the effectiveness of these safety measures in dealing with a wide range of prompts remains largely unexplored. In this work, we aim to investigate these safety mechanisms by proposing one novel concept retrieval algorithm for evaluation. We introduce Ring-A-Bell, a model-agnostic red-teaming tool for T2I diffusion models, where the whole evaluation can be prepared in advance without prior knowledge of the target model. Specifically, Ring-A-Bell first performs concept extraction to obtain holistic representations for sensitive and inappropriate concepts. Subsequently, by leveraging the extracted concept, Ring-A-Bell automatically identifies problematic prompts for diffusion models with the corresponding generation of inappropriate content, allowing the user to assess the reliability of deployed safety mechanisms. Finally, we empirically validate our method by testing online services such as Midjourney and various methods of concept removal. Our results show that Ring-A-Bell, by manipulating safe prompting benchmarks, can transform prompts that were originally regarded as safe to evade existing safety mechanisms, thus revealing the defects of the so-called safety mechanisms which could practically lead to the generation of harmful contents.
翻訳日:2023-10-17 16:46:32 公開日:2023-10-16
# データ駆動結晶構造予測のための潜在保存対象モデル

Latent Conservative Objective Models for Data-Driven Crystal Structure Prediction ( http://arxiv.org/abs/2310.10056v1 )

ライセンス: Link先を確認
Han Qi, Xinyang Geng, Stefano Rando, Iku Ohama, Aviral Kumar, Sergey Levine(参考訳) 計算化学において、結晶構造予測(CSP)は、与えられた化学式に対して最低エネルギーの安定な結晶構造を発見することを含む最適化問題である。 この問題は、複素多様体上の最小エネルギーを持つ大域的最適設計を見つける必要があるため、困難である。 この問題に対処するための1つのアプローチは密度汎関数理論(DFT)に基づくシミュレータの構築であり、続いてシミュレーションで探索を行う。 本稿では, 結晶構造予測の代替的手法として, シミュレーションにおいて最も安定な構造を直接探索する代わりに, 既存の結晶構造のデータベースから結晶形成エネルギーの代理モデルを訓練し, 結晶構造のパラメータに関してこのモデルを最適化する。 このサロゲートモデルは、オプティマイザによるエラーの悪用を防ぐために保守的であるように訓練されている。 結晶構造の非ユークリッド空間における最適化のために,我々はまず最先端のグラフ拡散オートエンコーダ(CD-VAE)を用いて,結晶構造をベクトルベース探索空間に変換し,このベクトル表現に基づいて学習した結晶エネルギーの保守的サロゲートモデルを最適化する。 我々は,LCOM(最近の保守的客観モデル)と呼ばれる我々の手法が,構造予測の成功率の観点から比較可能であり,計算コストを大幅に削減することを示した。

In computational chemistry, crystal structure prediction (CSP) is an optimization problem that involves discovering the lowest energy stable crystal structure for a given chemical formula. This problem is challenging as it requires discovering globally optimal designs with the lowest energies on complex manifolds. One approach to tackle this problem involves building simulators based on density functional theory (DFT) followed by running search in simulation, but these simulators are painfully slow. In this paper, we study present and study an alternate, data-driven approach to crystal structure prediction: instead of directly searching for the most stable structures in simulation, we train a surrogate model of the crystal formation energy from a database of existing crystal structures, and then optimize this model with respect to the parameters of the crystal structure. This surrogate model is trained to be conservative so as to prevent exploitation of its errors by the optimizer. To handle optimization in the non-Euclidean space of crystal structures, we first utilize a state-of-the-art graph diffusion auto-encoder (CD-VAE) to convert a crystal structure into a vector-based search space and then optimize a conservative surrogate model of the crystal energy, trained on top of this vector representation. We show that our approach, dubbed LCOMs (latent conservative objective models), performs comparably to the best current approaches in terms of success rate of structure prediction, while also drastically reducing computational cost.
翻訳日:2023-10-17 16:42:24 公開日:2023-10-16
# NASH:エンコーダ-デコーダ言語モデルの高速化のための構造化プルーニングの簡易統一フレームワーク

NASH: A Simple Unified Framework of Structured Pruning for Accelerating Encoder-Decoder Language Models ( http://arxiv.org/abs/2310.10054v1 )

ライセンス: Link先を確認
Jongwoo Ko, Seungjoon Park, Yujin Kim, Sumyeong Ahn, Du-Seong Chang, Euijai Ahn, Se-Young Yun(参考訳) 構造化プルーニング法は,トランスフォーマーなどの様々なネットワークアーキテクチャにおいて,モデルサイズの削減と推論速度の高速化に有効であることが証明されている。 多くのNLPタスクにおけるエンコーダ-デコーダモデルの汎用性にもかかわらず、そのようなモデル上の構造化プルーニング法はエンコーダのみのモデルに比べて比較的少ない。 本研究では,エンコーダ・デコーダモデルの構造的プルーニングの挙動を,エンコーダ・デコーダ・コンポーネントの分離プルーニング・パースペクティブにおいてそれぞれ検討した。 その結果,(1)デコーダの層数が推論速度の主要因であること,(2)プルーンドエンコーダネットワークの低間隔性が生成品質を向上させること,の2つの知見が明らかになった。 そこで本研究では,エンコーダを狭くし,エンコーダ-デコーダモデルのデコーダネットワークを短縮する,単純かつ効果的なフレームワークであるnashを提案する。 多様な生成および推論タスクに関する広範囲な実験は、高速化と出力品質の両方において、この手法の有効性を検証する。

Structured pruning methods have proven effective in reducing the model size and accelerating inference speed in various network architectures such as Transformers. Despite the versatility of encoder-decoder models in numerous NLP tasks, the structured pruning methods on such models are relatively less explored compared to encoder-only models. In this study, we investigate the behavior of the structured pruning of the encoder-decoder models in the decoupled pruning perspective of the encoder and decoder component, respectively. Our findings highlight two insights: (1) the number of decoder layers is the dominant factor of inference speed, and (2) low sparsity in the pruned encoder network enhances generation quality. Motivated by these findings, we propose a simple and effective framework, NASH, that narrows the encoder and shortens the decoder networks of encoder-decoder models. Extensive experiments on diverse generation and inference tasks validate the effectiveness of our method in both speedup and output quality.
翻訳日:2023-10-17 16:41:57 公開日:2023-10-16
# EAR-Net:マルチビュー画像からエンドツーエンドの絶対回転を求める

EAR-Net: Pursuing End-to-End Absolute Rotations from Multi-View Images ( http://arxiv.org/abs/2310.10051v1 )

ライセンス: Link先を確認
Yuzhen Liu, Qiulei Dong(参考訳) 絶対回転推定は3次元コンピュータビジョンにおいて重要な話題である。 既存の文献では、複数の独立した操作(特徴マッチング、二次元回転推定、回転平均化)を順次実施する多段階(少なくとも2段階)推定戦略が一般的である。 しかし、このような多段階戦略は必然的に、関連する各操作によるエラーの蓄積を招き、それに従って大域回転に関する最終的な推定を低下させる。 この問題を解決するために、EAR-Netと呼ばれる深層ニューラルネットワークに基づく多視点画像から溶出回転を推定するエンド・ツー・エンド手法を提案する。 提案するear-netはエピポーラ信頼グラフ構築モジュールと信頼度対応回転平均化モジュールからなる。 エピポーラ信頼グラフ構築モジュールは、入力画像と対応する信頼度の間の対方向相対回転を同時に予測し、重み付きグラフ(エピポーラ信頼グラフと呼ばれる)を生成する。 このグラフに基づいて、絶対回転を予測するために、微分可能な信頼度対応回転平均化モジュールを探索する。 相対回転の信頼性が導入されたため、提案されたEAR-Netは外乱ケースを効果的に扱えるようになった。 3つの公開データセットの実験結果から、EAR-Netは精度と速度の点で最先端の手法よりも高い性能を示している。

Absolute rotation estimation is an important topic in 3D computer vision. Existing works in literature generally employ a multi-stage (at least two-stage) estimation strategy where multiple independent operations (feature matching, two-view rotation estimation, and rotation averaging) are implemented sequentially. However, such a multi-stage strategy inevitably leads to the accumulation of the errors caused by each involved operation, and degrades its final estimation on global rotations accordingly. To address this problem, we propose an End-to-end method for estimating Absolution Rotations from multi-view images based on deep neural Networks, called EAR-Net. The proposed EAR-Net consists of an epipolar confidence graph construction module and a confidence-aware rotation averaging module. The epipolar confidence graph construction module is explored to simultaneously predict pairwise relative rotations among the input images and their corresponding confidences, resulting in a weighted graph (called epipolar confidence graph). Based on this graph, the confidence-aware rotation averaging module, which is differentiable, is explored to predict the absolute rotations. Thanks to the introduced confidences of the relative rotations, the proposed EAR-Net could effectively handle outlier cases. Experimental results on three public datasets demonstrate that EAR-Net outperforms the state-of-the-art methods by a large margin in terms of accuracy and speed.
翻訳日:2023-10-17 16:41:37 公開日:2023-10-16
# EfficientOCR: 世界知識を効率的にデジタル化する拡張可能なオープンソースパッケージ

EfficientOCR: An Extensible, Open-Source Package for Efficiently Digitizing World Knowledge ( http://arxiv.org/abs/2310.10050v1 )

ライセンス: Link先を確認
Tom Bryan, Jacob Carlson, Abhishek Arora, Melissa Dell(参考訳) 数十億のパブリックドメイン文書がハードコピーに閉じ込められているか、正確なデジタル化が欠如している。 現代の自然言語処理法は、それらのテキストの索引付け、検索、要約、計算テキストの解析、統計解析のための情報抽出に使用できず、これらのテキストは言語モデルトレーニングに組み入れられない。 パブリックドメインのテキストの多様性と量を考えると、それらを大規模に解放するには、光学的文字認識(ocr)が必要であり、精度が高く、デプロイが極めて安く、新しいコレクション、言語、文字セットにカスタマイズするのにサンプル効率が良い。 既存のocrエンジンは、主に高リソース言語での小規模商用アプリケーション向けに設計されており、しばしばこれらの要件に満たない。 オープンソースのOCRパッケージであるEffOCR(EfficientOCR)は、OCRで一般的に使用されるシーケンス・ツー・シーケンスアーキテクチャを放棄することで、テキストを大規模に解放するための計算効率とサンプル効率の両方を満たす。 代わりに、EffOCRはOCRを文字または単語レベルの画像検索問題としてモデル化する。 effocrは安価で、トレーニングに効率的なサンプルであり、モデルは文字の視覚的な外観を学習するだけでよい。 EffOCRモデル動物園のモデルは、わずか数行のコードで出荷することができる。 重要な点として、EffOCRは単純なモデルトレーニングインターフェースとサンプル効率による最小限のラベリング要件により、簡単でサンプル効率のよいカスタマイズを可能にする。 米国国立公文書館からランダムに選択された文書のゼロショット性能を評価し、他のocrソリューションが失敗した日本語文書を正確にデジタル化することにより、effocrの有用性を示す。

Billions of public domain documents remain trapped in hard copy or lack an accurate digitization. Modern natural language processing methods cannot be used to index, retrieve, and summarize their texts; conduct computational textual analyses; or extract information for statistical analyses, and these texts cannot be incorporated into language model training. Given the diversity and sheer quantity of public domain texts, liberating them at scale requires optical character recognition (OCR) that is accurate, extremely cheap to deploy, and sample-efficient to customize to novel collections, languages, and character sets. Existing OCR engines, largely designed for small-scale commercial applications in high resource languages, often fall short of these requirements. EffOCR (EfficientOCR), a novel open-source OCR package, meets both the computational and sample efficiency requirements for liberating texts at scale by abandoning the sequence-to-sequence architecture typically used for OCR, which takes representations from a learned vision model as inputs to a learned language model. Instead, EffOCR models OCR as a character or word-level image retrieval problem. EffOCR is cheap and sample efficient to train, as the model only needs to learn characters' visual appearance and not how they are used in sequence to form language. Models in the EffOCR model zoo can be deployed off-the-shelf with only a few lines of code. Importantly, EffOCR also allows for easy, sample efficient customization with a simple model training interface and minimal labeling requirements due to its sample efficiency. We illustrate the utility of EffOCR by cheaply and accurately digitizing 20 million historical U.S. newspaper scans, evaluating zero-shot performance on randomly selected documents from the U.S. National Archives, and accurately digitizing Japanese documents for which all other OCR solutions failed.
翻訳日:2023-10-17 16:41:14 公開日:2023-10-16
# FATE-LLM:大規模言語モデルのための産業グレードのフェデレーション学習フレームワーク

FATE-LLM: A Industrial Grade Federated Learning Framework for Large Language Models ( http://arxiv.org/abs/2310.10049v1 )

ライセンス: Link先を確認
Tao Fan, Yan Kang, Guoqiang Ma, Weijing Chen, Wenbin Wei, Lixin Fan, Qiang Yang(参考訳) ChatGPT, LLaMA, GLM, PaLMなどの大規模言語モデル(LLM)は, 近年, 様々なタスクにおいて顕著な性能を示した。 しかし、LLMは現実世界のアプリケーションでは2つの大きな課題に直面している。 1つの課題は、LLMのトレーニングが膨大なコンピューティングリソースを消費し、LLMが限られたコンピューティングリソースを持つ中小規模企業によって採用されるのを防ぐことである。 もうひとつは、LLMのトレーニングには大量の高品質なデータが必要です。 そこで我々は,大規模言語モデルのための産業レベルのフェデレーション学習フレームワークfate-llmを提案する。 FATE-LLM(1)は,大規模言語モデルのフェデレート学習を促進すること,(2)パラメータ効率のよい微調整手法によるFedLLMの効率的なトレーニングを促進すること,(3)LLMの知的特性を保護すること,(4)プライバシ保存機構を通じてトレーニング中のデータのプライバシを保護すること,などである。 FATE-LLMのコードをhttps://github.com/FederatedAI/FATE-LLMで公開し、FedLLMの研究を容易にし、幅広い産業応用を可能にする。

Large Language Models (LLMs), such as ChatGPT, LLaMA, GLM, and PaLM, have exhibited remarkable performances across various tasks in recent years. However, LLMs face two main challenges in real-world applications. One challenge is that training LLMs consumes vast computing resources, preventing LLMs from being adopted by small and medium-sized enterprises with limited computing resources. Another is that training LLM requires a large amount of high-quality data, which are often scattered among enterprises. To address these challenges, we propose FATE-LLM, an industrial-grade federated learning framework for large language models. FATE-LLM (1) facilitates federated learning for large language models (coined FedLLM); (2) promotes efficient training of FedLLM using parameter-efficient fine-tuning methods; (3) protects the intellectual property of LLMs; (4) preserves data privacy during training and inference through privacy-preserving mechanisms. We release the code of FATE-LLM at https://github.com/FederatedAI/FATE-LLM to facilitate the research of FedLLM and enable a broad range of industrial applications.
翻訳日:2023-10-17 16:40:41 公開日:2023-10-16
# 数学問題の解法のための大規模言語モデル微調整の改良

Improving Large Language Model Fine-tuning for Solving Math Problems ( http://arxiv.org/abs/2310.10047v1 )

ライセンス: Link先を確認
Yixin Liu, Avi Singh, C. Daniel Freeman, John D. Co-Reyes, Peter J. Liu(参考訳) 多くの自然言語タスクで成功したにもかかわらず、数学の問題を解決することは大きな言語モデル(LLM)にとって重要な課題である。 LLMのパス・アット・ワン(pass-at-one)とパス・アット・N(pass-at-N)のパフォーマンスの間には大きなギャップがあり、LLMが正しい解を見つけるのに近づいていることを示唆している。 1) 与えられた数学問題の詳細な解を微調整する解の微調整, (2) llm を生成候補の解クラスタの中から選択する解検証/評価器として微調整する解のクラスタ再調整,(3) 解生成と評価タスクを効率的に統合してllm性能を向上させるマルチタスクの逐次的微調整,の3つの微調整戦略を検討した。 With these methods, we present a thorough empirical study on a series of PaLM 2 models and find: (1) The quality and style of the step-by-step solutions used for fine-tuning can make a significant impact on the model performance; (2) While solution re-ranking and majority voting are both effective for improving the model performance when used separately, they can also be used together for an even greater performance boost; (3) Multi-task fine-tuning that sequentially separates the solution generation and evaluation tasks can offer improved performance compared with the solution fine-tuning baseline. これらの知見を導出して,パーム2-lモデルの微調整による算数データセットにおける約58.8%の精度向上を実現した微調整レシピを設計した。

Despite their success in many natural language tasks, solving math problems remains a significant challenge for large language models (LLMs). A large gap exists between LLMs' pass-at-one and pass-at-N performance in solving math problems, suggesting LLMs might be close to finding correct solutions, motivating our exploration of fine-tuning methods to unlock LLMs' performance. Using the challenging MATH dataset, we investigate three fine-tuning strategies: (1) solution fine-tuning, where we fine-tune to generate a detailed solution for a given math problem; (2) solution-cluster re-ranking, where the LLM is fine-tuned as a solution verifier/evaluator to choose among generated candidate solution clusters; (3) multi-task sequential fine-tuning, which integrates both solution generation and evaluation tasks together efficiently to enhance the LLM performance. With these methods, we present a thorough empirical study on a series of PaLM 2 models and find: (1) The quality and style of the step-by-step solutions used for fine-tuning can make a significant impact on the model performance; (2) While solution re-ranking and majority voting are both effective for improving the model performance when used separately, they can also be used together for an even greater performance boost; (3) Multi-task fine-tuning that sequentially separates the solution generation and evaluation tasks can offer improved performance compared with the solution fine-tuning baseline. Guided by these insights, we design a fine-tuning recipe that yields approximately 58.8% accuracy on the MATH dataset with fine-tuned PaLM 2-L models, an 11.2% accuracy improvement over the few-shot performance of pre-trained PaLM 2-L model with majority voting.
翻訳日:2023-10-17 16:40:01 公開日:2023-10-16
# TransOM: LLM訓練のための高効率耐故障性システム

TRANSOM: An Efficient Fault-Tolerant System for Training LLMs ( http://arxiv.org/abs/2310.10046v1 )

ライセンス: Link先を確認
Baodong Wu, Lei Xia, Qingping Li, Kangyu Li, Xu Chen, Yongqiang Guo, Tieyao Xiang, Yuheng Chen, Shigang Li(参考訳) グラフGPTで表される大規模言語モデル(LLM)は、様々な分野で深い応用とブレークスルーを実現している。 これは、数十億、数十億のパラメータを持つLCMが、私たちの日常生活を変え続けることを示す。 しかし、超大規模パラメータによるLLMのトレーニングには、さらに大きくて高性能なGPUクラスタと、数ヶ月にわたって継続的なトレーニング期間が必要である。 大規模クラスタで必然的なハードウェアとソフトウェア障害のため、1週間以上にわたって大規模なトレーニングセッションを継続することは極めて困難になっている。 チェックポイントの保存とリカバリ、タスクの再起動、タスク異常チェックといったタスクにかなりの時間を費やし、効果的なトレーニングの効率を大幅に低下させます。 これらの問題に対処するために,我々はTransOMと名付けた新しい耐故障性大規模モデルトレーニングシステムを提案した。 本研究では,TOL(Training Pipeline Automatic Fault Tolerance and Recovery Mechanism),TEE(Training Task Multi-dimensional Metric Anomaly Detection System),TCE(Training Checkpoint Asynchronous Access Automatic Fault Tolerance and Recovery Technology)の3つの重要なコンポーネントを設計した。 予備的な結果から,TransOMはクラスタ上での大規模LLM訓練の効率を著しく向上させることが示された。 例えば、175bのパラメータを持つgpt-3の事前トレーニング時間は28%削減され、チェックポイントの保存とリカバリのパフォーマンスは20倍向上した。

Large language models (LLMs) represented by chartGPT have achieved profound applications and breakthroughs in various fields. This demonstrates that LLMs with hundreds of billions or trillions of parameters will continue to transform our daily lives. However, training LLMs with super-large-scale parameters requires even larger and high-performance GPU clusters and continuous training periods lasting for months. Due to the inevitable hardware and software failures in large clusters, maintaining large-scale training sessions lasting more than a week has become extremely challenging. A significant amount of time is spent on tasks such as checkpoint saving and recovery, task restart submissions, and task anomaly checks, greatly reducing the efficiency of effective training. To address these issues, a novel fault-tolerant large model training system has been proposed, which we named TRANSOM. In this work, we have designed three key components: the Training pipeline Automatic Fault Tolerance and Recovery Mechanism (TOL), the Training Task Multi-dimensional Metric Automatic Anomaly Detection System (TEE), and the Training Checkpoint Asynchronous Access Automatic Fault Tolerance and Recovery Technology (TCE). Our preliminary results indicate that TRANSOM significantly accelerates the efficiency of large-scale LLMs training on clusters. For instance, the pre-training time for GPT-3 with 175B parameters has been reduced by 28%, and the checkpoint storage and recovery performance has improved by a factor of 20.
翻訳日:2023-10-17 16:38:53 公開日:2023-10-16
# 不均衡な一般チャンキング問題に対する対称性SyncMap

Symmetrical SyncMap for Imbalanced General Chunking Problems ( http://arxiv.org/abs/2310.10045v1 )

ライセンス: Link先を確認
Heng Zhang and Danilo Vasconcellos Vargas(参考訳) 最近SyncMapは、シーケンスから複雑な構造を学習し、基盤となる構造の変化に適応するアプローチを開拓した。 これは、ニューロン群の振舞い、すなわち損失関数を伴わない非線形力学方程式のみを使用することによって達成される。 ここでは,不均衡な連続的な一般チャンキング問題(CGCP)を扱う場合でも,長期にわたって安定な動的方程式や引力器・引力器点の創出方法を示すため,もともとの作業を超えてSymmetrical SyncMapを提案する。 主な考え方は、対称的なアクティベーションによって負のフィードバックループと正のフィードバックループから等しく更新することである。 次に、よりポジティブな更新を可能にするために、メモリウィンドウの概念を導入します。 我々のアルゴリズムは、動的に変化するCGCPを含む12の非バランスなCGCPにおいて、他の教師なしのベースラインを超越または結び付ける。 実世界のシナリオでの性能を検証するために,構造学習問題のいくつかについて実験を行った。 提案手法は4つのシナリオのうち3つのうち実質的に他の手法を上回っており、対称活性化が位相構造や時間データにエンコードされた階層を解明する上で重要な役割を果たすことを示唆している。

Recently, SyncMap pioneered an approach to learn complex structures from sequences as well as adapt to any changes in underlying structures. This is achieved by using only nonlinear dynamical equations inspired by neuron group behaviors, i.e., without loss functions. Here we propose Symmetrical SyncMap that goes beyond the original work to show how to create dynamical equations and attractor-repeller points which are stable over the long run, even dealing with imbalanced continual general chunking problems (CGCPs). The main idea is to apply equal updates from negative and positive feedback loops by symmetrical activation. We then introduce the concept of memory window to allow for more positive updates. Our algorithm surpasses or ties other unsupervised state-of-the-art baselines in all 12 imbalanced CGCPs with various difficulties, including dynamically changing ones. To verify its performance in real-world scenarios, we conduct experiments on several well-studied structure learning problems. The proposed method surpasses substantially other methods in 3 out of 4 scenarios, suggesting that symmetrical activation plays a critical role in uncovering topological structures and even hierarchies encoded in temporal data.
翻訳日:2023-10-17 16:38:16 公開日:2023-10-16
# 対数低ランクテンソル環分解による超スペクトル画像融合

Hyperspectral Image Fusion via Logarithmic Low-rank Tensor Ring Decomposition ( http://arxiv.org/abs/2310.10044v1 )

ライセンス: Link先を確認
Jun Zhang, Lipeng Zhu, Chao Wang, Shutao Li(参考訳) 高分解能マルチスペクトル画像(HR-MSI)と低分解能ハイパースペクトル画像(LR-HSI)を統合することは、HR-HSIを取得する有効な方法として認識される。 現在の核融合法の中で, テンソルリング(TR)分解法は, 空間-スペクトル相関の保存性能に優れ, 注目されている。 さらに、いくつかのTR因子の低ランク特性は、モード2に沿ったマトリックス核ノルム正規化によって利用されてきた。 一方、テンソル核ノルム(TNN)に基づくアプローチは、テンソルリカバリにおける高次元低ランク構造を維持する上でより効率的であることが最近証明されている。 本稿では,TR因子の低ランク性をTNNの観点から検討し,各TR因子のモード2対数TNN(LTNN)について考察する。 空間スペクトル領域におけるHR-HSIの連続性を促進するため,このLTNN正則化と重み付き全変動を取り入れた新しい融合モデルを提案する。 一方,提案モデルを解くために,高効率な近位交互最小化アルゴリズムを考案した。 実験結果から,本手法は視覚的品質を向上し,様々な測定値に対する既存技術の融合手法を超えていることが示唆された。

Integrating a low-spatial-resolution hyperspectral image (LR-HSI) with a high-spatial-resolution multispectral image (HR-MSI) is recognized as a valid method for acquiring HR-HSI. Among the current fusion approaches, the tensor ring (TR) decomposition-based method has received growing attention owing to its superior performance on preserving the spatial-spectral correlation. Furthermore, the low-rank property in some TR factors has been exploited via the matrix nuclear norm regularization along mode-2. On the other hand, the tensor nuclear norm (TNN)-based approaches have recently demonstrated to be more efficient on keeping high-dimensional low-rank structures in tensor recovery. Here, we study the low-rankness of TR factors from the TNN perspective and consider the mode-2 logarithmic TNN (LTNN) on each TR factor. A novel fusion model is proposed by incorporating this LTNN regularization and the weighted total variation which is to promote the continuity of HR-HSI in the spatial-spectral domain. Meanwhile, we have devised a highly efficient proximal alternating minimization algorithm to solve the proposed model. The experimental results indicate that our method improves the visual quality and exceeds the existing state-of-the-art fusion approaches with respect to various quantitative metrics.
翻訳日:2023-10-17 16:37:48 公開日:2023-10-16
# スマートシティ交通:交通事故検出のためのディープラーニングアンサンブルアプローチ

Smart City Transportation: Deep Learning Ensemble Approach for Traffic Accident Detection ( http://arxiv.org/abs/2310.10038v1 )

ライセンス: Link先を確認
Victor Adewopo, Nelly Elsayed(参考訳) 道路交通の動的かつ予測不能な性質は、スマートシティにおける安全と交通管理の合理化のための効果的な事故検出方法を必要とする。 本稿では,事故検出手法の包括的考察を行い,他の最先端手法のニュアンスを概観するとともに,後端衝突,tボーン衝突,前方衝突事故などの交通事故タイプの詳細を明らかにした。 我々の新しいアプローチでは,RGBフレームと光フロー情報を統合することで,スマートシティ交通監視システムにおける事故検出のための軽量ソリューションであるI3D-CONVLSTM2Dモデルアーキテクチャを導入している。 実験の結果,i3d-convlstm2d rgb + optical-flow (trainable) モデルの有効性が評価され,平均平均精度 (map) が87\%向上した。 特に限られた数のデータセット、道路構造、交通シナリオを扱う場合において、データの不均衡によって生じる課題についてさらに詳しく調べました。 最終的に、私たちの研究は、スマート都市インフラ内のエッジIoTデバイスにリアルタイムに統合するための、高度な視覚ベースの事故検出システムへの道のりを照らしています。

The dynamic and unpredictable nature of road traffic necessitates effective accident detection methods for enhancing safety and streamlining traffic management in smart cities. This paper offers a comprehensive exploration study of prevailing accident detection techniques, shedding light on the nuances of other state-of-the-art methodologies while providing a detailed overview of distinct traffic accident types like rear-end collisions, T-bone collisions, and frontal impact accidents. Our novel approach introduces the I3D-CONVLSTM2D model architecture, a lightweight solution tailored explicitly for accident detection in smart city traffic surveillance systems by integrating RGB frames with optical flow information. Our experimental study's empirical analysis underscores our approach's efficacy, with the I3D-CONVLSTM2D RGB + Optical-Flow (Trainable) model outperforming its counterparts, achieving an impressive 87\% Mean Average Precision (MAP). Our findings further elaborate on the challenges posed by data imbalances, particularly when working with a limited number of datasets, road structures, and traffic scenarios. Ultimately, our research illuminates the path towards a sophisticated vision-based accident detection system primed for real-time integration into edge IoT devices within smart urban infrastructures.
翻訳日:2023-10-17 16:37:30 公開日:2023-10-16
# クロスドメイン頭部再現のための表現領域翻訳ネットワーク

Expression Domain Translation Network for Cross-domain Head Reenactment ( http://arxiv.org/abs/2310.10073v1 )

ライセンス: Link先を確認
Taewoong Kang, Jeongsik Oh, Jaeseong Lee, Sunghyun Park, Jaegul Choo(参考訳) 頭部再現の著しい進歩にもかかわらず、既存の手法は、マンガキャラクタを含むヒト以外の領域に人間の動きを伝達することを目的としたクロスドメイン頭部再現の課題に直面している。 大きな目のような異なる外観のため、ドメイン外の画像から動きを抽出することは依然として困難である。 近年,AnimeCelebと呼ばれる大規模アニメデータセットと,アニメーションドメインへの変換のための最適化に基づくマッピング機能を含む,クロスドメインの頭部再現モデルが導入されている。 しかし,表現のサブセットに依存する写像関数では,様々な表現のマッピングに制限が課されることがわかった。 この課題を解決するために,人間表現をアニメ表現に変換する新しい表現ドメイン翻訳ネットワークを提案する。 具体的には,表現領域翻訳ネットワークの入力と出力の間の表現の幾何的整合性を維持するために,人間とアニメの3次元メッシュにおける頂点間の距離を減少させる3次元幾何認識損失関数を用いる。 これにより、2つのクロス表現ドメインに関して、忠実度と1対1のマッピングを強制する。 本手法は, 質的および定量的解析において既存の手法を上回り, クロスドメインヘッド再現の分野において有意な進歩を示した。

Despite the remarkable advancements in head reenactment, the existing methods face challenges in cross-domain head reenactment, which aims to transfer human motions to domains outside the human, including cartoon characters. It is still difficult to extract motion from out-of-domain images due to the distinct appearances, such as large eyes. Recently, previous work introduced a large-scale anime dataset called AnimeCeleb and a cross-domain head reenactment model, including an optimization-based mapping function to translate the human domain's expressions to the anime domain. However, we found that the mapping function, which relies on a subset of expressions, imposes limitations on the mapping of various expressions. To solve this challenge, we introduce a novel expression domain translation network that transforms human expressions into anime expressions. Specifically, to maintain the geometric consistency of expressions between the input and output of the expression domain translation network, we employ a 3D geometric-aware loss function that reduces the distances between the vertices in the 3D mesh of the human and anime. By doing so, it forces high-fidelity and one-to-one mapping with respect to two cross-expression domains. Our method outperforms existing methods in both qualitative and quantitative analysis, marking a significant advancement in the field of cross-domain head reenactment.
翻訳日:2023-10-17 16:29:34 公開日:2023-10-16
# 自動スコーリングのための微調整ChatGPT

Fine-tuning ChatGPT for Automatic Scoring ( http://arxiv.org/abs/2310.10072v1 )

ライセンス: Link先を確認
Ehsan Latif and Xiaoming Zhai(参考訳) 本研究は,理科教育における事例評価タスクを用いて,構築された回答を自動的に評価するための微調整ChatGPT (GPT-3.5) の可能性を明らかにする。 OpenAIの生成モデルであるGPT-3.5の最近の研究は、高い精度と人間的な応答で自然言語を予測する上で、その優位性を証明した。 GPT-3.5は、雑誌やウィキペディアなどの膨大なオンライン言語教材で訓練されているため、学生がトレーニングされた資料とは異なる言語を使用するため、事前学習されたGPT-3.5を直接使用する以上のことが自動スコアリングに必要である。 これらは、特定のタスクのためにデータを微調整したドメイン固有モデルが、モデルパフォーマンスを向上させることを意味する。 本研究では,中高生の回答とエキスパートスコアの多様なデータセットを用いた6つの評価課題について,gpt-3.5を微調整した。 6つのタスクは、2つのマルチラベルと4つのマルチクラスアセスメントタスクで構成される。 細調整 GPT-3.5 と,Google が生成する言語モデル BERT を比較した。 その結果、bertに対する科学的な質問と回答から構築されたドメイン内トレーニングコーパスは平均精度が0.838, sd = 0.069であった。 GPT-3.5は6つのタスクにおいて、自動スコアの精度(平均=9.15、SD=0.042)が顕著な平均値(9.1%)を示し、p =0.001 < 0.05である。 具体的には、マルチラベルタスク(5ラベルのitem 1、10ラベルのitem 2)において、gpt-3.5は全ラベルのbertよりもスコアリング精度が著しく向上し、第2の項目は7.1%増加した。 GPT-3.5の4種類の項目の平均得点率はBERTに比べて10.6%増加した。 本研究は,高精細なGPT-3.5の学習におけるドメイン固有データの自動評価における有効性を確認した。 パブリック利用とコミュニティエンゲージメントのための微調整されたモデルをリリースしました。

This study highlights the potential of fine-tuned ChatGPT (GPT-3.5) for automatically scoring student written constructed responses using example assessment tasks in science education. Recent studies on OpenAI's generative model GPT-3.5 proved its superiority in predicting the natural language with high accuracy and human-like responses. GPT-3.5 has been trained over enormous online language materials such as journals and Wikipedia; therefore, more than direct usage of pre-trained GPT-3.5 is required for automatic scoring as students utilize a different language than trained material. These imply that a domain-specific model, fine-tuned over data for specific tasks, can enhance model performance. In this study, we fine-tuned GPT-3.5 on six assessment tasks with a diverse dataset of middle-school and high-school student responses and expert scoring. The six tasks comprise two multi-label and four multi-class assessment tasks. We compare the performance of fine-tuned GPT-3.5 with the fine-tuned state-of-the-art Google's generated language model, BERT. The results show that in-domain training corpora constructed from science questions and responses for BERT achieved average accuracy = 0.838, SD = 0.069. GPT-3.5 shows a remarkable average increase (9.1%) in automatic scoring accuracy (mean = 9.15, SD = 0.042) for the six tasks, p =0.001 < 0.05. Specifically, for multi-label tasks (item 1 with 5 labels; item 2 with 10 labels), GPT-3.5 achieved significantly higher scoring accuracy than BERT across all the labels, with the second item achieving a 7.1% increase. The average scoring increase for the four multi-class items for GPT-3.5 was 10.6% compared to BERT. Our study confirmed the effectiveness of fine-tuned GPT-3.5 for automatic scoring of student responses on domain-specific data in education with high accuracy. We have released fine-tuned models for public use and community engagement.
翻訳日:2023-10-17 16:29:14 公開日:2023-10-16
# ZoomTrack: 効率的なビジュアルトラッキングのためのターゲット対応非一様リサイズ

ZoomTrack: Target-aware Non-uniform Resizing for Efficient Visual Tracking ( http://arxiv.org/abs/2310.10071v1 )

ライセンス: Link先を確認
Yutong Kou, Jin Gao, Bing Li, Gang Wang, Weiming Hu, Yizheng Wang and Liang Li(参考訳) 近年、トランスにより、より小さい入力サイズや軽量な特徴抽出バックボーンにより、高速なSOTA(State-of-the-art)性能が実現されている。 本稿では,このギャップを狭くあるいは狭くすることで,より小さい入力サイズで高速なトラッキングを実現することができることを示す。 この目的のために、目標が出現する領域の解像度が高く、逆もまた高いが、クロッピングされた画像を不均一に再サイズして入力サイズを小さくする。 これにより、入力サイズが小さいにもかかわらず、ターゲットに対してより多くの生情報を保持しながら、より大きな視野に出席するジレンマを解決することができる。 非一様再サイズのための定式化は二次プログラミング(qp)によって効率的に解き、作物ベースのローカルトラッカーの多くに自然に統合できる。 \ie、OSTrack、TransTの2種類のトランスフォーマートラッカーに基づく5つの挑戦的なデータセットに関する総合的な実験は、それらに対して一貫した改善を示している。 特に,OSTrackの速度指向バージョンに本手法を適用した場合,TNL2Kでは0.6%のAUCを上回り,50%高速で55%のMACを節約できる。 コードとモデルはhttps://github.com/Kou-99/ZoomTrack.comから入手できる。

Recently, the transformer has enabled the speed-oriented trackers to approach state-of-the-art (SOTA) performance with high-speed thanks to the smaller input size or the lighter feature extraction backbone, though they still substantially lag behind their corresponding performance-oriented versions. In this paper, we demonstrate that it is possible to narrow or even close this gap while achieving high tracking speed based on the smaller input size. To this end, we non-uniformly resize the cropped image to have a smaller input size while the resolution of the area where the target is more likely to appear is higher and vice versa. This enables us to solve the dilemma of attending to a larger visual field while retaining more raw information for the target despite a smaller input size. Our formulation for the non-uniform resizing can be efficiently solved through quadratic programming (QP) and naturally integrated into most of the crop-based local trackers. Comprehensive experiments on five challenging datasets based on two kinds of transformer trackers, \ie, OSTrack and TransT, demonstrate consistent improvements over them. In particular, applying our method to the speed-oriented version of OSTrack even outperforms its performance-oriented counterpart by 0.6% AUC on TNL2K, while running 50% faster and saving over 55% MACs. Codes and models are available at https://github.com/Kou-99/ZoomTrack.
翻訳日:2023-10-17 16:28:41 公開日:2023-10-16
# GreatSplicing: セマンティックにリッチなスプライシングデータセット

GreatSplicing: A Semantically Rich Splicing Dataset ( http://arxiv.org/abs/2310.10070v1 )

ライセンス: Link先を確認
Xiuli Bi and Jiaming Liang(参考訳) 既存のスプライシングフォージェリーデータセットでは、スプライシング領域のセマンティックな多様性が不十分であり、トレーニングされた検出モデルがトレースをスプライシングするのではなく、セマンティックな特徴を過度に適合させるという問題を引き起こす。 一方、合理的なデータセットがないため、提案された異なる検出方法が実験的な設定で合意に達することができない。 本稿では,このような緊急問題に対処するために,手作業で作成し,大量の高品質なスプライシングデータセットであるgreatsplicingを提案する。 GreatSplicingは5000のスプライシングイメージで構成され、スプライシングされた領域を335の異なるセマンティックカテゴリでカバーしている。 GreatSplicingでトレーニングされたモデルは、既存のデータセットと比較して、最小の誤識別率と優れたデータセット検出能力を示す。 GreatSplicingはすべての研究目的で利用可能であり、www. Greatsplicing.netからダウンロードできる。

In existing splicing forgery datasets, the insufficient semantic variety of spliced regions causes a problem that trained detection models overfit semantic features rather than splicing traces. Meanwhile, because of the absence of a reasonable dataset, different detection methods proposed cannot reach a consensus on experimental settings. To address these urgent issues, GreatSplicing, an manually created splicing dataset with considerable amount and high quality, is proposed in this paper. GreatSplicing comprises 5,000 spliced images and covers spliced regions with 335 distinct semantic categories, allowing neural networks to grasp splicing traces better. Extensive experiments demonstrate that models trained on GreatSplicing exhibit minimal misidentification rates and superior cross-dataset detection capabilities compared to existing datasets. Furthermore, GreatSplicing is available for all research purposes and could be downloaded from www.greatsplicing.net.
翻訳日:2023-10-17 16:28:05 公開日:2023-10-16
# オープンワールドユーザ生成ビデオコンテンツにおける一般化可能な人物検索

Generalizable Person Search on Open-world User-Generated Video Content ( http://arxiv.org/abs/2310.10068v1 )

ライセンス: Link先を確認
Junjie Li, Guanshuo Wang, Yichao Yan, Fufu Yu, Qiong Jia, Jie Qin, Shouhong Ding, Xiaokang Yang(参考訳) 人物探索は,大規模に収集されていないシーン画像から個人を検出し,検索する作業である。 既存の人検索アプリケーションは、ほとんどトレーニングされ、同じシナリオにデプロイされます。 しかし,各シーンのトレーニングサンプルの収集と注釈付けは,資源の制限や作業コストのために難しい場合が多い。 さらに、トレーニングのための大規模ドメイン内データは通常、プライバシと公開セキュリティの規制のため、一般的な開発者には法的に利用できない。 個人検索モデルをトレーニングするために、アクセスしやすい大規模なユーザ生成ビデオコンテンツ(\emph{i.e.} UGCビデオ)を活用することは、オープンワールドの分布に適合するが、ドメインの違いから監視シーンへのパフォーマンスの差に苦しむ。 本研究では,人物探索モデルの領域外一般化能力の向上を探求し,任意のシナリオにおけるダウンストリームタスクを容易にするために,機能レベルとデータレベルの両方の一般化フレームワークを提案する。 具体的には、マルチタスクのプロトタイプベースのドメイン固有バッチ正規化を導入し、検出とReIDの両方に対するドメイン不変表現の学習に注力する。 また,不正確なバウンディングボックス,識別ラベルの省略,カメラ間データの欠如など,オープンワールドのトレーニングフレームにおける典型的なノイズ源を特定し,対処する。 本フレームワークは,対象ドメインからの人的アノテーションやサンプルを使わずに,2つの人的検索ベンチマークで有望な性能を実現する。

Person search is a challenging task that involves detecting and retrieving individuals from a large set of un-cropped scene images. Existing person search applications are mostly trained and deployed in the same-origin scenarios. However, collecting and annotating training samples for each scene is often difficult due to the limitation of resources and the labor cost. Moreover, large-scale intra-domain data for training are generally not legally available for common developers, due to the regulation of privacy and public security. Leveraging easily accessible large-scale User Generated Video Contents (\emph{i.e.} UGC videos) to train person search models can fit the open-world distribution, but still suffering a performance gap from the domain difference to surveillance scenes. In this work, we explore enhancing the out-of-domain generalization capabilities of person search models, and propose a generalizable framework on both feature-level and data-level generalization to facilitate downstream tasks in arbitrary scenarios. Specifically, we focus on learning domain-invariant representations for both detection and ReID by introducing a multi-task prototype-based domain-specific batch normalization, and a channel-wise ID-relevant feature decorrelation strategy. We also identify and address typical sources of noise in open-world training frames, including inaccurate bounding boxes, the omission of identity labels, and the absence of cross-camera data. Our framework achieves promising performance on two challenging person search benchmarks without using any human annotation or samples from the target domain.
翻訳日:2023-10-17 16:27:47 公開日:2023-10-16
# ニュートン補間によるスペクトルgnnの学習グラフフィルタ

Learning Graph Filters for Spectral GNNs via Newton Interpolation ( http://arxiv.org/abs/2310.10064v1 )

ライセンス: Link先を確認
Junjie Xu, Enyan Dai, Dongsheng Luo, Xiang Zhang, Suhang Wang(参考訳) GNN(Spectral Graph Neural Networks)は、タスク管理を通じてグラフデータの本質的な周波数情報をキャプチャするスペクトルフィルタを学習することで、メッセージ通過GNNの限界を超えることができるため、注目を集めている。 しかし、従来の研究ではフィルタ周波数の選択はグラフのホモフィリーレベルに結びついており、既存のスペクトルgnnでは十分に研究されていない。 このギャップに対処するため、この研究では、低周波フィルタが正の正の相関を持つ一方、高周波フィルタは負の相関を持つことを示した。 これにより、ニュートン補間に基づくスペクトルフィルタに適用された形状認識正規化技術が導入され、所望のホモフィリーレベルに合わせた多項式スペクトルフィルタのカスタマイズが可能になった。 広範な実験により、ニュートンネットは所望のフィルタ形状を達成でき、ホモフィラスデータセットとヘテロフィラスデータセットの両方で優れた性能を示すことが示されている。

Spectral Graph Neural Networks (GNNs) are gaining attention because they can surpass the limitations of message-passing GNNs by learning spectral filters that capture essential frequency information in graph data through task supervision. However, previous research suggests that the choice of filter frequency is tied to the graph's homophily level, a connection that hasn't been thoroughly explored in existing spectral GNNs. To address this gap, the study conducts both theoretical and empirical analyses, revealing that low-frequency filters have a positive correlation with homophily, while high-frequency filters have a negative correlation. This leads to the introduction of a shape-aware regularization technique applied to a Newton Interpolation-based spectral filter, enabling the customization of polynomial spectral filters that align with desired homophily levels. Extensive experiments demonstrate that NewtonNet successfully achieves the desired filter shapes and exhibits superior performance on both homophilous and heterophilous datasets.
翻訳日:2023-10-17 16:27:20 公開日:2023-10-16
# ツール支援生成戦略の包括的評価

A Comprehensive Evaluation of Tool-Assisted Generation Strategies ( http://arxiv.org/abs/2310.10062v1 )

ライセンス: Link先を確認
Alon Jacovi, Avi Caciularu, Jonathan Herzig, Roee Aharoni, Bernd Bohnet, Mor Geva(参考訳) 研究領域の増大は、ツール(検索エンジン、電卓など)で言語モデルを強化し、その欠点(例えば、誤った知識、誤った論理的推論)を克服する。 様々なツール利用戦略が提案されている。 しかし、異なる戦略、あるいはこれらの戦略とツールを使わない強力なベースラインの間に、体系的かつ公平な比較は存在しない。 We conduct an extensive empirical analysis, finding that (1) across various datasets, example difficulty levels, and models, strong no-tool baselines are competitive to tool-assisted strategies, implying that effectively using tools with in-context demonstrations is a difficult unsolved problem; (2) for knowledge-retrieval tasks, strategies that *refine* incorrect outputs with tools outperform strategies that retrieve relevant information *ahead of* or *during generation*; (3) tool-assisted strategies are expensive in the number of tokens they require to work -- incurring additional costs by orders of magnitude -which does not translate into significant improvement in performance. 全体としては、少額のツール統合は依然としてオープンな課題であり、彼らの*便益*と*コスト*を正確に評価する今後の戦略の包括的な評価の必要性を強調しています。

A growing area of research investigates augmenting language models with tools (e.g., search engines, calculators) to overcome their shortcomings (e.g., missing or incorrect knowledge, incorrect logical inferences). Various few-shot tool-usage strategies have been proposed. However, there is no systematic and fair comparison across different strategies, or between these strategies and strong baselines that do not leverage tools. We conduct an extensive empirical analysis, finding that (1) across various datasets, example difficulty levels, and models, strong no-tool baselines are competitive to tool-assisted strategies, implying that effectively using tools with in-context demonstrations is a difficult unsolved problem; (2) for knowledge-retrieval tasks, strategies that *refine* incorrect outputs with tools outperform strategies that retrieve relevant information *ahead of* or *during generation*; (3) tool-assisted strategies are expensive in the number of tokens they require to work -- incurring additional costs by orders of magnitude -- which does not translate into significant improvement in performance. Overall, our findings suggest that few-shot tool integration is still an open challenge, emphasizing the need for comprehensive evaluations of future strategies to accurately assess their *benefits* and *costs*.
翻訳日:2023-10-17 16:27:02 公開日:2023-10-16
# ビジュアルサーチにおけるシリアルおよび並列処理の計算モデル

A computational model of serial and parallel processing in visual search ( http://arxiv.org/abs/2310.10061v1 )

ライセンス: Link先を確認
Rachel F. Heaton(参考訳) 視覚探索における様々な現象が人間の視覚表現やプロセスの性質について何を教えるかを理解するための論文である。 まず,視覚探索研究における主要な経験的発見について概説する。 次に、腹側視覚処理の基礎となる表現とプロセスについて、これらの知見が示唆するものの観点から視覚探索の理論を提示します。 これらの原理は、最初にHummelによって開発されたCASPER(Concurrent Attention: Serial and Parallel Evaluation with Relations)と呼ばれる計算モデルでインスタンス化され、視覚探索における様々な現象を考慮に入れた。 次に,これらの項目を構成する特徴だけでなく,それらの特徴間の空間的関係によって定義された視覚的項目を探索する能力を考慮したcasperモデルの拡張について述べる。 7つの実験(4つの主要な実験と3つの複製)で、CASPERのリレーショナルサーチに関する予測をテストする。 最後に,カスパーの予測と経験的知見の適合性を評価し,視覚システムが関係処理をバイパスする創発的特徴を活用していると仮定すると,カスパーが関係刺激の探索関数の負の加速度を考慮できる3つの追加シミュレーションを提示する。

The following is a dissertation aimed at understanding what the various phenomena in visual search teach us about the nature of human visual representations and processes. I first review some of the major empirical findings in the study of visual search. I next present a theory of visual search in terms of what I believe these findings suggest about the representations and processes underlying ventral visual processing. These principles are instantiated in a computational model called CASPER (Concurrent Attention: Serial and Parallel Evaluation with Relations), originally developed by Hummel, that I have adapted to account for a range of phenomena in visual search. I then describe an extension of the CASPER model to account for our ability to search for visual items defined not simply by the features composing those items but by the spatial relations among those features. Seven experiments (four main experiments and three replications) are described that test CASPER's predictions about relational search. Finally, I evaluate the fit between CASPER's predictions and the empirical findings and show with three additional simulations that CASPER can account for negative acceleration in search functions for relational stimuli if one postulates that the visual system is leveraging an emergent feature that bypasses relational processing.
翻訳日:2023-10-17 16:26:42 公開日:2023-10-16
# 時系列分類のためのデータ拡張:包括的調査

Data Augmentation for Time-Series Classification: a Comprehensive Survey ( http://arxiv.org/abs/2310.10060v1 )

ライセンス: Link先を確認
Zijun Gao, Lingbo Li and Tianhua Xu(参考訳) 時系列分類のためのデータ拡張(da)は、トレーニングサンプル数を増やすための機械学習の一般的なテクニックであり、モデルパフォーマンスの向上、データセットの多様性の強化、過剰フィッティングの緩和に寄与する。 それにもかかわらず、この技術は現在、不完全なレビュー、曖昧な分類、不十分な評価、ユーザーフレンドリーなツールといった課題に直面している。 本研究は,tscのためのdaの詳細な探索を行う。 da for tscに関するこれまでの調査が十分に包括的ではないため,過去10年間に初めて,da for tscの分野における開発状況を徹底的にレビューした。 この取り組みは、100以上の研究論文から60以上の異なるDA技術を集めました。 この取り組みは、tscドメイン内でdaにのみ対応した革新的な分類法の作成に結実した。 分類法は、変換ベース、パターンベース、生成、分解ベース、自動データ拡張の5つの主要なカテゴリに分類される。 この分類は、方法を選択する際に研究者にとって頑丈な参照となる。 また,一般的なデータ拡張手法の包括的かつ詳細な評価が欠如しているため,包括的評価を行う。 ResNetを用いて8つのUCR時系列データセット上で15以上のDA手法がテストされ、精度、メソッドランク付け、残留分析を含むマルチメトリック評価戦略が展開され、その結果は88.94 +-11.83%の基準精度であった。 例えば、Permutationのようなメソッドはパフォーマンスを向上し、Rotationは精度を低下させた。 また,データ特性がDAの有効性に大きく影響し,実験結果に基づいてユーザに対して,異なるデータ特性に対して最適なDA手法を選択するための,正確かつ実践的なアドバイスを与える。

Data Augmentation (DA) for Time Series Classification (TSC) is a common technique in machine learning to increase the number of training samples, which enhances model performance, enriches the dataset variety, and helps mitigate overfitting. Nonetheless, this technique is currently faced with challenges characterized by incomplete reviews, ambiguous taxonomies, insufficient evaluations, and user-unfriendly tools. This study undertakes a detailed exploration of DA for TSC. We first conducted a thorough review of the developments in the field of DA for TSC over the past 10 years since existing surveys on DA for TSC are not comprehensive enough. Our efforts encompassed gathering more than 60 distinct DA techniques from a pool over 100 research papers. This endeavor culminated in the creation of an innovative taxonomy exclusively tailored to DA within the TSC domain. The taxonomy organizes methods into five main categories: Transformation-Based, Pattern-Based, Generative, Decomposition-Based, and Automated Data Augmentation. This classification serves as a sturdy reference for researchers when choosing methods. In addition, since there is a lack of comprehensive and detailed evaluations of popular data augmentation methods, we conduct a comprehensive assessment. More than 15 DA methods were tested on 8 UCR time-series datasets using the ResNet and deploying a multi-metric evaluation strategy that includes Accuracy, Method Ranking, and Residual Analysis, the outcome was a baseline accuracy of 88.94 +- 11.83%. Findings highlighted the variable effectiveness of DA methods, for instance, methods like Permutation enhanced performance while Rotation decreased accuracy. Dataset properties also profoundly influence DA efficacy, we give users accurate and practical advice based on our experimental results to guide them in choosing the most appropriate DA methods for different data characteristics.
翻訳日:2023-10-17 16:26:19 公開日:2023-10-16
# 行動認識のためのフローダイナミクス補正

Flow Dynamics Correction for Action Recognition ( http://arxiv.org/abs/2310.10059v1 )

ライセンス: Link先を確認
Lei Wang and Piotr Koniusz(参考訳) 様々な研究により、行動認識のパフォーマンスは抽出される動作の種類と人間の行動がどの程度正確に表現されているかに大きく依存していることが示された。 本稿では,これらの光学的流れから抽出した光学的流れと,短期および長期の運動力学の両方を捉えた特徴について検討する。 流れのダイナミクスを補正するために光流れの大きさ成分のパワー正規化を行い、微妙な動きや突然の動作を弱める。 我々は,光学的フローに依存する既存の動作認識モデルが,補正された光学的フローによって性能を向上できることを示す。 さらに,光学的フロー特徴のみを選択することで,修正されたフローダイナミクスを一般的なモデルに組み込むことにより,動作の異なる光フロー特徴にCNN機能を「翻訳」することで,HMDB-51,YUP++,MPII調理活動におけるきめ細かなアクション認識,大規模チャラードなどのいくつかのベンチマークにおいて,新たな最先端性能を実現することを示す。

Various research studies indicate that action recognition performance highly depends on the types of motions being extracted and how accurate the human actions are represented. In this paper, we investigate different optical flow, and features extracted from these optical flow that capturing both short-term and long-term motion dynamics. We perform power normalization on the magnitude component of optical flow for flow dynamics correction to boost subtle or dampen sudden motions. We show that existing action recognition models which rely on optical flow are able to get performance boosted with our corrected optical flow. To further improve performance, we integrate our corrected flow dynamics into popular models through a simple hallucination step by selecting only the best performing optical flow features, and we show that by 'translating' the CNN feature maps into these optical flow features with different scales of motions leads to the new state-of-the-art performance on several benchmarks including HMDB-51, YUP++, fine-grained action recognition on MPII Cooking Activities, and large-scale Charades.
翻訳日:2023-10-17 16:25:50 公開日:2023-10-16
# 頑健な長期学習のためのデータマニフォールドの直交不確かさ表現

Orthogonal Uncertainty Representation of Data Manifold for Robust Long-Tailed Learning ( http://arxiv.org/abs/2310.10090v1 )

ライセンス: Link先を確認
Yanbiao Ma, Licheng Jiao, Fang Liu, Shuyuan Yang, Xu Liu, Lingling Li(参考訳) 長い尾分布を持つシナリオでは、尾のサンプルが不足しているため、尾のクラスを特定する能力は制限される。 クラス再バランス,情報拡張,その他の手法が提案され,モデルによるテールクラスの潜在的分布の学習が促進されている。 欠点は、これらの手法が一般に、干渉に抵抗するモデルの能力を無視しながら、データ多様体上のバランスの取れたクラス精度のモデルを追求することである。 雑音データ多様体の構築により,不均衡データにトレーニングされたモデルのロバスト性はロングテール現象を持つことがわかった。 つまり、たとえクラス精度がデータドメイン上でバランスを取っていても、ノイズの多いデータ多様体にはまだバイアスがあります。 しかし、既存の手法では上記の現象を効果的に緩和できないため、ロングテールのシナリオではモデルが脆弱になる。 本研究では,モデルロバスト性のロングテール現象を改善するために,特徴埋め込みの直交不確実性表現(our)とエンドツーエンドのトレーニング戦略を提案する。 汎用的な拡張ツールとしては,他の手法との互換性が優れており,データ生成も必要とせず,高速かつ効率的なトレーニングを実現しています。 ロングテールデータセットの包括的評価により,本手法はロバスト性のロングテール現象を著しく改善し,他のロングテール学習手法に一貫したパフォーマンス向上をもたらすことが示された。

In scenarios with long-tailed distributions, the model's ability to identify tail classes is limited due to the under-representation of tail samples. Class rebalancing, information augmentation, and other techniques have been proposed to facilitate models to learn the potential distribution of tail classes. The disadvantage is that these methods generally pursue models with balanced class accuracy on the data manifold, while ignoring the ability of the model to resist interference. By constructing noisy data manifold, we found that the robustness of models trained on unbalanced data has a long-tail phenomenon. That is, even if the class accuracy is balanced on the data domain, it still has bias on the noisy data manifold. However, existing methods cannot effectively mitigate the above phenomenon, which makes the model vulnerable in long-tailed scenarios. In this work, we propose an Orthogonal Uncertainty Representation (OUR) of feature embedding and an end-to-end training strategy to improve the long-tail phenomenon of model robustness. As a general enhancement tool, OUR has excellent compatibility with other methods and does not require additional data generation, ensuring fast and efficient training. Comprehensive evaluations on long-tailed datasets show that our method significantly improves the long-tail phenomenon of robustness, bringing consistent performance gains to other long-tailed learning methods.
翻訳日:2023-10-17 16:20:31 公開日:2023-10-16
# PUCA:自己監督型画像認識のためのパッチアンシャッフルとチャネルアテンション

PUCA: Patch-Unshuffle and Channel Attention for Enhanced Self-Supervised Image Denoising ( http://arxiv.org/abs/2310.10088v1 )

ライセンス: Link先を確認
Hyemi Jang, Junsung Park, Dahuin Jung, Jaihyun Lew, Ho Bae, Sungroh Yoon(参考訳) 教師付き画像デノイジングネットワークは、合成ノイズ画像において顕著な性能を示すが、実際のノイズと合成ノイズの違いにより、実際には失敗することが多い。 実世界のクリーンノイズ画像ペアは収集に非常にコストがかかるため、ノイズ入力自体をターゲットとする自己教師型学習が研究されている。 自己教師付き分母モデルが同一のマッピングを学習することを防止するため、各出力画素は対応する入力画素に影響されるべきではない。 ブラインドスポットネットワーク(bsns)は、自己教師付き画像の非分散を確実にするための一般的な選択肢である。 しかし、ダウンサンプリングなどの追加操作を注入してbsnのバリエーションを構築すると盲目的な情報を露呈し、j不変性に違反する可能性がある。 このため、BSN用に設計された畳み込みはアーキテクチャの柔軟性を制限してのみ許可されている。 この制限を克服するために,新しいJ不変なU-NetアーキテクチャであるPUCAを提案する。 PUCAはパッチアンシャッフル/シャッフルを利用して、J-不変性を維持しながら、グローバルなコンテキストインクルージョンのための拡張アテンションブロック(DAB)を劇的に拡張する。 実験結果から,PUCAは従来の自己教師型画像復調法よりも優れ,最先端の性能を実現していることが示された。

Although supervised image denoising networks have shown remarkable performance on synthesized noisy images, they often fail in practice due to the difference between real and synthesized noise. Since clean-noisy image pairs from the real world are extremely costly to gather, self-supervised learning, which utilizes noisy input itself as a target, has been studied. To prevent a self-supervised denoising model from learning identical mapping, each output pixel should not be influenced by its corresponding input pixel; This requirement is known as J-invariance. Blind-spot networks (BSNs) have been a prevalent choice to ensure J-invariance in self-supervised image denoising. However, constructing variations of BSNs by injecting additional operations such as downsampling can expose blinded information, thereby violating J-invariance. Consequently, convolutions designed specifically for BSNs have been allowed only, limiting architectural flexibility. To overcome this limitation, we propose PUCA, a novel J-invariant U-Net architecture, for self-supervised denoising. PUCA leverages patch-unshuffle/shuffle to dramatically expand receptive fields while maintaining J-invariance and dilated attention blocks (DABs) for global context incorporation. Experimental results demonstrate that PUCA achieves state-of-the-art performance, outperforming existing methods in self-supervised image denoising.
翻訳日:2023-10-17 16:20:08 公開日:2023-10-16
# 制約処理手法を改良したコホート知能アルゴリズムを用いた高度製造プロセス問題の解法

Solution to Advanced Manufacturing Process Problems using Cohort Intelligence Algorithm with Improved Constraint Handling Approaches ( http://arxiv.org/abs/2310.10085v1 )

ライセンス: Link先を確認
Aniket Nargundkar, Madhav Rawal, Aryaman Patel, Anand J Kulkarni, Apoorva S Shastri(参考訳) 近年,AIに基づく最適化メタヒューリスティックスが提案され,様々な問題に応用されている。 コホートインテリジェンス(CI)アルゴリズムは、設計、製造、サプライチェーン、医療などの領域から制約のない現実の問題を解決するために、社会にインスパイアされた最適化手法である。 一般に、現実世界の問題は自然に制約される。 進化的アルゴリズム(EA)のほとんどは、制約のない問題を効率的に解くことができるが、その性能は制約が絡むと劣化する。 本稿では,モジュラスと双曲的接確率分布に基づく2つの制約ハンドリング手法を提案する。 水ジェット加工(WJM)、アブレーブジェット加工(AJM)、超音波加工(USM)、研削加工などの先進的な製造工程を最適化するために, 三角形, 弾性率, 双曲接地に基づく制約処理アプローチを用いた制約型CIアルゴリズムを提案し, 適用した。 提案したciアルゴリズムを用いて得られた解は、遺伝的アルゴリズム、シミュレーションアニーリング、教育学習に基づく最適化などの現代のアルゴリズムと比較される。 提案手法は, 硬度制約を満たす材料除去率を2%-127%最大化する。 gaと比較して, 双曲的接確率分布を有するciは, ajmb, ajmd, wjm, usm, および研削工程においてそれぞれ15%, 2%, 2%, 127%, 4%改善し, それぞれ生産性向上に寄与した。 本稿では, 複雑な制約問題に対する制約処理手法のさらなる適用性を高めるために, コントリビューションを公開している。

Recently, various Artificial Intelligence (AI) based optimization metaheuristics are proposed and applied for a variety of problems. Cohort Intelligence (CI) algorithm is a socio inspired optimization technique which is successfully applied for solving several unconstrained & constrained real-world problems from the domains such as design, manufacturing, supply chain, healthcare, etc. Generally, real-world problems are constrained in nature. Even though most of the Evolutionary Algorithms (EAs) can efficiently solve unconstrained problems, their performance degenerates when the constraints are involved. In this paper, two novel constraint handling approaches based on modulus and hyperbolic tangent probability distributions are proposed. Constrained CI algorithm with constraint handling approaches based on triangular, modulus and hyperbolic tangent is presented and applied for optimizing advanced manufacturing processes such as Water Jet Machining (WJM), Abrasive Jet Machining (AJM), Ultrasonic Machining (USM) and Grinding process. The solutions obtained using proposed CI algorithm are compared with contemporary algorithms such as Genetic Algorithm, Simulated Annealing, Teaching Learning Based Optimization, etc. The proposed approaches achieved 2%-127% maximization of material removal rate satisfying hard constraints. As compared to the GA, CI with Hyperbolic tangent probability distribution achieved 15%, 2%, 2%, 127%, and 4% improvement in MRR for AJMB, AJMD, WJM, USM, and Grinding processes, respectively contributing to the productivity improvement. The contributions in this paper have opened several avenues for further applicability of the proposed constraint handling approaches for solving complex constrained problems.
翻訳日:2023-10-17 16:19:43 公開日:2023-10-16
# JMedLoRA:インストラクションチューニングを用いた日本語大言語モデルの医学領域適応

JMedLoRA:Medical Domain Adaptation on Japanese Large Language Models using Instruction-tuning ( http://arxiv.org/abs/2310.10083v1 )

ライセンス: Link先を確認
Issey Sukeda, Masahiro Suzuki, Hiroki Sakaji, Satoshi Kodera(参考訳) ChatGPTのような大規模言語モデル(LLM)による継続的な影響の波の中で、医学領域へのLSMの適応が重要な研究フロンティアとして現れている。 主流のLSMは汎用アプリケーション向けに設計される傾向があるため、ドメイン適応による医療用LSMの構築は大きな課題である。 命令チューニングはいくつかのLSMを微調整するために使用されるが、ドメイン適応におけるその正確な役割は不明である。 ここでは,LoRAに基づく指導指導が日本語の質問応答タスクにおけるパフォーマンスに与える影響について述べる。 そこで我々は,従来の精度に加えて,"Exact Match" と "Gestalt distance" に基づく得点を含む,多面的質問に対する多面的評価を採用する。 以上の結果から,LoRAに基づく命令チューニングはLLMにドメイン固有の知識を部分的に組み込むことが可能であることが示唆された。 さらに,本研究は,英語中心モデルの日本語適応の可能性を強調しつつ,日本語中心モデルの持続的な制限を強調するものである。 このイニシアチブは、医療機関が外部サービスに頼ることなくモデルを微調整し運用できるようにするための先駆的な取り組みである。

In the ongoing wave of impact driven by large language models (LLMs) like ChatGPT, the adaptation of LLMs to medical domain has emerged as a crucial research frontier. Since mainstream LLMs tend to be designed for general-purpose applications, constructing a medical LLM through domain adaptation is a huge challenge. While instruction-tuning is used to fine-tune some LLMs, its precise roles in domain adaptation remain unknown. Here we show the contribution of LoRA-based instruction-tuning to performance in Japanese medical question-answering tasks. In doing so, we employ a multifaceted evaluation for multiple-choice questions, including scoring based on "Exact match" and "Gestalt distance" in addition to the conventional accuracy. Our findings suggest that LoRA-based instruction-tuning can partially incorporate domain-specific knowledge into LLMs, with larger models demonstrating more pronounced effects. Furthermore, our results underscore the potential of adapting English-centric models for Japanese applications in domain adaptation, while also highlighting the persisting limitations of Japanese-centric models. This initiative represents a pioneering effort in enabling medical institutions to fine-tune and operate models without relying on external services.
翻訳日:2023-10-17 16:19:12 公開日:2023-10-16
# 熱力学変数による量子非線形ノイズ相関のセンシング

Sensing of quantum nonlinear noise correlations via thermodynamic variables ( http://arxiv.org/abs/2310.10081v1 )

ライセンス: Link先を確認
Nilakantha Meher, Tom\'a\v{s} Opatrn\'y, Gershon Kurizki(参考訳) 非線形2モード干渉計と機械振動子を組み合わせた量子ノイズセンサの概念を提示する。 これらの単純で自律的な機械は、未探索の量子熱力学機能、すなわち、抽出可能な作業の熱力学変数を介してノイズ場の量子非線形相関を感知する能力を持つ。 マシンは熱雑音の入力をフィルタリングし、量子相関出力に変換する。 このような非線形相関は、双極子-双極子相互作用を介して結合したrydbergポラリトンや、それらのカップリングを多レベル原子に交換するキャビティモードを含む、実現可能な実験で生じる。 干渉計に結合した機械振動子を監視することにより、干渉計出力モードの1つの作業能力を検出し、量子非線形相関を明らかにすることができる。 提案する量子センシング法は,プロセストモグラフィで補う量子マルチポート干渉法よりはるかに簡易な代替手段を提供することができる。

We put forth the concept of quantum noise sensors based on nonlinear two-mode interferometers coupled to mechanical oscillators. These simple, autonomous machines are capable of a hitherto unexplored quantum thermodynamic functionality: the ability to sense quantum nonlinear correlations of noisy fields via the thermodynamic variable of extractable work. The machines filter thermal noise input and turn it into quantum correlated output. Such nonlinear correlations arise in feasible experimental setups involving Rydberg polaritons coupled via dipole-dipole interactions or cavity modes that exchange quanta via their coupling to multi-level atoms. By monitoring a mechanical oscillator coupled to the interferometer, one can sense the work capacity of one of the interferometer output modes and thereby reveal its quantum nonlinear correlations. The proposed quantum sensing method can provide a much simpler alternative to quantum multiport interferometry supplemented by process tomography.
翻訳日:2023-10-17 16:18:48 公開日:2023-10-16
# ステップバイステップの報酬: 推論のナビゲータとしてのステップレベル報酬モデル

Let's reward step by step: Step-Level reward model as the Navigators for Reasoning ( http://arxiv.org/abs/2310.10080v1 )

ライセンス: Link先を確認
Qianli Ma, Haotian Zhou, Tingkai Liu, Jianbo Yuan, Pengfei Liu, Yang You and Hongxia Yang(参考訳) 近年,Large Language Models (LLMs) を用いた多段階推論が著しく進歩している。 前報では,モデル推論におけるフィードバックや探索機構の統合による推論精度の向上のメリットを明らかにした。 Process-Supervised Reward Model (PRM) は、通常、トレーニングフェーズの間、PPO(Proximal Policy Optimization)に似たステップバイステップのフィードバックをLCMに提供する。 本研究の目的は,数理推論やコード生成といったマルチステップタスクの最適解経路を識別するために,推論フェーズにおけるprmの有効性を検討することである。 そこで本研究では,PLMからのステップレベルのフィードバックを用いて,LLMが探索する推論経路を最適化するヒューリスティックなグリージー探索アルゴリズムを提案する。 この調整されたPRMは、GSM8KやMATHのような数式ベンチマークにおいて、Chain of Thought (CoT)と比較して改善された結果を示した。 さらに,本手法の汎用性を探るため,コーディングタスクのためのステップレベルの報酬データセットを自動的に生成する手法を開発し,コード生成タスクにおける同様のパフォーマンス向上を観察する。 したがって、推論タスクに対する報酬モデルに基づくアプローチの堅牢性を強調します。

Recent years have seen considerable advancements in multi-step reasoning with Large Language Models (LLMs). The previous studies have elucidated the merits of integrating feedback or search mechanisms during model inference to improve the reasoning accuracy. The Process-Supervised Reward Model (PRM), typically furnishes LLMs with step-by-step feedback during the training phase, akin to Proximal Policy Optimization (PPO) or reject sampling. Our objective is to examine the efficacy of PRM in the inference phase to help discern the optimal solution paths for multi-step tasks such as mathematical reasoning and code generation. To this end, we propose a heuristic greedy search algorithm that employs the step-level feedback from PRM to optimize the reasoning pathways explored by LLMs. This tailored PRM demonstrated enhanced results compared to the Chain of Thought (CoT) on mathematical benchmarks like GSM8K and MATH. Additionally, to explore the versatility of our approach, we develop a novel method to automatically generate step-level reward dataset for coding tasks and observed similar improved performance in the code generation tasks. Thus highlighting the robust nature of our reward-model-based approach to inference for reasoning tasks.
翻訳日:2023-10-17 16:18:35 公開日:2023-10-16
# MOCHA:コンテキストマッチングによるリアルタイムモーションキャラクタリゼーション

MOCHA: Real-Time Motion Characterization via Context Matching ( http://arxiv.org/abs/2310.10079v1 )

ライセンス: Link先を確認
Deok-Kyeong Jang, Yuting Ye, Jungdam Won, Sung-Hee Lee(参考訳) 中性でキャラクタレスな入力動作をリアルタイムで注目すべきキャラクタの異なるスタイルを具現化する変換は、キャラクタアニメーションにとって非常に魅力的なものです。 そこで,本論文では,対象キャラクターから入力源モーションへ動作スタイルと身体比の両方を転送する,新しいオンラインモーションキャラクタリゼーションフレームワークMOCHAを紹介する。 MOCHAは、入力された動きを、身体部分のトポロジーを構造化し、効果的なキャラクタリゼーションのために動きの依存関係をキャプチャするモーション特徴に符号化することから始まる。 我々のフレームワークの中心はNeural Context Matcherであり、入力された動き特徴に最もよく似たコンテキストを持つターゲットキャラクタの動作特徴を生成する。 ニューラルコンテキストマッチングの条件付き自己回帰モデルでは、時間フレーム毎に時間的コヒーレントな特徴を生成できる。 最終的な特徴的ポーズを生成するために,我々のキャラクタライザネットワークは,そのコンテキストを保ちながら,対象の動作特徴の特徴を入力動作特徴に組み込む。 これは、適応インスタンス正規化とコンテキストマッピングに基づくクロスアテンションを導入するトランスフォーマティブモデルによって実現され、ソース機能にキャラクタ機能を効果的に注入する。 先行研究との比較とアブレーション研究を通じて,フレームワークの性能を検証する。 本フレームワークは,スパース入力のみのキャラクタリゼーションやリアルタイムキャラクタリゼーションなど,さまざまなアプリケーションに容易に対応できる。 さらに,様々な動作を行う6つの異なる文字からなる高品質なモーションデータセットをコントリビュートし,今後の研究に有用な資源として活用する。

Transforming neutral, characterless input motions to embody the distinct style of a notable character in real time is highly compelling for character animation. This paper introduces MOCHA, a novel online motion characterization framework that transfers both motion styles and body proportions from a target character to an input source motion. MOCHA begins by encoding the input motion into a motion feature that structures the body part topology and captures motion dependencies for effective characterization. Central to our framework is the Neural Context Matcher, which generates a motion feature for the target character with the most similar context to the input motion feature. The conditioned autoregressive model of the Neural Context Matcher can produce temporally coherent character features in each time frame. To generate the final characterized pose, our Characterizer network incorporates the characteristic aspects of the target motion feature into the input motion feature while preserving its context. This is achieved through a transformer model that introduces the adaptive instance normalization and context mapping-based cross-attention, effectively injecting the character feature into the source feature. We validate the performance of our framework through comparisons with prior work and an ablation study. Our framework can easily accommodate various applications, including characterization with only sparse input and real-time characterization. Additionally, we contribute a high-quality motion dataset comprising six different characters performing a range of motions, which can serve as a valuable resource for future research.
翻訳日:2023-10-17 16:18:15 公開日:2023-10-16
# Prompt Packer: 隠れ攻撃による構成指示によるLCMの劣化

Prompt Packer: Deceiving LLMs through Compositional Instruction with Hidden Attacks ( http://arxiv.org/abs/2310.10077v1 )

ライセンス: Link先を確認
Shuyu Jiang, Xingshu Chen, Rui Tang(参考訳) 近年、強力な汎用機能を持つ大規模言語モデル(LLM)が様々なWebアプリケーションに統合されつつ、生成されたコンテンツがユーザの意図や倫理と整合することを保証するアライメントトレーニングが実施されている。 残念ながら、ヘイトスピーチや犯罪行為などの有害なコンテンツを現実の応用で生成するリスクは残る。 現在のアプローチは主に、このようなリスクを防ぐために有害なプロンプトの検出、収集、トレーニングに依存している。 しかし、彼らは通常、単発的な意図で「表面的」有害なプロンプトに焦点を当て、現実世界のシナリオで有害なコンテンツを容易に引き出す複数の意図で複合攻撃命令を無視した。 本稿では,複数の命令の組み合わせとカプセル化による攻撃を指す合成命令攻撃(cia)という,有害な命令を隠蔽する革新的な手法を提案する。 CIAは有害な指示を無害な意図の指示の中に隠しており、モデルが根底にある悪意のある意図を特定することは不可能である。 さらに、T-CIAとW-CIAと呼ばれる2つのトランスフォーメーション手法を実装し、有害な指示を会話や文章のタスクとして自動的に偽装し、LLMに無害に見えるようにする。 GPT-4, ChatGPT, ChatGLM2でCIAを2つの安全性評価データセットと2つの有害なプロンプトデータセットで評価した。 安全評価データセットで95%以上、GPT-4で83%以上、ChatGPTで91%以上、有害なプロンプトデータセットでChatGLM2-6Bを攻撃成功率で達成している。 提案手法は, 有害な意図を隠蔽し, LLM のセキュリティ開発に大きく貢献する, 構成的攻撃に対する LLM の脆弱性を明らかにする。 警告:この論文には、攻撃的または不安定なコンテンツが含まれているかもしれない。

Recently, Large language models (LLMs) with powerful general capabilities have been increasingly integrated into various Web applications, while undergoing alignment training to ensure that the generated content aligns with user intent and ethics. Unfortunately, they remain the risk of generating harmful content like hate speech and criminal activities in practical applications. Current approaches primarily rely on detecting, collecting, and training against harmful prompts to prevent such risks. However, they typically focused on the "superficial" harmful prompts with a solitary intent, ignoring composite attack instructions with multiple intentions that can easily elicit harmful content in real-world scenarios. In this paper, we introduce an innovative technique for obfuscating harmful instructions: Compositional Instruction Attacks (CIA), which refers to attacking by combination and encapsulation of multiple instructions. CIA hides harmful prompts within instructions of harmless intentions, making it impossible for the model to identify underlying malicious intentions. Furthermore, we implement two transformation methods, known as T-CIA and W-CIA, to automatically disguise harmful instructions as talking or writing tasks, making them appear harmless to LLMs. We evaluated CIA on GPT-4, ChatGPT, and ChatGLM2 with two safety assessment datasets and two harmful prompt datasets. It achieves an attack success rate of 95%+ on safety assessment datasets, and 83%+ for GPT-4, 91%+ for ChatGPT (gpt-3.5-turbo backed) and ChatGLM2-6B on harmful prompt datasets. Our approach reveals the vulnerability of LLMs to such compositional instruction attacks that harbor underlying harmful intentions, contributing significantly to LLM security development. Warning: this paper may contain offensive or upsetting content!
翻訳日:2023-10-17 16:17:50 公開日:2023-10-16
# 大規模言語モデルによる選好ラベル付けにおける動詞バイアス

Verbosity Bias in Preference Labeling by Large Language Models ( http://arxiv.org/abs/2310.10076v1 )

ライセンス: Link先を確認
Keita Saito, Akifumi Wachi, Koki Wataoka, Youhei Akimoto(参考訳) 近年、大規模言語モデル(llm)は、自然言語処理と機械学習の展望を変えて、有病率の著しい増加を目撃している。 ヒトフィードバックからの強化学習(RLHF:Reinforcement Learning from Human Feedback)によって達成された人間と、GPT-4, Bardなどの多くのLLMの性能向上の要因である。 さらに,AIフィードバックからの強化学習(Reinforcement Learning from AI Feedback, RLAIF)と呼ばれる他のLLMからのフィードバックによる人間のフィードバックの置き換えについても検討している。 我々は、他のllmとllmを評価することによって生じるバイアスを調べ、同じ性質であってもllmがより冗長な答えを好むバイアスである動詞バイアスについて詳しく調べる。 我々の問題設定では、GPT-4は人間よりも長い答えを好む。 このバイアスを測定するための指標も提案する。

In recent years, Large Language Models (LLMs) have witnessed a remarkable surge in prevalence, altering the landscape of natural language processing and machine learning. One key factor in improving the performance of LLMs is alignment with humans achieved with Reinforcement Learning from Human Feedback (RLHF), as for many LLMs such as GPT-4, Bard, etc. In addition, recent studies are investigating the replacement of human feedback with feedback from other LLMs named Reinforcement Learning from AI Feedback (RLAIF). We examine the biases that come along with evaluating LLMs with other LLMs and take a closer look into verbosity bias -- a bias where LLMs sometimes prefer more verbose answers even if they have similar qualities. We see that in our problem setting, GPT-4 prefers longer answers more than humans. We also propose a metric to measure this bias.
翻訳日:2023-10-17 16:17:18 公開日:2023-10-16
# sotta: ノイズデータストリームに対する堅牢なテスト時間適応

SoTTA: Robust Test-Time Adaptation on Noisy Data Streams ( http://arxiv.org/abs/2310.10074v1 )

ライセンス: Link先を確認
Taesik Gong, Yewon Kim, Taeckyung Lee, Sorn Chottananurak, Sung-Ju Lee(参考訳) テスト時間適応(TTA)は、連続モデル適応のためのラベルのないテストデータストリームのみを使用して、トレーニングとテストデータの分散シフトに対処することを目的としている。 しかし、ほとんどのTTAメソッドは良質なテストストリームを仮定するが、テストサンプルは野生では意外に多様である可能性がある。 例えば、見えない物体や騒音が自動運転に現れる可能性がある。 これは既存のttaアルゴリズムに新たな脅威をもたらします。以前のttaアルゴリズムは、入ってくるサンプルに盲目的に適応するため、ノイズの多いテストサンプルに苦しむことが分かりました。 そこで本研究では,雑音に頑健な新しいttaアルゴリズムであるスクリーニングアウトテストタイム適応法(sotta)を提案する。 SoTTAのキーイネーブルは2つある。 一 ノイズサンプルの影響を効果的に除去する高信頼一級サンプリングによる入力ワイドロバストネス (2)エントロピーシャープネス最小化によるパラメータワイドロバストネスは、ノイズサンプルからの大きな勾配に対するモデルパラメータのロバストネスを向上させる。 各種ノイズシナリオを持つ標準TTAベンチマークを用いて評価したところ,本手法はノイズサンプルの存在下で最先端のTTA手法より優れ,ノイズサンプルのない手法に匹敵する精度が得られた。 ソースコードはhttps://github.com/taeckyung/SoTTAで入手できる。

Test-time adaptation (TTA) aims to address distributional shifts between training and testing data using only unlabeled test data streams for continual model adaptation. However, most TTA methods assume benign test streams, while test samples could be unexpectedly diverse in the wild. For instance, an unseen object or noise could appear in autonomous driving. This leads to a new threat to existing TTA algorithms; we found that prior TTA algorithms suffer from those noisy test samples as they blindly adapt to incoming samples. To address this problem, we present Screening-out Test-Time Adaptation (SoTTA), a novel TTA algorithm that is robust to noisy samples. The key enabler of SoTTA is two-fold: (i) input-wise robustness via high-confidence uniform-class sampling that effectively filters out the impact of noisy samples and (ii) parameter-wise robustness via entropy-sharpness minimization that improves the robustness of model parameters against large gradients from noisy samples. Our evaluation with standard TTA benchmarks with various noisy scenarios shows that our method outperforms state-of-the-art TTA methods under the presence of noisy samples and achieves comparable accuracy to those methods without noisy samples. The source code is available at https://github.com/taeckyung/SoTTA .
翻訳日:2023-10-17 16:17:03 公開日:2023-10-16
# 勧告作成エージェントについて

On Generative Agents in Recommendation ( http://arxiv.org/abs/2310.10108v1 )

ライセンス: Link先を確認
An Zhang, Leheng Sheng, Yuxin Chen, Hao Li, Yang Deng, Xiang Wang, Tat-Seng Chua(参考訳) 今日の情報発信の基盤はレコメンダシステムだが、オフラインメトリクスとオンラインパフォーマンスの切り離しは、彼らの開発を著しく妨げている。 この課題に対処するため,我々は,Large Language Models (LLMs) による人間レベルのインテリジェンスにおける最近のブレークスルーを活かしたレコメンデーションシミュレータを構想する。 本稿では,レコメンデーションシステムに適したユーザプロファイル,メモリ,アクションモジュールを備えたLCMを利用した新規な映画レコメンデーションシミュレータであるAgent4Recを提案する。 特に、これらのエージェントのプロファイルモジュールは、movielensデータセットを使用して初期化され、ユーザのユニークな嗜好と社会的特性をキャプチャする;メモリモジュールは、事実的および感情的な記憶の両方をログし、感情駆動のリフレクションメカニズムに統合する;アクションモジュールは、味覚駆動と感情駆動の両方のアクションにまたがる、幅広い行動をサポートする。 各エージェントは、事前に実装されたコラボレーティブフィルタリングベースのレコメンデーションアルゴリズムに依存する、ページ毎のパーソナライズされた映画のレコメンデーションと対話する。 我々は agent4rec の能力と限界の両方を考察し、本質的な研究課題を探究することを目的としている: llm を組み込んだ生成エージェントは、レコメンダシステムにおける実際の自律的な人間の振る舞いを忠実にシミュレートできるだろうか? Agent4Recの多面的および多面的評価は、エージェント間のアライメントと偏りとユーザ個人の好みの両方を強調している。 単なるパフォーマンス比較以外にも,フィルタバブル効果のエミュレートや推奨タスクの根本原因関係の発見など,洞察に富んだ実験を行っている。 私たちのコードはhttps://github.com/lehengthu/agent4recで利用可能です。

Recommender systems are the cornerstone of today's information dissemination, yet a disconnect between offline metrics and online performance greatly hinders their development. Addressing this challenge, we envision a recommendation simulator, capitalizing on recent breakthroughs in human-level intelligence exhibited by Large Language Models (LLMs). We propose Agent4Rec, a novel movie recommendation simulator, leveraging LLM-empowered generative agents equipped with user profile, memory, and actions modules specifically tailored for the recommender system. In particular, these agents' profile modules are initialized using the MovieLens dataset, capturing users' unique tastes and social traits; memory modules log both factual and emotional memories and are integrated with an emotion-driven reflection mechanism; action modules support a wide variety of behaviors, spanning both taste-driven and emotion-driven actions. Each agent interacts with personalized movie recommendations in a page-by-page manner, relying on a pre-implemented collaborative filtering-based recommendation algorithm. We delve into both the capabilities and limitations of Agent4Rec, aiming to explore an essential research question: to what extent can LLM-empowered generative agents faithfully simulate the behavior of real, autonomous humans in recommender systems? Extensive and multi-faceted evaluations of Agent4Rec highlight both the alignment and deviation between agents and user-personalized preferences. Beyond mere performance comparison, we explore insightful experiments, such as emulating the filter bubble effect and discovering the underlying causal relationships in recommendation tasks. Our codes are available at https://github.com/LehengTHU/Agent4Rec.
翻訳日:2023-10-17 16:10:33 公開日:2023-10-16
# 韻律pomdpsのための後方サンプリング型学習アルゴリズムの後悔解析

Regret Analysis of the Posterior Sampling-based Learning Algorithm for Episodic POMDPs ( http://arxiv.org/abs/2310.10107v1 )

ライセンス: Link先を確認
Dengwang Tang, Rahul Jain, Ashutosh Nayyar, Pierluigi Nuzzo(参考訳) マルコフ決定過程 (MDPs) と比較して, 部分的に観察可能なマルコフ決定過程 (PMMDPs) の学習は観察の解釈が困難であるため, 極めて困難である。 本稿では,未知の遷移モデルと観測モデルを持つPOMDPにおけるエピソード学習問題を考察する。 我々は,PMDPに対する後方サンプリングに基づく強化学習(PSRL)アルゴリズムを考察し,そのベイズ的後悔がエピソード数の平方根であることを示す。 一般に、後悔は地平線長$H$で指数関数的にスケールし、より低い境界を提供することでこれは避けられないことを示す。 しかし、POMDPが不完全で弱露呈であるという条件の下で、最近の結果に対して$\Omega(H^2\sqrt{SA})$の係数で後悔境界を改善する多項式ベイズ後悔境界を arXiv:2204.08967 で確立する。

Compared to Markov Decision Processes (MDPs), learning in Partially Observable Markov Decision Processes (POMDPs) can be significantly harder due to the difficulty of interpreting observations. In this paper, we consider episodic learning problems in POMDPs with unknown transition and observation models. We consider the Posterior Sampling-based Reinforcement Learning (PSRL) algorithm for POMDPs and show that its Bayesian regret scales as the square root of the number of episodes. In general, the regret scales exponentially with the horizon length $H$, and we show that this is inevitable by providing a lower bound. However, under the condition that the POMDP is undercomplete and weakly revealing, we establish a polynomial Bayesian regret bound that improves the regret bound by a factor of $\Omega(H^2\sqrt{SA})$ over the recent result by arXiv:2204.08967.
翻訳日:2023-10-17 16:10:05 公開日:2023-10-16
# エンドツーエンドのマルチチャネル話者分散ASR:話者案内デコーダと入力特徴解析

End-to-end Multichannel Speaker-Attributed ASR: Speaker Guided Decoder and Input Feature Analysis ( http://arxiv.org/abs/2310.10106v1 )

ライセンス: Link先を確認
Can Cui (MULTISPEECH), Imran Ahamad Sheikh, Mostafa Sadeghi (MULTISPEECH), Emmanuel Vincent (MULTISPEECH)(参考訳) 本稿では,コンフォーメータベースエンコーダとマルチフレームクロスチャネルアテンションとを結合したエンド・ツー・エンドのマルチチャネル話者属性自動音声認識(mc-sa-asr)システムを提案する。 私たちの知る限りでは、これはasrと話者識別モジュールをマルチチャネル設定で効率的に統合する最初のモデルです。 シミュレーションしたLibriSpeechデータに対して,従来提案されていたシングルチャネルとマルチチャネルの手法と比較して,単語誤り率(WER)を最大12%,16%削減する。 さらに,マルチチャネル等級や位相情報を含む異なる入力特徴がASR性能に与える影響について検討した。 最後に, AMIコーパスを用いた実験により, 実世界のマルチチャネル会議におけるシステムの有効性を確認した。

We present an end-to-end multichannel speaker-attributed automatic speech recognition (MC-SA-ASR) system that combines a Conformer-based encoder with multi-frame crosschannel attention and a speaker-attributed Transformer-based decoder. To the best of our knowledge, this is the first model that efficiently integrates ASR and speaker identification modules in a multichannel setting. On simulated mixtures of LibriSpeech data, our system reduces the word error rate (WER) by up to 12% and 16% relative compared to previously proposed single-channel and multichannel approaches, respectively. Furthermore, we investigate the impact of different input features, including multichannel magnitude and phase information, on the ASR performance. Finally, our experiments on the AMI corpus confirm the effectiveness of our system for real-world multichannel meeting transcription.
翻訳日:2023-10-17 16:09:45 公開日:2023-10-16
# 大規模言語モデルを用いたナビゲーション:計画のヒューリスティックとしてのセマンティックギースワーク

Navigation with Large Language Models: Semantic Guesswork as a Heuristic for Planning ( http://arxiv.org/abs/2310.10103v1 )

ライセンス: Link先を確認
Dhruv Shah, Michael Equi, Blazej Osinski, Fei Xia, Brian Ichter, Sergey Levine(参考訳) ロボットにとって、馴染みのない環境でのナビゲーションは大きな課題である: マッピングと計画技術は世界の表現を構築するのに使えるが、そのような方法では、しばしば長いマッピングと探索を必要とする。 人間が新しい環境、特に論理的にレイアウトされた屋内環境をすばやくナビゲートできるのは、意味論(例えばキッチンはしばしばリビングルームに隣接し、出口標識は出口を示すなど)を活用しているからだ。 言語モデルは、ロボットにそのような知識を提供することができるが、ロボットが目的地にどのように到達するかを指示するために言語モデルを直接使うことは、実用的ではない。 そこで本稿では,言語モデルを用いた'semantic guesswork'を,計画アルゴリズムの指導的ヒューリスティックとして活用する方法を検討する。 言語フロンティアガイド(Language Frontier Guide,LFG)は,言語モデルに格納された意味的知識を,トポロジやメートル法のいずれかを用いて計画するための探索ヒューリスティックとして組み込むことで,新たな現実世界環境の探索に言語モデルを用いている。 LFGを実世界の挑戦的環境とシミュレーションベンチマークで評価し、非情報探索や言語モデルの使用方法に優れています。

Navigation in unfamiliar environments presents a major challenge for robots: while mapping and planning techniques can be used to build up a representation of the world, quickly discovering a path to a desired goal in unfamiliar settings with such methods often requires lengthy mapping and exploration. Humans can rapidly navigate new environments, particularly indoor environments that are laid out logically, by leveraging semantics -- e.g., a kitchen often adjoins a living room, an exit sign indicates the way out, and so forth. Language models can provide robots with such knowledge, but directly using language models to instruct a robot how to reach some destination can also be impractical: while language models might produce a narrative about how to reach some goal, because they are not grounded in real-world observations, this narrative might be arbitrarily wrong. Therefore, in this paper we study how the ``semantic guesswork'' produced by language models can be utilized as a guiding heuristic for planning algorithms. Our method, Language Frontier Guide (LFG), uses the language model to bias exploration of novel real-world environments by incorporating the semantic knowledge stored in language models as a search heuristic for planning with either topological or metric maps. We evaluate LFG in challenging real-world environments and simulated benchmarks, outperforming uninformed exploration and other ways of using language models.
翻訳日:2023-10-17 16:09:30 公開日:2023-10-16
# 深層ニューラルネットワークトレーニングにおけるサンプルの適応的隠蔽

KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training ( http://arxiv.org/abs/2310.10102v1 )

ライセンス: Link先を確認
Truong Thao Nguyen, Balazs Gerofi, Edgar Josafat Martinez-Noriega, Fran\c{c}ois Trahay, Mohamed Wahib(参考訳) 本稿では,深層ニューラルネットワークのトレーニングにおいて最も重要でないサンプルを隠蔽して効率を上げる手法を提案する。 学習中の損失情報と予測信頼度情報を用いて,学習プロセス全体への貢献度に基づいて,所定の時間内に除外すべきサンプルを,精度を著しく低下させることなく適応的に発見する。 本稿では,SGD更新回数の削減を考慮した収束特性について検討する。 画像分類やセグメンテーションで直接使用される様々な大規模データセットやモデルに対する実験結果から、置換重要度サンプリングアルゴリズムは大規模なデータセットでは性能が低いが、本手法はベースラインに比べて最大で22%の精度でトレーニング時間を短縮できる。 コードはhttps://github.com/truongthaonguyen/kakurenboで利用可能

This paper proposes a method for hiding the least-important samples during the training of deep neural networks to increase efficiency, i.e., to reduce the cost of training. Using information about the loss and prediction confidence during training, we adaptively find samples to exclude in a given epoch based on their contribution to the overall learning process, without significantly degrading accuracy. We explore the converge properties when accounting for the reduction in the number of SGD updates. Empirical results on various large-scale datasets and models used directly in image classification and segmentation show that while the with-replacement importance sampling algorithm performs poorly on large datasets, our method can reduce total training time by up to 22% impacting accuracy only by 0.4% compared to the baseline. Code available at https://github.com/TruongThaoNguyen/kakurenbo
翻訳日:2023-10-17 16:09:07 公開日:2023-10-16
# ラベルから線形閾値を学習するPAC

PAC Learning Linear Thresholds from Label Proportions ( http://arxiv.org/abs/2310.10098v1 )

ライセンス: Link先を確認
Anand Brahmbhatt, Rishi Saket and Aravindan Raghuveer(参考訳) learning from label proportions(llp)は、各バッグの平均インスタンスラベルと共に、トレーニングデータを特徴ベクトル(インスタンス)のセットまたはバッグとして利用できる教師付き学習の一般化である。 目標は、優れたインスタンス分類器をトレーニングすることだ。 LLPに関するこれまでのほとんどの研究は、そのようなトレーニングデータに基づくトレーニングモデルに重点を置いていたが、ラベル比率から線形しきい値関数(LTF)を適切に学習する最悪のケース抽出可能性を示した [Saket'21, Saket'22] によって、LLPの計算学習性は、最近調査されたばかりである。 しかし、それらの研究は自然分布に関するこの問題に対する効率的なアルゴリズムを除外しなかった。 本研究は, ガウス分布$N(\mathbf{\mu}, \mathbf{\Sigma})$から独立にサンプリングしたラベルに, 特徴ベクトルが条件付のラベル比のランダムなバッグへのアクセスを与えると, LTF を用いて LTF を効率的に学習できることを示す。 本研究は, 袋から採取した特徴ベクトルの相違と交換せずに生成した特徴ベクトルの相違から得られる行列が, 変換後, LTFの正規ベクトルの方向に主成分を有することを示す。 提案アルゴリズムは,正規方向を近似する袋を効率よくサンプリングするために,ガウス濃度境界を用いた平均と共分散行列を推定する。 これをバッグ設定における新しい一般化誤差境界と組み合わせることで、低誤差仮説 LTF が同定可能であることを示す。 n(\mathbf{0}, \mathbf{i})$ 分布の特別な場合については、より単純な平均推定に基づくアルゴリズムを提供する。 学習アルゴリズムの実験的評価と,[Saket'21, Saket'22] とランダム LTF との比較を行い,本手法の有効性を実証した。

Learning from label proportions (LLP) is a generalization of supervised learning in which the training data is available as sets or bags of feature-vectors (instances) along with the average instance-label of each bag. The goal is to train a good instance classifier. While most previous works on LLP have focused on training models on such training data, computational learnability of LLP was only recently explored by [Saket'21, Saket'22] who showed worst case intractability of properly learning linear threshold functions (LTFs) from label proportions. However, their work did not rule out efficient algorithms for this problem on natural distributions. In this work we show that it is indeed possible to efficiently learn LTFs using LTFs when given access to random bags of some label proportion in which feature-vectors are, conditioned on their labels, independently sampled from a Gaussian distribution $N(\mathbf{\mu}, \mathbf{\Sigma})$. Our work shows that a certain matrix -- formed using covariances of the differences of feature-vectors sampled from the bags with and without replacement -- necessarily has its principal component, after a transformation, in the direction of the normal vector of the LTF. Our algorithm estimates the means and covariance matrices using subgaussian concentration bounds which we show can be applied to efficiently sample bags for approximating the normal direction. Using this in conjunction with novel generalization error bounds in the bag setting, we show that a low error hypothesis LTF can be identified. For some special cases of the $N(\mathbf{0}, \mathbf{I})$ distribution we provide a simpler mean estimation based algorithm. We include an experimental evaluation of our learning algorithms along with a comparison with those of [Saket'21, Saket'22] and random LTFs, demonstrating the effectiveness of our techniques.
翻訳日:2023-10-17 16:08:50 公開日:2023-10-16
# LLP-Bench:ラベル提供から学ぶための大規模タブラルベンチマーク

LLP-Bench: A Large Scale Tabular Benchmark for Learning from Label Proportions ( http://arxiv.org/abs/2310.10096v1 )

ライセンス: Link先を確認
Anand Brahmbhatt, Mohith Pokala, Rishi Saket and Aravindan Raghuveer(参考訳) LLP(Learning from Label Proportions)のタスクでは、モデルは個々のインスタンスのラベルを予測するために、インスタンスのグループ(例えばバッグ)とその対応するラベル比率に基づいて訓練される。 LLPは、画像と表の2種類のデータセットに対して、優先的に適用されている。 画像LLPでは、基礎となるデータセットからランダムにインスタンスをサンプリングすることで、固定サイズのバッグを生成する。 この方法で作られた袋はランダムバッグと呼ばれる。 Image LLPの実験は、主にCIFAR-*およびMNISTデータセット上のランダムバッグ上で行われている。 プライバシーに敏感なアプリケーションでは極めて重要なタスクであるにもかかわらず、タブ状のLPPはまだ、大規模なLPPベンチマークを持っていない。 表型llpのユニークな特性の1つは、バッグ内のすべてのインスタンスが特定の機能に対して同じ値を持つ機能バッグを作成する機能である。 先行研究で、機能バッグは実用的実世界のアプリケーション(chen et. al'23, saket et. al. '22)で非常に一般的であることが示されている。 本稿では,オープンで大規模な表型ベンチマークの欠如について述べる。 まず,Criteo CTR予測データセットから生成した56個のLPPデータセット(52のフィーチャーバッグと4つのランダムバッグデータセット)のスイートであるLPP-Benchを提案する。 56のデータセットは、下位の表データからバッグを構築できる多様な方法を示している。 我々の知る限り、LPP-Benchは、構成データセットに広範な多様性を持つ最初の大規模表型LPPベンチマークである。 次に,LLPデータセットの硬さを特徴付ける4つの指標を提案する。 これら4つの指標を用いて,LLP-Benchの56データセットの詳細な分析を行う。 最後に、56データセットすべてに対して、9SOTAおよび一般的な表付きLPP技術の性能を示す。 私たちの知る限りでは、2500以上の実験からなる研究は、文学における人気のある表型llp技法の最も広範な研究である。

In the task of Learning from Label Proportions (LLP), a model is trained on groups (a.k.a bags) of instances and their corresponding label proportions to predict labels for individual instances. LLP has been applied pre-dominantly on two types of datasets - image and tabular. In image LLP, bags of fixed size are created by randomly sampling instances from an underlying dataset. Bags created via this methodology are called random bags. Experimentation on Image LLP has been mostly on random bags on CIFAR-* and MNIST datasets. Despite being a very crucial task in privacy sensitive applications, tabular LLP does not yet have a open, large scale LLP benchmark. One of the unique properties of tabular LLP is the ability to create feature bags where all the instances in a bag have the same value for a given feature. It has been shown in prior research that feature bags are very common in practical, real world applications [Chen et. al '23, Saket et. al. '22]. In this paper, we address the lack of a open, large scale tabular benchmark. First we propose LLP-Bench, a suite of 56 LLP datasets (52 feature bag and 4 random bag datasets) created from the Criteo CTR prediction dataset consisting of 45 million instances. The 56 datasets represent diverse ways in which bags can be constructed from underlying tabular data. To the best of our knowledge, LLP-Bench is the first large scale tabular LLP benchmark with an extensive diversity in constituent datasets. Second, we propose four metrics that characterize and quantify the hardness of a LLP dataset. Using these four metrics we present deep analysis of the 56 datasets in LLP-Bench. Finally we present the performance of 9 SOTA and popular tabular LLP techniques on all the 56 datasets. To the best of our knowledge, our study consisting of more than 2500 experiments is the most extensive study of popular tabular LLP techniques in literature.
翻訳日:2023-10-17 16:08:17 公開日:2023-10-16
# マルチスケール空間変圧器u-netによる3次元核心画像の自動再配向とセグメンテーション

A Multi-Scale Spatial Transformer U-Net for Simultaneously Automatic Reorientation and Segmentation of 3D Nuclear Cardiac Images ( http://arxiv.org/abs/2310.10095v1 )

ライセンス: Link先を確認
Yangfan Ni, Duo Zhang, Gege Ma, Lijun Lu, Zhongke Huang, Wentao Zhu(参考訳) 左室 (LV) の正確な再配向と分画は, 心筋灌流画像 (MPI) の定量的解析に不可欠である。 小型のLV心筋(LV-MY)領域の検出と各患者の心構造の変化は,LVセグメンテーションの課題となる。 これらの問題を緩和するために,マルチスケール空間トランス (MS-ST-UNet) とマルチスケール空間トランス (MSSTN) モジュールを併用したマルチスケール空間トランス (MS-ST-UNet) と呼ばれるエンド・ツー・エンドモデルを提案する。 提案法は,13N-アンモニアPETと99mTc-sestamibi SPECTの2つの異なる核心画像モダリティを用いて,訓練および試験を行った。 異なるスケールで画像特徴を生成・抽出するために,マルチスケール戦略を用いる。 実験の結果,提案手法は再配向性能とセグメンテーション性能を著しく向上することが示された。 この共同学習フレームワークは、リオリエンテーションとセグメンテーションタスクの相互強化を促進し、エッジパフォーマンスの削減と効率的な画像処理ワークフローにつながる。 提案するエンド・ツー・エンド深層ネットワークは、心画像の手動デライン化の負担を軽減する可能性があり、物理学者にマルチモーダルな定量的解析支援を提供する。

Accurate reorientation and segmentation of the left ventricular (LV) is essential for the quantitative analysis of myocardial perfusion imaging (MPI), in which one critical step is to reorient the reconstructed transaxial nuclear cardiac images into standard short-axis slices for subsequent image processing. Small-scale LV myocardium (LV-MY) region detection and the diverse cardiac structures of individual patients pose challenges to LV segmentation operation. To mitigate these issues, we propose an end-to-end model, named as multi-scale spatial transformer UNet (MS-ST-UNet), that involves the multi-scale spatial transformer network (MSSTN) and multi-scale UNet (MSUNet) modules to perform simultaneous reorientation and segmentation of LV region from nuclear cardiac images. The proposed method is trained and tested using two different nuclear cardiac image modalities: 13N-ammonia PET and 99mTc-sestamibi SPECT. We use a multi-scale strategy to generate and extract image features with different scales. Our experimental results demonstrate that the proposed method significantly improves the reorientation and segmentation performance. This joint learning framework promotes mutual enhancement between reorientation and segmentation tasks, leading to cutting edge performance and an efficient image processing workflow. The proposed end-to-end deep network has the potential to reduce the burden of manual delineation for cardiac images, thereby providing multimodal quantitative analysis assistance for physicists.
翻訳日:2023-10-17 16:07:50 公開日:2023-10-16
# 低ランクリパラメータ化によるプロンプト調整

Decomposed Prompt Tuning via Low-Rank Reparameterization ( http://arxiv.org/abs/2310.10094v1 )

ライセンス: Link先を確認
Yao Xiao, Lu Xu, Jiaxi Li, Wei Lu, and Xiaoli Li(参考訳) プロンプトチューニング手法は高い効率で競争性能を達成したが,ソフトプロンプトがランダムに初期化されるか,あるいは既存の埋め込み語彙から導出されるような,同じ初期化プロセスが必ず採用されている。 本研究は,従来の手法とは対照的に,ソフトプロンプトを導出する代替手法を検討することを目的とする。 実験の結果,軟質プロンプトは典型的には低い固有ランクを示すことがわかった。 そこで本研究では,低ランク行列を用いたソフトプロンプトの初期化手法である分解プロンプトチューニングを提案する。 低ランク再パラメータ化により,実効性を維持しつつトレーニング可能なパラメータ数を大幅に削減する。 提案手法の有効性を実証するため,高リソースシナリオと低リソースシナリオの両方でSuperGLUEベンチマーク実験を行った。

While prompt tuning approaches have achieved competitive performance with high efficiency, we observe that they invariably employ the same initialization process, wherein the soft prompt is either randomly initialized or derived from an existing embedding vocabulary. In contrast to these conventional methods, this study aims to investigate an alternative way to derive soft prompt. Our empirical studies show that the soft prompt typically exhibits a low intrinsic rank characteristic. With such observations, we propose decomposed prompt tuning, a novel approach that utilizes low-rank matrices to initialize the soft prompt. Through the low-rank reparameterization, our method significantly reduces the number of trainable parameters while maintaining effectiveness. Experimental results on the SuperGLUE benchmark in both high-resource and low-resource scenarios demonstrate the effectiveness of the proposed method.
翻訳日:2023-10-17 16:07:19 公開日:2023-10-16
# アグリゲーションによるラベル差分プライバシー

Label Differential Privacy via Aggregation ( http://arxiv.org/abs/2310.10092v1 )

ライセンス: Link先を確認
Anand Brahmbhatt, Rishi Saket, Shreyas Havaldar, Anshul Nasery and Aravindan Raghuveer(参考訳) 多くの現実世界のアプリケーション、特に最近のプライバシーの状況の進展により、センシティブなトレーニングラベルのプライバシーを維持するためにトレーニングデータを集約することができる。 ラベルパーセンテージ(LLP)フレームワークからの学習では、データセットは機能ベクタのバッグに分割され、バッグごとのラベルの合計でのみ利用できる。 バッグアグリゲーション(LBA)から学習するさらなる制限は、個々の特徴ベクトルの代わりに、バッグ毎の特徴ベクトルの(おそらく重み付けされた)和のみが利用できることである。 本研究では,ラベル差分プライバシー(ラベルDP)という概念の下で,そのようなアグリゲーション技術が,例えば[Chaudhuri-Hsu'11, Ghazi et al.'21, Esfandiari et al.'22]で研究されているように,プライバシー保証を提供できるかどうかを検討する。 ナイーブな LBA と LLP はラベルDP を提供していないことが容易に分かる。 しかし, この結果から, iid Gaussian 重み付き LBA を$m$で無作為にサンプリングした $k$ サイズのバッグは, 実際に$(\varepsilon, \delta)$-label-DP for any $\varepsilon > 0$ with $\delta \approx \exp(-\Omega(\sqrt{k})$ で, 線形mse回帰損失の低い境界を仮定する。 さらに、これは有界ノルムの線型mse-回帰子上の最適値が、$(1 \pm o(1))$-factor w.p.$\approx 1 - \exp(-\Omega(m))$ の範囲内で保持される。 付加的なラベルノイズは不要であることを強調する。 類似の重み付きLLPは、ラベルDPを認めない。 それにもかかわらず、もし付加的な$N(0, 1)$ノイズがインスタンスラベルの任意の定数に付加できるなら、ノイズ重み付きLLPは、Lipschitz-bounded neural mse-regressionタスクの有効性を保ちながら、データセットに仮定せずに同様のラベル-DPを保証する。 我々の研究は、回帰タスクに対するランダムに重み付けされたアグリゲーションによってラベルDPが達成できることを示す最初のものである。

In many real-world applications, in particular due to recent developments in the privacy landscape, training data may be aggregated to preserve the privacy of sensitive training labels. In the learning from label proportions (LLP) framework, the dataset is partitioned into bags of feature-vectors which are available only with the sum of the labels per bag. A further restriction, which we call learning from bag aggregates (LBA) is where instead of individual feature-vectors, only the (possibly weighted) sum of the feature-vectors per bag is available. We study whether such aggregation techniques can provide privacy guarantees under the notion of label differential privacy (label-DP) previously studied in for e.g. [Chaudhuri-Hsu'11, Ghazi et al.'21, Esfandiari et al.'22]. It is easily seen that naive LBA and LLP do not provide label-DP. Our main result however, shows that weighted LBA using iid Gaussian weights with $m$ randomly sampled disjoint $k$-sized bags is in fact $(\varepsilon, \delta)$-label-DP for any $\varepsilon > 0$ with $\delta \approx \exp(-\Omega(\sqrt{k}))$ assuming a lower bound on the linear-mse regression loss. Further, this preserves the optimum over linear mse-regressors of bounded norm to within $(1 \pm o(1))$-factor w.p. $\approx 1 - \exp(-\Omega(m))$. We emphasize that no additive label noise is required. The analogous weighted-LLP does not however admit label-DP. Nevertheless, we show that if additive $N(0, 1)$ noise can be added to any constant fraction of the instance labels, then the noisy weighted-LLP admits similar label-DP guarantees without assumptions on the dataset, while preserving the utility of Lipschitz-bounded neural mse-regression tasks. Our work is the first to demonstrate that label-DP can be achieved by randomly weighted aggregation for regression tasks, using no or little additive noise.
翻訳日:2023-10-17 16:07:05 公開日:2023-10-16
# 医学関係予測のためのノードベース知識グラフコントラスト学習

Node-based Knowledge Graph Contrastive Learning for Medical Relationship Prediction ( http://arxiv.org/abs/2310.10138v1 )

ライセンス: Link先を確認
Zhiguang Fan, Yuedong Yang, Mingyuan Xu, Hongming Chen(参考訳) バイオメディカル知識グラフ(BKG)の埋め込みは、薬物の組み合わせの予測や疾患と薬物の関係の推論など、さまざまな人工知能アプリケーションに有用な堅牢な表現を生成する。 一方、これらの表現の特異性を高めるために、コントラスト学習(CL)が広く用いられている。 しかし、特に知識グラフ(KG)において、CLに適したコントラストペアを構築することは困難である。 本稿では,知識グラフ埋め込みのための新しいノードベースコントラスト学習手法NC-KGEを提案する。 NC-KGEは、埋め込みにおける知識抽出を強化し、KG上に適切なコントラストノードペアを構築することにより、トレーニング収束を高速化する。 このスキームは他の知識グラフ埋め込み(KGE)手法と容易に統合できる。 生化学関係予測などの下流タスクでは,関係認識注意機構をnc-kgeに導入し,意味関係とノード間相互作用に着目した。 大規模な実験により、NC-KGEはFB15k-237やWN18RRのような公開データセット上で最先端のモデルと競合することを示した。 特に生物医学的関係予測タスクでは、nc-kgeはpharmkg8k-28、drkg17k-21、biokg72k-14などのデータセットのベースライン、特に薬物結合関係の予測よりも優れている。 コードをhttps://github.com/zhi520/NC-KGEでリリースしています。

The embedding of Biomedical Knowledge Graphs (BKGs) generates robust representations, valuable for a variety of artificial intelligence applications, including predicting drug combinations and reasoning disease-drug relationships. Meanwhile, contrastive learning (CL) is widely employed to enhance the distinctiveness of these representations. However, constructing suitable contrastive pairs for CL, especially within Knowledge Graphs (KGs), has been challenging. In this paper, we proposed a novel node-based contrastive learning method for knowledge graph embedding, NC-KGE. NC-KGE enhances knowledge extraction in embeddings and speeds up training convergence by constructing appropriate contrastive node pairs on KGs. This scheme can be easily integrated with other knowledge graph embedding (KGE) methods. For downstream task such as biochemical relationship prediction, we have incorporated a relation-aware attention mechanism into NC-KGE, focusing on the semantic relationships and node interactions. Extensive experiments show that NC-KGE performs competitively with state-of-the-art models on public datasets like FB15k-237 and WN18RR. Particularly in biomedical relationship prediction tasks, NC-KGE outperforms all baselines on datasets such as PharmKG8k-28, DRKG17k-21, and BioKG72k-14, especially in predicting drug combination relationships. We release our code at https://github.com/zhi520/NC-KGE.
翻訳日:2023-10-17 16:00:06 公開日:2023-10-16
# CLIN: タスク適応と一般化のための継続的学習型言語エージェント

CLIN: A Continually Learning Language Agent for Rapid Task Adaptation and Generalization ( http://arxiv.org/abs/2310.10134v1 )

ライセンス: Link先を確認
Bodhisattwa Prasad Majumder, Bhavana Dalvi Mishra, Peter Jansen, Oyvind Tafjord, Niket Tandon, Li Zhang, Chris Callison-Burch, Peter Clark(参考訳) 言語エージェントは、例えばScienceWorldのような仮想世界のような外部環境と対話して、強化学習の起動コストなしで植物を育てるといった複雑なタスクを実行する能力を示した。 しかしながら、そのゼロショット機能にもかかわらず、これらのエージェントは特定のタスクのパフォーマンス改善以上の時間とともに継続的に改善されない。 本稿では,これを実現した最初の言語ベースのエージェントであるclinを紹介し,環境とタスクの両方が変化する場合やパラメータ更新を必要とせずに,複数の試行を継続的に改善する。 我々のアプローチは、各試行後に定期的に更新される因果的抽象化(一般的な「地獄のヒント」ではなく)を中心とした永続的でダイナミックなテキストメモリを使用することで、エージェントは新しい試行に有用な知識を徐々に学習する。 ScienceWorldベンチマークでは、CLINは同じタスクと環境上で繰り返し試行を継続的に改善し、Reflexionのような最先端の反射型言語エージェントを23の絶対点で上回っている。 CLINは学習を新しい環境(または新しいタスク)に移行し、ゼロショットのパフォーマンスを4ポイント(新しいタスクは13ポイント)改善し、連続的なメモリ更新を通じてパフォーマンスをさらに向上させ、17ポイント(新しいタスクは7ポイント)でパフォーマンスを向上させる。 これは、凍結モデル上に構築されたエージェントのための新しいアーキテクチャを示唆している。

Language agents have shown some ability to interact with an external environment, e.g., a virtual world such as ScienceWorld, to perform complex tasks, e.g., growing a plant, without the startup costs of reinforcement learning. However, despite their zero-shot capabilities, these agents to date do not continually improve over time beyond performance refinement on a specific task. Here we present CLIN, the first language-based agent to achieve this, so that it continually improves over multiple trials, including when both the environment and task are varied, and without requiring parameter updates. Our approach is to use a persistent, dynamic, textual memory centered on causal abstractions (rather than general "helpful hints") that is regularly updated after each trial so that the agent gradually learns useful knowledge for new trials. In the ScienceWorld benchmark, CLIN is able to continually improve on repeated trials on the same task and environment, outperforming state-of-the-art reflective language agents like Reflexion by 23 absolute points. CLIN can also transfer its learning to new environments (or new tasks), improving its zero-shot performance by 4 points (13 for new tasks) and can further improve performance there through continual memory updates, enhancing performance by an additional 17 points (7 for new tasks). This suggests a new architecture for agents built on frozen models that can still continually and rapidly improve over time.
翻訳日:2023-10-17 15:59:41 公開日:2023-10-16
# SMPCの強化:ニューラルネットワーク推論におけるスケーラビリティ、メモリ効率、プライバシのギャップを埋める

Empowering SMPC: Bridging the Gap Between Scalability, Memory Efficiency and Privacy in Neural Network Inference ( http://arxiv.org/abs/2310.10133v1 )

ライセンス: Link先を確認
Ramya Burra, Anshoo Tandon, Srishti Mittal(参考訳) 本稿では,中程度の計算資源を持つマシン上でのSMPCプロトコルの実用的かつスケーラブルな実装の問題に対処しつつ,実行時間を短縮する,効率的なオープンソースSMPCリポジトリを開発することを目的とする。 SMPC用のABY2.0プロトコルを実装し、ABY 2.0プロトコル上でアプリケーションを構築するための効果的なツールを開発者に提供します。 本稿では、メモリ制約や操作互換性の問題を含む、セキュアなニューラルネットワーク推論のためのC++ベースのMOTION2NXフレームワークの制限に対処する。 私たちの拡張には、メモリ使用量の最適化、サードパーティのヘルパーノードによる実行時間の削減、データのプライバシを維持しながら効率の向上などが含まれています。 これらの最適化により、5層ニューラルネットワークのための0.2gbのramでわずか32秒でmnistデータセットの推論が可能になる。 対照的に、以前のベースライン実装では8.03GBのRAMと200秒の実行時間が必要だった。

This paper aims to develop an efficient open-source Secure Multi-Party Computation (SMPC) repository, that addresses the issue of practical and scalable implementation of SMPC protocol on machines with moderate computational resources, while aiming to reduce the execution time. We implement the ABY2.0 protocol for SMPC, providing developers with effective tools for building applications on the ABY 2.0 protocol. This article addresses the limitations of the C++ based MOTION2NX framework for secure neural network inference, including memory constraints and operation compatibility issues. Our enhancements include optimizing the memory usage, reducing execution time using a third-party Helper node, and enhancing efficiency while still preserving data privacy. These optimizations enable MNIST dataset inference in just 32 seconds with only 0.2 GB of RAM for a 5-layer neural network. In contrast, the previous baseline implementation required 8.03 GB of RAM and 200 seconds of execution time.
翻訳日:2023-10-17 15:59:17 公開日:2023-10-16
# 非エルミート二成分系における非破壊的縮退と線形回路における実現

Non-defective degeneracy in non-Hermitian bipartite system and the realization in linear circuit ( http://arxiv.org/abs/2310.10132v1 )

ライセンス: Link先を確認
Chen-Huan Wu, Yida Li(参考訳) ランダム行列理論の観点では、ガウス直交のアンサンブルにおいて非エルミート系をシミュレートする。 2つの異なる固有値を持つエルミート作用素から始めて、ランダムな固有ケットを通して対角的でないゆらぎを導入し、また2つの8\times 8$サブシステムを通して二部構造を実現する。 後者のサブシステムでは、非線型対称性を含む非欠陥縮退と、隣接する固有ベクトルにおける線形写像の蓄積効果を検証する。 実験では、この効果を非相互非エルミート線形回路で観測する。

In terms of the random matrix theory, we simulate a non-Hermitian system in Gaussian orthogonal ensemble. Starting from a Hermitian operator with two distinct eigenvalues, we introduce the off-diagonal fluctuations through the random eigenkets, and realizing the bipartite nature through two $8\times 8$ subsystems, where one of them is full ranked, while the other is rank deficient. For the latter subsystem, we verify the non-defective degeneracy containing the non-linear symmetries, as well as the accumulation effect of the linear map in adjacent eigenvectors. Experimently, we observe such effect in a non-reciprocal non-Hermitian linear circuit.
翻訳日:2023-10-17 15:59:00 公開日:2023-10-16
# 3dyoga90:ヨガポーズ理解のための階層型ビデオデータセット

3DYoga90: A Hierarchical Video Dataset for Yoga Pose Understanding ( http://arxiv.org/abs/2310.10131v1 )

ライセンス: Link先を確認
Seonok Kim(参考訳) ヨガやピレートなどのエクササイズの人気が高まり、人工知能の分野ではプロのエクササイズビデオデータセットに対する需要が高まっている。 本研究では,3段階のラベル階層に整理した3dyoga901を開発した。 我々は、既存の最先端データセットからのポーズ数を拡大し、82から90に増やした。 我々のデータセットには、慎重にキュレートされたRGBヨガポーズビデオと3Dスケルトンシーケンスが含まれています。 このデータセットはヨガインストラクターを含む6人の専用チームによって作成された。 これは最も包括的なオープンデータセットの1つであり、利用可能なリソースの中で最大のrgbビデオと3dスケルトンシーケンスを特徴としている。 この貢献はヨガの行動認識とポーズアセスメントの分野を著しく前進させる可能性がある。 また,提案するデータセットの実用性を評価する実験を行った。 ベンチマークのために3つの異なるモデル変種を使用しました。

The increasing popularity of exercises including yoga and Pilates has created a greater demand for professional exercise video datasets in the realm of artificial intelligence. In this study, we developed 3DYoga901, which is organized within a three-level label hierarchy. We have expanded the number of poses from an existing state-of-the-art dataset, increasing it from 82 to 90 poses. Our dataset includes meticulously curated RGB yoga pose videos and 3D skeleton sequences. This dataset was created by a dedicated team of six individuals, including yoga instructors. It stands out as one of the most comprehensive open datasets, featuring the largest collection of RGB videos and 3D skeleton sequences among publicly available resources. This contribution has the potential to significantly advance the field of yoga action recognition and pose assessment. Additionally, we conducted experiments to evaluate the practicality of our proposed dataset. We employed three different model variants for benchmarking purposes.
翻訳日:2023-10-17 15:58:48 公開日:2023-10-16
# 非単調な平滑な活性化関数

A Non-monotonic Smooth Activation Function ( http://arxiv.org/abs/2310.10126v1 )

ライセンス: Link先を確認
Koushik Biswas, Meghana Karri, Ula\c{s} Ba\u{g}c{\i}(参考訳) アクティベーション関数は、ネットワークに非線形性を導入し、エラーから学習し、複雑なパターンの学習に不可欠な調整を可能にするため、ディープラーニングモデルにおいて不可欠である。 アクティベーション関数の本質的な目的は、未処理の入力信号を重要な出力アクティベーションに変換し、ニューラルネットワーク全体の情報伝達を促進することである。 本研究では,非単調で滑らかな関数であり,既存の関数に代わる新しい活性化関数であるsqishを提案する。 分類,物体検出,セグメンテーションタスク,対向ロバストネス実験において,その優位性を示した。 我々は、FGSM攻撃におけるShuffleNet V2モデルを用いて、CIFAR100データセットのReLUよりも8.21%改善した。 また、ShuffleNet V2モデルによるCIFAR100データセットの画像分類では、ReLUよりも5.87%改善されています。

Activation functions are crucial in deep learning models since they introduce non-linearity into the networks, allowing them to learn from errors and make adjustments, which is essential for learning complex patterns. The essential purpose of activation functions is to transform unprocessed input signals into significant output activations, promoting information transmission throughout the neural network. In this study, we propose a new activation function called Sqish, which is a non-monotonic and smooth function and an alternative to existing ones. We showed its superiority in classification, object detection, segmentation tasks, and adversarial robustness experiments. We got an 8.21% improvement over ReLU on the CIFAR100 dataset with the ShuffleNet V2 model in the FGSM adversarial attack. We also got a 5.87% improvement over ReLU on image classification on the CIFAR100 dataset with the ShuffleNet V2 model.
翻訳日:2023-10-17 15:58:36 公開日:2023-10-16
# キャプションファウンデーションモデルを用いたアクション認識

Few-shot Action Recognition with Captioning Foundation Models ( http://arxiv.org/abs/2310.10125v1 )

ライセンス: Link先を確認
Xiang Wang, Shiwei Zhang, Hangjie Yuan, Yingya Zhang, Changxin Gao, Deli Zhao, Nong Sang(参考訳) 事前訓練されたマルチモーダル基礎モデルから様々な下流タスクへの視覚言語知識の移行は有望な方向である。 しかし、現時点の行動認識手法のほとんどは、追加のテキスト記述に注釈を付けるコストが高いため、単一の視覚モダリティ入力に制限されている。 本稿では,手動でアノテートすることなくマルチモーダルモデルの知識を活用するために,CapFSARと呼ばれる効果的なプラグアンドプレイフレームワークを開発する。 具体的には,まずキャプション基礎モデル(blip)を用いて視覚特徴を抽出し,入力映像に付随するキャプションを自動的に生成する。 次に,テキストエンコーダを合成キャプションに適用し,代表的なテキスト埋め込みを得る。 最後に,Transformerをベースとしたビジュアルテキストアグリゲーションモジュールは,信頼度の高いショットマッチングのために,モーダルな時空間補完情報を組み込むように設計されている。 このように、CapFSARは事前訓練された基礎モデルの強力なマルチモーダル知識の恩恵を受けることができ、低ショット方式のより包括的な分類が得られる。 複数の標準的な数ショットベンチマークでの大規模な実験により、提案したCapFSARは既存の手法に対して好適に動作し、最先端のパフォーマンスを達成することが示された。 コードは公開される予定だ。

Transferring vision-language knowledge from pretrained multimodal foundation models to various downstream tasks is a promising direction. However, most current few-shot action recognition methods are still limited to a single visual modality input due to the high cost of annotating additional textual descriptions. In this paper, we develop an effective plug-and-play framework called CapFSAR to exploit the knowledge of multimodal models without manually annotating text. To be specific, we first utilize a captioning foundation model (i.e., BLIP) to extract visual features and automatically generate associated captions for input videos. Then, we apply a text encoder to the synthetic captions to obtain representative text embeddings. Finally, a visual-text aggregation module based on Transformer is further designed to incorporate cross-modal spatio-temporal complementary information for reliable few-shot matching. In this way, CapFSAR can benefit from powerful multimodal knowledge of pretrained foundation models, yielding more comprehensive classification in the low-shot regime. Extensive experiments on multiple standard few-shot benchmarks demonstrate that the proposed CapFSAR performs favorably against existing methods and achieves state-of-the-art performance. The code will be made publicly available.
翻訳日:2023-10-17 15:58:24 公開日:2023-10-16
# AutoDIR: 遅延拡散によるオールインワン画像の自動復元

AutoDIR: Automatic All-in-One Image Restoration with Latent Diffusion ( http://arxiv.org/abs/2310.10123v1 )

ライセンス: Link先を確認
Yitong Jiang, Zhaoyang Zhang, Tianfan Xue and Jinwei Gu(参考訳) 本稿では,ある画像が未知の劣化を生じさせる複雑な実世界の画像復元状況を解決することを目的とする。 そこで本研究では,複数の未知の劣化を自動的に検出し対処できる,潜在拡散(autodir)を備えたオールインワン画像復元フレームワークを提案する。 まず,ブラインド画像品質評価モジュール(biqa)を用いて,画像の未知の支配的画像劣化型の自動検出と同定を行う。 次に、オールインワン画像編集(AIR)モジュールは、BIQAのガイダンスにより、複数の種類の劣化画像復元を処理する。 最後に,AIRで歪んだ画像の復元のために,SCM(Structure Correction Module)を提案する。 総合的な評価から,autodirはより広い範囲のタスクをサポートしながら,優れた修復結果を達成し,最先端のアプローチに勝ることが示された。 特にAutoDIRは、複数の未知の劣化を伴う実シナリオイメージを自動的に処理する最初の方法でもある。

In this paper, we aim to solve complex real-world image restoration situations, in which, one image may have a variety of unknown degradations. To this end, we propose an all-in-one image restoration framework with latent diffusion (AutoDIR), which can automatically detect and address multiple unknown degradations. Our framework first utilizes a Blind Image Quality Assessment Module (BIQA) to automatically detect and identify the unknown dominant image degradation type of the image. Then, an All-in-One Image Editing (AIR) Module handles multiple kinds of degradation image restoration with the guidance of BIQA. Finally, a Structure Correction Module (SCM) is proposed to recover the image details distorted by AIR. Our comprehensive evaluation demonstrates that AutoDIR outperforms state-of-the-art approaches by achieving superior restoration results while supporting a wider range of tasks. Notably, AutoDIR is also the first method to automatically handle real-scenario images with multiple unknown degradations.
翻訳日:2023-10-17 15:58:03 公開日:2023-10-16
# 連続ダイナミクスからグラフニューラルネットワークへ:ニューラルネットワークの拡散とその先

From Continuous Dynamics to Graph Neural Networks: Neural Diffusion and Beyond ( http://arxiv.org/abs/2310.10121v1 )

ライセンス: Link先を確認
Andi Han, Dai Shi, Lequan Lin, Junbin Gao(参考訳) グラフニューラルネットワーク(GNN)は、関係データのモデリングにおいて大きな可能性を示しており、様々な分野に広く応用されている。 GNNの背後にある重要なメカニズムは、情報を近隣の中央ノードに反復的に集約するいわゆるメッセージパッシングである。 そのようなスキームは、gnnの伝播が自然に熱密度の進化に対応する熱拡散として知られる物理過程と本質的に結びついていることが知られている。 熱力学へのメッセージパッシングのプロセスの解析は、GNNのパワーと落とし穴を根本的に理解し、より良いモデル設計を通知する。 近年、過密化や過密化といった既知のGNNの制限を軽減するため、連続力学の定式化から着想を得たGNNを提案する研究が数多く出ている。 本調査では,GNNの継続的な視点を活用した研究の体系的および包括的レビューを行う。 この目的のために,グラフニューラルダイナミクスの設計のための汎用フレームワークとともに,連続ダイナミクスをgnnに適用するための基本成分を紹介する。 次に、その駆動メカニズムと基礎となるダイナミクスに基づいて、既存の作業をレビューし分類する。 また、従来のGNNの制限が継続的フレームワークの下でどのように対処できるかを要約する。 我々は複数のオープンな研究方向を特定することで結論付ける。

Graph neural networks (GNNs) have demonstrated significant promise in modelling relational data and have been widely applied in various fields of interest. The key mechanism behind GNNs is the so-called message passing where information is being iteratively aggregated to central nodes from their neighbourhood. Such a scheme has been found to be intrinsically linked to a physical process known as heat diffusion, where the propagation of GNNs naturally corresponds to the evolution of heat density. Analogizing the process of message passing to the heat dynamics allows to fundamentally understand the power and pitfalls of GNNs and consequently informs better model design. Recently, there emerges a plethora of works that proposes GNNs inspired from the continuous dynamics formulation, in an attempt to mitigate the known limitations of GNNs, such as oversmoothing and oversquashing. In this survey, we provide the first systematic and comprehensive review of studies that leverage the continuous perspective of GNNs. To this end, we introduce foundational ingredients for adapting continuous dynamics to GNNs, along with a general framework for the design of graph neural dynamics. We then review and categorize existing works based on their driven mechanisms and underlying dynamics. We also summarize how the limitations of classic GNNs can be addressed under the continuous framework. We conclude by identifying multiple open research directions.
翻訳日:2023-10-17 15:57:47 公開日:2023-10-16
# 合成データセットを用いた名前付きエンティティ認識のためのコンテキストランク付け学習

Learning to Rank Context for Named Entity Recognition Using a Synthetic Dataset ( http://arxiv.org/abs/2310.10118v1 )

ライセンス: Link先を確認
Arthur Amalvy (LIA), Vincent Labatut (LIA), Richard Dufour (LS2N - \'equipe TALN )(参考訳) 最近のトレーニング済みトランスフォーマーベースのモデルでは、名前付きエンティティ認識(NER)を高い精度で行うことができるが、小説全体のような長い文書に適用した場合、その限界範囲は問題である。 この問題を緩和するために、ソリューションはドキュメントレベルで関連するコンテキストを取得することです。 残念ながら、そのようなタスクに対する監督の欠如は、教師なしのアプローチに決着をつける必要があることを意味する。 そこで我々は,命令付き大規模言語モデル(LLM)であるAlpacaを用いて,文脈検索学習データセットを生成することを提案する。 このデータセットを用いて、NERの関連するコンテキストを見つけることができるBERTモデルに基づいて、ニューラルネットワークコンテキストレトリバーをトレーニングする。 本手法は,40冊の本の第1章からなる英文データセットにおいて,NERタスクの検索ベースラインよりも優れていることを示す。

While recent pre-trained transformer-based models can perform named entity recognition (NER) with great accuracy, their limited range remains an issue when applied to long documents such as whole novels. To alleviate this issue, a solution is to retrieve relevant context at the document level. Unfortunately, the lack of supervision for such a task means one has to settle for unsupervised approaches. Instead, we propose to generate a synthetic context retrieval training dataset using Alpaca, an instructiontuned large language model (LLM). Using this dataset, we train a neural context retriever based on a BERT model that is able to find relevant context for NER. We show that our method outperforms several retrieval baselines for the NER task on an English literary dataset composed of the first chapter of 40 books.
翻訳日:2023-10-17 15:57:26 公開日:2023-10-16
# DemoNSF: ノイズの多いスロットフィリングタスクのためのマルチタスクデモベースの生成フレームワーク

DemoNSF: A Multi-task Demonstration-based Generative Framework for Noisy Slot Filling Task ( http://arxiv.org/abs/2310.10169v1 )

ライセンス: Link先を確認
Guanting Dong, Tingfeng Hui, Zhuoma GongQue, Jinxu Zhao, Daichi Guo, Gang Zhao, Keqing He, Weiran Xu(参考訳) 近年,シークエンスラベリングタスクにおいて,プロンプトベースの生成フレームワークが目覚ましい機能を示している。 しかし、実際の対話シナリオでは、単純なテンプレートと従来のコーパスのみに頼ることが、これらの手法が未知の入力摂動に一般化する上での課題となる。 このギャップに対処するため,マルチタスクによるノイズの多いスロットフィリングのための生成フレームワークDemoNSFを提案する。 具体的には,ノイズリカバリ (nr), ランダムマスク (rm), ハイブリッド識別 (hd) という3つのノイズ補助タスクを導入し, 異なる粒度における入力摂動の意味的構造情報を暗黙的に捉えた。 下流のメインタスクでは、トレーニングや推論中にタスク固有の情報と摂動分布を明示的に組み込んだ生成フレームワークのためのノイズの多いデモンストレーション構築戦略を設計する。 2つのベンチマークの実験では、DemoNSFはすべてのベースラインメソッドより優れ、強力な一般化を実現している。 さらなる分析は、生成フレームワークの実践的応用のための経験的ガイダンスを提供する。 私たちのコードはhttps://github.com/dongguanting/Demo-NSFで公開されています。

Recently, prompt-based generative frameworks have shown impressive capabilities in sequence labeling tasks. However, in practical dialogue scenarios, relying solely on simplistic templates and traditional corpora presents a challenge for these methods in generalizing to unknown input perturbations. To address this gap, we propose a multi-task demonstration based generative framework for noisy slot filling, named DemoNSF. Specifically, we introduce three noisy auxiliary tasks, namely noisy recovery (NR), random mask (RM), and hybrid discrimination (HD), to implicitly capture semantic structural information of input perturbations at different granularities. In the downstream main task, we design a noisy demonstration construction strategy for the generative framework, which explicitly incorporates task-specific information and perturbed distribution during training and inference. Experiments on two benchmarks demonstrate that DemoNSF outperforms all baseline methods and achieves strong generalization. Further analysis provides empirical guidance for the practical application of generative frameworks. Our code is released at https://github.com/dongguanting/Demo-NSF.
翻訳日:2023-10-17 15:50:29 公開日:2023-10-16
# オンボード・チェンジ検出への道 : プルーニングとプールの可能性を探ることで,軽量なパッチレベルチェンジ検出ネットワーク

The Road to On-board Change Detection: A Lightweight Patch-Level Change Detection Network via Exploring the Potential of Pruning and Pooling ( http://arxiv.org/abs/2310.10166v1 )

ライセンス: Link先を確認
Lihui Xue, Zhihao Wang, Xueqian Wang, Gang Li(参考訳) 既存の衛星リモートセンシング変化検出法(CD)は、オリジナルの大規模な2時間画像ペアを小さなパッチペアに抽出し、ピクセルレベルのCDメソッドを使用してすべてのパッチペアを公平に処理する。 しかし、大規模な衛星リモートセンシング画像の変化により、既存のピクセルレベルのCD手法は、多くの不規則領域における計算コストとメモリリソースの浪費に悩まされ、計算量やメモリ資源が極端に制限されたオンボードプラットフォームの処理効率が低下する。 この問題に対処するために,大規模なバイテンポラル画像ペアにおいて,多数の変更のないパッチペアを迅速に除去する軽量パッチレベルCDネットワーク(LPCDNet)を提案する。 これは、その後のピクセルレベルのCD処理を加速し、メモリコストを削減するのに役立つ。 lpcdnetでは,重要でないチャネルを除去し,resnet18ネットワークに基づいて軽量バックボーンネットワークを構築するための感度誘導チャネルプルーニング手法が提案されている。 次に、マルチレイヤ特徴圧縮(MLFC)モジュールを、バイテンポラルイメージパッチのマルチレベル特徴情報を圧縮して融合するように設計する。 MLFCモジュールの出力は、予測されたバイナリラベルを生成するために、完全に接続された決定ネットワークに入力される。 最後に、ネットワークのトレーニングプロセスにおいて、重み付きクロスエントロピー損失を利用して、変更・変更クラス不均衡問題に取り組む。 2つのCDデータセットの実験では、当社のLPCDNetはエッジ計算プラットフォーム、すなわちNVIDIA Jetson AGX Orinで毎秒1000フレーム以上を達成しています。 さらに,次のピクセルレベルのCD処理ステージのメモリコストを60%以上削減する。

Existing satellite remote sensing change detection (CD) methods often crop original large-scale bi-temporal image pairs into small patch pairs and then use pixel-level CD methods to fairly process all the patch pairs. However, due to the sparsity of change in large-scale satellite remote sensing images, existing pixel-level CD methods suffer from a waste of computational cost and memory resources on lots of unchanged areas, which reduces the processing efficiency of on-board platform with extremely limited computation and memory resources. To address this issue, we propose a lightweight patch-level CD network (LPCDNet) to rapidly remove lots of unchanged patch pairs in large-scale bi-temporal image pairs. This is helpful to accelerate the subsequent pixel-level CD processing stage and reduce its memory costs. In our LPCDNet, a sensitivity-guided channel pruning method is proposed to remove unimportant channels and construct the lightweight backbone network on basis of ResNet18 network. Then, the multi-layer feature compression (MLFC) module is designed to compress and fuse the multi-level feature information of bi-temporal image patch. The output of MLFC module is fed into the fully-connected decision network to generate the predicted binary label. Finally, a weighted cross-entropy loss is utilized in the training process of network to tackle the change/unchange class imbalance problem. Experiments on two CD datasets demonstrate that our LPCDNet achieves more than 1000 frames per second on an edge computation platform, i.e., NVIDIA Jetson AGX Orin, which is more than 3 times that of the existing methods without noticeable CD performance loss. In addition, our method reduces more than 60% memory costs of the subsequent pixel-level CD processing stage.
翻訳日:2023-10-17 15:50:11 公開日:2023-10-16
# 量子トンネルの機械学習触媒

Machine Learning Catalysis of Quantum Tunneling ( http://arxiv.org/abs/2310.10165v1 )

ライセンス: Link先を確認
Renzo Testa, Alex Rodriguez, Alberto d'Onofrio, Andrea Trombettoni, Fabio Benatti, Fabio Anselmi(参考訳) 2つの状態間の量子トンネルの確率を最適化する一方で、基礎となる物理系の資源を一定に保つことは、様々な応用において重要な役割を担っている重要な課題である。 システムとアシラが結合された場合の機械学習手法を適用することにより、アシラ成分と結合のパラメータを最適化し、最終的にトンネルの確率を最大化することを示す。 いくつかの相互作用粒子の存在下で、2モード系と2モードアンシラを含むパラダイムシナリオの例を示す。 物理的には、トンネルの確率の増加は、アンシラとの結合によって引き起こされるコヒーレント振動による2井戸非対称性の低下に起因している。 また, トンネル化確率の増大は, 騒音環境との弱い結合によって妨げられていない。

Optimizing the probability of quantum tunneling between two states, while keeping the resources of the underlying physical system constant, is a task of key importance due to its critical role in various applications. We show that, by applying Machine Learning techniques when the system is coupled to an ancilla, one optimizes the parameters of both the ancillary component and the coupling, ultimately resulting in the maximization of the tunneling probability. We provide illustrative examples for the paradigmatic scenario involving a two-mode system and a two-mode ancilla in the presence of several interacting particles. Physically, the increase of the tunneling probability is rooted in the decrease of the two-well asymmetry due to the coherent oscillations induced by the coupling to the ancilla. We also argue that the enhancement of the tunneling probability is not hampered by weak coupling to noisy environments.
翻訳日:2023-10-17 15:49:39 公開日:2023-10-16
# ゼロショット音楽タギングのためのジョイント音楽と言語注意モデル

Joint Music and Language Attention Models for Zero-shot Music Tagging ( http://arxiv.org/abs/2310.10159v1 )

ライセンス: Link先を確認
Xingjian Du, Zhesong Yu, Jiaju Lin, Bilei Zhu, Qiuqiang Kong(参考訳) 音楽のタギングは、音楽録音のタグを予測するタスクです。 しかし,従来の音楽タギング研究は主に,新しいタグに一般化できないクローズセットな音楽タギングタスクに焦点を当てていた。 本研究では,JMLAモデルを用いたゼロショット音楽タギングシステムを提案し,オープンセット音楽タギング問題に対処する。 JMLAモデルは、事前訓練されたマスク付きオートエンコーダでモデル化されたオーディオエンコーダと、Falcon7Bでモデル化されたデコーダで構成される。 任意の長さの音声を固定長埋め込みに変換するために,preceiver resamplerを導入する。 エンコーダ層とデコーダ層間の密着した注意関係を導入し,エンコーダ層とデコーダ層間の情報フローを改善する。 インターネットから大規模な音楽と説明データセットを収集する。 本稿では、ChatGPTを用いて生の記述を形式化された多種多様な記述に変換し、JMLAモデルをトレーニングすることを提案する。 提案したJMLAシステムは,GTZANデータセット上で64.82 %のゼロショット音声タグ付け精度を実現し,従来のゼロショットシステムよりも優れており,FMAおよびMagnaTagATuneデータセット上の従来のシステムと同等の結果が得られる。

Music tagging is a task to predict the tags of music recordings. However, previous music tagging research primarily focuses on close-set music tagging tasks which can not be generalized to new tags. In this work, we propose a zero-shot music tagging system modeled by a joint music and language attention (JMLA) model to address the open-set music tagging problem. The JMLA model consists of an audio encoder modeled by a pretrained masked autoencoder and a decoder modeled by a Falcon7B. We introduce preceiver resampler to convert arbitrary length audio into fixed length embeddings. We introduce dense attention connections between encoder and decoder layers to improve the information flow between the encoder and decoder layers. We collect a large-scale music and description dataset from the internet. We propose to use ChatGPT to convert the raw descriptions into formalized and diverse descriptions to train the JMLA models. Our proposed JMLA system achieves a zero-shot audio tagging accuracy of $ 64.82\% $ on the GTZAN dataset, outperforming previous zero-shot systems and achieves comparable results to previous systems on the FMA and the MagnaTagATune datasets.
翻訳日:2023-10-17 15:49:26 公開日:2023-10-16
# character-LLM:ロールプレイングのためのトレーニング可能なエージェント

Character-LLM: A Trainable Agent for Role-Playing ( http://arxiv.org/abs/2310.10158v1 )

ライセンス: Link先を確認
Yunfan Shao, Linyang Li, Junqi Dai, Xipeng Qiu(参考訳) 大規模言語モデル(llm)は、人間の指示を理解し、高品質なテキストを提供する能力を備えており、人間の行動をシミュレートするエージェントとして使用できる。 このような能力は、単純な人間の行動よりも高い形態でLSMが人をシミュレートできるかどうかを疑問にさせる。 そこで我々は,ChatGPT APIを指示するために限られたプロンプトを使うのではなく,特定の人のプロファイル,経験,感情状態を持つエージェントを訓練することを目指している。 本研究では, ベートーヴェン, クレオパトラ女王, ユリウス・カエサルなど, LLM に特定の人物として行動するように教えるキャラクタ-LLMを紹介する。 提案手法は,プロファイルを特定のキャラクターの経験として編集することと,これらの経験を個人的シミュラクラとするトレーニングモデルに焦点をあてる。 提案手法の有効性を評価するため,訓練されたエージェントを面接し,エージェントがキャラクターや経験を記憶するかどうかを評価する実験場を構築した。 実験結果から、人類の将来的なシミュラクラの構築に役立つ興味深い観察結果が得られた。

Large language models (LLMs) can be used to serve as agents to simulate human behaviors, given the powerful ability to understand human instructions and provide high-quality generated texts. Such ability stimulates us to wonder whether LLMs can simulate a person in a higher form than simple human behaviors. Therefore, we aim to train an agent with the profile, experience, and emotional states of a specific person instead of using limited prompts to instruct ChatGPT API. In this work, we introduce Character-LLM that teach LLMs to act as specific people such as Beethoven, Queen Cleopatra, Julius Caesar, etc. Our method focuses on editing profiles as experiences of a certain character and training models to be personal simulacra with these experiences. To assess the effectiveness of our approach, we build a test playground that interviews trained agents and evaluates whether the agents \textit{memorize} their characters and experiences. Experimental results show interesting observations that help build future simulacra of humankind.
翻訳日:2023-10-17 15:49:05 公開日:2023-10-16
# 協調エッジプラットフォーム上での精度を考慮したDNN推論のための適応的ワークロード分布

Adaptive Workload Distribution for Accuracy-aware DNN Inference on Collaborative Edge Platforms ( http://arxiv.org/abs/2310.10157v1 )

ライセンス: Link先を確認
Zain Taufique, Antonio Miele, Pasi Liljeberg, Anil Kanduri(参考訳) DNN推論は、協調的なエッジノードのクラスタ間でワークロードを分散することで加速することができる。 エッジデバイス間の不均一性とDNNモデルの精度-性能トレードオフは、推論性能要求に対応しながら複雑な探索空間を示す。 本研究では,エッジデバイスのノードレベルの不均一性と,アプリケーション固有の精度と性能要件を考慮したDNN推論のための適応的ワークロード分布を提案する。 提案手法は、DNNモデルの不均一性を考慮したワークロード分割と動的精度設定を組合せて最適化し、性能と精度を保証する。 我々は,Odroid XU4,Raspberry Pi4,Jetson Nanoボードのエッジクラスタ上でテストを行い,最先端のワークロード分散戦略と比較して平均41.52%,出力精度5.2%を達成した。

DNN inference can be accelerated by distributing the workload among a cluster of collaborative edge nodes. Heterogeneity among edge devices and accuracy-performance trade-offs of DNN models present a complex exploration space while catering to the inference performance requirements. In this work, we propose adaptive workload distribution for DNN inference, jointly considering node-level heterogeneity of edge devices, and application-specific accuracy and performance requirements. Our proposed approach combinatorially optimizes heterogeneity-aware workload partitioning and dynamic accuracy configuration of DNN models to ensure performance and accuracy guarantees. We tested our approach on an edge cluster of Odroid XU4, Raspberry Pi4, and Jetson Nano boards and achieved an average gain of 41.52% in performance and 5.2% in output accuracy as compared to state-of-the-art workload distribution strategies.
翻訳日:2023-10-17 15:48:47 公開日:2023-10-16
# DNA: きめ細かいカテゴリー発見のための隣人集団の特定

DNA: Denoised Neighborhood Aggregation for Fine-grained Category Discovery ( http://arxiv.org/abs/2310.10151v1 )

ライセンス: Link先を確認
Wenbin An, Feng Tian, Wenkai Shi, Yan Chen, Qinghua Zheng, QianYing Wang, Ping Chen(参考訳) 粗いラベル付きデータからきめ細かいカテゴリを見つけることは実用的で困難な作業であり、細粒度分析の需要と高いアノテーションコストのギャップを埋めることができる。 これまでの研究は主に、低レベルの特徴を学ぶためのインスタンスレベルの識別に焦点を当てていたが、データ間のセマンティックな類似性は無視している。 本稿では,データのセマンティック構造を埋め込み空間にエンコードする自己教師型フレームワークであるDenoized Neighborhood Aggregation (DNA)を提案する。 具体的には、クエリのk-nearestの隣人を正のキーとして検索し、データ間の意味的類似性をキャプチャし、隣人から情報を集約してコンパクトなクラスタ表現を学ぶ。 しかし、抽出された隣人はうるさく、多くの偽陽性キーを含むことができ、学習された埋め込みの品質を低下させることができる。 この課題に対処するために、これらの偽隣人をより良い表現学習のためにフィルタリングする3つの原則を提案する。 さらに,このフレームワークの学習目的は,データ間の意味的類似性を捉え,コンパクトな細粒度クラスタを形成するクラスタリング損失に相当することを理論的に正当化する。 3つのベンチマークデータセットの大規模な実験により、我々の手法はより正確な隣人(21.31%の精度改善)と最先端のモデルを大きなマージン(平均して3つのメトリクスで9.96%の改善)で上回ることができることが示された。 コードとデータはhttps://github.com/lackel/dnaで入手できます。

Discovering fine-grained categories from coarsely labeled data is a practical and challenging task, which can bridge the gap between the demand for fine-grained analysis and the high annotation cost. Previous works mainly focus on instance-level discrimination to learn low-level features, but ignore semantic similarities between data, which may prevent these models learning compact cluster representations. In this paper, we propose Denoised Neighborhood Aggregation (DNA), a self-supervised framework that encodes semantic structures of data into the embedding space. Specifically, we retrieve k-nearest neighbors of a query as its positive keys to capture semantic similarities between data and then aggregate information from the neighbors to learn compact cluster representations, which can make fine-grained categories more separatable. However, the retrieved neighbors can be noisy and contain many false-positive keys, which can degrade the quality of learned embeddings. To cope with this challenge, we propose three principles to filter out these false neighbors for better representation learning. Furthermore, we theoretically justify that the learning objective of our framework is equivalent to a clustering loss, which can capture semantic similarities between data to form compact fine-grained clusters. Extensive experiments on three benchmark datasets show that our method can retrieve more accurate neighbors (21.31% accuracy improvement) and outperform state-of-the-art models by a large margin (average 9.96% improvement on three metrics). Our code and data are available at https://github.com/Lackel/DNA.
翻訳日:2023-10-17 15:48:31 公開日:2023-10-16
# Recursive Segmentation Living Image: An eXplainable AI (XAI) Approach for Computing Structure Beauty of Images or the Livingness of Space

Recursive Segmentation Living Image: An eXplainable AI (XAI) Approach for Computing Structural Beauty of Images or the Livingness of Space ( http://arxiv.org/abs/2310.10149v1 )

ライセンス: Link先を確認
Yao Qianxiang and Bin Jiang(参考訳) 本研究では,画像の美的魅力を評価するための客観的計算手法として「構造美」の概念を導入する。 セグメント・エバンスモデル(sam)の活用により,再帰的セグメンテーションを利用して細粒度のサブ構造を抽出する手法を提案する。 さらに,階層構造を再構築することで,下位構造量と階層のより正確な表現を得る。 このアプローチはこれまでの研究を再現し、拡張し、グレースケールの変換や前景と背景の住まいの別個の計算を必要とせず、フルカラー画像における住まいの同時評価を可能にする。 さらに,本手法を主観的景観評価のレポジトリであるScenic or Notデータセットに適用することにより,0-6スコア範囲の主観的評価と高い一貫性を示す。 このことは、構造的美は単に主観的知覚ではなく、客観的な計算を通してアクセス可能な量的属性であることを示している。 ケーススタディを通じて、我々は3つの重要な結論に達した。 1) 絵画中の抽象的な部分構造だけでなく,木,建物,窓などの有意義な物体を正確に分割できることを示す。 2) 画像の明瞭度が計算結果に与える影響が観察され, より鮮明な画像では高い生存率が得られる傾向が見られた。 しかし、均等にぼやけた画像では、生活性は人間の視覚知覚と一致し、著しく低下することはない。 3)本手法は,畳み込みニューラルネットワーク(cnns)を用いた画像スコア予測手法と根本的に異なる。 我々の手法は計算結果を提供するだけでなく、透明性と解釈可能性も提供し、説明可能なAI(XAI)の領域における新たな道として位置づける。

This study introduces the concept of "structural beauty" as an objective computational approach for evaluating the aesthetic appeal of images. Through the utilization of the Segment anything model (SAM), we propose a method that leverages recursive segmentation to extract finer-grained substructures. Additionally, by reconstructing the hierarchical structure, we obtain a more accurate representation of substructure quantity and hierarchy. This approach reproduces and extends our previous research, allowing for the simultaneous assessment of Livingness in full-color images without the need for grayscale conversion or separate computations for foreground and background Livingness. Furthermore, the application of our method to the Scenic or Not dataset, a repository of subjective scenic ratings, demonstrates a high degree of consistency with subjective ratings in the 0-6 score range. This underscores that structural beauty is not solely a subjective perception, but a quantifiable attribute accessible through objective computation. Through our case studies, we have arrived at three significant conclusions. 1) our method demonstrates the capability to accurately segment meaningful objects, including trees, buildings, and windows, as well as abstract substructures within paintings. 2) we observed that the clarity of an image impacts our computational results; clearer images tend to yield higher Livingness scores. However, for equally blurry images, Livingness does not exhibit a significant reduction, aligning with human visual perception. 3) our approach fundamentally differs from methods employing Convolutional Neural Networks (CNNs) for predicting image scores. Our method not only provides computational results but also offers transparency and interpretability, positioning it as a novel avenue in the realm of Explainable AI (XAI).
翻訳日:2023-10-17 15:48:02 公開日:2023-10-16
# ワッサーシュタイン距離を用いた単純表現学習の実証的研究

An Empirical Study of Simplicial Representation Learning with Wasserstein Distance ( http://arxiv.org/abs/2310.10143v1 )

ライセンス: Link先を確認
Makoto Yamada and Yuki Takezawa and Guillaume Houry and Kira Michaela Dusterwald and Deborah Sulem and Han Zhao and Yao-Hung Hubert Tsai(参考訳) 本稿では,木構造上の1-ワッサーシュタイン距離(木-ワッサースタイン距離(TWD))を利用して,TWDを2つの木埋め込みベクトル間のL1距離として定義する簡易表現学習の課題について検討する。 具体的には,SimCLRに基づく自己教師型学習手法を用いて,TWDを類似度尺度とした簡易表現推定フレームワークを提案する。 simclrでは、実ベクトル埋め込みとコサインの類似性がしばしば用いられるが、単純埋め込みを用いたl1ベースの測度を用いてはよく研究されていない。 鍵となる課題は、l1距離の訓練は数値的に困難であり、しばしば不十分な結果をもたらすことであり、確率モデルには多くの選択肢がある。 そこで本研究では,TWDを用いた自己教師型学習の最適化戦略を実証的に検討し,安定した訓練方法を見出す。 具体的には,2種類のTWD(Total variation and ClusterTree)と,ソフトマックス関数,ArcFace確率モデル,simplicial Embeddingを含むいくつかの単純なモデルの組み合わせを評価する。 さらに, この最適化を安定させるために, 単純かつ効果的なジェフリー発散に基づく正規化法を提案する。 STL10, CIFAR10, CIFAR100, SVHNの実証実験により, ソフトマックス関数とTWDの単純な組み合わせは, 標準SimCLR(非単純モデルとコサイン類似性)よりも有意に低い結果が得られることがわかった。 モデルのパフォーマンスはtwdと単純化モデルの組み合わせに依存しており、jeffrey divergence regularizationは通常、モデルのトレーニングに役立ちます。 最後に,TWDとsimplicialモデルの組み合わせの適切な選択は,コサイン類似性に基づく表現学習よりも優れていた。

In this paper, we delve into the problem of simplicial representation learning utilizing the 1-Wasserstein distance on a tree structure (a.k.a., Tree-Wasserstein distance (TWD)), where TWD is defined as the L1 distance between two tree-embedded vectors. Specifically, we consider a framework for simplicial representation estimation employing a self-supervised learning approach based on SimCLR with a negative TWD as a similarity measure. In SimCLR, the cosine similarity with real-vector embeddings is often utilized; however, it has not been well studied utilizing L1-based measures with simplicial embeddings. A key challenge is that training the L1 distance is numerically challenging and often yields unsatisfactory outcomes, and there are numerous choices for probability models. Thus, this study empirically investigates a strategy for optimizing self-supervised learning with TWD and find a stable training procedure. More specifically, we evaluate the combination of two types of TWD (total variation and ClusterTree) and several simplicial models including the softmax function, the ArcFace probability model, and simplicial embedding. Moreover, we propose a simple yet effective Jeffrey divergence-based regularization method to stabilize the optimization. Through empirical experiments on STL10, CIFAR10, CIFAR100, and SVHN, we first found that the simple combination of softmax function and TWD can obtain significantly lower results than the standard SimCLR (non-simplicial model and cosine similarity). We found that the model performance depends on the combination of TWD and the simplicial model, and the Jeffrey divergence regularization usually helps model training. Finally, we inferred that the appropriate choice of combination of TWD and simplicial models outperformed cosine similarity based representation learning.
翻訳日:2023-10-17 15:47:17 公開日:2023-10-16
# 契約書から構造化回答を生成するプロンプトの探索

A Search for Prompts: Generating Structured Answers from Contracts ( http://arxiv.org/abs/2310.10141v1 )

ライセンス: Link先を確認
Adam Roegiest and Radha Chitta and Jonathan Donnelly and Maya Lash and Alexandra Vtyurina and Fran\c{c}ois Longtin(参考訳) 多くの法的プロセスにおいて、法的質問の具体的な含意に基づいて行動できることは、人間のレビューの自動化や特定の条件(例えば、自動更新に関する警告)の合図に有用である。 このようなタスクを支援するために、契約条項に関する質問に対して1つまたはそれ以上の固定された回答を返却しようとする法的質問応答の形式を示す。 このような課題に対して,非構造化質問応答が疑わしい結果をもたらすことを示した後,openai の \textit{gpt-3.5-turbo} を用いた法的質問応答プロンプトの探索手法を議論し,洞察の要約を提供する。 定性的な経験から得られた洞察を用いて、提案したテンプレートプロンプトを共通のセマンティックマッチングアプローチと比較し、正確な応答リターンの信頼性が低いにもかかわらず、我々のプロンプトテンプレートの方がはるかに正確であることを示す。 プロンプトの追加やコンテキスト内学習の利用によって、我々は可能な限り応答の信頼性を最大化しながら、提案した戦略の性能をさらに向上することができる。

In many legal processes being able to action on the concrete implication of a legal question can be valuable to automating human review or signalling certain conditions (e.g., alerts around automatic renewal). To support such tasks, we present a form of legal question answering that seeks to return one (or more) fixed answers for a question about a contract clause. After showing that unstructured generative question answering can have questionable outcomes for such a task, we discuss our exploration methodology for legal question answering prompts using OpenAI's \textit{GPT-3.5-Turbo} and provide a summary of insights. Using insights gleaned from our qualitative experiences, we compare our proposed template prompts against a common semantic matching approach and find that our prompt templates are far more accurate despite being less reliable in the exact response return. With some additional tweaks to prompts and the use of in-context learning, we are able to further improve the performance of our proposed strategy while maximizing the reliability of responses as best we can.
翻訳日:2023-10-17 15:46:20 公開日:2023-10-16
# 大規模言語モデルの戦い: dolly vs llama vs vicuna vs guanaco vs bard vs chatgpt - テキストからsqlへのパース比較

Battle of the Large Language Models: Dolly vs LLaMA vs Vicuna vs Guanaco vs Bard vs ChatGPT -- A Text-to-SQL Parsing Comparison ( http://arxiv.org/abs/2310.10190v1 )

ライセンス: Link先を確認
Shuo Sun, Yuchen Zhang, Jiahuan Yan, Yuze Gao, Donovan Ong, Bin Chen, Jian Su(参考訳) ChatGPTの成功はAI競争に火をつけ、研究者は商用言語における言語理解と生成能力に適合または超えるような、新しい大規模言語モデル(LLM)の開発を目指している。 近年、GPT-3.5やGPT-4に近い性能を様々な命令チューニング手法で主張するモデルが多数出現している。 テキストからsqlへのパースの実践者として、オープンソース研究への貴重な貢献に感謝しています。 しかし、これらの主張に精査してアプローチし、これらのモデルの実効性を確認することが重要である。 そこで我々は,5種類のプロンプト戦略を持つ9つのベンチマークデータセット上で,テキストからsqlへのパース機能を体系的に評価し,ゼロショットと少数ショットの両方のシナリオをカバーする。 オープンソースモデルはGPT-3.5のようなクローズドソースモデルによって達成された性能を著しく低下させ、これらのモデル間のパフォーマンスギャップを埋めるためのさらなる作業の必要性を強調した。

The success of ChatGPT has ignited an AI race, with researchers striving to develop new large language models (LLMs) that can match or surpass the language understanding and generation abilities of commercial ones. In recent times, a number of models have emerged, claiming performance near that of GPT-3.5 or GPT-4 through various instruction-tuning methods. As practitioners of Text-to-SQL parsing, we are grateful for their valuable contributions to open-source research. However, it is important to approach these claims with a sense of scrutiny and ascertain the actual effectiveness of these models. Therefore, we pit six popular large language models against each other, systematically evaluating their Text-to-SQL parsing capability on nine benchmark datasets with five different prompting strategies, covering both zero-shot and few-shot scenarios. Regrettably, the open-sourced models fell significantly short of the performance achieved by closed-source models like GPT-3.5, highlighting the need for further work to bridge the performance gap between these models.
翻訳日:2023-10-17 15:40:31 公開日:2023-10-16
# 決定論的単一光子源を用いた量子アドバンテージ実現のためのハードウェア要件

Hardware requirements for realizing a quantum advantage with deterministic single-photon sources ( http://arxiv.org/abs/2310.10185v1 )

ライセンス: Link先を確認
Patrik I. Sund, Ravitej Uppu, Stefano Paesani, Peter Lodahl(参考訳) ボソンサンプリング(英: Boson sample)は、古典的コンピュータに対する量子優位性の短期的な実証のために開発された量子フォトニックプラットフォームに固有の特殊なアルゴリズムである。 このような短期的プレフォールトトレランスデバイスに対する明確な有用な応用は、現時点では知られていないが、量子アドバンテージに到達することは、ハードウェアにとって有用なベンチマークである。 ここでは、フォトニック量子コンピューティングの有望なプラットフォームである決定論的量子エミッタを用いて、量子優位に達するために必要なハードウェア要件を分析し、詳細化する。 実用上の制約を克服し、定量的なハードウェアレベルの要件を確立するために、実験で実施できる重要なステップを解明する。 量子アドバンテージは、効率が60%-70%の量子エミッタと、成分あたり0.0035(99.92%の透過率)のマッハ・ツェンダー干渉計からなるハイブリッドモードエンコードアーキテクチャで構築されたインターフェロメーターを用いて到達する。

Boson sampling is a specialised algorithm native to the quantum photonic platform developed for near-term demonstrations of quantum advantage over classical computers. While clear useful applications for such near-term pre-fault-tolerance devices are not currently known, reaching a quantum advantage regime serves as a useful benchmark for the hardware. Here, we analyse and detail hardware requirements needed to reach quantum advantage with deterministic quantum emitters, a promising platform for photonic quantum computing. We elucidate key steps that can be taken in experiments to overcome practical constraints and establish quantitative hardware-level requirements. We find that quantum advantage is within reach using quantum emitters with an efficiency of 60%-70% and interferometers constructed according to a hybrid-mode-encoding architecture, constituted of Mach-Zehnder interferometers with an insertion loss of 0.0035 (a transmittance of 99.92%) per component.
翻訳日:2023-10-17 15:40:10 公開日:2023-10-16
# 連続的な一般化されたインテント発見:動的およびオープンワールドインテント認識に向けて

Continual Generalized Intent Discovery: Marching Towards Dynamic and Open-world Intent Recognition ( http://arxiv.org/abs/2310.10184v1 )

ライセンス: Link先を確認
Xiaoshuai Song, Yutao Mou, Keqing He, Yueyan Qiu, Pei Wang, Weiran Xu(参考訳) 実用的な対話システムでは、ユーザーは外部ドメイン(OOD)クエリを入力できる。 Generalized Intent Discovery (GID)タスクは、OODクエリからOODインテントを発見し、それをインドメイン(IND)分類器に拡張することを目的としている。 しかし、GIDはOOD学習の1段階のみを考慮し、以前のすべての段階のデータをジョイントトレーニングに活用する必要がある。 本稿では,動的oodデータストリームからoodインテントを連続的かつ自動的に検出し,それ以前のデータをほとんど含まない分類器に段階的に追加することにより,オープンワールドにおける動的インテント認識へ移行する,新たなタスクであるcontinual generalized intent discovery(cgid)を提案する。 次に,クラスプロトタイプを通じて新たなインテント発見をブートストラップし,データリプレイと機能蒸留による新旧インテントのバランスをとる,cgidのためのprototype-guided learning(plrd)という手法を提案する。 最後に,PLRDの有効性を検証するための詳細な実験と解析を行い,今後の研究におけるCGIDの課題を理解する。

In a practical dialogue system, users may input out-of-domain (OOD) queries. The Generalized Intent Discovery (GID) task aims to discover OOD intents from OOD queries and extend them to the in-domain (IND) classifier. However, GID only considers one stage of OOD learning, and needs to utilize the data in all previous stages for joint training, which limits its wide application in reality. In this paper, we introduce a new task, Continual Generalized Intent Discovery (CGID), which aims to continuously and automatically discover OOD intents from dynamic OOD data streams and then incrementally add them to the classifier with almost no previous data, thus moving towards dynamic intent recognition in an open world. Next, we propose a method called Prototype-guided Learning with Replay and Distillation (PLRD) for CGID, which bootstraps new intent discovery through class prototypes and balances new and old intents through data replay and feature distillation. Finally, we conduct detailed experiments and analysis to verify the effectiveness of PLRD and understand the key challenges of CGID for future research.
翻訳日:2023-10-17 15:39:51 公開日:2023-10-16
# TRIGO:生成言語モデルのための形式的数学的証明のベンチマーク

TRIGO: Benchmarking Formal Mathematical Proof Reduction for Generative Language Models ( http://arxiv.org/abs/2310.10180v1 )

ライセンス: Link先を確認
Jing Xiong, Jianhao Shen, Ye Yuan, Haiming Wang, Yichun Yin, Zhengying Liu, Lin Li, Zhijiang Guo, Qingxing Cao, Yinya Huang, Chuanyang Zheng, Xiaodan Liang, Ming Zhang, Qun Liu(参考訳) 自動定理証明(ATP)は、最近成功した生成言語モデルの推論能力を探究する上で魅力的な領域となっている。 しかし、現在のATPベンチマークは主にシンボリック推論に焦点を当てているが、複素数組合せの推論を理解することは滅多にない。 本研究では, ATP ベンチマーク TRIGO を提案する。このベンチマークは, ステップバイステップの証明で三角法式を縮小するモデルを必要とするだけでなく, 論理式に対する生成的 LM の推論能力とその操作, グループ化, 因子数項の操作能力を評価する。 我々は、Webから三角法式とその縮小形式を収集し、単純化プロセスを手作業で注釈付けし、それを 'Lean'' 形式言語システムに変換する。 その後、アノテーション付きサンプルからサンプルを自動生成してデータセットを拡張する。 さらに,Lean-Gymに基づく自動生成装置を開発し,モデルの一般化能力を徹底的に分析するために,様々な困難と分布のデータセット分割を作成する。 提案するTRIGOは,多量のオープンソース形式定理証明言語データに基づいて事前学習された GPT-4 を含む先進的生成型LMの新たな課題を示すとともに,形式的および数学的推論において,生成型LMの能力を研究するための新しいツールを提供する。

Automated theorem proving (ATP) has become an appealing domain for exploring the reasoning ability of the recent successful generative language models. However, current ATP benchmarks mainly focus on symbolic inference, but rarely involve the understanding of complex number combination reasoning. In this work, we propose TRIGO, an ATP benchmark that not only requires a model to reduce a trigonometric expression with step-by-step proofs but also evaluates a generative LM's reasoning ability on formulas and its capability to manipulate, group, and factor number terms. We gather trigonometric expressions and their reduced forms from the web, annotate the simplification process manually, and translate it into the ``Lean'' formal language system. We then automatically generate additional examples from the annotated samples to expand the dataset. Furthermore, we develop an automatic generator based on Lean-Gym to create dataset splits of varying difficulties and distributions in order to thoroughly analyze the model's generalization ability. Our extensive experiments show our proposed TRIGO poses a new challenge for advanced generative LM's including GPT-4 which is pre-trained on a considerable amount of open-source formal theorem-proving language data, and provide a new tool to study the generative LM's ability on both formal and mathematical reasoning.
翻訳日:2023-10-17 15:39:30 公開日:2023-10-16
# 完全粗粒度測定による巨視的絡み合い状態の引張量子-古典的遷移

Tensile quantum-to-classical transition of macroscopic entangled states under complete coarse-grained measurements ( http://arxiv.org/abs/2310.10178v1 )

ライセンス: Link先を確認
Laxmi Prasad Naik, Tamal Ghosh, Sumit Mukherjee, Chiranjib Mitra, and Prasanta K. Panigrahi(参考訳) 量子-古典遷移が起こるマクロ的極限は、量子理論の基礎における長年の疑問の1つとして残っている。 システムの量子性が持続するマクロな限界は、測定過程による相互作用の程度に依存するという証拠がある。 例えば、かなり大きなヒルベルト空間次元を持つ系において、測定結果が関連する系の個々のレベルに関する情報の粗い粒度バージョンのみを現わすような方法で測定を行う場合、測定過程による乱れは無限小であると考えることができる。 このような粗粒度測定に基づいて,ベルの不等式違反の粗粒度依存性を既に検討している [Phys. Rev. Lett. 112, 010402 (2014)]。 本稿では,局所現実主義を古典性の定義概念として捉えた場合,多角的絡み合い状態の量子性低下に対する粗化の程度の影響を,奇数であれば対称ベル不等級の族から高次設定のベル不等級をテストした結果から補うことができることを示す。 しかし,そのような量子から古典への遷移を偶数設定の対称ベル不等式を用いて目撃した場合には,そのような補償は見当たらないことを示す。 最後に、上記の結果を補完することにより、奇数と偶数の両方の設定において、不安定性を古典性とみなす場合、量子-古典遷移が生じる粗大化の度合いを、より高い設定の線形ステアリング不等式を検証し、その違反を観察することにより、一貫して推し進めることができることを示す。 混合マクロな絡み合った状態に対する治療をさらに拡張する。

The macroscopic limit at which the quantum-to-classical transition occurs remains as one of the long-standing questions in the foundations of quantum theory. There are evidences that the macroscopic limit to which the quantumness of a system persists depends on the degree of interaction due to the measurement processes. For instance, with a system having a considerably large Hilbert space dimension, if the measurement is performed in such a way that the outcome of the measurement only reveals a coarse-grained version of the information about the individual level of the concerned system then the disturbance due to the measurement process can be considered to be infinitesimally small. Based on such coarse-grained measurement the dependence of Bell inequality violation on the degree of coarsening has already been investigated [Phys. Rev. Lett. 112, 010402 (2014)]. In this paper, we first capture the fact that when local-realism is taken to be the defining notion of classicality, the effect of the degree of coarsening on the downfall of quantumness of a macroscopic entangled state can be compensated by testing a Bell-inequality of a higher number of settings from a family of symmetric Bell-inequalities if the number of settings is odd. However, on the contrary, we show that such compensation can not be seen when we witness such quantum-to-classical transition using symmetric Bell inequalities having an even number of settings. Finally, complementing the above result, we show that when unsteerability is taken as the classicality, for both odd and even numbers of settings the degree of coarsening at which the quantum-to-classical transition occurs can be consistently pushed ahead by testing a linear steering inequality of a higher number of settings and observing its violation. We further extend our treatment for mixed macroscopic entangled states
翻訳日:2023-10-17 15:39:04 公開日:2023-10-16
# ハイパーグラフエコー状態ネットワーク

Hypergraph Echo State Network ( http://arxiv.org/abs/2310.10177v1 )

ライセンス: Link先を確認
Justin Lien(参考訳) グラフの一般化としてのハイパーグラフは、ノード間の高次相互作用を記録し、より柔軟なネットワークモデルをもたらし、ノードのグループの非線形機能を可能にする。 本稿では,ハイパーグラフ構造データの効率的な処理を目的としたグラフエコー状態ネットワーク(GraphESN)の一般化としてハイパーグラフエコー状態ネットワーク(HypergraphESN)を提案する。 2次分類タスクにおける数値実験により、ハイパーグラフ構造データに対するgraphesnと同等または優れた精度を示すことが示され、ネットワーク内のより高次相互作用を識別すれば精度が向上する。

A hypergraph as a generalization of graphs records higher-order interactions among nodes, yields a more flexible network model, and allows non-linear features for a group of nodes. In this article, we propose a hypergraph echo state network (HypergraphESN) as a generalization of graph echo state network (GraphESN) designed for efficient processing of hypergraph-structured data, derive convergence conditions for the algorithm, and discuss its versatility in comparison to GraphESN. The numerical experiments on the binary classification tasks demonstrate that HypergraphESN exhibits comparable or superior accuracy performance to GraphESN for hypergraph-structured data, and accuracy increases if more higher-order interactions in a network are identified.
翻訳日:2023-10-17 15:38:28 公開日:2023-10-16
# オープンワールドインテント発見と認識を伴う大規模言語モデル:ChatGPTの評価

Large Language Models Meet Open-World Intent Discovery and Recognition: An Evaluation of ChatGPT ( http://arxiv.org/abs/2310.10176v1 )

ライセンス: Link先を確認
Xiaoshuai Song, Keqing He, Pei Wang, Guanting Dong, Yutao Mou, Jingang Wang, Yunsen Xian, Xunliang Cai, Weiran Xu(参考訳) out-of-domain intent discovery(ood)とgeneralized intent discovery(gid)のタスクは、クローズドインテント分類器をオープンワールドインテントセットに拡張することを目的としている。 従来の方法は、それらを微調整した判別モデルで扱う。 近年、ChatGPTで表される大規模言語モデル(LLM)を様々な下流タスクに適用する研究が進んでいるが、ChatGPTがOODの意図を発見・拡大する能力がまだ不明である。 本稿では,OOD意図の発見とGIDに関するChatGPTを包括的に評価し,ChatGPTの強みと弱点を概説する。 全体としては、ChatGPTはゼロショット設定で一貫したアドバンテージを示すが、細調整されたモデルに比べて依然として不利である。 より深く、一連の分析実験を通じて、クラスタリング、ドメイン固有理解、クロスドメインインコンテキスト学習シナリオなどllmが直面する課題を要約し、議論する。 最後に,これらの課題に対処するために,今後の方向性について経験的ガイダンスを提供する。

The tasks of out-of-domain (OOD) intent discovery and generalized intent discovery (GID) aim to extend a closed intent classifier to open-world intent sets, which is crucial to task-oriented dialogue (TOD) systems. Previous methods address them by fine-tuning discriminative models. Recently, although some studies have been exploring the application of large language models (LLMs) represented by ChatGPT to various downstream tasks, it is still unclear for the ability of ChatGPT to discover and incrementally extent OOD intents. In this paper, we comprehensively evaluate ChatGPT on OOD intent discovery and GID, and then outline the strengths and weaknesses of ChatGPT. Overall, ChatGPT exhibits consistent advantages under zero-shot settings, but is still at a disadvantage compared to fine-tuned models. More deeply, through a series of analytical experiments, we summarize and discuss the challenges faced by LLMs including clustering, domain-specific understanding, and cross-domain in-context learning scenarios. Finally, we provide empirical guidance for future directions to address these challenges.
翻訳日:2023-10-17 15:38:14 公開日:2023-10-16
# オブジェクト中心プロセスマイニングによるアフターセールサービスプロセスの分析:ケーススタディ

Analyzing An After-Sales Service Process Using Object-Centric Process Mining: A Case Study ( http://arxiv.org/abs/2310.10174v1 )

ライセンス: Link先を確認
Gyunam Park, Sevde Aydin, Cuneyt Ugur, Wil M. P. van der Aalst(参考訳) イベントデータをビジネスプロセスの洞察に変換する技術であるプロセスマイニングは、伝統的に、各イベントが特定のケースやオブジェクトに対応するという仮定に基づいて運用されてきた。 しかし、現実世界のプロセスの多くは複数のオブジェクトに絡み合っており、オブジェクト中心になっている。 本稿では、オブジェクト中心のプロセスマイニングの新たな領域に注目し、実際の運用シナリオにおける潜在的な未熟な利点を強調する。 borusan cat's after-sales service processの詳細なケーススタディを通じて、本研究は、絡み合ったビジネスプロセスの詳細を捉えるためのオブジェクト中心のプロセスマイニングの能力を強調している。 約65,000のイベントのイベントログを利用することで、よりリッチなビジネス洞察と運用改善のためにこのパラダイムを採用することの重要性を強調する。

Process mining, a technique turning event data into business process insights, has traditionally operated on the assumption that each event corresponds to a singular case or object. However, many real-world processes are intertwined with multiple objects, making them object-centric. This paper focuses on the emerging domain of object-centric process mining, highlighting its potential yet underexplored benefits in actual operational scenarios. Through an in-depth case study of Borusan Cat's after-sales service process, this study emphasizes the capability of object-centric process mining to capture entangled business process details. Utilizing an event log of approximately 65,000 events, our analysis underscores the importance of embracing this paradigm for richer business insights and enhanced operational improvements.
翻訳日:2023-10-17 15:37:52 公開日:2023-10-16
# ベイズニューラルネットワーク後部における置換対称性について:変分の視点から

On permutation symmetries in Bayesian neural network posteriors: a variational perspective ( http://arxiv.org/abs/2310.10171v1 )

ライセンス: Link先を確認
Simone Rossi, Ankit Singh, Thomas Hannagan(参考訳) ニューラルネットワークにおける勾配に基づく最適化の解明の性質は、その損失ランドスケープ幾何学と結びついており、理解が不十分である。 しかし、最近の研究は、勾配勾配の局所解の間に本質的に損失障壁がないという確固たる証拠を導いてきた。 これにより、ベイズニューラルネットワーク(BNN)における近似推論に関する疑問が提起される。 本研究では, 線形連結解を探索するためのマッチングアルゴリズムを提案する前に, マージン化損失障壁の形式化と解補間をbnnに拡張する。 これは、置換行列に関して2つの独立近似ベイズ解の分布を整列させることによって達成される。 ainsworth et al. (2023) の結果に基づいて, 双線形割当問題の総和の近似を用いて, 組合せ最適化問題としてこの問題を再現した。 その後、さまざまなアーキテクチャやデータセットを実験し、線形接続されたソリューションに対するほぼゼロの損失障壁を見つけました。

The elusive nature of gradient-based optimization in neural networks is tied to their loss landscape geometry, which is poorly understood. However recent work has brought solid evidence that there is essentially no loss barrier between the local solutions of gradient descent, once accounting for weight-permutations that leave the network's computation unchanged. This raises questions for approximate inference in Bayesian neural networks (BNNs), where we are interested in marginalizing over multiple points in the loss landscape. In this work, we first extend the formalism of marginalized loss barrier and solution interpolation to BNNs, before proposing a matching algorithm to search for linearly connected solutions. This is achieved by aligning the distributions of two independent approximate Bayesian solutions with respect to permutation matrices. We build on the results of Ainsworth et al. (2023), reframing the problem as a combinatorial optimization one, using an approximation to the sum of bilinear assignment problem. We then experiment on a variety of architectures and datasets, finding nearly zero marginalized loss barriers for linearly connected solutions.
翻訳日:2023-10-17 15:37:37 公開日:2023-10-16
# 資源制約環境における高効率深層強化学習のための知識蒸留の活用

Leveraging Knowledge Distillation for Efficient Deep Reinforcement Learning in Resource-Constrained Environments ( http://arxiv.org/abs/2310.10170v1 )

ライセンス: Link先を確認
Guanlin Meng(参考訳) 本稿では,様々なDRLアルゴリズムを蒸留し,その蒸留効果を研究することにより,深層強化学習(DRL)と知識蒸留(KD)を組み合わせる可能性を検討することを目的とする。 これにより、性能を維持しながら深層モデルの計算負荷を低減することができる。 主な目的は、KD技術を用いて改良された異なるDRLアルゴリズムの性能を評価するためのベンチマークを提供することである。 これらのアルゴリズムを蒸留することで、効率的で高速なdrlモデルの開発が目標となる。 この研究は、この有望な方向へのさらなる進歩を促進する貴重な洞察を提供するものと期待されている。 DRLとKDの組み合わせを探求することで、GPUリソースの少ないモデルの開発を促進し、より早く学習し、複雑な環境でより高速な意思決定を行うことを目指している。 本研究の結果は,DRLの分野を飛躍的に発展させ,資源効率・意思決定知能システムの今後の展開の道を開くことができる。

This paper aims to explore the potential of combining Deep Reinforcement Learning (DRL) with Knowledge Distillation (KD) by distilling various DRL algorithms and studying their distillation effects. By doing so, the computational burden of deep models could be reduced while maintaining the performance. The primary objective is to provide a benchmark for evaluating the performance of different DRL algorithms that have been refined using KD techniques. By distilling these algorithms, the goal is to develop efficient and fast DRL models. This research is expected to provide valuable insights that can facilitate further advancements in this promising direction. By exploring the combination of DRL and KD, this work aims to promote the development of models that require fewer GPU resources, learn more quickly, and make faster decisions in complex environments. The results of this research have the capacity to significantly advance the field of DRL and pave the way for the future deployment of resource-efficient, decision-making intelligent systems.
翻訳日:2023-10-17 15:37:18 公開日:2023-10-16
# GEVO-ML:進化計算による機械学習コードの最適化

GEVO-ML: Optimizing Machine Learning Code with Evolutionary Computation ( http://arxiv.org/abs/2310.10211v1 )

ライセンス: Link先を確認
Jhe-Yu Liou, Stephanie Forrest, Carole-Jean Wu(参考訳) GPUのような並列アクセラレータは、大規模機械学習(ML)アプリケーションにとって重要な実現手段である。 しかしながら、MLモデル開発者は基盤となるシステムアーキテクチャに関する詳細な知識を欠くことが多いが、システムプログラマは通常、特定のシステム上で実行されるMLモデルの高レベルな理解を持っていない。 本稿では,この2つのドメイン知識のギャップを軽減するために,モデルとトレーニング/予測プロセスが単一の中間言語であるMLIR(Multiple-Layer Intermediate Representation)で一様に表現されるような,最適化機会の自動検出とMLカーネルの性能調整を行うツールであるGEVO-MLを提案する。 GEVO-MLは、マルチオブジェクト進化的検索を使用して、最終的にGPU上で動作するMLIRコードへの編集(変更)を見つけ、必要な機能を維持しながら、所望の基準でのパフォーマンスを向上させる。 モデルトレーニングと予測の両方のために、GEVO-MLを2つの異なるMLワークロードでデモする。 GEVO-MLはこれらのモデルでパレートが大幅に改善され、モデル精度が91.2%から89.3%に落ち着くと90.43%の性能向上を達成した。 gevo-mlはトレーニングやテストのスピードを犠牲にすることなく、モデルの精度が91%から96%に4.88%向上している。 GEVO-MLの鍵となる突然変異を解析した結果、人間の開発者とは異なっており、例えば学習率の変更や非必須層パラメータの抽出などによって、人間の開発者がモデル設計を改善する方法に類似した効果が得られた。

Parallel accelerators, such as GPUs, are key enablers for large-scale Machine Learning (ML) applications. However, ML model developers often lack detailed knowledge of the underlying system architectures, while system programmers usually do not have a high-level understanding of the ML model that runs on the specific system. To mitigate this gap between two relevant aspects of domain knowledge, this paper proposes GEVO-ML, a tool for automatically discovering optimization opportunities and tuning the performance of ML kernels, where the model and training/prediction processes are uniformly represented in a single intermediate language, the Multiple-Layer Intermediate Representation (MLIR). GEVO-ML uses multi-objective evolutionary search to find edits (mutations) to MLIR code that ultimately runs on GPUs, improving performance on desired criteria while retaining required functionality. We demonstrate GEVO-ML on two different ML workloads for both model training and prediction. GEVO-ML finds significant Pareto improvements for these models, achieving 90.43% performance improvement when model accuracy is relaxed by 2%, from 91.2% to 89.3%. For the training workloads, GEVO-ML finds a 4.88% improvement in model accuracy, from 91% to 96%, without sacrificing training or testing speed. Our analysis of key GEVO-ML mutations reveals diverse code modifications, while might be foreign to human developers, achieving similar effects with how human developers improve model design, for example, by changing learning rates or pruning non-essential layer parameters.
翻訳日:2023-10-17 15:29:10 公開日:2023-10-16
# 放射線拡散生成モデルに基づく胎児MRI3次元再構成

Self-supervised Fetal MRI 3D Reconstruction Based on Radiation Diffusion Generation Model ( http://arxiv.org/abs/2310.10209v1 )

ライセンス: Link先を確認
Junpeng Tan, Xin Zhang, Yao Lv, Xiangmin Xu, and Gang Li(参考訳) 複数スタックを使用すると、スライス・ツー・ボリュームの動作補正やアーティファクト削除の問題を処理できるが、まだいくつか問題がある。 1) スライス・ツー・ボリューム法は通常スライスを入力として使用するが, 異なる胎児MRIスタックの領域における均一強度分布と相補性の問題は解決できない。 2) 3次元空間の整合性は考慮されず,胎児MRIにおける一貫した情報の識別と生成に悪影響を及ぼす。 3) 実世界における重度運動アーチファクトを持つ胎児MRIでは, 高品質な超解像再構成が達成できない。 これらの問題に対処するため,我々は放射線拡散生成モデル(rdgm)と呼ばれる新しい胎児脳mri高画質ボリューム再構成法を提案する。 超解像生成に基づく座標生成と拡散モデルに基づくニューラル放射場(NeRF)の概念を取り入れた自己監督型生成法である。 異なる方向の局所強度の不均一性を解決するために,スライス登録のために事前学習したトランスフォーマモデルを用い,新しい局所一貫性を持つインシシットニューラル表現(CINR)ネットワークサブモジュールを提案する。 cinrは、2つの異なる座標マッピング空間の座標アソシエーションマップを組み合わせることで初期ボリュームを生成することができる。 ボリュームのグローバルな一貫性と差別性を高めるために,ボリューム拡散超解像生成(VDSG)機構を導入する。 体積から体積への大域的な強度差分生成は拡散生成の概念を用いて行われ、CINRは体積から体積への拡散モデルの偏差強度発生ネットワークとなる。 最後に、実際の胎児脳MRIによる実験結果から、本手法の最先端性能を実証した。

Although the use of multiple stacks can handle slice-to-volume motion correction and artifact removal problems, there are still several problems: 1) The slice-to-volume method usually uses slices as input, which cannot solve the problem of uniform intensity distribution and complementarity in regions of different fetal MRI stacks; 2) The integrity of 3D space is not considered, which adversely affects the discrimination and generation of globally consistent information in fetal MRI; 3) Fetal MRI with severe motion artifacts in the real-world cannot achieve high-quality super-resolution reconstruction. To address these issues, we propose a novel fetal brain MRI high-quality volume reconstruction method, called the Radiation Diffusion Generation Model (RDGM). It is a self-supervised generation method, which incorporates the idea of Neural Radiation Field (NeRF) based on the coordinate generation and diffusion model based on super-resolution generation. To solve regional intensity heterogeneity in different directions, we use a pre-trained transformer model for slice registration, and then, a new regionally Consistent Implicit Neural Representation (CINR) network sub-module is proposed. CINR can generate the initial volume by combining a coordinate association map of two different coordinate mapping spaces. To enhance volume global consistency and discrimination, we introduce the Volume Diffusion Super-resolution Generation (VDSG) mechanism. The global intensity discriminant generation from volume-to-volume is carried out using the idea of diffusion generation, and CINR becomes the deviation intensity generation network of the volume-to-volume diffusion model. Finally, the experimental results on real-world fetal brain MRI stacks demonstrate the state-of-the-art performance of our method.
翻訳日:2023-10-17 15:28:40 公開日:2023-10-16
# Bongard-OpenWorld: 現実の世界における自由な視覚概念のためのFew-Shot Reasoning

Bongard-OpenWorld: Few-Shot Reasoning for Free-form Visual Concepts in the Real World ( http://arxiv.org/abs/2310.10207v1 )

ライセンス: Link先を確認
Rujie Wu, Xiaojian Ma, Qing Li, Wei Wang, Zhenliang Zhang, Song-Chun Zhu, Yizhou Wang(参考訳) Bongard-OpenWorldは、マシンビジョンのための実世界の数ショット推論を評価するための新しいベンチマークである。 古典的なボナード問題(BP)に由来する: 2つのイメージセット(正と負の)が与えられたモデルでは、クエリイメージが属する集合を正の集合からのみ描写される視覚概念を誘導することによって識別する必要がある。 我々のベンチマークは、最初のBPのいくつかの概念を継承し、新しい2つの課題を追加している。 1)bongard-openworldの視覚概念は,オブジェクトのカテゴリから抽象的な視覚属性,常識的な事実知識まで,オープンボキャブラリから用語のユニークな構成である。 2) 実世界の画像は,多くの対数で使用される合成図と対照的である。 私たちの調査では、bongard-openworldはすでに、現在の少数ショット推論アルゴリズムに重大な課題を課しています。 さらに,最近導入されたLarge Language Models (LLMs) とVision-Language Models (VLMs) が,VLMを直接探索し,VLMとLLMを対話型推論方式で組み合わせることで,その課題をどの程度解決できるかについても検討する。 ボナード問題に対する人間の問題解決過程をエミュレートするために,LLMとVLMを論理的推論で整合させるニューロシンボリック推論手法も考案した。 しかし、最良の学習者は64%の精度を達成し、人間の参加者は91%に到達し易いため、これらのアプローチはいずれも人間と機械のギャップを埋めるには至らなかった。 bongard-openworldは、現在の視覚知能の限界をより深く理解し、より強力な少数ショットの視覚推論能力を持つ視覚エージェントに関する将来の研究を促進するのに役立つことを願っている。

We introduce Bongard-OpenWorld, a new benchmark for evaluating real-world few-shot reasoning for machine vision. It originates from the classical Bongard Problems (BPs): Given two sets of images (positive and negative), the model needs to identify the set that query images belong to by inducing the visual concepts, which is exclusively depicted by images from the positive set. Our benchmark inherits the few-shot concept induction of the original BPs while adding the two novel layers of challenge: 1) open-world free-form concepts, as the visual concepts in Bongard-OpenWorld are unique compositions of terms from an open vocabulary, ranging from object categories to abstract visual attributes and commonsense factual knowledge; 2) real-world images, as opposed to the synthetic diagrams used by many counterparts. In our exploration, Bongard-OpenWorld already imposes a significant challenge to current few-shot reasoning algorithms. We further investigate to which extent the recently introduced Large Language Models (LLMs) and Vision-Language Models (VLMs) can solve our task, by directly probing VLMs, and combining VLMs and LLMs in an interactive reasoning scheme. We even designed a neuro-symbolic reasoning approach that reconciles LLMs & VLMs with logical reasoning to emulate the human problem-solving process for Bongard Problems. However, none of these approaches manage to close the human-machine gap, as the best learner achieves 64% accuracy while human participants easily reach 91%. We hope Bongard-OpenWorld can help us better understand the limitations of current visual intelligence and facilitate future research on visual agents with stronger few-shot visual reasoning capabilities.
翻訳日:2023-10-17 15:28:12 公開日:2023-10-16
# 母親と胎児のリスク要因を理解するための解釈可能な予測モデル

Interpretable Predictive Models to Understand Risk Factors for Maternal and Fetal Outcomes ( http://arxiv.org/abs/2310.10203v1 )

ライセンス: Link先を確認
Tomas M. Bosschieter, Zifei Xu, Hui Lan, Benjamin J. Lengerich, Harsha Nori, Ian Painter, Vivienne Souter, Rich Caruana(参考訳) ほとんどの妊娠は良好な結果をもたらすが、合併症は珍しくなく、母親や赤ちゃんに深刻な影響をもたらす可能性がある。 予測モデリングは、リスク要因の理解を深め、リスクの高い患者に対する監視を強化し、よりタイムリーで適切な介入を行うことによって、結果を改善する可能性を秘めている。 4種類の妊娠合併症の最も重要な危険因子を特定し,検討する。 (i)重度の母性死亡。 (ii)肩ジストシア。 (iii)早産、及び (iv) antepartum stillbirth。 我々は,高精度ガラス箱学習法である説明可能なブースティングマシン(ebm)を用いて,リスク要因の予測と同定を行う。 我々は外部検証を行い,ebmモデルの広範なロバスト性解析を行う。 EBMは、ディープニューラルネットワークやランダムフォレストなどの他のブラックボックスML手法の精度と、より解釈可能なロジスティック回帰よりも優れている。 EBMは堅牢である。 EBMモデルの解釈性は、リスクに寄与する特徴(例えば、母性身長は肩ジストシアの2番目に重要な特徴)に対する驚くべき洞察を示し、妊娠中の重篤な合併症の予測と予防に臨床応用の可能性を秘めている。

Although most pregnancies result in a good outcome, complications are not uncommon and can be associated with serious implications for mothers and babies. Predictive modeling has the potential to improve outcomes through better understanding of risk factors, heightened surveillance for high risk patients, and more timely and appropriate interventions, thereby helping obstetricians deliver better care. We identify and study the most important risk factors for four types of pregnancy complications: (i) severe maternal morbidity, (ii) shoulder dystocia, (iii) preterm preeclampsia, and (iv) antepartum stillbirth. We use an Explainable Boosting Machine (EBM), a high-accuracy glass-box learning method, for prediction and identification of important risk factors. We undertake external validation and perform an extensive robustness analysis of the EBM models. EBMs match the accuracy of other black-box ML methods such as deep neural networks and random forests, and outperform logistic regression, while being more interpretable. EBMs prove to be robust. The interpretability of the EBM models reveals surprising insights into the features contributing to risk (e.g. maternal height is the second most important feature for shoulder dystocia) and may have potential for clinical application in the prediction and prevention of serious complications in pregnancy.
翻訳日:2023-10-17 15:27:40 公開日:2023-10-16
# MoConVQ: スケーラブル離散表現による統一物理に基づく運動制御

MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete Representations ( http://arxiv.org/abs/2310.10198v1 )

ライセンス: Link先を確認
Heyuan Yao, Zhenhua Song, Yuyang Zhou, Tenglong Ao, Baoquan Chen, Libin Liu(参考訳) 本稿では,スケーラブルな離散表現を用いた物理ベースの運動制御のための新しい統一フレームワークであるmoconvqを提案する。 ベクトル量子化変分オートエンコーダ(vq-vae)とモデルに基づく強化学習に基づいて,数万時間の動作例にまたがる大規模非構造化データセットからの動作埋め込みを効果的に学習する。 結果として得られるモーション表現は、多様なモーションスキルをキャプチャするだけでなく、さまざまなアプリケーションに対して堅牢で直感的なインターフェースを提供する。 様々なモーションソースからのユニバーサルトラッキング制御、教師付き学習を用いた潜在モーション表現による対話型文字制御、gptフレームワークを用いた自然言語記述からの物理ベースのモーション生成、そして最も興味深いのは、複雑で抽象的なタスクに取り組むためのコンテキスト内学習を備えた大規模言語モデル(llm)とのシームレスな統合である。

In this work, we present MoConVQ, a novel unified framework for physics-based motion control leveraging scalable discrete representations. Building upon vector quantized variational autoencoders (VQ-VAE) and model-based reinforcement learning, our approach effectively learns motion embeddings from a large, unstructured dataset spanning tens of hours of motion examples. The resultant motion representation not only captures diverse motion skills but also offers a robust and intuitive interface for various applications. We demonstrate the versatility of MoConVQ through several applications: universal tracking control from various motion sources, interactive character control with latent motion representations using supervised learning, physics-based motion generation from natural language descriptions using the GPT framework, and, most interestingly, seamless integration with large language models (LLMs) with in-context learning to tackle complex and abstract tasks.
翻訳日:2023-10-17 15:27:19 公開日:2023-10-16
# ねじれ光モードの純度探索ツールとしての原子光励起

Atomic photoexcitation as a tool for probing purity of twisted light modes ( http://arxiv.org/abs/2310.10197v1 )

ライセンス: Link先を確認
R. P. Schmidt, S. Ramakrishna, A. A. Peshkov, N. Huntemann, E. Peik, S. Fritzsche, A. Surzhykov(参考訳) 現代の原子物理学実験で用いられるねじれ光モードは、平面波放射の小さな混合によって汚染される。 これらの混合物はビーム強度プロファイルにはほとんど現れないが、高精度分光測定の結果に深刻な影響を及ぼす可能性がある。 本研究では,'twisted + plane wave'放射と相互作用する原子やイオンの磁気サブレベル集団の解析に基づいて,このような平面波汚染を診断する方法を提案する。 原子密度行列の時間発展について、理論的に下層集団を研究するために、Louville-von Neumann方程式を解く。 提案法は, 電気双極子5s, {}^{2}\mathrm{S}_{1/2} \, - \, 5p \, {}^{2}\mathrm{P}_{3/2}$ Rb の(直線的, 放射的, あるいは方位的に偏光された)渦光による遷移を, わずかに汚染した状態で示す。 平面波放射の小さな混ざり合いでさえ、地中磁気サブレベルの個体群に顕著な変動をもたらすことが判明した。 これにより、原子分光実験におけるツイスト光の診断の新しい機会が開かれる。

The twisted light modes used in modern atomic physics experiments can be contaminated by small admixtures of plane wave radiation. Although these admixtures hardly reveal themselves in the beam intensity profile, they may seriously affect the outcome of high precision spectroscopy measurements. In the present study we propose a method for diagnosing such a plane wave contamination, which is based on the analysis of the magnetic sublevel population of atoms or ions interacting with the ''twisted + plane wave'' radiation. In order to theoretically investigate the sublevel populations, we solve the Liouville-von Neumann equation for the time evolution of atomic density matrix. The proposed method is illustrated for the electric dipole $5s \, {}^{2}\mathrm{S}_{1/2} \, - \, 5p \, {}^{2}\mathrm{P}_{3/2}$ transition in Rb induced by (linearly, radially, or azimuthally polarized) vortex light with just a small contamination. We find that even tiny admixtures of plane wave radiation can lead to remarkable variations in the populations of the ground-state magnetic sublevels. This opens up new opportunities for diagnostics of twisted light in atomic spectroscopy experiments.
翻訳日:2023-10-17 15:27:02 公開日:2023-10-16
# 時系列と時空間データのための大規模モデル:調査と展望

Large Models for Time Series and Spatio-Temporal Data: A Survey and Outlook ( http://arxiv.org/abs/2310.10196v1 )

ライセンス: Link先を確認
Ming Jin, Qingsong Wen, Yuxuan Liang, Chaoli Zhang, Siqiao Xue, Xue Wang, James Zhang, Yi Wang, Haifeng Chen, Xiaoli Li, Shirui Pan, Vincent S. Tseng, Yu Zheng, Lei Chen, Hui Xiong(参考訳) 時系列データ(特に時系列データと時空間データ)は現実世界で広く使われている。 動的システムの測定をキャプチャし、物理センサーと仮想センサーの両方で大量に生成される。 これらのデータ型を分析することは、それらが含む豊富な情報を活用する上で不可欠である。 大規模言語やその他の基礎モデルの最近の進歩は、時系列や時空間データマイニングにおけるこれらのモデルの利用を加速させてきた。 このような手法は、パターン認識の強化と様々な領域にわたる推論を可能にするだけでなく、一般的な時間データの理解と処理が可能な人工知能の基礎となる。 本研究では,時系列データと時空間データに対応する大規模モデルについて,データ型,モデルカテゴリ,モデルスコープ,アプリケーション領域/タスクという4つの重要なファセットにまたがる包括的かつ最新のレビューを行う。 我々の目的は、この未調査領域における応用とさらなる研究の知識を実践者に与えることである。 本稿では,既存の文献を時系列解析のための大規模モデル (LM4TS) と時空間データマイニング (LM4STD) の2つの主要なクラスタに分類する。 そこで本研究では、モデルスコープ(一般対ドメイン固有)とアプリケーション領域/タスクに基づく研究をさらに分類する。 また、主要なアプリケーションによって分類されたデータセット、モデル資産、有用なツールを含む、関連するリソースの包括的なコレクションも提供します。 この調査は、時系列と時空間データに関する大規模なモデル中心の研究において、基盤、現在の進歩、実践的応用、豊富な資源、そして将来の研究機会を浮き彫りにしている。

Temporal data, notably time series and spatio-temporal data, are prevalent in real-world applications. They capture dynamic system measurements and are produced in vast quantities by both physical and virtual sensors. Analyzing these data types is vital to harnessing the rich information they encompass and thus benefits a wide range of downstream tasks. Recent advances in large language and other foundational models have spurred increased use of these models in time series and spatio-temporal data mining. Such methodologies not only enable enhanced pattern recognition and reasoning across diverse domains but also lay the groundwork for artificial general intelligence capable of comprehending and processing common temporal data. In this survey, we offer a comprehensive and up-to-date review of large models tailored (or adapted) for time series and spatio-temporal data, spanning four key facets: data types, model categories, model scopes, and application areas/tasks. Our objective is to equip practitioners with the knowledge to develop applications and further research in this underexplored domain. We primarily categorize the existing literature into two major clusters: large models for time series analysis (LM4TS) and spatio-temporal data mining (LM4STD). On this basis, we further classify research based on model scopes (i.e., general vs. domain-specific) and application areas/tasks. We also provide a comprehensive collection of pertinent resources, including datasets, model assets, and useful tools, categorized by mainstream applications. This survey coalesces the latest strides in large model-centric research on time series and spatio-temporal data, underscoring the solid foundations, current advances, practical applications, abundant resources, and future research opportunities.
翻訳日:2023-10-17 15:26:39 公開日:2023-10-16
# AdaLomo: 適応学習率による低メモリ最適化

AdaLomo: Low-memory Optimization with Adaptive Learning Rate ( http://arxiv.org/abs/2310.10195v1 )

ライセンス: Link先を確認
Kai Lv, Hang Yan, Qipeng Guo, Haijun Lv, Xipeng Qiu(参考訳) 大規模言語モデルは目覚ましい成功を収めたが、その広範なパラメータサイズはトレーニングにかなりのメモリを必要とするため、高い閾値を設定できる。 最近提案されたlow-memory optimization (lomo)はメモリフットプリントを減少させるが、その最適化技術は確率的勾配降下に似ており、ハイパーパラメータに敏感であり、サブ最適収束を示す。 アダム最適化器の実証分析により、運動量と比較して、適応学習率はギャップを埋める上でより重要であることがわかった。 この知見に基づいて、各パラメータに対して適応学習率を提供する適応学習率(AdaLomo)を用いた低メモリ最適化を導入する。 メモリ効率を維持するため,オプティマイザ状態の2次モーメント推定には非負行列分解を用いる。 さらに,収束を安定化するためにグループ化更新正規化の利用を提案する。 本研究では,AdaLomoがAdamWと同等の結果を得るとともに,メモリ要求を大幅に低減し,大規模言語モデルの学習におけるハードウェア障壁を低くすることを示す。

Large language models have achieved remarkable success, but their extensive parameter size necessitates substantial memory for training, thereby setting a high threshold. While the recently proposed low-memory optimization (LOMO) reduces memory footprint, its optimization technique, akin to stochastic gradient descent, is sensitive to hyper-parameters and exhibits suboptimal convergence, failing to match the performance of the prevailing optimizer for large language models, AdamW. Through empirical analysis of the Adam optimizer, we found that, compared to momentum, the adaptive learning rate is more critical for bridging the gap. Building on this insight, we introduce the low-memory optimization with adaptive learning rate (AdaLomo), which offers an adaptive learning rate for each parameter. To maintain memory efficiency, we employ non-negative matrix factorization for the second-order moment estimation in the optimizer state. Additionally, we suggest the use of a grouped update normalization to stabilize convergence. Our experiments with instruction-tuning and further pre-training demonstrate that AdaLomo achieves results on par with AdamW, while significantly reducing memory requirements, thereby lowering the hardware barrier to training large language models.
翻訳日:2023-10-17 15:26:10 公開日:2023-10-16
# ボーアの対応原理はハンケルの永続原理にすぎないか?

Is Bohr's Correspondence Principle just Hankel's Principle of Permanence? ( http://arxiv.org/abs/2310.10192v1 )

ライセンス: Link先を確認
Iulian D. Toader(参考訳) いいえ、しかし論文は、ボーアが彼の対応原理、あるいは少なくとも合理的一般化の概念によって表現されたその原理の側面を、ハンケルの永続性原理に基礎を置き、新しい歴史的・理論的文脈に適応していると論じている。 これは、ボーアの量子論へのアプローチの他の不明瞭な側面と、フェイヤーベントとボームによるこのアプローチに対する一見奇妙な批判を照らすことが示されている。

No, but the paper argues that Bohr understood his correspondence principle, or at least an aspect of that principle expressed by the notion of rational generalization, as grounded in Hankel's principle of permanence, adapted to new historical and theoretical contexts. This is shown to illuminate some otherwise obscure aspects of Bohr's approach to quantum theory, as well as a seemingly strange criticism against this approach, due to Feyerabend and Bohm.
翻訳日:2023-10-17 15:25:48 公開日:2023-10-16
# vibe: twitter分類のためのトピック駆動時間適応

VIBE: Topic-Driven Temporal Adaptation for Twitter Classification ( http://arxiv.org/abs/2310.10191v1 )

ライセンス: Link先を確認
Yuji Zhang, Jing Li, Wenjie Li(参考訳) 言語機能は現実世界のソーシャルメディアで進化しており、ダイナミックスにおけるテキスト分類のパフォーマンスが低下している。 この課題に対処するために、過去のデータに基づいてトレーニングされたモデルが将来テストされる時間適応について研究する。 以前のほとんどの作業は、事前トレーニングや知識更新の継続に重点を置いており、騒がしいソーシャルメディアデータでのパフォーマンスを損なう可能性がある。 この問題に取り組むために,潜在トピック進化のモデル化を通じて特徴変化を反映し,新しいモデルであるvibe: variational information bottleneck for evolutionsを提案する。 具体的には、まず2つのInformation Bottleneck(IB)レギュレータを使用し、過去と将来のトピックを区別する。 次に,タイムスタンプとクラスラベル予測を用いたマルチタスクトレーニングによる適応機能として機能する。 適応学習では、VIBEは、後進的に生成されたオンラインストリームから取得した未ラベルデータをトレーニングデータ時間に利用する。 twitterによる3つの分類タスクの実験では、データのわずか3%のモデルが、これまでの最先端のトレーニング方法を大きく上回っていることが分かりました。

Language features are evolving in real-world social media, resulting in the deteriorating performance of text classification in dynamics. To address this challenge, we study temporal adaptation, where models trained on past data are tested in the future. Most prior work focused on continued pretraining or knowledge updating, which may compromise their performance on noisy social media data. To tackle this issue, we reflect feature change via modeling latent topic evolution and propose a novel model, VIBE: Variational Information Bottleneck for Evolutions. Concretely, we first employ two Information Bottleneck (IB) regularizers to distinguish past and future topics. Then, the distinguished topics work as adaptive features via multi-task training with timestamp and class label prediction. In adaptive learning, VIBE utilizes retrieved unlabeled data from online streams created posterior to training data time. Substantial Twitter experiments on three classification tasks show that our model, with only 3% of data, significantly outperforms previous state-of-the-art continued-pretraining methods.
翻訳日:2023-10-17 15:25:37 公開日:2023-10-16
# 多目的ナビゲーションのための深層強化学習におけるトポロジマップの活用

Leveraging Topological Maps in Deep Reinforcement Learning for Multi-Object Navigation ( http://arxiv.org/abs/2310.10250v1 )

ライセンス: Link先を確認
Simon Hakenes, Tobias Glasmachers(参考訳) この研究は、Reinforcement Learning (RL)を通じて、スパース報酬で拡張空間をナビゲートするという課題に対処する。 トポロジカルマップを用いて、基本動作をオブジェクト指向マクロアクションに高め、単純な深層Q-Network (DQN) エージェントが事実上不可能な環境を解決できるようにする。

This work addresses the challenge of navigating expansive spaces with sparse rewards through Reinforcement Learning (RL). Using topological maps, we elevate elementary actions to object-oriented macro actions, enabling a simple Deep Q-Network (DQN) agent to solve otherwise practically impossible environments.
翻訳日:2023-10-17 15:19:36 公開日:2023-10-16
# 外部トラッカを伴わない自由手超音波3次元再構成の長期的依存性

Long-term Dependency for 3D Reconstruction of Freehand Ultrasound Without External Tracker ( http://arxiv.org/abs/2310.10248v1 )

ライセンス: Link先を確認
Qi Li, Ziyi Shen, Qian Li, Dean C. Barratt, Thomas Dowrick, Matthew J. Clarkson, Tom Vercauteren, and Yipeng Hu(参考訳) 目的: 外部トラッカーを使わずに3Dで手指超音波を再建することは, 長年の課題である。 我々は、長期依存をパラメータ化するための新しい方法を定義し、性能を評価することを目的とする。 メソッド: まず、長期的な依存関係はフレームシーケンス内の変換位置によってエンコードされる。 これはシーケンスモデルとマルチトランスフォーメーション予測を組み合わせることによって達成される。 第2に、正確な再構成に寄与する2つの依存性因子、解剖学的画像内容と走査プロトコルを提案する。 各因子は、各トレーニング分散を減らして実験的に定量化される。 結果 1) 最大400フレーム/秒 (fps) の長期依存を追加することで, 再現性が向上し, ベースライン性能と比較して82.4%の累積誤差が減少した。 この改善は、シーケンス長、変換間隔、走査プロトコルに依存しており、予期せぬことに、長期間のモジュールを持つリカレントネットワークの使用に依存しないことが判明した。 2) 訓練における解剖学的・プロトコル的差異の低減は, 再建精度の低下につながった。 興味深いことに、一般的な解剖学的特徴よりも、代表的なプロトコルパターンからパフォーマンスが向上した。 結論: 提案アルゴリズムは, 長期依存を効果的に活用するためにハイパーパラメータチューニングを用いる。 提案する依存性因子は,多様なトレーニングデータの収集,スキャニングプロトコルの調整,効率的なネットワーク構築において実用上重要である。 意義: 提案手法は, 長期依存をパラメータとして公開可能なボランティアデータとコードを持つもので, 性能向上の有効な源として実験的に示されており, モデル開発やレコンストラクションアプリケーションの実用的な最適化に繋がる可能性がある。

Objective: Reconstructing freehand ultrasound in 3D without any external tracker has been a long-standing challenge in ultrasound-assisted procedures. We aim to define new ways of parameterising long-term dependencies, and evaluate the performance. Methods: First, long-term dependency is encoded by transformation positions within a frame sequence. This is achieved by combining a sequence model with a multi-transformation prediction. Second, two dependency factors are proposed, anatomical image content and scanning protocol, for contributing towards accurate reconstruction. Each factor is quantified experimentally by reducing respective training variances. Results: 1) The added long-term dependency up to 400 frames at 20 frames per second (fps) indeed improved reconstruction, with an up to 82.4% lowered accumulated error, compared with the baseline performance. The improvement was found to be dependent on sequence length, transformation interval and scanning protocol and, unexpectedly, not on the use of recurrent networks with long-short term modules; 2) Decreasing either anatomical or protocol variance in training led to poorer reconstruction accuracy. Interestingly, greater performance was gained from representative protocol patterns, than from representative anatomical features. Conclusion: The proposed algorithm uses hyperparameter tuning to effectively utilise long-term dependency. The proposed dependency factors are of practical significance in collecting diverse training data, regulating scanning protocols and developing efficient networks. Significance: The proposed new methodology with publicly available volunteer data and code for parametersing the long-term dependency, experimentally shown to be valid sources of performance improvement, which could potentially lead to better model development and practical optimisation of the reconstruction application.
翻訳日:2023-10-17 15:19:28 公開日:2023-10-16
# 改良型YOLOv5に基づくマスク着用物体検出アルゴリズム

Mask wearing object detection algorithm based on improved YOLOv5 ( http://arxiv.org/abs/2310.10245v1 )

ライセンス: Link先を確認
Peng Wen, Junhu Zhang, Haitao Li(参考訳) マスクを着用することは感染症を防ぐ重要な手段の1つである。 しかし,交通量の多い公共の場でマスク着用状況を検出することは困難である。 そこで本研究では, YOLOv5lに基づくマスク着用顔検出モデルを提案する。 第一に、マルチヘッド注意自己畳み込みはモデルの収束速度を改善するだけでなく、モデル検出の精度を高める。 次に、Swin Transformer Blockの導入により、より有用な特徴情報を抽出し、小さなターゲットの検出能力を高め、モデルの全体的な精度を向上させることができる。 設計したI-CBAMモジュールは目標検出精度を向上させることができる。 さらに、拡張された機能融合を使用することで、モデルは異なるスケールのオブジェクト検出タスクにより適応することができる。 MASKデータセットを用いた実験の結果,本論文で提案したモデルでは,mAP(0.5)が1.1%,mAP(0.5:0.95)が1.3%向上した。 提案手法はマスク着用の検出能力を大幅に向上させる。

Wearing a mask is one of the important measures to prevent infectious diseases. However, it is difficult to detect people's mask-wearing situation in public places with high traffic flow. To address the above problem, this paper proposes a mask-wearing face detection model based on YOLOv5l. Firstly, Multi-Head Attentional Self-Convolution not only improves the convergence speed of the model but also enhances the accuracy of the model detection. Secondly, the introduction of Swin Transformer Block is able to extract more useful feature information, enhance the detection ability of small targets, and improve the overall accuracy of the model. Our designed I-CBAM module can improve target detection accuracy. In addition, using enhanced feature fusion enables the model to better adapt to object detection tasks of different scales. In the experimentation on the MASK dataset, the results show that the model proposed in this paper achieved a 1.1% improvement in mAP(0.5) and a 1.3% improvement in mAP(0.5:0.95) compared to the YOLOv5l model. Our proposed method significantly enhances the detection capability of mask-wearing.
翻訳日:2023-10-17 15:19:03 公開日:2023-10-16
# 混合と神経批判--微細分布の点的相互情報プロファイルについて

The Mixtures and the Neural Critics: On the Pointwise Mutual Information Profiles of Fine Distributions ( http://arxiv.org/abs/2310.10240v1 )

ライセンス: Link先を確認
Pawe{\l} Czy\.z, Frederic Grabowski, Julia E. Vogt, Niko Beerenwinkel, Alexander Marx(参考訳) 相互情報は2つの確率変数間の依存を定量化し、微分同相の下では不変である。 本稿では,この不変性を維持する相互情報の拡張であるpointwise mutual information profileについて検討する。 我々は多変量正規分布のプロファイルを解析的に記述し、モンテカルロ法を用いてそのプロファイルを正確に近似できる微分布の族を導入する。 次に,既存の相互情報推定器の限界,変動推定器で使用される神経批判者の行動,実験的外れ値が相互情報推定に与える影響を理解するために,きめの細かい分布を用いた方法を示す。 最後に,不確実性定量化が必要な領域の専門知識問題に適した相互情報のモデルベースベイズ推定を得るために,細かな分布がいかに用いられるかを示す。

Mutual information quantifies the dependence between two random variables and remains invariant under diffeomorphisms. In this paper, we explore the pointwise mutual information profile, an extension of mutual information that maintains this invariance. We analytically describe the profiles of multivariate normal distributions and introduce the family of fine distributions, for which the profile can be accurately approximated using Monte Carlo methods. We then show how fine distributions can be used to study the limitations of existing mutual information estimators, investigate the behavior of neural critics used in variational estimators, and understand the effect of experimental outliers on mutual information estimation. Finally, we show how fine distributions can be used to obtain model-based Bayesian estimates of mutual information, suitable for problems with available domain expertise in which uncertainty quantification is necessary.
翻訳日:2023-10-17 15:18:45 公開日:2023-10-16
# 非ガウスDAGの構造伝達学習

Structural transfer learning of non-Gaussian DAG ( http://arxiv.org/abs/2310.10239v1 )

ライセンス: Link先を確認
Mingyang Ren, Xin He, Junhui Wang(参考訳) 直接非巡回グラフ(DAG)は、収集されたノードの集合間の方向関係を表現するために広く用いられている。 しかし、1つの研究で利用可能なデータは正確なDAG再構成に限られることが多いが、異種データは複数の研究から収集されることがある。 対象研究において、DAG構造を再構築するために異種データをまとめる方法については、未解決の問題が残る。 本稿ではまず,DAGの構造的類似度尺度を新たに導入し,異なる類似度レベルを持つ補助DAGからの情報を効果的に活用して伝達DAG学習フレームワークを提案する。 提案法は,DAGが対象DAGと総合的に類似していない場合でも,対象研究におけるDAG再建の点において,大幅な改善が見られた。 提案手法の利点は、合成データと多地点脳機能接続ネットワークデータの両方に関する広範な数値実験によっても支持される。

Directed acyclic graph (DAG) has been widely employed to represent directional relationships among a set of collected nodes. Yet, the available data in one single study is often limited for accurate DAG reconstruction, whereas heterogeneous data may be collected from multiple relevant studies. It remains an open question how to pool the heterogeneous data together for better DAG structure reconstruction in the target study. In this paper, we first introduce a novel set of structural similarity measures for DAG and then present a transfer DAG learning framework by effectively leveraging information from auxiliary DAGs of different levels of similarities. Our theoretical analysis shows substantial improvement in terms of DAG reconstruction in the target study, even when no auxiliary DAG is overall similar to the target DAG, which is in sharp contrast to most existing transfer learning methods. The advantage of the proposed transfer DAG learning is also supported by extensive numerical experiments on both synthetic data and multi-site brain functional connectivity network data.
翻訳日:2023-10-17 15:18:30 公開日:2023-10-16
# SGOOD: サブストラクチャ強化グラフレベルアウトオブディストリビューション検出

SGOOD: Substructure-enhanced Graph-Level Out-of-Distribution Detection ( http://arxiv.org/abs/2310.10237v1 )

ライセンス: Link先を確認
Zhihao Ding and Jieming Shi(参考訳) グラフレベルの表現学習は幅広いアプリケーションにおいて重要である。 しかし、既存のグラフレベルモデルは一般に、トレーニングとテストの両方のグラフの仮定に基づいて構築されており、これはオープンな世界では現実的ではない。 信頼できるモデルは、IDデータに対する正確な予測を生成するだけでなく、信頼できない予測を避けるためにOODグラフを検出する必要がある。 本稿では,新しいグラフレベルのOOD検出フレームワークであるSGOODを提案する。 ID グラフと OOD グラフの間には,構造的な違いがよく見られる。 したがって、SGOODは明らかにサブ構造を利用して、優れたパフォーマンスを達成するために強力な表現を学ぶ。 具体的には、各グラフの下位構造のスーパーグラフを構築し、元のグラフとスーパーグラフの両方で動作する2レベルグラフエンコーディングパイプラインを設計して、サブ構造強調グラフ表現を得る。 さらにIDとOODグラフを区別するために,部分構造を保存し表現性を高める3つのグラフ拡張手法を開発した。 多数のグラフデータセット上の10の競合相手に対する大規模な実験は、SGOODの優位性を実証している。 コードはhttps://anonymous.4open.science/r/sgood-0958で入手できる。

Graph-level representation learning is important in a wide range of applications. However, existing graph-level models are generally built on i.i.d. assumption for both training and testing graphs, which is not realistic in an open world, where models can encounter out-of-distribution (OOD) testing graphs that are from different distributions unknown during training. A trustworthy model should not only produce accurate predictions for in-distribution (ID) data, but also detect OOD graphs to avoid unreliable prediction. In this paper, we present SGOOD, a novel graph-level OOD detection framework. We find that substructure differences commonly exist between ID and OOD graphs. Hence, SGOOD explicitly utilizes substructures to learn powerful representations to achieve superior performance. Specifically, we build a super graph of substructures for every graph, and design a two-level graph encoding pipeline that works on both original graphs and super graphs to obtain substructure-enhanced graph representations. To further distinguish ID and OOD graphs, we develop three graph augmentation techniques that preserve substructures and increase expressiveness. Extensive experiments against 10 competitors on numerous graph datasets demonstrate the superiority of SGOOD, often surpassing existing methods by a significant margin. The code is available at https://anonymous.4open.science/r/SGOOD-0958.
翻訳日:2023-10-17 15:18:14 公開日:2023-10-16
# 繰り返しの繰り返し:データの観点からのニューラルテキストのデジェネレーション理解に向けて

Repetition In Repetition Out: Towards Understanding Neural Text Degeneration from the Data Perspective ( http://arxiv.org/abs/2310.10226v1 )

ライセンス: Link先を確認
Huayang Li, Tian Lan, Zihao Fu, Deng Cai, Lemao Liu, Nigel Collier, Taro Watanabe, Yixuan Su(参考訳) ニューラルテキストの変性問題、すなわち反復ループと鈍いループの生成について多くの仮説が分かれているため、この問題は興味深く紛らわしいものになっている。 本研究では,データの観点からの素直かつ基本的な説明を提供することで,理解を深めることを目指している。 予備調査では, 退化問題とトレーニングデータにおける反復の有無との間に強い相関が認められた。 その後の実験では、訓練データにおける反復語への注意を選択的に取り除くことにより、変性を著しく最小化できることを示した。 さらに,本研究では, 高流入語, 可能性目標, 自己強化現象など, 様々な観点からの劣化問題に対処する先行研究を, 1つの簡単な説明で解釈できることを示す。 つまり、トレーニングデータの繰り返しを罰することは、その有効性に共通かつ基本的な要素である。 また,学習データの繰り返しをペナルティ化することは,モデルサイズや命令チューニングを大きくしても重要な問題であることを明らかにした。

There are a number of diverging hypotheses about the neural text degeneration problem, i.e., generating repetitive and dull loops, which makes this problem both interesting and confusing. In this work, we aim to advance our understanding by presenting a straightforward and fundamental explanation from the data perspective. Our preliminary investigation reveals a strong correlation between the degeneration issue and the presence of repetitions in training data. Subsequent experiments also demonstrate that by selectively dropping out the attention to repetitive words in training data, degeneration can be significantly minimized. Furthermore, our empirical analysis illustrates that prior works addressing the degeneration issue from various standpoints, such as the high-inflow words, the likelihood objective, and the self-reinforcement phenomenon, can be interpreted by one simple explanation. That is, penalizing the repetitions in training data is a common and fundamental factor for their effectiveness. Moreover, our experiments reveal that penalizing the repetitions in training data remains critical even when considering larger model sizes and instruction tuning.
翻訳日:2023-10-17 15:17:54 公開日:2023-10-16
# 四元ウェーブレットネットワークによる医用画像表現の一般化

Generalizing Medical Image Representations via Quaternion Wavelet Networks ( http://arxiv.org/abs/2310.10224v1 )

ライセンス: Link先を確認
Luigi Sigillo, Eleonora Grassucci, Aurelio Uncini, Danilo Comminiello(参考訳) ニューラルネットワークの汎用性は、異なるソースからのデータセットとさまざまなタスクの可用性の増加により、幅広い研究分野になりつつある。 この問題は、メソジカルな基準の欠如が、異なるイメージングセンターによって提供されたり、様々なデバイスやコーファクターで取得されたりする、医療データの処理においてさらに広い。 これらの制約を克服するために,医療画像から健全な特徴を抽出できる,新しい,一般化可能な,データに依存しないフレームワークを導入する。 提案する四分法ウェーブレットネットワーク (quave) は, 既存の医用画像解析や合成タスクと容易に統合でき, 実, 四分法, またはハイパーコンプレックス値モデルと関わり, 単一チャネルデータへの採用を一般化することができる。 quaveはまず四元数ウェーブレット変換を通じて異なるサブバンドを抽出し、低周波/近似帯域と高周波/細粒度特性の両方をもたらす。 次に、画像処理のための他の神経モデルへの入力として、最も代表的なサブバンドのセットを重み付け、標準データサンプルを置き換える。 異なるデータセット、多様な画像解析、再構成、セグメンテーション、モダリティ翻訳を含む合成タスクを含む広範な実験的評価を行う。 また,実および四元価値モデルと組み合わせてクエーブを評価する。 提案手法の有効性と汎用性を実証し, ネットワーク性能を向上し, 多様体シナリオに柔軟に適用できることを示した。

Neural network generalizability is becoming a broad research field due to the increasing availability of datasets from different sources and for various tasks. This issue is even wider when processing medical data, where a lack of methodological standards causes large variations being provided by different imaging centers or acquired with various devices and cofactors. To overcome these limitations, we introduce a novel, generalizable, data- and task-agnostic framework able to extract salient features from medical images. The proposed quaternion wavelet network (QUAVE) can be easily integrated with any pre-existing medical image analysis or synthesis task, and it can be involved with real, quaternion, or hypercomplex-valued models, generalizing their adoption to single-channel data. QUAVE first extracts different sub-bands through the quaternion wavelet transform, resulting in both low-frequency/approximation bands and high-frequency/fine-grained features. Then, it weighs the most representative set of sub-bands to be involved as input to any other neural model for image processing, replacing standard data samples. We conduct an extensive experimental evaluation comprising different datasets, diverse image analysis, and synthesis tasks including reconstruction, segmentation, and modality translation. We also evaluate QUAVE in combination with both real and quaternion-valued models. Results demonstrate the effectiveness and the generalizability of the proposed framework that improves network performance while being flexible to be adopted in manifold scenarios.
翻訳日:2023-10-17 15:17:35 公開日:2023-10-16
# RoboLLM:マルチモーダル大規模言語モデルに基づくロボットビジョンタスク

RoboLLM: Robotic Vision Tasks Grounded on Multimodal Large Language Models ( http://arxiv.org/abs/2310.10221v1 )

ライセンス: Link先を確認
Zijun Long and George Killick and Richard McCreadie and Gerardo Aragon Camarasa(参考訳) ロボットビジョンアプリケーションは、オブジェクトの検出、セグメンテーション、識別など、幅広い視覚的タスクを必要とすることが多い。 これらの個々のタスクにはかなりの進歩があったが、特殊モデルを統一されたビジョンパイプラインに統合することは、重要なエンジニアリング上の課題とコストをもたらす。 近年,マルチモーダル大規模言語モデル (MLLM) が下流タスクの新しいバックボーンとして登場している。 MLLMの事前学習機能を利用することで、単純化されたフレームワークの作成が可能であり、タスク固有のエンコーダの必要性を軽減できると主張している。 具体的には、MLLMの大規模事前訓練された知識により、下流のロボットビジョンタスクの微調整が容易になり、優れたパフォーマンスが得られる。 我々は,実世界の倉庫シナリオに関する大規模ロボット操作データセットであるARMBench Challengeにおける視覚知覚タスクに,BEiT-3バックボーンを備えたRoboLLMフレームワークを導入する。 RoboLLMは既存のベースラインを上回るだけでなく、モデル選択やチューニングに関連するエンジニアリングの負担を大幅に削減する。 ソースコードはhttps://github.com/longkukuhi/armbenchで公開されている。

Robotic vision applications often necessitate a wide range of visual perception tasks, such as object detection, segmentation, and identification. While there have been substantial advances in these individual tasks, integrating specialized models into a unified vision pipeline presents significant engineering challenges and costs. Recently, Multimodal Large Language Models (MLLMs) have emerged as novel backbones for various downstream tasks. We argue that leveraging the pre-training capabilities of MLLMs enables the creation of a simplified framework, thus mitigating the need for task-specific encoders. Specifically, the large-scale pretrained knowledge in MLLMs allows for easier fine-tuning to downstream robotic vision tasks and yields superior performance. We introduce the RoboLLM framework, equipped with a BEiT-3 backbone, to address all visual perception tasks in the ARMBench challenge-a large-scale robotic manipulation dataset about real-world warehouse scenarios. RoboLLM not only outperforms existing baselines but also substantially reduces the engineering burden associated with model selection and tuning. The source code is publicly available at https://github.com/longkukuhi/armbench.
翻訳日:2023-10-17 15:17:08 公開日:2023-10-16
# グローバルランドカバー製品を用いたビジュアルファウンデーションモデルによる作物マッピング

Using Global Land Cover Product as Prompt for Cropland Mapping via Visual Foundation Model ( http://arxiv.org/abs/2310.10219v1 )

ライセンス: Link先を確認
Chao Tao, Aoran Hu, Rong Xiao, Haifeng Li, and Yuze Wang(参考訳) データ駆動型ディープラーニング手法は、農地マッピングに大きな可能性を示している。 しかし、土地特性(地形、気候、作物の種類)や画像条件(視野角、照明、スケール)など多彩な要因により、異なる場面の耕作地は大きな領域間隙を示す。 これにより、特定のシーンで訓練されたモデルが他のシーンに直接一般化することが困難になる。 この問題に対処する一般的な方法は、"Pretrain+Fine-tuning"パラダイムである。 残念なことに、複数の要因によって影響を受ける農地の多様な特徴を考慮すると、事前訓練されたデータとターゲットデータの間の複雑なドメイン間ギャップを一般的な制約としてスパース微調整されたサンプルのみを使用して処理することはほとんどない。 さらに、モデルパラメータの数が増えるにつれて、微調整はもはや簡単で低コストなタスクではない。 視覚基礎モデルによるプロンプト学習の出現に伴い、"Pretrain+Prompting"パラダイムは、各サンプルに対して個別のプロンプトを導入することで最適化対象を再設計する。 これにより、モデル推論プロセス中のジェネリックから特定のシーンへのドメイン適応が簡単になる。 そこで我々は,農地の景観を解釈する「プレトレイン+プロンプティング(Pretrain+Prompting)」パラダイムを導入し,自由なグローバルな土地被覆製品に基づく自動プロンプティング(APT)手法を設計する。 追加のラベルコストを導入することなく、ジェネリックなシーンから特別な作物のシーンへの細かな適応プロセスを実現することができる。 我々の知る限り、この研究は素早い学習視点の下での農地マッピングのための領域適応問題の探索の先駆けとなった。 中国南部と北部の2つの亜メートルの農地データセットを用いた実験では、視覚基盤モデルによる提案手法が、リモートセンシングの分野で従来の教師付き学習や微調整アプローチよりも優れていることを示した。

Data-driven deep learning methods have shown great potential in cropland mapping. However, due to multiple factors such as attributes of cropland (topography, climate, crop type) and imaging conditions (viewing angle, illumination, scale), croplands under different scenes demonstrate a great domain gap. This makes it difficult for models trained in the specific scenes to directly generalize to other scenes. A common way to handle this problem is through the "Pretrain+Fine-tuning" paradigm. Unfortunately, considering the variety of features of cropland that are affected by multiple factors, it is hardly to handle the complex domain gap between pre-trained data and target data using only sparse fine-tuned samples as general constraints. Moreover, as the number of model parameters grows, fine-tuning is no longer an easy and low-cost task. With the emergence of prompt learning via visual foundation models, the "Pretrain+Prompting" paradigm redesigns the optimization target by introducing individual prompts for each single sample. This simplifies the domain adaption from generic to specific scenes during model reasoning processes. Therefore, we introduce the "Pretrain+Prompting" paradigm to interpreting cropland scenes and design the auto-prompting (APT) method based on freely available global land cover product. It can achieve a fine-grained adaptation process from generic scenes to specialized cropland scenes without introducing additional label costs. To our best knowledge, this work pioneers the exploration of the domain adaption problems for cropland mapping under prompt learning perspectives. Our experiments using two sub-meter cropland datasets from southern and northern China demonstrated that the proposed method via visual foundation models outperforms traditional supervised learning and fine-tuning approaches in the field of remote sensing.
翻訳日:2023-10-17 15:16:50 公開日:2023-10-16
# 量子誤差変換

Quantum Error Transmutation ( http://arxiv.org/abs/2310.10278v1 )

ライセンス: Link先を確認
Daniel Zhang, Toby Cubitt(参考訳) 我々は、量子コンピュータのヒルベルト空間上の物理誤差の集合を正確に識別し、修正すべきという要求を緩和し、その代わりに、コード空間上の既定許容誤差の集合への回復を可能にする量子エラー補正の一般化を導入する。 量子エラー変換コードと呼んでいます ノイズ量子システムのシミュレーションや、特定のキャラクタのエラーに対して本質的にロバストなアルゴリズムでの使用には特に関心がある。 Knill-Laflamme量子誤り訂正条件を一般化し、物理および許容誤差の集合に対する必要かつ十分な代数的条件を導出する。 フェミオンエンコーディングを含む既存のコードの中には、エラーを許容可能なエラーの興味深いクラスに変換する性質があることを示す。 さらに、低ビットおよび翻訳不変例を含むいくつかの新しい符号の存在について報告する。

We introduce a generalisation of quantum error correction, relaxing the requirement that a code should identify and correct a set of physical errors on the Hilbert space of a quantum computer exactly, instead allowing recovery up to a pre-specified admissible set of errors on the code space. We call these quantum error transmuting codes. They are of particular interest for the simulation of noisy quantum systems, and for use in algorithms inherently robust to errors of a particular character. Necessary and sufficient algebraic conditions on the set of physical and admissible errors for error transmutation are derived, generalising the Knill-Laflamme quantum error correction conditions. We demonstrate how some existing codes, including fermionic encodings, have error transmuting properties to interesting classes of admissible errors. Additionally, we report on the existence of some new codes, including low-qubit and translation invariant examples.
翻訳日:2023-10-17 15:08:43 公開日:2023-10-16
# no compromise in solution quality:adaptive multilevel simplificationによる信念依存型連続pomdpの高速化

No Compromise in Solution Quality: Speeding Up Belief-dependent Continuous POMDPs via Adaptive Multilevel Simplification ( http://arxiv.org/abs/2310.10274v1 )

ライセンス: Link先を確認
Andrey Zhitnikov, Ori Sztyglic, Vadim Indelman(参考訳) 一般的な信念に依存した報酬を持つ継続的POMDPは、オンラインで解決するのが非常に難しい。 本稿では,探索手法を用いてハエの信念木を構成する任意の外部構成の信念木とmctsの設定のための適応的多レベル単純化の完全証明可能な理論を提案する。 提案理論は,得られたソリューションの品質を犠牲にすることなく,信念に依存した報酬でpomdp計画を促進する。 提案する統一理論において,各理論の主張を厳密に証明する。 一般的な理論結果を用いて,連続pomdpオンラインプランニングを,信念に依存した報酬で高速化する3つのアルゴリズムを提案する。 我々の2つのアルゴリズムである SITH-BSP と LAZY-SITH-BSP は、外部に信仰木を構築する方法の上に利用することができる。 第3のアルゴリズムであるSITH-PFTは、任意の探査手法をプラグインできる任意のMCTS法である。 すべてのメソッドは、単純化されていない等価値と全く同じ最適なアクションを返すことが保証されます。 本稿では,情報理論的な報酬の費用対効果を,本論文で導出する新しい適応的上下界と下界に置き換える。 計算が簡単であり,アルゴリズムの要求に応じて厳格化できることが示される。 我々のアプローチは一般に、報酬に単調に収束する任意の境界は容易にプラグインでき、性能を損なうことなく大幅なスピードアップが達成できる。 我々の理論とアルゴリズムは、連続状態、行動、観察の困難な設定をサポートする。 信念はパラメトリックまたは一般であり、重み付き粒子で表される。 シミュレーションでは,同一性能が保証されたベースラインアプローチと比較して,計画の大幅な高速化を示す。

Continuous POMDPs with general belief-dependent rewards are notoriously difficult to solve online. In this paper, we present a complete provable theory of adaptive multilevel simplification for the setting of a given externally constructed belief tree and MCTS that constructs the belief tree on the fly using an exploration technique. Our theory allows to accelerate POMDP planning with belief-dependent rewards without any sacrifice in the quality of the obtained solution. We rigorously prove each theoretical claim in the proposed unified theory. Using the general theoretical results, we present three algorithms to accelerate continuous POMDP online planning with belief-dependent rewards. Our two algorithms, SITH-BSP and LAZY-SITH-BSP, can be utilized on top of any method that constructs a belief tree externally. The third algorithm, SITH-PFT, is an anytime MCTS method that permits to plug-in any exploration technique. All our methods are guaranteed to return exactly the same optimal action as their unsimplified equivalents. We replace the costly computation of information-theoretic rewards with novel adaptive upper and lower bounds which we derive in this paper, and are of independent interest. We show that they are easy to calculate and can be tightened by the demand of our algorithms. Our approach is general; namely, any bounds that monotonically converge to the reward can be easily plugged-in to achieve significant speedup without any loss in performance. Our theory and algorithms support the challenging setting of continuous states, actions, and observations. The beliefs can be parametric or general and represented by weighted particles. We demonstrate in simulation a significant speedup in planning compared to baseline approaches with guaranteed identical performance.
翻訳日:2023-10-17 15:08:13 公開日:2023-10-16
# PicPayにおけるハイブリッドレコメンダシステムによる金融サービス促進の再考

Rethinking Financial Service Promotion With Hybrid Recommender Systems at PicPay ( http://arxiv.org/abs/2310.10268v1 )

ライセンス: Link先を確認
Gabriel Mendon\c{c}a (Federal University of Rio de Janeiro), Matheus Santos (PicPay), Andr\'e Gon\c{c}alves (PicPay), Yan Almeida (PicPay)(参考訳) フィンテックのPicPayは、3000万人の月間アクティブユーザーに対して幅広い金融サービスを提供しており、PicPayモバイルアプリには5000万以上のアイテムが推奨されている。 このシナリオでは、企業にとって戦略的である特定のアイテムを促進することは非常に困難です。 本研究では,2つのアルゴリズムを組み合わせて,ユーザの体験に悪影響を及ぼすことなく効果的に商品を宣伝するスイッチングハイブリッドレコメンダシステムを提案する。 A/Bテストの結果は、デフォルトのレコメンデーション戦略と比較して最大3.2\%上昇している。

The fintech PicPay offers a wide range of financial services to its 30 million monthly active users, with more than 50 thousand items recommended in the PicPay mobile app. In this scenario, promoting specific items that are strategic to the company can be very challenging. In this work, we present a Switching Hybrid Recommender System that combines two algorithms to effectively promote items without negatively impacting the user's experience. The results of our A/B tests show an uplift of up to 3.2\% when compared to a default recommendation strategy.
翻訳日:2023-10-17 15:07:46 公開日:2023-10-16
# 文脈内学習のための生成キャリブレーション

Generative Calibration for In-context Learning ( http://arxiv.org/abs/2310.10266v1 )

ライセンス: Link先を確認
Zhongtao Jiang, Yuanzhe Zhang, Cao Liu, Jun Zhao, Kang Liu(参考訳) 大規模言語モデル(llm)の最もエキサイティングな特徴の1つとして、コンテキスト内学習は混合祝福である。 ユーザはいくつかのトレーニング例でタスクソルバを高速プロトタイプ化できるが、そのパフォーマンスは一般的に、トレーニング例の選択や順序など、プロンプトのさまざまな構成に敏感である。 本稿では,このようなパラドックスを理論上,経験的に初めて同定した。このパラドックスは,llms が適切なラベル条件値 $p(x|y)$ を持ちながら,限界値 $p(y)$ をシフトするデータ分布へのインコンテキストモデルのラベルシフトに起因する。 この理解により,ラベル境界をモンテカルロ法で推定し,文脈内モデル,すなわちLLMの生成を補正することで,文脈内予測分布のキャリブレーションを簡便に行うことができる。 私たちはこのアプローチをジェネレーティブキャリブレーションと呼んでいる。 12のテキスト分類タスクと12のllmスケーリングを774mから33bに拡張して徹底的な実験を行い,提案手法がマクロf1において最大27%の絶対値で icl と最先端のキャリブレーション手法を圧倒的に上回っていることを発見した。 一方,提案手法は,異なるプロンプト構成下でも安定である。

As one of the most exciting features of large language models (LLMs), in-context learning is a mixed blessing. While it allows users to fast-prototype a task solver with only a few training examples, the performance is generally sensitive to various configurations of the prompt such as the choice or order of the training examples. In this paper, we for the first time theoretically and empirically identify that such a paradox is mainly due to the label shift of the in-context model to the data distribution, in which LLMs shift the label marginal $p(y)$ while having a good label conditional $p(x|y)$. With this understanding, we can simply calibrate the in-context predictive distribution by adjusting the label marginal, which is estimated via Monte-Carlo sampling over the in-context model, i.e., generation of LLMs. We call our approach as generative calibration. We conduct exhaustive experiments with 12 text classification tasks and 12 LLMs scaling from 774M to 33B, generally find that the proposed method greatly and consistently outperforms the ICL as well as state-of-the-art calibration methods, by up to 27% absolute in macro-F1. Meanwhile, the proposed method is also stable under different prompt configurations.
翻訳日:2023-10-17 15:07:37 公開日:2023-10-16
# 生成的不確実性認識グループ選択的交換マスキングを用いたオープンワールド協調物体検出に向けて

Towards Open-World Co-Salient Object Detection with Generative Uncertainty-aware Group Selective Exchange-Masking ( http://arxiv.org/abs/2310.10264v1 )

ライセンス: Link先を確認
Yang Wu, Shenglong Hu, Huihui Song, Kaihua Zhang, Bo Liu, Dong Liu(参考訳) cosod(co-salient object detection)タスクの伝統的な定義は、共通のサルエントオブジェクトを関連画像のグループに分割することである。 この定義は、オープンワールド設定において必ずしも妥当ではないグループコンセンサス一貫性の仮定に基づいており、これはオープンワードシナリオの下で画像群を入力する際に、無関係な画像を扱う場合のモデルにおけるロバスト性の問題をもたらす。 この問題に対処するために,CoSODモデルのロバスト性を高めるためのグループ選択的交換マスキング(GSEM)手法を提案する。 GSEMは2つの画像群を入力として取り、それぞれ異なる種類の有能なオブジェクトを含む。 GSEMは、設計した混合メトリクスに基づいて、新しい学習戦略を用いて各グループから画像のサブセットを選択し、選択した画像を交換する。 非関連画像による不確かさとグループ内の残存関連画像のコンセンサス特性を同時に考慮し,潜在変数発生器ブランチとcosod変換器ブランチを設計した。 前者は、不確実性をモデル化する確率的大域変数を生成するベクトル量子化変分オートエンコーダからなる。 後者は、グループコンセンサスを含む相関に基づく局所的な特徴をキャプチャするように設計されている。 最後に、2つの分岐の出力をマージしてトランスベースのデコーダに渡してロバストな予測を生成する。 現在、オープンワールドシナリオ用に特別に設計されたベンチマークデータセットはないため、既存のデータセットに基づいてOWCoSal、OWCoSOD、OWCoCAという3つのオープンワールドベンチマークデータセットを構築しました。 グループ一貫性の仮定を破ることで、これらのデータセットは実世界のシナリオの効果的なシミュレーションを提供し、モデルの堅牢性と実用性を評価することができる。

The traditional definition of co-salient object detection (CoSOD) task is to segment the common salient objects in a group of relevant images. This definition is based on an assumption of group consensus consistency that is not always reasonable in the open-world setting, which results in robustness issue in the model when dealing with irrelevant images in the inputting image group under the open-word scenarios. To tackle this problem, we introduce a group selective exchange-masking (GSEM) approach for enhancing the robustness of the CoSOD model. GSEM takes two groups of images as input, each containing different types of salient objects. Based on the mixed metric we designed, GSEM selects a subset of images from each group using a novel learning-based strategy, then the selected images are exchanged. To simultaneously consider the uncertainty introduced by irrelevant images and the consensus features of the remaining relevant images in the group, we designed a latent variable generator branch and CoSOD transformer branch. The former is composed of a vector quantised-variational autoencoder to generate stochastic global variables that model uncertainty. The latter is designed to capture correlation-based local features that include group consensus. Finally, the outputs of the two branches are merged and passed to a transformer-based decoder to generate robust predictions. Taking into account that there are currently no benchmark datasets specifically designed for open-world scenarios, we constructed three open-world benchmark datasets, namely OWCoSal, OWCoSOD, and OWCoCA, based on existing datasets. By breaking the group-consistency assumption, these datasets provide effective simulations of real-world scenarios and can better evaluate the robustness and practicality of models.
翻訳日:2023-10-17 15:07:11 公開日:2023-10-16
# 人間の類似性判断による単語埋め込みの解釈性の向上

Enhancing Interpretability using Human Similarity Judgements to Prune Word Embeddings ( http://arxiv.org/abs/2310.10262v1 )

ライセンス: Link先を確認
Natalia Flechas Manrique, Wanqian Bao, Aurelie Herbelot, Uri Hasson(参考訳) NLPの解釈可能性メソッドは、特定のシステムアーキテクチャの基礎となるセマンティクスに関する洞察を提供することを目的としている。 単語埋め込みに着目し,特定のドメイン(スポーツ,専門職など)に対して,人間の類似性判断の予測を強く改善するモデル特徴のサブセットを同定する教師付き学習手法を提案する。 8つの独立したセマンティックドメインに対して、元の埋め込みの20~40%しか保持せず、ドメイン間で異なる特徴セットを保持することを示す。 次に、保存された機能のセマンティクスを解釈するための2つのアプローチを示す。 第1は、保持された埋め込みの最初の主成分であるドメインワード(コハイポニム)のスコアを取得し、コハイポニムとの共起がこれらのスコアのプロファイルを追跡する用語を抽出する。 この分析は、例えばスポーツを性別と国際性に基づいて区別していることを示している。 第2のアプローチでは、保持された集合を535ワードのデータセットに対して65のセマンティックアノテートされた次元に沿って値を予測する探索タスクの変数として使用する。 職業に残る特徴は認知的、感情的、社会的な次元を予測するのに最適であるが、果物や野菜に残る特徴は味覚(味覚)の次元を予測するのが最善である。 我々は、AIシステムと人間の知識の整合性について論じる。

Interpretability methods in NLP aim to provide insights into the semantics underlying specific system architectures. Focusing on word embeddings, we present a supervised-learning method that, for a given domain (e.g., sports, professions), identifies a subset of model features that strongly improve prediction of human similarity judgments. We show this method keeps only 20-40% of the original embeddings, for 8 independent semantic domains, and that it retains different feature sets across domains. We then present two approaches for interpreting the semantics of the retained features. The first obtains the scores of the domain words (co-hyponyms) on the first principal component of the retained embeddings, and extracts terms whose co-occurrence with the co-hyponyms tracks these scores' profile. This analysis reveals that humans differentiate e.g. sports based on how gender-inclusive and international they are. The second approach uses the retained sets as variables in a probing task that predicts values along 65 semantically annotated dimensions for a dataset of 535 words. The features retained for professions are best at predicting cognitive, emotional and social dimensions, whereas features retained for fruits or vegetables best predict the gustation (taste) dimension. We discuss implications for alignment between AI systems and human knowledge.
翻訳日:2023-10-17 15:06:40 公開日:2023-10-16
# 大規模言語モデルを用いたアラビア語法則の予測

Prediction of Arabic Legal Rulings using Large Language Models ( http://arxiv.org/abs/2310.10260v1 )

ライセンス: Link先を確認
Adel Ammar, Anis Koubaa, Bilel Benjdira, Omar Najar, Serry Sibaee(参考訳) 法学の複雑な分野において、裁判所決定の分析は司法制度の効果的な機能の基礎となる。 裁判所の成果を予測する能力は、意思決定プロセス中の裁判官を助け、弁護士に貴重な洞察を与え、事件に対する戦略的なアプローチを強化する。 その重要性にもかかわらず、アラビア語の宮廷分析の領域は未調査のままである。 本稿では,現在最先端の大規模言語モデルの高度な機能を活用し,10,813件の商業裁判所実例のデータセットに基づくアラビア裁判所決定の包括的予測分析を先導する。 系統的な探索を通じて, 一般的な3つの基礎モデル(LLaMA-7b, JAIS-13b, GPT3.5-turbo)と, ゼロショット, ワンショット, 微調整の3つの訓練パラダイムを評価する。 さらに、元のアラビア語入力テキストの要約および/または翻訳の利点を評価する。 これは14のモデル変異のスペクトルにつながり、一連の異なる指標(人間の評価、GPT評価、ROUGE、BLEUスコア)で詳細なパフォーマンス評価を提供する。 一方、GPT-3.5ベースのモデルは、アラビア語中心のJAISモデルの平均スコアを50%上回り、他のモデルよりも優れた性能を示した。 さらに, 人的評価以外のすべてのスコアは, 裁判所決定予測に基づく大規模言語モデルの性能評価に矛盾し, 信頼性が低いことを示す。 この研究は、計算言語学とアラビア語の法的分析のギャップを埋め、将来の研究の道を開くものである。

In the intricate field of legal studies, the analysis of court decisions is a cornerstone for the effective functioning of the judicial system. The ability to predict court outcomes helps judges during the decision-making process and equips lawyers with invaluable insights, enhancing their strategic approaches to cases. Despite its significance, the domain of Arabic court analysis remains under-explored. This paper pioneers a comprehensive predictive analysis of Arabic court decisions on a dataset of 10,813 commercial court real cases, leveraging the advanced capabilities of the current state-of-the-art large language models. Through a systematic exploration, we evaluate three prevalent foundational models (LLaMA-7b, JAIS-13b, and GPT3.5-turbo) and three training paradigms: zero-shot, one-shot, and tailored fine-tuning. Besides, we assess the benefit of summarizing and/or translating the original Arabic input texts. This leads to a spectrum of 14 model variants, for which we offer a granular performance assessment with a series of different metrics (human assessment, GPT evaluation, ROUGE, and BLEU scores). We show that all variants of LLaMA models yield limited performance, whereas GPT-3.5-based models outperform all other models by a wide margin, surpassing the average score of the dedicated Arabic-centric JAIS model by 50%. Furthermore, we show that all scores except human evaluation are inconsistent and unreliable for assessing the performance of large language models on court decision predictions. This study paves the way for future research, bridging the gap between computational linguistics and Arabic legal analytics.
翻訳日:2023-10-17 15:06:14 公開日:2023-10-16
# 量子近似最適化アルゴリズムを用いた将来の高エネルギー衝突器の荷電粒子再構成

Charged particle reconstruction for future high energy colliders with Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2310.10255v1 )

ライセンス: Link先を確認
Hideki Okawa(参考訳) 最先端の人工知能の使用は、コンピューティングリソースの膨大な需要に対応するために、高輝度大型ハドロン衝突型加速器のような将来の高エネルギー衝突器のベースラインとなる。 量子機械学習の急速な発展は、この課題にさらなるパラダイムシフトをもたらす可能性がある。 2つの最も高いCPU消費成分のうちの1つは、荷電粒子再構成、いわゆるトラック再構成であり、二次的非制約バイナリ最適化(QUBO)問題と見なすことができる。 量子近似最適化アルゴリズム (quantum approximation optimization algorithm,qaoa) は、そのような組合せ問題を解く最も有望なアルゴリズムの1つであり、ノイズの多い中間スケール量子コンピュータの時代において量子優位を求めるものである。 その結果,QAOAは有望な性能を示し,量子コンピュータを用いたトラック再構築の候補の一つとして実証された。

Usage of cutting-edge artificial intelligence will be the baseline at future high energy colliders such as the High Luminosity Large Hadron Collider, to cope with the enormously increasing demand of the computing resources. The rapid development of quantum machine learning could bring in further paradigm-shifting improvement to this challenge. One of the two highest CPU-consuming components, the charged particle reconstruction, the so-called track reconstruction, can be considered as a quadratic unconstrained binary optimization (QUBO) problem. The Quantum Approximate Optimization Algorithm (QAOA) is one of the most promising algorithms to solve such combinatorial problems and to seek for a quantum advantage in the era of the Noisy Intermediate-Scale Quantum computers. It is found that the QAOA shows promising performance and demonstrated itself as one of the candidates for the track reconstruction using quantum computers.
翻訳日:2023-10-17 15:05:47 公開日:2023-10-16
# 散逸量子分類器に向けて

Towards a dissipative quantum classifier ( http://arxiv.org/abs/2310.10254v1 )

ライセンス: Link先を確認
He Wang, Chuanbo Liu, and Jin Wang(参考訳) 本稿では,散逸工学を応用した新しい量子分類器を提案する。 標準量子回路モデルとは異なり、分類器は中心スピン量子ビットモデルで構成される。 補助量子ビットに強い散逸を慎重に調整することにより、古典的データと散逸モードの1対1のマッピングを確立する。 このマッピングは、中央キュービットが進化するデコヒーレンスフリー部分空間内の古典的なデータのエンコーディングを可能にする。 中央量子ビットのダイナミクスは、効果的なリンドブラッドマスター方程式によって制御され、定常状態に向かって緩和される。 まず,システムの相互結合と外部散逸を訓練することにより,任意の単一キュービット状態を作成するためのモデルの能力を示す。 基礎となる分類規則を解明することで、量子分類器を導出する。 ラベル付きデータを用いたトレーニングセットを利用することで、従来のニューラルネットワークに似た特定の分類タスクを実行するために、散逸的な中心スピンキュービットシステムを訓練する。 本研究は、量子機械学習の領域における効率的かつ効果的な分類タスクのための散逸システムの未解決ポテンシャルを照らしている。

In this paper, we propose a novel quantum classifier utilizing dissipative engineering. Unlike standard quantum circuit models, the classifier consists of a central spin-qubit model. By subjecting the auxiliary qubits to carefully tailored strong dissipations, we establish a one-to-one mapping between classical data and dissipative modes. This mapping enables the encoding of classical data within a decoherence-free subspace, where the central qubit undergoes evolution. The dynamics of the central qubit are governed by an effective Lindblad master equation, resulting in relaxation towards a steady state. We first demonstrate the capability of our model to prepare arbitrary single-qubit states by training the inter-coupling of the system and the external dissipations. By elucidating the underlying classification rule, we subsequently derive a quantum classifier. Leveraging a training set with labeled data, we train the dissipative central spin-qubit system to perform specific classification tasks akin to classical neural networks. Our study illuminates the untapped potential of the dissipative system for efficient and effective classification tasks in the realm of quantum machine learning.
翻訳日:2023-10-17 15:05:30 公開日:2023-10-16
# 多言語言語モデルにおけるバイアスの検討:debiasing techniqueの言語間移動

Investigating Bias in Multilingual Language Models: Cross-Lingual Transfer of Debiasing Techniques ( http://arxiv.org/abs/2310.10310v1 )

ライセンス: Link先を確認
Manon Reusens, Philipp Borchert, Margot Mieskes, Jochen De Weerdt, Bart Baesens(参考訳) 本稿では,多言語モデルにおける異なる言語間のデバイアス技法の伝達可能性について検討する。 これらの手法の適用範囲を英語,フランス語,ドイツ語,オランダ語で検討した。 マルチリンガルBERT (mBERT) を用いて, 脱バイアス手法の言語間移動が実現可能であるだけでなく, 有望な結果をもたらすことを示す。 驚くべきことに,これらの手法を非英語言語に適用した場合,性能上の欠点は認められなかった。 我々の分析では、CrowS-Pairsデータセットの翻訳を用いて、SentenceDebiasを異なる言語で最高のテクニックであると同定し、mBERTのバイアスを平均13%削減した。 また,事前学習を付加したデバイアス手法は,解析に含まれている言語,特に低リソース言語において,言語間効果が高まることが判明した。 これらの新しい知見は、多言語言語モデルにおけるバイアス緩和の深い理解に寄与し、異なる言語文脈におけるデバイアス技法の実用的なガイダンスを提供する。

This paper investigates the transferability of debiasing techniques across different languages within multilingual models. We examine the applicability of these techniques in English, French, German, and Dutch. Using multilingual BERT (mBERT), we demonstrate that cross-lingual transfer of debiasing techniques is not only feasible but also yields promising results. Surprisingly, our findings reveal no performance disadvantages when applying these techniques to non-English languages. Using translations of the CrowS-Pairs dataset, our analysis identifies SentenceDebias as the best technique across different languages, reducing bias in mBERT by an average of 13%. We also find that debiasing techniques with additional pretraining exhibit enhanced cross-lingual effectiveness for the languages included in the analyses, particularly in lower-resource languages. These novel insights contribute to a deeper understanding of bias mitigation in multilingual language models and provide practical guidance for debiasing techniques in different language contexts.
翻訳日:2023-10-17 15:00:37 公開日:2023-10-16
# 局所グラフニューラルネットワークを用いた視覚に基づく変形可能な物体再構成

Learning visual-based deformable object rearrangement with local graph neural networks ( http://arxiv.org/abs/2310.10307v1 )

ライセンス: Link先を確認
Yuhong Deng, Xueqian Wang, Lipeng chen(参考訳) 変形可能な物体のゴールコンディショニング(例えば、ロープを直して布を折り畳む)は最も一般的な変形可能な操作の1つであり、ロボットは変形可能な物体を視覚的な観察のみで所定の目標設定に再構成する必要がある。 変形可能な構成空間の高次元性と、変形可能なダイナミクスに内在する複雑さ、非線形性、不確実性である。 これらの課題に対処するために,変形可能なオブジェクト状態をキーポイントとその相互作用で効率的にモデル化できる新しい表現戦略を提案する。 さらに, 局所グラフニューラルネットワーク(GNN)を提案し, 2つの動的グラフを構築し, 更新することにより, 変形可能な再配置ダイナミクスを共同でモデル化し, 最適操作動作(ピック・アンド・プレイス)を推定する。 シミュレーションおよび実実験により、変形可能な再配置力学のモデル化において、提案した動的グラフ表現が優れた表現性を示すことを示す。 本手法は,様々な変形可能な再配置タスク(平均96.3%)において,シミュレーション実験の最先端手法よりもはるかに高い成功率に達する。 さらに,本手法はより軽量であり,最先端手法よりも60%短い推定時間を有する。 また,本手法はマルチタスク学習シナリオにおいて良好に動作し,キーポイント検出器のみを微調整することにより,95%の平均成功率で実世界のアプリケーションに転送可能であることを示す。

Goal-conditioned rearrangement of deformable objects (e.g. straightening a rope and folding a cloth) is one of the most common deformable manipulation tasks, where the robot needs to rearrange a deformable object into a prescribed goal configuration with only visual observations. These tasks are typically confronted with two main challenges: the high dimensionality of deformable configuration space and the underlying complexity, nonlinearity and uncertainty inherent in deformable dynamics. To address these challenges, we propose a novel representation strategy that can efficiently model the deformable object states with a set of keypoints and their interactions. We further propose local-graph neural network (GNN), a light local GNN learning to jointly model the deformable rearrangement dynamics and infer the optimal manipulation actions (e.g. pick and place) by constructing and updating two dynamic graphs. Both simulated and real experiments have been conducted to demonstrate that the proposed dynamic graph representation shows superior expressiveness in modeling deformable rearrangement dynamics. Our method reaches much higher success rates on a variety of deformable rearrangement tasks (96.3% on average) than state-of-the-art method in simulation experiments. Besides, our method is much more lighter and has a 60% shorter inference time than state-of-the-art methods. We also demonstrate that our method performs well in the multi-task learning scenario and can be transferred to real-world applications with an average success rate of 95% by solely fine tuning a keypoint detector.
翻訳日:2023-10-17 15:00:20 公開日:2023-10-16
# マルチボディニューラルシーンフロー

Multi-Body Neural Scene Flow ( http://arxiv.org/abs/2310.10301v1 )

ライセンス: Link先を確認
Kavisha Vidanapathirana, Shin-Fang Chng, Xueqian Li, Simon Lucey(参考訳) ニューラルネットワークをニューラルネットワークとして使用したシーンフローのテスト時間最適化は、単純さ、データセットバイアスの欠如、最先端のパフォーマンスなどによって人気を集めている。 しかし, 座標ネットワークは, 空間的平滑なシーンフロー予測を暗黙的に正則化することにより, 一般運動を捉えるが, 先行する神経は実世界データに存在する多体剛性運動を識別できない。 これを解決するために, 従来の研究と同様, 剛体のSE(3)$パラメータを制約する, 煩雑で不安定な戦略を使わずに, 多体剛性を実現できることを示す。 これは、剛体の流れ予測における等長性を促進するためにシーンフロー最適化を定式化することで達成される。 この戦略により、連続した流れ場を維持しながら、シーンフローの多体剛性が可能となり、点雲の列をまたいだ密集した長期のシーンフロー統合が可能になる。 我々は,実世界のデータセットに関する広範囲な実験を行い,我々のアプローチが3次元シーンフローと長期的ポイントワイズ4次元軌道予測の最先端を上回っていることを実証する。 コードは \href{https://github.com/kavisha725/mbnsf}{https://github.com/kavisha725/mbnsf} で入手できる。

The test-time optimization of scene flow - using a coordinate network as a neural prior - has gained popularity due to its simplicity, lack of dataset bias, and state-of-the-art performance. We observe, however, that although coordinate networks capture general motions by implicitly regularizing the scene flow predictions to be spatially smooth, the neural prior by itself is unable to identify the underlying multi-body rigid motions present in real-world data. To address this, we show that multi-body rigidity can be achieved without the cumbersome and brittle strategy of constraining the $SE(3)$ parameters of each rigid body as done in previous works. This is achieved by regularizing the scene flow optimization to encourage isometry in flow predictions for rigid bodies. This strategy enables multi-body rigidity in scene flow while maintaining a continuous flow field, hence allowing dense long-term scene flow integration across a sequence of point clouds. We conduct extensive experiments on real-world datasets and demonstrate that our approach outperforms the state-of-the-art in 3D scene flow and long-term point-wise 4D trajectory prediction. The code is available at: \href{https://github.com/kavisha725/MBNSF}{https://github.com/kavisha725/MBNSF}.
翻訳日:2023-10-17 14:59:51 公開日:2023-10-16
# 不確かさのフォーク:コンフォーマルリスク制御によるシーケンスモデルによる信頼性予測とモデル予測制御

Forking Uncertainties: Reliable Prediction and Model Predictive Control with Sequence Models via Conformal Risk Control ( http://arxiv.org/abs/2310.10299v1 )

ライセンス: Link先を確認
Matteo Zecchin, Sangwoo Park, Osvaldo Simeone(参考訳) 現実世界の多くの問題では、サイバーフィジカルシステムの監視と制御に予測が活用され、信頼性と安全要件の満足度が保証される。 しかし、予測は本質的に不確実であり、予測の不確実性の管理は複雑な力学とフォーク軌道を特徴とする環境において重大な課題をもたらす。 本研究では,モデルベースあるいはモデルフリー手法を用いて,事前設計した確率的暗黙的あるいは明示的シーケンスモデルへのアクセスを仮定する。 我々は,事前設計した確率予測器が生成した予測に基づいて,信頼性のあるエラーバーを生成する,新しいポストホックキャリブレーション手法PTS-CRCを導入する。 既存の技術とは対照的に、PTS-CRCはシーケンスモデルからサンプリングされた複数のプロトタイプ軌道のアンサンブルに基づいて予測セットを生成し、不確実性の効率的な表現を支援する。 さらに、最先端技術とは異なり、PTS-CRCはカバレッジ以上の信頼性定義を満たすことができる。 この特性を利用して、制御ポリシーの品質や安全性に関する一般的な平均制約の下で、オープンループおよびクローズループ制御問題に対処する新しいモデル予測制御(MPC)フレームワークを考案する。 PTS-CRC予測と制御の性能を,無線ネットワークの文脈における多くのユースケースの研究により実験的に検証した。 PTS-CRC予測器は、考慮された全てのタスクに対して、より有益な予測セットを提供するとともに、より大きなリターンを持つ安全な制御ポリシーを提供する。

In many real-world problems, predictions are leveraged to monitor and control cyber-physical systems, demanding guarantees on the satisfaction of reliability and safety requirements. However, predictions are inherently uncertain, and managing prediction uncertainty presents significant challenges in environments characterized by complex dynamics and forking trajectories. In this work, we assume access to a pre-designed probabilistic implicit or explicit sequence model, which may have been obtained using model-based or model-free methods. We introduce probabilistic time series-conformal risk prediction (PTS-CRC), a novel post-hoc calibration procedure that operates on the predictions produced by any pre-designed probabilistic forecaster to yield reliable error bars. In contrast to existing art, PTS-CRC produces predictive sets based on an ensemble of multiple prototype trajectories sampled from the sequence model, supporting the efficient representation of forking uncertainties. Furthermore, unlike the state of the art, PTS-CRC can satisfy reliability definitions beyond coverage. This property is leveraged to devise a novel model predictive control (MPC) framework that addresses open-loop and closed-loop control problems under general average constraints on the quality or safety of the control policy. We experimentally validate the performance of PTS-CRC prediction and control by studying a number of use cases in the context of wireless networking. Across all the considered tasks, PTS-CRC predictors are shown to provide more informative predictive sets, as well as safe control policies with larger returns.
翻訳日:2023-10-17 14:59:28 公開日:2023-10-16
# キーフレーズによるFinTech組織のための教師なし要約生成

Key-phrase boosted unsupervised summary generation for FinTech organization ( http://arxiv.org/abs/2310.10294v1 )

ライセンス: Link先を確認
Aadit Deshpande, Shreya Goyal, Prateek Nagwanshi, Avinash Tripathy(参考訳) 近年のソーシャルメディアの発展に伴い、ソーシャルメディアデータ分析におけるNLP技術の利用が研究の方向性として浮上している。 ビジネス組織は、特にソーシャルメディアの言論の分析から恩恵を受け、消費者の行動に対する外部の視点を提供することができる。 インテント検出、感情分類、テキスト要約などのNLPアプリケーションのいくつかは、FinTechの組織がソーシャルメディアの言語データを利用して有用な外部洞察を見つけ、下流のNLPタスクにさらに活用することができる。 特に、ユーザの意図と感情を強調する要約は、これらの組織が外部の視点を得るのに非常に役立ちます。 この外部視点は、組織が製品やオファー、プロモーションキャンペーンなどを管理するのに役立ちます。 しかしながら、ラベル付きドメイン固有データセットの欠如のような特定の課題は、フィンテックドメインにおけるこれらのタスクのさらなる探索を妨げる。 これらの課題を克服するために,ソーシャルメディアデータからの教師なしのフレーズベース要約生成を「アクション・オブジェクト」ペア(意図的なフレーズ)を用いて設計する。 提案手法を,様々なRedditディスカッションスレッドの文脈情報に基づいて,他のキーフレーズに基づく要約生成手法を用いて評価した。 本研究では,これらのフレーズに基づく要約文から抽出した文脈情報を評価するために,一意語数,アクションオブジェクトペア数,名詞チャンク数などの「文脈メトリクス」を導入する。 本手法は,これらの指標のベースラインを著しく上回っており,その効果を定性的,定量的に評価できることを示す。 提案されたフレームワークは、amexでホストされているwebユーティリティポータルとして活用されている。

With the recent advances in social media, the use of NLP techniques in social media data analysis has become an emerging research direction. Business organizations can particularly benefit from such an analysis of social media discourse, providing an external perspective on consumer behavior. Some of the NLP applications such as intent detection, sentiment classification, text summarization can help FinTech organizations to utilize the social media language data to find useful external insights and can be further utilized for downstream NLP tasks. Particularly, a summary which highlights the intents and sentiments of the users can be very useful for these organizations to get an external perspective. This external perspective can help organizations to better manage their products, offers, promotional campaigns, etc. However, certain challenges, such as a lack of labeled domain-specific datasets impede further exploration of these tasks in the FinTech domain. To overcome these challenges, we design an unsupervised phrase-based summary generation from social media data, using 'Action-Object' pairs (intent phrases). We evaluated the proposed method with other key-phrase based summary generation methods in the direction of contextual information of various Reddit discussion threads, available in the different summaries. We introduce certain "Context Metrics" such as the number of Unique words, Action-Object pairs, and Noun chunks to evaluate the contextual information retrieved from the source text in these phrase-based summaries. We demonstrate that our methods significantly outperform the baseline on these metrics, thus providing a qualitative and quantitative measure of their efficacy. Proposed framework has been leveraged as a web utility portal hosted within Amex.
翻訳日:2023-10-17 14:59:02 公開日:2023-10-16
# 無力なクロスプラットフォームビデオコーデック:コードブックベースの方法

Effortless Cross-Platform Video Codec: A Codebook-Based Method ( http://arxiv.org/abs/2310.10292v1 )

ライセンス: Link先を確認
Kuan Tian and Yonghang Guan and Jinxi Xiang and Jun Zhang and Xiao Han and Wei Yang(参考訳) ある状況下では、高度なニューラルビデオコーデックは、そのレート歪み(RD)性能において最も複雑な従来のコーデックを超えることができる。 既存のニューラルビデオコーデックの高性能化の主な理由の1つはエントロピーモデルを使用することで、潜伏者を圧縮するためのより正確な確率分布推定を提供することができる。 これはまた、異なるプラットフォームで動作するエントロピーモデルが一貫した分布推定を使用するべきであるという厳密な要求を意味する。 しかし、クロスプラットフォームのシナリオでは、異なるプラットフォーム上で実行されるエントロピーモデルは通常、プラットフォームに依存した浮動小数点演算誤差による不整合確率分布推定を生じるため、復号側は符号化側から送信された圧縮ビットストリームを正しく復号する際に失敗する可能性がある。 本稿では,自己回帰エントロピーモデリングを回避し,コードブックのインデックスシーケンスを送信することでビデオ圧縮を実現する,コードブックに基づくクロスプラットフォームビデオ圧縮フレームワークを提案する。 さらに,コンテクストアライメントに光フローを使用する代わりに,条件付きクロスアテンションモジュールを用いてフレーム間のコンテキストを取得することを提案する。 自己回帰モデリングと光フローアライメントが欠如しているため、計算効率を大幅に向上させることができる極端に最小限のフレームワークを設計できる。 重要なことに、このフレームワークはエントロピーモデリングのための分散推定モジュールをもはや含まないので、プラットフォーム間の計算は必ずしも一貫性を持っていない。 実験結果から,従来のH.265 (medium) はエントロピー制約を伴わずに性能が向上し,クロスプラットフォーム特性を本質的に達成できることが示唆された。

Under certain circumstances, advanced neural video codecs can surpass the most complex traditional codecs in their rate-distortion (RD) performance. One of the main reasons for the high performance of existing neural video codecs is the use of the entropy model, which can provide more accurate probability distribution estimations for compressing the latents. This also implies the rigorous requirement that entropy models running on different platforms should use consistent distribution estimations. However, in cross-platform scenarios, entropy models running on different platforms usually yield inconsistent probability distribution estimations due to floating point computation errors that are platform-dependent, which can cause the decoding side to fail in correctly decoding the compressed bitstream sent by the encoding side. In this paper, we propose a cross-platform video compression framework based on codebooks, which avoids autoregressive entropy modeling and achieves video compression by transmitting the index sequence of the codebooks. Moreover, instead of using optical flow for context alignment, we propose to use the conditional cross-attention module to obtain the context between frames. Due to the absence of autoregressive modeling and optical flow alignment, we can design an extremely minimalist framework that can greatly benefit computational efficiency. Importantly, our framework no longer contains any distribution estimation modules for entropy modeling, and thus computations across platforms are not necessarily consistent. Experimental results show that our method can outperform the traditional H.265 (medium) even without any entropy constraints, while achieving the cross-platform property intrinsically.
翻訳日:2023-10-17 14:58:36 公開日:2023-10-16
# グラフから回路へ:$N$-partite GHZ と W 状態の光ヘルド生成

From graphs to circuits: Optical heralded generation of $N$-partite GHZ and W states ( http://arxiv.org/abs/2310.10291v1 )

ライセンス: Link先を確認
Seungbeom Chin, Marcin Karczewski, Yong-Su Kim(参考訳) 同一粒子間で発生するヘラルド絡み合いは量子計算に有用な資源であり、ヘラルドスキームは直接測定することなくターゲット状態を生成する実験実行を区別する。 しかしながら、これらの隠蔽されたスキームは一般的に補助粒子とモードの取り込みを伴い、設計の複雑さを増幅する。 この課題に対応するため、最近の研究 (arXiv:2211.04042) では体系的階層型スキーム設計のためのグラフアプローチを導入し、ボソン減算による多部ボソンの絡み合いを生成するためのグラフィカルなスキーム('sculpting bigraphs'' と呼ばれる)を提供した。 しかし、これらの彫刻的複グラフを実際に有意なエンタングルメント生成回路に変換するためには、必要不可欠な中間ステップが依然として必要である。 彫刻的複写の指導の下でサブトラクターを組み立てることで,多部交絡状態の階層化されたスキームをシームレスに設計することができる。 本研究は, 図形要素を線形光ネットワークにマッピングし, 階層化サブトラクタを組み込むことにより, 一連の翻訳規則を確立する。 その結果、$N$-partite GHZ状態が$N$光子、$N$-partite W状態が$N+1$光子、$N=3$ Type 5状態が$N=3$GHZおよびW状態が$N=3$GHZのスーパーポスト)、9光子が$N$-partite W状態であることを示す。 以上の結果から, エンタングルメント生成のためのヘラルドスキームの設計プロセスは, 適切なバイグラフの探索作業に簡略化された。

Heralded entanglement generated among identical particles is a useful resource for quantum computations, as heralded schemes distinguish experimental runs producing target states without direct measurement. Nonetheless, these heralded schemes generally entail the incorporation of supplementary particles and modes, thus amplifying the design intricacy. In response to this challenge, a recent work (arXiv:2211.04042) introduced a graph approach for systematic heralded scheme design, which provided several graphical schemes (dubbed ``sculpting bigraphs'') for creating multipartite boson entanglement with boson subtractions. However, an indispensable intermediate step remains essential to transmute these sculpting bigraphs into practical heralded entanglement generation circuits: the proposition of heralded subtraction operators (herein dubbed ``subtractors"). Assembling the subtractors under the guidence of the sculpting bigraphs, we can seamlessly design heralded schemes for multipartite entangled states. This study establishes a set of translation rules, enabling the mapping of sculpting bigraph elements into linear optical networks through the incorporation of heralded subtractors. Consequently, we devise heralded schemes for the $N$-partite GHZ state with $2N$ photons, $N$-partite W state with $2N+1$ photons, and $N=3$ Type 5 state (the superpostion of $N=3$ GHZ and W states) with 9 photons. Our results demonstrate that the process of designing heralded schemes for generating entanglement is simplified into the task of searching for suitable sculpting bigraphs.
翻訳日:2023-10-17 14:58:07 公開日:2023-10-16
# マルチシナリオマルチドメイン対話要約のためのChatGPTによるマルチステージ事前学習

Multi-Stage Pre-training Enhanced by ChatGPT for Multi-Scenario Multi-Domain Dialogue Summarization ( http://arxiv.org/abs/2310.10285v1 )

ライセンス: Link先を確認
Weixiao Zhou, Gengyao Li, Xianfu Cheng, Xinnian Liang, Junnan Zhu, Feifei Zhai and Zhoujun Li(参考訳) 対話の要約には、幅広いシナリオとドメインが含まれる。 しかし、既存の手法は一般に特定のシナリオやドメインにのみ適用される。 本研究では,マルチシナリオ多ドメイン対話要約のための事前学習モデルを提案する。 事前学習目標と微調整目標とのギャップを減らすために、多段階事前学習戦略を採用する。 具体的には,まず,大規模マルチシナリオ・マルチドメイン対話データを用いて事前学習を行い,事前学習モデルの適応性を高める。 次に,ChatGPT が付加した大規模マルチシナリオマルチドメイン "対話サマリ" 並列データを用いてタスク指向の事前学習を行い,事前学習モデルの対話要約能力を向上する。 異なるシナリオとドメインの3つの対話要約データセットの実験結果は、事前訓練されたモデルは、完全な微調整、ゼロショット、少数ショット設定で以前の最先端モデルを大きく上回っていることを示している。

Dialogue summarization involves a wide range of scenarios and domains. However, existing methods generally only apply to specific scenarios or domains. In this study, we propose a new pre-trained model specifically designed for multi-scenario multi-domain dialogue summarization. It adopts a multi-stage pre-training strategy to reduce the gap between the pre-training objective and fine-tuning objective. Specifically, we first conduct domain-aware pre-training using large-scale multi-scenario multi-domain dialogue data to enhance the adaptability of our pre-trained model. Then, we conduct task-oriented pre-training using large-scale multi-scenario multi-domain "dialogue-summary" parallel data annotated by ChatGPT to enhance the dialogue summarization ability of our pre-trained model. Experimental results on three dialogue summarization datasets from different scenarios and domains indicate that our pre-trained model significantly outperforms previous state-of-the-art models in full fine-tuning, zero-shot, and few-shot settings.
翻訳日:2023-10-17 14:57:27 公開日:2023-10-16
# 異方性分子発光ダイナミクス(その1) I WignerがRABBITと出会う

Anisotropic Molecular Photoemission Dynamics Part. I Wigner meets the RABBIT ( http://arxiv.org/abs/2310.10284v1 )

ライセンス: Link先を確認
Berkane M., Desrier A., L\'ev\^eque C., Ta\"ieb R. and Caillat J(参考訳) 1次元非対称モデル分子のシミュレーションにより、時間分解に近い分子光電子放出のダイナミクスに対する異方性のシグネチャを調べる。 より正確には、一光子イオン化のダイナミクスをフルに特徴づける基本的なウィグナー遅延と、2色干渉計測による遅延の関係について検討する。 この結果から, それぞれの遅延に関する2つの特性が明らかになった。 1つは、任意の電子位置の原点を固定し、デ・ウィグナー・遅延を定義し計算する固有の必要性に関係している。 2つ目は、プローブレーザーの周波数に対するウサギ遅延の依存性である。 以上の結果から,両遅延の角度変化は位置起源の特定の選択と消滅するプローブ周波数の限界に対して収束することが示された。

We investigate signatures of anisotropy on the dynamics of time-resolved near-threshold molecular photoemission, through simulations on a one-dimension asymmetric model molecule. More precisely, we study the relationship between the fundamental Wigner delays that fully characterizes the dynamics of one-photon ionization, and the delays inferred from two-color interferometric rabbit measurements. Our results highlights two different properties pertaining to each of these delays. The first one is related to the inherent necessity to fix an arbitrary electron position origin to define and compute de Wigner-delay. The second one is the dependency of the rabbit delay on the frequency of the probe laser. Our results show that the angular variations of both delays converge for a specific choice of the position origin and in the limit of a vanishing probe frequency.
翻訳日:2023-10-17 14:57:09 公開日:2023-10-16
# Maestroを模倣する - ファインモータースキル獲得における仮想AI教師の有効性を探る

Mimicking the Maestro: Exploring the Efficacy of a Virtual AI Teacher in Fine Motor Skill Acquisition ( http://arxiv.org/abs/2310.10280v1 )

ライセンス: Link先を確認
Hadar Mulian, Segev Shlomov, and Lior Limonad(参考訳) 運動スキル、特に手書きなどの運動スキルは、学術的な追求や日常生活において重要な役割を果たす。 これらのスキルを効果的に教える伝統的な方法は、時間がかかり、一貫性がない。 ロボティクスや人工知能のような高度な技術が台頭するにつれて、人間とロボットと人間とコンピュータの相互作用を通じて、これらの技術を使った教育プロセスを自動化することへの関心が高まっている。 本研究では,運動能力習得のための人間教育者の技術をエミュレートする仮想AI教師の可能性を検討する。 我々は,人間の教官の特徴を捉えたAI教師モデルを導入する。 教師と教師の相互作用を模倣した強化学習環境を用いて,学習者のパフォーマンスの向上,スキル獲得率の向上,学習結果の多様性の低減といった4つの指導的仮説に対して,AIモデルを検証した。 その結果,すべての仮説において有意な改善が認められた。 特に,様々な学習者や設定におけるロバスト性を示し,手書きへの適応性を示した。 本研究は、ロボットに強化学習と模倣学習モデルを統合することで、重要な運動スキルの教育に革命をもたらす可能性を明らかにする。

Motor skills, especially fine motor skills like handwriting, play an essential role in academic pursuits and everyday life. Traditional methods to teach these skills, although effective, can be time-consuming and inconsistent. With the rise of advanced technologies like robotics and artificial intelligence, there is increasing interest in automating such teaching processes using these technologies, via human-robot and human-computer interactions. In this study, we examine the potential of a virtual AI teacher in emulating the techniques of human educators for motor skill acquisition. We introduce an AI teacher model that captures the distinct characteristics of human instructors. Using a Reinforcement Learning environment tailored to mimic teacher-learner interactions, we tested our AI model against four guiding hypotheses, emphasizing improved learner performance, enhanced rate of skill acquisition, and reduced variability in learning outcomes. Our findings, validated on synthetic learners, revealed significant improvements across all tested hypotheses. Notably, our model showcased robustness across different learners and settings and demonstrated adaptability to handwriting. This research underscores the potential of integrating Reinforcement Learning and Imitation Learning models with robotics in revolutionizing the teaching of critical motor skills.
翻訳日:2023-10-17 14:56:49 公開日:2023-10-16
# 文脈モデルを用いた半教師付き群衆数--群衆シーンの総合的理解を促進する

Semi-Supervised Crowd Counting with Contextual Modeling: Facilitating Holistic Understanding of Crowd Scenes ( http://arxiv.org/abs/2310.10352v1 )

ライセンス: Link先を確認
Yifei Qian, Xiaopeng Hong, Ognjen Arandjelovi\'c, Zhongliang Guo, Carl R.Donovan(参考訳) そこで本研究では,信頼度の高い群集数モデルの訓練に要する重度アノテーション負荷を軽減し,より多くのデータを活用することで,モデルをより実践的かつ正確にするため,教師の枠組みに基づいた新たな半教師方式を提案する。 ラベル付きデータが不足している場合には、ローカルパッチに過度に適合する傾向にある。 このような状況下では、ラベルなしデータによる局所パッチ予測の精度を単に改善する従来のアプローチは不十分である。 そこで本研究では,モデル固有の「従属化」能力の育成という,よりニュアンスなアプローチを提案する。 この能力により、モデルは群衆シーンの理解を活用し、人間の認知過程を反映することで、地域の数を正確に見積もることができる。 この目的を達成するために、ラベルのないデータにマスキングを適用し、それらのマスキングされたパッチの予測をモデルに導く。 さらに,特徴学習を支援するために,細粒度密度分類タスクを組み込んだ。 本手法は,厳密な構造的制約や損失の制約がないため,既存手法の多くに適用可能である。 さらに、このフレームワークでトレーニングされたモデルが‘サブシタイズ’的な振る舞いを示すことも観察します。 高密度領域の予測に局所的な細部を取り入れつつ,"グレース"のみで低密度領域を正確に予測する。 提案手法は,上海技術AやUCF-QNRFといった挑戦的なベンチマークにおいて,従来のアプローチをはるかに上回り,最先端の性能を実現する。 コードはhttps://github.com/cha15yq/mrc-crowdで入手できる。

To alleviate the heavy annotation burden for training a reliable crowd counting model and thus make the model more practicable and accurate by being able to benefit from more data, this paper presents a new semi-supervised method based on the mean teacher framework. When there is a scarcity of labeled data available, the model is prone to overfit local patches. Within such contexts, the conventional approach of solely improving the accuracy of local patch predictions through unlabeled data proves inadequate. Consequently, we propose a more nuanced approach: fostering the model's intrinsic 'subitizing' capability. This ability allows the model to accurately estimate the count in regions by leveraging its understanding of the crowd scenes, mirroring the human cognitive process. To achieve this goal, we apply masking on unlabeled data, guiding the model to make predictions for these masked patches based on the holistic cues. Furthermore, to help with feature learning, herein we incorporate a fine-grained density classification task. Our method is general and applicable to most existing crowd counting methods as it doesn't have strict structural or loss constraints. In addition, we observe that the model trained with our framework exhibits a 'subitizing'-like behavior. It accurately predicts low-density regions with only a 'glance', while incorporating local details to predict high-density regions. Our method achieves the state-of-the-art performance, surpassing previous approaches by a large margin on challenging benchmarks such as ShanghaiTech A and UCF-QNRF. The code is available at: https://github.com/cha15yq/MRC-Crowd.
翻訳日:2023-10-17 14:48:27 公開日:2023-10-16
# B5Gネットワークにおける準曲面のアンロック:AI支援RIS計画

Unlocking Metasurface Practicality for B5G Networks: AI-assisted RIS Planning ( http://arxiv.org/abs/2310.10330v1 )

ライセンス: Link先を確認
Guillermo Encinas-Lago, Antonio Albanese, Vincenzo Sciancalepore, Marco Di Renzo, Xavier Costa-P\'erez(参考訳) 再構成可能なインテリジェントサーフェス(ris)の出現は、第5世代ネットワーク(b5g)に近づいたワイヤレス技術の大幅な改善をもたらす。 伝搬環境への影響が証明された柔軟性は、無線チャネルをネットワークデザイナの利点にプログラム的に変更する可能性を高め、これらの周波数帯域における難易度(EM)伝搬特性を克服するための高い周波数帯域の活用を可能にする。 しかし、RISは魔法の弾丸ではない。 彼らの雇用にはかなりの複雑さがあり、アドホックな展開と管理業務が実を結ぶ必要がある。 本稿では、RISを現場に持ち込むというオープンな問題に取り組み、ほとんど、あるいは全くカバーしない領域に焦点をあてる。 実際に,DRLエージェントを訓練し,次に最適なRIS配置を得るD-RISA(D-RISA)と呼ばれる,第一種深層強化学習(DRL)ソリューションを提案する。 我々は,フランスのレンヌ駅の屋内シナリオにおいて,最先端(soa)アプローチに対するアルゴリズムの性能評価を行い,その枠組みを検証する。 我々のベンチマークでは、より少ない計算時間(最大-25%)で10-dBの最小信号対雑音比(SNR)の増加と、より高密度なネットワーク展開へのスケーラビリティの向上が示されている。

The advent of reconfigurable intelligent surfaces(RISs) brings along significant improvements for wireless technology on the verge of beyond-fifth-generation networks (B5G).The proven flexibility in influencing the propagation environment opens up the possibility of programmatically altering the wireless channel to the advantage of network designers, enabling the exploitation of higher-frequency bands for superior throughput overcoming the challenging electromagnetic (EM) propagation properties at these frequency bands. However, RISs are not magic bullets. Their employment comes with significant complexity, requiring ad-hoc deployments and management operations to come to fruition. In this paper, we tackle the open problem of bringing RISs to the field, focusing on areas with little or no coverage. In fact, we present a first-of-its-kind deep reinforcement learning (DRL) solution, dubbed as D-RISA, which trains a DRL agent and, in turn, obtain san optimal RIS deployment. We validate our framework in the indoor scenario of the Rennes railway station in France, assessing the performance of our algorithm against state-of-the-art (SOA) approaches. Our benchmarks showcase better coverage, i.e., 10-dB increase in minimum signal-to-noise ratio (SNR), at lower computational time (up to -25 percent) while improving scalability towards denser network deployments.
翻訳日:2023-10-17 14:48:01 公開日:2023-10-16
# 超低ビットレートでの完全リアリズムによる画像圧縮

Towards image compression with perfect realism at ultra-low bitrates ( http://arxiv.org/abs/2310.10325v1 )

ライセンス: Link先を確認
Marl\`ene Careil, Matthew J. Muckley, Jakob Verbeek, St\'ephane Lathuili\`ere(参考訳) イメージコーデックは通常、ビットレート対歪みメトリクスのトレードオフに最適化される。 低ビットレートでは、知覚的または逆向きの損失を伴うトレーニングであっても、容易に知覚できる圧縮アーティファクトに繋がる。 画像品質の向上とビットレートへの依存の軽減を目的として,ほとんどのニューラルコーデックでMSEやLPIPSの歪みを訓練したフィードフォワードデコーダの代わりに,反復拡散モデルを用いてデコードすることを提案する。 ベクトル量子化画像表現にモデルを条件付けすることに加えて、グローバルなテキスト画像記述にも条件を定め、追加のコンテキストを提供する。 当社のモデルPerCoを"知覚圧縮(perceptual compression)"としてダブし、最先端コーデックを0.1から0.003ビット/ピクセルのレートで比較します。 後者の比率は、ほとんどの以前の作業で考慮されたものよりも桁違いに小さい。 このビットレートでは、512x768kodak画像は153バイト未満でエンコードされる。 超低ビットレートにもかかわらず、このアプローチは現実的なイメージを再構築する能力を維持している。 FIDとKIDによって測定された現状の視覚的品質が再現され,従来の方法よりも視覚的品質がビットレートに依存しないことがわかった。

Image codecs are typically optimized to trade-off bitrate vs, distortion metrics. At low bitrates, this leads to compression artefacts which are easily perceptible, even when training with perceptual or adversarial losses. To improve image quality, and to make it less dependent on the bitrate, we propose to decode with iterative diffusion models, instead of feed-forward decoders trained using MSE or LPIPS distortions used in most neural codecs. In addition to conditioning the model on a vector-quantized image representation, we also condition on a global textual image description to provide additional context. We dub our model PerCo for 'perceptual compression', and compare it to state-of-the-art codecs at rates from 0.1 down to 0.003 bits per pixel. The latter rate is an order of magnitude smaller than those considered in most prior work. At this bitrate a 512x768 Kodak image is encoded in less than 153 bytes. Despite this ultra-low bitrate, our approach maintains the ability to reconstruct realistic images. We find that our model leads to reconstructions with state-of-the-art visual quality as measured by FID and KID, and that the visual quality is less dependent on the bitrate than previous methods.
翻訳日:2023-10-17 14:47:35 公開日:2023-10-16
# ブドウコプラを用いた後期凍土および干ばつの一変量・二変量リスクの評価:バイエルンにおける歴史的研究

Assessing univariate and bivariate risks of late-frost and drought using vine copulas: A historical study for Bavaria ( http://arxiv.org/abs/2310.10324v1 )

ライセンス: Link先を確認
Marija Tepegjozova, Benjamin F. Meyer, Anja Rammig, Christian S. Zang and Claudia Czado(参考訳) 極度の干ばつや後期凍土などの森林への気候変動の影響を踏まえて、1952年から2020年にかけてドイツバイエルン州で一変量の干ばつと後期凍土リスクを評価し、共同リスク分析を行った。 26の生物気候変数と地形変数からなる膨大なデータセットを用いて,データの非ガウス性および非対称性によるvine copulaモデルを採用している。 二変量解析にはd-vine回帰法とy-vine回帰法を用い、それに対応する二変量および二変量条件付き確率リスク尺度を提案する。 我々は「リスク地域」を特定し,気候変動による森林適応の必要性を強調した。

In light of climate change's impacts on forests, including extreme drought and late-frost, leading to vitality decline and regional forest die-back, we assess univariate drought and late-frost risks and perform a joint risk analysis in Bavaria, Germany, from 1952 to 2020. Utilizing a vast dataset with 26 bioclimatic and topographic variables, we employ vine copula models due to the data's non-Gaussian and asymmetric dependencies. We use D-vine regression for univariate and Y-vine regression for bivariate analysis, and propose corresponding univariate and bivariate conditional probability risk measures. We identify "at-risk" regions, emphasizing the need for forest adaptation due to climate change.
翻訳日:2023-10-17 14:47:13 公開日:2023-10-16
# 双方向言語モデル編集による逆転的呪いの解消

Untying the Reversal Curse via Bidirectional Language Model Editing ( http://arxiv.org/abs/2310.10322v1 )

ライセンス: Link先を確認
Jun-Yu Ma, Jia-Chen Gu, Zhen-Hua Ling, Quan Liu, Cong Liu(参考訳) 近年の研究では、大規模言語モデル(LLM)がパラメータ内に膨大な事実知識を蓄積していることが示されている。 しかし、既存のLSMは、誤ったまたは時代遅れの知識のために意図しないテキストを幻覚させる傾向がある。 LLMの再学習は資源集約的であるため、モデル編集の概念への関心が高まっている。 ベンチマークやアプローチの出現にもかかわらず、この一方向の編集と評価は逆の呪いを探求することはできなかった。 直感的には、もし「フランスの首都」がモデル内の反ファクト「ロンドン」として編集された場合、逆の事実、すなわち「ロンドンは首都」を「イングランド」の代わりに「フランス」として、自然に推論し、思い出させることができるはずである。 本稿では, 双方向言語モデル編集について検討し, 厳密なモデル編集評価を提供することにより, 編集されたLLMが双方向の知識を記憶できるかどうかを評価する。 新たな可逆性評価指標を導入し、編集の逆方向の知識を想起する際の編集モデルの可逆性を評価するために、BAKE(Bidirectional Assessment for Knowledge Editing)と呼ばれるベンチマークを構築した。 我々は,現在の編集方法やllmが,編集方向の編集事実を効果的にリコールできるのに対して,逆方向の評価では深刻な欠陥が生じているのを意外に観察する。 逆の呪いを軽減するため,BIRD (Bidirectionally Inversible Relationship moDeling) という手法が提案されている。 対象物と対象物の双方向関係を更新されたモデル重みに組み込んだ編集対象セットを設計する。 実験の結果,BIRD は質問応答と判断により,異なる大きさの 4 種類の LLM の性能を向上させることが示された。

Recent studies have demonstrated that large language models (LLMs) store massive factual knowledge within their parameters. But existing LLMs are prone to hallucinate unintended text due to false or outdated knowledge. Since retraining LLMs is resource intensive, there has been a growing interest in the concept of model editing. Despite the emergence of benchmarks and approaches, these unidirectional editing and evaluation have failed to explore the reversal curse. Intuitively, if "The capital of France is" is edited to be a counterfact "London" within a model, then it should be able to naturally reason and recall the reverse fact, i.e., "London is the capital of" followed by "France" instead of "England". In this paper, we study bidirectional language model editing, aiming to provide rigorous model editing evaluation to assess if edited LLMs can recall the editing knowledge bidirectionally. A new evaluation metric of reversibility is introduced, and a benchmark dubbed as Bidirectional Assessment for Knowledge Editing (BAKE) is constructed to evaluate the reversibility of edited models in recalling knowledge in the reverse direction of editing. We surprisingly observe that while current editing methods and LLMs can effectively recall editing facts in the direction of editing, they suffer serious deficiencies when evaluated in the reverse direction. To mitigate the reversal curse, a method named Bidirectionally Inversible Relationship moDeling (BIRD) is proposed. A set of editing objectives that incorporate bidirectional relationships between subject and object into the updated model weights are designed. Experiments show that BIRD improves the performance of four representative LLMs of different sizes via question answering and judgement.
翻訳日:2023-10-17 14:46:57 公開日:2023-10-16
# ハミングエンコーダ:離散シーケンス分類のためのマイニング判別k-mer

Hamming Encoder: Mining Discriminative k-mers for Discrete Sequence Classification ( http://arxiv.org/abs/2310.10321v1 )

ライセンス: Link先を確認
Junjie Dong, Mudi Jiang, Lianyu Hu, Zengyou He(参考訳) シーケンス分類は様々な分野に応用されている。 過去数十年にわたる広範な研究にもかかわらず、特にパターンベースの手法では、多くの課題が残っている。 既存のパターンベースの手法では、マイニングの過程で個々の特徴の識別能力を測定し、特徴と識別力の組み合わせを欠く結果となる。 さらに、シーケンスを特徴ベクトルに変換した後、全体的な識別性能を確保することは困難である。 これらの課題に対処するために,二元化1次元畳み込みニューラルネットワーク(1dcnn)アーキテクチャを用いて識別k-mer集合をマイニングするhamming encoderと呼ばれる新しい手法を提案する。 特に,ハミング距離に基づく類似度尺度を採用し,特徴採鉱・分類手順の整合性を確保する。 本手法は,シーケンシャルデータのための解釈可能なcnnエンコーダを訓練し,識別k-mer組合せの勾配に基づく探索を行う。 実験により,本論文で提案するハミングエンコーダ法は,従来の最先端の手法よりも分類精度が優れていることを示した。

Sequence classification has numerous applications in various fields. Despite extensive studies in the last decades, many challenges still exist, particularly in pattern-based methods. Existing pattern-based methods measure the discriminative power of each feature individually during the mining process, leading to the result of missing some combinations of features with discriminative power. Furthermore, it is difficult to ensure the overall discriminative performance after converting sequences into feature vectors. To address these challenges, we propose a novel approach called Hamming Encoder, which utilizes a binarized 1D-convolutional neural network (1DCNN) architecture to mine discriminative k-mer sets. In particular, we adopt a Hamming distance-based similarity measure to ensure consistency in the feature mining and classification procedure. Our method involves training an interpretable CNN encoder for sequential data and performing a gradient-based search for discriminative k-mer combinations. Experiments show that the Hamming Encoder method proposed in this paper outperforms existing state-of-the-art methods in terms of classification accuracy.
翻訳日:2023-10-17 14:46:28 公開日:2023-10-16
# ドローン群を用いた葉間目標検出のための適応粒子群最適化

Adaptive Particle Swarm Optimization for through-foliage target detection with drone swarms ( http://arxiv.org/abs/2310.10320v1 )

ライセンス: Link先を確認
Julia P\"oschl(参考訳) この研究は、空中観測者による植生を捕捉した目標を自律的に検出する取り組みに寄与する。 空中光学分割(AOS)ドローン群に対するPSO(Particle Swarm Optimization)戦略に関する以前の研究を調査・強化している。 まず,この手法の2つの問題を特定し,デフォルトの走査パターンに対する散乱線と投影線の位置のリーダ安定化による解決を提案する。 第2に、この手法を他のPSO亜種に接続し、適応型PSO(APSO)の考え方に基づくAOSドローン群に対する新しい適応型PSO戦略を示す。

This work contributes to efforts on autonomously detecting a vegetation-occluded target by airborne observers. It investigates and enhances previous work on a Particle Swarm Optimization (PSO) strategy for Airborne Optical Sectioning (AOS) drone swarms. First, it identifies two issues with that method and proposes to resolve them by a leader stabilization for its scattering and projection-based line positions for its default scanning pattern. Second, it connects this method to other PSO variants and presents a new adaptive PSO strategy for AOS drone swarms that draws on the ideas of Adaptive PSO (APSO).
翻訳日:2023-10-17 14:46:09 公開日:2023-10-16
# マルチタスク学習における多面的注意の解釈と展開

Interpreting and Exploiting Functional Specialization in Multi-Head Attention under Multi-task Learning ( http://arxiv.org/abs/2310.10318v1 )

ライセンス: Link先を確認
Chong Li, Shaonan Wang, Yunhao Zhang, Jiajun Zhang, Chengqing Zong(参考訳) トランスフォーマーベースのモデルは、下流のタスクで超人的なパフォーマンスを達成するにもかかわらず、しばしばブラックボックスと見なされ、全体として使用される。 彼らが学んだメカニズム、特に彼らのコアモジュールは、マルチヘッドの注意である。 複数のタスクを効率的に処理するための人間の脳の機能的特殊化に触発されて、マルチヘッドアテンションモジュールがマルチタスクトレーニングで同様の機能分離を進化させるかどうかを見極めようとしている。 もしそうなら、このメカニズムはモデルパフォーマンスをさらに改善できるのだろうか? そこで本研究では,機能的特殊化の度合いを定量化する解釈手法を提案する。 さらに,マルチタスク学習において,機能的特化を高め,負の情報伝達を軽減するための簡易なマルチタスク学習手法を提案する。 7つの事前学習型トランスフォーマーモデルによる実験結果から,タスクの類似性に影響されるマルチタスクトレーニング後に,マルチヘッドアテンションが機能的特殊化現象を進化させることが示された。 さらに,機能特化に基づくマルチタスクトレーニング戦略により,パラメータを追加することなく,マルチタスク学習とトランスファー学習の両方のパフォーマンスが向上する。

Transformer-based models, even though achieving super-human performance on several downstream tasks, are often regarded as a black box and used as a whole. It is still unclear what mechanisms they have learned, especially their core module: multi-head attention. Inspired by functional specialization in the human brain, which helps to efficiently handle multiple tasks, this work attempts to figure out whether the multi-head attention module will evolve similar function separation under multi-tasking training. If it is, can this mechanism further improve the model performance? To investigate these questions, we introduce an interpreting method to quantify the degree of functional specialization in multi-head attention. We further propose a simple multi-task training method to increase functional specialization and mitigate negative information transfer in multi-task learning. Experimental results on seven pre-trained transformer models have demonstrated that multi-head attention does evolve functional specialization phenomenon after multi-task training which is affected by the similarity of tasks. Moreover, the multi-task training strategy based on functional specialization boosts performance in both multi-task learning and transfer learning without adding any parameters.
翻訳日:2023-10-17 14:46:00 公開日:2023-10-16
# 量子機械学習に関するサーベイ:最近の動向,課題,機会,道の先

A Survey on Quantum Machine Learning: Current Trends, Challenges, Opportunities, and the Road Ahead ( http://arxiv.org/abs/2310.10315v1 )

ライセンス: Link先を確認
Kamila Zaman and Alberto Marchisio and Muhammad Abdullah Hanif and Muhammad Shafique(参考訳) 量子コンピューティング(QC)は、古典的な計算に比べて複雑な問題を解く効率を改善すると主張している。 QCが機械学習(ML)アプリケーションに適用されると、量子機械学習(QML)システムを形成する。 本稿では、QCの基本概念と古典コンピューティングに対する優位性について論じ、QMLの重要な側面を包括的にレビューする。 異なるQMLアルゴリズムとそのドメイン適用性、量子データセット、ハードウェア技術、ソフトウェアツール、シミュレータ、アプリケーションについて議論する。 本調査では,QML分野の最先端技術に参入する上で,読者にとって貴重な情報とリソースを提供する。

Quantum Computing (QC) claims to improve the efficiency of solving complex problems, compared to classical computing. When QC is applied to Machine Learning (ML) applications, it forms a Quantum Machine Learning (QML) system. After discussing the basic concepts of QC and its advantages over classical computing, this paper reviews the key aspects of QML in a comprehensive manner. We discuss different QML algorithms and their domain applicability, quantum datasets, hardware technologies, software tools, simulators, and applications. In this survey, we provide valuable information and resources for readers to jumpstart into the current state-of-the-art techniques in the QML field.
翻訳日:2023-10-17 14:45:42 公開日:2023-10-16
# 血糖コントロールのためのエンドツーエンドオフライン強化学習

End-to-end Offline Reinforcement Learning for Glycemia Control ( http://arxiv.org/abs/2310.10312v1 )

ライセンス: Link先を確認
Tristan Beolet, Alice Adenis, Erik Huneker, Maxime Louis(参考訳) I型糖尿病における血糖コントロールのためのクローズドループシステムの開発はシミュレーション患者に大きく依存している。 これらのクローズループの性能と適応性を改善することで、シミュレータのオーバーフィットのリスクが高まる。 これは、特にシミュレーターによって全キャプチャーで忠実に捉えられていない異常なケースにおいて、恐ろしい結果をもたらす可能性がある。 そこで本研究では,実際の患者データに基づいてトレーニングしたオフラインrlエージェントを用いて血糖コントロールを行うことを提案する。 そこで本研究では,糖尿病の臨床的関連指標を評価しながら,オフライン政策評価手法を用いてシミュレータの必要性を完全に排除するエンド・ツー・エンドのパーソナライズパイプラインを提案する。

The development of closed-loop systems for glycemia control in type I diabetes relies heavily on simulated patients. Improving the performances and adaptability of these close-loops raises the risk of over-fitting the simulator. This may have dire consequences, especially in unusual cases which were not faithfully-if at all-captured by the simulator. To address this, we propose to use offline RL agents, trained on real patient data, to perform the glycemia control. To further improve the performances, we propose an end-to-end personalization pipeline, which leverages offline-policy evaluation methods to remove altogether the need of a simulator, while still enabling an estimation of clinically relevant metrics for diabetes.
翻訳日:2023-10-17 14:45:30 公開日:2023-10-16
# 腕の同定のための任意のアルゴリズム

An Anytime Algorithm for Good Arm Identification ( http://arxiv.org/abs/2310.10359v1 )

ライセンス: Link先を確認
Marc Jourdan and Cl\'emence R\'eda(参考訳) good arm identification (gai) では、もし存在すれば、平均的な性能が所定のしきい値を超える1つのアームを識別することが目的である。 固定予算設定でGAIを研究する作業はほとんどなく、サンプリング予算が事前に固定されている場合や、いつでもレコメンデーションを問うことができる場合などは少ない。 本稿では,確率帯域におけるGAIのリアルタイム・パラメータフリーサンプリングルールであるAPGAIを提案する。 APGAIは、固定信頼と固定予算設定で簡単に使用できる。 まず、いつでもその誤差の確率に基づいて上限を導出する。 適応戦略は、一様サンプリングよりも優れた腕の欠如を検出するのに効率的であることを示す。 第二に, apgai が停止規則と組み合わされた場合, 任意の信頼度レベルを保ちながら, 推定サンプリング複雑性の上界が証明される。 最後に,APGAIの合成および実世界のデータに対する良好な実験性能を示す。 当社の作業は、すべての設定でGAI問題の概要を提供しています。

In good arm identification (GAI), the goal is to identify one arm whose average performance exceeds a given threshold, referred to as good arm, if it exists. Few works have studied GAI in the fixed-budget setting, when the sampling budget is fixed beforehand, or the anytime setting, when a recommendation can be asked at any time. We propose APGAI, an anytime and parameter-free sampling rule for GAI in stochastic bandits. APGAI can be straightforwardly used in fixed-confidence and fixed-budget settings. First, we derive upper bounds on its probability of error at any time. They show that adaptive strategies are more efficient in detecting the absence of good arms than uniform sampling. Second, when APGAI is combined with a stopping rule, we prove upper bounds on the expected sampling complexity, holding at any confidence level. Finally, we show good empirical performance of APGAI on synthetic and real-world data. Our work offers an extensive overview of the GAI problem in all settings.
翻訳日:2023-10-17 14:39:18 公開日:2023-10-16
# llmsにおける表表現, 雑音演算子, および表構造理解タスクへの影響

Tabular Representation, Noisy Operators, and Impacts on Table Structure Understanding Tasks in LLMs ( http://arxiv.org/abs/2310.10358v1 )

ライセンス: Link先を確認
Ananya Singha, Jos\'e Cambronero, Sumit Gulwani, Vu Le, Chris Parnin(参考訳) 大規模言語モデル(llm)は、インコンテキスト学習を用いた表型タスクにますます適用されている。 テーブルのプロンプト表現は、テーブルを処理できるllms機能で役割を担っているかもしれない。 先行作業に触発されて,自己教師付き構造タスク(セルや行へのナビゲート,テーブルの変換など)のコレクションを生成し,8つのフォーマットを使用する場合のパフォーマンスの違いを評価します。 過去の研究とは対照的に,現実の乱雑なデータや逆入力にインスパイアされた8つのノイズ操作を導入し,そのような操作が,異なる構造的理解タスクのためのフォーマット間のLLM性能に影響を与えることを示す。

Large language models (LLMs) are increasingly applied for tabular tasks using in-context learning. The prompt representation for a table may play a role in the LLMs ability to process the table. Inspired by prior work, we generate a collection of self-supervised structural tasks (e.g. navigate to a cell and row; transpose the table) and evaluate the performance differences when using 8 formats. In contrast to past work, we introduce 8 noise operations inspired by real-world messy data and adversarial inputs, and show that such operations can impact LLM performance across formats for different structural understanding tasks.
翻訳日:2023-10-17 14:39:03 公開日:2023-10-16
# 3次元オブジェクト検出のためのマルチモーダルオブジェクトクエリ初期化

Multimodal Object Query Initialization for 3D Object Detection ( http://arxiv.org/abs/2310.10353v1 )

ライセンス: Link先を確認
Mathijs R. van Geerenstein, Felicia Ruppel, Klaus Dietmayer, Dariu M. Gavrila(参考訳) lidarとカメラセンサー機能を利用する3dオブジェクト検出モデルは、大規模な自動運転ベンチマークでトップパフォーマーです。 トランスは、このタスクに使用される一般的なネットワークアーキテクチャであり、いわゆるオブジェクトクエリが候補オブジェクトとして機能する。 現在のセンサ入力に基づいてこれらのオブジェクトクエリを初期化するのが一般的である。 そのため、既存の手法はLiDARデータに強く依存しており、画像の特徴を完全に活用していない。 さらに、大幅なレイテンシーも導入している。 これらの制限を克服するために、トランスフォーマーベースの3dオブジェクト検出モデルのオブジェクトクエリ初期化のための効率的でモジュラーでマルチモーダルなソリューションである efficientq3m を提案する。 提案手法は"モダリティバランス"トランスデコーダと組み合わされ,クエリはデコーダ全体のセンサモダリティすべてにアクセスできる。 実験では、コントラストnuScenesベンチマークにおいて、トランスフォーマーに基づくLiDARオブジェクト検出技術よりも優れ、入力依存型マルチモーダルクエリ初期化の利点を示すとともに、LiDARカメラの初期化のための選択肢よりも効率的である。 提案手法は,任意のセンサモダリティの組み合わせを入力として適用でき,そのモジュラリティを示すことができる。

3D object detection models that exploit both LiDAR and camera sensor features are top performers in large-scale autonomous driving benchmarks. A transformer is a popular network architecture used for this task, in which so-called object queries act as candidate objects. Initializing these object queries based on current sensor inputs is a common practice. For this, existing methods strongly rely on LiDAR data however, and do not fully exploit image features. Besides, they introduce significant latency. To overcome these limitations we propose EfficientQ3M, an efficient, modular, and multimodal solution for object query initialization for transformer-based 3D object detection models. The proposed initialization method is combined with a "modality-balanced" transformer decoder where the queries can access all sensor modalities throughout the decoder. In experiments, we outperform the state of the art in transformer-based LiDAR object detection on the competitive nuScenes benchmark and showcase the benefits of input-dependent multimodal query initialization, while being more efficient than the available alternatives for LiDAR-camera initialization. The proposed method can be applied with any combination of sensor modalities as input, demonstrating its modularity.
翻訳日:2023-10-17 14:38:51 公開日:2023-10-16
# 完全準同型暗号における効率的なプライベート推論のための階層多項式近似の最適化:動的計画法アプローチ

Optimizing Layerwise Polynomial Approximation for Efficient Private Inference on Fully Homomorphic Encryption: A Dynamic Programming Approach ( http://arxiv.org/abs/2310.10349v1 )

ライセンス: Link先を確認
Junghyun Lee, Eunsang Lee, Young-Sik Kim, Yongwoo Lee, Joon-Woo Lee, Yongjune Kim, Jong-Seon No(参考訳) 近年,完全同型暗号のみを用いたプライバシー保護型ディープニューラルネットワークの実装について検討している。 しかし、推論時間が長かったため実用性は限られている。 トレーニングなしの事前学習モデルを使用する場合、これらの長期推論時間に寄与する主要な要因は、ReLU関数のような活性化関数の高次多項式近似である。 高次近似はかなりの量の準同型計算資源を消費し、推論が遅くなる。 本稿では,活性化関数を一様・一様・一様に近似する従来の手法と異なり,各層の特徴を考慮し,分類精度を維持しつつ,推定時間を積極的に削減する,活性化関数の次数最適化を提案する。 最先端のプライベート推論モデルでよく用いられるミニマックス近似の代わりに、活性化関数の入力分布を持つ重み付き最小二乗近似法を用いる。 次に、各層の近似誤差がディープニューラルネットワークの分類精度にどのように影響するかを考慮して、emph{dynamic programming}アルゴリズムによる活性化関数の層別最適化度を求める。 さらに,推定時間を短縮するために,暗号文のモジュラーチェーンを階層的に変調する手法を提案する。 これらの階層最適化手法により、一様次多項式と一貫した暗号文係数を用いた先行実装と比較して、ResNet-20モデルとResNet-32モデルの推論時間をそれぞれ3.44倍と3.16倍に削減できる。

Recent research has explored the implementation of privacy-preserving deep neural networks solely using fully homomorphic encryption. However, its practicality has been limited because of prolonged inference times. When using a pre-trained model without retraining, a major factor contributing to these prolonged inference times is the high-degree polynomial approximation of activation functions such as the ReLU function. The high-degree approximation consumes a substantial amount of homomorphic computational resources, resulting in slower inference. Unlike the previous works approximating activation functions uniformly and conservatively, this paper presents a \emph{layerwise} degree optimization of activation functions to aggressively reduce the inference time while maintaining classification accuracy by taking into account the characteristics of each layer. Instead of the minimax approximation commonly used in state-of-the-art private inference models, we employ the weighted least squares approximation method with the input distributions of activation functions. Then, we obtain the layerwise optimized degrees for activation functions through the \emph{dynamic programming} algorithm, considering how each layer's approximation error affects the classification accuracy of the deep neural network. Furthermore, we propose modulating the ciphertext moduli-chain layerwise to reduce the inference time. By these proposed layerwise optimization methods, we can reduce inference times for the ResNet-20 model and the ResNet-32 model by 3.44 times and 3.16 times, respectively, in comparison to the prior implementations employing uniform degree polynomials and a consistent ciphertext modulus.
翻訳日:2023-10-17 14:38:28 公開日:2023-10-16
# 帰属パッチは自動回路発見に勝る

Attribution Patching Outperforms Automated Circuit Discovery ( http://arxiv.org/abs/2310.10348v1 )

ライセンス: Link先を確認
Aaquib Syed, Can Rager, Arthur Conmy(参考訳) 自動解釈可能性の研究は、ニューラルネットワークの振る舞いを大規模モデルに拡張する研究の方向性として、最近注目を集めている。 既存の自動回路発見作業では、アクティベーションパッチを適用して特定のタスク(回路)を解決するサブネットワークを特定する。 本研究では,属性パッチに基づく単純な手法が,2つの前方パスと1つの後方パスを必要としながら,既存のすべての手法より優れていることを示す。 アクティベーションパッチングに線形近似を適用し,計算サブグラフにおける各エッジの重要性を推定する。 この近似を用いて、ネットワークの最も重要でないエッジを推定する。 我々は,本手法の性能と限界を調査し,我々の手法が回路回復からAUCが他の手法よりも大きいことを確かめた。

Automated interpretability research has recently attracted attention as a potential research direction that could scale explanations of neural network behavior to large models. Existing automated circuit discovery work applies activation patching to identify subnetworks responsible for solving specific tasks (circuits). In this work, we show that a simple method based on attribution patching outperforms all existing methods while requiring just two forward passes and a backward pass. We apply a linear approximation to activation patching to estimate the importance of each edge in the computational subgraph. Using this approximation, we prune the least important edges of the network. We survey the performance and limitations of this method, finding that averaged over all tasks our method has greater AUC from circuit recovery than other methods.
翻訳日:2023-10-17 14:38:03 公開日:2023-10-16
# エルゴトロピック熱機関の作業変動

Work fluctuations in ergotropic heat engines ( http://arxiv.org/abs/2310.10344v1 )

ライセンス: Link先を確認
Giovanni Chesi, Chiara Macchiavello and Massimiliano Federico Sacchi(参考訳) 2ストロークの量子オットーエンジン、すなわち2ストロークの量子オットーエンジンにおいて、熱ストロークは2つの異なる温度で2つの正準平衡の量子系からエルゴトロピー(循環ユニタリ進化による最大作業量)を抽出するように設計され、熱ストロークはそれぞれの貯水池に熱を戻す。 完全作業統計を導出することにより、エネルギー準位が2つの異なる周波数で等しく間隔づけられた2つのキュートリットについて、徹底的な研究を行う。 温度と周波数の値を変えることで、スワップ演算子$u_1$、アイドルスワップ$u_2$(クトリッツの1つが有効な量子ビットと見なされる)、エネルギー固有状態の非自明な置換$u_3$という3種類の最適ユニタリストロークしか見出されない。 U_1$と$U_2$はHermitianであるのに対して、$U_3$はそうではない。 この点が熱力学的不確実性関係(TURs)に影響を及ぼし、エントロピー生成の観点で抽出された作業の信号対雑音比を束縛する。 実際、強い詳細ゆらぎ定理から導かれる全ての TUR は変換 $U_3$ によって破られる。

We study the work fluctuations in ergotropic heat engines, namely two-strokes quantum Otto engines where the work stroke is designed to extract the ergotropy (the maximum amount of work by a cyclic unitary evolution) from a couple of quantum systems at canonical equilibrium at two different temperatures, whereas the heat stroke thermalizes back the systems to their respective reservoirs. We provide an exhaustive study for the case of two qutrits whose energy levels are equally spaced at two different frequencies by deriving the complete work statistics. By varying the values of temperatures and frequencies, only three kinds of optimal unitary strokes are found: the swap operator $U_1$, an idle swap $U_2$ (where one of the qutrits is regarded as an effective qubit), and a non trivial permutation of energy eigenstates $U_3$, which indeed corresponds to the composition of the two previous unitaries, namely $U_3=U_2 U_1$. While $U_1$ and $U_2$ are Hermitian (and hence involutions), $U_3$ is not. This point has an impact on the thermodynamic uncertainty relations (TURs) which bound the signal-to-noise ratio of the extracted work in terms of the entropy production. In fact, we show that all TURs derived from a strong detailed fluctuation theorem are violated by the transformation $U_3$.
翻訳日:2023-10-17 14:37:48 公開日:2023-10-16
# ConsistNet:マルチビュー画像拡散のための3D一貫性の実現

ConsistNet: Enforcing 3D Consistency for Multi-view Images Diffusion ( http://arxiv.org/abs/2310.10343v1 )

ライセンス: Link先を確認
Jiayu Yang, Ziang Cheng, Yunfei Duan, Pan Ji, Hongdong Li(参考訳) 3dオブジェクトの1つのイメージを与えられた場合、同一オブジェクトの複数のイメージを異なる視点から捉えるように生成できる新しい方法( consistnet と呼ばれる)を提案し、これら複数の生成された画像間の3d(マルチビュー)コンポジションを効果的に活用する。 本手法の中心はマルチビュー一貫性ブロックであり,マルチビュー幾何原理に基づく複数の単一ビュー拡散プロセス間の情報交換を可能にする。 ConsistNetは標準潜在拡散モデルの拡張であり、2つのサブモジュールから構成される。 (a)マルチビュー機能をグローバルな3Dボリュームに投影し、一貫性を推論するビューアグリゲーションモジュール b) 一貫性を強制するために、各ビューに3D一貫性のある機能をサンプリングして集約するレイアグリゲーションモジュール。 本手法は,事前学習したldmを,ピクセル対応や深度予測を必要とせずに容易にドロップインできるため,マルチビュー画像生成における従来の手法から逸脱している。 実験により, 凍結したZero123のバックボーン上での3次元一貫性を効果的に学習し, 単一のA100 GPU上で, 40秒以内で物体の周囲のビューを生成できることがわかった。 私たちのコードはhttps://github.com/JiayuYANG/ConsistNetで公開されます。

Given a single image of a 3D object, this paper proposes a novel method (named ConsistNet) that is able to generate multiple images of the same object, as if seen they are captured from different viewpoints, while the 3D (multi-view) consistencies among those multiple generated images are effectively exploited. Central to our method is a multi-view consistency block which enables information exchange across multiple single-view diffusion processes based on the underlying multi-view geometry principles. ConsistNet is an extension to the standard latent diffusion model, and consists of two sub-modules: (a) a view aggregation module that unprojects multi-view features into global 3D volumes and infer consistency, and (b) a ray aggregation module that samples and aggregate 3D consistent features back to each view to enforce consistency. Our approach departs from previous methods in multi-view image generation, in that it can be easily dropped-in pre-trained LDMs without requiring explicit pixel correspondences or depth prediction. Experiments show that our method effectively learns 3D consistency over a frozen Zero123 backbone and can generate 16 surrounding views of the object within 40 seconds on a single A100 GPU. Our code will be made available on https://github.com/JiayuYANG/ConsistNet
翻訳日:2023-10-17 14:37:17 公開日:2023-10-16
# 潜伏拡散におけるシーングラフコンディショニング

Scene Graph Conditioning in Latent Diffusion ( http://arxiv.org/abs/2310.10338v1 )

ライセンス: Link先を確認
Frank Fundel(参考訳) 拡散モデルは画像生成に優れるが、テキストプロンプトを用いた詳細な意味制御は欠如している。 この制限に対処する追加の技術が開発されている。 しかし,テキスト記述のみに基づく条件付拡散モデルは,曖昧性と構造不足のため困難である。 対照的に、シーングラフは画像コンテンツのより正確な表現を提供し、画像生成モデルにおけるきめ細かい制御と正確な合成に優れている。 画像とシーングラフのデータ量は少ないため、微調整された大きな拡散モデルが難しい。 ControlNetとGated Self-Attentionを使ってこの問題に対処する複数の手法を提案する。 提案手法を用いることで,より高品質なシーングラフから画像を生成することが可能であり,従来の手法よりも優れていた。 私たちのソースコードはhttps://github.com/FrankFundel/SGCondで公開されています。

Diffusion models excel in image generation but lack detailed semantic control using text prompts. Additional techniques have been developed to address this limitation. However, conditioning diffusion models solely on text-based descriptions is challenging due to ambiguity and lack of structure. In contrast, scene graphs offer a more precise representation of image content, making them superior for fine-grained control and accurate synthesis in image generation models. The amount of image and scene-graph data is sparse, which makes fine-tuning large diffusion models challenging. We propose multiple approaches to tackle this problem using ControlNet and Gated Self-Attention. We were able to show that using out proposed methods it is possible to generate images from scene graphs with much higher quality, outperforming previous methods. Our source code is publicly available on https://github.com/FrankFundel/SGCond
翻訳日:2023-10-17 14:36:52 公開日:2023-10-16
# 暗号資産規制のためのNLP:ロードマップ

NLP for Crypto-Asset Regulation: A Roadmap ( http://arxiv.org/abs/2310.10333v1 )

ライセンス: Link先を確認
Carolina Camassa(参考訳) 暗号資産の急速に発展する分野では、ホワイトペーパーは投資家の指導に欠かせない文書であり、現在はEUの暗号資産規制(MiCAR)の下で前例のない内容の要求を受けている。 自然言語処理は、これらの文書の分析と規制の遵守を支援する強力なツールとなり得る。 本稿ではこの話題に2つの貢献をする。 まず,無規制の暗号解読白書に対するテキスト解析の既存の応用を調査し,学際的コラボレーションに橋渡しできる研究のギャップを明らかにする。 次に、MiCARが導入した変更を分析し、新しい規制フレームワークにNLPを統合する機会と課題を強調します。 我々の発見はさらなる研究の舞台となり、規制当局、暗号通貨発行者、投資家に利益をもたらす可能性がある。

In the rapidly evolving field of crypto-assets, white papers are essential documents for investor guidance, and are now subject to unprecedented content requirements under the EU's Markets in Crypto-Assets Regulation (MiCAR). Natural Language Processing can serve as a powerful tool for both analyzing these documents and assisting in regulatory compliance. This paper delivers two contributions to the topic. First, we survey existing applications of textual analysis to unregulated crypto-asset white papers, uncovering a research gap that could be bridged with interdisciplinary collaboration. We then conduct an analysis of the changes introduced by MiCAR, highlighting the opportunities and challenges of integrating NLP within the new regulatory framework. Our findings set the stage for further research, with the potential to benefit regulators, crypto-asset issuers, and investors.
翻訳日:2023-10-17 14:36:41 公開日:2023-10-16
# 少数ショット分類のためのベイズメタラーニングにおけるロジスティックソフトマックス可能性の再検討

Revisiting Logistic-softmax Likelihood in Bayesian Meta-Learning for Few-Shot Classification ( http://arxiv.org/abs/2310.10379v1 )

ライセンス: Link先を確認
Tianjun Ke, Haoqun Cao, Zenan Ling, Feng Zhou(参考訳) メタラーニングは、事前知識を用いて新しい問題を解決することを学ぶことで、いくつかのショット分類(FSC)において有望な結果を示した。 ベイズ法は高リスク分野において重要なFSCの不確実性の特徴付けに有効である。 この文脈では、ロジスティック・ソフトマックス確率は条件共役性のために多クラスガウス過程分類におけるソフトマックス確率の代替としてしばしば用いられる。 しかし、ロジスティックソフトマックスの理論的な性質は明らかではなく、以前の研究はロジスティックソフトマックスの固有の不確かさが最適性能に繋がることを示した。 これらの問題を緩和するために、温度パラメータを通してtextit{a priori} 信頼度を制御できるロジスティック・ソフトマックスの可能性を再検討し、再考する。 さらに,ソフトマックスはロジスティック・ソフトマックスの特殊な場合と見なすことができ,ロジスティック・ソフトマックスはソフトマックスよりも大きなデータ分布を誘導することを示す。 修正ロジスティックソフトマックスを用いて,deep kernelベースのガウスプロセスメタラーニングフレームワークにデータ拡張技術を統合し,タスク固有の更新に対する解析平均場近似を導出する。 提案手法は、不確実性推定の精度が高く、標準ベンチマークデータセットで同等または優れた結果が得られる。 コードは \url{https://github.com/keanson/revisit-logistic-softmax} で公開されている。

Meta-learning has demonstrated promising results in few-shot classification (FSC) by learning to solve new problems using prior knowledge. Bayesian methods are effective at characterizing uncertainty in FSC, which is crucial in high-risk fields. In this context, the logistic-softmax likelihood is often employed as an alternative to the softmax likelihood in multi-class Gaussian process classification due to its conditional conjugacy property. However, the theoretical property of logistic-softmax is not clear and previous research indicated that the inherent uncertainty of logistic-softmax leads to suboptimal performance. To mitigate these issues, we revisit and redesign the logistic-softmax likelihood, which enables control of the \textit{a priori} confidence level through a temperature parameter. Furthermore, we theoretically and empirically show that softmax can be viewed as a special case of logistic-softmax and logistic-softmax induces a larger family of data distribution than softmax. Utilizing modified logistic-softmax, we integrate the data augmentation technique into the deep kernel based Gaussian process meta-learning framework, and derive an analytical mean-field approximation for task-specific updates. Our approach yields well-calibrated uncertainty estimates and achieves comparable or superior results on standard benchmark datasets. Code is publicly available at \url{https://github.com/keanson/revisit-logistic-softmax}.
翻訳日:2023-10-17 14:28:47 公開日:2023-10-16
# 多言語言語モデルにおける事実知識の言語間一貫性

Cross-Lingual Consistency of Factual Knowledge in Multilingual Language Models ( http://arxiv.org/abs/2310.10378v1 )

ライセンス: Link先を確認
Jirui Qi, Raquel Fern\'andez, Arianna Bisazza(参考訳) 多言語の大規模事前学習言語モデル(plm)は、かなりの量の事実知識を蓄積していることが示されているが、言語間で大きな変化が見られる。 異なる言語背景を持つユーザが同じモデルから一貫したフィードバックを得るための究極の目標として,多言語PLMにおける事実知識の言語間整合性(CLC)について検討する。 そこで我々は,言語間の知識の整合性を評価するために,RankC(Rank-based Consistency)尺度を提案する。 この測定値を用いて、モデルレベルと言語ペアレベルの両方において、CLCの決定因子の詳細な分析を行う。 以上の結果から,モデルサイズが大きくなると,言語間一貫性は向上しないものの,実測精度は高まることが判明した。 最後に,モデル編集により新たな事実関連をPLMに挿入する場合に,LCCのケーススタディを行う。 英語に挿入された事実の小さなサンプルの結果から、新しい知識の断片が、高いランクCスコアを持つ言語にのみ伝達される明確なパターンが明らかとなった。

Multilingual large-scale Pretrained Language Models (PLMs) have been shown to store considerable amounts of factual knowledge, but large variations are observed across languages. With the ultimate goal of ensuring that users with different language backgrounds obtain consistent feedback from the same model, we study the cross-lingual consistency (CLC) of factual knowledge in various multilingual PLMs. To this end, we propose a Ranking-based Consistency (RankC) metric to evaluate knowledge consistency across languages independently from accuracy. Using this metric, we conduct an in-depth analysis of the determining factors for CLC, both at model level and at language-pair level. Among other results, we find that increasing model size leads to higher factual probing accuracy in most languages, but does not improve cross-lingual consistency. Finally, we conduct a case study on CLC when new factual associations are inserted in the PLMs via model editing. Results on a small sample of facts inserted in English reveal a clear pattern whereby the new piece of knowledge transfers only to languages with which English has a high RankC score.
翻訳日:2023-10-17 14:27:46 公開日:2023-10-16
# 実用レーザー源からのコヒーレント光比の直接測定

Direct measurement of coherent light proportion from a practical laser source ( http://arxiv.org/abs/2310.10377v1 )

ライセンス: Link先を確認
Xi Jie Yeo, Eva Ernst, Alvin Leow, Jaesuk Hwang, Lijiong Shen, Christian Kurtsiefer, and Peng Kian Tan(参考訳) 本稿では, レーザ光源から放射される光におけるコヒーレント放射の比率を, スペクトルフィルタを使わずに推定する手法を提案する。 この技術は、非対称マッハ・ゼーダー干渉計の出力ポート間の干渉光子相関の測定に基づいている。 これにより、レーザーダイオードによって発光される光におけるコヒーレント発光の分画を、ラシングしきい値を通過する際に特徴付ける。

We present a technique to estimate the proportion of coherent emission in the light emitted by a practical laser source without spectral filtering. The technique is based on measuring interferometric photon correlations between the output ports of an asymmetric Mach-Zehnder interferometer. With this, we characterize the fraction of coherent emission in the light emitted by a laser diode when transiting through the lasing threshold.
翻訳日:2023-10-17 14:27:19 公開日:2023-10-16
# GTA:マルチビュートランスのための幾何学的注意機構

GTA: A Geometry-Aware Attention Mechanism for Multi-View Transformers ( http://arxiv.org/abs/2310.10375v1 )

ライセンス: Link先を確認
Takeru Miyato, Bernhard Jaeger, Max Welling, Andreas Geiger(参考訳) 変換器は入力トークンの置換に等しく、多くのタスクにはトークンの位置情報を符号化する必要がある。 しかし、既存の位置符号化方式は当初 nlp タスク用に設計されていたため、データの異なる構造的特性を示す視覚タスクに適しているかは疑問視されている。 既存の位置符号化方式は、基礎となる3次元幾何学的構造を尊重しないため、3次元視覚課題に最適である。 この仮説に基づいて,クエリとキー-値ペア間の幾何学的関係から決定される相対変換としてトークンの幾何学的構造を符号化する幾何学的注意機構を提案する。 広視野多視点設定における複数新しいビュー合成(NVS)データセットの評価により,幾何学変換注意(Geometric Transform Attention, GTA)と呼ばれる,新たな学習パラメータや計算オーバーヘッドを伴わずに,最先端のトランスフォーマーベースNVSモデルの学習効率と性能を向上させる。

As transformers are equivariant to the permutation of input tokens, encoding the positional information of tokens is necessary for many tasks. However, since existing positional encoding schemes have been initially designed for NLP tasks, their suitability for vision tasks, which typically exhibit different structural properties in their data, is questionable. We argue that existing positional encoding schemes are suboptimal for 3D vision tasks, as they do not respect their underlying 3D geometric structure. Based on this hypothesis, we propose a geometry-aware attention mechanism that encodes the geometric structure of tokens as relative transformation determined by the geometric relationship between queries and key-value pairs. By evaluating on multiple novel view synthesis (NVS) datasets in the sparse wide-baseline multi-view setting, we show that our attention, called Geometric Transform Attention (GTA), improves learning efficiency and performance of state-of-the-art transformer-based NVS models without any additional learned parameters and only minor computational overhead.
翻訳日:2023-10-17 14:27:08 公開日:2023-10-16
# グラフ分解学習に基づく多因子時空間予測

Multi-Factor Spatio-Temporal Prediction based on Graph Decomposition Learning ( http://arxiv.org/abs/2310.10374v1 )

ライセンス: Link先を確認
Jiahao Ji, Jingyuan Wang, Yu Mou, and Cheng Long(参考訳) 時空間(ST)予測は、特に交通データなどの都市システムにおけるSTデータにおいて、データマイニングや分析において重要かつ広く用いられる手法である。 実際には、STデータ生成は通常、自然現象や人間の社会経済活動に関連する様々な潜在要因に影響され、特定の空間領域に選択的に影響を及ぼす。 しかし、既存のST予測法は、通常、異なる要因の影響を洗練せず、複数の要因の絡み合った影響を直接モデル化する。 これにより、stデータのモデリングの複雑さが増幅され、モデル解釈性が損なわれる。 そこで本研究では,異なる要因下での部分stデータ進化を予測し,それらを組み合わせて最終予測を行う多要素st予測タスクを提案する。 効果的な理論解とポータブルインスタンス化フレームワークという,このタスクに2つの貢献をしています。 具体的には,まず,分解予測戦略(decomposed prediction strategy)と呼ばれる理論解を提案し,情報エントロピー理論の観点からその効果を証明する。 その上で,多要素ST予測のための時空間グラフ分解学習(STGDL)と呼ばれる新しいモデルに依存しないフレームワークをインスタンス化する。 フレームワークは、STデータに固有の元のグラフ構造を異なる因子に対応するサブグラフに分解する自動グラフ分解モジュールと、各サブグラフ上の部分STデータを別々に学習し、最終予測のためにそれらを統合する分解学習ネットワークとからなる。 2種類のグラフ、すなわちグリッドグラフとネットワークグラフの4つの実世界のstデータセットについて広範な実験を行う。 その結果,様々なstモデルの予測誤差を平均9.41%削減した(多くは35.36%)。 さらに,本フレームワークの解釈可能性についても検討した。

Spatio-temporal (ST) prediction is an important and widely used technique in data mining and analytics, especially for ST data in urban systems such as transportation data. In practice, the ST data generation is usually influenced by various latent factors tied to natural phenomena or human socioeconomic activities, impacting specific spatial areas selectively. However, existing ST prediction methods usually do not refine the impacts of different factors, but directly model the entangled impacts of multiple factors. This amplifies the modeling complexity of ST data and compromises model interpretability. To this end, we propose a multi-factor ST prediction task that predicts partial ST data evolution under different factors, and combines them for a final prediction. We make two contributions to this task: an effective theoretical solution and a portable instantiation framework. Specifically, we first propose a theoretical solution called decomposed prediction strategy and prove its effectiveness from the perspective of information entropy theory. On top of that, we instantiate a novel model-agnostic framework, named spatio-temporal graph decomposition learning (STGDL), for multi-factor ST prediction. The framework consists of two main components: an automatic graph decomposition module that decomposes the original graph structure inherent in ST data into subgraphs corresponding to different factors, and a decomposed learning network that learns the partial ST data on each subgraph separately and integrates them for the final prediction. We conduct extensive experiments on four real-world ST datasets of two types of graphs, i.e., grid graph and network graph. Results show that our framework significantly reduces prediction errors of various ST models by 9.41% on average (35.36% at most). Furthermore, a case study reveals the interpretability potential of our framework.
翻訳日:2023-10-17 14:26:48 公開日:2023-10-16
# Looping LOCI: ビデオからオブジェクト永続性を開発する

Looping LOCI: Developing Object Permanence from Videos ( http://arxiv.org/abs/2310.10372v1 )

ライセンス: Link先を確認
Manuel Traub, Frederic Becker, Sebastian Otte, Martin V. Butz(参考訳) 最近の構成的シーン表現学習モデルは、視覚的シーン内の異なるオブジェクトのセグメンテーションや追跡において著しく優れている。 しかし、これらのモデルの多くは、オブジェクトが連続的に、少なくとも部分的に可視であることを要求する。 さらに、直感的な物理テストでは失敗する傾向があり、幼児は人生の最初の数ヶ月で解決することを学ぶ。 我々のゴールは、幼児の発達に似た直感的な物理学の進歩的な学習を促進する組込みアルゴリズムで構成シーン表現アルゴリズムを進化させることである。 このようなアルゴリズムの基本コンポーネントとして、最近発表された未管理オブジェクトの位置、識別、追跡(Loci, Traub et al., ICLR 2023)を内部処理ループで導入するLoci-Loopedを紹介する。 このループは、ピクセル空間の情報と、情報融合アクティビティを知覚として生じる予測とを適応的にブレンドするように設計されている。 さらに、個々のオブジェクトのダイナミクスとオブジェクト間の相互作用のダイナミクスの合成表現を学ぶように設計されている。 loci-loopedは、オブジェクトのオクルージョンの長い期間を通してオブジェクトを追跡し、隠れた軌跡を実際にシミュレートし、明示的な履歴バッファを必要とせずに再出現を予想する。 Loci-LoopedがADEPTとCLEVRERデータセットの最先端モデルを上回るのは、オブジェクトの閉塞や一時的な知覚データ中断に直面している時です。 このことは、Loci-Loopedが、完全に教師なしの創発的な方法で、物体の永続性と慣性という物理的概念を学ぶことができることを示している。 他の構成的シーン表現学習モデルにおいても、内部ループのさらなるアーキテクチャ上の進歩は、近い将来に開発できると信じています。

Recent compositional scene representation learning models have become remarkably good in segmenting and tracking distinct objects within visual scenes. Yet, many of these models require that objects are continuously, at least partially, visible. Moreover, they tend to fail on intuitive physics tests, which infants learn to solve over the first months of their life. Our goal is to advance compositional scene representation algorithms with an embedded algorithm that fosters the progressive learning of intuitive physics, akin to infant development. As a fundamental component for such an algorithm, we introduce Loci-Looped, which advances a recently published unsupervised object location, identification, and tracking neural network architecture (Loci, Traub et al., ICLR 2023) with an internal processing loop. The loop is designed to adaptively blend pixel-space information with anticipations yielding information-fused activities as percepts. Moreover, it is designed to learn compositional representations of both individual object dynamics and between-objects interaction dynamics. We show that Loci-Looped learns to track objects through extended periods of object occlusions, indeed simulating their hidden trajectories and anticipating their reappearance, without the need for an explicit history buffer. We even find that Loci-Looped surpasses state-of-the-art models on the ADEPT and the CLEVRER dataset, when confronted with object occlusions or temporary sensory data interruptions. This indicates that Loci-Looped is able to learn the physical concepts of object permanence and inertia in a fully unsupervised emergent manner. We believe that even further architectural advancements of the internal loop - also in other compositional scene representation learning models - can be developed in the near future.
翻訳日:2023-10-17 14:26:21 公開日:2023-10-16
# 交差するシーンにおける位置認識のための潜在接触型カメラLiDAR融合

Camera-LiDAR Fusion with Latent Contact for Place Recognition in Challenging Cross-Scenes ( http://arxiv.org/abs/2310.10371v1 )

ライセンス: Link先を確認
Yan Pan, Jiapeng Xie, Jiajie Wu, Bo Zhou(参考訳) 重要な進展はあったが、視点の変化、季節変化、シーン変換を伴う環境における場所認識の実現は依然として困難である。 これらの問題に対処するには、単一センサからの知覚情報のみに頼るだけでは不十分である。 カメラとLiDARの相補性を認識したマルチモーダル融合法が注目されている。 本稿では,既存のマルチモーダル核融合作業における情報ムダを解決するために,画像,点雲,融合枝のカスケードからなる新しい3チャンネルプレースディスクリプタを提案する。 具体的には、融合に基づく分岐は二重ステージパイプラインを使用し、2つのモードと潜伏接触の相関を利用して情報相互作用と融合を容易にする。 KITTI、NCLT、USVInland、およびキャンパスのデータセットに関する大規模な実験は、提案された場所記述子は最先端のアプローチであり、挑戦的なシナリオにおけるその堅牢性と一般性を確認する。

Although significant progress has been made, achieving place recognition in environments with perspective changes, seasonal variations, and scene transformations remains challenging. Relying solely on perception information from a single sensor is insufficient to address these issues. Recognizing the complementarity between cameras and LiDAR, multi-modal fusion methods have attracted attention. To address the information waste in existing multi-modal fusion works, this paper introduces a novel three-channel place descriptor, which consists of a cascade of image, point cloud, and fusion branches. Specifically, the fusion-based branch employs a dual-stage pipeline, leveraging the correlation between the two modalities with latent contacts, thereby facilitating information interaction and fusion. Extensive experiments on the KITTI, NCLT, USVInland, and the campus dataset demonstrate that the proposed place descriptor stands as the state-of-the-art approach, confirming its robustness and generality in challenging scenarios.
翻訳日:2023-10-17 14:25:49 公開日:2023-10-16
# フォトニックチャーンバンドの輸送測定によるベリー曲率とバルク・バウンダリー対応

Berry Curvature and Bulk-Boundary Correspondence from Transport Measurement for Photonic Chern Bands ( http://arxiv.org/abs/2310.10365v1 )

ライセンス: Link先を確認
Chao Chen, Run-Ze Liu, Jizhou Wu, Zu-En Su, Xing Ding, Jian Qin, Lin Wang, Wei-Wei Zhang, Yu He, Xi-Lin Wang, Chao-Yang Lu, Li Li, Barry C. Sanders, Xiong-Jun Liu, and Jian-Wei Pan(参考訳) ベリー曲率はトポロジカル量子物理学を特徴づける基本的な要素であるが、運動量空間におけるベリー曲率の完全な測定はトポロジカルな状態では報告されていない。 ここでは、運動量分解波パケットのホール輸送測定により、フォトニック量子異常ホール系における2次元ベリー曲率再構成を実現する。 2次元ブリルアンゾーン上で測定されたベリー曲率を積分し, -1および0に対応するチャーン数を求める。 さらに,境界におけるトポロジー結合カイラルエッジ状態の測定により,バルク境界対応を同定する。 ベリー曲率,チャーン数,エッジトランスポート測定から得られたフォトニックチャーンバンドの完全な位相的特徴付けにより,フォトニックシステムは,新しいトポロジー物理をより深く研究するための汎用プラットフォームとして機能する。

Berry curvature is a fundamental element to characterize topological quantum physics, while a full measurement of Berry curvature in momentum space was not reported for topological states. Here we achieve two-dimensional Berry curvature reconstruction in a photonic quantum anomalous Hall system via Hall transport measurement of a momentum-resolved wave packet. Integrating measured Berry curvature over the two-dimensional Brillouin zone, we obtain Chern numbers corresponding to -1 and 0. Further, we identify bulk-boundary correspondence by measuring topology-linked chiral edge states at the boundary. The full topological characterization of photonic Chern bands from Berry curvature, Chern number, and edge transport measurements enables our photonic system to serve as a versatile platform for further in-depth study of novel topological physics.
翻訳日:2023-10-17 14:25:32 公開日:2023-10-16
# マルチビューグラフコントラスト学習のためのプロンプトチューニング

Prompt Tuning for Multi-View Graph Contrastive Learning ( http://arxiv.org/abs/2310.10362v1 )

ライセンス: Link先を確認
Chenghua Gong, Xiang Li, Jianxiang Yu, Cheng Yao, Jiaqi Tan, Chengcheng Yu, Dawei Yin(参考訳) 近年,従来のGNNにおけるラベル依存や一般化性能の低下に対処する上で,「事前学習と微調整」が有望なアプローチとして現れている。 ラベル付けの要件を減らすために、"pre-train, fine-tune" と "pre-train, prompt" のパラダイムはますます一般的になっている。 特に、プロンプトチューニングは自然言語処理における「事前学習と微調整」の代替として人気があり、事前学習と下流目標のギャップを狭めるように設計されている。 しかしながら、グラフのプロンプトに関する既存の研究はまだ限られており、一般的に使用されるグラフ事前学習メソッドとダウンストリームタスクに対応可能なフレームワークが欠如している。 本稿では,前文として多視点グラフの対比学習法を提案し,それに対するプロンプトチューニングを設計する。 具体的には、まず、グラフ事前学習および下流タスクを共通のフォーマットに再構成する。 第2に、GNNによるグラフの関連情報を捉えるために、マルチビューコントラストを構築する。 第3に,マルチビューグラフのコントラスト学習のためのプロンプトチューニング手法を設計し,プリテキストとダウンチームタスクのギャップを橋渡しする。 最後に,ベンチマークデータセットを広範囲に実験し,提案手法を評価し分析する。

In recent years, "pre-training and fine-tuning" has emerged as a promising approach in addressing the issues of label dependency and poor generalization performance in traditional GNNs. To reduce labeling requirement, the "pre-train, fine-tune" and "pre-train, prompt" paradigms have become increasingly common. In particular, prompt tuning is a popular alternative to "pre-training and fine-tuning" in natural language processing, which is designed to narrow the gap between pre-training and downstream objectives. However, existing study of prompting on graphs is still limited, lacking a framework that can accommodate commonly used graph pre-training methods and downstream tasks. In this paper, we propose a multi-view graph contrastive learning method as pretext and design a prompting tuning for it. Specifically, we first reformulate graph pre-training and downstream tasks into a common format. Second, we construct multi-view contrasts to capture relevant information of graphs by GNN. Third, we design a prompting tuning method for our multi-view graph contrastive learning method to bridge the gap between pretexts and downsteam tasks. Finally, we conduct extensive experiments on benchmark datasets to evaluate and analyze our proposed method.
翻訳日:2023-10-17 14:25:16 公開日:2023-10-16
# max-$k$-cut問題に対する量子回路の確率論的テンソル最適化

Probabilistic tensor optimization of quantum circuits for the max-$k$-cut problem ( http://arxiv.org/abs/2310.10360v1 )

ライセンス: Link先を確認
G. V. Paradezhenko, A. A. Pervishko, D. Yudin(参考訳) 本稿では,確率的テンソルサンプリング最適化に基づく変分量子アルゴリズムのパラメータ化回路の最適化手法を提案する。 この方法では、変動パラメータの初期推定を生成するためにランダム初期化問題やヒューリスティックスを緩和することができ、局所最小化を避けるために使用できる。 本稿では,量子近似最適化アルゴリズム (qaoa) の例として,量子ビット数に効率的なバイナリエンコーディングに基づく最大$k$-cut問題に適用する手法を提案する。 本稿では,従来の最適化手法と比較して,QAOA回路の最適変動パラメータを求める手法の利点について論じる。

We propose a technique for optimizing parameterized circuits in variational quantum algorithms based on the probabilistic tensor sampling optimization. This method allows one to relax random initialization issues or heuristics for generating initial guess of variational parameters, and can be used to avoid local minima. We illustrate our approach on the example of the quantum approximate optimization algorithm (QAOA) applied to the max-$k$-cut problem based on the binary encoding efficient in the number of qubits. We discuss the advantages of our technique for searching optimal variational parameters of QAOA circuits in comparison to classical optimization methods.
翻訳日:2023-10-17 14:24:55 公開日:2023-10-16
# Real-Fake:分散マッチングによる効果的なトレーニングデータ合成

Real-Fake: Effective Training Data Synthesis Through Distribution Matching ( http://arxiv.org/abs/2310.10402v1 )

ライセンス: Link先を確認
Jianhao Yuan and Jie Zhang and Shuyang Sun and Philip Torr and Bo Zhao(参考訳) 合成トレーニングデータは、データセットの強化、一般化評価、プライバシー保護といった利点を提供する、多くの学習タスクやシナリオで注目を集めている。 これらの利点にもかかわらず、現在の手法によって生成された合成データの効率は、高度な深層モデルのみを訓練する際にも劣っている。 この課題に対処するために,教師付き学習のための学習データ合成の基礎となる原則を分析し,合成の有効性を規定するメカニズムを解明する分布マッチングの観点から原理的理論的枠組みを解明する。 広範な実験を通じて,実際のデータセットの置き換えや拡張として,多様な画像分類タスクにまたがる合成データの有効性を実証すると同時に,分散一般化やプライバシ保護といった困難な課題にも活用する。

Synthetic training data has gained prominence in numerous learning tasks and scenarios, offering advantages such as dataset augmentation, generalization evaluation, and privacy preservation. Despite these benefits, the efficiency of synthetic data generated by current methodologies remains inferior when training advanced deep models exclusively, limiting its practical utility. To address this challenge, we analyze the principles underlying training data synthesis for supervised learning and elucidate a principled theoretical framework from the distribution-matching perspective that explicates the mechanisms governing synthesis efficacy. Through extensive experiments, we demonstrate the effectiveness of our synthetic data across diverse image classification tasks, both as a replacement for and augmentation to real datasets, while also benefits challenging tasks such as out-of-distribution generalization and privacy preservation.
翻訳日:2023-10-17 14:19:30 公開日:2023-10-16
# 単語センス分布は単語の意味的変化を検出できるか?

Can Word Sense Distribution Detect Semantic Changes of Words? ( http://arxiv.org/abs/2310.10400v1 )

ライセンス: Link先を確認
Xiaohang Tang, Yi Zhou, Taichi Aida, Procheta Sen, Danushka Bollegala(参考訳) 単語の意味的変化検出(SCD)は、時間に敏感な予測をしなければならない様々なNLPアプリケーションにとって重要なタスクである。 新しい意味を表現する新しい方法で、時間とともに使われる言葉もあり、これらの新しい意味は既存の単語の新しい感覚として確立される。 一方、単語センス曖昧化(WSD)手法は、その発生状況に応じて、曖昧な単語とセンスIDを関連付ける。 wsd と scd の関係を考えると,各コーパス中の単語の感覚分布を比較することにより,目的語が意味を持つか否かを,異なる時間ステップで収集した2つのコーパス間で予測する可能性について検討する。 この目的のために、事前学習された静的センス埋め込みを使用して、センスidでコーパス内のターゲットワードの発生を自動注釈する。 次に、与えられたコーパス内の対象単語のセンスidの分布を計算する。 最後に,目的語の意味的変化を2つのコーパス間で定量化するために,異なる発散量や距離尺度を用いる。 SemEval 2020 Task 1のデータセットを用いた実験結果から,英語,ドイツ語,スウェーデン語,ラテン語の単語の意味変化を正確に予測できることがわかった。

Semantic Change Detection (SCD) of words is an important task for various NLP applications that must make time-sensitive predictions. Some words are used over time in novel ways to express new meanings, and these new meanings establish themselves as novel senses of existing words. On the other hand, Word Sense Disambiguation (WSD) methods associate ambiguous words with sense ids, depending on the context in which they occur. Given this relationship between WSD and SCD, we explore the possibility of predicting whether a target word has its meaning changed between two corpora collected at different time steps, by comparing the distributions of senses of that word in each corpora. For this purpose, we use pretrained static sense embeddings to automatically annotate each occurrence of the target word in a corpus with a sense id. Next, we compute the distribution of sense ids of a target word in a given corpus. Finally, we use different divergence or distance measures to quantify the semantic change of the target word across the two given corpora. Our experimental results on SemEval 2020 Task 1 dataset show that word sense distributions can be accurately used to predict semantic changes of words in English, German, Swedish and Latin.
翻訳日:2023-10-17 14:19:13 公開日:2023-10-16
# 公正モデルと校正モデルに向けて

Towards Fair and Calibrated Models ( http://arxiv.org/abs/2310.10399v1 )

ライセンス: Link先を確認
Anand Brahmbhatt, Vipul Rathore, Mausam and Parag Singla(参考訳) 近年の文献では、与えられた属性のセット、キャリブレーション(キャリブレーション)、予測精度に適合するモデルの信頼性、説明可能性、すなわち人間に理解できる能力など、特定の特性を持つ機械学習モデルの構築に重要な焦点が当てられている。 それぞれの側面に個別に焦点をあてる研究はあったが、研究者はこれらの次元の1つ以上を同時に扱うことは避けてきた。 本研究では,公平かつ校正されたモデルの構築の問題に対処する。 私たちは、[biswas et. al. 2019]と密接に一致する特定のフェアネスの定義に取り組んでおり、ベイズ最適分類器が定義の下で最大フェアネスを持つという素晴らしい性質を持っています。 我々は、公正で校正されたモデル(Kleinberg et. al. 2017)を達成するための既存の否定的な結果が、公正性の定義に当てはまらないことを示す。 さらに,センシティブな属性に対するグループ的なキャリブレーションの確保が,我々の定義の下では公平なモデルとなることを示す。 この結果を用いて、温度スケーリングに基づく簡単な後処理技術を用いて、公平で校正されたモデルを実現するための最初のカット手法を提供する。 次に,既存のキャリブレーション損失の修正を行い,グループ毎のキャリブレーションを行い,様々な環境で公平かつ校正されたモデルを実現する方法を提案する。 最後に,これらの手法を多種多様なデータセットのベンチマークで広範囲に実験し,その結果の最適性について考察する。

Recent literature has seen a significant focus on building machine learning models with specific properties such as fairness, i.e., being non-biased with respect to a given set of attributes, calibration i.e., model confidence being aligned with its predictive accuracy, and explainability, i.e., ability to be understandable to humans. While there has been work focusing on each of these aspects individually, researchers have shied away from simultaneously addressing more than one of these dimensions. In this work, we address the problem of building models which are both fair and calibrated. We work with a specific definition of fairness, which closely matches [Biswas et. al. 2019], and has the nice property that Bayes optimal classifier has the maximum possible fairness under our definition. We show that an existing negative result towards achieving a fair and calibrated model [Kleinberg et. al. 2017] does not hold for our definition of fairness. Further, we show that ensuring group-wise calibration with respect to the sensitive attributes automatically results in a fair model under our definition. Using this result, we provide a first cut approach for achieving fair and calibrated models, via a simple post-processing technique based on temperature scaling. We then propose modifications of existing calibration losses to perform group-wise calibration, as a way of achieving fair and calibrated models in a variety of settings. Finally, we perform extensive experimentation of these techniques on a diverse benchmark of datasets, and present insights on the pareto-optimality of the resulting solutions.
翻訳日:2023-10-17 14:18:52 公開日:2023-10-16
# $\textit{Swap and Predict}$ -- コンテキストスワッピングによるコーパス間の単語の意味的変化の予測

$\textit{Swap and Predict}$ -- Predicting the Semantic Changes in Words across Corpora by Context Swapping ( http://arxiv.org/abs/2310.10397v1 )

ライセンス: Link先を確認
Taichi Aida, Danushka Bollegala(参考訳) 言葉の意味は、時間とドメインによって変わる。 単語の意味的変化を検出することは、時間に敏感な予測をしなければならない様々なNLPアプリケーションにとって重要なタスクである。 対象語である$w$が2つの異なるテキストコーパスである$\mathcal{C}_1$と$\mathcal{C}_2$の間で意味を変えるかどうかを予測する問題を考える。 この目的のために、$\mathcal{C}_1$と$\mathcal{C}_2$でコンテキストをランダムに交換する教師なしのメソッドである$\textit{Swapping-based Semantic Change Detection}$ (SSCD)を提案する。 次に、事前学習されたマスク言語モデル(mlm)から得られた、文脈化された単語埋め込みの分布を見て、その発生コンテキストにおける$w$の意味を、$\mathcal{c}_1$と$\mathcal{c}_2$で表す。 直観的には、$w$の意味が$\mathcal{C}_1$と$\mathcal{C}_2$の間で変化しないなら、このランダムなスワップ処理の前と後に$w$の文脈化された単語埋め込みの分布が同じであると予想する。 その単純さにもかかわらず、訓練済みのMLMを微調整なしで使用しても、提案手法は4言語(英語、ドイツ語、スウェーデン語、ラテン語)および異なる時間帯(50年以上、約5年)における単語の意味的変化を正確に予測する。 さらに, 英語意味変化予測タスクにおいて, 強力なベースラインと比較して, 性能が大幅に向上した。 ソースコードはhttps://github.com/a1da4/svp-swap で入手できる。

Meanings of words change over time and across domains. Detecting the semantic changes of words is an important task for various NLP applications that must make time-sensitive predictions. We consider the problem of predicting whether a given target word, $w$, changes its meaning between two different text corpora, $\mathcal{C}_1$ and $\mathcal{C}_2$. For this purpose, we propose $\textit{Swapping-based Semantic Change Detection}$ (SSCD), an unsupervised method that randomly swaps contexts between $\mathcal{C}_1$ and $\mathcal{C}_2$ where $w$ occurs. We then look at the distribution of contextualised word embeddings of $w$, obtained from a pretrained masked language model (MLM), representing the meaning of $w$ in its occurrence contexts in $\mathcal{C}_1$ and $\mathcal{C}_2$. Intuitively, if the meaning of $w$ does not change between $\mathcal{C}_1$ and $\mathcal{C}_2$, we would expect the distributions of contextualised word embeddings of $w$ to remain the same before and after this random swapping process. Despite its simplicity, we demonstrate that even by using pretrained MLMs without any fine-tuning, our proposed context swapping method accurately predicts the semantic changes of words in four languages (English, German, Swedish, and Latin) and across different time spans (over 50 years and about five years). Moreover, our method achieves significant performance improvements compared to strong baselines for the English semantic change prediction task. Source code is available at https://github.com/a1da4/svp-swap .
翻訳日:2023-10-17 14:18:25 公開日:2023-10-16
# 3次元物体検出のためのオープンワールドアクティブラーニングに向けて

Towards Open World Active Learning for 3D Object Detection ( http://arxiv.org/abs/2310.10391v1 )

ライセンス: Link先を確認
Zhuoxiao Chen, Yadan Luo, Zixin Wang, Zijian Wang, Xin Yu, Zi Huang(参考訳) クローズドワールドの3dオブジェクト検出、既知のクラスのある環境でのテストで大きな進歩を遂げている。 しかし、この課題は、新しいオブジェクトクラスが現れるオープンワールドのシナリオで起こります。 既存の取り組みはラベル付きデータのストリームから新しいクラスを連続的に大きなアノテーションコストで学習し、効率的なデプロイを妨げる。 実効性のある3Dオブジェクト検出のためのOpen World Active Learning for 3D Object Detection (OWAL-3D) は、未知のクラスと未知のクラスの両方で検出性能を最大化しつつ、アノテートするための少数の3Dボックスを選択することを目的としている。 中心となる課題は、未知のインスタンスのマイニングと、ポイントクラウドのラベル付け費用の最小化のバランスにある。 実験により,ボックス量と信頼度との調和的・逆関係がジレンマの緩和に役立ち,よく知られた事例の繰り返しの選択を回避し,未知の可能性のある不確実な物体に焦点をあてることができた。 我々は、関係制約をopencrbと呼ばれる単純かつ効果的なal戦略に統合し、最小のボックスをラベル付けする情報ポイントクラウドの獲得を導く。 さらに,15のベースライン手法(アクティブラーニング,アウト・オブ・ディストリビューション検出,オープンワールド検出),2種類の現代型3D検出器(一段SECONDと二段PV-RCNN),3つのベンチマーク3Dデータセット(KITTI,nuScenes,Waymo)をサポートする総合的なコードベースを構築した。 大規模な実験により、提案されたOpen-CRBは、最先端のベースラインと比較して、新しいカテゴリーと共有カテゴリの両方を非常に限定的なラベル付けコストで認識する上で、優位性と柔軟性を示すことが証明された。

Significant strides have been made in closed world 3D object detection, testing systems in environments with known classes. However, the challenge arises in open world scenarios where new object classes appear. Existing efforts sequentially learn novel classes from streams of labeled data at a significant annotation cost, impeding efficient deployment to the wild. To seek effective solutions, we investigate a more practical yet challenging research task: Open World Active Learning for 3D Object Detection (OWAL-3D), aiming at selecting a small number of 3D boxes to annotate while maximizing detection performance on both known and unknown classes. The core difficulty centers on striking a balance between mining more unknown instances and minimizing the labeling expenses of point clouds. Empirically, our study finds the harmonious and inverse relationship between box quantities and their confidences can help alleviate the dilemma, avoiding the repeated selection of common known instances and focusing on uncertain objects that are potentially unknown. We unify both relational constraints into a simple and effective AL strategy namely OpenCRB, which guides to acquisition of informative point clouds with the least amount of boxes to label. Furthermore, we develop a comprehensive codebase for easy reproducing and future research, supporting 15 baseline methods (i.e., active learning, out-of-distribution detection and open world detection), 2 types of modern 3D detectors (i.e., one-stage SECOND and two-stage PV-RCNN) and 3 benchmark 3D datasets (i.e., KITTI, nuScenes and Waymo). Extensive experiments evidence that the proposed Open-CRB demonstrates superiority and flexibility in recognizing both novel and shared categories with very limited labeling costs, compared to state-of-the-art baselines.
翻訳日:2023-10-17 14:17:46 公開日:2023-10-16
# Rydberg原子を持つキラル量子ルータ

A chiral quantum router with Rydberg atoms ( http://arxiv.org/abs/2310.10390v1 )

ライセンス: Link先を確認
Nikolaos E. Palaiodimopoulos, Simon Ohler, Michael Fleischhauer and David Petrosyan(参考訳) 我々は、スピンネットワークにおける量子情報のコヒーレントルーティングを実現するために、時間反転対称性の制御破壊を利用する。 我々のスキームの鍵となる構成要素は、キラリティが制御量子ビットの量子状態によって決定されるスピン三角形であり、それによって量子情報の伝播方向またはその重畳を定義する。 次に、rydberg原子を用いたコヒーレントルータの特定の実現を考える。 この結果により、Rydberg原子の大規模配列におけるスケーラブルな量子情報処理と通信が容易となる。

We exploit controlled breaking of time-reversal symmetry to realize coherent routing of quantum information in spin networks. The key component of our scheme is a spin triangle whose chirality is determined by the quantum state of a control qubit which thus defines the propagation direction, or a superposition thereof, of the quantum information. We then consider a particular realization of a coherent router using Rydberg atoms. Our results can facilitate scalable quantum information processing and communication in large arrays of Rydberg atoms.
翻訳日:2023-10-17 14:17:10 公開日:2023-10-16
# エッジ知覚誘導画像フィルタリングの強化

Enhanced Edge-Perceptual Guided Image Filtering ( http://arxiv.org/abs/2310.10387v1 )

ライセンス: Link先を確認
Jinyu Li(参考訳) 強力なエッジ保存能力と計算量が少ないため、ガイド付きイメージフィルタ(gif)とその改良版はコンピュータビジョンや画像処理に広く応用されている。 しかし,これらすべては正規化パラメータが増加するにつれてある程度ハロアーティファクトに悩まされる。 誘導画像と入力画像の不整合構造の場合、エッジ保存能力の劣化も生じる。 本稿では,一階のエッジ保護制約と,両ケースのエッジ保護能力を向上する明示的残差制約を統合することにより,新しいガイド付き画像フィルタを提案する。 提案フィルタの効率性を示すために,単一画像のディテールエンハンスメント,マルチスケール露光融合,ハイパースペクトル画像の分類など,いくつかの典型的な応用例で性能を示す。 理論解析と実験の結果から,提案フィルタの強力なエッジ保存能力が証明された。

Due to the powerful edge-preserving ability and low computational complexity, Guided image filter (GIF) and its improved versions has been widely applied in computer vision and image processing. However, all of them are suffered halo artifacts to some degree, as the regularization parameter increase. In the case of inconsistent structure of guidance image and input image, edge-preserving ability degradation will also happen. In this paper, a novel guided image filter is proposed by integrating an explicit first-order edge-protect constraint and an explicit residual constraint which will improve the edge-preserving ability in both cases. To illustrate the efficiency of the proposed filter, the performances are shown in some typical applications, which are single image detail enhancement, multi-scale exposure fusion, hyper spectral images classification. Both theoretical analysis and experimental results prove that the powerful edge-preserving ability of the proposed filter.
翻訳日:2023-10-17 14:17:01 公開日:2023-10-16
# ゼロショットニューラルマシン翻訳性能の変動のより良い理解に向けて

Towards a Better Understanding of Variations in Zero-Shot Neural Machine Translation Performance ( http://arxiv.org/abs/2310.10385v1 )

ライセンス: Link先を確認
Shaomu Tan, Christof Monz(参考訳) MNMT(Multilingual Neural Machine Translation)は知識共有を容易にするが、ゼロショット(ZS)翻訳の質が悪い場合が多い。 従来,ZS性能の低下の原因について検討してきたが,本研究では新たな視点として,ZS性能に高い変動が存在することを挙げている。 これは、MNMTがZS能力の低下を均一に示さず、ある翻訳方向が妥当な結果をもたらすことを示唆している。 40言語にまたがる1,560の言語方向を含む系統的な実験を通して、ZS NMTの性能の変動に寄与する3つの重要な要因を同定する。 1)目標側翻訳能力 2)語彙重複 3)言語特性。 以上の結果から,対象の翻訳品質が最も大きな要因であり,語彙の重なりがzs性能に与える影響が示唆された。 さらに、言語家族や書記システムといった言語特性は、特により小さなモデルでの役割を担っている。 さらに,オフターゲット問題はZS性能の低下の徴候であり,ゼロショット翻訳の課題がオフターゲット問題の解決を超えて拡大していることを強調している。 将来の研究のためのベンチマークとして、https://github.com/Smu-Tan/ZS-NMT-Variationsでデータとモデルを公開します。

Multilingual Neural Machine Translation (MNMT) facilitates knowledge sharing but often suffers from poor zero-shot (ZS) translation qualities. While prior work has explored the causes of overall low ZS performance, our work introduces a fresh perspective: the presence of high variations in ZS performance. This suggests that MNMT does not uniformly exhibit poor ZS capability; instead, certain translation directions yield reasonable results. Through systematic experimentation involving 1,560 language directions spanning 40 languages, we identify three key factors contributing to high variations in ZS NMT performance: 1) target side translation capability 2) vocabulary overlap 3) linguistic properties. Our findings highlight that the target side translation quality is the most influential factor, with vocabulary overlap consistently impacting ZS performance. Additionally, linguistic properties, such as language family and writing system, play a role, particularly with smaller models. Furthermore, we suggest that the off-target issue is a symptom of inadequate ZS performance, emphasizing that zero-shot translation challenges extend beyond addressing the off-target problem. We release the data and models serving as a benchmark to study zero-shot for future research at https://github.com/Smu-Tan/ZS-NMT-Variations
翻訳日:2023-10-17 14:16:41 公開日:2023-10-16
# 大規模言語モデルのプライバシ:攻撃、防御、今後の方向性

Privacy in Large Language Models: Attacks, Defenses and Future Directions ( http://arxiv.org/abs/2310.10383v1 )

ライセンス: Link先を確認
Haoran Li, Yulin Chen, Jinglong Luo, Yan Kang, Xiaojin Zhang, Qi Hu, Chunkit Chan, Yangqiu Song(参考訳) 大規模言語モデル(LLM)の進歩は、様々な下流のNLPタスクに効果的に取り組み、これらのタスクを生成パイプラインに統合する能力を大幅に強化した。 一方、大量のテキストデータに基づいてトレーニングされた強力な言語モデルは、モデルとユーザの両方に対して、例外なくアクセシビリティとユーザビリティをもたらしました。 一方で、これらのモデルに制限のないアクセスは、潜在的に悪意があり意図しないプライバシーリスクをもたらす可能性がある。 LLMに関連する安全とプライバシーの懸念に対処する努力を続けているが、問題は未解決のままである。 本稿では,LLMを対象とした現在のプライバシ攻撃を包括的に分析し,LLMの潜在的な脆弱性を隠蔽する敵の想定能力に応じて分類する。 次に,これらのプライバシ攻撃に対抗するために開発された防御戦略の詳細な概要を紹介する。 既存の作業に加えて、LSMが進化するにつれて、今後のプライバシー上の懸念も認識します。 最後に,今後の探査の道筋について述べる。

The advancement of large language models (LLMs) has significantly enhanced the ability to effectively tackle various downstream NLP tasks and unify these tasks into generative pipelines. On the one hand, powerful language models, trained on massive textual data, have brought unparalleled accessibility and usability for both models and users. On the other hand, unrestricted access to these models can also introduce potential malicious and unintentional privacy risks. Despite ongoing efforts to address the safety and privacy concerns associated with LLMs, the problem remains unresolved. In this paper, we provide a comprehensive analysis of the current privacy attacks targeting LLMs and categorize them according to the adversary's assumed capabilities to shed light on the potential vulnerabilities present in LLMs. Then, we present a detailed overview of prominent defense strategies that have been developed to counter these privacy attacks. Beyond existing works, we identify upcoming privacy concerns as LLMs evolve. Lastly, we point out several potential avenues for future exploration.
翻訳日:2023-10-17 14:16:20 公開日:2023-10-16
# タスク指向対話システムのための文脈データ拡張

Contextual Data Augmentation for Task-Oriented Dialog Systems ( http://arxiv.org/abs/2310.10380v1 )

ライセンス: Link先を確認
Dustin Axman, Avik Ray, Shubham Garg, Jing Huang(参考訳) タスク指向ダイアログシステムのトレーニングのための注釈付きダイアログの収集は、現在のモデルを改善する上で重要なボトルネックの1つだ。 エージェント側ではダイアログ応答生成が広く研究されているが、実際のダイアログシステムが実際に遭遇する多種多様な、しばしば予期しないユーザ入力を生成するために類似した生成モデルが使用できるかどうかは明らかではない。 paraphrase生成のような既存のデータ拡張技術は、ダイアログコンテキストを考慮していない。 本稿では,ユーザ・ターンを生成する新しいダイアログ拡張モデルを開発し,フル・ダイアログ・コンテキストで条件付けを行う。 さらに、言語モデルのための新しいプロンプト設計と出力再ランキングにより、我々のモデルから生成されたダイアログは、下流のダイアログシステムをトレーニングするために直接使用できる。 一般的なベンチマークデータセットであるMultiWoZとSGDにおいて、我々のダイアログ拡張モデルは高品質なダイアログを生成し、ダイアログの成功率をベースライン上で最大8\%の値で改善することを示す。

Collection of annotated dialogs for training task-oriented dialog systems have been one of the key bottlenecks in improving current models. While dialog response generation has been widely studied on the agent side, it is not evident if similar generative models can be used to generate a large variety of, and often unexpected, user inputs that real dialog systems encounter in practice. Existing data augmentation techniques such as paraphrase generation do not take the dialog context into consideration. In this paper, we develop a novel dialog augmentation model that generates a user turn, conditioning on full dialog context. Additionally, with a new prompt design for language model, and output re-ranking, the dialogs generated from our model can be directly used to train downstream dialog systems. On common benchmark datasets MultiWoZ and SGD, we show that our dialog augmentation model generates high quality dialogs and improves dialog success rate by as much as $8\%$ over baseline.
翻訳日:2023-10-17 14:16:05 公開日:2023-10-16
# モスキート育種場検出・追跡用YOLOv7

YOLOv7 for Mosquito Breeding Grounds Detection and Tracking ( http://arxiv.org/abs/2310.10423v1 )

ライセンス: Link先を確認
Camila Laranjeira and Daniel Andrade and Jefersson A. dos Santos(参考訳) 気候変動の脅威が迫っているため、デング、ジカ、チクングニヤなどの熱帯病は世界的な懸念をさらに高める可能性がある。 リモートセンシング技術は、蚊の繁殖部位の検出とマッピングを自動化し、地域団体が適切に介入できるようにすることで、そのような病気の伝染ベクターであるaegyptiの拡散を制御するのに役立つ。 本研究では,最先端かつ計算効率の高い検出手法であるyolov7を用いて,無人航空機で撮影した映像中の蚊の群集を局所化し追跡する。 我々は、ICIP 2023のグランドチャレンジ“Automatic Detection of Mosquito Breeding Grounds”の一環として、一般公開されたデータセットを実験した。 YOLOv7は, プール, タイヤ, 水槽などの大型のファシカテゴリを直接検出し, フレーム毎の検出を安価かつ簡便に行うことにより, トラッキングプロセスに時間一貫性を組み込むことができることを示す。

With the looming threat of climate change, neglected tropical diseases such as dengue, zika, and chikungunya have the potential to become an even greater global concern. Remote sensing technologies can aid in controlling the spread of Aedes Aegypti, the transmission vector of such diseases, by automating the detection and mapping of mosquito breeding sites, such that local entities can properly intervene. In this work, we leverage YOLOv7, a state-of-the-art and computationally efficient detection approach, to localize and track mosquito foci in videos captured by unmanned aerial vehicles. We experiment on a dataset released to the public as part of the ICIP 2023 grand challenge entitled Automatic Detection of Mosquito Breeding Grounds. We show that YOLOv7 can be directly applied to detect larger foci categories such as pools, tires, and water tanks and that a cheap and straightforward aggregation of frame-by-frame detection can incorporate time consistency into the tracking process.
翻訳日:2023-10-17 14:07:57 公開日:2023-10-16
# lmt:縦型混合訓練 : 一つの画像から疾患の進行を予測する枠組み

LMT: Longitudinal Mixing Training, a Framework to Predict Disease Progression from a Single Image ( http://arxiv.org/abs/2310.10420v1 )

ライセンス: Link先を確認
Rachid Zeghlache, Pierre-Henri Conze, Mostafa El Habib Daho, Yihao Li, Hugo Le boite, Ramin Tadayoni, Pascal Massin, B\'eatrice Cochener, Ikram Brahim, Gwenol\'e Quellec, and Mathieu Lamard(参考訳) 経時的イメージングは、静的解剖学的構造と疾患進行のダイナミックな変化の両方を、より早くより優れた患者固有の病理管理に向けて捉えることができる。 しかし、従来のアプローチでは、特に糖尿病網膜症(DR)において、検出および予測目的の経時的情報を活用することはめったにない。 近年,縦断的文脈を伴うミックスアップトレーニングとプリテキストタスクは,dr分類結果とキャプチャー疾患の進行を効果的に改善している。 その間、ニューラルネットワークをブラックボックスとして扱う通常の微分方程式を解くために、ニューラル正規微分方程式(NODE)と呼ばれる新しいタイプのニューラルネットワークが提案されている。 定義上、NODEは時間関連の問題を解決するのに適している。 本稿では,DR進行の検出と予測にこれら3つの側面を組み合わせることを提案する。 我々のフレームワークであるLMT(Longitudinal Mixing Training)は、正規化と、潜在空間における疾患進行を符号化するプリテキストタスクの両方とみなすことができる。 さらに, 標準および縦方向のプリテキストタスクを用いて, 縦方向コンテキストを用いた下流タスクのモデル重み評価を行った。 2回の連続試験の間の重み付け平均時間である$t_{mix}$を用いて,時間認識モデルのトレーニング方法を提案する。 我々は、縦型網膜色素写真(CFP)データセットOPHDIATを用いたDR分類の標準混合訓練に対するアプローチの比較を行った。 aucは0.641の基準値と比較して0.798の1枚の画像を用いて、次の訪問で目が重度のdrを発症するかどうかを予測できた。 以上の結果から, DR 病の進行を学習し, $t_{mix}$ augmentation を導入することは, 時間認識モデルに有用であることが示唆された。

Longitudinal imaging is able to capture both static anatomical structures and dynamic changes in disease progression toward earlier and better patient-specific pathology management. However, conventional approaches rarely take advantage of longitudinal information for detection and prediction purposes, especially for Diabetic Retinopathy (DR). In the past years, Mix-up training and pretext tasks with longitudinal context have effectively enhanced DR classification results and captured disease progression. In the meantime, a novel type of neural network named Neural Ordinary Differential Equation (NODE) has been proposed for solving ordinary differential equations, with a neural network treated as a black box. By definition, NODE is well suited for solving time-related problems. In this paper, we propose to combine these three aspects to detect and predict DR progression. Our framework, Longitudinal Mixing Training (LMT), can be considered both as a regularizer and as a pretext task that encodes the disease progression in the latent space. Additionally, we evaluate the trained model weights on a downstream task with a longitudinal context using standard and longitudinal pretext tasks. We introduce a new way to train time-aware models using $t_{mix}$, a weighted average time between two consecutive examinations. We compare our approach to standard mixing training on DR classification using OPHDIAT a longitudinal retinal Color Fundus Photographs (CFP) dataset. We were able to predict whether an eye would develop a severe DR in the following visit using a single image, with an AUC of 0.798 compared to baseline results of 0.641. Our results indicate that our longitudinal pretext task can learn the progression of DR disease and that introducing $t_{mix}$ augmentation is beneficial for time-aware models.
翻訳日:2023-10-17 14:07:38 公開日:2023-10-16
# 本を読むのは最高だけど、運転するなら違う! デファシブル・コモンセンス・ノームに関する視覚的根拠に基づく推論

Reading Books is Great, But Not if You Are Driving! Visually Grounded Reasoning about Defeasible Commonsense Norms ( http://arxiv.org/abs/2310.10418v1 )

ライセンス: Link先を確認
Seungju Han and Junhyeok Kim and Jack Hessel and Liwei Jiang and Jiwan Chung and Yejin Son and Yejin Choi and Youngjae Yu(参考訳) 普通は本を読むことは素晴らしいが、車を運転するときにはそうではない。 コンテキストは言語で明示的に記述できるが、具体化されたシナリオでは、コンテキストはしばしば視覚的に提供される。 この種の視覚的に根ざした、デファシブル・コモンセンス規範に関する推論は、一般に人間にとって容易であるが、(私たちが見せているように)機械にとって、視覚的理解とコモンセンス規範に関する推論の両方を必要とするため、挑戦となる。 NORMLENSというビジュアルグラウンドのコモンセンス規範を研究するための新しいマルチモーダルベンチマークを構築した。 NORMLENSは、2Kマルチモーダル状況に関する自由形式の説明を伴う10K人の人的判断で構成されており、(1)モデルが平均的な人的判断とどの程度一致しているかという2つの疑問に対処するための調査となる。 2)モデルが予測した判断をどの程度説明できるか? 現状のモデル判断や説明は人間のアノテーションとよく一致していないことがわかった。 さらに, 大規模言語モデルから社会常識知識を抽出し, モデルと人間との協調性を高めるための新しいアプローチを提案する。 データとコードはhttps://seungjuhan.me/normlensでリリースされる。

Commonsense norms are defeasible by context: reading books is usually great, but not when driving a car. While contexts can be explicitly described in language, in embodied scenarios, contexts are often provided visually. This type of visually grounded reasoning about defeasible commonsense norms is generally easy for humans, but (as we show) poses a challenge for machines, as it necessitates both visual understanding and reasoning about commonsense norms. We construct a new multimodal benchmark for studying visual-grounded commonsense norms: NORMLENS. NORMLENS consists of 10K human judgments accompanied by free-form explanations covering 2K multimodal situations, and serves as a probe to address two questions: (1) to what extent can models align with average human judgment? and (2) how well can models explain their predicted judgments? We find that state-of-the-art model judgments and explanations are not well-aligned with human annotation. Additionally, we present a new approach to better align models with humans by distilling social commonsense knowledge from large language models. The data and code are released at https://seungjuhan.me/normlens.
翻訳日:2023-10-17 14:07:09 公開日:2023-10-16
# 野生におけるラベルなしデータによる事前学習

Prior-Free Continual Learning with Unlabeled Data in the Wild ( http://arxiv.org/abs/2310.10417v1 )

ライセンス: Link先を確認
Tao Zhuo, Zhiyong Cheng, Hehe Fan, and Mohan Kankanhalli(参考訳) 継続的学習(CL)は、古いタスクの知識を忘れずに、新しいタスクに関するトレーニングされたモデルを漸進的に更新することを目的としている。 既存のclメソッドは、通常、タスクの優先順位を忘れたり、タスクのidを使ったり、モデルトレーニングで見たサンプルのサブセットを小さくする。 しかし、そのような前処理が現実世界のアプリケーションで未知である場合、これらのメソッドは実現不可能である。 そこで本研究では,タスクの同一性や過去のデータを知ることなく新しいタスクを学習する事前自由連続学習(pfcl)手法を提案する。 まず、固定された単一ヘッドアーキテクチャに基づいて、タスク固有の出力ヘッドを選択するタスクIDを不要にする。 第二に、新しいモデルと古いモデルの間で一貫した予測のために正規化ベースの戦略を採用し、以前のサンプルの再検討を避ける。 しかし、この戦略だけでは、特に長い一連のタスクにおいて、クラスインクリメンタルなシナリオではうまく機能しないことが多い。 従来の正規化手法の有効性と限界を解析し、補助的なラベル付きデータセットによるモデル一貫性の強化を提案する。 また,補助データによっては性能が低下する場合があるため,より信頼性の高いサンプル選択戦略を開発し,一貫した性能向上を実現する。 複数の画像分類ベンチマークデータセットに対する大規模な実験により、PFCL法は3つの学習シナリオすべてにおいて忘れを著しく軽減することが示された。 さらに,従来のサンプルをリプレイする最近のリハーサル法と比較すると,PFCLは競争精度が向上する。 私たちのコードは、https://github.com/visiontao/pfclで利用可能です。

Continual Learning (CL) aims to incrementally update a trained model on new tasks without forgetting the acquired knowledge of old ones. Existing CL methods usually reduce forgetting with task priors, \ie using task identity or a subset of previously seen samples for model training. However, these methods would be infeasible when such priors are unknown in real-world applications. To address this fundamental but seldom-studied problem, we propose a Prior-Free Continual Learning (PFCL) method, which learns new tasks without knowing the task identity or any previous data. First, based on a fixed single-head architecture, we eliminate the need for task identity to select the task-specific output head. Second, we employ a regularization-based strategy for consistent predictions between the new and old models, avoiding revisiting previous samples. However, using this strategy alone often performs poorly in class-incremental scenarios, particularly for a long sequence of tasks. By analyzing the effectiveness and limitations of conventional regularization-based methods, we propose enhancing model consistency with an auxiliary unlabeled dataset additionally. Moreover, since some auxiliary data may degrade the performance, we further develop a reliable sample selection strategy to obtain consistent performance improvement. Extensive experiments on multiple image classification benchmark datasets show that our PFCL method significantly mitigates forgetting in all three learning scenarios. Furthermore, when compared to the most recent rehearsal-based methods that replay a limited number of previous samples, PFCL achieves competitive accuracy. Our code is available at: https://github.com/visiontao/pfcl
翻訳日:2023-10-17 14:06:46 公開日:2023-10-16
# 微小標本サイズにおける生成的逆ネットワークによる顕微鏡と磁気共鳴画像のスタイル伝達

Style transfer between Microscopy and Magnetic Resonance Imaging via Generative Adversarial Network in small sample size settings ( http://arxiv.org/abs/2310.10414v1 )

ライセンス: Link先を確認
Monika Pytlarz, Adrian Onicas, Alessandro Crimi(参考訳) 磁気共鳴画像(MRI)と同じ組織サンプルに基づく顕微鏡像の相互増強は、根底にある侵襲的生検を欠いた病理組織学的解析を可能にするため有望である。 そこで我々は,cGANアーキテクチャを用いて,コーパス・カロサムのMRI画像から微細組織像を生成する方法を検討した。 我々の知る限り、これは脳MRIの同じ標本の組織学的容積表現への最初の多モーダル翻訳である。 この技術は、MRIスキャンと顕微鏡画像から画像の集合を取り出すペア画像翻訳モデルの訓練によって評価された。 この目的でのcganの使用は、顕微鏡画像のサイズが大きく、通常サンプルの可用性が低いため困難である。 現在の研究は、このフレームワークがコーパスカロサムのMRIスキャンから、比較的低分解能MRIスキャンと組み合わせた高分解能ヒストロジーでトレーニングするネットワークの能力を強調し、確実に組織像を合成していることを示している。 生検を避けるという究極の目的から,提案ツールを教育目的に利用することができる。

Cross-modal augmentation of Magnetic Resonance Imaging (MRI) and microscopic imaging based on the same tissue samples is promising because it can allow histopathological analysis in the absence of an underlying invasive biopsy procedure. Here, we tested a method for generating microscopic histological images from MRI scans of the corpus callosum using conditional generative adversarial network (cGAN) architecture. To our knowledge, this is the first multimodal translation of the brain MRI to histological volumetric representation of the same sample. The technique was assessed by training paired image translation models taking sets of images from MRI scans and microscopy. The use of cGAN for this purpose is challenging because microscopy images are large in size and typically have low sample availability. The current work demonstrates that the framework reliably synthesizes histology images from MRI scans of corpus callosum, emphasizing the network's ability to train on high resolution histologies paired with relatively lower-resolution MRI scans. With the ultimate goal of avoiding biopsies, the proposed tool can be used for educational purposes.
翻訳日:2023-10-17 14:06:21 公開日:2023-10-16
# ダイナミックネットワークによる画像超解像

Image super-resolution via dynamic network ( http://arxiv.org/abs/2310.10413v1 )

ライセンス: Link先を確認
Chunwei Tian, Xuanyu Zhang, Qi Zhang, Mingming Yang and Zhaojie Ju(参考訳) 畳み込みニューラルネットワーク(CNN)は、画像超解像のための正確な情報を抽出するために、ディープネットワークアーキテクチャに依存する。 しかし、これらのCNNの取得した情報は、複雑なシーンの予測された高品質な画像を完全に表現することはできない。 本稿では,画像超解像のための動的ネットワーク(dsrnet, dynamic network for image super- resolution)について述べる。 残余拡張ブロックは、画像超解像の階層的特徴を促進するために、残余拡張アーキテクチャで構成されている。 複雑なシーンの超解像モデルのロバスト性を高めるために、広い拡張ブロックは動的アーキテクチャを実現し、よりロバストな情報を学習し、得られた超解像モデルの様々なシーンへの適用性を高める。 広い拡張ブロックにおける部品の干渉を防止するため、改良ブロックは積み重ねられたアーキテクチャを用いて得られた特徴を正確に学習する。 また、改善ブロックに残差学習操作を組み込んで、長期依存問題を防止する。 最後に、構築ブロックが高品質な画像の再構成に責任を負う。 設計された異種アーキテクチャは、よりリッチな構造情報を容易にするだけでなく、モバイルデジタルデバイスに適した軽量化も可能である。 実験の結果,本手法は画像の超解像時間と複雑さの回復と性能の面でより競争力が高いことがわかった。 DSRNetのコードはhttps://github.com/hellloxiaotian/DSRNetで入手できる。

Convolutional neural networks (CNNs) depend on deep network architectures to extract accurate information for image super-resolution. However, obtained information of these CNNs cannot completely express predicted high-quality images for complex scenes. In this paper, we present a dynamic network for image super-resolution (DSRNet), which contains a residual enhancement block, wide enhancement block, feature refinement block and construction block. The residual enhancement block is composed of a residual enhanced architecture to facilitate hierarchical features for image super-resolution. To enhance robustness of obtained super-resolution model for complex scenes, a wide enhancement block achieves a dynamic architecture to learn more robust information to enhance applicability of an obtained super-resolution model for varying scenes. To prevent interference of components in a wide enhancement block, a refinement block utilizes a stacked architecture to accurately learn obtained features. Also, a residual learning operation is embedded in the refinement block to prevent long-term dependency problem. Finally, a construction block is responsible for reconstructing high-quality images. Designed heterogeneous architecture can not only facilitate richer structural information, but also be lightweight, which is suitable for mobile digital devices. Experimental results shows that our method is more competitive in terms of performance and recovering time of image super-resolution and complexity. The code of DSRNet can be obtained at https://github.com/hellloxiaotian/DSRNet.
翻訳日:2023-10-17 14:06:02 公開日:2023-10-16
# フェルミ・ハバードモデルにおけるグリーン関数の量子アルゴリズム

Quantum Algorithm for Green's Functions Measurements in the Fermi-Hubbard Model ( http://arxiv.org/abs/2310.10412v1 )

ライセンス: Link先を確認
Gino Bishop, Dmitry Bagrets, Frank K. Wilhelm(参考訳) 強相関フェルミオン系に対するハイブリッド量子古典変分クラスターアプローチ(vca)の枠組みにおいて、量子サブルーチンの目的の一つは、多項式時間で格子フェルミオンの単粒子相関関数を見つけることである。 以前の研究は、この目的のために位相推定スキームの変種を使用することを提案した。 しかし、シミュレーションモデルの完全なダイナミクスを特定する制御されたユニタリの実装が必要となる。 本研究では,ハバードモデルを模擬した量子回路に適応したKubo線形応答理論のアナログを用いた新しい量子アルゴリズムを提案する。 これにより、クラスタのグリーン関数に直接アクセスすることができ、位相推定スキームの使用を回避できる。 2量子ビットゲートのゲート数を大幅に削減し、ハードウェア設計の制限を従来のアプローチと比較した。

In the framework of the hybrid quantum-classical variational cluster approach (VCA) to strongly correlated fermion systems one of the goals of a quantum subroutine is to find single-particle correlation functions of lattice fermions in polynomial time. Previous works suggested to use variants of the phase estimation scheme for this purpose. However, it requires an implementation of controlled unitaries specifying the full dynamics of the simulated model. In this work, we propose a new quantum algorithm, which uses an analog of the Kubo linear response theory adapted to a quantum circuit simulating the Hubbard model. It allows to access the Green's function of a cluster directly and thereby circumvents the usage of a phase estimation scheme. We find a drastic reduction in gate count of two-qubits gates and limitations on hardware design as compared to previous approaches.
翻訳日:2023-10-17 14:05:40 公開日:2023-10-16
# Loci-Segmented: シーンセグメンテーション学習の改善

Loci-Segmented: Improving Scene Segmentation Learning ( http://arxiv.org/abs/2310.10410v1 )

ライセンス: Link先を確認
Manuel Traub, Frederic Becker, Adrian Sauter, Sebastian Otte, Martin V. Butz(参考訳) 合成シーン表現のためのスロット指向処理アプローチは近年,大きな発展を遂げている。 Loci-Segmented(Loci-s)は、スロットベースの位置とアイデンティティ追跡アーキテクチャであるLoci(Traub et al., ICLR 2023)を拡張した、高度なシーンセグメンテーションニューラルネットワークである。 主な進歩は (i)事前訓練された動的背景モジュールの追加 (ii)オブジェクト中心のボトムアップ処理を可能にするハイパー畳み込みエンコーダモジュール (iii)カスケードデコーダモジュールは,被写体マスク,被写体深度マップ,被写体深度マップインフォームドrgb再構成を順次生成する。 背景モジュールは、前景識別モジュールと背景再生成モジュールの両方の学習機能を備えている。 パフォーマンスをさらに向上させ (a)奥行き情報の統合及びスロット割り当ての改善 (b)スロット位置エンタリティ正則化及び (b)事前セグメンテーションネットワーク。 後者の改良がなくても、moviデータセットと他の確立されたデータセットのセグメンテーション性能が優れていることが分かる。 全ての改良により、loci-sは以前のベストよりもユニオン(iou)のスコアよりも32%優れた交点を達成している。 さらに、Loci-sがよく解釈可能な潜在表現を生成することを示す。 これらの表現は、基礎言語やコンテキストや目標条件のイベント処理といった下流タスクを解決するための基礎モデルのような解釈可能な基盤として機能すると考えています。

Slot-oriented processing approaches for compositional scene representation have recently undergone a tremendous development. We present Loci-Segmented (Loci-s), an advanced scene segmentation neural network that extends the slot-based location and identity tracking architecture Loci (Traub et al., ICLR 2023). The main advancements are (i) the addition of a pre-trained dynamic background module; (ii) a hyper-convolution encoder module, which enables object-focused bottom-up processing; and (iii) a cascaded decoder module, which successively generates object masks, masked depth maps, and masked, depth-map-informed RGB reconstructions. The background module features the learning of both a foreground identifying module and a background re-generator. We further improve performance via (a) the integration of depth information as well as improved slot assignments via (b) slot-location-entity regularization and (b) a prior segmentation network. Even without these latter improvements, the results reveal superior segmentation performance in the MOVi datasets and in another established dataset collection. With all improvements, Loci-s achieves a 32% better intersection over union (IoU) score in MOVi-E than the previous best. We furthermore show that Loci-s generates well-interpretable latent representations. We believe that these representations may serve as a foundation-model-like interpretable basis for solving downstream tasks, such as grounding language and context- and goal-conditioned event processing.
翻訳日:2023-10-17 14:05:26 公開日:2023-10-16
# 画像デノイジング用クロストランス

A cross Transformer for image denoising ( http://arxiv.org/abs/2310.10408v1 )

ライセンス: Link先を確認
Chunwei Tian, Menghua Zheng, Wangmeng Zuo, Shichao Zhang, Yanning Zhang and Chia-Wen Ling(参考訳) 深層畳み込みニューラルネットワーク(deep convolutional neural network:cnns)はフィードフォワードとフィードバックの方法に依存し、画像の雑音化において優れた性能を得る。 しかし, 複雑なシーンでは, cnnによる効果的な構造情報を得る方法が重要である。 本稿では,CNN (CTNet) にシリアルブロック (SB) と並列ブロック (PB) と残差ブロック (RB) を付加して複雑なシーンのクリーンな画像を得るクロストランスフォーマーを提案する。 SBは、強化された残差アーキテクチャを用いて、画像復調のための構造情報を深く探索する。 鍵情報の喪失を避けるため、pbは3つの異種ネットワークを使用してマルチレベル機能の複数インタラクションを実装し、複雑なシーンに対するデノイザーの適応性を改善するために、追加情報を広く検索する。 また、デノナイジング性能を向上させるため、トランスフォーマー機構をSBおよびPBに埋め込み、画素関係の観点からノイズを効果的に除去する相補的なサリエント特徴を抽出する。 最後に、RBを適用してクリーン画像を取得する。 実験の結果,CTNetは実画像および合成画像の復調において,一般的な復調法よりも優れていることがわかった。 携帯電話などの携帯用デジタル機器に向いている。 コードはhttps://github.com/hellloxiaotian/CTNetで取得できる。

Deep convolutional neural networks (CNNs) depend on feedforward and feedback ways to obtain good performance in image denoising. However, how to obtain effective structural information via CNNs to efficiently represent given noisy images is key for complex scenes. In this paper, we propose a cross Transformer denoising CNN (CTNet) with a serial block (SB), a parallel block (PB), and a residual block (RB) to obtain clean images for complex scenes. A SB uses an enhanced residual architecture to deeply search structural information for image denoising. To avoid loss of key information, PB uses three heterogeneous networks to implement multiple interactions of multi-level features to broadly search for extra information for improving the adaptability of an obtained denoiser for complex scenes. Also, to improve denoising performance, Transformer mechanisms are embedded into the SB and PB to extract complementary salient features for effectively removing noise in terms of pixel relations. Finally, a RB is applied to acquire clean images. Experiments illustrate that our CTNet is superior to some popular denoising methods in terms of real and synthetic image denoising. It is suitable to mobile digital devices, i.e., phones. Codes can be obtained at https://github.com/hellloxiaotian/CTNet.
翻訳日:2023-10-17 14:05:04 公開日:2023-10-16
# 大規模言語モデルによる微粒なシーングラフの生成

Weakly Supervised Fine-grained Scene Graph Generation via Large Language Model ( http://arxiv.org/abs/2310.10404v1 )

ライセンス: Link先を確認
Kibum Kim, Kanghoon Yoon, Jaeyeong Jeon, Yeonjun In, Jinyoung Moon, Donghyun Kim, Chanyoung Park(参考訳) Wakly-Supervised Scene Graph Generation (WSSGG) 研究は、最近、コストのかかるアノテーションに大きく依存する、完全に教師されたアプローチの代替として現れた。 そこで,WSSGGの研究は,画像領域上の非局在化三重項の接地に着目しつつ,非局在化三重項の取得に画像キャプションを利用した。 しかし、キャプションから三重項形成の過程に関わる2つの問題を見落としている。 1)字幕中のきめ細かい述語を好ましくなく粗い述語に変換して長尾述語分布にするキャプションから三重項を抽出する際に意味的な単純化の問題が発生する。 2 低密度シーングラフは、キャプション内の三つ子を、多くの三つ子を捨てて訓練に使用しない利害関係のクラスに整列させ、監督が不十分な場合に発生する。 この2つの問題に対処するため,LLM の言語理解の深みを生かし,キャプションから三重項を抽出する際の推論能力と,エンティティ/述語クラスを対象データにアライメントすることで,弱教師付き SGG のための大規模言語モデル (LLM4SGG) を提案する。 これらのプロセスでLLMをさらに活用するため、我々はChain-of-Thoughtという概念と、文脈内数ショット学習戦略を採用した。 LLM4SGGの有効性を検証するために、我々は、Visual GenomeとGQAデータセットの広範な実験を行い、Recall@Kと平均Recall@Kの両方において、最先端のWSSGG法と比較して大幅に改善されていることを示す。 さらに、LLM4SGGはデータ効率が良く、少量のトレーニング画像で効果的なモデルトレーニングを可能にする。

Weakly-Supervised Scene Graph Generation (WSSGG) research has recently emerged as an alternative to the fully-supervised approach that heavily relies on costly annotations. In this regard, studies on WSSGG have utilized image captions to obtain unlocalized triplets while primarily focusing on grounding the unlocalized triplets over image regions. However, they have overlooked the two issues involved in the triplet formation process from the captions: 1) Semantic over-simplification issue arises when extracting triplets from captions, where fine-grained predicates in captions are undesirably converted into coarse-grained predicates, resulting in a long-tailed predicate distribution, and 2) Low-density scene graph issue arises when aligning the triplets in the caption with entity/predicate classes of interest, where many triplets are discarded and not used in training, leading to insufficient supervision. To tackle the two issues, we propose a new approach, i.e., Large Language Model for weakly-supervised SGG (LLM4SGG), where we mitigate the two issues by leveraging the LLM's in-depth understanding of language and reasoning ability during the extraction of triplets from captions and alignment of entity/predicate classes with target data. To further engage the LLM in these processes, we adopt the idea of Chain-of-Thought and the in-context few-shot learning strategy. To validate the effectiveness of LLM4SGG, we conduct extensive experiments on Visual Genome and GQA datasets, showing significant improvements in both Recall@K and mean Recall@K compared to the state-of-the-art WSSGG methods. A further appeal is that LLM4SGG is data-efficient, enabling effective model training with a small amount of training images.
翻訳日:2023-10-17 14:04:41 公開日:2023-10-16
# システムダイナミクス最適化のためのアニーリングプロトコルのセットと全連結スピングラス問題の分類

A Set of Annealing Protocols for Optimized System Dynamics and Classification of Fully Connected Spin Glass Problems ( http://arxiv.org/abs/2310.10442v1 )

ライセンス: Link先を確認
Gino Bishop, Simone Montangero, Frank K. Wilhelm(参考訳) 我々は10個の物理量子ビットに対してLechner-Hauke-Zoller (LHZ) 熱処理アーキテクチャ (Science Advances 1(9), e1500838 (2015)) の正確な対角化と時間発展を行う。 これにより、2400ドルの問題インスタンスからなるトレーニングセットにおいて、任意のLHZ問題インスタンスの大規模なクラスにおいて線形プロトコルよりも優れた固定最適アニールプロトコルのセットを特定することを目的として、ローカルフィールドをチューニングする最適化タスクを実行する。 同様のエネルギー景観を持つ問題インスタンス群に最適化されたプロトコルを適用することにより,平均基底状態忠実度が0.9ドルとなることを示す。 特に、最適化されたアニールプロトコルのセットは、あらかじめ定義されたしきい値基底状態の忠実度に達するのに必要なアニール時間を平均$\sim72\%$で減少させる。 さらに、これらのプロトコルは実験的なセットアップに容易に適用できるため、問題固有のプロトコル最適化の出発点として使用できる。 逆に、スピングラス問題の瞬時エネルギー環境を測定するために、以前最適化されたプロトコルをどのように利用できるかについて議論する。 シミュレーションはLHZアーキテクチャ上で実施されたが、最適化されたプロトコルの識別はシミュレーションとローカル接続に限らない。

We perform exact diagonalization and time evolution of the Lechner-Hauke-Zoller (LHZ) annealing architecture [Science Advances 1(9), e1500838 (2015)] for ten physical qubits. Thereby, on a training set consisting of $2400$ problem instances, we perform the optimization task of tuning the local fields with the goal to identify a set of fixed optimal annealing protocols, that outperforms linear protocols on a large class of arbitrary LHZ problem instances. We show that average ground state fidelities of $0.9$ can be achieved by applying optimized protocols onto groups of problem instances with similar energy landscapes. Particularly, the set of optimized annealing protocols reduces annealing time required to reach a predefined threshold ground state fidelity by an average of $\sim72\%$, corresponding to a speed-up of factor $\sim3.5$. Moreover, as these protocols are meant to be readily applicable in experimental setups, they can be used as a starting point for problem-specific protocol optimization. In reverse, we discuss how previously optimized protocols can potentially be used to gauge the instantaneous energy landscape of a spin glass problem. Albeit simulations were performed on the LHZ architecture, identification of optimized protocols is not limited to either simulations or local connectivity only.
翻訳日:2023-10-17 13:58:16 公開日:2023-10-16
# 次数プロファイルによるランダム不均質グラフの効率的なマッチング

Efficiently matching random inhomogeneous graphs via degree profiles ( http://arxiv.org/abs/2310.10441v1 )

ライセンス: Link先を確認
Jian Ding, Yumou Fei, Yuanzheng Wang(参考訳) 本稿では,異なる頂点間の不均一性および未知のエッジ確率を持つ2つの相関ランダムグラフ間の潜時頂点対応を復元する問題について検討する。 Ding, Ma, Wu および Xu (2021) による等級プロファイルによるマッチングアルゴリズムの着想と拡張により、最小平均次数が少なくとも$\Omega(\log^{2} n)$であり、最小相関が少なくとも$1 - O(\log^{-2} n)$である限り、効率的なマッチングアルゴリズムが得られる。

In this paper, we study the problem of recovering the latent vertex correspondence between two correlated random graphs with vastly inhomogeneous and unknown edge probabilities between different pairs of vertices. Inspired by and extending the matching algorithm via degree profiles by Ding, Ma, Wu and Xu (2021), we obtain an efficient matching algorithm as long as the minimal average degree is at least $\Omega(\log^{2} n)$ and the minimal correlation is at least $1 - O(\log^{-2} n)$.
翻訳日:2023-10-17 13:57:51 公開日:2023-10-16
# マクロ経済活動のシミュレーションのための大規模言語モデルエンパワーエージェント

Large Language Model-Empowered Agents for Simulating Macroeconomic Activities ( http://arxiv.org/abs/2310.10436v1 )

ライセンス: Link先を確認
Nian Li, Chen Gao, Yong Li, Qingmin Liao(参考訳) ウェブの出現は、伝統的な経済、特にデジタル経済時代におけるパラダイムシフトをもたらし、個々の経済行動の正確な記録と分析を可能にした。 これにより、マクロ経済学におけるデータ駆動モデリングへの注目が高まっている。 マクロ経済学の研究において、エージェントベースモデリング(ABM)が代替として登場し、ルールベースのエージェント、機械学習による意思決定、さらに最近では高度なAIエージェントを通じて進化した。 しかし, エージェントの不均質性, マクロ経済動向の影響, 多面的経済要因など, ヒューマンライクな意思決定を伴う内皮剤は, 主に3つの課題に直面している。 大規模言語モデル(llm)は最近、自律的な人間のような特性を提供することで注目を集めている。 したがって、マクロ経済学シミュレーションにおけるLLMの利用は、従来の制限を克服する機会となる。 本研究では,LLMをマクロ経済シミュレーションに応用した新しい手法を導入するための第一歩を踏み出した。 我々は,人為的な意思決定と経済環境への適応性を示すために,先行する課題に対処するために,迅速なエンジニアリング駆動型LCMエージェントを設計する。 マクロ経済活動に関するシミュレーション実験は、LCMを動力とするエージェントが現実的な仕事や消費の決定を行い、既存のルールベースのエージェントやAIエージェントよりも合理的なマクロ経済現象を発生させることができることを示している。 本研究は,llmに基づくマクロ経済学とその人間的特徴をシミュレートする可能性を示す。

The advent of the Web has brought about a paradigm shift in traditional economics, particularly in the digital economy era, enabling the precise recording and analysis of individual economic behavior. This has led to a growing emphasis on data-driven modeling in macroeconomics. In macroeconomic research, Agent-based modeling (ABM) emerged as an alternative, evolving through rule-based agents, machine learning-enhanced decision-making, and, more recently, advanced AI agents. However, the existing works are suffering from three main challenges when endowing agents with human-like decision-making, including agent heterogeneity, the influence of macroeconomic trends, and multifaceted economic factors. Large language models (LLMs) have recently gained prominence in offering autonomous human-like characteristics. Therefore, leveraging LLMs in macroeconomic simulation presents an opportunity to overcome traditional limitations. In this work, we take an early step in introducing a novel approach that leverages LLMs in macroeconomic simulation. We design prompt-engineering-driven LLM agents to exhibit human-like decision-making and adaptability in the economic environment, with the abilities of perception, reflection, and decision-making to address the abovementioned challenges. Simulation experiments on macroeconomic activities show that LLM-empowered agents can make realistic work and consumption decisions and emerge more reasonable macroeconomic phenomena than existing rule-based or AI agents. Our work demonstrates the promising potential to simulate macroeconomics based on LLM and its human-like characteristics.
翻訳日:2023-10-17 13:57:40 公開日:2023-10-16
# 等価行列関数ニューラルネットワーク

Equivariant Matrix Function Neural Networks ( http://arxiv.org/abs/2310.10434v1 )

ライセンス: Link先を確認
Ilyes Batatia, Lars L. Schaaf, Huajie Chen, G\'abor Cs\'anyi, Christoph Ortner, Felix A. Faber(参考訳) グラフニューラルネットワーク(GNN)、特にメッセージパスニューラルネットワーク(MPNN)は、さまざまなアプリケーションでグラフを学ぶための強力なアーキテクチャとして登場した。 しかし、mpnnは、大きな共役分子、金属、アモルファス物質などのシステムにおける非局所相互作用のモデル化において困難に直面している。 スペクトルGNNやリカレントニューラルネットワークやトランスフォーマーといった従来のニューラルネットワークはこれらの課題を緩和するが、拡張性、適応性、一般化性、計算効率、データ内の詳細な構造的関係や対称性の取得に失敗する。 これらの問題に対処するために,解析行列同変関数を介して非局所的相互作用をパラメータ化する新しいアーキテクチャであるマトリックス関数ニューラルネットワーク(MFN)を導入する。 resolvent expansionsの採用は、簡単な実装とシステムサイズでの線形スケーリングの可能性を提供する。 MFNアーキテクチャは、ZINCやTUデータセットなどの標準グラフベンチマークで最先端のパフォーマンスを実現し、量子システムにおける複雑な非局所的な相互作用をキャプチャし、新しい最先端の力場への道を歩むことができる。

Graph Neural Networks (GNNs), especially message-passing neural networks (MPNNs), have emerged as powerful architectures for learning on graphs in diverse applications. However, MPNNs face challenges when modeling non-local interactions in systems such as large conjugated molecules, metals, or amorphous materials. Although Spectral GNNs and traditional neural networks such as recurrent neural networks and transformers mitigate these challenges, they often lack extensivity, adaptability, generalizability, computational efficiency, or fail to capture detailed structural relationships or symmetries in the data. To address these concerns, we introduce Matrix Function Neural Networks (MFNs), a novel architecture that parameterizes non-local interactions through analytic matrix equivariant functions. Employing resolvent expansions offers a straightforward implementation and the potential for linear scaling with system size. The MFN architecture achieves state-of-the-art performance in standard graph benchmarks, such as the ZINC and TU datasets, and is able to capture intricate non-local interactions in quantum systems, paving the way to new state-of-the-art force fields.
翻訳日:2023-10-17 13:57:14 公開日:2023-10-16
# スカースデータレジームにおける空中画像中の物体検出

Object Detection in Aerial Images in Scarce Data Regimes ( http://arxiv.org/abs/2310.10433v1 )

ライセンス: Link先を確認
Pierre Le Jeune(参考訳) Few-Shot Object Detection (FSOD) におけるほとんどのコントリビューションは、自然画像のみに対するメソッドの評価を行っているが、他の種類の画像に対するアプリケーションに対して、発表されたパフォーマンスの転送性は保証されていない。 航空画像における既存のfsod法を詳細に分析し,自然画像と比較して大きな性能ギャップを観測した。 航空画像に多く見られる小型物体は、自然画像と空中画像の明らかな性能差の原因となっている。 その結果,小物体のfsod性能を注意深く設計した注意機構により改善する。 また,FSOD法,特に小型オブジェクトの訓練と評価を改善するスケール適応型ボックス類似度基準を提案する。 また、計量学習と微調整に基づく2つの異なるアプローチによる汎用FSODにも貢献する。 印象的な結果は、クロスドメインFSODのようなより複雑なシナリオに取り組むための微調整手法によって達成される。 この方向に予備実験を行い、有望な結果を得る。 最後に,COSEシステム内における検出モデルの展開について述べる。 検出は、計算能力に制限のある非常に大きな画像(100メガピクセル以上)でリアルタイムに行う必要がある。 TensorRTのような既存の最適化ツールを活用することで、このエンジニアリング課題にうまく取り組みました。

Most contributions on Few-Shot Object Detection (FSOD) evaluate their methods on natural images only, yet the transferability of the announced performance is not guaranteed for applications on other kinds of images. We demonstrate this with an in-depth analysis of existing FSOD methods on aerial images and observed a large performance gap compared to natural images. Small objects, more numerous in aerial images, are the cause for the apparent performance gap between natural and aerial images. As a consequence, we improve FSOD performance on small objects with a carefully designed attention mechanism. In addition, we also propose a scale-adaptive box similarity criterion, that improves the training and evaluation of FSOD methods, particularly for small objects. We also contribute to generic FSOD with two distinct approaches based on metric learning and fine-tuning. Impressive results are achieved with the fine-tuning method, which encourages tackling more complex scenarios such as Cross-Domain FSOD. We conduct preliminary experiments in this direction and obtain promising results. Finally, we address the deployment of the detection models inside COSE's systems. Detection must be done in real-time in extremely large images (more than 100 megapixels), with limited computation power. Leveraging existing optimization tools such as TensorRT, we successfully tackle this engineering challenge.
翻訳日:2023-10-17 13:56:53 公開日:2023-10-16
# 神経常微分方程式を用いた縦型自己教師あり学習

Longitudinal Self-supervised Learning Using Neural Ordinary Differential Equation ( http://arxiv.org/abs/2310.10431v1 )

ライセンス: Link先を確認
Rachid Zeghlache, Pierre-Henri Conze, Mostafa El Habib Daho, Yihao Li, Hugo Le Boit\'e, Ramin Tadayoni, Pascal Massin, B\'eatrice Cochener, Ikram Brahim, Gwenol\'e Quellec, Mathieu Lamard(参考訳) 医学画像における経時的解析は、解剖学的構造や疾患の進行の経時的変化を調べる上で重要である。 近年, 連続画像と時系列画像のどちらかを用いて, 疾患の進行を自己管理的に学習することを目的として, 新たなアルゴリズムのクラスが出現している。 外部ラベルや監督なしに時間的パターンを捉えることで、縦型自己教師学習(LSSL)が有望な道となった。 このコア手法をよりよく理解するために,異なるシナリオ下でのLSSLアルゴリズムについて検討する。 オリジナルのLSSLは自動エンコーダ(AE)構造に組み込まれている。 しかし、従来の自己管理戦略は通常、シームズ的な方法で実施される。 そこで本研究では, シームズ様 LSSL の利用について検討する。 神経常微分方程式(NODE)と呼ばれる新しいコアフレームワーク。 NODEはニューラルネットワークを用いて、通常の微分方程式(ODE)の力学を学習するニューラルネットワークアーキテクチャである。 多くの時相系はODEによって記述され、疾患の進行をモデル化する。 LSSLとNODEの間には興味深い関係があると信じています。 本稿は,前述の変化とともに進行する疾患を学習するためのコアアルゴリズムの理解を深めることを目的としている。 実験では,糖尿病網膜症(DR)の追跡を対象とする縦断データセットOPHDIATを用いた。 以上の結果から,再建用語を含まないLSSLの適用と,NODEをLSSLと併用する可能性を示す。

Longitudinal analysis in medical imaging is crucial to investigate the progressive changes in anatomical structures or disease progression over time. In recent years, a novel class of algorithms has emerged with the goal of learning disease progression in a self-supervised manner, using either pairs of consecutive images or time series of images. By capturing temporal patterns without external labels or supervision, longitudinal self-supervised learning (LSSL) has become a promising avenue. To better understand this core method, we explore in this paper the LSSL algorithm under different scenarios. The original LSSL is embedded in an auto-encoder (AE) structure. However, conventional self-supervised strategies are usually implemented in a Siamese-like manner. Therefore, (as a first novelty) in this study, we explore the use of Siamese-like LSSL. Another new core framework named neural ordinary differential equation (NODE). NODE is a neural network architecture that learns the dynamics of ordinary differential equations (ODE) through the use of neural networks. Many temporal systems can be described by ODE, including modeling disease progression. We believe that there is an interesting connection to make between LSSL and NODE. This paper aims at providing a better understanding of those core algorithms for learning the disease progression with the mentioned change. In our different experiments, we employ a longitudinal dataset, named OPHDIAT, targeting diabetic retinopathy (DR) follow-up. Our results demonstrate the application of LSSL without including a reconstruction term, as well as the potential of incorporating NODE in conjunction with LSSL.
翻訳日:2023-10-17 13:56:34 公開日:2023-10-16
# ユーザのコメントに先立って偽ニュースの早期検出にユーザコメントを利用する

Exploiting User Comments for Early Detection of Fake News Prior to Users' Commenting ( http://arxiv.org/abs/2310.10429v1 )

ライセンス: Link先を確認
Qiong Nan, Qiang Sheng, Juan Cao, Yongchun Zhu, Danding Wang, Guang Yang, Jintao Li, Kai Shu(参考訳) 精度とタイムラインは、ソーシャルメディア上で偽ニュースを検出する上で重要な要素である。 コンテンツのみのメソッドはタイムラインを保証するが、利用可能な情報が少ないため適度に実行する。一方、ソーシャルコンテキストベースのメソッドは一般的にパフォーマンスが良いが、必然的に社会的コンテキストの蓄積が必要なためレイテンシにつながる。 このようなジレンマを破るためには、歴史的ニュースからの社会的文脈(例えばコメント)を利用して検出モデルを訓練し、社会的文脈を伴わずに新しく出現したニュースに適用する、という方法が考えられる。 このモデルでは,(1)社会的文脈から十分な知識を習得し,(2)社会的文脈が利用できるか否かの状況と整合性を持たなければならない。 この目的を達成するために,歴史ニュースのコメントから有用な知識を吸収・パラメータ化し,コンテンツのみの検出モデルに注入する。 具体的には,コメント認識型教師モデルから学習中のコンテンツのみの学生モデルに有用な知識を伝達する,偽ニュース検出法(cas-fend)をデザインする。 学生モデルは新たなフェイクニュースを検出するためにさらに使用される。 実験により、CAS-FENDの学生モデルは、コンテンツのみの手法や、1/4のコメントを入力として持つものよりも優れており、早期発見の優位性を示している。

Both accuracy and timeliness are key factors in detecting fake news on social media. However, most existing methods encounter an accuracy-timeliness dilemma: Content-only methods guarantee timeliness but perform moderately because of limited available information, while social context-based ones generally perform better but inevitably lead to latency because of social context accumulation needs. To break such a dilemma, a feasible but not well-studied solution is to leverage social contexts (e.g., comments) from historical news for training a detection model and apply it to newly emerging news without social contexts. This requires the model to (1) sufficiently learn helpful knowledge from social contexts, and (2) be well compatible with situations that social contexts are available or not. To achieve this goal, we propose to absorb and parameterize useful knowledge from comments in historical news and then inject it into a content-only detection model. Specifically, we design the Comments Assisted Fake News Detection method (CAS-FEND), which transfers useful knowledge from a comments-aware teacher model to a content-only student model during training. The student model is further used to detect newly emerging fake news. Experiments show that the CAS-FEND student model outperforms all content-only methods and even those with 1/4 comments as inputs, demonstrating its superiority for early detection.
翻訳日:2023-10-17 13:56:11 公開日:2023-10-16
# DANAA:double adversarial neuron Attributionによるトランスファー可能な攻撃を目指して

DANAA: Towards transferable attacks with double adversarial neuron attribution ( http://arxiv.org/abs/2310.10427v1 )

ライセンス: Link先を確認
Zhibo Jin, Zhiyu Zhu, Xinyi Wang, Jiayu Zhang, Jun Shen, Huaming Chen(参考訳) ディープニューラルネットワークは多くの分野において優れた結果をもたらすが、それらは誤った判断を下すサンプルの攻撃による干渉に影響を受けやすい。 機能レベルの攻撃は効果的な攻撃タイプの1つであり、異なるモデル間の伝達性を改善するために隠れたレイヤの学習機能をターゲットにしている。 しかし, 伝達能は神経細胞の重要度推定結果に大きく影響されていることが観察された。 本稿では,DANAAと呼ばれる二重対向ニューロン帰属攻撃法を提案し,より正確な特徴重要度推定法を提案する。 本手法では, モデル出力は, 逆方向の非線形経路に基づいて中間層に帰属する。 目標は、個々のニューロンの重みを計測し、トランスファービリティーにとってより重要な特徴を保持することである。 本手法の最先端性能を実証するために,ベンチマークデータセットの広範な実験を行った。 私たちのコードは、https://github.com/Davidjinzb/DANAAで利用可能です。

While deep neural networks have excellent results in many fields, they are susceptible to interference from attacking samples resulting in erroneous judgments. Feature-level attacks are one of the effective attack types, which targets the learnt features in the hidden layers to improve its transferability across different models. Yet it is observed that the transferability has been largely impacted by the neuron importance estimation results. In this paper, a double adversarial neuron attribution attack method, termed `DANAA', is proposed to obtain more accurate feature importance estimation. In our method, the model outputs are attributed to the middle layer based on an adversarial non-linear path. The goal is to measure the weight of individual neurons and retain the features that are more important towards transferability. We have conducted extensive experiments on the benchmark datasets to demonstrate the state-of-the-art performance of our method. Our code is available at: https://github.com/Davidjinzb/DANAA
翻訳日:2023-10-17 13:55:47 公開日:2023-10-16
# パワーエレクトロニクスパラメータ設計のための連続適応ランダムサンプリング(CARS)

Continuously Adapting Random Sampling (CARS) for Power Electronics Parameter Design ( http://arxiv.org/abs/2310.10425v1 )

ライセンス: Link先を確認
Dominik Happel, Philipp Brendel, Andreas Rosskopf, Stefan Ditze(参考訳) 現在まで、パワーエレクトロニクスのパラメータ設計タスクは、詳細なシミュレーションによる詳細な最適化アプローチや、非常に高速なシミュレーションによるブルート力グリッド探索グリッド探索によって取り組まれている。 連続的適応型ランダムサンプリング(cars)と呼ばれる新しい手法が提案されている。 これにより、非常に高速かつ/または大量のシミュレーションが可能となるが、より有望なパラメータ範囲に焦点が当てられるようになる。 インスピレーションはマルチアームのバンディット研究から導き出され、高次元のパラメータテンソル内のサブドメインの優先的なサンプリングに繋がる。 性能は3つの例で評価され、結果として得られる設計は遺伝的アルゴリズムに匹敵するように見えるが、さらに高い並列化のシミュレーションと探索的設定と搾取的設定の連続的な進行を可能にする。

To date, power electronics parameter design tasks are usually tackled using detailed optimization approaches with detailed simulations or using brute force grid search grid search with very fast simulations. A new method, named "Continuously Adapting Random Sampling" (CARS) is proposed, which provides a continuous method in between. This allows for very fast, and / or large amounts of simulations, but increasingly focuses on the most promising parameter ranges. Inspirations are drawn from multi-armed bandit research and lead to prioritized sampling of sub-domains in one high-dimensional parameter tensor. Performance has been evaluated on three exemplary power electronic use-cases, where resulting designs appear competitive to genetic algorithms, but additionally allow for highly parallelizable simulation, as well as continuous progression between explorative and exploitative settings.
翻訳日:2023-10-17 13:55:33 公開日:2023-10-16
# エゴセントリック歩行者軌道予測のための新しいベンチマークパラダイムとスケール・アンド・モーション・アウェアモデル

A Novel Benchmarking Paradigm and a Scale- and Motion-Aware Model for Egocentric Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2310.10424v1 )

ライセンス: Link先を確認
Amir Rasouli(参考訳) 歩行者の行動を予測することは、インテリジェントな運転システムの主要な課題の1つだ。 本稿では,エゴセントリック歩行者軌跡予測アルゴリズムを評価するための新しいパラダイムを提案する。 様々な文脈情報に基づいて,予測モデルの課題を特定するための有意義かつ体系的なアプローチのための運転シナリオを抽出する。 また,シナリオベース評価において,より効果的なランク付けのための新しい指標を提案する。 これらのシナリオにおける既存モデルの広範な実証的研究を行い、異なるアプローチの欠点と強みを明らかにする。 シナリオベース分析では,エゴ運動の不十分なモデリングと歩行者の規模によって引き起こされる,多モーダルな情報ソースの利用の重要性を強調した。 そこで本研究では,効率的なステップワイド階層方式で融合したマルチモーダルなデータソースと,シーンダイナミクスのより堅牢な表現を学習するための2つの補助的タスクの利点を活かした,エゴセントリックな軌道予測モデルを提案する。 共通ベンチマークデータセットを用いた経験的評価により,過去の手法と比較して,課題シナリオにおいて最大40%の大幅な改善が達成できることを示す。

Predicting pedestrian behavior is one of the main challenges for intelligent driving systems. In this paper, we present a new paradigm for evaluating egocentric pedestrian trajectory prediction algorithms. Based on various contextual information, we extract driving scenarios for a meaningful and systematic approach to identifying challenges for prediction models. In this regard, we also propose a new metric for more effective ranking within the scenario-based evaluation. We conduct extensive empirical studies of existing models on these scenarios to expose shortcomings and strengths of different approaches. The scenario-based analysis highlights the importance of using multimodal sources of information and challenges caused by inadequate modeling of ego-motion and scale of pedestrians. To this end, we propose a novel egocentric trajectory prediction model that benefits from multimodal sources of data fused in an effective and efficient step-wise hierarchical fashion and two auxiliary tasks designed to learn more robust representation of scene dynamics. We show that our approach achieves significant improvement by up to 40% in challenging scenarios compared to the past arts via empirical evaluation on common benchmark datasets.
翻訳日:2023-10-17 13:55:16 公開日:2023-10-16
# サンプル選択のための汎用サロゲートモデルによるラベルノイズ対策

Combating Label Noise With A General Surrogate Model For Sample Selection ( http://arxiv.org/abs/2310.10463v1 )

ライセンス: Link先を確認
Chao Liang, Linchao Zhu, Humphrey Shi, Yi Yang(参考訳) 現代のディープラーニングシステムはデータ不足だ。 Webデータによる学習は、実現可能なソリューションのひとつだが、必然的にラベルノイズを導入し、ディープニューラルネットワークのパフォーマンスを阻害する。 サンプル選択はラベルノイズを扱う効果的な方法である。 鍵となるのは、いくつかの基準に基づいてクリーンなサンプルを分離することだ。 従来の方法では、小さなロスサンプルをクリーンなものと見なす小さな損失基準に注意が払われる。 それでも、このような戦略は各データインスタンスの学習ダイナミクスに依存している。 いくつかのノイズのあるサンプルは、頻繁に発生する学習パターンのために記憶されている。 この問題に対処するためには,記憶の影響から解放されたトレーニングフリーサーロゲートモデルが好まれる。 本研究では,視覚言語サロゲートモデルクリップを用いて雑音サンプルの自動フィルタリングを行う。 CLIPは、テキストイメージアライメント機能を備えたクリーンサンプルの選択を容易にするために、外部知識を提供する。 さらに、CLIPが導入した選択バイアスを正規化するためにマージン適応損失を設計し、ラベルノイズに対する堅牢性を提供する。 提案手法の有効性を実世界および合成ノイズデータセットで検証した。 提案手法は推論段階においてCLIPを伴わずに大幅な改善を実現する。

Modern deep learning systems are data-hungry. Learning with web data is one of the feasible solutions, but will introduce label noise inevitably, which can hinder the performance of deep neural networks. Sample selection is an effective way to deal with label noise. The key is to separate clean samples based on some criterion. Previous methods pay more attention to the small loss criterion where small-loss samples are regarded as clean ones. Nevertheless, such a strategy relies on the learning dynamics of each data instance. Some noisy samples are still memorized due to frequently occurring corrupted learning patterns. To tackle this problem, a training-free surrogate model is preferred, freeing from the effect of memorization. In this work, we propose to leverage the vision-language surrogate model CLIP to filter noisy samples automatically. CLIP brings external knowledge to facilitate the selection of clean samples with its ability of text-image alignment. Furthermore, a margin adaptive loss is designed to regularize the selection bias introduced by CLIP, providing robustness to label noise. We validate the effectiveness of our proposed method on both real-world and synthetic noisy datasets. Our method achieves significant improvement without CLIP involved during the inference stage.
翻訳日:2023-10-17 13:46:47 公開日:2023-10-16
# adaptive neural ranking framework: カスケードランキングシステムにおけるビジネス目標の最大化に向けて

Adaptive Neural Ranking Framework: Toward Maximized Business Goal for Cascade Ranking Systems ( http://arxiv.org/abs/2310.10462v1 )

ライセンス: Link先を確認
Yunli Wang, Zhiqiang Wang, Jian Yang, Shiyang Wen, Dongying Kong, Han Li, Kun Gai(参考訳) カスケードランキングは、オンライン広告やレコメンデーションシステムにおける大規模トップk選択問題に広く使われており、カスケードランキングシステムにおけるモデルの最適化には学習からランクまでが重要な方法である。 それまでの学習-ランクに関する作業は、モデルに完全な順序を学習させたり、上位材料の順序にもっと注意を払ってもらうことに集中し、対応するランクメトリクスを最適化ターゲットとして採用する。 しかし、これらの最適化ターゲットは、データ複雑度やモデル能力の異なる様々なカスケードランキングシナリオに適応できない。また、ラムダフレームワークのような既存のメトリック駆動型メソッドは、メトリックの粗い上限のみを最適化することができ、パフォーマンス上の不一致をもたらす可能性がある。 これらの問題に対処するため,我々はまず,データ複雑度やモデル能力に対する最適化対象の適応性を強調することで,カスケードランキングシステムを最適化する新しい視点を提案する。 具体的には,Recall@m@k と OAP のメトリクスを参照して,緩和目標と全目標の最適化を適応的に組み合わせるためにマルチタスク学習フレームワークを用いる。 次に、ランクメトリクスを表す置換行列を導入し、微分可能なソート手法を用いて、制御可能な近似誤差境界を持つ緩和置換行列を得る。 これにより、ディープラーニングフレームワーク内で提案されたサロゲート損失を利用して、緩和されたターゲットと完全なターゲットの両方を直接的かつ適切に最適化することができる。 この手法を適応型ニューラルネットワークランキングフレームワークと命名した。 我々はNeuralSort法を用いて、緩和された置換行列を求め、マルチタスク学習における不確実性重み付け法を用いて、提案した損失を共同で最適化する。 4つの公開および産業ベンチマーク実験により,本手法の有効性と一般化が示され,オンライン実験により,本手法の応用価値が著しく高いことが示された。

Cascade ranking is widely used for large-scale top-k selection problems in online advertising and recommendation systems, and learning-to-rank is an important way to optimize the models in cascade ranking systems. Previous works on learning-to-rank usually focus on letting the model learn the complete order or pay more attention to the order of top materials, and adopt the corresponding rank metrics as optimization targets. However, these optimization targets can not adapt to various cascade ranking scenarios with varying data complexities and model capabilities; and the existing metric-driven methods such as the Lambda framework can only optimize a rough upper bound of the metric, potentially resulting in performance misalignment. To address these issues, we first propose a novel perspective on optimizing cascade ranking systems by highlighting the adaptability of optimization targets to data complexities and model capabilities. Concretely, we employ multi-task learning framework to adaptively combine the optimization of relaxed and full targets, which refers to metrics Recall@m@k and OAP respectively. Then we introduce a permutation matrix to represent the rank metrics and employ differentiable sorting techniques to obtain a relaxed permutation matrix with controllable approximate error bound. This enables us to optimize both the relaxed and full targets directly and more appropriately using the proposed surrogate losses within the deep learning framework. We named this method as Adaptive Neural Ranking Framework. We use the NeuralSort method to obtain the relaxed permutation matrix and draw on the uncertainty weight method in multi-task learning to optimize the proposed losses jointly. Experiments on a total of 4 public and industrial benchmarks show the effectiveness and generalization of our method, and online experiment shows that our method has significant application value.
翻訳日:2023-10-17 13:46:29 公開日:2023-10-16
# ラベル付き検証データの存在下での異常検出器のモデル選択

Model Selection of Anomaly Detectors in the Absence of Labeled Validation Data ( http://arxiv.org/abs/2310.10461v1 )

ライセンス: Link先を確認
Clement Fung, Chen Qiu, Aodong Li, Maja Rudolph(参考訳) 異常検出には、大きなラベルのないデータセットで異常サンプルを検出する必要がある。 ディープラーニングの進歩と基礎モデルの出現は、強力な教師なしの異常検出方法を生み出してきたが、実際にはラベル付きデータの欠如によって、その展開が妨げられていることが多い。 本研究では,合成検証データを用いた画像ベース異常検出のための汎用フレームワークを提案する。 本手法は,事前学習した拡散モデル(提案手法ではトレーニングや微調整を必要としない)で処理された正規画像の小さなサポートセットへのアクセスを想定して合成異常を生成する。 サポートセットからの通常のサンプルと混在すると、合成異常は異常検出評価とモデル選択のための検証フレームワークを構成する検出タスクを生成する。 自然画像から産業応用まで幅広い実証研究において,我々の合成バリデーションフレームワークは,地中検証セットで選択するのと同じモデルとハイパーパラメータを選択することが判明した。 さらに,CLIPに基づく異常検出法で選択したプロンプトは,他のプロンプト選択戦略よりも優れており,挑戦的なMVTec-ADデータセットにおいても,全体的な検出精度が向上することがわかった。

Anomaly detection requires detecting abnormal samples in large unlabeled datasets. While progress in deep learning and the advent of foundation models has produced powerful unsupervised anomaly detection methods, their deployment in practice is often hindered by the lack of labeled data -- without it, the detection accuracy of an anomaly detector cannot be evaluated reliably. In this work, we propose a general-purpose framework for evaluating image-based anomaly detectors with synthetically generated validation data. Our method assumes access to a small support set of normal images which are processed with a pre-trained diffusion model (our proposed method requires no training or fine-tuning) to produce synthetic anomalies. When mixed with normal samples from the support set, the synthetic anomalies create detection tasks that compose a validation framework for anomaly detection evaluation and model selection. In an extensive empirical study, ranging from natural images to industrial applications, we find that our synthetic validation framework selects the same models and hyper-parameters as selection with a ground-truth validation set. In addition, we find that prompts selected by our method for CLIP-based anomaly detection outperforms all other prompt selection strategies, and leads to the overall best detection accuracy, even on the challenging MVTec-AD dataset.
翻訳日:2023-10-17 13:45:58 公開日:2023-10-16
# 医用超音波映像認識における時間的特徴の関連性について

On the Relevance of Temporal Features for Medical Ultrasound Video Recognition ( http://arxiv.org/abs/2310.10453v1 )

ライセンス: Link先を確認
D. Hudson Smith, John Paul Lineberger, George H. Baker(参考訳) 多くの医療用超音波ビデオ認識タスクは、ビデオに現れる時間に関係なく、重要な解剖学的特徴を特定することを含む。 それに応じて、時間的特徴を除外したモデルアーキテクチャは、よりよいサンプル効率をもたらす可能性がある。 本稿では,これらの仮説をインダクティブ・プリエントとして組み込んだ,新しいマルチヘッド・アテンション・アーキテクチャを提案する。 当社のアーキテクチャのパフォーマンスを,2つの設定で効率的な3d cnnビデオ認識モデルと比較した。 前者の環境では、トレーニングデータを人工的に制限する場合、我々のモデルは3D CNNよりも優れています。 後者では結果が逆になる。 以上の結果から,低データ環境下での一般的な超音波作業において,表現的時間非依存モデルは最先端の映像認識モデルよりも有効である可能性が示唆された。

Many medical ultrasound video recognition tasks involve identifying key anatomical features regardless of when they appear in the video suggesting that modeling such tasks may not benefit from temporal features. Correspondingly, model architectures that exclude temporal features may have better sample efficiency. We propose a novel multi-head attention architecture that incorporates these hypotheses as inductive priors to achieve better sample efficiency on common ultrasound tasks. We compare the performance of our architecture to an efficient 3D CNN video recognition model in two settings: one where we expect not to require temporal features and one where we do. In the former setting, our model outperforms the 3D CNN - especially when we artificially limit the training data. In the latter, the outcome reverses. These results suggest that expressive time-independent models may be more effective than state-of-the-art video recognition models for some common ultrasound tasks in the low-data regime.
翻訳日:2023-10-17 13:45:36 公開日:2023-10-16
# 離散時間量子ウォークを用いたグラフの分散探索

Distributed search on graphs using discrete time quantum walk ( http://arxiv.org/abs/2310.10451v1 )

ライセンス: Link先を確認
Mathieu Roget and Giuseppe Di Molfetta(参考訳) 量子ウォーク(quantum walk)という造語で検索することは、長い間コミュニティに関心を寄せてきた問題である。 ほとんどの結果は正規格子上の空間探索を考えるが、いくつかの研究はグラフ上の量子ウォークのモデルをいくつか導入している。 この研究はグラフ上の分散探索量子ウォークを導入している。 私たちの貢献は2つの部分からなる。 (i)ノードまたはエッジを検索するために設計されたグラフ上の量子ウォークの新しい数学的モデルを導入する。 (ii)このようなモデルを実装するための匿名分散スキームを提供する。

Searching with coined quantum walk is a problem that has interested the community since a long time. While most results consider spatial searches on regular lattices, some work have introduced several models of coined quantum walks on graphs. This work introduces a distributed searching quantum walk on graphs. Our contribution is in two parts: (i) we introduce a new mathematical model of a coined quantum walk on graphs designed to search both nodes or edges; (ii) we provide an anonymous distributed scheme to implement such a model.
翻訳日:2023-10-17 13:45:22 公開日:2023-10-16
# 高エネルギーフォトニック系における量子エラーチャネル

Quantum Error Channels in High Energetic Photonic Systems ( http://arxiv.org/abs/2310.10450v1 )

ライセンス: Link先を確認
B. C. Hiesmayr, W. Krzemie\'n, M. Ba{\l}a(参考訳) ポジトロン・エミッション・トモグラフィー(PET)のような医学応用では、コンプトン散乱を経験する511$keVの光子が研究されている。 本稿では,コンプトン散乱を受ける高エネルギー光子の量子情報理論内容を完全に記述するために,誤差補正チャネルに基づく一貫した枠組みを提案する。 このようにして、2つ以上の純粋な、あるいは混合した偏光子または非絡み合い光子の期待される空間分布を予測できる。 このフレームワークにより、さまざまなパラメータ範囲のアクセス可能でアクセス不能な情報を特徴付けることができます。 また、連続する多重光子散乱を記述する方法に関する疑問にも答える。 さらに、私たちのフォーマリズムは、伝播で起こりうる単一および全マルチパーティエラーを扱うための完全なフレームワークを提供し、PETイメージングにおけるエラーの低減などの医学的応用を持つ将来の専用の実験をモデル化するための基盤を提供する。

In medical applications -- such as positron emission tomography (PET) -- $511$keV photons that experience Compton scattering are studied. We present a consistent framework based on error-correction channels to fully describe the quantum information-theoretic content of high energetic photons undergoing Compton scattering, characterized by the Klein-Nishina formula in unoriented matter. In this way, we can predict the expected spatial distribution of two or more, pure or mixed, polarization entangled or unentangled photons. This framework allows us to characterize the accessible and inaccessible information for different parameter ranges. It also answers the question of how to describe successive multi-photon scattering. In addition our formalism provides a complete framework for dealing with single and all multi-partite errors that can occur in the propagation, providing the basis for modeling future dedicated experiments that will then have applications in medicine, such as reducing errors in PET imaging.
翻訳日:2023-10-17 13:45:11 公開日:2023-10-16
# 大規模言語モデルを用いたテキスト要約:MPT-7b命令、Falcon-7b命令、OpenAI Chat-GPTモデルの比較検討

Text Summarization Using Large Language Models: A Comparative Study of MPT-7b-instruct, Falcon-7b-instruct, and OpenAI Chat-GPT Models ( http://arxiv.org/abs/2310.10449v1 )

ライセンス: Link先を確認
Lochan Basyal and Mihir Sanghvi(参考訳) テキスト要約は、情報検索からコンテンツ生成まで幅広いアプリケーションに対して重要な自然言語処理(NLP)タスクである。 Leveraging Large Language Models (LLMs) は、要約技術の強化において、顕著な将来性を示している。 本稿では,mpt-7b-instruct,falcon-7b-instruct,openai chatgpt text-davinci-003 モデルを含む多種多様な llm を用いたテキスト要約の探索を行った。 実験は,異なるハイパーパラメータを用いて実施し,多言語評価アンダースタディ(bleu)スコア,ジェクション評価のためのリコール指向アンダースタディ(rouge)スコア,トランスフォーマー(bert)スコアからの双方向エンコーダ表現など,広く受け入れられた指標を用いて生成要約を評価した。 実験によると、text-davinci-003は他より優れていた。 この調査にはCNN Daily MailとXSumという2つの異なるデータセットが含まれていた。 その主な目的は、異なるデータセットに適用した場合に、LLM(Large Language Models)のパフォーマンスを包括的に理解することであった。 これらのモデルの有効性を評価することは、NLPドメイン内の研究者や実践者に貴重な洞察をもたらす。 この研究は、テキスト要約にllmの可能性を活用したい人のためのリソースとなり、幅広いビジネス課題に対処するための高度な生成aiアプリケーションの開発の基礎を築いている。

Text summarization is a critical Natural Language Processing (NLP) task with applications ranging from information retrieval to content generation. Leveraging Large Language Models (LLMs) has shown remarkable promise in enhancing summarization techniques. This paper embarks on an exploration of text summarization with a diverse set of LLMs, including MPT-7b-instruct, falcon-7b-instruct, and OpenAI ChatGPT text-davinci-003 models. The experiment was performed with different hyperparameters and evaluated the generated summaries using widely accepted metrics such as the Bilingual Evaluation Understudy (BLEU) Score, Recall-Oriented Understudy for Gisting Evaluation (ROUGE) Score, and Bidirectional Encoder Representations from Transformers (BERT) Score. According to the experiment, text-davinci-003 outperformed the others. This investigation involved two distinct datasets: CNN Daily Mail and XSum. Its primary objective was to provide a comprehensive understanding of the performance of Large Language Models (LLMs) when applied to different datasets. The assessment of these models' effectiveness contributes valuable insights to researchers and practitioners within the NLP domain. This work serves as a resource for those interested in harnessing the potential of LLMs for text summarization and lays the foundation for the development of advanced Generative AI applications aimed at addressing a wide spectrum of business challenges.
翻訳日:2023-10-17 13:44:56 公開日:2023-10-16
# リーマン多様体上の同変メッセージパッシングニューラルネットワークに関する幾何学的考察

A Geometric Insight into Equivariant Message Passing Neural Networks on Riemannian Manifolds ( http://arxiv.org/abs/2310.10448v1 )

ライセンス: Link先を確認
Ilyes Batatia(参考訳) この研究はリーマン多様体上の同変メッセージパッシングに関する幾何学的洞察を提案する。 前述したように、リーマン多様体上の数値的特徴は、多様体上の座標独立な特徴体として表される。 多様体上の任意の座標独立特徴体に対して、主バンドルの同変埋め込みを数値的特徴の空間に添付する。 この埋め込みが数値的特徴空間に誘導する計量は、主バンドルの原計量を最適に保存すべきである。 この最適性基準は、この埋め込みのグラフに対するポリアコフ作用のねじれ形を最小化し、関連するベクトル束上の同変拡散過程をもたらす。 拡散方程式フローを一定時間ステップで離散化することにより、多様体上のメッセージパッシングスキームを得る。 基底多様体のカルテシアン積上の拡散と等価な高次同変拡散過程を提案する。 グラフ上の高階拡散過程の離散化は、リーマン多様体上のデータにACEおよびMACE形式を一般化する、新しい一般変分 GNN を与える。

This work proposes a geometric insight into equivariant message passing on Riemannian manifolds. As previously proposed, numerical features on Riemannian manifolds are represented as coordinate-independent feature fields on the manifold. To any coordinate-independent feature field on a manifold comes attached an equivariant embedding of the principal bundle to the space of numerical features. We argue that the metric this embedding induces on the numerical feature space should optimally preserve the principal bundle's original metric. This optimality criterion leads to the minimization of a twisted form of the Polyakov action with respect to the graph of this embedding, yielding an equivariant diffusion process on the associated vector bundle. We obtain a message passing scheme on the manifold by discretizing the diffusion equation flow for a fixed time step. We propose a higher-order equivariant diffusion process equivalent to diffusion on the cartesian product of the base manifold. The discretization of the higher-order diffusion process on a graph yields a new general class of equivariant GNN, generalizing the ACE and MACE formalism to data on Riemannian manifolds.
翻訳日:2023-10-17 13:44:30 公開日:2023-10-16
# MechGPT - スケール、規律、モダリティにまたがる知識を結びつけるメカニクスと材料モデリングのための言語ベースの戦略

MechGPT, a language-based strategy for mechanics and materials modeling that connects knowledge across scales, disciplines and modalities ( http://arxiv.org/abs/2310.10445v1 )

ライセンス: Link先を確認
Markus J. Buehler(参考訳) 何世紀もの間、研究者は異なる分野の知識をつなぐ方法を模索してきた。 初期の学者(ガリレオ、ダ・ヴィンチなど)は分野の専門家であったが、後に専門化が進んだ。 人工知能の出現により、分野(メカニカルバイオロジーなど)や異なるドメイン(障害メカニカルアートなど)にまたがる関係を探求できるようになった。 これを実現するために、我々は、多スケール材料故障における知識のサブセットとして、細調整されたLarge Language Model (LLM)を使用します。 このアプローチは、LLMファインチューニングに続く原材料から質問応答対を蒸留するための汎用LLMの使用を含む。 得られたMechGPT LLM基盤モデルは、知識検索、様々な言語タスク、仮説生成、異なる領域にわたる知識の接続能力を調べるために、一連の計算実験で使用される。 モデルにはトレーニングから知識を思い出す能力があるが、LLMはオントロジー知識グラフを通して構造的洞察を抽出するのに特に有用である。 これらの解釈可能なグラフ構造は、説明可能な洞察、新しい研究質問のためのフレームワーク、および検索による生成にも使用できる知識の視覚的表現を提供する。 MechGPTの3つのバージョンが議論され、サイズが13億から70億のパラメータで、1万以上のトークンのコンテキスト長に達する。 これにより、高度な検索強化戦略や、複数のLLMが協調的に/または敵対的に相互作用するエージェントベースのモデリング、文献やWeb検索からの新たなデータの取り込み、マルチモーダリティが実現される。

For centuries, researchers have sought out ways to connect disparate areas of knowledge. While early scholars (Galileo, da Vinci, etc.) were experts across fields, specialization has taken hold later. With the advent of Artificial Intelligence, we can now explore relationships across areas (e.g., mechanics-biology) or disparate domains (e.g., failure mechanics-art). To achieve this, we use a fine-tuned Large Language Model (LLM), here for a subset of knowledge in multiscale materials failure. The approach includes the use of a general-purpose LLM to distill question-answer pairs from raw sources followed by LLM fine-tuning. The resulting MechGPT LLM foundation model is used in a series of computational experiments to explore its capacity for knowledge retrieval, various language tasks, hypothesis generation, and connecting knowledge across disparate areas. While the model has some ability to recall knowledge from training, we find that LLMs are particularly useful to extract structural insights through Ontological Knowledge Graphs. These interpretable graph structures provide explanatory insights, frameworks for new research questions, and visual representations of knowledge that also can be used in retrieval-augmented generation. Three versions of MechGPT are discussed, featuring different sizes from 13 billion to 70 billion parameters, and reaching context lengths of more than 10,000 tokens. This provides ample capacity for sophisticated retrieval augmented strategies, as well as agent-based modeling where multiple LLMs interact collaboratively and/or adversarially, the incorporation of new data from the literature or web searches, as well as multimodality.
翻訳日:2023-10-17 13:44:15 公開日:2023-10-16
# sigmoid ボトルネックの改ざん : アルグマブル・スパース・マルチラベル分類の可能性

Taming the Sigmoid Bottleneck: Provably Argmaxable Sparse Multi-Label Classification ( http://arxiv.org/abs/2310.10443v1 )

ライセンス: Link先を確認
Andreas Grivas and Antonio Vergari and Adam Lopez(参考訳) シグモイド出力層はマルチラベル分類(MLC)タスクで広く使われており、複数のラベルを任意の入力に割り当てることができる。 多くの実用的なmlcタスクでは、可能なラベルの数は数千個であり、入力機能の数を上回り、低ランクの出力層となることが多い。 マルチクラス分類では、そのような低ランクな出力層がボトルネックとなり、任意の入力に対して予測できないクラスが最大ではないことが知られている。 本稿では, MLCタスクに対して, 類似シグモイドボトルネックが指数関数的に多くのラベルの組み合わせをもたらすことを示す。 本稿では,これらの不規則な出力を検出する方法を説明し,その存在を3つの広く使用されているMLCデータセットで示す。 次に、離散フーリエ変換(DFT)出力層を導入して、最大$kのアクティブラベルとスパースラベルの組み合わせがargmax可能であることを保証し、実際にそれらを防ぐことができることを示す。 我々のDFT層はより速く、よりパラメータ効率が良く、最大50%のトレーニング可能なパラメータを使用しながらシグモノイド層のF1@kスコアと一致する。 私たちのコードはhttps://github.com/andreasgrv/sigmoid-bottleneckで公開されています。

Sigmoid output layers are widely used in multi-label classification (MLC) tasks, in which multiple labels can be assigned to any input. In many practical MLC tasks, the number of possible labels is in the thousands, often exceeding the number of input features and resulting in a low-rank output layer. In multi-class classification, it is known that such a low-rank output layer is a bottleneck that can result in unargmaxable classes: classes which cannot be predicted for any input. In this paper, we show that for MLC tasks, the analogous sigmoid bottleneck results in exponentially many unargmaxable label combinations. We explain how to detect these unargmaxable outputs and demonstrate their presence in three widely used MLC datasets. We then show that they can be prevented in practice by introducing a Discrete Fourier Transform (DFT) output layer, which guarantees that all sparse label combinations with up to $k$ active labels are argmaxable. Our DFT layer trains faster and is more parameter efficient, matching the F1@k score of a sigmoid layer while using up to 50% fewer trainable parameters. Our code is publicly available at https://github.com/andreasgrv/sigmoid-bottleneck.
翻訳日:2023-10-17 13:43:44 公開日:2023-10-16
# UNO-DST:ゼロショット対話状態追跡におけるアンラベリングデータの活用

UNO-DST: Leveraging Unlabelled Data in Zero-Shot Dialogue State Tracking ( http://arxiv.org/abs/2310.10492v1 )

ライセンス: Link先を確認
Chuang Li, Yan Zhang, Min-Yen Kan, Haizhou Li(参考訳) 従来のゼロショット対話状態追跡(DST)手法は、転送学習のみを適用するが、ターゲット領域の非競合データを無視する。 我々は,ゼロショットDSTを,ジョイントおよび自己学習手法による非ラベルデータを利用して,少数ショットDSTに変換する。 本手法は,主タスクの逆プロンプトとしてスロットタイプを生成する補助タスクを組み込み,共同学習中にスロット値を生成する。 これら2つのタスク間のサイクル一貫性により、後続の微調整のための未知のターゲットドメインにおける品質サンプルの生成と選択が可能になる。 このアプローチはまた、自動ラベル作成を容易にし、DSTモデルのトレーニングと微調整を最適化する。 ゼロショットシナリオにおける大規模言語モデルに対する本手法の有効性を実証し,MultiWOZの全ドメインに対して平均共同目標精度を8\%向上させる。

Previous zero-shot dialogue state tracking (DST) methods only apply transfer learning, but ignore unlabelled data in the target domain. We transform zero-shot DST into few-shot DST by utilising such unlabelled data via joint and self-training methods. Our method incorporates auxiliary tasks that generate slot types as inverse prompts for main tasks, creating slot values during joint training. Cycle consistency between these two tasks enables the generation and selection of quality samples in unknown target domains for subsequent fine-tuning. This approach also facilitates automatic label creation, thereby optimizing the training and fine-tuning of DST models. We demonstrate this method's effectiveness on large language models in zero-shot scenarios, improving average joint goal accuracy by $8\%$ across all domains in MultiWOZ.
翻訳日:2023-10-17 13:37:59 公開日:2023-10-16
# リモートセンシングデータの意味セグメンテーションのための学習モデルの伝達性について

On the Transferability of Learning Models for Semantic Segmentation for Remote Sensing Data ( http://arxiv.org/abs/2310.10490v1 )

ライセンス: Link先を確認
Rongjun Qin, Guixiang Zhang, Yang Tang(参考訳) 近年の深層学習手法は、リモートセンシング(RS)セマンティックセグメンテーション/分類タスクにおいて従来の学習方法より優れている。 しかしながら、大きなトレーニングデータセットが必要であり、地理的に異なる領域にまたがる非常に異なるrs画像コンテンツのため、転送性の欠如が一般的に知られている。 しかし、ソースドメインでトレーニングされたモデルがターゲットドメインに容易に適用できる程度に、その転送可能性に関する包括的な分析は存在しない。 そこで本研究では,従来型および深層学習モデル(DL)の生の転写可能性,およびドメイン適応(DA)アプローチの有効性について検討する。 4つの高度に多様なrsデータセットを利用することで、3つのdaアプローチで6つのモデルをトレーニングし、それらのデータセット間の転送可能性を定量的に分析する。 さらに,スペクトル指標を媒質としたモデルの転送可能性の定量化手法を開発し,ラベルが利用できない場合に対象領域におけるモデル転送性を評価する上での有効性を示した。 我々の実験は、生および適応された転写性について、一般的に重要で、報告されていないいくつかの観察結果をもたらす。 また,提案手法は後頭部モデルの信頼度よりも良好であることを確認した。 この知見は、一般化RS学習モデルの今後の発展を導くことができる。 トレーニングされたモデルは以下のリンクでリリースされる。

Recent deep learning-based methods outperform traditional learning methods on remote sensing (RS) semantic segmentation/classification tasks. However, they require large training datasets and are generally known for lack of transferability due to the highly disparate RS image content across different geographical regions. Yet, there is no comprehensive analysis of their transferability, i.e., to which extent a model trained on a source domain can be readily applicable to a target domain. Therefore, in this paper, we aim to investigate the raw transferability of traditional and deep learning (DL) models, as well as the effectiveness of domain adaptation (DA) approaches in enhancing the transferability of the DL models (adapted transferability). By utilizing four highly diverse RS datasets, we train six models with and without three DA approaches to analyze their transferability between these datasets quantitatively. Furthermore, we developed a straightforward method to quantify the transferability of a model using the spectral indices as a medium and have demonstrated its effectiveness in evaluating the model transferability at the target domain when the labels are unavailable. Our experiments yield several generally important yet not well-reported observations regarding the raw and adapted transferability. Moreover, our proposed label-free transferability assessment method is validated to be better than posterior model confidence. The findings can guide the future development of generalized RS learning models. The trained models are released under this link: https://github.com/GDAOSU/Transferability-Remote-Sensing
翻訳日:2023-10-17 13:37:42 公開日:2023-10-16
# 文書レベルイベント抽出のためのイベント情報を明示的に集約するタイプアウェア復号

Type-aware Decoding via Explicitly Aggregating Event Information for Document-level Event Extraction ( http://arxiv.org/abs/2310.10487v1 )

ライセンス: Link先を確認
Gang Zhao, Yidong Shi, Shudong Lu, Xinjie Yang, Guanting Dong, Jian Xu, Xiaocheng Gong, Si Li(参考訳) ドキュメントレベルのイベント抽出(DEE)は2つの大きな課題に直面している。 従来の手法ではこれらの課題に対処しようとしたが、イベント検出時にイベント非関連文の干渉を見落とし、引数抽出時に異なるイベントロールの相互干渉を無視した。 そこで本稿では,これらの制約に対処する新しいスキーマベースの明示的アグリゲーション~(SEA)モデルを提案する。 SEAはイベント情報をイベントタイプとロール表現に集約し、特定の型認識表現に基づいてイベントレコードのデコードを可能にする。 イベントタイプ表現に基づいて各イベントを検出することで、seaはイベント非関連情報による干渉を軽減する。 さらに、seaは役割認識表現に基づいて役割毎の引数を抽出し、異なる役割間の相互干渉を減らす。 ChFinAnnおよびDuEE-finデータセットの実験結果は、SEAがSOTA法より優れていることを示している。

Document-level event extraction (DEE) faces two main challenges: arguments-scattering and multi-event. Although previous methods attempt to address these challenges, they overlook the interference of event-unrelated sentences during event detection and neglect the mutual interference of different event roles during argument extraction. Therefore, this paper proposes a novel Schema-based Explicitly Aggregating~(SEA) model to address these limitations. SEA aggregates event information into event type and role representations, enabling the decoding of event records based on specific type-aware representations. By detecting each event based on its event type representation, SEA mitigates the interference caused by event-unrelated information. Furthermore, SEA extracts arguments for each role based on its role-aware representations, reducing mutual interference between different roles. Experimental results on the ChFinAnn and DuEE-fin datasets show that SEA outperforms the SOTA methods.
翻訳日:2023-10-17 13:36:59 公開日:2023-10-16
# ManyQuadrupeds: 四足歩行ロボットのための単一ロコモーションポリシーを学習する

ManyQuadrupeds: Learning a Single Locomotion Policy for Diverse Quadruped Robots ( http://arxiv.org/abs/2310.10486v1 )

ライセンス: Link先を確認
Milad Shafiee, Guillaume Bellegarda and Auke Ijspeert(参考訳) 四足歩行ロボットの移動ポリシーを学ぶことは、伝統的に特定のロボットの形態、質量、サイズに制約されてきた。 学習は通常、新しいシステム毎のパフォーマンスを最大化するためにハイパーパラメータと報酬関数重みを調整しなければならない新しいロボット毎に繰り返されなければならない。 あるいは、同じ自由度(dof)と形態を維持しながら、異なる大きさのロボットに対応するために単一のポリシーを訓練しようとすると、複雑な学習フレームワーク、あるいはマッシブ、慣性、次元ランダム化が必要となり、トレーニング期間が長くなる。 本研究では,動物運動制御からインスピレーションを得ることにより,多種多様な四足歩行ロボットを制御できる単一移動政策を効果的に訓練できることを示す。 これらの違いは、可変数のdof(すなわち12関節または16関節)、3つの異なる形態、広い質量範囲が2kgから200kg、名目上の立位が16cmから100cmである。 本ポリシーでは, 脊髄における中枢パターン生成器(CPG)の表現を変調し, CPGの周波数と振幅を効果的に調整してリズム出力(リズム生成)を生成し, パターン形成(PF)層にマッピングする。 異なるロボット間で異なるコンポーネントは、ストライド高さと長さのスケーリングパラメータを調整するPF層のみである。 続いて,Unitree Go1ロボットとA1ロボットの両方で単一ポリシーをテストし,sim-to-realトランスファーを評価した。 驚くべきことに、a1ロボットの公称質量の125%に相当する15kgの負荷を付加しても、ロバストな性能が観察できる。

Learning a locomotion policy for quadruped robots has traditionally been constrained to specific robot morphology, mass, and size. The learning process must usually be repeated for every new robot, where hyperparameters and reward function weights must be re-tuned to maximize performance for each new system. Alternatively, attempting to train a single policy to accommodate different robot sizes, while maintaining the same degrees of freedom (DoF) and morphology, requires either complex learning frameworks, or mass, inertia, and dimension randomization, which leads to prolonged training periods. In our study, we show that drawing inspiration from animal motor control allows us to effectively train a single locomotion policy capable of controlling a diverse range of quadruped robots. These differences encompass a variable number of DoFs, (i.e. 12 or 16 joints), three distinct morphologies, a broad mass range spanning from 2 kg to 200 kg, and nominal standing heights ranging from 16 cm to 100 cm. Our policy modulates a representation of the Central Pattern Generator (CPG) in the spinal cord, effectively coordinating both frequencies and amplitudes of the CPG to produce rhythmic output (Rhythm Generation), which is then mapped to a Pattern Formation (PF) layer. Across different robots, the only varying component is the PF layer, which adjusts the scaling parameters for the stride height and length. Subsequently, we evaluate the sim-to-real transfer by testing the single policy on both the Unitree Go1 and A1 robots. Remarkably, we observe robust performance, even when adding a 15 kg load, equivalent to 125% of the A1 robot's nominal mass.
翻訳日:2023-10-17 13:36:46 公開日:2023-10-16
# xCOMET:微細なエラー検出による透明機械翻訳評価

xCOMET: Transparent Machine Translation Evaluation through Fine-grained Error Detection ( http://arxiv.org/abs/2310.10482v1 )

ライセンス: Link先を確認
Nuno M. Guerreiro, Ricardo Rei, Daan van Stigt, Luisa Coheur, Pierre Colombo, Andr\'e F.T. Martins(参考訳) COMETやBLEURTのような機械翻訳評価に広く用いられている学習指標は、単一の文レベルスコアを提供することで翻訳仮説の品質を推定する。 そのため、翻訳エラーに関する洞察がほとんどない(例えば、エラーは何か、深刻度は何か)。 一方, 生成型大規模言語モデル (LLM) は, より粒度の細かい評価戦略の採用を増幅し, 翻訳誤りを詳細に分類しようとしている。 本稿では,これらのアプローチ間のギャップを埋めるために設計された,オープンソースの学習指標であるxCOMETを紹介する。 xCOMETは文レベルの評価とエラースパン検出機能を統合し、あらゆるタイプの評価(文レベル、システムレベル、エラースパン検出)で最先端のパフォーマンスを示す。 さらに、エラーをハイライトし、分類しながら、それによって品質評価が強化される。 また,ストレステストによるロバストネス解析を行い,xCOMETは局所的な臨界誤差や幻覚を同定できることを示す。

Widely used learned metrics for machine translation evaluation, such as COMET and BLEURT, estimate the quality of a translation hypothesis by providing a single sentence-level score. As such, they offer little insight into translation errors (e.g., what are the errors and what is their severity). On the other hand, generative large language models (LLMs) are amplifying the adoption of more granular strategies to evaluation, attempting to detail and categorize translation errors. In this work, we introduce xCOMET, an open-source learned metric designed to bridge the gap between these approaches. xCOMET integrates both sentence-level evaluation and error span detection capabilities, exhibiting state-of-the-art performance across all types of evaluation (sentence-level, system-level, and error span detection). Moreover, it does so while highlighting and categorizing error spans, thus enriching the quality assessment. We also provide a robustness analysis with stress tests, and show that xCOMET is largely capable of identifying localized critical errors and hallucinations.
翻訳日:2023-10-17 13:36:16 公開日:2023-10-16
# DemoSG: 低リソースイベント抽出のためのデモエンハンスドスキーマ誘導生成

DemoSG: Demonstration-enhanced Schema-guided Generation for Low-resource Event Extraction ( http://arxiv.org/abs/2310.10481v1 )

ライセンス: Link先を確認
Gang Zhao, Xiaocheng Gong, Xinjie Yang, Guanting Dong, Shudong Lu, Si Li(参考訳) 現在のイベント抽出(ee)メソッドのほとんどは、大量のアノテートデータを必要とする低リソースドメインに適用できない高リソースシナリオに焦点を当てている。 限られたリソースでより効果的にEEに対処するために、我々は、低リソースのEEに2つの側面から恩恵を与えるDemonstration-enhanced Schema-guided Generation (DemoSG)モデルを提案する。 次に、スキーマベースのプロンプトによって導かれる自然言語生成タスクとしてEEを定式化し、ラベルのセマンティクスを活用し、低リソースシナリオにおける知識伝達を促進する。 3つのデータセットに対して、ドメイン内およびドメイン適応の低リソース設定の下で広範な実験を行い、DemoSGの堅牢性について検討する。 その結果,DemoSGは低リソースシナリオにおいて,現在の手法よりも大幅に優れていた。

Most current Event Extraction (EE) methods focus on the high-resource scenario, which requires a large amount of annotated data and can hardly be applied to low-resource domains. To address EE more effectively with limited resources, we propose the Demonstration-enhanced Schema-guided Generation (DemoSG) model, which benefits low-resource EE from two aspects: Firstly, we propose the demonstration-based learning paradigm for EE to fully use the annotated data, which transforms them into demonstrations to illustrate the extraction process and help the model learn effectively. Secondly, we formulate EE as a natural language generation task guided by schema-based prompts, thereby leveraging label semantics and promoting knowledge transfer in low-resource scenarios. We conduct extensive experiments under in-domain and domain adaptation low-resource settings on three datasets, and study the robustness of DemoSG. The results show that DemoSG significantly outperforms current methods in low-resource scenarios.
翻訳日:2023-10-17 13:35:57 公開日:2023-10-16
# G-SPEED: 一般的なSParse効率のよいMoDel

G-SPEED: General SParse Efficient Editing MoDel ( http://arxiv.org/abs/2310.10480v1 )

ライセンス: Link先を確認
Haoke Zhang, Yue Wang, Juntao Li, Xiabing Zhou, Min Zhang(参考訳) 大きな言語モデル~(LLM)は、言語を理解し、生成し、操作する素晴らしい能力を示しています。 人-モデル相互作用により、LLMは人-発行された命令を自動的に理解し、期待する内容を出力し、作業効率を大幅に向上させることができる。 様々な実世界の要求において、編集指向のタスクはかなりの割合を占めており、特定の基準を満たすために既存のテキストを継続的に改良するインタラクティブなプロセスを含んでいる。 マルチラウンドの人-モデルインタラクションの必要性と複雑な編集タスクの生成により、効率的な汎用的な編集モデルが求められている。 本稿では,計算コストを低く抑えつつ,単一のモデルを通じて多様な編集要件を満たすことができる,\underline{\textbf{g}}eneral \underline{\textbf{sp}}arse \underline{\textbf{e}}fficient \underline{\textbf{e}}diting mo\underline{\textbf{d}}el~(\textbf{g-speed})を提案する。 具体的には,まず,データ不足問題に対処するために,教師なしテキスト編集データクラスタリングアルゴリズムを提案する。 次に,小言語モデルの学習能力に固有の制限を緩和するために,スパース編集モデルアーキテクチャを導入する。 実験結果から,G-SPEEDのパラメータは5800万であり,LLMのパラメータは175Bを超えることがわかった。 コードとモデルチェックポイントは \url{https://github.com/Banner-Z/G-SPEED} で利用可能です。

Large Language Models~(LLMs) have demonstrated incredible capabilities in understanding, generating, and manipulating languages. Through human-model interactions, LLMs can automatically understand human-issued instructions and output the expected contents, which can significantly increase working efficiency. In various types of real-world demands, editing-oriented tasks account for a considerable proportion, which involves an interactive process that entails the continuous refinement of existing texts to meet specific criteria. Due to the need for multi-round human-model interaction and the generation of complicated editing tasks, there is an emergent need for efficient general editing models. In this paper, we propose \underline{\textbf{G}}eneral \underline{\textbf{SP}}arse \underline{\textbf{E}}fficient \underline{\textbf{E}}diting Mo\underline{\textbf{D}}el~(\textbf{G-SPEED}), which can fulfill diverse editing requirements through a single model while maintaining low computational costs. Specifically, we first propose a novel unsupervised text editing data clustering algorithm to deal with the data scarcity problem. Subsequently, we introduce a sparse editing model architecture to mitigate the inherently limited learning capabilities of small language models. The experimental outcomes indicate that G-SPEED, with its 508M parameters, can surpass LLMs equipped with 175B parameters. Our code and model checkpoints are available at \url{https://github.com/Banner-Z/G-SPEED}.
翻訳日:2023-10-17 13:35:41 公開日:2023-10-16
# セットバックから知恵を得る - ミス分析による大規模言語モデルの整合

Gaining Wisdom from Setbacks: Aligning Large Language Models via Mistake Analysis ( http://arxiv.org/abs/2310.10477v1 )

ライセンス: Link先を確認
Kai Chen, Chunwei Wang, Kuo Yang, Jianhua Han, Lanqing Hong, Fei Mi, Hang Xu, Zhengying Liu, Wenyong Huang, Zhenguo Li, Dit-Yan Yeung, Lifeng Shang, Xin Jiang, Qun Liu(参考訳) 大規模言語モデル(llm)の急速な発展は、特に有害かつ有害な反応の意図しない発生に関して、機会と課題の両方を提示する。 従来のアライメント手法は, LLMを所望のパフォーマンスに向けて操り, 悪意のあるコンテンツから守ることを目的としているが, 本研究では, LLMを欠陥出力に故意に露呈し, 自然言語解析による内部的理由を完全に理解するための徹底的な評価を行うことにより, 誤り解析に根ざした新たなアライメント戦略を提案する。 したがって、毒性応答はモデルアライメントのための命令チューニングコーパスに変換することができ、LSMは欠陥のある応答の発生を抑えるだけでなく、自己批判の訓練も行え、有害なコンテンツを識別する能力を活用している。 実験結果から,提案手法は従来のアライメント手法よりも優れた性能を保ちつつ,安全性指導に優れた性能を発揮することが示された。

The rapid advancement of large language models (LLMs) presents both opportunities and challenges, particularly concerning unintentional generation of harmful and toxic responses. While the traditional alignment methods strive to steer LLMs towards desired performance and shield them from malicious content, this study proposes a novel alignment strategy rooted in mistake analysis by exposing LLMs to flawed outputs purposefully and then conducting a thorough assessment to fully comprehend internal reasons via natural language analysis. Thus, toxic responses can be transformed into instruction tuning corpus for model alignment, and LLMs can not only be deterred from generating flawed responses but also trained to self-criticize, leveraging its innate ability to discriminate toxic content. Experimental results demonstrate that the proposed method outperforms conventional alignment techniques for safety instruction following, while maintaining superior efficiency.
翻訳日:2023-10-17 13:35:09 公開日:2023-10-16
# 協調型llmベースエージェントによる姿勢検出

Stance Detection with Collaborative Role-Infused LLM-Based Agents ( http://arxiv.org/abs/2310.10467v1 )

ライセンス: Link先を確認
Xiaochong Lan, Chen Gao, Depeng Jin, Yong Li(参考訳) スタンス検出は、テキスト中のターゲットに対する姿勢を自動的に検出し、ウェブおよびソーシャルメディア研究におけるコンテンツ分析に不可欠である。 有望な能力にもかかわらず、姿勢検出に直接適用されるとllmは課題に遭遇する。 まず、スタンス検出は、イベント関連用語の解読からソーシャルメディアプラットフォームにおける表現スタイルの理解まで、多視点の知識を必要とする。 第2に、スタンス検出は著者の暗黙の視点を推測するために高度な推論を必要とする。 これらの課題に対処するため,LLMがそれぞれ異なる役割を担っている3段階のフレームワーク COLA (Collaborative rOle-infused LLM-based Agents の略) を設計し,それぞれの役割が一意に貢献する協調システムを構築した。 まず,多次元テキスト分析の段階において,llmを言語専門家,ドメインスペシャリスト,ソーシャルメディアのベテランとして動作させ,テキストの多面的解析を行うように構成し,最初の課題を克服した。 次に、潜在的スタンスごとに、LLMに基づく特定のエージェントを指定し、LLMにテキストの特徴と姿勢の間の論理的関係を検知させ、第二の課題に取り組む。 最後に、スタンス結論段階において、最終決定者エージェントが事前の洞察を統合してスタンスを決定する。 我々のアプローチは、追加の注釈付きデータとモデルのトレーニングを避け、非常に有用である。 複数のデータセットにまたがって最先端のパフォーマンスを実現する。 アブレーション研究は、姿勢検出の処理における各設計の役割の有効性を検証する。 さらなる実験は、我々のアプローチの説明可能性と汎用性を実証した。 当社のアプローチは,ユーザビリティ,正確性,有効性,説明可能性,汎用性に優れ,その価値を強調しています。

Stance detection automatically detects the stance in a text towards a target, vital for content analysis in web and social media research. Despite their promising capabilities, LLMs encounter challenges when directly applied to stance detection. First, stance detection demands multi-aspect knowledge, from deciphering event-related terminologies to understanding the expression styles in social media platforms. Second, stance detection requires advanced reasoning to infer authors' implicit viewpoints, as stance are often subtly embedded rather than overtly stated in the text. To address these challenges, we design a three-stage framework COLA (short for Collaborative rOle-infused LLM-based Agents) in which LLMs are designated distinct roles, creating a collaborative system where each role contributes uniquely. Initially, in the multidimensional text analysis stage, we configure the LLMs to act as a linguistic expert, a domain specialist, and a social media veteran to get a multifaceted analysis of texts, thus overcoming the first challenge. Next, in the reasoning-enhanced debating stage, for each potential stance, we designate a specific LLM-based agent to advocate for it, guiding the LLM to detect logical connections between text features and stance, tackling the second challenge. Finally, in the stance conclusion stage, a final decision maker agent consolidates prior insights to determine the stance. Our approach avoids extra annotated data and model training and is highly usable. We achieve state-of-the-art performance across multiple datasets. Ablation studies validate the effectiveness of each design role in handling stance detection. Further experiments have demonstrated the explainability and the versatility of our approach. Our approach excels in usability, accuracy, effectiveness, explainability and versatility, highlighting its value.
翻訳日:2023-10-17 13:34:49 公開日:2023-10-16
# あらゆる光子数を作る:結合のない低光子レートでの点滅量子エミッタのダイナミクスへの量子多スペクトルアプローチ

Making Every Photon Count: A Quantum Polyspectra Approach to the Dynamics of Blinking Quantum Emitters at Low Photon Rates Without Binning ( http://arxiv.org/abs/2310.10464v1 )

ライセンス: Link先を確認
M. Sifft, A. Kurzmann, J. Kerski, R. Schott, A. Ludwig, A. D. Wieck, A. Lorke, M. Geller, D. H\"agele(参考訳) 量子エミッターとその対応するマルコフモデルの点滅統計は、生体試料の高分解能顕微鏡やナノオプトエレクトロニクス、その他多くの科学・工学の分野で重要な役割を果たしている。 フルカウント統計やビタビアルゴリズムのような点滅統計を分析する現在の方法は、低い光子率で分解する。 本稿では、最小光子フラックスと測定帯域を制限する光子イベントの通常の結合の両方を必要としない評価手法を提案する。 提案手法は, 連続量子計測理論から最近導入された量子多スペクトル法でモデル化した測定記録の高次スペクトルに基づいている。 この手法を用いることで、半導体量子ドットのオン・オフ切替速度を、標準実験の1000倍、全計数統計のスキームで達成した20倍の光レベルで決定することができる。 このように、単一の光子隠れマルコフモデルのパラメータ学習タスクに対する非常に強力な高帯域幅アプローチが、科学の多くの分野に応用されている。

The blinking statistics of quantum emitters and their corresponding Markov models play an important role in high resolution microscopy of biological samples as well as in nano-optoelectronics and many other fields of science and engineering. Current methods for analyzing the blinking statistics like the full counting statistics or the Viterbi algorithm break down for low photon rates. We present an evaluation scheme that eliminates the need for both a minimum photon flux and the usual binning of photon events which limits the measurement bandwidth. Our approach is based on higher order spectra of the measurement record which we model within the recently introduced method of quantum polyspectra from the theory of continuous quantum measurements. By virtue of this approach we can determine on- and off-switching rates of a semiconductor quantum dot at light levels 1000 times lower than in a standard experiment and 20 times lower than achieved with a scheme from full counting statistics. Thus a very powerful high-bandwidth approach to the parameter learning task of single photon hidden Markov models has been established with applications in many fields of science.
翻訳日:2023-10-17 13:34:22 公開日:2023-10-16
# 画像圧縮のための分布予測:JPEG画像の実験的再圧縮

Distribution prediction for image compression: An experimental re-compressor for JPEG images ( http://arxiv.org/abs/2310.10517v1 )

ライセンス: Link先を確認
Maxim Koroteev and Yaroslav Borisov and Pavel Frolov(参考訳) 本稿では,JPEG画像を損失のない方法で再圧縮する手法を提案する。 JPEG画像を入力として使用することにより、アルゴリズムは信号の一部をデコードして量子化されたDCT係数を取得し、より効率的な方法で再圧縮する。

We propose a new scheme to re-compress JPEG images in a lossless way. Using a JPEG image as an input the algorithm partially decodes the signal to obtain quantized DCT coefficients and then re-compress them in a more effective way.
翻訳日:2023-10-17 13:25:20 公開日:2023-10-16
# シュミット球上の経路によって誘導されるSWAP型幾何学ゲート

SWAP-type geometric gates induced by paths on Schmidt sphere ( http://arxiv.org/abs/2310.10515v1 )

ライセンス: Link先を確認
Max Johansson Saarij\"arvi, Erik Sj\"oqvist(参考訳) シュミット球面上の経路に純粋に関連する幾何位相に基づくスワップ型量子ゲートを提案する。 rev. a {\bf 62}, 022109 (2000)]。 これらの幾何学的シュミットゲートは、量子ビット対を任意の次数に絡み合うことができ、特に、シュミット球面上の基底点の適切な選択によって積状態から最大に絡み合った状態を作ることができる。 逆工学によりシュミット球面上の純粋な経路を生成するハミルトニアンを同定し、得られたハミルトニアンがトランモン量子ビット系で実装できることを明確に示す。 幾何シュミットゲートは、動的位相の消滅を特徴とし、ブロッホ球上で起こる幾何学的単一量子ゲートと相補的である。

We propose SWAP-type quantum gates based on geometric phases purely associated with paths on the Schmidt sphere [Phys. Rev. A {\bf 62}, 022109 (2000)]. These geometric Schmidt gates can entangle qubit pairs to an arbitrary degree; in particular, they can create maximally entangled states from product states by an appropriate choice of base point on the Schmidt sphere. We identify Hamiltonians that generate pure paths on the Schmidt sphere by reverse engineering and demonstrate explicitly that the resulting Hamiltonians can be implemented in systems of transmon qubits. The geometric Schmidt gates are characterized by vanishing dynamical phases and are complementary to geometric single-qubit gates that take place on the Bloch sphere.
翻訳日:2023-10-17 13:25:15 公開日:2023-10-16
# ビジュアルプロンプト質問回答としての画像処理の統一

Unifying Image Processing as Visual Prompting Question Answering ( http://arxiv.org/abs/2310.10513v1 )

ライセンス: Link先を確認
Yihao Liu, Xiangyu Chen, Xianzheng Ma, Xintao Wang, Jiantao Zhou, Yu Qiao, Chao Dong(参考訳) 画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。 伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。 自然言語処理(NLP)における大規模言語モデル(LLM)の成功に基づき、コンピュータビジョンにも同様の傾向があり、事前学習と文脈学習による大規模モデルの開発に焦点を当てている。 このパラダイムシフトはタスク固有のモデルへの依存を減らし、様々なタスクを扱う強力な統一モデルを生み出す。 しかし、これらの進歩は主に高レベルの視覚タスクに集中しており、低レベルの視覚タスクにはあまり注意を払わない。 この問題に対処するために,画像復元,画像強調,画像特徴抽出タスク, \textit{etc} をカバーする汎用画像処理モデルを提案する。 提案するプロンプトgipというフレームワークは,これら多様な画像処理タスクをユニバーサルフレームワークに統合する。 NLP質問応答(QA)技術にインスパイアされた我々は、視覚的な質問応答パラダイムを採用している。 具体的には、入力出力画像ペアを構造化質問応答文として扱い、画像処理タスクをプロンプトqa問題として再プログラミングする。 PromptGIPは、提供される視覚的プロンプトを使用して、さまざまな \textbf{cross-domain} タスクを実行することができる。 本手法は一般的な画像処理に対して普遍的かつ適応的なソリューションを提供する。 promptgipはある程度の領域外タスク一般化能力を示しているが、さらなる研究がより強力な創発的一般化を探求することが期待されている。

Image processing is a fundamental task in computer vision, which aims at enhancing image quality and extracting essential features for subsequent vision applications. Traditionally, task-specific models are developed for individual tasks and designing such models requires distinct expertise. Building upon the success of large language models (LLMs) in natural language processing (NLP), there is a similar trend in computer vision, which focuses on developing large-scale models through pretraining and in-context learning. This paradigm shift reduces the reliance on task-specific models, yielding a powerful unified model to deal with various tasks. However, these advances have predominantly concentrated on high-level vision tasks, with less attention paid to low-level vision tasks. To address this issue, we propose a universal model for general image processing that covers image restoration, image enhancement, image feature extraction tasks, \textit{etc}. Our proposed framework, named PromptGIP, unifies these diverse image processing tasks within a universal framework. Inspired by NLP question answering (QA) techniques, we employ a visual prompting question answering paradigm. Specifically, we treat the input-output image pair as a structured question-answer sentence, thereby reprogramming the image processing task as a prompting QA problem. PromptGIP can undertake diverse \textbf{cross-domain} tasks using provided visual prompts, eliminating the need for task-specific finetuning. Our methodology offers a universal and adaptive solution to general image processing. While PromptGIP has demonstrated a certain degree of out-of-domain task generalization capability, further research is expected to fully explore its more powerful emergent generalization.
翻訳日:2023-10-17 13:25:02 公開日:2023-10-16
# 層状材料中の電荷密度波電子の量子輸送

Quantum Transport of Charge Density Wave Electrons in Layered Materials ( http://arxiv.org/abs/2310.10512v1 )

ライセンス: Link先を確認
John H. Miller Jr, Martha Y. Su\'arez-Villagr\'an and Johnathan O. Sanderson(参考訳) 電荷密度波(cdw)は、しばしば層状物質に形成される凝縮体である。 電流 \emph{en masse} を運ぶことが知られているが、輸送機構は顕微鏡レベルでは理解されていない。 その量子の性質はいくつかの証拠によって明らかにされる。 実験では、非線形輸送のしきい値のすぐ下に偏りがある場合、cdwの変位の欠如が示され、cdwが古典的デピン化の臨界点に達することはない。 CDWコンダクタンスと磁気フラックスの周期$h/2e$の振動、時には電信のようなスイッチングを伴う、77K以上の$\text{TaS}_3$のリングによっても量子挙動が明らかになる。 その結果, 9Kから474Kの温度では, トリハロコゲナイド系材料のCDW電流電圧プロットはゼナートンネル曲線と時間相関のソリトントンネルモデルとほぼ正確に一致することがわかった。 このモデルでは、schr\"{o}dinger方程式を、発展する位相状態間の対電子の流体的ジョセフソン様結合を記述する創発的古典方程式として扱う。 この「古典的に堅牢な」量子画像の拡張は、CDW環の$h/2e$磁気伝導振動とスイッチング挙動の両方を説明する。 熱的に堅牢な量子情報処理システムへの応用の可能性を検討する。

The charge density wave (CDW) is a condensate that often forms in layered materials. It is known to carry electric current \emph{en masse}, but the transport mechanism remains poorly understood at the microscopic level. Its quantum nature is revealed by several lines of evidence. Experiments often show lack of CDW displacement when biased just below the threshold for nonlinear transport, indicating the CDW never reaches the critical point for classical depinning. Quantum behavior is also revealed by oscillations of period $h/2e$ in CDW conductance vs. magnetic flux, sometimes accompanied by telegraph-like switching, in $\text{TaS}_3$ rings above 77 K. Here we discuss further evidence for quantum CDW electron transport. We find that, for temperatures ranging from 9 to 474 K, CDW current-voltage plots of three trichalcogenide materials agree almost precisely with a modified Zener-tunneling curve and with time-correlated soliton tunneling model simulations. In our model we treat the Schr\"{o}dinger equation as an emergent classical equation that describes fluidic Josephson-like coupling of paired electrons between evolving topological states. We find that an extension of this \lq classically robust' quantum picture explains both the $h/2e$ magnetoconductance oscillations and switching behavior in CDW rings. We consider potential applications for thermally robust quantum information processing systems.
翻訳日:2023-10-17 13:24:33 公開日:2023-10-16
# remax: 大きな言語モデルを調整するためのシンプルで効果的で効率的な方法

ReMax: A Simple, Effective, and Efficient Method for Aligning Large Language Models ( http://arxiv.org/abs/2310.10505v1 )

ライセンス: Link先を確認
Ziniu Li, Tian Xu, Yushun Zhang, Yang Yu, Ruoyu Sun, Zhi-Quan Luo(参考訳) アライメントは、大きな言語モデル(LLM)のトレーニングにおいて重要である。 この問題に対処する主要な戦略は、PPOがデファクトアルゴリズムとして機能するReinforcement Learning from Human Feedback (RLHF)である。 しかし,PPOは計算不効率に悩まされていることが知られている。 PPOでは利用できない高速シミュレーション,決定論的遷移,軌道レベルの報酬の3つの重要な特性を同定する。 このような観測に基づいて,ReMaxと呼ばれるRLHFに適した新しいアルゴリズムを開発した。 remaxのアルゴリズム設計は有名なアルゴリズム強化に基づいているが、新しい分散還元技術を備えている。 提案手法はPPOに比べて3倍の利点がある: まず、原則として約50%のメモリ使用量を節約する。 その結果、PPO は 8xA100-40GB GPU 上で Llama2 (7B) モデルを微調整するとメモリ不足となる。 このメモリ改善は、PPOの値モデルを削除することにより達成される。 第二に、ReMaxは実装が簡単で、スケールに敏感でチューニングに手間がかかるPPOで多くのハイパーパラメータを除去する。 第3に、GPT2 (137M) では、壁時計の時間で2.2倍のスピードアップを観測する。 重要なことに、上記の計算改善は性能を犠牲にしない。 より大規模なモデルでこれらの利点を維持できると仮定する。 ReMaxの実装はhttps://github.com/liziniu/ReMaxで利用可能です。

Alignment is of critical importance for training large language models (LLMs). The predominant strategy to address this is through Reinforcement Learning from Human Feedback (RLHF), where PPO serves as the de-facto algorithm. Yet, PPO is known to suffer from computational inefficiency, a challenge that this paper aims to address. We identify three important properties in RLHF tasks: fast simulation, deterministic transitions, and trajectory-level rewards, which are not leveraged in PPO. Based on such observations, we develop a new algorithm tailored for RLHF, called ReMax. The algorithm design of ReMax is built on a celebrated algorithm REINFORCE but is equipped with a new variance-reduction technique. Our method has three-fold advantages over PPO: first, it saves about 50% memory usage in principle. As a result, PPO runs out-of-memory when fine-tuning a Llama2 (7B) model on 8xA100-40GB GPUs, whereas ReMax can afford training. This memory improvement is achieved by removing the value model in PPO. Second, ReMax is simple to implement and removes many hyper-parameters in PPO, which are scale-sensitive and laborious to tune. Third, on GPT2 (137M), we observe 2.2x speed-up in terms of wall-clock time. Importantly, the above computational improvements do not sacrifice the performance. We hypothesize these advantages can be maintained in larger-scaled models. Our implementation of ReMax is available at https://github.com/liziniu/ReMax
翻訳日:2023-10-17 13:24:07 公開日:2023-10-16
# NeMo Guardrails: Programmable Railsを使った制御および安全なLLMアプリケーションのためのツールキット

NeMo Guardrails: A Toolkit for Controllable and Safe LLM Applications with Programmable Rails ( http://arxiv.org/abs/2310.10501v1 )

ライセンス: Link先を確認
Traian Rebedea, Razvan Dinu, Makesh Sreedhar, Christopher Parisien, Jonathan Cohen(参考訳) NeMo Guardrailsは、LLMベースの会話システムにプログラム可能なガードレールを容易に追加するためのオープンソースのツールキットである。 guardrails(または簡単に言うとrails)はllmの出力を制御するための特定の方法であり、有害と思われるトピックについて話さない、事前定義された対話パスに従う、特定の言語スタイルを使用する、などである。 llmプロバイダや開発者がトレーニング時に特定のモデルに組み込むガードレールを、例えばモデルアライメントを使って追加するためのメカニズムがいくつかある。 異なることに、対話管理にインスパイアされたランタイムを使用することで、開発者はLLMアプリケーションにプログラム可能なレールを追加することができる。 提案手法は,プログラム可能なレールを用いて制御可能かつ安全なLLMアプリケーションを開発するために,複数のLLMプロバイダと併用可能であることを示す。

NeMo Guardrails is an open-source toolkit for easily adding programmable guardrails to LLM-based conversational systems. Guardrails (or rails for short) are a specific way of controlling the output of an LLM, such as not talking about topics considered harmful, following a predefined dialogue path, using a particular language style, and more. There are several mechanisms that allow LLM providers and developers to add guardrails that are embedded into a specific model at training, e.g. using model alignment. Differently, using a runtime inspired from dialogue management, NeMo Guardrails allows developers to add programmable rails to LLM applications - these are user-defined, independent of the underlying LLM, and interpretable. Our initial results show that the proposed approach can be used with several LLM providers to develop controllable and safe LLM applications using programmable rails.
翻訳日:2023-10-17 13:23:41 公開日:2023-10-16
# コヒーレント誤りのない改良プロトコルによるキャビティの高速量子制御

Fast quantum control of cavities using an improved protocol without coherent errors ( http://arxiv.org/abs/2310.10498v1 )

ライセンス: Link先を確認
Jonas Landgraf, Christa Fl\"uhmann, Thomas F\"osel, Florian Marquardt, Robert J. Schoelkopf(参考訳) 選択的数依存任意の位相 (SNAP) ゲートは量子ゲートの強力なクラスを形成し、空洞のフォックモードに任意に選択された位相を与える。 しかし、短パルスの場合、コヒーレントエラーは性能を制限する。 ここでは、パルス時間が特定の限界を超えると、そのような誤差を完全に抑制できることを理論と実験で示す。 結果としてゲート時間が短くなると、不整合誤差も減少する。 提案手法は少数の周波数成分しか必要とせず、その結果のパルスは容易に解釈でき、フォールトトレラント方式と互換性がある。

The selective number-dependent arbitrary phase (SNAP) gates form a powerful class of quantum gates, imparting arbitrarily chosen phases to the Fock modes of a cavity. However, for short pulses, coherent errors limit the performance. Here we demonstrate in theory and experiment that such errors can be completely suppressed, provided that the pulse times exceed a specific limit. The resulting shorter gate times also reduce incoherent errors. Our approach needs only a small number of frequency components, the resulting pulses can be interpreted easily, and it is compatible with fault-tolerant schemes.
翻訳日:2023-10-17 13:23:25 公開日:2023-10-16
# 聴覚選択的聴覚機構を用いたターゲット話者の定位

LocSelect: Target Speaker Localization with an Auditory Selective Hearing Mechanism ( http://arxiv.org/abs/2310.10497v1 )

ライセンス: Link先を確認
Yu Chen, Xinyuan Qian, Zexu Pan, Kainan Chen, Haizhou Li(参考訳) 本稿では, 話者の同一性に関係なく, 多話者シナリオにおける話者毎の指向性出力の分離と提供を主眼に, 選択的聴覚機構を備えた話者定位アルゴリズムを提案する。 対象話者の参照音声が与えられた場合、まず話者依存スペクトログラムマスクを作成し、干渉話者の音声を除去する。 その後、Long Short-term memory(LSTM)ネットワークを用いて、フィルタされた分光図からターゲット話者の位置を抽出する。 実験により,SNR条件下での既存アルゴリズムと比較して,提案手法の優位性を検証した。 具体的には、SNR = -10 dB において、提案するネットワーク LocSelect は平均絶対誤差(MAE)が 3.55 で精度(ACC)が 87.40% である。

The prevailing noise-resistant and reverberation-resistant localization algorithms primarily emphasize separating and providing directional output for each speaker in multi-speaker scenarios, without association with the identity of speakers.In this paper, we present a target speaker localization algorithm with a selective hearing mechanism. Given a reference speech of the target speaker, we first produce a speaker-dependent spectrogram mask to eliminate interfering speakers' speech. Subsequently, a Long short-term memory (LSTM) network is employed to extract the target speaker's location from the filtered spectrogram. Experiments validate the superiority of our proposed method over the existing algorithms for different scale invariant signal-to-noise ratios (SNR) conditions. Specifically, at SNR = -10 dB, our proposed network LocSelect achieves a mean absolute error (MAE) of 3.55 and an accuracy (ACC) of 87.40%.
翻訳日:2023-10-17 13:23:15 公開日:2023-10-16
# 幻覚検出のためのメトリクスアンサンブル

Metric Ensembles For Hallucination Detection ( http://arxiv.org/abs/2310.10495v1 )

ライセンス: Link先を確認
Grant C. Forbes, Parth Katlana, Zeydy Ortiz(参考訳) 抽象的なテキスト要約は、部分的には大きな言語モデル(LLM)の増大により、最近、関心が高まっている。 抽象要約の生成に関連する最も差し迫った問題の1つは、「幻覚」を減らす必要性であり、文書に含まれていない情報であり、完全に正しくない可能性がある。 この要求により、要約されるテキストとの整合性を推定する幅広いメトリクスが提案されている。 具体的には,wiki_bio_gpt3_hallucinationデータセットにおいて,要約整合性のための教師なしメトリクスの組を調査し,それらの相関度と人的評価スコアを測定した。 次に、これらの評価をこれらの指標の単純な線形アンサンブルから得られたモデルと比較する。 LLM法は幻覚検出のための他の教師なし指標よりも優れていた。 また,アンサンブル手法は,アンサンブル内の指標が十分に類似し,非相関な誤差率を持つ場合,これらのスコアをさらに改善できることがわかった。 最後に,従来のSOTAよりも改善したLCMに基づく評価のためのアンサンブル手法を提案する。

Abstractive text summarization has garnered increased interest as of late, in part due to the proliferation of large language models (LLMs). One of the most pressing problems related to generation of abstractive summaries is the need to reduce "hallucinations," information that was not included in the document being summarized, and which may be wholly incorrect. Due to this need, a wide array of metrics estimating consistency with the text being summarized have been proposed. We examine in particular a suite of unsupervised metrics for summary consistency, and measure their correlations with each other and with human evaluation scores in the wiki_bio_gpt3_hallucination dataset. We then compare these evaluations to models made from a simple linear ensemble of these metrics. We find that LLM-based methods outperform other unsupervised metrics for hallucination detection. We also find that ensemble methods can improve these scores even further, provided that the metrics in the ensemble have sufficiently similar and uncorrelated error rates. Finally, we present an ensemble method for LLM-based evaluations that we show improves over this previous SOTA.
翻訳日:2023-10-17 13:22:58 公開日:2023-10-16
# インタラクティブな病理画像分割のためのセグメンテーションモデルの評価と改善

Evaluation and improvement of Segment Anything Model for interactive histopathology image segmentation ( http://arxiv.org/abs/2310.10493v1 )

ライセンス: Link先を確認
SeungKyu Kim, Hyun-Jic Oh, Seonghui Min and Won-Ki Jeong(参考訳) 画像分割の基礎モデルとしてsegment anything model(sam)が登場したことで、その応用は医療分野を含む様々な領域で広く研究されてきた。 しかし, 病理組織学的データ, 特に地域区分の文脈におけるその潜在性は, 比較的注目されている。 本稿では,組織病理データにおけるゼロショットおよび微調整シナリオにおけるsamの性能を,インタラクティブなセグメンテーションに着目して評価する。 さらに、SAMと他の最先端インタラクティブモデルを比較し、その実用可能性を評価し、その一般化能力とドメイン適応性を評価する。 実験の結果,samは他のモデルと比較してセグメンテーション性能の弱さを示し,推論時間と一般化能力の相対的な強みを示した。 SAMの局所改良能力の向上と,そのコア強度を保ちながら迅速な安定性向上を図るため,SAMデコーダの改良を提案する。 実験結果は,samをインタラクティブな組織学画像分割に役立てるために改良が有効であることを示唆する。 コードは \url{https://github.com/hvcl/sam_interactive_histopathology} で入手できる。

With the emergence of the Segment Anything Model (SAM) as a foundational model for image segmentation, its application has been extensively studied across various domains, including the medical field. However, its potential in the context of histopathology data, specifically in region segmentation, has received relatively limited attention. In this paper, we evaluate SAM's performance in zero-shot and fine-tuned scenarios on histopathology data, with a focus on interactive segmentation. Additionally, we compare SAM with other state-of-the-art interactive models to assess its practical potential and evaluate its generalization capability with domain adaptability. In the experimental results, SAM exhibits a weakness in segmentation performance compared to other models while demonstrating relative strengths in terms of inference time and generalization capability. To improve SAM's limited local refinement ability and to enhance prompt stability while preserving its core strengths, we propose a modification of SAM's decoder. The experimental results suggest that the proposed modification is effective to make SAM useful for interactive histology image segmentation. The code is available at \url{https://github.com/hvcl/SAM_Interactive_Histopathology}
翻訳日:2023-10-17 13:22:42 公開日:2023-10-16
# 協調ゲームにおける確率的フレーズの使用:人間対GPT-4

Use of probabilistic phrases in a coordination game: human versus GPT-4 ( http://arxiv.org/abs/2310.10544v1 )

ライセンス: Link先を確認
Laurence T Maloney, Maria F Dal Martello, Vivian Fei and Valerie Ma(参考訳) 英語話者は確率的フレーズを使って、出来事の確率や可能性に関する情報を伝える。 コミュニケーションは、リスナーが伝達する意味を把握できる程度に成功し、コミュニケーションが成功すれば、不確実性に関する共有知識に基づいて2人の個人が行動を調整することができる。 まず,23の確率的フレーズの確率とあいまいさ(精度)を,投資アドバイスと医療アドバイスの2つの異なる文脈で評価した。 次に、最近の大規模言語モデルであるGPT4(OpenAI)が、人間の参加者と同じタスクを完了しました。 その結果、ヒトの中央値とGPT4が一致した確率推定値を割り振った(分散の確率は.90に近かった)。 GPT4の投資状況と医療状況の両方における確率の推定は、ヒトの参加者が互いに近かったり近かったりした。 ヒトとgpt4の確率は文脈によってほとんど影響されなかった。 対照的に、人間とgpt4のあいまいさの推定は良い一致ではなかった。 GPT4の安定性を評価するために、GPT4の見積もりをいくつか繰り返した。 そうでないという兆候がいくつかある。

English speakers use probabilistic phrases such as likely to communicate information about the probability or likelihood of events. Communication is successful to the extent that the listener grasps what the speaker means to convey and, if communication is successful, two individuals can potentially coordinate their actions based on shared knowledge about uncertainty. We first assessed human ability to estimate the probability and the ambiguity (imprecision) of 23 probabilistic phrases in two different contexts, investment advice and medical advice. We then had GPT4 (OpenAI), a recent Large Language Model, complete the same tasks as the human participants. We found that the median human participant and GPT4 assigned probability estimates that were in good agreement (proportions of variance accounted were close to .90). GPT4's estimates of probability both in the investment and Medical contexts were as close or closer to that of the human participants as the human participants were to one another. Estimates of probability for both the human participants and GPT4 were little affected by context. In contrast, human and GPT4 estimates of ambiguity were not in as good agreement. We repeated some of the GPT4 estimates to assess their stability: does GPT4, if run twice, produce the same or similar estimates? There is some indication that it does not.
翻訳日:2023-10-17 13:11:58 公開日:2023-10-16
# ViPE: あらゆるものを可視化する

ViPE: Visualise Pretty-much Everything ( http://arxiv.org/abs/2310.10543v1 )

ライセンス: Link先を確認
Hassan Shahmohammadi, Adhiraj Ghosh, Hendrik P. A. Lensch(参考訳) フィギュラティブ表現とノンリテラル表現は、人間のコミュニケーションに深く統合されている。 このような表現を視覚化することで、創造的な思考を伝達し、ニュアンス的な感情を喚起することができる。 一方、Stable Diffusionのような最近のテキストから画像へのモデルでは、非リテラル表現の表現に苦労している。 最近の研究では主に、人間の注釈付きデータセットを小さなスケールでコンパイルすることでこの問題に対処している。 この問題に対処するために、ViPE: Visualise Pretty-much Everythingを紹介します。 ViPEは、一連の軽量で堅牢な言語モデルを提供し、その暗黙的な意味を表す騒々しい視覚的記述を持つ大規模な歌詞セットで訓練されている。 合成視覚記述は、人間のアノテーションや画像に依存しないGPT3.5によって生成される。 ViPEは任意のテキストを視覚的に表現し、意味のある高品質の画像生成を可能にする。 我々は,視覚的エラボレーションの合成において,VPEがGPT3.5よりも堅牢であることを示す。 ViPEはまた、人間の専門家に匹敵する比喩表現の理解を示し、音楽ビデオやキャプション生成のような下流の多くのアプリケーションに強力でオープンソースのバックボーンを提供する。

Figurative and non-literal expressions are profoundly integrated in human communication. Visualising such expressions allow us to convey our creative thoughts, and evoke nuanced emotions. Recent text-to-image models like Stable Diffusion, on the other hand, struggle to depict non-literal expressions. Recent works primarily deal with this issue by compiling humanly annotated datasets on a small scale, which not only demands specialised expertise but also proves highly inefficient. To address this issue, we introduce ViPE: Visualise Pretty-much Everything. ViPE offers a series of lightweight and robust language models that have been trained on a large-scale set of lyrics with noisy visual descriptions that represent their implicit meaning. The synthetic visual descriptions are generated by GPT3.5 relying on neither human annotations nor images. ViPE effectively expresses any arbitrary piece of text into a visualisable description, enabling meaningful and high-quality image generation. We provide compelling evidence that ViPE is more robust than GPT3.5 in synthesising visual elaborations. ViPE also exhibits an understanding of figurative expressions comparable to human experts, providing a powerful and open-source backbone to many downstream applications such as music video and caption generation.
翻訳日:2023-10-17 13:11:38 公開日:2023-10-16
# スムーズかつ高品質なエキスパート軌道とのアライメントによる効率的なデータセット蒸留

Efficient Dataset Distillation through Alignment with Smooth and High-Quality Expert Trajectories ( http://arxiv.org/abs/2310.10541v1 )

ライセンス: Link先を確認
Jiyuan Shen, Wenzhuo Yang, Kwok-Yan Lam(参考訳) 大規模かつ最先端の機械学習モデルをトレーニングするには、通常、大規模なデータセットを使用する必要がある。 一部の研究者は、情報を現実世界のデータセットから小さくてコンパクトな合成データセットに分解し、パフォーマンスのよいモデルを訓練する能力を維持しながら、データセット蒸留(dd)として知られるデータ効率の高い方法を提案する。 この分野の最近の進歩にもかかわらず、既存のメソッドはまだパフォーマンスが低く、大規模なデータセットを効果的に置き換えることができない。 本稿では, 学生蒸留の有効性向上にのみ焦点をあてた従来の方法とは異なり, 専門家と学生の間の重要な相互作用を初めて認識した。 我々は, より強力な専門的軌跡を用いた後のデータセット蒸留における専門家の滑らかさの有意な影響を論じる。 そこで本稿では, クリッピング損失と勾配ペナルティを統合して, 専門家軌道のパラメータ変化率を調節する手法を提案する。 さらに,蒸留中の無作為初期化変数に対する感度に応答して,合成データセットの代表的な初期化と内部ループ損失のバランスを提案する。 最後に, 累積誤差の発生可能性を軽減するため, 中間整合損失と重み摂動の2つの強化戦略を提案する。 さまざまなスケール、サイズ、解像度のデータセットに関する広範な実験を行います。 その結果,提案手法は先行手法よりも有意に優れていた。

Training a large and state-of-the-art machine learning model typically necessitates the use of large-scale datasets, which, in turn, makes the training and parameter-tuning process expensive and time-consuming. Some researchers opt to distil information from real-world datasets into tiny and compact synthetic datasets while maintaining their ability to train a well-performing model, hence proposing a data-efficient method known as Dataset Distillation (DD). Despite recent progress in this field, existing methods still underperform and cannot effectively replace large datasets. In this paper, unlike previous methods that focus solely on improving the efficacy of student distillation, we are the first to recognize the important interplay between expert and student. We argue the significant impact of expert smoothness when employing more potent expert trajectories in subsequent dataset distillation. Based on this, we introduce the integration of clipping loss and gradient penalty to regulate the rate of parameter changes in expert trajectories. Furthermore, in response to the sensitivity exhibited towards randomly initialized variables during distillation, we propose representative initialization for synthetic dataset and balanced inner-loop loss. Finally, we present two enhancement strategies, namely intermediate matching loss and weight perturbation, to mitigate the potential occurrence of cumulative errors. We conduct extensive experiments on datasets of different scales, sizes, and resolutions. The results demonstrate that the proposed method significantly outperforms prior methods.
翻訳日:2023-10-17 13:11:20 公開日:2023-10-16
# ディープラーニングのためのマイクロスケーリングデータフォーマット

Microscaling Data Formats for Deep Learning ( http://arxiv.org/abs/2310.10537v1 )

ライセンス: Link先を確認
Bita Darvish Rouhani, Ritchie Zhao, Ankit More, Mathew Hall, Alireza Khodamoradi, Summer Deng, Dhruv Choudhary, Marius Cornea, Eric Dellinger, Kristof Denolf, Stosic Dusan, Venmugil Elango, Maximilian Golub, Alexander Heinecke, Phil James-Roxby, Dharmesh Jani, Gaurav Kolhe, Martin Langhammer, Ada Li, Levi Melnick, Maral Mesmakhosroshahi, Andres Rodriguez, Michael Schulte, Rasoul Shafipour, Lei Shao, Michael Siu, Pradeep Dubey, Paulius Micikevicius, Maxim Naumov, Colin Verilli, Ralph Wittig, Eric Chung(参考訳) 狭いビット幅のデータフォーマットは、現代のディープラーニングアプリケーションの計算コストとストレージコストを削減する鍵となる。 本稿では,ブロック毎のスケーリング係数と,個々の要素に対する浮動小数点数と整数型を組み合わせたmxデータフォーマットについて評価する。mxフォーマットは,ハードウェア効率,モデル精度,ユーザフリクションの競合するニーズを両立させる。 2ダース以上のベンチマークにおける実証的な結果は、AI推論と低ユーザ摩擦によるトレーニングのためのベースラインFP32のドロップイン代替として、MXデータフォーマットの実用性を示している。 また,8ビット以下の重み,アクティベーション,勾配で生成言語モデルをトレーニングする最初の事例を示す。

Narrow bit-width data formats are key to reducing the computational and storage costs of modern deep learning applications. This paper evaluates Microscaling (MX) data formats that combine a per-block scaling factor with narrow floating-point and integer types for individual elements.MX formats balance the competing needs of hardware efficiency, model accuracy, and user friction. Empirical results on over two dozen benchmarks demonstrate practicality of MX data formats as a drop-in replacement for baseline FP32 for AI inference and training with low user friction. We also show the first instance of training generative language models at sub-8-bit weights, activations, and gradients with minimal accuracy loss and no modifications to the training recipe.
翻訳日:2023-10-17 13:10:57 公開日:2023-10-16
# 一般化境界における比較器の比較

Comparing Comparators in Generalization Bounds ( http://arxiv.org/abs/2310.10534v1 )

ライセンス: Link先を確認
Fredrik Hellstr\"om, Benjamin Guedj(参考訳) 学習と人口減少の差を測定する任意の凸コンパレータ関数を含む汎用情報理論およびpac-ベイズ一般化境界を導出する。 境界は、コンパレータの累積生成関数(CGF)が、有界分布の族内の対応する CGF によって上界となるという仮定で成り立つ。 有界分布 CGF の凸共役(英語版)(convex conjugate)であるコンパレータ(英語版)をCram\'er関数(英語版)(Clam\'er function)と呼ぶ。 この結論は、同様の構造を持つ一般化境界に対してより広く適用される。 これにより、有界および準ガウス損失に対する既知の境界の近似最適性が保証され、他の境界分布の下で新しい境界が導かれる。

We derive generic information-theoretic and PAC-Bayesian generalization bounds involving an arbitrary convex comparator function, which measures the discrepancy between the training and population loss. The bounds hold under the assumption that the cumulant-generating function (CGF) of the comparator is upper-bounded by the corresponding CGF within a family of bounding distributions. We show that the tightest possible bound is obtained with the comparator being the convex conjugate of the CGF of the bounding distribution, also known as the Cram\'er function. This conclusion applies more broadly to generalization bounds with a similar structure. This confirms the near-optimality of known bounds for bounded and sub-Gaussian losses and leads to novel bounds under other bounding distributions.
翻訳日:2023-10-17 13:10:44 公開日:2023-10-16
# アフィニティ伝播によるラベル効率の高いセグメンテーション

Label-efficient Segmentation via Affinity Propagation ( http://arxiv.org/abs/2310.10533v1 )

ライセンス: Link先を確認
Wentong Li, Yuqian Yuan, Song Wang, Wenyu Liu, Dongqi Tang, Jian Liu, Jianke Zhu, Lei Zhang(参考訳) ラベル効率の低いスパースアノテーションによる弱教師付きセグメンテーションは、手間のかかるピクセルワイドラベリングプロセスのコストを削減するために研究の注目を集め、一方、ペアワイドアフィニティモデリング技術はこのタスクにおいて重要な役割を担っている。 既存のアプローチのほとんどは、近傍のペアワイズポテンシャルのモデル化にローカルな外観カーネルを使うことに重点を置いている。 しかし、そのようなローカル操作は長距離の依存関係を捉えることができず、オブジェクトのトポロジを無視する。 本研究では,親和性モデリングを親和性伝播プロセスとして定式化し,局所的および大域的親和性項を提案し,正確なソフト擬似ラベルを生成する。 計算コストを大幅に削減する効率的なアルゴリズムも開発されている。 提案手法は,既存のセグメンテーションネットワークに容易に接続できる。 例えば、box-supervised instance segmentation、point/scribble-supervised semantic segmentation、 clip-guided semantic segmentationの3つの典型的なラベル効率の良いセグメンテーションタスクの実験は、提案手法の優れた性能を示している。

Weakly-supervised segmentation with label-efficient sparse annotations has attracted increasing research attention to reduce the cost of laborious pixel-wise labeling process, while the pairwise affinity modeling techniques play an essential role in this task. Most of the existing approaches focus on using the local appearance kernel to model the neighboring pairwise potentials. However, such a local operation fails to capture the long-range dependencies and ignores the topology of objects. In this work, we formulate the affinity modeling as an affinity propagation process, and propose a local and a global pairwise affinity terms to generate accurate soft pseudo labels. An efficient algorithm is also developed to reduce significantly the computational cost. The proposed approach can be conveniently plugged into existing segmentation networks. Experiments on three typical label-efficient segmentation tasks, i.e. box-supervised instance segmentation, point/scribble-supervised semantic segmentation and CLIP-guided semantic segmentation, demonstrate the superior performance of the proposed approach.
翻訳日:2023-10-17 13:10:30 公開日:2023-10-16
# オール&オールフォーワン:クロスリンガルトランスファーのためのモデル平均化によるハイパーパラメータチューニングのバイパス

One For All & All For One: Bypassing Hyperparameter Tuning with Model Averaging For Cross-Lingual Transfer ( http://arxiv.org/abs/2310.10532v1 )

ライセンス: Link先を確認
Fabian David Schmidt, Ivan Vuli\'c, Goran Glava\v{s}(参考訳) マルチランガル言語モデルはゼロショット・クロスランガル・トランスファー(ZS-XLT)を可能にし、ソース言語タスクデータに基づいて微調整され、ラベル付きインスタンスなしでターゲット言語でタスクを実行する。 ZS-XLTのヒンジは、言語間の言語間近接と、言語に対する事前学習データの量に影響を及ぼす。 このため、ソース言語検証に基づくモデル選択は信頼できない。 治療として、いくつかの作業は、ハイパーパラメータを広範囲に調整することでZS-XLTを最適化する。 他の作業では、より狭いハイパーパラメータグリッドを探索し、パフォーマンスを大幅に低下させる。 そこで本研究では,超パラメータチューニングから性能最大化を分離するZS-XLTの教師なし評価プロトコルを提案する。 広範なハイパーパラメータチューニングに代わる頑健で透明な代替手段として,異なるランから1つのモデルに蓄積平均スナップショットを提案する。 高レベルセマンティックタスク (NLI, 抽出QA) と低レベルトークン分類タスク (NER) の両方について広範囲にわたるZS-XLT実験を行い, 情報源言語による検証に基づく従来のモデル選択が, より高速にZS-XLTの性能を向上させることを発見した。 一方、異なるハイパーパラメータでトレーニングされたモデルのアキュマティブ・バイ・ラン平均化は、ZS-XLT性能を高め、ターゲット言語検証性能に基づいたモデル選択と密接に相関する。

Multilingual language models enable zero-shot cross-lingual transfer (ZS-XLT): fine-tuned on sizable source-language task data, they perform the task in target languages without labeled instances. The effectiveness of ZS-XLT hinges on the linguistic proximity between languages and the amount of pretraining data for a language. Because of this, model selection based on source-language validation is unreliable: it picks model snapshots with suboptimal target-language performance. As a remedy, some work optimizes ZS-XLT by extensively tuning hyperparameters: the follow-up work then routinely struggles to replicate the original results. Other work searches over narrower hyperparameter grids, reporting substantially lower performance. In this work, we therefore propose an unsupervised evaluation protocol for ZS-XLT that decouples performance maximization from hyperparameter tuning. As a robust and more transparent alternative to extensive hyperparameter tuning, we propose to accumulatively average snapshots from different runs into a single model. We run broad ZS-XLT experiments on both higher-level semantic tasks (NLI, extractive QA) and a lower-level token classification task (NER) and find that conventional model selection based on source-language validation quickly plateaus to suboptimal ZS-XLT performance. On the other hand, our accumulative run-by-run averaging of models trained with different hyperparameters boosts ZS-XLT performance and closely correlates with "oracle" ZS-XLT, i.e., model selection based on target-language validation performance.
翻訳日:2023-10-17 13:10:05 公開日:2023-10-16
# 雑音運動における空間情報と時間情報の最適統合学習

Learning optimal integration of spatial and temporal information in noisy chemotaxis ( http://arxiv.org/abs/2310.10531v1 )

ライセンス: Link先を確認
Albert Alonso and Julius B. Kirkegaard(参考訳) 勾配の空間的推定によるケモトキシーと時間的推定によるケモトキシーの境界について検討した。 空間的ケモトキシーが騒音の高い小生物にとって不利になることはよく知られているが、最適戦略の不連続なスイッチが存在するか、連続的な遷移が存在するかは定かではない。 本稿では,a prei unconstrained 方式による空間情報と時間情報の統合の可能性について,深層強化学習を用いて検討する。 そこで我々は, 再帰型ニューラルネットワークによる協調型ケモティックポリシーをパラメータ化し, チェモティックセルの最小理論モデルを用いて評価する。 ポリシーの制約された変種と比較することにより,小細胞サイズと大細胞サイズで,純粋に時間戦略と空間戦略に収束することを示した。 我々は,レジーム間の遷移が連続的であること,制約付き変種と空間的情報と時間的情報を明示的に統合するモデルの両方において,トランジッション領域における戦略が優れていることを見出した。 最後に, 統合勾配の帰属法を用いて, ケモティックトラジェクタにおいて動的に変化する, 空間的および時間的に導出される勾配情報の非自明な組み合わせに依存することを示す。

We investigate the boundary between chemotaxis driven by spatial estimation of gradients and chemotaxis driven by temporal estimation. While it is well known that spatial chemotaxis becomes disadvantageous for small organisms at high noise levels, it is unclear whether there is a discontinuous switch of optimal strategies or a continuous transition exists. Here, we employ deep reinforcement learning to study the possible integration of spatial and temporal information in an a priori unconstrained manner. We parameterize such a combined chemotactic policy by a recurrent neural network and evaluate it using a minimal theoretical model of a chemotactic cell. By comparing with constrained variants of the policy, we show that it converges to purely temporal and spatial strategies at small and large cell sizes, respectively. We find that the transition between the regimes is continuous, with the combined strategy outperforming in the transition region both the constrained variants as well as models that explicitly integrate spatial and temporal information. Finally, by utilizing the attribution method of integrated gradients, we show that the policy relies on a non-trivial combination of spatially and temporally derived gradient information in a ratio that varies dynamically during the chemotactic trajectories.
翻訳日:2023-10-17 13:09:38 公開日:2023-10-16
# 共振駆動型アンサンブルにおける量子デファスメントの能動抑制

Active Suppression of Quantum Dephasing in Resonantly Driven Ensembles ( http://arxiv.org/abs/2310.10525v1 )

ライセンス: Link先を確認
Chengxing He, Robert R. Jones(参考訳) 我々は量子制御を用いて原子対内のコヒーレント集団移動に対するランダム原子位置の影響を抑え、数百個の原子を持つリドバーグ気体における双極子-双極子駆動ラビ振動の観測を可能にした。 本手法は、オフ共振rabi周波数の結合強度感度を低減し、非線形光学系における準位相マッチングに類似した実現可能な集団移動をコヒーレントに増幅する。 シミュレーションは実験結果を再現し、他の多体量子制御アプリケーションに対する技術の可能性を示す。

We have used quantum control to suppress the impact of random atom positions on coherent population transfer within atom pairs, enabling the observation of dipole-dipole driven Rabi oscillations in a Rydberg gas with hundreds of atoms. The method exploits the reduced coupling-strength sensitivity of the off-resonant Rabi frequency, and coherently amplifies the achievable population transfer in analogy to quasi-phase-matching in non-linear optics. Simulations reproduce the experimental results and demonstrate the potential benefits of the technique to other many-body quantum control applications.
翻訳日:2023-10-17 13:09:16 公開日:2023-10-16
# ゼロショット対話状態追跡の複雑な更新戦略のための大規模言語モデルによる意味解析

Semantic Parsing by Large Language Models for Intricate Updating Strategies of Zero-Shot Dialogue State Tracking ( http://arxiv.org/abs/2310.10520v1 )

ライセンス: Link先を確認
Yuxiang Wu, Guanting Dong, Weiran Xu(参考訳) Zero-shot Dialogue State Tracking (DST)は、タスク指向対話の取得と注釈付けという課題に対処する。 しかし、DSTは単純なスロットフィリングを超えて、会話の進行に伴って対話状態を追跡する効果的な更新戦略を必要とする。 本稿では、ゼロショットDSTにおける複雑な更新戦略を導入するために、新しいインコンテキスト学習(ICL)手法であるParsingDSTを提案する。 提案手法は,強力な大言語モデル(LLM)を活用してDSTタスクを再構築し,セマンティック解析を中間状態として,元の対話文をJSONに変換する。 また、テキストからJSONへのプロセスにおける戦略の更新の有効性を保証するために、より多くのモジュールを含む新しいフレームワークを設計する。 実験の結果,提案手法はマルチウォズにおける既存のゼロショットdst法よりも優れており,既存のicl法に比べてジョイントゴール精度 (jga) とスロット精度が大幅に向上した。

Zero-shot Dialogue State Tracking (DST) addresses the challenge of acquiring and annotating task-oriented dialogues, which can be time consuming and costly. However, DST extends beyond simple slot-filling and requires effective updating strategies for tracking dialogue state as conversations progress. In this paper, we propose ParsingDST, a new In-Context Learning (ICL) method, to introduce additional intricate updating strategies in zero-shot DST. Our approach reformulates the DST task by leveraging powerful Large Language Models (LLMs) and translating the original dialogue text to JSON through semantic parsing as an intermediate state. We also design a novel framework that includes more modules to ensure the effectiveness of updating strategies in the text-to-JSON process. Experimental results demonstrate that our approach outperforms existing zero-shot DST methods on MultiWOZ, exhibiting significant improvements in Joint Goal Accuracy (JGA) and slot accuracy compared to existing ICL methods.
翻訳日:2023-10-17 13:09:05 公開日:2023-10-16
# 確率的なオウムは誰を真似てるの? 奴らは我々に言うべきだ!

Who Are All The Stochastic Parrots Imitating? They Should Tell Us! ( http://arxiv.org/abs/2310.10583v1 )

ライセンス: Link先を確認
Sagi Shaier, Lawrence E. Hunter, Katharina von der Wense(参考訳) スタンドアローン言語モデル(LM)と下流タスクシステム内のLMの両方が、事実的に非真実であるステートメントを生成することが示されている。 この問題は、トレーニングデータが高リソース言語よりも少ないことと品質が悪い低リソース言語では特に深刻である。 この意見書では、現在のLMは批判的な設定で完全に信頼できないと論じ、この問題に対処する可能性のある新しい戦略を提案する: LMを構築することで、ソースを引用できる、すなわち、アウトプットをバックアップするトレーニングデータの一部にユーザーを向ける。 まず、現在のNLPタスクがそのようなモデルの恩恵を受けるかどうかを議論する。 次に、そのようなモデルが期待できる利点、例えば、ステートメントのクイック検証可能性について強調する。 最終的には、引用する能力を備えたLMを開発する途中で解決すべき個々のタスクの概要を述べます。 我々は、特に低リソース言語におけるLMの構築に対するこの分野の現在のアプローチと、モデル世代の説明におけるトレーニングデータの役割について、議論を始めたいと思っています。

Both standalone language models (LMs) as well as LMs within downstream-task systems have been shown to generate statements which are factually untrue. This problem is especially severe for low-resource languages, where training data is scarce and of worse quality than for high-resource languages. In this opinion piece, we argue that LMs in their current state will never be fully trustworthy in critical settings and suggest a possible novel strategy to handle this issue: by building LMs such that can cite their sources - i.e., point a user to the parts of their training data that back up their outputs. We first discuss which current NLP tasks would or would not benefit from such models. We then highlight the expected benefits such models would bring, e.g., quick verifiability of statements. We end by outlining the individual tasks that would need to be solved on the way to developing LMs with the ability to cite. We hope to start a discussion about the field's current approach to building LMs, especially for low-resource languages, and the role of the training data in explaining model generations.
翻訳日:2023-10-17 13:00:42 公開日:2023-10-16
# RefConv: 強力なConvNetのための再パラメータ化されたリフォーカスコンボリューション

RefConv: Re-parameterized Refocusing Convolution for Powerful ConvNets ( http://arxiv.org/abs/2310.10563v1 )

ライセンス: Link先を確認
Zhicheng Cai, Xiaohan Ding, Qiu Shen, Xun Cao(参考訳) 提案するRe-parameterized Refocusing Convolution (RefConv) は,推論コストを伴わずに性能を向上させるためのプラグイン・アンド・プレイモジュールである通常の畳み込みレイヤの代替となる。 具体的には、事前訓練されたモデルが与えられたとき、refconvは、事前訓練されたモデルから継承された基礎カーネルに訓練可能な再焦点変換を適用し、パラメータ間の接続を確立する。 例えば、深さ方向のrefconvは、畳み込みカーネルの特定のチャネルのパラメータを、他のカーネルのパラメータに関連付けることができる。 別の観点から、RefConvは、事前訓練されたパラメータにエンコードされた表現を先行として利用し、新しい表現を学習するために再フォーカスすることで、既存のモデル構造の先行を拡大し、事前訓練されたモデルの表現能力をさらに強化する。 実験の結果、RefConvは画像分類、オブジェクト検出、セマンティックセグメンテーションにおいて、余分な推論コストやオリジナルのモデル構造を変更することなく、明確なマージンで複数のCNNベースのモデルを改善することができることがわかった。 さらなる研究により、refconvはチャネルの冗長性を低減し、損失景観を滑らかにすることができることが示され、その効果が説明された。

We propose Re-parameterized Refocusing Convolution (RefConv) as a replacement for regular convolutional layers, which is a plug-and-play module to improve the performance without any inference costs. Specifically, given a pre-trained model, RefConv applies a trainable Refocusing Transformation to the basis kernels inherited from the pre-trained model to establish connections among the parameters. For example, a depth-wise RefConv can relate the parameters of a specific channel of convolution kernel to the parameters of the other kernel, i.e., make them refocus on the other parts of the model they have never attended to, rather than focus on the input features only. From another perspective, RefConv augments the priors of existing model structures by utilizing the representations encoded in the pre-trained parameters as the priors and refocusing on them to learn novel representations, thus further enhancing the representational capacity of the pre-trained model. Experimental results validated that RefConv can improve multiple CNN-based models by a clear margin on image classification (up to 1.47% higher top-1 accuracy on ImageNet), object detection and semantic segmentation without introducing any extra inference costs or altering the original model structure. Further studies demonstrated that RefConv can reduce the redundancy of channels and smooth the loss landscape, which explains its effectiveness.
翻訳日:2023-10-17 13:00:26 公開日:2023-10-16
# 測度に基づく量子ゲートテレポーテーションの要件としての対称性保護トポロジカル秩序

Symmetry protected topological order as a requirement for measurement-based quantum gate teleportation ( http://arxiv.org/abs/2310.10561v1 )

ライセンス: Link先を確認
Zhuohao Liu, Emma C. Johnson, and David L. Feder(参考訳) 相関空間における測定に基づく量子テレポーテーションのすべての既知の資源状態は、位相秩序を保護した対称性を持つが、これは十分か必要か? この研究は、1次元のキュービット状態の2つの族を負の質問に答えるために考慮する。 第一は結合次元 2 の行列生成状態の族であり、これはクラスター状態を含む特別な場合であり、大域的非オンサイト対称性によって保護され、決定論的にテレポートゲートが得られず、非退化エンタングルメントスペクトルによって特徴づけられる。 2つ目は結合次元 4 の状態であり、有限個のシングルキュービットゲートの決定論的普遍的テレポーテーションの資源であるが、対称性を持たない。

All known resource states for measurement-based quantum teleportation in correlation space possess symmetry protected topological order, but is this a sufficient or even necessary condition? This work considers two families of one-dimensional qubit states to answer this question in the negative. The first is a family of matrix-product states with bond dimension two that includes the cluster state as a special case, protected by a global non-onsite symmetry, which is unable to deterministically teleport gates and which is characterized by a non-degenerate entanglement spectrum. The second are states with bond dimension four that are a resource for deterministic universal teleportation of finite single-qubit gates, but which possess no symmetry.
翻訳日:2023-10-17 12:59:56 公開日:2023-10-16
# ML4EDAのイメージネットに向けて

Towards the Imagenets of ML4EDA ( http://arxiv.org/abs/2310.10560v1 )

ライセンス: Link先を確認
Animesh Basak Chowdhury, Shailja Thakur, Hammond Pearce, Ramesh Karri, Siddharth Garg(参考訳) RTLからGDSIIへのML誘導EDAツールへの関心が高まっているが、EDA問題領域で定義された標準データセットやプロトタイプ学習タスクは存在しない。 コンピュータビジョンコミュニティの経験から、このようなデータセットは eda の ml をさらに発展させるのに不可欠であると示唆されている。 本稿では,verilogコード生成と論理合成のための2つの大規模かつ高品質なデータセットをキュレーションした経験について述べる。 最初のVeriGenは、GitHubとVerilogの教科書から収集されたVerilogコードのデータセットである。 2番目のOpenABC-Dは、MLのロジック合成タスクを支援するために設計された大規模ラベル付きデータセットである。 データセットは870,000のAnd-Inverter-Graphs(AIG)で構成され、1500の合成から生成される。 本稿では,これらのデータセットのサイズと規模を計算,維持,拡大する上での課題について論じる。 また、データセットの品質とセキュリティ、およびハードウェアドメイン用にカスタマイズされた新しいデータ拡張ツールの使用に関する質問にも触れます。

Despite the growing interest in ML-guided EDA tools from RTL to GDSII, there are no standard datasets or prototypical learning tasks defined for the EDA problem domain. Experience from the computer vision community suggests that such datasets are crucial to spur further progress in ML for EDA. Here we describe our experience curating two large-scale, high-quality datasets for Verilog code generation and logic synthesis. The first, VeriGen, is a dataset of Verilog code collected from GitHub and Verilog textbooks. The second, OpenABC-D, is a large-scale, labeled dataset designed to aid ML for logic synthesis tasks. The dataset consists of 870,000 And-Inverter-Graphs (AIGs) produced from 1500 synthesis runs on a large number of open-source hardware projects. In this paper we will discuss challenges in curating, maintaining and growing the size and scale of these datasets. We will also touch upon questions of dataset quality and security, and the use of novel data augmentation tools that are tailored for the hardware domain.
翻訳日:2023-10-17 12:59:42 公開日:2023-10-16
# 縦断データにおける反実回帰のための因果的動的変分オートエンコーダ

Causal Dynamic Variational Autoencoder for Counterfactual Regression in Longitudinal Data ( http://arxiv.org/abs/2310.10559v1 )

ライセンス: Link先を確認
Mouad El Bouchattaoui, Myriam Tami, Benoit Lepetit, Paul-Henry Courn\`ede(参考訳) 治療効果の経時的推定は、精密医療、疫学、経済、マーケティングなど、多くの現実世界の応用に関係している。 多くの最先端の手法は、すべての共同創設者の観察を仮定するか、観測されていないものを推測しようとする。 我々は、観察できないリスク要因、すなわち結果のシーケンスのみに影響を与える変数を仮定することで、異なる視点を取る。 根拠のない状況下では, リスク要因の欠如による治療反応の不均一性を考慮した個別治療効果(ite)推定を目標とした。 時間変化効果と未観測調整変数による課題に対処する。 学習した適応変数の妥当性と治療効果の一般化限界に関する理論的結果から,カウサルDVAE(CDVAE)を考案した。 このモデルは、動的変分オートエンコーダ(DVAE)フレームワークと、正則性スコアを用いた重み付け戦略を組み合わせて、反実応答を推定する。 cdvaeモデルは、iteの正確な推定を可能にし、縦断データの基盤となる不均一性をキャプチャする。 本モデルの評価は最先端モデルよりも優れた性能を示す。

Estimating treatment effects over time is relevant in many real-world applications, such as precision medicine, epidemiology, economy, and marketing. Many state-of-the-art methods either assume the observations of all confounders or seek to infer the unobserved ones. We take a different perspective by assuming unobserved risk factors, i.e., adjustment variables that affect only the sequence of outcomes. Under unconfoundedness, we target the Individual Treatment Effect (ITE) estimation with unobserved heterogeneity in the treatment response due to missing risk factors. We address the challenges posed by time-varying effects and unobserved adjustment variables. Led by theoretical results over the validity of the learned adjustment variables and generalization bounds over the treatment effect, we devise Causal DVAE (CDVAE). This model combines a Dynamic Variational Autoencoder (DVAE) framework with a weighting strategy using propensity scores to estimate counterfactual responses. The CDVAE model allows for accurate estimation of ITE and captures the underlying heterogeneity in longitudinal data. Evaluations of our model show superior performance over state-of-the-art models.
翻訳日:2023-10-17 12:59:27 公開日:2023-10-16
# 深層ネットワークを用いた予測に基づく非パラメトリックオフポリティ評価のサンプル複雑性

Sample Complexity of Preference-Based Nonparametric Off-Policy Evaluation with Deep Networks ( http://arxiv.org/abs/2310.10556v1 )

ライセンス: Link先を確認
Zihao Li, Xiang Ji, Minshuo Chen, Mengdi Wang(参考訳) 最近普及している強化学習のアプローチは、人間の好みのデータによるものだ。 実際、人間の嗜好データは、人間の嗜好データから学習した報酬と、オフ・ポリティィ・アセスメント(OPE)と呼ばれる分布シフトによる中間ポリシーを評価するアクター・クリティカルな手法のような古典的な強化学習アルゴリズムで使用されている。 このようなアルゴリズムには (i)人間選好データセットからの学習報酬機能、 (二)目標政策の累積報酬を期待すること。 経験的成功にもかかわらず、嗜好データを持つ既存のOPE法は理論的な理解に欠け、ヒューリスティックスに大きく依存することが多い。 本稿では,人選好によるOPEのサンプル効率について検討し,その統計的保証を確立する。 具体的には,ディープニューラルネットワークを用いた適合q評価により,値関数を学習することでopeにアプローチする。 ReLUネットワークのサイズを適切に選択することにより,マルコフ決定過程において任意の低次元多様体構造を活用でき,高データ環境次元の呪いに悩まされることなく,サンプル効率のよい推定器が得られることを示す。 高報酬の滑らかさを前提に、この結果が従来のope結果とほぼ一致し、観測可能な報酬データとなる。 我々の知る限りでは、これはRLHFによる政治外評価の‘textit{provably efficient’保証を確立する最初の結果である。

A recently popular approach to solving reinforcement learning is with data from human preferences. In fact, human preference data are now used with classic reinforcement learning algorithms such as actor-critic methods, which involve evaluating an intermediate policy over a reward learned from human preference data with distribution shift, known as off-policy evaluation (OPE). Such algorithm includes (i) learning reward function from human preference dataset, and (ii) learning expected cumulative reward of a target policy. Despite the huge empirical success, existing OPE methods with preference data often lack theoretical understanding and rely heavily on heuristics. In this paper, we study the sample efficiency of OPE with human preference and establish a statistical guarantee for it. Specifically, we approach OPE by learning the value function by fitted-Q-evaluation with a deep neural network. By appropriately selecting the size of a ReLU network, we show that one can leverage any low-dimensional manifold structure in the Markov decision process and obtain a sample-efficient estimator without suffering from the curse of high data ambient dimensionality. Under the assumption of high reward smoothness, our results \textit{almost align with the classical OPE results with observable reward data}. To the best of our knowledge, this is the first result that establishes a \textit{provably efficient} guarantee for off-policy evaluation with RLHF.
翻訳日:2023-10-17 12:59:10 公開日:2023-10-16
# tacticai: サッカー戦術のためのaiアシスタント

TacticAI: an AI assistant for football tactics ( http://arxiv.org/abs/2310.10553v1 )

ライセンス: Link先を確認
Zhe Wang, Petar Veli\v{c}kovi\'c, Daniel Hennes, Nenad Toma\v{s}ev, Laurel Prince, Michael Kaisers, Yoram Bachrach, Romuald Elie, Li Kevin Wenliang, Federico Piccinini, William Spearman, Ian Graham, Jerome Connor, Yi Yang, Adri\`a Recasens, Mina Khan, Nathalie Beauguerlange, Pablo Sprechmann, Pol Moreno, Nicolas Heess, Michael Bowling, Demis Hassabis, Karl Tuyls(参考訳) ライバルチームが実施した戦術の重要なパターンを特定し、効果的な反応を開発することは、現代のサッカーの核心にある。 しかし、アルゴリズムは依然としてオープンな研究課題である。 この課題に対処するために,リバプールFCのドメインエキスパートと緊密に連携して開発されたAIフットボール戦術アシスタントTacticAIを提案する。 コーチに最も直接的な介入と改善の機会を提供するため、コーナーキックの分析に集中しています。 TacticAIには予測コンポーネントと生成コンポーネントの両方が組み込まれており、コーチは各コーナーキックルーチンの代替プレイヤー設定を効果的にサンプリングし、探索し、最も高い確率で成功する確率で選択することができる。 我々はTacticAIを,レシーバの予測やショット試行,プレイヤー位置調整の推奨など,関連する多くのベンチマークタスクで検証する。 TacticAIの実用性は、リバプールFCのサッカー分野の専門家による質的研究によって検証されている。 我々は,TacticAIのモデル提案が実際の戦術と区別できないだけでなく,既存の戦術よりも90%の時間で有利であり,TacticAIが効果的なコーナーキック検索システムを提供していることを示す。 TacticAIは、金標準データの入手が限られているにもかかわらず、これらの結果を達成する。

Identifying key patterns of tactics implemented by rival teams, and developing effective responses, lies at the heart of modern football. However, doing so algorithmically remains an open research challenge. To address this unmet need, we propose TacticAI, an AI football tactics assistant developed and evaluated in close collaboration with domain experts from Liverpool FC. We focus on analysing corner kicks, as they offer coaches the most direct opportunities for interventions and improvements. TacticAI incorporates both a predictive and a generative component, allowing the coaches to effectively sample and explore alternative player setups for each corner kick routine and to select those with the highest predicted likelihood of success. We validate TacticAI on a number of relevant benchmark tasks: predicting receivers and shot attempts and recommending player position adjustments. The utility of TacticAI is validated by a qualitative study conducted with football domain experts at Liverpool FC. We show that TacticAI's model suggestions are not only indistinguishable from real tactics, but also favoured over existing tactics 90% of the time, and that TacticAI offers an effective corner kick retrieval system. TacticAI achieves these results despite the limited availability of gold-standard data, achieving data efficiency through geometric deep learning.
翻訳日:2023-10-17 12:58:46 公開日:2023-10-16
# 空間的注意を用いた異なるモンタージュを持つ脳波データに対する深層学習

Deep learning applied to EEG data with different montages using spatial attention ( http://arxiv.org/abs/2310.10550v1 )

ライセンス: Link先を確認
Dung Truong, Muhammad Abdullah Khalid, Arnaud Delorme(参考訳) 脳波データから複雑な脳の力学の関連情報を処理し抽出する深層学習の能力は、近年様々な研究で実証されている。 しかし、ディープラーニングモデルは大規模なコーパスで最高のパフォーマンスを発揮することが示されている。 EEGを処理するとき、自然なアプローチは、異なる実験のEEGデータセットを組み合わせて大規模なディープラーニングモデルをトレーニングすることだ。 しかし、ほとんどのEEG実験はカスタムチャネルモンタージュを使用し、データを共通の空間に変換する必要がある。 従来の方法では、生のEEG信号を使用して興味のある特徴を抽出し、EEGデータセット間の共通の特徴空間の使用に重点を置いてきた。 これは賢明なアプローチだが、脳波生データの潜在的豊かさを過小評価している。 本研究では,脳波電極座標に適用した空間的注意力を用いて,生脳波データのチャネル調和を行い,異なるモンタージュを用いて脳波データのディープラーニングを訓練する。 このモデルを性別分類タスクでテストします。 まず,空間的注意がモデル性能を増加させることを示す。 さらに,異なるチャネルモンタージュを用いたデータに基づいてトレーニングされたディープラーニングモデルは,固定23チャネルと128チャネルのデータモンタージュでトレーニングされたディープラーニングモデルよりもはるかに優れた性能を示す。

The ability of Deep Learning to process and extract relevant information in complex brain dynamics from raw EEG data has been demonstrated in various recent works. Deep learning models, however, have also been shown to perform best on large corpora of data. When processing EEG, a natural approach is to combine EEG datasets from different experiments to train large deep-learning models. However, most EEG experiments use custom channel montages, requiring the data to be transformed into a common space. Previous methods have used the raw EEG signal to extract features of interest and focused on using a common feature space across EEG datasets. While this is a sensible approach, it underexploits the potential richness of EEG raw data. Here, we explore using spatial attention applied to EEG electrode coordinates to perform channel harmonization of raw EEG data, allowing us to train deep learning on EEG data using different montages. We test this model on a gender classification task. We first show that spatial attention increases model performance. Then, we show that a deep learning model trained on data using different channel montages performs significantly better than deep learning models trained on fixed 23- and 128-channel data montages.
翻訳日:2023-10-17 12:58:24 公開日:2023-10-16
# InfoGCN++:オンライン人骨格に基づく行動認識の未来予測による学習表現

InfoGCN++: Learning Representation by Predicting the Future for Online Human Skeleton-based Action Recognition ( http://arxiv.org/abs/2310.10547v1 )

ライセンス: Link先を確認
Seunggeun Chi, Hyung-gun Chi, Qixing Huang, Karthik Ramani(参考訳) スケルトンをベースとしたアクション認識は、InfoGCNのようなモデルで驚くほどの精度を示している。 これらのモデルは、分類の前に完全な行動観察を必要とするため、監視やロボットシステムのようなリアルタイムの状況における適用性が制限される。 この障壁を克服するために、オンラインスケルトンに基づく行動認識のために明示的に開発されたInfoGCN++の革新的な拡張であるInfoGCN++を紹介した。 InfoGCN++は、観測シーケンスの長さに依存しないリアルタイムなアクションタイプの分類を可能にすることで、元のInfoGCNモデルの能力を強化する。 これは、現在および期待されている将来の動きから学習することで従来のアプローチを超越し、シーケンス全体のより完全な表現を作り出す。 予測に対する我々のアプローチは、観察された行動に基づく外挿問題として管理される。 これを可能にするためにInfoGCN++は、隠れた状態の継続的進化を効果的にモデル化する概念であるNeural Ordinary Differential Equationsを取り入れている。 3つのスケルトンベースのアクション認識ベンチマークの厳密な評価に続いて、InfoGCN++はオンラインアクション認識において例外的なパフォーマンスを示す。 既存の技術と一貫して等しく、あるいは超えており、リアルタイムのアクション認識アプリケーションの展望を再構築する重要な可能性を浮き彫りにしている。 その結果、この作業はInfoGCNから大きく前進し、オンラインのスケルトンベースのアクション認識における可能性の限界を押し上げている。 InfoGCN++のコードはhttps://github.com/stnoah1/infogcn2で公開されている。

Skeleton-based action recognition has made significant advancements recently, with models like InfoGCN showcasing remarkable accuracy. However, these models exhibit a key limitation: they necessitate complete action observation prior to classification, which constrains their applicability in real-time situations such as surveillance and robotic systems. To overcome this barrier, we introduce InfoGCN++, an innovative extension of InfoGCN, explicitly developed for online skeleton-based action recognition. InfoGCN++ augments the abilities of the original InfoGCN model by allowing real-time categorization of action types, independent of the observation sequence's length. It transcends conventional approaches by learning from current and anticipated future movements, thereby creating a more thorough representation of the entire sequence. Our approach to prediction is managed as an extrapolation issue, grounded on observed actions. To enable this, InfoGCN++ incorporates Neural Ordinary Differential Equations, a concept that lets it effectively model the continuous evolution of hidden states. Following rigorous evaluations on three skeleton-based action recognition benchmarks, InfoGCN++ demonstrates exceptional performance in online action recognition. It consistently equals or exceeds existing techniques, highlighting its significant potential to reshape the landscape of real-time action recognition applications. Consequently, this work represents a major leap forward from InfoGCN, pushing the limits of what's possible in online, skeleton-based action recognition. The code for InfoGCN++ is publicly available at https://github.com/stnoah1/infogcn2 for further exploration and validation.
翻訳日:2023-10-17 12:58:04 公開日:2023-10-16
# deflation varimaxを用いた最適ビンテージ因子分析

Optimal vintage factor analysis with deflation varimax ( http://arxiv.org/abs/2310.10545v1 )

ライセンス: Link先を確認
Xin Bing, Dian Jin and Yuqian Zhang(参考訳) 視覚因子分析は、まず原データの低次元表現を見つけ、次に回転した低次元表現が科学的に意味のある回転を求めることを目的とした重要な因子分析の1つである。 おそらく最も広く使われているヴィンテージ因子分析は、主成分分析(PCA)であり、次にバリマックス回転が続く。 その人気にもかかわらず、主にヴァリマックス回転は直交行列の集合上の非凸最適化を解く必要があるため、理論上の保証はほとんど得られない。 本稿では,直交行列の各行を逐次的に解くデフレ化バリマックス手順を提案する。 計算能力の純向上と柔軟性に加えて,提案手法に対する理論的保証を広い文脈で完全に確立することができる。 PCA の後の第2段階としてこの新しい varimax アプローチを採用することで,この2段階の手順を因子モデルの一般クラスで解析する。 その結果,信号対雑音比 (SNR) が中等度あるいは大きい場合, 最適速度で因子負荷行列を推定できることが示唆された。 低SNR方式では,因子モデルに基づく付加雑音が構成された場合,PCAとデフレ処理による改善が可能となる。 修正された手順は、すべてのSNRレギュレーションで最適であることが示されている。 本理論は, 有限標本について有効であり, 潜在因子の数を試料サイズとともに増加させるとともに, 試料サイズを増加または超過させる。 大規模なシミュレーションと実データ分析は、我々の理論的な結果をさらに裏付ける。

Vintage factor analysis is one important type of factor analysis that aims to first find a low-dimensional representation of the original data, and then to seek a rotation such that the rotated low-dimensional representation is scientifically meaningful. Perhaps the most widely used vintage factor analysis is the Principal Component Analysis (PCA) followed by the varimax rotation. Despite its popularity, little theoretical guarantee can be provided mainly because varimax rotation requires to solve a non-convex optimization over the set of orthogonal matrices. In this paper, we propose a deflation varimax procedure that solves each row of an orthogonal matrix sequentially. In addition to its net computational gain and flexibility, we are able to fully establish theoretical guarantees for the proposed procedure in a broad context. Adopting this new varimax approach as the second step after PCA, we further analyze this two step procedure under a general class of factor models. Our results show that it estimates the factor loading matrix in the optimal rate when the signal-to-noise-ratio (SNR) is moderate or large. In the low SNR regime, we offer possible improvement over using PCA and the deflation procedure when the additive noise under the factor model is structured. The modified procedure is shown to be optimal in all SNR regimes. Our theory is valid for finite sample and allows the number of the latent factors to grow with the sample size as well as the ambient dimension to grow with, or even exceed, the sample size. Extensive simulation and real data analysis further corroborate our theoretical findings.
翻訳日:2023-10-17 12:57:39 公開日:2023-10-16
# テキスト説明による視覚基礎モデルの解釈と制御

Interpreting and Controlling Vision Foundation Models via Text Explanations ( http://arxiv.org/abs/2310.10591v1 )

ライセンス: Link先を確認
Haozhe Chen, Junfeng Yang, Carl Vondrick, Chengzhi Mao(参考訳) CLIPのような大規模な事前訓練された視覚基盤モデルは、様々な視覚タスクの事実上のバックボーンになっている。 しかしながら、ブラックボックスの性質から、これらのモデルの予測とモデル行動制御の背後にあるルールを理解することは、未解決の課題のままである。 本稿では,視覚トランスフォーマーの潜在トークンを自然言語で解釈する枠組みを提案する。 潜在トークンが与えられた場合、このフレームワークはtransformerのローカル操作を使用して最終レイヤにセマンティック情報を保持し、説明のために最も近いテキストを取得する。 我々のアプローチは、追加のモデルトレーニングやデータ収集を必要とせずに、モデルビジュアル推論手順の理解を可能にする。 得られた解釈に基づいて,本フレームワークはモデル推論行動を制御するモデル編集を可能にし,バイアスに対するモデルロバスト性を向上する。

Large-scale pre-trained vision foundation models, such as CLIP, have become de facto backbones for various vision tasks. However, due to their black-box nature, understanding the underlying rules behind these models' predictions and controlling model behaviors have remained open challenges. We present a framework for interpreting vision transformer's latent tokens with natural language. Given a latent token, our framework retains its semantic information to the final layer using transformer's local operations and retrieves the closest text for explanation. Our approach enables understanding of model visual reasoning procedure without needing additional model training or data collection. Based on the obtained interpretations, our framework allows for model editing that controls model reasoning behaviors and improves model robustness against biases and spurious correlations.
翻訳日:2023-10-17 12:51:41 公開日:2023-10-16
# 大規模言語モデルと一貫性推論環境を用いたオープン情報抽出課題の習得

Mastering the Task of Open Information Extraction with Large Language Models and Consistent Reasoning Environment ( http://arxiv.org/abs/2310.10590v1 )

ライセンス: Link先を確認
Ji Qi, Kaixuan Ji, Xiaozhi Wang, Jifan Yu, Kaisheng Zeng, Lei Hou, Juanzi Li, Bin Xu(参考訳) オープンインフォメーション抽出(OIE)は、自然テキストから客観的に構造化された知識を抽出することを目的としている。 大規模言語モデル (LLMs) が目覚ましい文脈内学習能力を示したため、OIEの課題がこのパラダイムに効果的に取り組むことができるのかという疑問が持ち上がった。 本稿では,LLMの適切な推論環境を構築することで,OIE問題の解法を検討する。 具体的には,まず,正の実証を行うための相関証拠として機能する,llmと試験試料間の構文分布の不一致を効果的に推定する手法を提案する。 そこで本研究では,LLMの推論環境を具体的かつ効果的に構築するためのメカニズムを提案する。 ベルとホイッスルがなければ、標準的なCARBベンチマークの実験結果から、我々の6ドルショットのアプローチは最先端の教師あり手法よりも優れており、45.3ドルのF_1ドルのスコアを達成している。 TACREDとACE05のさらなる実験により、我々の方法は自然に他の情報抽出タスクに一般化できることが示され、その結果、それぞれ5.7$と6.8$のF_1$スコアが改善された。

Open Information Extraction (OIE) aims to extract objective structured knowledge from natural texts, which has attracted growing attention to build dedicated models with human experience. As the large language models (LLMs) have exhibited remarkable in-context learning capabilities, a question arises as to whether the task of OIE can be effectively tackled with this paradigm? In this paper, we explore solving the OIE problem by constructing an appropriate reasoning environment for LLMs. Specifically, we first propose a method to effectively estimate the discrepancy of syntactic distribution between a LLM and test samples, which can serve as correlation evidence for preparing positive demonstrations. Upon the evidence, we introduce a simple yet effective mechanism to establish the reasoning environment for LLMs on specific tasks. Without bells and whistles, experimental results on the standard CaRB benchmark demonstrate that our $6$-shot approach outperforms state-of-the-art supervised method, achieving an $55.3$ $F_1$ score. Further experiments on TACRED and ACE05 show that our method can naturally generalize to other information extraction tasks, resulting in improvements of $5.7$ and $6.8$ $F_1$ scores, respectively.
翻訳日:2023-10-17 12:51:28 公開日:2023-10-16
# BiLL-VTG:ビデオベースのテキスト生成のための大規模言語モデルと軽量ビジュアルツール

BiLL-VTG: Bridging Large Language Models and Lightweight Visual Tools for Video-based Texts Generation ( http://arxiv.org/abs/2310.10586v1 )

ライセンス: Link先を確認
Ji Qi, Kaixuan Ji, Jifan Yu, Duokang Wang, Bin Xu, Lei Hou, Juanzi Li(参考訳) ビデオのユーザ指示にテキスト応答を生成するモデルの構築は、視覚理解と知識推論の両方を必要とするため、実用的で挑戦的なトピックである。 言語や画像のモダリティと比較しても、既存の研究では、簡潔な記述に沿った巨大なスパースビデオのモデルを訓練しているため、トレーニング効率は深刻な問題である。 本稿では,大規模言語モデル(llm)を活用して,本質的軽量ビジュアルツールに基づくビデオの推論を行う高速適応フレームワークであるbill-vtgを紹介する。 具体的には、関連する映像イベントに集中して対応するための鍵を明らかにし、構造化されたシーングラフ生成と記述的な画像キャプション生成の2つの視覚ツールを使用してイベント情報を収集し、表現する。 そこで,世界知識を備えたLLMを推論エージェントとして採用し,特定のビデオイベントに対して複数の推論ステップを施すことにより応答を達成し,エージェントからイベントを特定することの難しさに対処するため,ハンガリー語対応の効率的なマッチングに基づく命令指向ビデオイベント認識(InsOVER)アルゴリズムを提案する。 2つの典型的なビデオベースのテキスト生成タスクに対する大規模な実験により、我々のチューニングフリーフレームワークは、Flamingo-80Bを含む事前訓練されたモデルよりも優れた性能を示し、最先端のパフォーマンスを実現している。

Building models that generate textual responses to user instructions for videos is a practical and challenging topic, as it requires both vision understanding and knowledge reasoning. Compared to language and image modalities, training efficiency remains a serious problem as existing studies train models on massive sparse videos aligned with brief descriptions. In this paper, we introduce BiLL-VTG, a fast adaptive framework that leverages large language models (LLMs) to reasoning on videos based on essential lightweight visual tools. Specifically, we reveal the key to response specific instructions is the concentration on relevant video events, and utilize two visual tools of structured scene graph generation and descriptive image caption generation to gather and represent the events information. Thus, a LLM equipped with world knowledge is adopted as the reasoning agent to achieve the response by performing multiple reasoning steps on specified video events.To address the difficulty of specifying events from agent, we further propose an Instruction-oriented Video Events Recognition (InsOVER) algorithm based on the efficient Hungarian matching to localize corresponding video events using linguistic instructions, enabling LLMs to interact with long videos. Extensive experiments on two typical video-based texts generations tasks show that our tuning-free framework outperforms the pre-trained models including Flamingo-80B, to achieve the state-of-the-art performance.
翻訳日:2023-10-17 12:51:02 公開日:2023-10-16
# v1様フロントエンドを用いたcnnのロバスト性向上には、v1のニューロン表現のマッチングが必要である

Matching the Neuronal Representations of V1 is Necessary to Improve Robustness in CNNs with V1-like Front-ends ( http://arxiv.org/abs/2310.10575v1 )

ライセンス: Link先を確認
Ruxandra Barbulescu, Tiago Marques, Arlindo L. Oliveira(参考訳) 一部の畳み込みニューラルネットワーク(cnns)は、オブジェクト認識で大きな成功を収めているが、異なるタイプの共通のノイズパターンで腐敗した画像内のオブジェクトを特定するのに苦労している。 近年,CNNの前面の早期視覚領域における計算のシミュレーションにより,画像劣化に対する堅牢性の向上が示されている。 ここでは、この結果をさらに探求し、霊長類V1に見られるRF特性の分布と正確に一致することから生じる神経表現がこの堅牢性の向上の鍵であることを示す。 プライマート一次視覚野をモデル化したフロントエンドモデル(V1)を2種類構築した。1つはRF特性を均一にサンプリングし、もう1つは経験的生物学的分布からサンプリングした。 生物学的サンプリングを伴うモデルは、均一な変異(相対的な差異は8.72%)が画像の腐敗に対してかなり高いロバスト性を有する。 2つの変種にまたがる類似の神経細胞サブ集団は、同様の応答特性を持ち、下流の重みを学習するが、下流処理への影響は著しく異なる。 この結果は、いくつかの生物学的にインスパイアされたモデルで観察された堅牢性の改善の原点に光を当て、霊長類脳にある神経表現を正確に模倣する必要性を示している。

While some convolutional neural networks (CNNs) have achieved great success in object recognition, they struggle to identify objects in images corrupted with different types of common noise patterns. Recently, it was shown that simulating computations in early visual areas at the front of CNNs leads to improvements in robustness to image corruptions. Here, we further explore this result and show that the neuronal representations that emerge from precisely matching the distribution of RF properties found in primate V1 is key for this improvement in robustness. We built two variants of a model with a front-end modeling the primate primary visual cortex (V1): one sampling RF properties uniformly and the other sampling from empirical biological distributions. The model with the biological sampling has a considerably higher robustness to image corruptions that the uniform variant (relative difference of 8.72%). While similar neuronal sub-populations across the two variants have similar response properties and learn similar downstream weights, the impact on downstream processing is strikingly different. This result sheds light on the origin of the improvements in robustness observed in some biologically-inspired models, pointing to the need of precisely mimicking the neuronal representations found in the primate brain.
翻訳日:2023-10-17 12:50:34 公開日:2023-10-16
# コンテンツモデレーションとオンラインコミュニティの形成:理論的枠組み

Content Moderation and the Formation of Online Communities: A Theoretical Framework ( http://arxiv.org/abs/2310.10573v1 )

ライセンス: Link先を確認
Cynthia Dwork, Chris Hays, Jon Kleinberg, Manish Raghavan(参考訳) オンラインコミュニティにおけるコンテンツモデレーションポリシーの影響について検討する。 我々の理論モデルでは、プラットフォームはコンテンツモデレーションポリシーを選択し、個人は好みに合ったユーザーのコンテンツの割合に応じてコミュニティに参加するかどうかを選択する。 コンテンツモデレーションの効果は、最初は明らかで、プラットフォーム上でのスピーチを制限する。 しかし、ユーザー参加の決定が考慮されると、その効果はより微妙な$\unicode{x2013}$と反直感的になる。 例えば、当社のモデルでは、モデレーションポリシーがプラットフォーム上で利用可能なコンテンツへの参加や多様化をいかに促進するかを簡単に示せる。 本分析では,オンラインコミュニティにおけるコンテンツモデレーションに関連する相互接続現象の豊富な集合を探索する。 まず,安定なコミュニティを創り,維持するためのモデレーション政策の自然クラスの有効性を特徴付ける。 これに基づいて,資源制限やイデオロギー的プラットフォームが政策をどう設定するか,コミュニティがパーソナライズレベルの違いやプラットフォーム間の競合によってどのように影響を受けるかを検討する。 私たちのモデルは、コンテンツモデレーションに関するプラットフォーム決定を分析するための語彙と数学的に扱いやすいフレームワークを提供します。

We study the impact of content moderation policies in online communities. In our theoretical model, a platform chooses a content moderation policy and individuals choose whether or not to participate in the community according to the fraction of user content that aligns with their preferences. The effects of content moderation, at first blush, might seem obvious: it restricts speech on a platform. However, when user participation decisions are taken into account, its effects can be more subtle $\unicode{x2013}$ and counter-intuitive. For example, our model can straightforwardly demonstrate how moderation policies may increase participation and diversify content available on the platform. In our analysis, we explore a rich set of interconnected phenomena related to content moderation in online communities. We first characterize the effectiveness of a natural class of moderation policies for creating and sustaining stable communities. Building on this, we explore how resource-limited or ideological platforms might set policies, how communities are affected by differing levels of personalization, and competition between platforms. Our model provides a vocabulary and mathematically tractable framework for analyzing platform decisions about content moderation.
翻訳日:2023-10-17 12:50:09 公開日:2023-10-16
# パーソナライズドメディカル・メディカルにおける新たな課題 : バイオメディカル質問応答システムにおけるデモグラフィック効果の評価

Emerging Challenges in Personalized Medicine: Assessing Demographic Effects on Biomedical Question Answering Systems ( http://arxiv.org/abs/2310.10571v1 )

ライセンス: Link先を確認
Sagi Shaier, Kevin Bennett, Lawrence Hunter, Katharina von der Wense(参考訳) 最先端の質問応答(QA)モデルは様々な社会的バイアス(セックスや人種など)を示し、トレーニングデータに類似した問題によって一般的に説明される。 しかし、これまで見過ごされてきたのは、バイオメディシンのクリティカルな領域において、患者層によるモデルアウトプットの不正な変化は問題であり、患者の不公平な治療につながる。 回答が民族、性別、性的指向に依存しないバイオメディカルトピックについてのみを選定し、以下の研究課題を問う。 (RQ1) 人口統計情報に関連性がない場合、QAモデルの回答は変化するか? (RQ2) RQ1の答えは知識グラフ(KG)とテキストベースのQAシステムによって異なるのか? 関連しない人口統計情報では,kg接地システムの回答の最大15%,テキストベースシステムの回答の最大23%に変化し,精度に影響を与える変化を含むことがわかった。 患者集団による不当な回答の変化は, 公平な懸念を生じさせる現象であり, 注意を払わなければならないと結論付けた。

State-of-the-art question answering (QA) models exhibit a variety of social biases (e.g., with respect to sex or race), generally explained by similar issues in their training data. However, what has been overlooked so far is that in the critical domain of biomedicine, any unjustified change in model output due to patient demographics is problematic: it results in the unfair treatment of patients. Selecting only questions on biomedical topics whose answers do not depend on ethnicity, sex, or sexual orientation, we ask the following research questions: (RQ1) Do the answers of QA models change when being provided with irrelevant demographic information? (RQ2) Does the answer of RQ1 differ between knowledge graph (KG)-grounded and text-based QA systems? We find that irrelevant demographic information change up to 15% of the answers of a KG-grounded system and up to 23% of the answers of a text-based system, including changes that affect accuracy. We conclude that unjustified answer changes caused by patient demographics are a frequent phenomenon, which raises fairness concerns and should be paid more attention to.
翻訳日:2023-10-17 12:49:51 公開日:2023-10-16
# 大規模言語モデルを用いた要約における位置バイアスについて

On Position Bias in Summarization with Large Language Models ( http://arxiv.org/abs/2310.10570v1 )

ライセンス: Link先を確認
Mathieu Ravaut, Shafiq Joty, Aixin Sun, Nancy F. Chen(参考訳) 大型言語モデル (LLM) はゼロショット抽象的な要約タスクに優れ、流動的で関連する要約を提供する。 最近の進歩は、32k以上のトークン制限を越え、長い入力コンテキストを処理する機能を拡張した。 しかし、多文書質問応答の領域では、言語モデルは入力コンテキストの不均一な利用を示す。 彼らは、最初のセグメントと最後のセグメントを好む傾向があり、結果として、答えが入力内にある場所に関するU字型のパフォーマンスパターンをもたらす。 このバイアスは、特に重要なコンテンツがソースドキュメント全体に分散する可能性がある要約タスクにおいて、懸念を引き起こす。 本稿では,10個のデータセット,4個のLLM,および5つの評価指標を包括的に調査し,これらのモデルが入力を抽象的な要約にどのように活用するかを分析する。 以上の結果から,初歩的なコンテンツに対する偏りが顕著であり(かつ,最終内容も少ない),様々な要約ベンチマークにおいてllmのパフォーマンスが課題となっていることが明らかとなった。

Large language models (LLMs) excel in zero-shot abstractive summarization tasks, delivering fluent and pertinent summaries. Recent advancements have extended their capabilities to handle long-input contexts, surpassing token limits of 32k or more. However, in the realm of multi-document question answering, language models exhibit uneven utilization of their input context. They tend to favor the initial and final segments, resulting in a U-shaped performance pattern concerning where the answer is located within the input. This bias raises concerns, particularly in summarization tasks where crucial content may be dispersed throughout the source document(s). This paper presents a comprehensive investigation encompassing 10 datasets, 4 LLMs, and 5 evaluation metrics to analyze how these models leverage their input for abstractive summarization. Our findings reveal a pronounced bias towards the introductory content (and to a lesser extent, the final content), posing challenges for LLM performance across a range of diverse summarization benchmarks.
翻訳日:2023-10-17 12:49:29 公開日:2023-10-16
# RegaVAE:言語モデリングのための検索型ガウス混合変分自動エンコーダ

RegaVAE: A Retrieval-Augmented Gaussian Mixture Variational Auto-Encoder for Language Modeling ( http://arxiv.org/abs/2310.10567v1 )

ライセンス: Link先を確認
Jingcheng Deng, Liang Pang, Huawei Shen, Xueqi Cheng(参考訳) 検索可能な言語モデルは、古い情報や言語モデル(LM)の幻覚といった問題に対処する上で有望である。 しかし、現在の研究は2つの問題に直面している。 1)取得すべき情報を決定すること、及び 2) 生成中の検索情報を効果的に組み合わせること。 将来的なトークンをモデル化するLMの性質を考えると,有効な検索情報は現在のソーステキストだけでなく,将来のターゲットテキストも考慮すべきである。 さらに,コンパクトな潜在空間から派生した潜在変数を用いたアグリゲーションは,文脈長によって制限され雑音に影響を受けやすい明示的な原文の活用よりも効率的である。 そこで本稿では,可変オートエンコーダ(VAE)に基づく検索拡張言語モデルRegaVAEを紹介する。 テキストコーパスを潜在空間にエンコードし、ソーステキストとターゲットテキストの両方から現在および将来の情報をキャプチャする。 さらに,vaeを用いて潜在空間を初期化し,ガウス前分布をガウス混合分布に拡張することにより,検索生成パラダイムの確率的形式を採用する。 理論的解析はRegaVAEの最適化可能な上限を与える。 各種データセットに対する実験結果から,テキスト生成品質と幻覚除去の大幅な改善が示された。

Retrieval-augmented language models show promise in addressing issues like outdated information and hallucinations in language models (LMs). However, current research faces two main problems: 1) determining what information to retrieve, and 2) effectively combining retrieved information during generation. We argue that valuable retrieved information should not only be related to the current source text but also consider the future target text, given the nature of LMs that model future tokens. Moreover, we propose that aggregation using latent variables derived from a compact latent space is more efficient than utilizing explicit raw text, which is limited by context length and susceptible to noise. Therefore, we introduce RegaVAE, a retrieval-augmented language model built upon the variational auto-encoder (VAE). It encodes the text corpus into a latent space, capturing current and future information from both source and target text. Additionally, we leverage the VAE to initialize the latent space and adopt the probabilistic form of the retrieval generation paradigm by expanding the Gaussian prior distribution into a Gaussian mixture distribution. Theoretical analysis provides an optimizable upper bound for RegaVAE. Experimental results on various datasets demonstrate significant improvements in text generation quality and hallucination removal.
翻訳日:2023-10-17 12:49:13 公開日:2023-10-16
# helmsim: 解釈可能な流体シミュレーションのための学習ヘルムホルツダイナミクス

HelmSim: Learning Helmholtz Dynamics for Interpretable Fluid Simulation ( http://arxiv.org/abs/2310.10565v1 )

ライセンス: Link先を確認
Lanxiang Xing, Haixu Wu, Yuezhou Ma, Jianmin Wang, Mingsheng Long(参考訳) 流体シミュレーションは、内在する高次元非線形動力学による長年の課題である。 従来の手法は通常、将来の予測のために直接速度場を推定するために深層モデルの非線形モデリング能力を利用する。 しかし、固有の物理的性質をスキップするが、表面の速度場を直接学習することは、モデルが正確で物理学的に信頼できる結果を生み出すのを圧倒する。 本稿では,流体の正確な解釈可能なシミュレータに向けてhelmsimを提案する。 ヘルムホルツの定理に触発されてヘルムホルツ力学を学ぶためにヘルム力学ブロックを設計し、流体のポテンシャルと流れ関数に物理的に対応して、流体力学をより解けるカールフリーと発散フリーに分解する。 helmdynamicブロックをマルチスケール統合ネットワークに組み込むことで、helmsimは学習したhelmholtzダイナミクスを複数の空間スケールの時間次元に沿って統合し、将来の流体を生み出すことができる。 ヘルムシムは従来の速度推定法と比較してヘルムホルツの定理から忠実に導かれ、物理的に解釈可能な証拠を持つ複素流体力学を解明する。 実験的に提案したHelmSimは,複雑な境界を持つシナリオであっても,数値シミュレーションおよび実世界の観測ベンチマークにおいて一貫した状態を実現する。

Fluid simulation is a long-standing challenge due to the intrinsic high-dimensional non-linear dynamics. Previous methods usually utilize the non-linear modeling capability of deep models to directly estimate velocity fields for future prediction. However, skipping over inherent physical properties but directly learning superficial velocity fields will overwhelm the model from generating precise or physics-reliable results. In this paper, we propose the HelmSim toward an accurate and interpretable simulator for fluid. Inspired by the Helmholtz theorem, we design a HelmDynamic block to learn the Helmholtz dynamics, which decomposes fluid dynamics into more solvable curl-free and divergence-free parts, physically corresponding to potential and stream functions of fluid. By embedding the HelmDynamic block into a Multiscale Integration Network, HelmSim can integrate learned Helmholtz dynamics along temporal dimension in multiple spatial scales to yield future fluid. Comparing with previous velocity estimating methods, HelmSim is faithfully derived from Helmholtz theorem and ravels out complex fluid dynamics with physically interpretable evidence. Experimentally, our proposed HelmSim achieves the consistent state-of-the-art in both numerical simulated and real-world observed benchmarks, even for scenarios with complex boundaries.
翻訳日:2023-10-17 12:48:52 公開日:2023-10-16
# 可読性制御可能なアセンブリの生成

Generating Summaries with Controllable Readability Levels ( http://arxiv.org/abs/2310.10623v1 )

ライセンス: Link先を確認
Leonardo F. R. Ribeiro, Mohit Bansal, Markus Dreyer(参考訳) 可読性(Readability)とは、読み手が文章をいかに容易に理解できるかをいう。 テキストの複雑さ、主題、読者の背景知識など、可読性レベルに影響を与える要因がいくつかある。 異なる可読性レベルに基づいて要約を生成することは、多様なオーディエンスによる知識消費を可能にするために重要である。 しかし、現在のテキスト生成アプローチでは制御が洗練されておらず、結果として読者の習熟度にカスタマイズされないテキストが作られる。 本研究では,このギャップを埋めて,特定の可読度レベルで要約を生成する手法を研究する。 特定の可読性レベル(例: lay summarization)にフォーカスした以前の方法とは異なり、可読性に対するきめ細かい制御を伴う要約を生成する。 本研究では,(1)命令ベースの可読性制御,(2)要求される可読性と観測される可読性の間のギャップを最小化するための強化学習,(3)読みやすさを推定するルックアヘッドを用いた復号手法を提案する。 本稿では,ニュース要約(CNN/DMデータセット)の可読性制御を,様々な可読性指標と人的判断によって明らかに改善し,要約における可読性に対する強い基準線を確立した。

Readability refers to how easily a reader can understand a written text. Several factors affect the readability level, such as the complexity of the text, its subject matter, and the reader's background knowledge. Generating summaries based on different readability levels is critical for enabling knowledge consumption by diverse audiences. However, current text generation approaches lack refined control, resulting in texts that are not customized to readers' proficiency levels. In this work, we bridge this gap and study techniques to generate summaries at specified readability levels. Unlike previous methods that focus on a specific readability level (e.g., lay summarization), we generate summaries with fine-grained control over their readability. We develop three text generation techniques for controlling readability: (1) instruction-based readability control, (2) reinforcement learning to minimize the gap between requested and observed readability and (3) a decoding approach that uses lookahead to estimate the readability of upcoming decoding steps. We show that our generation methods significantly improve readability control on news summarization (CNN/DM dataset), as measured by various readability metrics and human judgement, establishing strong baselines for controllable readability in summarization.
翻訳日:2023-10-17 12:40:19 公開日:2023-10-16
# トランスフォーマーはいかにしてシンプルな関数を超えてコンテキストを学ぶのか? 表現を用いた学習に関する事例研究

How Do Transformers Learn In-Context Beyond Simple Functions? A Case Study on Learning with Representations ( http://arxiv.org/abs/2310.10616v1 )

ライセンス: Link先を確認
Tianyu Guo, Wei Hu, Song Mei, Huan Wang, Caiming Xiong, Silvio Savarese, Yu Bai(参考訳) トランスフォーマーアーキテクチャに基づく大規模言語モデルは、目覚ましいコンテキスト内学習(ICL)能力を示しているが、そのような能力の理解はまだ初期段階にあり、既存の理論と機械的理解は、単純な関数クラスを学習するといった単純なシナリオに主に焦点を当てている。 本稿では,より複雑なシナリオにおいて icl を理解するための最初のステップとして,表現を用いた学習を考察する。 具体的には、合成的文脈学習問題を合成構造で構築し、ラベルは、各インスタンスで異なる線形関数からなる、おそらくは複雑だが固定表現関数を介して入力に依存する。 構築により、最適ICLアルゴリズムはまず表現関数によって入力を変換し、変換されたデータセット上で線形ICLを実行する。 このようなアルゴリズムを軽度な深さと大きさで近似的に実装する変圧器の存在を理論的に示す。 経験的に、トレーニングされたトランスフォーマーは、この設定で常にほぼ最適のICL性能を達成し、下位層がデータセットを変換し、上位層が線形ICLを実行する所望の分離を示す。 広範な探索と新しいペースト実験により,入力と表現の両方の具体的コピー動作,上層のみの線形icl能力,より強固な混合条件下でのポストicl表現選択機構など,トレーニングされたトランスフォーマー内のいくつかのメカニズムを明らかにする。 これらのメカニズムは我々の理論とよく一致しており、より現実的なシナリオにおいてトランスフォーマーがどのようにICLを実行するかに光を当てる可能性がある。

While large language models based on the transformer architecture have demonstrated remarkable in-context learning (ICL) capabilities, understandings of such capabilities are still in an early stage, where existing theory and mechanistic understanding focus mostly on simple scenarios such as learning simple function classes. This paper takes initial steps on understanding ICL in more complex scenarios, by studying learning with representations. Concretely, we construct synthetic in-context learning problems with a compositional structure, where the label depends on the input through a possibly complex but fixed representation function, composed with a linear function that differs in each instance. By construction, the optimal ICL algorithm first transforms the inputs by the representation function, and then performs linear ICL on top of the transformed dataset. We show theoretically the existence of transformers that approximately implement such algorithms with mild depth and size. Empirically, we find trained transformers consistently achieve near-optimal ICL performance in this setting, and exhibit the desired dissection where lower layers transforms the dataset and upper layers perform linear ICL. Through extensive probing and a new pasting experiment, we further reveal several mechanisms within the trained transformers, such as concrete copying behaviors on both the inputs and the representations, linear ICL capability of the upper layers alone, and a post-ICL representation selection mechanism in a harder mixture setting. These observed mechanisms align well with our theory and may shed light on how transformers perform ICL in more realistic scenarios.
翻訳日:2023-10-17 12:39:57 公開日:2023-10-16
# IW-GAE: 教師なし領域適応におけるキャリブレーションの改善とモデル選択のための重要重み付きグループ精度推定

IW-GAE: Importance weighted group accuracy estimation for improved calibration and model selection in unsupervised domain adaptation ( http://arxiv.org/abs/2310.10611v1 )

ライセンス: Link先を確認
Taejong Joo, Diego Klabjan(参考訳) 不確実性表現やモデル選択、探索といった重要な応用に結びついている機械学習において、モデルの信頼性を信頼度からテストサンプルに関連付けることが重要な問題である。 これらの接続はi.d.設定でよく研究されているが、分散シフトは従来の手法に重大な課題をもたらす。 したがって、ラベルのない分散シフトドメインでうまく機能することを目指す、教師なし領域適応問題において、モデルキャリブレーションとモデル選択は依然として困難である。 本研究では,新しい重要度重み付け群精度推定器を開発することで,分布シフトから生じる困難に対処する。 具体的には,分布シフト領域におけるグループ精度の正確な推定を理論的解析で導く重要な重みを求めるための最適化問題を定式化する。 モデルキャリブレーションとモデル選択におけるグループ精度推定の有効性を示す。 本研究は,教師なし領域適応における課題に対するグループ精度推定の意義を,精度の伝達性を向上させる直交改善方向として強調する。

Reasoning about a model's accuracy on a test sample from its confidence is a central problem in machine learning, being connected to important applications such as uncertainty representation, model selection, and exploration. While these connections have been well-studied in the i.i.d. settings, distribution shifts pose significant challenges to the traditional methods. Therefore, model calibration and model selection remain challenging in the unsupervised domain adaptation problem--a scenario where the goal is to perform well in a distribution shifted domain without labels. In this work, we tackle difficulties coming from distribution shifts by developing a novel importance weighted group accuracy estimator. Specifically, we formulate an optimization problem for finding an importance weight that leads to an accurate group accuracy estimation in the distribution shifted domain with theoretical analyses. Extensive experiments show the effectiveness of group accuracy estimation on model calibration and model selection. Our results emphasize the significance of group accuracy estimation for addressing challenges in unsupervised domain adaptation, as an orthogonal improvement direction with improving transferability of accuracy.
翻訳日:2023-10-17 12:39:28 公開日:2023-10-16
# 自然対向フロンティアによる支援的ロバストネスの定量化

Quantifying Assistive Robustness Via the Natural-Adversarial Frontier ( http://arxiv.org/abs/2310.10610v1 )

ライセンス: Link先を確認
Jerry Zhi-Yang He, Zackory Erickson, Daniel S. Brown, Anca D. Dragan(参考訳) 究極の目標は、人を支援するロボットのための堅牢なポリシーを構築することです。 難しいのは、人々がテスト時に予期せず振る舞うことができ、トレーニングディストリビューション外のロボットと対話し、失敗につながる可能性があることです。 堅牢性を測定するだけでも課題です。 逆の摂動は既定だが、間違ったイメージを描き出すことができる:人間と自然の相互作用の間に起こりそうにない人間の動きに対応できる。 ロボットポリシーは、小さな対向的摂動の下で失敗するが、大きな自然摂動の下で機能する。 これらのインタラクティブな環境でのロバストさの獲得には、自然性とロボットの性能の低下の最良のトレードオフである人間政策のパレートフロンティアの構築と分析が必要である。 本稿では,ロボット報酬の最小化と人間的な行動(差別者によって測定される)を両立する対人政策を訓練して,このフロンティアを構築する手法であるRIGIDを紹介する。 体育支援タスクでは,標準協調強化学習の性能とロバスト性向上を目的とした既存手法の性能分析にロバストを用いる。 また,フロンティアのRIGIDを,専門家の対人インタラクションで特定された障害と,ユーザインタラクション中に自然に発生する障害とを比較した。 全体として、RIGIDがデプロイメント性能のロバスト性予測を有意義に評価できることを示すとともに、手動で見つけるのが難しい人間とロボットのインタラクションにおける障害事例を明らかにすることができる。 https://ood-human.github.io。

Our ultimate goal is to build robust policies for robots that assist people. What makes this hard is that people can behave unexpectedly at test time, potentially interacting with the robot outside its training distribution and leading to failures. Even just measuring robustness is a challenge. Adversarial perturbations are the default, but they can paint the wrong picture: they can correspond to human motions that are unlikely to occur during natural interactions with people. A robot policy might fail under small adversarial perturbations but work under large natural perturbations. We propose that capturing robustness in these interactive settings requires constructing and analyzing the entire natural-adversarial frontier: the Pareto-frontier of human policies that are the best trade-offs between naturalness and low robot performance. We introduce RIGID, a method for constructing this frontier by training adversarial human policies that trade off between minimizing robot reward and acting human-like (as measured by a discriminator). On an Assistive Gym task, we use RIGID to analyze the performance of standard collaborative Reinforcement Learning, as well as the performance of existing methods meant to increase robustness. We also compare the frontier RIGID identifies with the failures identified in expert adversarial interaction, and with naturally-occurring failures during user interaction. Overall, we find evidence that RIGID can provide a meaningful measure of robustness predictive of deployment performance, and uncover failure cases in human-robot interaction that are difficult to find manually. https://ood-human.github.io.
翻訳日:2023-10-17 12:39:10 公開日:2023-10-16
# 畳み込みニューラルネットワークを用いた超小型試料の品質制御

Quality control using convolutional neural networks applied to samples of very small size ( http://arxiv.org/abs/2310.10608v1 )

ライセンス: Link先を確認
Rallou A. Chatzimichail (1) and Aristides T. Hatjimihail (1) ((1) Hellenic Complex Systems Laboratory, Drama, Greece)(参考訳) 品質管理(QC)における人工ニューラルネットワーク(NN)の適用に関する広範な文献があるが、品質仕様へのプロセスの適合性を監視するためには、少なくとも5つのQC測定が必要である。 非常に小さなサイズのqc測定のサンプルへのニューラルネットワークの適用を検討するために、4つの1次元(1次元)畳み込みニューラルネットワーク(cnns)が設計、訓練、テストされ、nドルの標準正規分布qc測定をシミュレートしたデータセットで1 \leq n \leq 4$でテストされた。 設計したニューラルネットワークは、同じ大きさのサンプルに適用された偽拒絶の確率が等しい統計的qc関数と比較された。 0.2 < |\mu| \leq 6.0 $, $ 1.0 < \sigma \leq 7.0 $, $1.0 < \sigma \leq 7.0 $, 設計されたニューラルネットワークは各統計QC関数より優れていた。 そのため, 2-4 品質制御測定のサンプルに適用した 1-D CNN を用いて, プロセスの不整合の検出確率を, 低コストで品質仕様に高めることができる。

Although there is extensive literature on the application of artificial neural networks (NNs) in quality control (QC), to monitor the conformity of a process to quality specifications, at least five QC measurements are required, increasing the related cost. To explore the application of neural networks to samples of QC measurements of very small size, four one-dimensional (1-D) convolutional neural networks (CNNs) were designed, trained, and tested with datasets of $ n $-tuples of simulated standardized normally distributed QC measurements, for $ 1 \leq n \leq 4$. The designed neural networks were compared to statistical QC functions with equal probabilities for false rejection, applied to samples of the same size. When the $ n $-tuples included at least two QC measurements distributed as $ \mathcal{N}(\mu, \sigma^2) $, where $ 0.2 < |\mu| \leq 6.0 $, and $ 1.0 < \sigma \leq 7.0 $, the designed neural networks outperformed the respective statistical QC functions. Therefore, 1-D CNNs applied to samples of 2-4 quality control measurements can be used to increase the probability of detection of the nonconformity of a process to the quality specifications, with lower cost.
翻訳日:2023-10-17 12:38:44 公開日:2023-10-16
# タンパク質言語拡散モデルを用いた非線形力学的展開応答に基づくエンドツーエンドのde novoタンパク質生成

ForceGen: End-to-end de novo protein generation based on nonlinear mechanical unfolding responses using a protein language diffusion model ( http://arxiv.org/abs/2310.10605v1 )

ライセンス: Link先を確認
Bo Ni, David L. Kaplan, Markus J. Buehler(参考訳) 進化を通じて、自然はエラスチン、シルク、ケラチン、コラーゲンを含む優れたタンパク質物質を提示し、メカノビオロジーにおいて重要な役割を担っている。 しかし、特定の機械的特性を満たすタンパク質を発見するための自然な設計を超えることは依然として困難である。 本稿では,複雑な非線形力学特性設計の目的を満たすタンパク質設計を予測する生成モデルについて述べる。 我々のモデルは、事前訓練されたタンパク質言語モデルからタンパク質配列の深い知識を活用し、機械的展開応答をマッピングして新しいタンパク質を生成する。 直接的検証のための全原子分子シミュレーションにより, 設計したタンパク質は新規であり, 展開エネルギー, 機械的強度, 詳細な展開力-分離曲線など, 標的となる力学特性を満たすことを実証した。 本モデルでは, 機械的特徴を標的として, 生体合成に拘束されない巨大メカノバイオロジータンパク質配列空間を探索し, 優れた機械的特性を持つタンパク質の発見を可能にする。

Through evolution, nature has presented a set of remarkable protein materials, including elastins, silks, keratins and collagens with superior mechanical performances that play crucial roles in mechanobiology. However, going beyond natural designs to discover proteins that meet specified mechanical properties remains challenging. Here we report a generative model that predicts protein designs to meet complex nonlinear mechanical property-design objectives. Our model leverages deep knowledge on protein sequences from a pre-trained protein language model and maps mechanical unfolding responses to create novel proteins. Via full-atom molecular simulations for direct validation, we demonstrate that the designed proteins are novel, and fulfill the targeted mechanical properties, including unfolding energy and mechanical strength, as well as the detailed unfolding force-separation curves. Our model offers rapid pathways to explore the enormous mechanobiological protein sequence space unconstrained by biological synthesis, using mechanical features as target to enable the discovery of protein materials with superior mechanical properties.
翻訳日:2023-10-17 12:38:17 公開日:2023-10-16
# 線形最適化問題の解法におけるグラフニューラルネットワークのパワーの探索

Exploring the Power of Graph Neural Networks in Solving Linear Optimization Problems ( http://arxiv.org/abs/2310.10603v1 )

ライセンス: Link先を確認
Chendi Qian, Didier Ch\'etelat, Christopher Morris(参考訳) 近年、機械学習、特にメッセージパスグラフニューラルネットワーク(MPNN)は、正確な最適化アルゴリズムの強化で注目を集めている。 例えばmpnnは、強分岐のような計算集約的なヒューリスティックを模倣し、多重線形最適化問題(lps)の解決を高速化する。 経験的成功にもかかわらず、線形最適化をエミュレートするMPNNの有効性の背景には、大半が明確でない。 本稿では,MPNNがLPの標準的なインテリアポイント法をシミュレートし,その実用的成功を説明する。 さらに、MPNNがLPを解くための軽量プロキシとして機能し、与えられた問題インスタンスの分布に適応する方法について強調する。 経験的に、MPNNは、最適性に近い標準組合せ最適化問題のLP緩和を解き、従来の解法や競合する解法を超越することが多い。

Recently, machine learning, particularly message-passing graph neural networks (MPNNs), has gained traction in enhancing exact optimization algorithms. For example, MPNNs speed up solving mixed-integer optimization problems by imitating computational intensive heuristics like strong branching, which entails solving multiple linear optimization problems (LPs). Despite the empirical success, the reasons behind MPNNs' effectiveness in emulating linear optimization remain largely unclear. Here, we show that MPNNs can simulate standard interior-point methods for LPs, explaining their practical success. Furthermore, we highlight how MPNNs can serve as a lightweight proxy for solving LPs, adapting to a given problem instance distribution. Empirically, we show that MPNNs solve LP relaxations of standard combinatorial optimization problems close to optimality, often surpassing conventional solvers and competing approaches in solving time.
翻訳日:2023-10-17 12:37:56 公開日:2023-10-16
# Gabor基底関数を持つ物理インフォームドニューラルネットワーク

Physics-informed neural wavefields with Gabor basis functions ( http://arxiv.org/abs/2310.10602v1 )

ライセンス: Link先を確認
Tariq Alkhalifah and Xinquan Huang(参考訳) 近年,偏微分方程式 (PDE) の解法における多目的補間能力について,物理情報ニューラルネットワーク (PINN) が注目されている。 その可能性にもかかわらず、トレーニングは特に波動場のような複雑な関数に対して、計算的に要求される。 これは主に、波動場に適さない多項式計算に支配されるため、低周波数に偏ったニューラルネットワーク(学習された)基底関数が原因である。 そこで本研究では,ニューラルネットワークの波動場解の効率と精度を,波動方程式を満たすガボール基底関数の線形結合としてモデル化する手法を提案する。 具体的には、ヘルムホルツ方程式のために、最終的な隠れ層を構成する適応可能なガボール層で完全連結ニューラルネットワークモデルを強化し、これらのガボールニューロンの重み付け和を用いて予測を計算する(アウトプット)。 ガボル関数のこれらの重み/係数は、非線形活性化関数を含む以前の隠れ層から学習される。 モデル空間全体のGabor層の利用を確保するため,入力座標に基づいて各Gabor関数の中心を予測するために,より小さな補助ネットワークを組み込んだ。 現実的な評価は、バニラPINNと比較してこの新しい実装の有効性を示しており、特にPINNにとってしばしば困難な高頻度および現実的なモデルを含むシナリオにおいてである。

Recently, Physics-Informed Neural Networks (PINNs) have gained significant attention for their versatile interpolation capabilities in solving partial differential equations (PDEs). Despite their potential, the training can be computationally demanding, especially for intricate functions like wavefields. This is primarily due to the neural-based (learned) basis functions, biased toward low frequencies, as they are dominated by polynomial calculations, which are not inherently wavefield-friendly. In response, we propose an approach to enhance the efficiency and accuracy of neural network wavefield solutions by modeling them as linear combinations of Gabor basis functions that satisfy the wave equation. Specifically, for the Helmholtz equation, we augment the fully connected neural network model with an adaptable Gabor layer constituting the final hidden layer, employing a weighted summation of these Gabor neurons to compute the predictions (output). These weights/coefficients of the Gabor functions are learned from the previous hidden layers that include nonlinear activation functions. To ensure the Gabor layer's utilization across the model space, we incorporate a smaller auxiliary network to forecast the center of each Gabor function based on input coordinates. Realistic assessments showcase the efficacy of this novel implementation compared to the vanilla PINN, particularly in scenarios involving high-frequencies and realistic models that are often challenging for PINNs.
翻訳日:2023-10-17 12:37:40 公開日:2023-10-16
# 小ベルシナリオにおける完全非局所性、全対無証明、擬似テレパシーの不可能性

Impossibility of bipartite full nonlocality, all-versus-nothing proofs, and pseudo-telepathy in small Bell scenarios ( http://arxiv.org/abs/2310.10600v1 )

ライセンス: Link先を確認
Yuan Liu, Ho Yiu Chung, Emmanuel Zambrini Cruzeiro, Junior R. Gonzales-Ureta, Ravishankar Ramanathan, Ad\'an Cabello(参考訳) 以下の文が等価であることを示す。 (i)量子相関pは、局所点を含まない非符号ポリトープの面にある。 (ii) p は局所分数 0 であり、すなわち p は完全非局所性 (FN) を持つ。 (iii) p は非局所性の完全逆数(AVN)あるいはグリーンベルガー・ホルン・ゼーリンガーのような証明を与える。 (iv)pは擬似テレパシー(PT)戦略である。 これらの関係は、量子PTが最小限の要件で可能かどうかという、Gensin、M\'ethot、Scaraniの長年の疑問が、量子情報、量子計算、量子力学の基礎の基礎であり、様々な戦略で対処できることを示している。 量子力学によれば、自然は3,3;3,2)ベルのシナリオにおいてFN/AVN/PTを許さない。 さらに、FN/AVN/PTも3,2;3,4で不可能であることを示す。 また, FN/AVN/PT例は認められなかった。 これらの結果の意味と,提案手法のさらなる応用について論じる。

We show that the following statements are equivalent: (i) A quantum correlation p is in a face of the nonsignaling polytope that does not contain local points. (ii) p has local fraction zero; i.e., p has full nonlocality (FN). (iii) p provides an all-versus-nothing (AVN) or Greenberger-Horne-Zeilinger-like proof of nonlocality. (iv) p is a pseudo telepathy (PT) strategy. These connections imply that a long-standing question posed by Gisin, M\'ethot, and Scarani of whether quantum PT is possible with minimal requirements is fundamental for quantum information, quantum computation, and foundations of quantum mechanics, and can be addressed by a variety of strategies. Here, by combining different methods, we show that the answer is negative: according to quantum mechanics, nature does not allow for FN/AVN/PT in the (3,3;3,2) Bell scenario. Moreover, we show that FN/AVN/PT is also impossible in (3,2;3,4). We also study (3,3;3,3) and found no example of FN/AVN/PT. We discuss the implications of these results and further applications of the methods presented.
翻訳日:2023-10-17 12:37:19 公開日:2023-10-16
# Motion2Language, Unsupervised learning of synchronized semantic motion segmentation

Motion2Language, Unsupervised learning of synchronized semantic motion segmentation ( http://arxiv.org/abs/2310.10594v1 )

ライセンス: Link先を確認
Karim Radouane, Andon Tchechmedjiev, Sylvie Ranwez, Julien Lagarde(参考訳) 本稿では,動きから言語翻訳と同期のためのシーケンスアーキテクチャの構築について検討する。 この目的は、モーションキャプチャ入力を英語の自然言語記述に変換することで、記述が実行されたアクションと同期して生成され、副産物としてセマンティックセグメンテーションを可能にするが、同期されたトレーニングデータを必要としない。 本稿では,同期/ライブテキスト生成に適した局所注意の新しい定式化と,より小さなデータや同期生成に適した改良されたモーションエンコーダアーキテクチャを提案する。 標準のbleu4メトリックと単純な意味同値尺度を用いて,kitモーション言語データセット上で,個々の実験における貢献度を評価する。 フォローアップ実験では,複数の評価指標を用いて,提案手法における生成テキストの同期性を評価する。 また,アテンション機構とエンコーダアーキテクチャへのコントリビューションにより,生成したテキストの品質(BLEUとセマンティック等価性)が向上し,同期性も向上することがわかった。 私たちのコードは \url{https://github.com/rd20karim/M2T-Segmentation/tree/main} で利用可能になります。

In this paper, we investigate building a sequence to sequence architecture for motion to language translation and synchronization. The aim is to translate motion capture inputs into English natural-language descriptions, such that the descriptions are generated synchronously with the actions performed, enabling semantic segmentation as a byproduct, but without requiring synchronized training data. We propose a new recurrent formulation of local attention that is suited for synchronous/live text generation, as well as an improved motion encoder architecture better suited to smaller data and for synchronous generation. We evaluate both contributions in individual experiments, using the standard BLEU4 metric, as well as a simple semantic equivalence measure, on the KIT motion language dataset. In a follow-up experiment, we assess the quality of the synchronization of generated text in our proposed approaches through multiple evaluation metrics. We find that both contributions to the attention mechanism and the encoder architecture additively improve the quality of generated text (BLEU and semantic equivalence), but also of synchronization. Our code will be made available at \url{https://github.com/rd20karim/M2T-Segmentation/tree/main}
翻訳日:2023-10-17 12:37:00 公開日:2023-10-16
# 極端多重ラベル分類におけるデュアルエンコーダの有効性

Efficacy of Dual-Encoders for Extreme Multi-Label Classification ( http://arxiv.org/abs/2310.10636v1 )

ライセンス: Link先を確認
Nilesh Gupta, Devvrit Khatri, Ankit S Rawat, Srinadh Bhojanapalli, Prateek Jain, Inderjit S Dhillon(参考訳) デュアルエンコーダモデルは、ほとんどゼロショットと少数ショットのシナリオを含むオープンドメイン質問応答のための密集した検索タスクにおいて大きな成功を収めている。 しかし、エクストリームマルチラベル分類(XMC)など、訓練データが豊富である多ショット検索問題では、その性能は未探索のままである。 既存の実証的証拠は、これらの問題に対して、クラス数と線形に学習可能なパラメータの数を増大させる、最先端(SOTA)極端分類法の性能よりも遅れていることを示唆している。 その結果、近年の極端な分類手法では、各クラスに2つのエンコーダと学習可能な分類ヘッドを組み合わせてこれらのタスクを最適化している。 本稿では, xmc タスクにおける "pure" de モデルのポテンシャルについて検討する。 この結果から,トレーニング可能なパラメータの数を20倍に抑えつつ,最大XMCデータセット上でも,トレーニング済みの2エンコーダを最大2%の精度でSOTA極端分類法に適合または上回ることができることがわかった。 さらに、Recall@kメトリクスを特に最適化するために使用できる、微分可能なトレックエラーベースの損失関数を提案する。 PyTorchの実装や、追加資料で結果を再現するための他のリソースも含んでいます。

Dual-encoder models have demonstrated significant success in dense retrieval tasks for open-domain question answering that mostly involves zero-shot and few-shot scenarios. However, their performance in many-shot retrieval problems where training data is abundant, such as extreme multi-label classification (XMC), remains under-explored. Existing empirical evidence suggests that, for such problems, the dual-encoder method's accuracies lag behind the performance of state-of-the-art (SOTA) extreme classification methods that grow the number of learnable parameters linearly with the number of classes. As a result, some recent extreme classification techniques use a combination of dual-encoders and a learnable classification head for each class to excel on these tasks. In this paper, we investigate the potential of "pure" DE models in XMC tasks. Our findings reveal that when trained correctly standard dual-encoders can match or outperform SOTA extreme classification methods by up to 2% at Precision@1 even on the largest XMC datasets while being 20x smaller in terms of the number of trainable parameters. We further propose a differentiable topk error-based loss function, which can be used to specifically optimize for Recall@k metrics. We include our PyTorch implementation along with other resources for reproducing the results in the supplementary material.
翻訳日:2023-10-17 12:31:04 公開日:2023-10-16
# 深部生成モデルを用いた自律列車のシナリオベース安全検証に向けて

Towards Scenario-based Safety Validation for Autonomous Trains with Deep Generative Models ( http://arxiv.org/abs/2310.10635v1 )

ライセンス: Link先を確認
Thomas Decker, Ananta R. Bhattarai, and Michael Lebacher(参考訳) 現代のAI技術は、自動運転車のさらなる可能性を開くが、そのようなシステムの信頼性を適切に検証する方法はまだ不明だ。 一般的なアプローチは、事前定義された運用設計ドメイン(odd)に基づいて安全性検証を行うことで、テスト中のシステムが適切に動作する必要がある特定の条件を記述する。 しかし、包括的なODDカバレッジを確保するのに十分な現実的なテストケースの収集は困難である。 本稿では,シナリオベースODD検証のための深層生成モデルを用いたデータシミュレーションの有用性に関する実践経験を報告する。 本稿では,自律列車運行を支援するために,カメラを用いたレールシーンセグメンテーションシステムの利用事例を検討する。 本研究では,鉄道シーンを深層生成モデルで意味的に編集し,限られた量のテストデータをより代表的にするための機能を示す。 また、我々のアプローチは、システムが典型的なODD要件に準拠する程度を分析するのにどのように役立つかを示す。 具体的には,異なる照明条件と気象条件下での適切な操作の評価と,それら間の遷移に焦点をあてる。

Modern AI techniques open up ever-increasing possibilities for autonomous vehicles, but how to appropriately verify the reliability of such systems remains unclear. A common approach is to conduct safety validation based on a predefined Operational Design Domain (ODD) describing specific conditions under which a system under test is required to operate properly. However, collecting sufficient realistic test cases to ensure comprehensive ODD coverage is challenging. In this paper, we report our practical experiences regarding the utility of data simulation with deep generative models for scenario-based ODD validation. We consider the specific use case of a camera-based rail-scene segmentation system designed to support autonomous train operation. We demonstrate the capabilities of semantically editing railway scenes with deep generative models to make a limited amount of test data more representative. We also show how our approach helps to analyze the degree to which a system complies with typical ODD requirements. Specifically, we focus on evaluating proper operation under different lighting and weather conditions as well as while transitioning between them.
翻訳日:2023-10-17 12:30:38 公開日:2023-10-16
# OpenAgents: ワイルドな言語エージェントのためのオープンプラットフォーム

OpenAgents: An Open Platform for Language Agents in the Wild ( http://arxiv.org/abs/2310.10634v1 )

ライセンス: Link先を確認
Tianbao Xie, Fan Zhou, Zhoujun Cheng, Peng Shi, Luoxuan Weng, Yitao Liu, Toh Jing Hua, Junning Zhao, Qian Liu, Che Liu, Leo Z. Liu, Yiheng Xu, Hongjin Su, Dongchan Shin, Caiming Xiong, Tao Yu(参考訳) 言語エージェントは、多種多様な環境、特に大規模言語モデル(LLM)上に構築された場合、自然言語を様々な複雑なタスクに活用できる可能性を示している。 現在の言語エージェントフレームワークは、非専門家のエージェントへのアクセスを無視し、アプリケーションレベルの設計にほとんど注意を払わずに、概念実証言語エージェントの構築を容易にすることを目的としている。 OpenAgentsは、日々の生活の中で言語エージェントの使用とホスティングを行うオープンプラットフォームである。 OpenAgentsには3つのエージェントが含まれている。(1) Python/SQLとデータツールによるデータ分析のためのデータエージェント、(2)200以上のデイリーAPIツールを備えたプラグインエージェント、(3)WebブラウジングのためのWebエージェント。 openagentsを使えば、一般ユーザがswift応答や一般的な障害に最適化されたwebユーザインターフェースを通じてエージェント機能と対話できると同時に、開発者や研究者がローカルセットアップ上でシームレスなデプロイメントエクスペリエンスを提供し、革新的な言語エージェントの作成と現実世界の評価の促進のための基盤を提供する。 我々は課題と機会を解明し、現実世界の言語エージェントの将来の研究と開発の基礎を築こうとしている。

Language agents show potential in being capable of utilizing natural language for varied and intricate tasks in diverse environments, particularly when built upon large language models (LLMs). Current language agent frameworks aim to facilitate the construction of proof-of-concept language agents while neglecting the non-expert user access to agents and paying little attention to application-level designs. We present OpenAgents, an open platform for using and hosting language agents in the wild of everyday life. OpenAgents includes three agents: (1) Data Agent for data analysis with Python/SQL and data tools; (2) Plugins Agent with 200+ daily API tools; (3) Web Agent for autonomous web browsing. OpenAgents enables general users to interact with agent functionalities through a web user interface optimized for swift responses and common failures while offering developers and researchers a seamless deployment experience on local setups, providing a foundation for crafting innovative language agents and facilitating real-world evaluations. We elucidate the challenges and opportunities, aspiring to set a foundation for future research and development of real-world language agents.
翻訳日:2023-10-17 12:30:22 公開日:2023-10-16
# bioplanner: 生物におけるプロトコル計画におけるllmsの自動評価

BioPlanner: Automatic Evaluation of LLMs on Protocol Planning in Biology ( http://arxiv.org/abs/2310.10632v1 )

ライセンス: Link先を確認
Odhran O'Donoghue, Aleksandar Shtedritski, John Ginger, Ralph Abboud, Ali Essa Ghareeb, Justin Booth, Samuel G Rodriques(参考訳) 科学実験の正確なプロトコルを自動的に生成する能力は、科学の自動化に向けた大きな一歩となる。 大きな言語モデル(LLM)は、質問応答や一貫性のあるテキストやコードの生成など、幅広いタスクにおいて印象的な機能を持つ。 しかし、LLMは科学実験の設計に欠かせない多段階問題や長期計画に苦しむことがある。 さらに、様々な方法で実験を正しく記述することができ、専門家の知識を必要とし、通常は自動的に実行できないため、科学的プロトコルの精度の評価は困難である。 本稿では,実験プロトコルの計画作業のための自動評価フレームワークBioProtについて紹介する。 科学的プロトコルの生成性能を評価するため,LLMを用いて自然言語プロトコルを擬似コードに変換し,高いレベルの記述と許容可能な擬似コード関数のリストから擬似コードを再構築する能力を評価する。 本課題について, GPT-3 と GPT-4 を評価し, その堅牢性を検討した。 我々は,検索した擬似符号を用いて正確な新しいプロトコルを生成することによって,テキストの擬似符号表現の有用性を外部から検証する。 我々のフレームワークは、他の科学分野や自動評価を欠いた分野における言語モデル計画能力の評価と改善に拡張可能である。

The ability to automatically generate accurate protocols for scientific experiments would represent a major step towards the automation of science. Large Language Models (LLMs) have impressive capabilities on a wide range of tasks, such as question answering and the generation of coherent text and code. However, LLMs can struggle with multi-step problems and long-term planning, which are crucial for designing scientific experiments. Moreover, evaluation of the accuracy of scientific protocols is challenging, because experiments can be described correctly in many different ways, require expert knowledge to evaluate, and cannot usually be executed automatically. Here we present an automatic evaluation framework for the task of planning experimental protocols, and we introduce BioProt: a dataset of biology protocols with corresponding pseudocode representations. To measure performance on generating scientific protocols, we use an LLM to convert a natural language protocol into pseudocode, and then evaluate an LLM's ability to reconstruct the pseudocode from a high-level description and a list of admissible pseudocode functions. We evaluate GPT-3 and GPT-4 on this task and explore their robustness. We externally validate the utility of pseudocode representations of text by generating accurate novel protocols using retrieved pseudocode, and we run a generated protocol successfully in our biological laboratory. Our framework is extensible to the evaluation and improvement of language model planning abilities in other areas of science or other areas that lack automatic evaluation.
翻訳日:2023-10-17 12:29:59 公開日:2023-10-16
# Llemma: 数学のためのオープン言語モデル

Llemma: An Open Language Model For Mathematics ( http://arxiv.org/abs/2310.10631v1 )

ライセンス: Link先を確認
Zhangir Azerbayev and Hailey Schoelkopf and Keiran Paster and Marco Dos Santos and Stephen McAleer and Albert Q. Jiang and Jia Deng and Stella Biderman and Sean Welleck(参考訳) 数学のための大きな言語モデルであるLlemmaを紹介します。 我々は、科学論文、数学を含むwebデータ、数学的コード、およびllemmaの混合である proof-pile-2 のコードllama を事前トレーニングし続けます。 MATHベンチマークでは、Llemmaはすべての既知のオープンベースモデル、および未リリースのMinervaモデルスイートを均等に上回る。 さらに、llemmaはツールの使用と形式的な定理の証明を、それ以上の微調整なしに行うことができる。 70億と34億のパラメータモデル、Proof-Pile-2、実験を再現するコードを含む、すべてのアーティファクトを公開しています。

We present Llemma, a large language model for mathematics. We continue pretraining Code Llama on the Proof-Pile-2, a mixture of scientific papers, web data containing mathematics, and mathematical code, yielding Llemma. On the MATH benchmark Llemma outperforms all known open base models, as well as the unreleased Minerva model suite on an equi-parameter basis. Moreover, Llemma is capable of tool use and formal theorem proving without any further finetuning. We openly release all artifacts, including 7 billion and 34 billion parameter models, the Proof-Pile-2, and code to replicate our experiments.
翻訳日:2023-10-17 12:29:34 公開日:2023-10-16
# Certainty In, Certainty Out: 量子機械学習のためのREVQC

Certainty In, Certainty Out: REVQCs for Quantum Machine Learning ( http://arxiv.org/abs/2310.10629v1 )

ライセンス: Link先を確認
Hannah Helgesen, Michael Felsberg, Jan-{\AA}ke Larsson(参考訳) 量子機械学習(QML)の分野は、最近、新しい機械学習プロトコルや古典的な機械学習の指数的なスピードアップを見つけるために現れた。 量子コンピュータのサンプリング特性は、勾配計算における近似期待値を使用するために、古典的な計算をシミュレートするか、あるいは量子コンピュータ上で何度も実行するかのどちらかを促進するため、これらの高速化は見つからない。 本稿では,1つのサンプル精度を第一目標として設定する。 本稿では,高精度かつ高精度なサンプル推論を可能にする統計理論を考察し,この目的に向けて逆トレーニング手法を提案する。 本手法は,mnist と mnist のファッションデータセットのランダムな二分部分集合に対して,標準方向と逆方向の両方で訓練された複数の有効な変分量子回路(vqcs)を評価することにより,本手法の有効性を示す。

The field of Quantum Machine Learning (QML) has emerged recently in the hopes of finding new machine learning protocols or exponential speedups for classical ones. Apart from problems with vanishing gradients and efficient encoding methods, these speedups are hard to find because the sampling nature of quantum computers promotes either simulating computations classically or running them many times on quantum computers in order to use approximate expectation values in gradient calculations. In this paper, we make a case for setting high single-sample accuracy as a primary goal. We discuss the statistical theory which enables highly accurate and precise sample inference, and propose a method of reversed training towards this end. We show the effectiveness of this training method by assessing several effective variational quantum circuits (VQCs), trained in both the standard and reversed directions, on random binary subsets of the MNIST and MNIST Fashion datasets, on which our method provides an increase of $10-15\%$ in single-sample inference accuracy.
翻訳日:2023-10-17 12:29:22 公開日:2023-10-16
# 時間のレンズによるデータ汚染

Data Contamination Through the Lens of Time ( http://arxiv.org/abs/2310.10628v1 )

ライセンス: Link先を確認
Manley Roberts, Himanshu Thakur, Christine Herlihy, Colin White, Samuel Dooley(参考訳) 大規模言語モデル(llms)の印象的な能力に関する最近の主張は、公開ベンチマークの評価によってしばしば支持されている。 llmsはインターネットの広い範囲でトレーニングを行うため、このプラクティスはデータの汚染、すなわちトレーニングデータに明示的にまたは暗黙的に含まれている例の評価の懸念を引き起こす。 データ汚染は、トレーニングデータやカナリアストリングの制御実験、あるいは類似点の埋め込みといった部分的な試みであっても、測定と緩和が難しいことで知られています。 本研究は, GPTモデルにおけるトレーニングカットオフの自然実験を用いて, LLMにおけるデータ汚染の経時的解析を行い, 経時的評価を行った。 具体的には、2つのコード/数学的問題解決データセット、CodeforcesとProject Eulerを検討し、LLMパスレートとGitHubの人気とリリース日の間に統計的に有意な傾向を見出した。 データセット、生の結果、評価フレームワークをオープンソース化することで、現代のモデルにおけるデータ汚染の厳密な分析の道を開くことができる。 最後に、webスケールデータをトレーニングするllmの時代におけるベンチマークを公開するためのベストプラクティスと今後のステップについて論じる。

Recent claims about the impressive abilities of large language models (LLMs) are often supported by evaluating publicly available benchmarks. Since LLMs train on wide swaths of the internet, this practice raises concerns of data contamination, i.e., evaluating on examples that are explicitly or implicitly included in the training data. Data contamination remains notoriously challenging to measure and mitigate, even with partial attempts like controlled experimentation of training data, canary strings, or embedding similarities. In this work, we conduct the first thorough longitudinal analysis of data contamination in LLMs by using the natural experiment of training cutoffs in GPT models to look at benchmarks released over time. Specifically, we consider two code/mathematical problem-solving datasets, Codeforces and Project Euler, and find statistically significant trends among LLM pass rate vs. GitHub popularity and release date that provide strong evidence of contamination. By open-sourcing our dataset, raw results, and evaluation framework, our work paves the way for rigorous analyses of data contamination in modern models. We conclude with a discussion of best practices and future steps for publicly releasing benchmarks in the age of LLMs that train on webscale data.
翻訳日:2023-10-17 12:29:02 公開日:2023-10-16
# 要因検証:学術論文の要約における幻覚の検出と低減

Factored Verification: Detecting and Reducing Hallucination in Summaries of Academic Papers ( http://arxiv.org/abs/2310.10627v1 )

ライセンス: Link先を確認
Charlie George and Andreas Stuhlm\"uller(参考訳) 幻覚はフロンティアのLLMにも悩まされるが、学術論文の要約にとって、本当にどれほど悪いのか? 抽象要約における幻覚検出のための簡便な自動手法である factored verification を評価した。 この方法は、HaluEvalベンチマークの要約タスクにおける幻覚検出の新しいSotAを76.2%の精度で設定する。 次に,複数の学術論文を要約した場合の言語モデルの幻覚度を推定し,平均 chatgpt (16k) 要約,gpt-4 の 0.84,claude 2 の 1.55 で 0.62 の幻覚を求める。 モデルにFacted Critiquesを用いて自己修正を求めると、これはChatGPTでは0.49、GPT-4では0.46、Claude 2では0.95となる。 幻覚はしばしば微妙であり、モデルを用いて学術論文を合成する場合は注意が必要である。

Hallucination plagues even frontier LLMs--but how bad is it really for summarizing academic papers? We evaluate Factored Verification, a simple automated method for detecting hallucinations in abstractive summaries. This method sets a new SotA on hallucination detection in the summarization task of the HaluEval benchmark, achieving 76.2% accuracy. We then use this method to estimate how often language models hallucinate when summarizing across multiple academic papers and find 0.62 hallucinations in the average ChatGPT (16k) summary, 0.84 for GPT-4, and 1.55 for Claude 2. We ask models to self-correct using Factored Critiques and find that this lowers the number of hallucinations to 0.49 for ChatGPT, 0.46 for GPT-4, and 0.95 for Claude 2. The hallucinations we find are often subtle, so we advise caution when using models to synthesize academic papers.
翻訳日:2023-10-17 12:28:42 公開日:2023-10-16
# ビデオ言語プランニング

Video Language Planning ( http://arxiv.org/abs/2310.10625v1 )

ライセンス: Link先を確認
Yilun Du, Mengjiao Yang, Pete Florence, Fei Xia, Ayzaan Wahid, Brian Ichter, Pierre Sermanet, Tianhe Yu, Pieter Abbeel, Joshua B. Tenenbaum, Leslie Kaelbling, Andy Zeng, Jonathan Tompson(参考訳) 我々は、インターネット規模で事前学習された大規模な生成モデルにおける最近の進歩を活用し、生成したビデオや言語空間における複雑な長期タスクの視覚的計画の実現に興味を持っている。 この目的のために,木探索手順からなるアルゴリズムであるビデオ言語計画法(VLP)を提案する。 (i)政策と価値関数の両方として機能する視覚言語モデル、 (ii)ダイナミックスモデルとしてのテキスト・ビデオモデル。 VLPは、長い水平タスク命令と現在のイメージ観察を入力として受け取り、最終タスクの完了方法を記述した詳細なマルチモーダル(ビデオと言語)仕様を提供する長いビデオプランを出力する。 VLPは計算予算を増大させ、より多くの計算時間がビデオプランの改善をもたらすとともに、マルチオブジェクト再構成からマルチカメラバイアームデキスタス操作に至るまで、さまざまなロボティクス領域にわたる長い水平ビデオプランを合成することができる。 生成されたビデオプランは、生成されたビデオの各中間フレームで条件付けられたゴール条件付きポリシーを通じて、実際のロボットアクションに変換できる。 実験により、VLPは、シミュレーションと実際のロボット(3つのハードウェアプラットフォーム全体)の従来の手法と比較して、長時間作業の成功率を大幅に改善することが示された。

We are interested in enabling visual planning for complex long-horizon tasks in the space of generated videos and language, leveraging recent advances in large generative models pretrained on Internet-scale data. To this end, we present video language planning (VLP), an algorithm that consists of a tree search procedure, where we train (i) vision-language models to serve as both policies and value functions, and (ii) text-to-video models as dynamics models. VLP takes as input a long-horizon task instruction and current image observation, and outputs a long video plan that provides detailed multimodal (video and language) specifications that describe how to complete the final task. VLP scales with increasing computation budget where more computation time results in improved video plans, and is able to synthesize long-horizon video plans across different robotics domains: from multi-object rearrangement, to multi-camera bi-arm dexterous manipulation. Generated video plans can be translated into real robot actions via goal-conditioned policies, conditioned on each intermediate frame of the generated video. Experiments show that VLP substantially improves long-horizon task success rates compared to prior methods on both simulated and real robots (across 3 hardware platforms).
翻訳日:2023-10-17 12:28:24 公開日:2023-10-16
# DynVideo-E: 大規模モーションとビューチェンジ人間中心映像編集のための高調波動的NeRF

DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and View-Change Human-Centric Video Editing ( http://arxiv.org/abs/2310.10624v1 )

ライセンス: Link先を確認
Jia-Wei Liu, Yan-Pei Cao, Jay Zhangjie Wu, Weijia Mao, Yuchao Gu, Rui Zhao, Jussi Keppo, Ying Shan, Mike Zheng Shou(参考訳) 拡散に基づくビデオ編集の顕著な進歩にもかかわらず、既存の手法は長距離一貫性とフレームワイズ編集の矛盾のため、短いビデオに限られている。 近年,映像編集にビデオ2D表現を導入する手法が提案されている。 しかし、特に人間中心のビデオでは、大規模なモーションビデオやビューチェンジビデオの処理が著しく困難である。 これにより,映像編集問題を3次元空間編集作業に容易化するため,人間中心の映像表現として動的ニューラルラジアンス場(NeRF)を導入することができる。 これにより、3D空間で編集を行い、変形場を介して全映像に伝搬することができる。 より微細で直接制御可能な編集を実現するために,画像に基づく3次元空間編集パイプラインを提案する。 マルチビュー多目的スコア蒸留サンプリング(SDS)は2次元個別拡散先行と3次元拡散先行の両方からのものであり、参照画像の再構成損失、テキスト誘導ローカル部分の超解像度化、および3次元背景空間のスタイル転送である。 大規模な実験により,我々の手法はDynVideo-Eと呼ばれ,人間の嗜好において50%~95%の差でSOTAアプローチを2つの挑戦的データセットで大幅に上回っていることがわかった。 コンパイルされたビデオの比較はプロジェクトページ https://showlab.github.io/DynVideo-E/ で提供されている。 私たちのコードとデータはコミュニティにリリースされます。

Despite remarkable research advances in diffusion-based video editing, existing methods are limited to short-length videos due to the contradiction between long-range consistency and frame-wise editing. Recent approaches attempt to tackle this challenge by introducing video-2D representations to degrade video editing to image editing. However, they encounter significant difficulties in handling large-scale motion- and view-change videos especially for human-centric videos. This motivates us to introduce the dynamic Neural Radiance Fields (NeRF) as the human-centric video representation to ease the video editing problem to a 3D space editing task. As such, editing can be performed in the 3D spaces and propagated to the entire video via the deformation field. To provide finer and direct controllable editing, we propose the image-based 3D space editing pipeline with a set of effective designs. These include multi-view multi-pose Score Distillation Sampling (SDS) from both 2D personalized diffusion priors and 3D diffusion priors, reconstruction losses on the reference image, text-guided local parts super-resolution, and style transfer for 3D background space. Extensive experiments demonstrate that our method, dubbed as DynVideo-E, significantly outperforms SOTA approaches on two challenging datasets by a large margin of 50% ~ 95% in terms of human preference. Compelling video comparisons are provided in the project page https://showlab.github.io/DynVideo-E/. Our code and data will be released to the community.
翻訳日:2023-10-17 12:28:03 公開日:2023-10-16
# HairCLIPv2: Proxy Feature Blendingによるヘア編集の統合

HairCLIPv2: Unifying Hair Editing via Proxy Feature Blending ( http://arxiv.org/abs/2310.10651v1 )

ライセンス: Link先を確認
Tianyi Wei and Dongdong Chen and Wenbo Zhou and Jing Liao and Weiming Zhang and Gang Hua and Nenghai Yu(参考訳) 近年、毛髪編集は著しく進歩している。 初期の毛髪編集方法は、よく描かれたスケッチやマスクを使って編集条件を指定する。 非常にきめ細かいローカル制御を可能にすることができるが、そのような対話モードは言語記述や参照画像で容易に指定できる編集条件では非効率である。 最近のクロスモーダルモデル(例えばCLIP)のブレークスルーにより、HairCLIPはテキスト記述や参照画像に基づいた毛髪編集を可能にする最初の作品である。 しかし、テキスト駆動と参照駆動のインタラクションモードにより、HairCLIPはスケッチやマスクによって指定されたきめ細かい制御をサポートできない。 本稿では,上述したすべてのインタラクションを一つの統一フレームワークでサポートすることを目的としたHairCLIPv2を提案する。 同時に、不適切な属性(例えば、アイデンティティ、バックグラウンド)と見えないテキスト記述のサポートにより、HairCLIPを改善する。 重要なアイデアは、すべてのヘア編集タスクをヘア転送タスクに変換し、それに従って編集条件を異なるプロキシに変換することだ。 ヘアスタイル又はヘアカラー特徴空間に対応するプロキシ特徴をブレンドすることにより、入力画像に編集効果を付加する。 前例のないユーザインタラクションモードのサポートに加えて、量的および質的実験は、編集効果、無関係な属性保存、視覚的自然性の観点から、ヘアクリフ2の優位を示す。 私たちのコードは \url{https://github.com/wty-ustc/HairCLIPv2} で利用可能です。

Hair editing has made tremendous progress in recent years. Early hair editing methods use well-drawn sketches or masks to specify the editing conditions. Even though they can enable very fine-grained local control, such interaction modes are inefficient for the editing conditions that can be easily specified by language descriptions or reference images. Thanks to the recent breakthrough of cross-modal models (e.g., CLIP), HairCLIP is the first work that enables hair editing based on text descriptions or reference images. However, such text-driven and reference-driven interaction modes make HairCLIP unable to support fine-grained controls specified by sketch or mask. In this paper, we propose HairCLIPv2, aiming to support all the aforementioned interactions with one unified framework. Simultaneously, it improves upon HairCLIP with better irrelevant attributes (e.g., identity, background) preservation and unseen text descriptions support. The key idea is to convert all the hair editing tasks into hair transfer tasks, with editing conditions converted into different proxies accordingly. The editing effects are added upon the input image by blending the corresponding proxy features within the hairstyle or hair color feature spaces. Besides the unprecedented user interaction mode support, quantitative and qualitative experiments demonstrate the superiority of HairCLIPv2 in terms of editing effects, irrelevant attribute preservation and visual naturalness. Our code is available at \url{https://github.com/wty-ustc/HairCLIPv2}.
翻訳日:2023-10-17 12:20:51 公開日:2023-10-16
# トラムナーフ:ニューラルネットワークによるトレーディングミラーとほぼ完全な鏡面反射

TraM-NeRF: Tracing Mirror and Near-Perfect Specular Reflections through Neural Radiance Fields ( http://arxiv.org/abs/2310.10650v1 )

ライセンス: Link先を確認
Leif Van Holland, Ruben Bliersbach, Jan U. M\"uller, Patrick Stotko, Reinhard Klein(参考訳) NeRF(Neural Radiance Fields)のような暗黙的な表現は、複雑なシーンを細かな詳細で写実的にレンダリングするための印象的な結果を示した。 しかし、様々な屋内シーンでしばしば見られる鏡などの理想的あるいはほぼ完全な反射物は、合成されたレンダリングにおいて深刻なアーティファクトに繋がる再建されたシーンの表現に曖昧さと不一致を課している。 本稿では,これらミラーライクな対象を考慮しつつ,標準パストレースによる単純だが高価な拡張コストを回避しつつ,nrf内のボリュームレンダリングに合わせた新しい反射追跡手法を提案する。 物理可塑性材料を用いて反射挙動を明示的にモデル化し,モンテカルロ法を用いて反射放射率を推算することにより,重要サンプリングと透過率計算の効率的な手法を導出した。 提案手法は,従来の最先端手法と比較して,一貫したシーン表現の訓練を可能にし,優れた結果が得られることを示す。

Implicit representations like Neural Radiance Fields (NeRF) showed impressive results for photorealistic rendering of complex scenes with fine details. However, ideal or near-perfectly specular reflecting objects such as mirrors, which are often encountered in various indoor scenes, impose ambiguities and inconsistencies in the representation of the reconstructed scene leading to severe artifacts in the synthesized renderings. In this paper, we present a novel reflection tracing method tailored for the involved volume rendering within NeRF that takes these mirror-like objects into account while avoiding the cost of straightforward but expensive extensions through standard path tracing. By explicitly modeling the reflection behavior using physically plausible materials and estimating the reflected radiance with Monte-Carlo methods within the volume rendering formulation, we derive efficient strategies for importance sampling and the transmittance computation along rays from only few samples. We show that our novel method enables the training of consistent representations of such challenging scenes and achieves superior results in comparison to previous state-of-the-art approaches.
翻訳日:2023-10-17 12:20:27 公開日:2023-10-16
# 学生の数学的誤りの段階的修復

Step-by-Step Remediation of Students' Mathematical Mistakes ( http://arxiv.org/abs/2310.10648v1 )

ライセンス: Link先を確認
Rose E. Wang, Qingyang Zhang, Carly Robinson, Susanna Loeb, Dorottya Demszky(参考訳) 質の高いチューリングをスケールすることは教育の大きな課題である。 需要が高まっているため、多くのプラットフォームは初心者の家庭教師を雇い、プロの教育者とは異なり、生徒のミスに効果的に対処するのに苦労している。 本稿では,大規模言語モデル (LLM) が,学生の誤りの即時処理を支援する可能性について検討する。 remathは、経験豊富な数学教師と共同開発したベンチマークで、修復のための思考過程を分解する。 ベンチマークは,(1)学生エラーのタイプを推測する,(2)エラーに対処する戦略を決定する,(3)その情報を組み込んだ応答を生成する,の3つのステップバイステップからなる。 本研究では,ReMath上でのインストラクションとダイアログモデルの性能を評価する。 以上の結果から,モデルが学習者の反応を一貫して改善するが,誤りの修正にはモデルだけでは頼りにできないことが示唆された。 エラータイプ(例えば、学生が推測している)と戦略(例えば、問題を単純化する)を持つモデルを提供することで、その情報のないモデルよりも応答品質が75%向上する。 それでも、改善にもかかわらず、最高のモデルの応答の質は、まだ経験豊富な数学教師に劣っている。 我々の研究は、教師と学生の両方に大規模な学習体験を提供するために、現在のLLMを使うことの可能性と限界に光を当てている。 私たちの仕事は、このリンクでオープンソース化されています。

Scaling high-quality tutoring is a major challenge in education. Because of the growing demand, many platforms employ novice tutors who, unlike professional educators, struggle to effectively address student mistakes and thus fail to seize prime learning opportunities for students. In this paper, we explore the potential for large language models (LLMs) to assist math tutors in remediating student mistakes. We present ReMath, a benchmark co-developed with experienced math teachers that deconstructs their thought process for remediation. The benchmark consists of three step-by-step tasks: (1) infer the type of student error, (2) determine the strategy to address the error, and (3) generate a response that incorporates that information. We evaluate the performance of state-of-the-art instruct-tuned and dialog models on ReMath. Our findings suggest that although models consistently improve upon original tutor responses, we cannot rely on models alone to remediate mistakes. Providing models with the error type (e.g., the student is guessing) and strategy (e.g., simplify the problem) leads to a 75% improvement in the response quality over models without that information. Nonetheless, despite the improvement, the quality of the best model's responses still falls short of experienced math teachers. Our work sheds light on the potential and limitations of using current LLMs to provide high-quality learning experiences for both tutors and students at scale. Our work is open-sourced at this link: \url{https://github.com/rosewang2008/remath}.
翻訳日:2023-10-17 12:20:08 公開日:2023-10-16
# ビデオ拡散モデルに関する調査研究

A Survey on Video Diffusion Models ( http://arxiv.org/abs/2310.10647v1 )

ライセンス: Link先を確認
Zhen Xing, Qijun Feng, Haoran Chen, Qi Dai, Han Hu, Hang Xu, Zuxuan Wu, Yu-Gang Jiang(参考訳) AIGC(AI- generated content)の最近の波は、コンピュータビジョンにおいてかなりの成功を収め、拡散モデルがこの達成に重要な役割を果たしている。 その優れた生成能力のため、拡散モデルはganや自己回帰トランスフォーマーに基づく手法を徐々に置き換えており、画像生成や編集だけでなく、ビデオ関連研究の分野でも例外的な性能を示している。 しかし、既存の調査は主に画像生成の文脈における拡散モデルに焦点を当てており、ビデオ領域での応用に関する最新のレビューはほとんどない。 本稿では,このギャップに対処するため,aigc時代のビデオ拡散モデルの包括的レビューを行う。 具体的には,拡散モデルの基本と進化の簡潔な紹介から始める。 次に,映像領域における拡散モデルの研究の概要を概観し,映像生成,映像編集,その他の映像理解タスクの3つの重要領域に分類する。 我々は,この分野におけるさらなる分類と実践的貢献を含む,これら3つの分野の文献を徹底的にレビューする。 最後に,本領域の研究で直面する課題について考察し,今後の発展動向について概説する。 この調査で研究されたビデオ拡散モデルの包括的なリストは、https://github.com/chenhsing/awesome-video-diffusion-modelsで見ることができる。

The recent wave of AI-generated content (AIGC) has witnessed substantial success in computer vision, with the diffusion model playing a crucial role in this achievement. Due to their impressive generative capabilities, diffusion models are gradually superseding methods based on GANs and auto-regressive Transformers, demonstrating exceptional performance not only in image generation and editing, but also in the realm of video-related research. However, existing surveys mainly focus on diffusion models in the context of image generation, with few up-to-date reviews on their application in the video domain. To address this gap, this paper presents a comprehensive review of video diffusion models in the AIGC era. Specifically, we begin with a concise introduction to the fundamentals and evolution of diffusion models. Subsequently, we present an overview of research on diffusion models in the video domain, categorizing the work into three key areas: video generation, video editing, and other video understanding tasks. We conduct a thorough review of the literature in these three key areas, including further categorization and practical contributions in the field. Finally, we discuss the challenges faced by research in this domain and outline potential future developmental trends. A comprehensive list of video diffusion models studied in this survey is available at https://github.com/ChenHsing/Awesome-Video-Diffusion-Models.
翻訳日:2023-10-17 12:19:43 公開日:2023-10-16
# 言語モデルを用いた対話型タスク計画

Interactive Task Planning with Language Models ( http://arxiv.org/abs/2310.10645v1 )

ライセンス: Link先を確認
Boyi Li and Philipp Wu and Pieter Abbeel and Jitendra Malik(参考訳) 対話型ロボットフレームワークは、長期のタスク計画を実現し、実行中であっても、新しい目標や異なるタスクに容易に一般化することができる。 しかし、ほとんどの伝統的な手法では事前定義されたモジュール設計が必要であり、異なる目標への一般化が困難である。 最近の大規模言語モデルに基づくアプローチは、よりオープンな計画を可能にするが、多くの場合、大量のプロンプトエンジニアリングやドメイン固有の事前学習モデルを必要とする。 そこで本稿では,言語モデルを用いた対話型タスク計画を実現するためのシンプルなフレームワークを提案する。 本システムは,言語による高レベル計画と低レベル関数実行の両方を組み込んでいる。 提案手法は, 複雑なプロンプトエンジニアリングを必要とせず, 単にタスクガイドラインを置換することによって, 未知の目的に対する新しい高レベル命令の生成と, 異なるタスクへの適応の容易さを検証できる。 さらに,ユーザが新しい要求を送信した場合,新たな要求,タスクガイドライン,以前に実行されたステップに基づいて,精度に応じて再計画を行うことができる。 詳細はhttps://wuphilipp.github.io/itp_siteとhttps://youtu.be/TrKLuyv26_gを参照してください。

An interactive robot framework accomplishes long-horizon task planning and can easily generalize to new goals or distinct tasks, even during execution. However, most traditional methods require predefined module design, which makes it hard to generalize to different goals. Recent large language model based approaches can allow for more open-ended planning but often require heavy prompt engineering or domain-specific pretrained models. To tackle this, we propose a simple framework that achieves interactive task planning with language models. Our system incorporates both high-level planning and low-level function execution via language. We verify the robustness of our system in generating novel high-level instructions for unseen objectives and its ease of adaptation to different tasks by merely substituting the task guidelines, without the need for additional complex prompt engineering. Furthermore, when the user sends a new request, our system is able to replan accordingly with precision based on the new request, task guidelines and previously executed steps. Please check more details on our https://wuphilipp.github.io/itp_site and https://youtu.be/TrKLuyv26_g.
翻訳日:2023-10-17 12:19:23 公開日:2023-10-16
# TOSS:単一画像からの高品質テキスト誘導型新規ビュー合成

TOSS:High-quality Text-guided Novel View Synthesis from a Single Image ( http://arxiv.org/abs/2310.10644v1 )

ライセンス: Link先を確認
Yukai Shi, Jianan Wang, He Cao, Boshi Tang, Xianbiao Qi, Tianyu Yang, Yukun Huang, Shilong Liu, Lei Zhang, Heung-Yeung Shum(参考訳) 本稿では,単一のRGB画像から新しいビュー合成(NVS)タスクにテキストを導入するTOSSを提案する。 Zero-1-to-3 は、ゼロショットのオープンセット NVS の機能を示すが、NVS を純粋な画像から画像への変換問題として扱う。 このアプローチはシングルビューnvsの難易度の低い性質に苦しんでいる: このプロセスは明示的なユーザー制御の手段がなく、しばしば目立たないnvs世代をもたらす。 この制限に対処するため、TOSSはテキストを高レベルのセマンティック情報として使用し、NVSソリューション空間を制限している。 tossは、大規模なテキスト画像ペアで事前訓練されたテキストから画像への安定拡散を微調整し、画像とカメラのポーズコンディショニングに特化したモジュールを導入した。 提案したTOSSはZero-1-to-3より優れ, 可塑性, 制御性, マルチビュー一貫性を有するNVSよりも優れていた。 導入したセマンティックガイダンスとアーキテクチャ設計の有効性と可能性を裏付ける包括的改善によって、これらの結果をさらに支援する。

In this paper, we present TOSS, which introduces text to the task of novel view synthesis (NVS) from just a single RGB image. While Zero-1-to-3 has demonstrated impressive zero-shot open-set NVS capability, it treats NVS as a pure image-to-image translation problem. This approach suffers from the challengingly under-constrained nature of single-view NVS: the process lacks means of explicit user control and often results in implausible NVS generations. To address this limitation, TOSS uses text as high-level semantic information to constrain the NVS solution space. TOSS fine-tunes text-to-image Stable Diffusion pre-trained on large-scale text-image pairs and introduces modules specifically tailored to image and camera pose conditioning, as well as dedicated training for pose correctness and preservation of fine details. Comprehensive experiments are conducted with results showing that our proposed TOSS outperforms Zero-1-to-3 with more plausible, controllable and multiview-consistent NVS results. We further support these results with comprehensive ablations that underscore the effectiveness and potential of the introduced semantic guidance and architecture design.
翻訳日:2023-10-17 12:19:02 公開日:2023-10-16
# 4次元gaussian splattingによる実時間フォトリアリスティック動的シーン表現とレンダリング

Real-time Photorealistic Dynamic Scene Representation and Rendering with 4D Gaussian Splatting ( http://arxiv.org/abs/2310.10642v1 )

ライセンス: Link先を確認
Zeyu Yang, Hongye Yang, Zijie Pan, Xiatian Zhu, Li Zhang(参考訳) 2次元画像から動的3Dシーンを再構成し、時間とともに多様なビューを生成することは、シーンの複雑さと時間的ダイナミクスのために困難である。 神経暗黙モデルの発展にもかかわらず、制限は持続する。 (i)不適切なシーン構造:既存の手法は、複雑な6次元光機能を直接学習することから、動的シーンの空間的・時間的構造を明らかにするのに苦労する。 (ii) スケーリング変形モデリング: 複雑なダイナミクスでは、シーン要素の明示的にモデリングすることは現実的ではない。 これらの問題に対処するため,我々は時空を全体として考慮し,動的シーンの時空間的4dボリュームを,明示的な幾何学と外観モデリングを用いて4dプリミティブのコレクションを最適化することにより近似する。 4dプリミティブを最適化する学習は、カスタマイズされたレンダリングルーチンで任意の時間に新しいビューを合成できる。 我々のモデルは概念的に単純であり、異方性楕円によってパラメータ化され、空間と時間で任意に回転する4次元ガウスのパラメータと、4次元球面調和係数で表されるビュー依存および時間進化の外観から構成される。 このアプローチは、シンプルさ、可変長ビデオとエンドツーエンドのトレーニングのための柔軟性、効率的なリアルタイムレンダリングを提供する。 モノクロおよびマルチビューシナリオを含む様々なベンチマーク実験は、我々の4DGSモデルの優れた視覚的品質と効率を実証する。

Reconstructing dynamic 3D scenes from 2D images and generating diverse views over time is challenging due to scene complexity and temporal dynamics. Despite advancements in neural implicit models, limitations persist: (i) Inadequate Scene Structure: Existing methods struggle to reveal the spatial and temporal structure of dynamic scenes from directly learning the complex 6D plenoptic function. (ii) Scaling Deformation Modeling: Explicitly modeling scene element deformation becomes impractical for complex dynamics. To address these issues, we consider the spacetime as an entirety and propose to approximate the underlying spatio-temporal 4D volume of a dynamic scene by optimizing a collection of 4D primitives, with explicit geometry and appearance modeling. Learning to optimize the 4D primitives enables us to synthesize novel views at any desired time with our tailored rendering routine. Our model is conceptually simple, consisting of a 4D Gaussian parameterized by anisotropic ellipses that can rotate arbitrarily in space and time, as well as view-dependent and time-evolved appearance represented by the coefficient of 4D spherindrical harmonics. This approach offers simplicity, flexibility for variable-length video and end-to-end training, and efficient real-time rendering, making it suitable for capturing complex dynamic scene motions. Experiments across various benchmarks, including monocular and multi-view scenarios, demonstrate our 4DGS model's superior visual quality and efficiency.
翻訳日:2023-10-17 12:18:36 公開日:2023-10-16
# LLM Blueprint:複雑で詳細なプロンプトによるテキスト・画像生成の実現

LLM Blueprint: Enabling Text-to-Image Generation with Complex and Detailed Prompts ( http://arxiv.org/abs/2310.10640v1 )

ライセンス: Link先を確認
Hanan Gani, Shariq Farooq Bhat, Muzammal Naseer, Salman Khan, Peter Wonka(参考訳) 拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長い複雑なテキストのプロンプトを処理すると、複雑なシーンを複数のオブジェクトで記述することが困難になる。 単一対象の短い記述から画像を生成するのに優れているが、これらのモデルは、より長くより精巧なテキスト入力の中で、すべてのニュアンスされた詳細を忠実に捉えるのに苦労することが多い。 本稿では,前景オブジェクトのバウンディングボックス座標,個々のオブジェクトに対する詳細なテキスト記述,簡潔な背景コンテキストなど,テキストプロンプトから重要なコンポーネントを抽出するために,大規模言語モデル(llms)を活用する新しい手法を提案する。 これらのコンポーネントは、2つのフェーズで動作するレイアウト・ツー・イメージ生成モデルの基礎を形成します。 初期のグローバルシーン生成では、オブジェクトレイアウトと背景コンテキストを使用して初期シーンを生成するが、プロンプトで指定されたオブジェクト特性を忠実に表現することがしばしばある。 この制限に対処するために、ボックスレベルのコンテンツを反復的に評価・洗練し、テキスト記述と整合させ、一貫性を確保するために必要に応じてオブジェクトを再構成する反復的リファインメントスキームを導入する。 複数のオブジェクトを含む複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。 複雑なテキスト入力からコヒーレントで詳細なシーンを生成するためのアプローチの有効性を,ユーザによる研究によってさらに検証した。

Diffusion-based generative models have significantly advanced text-to-image generation but encounter challenges when processing lengthy and intricate text prompts describing complex scenes with multiple objects. While excelling in generating images from short, single-object descriptions, these models often struggle to faithfully capture all the nuanced details within longer and more elaborate textual inputs. In response, we present a novel approach leveraging Large Language Models (LLMs) to extract critical components from text prompts, including bounding box coordinates for foreground objects, detailed textual descriptions for individual objects, and a succinct background context. These components form the foundation of our layout-to-image generation model, which operates in two phases. The initial Global Scene Generation utilizes object layouts and background context to create an initial scene but often falls short in faithfully representing object characteristics as specified in the prompts. To address this limitation, we introduce an Iterative Refinement Scheme that iteratively evaluates and refines box-level content to align them with their textual descriptions, recomposing objects as needed to ensure consistency. Our evaluation on complex prompts featuring multiple objects demonstrates a substantial improvement in recall compared to baseline diffusion models. This is further validated by a user study, underscoring the efficacy of our approach in generating coherent and detailed scenes from intricate textual inputs.
翻訳日:2023-10-17 12:18:09 公開日:2023-10-16
# In-Context Pretraining: ドキュメント境界を越えた言語モデリング

In-Context Pretraining: Language Modeling Beyond Document Boundaries ( http://arxiv.org/abs/2310.10638v1 )

ライセンス: Link先を確認
Weijia Shi and Sewon Min and Maria Lomeli and Chunting Zhou and Margaret Li and Victoria Lin and Noah A. Smith and Luke Zettlemoyer and Scott Yih and Mike Lewis(参考訳) 大規模な言語モデル(lms)は現在、ドキュメントプレフィックスが与えられたトークンを予測するように訓練されており、直接ロングフォーム生成や、ドキュメント補完に還元可能なプロンプトスタイルのタスクを実行することができる。 既存の事前訓練パイプラインは、短い文書のランダムなセットを連結して入力コンテキストを作成することでLMを訓練するが、以前の文書は次の文書を予測するための信号を提供しない。 In-Context Pretrainingは、言語モデルが関連する文書のシーケンスで事前訓練される新しいアプローチであり、それによって文書境界を越えて読み書きを明示的に促す。 In-Context Pretrainingは、ドキュメントの順序を変更するだけで、それぞれのコンテキストに関連ドキュメントが含まれ、既存の事前トレーニングパイプラインを直接適用できる。 しかし,この文書ソート問題は困難である。 何十億ものドキュメントがあり、データを繰り返すことなく、すべてのドキュメントの文脈的類似性を最大化したいと考えています。 そこで本研究では, 近接探索を効率よく行う関連文書の探索と, グラフトラバーサルアルゴリズムを用いたコヒーレントな入力コンテキスト構築のための近似アルゴリズムを提案する。 in-context learning (+8%), reading comprehension (+15%), honestness to previous contexts (+16%), long-context reasoning (+5%), retrieval augmentation (+9%) など,より複雑なコンテキスト推論を必要とするタスクには注目すべき改善点があります。

Large language models (LMs) are currently trained to predict tokens given document prefixes, enabling them to directly perform long-form generation and prompting-style tasks which can be reduced to document completion. Existing pretraining pipelines train LMs by concatenating random sets of short documents to create input contexts but the prior documents provide no signal for predicting the next document. We instead present In-Context Pretraining, a new approach where language models are pretrained on a sequence of related documents, thereby explicitly encouraging them to read and reason across document boundaries. We can do In-Context Pretraining by simply changing the document ordering so that each context contains related documents, and directly applying existing pretraining pipelines. However, this document sorting problem is challenging. There are billions of documents and we would like the sort to maximize contextual similarity for every document without repeating any data. To do this, we introduce approximate algorithms for finding related documents with efficient nearest neighbor search and constructing coherent input contexts with a graph traversal algorithm. Our experiments show In-Context Pretraining offers a simple and scalable approach to significantly enhance LMs'performance: we see notable improvements in tasks that require more complex contextual reasoning, including in-context learning (+8%), reading comprehension (+15%), faithfulness to previous contexts (+16%), long-context reasoning (+5%), and retrieval augmentation (+9%).
翻訳日:2023-10-17 12:17:43 公開日:2023-10-16
# 失敗は成長を助ける--教室における成長マインドセット支援言語の実現と評価

"Mistakes Help Us Grow": Facilitating and Evaluating Growth Mindset Supportive Language in Classrooms ( http://arxiv.org/abs/2310.10637v1 )

ライセンス: Link先を確認
Kunal Handa, Margaret Clapper, Jessica Boyle, Rose E Wang, Diyi Yang, David S Yeager, Dorottya Demszky(参考訳) 教師の成長マインドセット支援言語(GMSL)は、時間とともにスキルが向上できることを強調し、学業成績の格差を著しく減らし、学生の学習成果を高めることが示されている。 教師は成長マインドセットの原則を重んじるが、この領域では効果的なコーチングが欠如しているため、実践においてGMSLを採用することは困難である。 大規模言語モデル(LLM)が教師のGMSL活用を支援するために,自動的,パーソナライズされたコーチングを提供するかどうかを検討する。 GMSLに非サポート的発話を再構成する効果的なコーチングツールの構築 (i)gmslにより訓練された教師による非支援文のリフレーミングを含む並列データセット (二)教師の非サポート言語を改訂するためのGMSLプロンプト・フレームワーク (iii)学生や教師の助けを借りてgmslを評価するための心理学理論に基づく評価枠組み。 我々は174人の教師と1,006人の学生による大規模評価を行い、教師と学生がGMSLで訓練された教師とモデルリフレーミングを、成長マインドセットの育成や課題探究行動の促進に有効であると見なしている。 また,モデル生成リフレーミングは,GMSL学習教師よりも優れていた。 これらの結果は,LLMが教師にGMSLのフィードバックを自動で提供することを約束し,より広範に,教室での学習を支援するためのLLMの可能性を示している。 また,LLMを教育分野に適用する場合の大規模評価のメリットも示した。

Teachers' growth mindset supportive language (GMSL)--rhetoric emphasizing that one's skills can be improved over time--has been shown to significantly reduce disparities in academic achievement and enhance students' learning outcomes. Although teachers espouse growth mindset principles, most find it difficult to adopt GMSL in their practice due the lack of effective coaching in this area. We explore whether large language models (LLMs) can provide automated, personalized coaching to support teachers' use of GMSL. We establish an effective coaching tool to reframe unsupportive utterances to GMSL by developing (i) a parallel dataset containing GMSL-trained teacher reframings of unsupportive statements with an accompanying annotation guide, (ii) a GMSL prompt framework to revise teachers' unsupportive language, and (iii) an evaluation framework grounded in psychological theory for evaluating GMSL with the help of students and teachers. We conduct a large-scale evaluation involving 174 teachers and 1,006 students, finding that both teachers and students perceive GMSL-trained teacher and model reframings as more effective in fostering a growth mindset and promoting challenge-seeking behavior, among other benefits. We also find that model-generated reframings outperform those from the GMSL-trained teachers. These results show promise for harnessing LLMs to provide automated GMSL feedback for teachers and, more broadly, LLMs' potentiality for supporting students' learning in the classroom. Our findings also demonstrate the benefit of large-scale human evaluations when applying LLMs in educational domains.
翻訳日:2023-10-17 12:17:17 公開日:2023-10-16
# マルチモーダル大言語モデルによるエンド・ツー・エンドの身体決定に向けて: GPT4-Vision による探索と超越

Towards End-to-End Embodied Decision Making via Multi-modal Large Language Model: Explorations with GPT4-Vision and Beyond ( http://arxiv.org/abs/2310.02071v3 )

ライセンス: Link先を確認
Liang Chen, Yichi Zhang, Shuhuai Ren, Haozhe Zhao, Zefan Cai, Yuchi Wang, Peiyi Wang, Tianyu Liu, Baobao Chang(参考訳) 本研究では,エージェントの具体的意思決定プロセスを改善する上で,MLLM(Multimodal Large Language Models)の可能性を検討する。 大きな言語モデル(LLM)はその高度な推論技術と広大な世界知識のために広く使われているが、GPT4-VisionのようなMLLMは視覚的理解と推論能力の向上を提供する。 我々は,最先端のMLLMがエンド・ツー・エンドで具体的意思決定を扱えるか,LLMとMLLMの連携が意思決定を促進するかを検討する。 これらの問題に対処するため,PCA-EVALと呼ばれる新しいベンチマークを導入し,知覚,認知,行動の観点から具体的意思決定を評価する。 さらに,マルチエージェント協調フレームワークであるhomesを提案する。llmがmllmとapiを活用して,インフォームド意思決定のためのマルチモーダル情報収集を可能にする。 GPT4-Visionモデルでは, 平均判定精度(+3%)において, GPT4-HOLMESを上回り, GPT4-HOLMESよりも高い結果が得られた。 しかし、この性能は最新のGPT4-Visionモデルのみであり、オープンソースのMLLMを26%上回っている。 GPT4-Visionのような強力なMLLMは、エンボディエージェントの意思決定を約束し、MLLM研究の新たな道筋を提供する。 コードとデータはhttps://github.com/pkunlp-icler/PCA-EVAL/.comで公開されている。

In this study, we explore the potential of Multimodal Large Language Models (MLLMs) in improving embodied decision-making processes for agents. While Large Language Models (LLMs) have been widely used due to their advanced reasoning skills and vast world knowledge, MLLMs like GPT4-Vision offer enhanced visual understanding and reasoning capabilities. We investigate whether state-of-the-art MLLMs can handle embodied decision-making in an end-to-end manner and whether collaborations between LLMs and MLLMs can enhance decision-making. To address these questions, we introduce a new benchmark called PCA-EVAL, which evaluates embodied decision-making from the perspectives of Perception, Cognition, and Action. Additionally, we propose HOLMES, a multi-agent cooperation framework that allows LLMs to leverage MLLMs and APIs to gather multimodal information for informed decision-making. We compare end-to-end embodied decision-making and HOLMES on our benchmark and find that the GPT4-Vision model demonstrates strong end-to-end embodied decision-making abilities, outperforming GPT4-HOLMES in terms of average decision accuracy (+3%). However, this performance is exclusive to the latest GPT4-Vision model, surpassing the open-source state-of-the-art MLLM by 26%. Our results indicate that powerful MLLMs like GPT4-Vision hold promise for decision-making in embodied agents, offering new avenues for MLLM research. Code and data are open at https://github.com/pkunlp-icler/PCA-EVAL/.
翻訳日:2023-10-17 10:34:51 公開日:2023-10-16
# HRリモートセンシング画像における変化検出のためのセグメントモデルの適用

Adapting Segment Anything Model for Change Detection in HR Remote Sensing Images ( http://arxiv.org/abs/2309.01429v3 )

ライセンス: Link先を確認
Lei Ding, Kun Zhu, Daifeng Peng, Hao Tang, Kuiwu Yang and Lorenzo Bruzzone(参考訳) Segment Anything Model (SAM) のような視覚基礎モデル(VFM)は、ゼロショットまたはインタラクティブな視覚内容のセグメンテーションを可能にするため、様々な視覚シーンに迅速に適用することができる。 しかし、多くのリモートセンシング(rs)アプリケーションでの直接の使用は、rs画像の特別な撮像特性のため、しばしば不十分である。 本研究では,高解像度リモートセンシング画像(RSI)の変化検出を改善するために,VFMの強力な視覚認識機能を活用することを目的とする。 我々は、能率的なSAMの変種であるFastSAMの視覚エンコーダを用いて、RSシーンの視覚表現を抽出する。 我々は,FastSAMをRSシーンの特定の基底オブジェクトに適応させるために,タスク指向の変更情報を集約する畳み込み適応器を提案する。 さらに、SAMの特徴に固有の意味表現を活用するために、両時間RSIにおける意味潜在をモデル化するためのタスク非依存の意味学習ブランチを導入する。 SAMCD法は,SOTA法と比較して精度が高く,半教師付きCD法に匹敵する標本効率の学習能力を示す。 私たちの知る限りでは、HR RSIのCDにVFMを適用する最初の作品です。

Vision Foundation Models (VFMs) such as the Segment Anything Model (SAM) allow zero-shot or interactive segmentation of visual contents, thus they are quickly applied in a variety of visual scenes. However, their direct use in many Remote Sensing (RS) applications is often unsatisfactory due to the special imaging characteristics of RS images. In this work, we aim to utilize the strong visual recognition capabilities of VFMs to improve the change detection of high-resolution Remote Sensing Images (RSIs). We employ the visual encoder of FastSAM, an efficient variant of the SAM, to extract visual representations in RS scenes. To adapt FastSAM to focus on some specific ground objects in the RS scenes, we propose a convolutional adaptor to aggregate the task-oriented change information. Moreover, to utilize the semantic representations that are inherent to SAM features, we introduce a task-agnostic semantic learning branch to model the semantic latent in bi-temporal RSIs. The resulting method, SAMCD, obtains superior accuracy compared to the SOTA methods and exhibits a sample-efficient learning ability that is comparable to semi-supervised CD methods. To the best of our knowledge, this is the first work that adapts VFMs for the CD of HR RSIs.
翻訳日:2023-10-17 10:34:17 公開日:2023-10-16
# ソフトプロンプトの検索による命令追従モデルのゼロショット性能の効率向上

Efficiently Enhancing Zero-Shot Performance of Instruction Following Model via Retrieval of Soft Prompt ( http://arxiv.org/abs/2210.03029v4 )

ライセンス: Link先を確認
Seonghyeon Ye, Joel Jang, Doyoung Kim, Yongrae Jo, Minjoon Seo(参考訳) 命令追従モデルのゼロショット性能を向上させるには、トレーニングデータセットの総数やモデルサイズをスケールすることで、重い計算が必要となる。 本研究では,ゼロショットタスクの一般化において,プロンプトチューニングによって得られるソフトプロンプトの検索を効率的に支援する方法を検討する。 具体的には、プロンプトチューニングを通じて各プロンプトのソフトプロンプト組込みをトレーニングし、プロンプト組込みでマップされたトレーニングインスタンスのサンプルを格納し、推論中にクエリインスタンスに最も近いトレーニングインスタンスの対応するプロンプト組込みを取得する。 0.007%の追加パラメータしか加えていないが、ソフトプロンプトの検索は、未確認タスクにおけるT0のパフォーマンスを11つのデータセットのうち10で上回り、BIG-benchベンチマークにおけるT0の平均精度を2.39%向上させる。 また、類似した回答選択フォーマットでトレーニングされたソース埋め込みの検索が、類似したタスクタイプよりも重要であるという興味深い発見を報告する。

Enhancing the zero-shot performance of instruction-following models requires heavy computation, either by scaling the total number of training datasets or the model size. In this work, we explore how retrieval of soft prompts obtained through prompt tuning can efficiently assist hard prompts in zero-shot task generalization. Specifically, we train soft prompt embeddings for each prompt through prompt tuning, store the samples of the training instances mapped with the prompt embeddings, and retrieve the corresponding prompt embedding of the training instance closest to the query instance during inference. While only adding 0.007% additional parameters, retrieval of soft prompt enhances the performance of T0 on unseen tasks by outperforming it on 10 out of 11 datasets as well as improving the mean accuracy of T0 on BIG-bench benchmark by 2.39% points. Also, we report an interesting finding that retrieving source embeddings trained on similar answer choice formats is more important than those on similar task types.
翻訳日:2023-10-17 10:33:57 公開日:2023-10-16
# 知識強化とアライメントによる知識付き対話システムにおける実情整合性の改善

Improving Factual Consistency for Knowledge-Grounded Dialogue Systems via Knowledge Enhancement and Alignment ( http://arxiv.org/abs/2310.08372v2 )

ライセンス: Link先を確認
Boyang Xue and Weichao Wang and Hongru Wang and Fei Mi and Rui Wang and Yasheng Wang and Lifeng Shang and Xin Jiang and Qun Liu and Kam-Fai Wong(参考訳) 事前訓練言語モデル(PLM)に基づく知識基底対話システムは、提供された知識源と実際に矛盾しない応答を生成する傾向にある。 このような矛盾した反応では、対話モデルは彼らが依存する外部知識を正確に表現できない。 トランスフォーマー内のフィードフォワードネットワーク(FFN)が事実知識表現の責任を負っていると判断する以前の研究から着想を得て,知識の強化とアライメントによる事実表現能力(FFNs)を効率的に改善する2つの方法を検討した。 そこで我々はまず,知識接頭辞入力の特定のパターンを考慮し,変換子に拡張FFNを導入し,現実的知識表現を向上する「textsc{K-Dial}」を提案する。 さらに,事実整合性(rlfc)法に強化学習を適用し,事実一貫性優先のためのゴールド知識と整合することにより,応答中のffn表現を暗黙的に調整する。 応答の事実整合性と対話品質を包括的に評価するために,高度な粒度NLI基準を含む広範囲な自動測度と人的評価を用いる。 WoW と CMU\_DoG データセットによる実験結果から,本手法は実測知識を伝達するFFN モジュールの効率よく向上し,実測情報に基づく対話システムにおける実測一貫性向上の有効性が検証された。

Pretrained language models (PLMs) based knowledge-grounded dialogue systems are prone to generate responses that are factually inconsistent with the provided knowledge source. In such inconsistent responses, the dialogue models fail to accurately express the external knowledge they rely upon. Inspired by previous work which identified that feed-forward networks (FFNs) within Transformers are responsible for factual knowledge expressions, we investigate two methods to efficiently improve the factual expression capability {of FFNs} by knowledge enhancement and alignment respectively. We first propose \textsc{K-Dial}, which {explicitly} introduces {extended FFNs in Transformers to enhance factual knowledge expressions} given the specific patterns of knowledge-grounded dialogue inputs. Additionally, we apply the reinforcement learning for factual consistency (RLFC) method to implicitly adjust FFNs' expressions in responses by aligning with gold knowledge for the factual consistency preference. To comprehensively assess the factual consistency and dialogue quality of responses, we employ extensive automatic measures and human evaluations including sophisticated fine-grained NLI-based metrics. Experimental results on WoW and CMU\_DoG datasets demonstrate that our methods efficiently enhance the ability of the FFN module to convey factual knowledge, validating the efficacy of improving factual consistency for knowledge-grounded dialogue systems.
翻訳日:2023-10-17 10:29:21 公開日:2023-10-16
# 交通流予測のための時空間適応グラフ変換器

Transport-Hub-Aware Spatial-Temporal Adaptive Graph Transformer for Traffic Flow Prediction ( http://arxiv.org/abs/2310.08328v2 )

ライセンス: Link先を確認
Xiao Xu, Lei Zhang, Bailong Liu, Zhizhen Liang and Xuefei Zhang(参考訳) インテリジェントトランスポーテーションシステム(ITS)のコア技術として、交通流予測には幅広い応用がある。 交通流のデータは時空間的であり、道路網の空間的位置と相関するだけでなく、時間的時間指標も異なる。 既存の手法では,交通フローデータの本質的特性を十分に活用しつつも,空間的・時間的依存関係を効果的にモデル化することに集中して,交通フロー予測の課題を部分的に解決している。 さらに、空間的時間的データマイニングのインクリメンタルな学習の試みはごくわずかであり、トラフィックフロー予測タスクに簡単に移行できる以前の作業はほとんどない。 トラヒックフロー予測のためのインクリメンタル学習手法の挑戦と道路網の固有特性の過小利用に動機づけられ,トラヒックフロー予測のためのh-stformer (transport-hub-aware spatial-temporal adaptive graph transformer) を提案する。 具体的には, 動的空間依存性を捉えるための新しい空間自己アテンションモジュールをまず設計する。 3つのグラフマスキング行列を空間的自己アテンションに統合し、短期的および長期的依存の両方を強調する。 さらに,トラヒックフローデータの動的時間パターンを検出するために,時間的自己アテンションモジュールを用いる。 最後に,交通流予測タスクの漸進的学習のための時空間知識蒸留モジュールを設計する。 実験により,H-STFormerの正常およびインクリメンタルトラフィックフロー予測における有効性を示す。 コードはhttps://github.com/Fantasy-Shaw/H-STFormerで入手できる。

As a core technology of Intelligent Transportation System (ITS), traffic flow prediction has a wide range of applications. Traffic flow data are spatial-temporal, which are not only correlated to spatial locations in road networks, but also vary with temporal time indices. Existing methods have solved the challenges in traffic flow prediction partly, focusing on modeling spatial-temporal dependencies effectively, while not all intrinsic properties of traffic flow data are utilized fully. Besides, there are very few attempts at incremental learning of spatial-temporal data mining, and few previous works can be easily transferred to the traffic flow prediction task. Motivated by the challenge of incremental learning methods for traffic flow prediction and the underutilization of intrinsic properties of road networks, we propose a Transport-Hub-aware Spatial-Temporal adaptive graph transFormer (H-STFormer) for traffic flow prediction. Specifically, we first design a novel spatial self-attention module to capture the dynamic spatial dependencies. Three graph masking matrices are integrated into spatial self-attentions to highlight both short- and long-term dependences. Additionally, we employ a temporal self-attention module to detect dynamic temporal patterns in the traffic flow data. Finally, we design an extra spatial-temporal knowledge distillation module for incremental learning of traffic flow prediction tasks. Through extensive experiments, we show the effectiveness of H-STFormer in normal and incremental traffic flow prediction tasks. The code is available at https://github.com/Fantasy-Shaw/H-STFormer.
翻訳日:2023-10-17 10:28:52 公開日:2023-10-16
# DualAug:OODデータ削除で追加の重大拡張を実施

DualAug: Exploiting Additional Heavy Augmentation with OOD Data Rejection ( http://arxiv.org/abs/2310.08139v2 )

ライセンス: Link先を確認
Zehao Wang, Yiwen Guo, Qizhang Li, Guanglei Yang, Wangmeng Zuo(参考訳) データ拡張は、モデルの過剰適合を減らし、一般化を改善する主要な方法である。 既存のデータ拡張手法の多くは、データ拡張の妥協点を見出す傾向にあり、拡張の振幅を慎重に増やすことで、データを過度に分解することを避け、モデル性能に悪影響を与える。 データ拡張とモデルパフォーマンスの関係を掘り下げ、重い拡張を伴うパフォーマンス低下は、アウト・オブ・ディストリビューション(OOD)データの存在から生じることを明らかにした。 それにもかかわらず、同じデータ変換が異なるトレーニングサンプルに対して異なる効果を持つため、重い拡張であっても、モデルトレーニングに有益な分散データの一部が残っている。 そこで本研究では,データ拡張手法であるtextbf{DualAug} を提案する。 基本分枝と重分枝の両方から拡張データを融合するデータ混合戦略を設計する。 教師付き画像分類ベンチマークの広範な実験により、dualaugは様々な自動データ拡張法を改善した。 さらに,半教師付き学習と対照的自己教師付き学習の実験により,dualaugは関連する方法も改善できることを示した。 コードは \href{https://github.com/shuguang99/DualAug}{https://github.com/shuguang99/DualAug} で公開されている。

Data augmentation is a dominant method for reducing model overfitting and improving generalization. Most existing data augmentation methods tend to find a compromise in augmenting the data, \textit{i.e.}, increasing the amplitude of augmentation carefully to avoid degrading some data too much and doing harm to the model performance. We delve into the relationship between data augmentation and model performance, revealing that the performance drop with heavy augmentation comes from the presence of out-of-distribution (OOD) data. Nonetheless, as the same data transformation has different effects for different training samples, even for heavy augmentation, there remains part of in-distribution data which is beneficial to model training. Based on the observation, we propose a novel data augmentation method, named \textbf{DualAug}, to keep the augmentation in distribution as much as possible at a reasonable time and computational cost. We design a data mixing strategy to fuse augmented data from both the basic- and the heavy-augmentation branches. Extensive experiments on supervised image classification benchmarks show that DualAug improve various automated data augmentation method. Moreover, the experiments on semi-supervised learning and contrastive self-supervised learning demonstrate that our DualAug can also improve related method. Code is available at \href{https://github.com/shuguang99/DualAug}{https://github.com/shuguang99/DualAug}.
翻訳日:2023-10-17 10:28:08 公開日:2023-10-16
# スパイキングニューラルネットワークの効果的なトレーニングのためのスパイク累積フォワード

Spike Accumulation Forwarding for Effective Training of Spiking Neural Networks ( http://arxiv.org/abs/2310.02772v3 )

ライセンス: Link先を確認
Ryuji Saiin, Tomoya Shirakawa, Sota Yoshihara, Yoshihide Sawada and Hiroyuki Kusumoto(参考訳) 本稿では、スパイキングニューラルネットワーク(SNN)、スパイク累積フォワード(SAF)をトレーニングするための新しいパラダイムを提案する。 SNNはエネルギー効率が高いが、訓練が難しいことが知られている。 その結果、多くの研究者がこの問題を解決するための様々な方法を提案しており、そのうちの1つは、時間によるオンライントレーニング(OTTT)が、メモリコストを抑えながら各ステップで推論できる方法である。 しかし、GPU上で効率よく計算するためには、OTTTはスパイク列車とフォワード中のスパイク列車の重み付け総和で操作する必要がある。 加えて、otttはスパイク表現との理論的一致が証明されていないが、代替訓練法であるスパイク表現との関係を示した。 提案手法は,SAFが前処理中の操作数を半減し,SAFがSpike RepresentationとOTTTと整合性があることを理論的に証明できる。 さらに,上記の内容を実験により確認し,精度を維持しつつ記憶時間とトレーニング時間を短縮できることを示した。

In this article, we propose a new paradigm for training spiking neural networks (SNNs), spike accumulation forwarding (SAF). It is known that SNNs are energy-efficient but difficult to train. Consequently, many researchers have proposed various methods to solve this problem, among which online training through time (OTTT) is a method that allows inferring at each time step while suppressing the memory cost. However, to compute efficiently on GPUs, OTTT requires operations with spike trains and weighted summation of spike trains during forwarding. In addition, OTTT has shown a relationship with the Spike Representation, an alternative training method, though theoretical agreement with Spike Representation has yet to be proven. Our proposed method can solve these problems; namely, SAF can halve the number of operations during the forward process, and it can be theoretically proven that SAF is consistent with the Spike Representation and OTTT, respectively. Furthermore, we confirmed the above contents through experiments and showed that it is possible to reduce memory and training time while maintaining accuracy.
翻訳日:2023-10-17 10:26:19 公開日:2023-10-16
# 空間内および空間横断マップへの生成的エントロピーニューラル最適輸送

Generative Entropic Neural Optimal Transport To Map Within and Across Spaces ( http://arxiv.org/abs/2310.09254v2 )

ライセンス: Link先を確認
Dominik Klein, Th\'eo Uscidda, Fabian Theis, Marco Cuturi(参考訳) 学習測度マッピングは機械学習において重要な課題であり、生成モデリングにおいて顕著である。 近年、最適輸送(ot)理論から着想を得た技術が急増している。 ニューラルネットワークモデルと組み合わせて、これらの手法を総称して「textit{Neural OT}」は帰納的バイアスとして最適輸送を用いる:そのようなマッピングは、(変位を最小限にすることで)遠方へ(等尺的に)、あるいは空間をまたいで(等尺的に)移動できるという意味で、与えられたコスト関数として最適であるべきである。 正方形のユークリッドコスト以外のコスト関数は扱いづらいが、モンジュマップの決定論的定式化は柔軟性をほとんど残さず、非可換空間を横断するマッピングは複数の課題を提起する一方、OT固有の大量保存制約はオフレーヤに過剰な信用を与える。 これらの実践と理論のミスマッチは、それぞれ独立して様々な研究で取り組まれてきたが、本研究では、それらを統一するためのエレガントな枠組みである \textit{generative entropic neural optimal transport} (genot) を提案する。 GENOTは任意のコスト関数に対応でき、条件付き生成モデルを使ってランダム性を扱う。 本手法は,様々な合成データセットを用いた実験を通して評価し,単細胞生物学における実用性を示す。 この領域では、ジェノットは細胞発達のモデル化、薬物に対する細胞応答の予測、細胞の異なるデータモダリティ間の翻訳といったタスクに有用であることが証明されている。

Learning measure-to-measure mappings is a crucial task in machine learning, featured prominently in generative modeling. Recent years have witnessed a surge of techniques that draw inspiration from optimal transport (OT) theory. Combined with neural network models, these methods collectively known as \textit{Neural OT} use optimal transport as an inductive bias: such mappings should be optimal w.r.t. a given cost function, in the sense that they are able to move points in a thrifty way, within (by minimizing displacements) or across spaces (by being isometric). This principle, while intuitive, is often confronted with several practical challenges that require adapting the OT toolbox: cost functions other than the squared-Euclidean cost can be challenging to handle, the deterministic formulation of Monge maps leaves little flexibility, mapping across incomparable spaces raises multiple challenges, while the mass conservation constraint inherent to OT can provide too much credit to outliers. While each of these mismatches between practice and theory has been addressed independently in various works, we propose in this work an elegant framework to unify them, called \textit{generative entropic neural optimal transport} (GENOT). GENOT can accommodate any cost function; handles randomness using conditional generative models; can map points across incomparable spaces, and can be used as an \textit{unbalanced} solver. We evaluate our approach through experiments conducted on various synthetic datasets and demonstrate its practicality in single-cell biology. In this domain, GENOT proves to be valuable for tasks such as modeling cell development, predicting cellular responses to drugs, and translating between different data modalities of cells.
翻訳日:2023-10-17 10:21:07 公開日:2023-10-16
# 1000以上の原子量子ビットを持つ超電荷2次元ツイーザアレイ

Supercharged two-dimensional tweezer array with more than 1000 atomic qubits ( http://arxiv.org/abs/2310.09191v2 )

ライセンス: Link先を確認
Lars Pause, Lukas Sturm, Marcel Mittenb\"uhler, Stephan Amann, Tilman Preuschoff, Dominik Sch\"affner, Malte Schlosser, Gerhard Birkl(参考訳) 本稿では,1000量子ビットを超える大規模量子処理アーキテクチャの実現について報告する。 複数のマイクロレンズ生成tweezerアレイを独立レーザ源で操作することにより、アロキャタブル量子ビット数のレーザパワー制限を解消できる。 すでに2つの配列があり、平均1167(46)の単一原子量子システムを持つ2d構成を実装している。 2つの配列間の原子の移動は高い効率で達成される。 したがって、二次配列から原子を持つ量子処理単位に指定された1つの配列を重ね合わせると、量子ビット数と初期充填率を大幅に増加させる。 これにより、達成可能なキュービットのクラスタサイズと成功確率を大幅に拡大し、最大441キュービットのクラスタの欠陥のない組立を、数十回の検出サイクルでほぼ均一な充填率で持続的に安定化できることを示した。 提案手法は,Rydberg状態の量子シミュレーション,フォールトトレラントな普遍量子計算,量子センシング,量子気象学に即時適用することで,高度にスケーラブルな量子レジスタの構成可能なジオメトリを容易にし,中性原子量子情報科学の基盤となる。

We report on the realization of a large-scale quantum-processing architecture surpassing the tier of 1000 atomic qubits. By tiling multiple microlens-generated tweezer arrays, each operated by an independent laser source, we can eliminate laser-power limitations in the number of allocatable qubits. Already with two separate arrays, we implement combined 2D configurations with a mean number of 1167(46) single-atom quantum systems. The transfer of atoms between the two arrays is achieved with high efficiency. Thus, supercharging one array designated as quantum processing unit with atoms from the secondary array significantly increases the number of qubits and the initial filling fraction. This drastically enlarges attainable qubit cluster sizes and success probabilities allowing us to demonstrate the defect-free assembly of clusters of up to 441 qubits with persistent stabilization at near-unity filling fraction over tens of detection cycles. The presented method substantiates neutral atom quantum information science by facilitating configurable geometries of highly scalable quantum registers with immediate application in Rydberg-state mediated quantum simulation, fault-tolerant universal quantum computation, quantum sensing, and quantum metrology.
翻訳日:2023-10-17 10:20:29 公開日:2023-10-16
# オブジェクト指向学習における解釈可能な制御性を目指して

Towards Interpretable Controllability in Object-Centric Learning ( http://arxiv.org/abs/2310.08929v2 )

ライセンス: Link先を確認
Jinwoo Kim, Janghyuk Choi, Jaehyun Kang, Changyeon Lee, Ho-Jin Choi, Seon Joo Kim(参考訳) 人工ニューラルネットワークにおける結合問題は,シンボル的実体の観点から世界の理解を通じて人間レベルの認識能力を達成することを目的として,積極的に研究されている。 特にコンピュータビジョンの分野では、オブジェクト中心学習(OCL)は、オブジェクト表現やスロットを取得することで複雑なシーンをよりよく理解するために広く研究されている。 OCLの最近の研究は複雑な画像やビデオで進歩してきたが、オブジェクト表現に対する解釈可能性と相互作用性は、OCLの分野ではまだ約束を保っている。 本稿では,画像拡張戦略を利用して,スロット上での解釈可能な制御性学習の可能性を検討するために,画像拡張によるスロット注意(Slot Attention with Image Aug)を提案する。 また,スロットに対して反復的かつ可逆的な制御を導入することで,制御可能なスロットにおける持続可能性の概念を考案する。 広範な実証研究と理論的検証により,提案手法の有効性を確認し,オブジェクト表現の解釈可能かつ持続可能な制御を可能にする。 コードはもうすぐ入手できる。

The binding problem in artificial neural networks is actively explored with the goal of achieving human-level recognition skills through the comprehension of the world in terms of symbol-like entities. Especially in the field of computer vision, object-centric learning (OCL) is extensively researched to better understand complex scenes by acquiring object representations or slots. While recent studies in OCL have made strides with complex images or videos, the interpretability and interactivity over object representation remain largely uncharted, still holding promise in the field of OCL. In this paper, we introduce a novel method, Slot Attention with Image Augmentation (SlotAug), to explore the possibility of learning interpretable controllability over slots in a self-supervised manner by utilizing an image augmentation strategy. We also devise the concept of sustainability in controllable slots by introducing iterative and reversible controls over slots with two proposed submethods: Auxiliary Identity Manipulation and Slot Consistency Loss. Extensive empirical studies and theoretical validation confirm the effectiveness of our approach, offering a novel capability for interpretable and sustainable control of object representations. Code will be available soon.
翻訳日:2023-10-17 10:20:07 公開日:2023-10-16
# プログラマブルフォトニック集積光学による高次元対称情報完全計測

Higher-dimensional symmetric informationally complete measurement via programmable photonic integrated optics ( http://arxiv.org/abs/2310.08838v2 )

ライセンス: Link先を確認
Lan-Tian Feng, Xiao-Min Hu, Ming Zhang, Yu-Jie Cheng, Chao Zhang, Yu Guo, Yu-Yang Ding, Zhibo Hou, Fang-Wen Sun, Guang-Can Guo, Dao-Xin Dai, Armin Tavakoli, Xi-Feng Ren, and Bi-Heng Liu(参考訳) 対称的情報完全測定は、多くの量子情報プロトコルにおける重要な構成要素であり、一般化された非直交量子測定のセミナル例である。 より高次元のシステムでは、これらの測定はますます興味を持ち、実装が複雑になる。 本稿では、3レベル量子システムにおけるそのような測定を実現するための統合量子フォトニクスプラットフォームを示す。 本装置は、真に多くの量子測定を検証し、最適に近い量子状態判別を行い、量子乱数生成の射影限界を破るのに必要な高忠実度で動作する。 さらにプログラム可能で、他の量子測定も同じように高品質で容易に実装できる。 我々の研究は、従来の直交射影を超える高度な高次元量子計測の実装の道を開いた。

Symmetric informationally complete measurements are both important building blocks in many quantum information protocols and the seminal example of a generalised, non-orthogonal, quantum measurement. In higher-dimensional systems, these measurements become both increasingly interesting and increasingly complex to implement. Here, we demonstrate an integrated quantum photonic platform to realize such a measurement on three-level quantum systems. The device operates at the high fidelities necessary for verifying a genuine many-outcome quantum measurement, performing near-optimal quantum state discrimination, and beating the projective limit in quantum random number generation. Moreover, it is programmable and can readily implement other quantum measurements at similarly high quality. Our work paves the way for the implementation of sophisticated higher-dimensional quantum measurements that go beyond the traditional orthogonal projections.
翻訳日:2023-10-17 10:19:49 公開日:2023-10-16
# 3次元分割のためのSAM誘導非教師付きドメイン適応

SAM-guided Unsupervised Domain Adaptation for 3D Segmentation ( http://arxiv.org/abs/2310.08820v2 )

ライセンス: Link先を確認
Xidong Peng, Runnan Chen, Feng Qiao, Lingdong Kong, Youquan Liu, Tai Wang, Xinge Zhu, Yuexin Ma(参考訳) 3Dセグメンテーションタスクにおける非教師なしドメイン適応(UDA)は、主にポイントクラウドデータの希薄で非秩序な性質から生じる、恐ろしい挑戦である。 特にLiDARの点雲では、様々な撮影シーン、変動する気象条件、使用中の様々なLiDARデバイス間でドメインの差が明らかになる。 従来のUDA手法では、ソースとターゲットのドメイン間の特徴を整列させることで、このギャップを緩和しようと試みてきたが、ドメインのかなりの変動により、3Dセグメンテーションに適用した場合、このアプローチは不十分である。 イメージセグメンテーションの領域において、視覚基盤モデルSAMが示す顕著な一般化能力に着想を得て、SAM内に埋め込まれた豊富な一般知識を活用し、多様な3次元領域にまたがる特徴表現を統一し、さらに3次元領域適応問題を解く。 具体的には,ポイントクラウドに関連する画像を用いて知識伝達を容易にするとともに,3d特徴空間とsam特徴空間のアライメントを著しく向上し,シーンレベルとインスタンスレベルの両方で動作する,革新的なハイブリッド特徴拡張手法を提案する。 本手法は,広く認識されたデータセット上で評価され,最先端の性能を実現する。

Unsupervised domain adaptation (UDA) in 3D segmentation tasks presents a formidable challenge, primarily stemming from the sparse and unordered nature of point cloud data. Especially for LiDAR point clouds, the domain discrepancy becomes obvious across varying capture scenes, fluctuating weather conditions, and the diverse array of LiDAR devices in use. While previous UDA methodologies have often sought to mitigate this gap by aligning features between source and target domains, this approach falls short when applied to 3D segmentation due to the substantial domain variations. Inspired by the remarkable generalization capabilities exhibited by the vision foundation model, SAM, in the realm of image segmentation, our approach leverages the wealth of general knowledge embedded within SAM to unify feature representations across diverse 3D domains and further solves the 3D domain adaptation problem. Specifically, we harness the corresponding images associated with point clouds to facilitate knowledge transfer and propose an innovative hybrid feature augmentation methodology, which significantly enhances the alignment between the 3D feature space and SAM's feature space, operating at both the scene and instance levels. Our method is evaluated on many widely-recognized datasets and achieves state-of-the-art performance.
翻訳日:2023-10-17 10:19:37 公開日:2023-10-16
# 生産性を駆動する選択性: 伝達学習の効率化のための効率的なデータセット抽出

Selectivity Drives Productivity: Efficient Dataset Pruning for Enhanced Transfer Learning ( http://arxiv.org/abs/2310.08782v2 )

ライセンス: Link先を確認
Yihua Zhang, Yimeng Zhang, Aochuan Chen, Jinghan Jia, Jiancheng Liu, Gaowen Liu, Mingyi Hong, Shiyu Chang, Sijia Liu(参考訳) 大規模データは深層学習アプリケーションには不可欠であると考えられがちだが、計算コストやインフラコストも大きい。 そのため,データセット解析(DP)は,冗長なトレーニングサンプルを識別・削除することでデータ効率を向上させる効果的な方法として出現している。 本研究は,移動学習におけるDPの課題,すなわち,下流目標タスクにおける事前学習効率の向上と損失のない微調整精度向上のためのソースデータセットの作成方法に対処することを目的とする。 我々の知る限り、転送学習におけるDPの問題は、従来研究が主にDPと転送学習を個別の問題として取り上げてきたため、まだ未解決のままである。 対照的に,トランスファー学習とdpを統合するための統一的な視点を確立し,既存のdp手法がトランスファー学習パラダイムに適さないことを示す。 次に、ソース・ターゲット領域マッピングのレンズを用いてDP問題を再検討することにより、教師付きおよび自己教師型事前学習設定のためのラベルマッピングと特徴マッピングという2つの新しいDP手法を提案する。 さらに,多くの伝達学習課題に対するアプローチの有効性を実証する。 我々は、下流のパフォーマンスを犠牲にすることなく、ソースデータクラスを最大40%から80%まで刈り取ることができ、事前学習の段階では2倍から5倍のスピードアップを達成できることを示した。 さらに,提案手法は広く適用可能であり,逆行前学習などの計算集約的なトランスファー学習手法を改善することができる。 コードはhttps://github.com/OPTML-Group/DP4TLで公開されている。

Massive data is often considered essential for deep learning applications, but it also incurs significant computational and infrastructural costs. Therefore, dataset pruning (DP) has emerged as an effective way to improve data efficiency by identifying and removing redundant training samples without sacrificing performance. In this work, we aim to address the problem of DP for transfer learning, i.e., how to prune a source dataset for improved pretraining efficiency and lossless finetuning accuracy on downstream target tasks. To our best knowledge, the problem of DP for transfer learning remains open, as previous studies have primarily addressed DP and transfer learning as separate problems. By contrast, we establish a unified viewpoint to integrate DP with transfer learning and find that existing DP methods are not suitable for the transfer learning paradigm. We then propose two new DP methods, label mapping and feature mapping, for supervised and self-supervised pretraining settings respectively, by revisiting the DP problem through the lens of source-target domain mapping. Furthermore, we demonstrate the effectiveness of our approach on numerous transfer learning tasks. We show that source data classes can be pruned by up to 40% ~ 80% without sacrificing downstream performance, resulting in a significant 2 ~ 5 times speed-up during the pretraining stage. Besides, our proposal exhibits broad applicability and can improve other computationally intensive transfer learning techniques, such as adversarial pretraining. Codes are available at https://github.com/OPTML-Group/DP4TL.
翻訳日:2023-10-17 10:19:14 公開日:2023-10-16
# 視覚言語モデルのスケーリングから視覚データ型理解は生まれない

Visual Data-Type Understanding does not emerge from Scaling Vision-Language Models ( http://arxiv.org/abs/2310.08577v2 )

ライセンス: Link先を確認
Vishaal Udandarao, Max F. Burg, Samuel Albanie, Matthias Bethge(参考訳) 近年の視覚言語モデル(VLM)の発展は、構成的イメージ理解の印象的な例を含む視覚意味コンテンツ認識において顕著な成功を収めている。 本稿では,視覚データ型識別,データキュレーション(大規模データセットからのノイズデータ削除,ドメイン固有検索など)と自律視覚(例えば,カメラのレンズ染色と気象条件の変化を区別する)の新たな課題を紹介する。 動物画像からなる2つのデータセットを27種類の視覚的データタイプに分けて開発し,4つのカテゴリにまたがった。 100Mから80Bのパラメータを含む39個のVLMの広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。 VLMは漫画やスケッチなど、ある種のスタイリスティックな \textit{data-types} を特定するのに適しているが、画像の回転や付加的なノイズといった基本的な操作から生じる単純なデータタイプに苦労する。 私たちの発見は (i)モデルスケーリングだけでCLIPのような対照的に訓練されたモデルに対して限界ゲインが得られる。 (ii)openflamingoのような最大の自己回帰訓練vlmの性能低下が顕著である。 この発見は、現在のフロンティアのVLMにおいて盲点であることを示している。セマンティックなコンテンツを認識するのに優れるが、スケーリングを通じて視覚的なデータ型を理解することに失敗する。 これらのモデルの事前学習分布を解析し、微調整中のキャプションにデータ型情報を組み込むことにより、性能を大幅に向上させる。 これまでにない課題を探索することにより,視覚的データ型理解を付加するために,VLMをさらに前進させるステージを設定することを目指している。 コードとデータセットはhttps://github.com/bethgelab/DataTypeIdentificationで公開される。

Recent advances in the development of vision-language models (VLMs) are yielding remarkable success in recognizing visual semantic content, including impressive instances of compositional image understanding. Here, we introduce the novel task of Visual Data-Type Identification, a basic perceptual skill with implications for data curation (e.g., noisy data-removal from large datasets, domain-specific retrieval) and autonomous vision (e.g., distinguishing changing weather conditions from camera lens staining). We develop two datasets consisting of animal images altered across a diverse set of 27 visual data-types, spanning four broad categories. An extensive zero-shot evaluation of 39 VLMs, ranging from 100M to 80B parameters, shows a nuanced performance landscape. While VLMs are reasonably good at identifying certain stylistic \textit{data-types}, such as cartoons and sketches, they struggle with simpler data-types arising from basic manipulations like image rotations or additive noise. Our findings reveal that (i) model scaling alone yields marginal gains for contrastively-trained models like CLIP, and (ii) there is a pronounced drop in performance for the largest auto-regressively trained VLMs like OpenFlamingo. This finding points to a blind spot in current frontier VLMs: they excel in recognizing semantic content but fail to acquire an understanding of visual data-types through scaling. By analyzing the pre-training distributions of these models and incorporating data-type information into the captions during fine-tuning, we achieve a significant enhancement in performance. By exploring this previously uncharted task, we aim to set the stage for further advancing VLMs to equip them with visual data-type understanding. Code and datasets are released at https://github.com/bethgelab/DataTypeIdentification.
翻訳日:2023-10-17 10:18:48 公開日:2023-10-16
# SegLoc: セキュリティ検査X線画像の高密度予測タスクのための視覚的自己教師型学習方式

SegLoc: Novel Visual Self-supervised Learning Scheme for Dense Prediction Tasks of Security Inspection X-ray Images ( http://arxiv.org/abs/2310.08421v2 )

ライセンス: Link先を確認
Shervin Halat, Mohammad Rahmati, Ehsan Nazerfard(参考訳) 近年、人工知能の顕著な進歩は、自己監督学習体系の統合によるものである。 NLPの素晴らしい成果にもかかわらず、コンピュータビジョンにおけるSSLは、比較的軌道に留まることができなかった。 近年,既存のSSLモデル上でのコントラスト学習の統合は,視覚的SSLモデルよりも優れた性能を持つコンピュータビジョンにおいて,かなりの進歩を遂げている。 しかしながら、これらの改善のほとんどは分類タスクに限られており、コンピュータビジョンの現実的なシナリオにおけるSSLモデルの評価に特化している作品はほとんどない。 そこで本研究では,セキュリティ検査x線画像における意味セグメンテーションの密集した予測タスクを検討し,提案するモデルセグメンテーションの局在性を評価する。 モデルインスタンスのローカライゼーションに基づいて、我々のモデルseglocは、対照的な学習、すなわちクエリ埋め込みの偽陰性ペアの最も難しい欠点の1つに対処しました。 そのため、ベースラインモデルであるinslocとは対照的に、プリトレーニングデータセットは、利用可能なラベル付きデータセット、フォアグラウンドからラベル付きデータセット、バックグラウンドのインスタンスにラベル付きセグメントを分割、変換、ペーストすることで合成されます。 PIDrayデータセットとSIXrayデータセットはそれぞれラベル付きデータセットとラベルなしデータセットとみなす。 さらに、メモリバンク内の各クエリに対応する負のペアを抽出するMoCo-v2において、クラス毎に1つのキューというアイデアを実装することで、偽の負のペアを避けることでラベルを完全に活用する。 提案手法はランダム初期化を3%から6%に上回り,教師付き初期化は下方修正した。

Lately, remarkable advancements of artificial intelligence have been attributed to the integration of self-supervised learning scheme. Despite impressive achievements within NLP, yet SSL in computer vision has not been able to stay on track comparatively. Recently, integration of contrastive learning on top of existing SSL models has established considerable progress in computer vision through which visual SSL models have outperformed their supervised counterparts. Nevertheless, most of these improvements were limited to classification tasks, and also, few works have been dedicated to evaluation of SSL models in real-world scenarios of computer vision, while the majority of works are centered around datasets containing class-wise portrait images, most notably, ImageNet. Consequently, in this work, we have considered dense prediction task of semantic segmentation in security inspection x-ray images to evaluate our proposed model Segmentation Localization. Based upon the model Instance Localization, our model SegLoc has managed to address one of the most challenging downsides of contrastive learning, i.e., false negative pairs of query embeddings. In order to do so, in contrast to baseline model InsLoc, our pretraining dataset is synthesized by cropping, transforming, then pasting already labeled segments from an available labeled dataset, foregrounds, onto instances of an unlabeled dataset, backgrounds. In our case, PIDray and SIXray datasets are considered as labeled and unlabeled datasets, respectively. Moreover, we fully harness labels by avoiding false negative pairs through implementing the idea, one queue per class, in MoCo-v2 whereby negative pairs corresponding to each query are extracted from its corresponding queue within the memory bank. Our approach has outperformed random initialization by 3% to 6%, while having underperformed supervised initialization.
翻訳日:2023-10-17 10:17:49 公開日:2023-10-16